JP6910987B2

JP6910987B2 - 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム

Info

Publication number: JP6910987B2
Application number: JP2018109442A
Authority: JP
Inventors: 康二安田; 長　健太; 健太長
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2021-07-28
Anticipated expiration: 2038-06-07
Also published as: CN110580905B; US11600262B2; CN110580905A; US20190378496A1; JP2019211689A

Description

本発明の実施形態は、認識装置、認識システム、端末装置、サーバ装置、方法及びプログラムに関する。

一般に、例えば音声データを認識してテキストに変換する音声認識においては、音響モデル及び言語モデル等を含む認識モデルが用いられる。

このような認識モデルはデータセット（学習データ）に基づいて作成されるが、認識精度の高い認識モデルを作成するために十分なデータ量を有するデータセットを用意することは困難である。

特開２０１６−１８０９１５号公報

そこで、本発明の目的は、認識精度の高い認識モデルを得ることが可能な認識装置、認識システム、端末装置、サーバ装置、方法及びプログラムを提供することにある。

実施形態に係る認識装置は、格納手段と、取得手段と、認識処理手段と、抽出手段と、モデル作成手段とを具備する。前記格納手段は、予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する。前記取得手段は、第２認識対象データ及び当該第２認識対象データから認識されるべき第２正解データを含む第２データセットを取得する。前記認識処理手段は、前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行する。前記抽出手段は、前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する。前記モデル作成手段は、前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成する。

実施形態に係る音声認識装置の機能構成の一例を示すブロック図。音声認識装置のハードウェア構成の一例を示す図。拡張用モデル登録処理の処理手順の一例を示すフローチャート。データベースに格納されているタグの一例について説明するための図。データベースに格納されているタグの一例について説明するための図。関連タグ作成処理の処理手順の一例を示すフローチャート。新規モデル作成処理の処理手順の一例を示すフローチャート。認識精度算出処理について概念的に説明するための図。タグ表示画面の一例を示す図。新規モデル作成処理を概念的に表す図。認識精度算出処理の処理手順の一例を示すフローチャート。確認画面表示処理の処理手順の一例を示すフローチャート。確認画面の一例を示す図。対象データセット登録画面の一例を示す図。確認画面の一例を示す図。音声認識システムの構成の一例を示す図。

以下、図面を参照して、実施形態について説明する。
本実施形態に係る認識装置は、音声認識モデルを用いて音声データを認識し、当該音声データをテキストに変換する処理（音声認識処理）を実行するために用いられる音声認識装置を含む。以下、本実施形態に係る認識装置は音声認識装置であるものとして説明する。

なお、音声認識処理において用いられる音声認識モデルは、音声データの波形から変換された特徴量を入力して当該音声データ中に出現する音素を出力（抽出）するための音響モデルと当該音素を入力してテキスト（文字列）に変換するための言語モデルとを含み、例えばディープニューラルネットワーク等により実現される。

図１は、実施形態に係る音声認識装置の機能構成の一例を示すブロック図である。本実施形態に係る音声認識装置は、上記した音声認識処理を実行する機能に加えて、当該音声認識処理に用いられる音声認識モデルを作成する機能等を有する。

図１に示すように音声認識装置１０は、第１モデル作成部１１、関連タグ作成部１２、取得部１３、認識処理部１４、抽出部１５、第２モデル作成部１６、評価部１７、表示処理部１８及びデータベース（格納部）１９を含む。

第１モデル作成部１１は、予め定められた条件で収集された音声データ（認識対象データ）及び当該音声データから認識されるべきテキスト（正解データ）を含むデータセットに基づいて音声認識モデルを作成する。第１モデル作成部１１によって作成された認識モデルは、データベース１９に登録される。

データベース１９には、第１モデル作成部１１によって作成された音声認識モデル毎に、当該音声認識モデルの作成に用いられたデータセット及び当該データセットに含まれる音声データが収集された条件を表すタグ等が対応づけて格納される。

関連タグ作成部１２は、データベース１９に格納されているタグに関連するタグ（以下、関連タグと表記）を作成する。なお、関連タグは、例えばデータベース１９に格納されているデータセット等を用いて作成される。関連タグ作成部１２によって作成された関連タグは、データベース１９に格納される。

ここで、本実施形態においては、例えば所定の状況で収集される音声データに対して高い認識精度を有する音声認識モデルを作成するものとする。この場合、ユーザは、所定の状況で収集された音声データ及び当該音声データから例えば人手で書き起こされたテキストを含むデータセットを指定する。なお、本実施形態における所定の状況には、音声データが収録される環境、シチュエーション及び音声を発する話者等の概念が含まれるものとする。

上記したようにユーザによってデータセットが指定された場合、取得部１３は、当該データセットを取得する。

認識処理部１４は、データベース１９に格納されている音声認識モデルの各々を用いて取得部１３によって取得されたデータセットに含まれる音声データに対する音声認識処理を実行する。この音声認識処理によれば、音声データから音声を認識し、当該音声がテキストに変換される。

抽出部１５は、認識処理部１４による音声認識処理結果及び取得部１３によって取得されたデータセットに含まれるテキストに基づいて、音声認識処理に用いられた音声認識モデルに対応づけてデータベース１９に格納されているタグの中から有意なタグを抽出する。

第２モデル作成部１６は、抽出部１５によって抽出されたタグに対応づけてデータベース１９に格納されているデータセットを取得する。第２モデル作成部１６は、取得部１３によって取得されたデータセット及び当該第２モデル作成部１６によって取得されたデータセットに基づいて、音声認識モデルを作成する。第２モデル作成部１６によって作成された音声認識モデルは、データベース１９に登録される。

評価部１７は、第２モデル作成部１６によって作成された音声認識モデルの認識精度（評価値）を算出する。

表示処理部１８は、評価部１７によって算出された認識精度をユーザに対して表示する。また、表示処理部１８は、上記した第２モデル作成部１６による音声認識モデルの作成の前に、上記した抽出部１５によって抽出されたタグをユーザに対して表示してもよい。

図１においては音声認識装置１０がデータベース１９を備えるものとして説明したが、データベース１９は当該音声認識装置１０の外部に設けられていても構わない。

図２は、図１に示す音声認識装置１０のハードウェア構成の一例を示す。なお、本実施形態において、音声認識装置１０は例えばパーソナルコンピュータ等の電子機器として実現され得る。

図２に示すように、音声認識装置１０は、ＣＰＵ１０１、システムコントローラ１０２、主メモリ１０３、ＢＩＯＳ−ＲＯＭ１０４、不揮発性メモリ１０５、ディスプレイ１０６、通信デバイス１０７及びエンベデッドコントローラ（ＥＣ）１０８等を備える。

ＣＰＵ１０１は、音声認識装置１０内の様々なコンポーネントの動作を制御するハードウェアプロセッサである。ＣＰＵ１０１は、ストレージデバイスである不揮発性メモリ１０５から主メモリ１０３にロードされる様々なプログラムを実行する。これらプログラムにはオペレーティングシステム（ＯＳ）１０３ａ及び様々なアプリケーションプログラムが含まれている。本実施形態において、ＣＰＵ１０１によって実行されるアプリケーションプログラムには、例えば上記した音声認識モデルを作成する機能及び当該音声認識モデルを用いた音声認識処理を実行する機能等を実現するための音声認識プログラム１０３ｂが含まれる。

なお、上記した図１に示す各部１１〜１８の一部または全ては、ＣＰＵ１０１（つまり、音声認識装置１０のコンピュータ）に音声認識プログラムを実行させること、すなわちソフトウェアによって実現されるものとする。この音声認識プログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて音声認識装置１０にダウンロードされてもよい。なお、これらの各部１１〜１８の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。また、図１に示すデータベース１９は、例えば不揮発性メモリ１０５またはその他の記憶装置を用いて実現され得る。

ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０４に格納された基本入出力システム（ＢＩＯＳ）も実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

システムコントローラ１０２は、ＣＰＵ１０１のローカルバスと各種コンポーネントとの間を接続するデバイスである。

ディスプレイ１０６は、例えばＬＣＤ（Liquid Crystal Display）等の表示装置である。通信デバイス１０７は、有線または無線による通信を実行するように構成されたデバイスである。ＥＣ１０８は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。

なお、図２においては、ＣＰＵ１０１、システムコントローラ１０２、主メモリ１０３、ＢＩＯＳ−ＲＯＭ１０４、不揮発性メモリ１０５、ディスプレイ１０６、通信デバイス１０７及びＥＣ１０８のみが示されているが、音声認識装置１０は、例えばＨＤＤ（Hard Disk Drive）及びＳＳＤ（Solid State Drive）のような他の記憶装置を備えていてもよいし、他の入力装置及び出力装置等を備えていてもよい。

次に、本実施形態に係る音声認識装置１０の動作について説明する。本実施形態においては、例えば所定の状況において収録された音声データに対して認識精度の高い音声認識モデルを新規に作成する処理（以下、新規モデル作成処理と表記）を実行するが、当該新規モデル作成処理においては、後述するようにデータベース１９に予め登録された複数の音声認識モデルが利用される。

このため、音声認識装置１０は、上記した新規モデル作成処理の前に、当該新規モデル作成処理において利用される音声認識モデルをデータベース１９に登録する処理（以下、拡張用モデル登録処理と表記）を実行する。

まず、図３のフローチャートを参照して、拡張用モデル登録処理の処理手順の一例について説明する。拡張用モデル登録処理は、第１モデル作成部１１によって実行される。以下の説明においては、拡張用モデル登録処理においてデータベース１９に登録される音声認識モデルを便宜的に拡張用モデルと称する。

第１モデル作成部１１は、予め用意されているデータセットを取得する（ステップＳ１）。ステップＳ１において取得されるデータセットは、例えば予め定められた条件（実環境下）で収集された音声データ及び当該音声データに基づく音声を例えば人手によって書き起こしたテキストのペア（以下、データペアと表記）を含む。なお、データセットには、複数のデータペアが含まれる。

ここで、音声データが収集された条件には、例えば収録条件及び話者条件等が含まれる。収録条件は、音声データを収録（収集）した環境に関する条件であり、例えば収録場所、屋内／屋外、騒音の有無、音声データを収録したマイクの種類、及び音声データを収録した際に音声を発した人物と音声データを収録したマイクとの距離（以下、収録距離と表記）等を含む。また、話者条件は、音声データを収録した際に音声を発した人物（話者）に関する条件であり、例えば性別及び年齢等を含む。

なお、ステップＳ１において取得されるデータセットに含まれる複数のデータペアの各々における音声データは同一のまたは少なくとも一部が共通する収録条件及び話者条件で収集されたものであり、当該収録条件及び話者条件は判明しているものとする。

第１モデル作成部１１は、ユーザによって指定された収録条件及び話者情報を取得する（ステップＳ２）。なお、本実施形態におけるユーザとは、例えば音声認識装置１０の管理者であってもよいし、後述する新規モデル作成処理によって新規に作成される音声認識モデルを使用する者であってもよい。以下の説明においても同様である。

ここで、認識精度の高い音声認識モデルを作成するためには多数のデータペアが必要であるところ、当該音声データは予め定められた条件で収集されなければならず、十分なデータ量を有するデータセットを用意することは困難である場合が多い。

このため、第１モデル作成部１１は、ステップＳ１において取得されたデータセットのデータ量が認識精度の高い音声認識モデルを作成するために十分であるか否かを判定する（ステップＳ３）。

ステップＳ３においては、例えばステップＳ１において取得されたデータセットに含まれる音声データの合計時間（合計の長さ）が予め定められた値（例えば、１０時間等）以上である場合には、当該データセットのデータ量が十分であると判定される。一方、ステップＳ１において取得されたデータセットに含まれる音声データの合計時間が予め定められた値以上でない場合には、当該データセットのデータ量が十分でないと判定される。

ここでは、データセットに含まれる音声データの合計時間に基づいてデータ用が十分であるか否かが判定されるものとして説明したが、例えばデータセットに含まれるテキストを構成する総文字数（または総単語数）が予め定められた値以上であるか否かに基づいて、当該データセットのデータ量が十分であるか否かが判定されてもよい。

ここで、上記したように予め定められた条件（収録条件及び話者条件）を満たす十分なデータ量を有するデータセットを用意することは困難であったとしても、例えば収録条件は満たさないものの話者条件を満たす音声データについては比較的容易に用意することが可能な場合がある。

このため、ステップＳ３においてデータセットのデータ量が十分でないと判定された場合（ステップＳ３のＮＯ）、第１モデル作成部１１は、例えば予め用意された上記したステップＳ２において取得された話者条件を満たす音声データ及び当該音声データに基づく音声から人手で書き起こされたテキストを含むデータセットを取得する（ステップＳ４）。なお、ステップＳ３において取得されるデータセットに含まれる音声データは、上記した収録条件の影響を受けておらず、残響やノイズ等のないクリアな音声データであるものとする。

第１モデル作成部１１は、上記したステップＳ２において取得された収録条件（ノイズの生成条件）に基づくノイズを、ステップＳ４において取得されたデータセットに含まれる音声データに付与する（ステップＳ５）。これにより、音声認識モデルを作成するためのデータセット（音声データ）を拡張（水増し）することができる。

なお、ステップＳ５において音声データに付与されるノイズには、収録条件で生じると想定される生活音または機械の動作音等が含まれる。また、ステップＳ５においては、予め用意されたシミュレーション等を用いて生成された残響ノイズ等が付与されてもよい。

ステップＳ４においては例えば話者条件を満たす音声データを含むデータセットが取得されるものとして説明したが、ステップＳ２において取得された収録条件及び話者条件で収集された音声データと同様の音声データを得ることが可能であれば、ステップＳ４においては他の条件で収集された音声データが取得されてもよい。また、ステップＳ５においては、ステップＳ３において取得されたデータセット（音声データ）に応じてノイズを付与する以外の他の処理が実行されてもよい。

次に、第１モデル作成部１１は、ステップＳ１において取得されたデータセット及びステップＳ５において音声データにノイズが付されたデータセットに基づいて拡張用モデル（音声認識モデル）を作成する（ステップＳ６）。拡張用モデルは、例えば、ステップＳ１において取得されたデータセット及びステップＳ５において音声データにノイズが付されたデータセットに含まれる音声データ及びテキストのデータペアを順次学習することによって作成される。

第１モデル作成部１１は、ステップＳ２において取得された収録条件及び話者条件に基づいて、音声データが収集された条件を表すタグを作成する（ステップＳ７）。ステップＳ２において取得された収録条件に例えば収録場所がコールセンターであることが含まれている場合、第１モデル作成部１１は、「コールセンター」をタグとして生成する。また、ステップＳ２において取得された話者条件に例えば２０代の女性であることが含まれている場合、第１モデル作成部１１は、「２０代」及び「女性」をタグとして生成する。このようにステップＳ６においては、複数のタグが作成されても構わない。

なお、上記した収録条件に騒音の有無が含まれている場合には「騒音あり」または「騒音なし」のタグを作成可能であるが、当該収録条件に騒音の有無が含まれていない場合であっても、例えばデータセットに含まれる音声データを解析することによって騒音の有無を判定し、当該判定結果に基づいて「騒音あり」または「騒音なし」のタグを作成してもよい。

ステップＳ６において作成された拡張用モデルは、当該拡張用モデルの作成に用いられたデータセット（ステップＳ１において取得されたデータセット及びステップＳ５において音声データにノイズが付与されたデータセット）及びステップＳ７において作成されたタグに対応づけて、データベース１９に登録される（ステップＳ８）。

一方、ステップＳ３においてデータセットのデータ量が十分であると判定された場合（ステップＳ３のＹＥＳ）、ステップＳ４及びＳ５の処理は実行されず、ステップＳ６以降の処理が実行される。この場合のステップＳ６においては、ステップＳ１において取得されたデータセットに基づいて拡張用モデルが生成されればよい。

上記した拡張用モデル登録処理により、拡張用モデルは、データセット及びタグとともにデータベース１９において一元管理される。このようにデータベース１９において管理される拡張用モデルは、後述する新規モデル作成処理において用いられる。

なお、拡張用モデル登録処理は、音声データが収集される条件（つまり、状況）毎に実行される。すなわち、データベース１９には、異なる収録条件及び話者条件によって特定される状況で収集される音声データに対する音声認識に特化した（つまり、当該音声データに対して高い認識精度を有する）音声認識モデルがそれぞれ登録される。

ここで、図４及び図５を参照して、上記した拡張用モデルに対応づけてデータベース１９に格納されているタグの一例について説明する。

図４は、拡張用モデルＡの作成に用いられたデータセットに含まれる音声データが収集された条件（収録条件及び話者条件）を表すタグの一例を示す。図５は、拡張用モデルＢの作成に用いられたデータセットに含まれる音声データが収集された条件（収録条件及び話者条件）を表すタグの一例を示す。

図４に示す例では、拡張用モデルＡに対応づけてタグ「屋外」、「工場」、「騒音あり」、「マイクＡ」、「男性」、「２０代」及び「１ｍ」がデータベース１９に格納されていることが示されている。

これによれば、拡張用モデルＡの作成に用いられたデータセットに含まれる音声データが騒音のある工場の屋外で収録されたことが示されている。また、拡張用モデルＡの作成に用いられたデータセットに含まれる音声データは、２０代の男性が発した音声を、当該男性から１ｍの距離にあるマイクＡを用いて収録したデータであることが示されている。

なお、図４に示すタグのうち「屋外」、「工場」、「騒音あり」、「マイクＡ」及び「１ｍ」は、上記した収録条件から生成されたタグである。また、図４に示すタグのうち「男性」及び「２０代」は、上記した話者条件から生成されたタグである。

一方、図５に示す例では、拡張用モデルＢに対応づけてタグ「屋内」、「コールセンター」、「騒音なし」、「マイクＢ」、「女性」、「２０代」及び「５ｃｍ」がデータベース１９に格納されていることが示されている。

これによれば、拡張用モデルＢの作成に用いられたデータセットに含まれる音声データが騒音のないコールセンターの屋内で収録されたことが示されている。また、拡張用モデルＢの作成に用いられたデータセットに含まれる音声データが２０代の女性が発した音声を、当該女性から５ｃｍの距離にあるマイクＢを用いて収録したデータであることが示されている。

なお、図５に示すタグのうち「屋内」、「コールセンター」、「騒音なし」、「マイクＢ」及び「５ｃｍ」は、上記した収録条件から生成されたタグである。また、図５に示すタグのうち「女性」及び「２０代」は、上記した話者条件から生成されたタグである。

ここでは、拡張用モデルＡ及び拡張用モデルＢの各々に対応づけてデータベース１９に格納されているタグについて説明したが、データベース１９には、他の条件で収集された音声データを含むデータセットを用いて作成された他の拡張用モデルについても同様にタグが格納されている。

ここで、上記した図４及び図５において説明したタグは例えばテキスト（文字情報）としてデータベース１９に格納されているが、当該タグは、テキスト以外であってもよい。具体的には、例えば拡張用モデルＡの作成に用いられたデータセットに含まれる音声データの特徴量をＤｅｅｐ−ａｕｔｏＥｎｃｏｄｅｒ（ＤＡＥ）を用いて抽出することによって、当該特徴量のキー値（ｋｅｙ−ｖａｌｕｅ）を特徴ベクトルとして扱うことができる。この場合、この特徴ベクトルをタグとして利用しても構わない。このように、本実施形態におけるタグは、上記したユーザによって指定された収録条件及び話者条件等に基づくものだけではなく、例えば音声データ等から機械的に抽出された値（数値またはベクトル等）であってもよい。

上記したようにデータベース１９には、拡張用モデル、当該拡張用モデルの作成に用いられたデータセット及び当該データセットに含まれる音声データが収集された条件を表すタグが拡張用モデル毎に格納されるが、以下の説明においては、当該拡張用モデルに対応づけてデータベース１９に格納されているデータセット及びタグについては便宜的に拡張用モデルのデータセット及び拡張用モデルのタグと称する。

次に、図６のフローチャートを参照して、関連タグ作成処理の処理手順の一例について説明する。関連タグ作成処理は、上記した拡張用モデル登録処理と同様に新規モデル作成処理の前に実行される処理であって、拡張用モデル登録処理においてデータベース１９に登録されたタグに関連する関連タグを作成する処理である。なお、関連タグ作成処理は、関連タグ作成部１２によって実行される。

関連タグ作成処理は、データベース１９に格納されている拡張用モデル（拡張用モデルのデータセット）毎に実行される。以下、関連タグ作成処理の対象となる拡張用モデルを対象拡張用モデルと称する。

まず、関連タグ作成部１２は、対象拡張用モデルのデータセットに含まれるテキスト（以下、対象テキストと表記）をデータベース１９から取得する（ステップＳ１１）。

次に、関連タグ作成部１２は、ステップＳ１１において取得された対象テキストを解析することによって、当該対象テキストからキーワードを抽出する（ステップＳ１２）。なお、ステップＳ１２において抽出されるキーワードは、対象テキストにおいて出現頻度の高い単語等を含む。また、キーワードは、例えば対象拡張用モデルのタグであってもよい。

関連タグ作成部１２は、ステップＳ１２において抽出されたキーワードを用いて関連テキストを取得する（ステップＳ１３）。関連テキストは、例えばＷｅｂサイト等から取得される（つまり、クローリングによって取得される）テキストであってもよいし、音声認識装置１０内に予め格納されているテキストであってもよい。ステップＳ１３においては、複数の関連テキストが取得される。

関連タグ作成部１２は、ステップＳ１３において取得された複数の関連テキストに対してテキスト処理を実行する（ステップＳ１４）。このテキスト処理には、例えばクラスタリング処理またはトピック分類（分析）処理等が含まれる。クラスタリング処理は、複数の関連テキストを複数のクラスタに分類する処理である。トピック分類処理は、複数の関連テキストから主題（トピック）を抽出する処理である。

関連タグ作成部１２は、ステップＳ１４におけるテキスト処理の結果に基づいて関連タグを作成する（ステップＳ１５）。上記したテキスト処理としてクラスタリング処理が実行されている場合、関連タグ作成部１２は、各クラスタ（当該クラスタに分類された関連テキスト）の特徴を表す単語等を関連タグとして作成することができる。また、テキスト処理としてトピック分類処理が実行されている場合、関連タグ作成部１２は、当該トピック分類処理によって抽出された主題を表す単語等を関連タグとして作成することができる。

ステップＳ１５の処理が実行されると、関連タグ作成部１２は、当該ステップＳ１５において作成された関連タグをデータベース１９に登録する（ステップＳ１６）。関連タグは、対象拡張用モデルまたは当該対象拡張用モデルのタグに関連づけて格納される。

上記した関連タグ作成処理によれば、対象拡張用モデルまたは当該対象拡張用モデルのタグに関連する関連タグを自動的に作成及び登録することができる。データベース１９に登録された関連タグは、後述する新規モデル作成処理において用いられる。

次に、図７のフローチャートを参照して、上記した新規モデル作成処理の処理手順の一例について説明する。

新規モデル作成処理は、例えばユーザが用意したデータセット（所定の状況で収集された音声データ及び当該音声データから人手で書き起こされたテキストのペア）に基づいて、当該状況（条件）で収集される音声データに対して高い認識精度を有する新規な音声認識モデル（以下、新規モデルと表記）を作成するための処理である。

まず、取得部１３は、上記したユーザが用意したデータセット（以下、対象データセット表記）を取得する（ステップＳ２１）。

次に、認識精度算出処理が実行される（ステップＳ２２）。この認識精度算出処理は、対象データセットに対するデータベース１９に格納されている拡張用モデル毎の認識精度を算出するための処理である。

ここで、図８を参照して、ステップＳ２２において実行される認識精度算出処理について概念的に説明する。

図８に示すように、認識精度算出処理においては、対象データセットに含まれる音声データの各々に対する拡張用モデルを用いた音声認識処理が、データベース１９に格納されている拡張用モデル毎に認識処理部１４によって実行される。

認識精度算出処理においては、認識処理部１４による音声認識処理結果に基づいて各拡張用モデルの認識精度が算出される。

図８に示す例では、拡張用モデルＡの認識精度としては６０％、拡張用モデルＢの精度としては８２％、拡張用モデルＣの認識精度としては７８％、拡張用モデルＤの認識精度としては８０％、拡張用モデルＥの認識精度としては７２％が算出されている。なお、図８には拡張用モデルＡ〜Ｅの認識精度について示されているが、他の拡張用モデルの認識精度についても同様に算出される。

ここでは、認識精度算出処理について概念的に説明したが、当該認識精度算出処理の詳細については後述する。

再び図７に戻ると、抽出部１５は、ステップＳ２２において算出された拡張用モデル毎の認識精度に基づいて、データベース１９に格納されている各拡張用モデルのタグの中から有意なタグを抽出する（ステップＳ２３）。なお、ステップＳ２３において抽出されるタグは複数であってもよい。

ここで、ステップＳ２３の処理について説明する。ステップＳ２３において、抽出部１５は、ステップＳ２２において算出された拡張用モデル毎の認識精度を、当該拡張用モデルのタグの精度とする。

例えば上記した図４に示すように拡張用モデルＡのタグが「屋外」、「工場」、「騒音あり」、「マイクＡ」、「男性」、「２０代」及び「１ｍ」であり、図８に示すように当該拡張用モデルＡの認識精度が６０％であるものとすると、当該拡張用モデルＡのタグの各々の精度を６０％とする。

また、図４に示すように拡張用モデルＢのタグが「屋内」、「コールセンター」、「騒音なし」、「マイクＢ」、「女性」、「２０代」及び「５ｃｍ」であり、図８に示すように当該拡張用モデルＢの認識精度が８２％であるものとすると、当該拡張用モデルＢのタグの各々の精度を８２％とする。

ここでは拡張用モデルＡ及び拡張用モデルＢのタグについて説明したが、他の拡張用モデルのタグについても同様である。

なお、例えば拡張用モデルＡ及び拡張用モデルＢのタグ「２０代」のように、同一のタグが異なる複数の拡張用モデルに対応づけられている場合があるが、この場合には、例えば各拡張用モデルの認識精度の分布により決定される平均値または中央値といった代表値を当該タグの精度とする。また、同一のタグに対応づけられている複数の拡張用モデルの認識精度のうちの高い方を当該タグの精度としてもよい。

次に、抽出部１５は、全てのタグの精度（拡張用モデルの認識精度）を用いてｔ検定を行うことにより、当該タグの中から有意なタグを抽出する。このｔ検定によれば、各タグについてｔ値と称される検定統計量が算出され、当該ｔ値はｐ値に変換される。このｐ値が例えば０．０５以下である場合、当該ｐ値に変換されたｔ値は十分に大きい値であるものとみなすことができ、抽出部１５は、当該ｔ値が算出されたタグを有意なタグとして抽出することができる。本実施形態において有意なタグとは、精度（正解率）が有意に高いタグを意味する。

なお、有意なタグを抽出するためにｐ値と比較する閾値は０．０５であるものとして説明したが、当該閾値は例えば０．１等であっても構わない。

また、ここでは全てのタグの精度を用いてｔ検定を行うものとして説明したが、例えば予め定められた値以上のタグの精度を用いてｔ検定を行うようにしてもよい。

更に、本実施形態においてはｔ検定を行うものとして説明したが、有意なタグを抽出することが可能であれば、当該有意なタグを抽出するために用いられる統計量を算出する他の手法が用いられてもよい。また、例えば精度が予め定められた値以上のタグを有意なタグとして抽出するような構成としても構わない。

次に、表示処理部１８は、ステップＳ２３において抽出したタグを表示する（ステップＳ２４）。なお、ステップＳ２３において抽出されたタグは、音声認識装置１０に備えられるディスプレイ１０６に表示されてもよいし、当該音声認識装置１０の外部に設けられた別の表示装置等に表示されてもよい。

ここで、図９は、ステップＳ２３において抽出されたタグが表示された際の表示画面（以下、タグ表示画面と表記）の一例を示す。

図９に示すタグ表示画面２００には、上記したステップＳ２４において抽出されたタグが「有意なタグ一覧」として表示される。図９においては、有意なタグとしてタグ「マイクＢ」、「女性」、「屋内」及び「２０代」が表示された例が示されている。

ここで、タグ表示画面２００に表示されたタグには、それぞれ対応するチェックボックス２０１が設けられている。ユーザは、例えば音声認識装置１０を操作してタグ表示画面２００上のチェックボックス２０１を指定することによって、タグ表示画面２００に表示されたタグの中から当該チェックボックス２０１に対応するタグを指定（選択）することができる。

なお、タグ表示画面２００においては例えば対象データセットに含まれる音声データが収集された条件を表すようなタグが選択されることが好ましいが、各タグの精度は対象データセットに対する拡張用モデル（音声認識モデル）の認識精度に基づくものであるから、当該認識精度の高い拡張用モデルのタグは、対象データセットに含まれる音声データが収集された条件に近い条件を表すタグである可能性が高い。このため、タグ表示画面２００においては、タグを選択する際のユーザの負担を軽減するために、例えば精度が高い順に（つまり、降順で）タグが表示されるものとする。

また、タグ表示画面２００には、「検索に追加するタグ」欄２０２が設けられている。ユーザは、音声認識装置１０を操作することによって、欄２０２に対象データセットに含まれる音声データが収集された条件を表すようなタグを入力（追加）することができる。

図９においては省略されているが、タグ表示画面２００には、例えば「有意なタグ一覧」として表示されているタグに関連する関連タグ（または当該タグに対応づけてデータベース１９に格納されている拡張用モデルに関連する関連タグ）が更に表示されていてもよい。この関連タグは、上記した図６に示す関連タグ作成処理において作成されたタグであり、データベース１９から取得可能である。この場合、ユーザは、上記した「有意なタグ一覧」として表示されているタグと同様に、タグ表示画面２００に表示された関連タグの中から所望の関連タグを選択することができる。

上記したようにタグ表示画面２００においてはユーザが所望のタグを選択または入力することが可能であるが、当該タグは、１つであってもよいし、複数であってもよい。

また、タグ表示画面２００には、例えば「新規モデルを作成する」と表記されたボタン２０３が設けられている。上記したタグの選択または入力が完了した場合、ユーザは、このボタン２０３を押下する操作を行うことによって、新規モデルの作成を指示する。

なお、ユーザによるタグの選択を支援するために、タグ表示画面２００には、当該タグの確信度等が更に表示されていてもよい。各タグの確信度は、全てのタグの精度（ｔ値）の分布の中心位置からの当該タグの精度の位置（距離）等に基づいて算出される値であってもよい。また、タグ表示画面２００には、図７に示すステップＳ１において取得された対象データセットに含まれる音声データ及びテキスト（のファイル名）等の他の情報が更に表示されていても構わない。

以下の説明においては、タグ表示画面２００においてユーザによって選択または入力されたタグを便宜的に指定タグと称する。

再び図７に戻ると、第２モデル作成部１６は、ユーザの操作に応じて指定タグ（の情報）を取得し、当該指定タグに基づいて拡張データセットを取得する（ステップＳ２５）。ステップＳ２５においては、指定タグに対応づけてデータベース１９に格納されている拡張用モデルのデータセット（つまり、指定タグによって表される条件で収集された音声データを含むデータセット）が拡張データセットとして取得される。

なお、上記したタグ表示画面２００において複数のタグが選択または入力されている場合は、当該複数のタグ（指定タグ）の全てに対応づけられている拡張用モデルのデータセットが取得されるものとする。

例えば図９に示すように、タグ表示画面２００において、タグ「マイクＢ」、「女性」及び「２０代」が選択された場合を想定する。ここで、図５を参照すると、拡張用モデルＢのタグには、タグ「マイクＢ」、「女性」及び「２０代」の全てが含まれる。このため、ステップＳ２５においては、拡張用モデルＢのデータセットが取得される。一方、図４に示す拡張用モデルＡのタグには、タグ「２０代」は含まれるものの、タグ「マイクＡ」及び「女性」は含まれない。このため、ステップＳ２５においては、拡張用モデルＡのデータセットは取得されない。

次に、第２モデル作成部１６は、ステップＳ２１において取得された対象データセット及びステップＳ２５において取得された拡張データセットのデータ量が認識精度の高い音声認識モデルを作成するために十分であるか否かを判定する（ステップＳ２６）。なお、このステップＳ２６の処理は上記した図３に示すステップＳ３の処理と同様であるため、ここではその詳しい説明を省略する。

対象データセット及び拡張データセットのデータ量が十分でないと判定された場合（ステップＳ２６のＮＯ）、第２モデル作成部１６は、拡張データセットとして追加するデータセット（以下、追加データセット表記）を生成する（ステップＳ２７）。

ここで、ステップＳ２７の処理について説明する。ステップＳ２７において、第２モデル作成部１６は、クローリングによってＷｅｂサイト等から関連テキストを取得する。なお、ここで取得される関連テキストは、例えば指定タグを含むテキストであってもよいし、データベース１９に格納されている当該指定タグに関連する関連タグを含むテキストであってもよい。

第２モデル作成部１６は、取得された関連テキストを音声化（音声合成処理）することによって、当該テキストを読み上げる音声データ（合成音声データ）を生成する。なお、この音声データは、テキストを構成する各文字に対応する音素を組み合わせることによって生成される。また、ここで生成される音声データは、対象データセットに含まれる音声データが収集された条件（収録条件及び話者条件）で収録されたような音声データとなるように更に加工されても構わない。具体的には、音声データには、例えば指定タグによって表される条件で生じると想定されるノイズ等が付与されてもよい。

第２モデル作成部１６は、生成された音声データ及び当該音声データを生成するために用いられた関連テキストを含む追加データセットを生成する。

第２モデル作成部１６は、ステップＳ２１において取得された対象データセット、ステップＳ２５において取得された拡張データセット及びステップＳ２７において生成された追加データセットに基づいて新規モデル（音声認識モデル）を作成する（ステップＳ２８）。なお、ステップＳ２８の処理は上記した図３に示すステップＳ５の処理と同様の処理であるため、ここではその詳しい説明を省略する。

第２モデル作成部１６は、ステップＳ２８において作成された新規モデルをデータベース１９に登録する（ステップＳ２９）。なお、新規モデルは、例えば指定タグ及び当該新規モデルの作成に用いられたデータセット（対象データセット、拡張データセット及び追加データセット）に対応づけてデータベース１９に登録される。

なお、ステップＳ２６において対象データセット及び拡張データセットのデータ量が十分であると判定された場合（ステップＳ２６のＮＯ）、ステップＳ２７の処理は実行されない。この場合、ステップＳ２８においては、対象データセット及び拡張データセットに基づいて新規モデルが作成されればよい。

ここで、図１０は、上記した新規モデル作成処理を概念的に表す図である。図１０においては、対象データセットに基づいて新規モデルＦを作成する場合について説明する。

この場合において、上記したタグ表示画面２００においてタグ「マイクＢ」、「女性」及び「２０代」がユーザによって選択された場合を想定する。

この場合には、対象データセットに加えて、タグ「マイクＢ」、「女性」及び「２０代」に対応づけてデータベース１９に格納されている拡張用モデルＢのデータセット（当該拡張用モデルＢの作成に用いられたデータセット）を拡張データセットとして用いて新規モデルＦを作成することができる。なお、この新規モデルＦは、ユーザが選択したタグ「マイクＢ」、「女性」及び「２０代」に対応づけてデータベース１９に登録される。

すなわち、上記したように新規モデル作成処理においては、例えばユーザが用意したデータセット（対象データセット）のデータ量が不足しているような場合であっても、当該データセットに含まれる音声データが収集された条件に近い条件で収集されたと想定される音声データを含むデータセット（拡張データセット）で補うことにより、認識精度の高い新規モデルを作成することが可能となる。

新規モデル作成処理において作成された新規モデルは、別途入力される音声データに対する音声認識処理に用いられるとともに、例えば別のデータセット（対象データセット）から新規モデルを作成する際の拡張用モデルとしても利用することができる。

なお、図７においてはステップＳ２７の処理が実行された後にステップＳ２８の処理が実行されるものとして説明したが、当該ステップＳ２７の処理が実行された後に、ステップＳ２６の処理が再度実行されるようにしても構わない。これによれば、認識精度の高い新規モデルの作成に必要なデータ量を確実に確保することが可能となる。

また、図７においてはステップＳ２６及びＳ２７の処理が実行されるものとして説明したが、本実施形態においては、上記したように対象データセットに加えて拡張データセットを用いて新規モデルが作成されるのであれば、少なくとも対象データセットのみを用いて新規モデルが作成される場合と比較して認識精度の高い音声認識モデルを作成することが可能である。このため、新規モデル作成処理においては、ステップＳ２６及びＳ２７の処理が実行されない構成としても構わない。

次に、図１１のフローチャートを参照して、上記した認識精度算出処理（図７に示すステップＳ２２の処理）の処理手順の一例について説明する。なお、認識精度算出処理は上記した図７に示すステップＳ２１の処理の後に実行されるが、当該ステップＳ２１において取得された対象データセットには、複数のデータペア（音声データ及びテキストのペア）が含まれているものとする。

認識精度算出処理においては、データベース１９に格納されている拡張用モデルの各々について以下のステップＳ３１〜Ｓ３５の処理が実行される。以下の説明においては、ステップＳ３１〜Ｓ３４の処理の対象となる拡張用モデルを対象拡張用モデルと称する。

この場合、認識処理部１４は、上記した対象データセットに含まれる複数のデータペアのうちの１つをデータベース１９から取得する（ステップＳ３１）。ステップＳ３１において取得されたデータペアを便宜的に対象データペアと称する。

次に、認識処理部１４は、対象拡張用モデルを用いて、対象データペアに含まれる音声データに対する音声認識処理を実行する（ステップＳ３２）。

この音声認識処理においては、例えば対象データペアに含まれる音声データの波形から変換された特徴量が対象拡張用モデル（音声認識モデル）を構成する音響モデルに入力され、当該音声データ中に出現する音素が当該音響モデルから出力される。また、音響モデルから出力された音素は、対象拡張用モデルを構成する言語モデルに入力され、テキストに変換される。これにより、認識処理部１４は、音声認識処理の結果として音声データから変換されたテキストを取得することができる。

ここで、対象データセットに含まれる全てのデータペア（音声データ）について音声認識処理が実行されたか否かが判定される（ステップＳ３３）。

全てのデータペアについて音声認識処理が実行されていないと判定された場合（ステップＳ３３のＮＯ）、ステップＳ３１に戻って処理が繰り返される。この場合のステップＳ３１においては、音声認識処理が実行されていないデータペアが取得される。

一方、全てのデータペアについて音声認識処理が実行されたと判定された場合（ステップＳ３３のＹＥＳ）、抽出部１５は、ステップＳ３２における音声認識処理の結果（以下、認識結果テキストと表記）と当該音声認識処理が実行された音声データを含むデータペアに含まれるテキスト（以下、正解テキストと表記）とを比較することによって、対象拡張用モデルの認識精度を算出する（ステップＳ３４）。

ここで、ステップＳ３４の処理が実行される時点では、ステップＳ３２の処理が繰り返し実行されることによって、対象データセットに含まれるデータペア毎に認識結果テキストが取得されている。この場合、抽出部１５は、例えばデータペア毎に認識結果テキスト及び正解テキストが一致するか否かを判定する。これによれば、抽出部１５は、対象データセットに含まれる全てのデータペアの数に対する、認識結果テキスト及び正解テキストが一致すると判定されたデータペアの数の割合を、対象拡張用モデルの認識精度として算出することができる。

なお、対象拡張用モデルの認識精度は、例えば全てのデータペアに含まれるテキスト（正解テキスト）を構成する文字または単語の数に対する、認識結果テキスト及び正解テキスト間で一致した文字または単語の数の割合等として算出されてもよい。

次に、データベース１９に格納されている全ての拡張用モデルについてステップＳ３１〜Ｓ３４の処理が実行されたか否かが判定される（ステップＳ３５）。

全ての拡張用モデルについて処理が実行されていないと判定された場合（ステップＳ３５のＮＯ）、上記したステップＳ３１に戻って処理が繰り返される。この場合、ステップＳ３１〜Ｓ３４の処理が実行されていない拡張用モデルを対象拡張用モデルとして処理が実行される。

一方、全ての拡張用モデルについて処理が実行されたと判定された場合（ステップＳ３５のＹＥＳ）、認識精度算出処理は終了される。

上記した認識精度算出処理によれば、データベース１９に格納されている拡張用モデル毎に認識精度が算出される。認識精度算出処理が実行された後は、上記した図７に示すステップＳ２３以降の処理が実行される。

ここで、上記した図７に示す新規モデル作成処理においては、ステップＳ２８において作成された新規モデルがステップＳ２９においてデータベース１９に登録されるものとして説明したが、当該ステップＳ２９の処理が実行される前に、当該新規モデルの登録の可否をユーザに対して確認する確認画面が表示されても構わない。

以下、図１２のフローチャートを参照して、確認画面を表示する際の処理（以下、確認画面表示処理と表記）の処理手順の一例について説明する。

まず、図７に示すステップＳ２８の処理が実行された場合、例えば第２モデル作成部１６は、図７に示すステップＳ２１において取得された対象データセットに基づいて音声認識モデル（以下、評価用モデルと表記）を作成する（ステップＳ４１）。なお、この評価用モデルを作成する処理は前述した図３に示すステップＳ５の処理等と同様の処理であるため、ここではその詳しい説明を省略する。

評価部１７は、ステップＳ４１において作成された評価用モデルの認識精度を算出する（ステップＳ４２）。なお、このステップＳ４２の処理は、図１１において説明した拡張用モデルを評価用モデルとした点以外は当該図１１に示すステップＳ３１〜Ｓ３４の処理と同様であるため、ここではその詳しい説明を省略する。

次に、評価部１７は、新規モデルの認識精度（評価値）を算出する（ステップＳ４３）。なお、このステップＳ４３の処理は、図１１において説明した拡張用モデルを新規モデルとした点以外は当該図１１に示すステップＳ３１〜Ｓ３４の処理と同様であるため、ここではその詳しい説明を省略する。

表示処理部１８は、ステップＳ４２において算出された評価用モデルの認識精度及びステップＳ４３において算出された新規モデルの認識精度を含む確認画面を表示する（ステップＳ４４）。

ここで、図１３は、ステップＳ４４において表示される確認画面の一例を示す。図１３に示す確認画面３００には、上記した図９に示すタグ表示画面２００と同様に、図７に示すステップＳ２４において抽出されたタグが「有意なタグ一覧」として表示されている。なお、上記したタグ表示画面２００においてユーザによって選択されたタグは、当該タグに対応するチェックボックス３０１で示されている。

また、確認画面３００には、上記した評価用モデルの認識精度及び新規モデルの認識精度が対比可能な態様で表示されている。図１３に示す例では、「認識精度７２％→８７％」が表示されている。

この「認識精度７２％→８７％」の表示は、評価用モデル（つまり、対象データセットのみを用いて作成された音声認識モデル）の認識精度が７２％であったのに対し、新規モデル（つまり、対象データセット及び拡張データセットを用いて作成された音声認識モデル）の認識精度が８７％であることを示している。

これによれば、ユーザは、評価用モデルに対して新規モデルの認識精度が向上していることを確認し、確認画面３００に設けられている「新規モデルを採用」と表記されたボタン３０２を押下することができる。このボタン３０２は、新規モデルをデータベース１９に登録することを許可（指示）するためのボタンである。ユーザによってボタン３０２が押下（指定）された場合には、上記した図７に示すステップＳ２９の処理が実行され、新規モデルがデータベース１９に登録される。

なお、確認画面３００には、「モデルに追加するタグ」欄３０３が設けされている。ユーザは、音声認識装置１０を操作することによって、この欄３０３に新規モデルに対応づけてデータベース１９に登録されるタグを入力（追加）することができる。

具体的には、上記したように図７に示すステップＳ２９において、新規モデル（音声認識モデル）は指定タグに対応づけてデータベース１９に登録されるが、欄３０３にタグが入力されて上記したボタン３０２が押下された場合、新規モデルは、指定タグ及び当該欄３０３に入力されたタグに対応づけてデータベース１９に登録される。すなわち、ユーザは、例えば当該ユーザが認識している対象データセットに含まれる音声データが収集された条件（収録条件及び話者条件）を表すタグを欄３０３に入力することによって、ユーザが意図するタグを新規モデルのタグとして追加することができる。

なお、上記した評価用モデルに対する新規モデルの認識精度によっては、ユーザが新規モデルをデータベース１９に登録しないという判断をすることもあり得る。この場合、図１３には示されていないが、例えば指定タグを変更して、新規モデルを再度作成することを指示することが可能なようにしてもよい。この場合、変更された指定タグを用いて、図７に示すステップＳ２５以降の処理が再度実行されればよい。これによれば、より認識精度の高い新規モデルを作成することができる可能性がある。

上記したように確認画面表示処理においては、評価用モデルに対する新規モデルの認識精度を確認して当該新規作成モデルの登録を指示させる確認画面をユーザに対して表示することが可能となる。このような確認画面を表示する構成によれば、ユーザの意図しない新規モデルが登録されることを抑制することができる。

図１３に示す例では評価用モデルの認識精度が表示されるものとして説明したが、確認画面３００には少なくとも新規モデルの認識精度が表示されればよい。評価用モデルの認識精度を表示しない場合には、図１２に示すステップＳ４１及びＳ４２の処理は省略されてもよい。

なお、本実施形態においては、上記したタグ表示画面２００においてユーザにタグを選択させるものとして説明したが、例えば当該タグ表示画面２００を表示する（つまり、ユーザにタグを選択させる）ことなく、自動的に新規モデルが作成されるようにしても構わない。

以下、上記したように自動的に新規モデルが作成される際の音声認識装置１０の動作の一例について説明する。

新規モデルが作成される場合、例えば図１４に示す対象データセット登録画面４００が表示される。

この対象データセット登録画面４００には、対象データセット指定欄４０１及び登録ボタン４０２が設けられている。

ユーザは、対象データセット指定欄４０１において、ユーザが用意したデータセット（対象データセット）を含むファイルを指定することができる。対象データセット指定欄４０１においてファイルが指定された後に、登録ボタン４０２が押下されると、新規モデルを作成する処理が開始される。この場合、例えば図７に示すステップＳ２１〜Ｓ２３の処理が実行される。

なお、図１４に示す対象データセット登録画面４００は、図７に示す新規モデル作成処理においてステップＳ２１の処理が実行される際に表示されてもよい。

ここで、上記した図７に示す新規モデル作成処理においてはステップＳ２３において抽出された有意なタグがステップＳ２４において表示されるものとして説明したが、新規モデルが自動的に作成される場合には、ステップＳ２４の処理が実行される代わりに、ステップＳ２３において抽出された有意なタグの中からステップＳ２５の処理において用いられるタグが自動的に選択されるものとする。この場合、例えばステップＳ２３において抽出された有意なタグの全てが選択されてもよいし、当該有意なタグのうち精度の高い予め定められた数のタグが選択されてもよい。

以下、自動的に選択されたタグを用いてステップＳ２４〜Ｓ２９の処理が実行される。本実施形態において、音声認識装置１０は、上記したようにユーザにタグを選択させることなく自動的に新規モデルを作成するように動作しても構わない。

なお、自動的に新規モデルを作成する場合であっても、ステップＳ２９の処理が実行される前に図１２に示す確認画面表示処理が実行されることによって、確認画面が表示されても構わない。

確認画面表示処理が実行された場合、音声認識装置１０の表示画面は、上記した図１４に示す対象データセット登録画面４００から例えば図１５に示す確認画面５００に遷移する。

図１５に示すように、確認画面５００には、上記したように自動的に選択されたタグ５０１が表示されるとともに、図１３に示す確認画面３００と同様に評価用モデルに対する新規モデルの認識精度が表示される。

また、確認画面５００には、確認画面３００に設けられているボタン３０２に相当するボタン５０２が設けられている。ユーザは、このボタン５０２を押下することによって、自動的に作成された新規モデルをデータベース１９に登録することができる。

上記したように本実施形態においては、対象データセット（第２データセット）を取得し、データベース１９に格納されている拡張用モデル（第１認識モデル）の各々を用いて当該対象データセットに含まれる音声データ（第２認識対象データ）に対する音声認識処理を実行する。また、本実施形態においては、音声認識処理結果及び対象データセットに含まれるテキスト（第２正解データ）に基づいて音声認識処理に用いられた拡張用モデルに対応づけてデータベース１９に格納されているタグの中から有意なタグを抽出し、当該抽出されたタグに対応づけて格納手段に格納されているデータセット（第１データセット）を拡張データセットとして取得する。本実施形態においては、対象データセット及び拡張データセットに基づいて新規モデル（第２認識モデル）を作成する。

本実施形態においては、このような構成により、例えば音声データが収集された条件（収録条件及び話者条件）が判明しておらず、かつ、データ量が十分ではない対象データセットから新規モデルを作成するような場合であっても、認識精度の高い音声認識モデルを作成するための十分なデータ量を確保することができるため、認識精度の高い新規モデルを作成することが可能となる。

すなわち、本実施形態においては、上記したように作成された新規モデルを用いて音声データをテキストに変換することによって、精度の高い音声認識を実現することが可能となる。

なお、上記したように作成された新規モデルは拡張用モデルとしても利用可能であり、例えばユーザが明示的にデータを増加させることなく、新たに作成される音声認識モデル（新規モデル）の認識精度を向上させることが可能となる。

また、本実施形態においては、拡張用モデルを用いた対象データセットに含まれる音声データに対する認識処理結果及び当該対象データセットに含まれるテキストを比較することによって当該拡張用モデルの認識精度を算出し、当該算出された拡張用モデルの認識精度（タグの精度）を用いてｔ検定を行うことによって、当該拡張用モデルに対応づけてデータベース１９に格納されているタグの中から認識精度が有意に高いタグを抽出する。本実施形態においては、このような構成により、対象データセットに含まれる音声データが収集された条件（収録条件及び話者条件）を表すと想定されるタグを抽出して対象データセットを拡張する（つまり、拡張データセットを取得する）ことにより、認識精度の高い新規モデルを作成することが可能となる。

また、本実施形態においては、抽出されたタグが表示され、当該表示されたタグのうちユーザによって指定されたタグに対応づけてデータベース１９に格納されているデータセットを拡張データセットとして取得する構成により、ユーザの意図する拡張データセットを用いて新規モデルを作成することが可能となる。

また、本実施形態においては、抽出されたタグに関連するタグを更に表示することによって、よりユーザの意図する拡張データセットを用いることが可能となる。

また、本実施形態においては、作成された新規モデルを用いて対象データセットに含まれる音声データに対する音声認識処理を実行し、当該音声認識処理結果及び対象データセットに含まれるテキストを比較することによって新規モデルの認識精度を算出し、当該算出された新規モデルの認識精度を表示する。本実施形態においては、このような構成により、ユーザは新規モデルの認識精度を確認した上で当該新規モデルの登録の可否を判断（指示）することが可能となる。

ここでは、新規モデルの認識精度が表示されるものとして説明したが、例えば対象データセットに基づいて作成された評価用モデルの認識精度を算出し、新規モデルの認識精度と当該評価用モデルの認識精度とを比較可能な態様で表示するような構成であってもよい。このような構成によれば、ユーザは、上記した拡張データセットを用いて新規モデルが作成されることによる認識精度の向上を容易に把握することが可能となる。

また、本実施形態においては、対象データセット及び拡張データセットのデータ量が十分でないと判定された場合に当該対象データセットに基づいて追加データセット（第３データセット）を生成し、当該追加データセットを更に用いて新規モデルを作成する。なお、この追加デーセットは、対象データセットに含まれるテキストから抽出されたキーワードに基づいて取得された関連テキスト（第３テキスト）から生成された音声データ（第３音声データ）及び当該関連テキストを含む。

本実施形態においては、このような構成により、対象データセット及び拡張データセットのデータ量が認識精度の高い音声認識モデルの作成に十分でない場合であっても、データセットを更に追加することによって、認識精度の高い新規モデルを作成することが可能となる。

なお、本実施形態においては対象データセットから音声認識モデル（新規モデル）を作成する場合について説明したが、本実施形態は、音響モデルを作成する場合に適用されても構わない。この場合、本実施形態において説明したデータセットを例えば音声データ及び当該音声データから出力（抽出）されるべき音素を含むデータセットとし、本実施形態において説明した音声認識モデルを音響モデルとすることで、本実施形態と同様に、精度の高い音響モデルを作成することができる。

更に、本実施形態は、言語モデルを作成する場合に適用されても構わない。この場合、本実施形態において説明したデータセットを例えば音素及び当該音素から変換されるべきテキストを含むデータセットとし、本実施形態において説明した音声認識モデルを言語モデルとすることで、本実施形態と同様に、精度の高い言語モデルを作成することができる。

また、本実施形態は、音声認識に関するモデル（音声認識モデル、音響モデル及び言語モデル）以外にも例えば画像及び対話シナリオ等に関する他の認識モデルを作成する場合に適用されても構わない。

すなわち、本実施形態は、例えば認識対象データを認識して当該認識結果を出力するために用いられる認識モデルを作成するものであれば適用可能である。

なお、本実施形態においては音声認識装置１０が１つの装置であるものとして説明したが、本実施形態に係る音声認識装置１０は、例えば図１６に示すようにユーザによって使用される端末装置１０ａ及び当該端末装置１０ａと通信可能に接続されるサーバ装置１０ｂ等から構成される音声認識システムとして実現されても構わない。なお、図１６に示す音声認識システムにおいて、端末装置１０ａ及びサーバ装置１０ｂは例えばインターネット等のネットワーク１０ｃを介して接続される。

この場合、本実施形態において説明した図１に示す各部１１〜１９の各々は、端末装置１０ａ及びサーバ装置１０ｂに分散するように備えられてもよい。

具体的には、例えば、取得部１３及び表示処理部１８が端末装置１０ａに備えられ、他の第１モデル作成部１１、関連タグ作成部１２、認識処理部１４、抽出部１５、第２モデル作成部１６、評価部１７及びデータベース１９がサーバ装置１０ｂに備えられる構成とすることができる。

この場合、端末装置１０ａにおいて入力（取得）された対象データセットが当該端末装置１０ａからサーバ装置１０ｂに送信され、当該サーバ装置１０ｂにおいては、本実施形態において説明したように対象データセットから新規モデルが作成される。なお、上記したタグ表示画面及び確認画面等は、端末装置１０ａに表示されればよい。

また、例えば、取得部１３、認識処理部１４、抽出部１５、第２モデル作成部１６、評価部１７及び表示処理部１８が端末装置１０ａに備えられ、第１モデル作成部１１、関連タグ作成部１２及びデータベース１９がサーバ装置１０ｂに備えられる構成としてもよい。これによれば、上記した新規モデル作成処理については端末装置１０ａにおいて実行することができ、当該新規モデル作成処理以外の処理（例えば、拡張用モデル登録処理及び関連タグ作成処理等）についてはサーバ装置１０ｂで実行するようにすることができる。

更に、例えば、各部１１〜１８が端末装置１０ａに備えられ、データベース１９のみがサーバ装置１０ｂに備えられるようにしてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０…音声認識装置、１０ａ…端末装置、１０ｂ…サーバ装置、１０ｃ…ネットワーク、１１…第１モデル作成部、１２…関連タグ作成部、１３…取得部、１４…認識処理部、１５…抽出部、１６…第２モデル作成部（モデル作成手段）、１７…評価部、１８…表示処理部、１９…データベース（格納手段）、１０１…ＣＰＵ、１０２…システムコントローラ、１０３…主メモリ、１０４…ＢＩＯＳ−ＲＯＭ、１０５…不揮発性メモリ、１０６…ディスプレイ、１０７…通信デバイス、１０８…エンベデッドコントローラ。

Claims

予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段と、
第２認識対象データ及び当該第２認識対象データから認識されるべき第２正解データを含む第２データセットを取得する取得手段と、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行する認識処理手段と、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するモデル作成手段と
を具備する認識装置。
前記第１データセットに含まれる第１認識対象データは、第１音声データを含み、
前記第１データセットに含まれる第１正解データは、前記第１音声データから書き起こされた第１テキストを含み、
前記第２データセットに含まれる第２認識対象データは、第２音声データを含み、
前記第２データセットに含まれる第２正解データは、前記第２音声データから書き起こされた第２テキストを含み、
前記認識処理は、音声データから音声を認識し、当該音声をテキストに変換する処理を含む
請求項１記載の認識装置。
第３音声データを入力する入力手段を更に具備し、
前記認識処理手段は、前記作成された第２認識モデルを用いて前記第３音声データを第３テキストに変換する
請求項２記載の認識装置。
前記抽出手段は、前記第１認識モデルを用いた前記第２音声データに対する認識処理結果及び前記第２テキストを比較することによって前記第１認識モデルの認識精度を算出し、前記算出された第１認識モデルの認識精度を用いて統計量の算出を行い、当該第１認識モデルに対応づけて前記格納手段に格納されているタグの中から当該認識精度が有意に高いタグを抽出する請求項２記載の認識装置。
前記抽出されたタグを表示する表示処理手段を更に具備し、
前記モデル作成手段は、前記取得された第２データセット及び前記表示されたタグのうちユーザによって指定されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成する
請求項２記載の認識装置。
前記表示処理手段は、前記抽出されたタグに関連するタグを更に表示する請求項５記載の認識装置。
算出手段及び表示処理手段を更に具備し、
前記認識処理手段は、前記作成された第２認識モデルを用いて前記第２データセットに含まれる第２音声データに対する認識処理を実行し、
前記算出手段は、前記作成された第２認識モデルを用いた前記第２音声データに対する認識処理結果及び前記第２テキストを比較することによって前記第２認識モデルの認識精度を算出し、
前記表示処理手段は、前記算出された第２認識モデルの認識精度を表示する
請求項２記載の認識装置。
前記モデル作成手段は、前記第２データセットに基づいて第３認識モデルを作成し、
前記認識処理手段は、前記作成された第３認識モデルを用いて前記第２データセットに含まれる第２音声データに対する認識処理を実行し、
前記算出手段は、前記作成された第３認識モデルを用いた前記第２音声データに対する認識処理結果及び前記第２データセットに含まれる第２テキストを比較することによって前記第３認識モデルの認識精度を算出し、
前記表示処理手段は、前記第２認識モデルの認識精度及び前記第３認識モデルの認識精度を表示する
請求項７記載の認識装置。
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットのデータ量が十分であるか否かを判定する判定手段と、
前記第２データセット及び前記第１データセットのデータ量が十分でないと判定された場合、前記第２データセットに基づいて第３データセットを生成する生成手段と
を更に具備し、
前記モデル作成手段は、前記取得された第２データセット、前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセット及び前記生成された第３データセットに基づいて第２認識モデルを作成する
請求項２記載の認識装置。
前記生成手段は、前記第２データセットに含まれる第２テキストから抽出されたキーワードに基づいて取得された第３テキストから第３音声データを生成することによって、当該第３音声データ及び第３テキストを含む第３データセットを生成する請求項９記載の認識装置。
端末装置と当該端末装置と通信可能に接続されるサーバ装置とを備える認識システムにおいて、
予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段と、
第２認識対象データ及び当該第２認識対象データから認識されるべき第２正解データを含む第２データセットを取得する取得手段と、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行する認識処理手段と、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するモデル作成手段と
を具備する認識システム。
予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段を備えるサーバ装置と通信可能に接続される端末装置において、
取得手段及び表示処理手段を具備し、
前記取得手段は、第２認識対象データ及び当該第２認識対象データから認識される第２正解データを含む第２データセットを取得し、
前記サーバ装置は、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行する認識処理手段と、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するモデル作成手段と
を含み、
前記表示処理手段は、前記作成された第２認識モデルの登録をユーザに指示させるための画面を表示する
端末装置。
端末装置と通信可能に接続されるサーバ装置において、
予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段と、
第２認識対象データ及び当該第２認識対象データから認識される第２正解データを含む第２データセットを前記端末装置から取得する取得手段と、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行する認識処理手段と、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するモデル作成手段と、
前記作成された第２認識モデルの登録をユーザに指示させるための画面を前記端末装置に表示する表示処理手段と
を具備するサーバ装置。
予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段を備える認識装置が実行する方法であって、
第２認識対象データ及び当該第２認識対象データから認識されるべき第２正解データを含む第２データセットを取得するステップと、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行するステップと、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出するステップと、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するステップと
を具備する方法。
予め定められた条件で収集された第１認識対象データ及び当該第１認識対象データから認識されるべき第１正解データを含む第１データセットに基づいて作成された第１認識モデル、当該第１データセット及び当該条件を表すタグを、当該第１認識モデル毎に対応づけて格納する格納手段を備える認識装置のコンピュータによって実行されるプログラムであって、
前記コンピュータに、
第２認識対象データ及び当該第２認識対象データから認識されるべき第２正解データを含む第２データセットを取得するステップと、
前記格納手段に格納されている第１認識モデルの各々を用いて前記第２データセットに含まれる第２認識対象データに対する認識処理を実行するステップと、
前記認識処理結果及び前記第２データセットに含まれる第２正解データに基づいて、前記認識処理に用いられた第１認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出するステップと、
前記取得された第２データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第１データセットに基づいて第２認識モデルを作成するステップと
を実行させるためのプログラム。