JP5208104B2

JP5208104B2 - 第１の適応化データ処理バージョンから第２の適応化データ処理バージョンに切り替えるための方法

Info

Publication number: JP5208104B2
Application number: JP2009508650A
Authority: JP
Inventors: ウンフリート，ヨハネス
Original assignee: ニュアンスコミュニケーションズオーストリアゲーエムベーハー
Priority date: 2006-05-12
Filing date: 2007-05-09
Publication date: 2013-06-12
Anticipated expiration: 2027-05-09
Also published as: JP2009537037A; US9009695B2; US20090125899A1; CN101443732A; WO2007132404A3; WO2007132404A2; EP2019985B1; EP2019985A2

Description

本発明は、連続的に適応化する少なくとも一つの第１のデータモデルを使用するデータプロセッサ上の第１の適応化データ処理バージョンから、連続的に適応化する少なくとも一つの第２のデータモデルを使用している第２の適応化データ処理バージョンに、データ処理結果に基づいて、切り替えるためのシステムと方法に関する。さらにまた、本発明は、コンピュータプログラムプロダクトに関する。そして、それは、第１の適応化データ処理バージョンから第２のものへの切り替えにかかる方法を実行するために用いてもよい。

特にワードプロセッサの分野で、古い（第１の）処理ソフトウェアバージョンから新しいもの（第２のもの）に切り替えるときに、後方互換性（旧バージョン互換性）および前方互換性（新バージョン互換性）を維持することは、当該技術の課題である。これに関連して、潜在的に部分的互換性がない異なるソフトウェアバージョンを使用するときに、データファイルの完全性を保存するための特定の認識ビットを使用することは公知である。例えば、特許文献１を参照。

また、特定のファイルが、以前のバージョンのアプリケーションプログラムに基づくか新しいものに基づくかどうかを示すことが可能な「電子透かし（ｗａｔｅｒｍａｒｋ）」をデータファイルに含めることは公知である。例えば、特許文献２参照。
米国特許５９８３２４２号明細書米国特許６７０４４３２号明細書

しかしながら、これらの周知の技術は、例えばパーソナルコンピュータのような計算手段のシステムに、異なるバージョンのアプリケーションソフトウェアがある場合、全く同一のデータをどのように処理するかの課題に直面する。

例えば、特定の適応化データモデルが用いられる場合、多数のデータ量を処理するためにプログラムを走らせる場合、そしてデータモデルが連続的に「トレーニングされる」場合では、古いプログラムバージョンの代わりに新しいものを使用する際の課題は、さらに深刻である。すなわち、修正後の認識結果を基に適応化してゆくもの、例えば、自動音声認識および音声ファイルのテキストファイルへの変換の分野のケースが挙げられる。音声認識入力データを基に音声データをテキストファイルに変換するときに、ある種類のこれらの音声データがユーザに依存するという事実から、特定の適応化データモデルを使用することが知られている。特に、それぞれのユーザのための音声参照データモデルを含んでいる音声特性を使用することが、通常行われている。さらに、言語データモデルが用いられてもよい。例えば語の移行が特定の確率で特定のユーザに依存していることを考慮する。なぜなら、ある著者は、特定の語Ｘに続いて特定の語Ｙを使用することがしばしばあるからである。それから、データモデルは、それらが特定のユーザにより発音される情報を含んでいる認識可能な語を有する辞書に基づいてもよい。そして、文法データモデルを使用することも可能である。数に関する文法、日付に関する文法等に関するデータが含まれる。

データ処理の間、すなわち自動音声認識およびテキストファイルに対するスピーチデータの自動変換の間、これらのデータの一部は、フィードバックループで連続的に適応化されてゆく。これによって、この連続適応化またはトレーニングによる認識精度の本質的な上昇がなされる。例えば、処理結果に基づいたフィードバックによって、新しい語が、辞書データモデルに加えられてもよい。ユーザの話し方をよりよく表すように、言語データモデルがアップデートされてもよい。新しい文法による表現によって、文法もまたアップデートされる。そして、音響参照データモデルの音声が、ユーザ特定の調音によりよく似るようにアップデートされる。のこの種のデータモデルに関するすべての適応化処理は、フィードバック処理によって可能になる。その際、自動的に変換されたファイルは、その後に音声ファイルを聞き、対応する変換されたテキストファイルを読むことによって修正される。

同様の状況は、データ処理結果を基にして、フィードバックループでその連続的な適応化を行うデータモデルの使用に基づいて、膨大なデータ量が処理されるような他のデータ処理システムにも当てはまる。このシステムでは、ニューモデルの事前トレーニングのための存在を許容しない場合、または、ニューモデルの存在は許容するが事前のトレーニングを許容しない場合である。例えば、アルゴリズムに依存する画像データモデルを基にデータ処理を備えるシステム、地図等を作成する場合の衛星画像伝送、または遺伝子解析の分野のシステム、または関連したサウンドデータの分野のシステム、その他、そして、適応化データモデルを基にして表現される大量のデータがある他のいかなる分野の技術もこれに該当する。

かかる適応化データモデルシステムにおいて、しばしば、使用されるアルゴリズムに関して改良され、効果がある新しいデータ処理ソフトウェアバージョンが開発される。例えば、より高いパフォーマンスを持つ音声認識が開発される。しかしながら、これらのアルゴリズム変更は、通常基礎をなすデータモデルの変更を意味し、または全く新しい最初のデータモデルでさえあることもある。原則として、データモデルは、新しいソフトウェアバージョンの利用に適している新しいデータモデルに単純に変換できることは、むしろほとんどのケースにおいてまれである。すなわち、多くの場合、データモデルは、全く変換できない。データの修正にあまりの負担がかかるため、データモデルを事前に適応化させることは、現実的でない。すなわち、データモデルが理論的には事前の適応化を実施しやすい場合であっても、かかる事前の適応化はしばしば時間の浪費となり、複雑なアップグレード手順を必要とする。特に、自動音声認識およびテキストファイルへの自動変換の中で、一般にデータモデルは大量の音声材料によって最適化される。そして、新しい音声認識ソフトウェアバージョンがインプリメントされたとき、移植目的のために、その音声材料を保つことは、通常は可能でない。したがって、新しい音声認識バージョン（または一般に、新しいデータ処理バージョン）をインプリメントする場合、以前の連続的に適応化するデータモデルが維持できない場合には、前に得られた情報、すなわち以前のデータ処理の間適応化されていたデータモデルは失われることになる。なぜなら、新しい（第２の）データ処理ソフトウェアバージョンと関連して、最初のデータモデルから開始しなければならないからである。このことは、このシステムのユーザが古い（第１の）ソフトウェアバージョンを更に使用するのを好むことを意味する。なぜなら、連続的に適応化するデータモデルを基に、すでに全く良好な認識パフォーマンスが達成されているからである。今新しいソフトウェアバージョンに切り替えることによって、連続的に適応化する古いデータモデルはもはや利用できないため、この品質が切り替え時期の間失われる。そして、新しいソフトウェアバージョンの改良されたアルゴリズムが使用されるときに、新しい初めてのデータモデルが適応化されなければならない。少なくとも十分なパフォーマンスが発揮されるようになるまで、充分なデータによって新しいデータモデルがトレーニングされなければならない。このため、多くのユーザは、適応化するデータモデルを有する古いソフトウェアバージョンを支持する傾向がある。顧客が認識パフォーマンスの劣化を予想するため、ロールアウトおよび新しいソフトウェアのバージョンの使用は妨げられることになる。そして、（より長い時間を考慮すると、この新しいバージョンが有する改良型アルゴリズムが、より良好な音声認識精度等を発揮することが可能であるにもかかわらず）ユーザは新しいソフトウェアバージョンへの切換えを拒否する。

データモデルが主に新しいソフトウェアバージョンにより適応化される場合、留意する点としては、例えば、音声認識システムでは、しばしば１５，０００人のユーザが接続されるということである。そして、各ユーザはそれ自身のデータモデルを有するのである。データモデルを新しいソフトウェアバージョンに適しているようにするため、たとえば１ユーザにつき２０ＭＢまで、適応化のめに手当てすると、適応化データの総量は、ほぼ３００ＧＢとなることを意味する。そして、対応する３００ＧＢのディスクスペースが必要となる。

したがって、以前のデータモデルに戻れる必要性と、逆に、新しいソフトウェアバージョンに切り替え、改良されたアルゴリズムの有利さを得る立場が存在し、データ処理結果の品質を悪化させることなく古いデータ処理バージョンから新しいものに切換えるための解決策が長い間望まれていた。

したがって、本発明の目的は、古い第１の適応化データ処理バージョンから新しい第２の適応化データ処理バージョンに切り替える方法および装置を提供することである。同時に、第１の適応化データ処理バージョンによって、すでに得られている良質な結果を、少なくとも実質的に失うことなく第１の適応化データ処理バージョンから第２の適応化データ処理バージョンに切り替えることを目的とする。

さらに発明の目的は、データプロセッサにロードされるときに、パフォーマンスの損失なしに第１のソフトウェアバージョンから第２のものに切り替えて、本発明の方法を実行するコンピュータプログラムを含むコンピュータプログラムプロダクトを提供することである。

本願発明の第１の態様における方法は、データ処理結果を基に連続的に適応化される少なくとも一つの第１のデータモデルを使用する、データプロセッサ手段上の、第１の適応化データ処理バージョンから、連続的に適応化される少なくとも一つの第２のデータモデルを同様に使用する、第２の適応化データ処理バージョンに切り替える方法であって、第１段階において、前記第２の適応化データ処理バージョンが、前記第１の適応化データ処理バージョンと平行して使われ、前記第１の適応化データ処理バージョンに関連した前記少なくとも一つの第１のデータモデルと、前記第２の適応化データ処理バージョンに関連した前記少なくとも一つの第２のデータモデルとを連続的に適応化させ、かつ前記第２の適応化データ処理バージョンのデータ処理のパフォーマンスが品質基準に適合するかがチェックされ、その後、第二の段階において、前記品質基準が満たされ次第、前記第２の適応化データ処理バージョンによる前記データ処理結果が使われるために出力されることを特徴とする方法である。

本願発明の第２の態様におけるシステムは、データ処理結果を基に連続的に適応化される少なくとも一つの第１のデータモデルを使用するデータ処理のための第１の適応化データ処理バージョンを有するデータプロセッサを有するシステムであって、前記データプロセッサは、前記第１の適応化データ処理バージョンと平行して第２の適応化データ処理バージョンを走らせるように調整され、かつデータ処理結果を基に連続的に適応化される少なくとも一つの第２のデータモデルを使用し、かつ前記データプロセッサが、ぞれぞれの少なくとも一つのデータモデルの前記連続適応化によって、前記第２のデータ処理結果の十分な品質が達成されたときに、前記第１の適応化データ処理バージョンの前記データ処理結果から前記第２の適応化データ処理バージョンの結果の出力に切換えるよう調整されることを特徴とするシステムである。

本願発明の他の態様は、本願発明の切り替え方法を実行するコンピュータプログラムを記録したコンピュータプログラム製品である。特に、コンピュータプログラムが前記第２の適応化データ処理バージョンを実行するソフトウェアを含むコンピュータプログラムをも記録したコンピュータプログラム製品である。

本発明は、新しいもの（すなわち第２の適応化データ処理バージョン）をバックグラウンド（すなわちシャドー）で、新しいデータモデルすなわち新しいバージョンと関連したデータモデルを同時にバックグラウンドで適応化させる考えに基づく。この適応化するデータモデルが、最初のデータ処理バージョンと関連した前データモデル（「レガシー」モデル）と同等またはよりよくパフォーマンスを提供するまで続ける。第２の適応化データ処理バージョンが同等かより良い結果を出すまでは、前データモデルに基づく、第１の適応化データ処理バージョンによって得られる結果がユーザに提供される。第１の適応化データ処理バージョンおよび第１のデータモデルから第２の適応化データ処理バージョンおよび第２のデータモデルに全く自動的に切り替えてもよい。このために、第２の適応化データ処理バージョンに関連したデータモデルにトレーニングされる所与のデータ量が予め定められた基準として使われると定められてもよい。適応化するデータの量が所与のデータ量と比較される。前記所与のデータ量に到達したときに、第２の適応化データ処理バージョンによるデータ処理結果の使用に自動的に切り替わる。この方法は、非常に便利であり、コンピュータ時間を節約する解決策である。なお、直接のパフォーマンス比較を基に２つのバージョンを切換えることも可能である。パフォーマンスに関し、第２の適応化データ処理バージョンによるデータ処理結果が第１の適応化データ処理バージョンによるデータ処理結果と自動的に比較されることは、効果的である。第２の適応化データ処理バージョンの結果が第１の適応化データ処理バージョンの結果と等しいかより優れるようになったとき、第２の適応化データ処理バージョンの結果の使用に自動的に切り替えられる。

一方では、第１の適応化データ処理バージョンから第２の適応化データ処理バージョンに強制的に切り替えを行うことも可能である。第２の適応化データ処理バージョンのパフォーマンスが第１の適応化データ処理バージョンの結果に関して推定される場合、それは役立つだろう。そして、十分なパフォーマンスの場合には、第２の適応化データ処理バージョンの結果の使用に対する切替えは強制される。

このように、本発明のシステムの好ましい実施例は、第２の適応化データ処理バージョンに関連したデータモデルにトレーニングされる所与のデータ量が、予め定められた品質基準として使われるという点を特徴とする。これは、適応化するデータの量を所与のデータ量と比較し、所与のデータ量に到達したときに第２の適応化データ処理バージョンによるデータ処理結果の使用に自動的に切り替えるための手段である。または、第２の適応化データ処理バージョンによるデータ処理手段の結果と第１の適応化データ処理バージョンによるデータ処理手段の結果を比較するための手段および第２の適応化データ処理バージョンの結果が第１の適応化データ処理バージョンの結果より優れているときに、自動的に第２の適応化データ処理バージョンの結果に切り替える手段である。

本発明は、自動音声認識およびスピーチデータから修正され得るテキストファイルへの自動の変換に有用である。これに関係して、特定の音響参照データモデル、例えばそれぞれのユーザの音声データモデルおよび言語データモデルを連続的に適応化させるのに有利である。なお、連続的に適応化を行うことは、言語データモデル、文法および辞書データモデルに同様に適用されてもよい。これらのモデルはそれ自体周知である。都合のよいことに、すでに上述したように、本発明は、多数のデータ量がデータモデルを使用して処理され、これがデータ処理結果を基にフィードバックによって連続的に適応化されるような、他のデータ処理のために使われてもよい。

本願発明の、上述した態様および他の態様、目的、特徴および有利な点は、関連する図面を参照しながら、好ましい実施例を記載した以下の詳細な説明から明らかとなるであろう。

図面を参照して本発明を以下に詳述する。図面の参照番号を示しながら、本発明の好ましい実施例が示される。

図１に、データ処理システム１を示す。更に詳細に、かかるシステムの実施例として、記録されたサウンドデータを自動的に認識し、音声ファイルをテキストファイルへ変換し、その後テキストファイルは音声ファイルを基に手動で修正されるシステム１を示す。このシステム１には、すなわち、各々例えば音声データを記録再生するオーディオ装置（図示しないマイクロホン、スピーカ）を有するパーソナル・コンピュータ（ＰＣ）からなる複数の記録ステーション２．１．．．２．ｉが含まれる。記録ステーションは、２から始まる番号によって参照される。音声データは、記録の後、音声ファイル（スピーチファイル）としてネットワーク３（たとえばローカルエリアネットワーク／ワイドエリアネットワーク（ＬＡＮ／ＷＡＮ））に出力される。更に、このネットワーク３は、認識適応化ステーション４（より詳細に４．１．．．４．ｋ）に接続し、ここで記録ステーション２により出力された音声ファイルは、データベース５に格納され、当該技術において周知のように自動的に認識されてテキストファイルに変換される。これらの認識／適応化ステーション４は、ＰＣを有していてもよい。データベースまたはファイルサーバ５は音声ファイル、さらに認識されたテキストファイルおよび修正されたテキストファイルを含む。自動的に得られたテキストファイルの修正に関しては、複数の修正ステーション６（例えばＰＣを含む）が設けられていて、ネットワーク３に接続されている。よりこれらの修正ステーション６（詳細には、６．１．．．６．ｋ）を用いて、自動的に得られデータベース５に格納されたテキストファイルが手動で修正される。手動での修正は、音声ファイルを聞いている者が修正作業をするときになされる。提供された修正は、更なるデータベース７に格納されたデータモデルへのフィードバックとして使われる。データベース７は、データベース・メタ情報を含み、特に、それぞれのユーザに特有のデータモデルを含む。より具体的には、このデータモデルには、ユーザに特有の音声を参照するデータを含む音響参照モデル、ユーザに特有でそれぞれのユーザの語移行の確率を指す言語データモデル、さらに、文法データモデル、それぞれのユーザによってどのように発音されるかの情報を有する認識可能な語を含む辞書データモデルが含まれる。すべてのこれらのデータモデルは、データベース７に格納される。以下の説明において、かかるデータモデルが参照される。「少なくとも１つの」または、「一つの」データモデルを指す場合でも、実際には、多くのモデル、すなわち多数のユーザに対して各々いくつかのモデルが存在していることは明らかである。

記載されている音声認識システム１に関する限り、この技術はよく知られている。

自動音声認識および変換のために、認識適応化ステーション４は、（第１の）ソフトウェアバージョン（Ｖ１）（図２参照）を使用する。このソフトウェアバージョン（Ｖ１）は、データベース７に格納されている特定のＶ１アルゴリズムおよび関係しているＶ１データモデルを利用する。すでに上述したように、修正テキストファイルのフィードバックを基に、これらのＶ１データモデル（ｄｍｉ）はテキストファイルの自動音声認識、変換および修正の間、連続的に適応化する。このフィードバックは言語モデルを参照する。フィードバックによって、改善する方向にそれぞれのユーザの話し方を反映させる。そして、ユーザの調音をよりよく表す音響参照データモデルの音声、文法データモデルをアップデートするための新しい文法表現、辞書データモデルに加えられる新語がアップデートされる。データモデルのこの連続的な適応化によって、認識精度が改善される。

しかしながら、自動音声認識および変換を実行するために、使用されるアルゴリズムに関して改良された新しいデータ処理バージョンのソフトウェア（図２に示すＶ２）が、しばしば導入される。例えば新しいパラメータまたは変数が導入されたアルゴリズムの変更のため、新しい基礎をなすデータモデル（Ｄｍｉ）が用いられることになる。そして、ほとんどの場合、前バージョンＶ１によって使用される古いデータモデルｄｍｉを第２の新しいバージョンＶ２により使用される新しいデータモデルＤＭｉに変換することは可能でない。かかる変換、またはＶ１モデルと関連して過去に集められたデータに基づく事前の適応化が可能であっても、この変換または事前の適応化は、むしろ時間がかかり、記憶装置を消耗し、かつ非常に複雑である。特に、１５，０００人のユーザ（１５，０００台の記録ステーション２に対応する）がシステム１に接続されてもよいことを留意すべきである。したがって、Ｖ２に関連したデータモデルによってＶ２バージョンに基づいた認識パフォーマンスは、よりよい認識精度を達成することができるにもかかわらず、ユーザは、古いソフトウェアバージョンＶ１に固執する傾向がある。なぜなら、過去の連続したデータモデルの適応化によって、その時点において、音声認識パフォーマンスは、トレーニングデータのないデータモデルである初期のデータモデルを基にソフトウェアバージョンＶ２のそれより良好だからである。新しい（第２の）Ｖ２ソフトウェアバージョンがＶ１アルゴリズムを含み、Ｖ１アルゴリズムを適用することによって、Ｖ１データモデルを使用できる場合も、状況は同じである。なぜなら、その時点で、改良されたＶ２アルゴリズムを有する新しいソフトウェアバージョンＶ２による利点を享受できないからである。したがって、事実、今までは、新しいＶ２システムバージョンへの切替えにより、初期のＶ２データモデルを基にしたＶ２システムのパフォーマンスという初期の不利な点を受け入れることを選択する以外なかった。

図２は、Ｖ１データモデルｄｍ１．．．ｄｍｉ．．．ｄｍｎ（ｉ＝１．．．ｎ）に基づいて、第１の処理バージョンＶ１において、音声認識および変換がどのように実行されるかを図式的に示したものである。ここで、フィードバックループ８は認識パフォーマンスを高めるために、連続的にデータモデルｄｍｉを適応化する。変換結果（テキストファイル）は、９から出力される。そして、本発明では、第２の新しいソフトウェアバージョンＶ２が、対応する（第１の）データモデルＤＭ１．．．ＤＭｉ．．．ＤＭｎとともに、第１の適応化データ処理バージョンＶ１と併存して、インプリメントされる。フィードバックループ８‘を用いて、Ｖ１処理と平行して前記Ｖ２バージョンを有する音声認識変換を実行するときに、これらのＶ２データモデルＤＭｉもまた連続的に適応化される。しかしながら、この音声認識変換の結果はデータモデルＤＭｉが十分に適応化された時期以降に９‘から出力される。これによる出力は、第１の適応化データ処理バージョンＶ１を用いて得た出力９と少なくとも等しい結果となる。

図２において、モジュール１０によって事前の適応化をさせるかまたはＶ１データモデルｄｍｉのデータを用いて新しいＶ２データモデルＤＭｉへ変換する可能性が、点線で示されている。データモデルのかかる事前の適応化または変換は、上述したように、可能な限りにおいて小規模に行うことは可能である。したがって、本発明では、平行したデータモデル適応化がなされ、フィードバックループ８と８‘とを比較し、移行期間後は、認識パフォーマンスの損失なしにバージョンＶ１から新しいバージョンＶ２に切替えられる。

図３は、バージョンＶ１およびＶ２の平行したインプリメンテーション、およびＶ２に関連したデータモデルＤＭの適応化のレベルに応じた第１の適応化データ処理バージョンＶ１から第２の適応化データ処理バージョンＶ２への切り替えに関するフローチャートを示す。簡略化のために、それぞれ、１データモデルｄｍまたはＤＭだけに言及するが、データモデルの数が上述したようにそれより多いことは、自明である（たとえば自動音声認識変換の場合、ユーザにつき４つのデータモデル）。図３によれば、第１のソフトウェアバージョンＶ１は、ブロック１１に従ってインストールされる。さらにまた、ブロック１２に従って、Ｖ１に関連したデータモデルｄｍの第１世代がインストールされる。

その後、音声ファイルが記憶され、比較ブロック１３で、このＶ１データモデル＃１を基に音声ファイルは自動的に認識されテキストファイルに変換されて、自動的に得られたテキストファイルは修正される。そして、テキストファイルへの修正を基にデータモデルｄｍ＃１の適応化が実行される。テキストファイルは、その後出力される。これらのステップは、図３のブロック１４で表される。この実施例において、自動認識および変換は、ユーザと関連したデータモデルを基に、１人の特定のユーザに関してなされることをここで述べておかなければならない。そして、データモデルｄｍは、その時点で利用できる音声／認識／修正テキストの三つの組を基に適応化される。しかしながら、上述したように、多数のユーザ数がシステムに接続されるため、各ユーザまたは各ユーザに特有のデータモデルのために、対応するデータ処理および適応結果が組み込まれる必要がある。

音声ファイルが自動的に認識されて、テキストファイルに変換され、そして、対応するテキストファイルが修正される場合に、もちろんその都度データモデルを適応化させる必要はない。その代わりに、多くのかかる音声／認識／修正テキストの三つの組を累積して、予め定められた量の適応化のデータが得られた後にのみ、データモデルｄｍを適応化させることも可能である。

図３のブロック１５は、現在の、適応化したデータモデル（ｄｍの＃２世代）の存在を指す。

以下において、ブロック１３、１４、１５によるステップは、何度も繰り返される。そして、よくトレーニングされたデータモデルｄｍの高次の世代に至り、終わると予想される。

その段階で、第２のソフトウェアバージョンＶ２がブロック２１においてインストールされる。そして、ブロック２２において、それとともにこれと関連する最初のデータモデルＤＭがインプリメントされる。そのデータモデルＤＭとこの第２のソフトウェアバージョンＶ２は、高次の世代のｄｍデータモデルを有する第１のソフトウェアバージョンＶ１と平行して動作する。特定のユーザのために更なる音声ファイルは、ブロック２３に従って録音される。ブロック１４‘において、ソフトウェアバージョンＶ１を用いて、この音声ファイルは、上述したように再び認識されて、自動的にテキストファイルに変換される。そして、おそらく、更新処理またはバージョンＶ１のための対応するデータモデルｄｍの適応化が、ブロック１５‘において行われる。

これらのステップと平行して、第２のソフトウェアバージョンＶ２を基に、音声ファイルは、自動的に認識され、そして、対応するデータモデルＤＭの中でテキストファイルに変換される。そして、得られた修正を含むテキストファイルが提供される。修正は、ブロック１４‘に従ってテキストファイルを修正するときに入力される。テキストファイルの修正、それに続くＶ２データモデルＤＭの適応化は、図３のブロック２５で行われる。なお、ＤＭが適応化する前に、多くの音声／認識／修正テキストの三つの組を累積してもよい。ステップ２６において、アップデートされたＶ２データモデルがすでに有益かどうかはそれから調べられる。そして、これは例えばＶ２データモデルのためにトレーニングされたデータ量を基に決定される。ＮＯの場合は、既に述べたバージョンＶ１およびＶ２を基に平行したデータ処理がブロック２３に戻ることによって続けられる。しかしながら、ステップ２６の判断により、前述の処理ステップで連続的に適応化し十分にトレーニングしたデータモデルＤＭを使用することによって、新しいソフトウェアバージョンＶ２を用いて少なくとも十分な結果が得られる場合には（図３ブロック２７‘参照）、バージョンＶ２だけのデータ処理が続けられる。そしてＶ１データモデルを基にしたＶ１バージョンのデータ処理は止められる（図３のブロック２７）。データ処理（音声およびテキストファイルの受領、認識、変換および修正）は、対応するアップデートされたデータモデルＤＭのみと協働する新しいソフトウェアバージョンＶ２を基に続けられる。そして、図３に示されるように、ステップ２３、２４、２５に続く。加えて、バージョンＶ２および連続的にアップデートされ適応化されたＶ２データモデルを用いて得られた修正テキストファイルがシステムの出力として提供されることは明らかである（図２の出力９‘と比較されたい）。

図４は本システムのブロック図を示す。インタフェースモジュール３１によって、ネットワーク３に接続されたシステム４〜７を示す。このブロック図において、二つのブランチが示されている。それぞれ、ソフトウェアバージョンＶ１またはＶ２に対応する。モジュール３２．１および３２．２により、音響ファイルまたは音声ファイルが受け取られることが示される。そして、認識および変換モジュール３３．１および３３．２が続く（図１のステーション４と比較されたい）。この音声ファイルの自動認識および変換は、それぞれデータモデルｄｍおよびＤＭを基に行われる。ｄｍおよびＤＭは、それぞれデータベース７．１および７．２に格納される。データベース７．１および７．２は、図１に示したように、データベース７の部分でもよい。

図４の記載は、理解を簡単にするために単純化され、データベース５のスピーチファイル（音声ファイル）の記憶は、例示されていない。

その後、それぞれの修正ステーション６（図１）において、自動認識出力および変換モジュール３３．１または３３．２で得られた変換テキストファイルは、モジュール３４．１および３４．２（図４）またはステーション６（図１）において修正される。特定の修正ステーション６で実施される全く同一の修正作業がモジュール３４．１および３４．２に従ってファイルが修正される点に留意すべきである（図４）。この修正は、データベース７．１のデータモデルｄｍおよびデータベース７．２のＤＭの適応化に出力される。さらに、新しいソフトウェアバージョンＶ２のブランチにおいて、対応するアップデート情報がデータベース７．２に提供されるときに、Ｖ２データモジュールＤＭのためのトレーニング（アップデート）されたデータの量（具体的にはキロバイト）を計数するために、カウンタモジュール３５が修正モジュール３４．２に接続されている。そして、対応する情報は意思決定および制御モジュール３６に提供される。意思決定および制御手段モジュール３６は、コンパレータモジュール３７を含む。このコンパレータでは、データモジュールＤＭの適応化に関する受信データの量が予め定められ保存されたトレーニングされるデータ量と比較される。この予め定められたデータ量に達するとすぐに、モジュール３６はＶ１結果出力３９．１からＶ２結果出力３９．２に自動的に切り替えるために交換モジュール３８を起動させる。それぞれの修正Ｖ２テキストファイルは、モジュール４０に出力される。

Ｖ１出力からＶ２出力への自動切り替えの他の方策として、修正の前にそれぞれの結果として生じるテキストファイルを比較してもよい。これは、自動変換の後、より好ましくは、自動的に変換されたテキストファイルを修正するのに必要な補正データの量の後が望ましい。これは、図４において、コンパレータ３７‘を有する破線によって示されている。さらに別の可能性は、それぞれのＶ１およびＶ２の結果の推定に基づいて、強制的に切り替えモジュール３６を起動させることである。これは、図４の４１に破線で示されている。

上述のように、本発明の好ましい実施例の記載に関する限り、さまざまな変更が本発明の範囲内で可能であることが更に明らかにされなければならない。特に、本発明は他の分野のデータ処理にも適用できる。膨大なデータ量が使われる場合で、特にデータモデルをアップデートし、以前のデータモデルの不十分なデータからみて、新しい最初のデータモデルの事前トレーニングが不可能な分野である。または、この事前トレーニングに時間がかかり過ぎる分野、またはＶ１データモデルがＶ２データモデルに全く変換できない分野である。本発明は、画像データ処理の分野、たとえば、衛星から得られるビデオ情報に対して、または大量のサウンドデータに対して、ゲノム配列データに対して適用されてもよい。

別の実施例としては、図１のシステムと比較して、別のユニット４２に第２のソフトウェアバージョンＶ２を単独でもってインストールして実行することである。これによって、Ｖ２バージョンを基にデータ処理動作に関する限り、上述したＶ１／Ｖ２の平行動作の過渡的な時期の間、認識／適応化ステーション４の負荷が軽くなる。もちろん、この修正は、Ｖ１バージョンからＶ２バージョンに切り替えるときに、それぞれ認識／適応化ステーション４に、Ｖ２バージョンがインストールされるかまたはダウンロードされなければならないことを意味する。これによって、Ｖ２バージョンおよび関連したデータモデルＤＭｉを用いて、それぞれの音声ファイルを処理し、自動的にテキストファイルに変換することが可能となる。

なお、上述の実施例が本発明を制限するよりはむしろ、例示する点に留意する必要がある。そして、当業者は添付の請求の範囲の範囲内において、多くの別の実施例を設計することが可能である。請求項において、括弧の中に配置されるいかなる参照符号も、請求項を制限するものとして解釈されない。「ｃｏｍｐｒｉｓｉｎｇ：有する、含む」の語は、請求項に記載されていない構成またはステップの存在を除外しない。「ａ」または「ａｎ」の語は、複数のかかる構成の存在を除外しない。本発明は、いくつかの異なった構成から成るハードウェアによって、そして、最適にプログラムされたコンピュータにより実施されてもよい。いくつかの手段を列挙しているシステムの請求項において、これらの手段のいくつかは、計算機可読のソフトウェアまたはハードウェアの全く同一のアイテムにより実施されてもよい。単に特定の方策が相互に異なる従属クレームにおいて記述されていても、これらの方策の組合せが有効に使われることができないことを意味するものではない。

データ処理システムの図である。特に音声認識の適応化システムを示す。スピーチデータが自動的にテキストファイルに変換される。次にテキストデータは、受け取られる音声ファイルを基に修正される。そして、対応するフィードバックが格納されたデータモデルを適応化させるために用いられる。第１および第２のデータ処理ソフトウェアバージョンの平行的な使用を表す図である。関連したデータモデルへの平行した適応化によって、第１の適応化データ処理バージョンのデータ処理結果を用いて第２の適応化データ処理バージョンが、第２の適応化データ処理バージョンが十分な基準値に達するために、第１の適応化データ処理バージョンと平行して、バックグラウンドで動く。第２の適応化データ処理バージョンの結果が十分になるまで、結果が使われる第１のものと平行して、第２の適応化データ処理バージョンを実行することに関する本発明による方法を例示しているフローチャートを表す図である。第１の適応化データ処理バージョンと平行して第２のデータ処理ソフトウェアバージョンを実行させ、少なくとも第２の適応化データ処理バージョンを使用して同等のパフォーマンスが得られるとすぐに、第１の適応化データ処理バージョンから第２の適応化データ処理バージョンに切り替えるためのシステムを表す図である。

Claims

少なくとも一つの第１のデータモデルに関連する第１のソフトウエアバージョンから、少なくとも一つの第２のデータモデルに関連する第２のソフトウエアバージョンに切り替える、少なくとも一つのプロセッサが実行する方法であって、
第１の入力データを処理し、関連する第１の結果を生成し、かつ前記少なくとも一つの第１のデータモデルが適応するように、前記第１のソフトウエアバージョンを実行するステップと；
前記第１の入力データを処理し、関連する第２の結果を生成し、かつ前記少なくとも一つの第２のデータモデルが適応するように、前記第２のソフトウエアバージョンを実行するステップと；
前記第２のソフトウエアバージョンのパフォーマンスが、少なくとも一つの品質基準を満たすかを判断するステップと；
前記第２のソフトウエアバージョンの前記パフォーマンスが、前記少なくとも一つの品質基準を満たさない場合、利用のための第１の結果を出力するステップと；
前記第２のソフトウエアバージョンの前記パフォーマンスが、前記少なくとも一つの品質基準を満たす場合、利用のための第２の結果を出力するステップと；
を有することを特徴とする方法。
前記第２のソフトウエアバージョンにより前記第１の入力データを処理することは、前記少なくとも一つの第２のデータモデルを適応させるためにトレーニングデータの少なくとも一部分が利用されることとなり、トレーニングデータが予め定められた量を超えた場合、前記第２のソフトウエアバージョンの前記パフォーマンスは、前記少なくとも一つの品質基準を満たすことを特徴とする請求項１に記載の方法。
前記第２のソフトウエアバージョンの推定されたパフォーマンスが、推定された前記第１のソフトウエアバージョンのパフォーマンスと一致し又はこれを超えた場合、前記第２のソフトウエアバージョンの品質基準は、前記少なくとも一つの品質基準を満たすことを特徴とする請求項１に記載の方法。
前記第２の結果を前記第１の結果と比較するステップを更に有し、前記第２の結果が前記第１の結果と等しいか又はより優れていると判断される場合、前記第２のソフトウエアバージョンは、前記少なくとも一つの品質基準を満たすことを特徴とする請求項１に記載の方法。
前記第１のソフトウエアバージョンは、第１の音声認識ソフトウエアバージョンを有し、かつ前記第２のソフトウエアバージョンは、第２の音声認識ソフトウエアバージョンを有し、前記第１の入力データは、スピーチデータを含み、前記第１の結果及び前記第２の結果は、前記スピーチデータを処理することによって、それぞれ、前記第１の音声認識ソフトウエアバージョン及び前記第２の音声認識ソフトウエアバージョンにより認識されたテキストを含み、かつ、前記少なくとも一つの第１のデータモデル及び前記少なくとも一つの第２のデータモデルは、それぞれ、音響モデル、言語モデル、文法モデル、及び／又は、辞書モデルを含むことを特徴とする請求項１ないし４のいずれか１項に記載の方法。
少なくとも一つのプロセッサに、請求項１ないし５のいずれか１項に記載の方法を実行させるためのプログラム。
少なくとも一つの第１のデータモデルに関連する第１のソフトウエアバージョンから、少なくとも一つの第２のデータモデルに関連する第２のソフトウエアバージョンに切り替えるよう構成された、データ処理システムであって、
前記第１のソフトウエアバージョン及び前記第２のソフトウエアバージョンを格納するための少なくとも一つの格納媒体と；
前記少なくとも一つの格納媒体にアクセスすることができる少なくとも一つのプロセッサであって、
第１の入力データを処理し、関連する第１の結果を生成し、かつ前記少なくとも一つの第１のデータモデルが適応するように、前記第１のソフトウエアバージョンを実行し；
前記第１の入力データを処理し、関連する第２の結果を生成し、かつ前記少なくとも一つの第２のデータモデルが適応するように、前記第２のソフトウエアバージョンを実行し；
前記第２のソフトウエアバージョンのパフォーマンスが、少なくとも一つの品質基準を満たすかを判断し；
前記第２のソフトウエアバージョンの前記パフォーマンスが、前記少なくとも一つの品質基準を満たさない場合、利用のための第１の結果を出力し；
前記第２のソフトウエアバージョンの前記パフォーマンスが、前記少なくとも一つの品質基準を満たす場合、利用のための第２の結果を出力する；
よう構成されたプロセッサと；
を有することを特徴とするシステム。
前記第２のソフトウエアバージョンにより前記第１の入力データを処理することは、前記少なくとも一つの第２のデータモデルを適応させるためにトレーニングデータの少なくとも一部分が利用されることとなり、トレーニングデータが予め定められた量を超えた場合、前記第２のソフトウエアバージョンの前記パフォーマンスは、前記少なくとも一つの品質基準を満たすことを特徴とする請求項７に記載のシステム。
前記第２のソフトウエアバージョンの推定されたパフォーマンスが、推定された前記第１のソフトウエアバージョンのパフォーマンスと一致し又はこれを超えた場合、前記第２のソフトウエアバージョンの品質基準は、前記少なくとも一つの品質基準を満たすことを特徴とする請求項７に記載のシステム。