JP2005173157A - Parameter setting device, parameter setting method, program and storage medium - Google Patents
Parameter setting device, parameter setting method, program and storage medium Download PDFInfo
- Publication number
- JP2005173157A JP2005173157A JP2003412497A JP2003412497A JP2005173157A JP 2005173157 A JP2005173157 A JP 2005173157A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2005173157 A JP2005173157 A JP 2005173157A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- grouping
- recognition
- trial
- parameter setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、音声認識のためのパラメータを適切に設定するためのパラメータ設定装置、その方法、プログラムおよび記憶媒体に関する。 The present invention relates to a parameter setting device, a method, a program, and a storage medium for appropriately setting parameters for speech recognition.
音声認識を実環境で利用するためには、各種パラメータのチューニングが必要である。ここで、パラメータとは、ビーム幅、音響モデル、VAD(音声切り出し)の閾値などの音声認識に関する任意のパラメータを包含する。このパラメータのチューニングは、音声認識に詳しい技術者が認識実験を試行錯誤しながらパラメータを決定するという方法が一般的である。そのため、パラメータのチューニングは、音声認識に関する深い知識や経験を有する技術者のみが行うことが可能な作業であるといえる。 In order to use speech recognition in a real environment, various parameters need to be tuned. Here, the parameters include arbitrary parameters related to speech recognition, such as a beam width, an acoustic model, and a VAD (speech extraction) threshold. The parameter tuning is generally performed by a method in which an engineer familiar with speech recognition determines the parameter through trial and error. Therefore, it can be said that parameter tuning is an operation that can be performed only by engineers who have deep knowledge and experience regarding speech recognition.
一方、これらパラメータのチューニングを自動的に行う方法が提案されている(例えば、特許文献1を参照)。この方法は、評価セット(音声データと認識文法)、動作条件(認識率、認識時間、メモリ使用量などの必要条件)、各パラメータの探索条件(刻み幅や範囲)を与え、各パラメータの値を探索条件内で様々に変化させながら音声認識を繰り返し試行し、各試行における動作結果(認識率、認識時間、メモリ使用量)を記録し、記録された動作結果から、動作条件を満足する最適なパラメータのセットを最終的に得るものである。
しかしながら、上述した方法においては、動作条件を、認識率、認識時間、メモリ使用量などの各必要条件のアンドで表現すること自体に無理がある。本当にユーザが設定したい動作条件とは、認識率、認識時間、メモリ使用量との兼ね合いの中で決まるものである。すなわち、認識率を優先させるような動作条件であっても、認識時間やメモリ使用量が大きすぎるものである場合、このような動作条件は、実際には使用することができない。また、認識率は多少劣るがメモリ使用量が半分で済むものがあれば、積極的にそちらを採用したいと考えるはずである。例えば、動作条件として認識率90%以上、かつ、メモリ使用量2MB以下を設定した場合において、試行の結果、認識率90%でメモリ使用量2MBのパラメータセットが選ばれたとすると、選ばれなかったパラメータセットの中には、認識率は89.9%であるが、メモリ使用量が1.2MBのものが存在する可能性がある。もちろん、このパラメータセットは、認識率に関する必要条件を満たさなかったために、解としては得られない。しかしながら、一般的には、認識率の0.1%よりもそれに反して得られるメモリ使用量の低減の効果0.8MBの方が魅力的である。このような場合は、後者のパラメータセットを選択したいところであるが、上述の方法では、前者のパラメータセットが選択されることになる。 However, in the above-described method, it is impossible to express the operating condition by AND of each necessary condition such as the recognition rate, the recognition time, and the memory usage. The operating conditions that the user really wants to set are determined in consideration of the recognition rate, the recognition time, and the memory usage. That is, even if the operation condition gives priority to the recognition rate, such an operation condition cannot be actually used if the recognition time and the amount of memory used are too large. If the recognition rate is somewhat inferior but the memory usage can be halved, you should be willing to adopt it. For example, when a recognition rate of 90% or more and a memory usage of 2 MB or less are set as operating conditions, if a parameter set with a recognition rate of 90% and a memory usage of 2 MB is selected as a result of the trial, it was not selected. Some parameter sets have a recognition rate of 89.9% but may have a memory usage of 1.2 MB. Of course, this parameter set cannot be obtained as a solution because it does not satisfy the requirements regarding the recognition rate. However, in general, the effect of reducing the amount of memory used obtained on the contrary to 0.8 MB is more attractive than the recognition rate of 0.1%. In such a case, the latter parameter set is desired to be selected, but in the above method, the former parameter set is selected.
また、上記のように認識率とメモリ使用量の2つの条件だけを設定すると、得られる最適なパラメータセットでは、認識時間が非常に大きいものになる可能性がある。 Moreover, if only two conditions of the recognition rate and the memory usage are set as described above, the recognition time may be very long in the optimum parameter set obtained.
本発明は、上記問題点に鑑みてなされたものであり、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができるパラメータ設定装置、その方法、その制御方法を実現するプログラムおよび記憶媒体を提供することを目的とする。 The present invention has been made in view of the above problems, and even when at least one of a plurality of operating conditions is determined to be optimal, other conditions are within a range acceptable by the user. It is an object of the present invention to provide a parameter setting device capable of determining a parameter set so as to fall within the range, a method thereof, a program realizing the control method, and a storage medium.
本発明は、上記目的を達成するため、音声認識のためのパラメータ設定装置であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、前記試行毎の動作結果をグループ化するグループ化手段とを備えることを特徴とする。 In order to achieve the above object, the present invention provides a parameter setting device for speech recognition, and trial means for trying speech recognition using each of a plurality of parameter sets prepared in advance for operating conditions. And an operation result holding means for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto, and a grouping means for grouping the operation results for each trial.
本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、前記試行毎の動作結果をグループ化するグループ化工程とを備えることを特徴とする。 In order to achieve the above object, the present invention is a parameter setting method for speech recognition, and a trial step of trying speech recognition using each of a plurality of parameter sets prepared in advance for operating conditions. And an operation result holding step for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto, and a grouping step for grouping the operation results for each trial.
本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法を実現するためのプログラムであって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、前記試行毎の動作結果をグループ化するグループ化モジュールとを備えることを特徴とする。 In order to achieve the above object, the present invention is a program for realizing a parameter setting method for speech recognition, and uses a plurality of parameter sets prepared in advance for operating conditions to perform speech. A trial module for attempting recognition; an operation result holding module for holding an operation result including a recognition rate for each trial together with a parameter set corresponding to the trial module; and a grouping module for grouping the operation results for each trial. It is characterized by that.
本発明は、上記目的を達成するため、上記プログラムをコンピュータ読取可能に格納したことを特徴とする記憶媒体を提供する。 In order to achieve the above object, the present invention provides a storage medium in which the above program is stored so as to be readable by a computer.
本発明によれば、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件をユーザが許容可能な範囲内に収まるようにパラメータセットを決定することができる。 According to the present invention, even when at least one of a plurality of operating conditions is determined to be optimal, the parameter set is determined so that the other conditions are within an allowable range for the user. be able to.
以下、本発明の実施の形態について図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る音声認識のためのパラメータ設定装置のハードウエア構成を示すブロック図である。本実施の形態においては、一般的なパーソナルコンピュータを用いてパラメータ設定装置を実現する場合について説明するが、本発明は専用のパラメータ設定装置であっても、また他の形態の装置であってもよいことはいうまでもない。
(First embodiment)
FIG. 1 is a block diagram showing a hardware configuration of a parameter setting apparatus for speech recognition according to the first embodiment of the present invention. In the present embodiment, a case where a parameter setting device is realized using a general personal computer will be described. However, the present invention may be a dedicated parameter setting device or another type of device. Needless to say, it is good.
パラメータ設定装置は、音声認識のためのパラメータを適切に設定するための装置であり、図1に示すように、ROMなどからなる制御メモリ101、中央処理装置(CPU)102、RAMなどからなるメモリ103、外部記憶装置104、入力装置105、表示装置106、バス107などから構成される。制御メモリ101には、本パラメータ設定装置を実現するための制御プログラムやその制御プログラムで用いられるデータが格納される。これらの制御プログラムやデータは、中央処理装置102の制御の下で、バス107を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。
The parameter setting device is a device for appropriately setting parameters for speech recognition. As shown in FIG. 1, the parameter setting device is a
次に、本パラメータ設定装置のモジュール構成について図2を参照しながら説明する。図2は図1のパラメータ設定装置のモジュール構成を示すブロック図である。 Next, the module configuration of the parameter setting apparatus will be described with reference to FIG. FIG. 2 is a block diagram showing a module configuration of the parameter setting apparatus of FIG.
本パラメータ設定装置のモジュール構成は、図2に示すように、パラメータ探索条件保持部201、パラメータ選択部202、評価用データ保持部203、音声認識部204、動作結果保持部205、ベクトル量子化部206、量子化結果保持部207、表示処理部208、および入力処理部209を含む。このモジュール構成は、制御メモリ101に格納されている制御プログラムを中央処理装置102が実行することにより、構成されるものである。
As shown in FIG. 2, the module configuration of the parameter setting apparatus includes a parameter search
パラメータ探索条件保持部201は、各種パラメータを様々に変化させる場合の最大値、最小値、刻み幅などの探索条件を保持する。パラメータ選択部202は、パラメータ探索条件保持部201が保持する探索条件の中からこれまでに試行していないパラメータセットの中から1つのパラメータセットを選び出す。評価用データ保持部203は、音声認識の評価を行うためのデータを保持する。このデータは、具体的には、評価用の音声データ、認識文法、言語モデル、音響モデルなどである。音声認識部204は、パラメータ選択部202により選択されたパラメータセットを用いて音声認識を行う。動作結果保持部205は、各試行において音声認識を実行した結果として得られる動作結果を保持する。ここで、動作結果とは、認識率、認識時間、およびメモリ使用量を示すものである。
The parameter search
ベクトル量子化部206は、上記動作結果をベクトルとみなしてベクトル量子化を行う。量子化結果保持部207は、ベクトル量子化部206によるベクトル量子化の結果を保持する。表示処理部208は、ベクトル量子化部206によるベクトル量子化の結果を表示する。入力処理部209は、ユーザが量子化結果の中から所望の一つを選択入力するための操作を行うための操作手段を有し、該操作手段を用いた操作により選択入力された量子化結果を受理する。パラメータセット決定部210は、ユーザの入力に対応するパラメータセットを求める。
The
次に、本パラメータ設定装置の処理について図3を参照しながら説明する。図3は図2のパラメータ設定装置の処理の手順を示すフローチャートである。この図3のフローチャートで示される手順は、図2のモジュール構成により実行されるものである。 Next, processing of the parameter setting device will be described with reference to FIG. FIG. 3 is a flowchart showing a processing procedure of the parameter setting apparatus of FIG. The procedure shown in the flowchart of FIG. 3 is executed by the module configuration of FIG.
本パラメータ設定装置においては、図3に示すように、まずステップS301において、パラメータ選択部202が、パラメータ探索条件保持部201に保持されている探索条件の中に未試行のパラメータセットが存在するか否かを判定する。ここで、探索条件とは、音声認識を様々な値のパラメータで試行するための、各パラメータのとりうる最小値、最大値、および刻み幅などで定義されるものである。また、いうまでもないが、探索条件は、試行すべきパラメータの値をリストアップしたものでもよい。そして、未試行のパラメータセットが存在する場合は、パラメータ選択部202によりパラメータ探索条件保持部201が保持する探索条件の中から、未試行のパラメータセットの一つが選択され、処理がステップS302に進められる。これに対し、未試行のパラメータセットが存在しない場合は、処理がステップS304に進められる。
In this parameter setting apparatus, as shown in FIG. 3, first, in step S301, the
ステップS302においては、音声認識部204が、パラメータ選択部202が選択したパラメータセットと、評価用データ保持部203が保持する評価用データを用いて音声認識を行う。音声認識部204は、認識率、認識時間、メモリ使用量をそれぞれ計算する。そして、ステップS303において、動作結果保持部205が、音声認識の結果として得られる認識率、認識時間、メモリ使用量およびその試行に用いたパラメータセットを組にして保持する。次いで、処理がステップS301に戻る。
In step S <b> 302, the
ステップS304においては、ベクトル量子化部206が、これまでの各試行で得られた動作結果(認識率、認識時間、メモリ使用量)を3次元のベクトルとみなしてベクトル量子化を行い、その結果を量子化結果保持部207に保持する。ベクトル量子化は、一般的な方法のものを利用すればよい。また、量子化の結果として得られる量子化ベクトルの数は、ユーザがその中から選択することが可能な程度に少ないことが望ましく5〜10程度がよい。この数は、予め適切な値を設定しておいてもよいし、ユーザに設定させてもかまわない。
In step S304, the
次いで、ステップS305において、表示処理部208が量子化結果保持部207に保持されている量子化結果をユーザに提示し、続くステップS306において、入力処理部209が、ユーザの入力を受理する。ここで入力される情報は、量子化結果の中からユーザが所望するものの一つである。入力を受理すると、ステップS307において、パラメータセット決定部210が、入力処理部209が受理したユーザの選択結果に基づいて量子化結果保持部207に保持されている量子化結果に一致するパラメータセットを探し出し、それを求めるパラメータのセットとする。そして、本処理は、終了する。
Next, in step S305, the
次に、本実施の形態におけるベクトル量子化部206によるベクトル量子化の入出力データについて図4を参照しながら説明する。図4は図2のベクトル量子化部206によるベクトル量子化の入出力データの一例を示す図である。
Next, input / output data of vector quantization by the
ベクトル量子化部206に入力されるベクトル量子化の入力、すなわち、すべての試行の動作結果としては、例えば図4に示すような入力401がある。この入力401に対応するパラメータセットは、パラメータセット403である。入力401およびパラメータセット403は、図2の動作結果保持部205に保持される。上記入力401に対して、ベクトル量子化部206からは、ベクトル量子化の出力402が得られる。この出力402は、量子化結果保持部207に保持される。
As an input of vector quantization input to the
このように、本実施の形態によれば、すべての試行を対象にベクトル量子化を行うので、ユーザが所望する動作条件に近いパラメータセットを決定することができる。換言すれば、認識率、認識時間、メモリ使用量の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができる。 Thus, according to the present embodiment, since vector quantization is performed for all trials, it is possible to determine a parameter set that is close to the operating condition desired by the user. In other words, even when at least one of the operating conditions of the recognition rate, the recognition time, and the memory usage is determined to be optimal, the other conditions are within the user-acceptable range. A parameter set can be determined.
本実施の形態においては、ベクトル量子化の結果をユーザに提示し、その中から所望する結果をユーザに選択させる場合について説明したが、これに限定されるものではなく、ベクトル量子化の結果として得られた複数の代表ベクトルの中で各要素(認識率、認識時間、メモリ使用量)について、その値が最大となる要素を含むベクトルを、それぞれ認識率優先、認識時間優先、省メモリ優先の各モードに割り付け、そのときのパラメータセットを各モードのパラメータとしてユーザに提供するようにしてもよい。これにより、音声認識のパラメータチューニングに関する経験が少ないユーザでもパラメータセットの選択が可能となる。 In the present embodiment, a case has been described in which the result of vector quantization is presented to the user, and the user is allowed to select a desired result. However, the present invention is not limited to this, and as a result of vector quantization Among the obtained representative vectors, for each element (recognition rate, recognition time, memory usage), the vector containing the element with the maximum value is assigned the recognition rate priority, recognition time priority, and memory saving priority. It may be assigned to each mode, and the parameter set at that time may be provided to the user as a parameter of each mode. As a result, even a user with little experience in parameter recognition for speech recognition can select a parameter set.
また、本実施の形態においては、すべての試行を対象にベクトル量子化を行う場合について説明したが、これに限定されるものではなく、音声認識のパラメータとして明らかに不適当なものを取り除いた後、ベクトル量子化を行うようにしてもよい。音声認識のパラメータとして明らかに不適当であることを判別する方法としては、動作結果に着目し、例えば認識率に関して言えば、認識率が80%以下のもの、認識率の最大値の80%以下のもの、認識率の最大値より20%以上低いものなどを不適当であるとすればよい。いうまでもなく、認識率に限らず、認識時間やメモリ使用量に関する動作結果について同様の事前処理を行うことは、有効である。これにより、上述した、各要素(認識率、認識時間、メモリ使用量)のベクトルを認識率優先、認識時間優先、省メモリ優先の各モードへ割り付ける場合においては、たとえ認識率優先モードのパラメータセットを選択しても、認識率とメモリ使用量を許容可能な範囲内に収めることが保証される。 In the present embodiment, the case where vector quantization is performed for all trials has been described. However, the present invention is not limited to this, and after clearly unsuitable speech recognition parameters are removed. Alternatively, vector quantization may be performed. As a method for discriminating that the parameters are obviously inappropriate as a speech recognition parameter, paying attention to the operation result, for example, regarding the recognition rate, the recognition rate is 80% or less, and the maximum value of the recognition rate is 80% or less. And those that are 20% or more lower than the maximum recognition rate may be considered inappropriate. Needless to say, it is effective to perform the same pre-processing on the operation result related to the recognition time and the memory usage, not limited to the recognition rate. Thereby, in the case of assigning the vector of each element (recognition rate, recognition time, memory usage) to each mode of recognition rate priority, recognition time priority, and memory saving priority, the parameter set of the recognition rate priority mode is set. Is selected, it is guaranteed that the recognition rate and the memory usage are within the allowable range.
(第2の実施の形態)
次に、本発明の第2の実施の形態について図5を参照しながら説明する。図5は本発明の第2の実施の形態に係るパラメータ設定装置における認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果を表した図である。
(Second Embodiment)
Next, a second embodiment of the present invention will be described with reference to FIG. FIG. 5 is a diagram showing the result of grouping on a two-dimensional plane regarding the recognition time and the memory usage in the parameter setting apparatus according to the second embodiment of the present invention.
上記第1の実施の形態は、量子化の結果として得られる量子化ベクトルの数を、ユーザがその中から選択することが可能な程度に少ないことが望ましいとし、その数を5〜10程度としていることに対し、本実施の形態は、動作結果の値毎にグルーピングして提示する方法を採用する。 In the first embodiment, it is desirable that the number of quantization vectors obtained as a result of quantization be as small as possible so that the user can select from among them. In contrast, the present embodiment employs a method of grouping and presenting each operation result value.
本実施の形態の方法の場合、すべての試行により得られる動作結果が、メモリ使用量と認識時間の組で分類される。例えば、メモリ使用量の場合は0.2MB刻み、認識時間の場合は50ミリ秒刻みで量子化するなどの方法が用いられる。このような観点ですべての動作結果が分類される。次に、各グループにおいて、認識率が最大となる動作結果が選択される。この各グループで選択された動作結果が、上記第1の実施の形態におけるベクトル量子化の結果に相当する。そして、これがユーザに提示される。 In the case of the method according to the present embodiment, the operation results obtained by all trials are classified by combinations of memory usage and recognition time. For example, a method of quantizing in units of 0.2 MB in the case of memory usage and in units of 50 milliseconds in the case of recognition time is used. From this point of view, all operation results are classified. Next, in each group, an operation result that maximizes the recognition rate is selected. The operation result selected in each group corresponds to the vector quantization result in the first embodiment. This is then presented to the user.
メモリ使用量や認識時間の刻み幅は、システム設計上問題とならない程度の大きさにする。すなわち、同じグループに属するものは大差ないと考えてよいことになる。その中で、認識率が最大となる動作結果を選択できるため、上記第1の実施の形態と比較すると明らかなように、認識率を犠牲にすることなく、また、メモリ使用量や認識時間の刻みも妥当な大きさに刻むことができるという利点がある。 The amount of memory used and the increment of recognition time should be large enough not to cause problems in system design. That is, it can be considered that there is no great difference between those belonging to the same group. Among them, since the operation result that maximizes the recognition rate can be selected, the memory usage amount and the recognition time can be reduced without sacrificing the recognition rate, as is clear when compared with the first embodiment. There is an advantage that the step can be cut into a reasonable size.
本実施の形態においては、例えば図5に示すような、認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果が提示される。ここで、平面上の数字は、各グループにおける最大認識率である。ユーザは、この図5から所望の認識率、メモリ使用量、認識時間を達成するパラメータセットを選択することができる。 In the present embodiment, grouping results are presented on a two-dimensional plane regarding recognition time and memory usage, for example, as shown in FIG. Here, the number on the plane is the maximum recognition rate in each group. The user can select a parameter set that achieves a desired recognition rate, memory usage, and recognition time from FIG.
例えば、図5の最大認識率93のグループ501と最大認識率94のグループ502を比較すると、グループ501に関しては、グループ502より認識率は高いが、その差はわずか1%である。また、認識時間に関しては、各グループ501,502は、850ミリ秒〜900ミリ秒の同じグループとなる。一方で、メモリ使用量に着目すると、グループ501においては、2.2MB〜2.4MBのメモリ量が必要であるが、グループ502においては、グループ501より少ない、1.6MB〜1.8MBのメモリ量がである。よって、ユーザは、若干認識率は低いもののメモリ使用量が格段に少ないグループ502を選択することも可能となる。
For example, when comparing the
本実施の形態においては、メモリ使用量−認識時間平面に認識率を提示する場合について説明したが、これに限定されるものではなく、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよい。いうまでもなく、メモリ使用量−認識率平面の場合は、認識時間の最小値を、認識時間−認識率平面の場合は、メモリ使用量の最小値をそれぞれ表示する。 In this embodiment, the case where the recognition rate is presented on the memory usage-recognition time plane has been described. However, the present invention is not limited to this, and the memory usage-recognition rate plane and the recognition time-recognition rate plane are You may make it show. Needless to say, the minimum value of the recognition time is displayed in the case of the memory usage amount-recognition rate plane, and the minimum value of the memory usage amount is displayed in the case of the recognition time-recognition rate plane.
上記第1の実施の形態においては、動作結果(認識率、認識時間、メモリ使用量)をベクトルとみなしてベクトル量子化する場合について説明したが、これに限定されるものではなく、(認識率、メモリ使用量)をベクトルとみなしてベクトル量子化を行う場合もよいものとする。さらに、上記第2の実施の形態と組み合わせて、量子化の結果をメモリ使用量−認識時間平面上に表示するようにしてもよい。平面上に提示する数字は、その代表ベクトルによって代表される動作結果の集合の中の最大認識率である。この場合は、動作結果がどの代表ベクトルに所属するかを記録しておく必要がある。 In the first embodiment, the case where the operation result (recognition rate, recognition time, memory usage) is regarded as a vector and vector quantization is described, but the present invention is not limited to this. It is also possible to perform vector quantization by regarding the memory usage as a vector. Further, in combination with the second embodiment, the quantization result may be displayed on the memory usage amount-recognition time plane. The number presented on the plane is the maximum recognition rate in the set of motion results represented by the representative vector. In this case, it is necessary to record which representative vector the operation result belongs to.
また、メモリ使用量−認識時間平面上に認識率を表示することに代えて、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよく、メモリ使用量−認識率平面の場合は認識時間の最小値が、認識時間−認識率平面の場合はメモリ使用量の最小値がそれぞれ表示されることになる。 Further, instead of displaying the recognition rate on the memory usage-recognition time plane, a memory usage-recognition rate plane or a recognition time-recognition rate plane may be presented. In the case of the plane, the minimum value of the recognition time is displayed, and in the case of the recognition time-recognition rate plane, the minimum value of the memory usage is displayed.
上記第1の実施の形態のベクトル量子化において、認識率、認識時間、メモリ使用量はそれぞれ違う性質のものであるので、距離尺度としてそれぞれの分散で正規化したものを利用してもよい。この場合の分散は、試行結果のすべてもしくは一部を使ってその各要素である認識率、認識時間、メモリ使用量の値の分散をそれぞれ求めることで実現できる。 In the vector quantization of the first embodiment, the recognition rate, the recognition time, and the memory usage have different properties. Therefore, the distance scale normalized by each variance may be used. The variance in this case can be realized by using all or a part of the trial results to obtain the variances of the recognition rate, recognition time, and memory usage values that are the respective elements.
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを、ネットワークなどを介してダウンロードして実行したり、プログラムコードを記録した記録媒体をシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。 The present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device. The program code of the software realizing the functions of the above-described embodiments is downloaded and executed via a network or the like, or a recording medium on which the program code is recorded is supplied to the system or apparatus, and the computer ( Needless to say, this can also be achieved by reading and executing the program code stored in the recording medium by the CPU or MPU.
この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 In this case, the program code itself read from the recording medium realizes the functions of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the present invention. As a recording medium for supplying the program code, for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like is used. be able to.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることはいうまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS running on the computer performs actual processing based on an instruction of the program code. It goes without saying that a case where the functions of the above-described embodiment are realized by performing part or all of the processing, is also included.
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることはいうまでもない。 Furthermore, after the program code read from the recording medium is written in a memory provided in a function expansion board inserted in the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
101 制御メモリ101
102 中央処理装置(CPU)
103 メモリ103
104 外部記憶装置
105 入力装置
106 表示装置
107 バス
201 パラメータ探索条件保持部
202 パラメータ選択部
203 評価用データ保持部
204 音声認識部
205 動作結果保持部
206 ベクトル量子化部
207 量子化結果保持部
208 表示処理部
209 入力処理部
101
102 Central processing unit (CPU)
103
104
Claims (10)
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、
前記試行毎の動作結果をグループ化するグループ化手段と
を備えることを特徴とするパラメータ設定装置。 A parameter setting device for speech recognition,
Trial means for attempting speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
Operation result holding means for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto;
A parameter setting device comprising grouping means for grouping operation results for each trial.
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、
前記試行毎の動作結果をグループ化するグループ化工程と
を備えることを特徴とするパラメータ設定方法。 A parameter setting method for speech recognition,
A trial step of trying speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
An operation result holding step of holding an operation result including a recognition rate together with a parameter set corresponding to the recognition rate for each trial;
And a grouping step of grouping the operation results for each trial.
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、
前記試行毎の動作結果をグループ化するグループ化モジュールと
を備えることを特徴とするプログラム。 A program for realizing a parameter setting method for speech recognition,
A trial module that attempts speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
An operation result holding module that holds an operation result including a recognition rate for each trial together with a parameter set corresponding thereto;
A program comprising: a grouping module for grouping operation results for each trial.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003412497A JP2005173157A (en) | 2003-12-10 | 2003-12-10 | Parameter setting device, parameter setting method, program and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003412497A JP2005173157A (en) | 2003-12-10 | 2003-12-10 | Parameter setting device, parameter setting method, program and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005173157A true JP2005173157A (en) | 2005-06-30 |
Family
ID=34732921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003412497A Withdrawn JP2005173157A (en) | 2003-12-10 | 2003-12-10 | Parameter setting device, parameter setting method, program and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005173157A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532742A (en) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | Method and system for evaluating and improving the performance of speech recognition systems |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
-
2003
- 2003-12-10 JP JP2003412497A patent/JP2005173157A/en not_active Withdrawn
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US9202458B2 (en) | 2005-02-04 | 2015-12-01 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
JP2013232017A (en) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | Method and system for assessing and improving performance of speech recognition system |
JP2009532742A (en) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | Method and system for evaluating and improving the performance of speech recognition systems |
US9697818B2 (en) | 2011-05-20 | 2017-07-04 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10685643B2 (en) | 2011-05-20 | 2020-06-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11810545B2 (en) | 2011-05-20 | 2023-11-07 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11817078B2 (en) | 2011-05-20 | 2023-11-14 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106658129B (en) | Terminal control method and device based on emotion and terminal | |
CN110956956A (en) | Voice recognition method and device based on policy rules | |
CN110136715B (en) | Speech recognition method and device | |
US10636412B2 (en) | System and method for unit selection text-to-speech using a modified Viterbi approach | |
CN108630203A (en) | Interactive voice equipment and its processing method and program | |
CN105609097A (en) | Speech synthesis apparatus and control method thereof | |
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
WO2010096273A1 (en) | Automatic computation streaming partition for voice recognition on multiple processors with limited memory | |
CN111061867A (en) | Text generation method, equipment, storage medium and device based on quality perception | |
JP2005173157A (en) | Parameter setting device, parameter setting method, program and storage medium | |
EP3198870B1 (en) | Processing parameters for operations on blocks while decoding images | |
JP2001086239A (en) | Voice input terminal, voice recognition device, voice communication system and voice communication method | |
CN113658586B (en) | Training method of voice recognition model, voice interaction method and device | |
CN104167206A (en) | Acoustic model combination method and device, and voice identification method and system | |
US20210090551A1 (en) | Emotional speech generating method and apparatus for controlling emotional intensity | |
US6789063B1 (en) | Acoustic modeling using a two-level decision tree in a speech recognition system | |
CN111508471B (en) | Speech synthesis method and device, electronic equipment and storage device | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
CN113516963B (en) | Audio data generation method and device, server and intelligent sound box | |
CN113051426A (en) | Audio information classification method and device, electronic equipment and storage medium | |
CN112259097A (en) | Control method for voice recognition and computer equipment | |
CN107833259B (en) | Dynamic cartoon engine processing method and system based on intelligent terminal | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
CN110931014A (en) | Speech recognition method and device based on regular matching rule | |
CN111354351A (en) | Control device, voice interaction device, voice recognition server, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060418 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070306 |