JP2005173157A - Parameter setting device, parameter setting method, program and storage medium - Google Patents

Parameter setting device, parameter setting method, program and storage medium Download PDF

Info

Publication number
JP2005173157A
JP2005173157A JP2003412497A JP2003412497A JP2005173157A JP 2005173157 A JP2005173157 A JP 2005173157A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2005173157 A JP2005173157 A JP 2005173157A
Authority
JP
Japan
Prior art keywords
parameter
grouping
recognition
trial
parameter setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003412497A
Other languages
Japanese (ja)
Inventor
Yasuo Okuya
泰夫 奥谷
Toshiaki Fukada
俊明 深田
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003412497A priority Critical patent/JP2005173157A/en
Publication of JP2005173157A publication Critical patent/JP2005173157A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a parameter setting device which can determine a parameter set so that other conditions fall within ranges to which a user can give permission even in the case where the parameter set is determined so that at least one condition out of a plurality of operating conditions becomes optimum. <P>SOLUTION: In the parameter setting device, a voice recognizing part 204 performs voice recognition using a parameter set selected by a parameter selecting part 202. Results of operations obtained as results of having performed voice recognition in respective trials, namely, recognition rates, recognition periods, and memory usages are held. A vector quantization part 206 performs vector quantization by considering the results of operations as vectors and results of the vector quantization are displayed by a display processing part 208. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、音声認識のためのパラメータを適切に設定するためのパラメータ設定装置、その方法、プログラムおよび記憶媒体に関する。   The present invention relates to a parameter setting device, a method, a program, and a storage medium for appropriately setting parameters for speech recognition.

音声認識を実環境で利用するためには、各種パラメータのチューニングが必要である。ここで、パラメータとは、ビーム幅、音響モデル、VAD(音声切り出し)の閾値などの音声認識に関する任意のパラメータを包含する。このパラメータのチューニングは、音声認識に詳しい技術者が認識実験を試行錯誤しながらパラメータを決定するという方法が一般的である。そのため、パラメータのチューニングは、音声認識に関する深い知識や経験を有する技術者のみが行うことが可能な作業であるといえる。   In order to use speech recognition in a real environment, various parameters need to be tuned. Here, the parameters include arbitrary parameters related to speech recognition, such as a beam width, an acoustic model, and a VAD (speech extraction) threshold. The parameter tuning is generally performed by a method in which an engineer familiar with speech recognition determines the parameter through trial and error. Therefore, it can be said that parameter tuning is an operation that can be performed only by engineers who have deep knowledge and experience regarding speech recognition.

一方、これらパラメータのチューニングを自動的に行う方法が提案されている(例えば、特許文献1を参照)。この方法は、評価セット(音声データと認識文法)、動作条件(認識率、認識時間、メモリ使用量などの必要条件)、各パラメータの探索条件(刻み幅や範囲)を与え、各パラメータの値を探索条件内で様々に変化させながら音声認識を繰り返し試行し、各試行における動作結果(認識率、認識時間、メモリ使用量)を記録し、記録された動作結果から、動作条件を満足する最適なパラメータのセットを最終的に得るものである。
特開2002−328696号公報
On the other hand, a method for automatically tuning these parameters has been proposed (see, for example, Patent Document 1). This method gives an evaluation set (speech data and recognition grammar), operating conditions (requirements such as recognition rate, recognition time, memory usage, etc.), search conditions (step size and range) for each parameter, and values for each parameter The speech recognition is repeatedly tried while changing the search conditions in various ways, and the operation results (recognition rate, recognition time, memory usage) in each trial are recorded, and the optimum operation conditions are satisfied from the recorded operation results. The final set of parameters.
JP 2002-328696A

しかしながら、上述した方法においては、動作条件を、認識率、認識時間、メモリ使用量などの各必要条件のアンドで表現すること自体に無理がある。本当にユーザが設定したい動作条件とは、認識率、認識時間、メモリ使用量との兼ね合いの中で決まるものである。すなわち、認識率を優先させるような動作条件であっても、認識時間やメモリ使用量が大きすぎるものである場合、このような動作条件は、実際には使用することができない。また、認識率は多少劣るがメモリ使用量が半分で済むものがあれば、積極的にそちらを採用したいと考えるはずである。例えば、動作条件として認識率90%以上、かつ、メモリ使用量2MB以下を設定した場合において、試行の結果、認識率90%でメモリ使用量2MBのパラメータセットが選ばれたとすると、選ばれなかったパラメータセットの中には、認識率は89.9%であるが、メモリ使用量が1.2MBのものが存在する可能性がある。もちろん、このパラメータセットは、認識率に関する必要条件を満たさなかったために、解としては得られない。しかしながら、一般的には、認識率の0.1%よりもそれに反して得られるメモリ使用量の低減の効果0.8MBの方が魅力的である。このような場合は、後者のパラメータセットを選択したいところであるが、上述の方法では、前者のパラメータセットが選択されることになる。   However, in the above-described method, it is impossible to express the operating condition by AND of each necessary condition such as the recognition rate, the recognition time, and the memory usage. The operating conditions that the user really wants to set are determined in consideration of the recognition rate, the recognition time, and the memory usage. That is, even if the operation condition gives priority to the recognition rate, such an operation condition cannot be actually used if the recognition time and the amount of memory used are too large. If the recognition rate is somewhat inferior but the memory usage can be halved, you should be willing to adopt it. For example, when a recognition rate of 90% or more and a memory usage of 2 MB or less are set as operating conditions, if a parameter set with a recognition rate of 90% and a memory usage of 2 MB is selected as a result of the trial, it was not selected. Some parameter sets have a recognition rate of 89.9% but may have a memory usage of 1.2 MB. Of course, this parameter set cannot be obtained as a solution because it does not satisfy the requirements regarding the recognition rate. However, in general, the effect of reducing the amount of memory used obtained on the contrary to 0.8 MB is more attractive than the recognition rate of 0.1%. In such a case, the latter parameter set is desired to be selected, but in the above method, the former parameter set is selected.

また、上記のように認識率とメモリ使用量の2つの条件だけを設定すると、得られる最適なパラメータセットでは、認識時間が非常に大きいものになる可能性がある。   Moreover, if only two conditions of the recognition rate and the memory usage are set as described above, the recognition time may be very long in the optimum parameter set obtained.

本発明は、上記問題点に鑑みてなされたものであり、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができるパラメータ設定装置、その方法、その制御方法を実現するプログラムおよび記憶媒体を提供することを目的とする。   The present invention has been made in view of the above problems, and even when at least one of a plurality of operating conditions is determined to be optimal, other conditions are within a range acceptable by the user. It is an object of the present invention to provide a parameter setting device capable of determining a parameter set so as to fall within the range, a method thereof, a program realizing the control method, and a storage medium.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定装置であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、前記試行毎の動作結果をグループ化するグループ化手段とを備えることを特徴とする。   In order to achieve the above object, the present invention provides a parameter setting device for speech recognition, and trial means for trying speech recognition using each of a plurality of parameter sets prepared in advance for operating conditions. And an operation result holding means for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto, and a grouping means for grouping the operation results for each trial.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、前記試行毎の動作結果をグループ化するグループ化工程とを備えることを特徴とする。   In order to achieve the above object, the present invention is a parameter setting method for speech recognition, and a trial step of trying speech recognition using each of a plurality of parameter sets prepared in advance for operating conditions. And an operation result holding step for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto, and a grouping step for grouping the operation results for each trial.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法を実現するためのプログラムであって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、前記試行毎の動作結果をグループ化するグループ化モジュールとを備えることを特徴とする。   In order to achieve the above object, the present invention is a program for realizing a parameter setting method for speech recognition, and uses a plurality of parameter sets prepared in advance for operating conditions to perform speech. A trial module for attempting recognition; an operation result holding module for holding an operation result including a recognition rate for each trial together with a parameter set corresponding to the trial module; and a grouping module for grouping the operation results for each trial. It is characterized by that.

本発明は、上記目的を達成するため、上記プログラムをコンピュータ読取可能に格納したことを特徴とする記憶媒体を提供する。   In order to achieve the above object, the present invention provides a storage medium in which the above program is stored so as to be readable by a computer.

本発明によれば、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件をユーザが許容可能な範囲内に収まるようにパラメータセットを決定することができる。   According to the present invention, even when at least one of a plurality of operating conditions is determined to be optimal, the parameter set is determined so that the other conditions are within an allowable range for the user. be able to.

以下、本発明の実施の形態について図面を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施の形態)
図1は本発明の第1の実施の形態に係る音声認識のためのパラメータ設定装置のハードウエア構成を示すブロック図である。本実施の形態においては、一般的なパーソナルコンピュータを用いてパラメータ設定装置を実現する場合について説明するが、本発明は専用のパラメータ設定装置であっても、また他の形態の装置であってもよいことはいうまでもない。
(First embodiment)
FIG. 1 is a block diagram showing a hardware configuration of a parameter setting apparatus for speech recognition according to the first embodiment of the present invention. In the present embodiment, a case where a parameter setting device is realized using a general personal computer will be described. However, the present invention may be a dedicated parameter setting device or another type of device. Needless to say, it is good.

パラメータ設定装置は、音声認識のためのパラメータを適切に設定するための装置であり、図1に示すように、ROMなどからなる制御メモリ101、中央処理装置(CPU)102、RAMなどからなるメモリ103、外部記憶装置104、入力装置105、表示装置106、バス107などから構成される。制御メモリ101には、本パラメータ設定装置を実現するための制御プログラムやその制御プログラムで用いられるデータが格納される。これらの制御プログラムやデータは、中央処理装置102の制御の下で、バス107を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。   The parameter setting device is a device for appropriately setting parameters for speech recognition. As shown in FIG. 1, the parameter setting device is a control memory 101 composed of a ROM, a central processing unit (CPU) 102, a memory composed of a RAM, and the like. 103, an external storage device 104, an input device 105, a display device 106, a bus 107, and the like. The control memory 101 stores a control program for realizing the parameter setting device and data used in the control program. These control programs and data are appropriately fetched into the memory 103 through the bus 107 under the control of the central processing unit 102 and executed by the central processing unit 102.

次に、本パラメータ設定装置のモジュール構成について図2を参照しながら説明する。図2は図1のパラメータ設定装置のモジュール構成を示すブロック図である。   Next, the module configuration of the parameter setting apparatus will be described with reference to FIG. FIG. 2 is a block diagram showing a module configuration of the parameter setting apparatus of FIG.

本パラメータ設定装置のモジュール構成は、図2に示すように、パラメータ探索条件保持部201、パラメータ選択部202、評価用データ保持部203、音声認識部204、動作結果保持部205、ベクトル量子化部206、量子化結果保持部207、表示処理部208、および入力処理部209を含む。このモジュール構成は、制御メモリ101に格納されている制御プログラムを中央処理装置102が実行することにより、構成されるものである。   As shown in FIG. 2, the module configuration of the parameter setting apparatus includes a parameter search condition holding unit 201, a parameter selection unit 202, an evaluation data holding unit 203, a speech recognition unit 204, an operation result holding unit 205, and a vector quantization unit. 206, a quantization result holding unit 207, a display processing unit 208, and an input processing unit 209. This module configuration is configured by the central processing unit 102 executing a control program stored in the control memory 101.

パラメータ探索条件保持部201は、各種パラメータを様々に変化させる場合の最大値、最小値、刻み幅などの探索条件を保持する。パラメータ選択部202は、パラメータ探索条件保持部201が保持する探索条件の中からこれまでに試行していないパラメータセットの中から1つのパラメータセットを選び出す。評価用データ保持部203は、音声認識の評価を行うためのデータを保持する。このデータは、具体的には、評価用の音声データ、認識文法、言語モデル、音響モデルなどである。音声認識部204は、パラメータ選択部202により選択されたパラメータセットを用いて音声認識を行う。動作結果保持部205は、各試行において音声認識を実行した結果として得られる動作結果を保持する。ここで、動作結果とは、認識率、認識時間、およびメモリ使用量を示すものである。   The parameter search condition holding unit 201 holds search conditions such as a maximum value, a minimum value, and a step size when various parameters are changed variously. The parameter selection unit 202 selects one parameter set from the parameter sets that have not been tried so far from the search conditions held by the parameter search condition holding unit 201. The evaluation data holding unit 203 holds data for performing speech recognition evaluation. Specifically, this data is speech data for evaluation, recognition grammar, language model, acoustic model, and the like. The voice recognition unit 204 performs voice recognition using the parameter set selected by the parameter selection unit 202. The operation result holding unit 205 holds an operation result obtained as a result of executing speech recognition in each trial. Here, the operation result indicates a recognition rate, a recognition time, and a memory usage.

ベクトル量子化部206は、上記動作結果をベクトルとみなしてベクトル量子化を行う。量子化結果保持部207は、ベクトル量子化部206によるベクトル量子化の結果を保持する。表示処理部208は、ベクトル量子化部206によるベクトル量子化の結果を表示する。入力処理部209は、ユーザが量子化結果の中から所望の一つを選択入力するための操作を行うための操作手段を有し、該操作手段を用いた操作により選択入力された量子化結果を受理する。パラメータセット決定部210は、ユーザの入力に対応するパラメータセットを求める。   The vector quantization unit 206 performs vector quantization by regarding the operation result as a vector. The quantization result holding unit 207 holds the result of vector quantization by the vector quantization unit 206. The display processing unit 208 displays the result of vector quantization by the vector quantization unit 206. The input processing unit 209 has an operation unit for the user to perform an operation for selecting and inputting a desired one from the quantization results, and the quantization result selected and input by an operation using the operation unit Is accepted. The parameter set determination unit 210 obtains a parameter set corresponding to the user input.

次に、本パラメータ設定装置の処理について図3を参照しながら説明する。図3は図2のパラメータ設定装置の処理の手順を示すフローチャートである。この図3のフローチャートで示される手順は、図2のモジュール構成により実行されるものである。   Next, processing of the parameter setting device will be described with reference to FIG. FIG. 3 is a flowchart showing a processing procedure of the parameter setting apparatus of FIG. The procedure shown in the flowchart of FIG. 3 is executed by the module configuration of FIG.

本パラメータ設定装置においては、図3に示すように、まずステップS301において、パラメータ選択部202が、パラメータ探索条件保持部201に保持されている探索条件の中に未試行のパラメータセットが存在するか否かを判定する。ここで、探索条件とは、音声認識を様々な値のパラメータで試行するための、各パラメータのとりうる最小値、最大値、および刻み幅などで定義されるものである。また、いうまでもないが、探索条件は、試行すべきパラメータの値をリストアップしたものでもよい。そして、未試行のパラメータセットが存在する場合は、パラメータ選択部202によりパラメータ探索条件保持部201が保持する探索条件の中から、未試行のパラメータセットの一つが選択され、処理がステップS302に進められる。これに対し、未試行のパラメータセットが存在しない場合は、処理がステップS304に進められる。   In this parameter setting apparatus, as shown in FIG. 3, first, in step S301, the parameter selection unit 202 determines whether there is an untrial parameter set in the search conditions held in the parameter search condition holding unit 201. Determine whether or not. Here, the search condition is defined by a minimum value, a maximum value, a step size, and the like that each parameter can take in order to try speech recognition with parameters of various values. Needless to say, the search condition may be a list of parameter values to be tried. If an untrial parameter set exists, the parameter selection unit 202 selects one of the untrial parameter sets from the search conditions held by the parameter search condition holding unit 201, and the process proceeds to step S302. It is done. On the other hand, if there is no untrial parameter set, the process proceeds to step S304.

ステップS302においては、音声認識部204が、パラメータ選択部202が選択したパラメータセットと、評価用データ保持部203が保持する評価用データを用いて音声認識を行う。音声認識部204は、認識率、認識時間、メモリ使用量をそれぞれ計算する。そして、ステップS303において、動作結果保持部205が、音声認識の結果として得られる認識率、認識時間、メモリ使用量およびその試行に用いたパラメータセットを組にして保持する。次いで、処理がステップS301に戻る。   In step S <b> 302, the voice recognition unit 204 performs voice recognition using the parameter set selected by the parameter selection unit 202 and the evaluation data held by the evaluation data holding unit 203. The voice recognition unit 204 calculates a recognition rate, a recognition time, and a memory usage amount. In step S303, the operation result holding unit 205 holds the recognition rate, the recognition time, the memory usage, and the parameter set used for the trial obtained as a result of the speech recognition as a set. Next, the process returns to step S301.

ステップS304においては、ベクトル量子化部206が、これまでの各試行で得られた動作結果(認識率、認識時間、メモリ使用量)を3次元のベクトルとみなしてベクトル量子化を行い、その結果を量子化結果保持部207に保持する。ベクトル量子化は、一般的な方法のものを利用すればよい。また、量子化の結果として得られる量子化ベクトルの数は、ユーザがその中から選択することが可能な程度に少ないことが望ましく5〜10程度がよい。この数は、予め適切な値を設定しておいてもよいし、ユーザに設定させてもかまわない。   In step S304, the vector quantization unit 206 regards the operation results (recognition rate, recognition time, memory usage) obtained in each trial so far as a three-dimensional vector, and performs vector quantization. Is held in the quantization result holding unit 207. For vector quantization, a general method may be used. The number of quantization vectors obtained as a result of quantization is preferably as small as possible so that the user can select from among them. This number may be set to an appropriate value in advance or may be set by the user.

次いで、ステップS305において、表示処理部208が量子化結果保持部207に保持されている量子化結果をユーザに提示し、続くステップS306において、入力処理部209が、ユーザの入力を受理する。ここで入力される情報は、量子化結果の中からユーザが所望するものの一つである。入力を受理すると、ステップS307において、パラメータセット決定部210が、入力処理部209が受理したユーザの選択結果に基づいて量子化結果保持部207に保持されている量子化結果に一致するパラメータセットを探し出し、それを求めるパラメータのセットとする。そして、本処理は、終了する。   Next, in step S305, the display processing unit 208 presents the quantization result held in the quantization result holding unit 207 to the user, and in the subsequent step S306, the input processing unit 209 accepts the user input. The information input here is one desired by the user from among the quantization results. When the input is accepted, in step S307, the parameter set determination unit 210 selects a parameter set that matches the quantization result held in the quantization result holding unit 207 based on the user selection result received by the input processing unit 209. Find and use it as a set of parameters. Then, this process ends.

次に、本実施の形態におけるベクトル量子化部206によるベクトル量子化の入出力データについて図4を参照しながら説明する。図4は図2のベクトル量子化部206によるベクトル量子化の入出力データの一例を示す図である。   Next, input / output data of vector quantization by the vector quantization unit 206 in the present embodiment will be described with reference to FIG. FIG. 4 is a diagram showing an example of input / output data of vector quantization by the vector quantization unit 206 of FIG.

ベクトル量子化部206に入力されるベクトル量子化の入力、すなわち、すべての試行の動作結果としては、例えば図4に示すような入力401がある。この入力401に対応するパラメータセットは、パラメータセット403である。入力401およびパラメータセット403は、図2の動作結果保持部205に保持される。上記入力401に対して、ベクトル量子化部206からは、ベクトル量子化の出力402が得られる。この出力402は、量子化結果保持部207に保持される。   As an input of vector quantization input to the vector quantization unit 206, that is, an operation result of all trials, for example, there is an input 401 as shown in FIG. A parameter set corresponding to this input 401 is a parameter set 403. The input 401 and parameter set 403 are held in the operation result holding unit 205 in FIG. In response to the input 401, the vector quantization unit 206 obtains an output 402 of vector quantization. This output 402 is held in the quantization result holding unit 207.

このように、本実施の形態によれば、すべての試行を対象にベクトル量子化を行うので、ユーザが所望する動作条件に近いパラメータセットを決定することができる。換言すれば、認識率、認識時間、メモリ使用量の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができる。   Thus, according to the present embodiment, since vector quantization is performed for all trials, it is possible to determine a parameter set that is close to the operating condition desired by the user. In other words, even when at least one of the operating conditions of the recognition rate, the recognition time, and the memory usage is determined to be optimal, the other conditions are within the user-acceptable range. A parameter set can be determined.

本実施の形態においては、ベクトル量子化の結果をユーザに提示し、その中から所望する結果をユーザに選択させる場合について説明したが、これに限定されるものではなく、ベクトル量子化の結果として得られた複数の代表ベクトルの中で各要素(認識率、認識時間、メモリ使用量)について、その値が最大となる要素を含むベクトルを、それぞれ認識率優先、認識時間優先、省メモリ優先の各モードに割り付け、そのときのパラメータセットを各モードのパラメータとしてユーザに提供するようにしてもよい。これにより、音声認識のパラメータチューニングに関する経験が少ないユーザでもパラメータセットの選択が可能となる。   In the present embodiment, a case has been described in which the result of vector quantization is presented to the user, and the user is allowed to select a desired result. However, the present invention is not limited to this, and as a result of vector quantization Among the obtained representative vectors, for each element (recognition rate, recognition time, memory usage), the vector containing the element with the maximum value is assigned the recognition rate priority, recognition time priority, and memory saving priority. It may be assigned to each mode, and the parameter set at that time may be provided to the user as a parameter of each mode. As a result, even a user with little experience in parameter recognition for speech recognition can select a parameter set.

また、本実施の形態においては、すべての試行を対象にベクトル量子化を行う場合について説明したが、これに限定されるものではなく、音声認識のパラメータとして明らかに不適当なものを取り除いた後、ベクトル量子化を行うようにしてもよい。音声認識のパラメータとして明らかに不適当であることを判別する方法としては、動作結果に着目し、例えば認識率に関して言えば、認識率が80%以下のもの、認識率の最大値の80%以下のもの、認識率の最大値より20%以上低いものなどを不適当であるとすればよい。いうまでもなく、認識率に限らず、認識時間やメモリ使用量に関する動作結果について同様の事前処理を行うことは、有効である。これにより、上述した、各要素(認識率、認識時間、メモリ使用量)のベクトルを認識率優先、認識時間優先、省メモリ優先の各モードへ割り付ける場合においては、たとえ認識率優先モードのパラメータセットを選択しても、認識率とメモリ使用量を許容可能な範囲内に収めることが保証される。   In the present embodiment, the case where vector quantization is performed for all trials has been described. However, the present invention is not limited to this, and after clearly unsuitable speech recognition parameters are removed. Alternatively, vector quantization may be performed. As a method for discriminating that the parameters are obviously inappropriate as a speech recognition parameter, paying attention to the operation result, for example, regarding the recognition rate, the recognition rate is 80% or less, and the maximum value of the recognition rate is 80% or less. And those that are 20% or more lower than the maximum recognition rate may be considered inappropriate. Needless to say, it is effective to perform the same pre-processing on the operation result related to the recognition time and the memory usage, not limited to the recognition rate. Thereby, in the case of assigning the vector of each element (recognition rate, recognition time, memory usage) to each mode of recognition rate priority, recognition time priority, and memory saving priority, the parameter set of the recognition rate priority mode is set. Is selected, it is guaranteed that the recognition rate and the memory usage are within the allowable range.

(第2の実施の形態)
次に、本発明の第2の実施の形態について図5を参照しながら説明する。図5は本発明の第2の実施の形態に係るパラメータ設定装置における認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果を表した図である。
(Second Embodiment)
Next, a second embodiment of the present invention will be described with reference to FIG. FIG. 5 is a diagram showing the result of grouping on a two-dimensional plane regarding the recognition time and the memory usage in the parameter setting apparatus according to the second embodiment of the present invention.

上記第1の実施の形態は、量子化の結果として得られる量子化ベクトルの数を、ユーザがその中から選択することが可能な程度に少ないことが望ましいとし、その数を5〜10程度としていることに対し、本実施の形態は、動作結果の値毎にグルーピングして提示する方法を採用する。   In the first embodiment, it is desirable that the number of quantization vectors obtained as a result of quantization be as small as possible so that the user can select from among them. In contrast, the present embodiment employs a method of grouping and presenting each operation result value.

本実施の形態の方法の場合、すべての試行により得られる動作結果が、メモリ使用量と認識時間の組で分類される。例えば、メモリ使用量の場合は0.2MB刻み、認識時間の場合は50ミリ秒刻みで量子化するなどの方法が用いられる。このような観点ですべての動作結果が分類される。次に、各グループにおいて、認識率が最大となる動作結果が選択される。この各グループで選択された動作結果が、上記第1の実施の形態におけるベクトル量子化の結果に相当する。そして、これがユーザに提示される。   In the case of the method according to the present embodiment, the operation results obtained by all trials are classified by combinations of memory usage and recognition time. For example, a method of quantizing in units of 0.2 MB in the case of memory usage and in units of 50 milliseconds in the case of recognition time is used. From this point of view, all operation results are classified. Next, in each group, an operation result that maximizes the recognition rate is selected. The operation result selected in each group corresponds to the vector quantization result in the first embodiment. This is then presented to the user.

メモリ使用量や認識時間の刻み幅は、システム設計上問題とならない程度の大きさにする。すなわち、同じグループに属するものは大差ないと考えてよいことになる。その中で、認識率が最大となる動作結果を選択できるため、上記第1の実施の形態と比較すると明らかなように、認識率を犠牲にすることなく、また、メモリ使用量や認識時間の刻みも妥当な大きさに刻むことができるという利点がある。   The amount of memory used and the increment of recognition time should be large enough not to cause problems in system design. That is, it can be considered that there is no great difference between those belonging to the same group. Among them, since the operation result that maximizes the recognition rate can be selected, the memory usage amount and the recognition time can be reduced without sacrificing the recognition rate, as is clear when compared with the first embodiment. There is an advantage that the step can be cut into a reasonable size.

本実施の形態においては、例えば図5に示すような、認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果が提示される。ここで、平面上の数字は、各グループにおける最大認識率である。ユーザは、この図5から所望の認識率、メモリ使用量、認識時間を達成するパラメータセットを選択することができる。   In the present embodiment, grouping results are presented on a two-dimensional plane regarding recognition time and memory usage, for example, as shown in FIG. Here, the number on the plane is the maximum recognition rate in each group. The user can select a parameter set that achieves a desired recognition rate, memory usage, and recognition time from FIG.

例えば、図5の最大認識率93のグループ501と最大認識率94のグループ502を比較すると、グループ501に関しては、グループ502より認識率は高いが、その差はわずか1%である。また、認識時間に関しては、各グループ501,502は、850ミリ秒〜900ミリ秒の同じグループとなる。一方で、メモリ使用量に着目すると、グループ501においては、2.2MB〜2.4MBのメモリ量が必要であるが、グループ502においては、グループ501より少ない、1.6MB〜1.8MBのメモリ量がである。よって、ユーザは、若干認識率は低いもののメモリ使用量が格段に少ないグループ502を選択することも可能となる。   For example, when comparing the group 501 having the maximum recognition rate 93 and the group 502 having the maximum recognition rate 94 in FIG. 5, the group 501 has a higher recognition rate than the group 502, but the difference is only 1%. Moreover, regarding recognition time, each group 501 and 502 becomes the same group of 850 milliseconds-900 milliseconds. On the other hand, focusing on the memory usage, the group 501 needs a memory amount of 2.2 MB to 2.4 MB, but the group 502 has a memory of 1.6 MB to 1.8 MB, which is smaller than the group 501. The amount is. Therefore, the user can select a group 502 that has a slightly low recognition rate but has a very small memory usage.

本実施の形態においては、メモリ使用量−認識時間平面に認識率を提示する場合について説明したが、これに限定されるものではなく、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよい。いうまでもなく、メモリ使用量−認識率平面の場合は、認識時間の最小値を、認識時間−認識率平面の場合は、メモリ使用量の最小値をそれぞれ表示する。   In this embodiment, the case where the recognition rate is presented on the memory usage-recognition time plane has been described. However, the present invention is not limited to this, and the memory usage-recognition rate plane and the recognition time-recognition rate plane are You may make it show. Needless to say, the minimum value of the recognition time is displayed in the case of the memory usage amount-recognition rate plane, and the minimum value of the memory usage amount is displayed in the case of the recognition time-recognition rate plane.

上記第1の実施の形態においては、動作結果(認識率、認識時間、メモリ使用量)をベクトルとみなしてベクトル量子化する場合について説明したが、これに限定されるものではなく、(認識率、メモリ使用量)をベクトルとみなしてベクトル量子化を行う場合もよいものとする。さらに、上記第2の実施の形態と組み合わせて、量子化の結果をメモリ使用量−認識時間平面上に表示するようにしてもよい。平面上に提示する数字は、その代表ベクトルによって代表される動作結果の集合の中の最大認識率である。この場合は、動作結果がどの代表ベクトルに所属するかを記録しておく必要がある。   In the first embodiment, the case where the operation result (recognition rate, recognition time, memory usage) is regarded as a vector and vector quantization is described, but the present invention is not limited to this. It is also possible to perform vector quantization by regarding the memory usage as a vector. Further, in combination with the second embodiment, the quantization result may be displayed on the memory usage amount-recognition time plane. The number presented on the plane is the maximum recognition rate in the set of motion results represented by the representative vector. In this case, it is necessary to record which representative vector the operation result belongs to.

また、メモリ使用量−認識時間平面上に認識率を表示することに代えて、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよく、メモリ使用量−認識率平面の場合は認識時間の最小値が、認識時間−認識率平面の場合はメモリ使用量の最小値がそれぞれ表示されることになる。   Further, instead of displaying the recognition rate on the memory usage-recognition time plane, a memory usage-recognition rate plane or a recognition time-recognition rate plane may be presented. In the case of the plane, the minimum value of the recognition time is displayed, and in the case of the recognition time-recognition rate plane, the minimum value of the memory usage is displayed.

上記第1の実施の形態のベクトル量子化において、認識率、認識時間、メモリ使用量はそれぞれ違う性質のものであるので、距離尺度としてそれぞれの分散で正規化したものを利用してもよい。この場合の分散は、試行結果のすべてもしくは一部を使ってその各要素である認識率、認識時間、メモリ使用量の値の分散をそれぞれ求めることで実現できる。   In the vector quantization of the first embodiment, the recognition rate, the recognition time, and the memory usage have different properties. Therefore, the distance scale normalized by each variance may be used. The variance in this case can be realized by using all or a part of the trial results to obtain the variances of the recognition rate, recognition time, and memory usage values that are the respective elements.

なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードを、ネットワークなどを介してダウンロードして実行したり、プログラムコードを記録した記録媒体をシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。   The present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device. The program code of the software realizing the functions of the above-described embodiments is downloaded and executed via a network or the like, or a recording medium on which the program code is recorded is supplied to the system or apparatus, and the computer ( Needless to say, this can also be achieved by reading and executing the program code stored in the recording medium by the CPU or MPU.

この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。   In this case, the program code itself read from the recording medium realizes the functions of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the present invention. As a recording medium for supplying the program code, for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like is used. be able to.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることはいうまでもない。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS running on the computer performs actual processing based on an instruction of the program code. It goes without saying that a case where the functions of the above-described embodiment are realized by performing part or all of the processing, is also included.

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることはいうまでもない。   Furthermore, after the program code read from the recording medium is written in a memory provided in a function expansion board inserted in the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.

本発明の第1の実施の形態に係る、音声認識のためのパラメータを適切に設定するためのパラメータ設定装置のハードウエア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the parameter setting apparatus for setting appropriately the parameter for speech recognition based on the 1st Embodiment of this invention. 図1のパラメータ設定装置のモジュール構成を示すブロック図である。It is a block diagram which shows the module structure of the parameter setting apparatus of FIG. 図2のパラメータ設定装置の処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process of the parameter setting apparatus of FIG. 図2のベクトル量子化部206によるベクトル量子化の入出力データの一例を示す図である。It is a figure which shows an example of the input / output data of the vector quantization by the vector quantization part 206 of FIG. 本発明の第2の実施の形態に係るパラメータ設定装置における認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果を表した図である。It is the figure which represented the result of grouping on the two-dimensional plane regarding the recognition time and memory usage in the parameter setting apparatus which concerns on the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

101 制御メモリ101
102 中央処理装置(CPU)
103 メモリ103
104 外部記憶装置
105 入力装置
106 表示装置
107 バス
201 パラメータ探索条件保持部
202 パラメータ選択部
203 評価用データ保持部
204 音声認識部
205 動作結果保持部
206 ベクトル量子化部
207 量子化結果保持部
208 表示処理部
209 入力処理部
101 Control memory 101
102 Central processing unit (CPU)
103 Memory 103
104 External storage device 105 Input device 106 Display device 107 Bus 201 Parameter search condition holding unit 202 Parameter selection unit 203 Evaluation data holding unit 204 Speech recognition unit 205 Operation result holding unit 206 Vector quantization unit 207 Quantization result holding unit 208 Display Processing unit 209 Input processing unit

Claims (10)

音声認識のためのパラメータ設定装置であって、
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、
前記試行毎の動作結果をグループ化するグループ化手段と
を備えることを特徴とするパラメータ設定装置。
A parameter setting device for speech recognition,
Trial means for attempting speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
Operation result holding means for holding an operation result including a recognition rate for each trial together with a parameter set corresponding thereto;
A parameter setting device comprising grouping means for grouping operation results for each trial.
前記グループ化手段は、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項1記載のパラメータ設定装置。   2. The parameter setting apparatus according to claim 1, wherein the grouping unit groups the operation results for each trial using vector quantization. 前記グループ化手段によるグループ化の前段処理として不適当な動作結果を取り除く除去手段を備えることを特徴とする請求項1記載のパラメータ設定装置。   2. The parameter setting apparatus according to claim 1, further comprising a removing unit that removes an inappropriate operation result as a pre-processing of grouping by the grouping unit. 音声認識のためのパラメータ設定方法であって、
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、
前記試行毎の動作結果をグループ化するグループ化工程と
を備えることを特徴とするパラメータ設定方法。
A parameter setting method for speech recognition,
A trial step of trying speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
An operation result holding step of holding an operation result including a recognition rate together with a parameter set corresponding to the recognition rate for each trial;
And a grouping step of grouping the operation results for each trial.
前記グループ化工程では、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項4記載のパラメータ設定方法。   5. The parameter setting method according to claim 4, wherein in the grouping step, the operation results for each trial are grouped using vector quantization. 前記グループ化工程によるグループ化の前段処理として不適当な動作結果を取り除く除去工程を備えることを特徴とする請求項4記載のパラメータ設定方法。   5. The parameter setting method according to claim 4, further comprising a removal step of removing an inappropriate operation result as a pre-processing of grouping by the grouping step. 音声認識のためのパラメータ設定方法を実現するためのプログラムであって、
動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、
前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、
前記試行毎の動作結果をグループ化するグループ化モジュールと
を備えることを特徴とするプログラム。
A program for realizing a parameter setting method for speech recognition,
A trial module that attempts speech recognition using each of a plurality of parameter sets prepared in advance for the operating conditions;
An operation result holding module that holds an operation result including a recognition rate for each trial together with a parameter set corresponding thereto;
A program comprising: a grouping module for grouping operation results for each trial.
前記グループ化モジュールは、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項7記載のプログラム。   The program according to claim 7, wherein the grouping module groups the operation results for each trial using vector quantization. 前記グループ化工程によるグループ化の前段処理として不適当な動作結果を取り除く除去モジュールを備えることを特徴とする請求項7記載のプログラム。   8. The program according to claim 7, further comprising a removal module that removes an inappropriate operation result as a pre-processing of grouping by the grouping step. 請求項7記載のプログラムをコンピュータ読取可能に格納したことを特徴とする記憶媒体。   A storage medium storing the program according to claim 7 in a computer-readable manner.
JP2003412497A 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium Withdrawn JP2005173157A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003412497A JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003412497A JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Publications (1)

Publication Number Publication Date
JP2005173157A true JP2005173157A (en) 2005-06-30

Family

ID=34732921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003412497A Withdrawn JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Country Status (1)

Country Link
JP (1) JP2005173157A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009532742A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド Method and system for evaluating and improving the performance of speech recognition systems
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
JP2013232017A (en) * 2006-04-03 2013-11-14 Vocollect Inc Method and system for assessing and improving performance of speech recognition system
JP2009532742A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド Method and system for evaluating and improving the performance of speech recognition systems
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10685643B2 (en) 2011-05-20 2020-06-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11810545B2 (en) 2011-05-20 2023-11-07 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US11817078B2 (en) 2011-05-20 2023-11-14 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US11837253B2 (en) 2016-07-27 2023-12-05 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Similar Documents

Publication Publication Date Title
CN106658129B (en) Terminal control method and device based on emotion and terminal
CN110956956A (en) Voice recognition method and device based on policy rules
CN110136715B (en) Speech recognition method and device
US10636412B2 (en) System and method for unit selection text-to-speech using a modified Viterbi approach
CN108630203A (en) Interactive voice equipment and its processing method and program
CN105609097A (en) Speech synthesis apparatus and control method thereof
JP6306528B2 (en) Acoustic model learning support device and acoustic model learning support method
WO2010096273A1 (en) Automatic computation streaming partition for voice recognition on multiple processors with limited memory
CN111061867A (en) Text generation method, equipment, storage medium and device based on quality perception
JP2005173157A (en) Parameter setting device, parameter setting method, program and storage medium
EP3198870B1 (en) Processing parameters for operations on blocks while decoding images
JP2001086239A (en) Voice input terminal, voice recognition device, voice communication system and voice communication method
CN113658586B (en) Training method of voice recognition model, voice interaction method and device
CN104167206A (en) Acoustic model combination method and device, and voice identification method and system
US20210090551A1 (en) Emotional speech generating method and apparatus for controlling emotional intensity
US6789063B1 (en) Acoustic modeling using a two-level decision tree in a speech recognition system
CN111508471B (en) Speech synthesis method and device, electronic equipment and storage device
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
CN113516963B (en) Audio data generation method and device, server and intelligent sound box
CN113051426A (en) Audio information classification method and device, electronic equipment and storage medium
CN112259097A (en) Control method for voice recognition and computer equipment
CN107833259B (en) Dynamic cartoon engine processing method and system based on intelligent terminal
JP2017198790A (en) Speech evaluation device, speech evaluation method, method for producing teacher change information, and program
CN110931014A (en) Speech recognition method and device based on regular matching rule
CN111354351A (en) Control device, voice interaction device, voice recognition server, and storage medium

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060418

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306