JP2005173157A - Parameter setting device, parameter setting method, program and storage medium - Google Patents

Parameter setting device, parameter setting method, program and storage medium Download PDF

Info

Publication number
JP2005173157A
JP2005173157A JP2003412497A JP2003412497A JP2005173157A JP 2005173157 A JP2005173157 A JP 2005173157A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2003412497 A JP2003412497 A JP 2003412497A JP 2005173157 A JP2005173157 A JP 2005173157A
Authority
JP
Japan
Prior art keywords
grouping
parameter
recognition
parameter setting
operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003412497A
Other languages
Japanese (ja)
Inventor
Toshiaki Fukada
Yasuhiro Komori
Yasuo Okuya
泰夫 奥谷
康弘 小森
俊明 深田
Original Assignee
Canon Inc
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc, キヤノン株式会社 filed Critical Canon Inc
Priority to JP2003412497A priority Critical patent/JP2005173157A/en
Publication of JP2005173157A publication Critical patent/JP2005173157A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a parameter setting device which can determine a parameter set so that other conditions fall within ranges to which a user can give permission even in the case where the parameter set is determined so that at least one condition out of a plurality of operating conditions becomes optimum.
SOLUTION: In the parameter setting device, a voice recognizing part 204 performs voice recognition using a parameter set selected by a parameter selecting part 202. Results of operations obtained as results of having performed voice recognition in respective trials, namely, recognition rates, recognition periods, and memory usages are held. A vector quantization part 206 performs vector quantization by considering the results of operations as vectors and results of the vector quantization are displayed by a display processing part 208.
COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、音声認識のためのパラメータを適切に設定するためのパラメータ設定装置、その方法、プログラムおよび記憶媒体に関する。 The present invention, parameter setting apparatus for setting an appropriate parameter for speech recognition, a method thereof, a program and a storage medium.

音声認識を実環境で利用するためには、各種パラメータのチューニングが必要である。 In order to utilize the speech recognition in a real environment, it is necessary tuning various parameters. ここで、パラメータとは、ビーム幅、音響モデル、VAD(音声切り出し)の閾値などの音声認識に関する任意のパラメータを包含する。 Here, the parameters include beam width, the acoustic model, any parameters relating to speech recognition, such as the threshold of VAD (Voice cutout). このパラメータのチューニングは、音声認識に詳しい技術者が認識実験を試行錯誤しながらパラメータを決定するという方法が一般的である。 Tuning of this parameter, method of detailed technical person in speech recognition is to determine the parameters by trial and error recognition experiment is common. そのため、パラメータのチューニングは、音声認識に関する深い知識や経験を有する技術者のみが行うことが可能な作業であるといえる。 Therefore, tuning of parameters, it can be said that is a work that can only engineers perform with deep knowledge and experience with voice recognition.

一方、これらパラメータのチューニングを自動的に行う方法が提案されている(例えば、特許文献1を参照)。 Meanwhile, a method for tuning these parameters automatically has been proposed (e.g., see Patent Document 1). この方法は、評価セット(音声データと認識文法)、動作条件(認識率、認識時間、メモリ使用量などの必要条件)、各パラメータの探索条件(刻み幅や範囲)を与え、各パラメータの値を探索条件内で様々に変化させながら音声認識を繰り返し試行し、各試行における動作結果(認識率、認識時間、メモリ使用量)を記録し、記録された動作結果から、動作条件を満足する最適なパラメータのセットを最終的に得るものである。 This method gives test set (the speech data and the recognition grammar), operating conditions (recognition rate, recognition time, requirements such as memory usage), the search condition (step width or range) of each parameter, the values ​​of the parameters optimal repeating attempts to speech recognition while variously changing in the search conditions, the operation results of each trial (recognition rate, recognition time, memory usage) was recorded, from the recorded operation result, which satisfies the operating conditions it is intended to ultimately obtain a set of such parameters.
特開2002−328696号公報 JP 2002-328696 JP

しかしながら、上述した方法においては、動作条件を、認識率、認識時間、メモリ使用量などの各必要条件のアンドで表現すること自体に無理がある。 However, in the method described above, the operating conditions, the recognition rate, recognition time, it is unreasonable to itself be expressed by and for each requirement, such as memory usage. 本当にユーザが設定したい動作条件とは、認識率、認識時間、メモリ使用量との兼ね合いの中で決まるものである。 The operating conditions really want to set by the user, the recognition rate, recognition time, are those determined in consideration of the memory usage. すなわち、認識率を優先させるような動作条件であっても、認識時間やメモリ使用量が大きすぎるものである場合、このような動作条件は、実際には使用することができない。 That is, even the recognition rate in operating conditions, such as to prioritize, if those recognition time and memory usage is too high, such operating conditions, can not be used in practice. また、認識率は多少劣るがメモリ使用量が半分で済むものがあれば、積極的にそちらを採用したいと考えるはずである。 In addition, if there is, but the recognition rate somewhat inferior that requires only memory usage half, should think positively and want to hire there. 例えば、動作条件として認識率90%以上、かつ、メモリ使用量2MB以下を設定した場合において、試行の結果、認識率90%でメモリ使用量2MBのパラメータセットが選ばれたとすると、選ばれなかったパラメータセットの中には、認識率は89.9%であるが、メモリ使用量が1.2MBのものが存在する可能性がある。 For example, the recognition rate of 90% or more operating conditions, and, in the case of setting the following memory usage 2MB, the results of the trial, the parameter set memory usage 2MB in recognition rate 90% and was chosen, not chosen some parameter set is recognition rate is 89.9% memory usage may be present include the 1.2MB. もちろん、このパラメータセットは、認識率に関する必要条件を満たさなかったために、解としては得られない。 Of course, this set of parameters, because they did not meet the requirements of recognition rate can not be obtained as the solution. しかしながら、一般的には、認識率の0.1%よりもそれに反して得られるメモリ使用量の低減の効果0.8MBの方が魅力的である。 However, in general, better effects 0.8MB reduction of memory usage obtained contrast than 0.1% in the recognition rate is attractive. このような場合は、後者のパラメータセットを選択したいところであるが、上述の方法では、前者のパラメータセットが選択されることになる。 In such a case, but is where you want to choose the latter parameter set, in the above-described method, so that the former parameter set is selected.

また、上記のように認識率とメモリ使用量の2つの条件だけを設定すると、得られる最適なパラメータセットでは、認識時間が非常に大きいものになる可能性がある。 Further, by setting only two conditions recognition rate and memory usage, as described above, the optimum parameter set obtained, there is a possibility that the recognition time is very large.

本発明は、上記問題点に鑑みてなされたものであり、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができるパラメータ設定装置、その方法、その制御方法を実現するプログラムおよび記憶媒体を提供することを目的とする。 The present invention has been made in view of the above problems, among a plurality of operating conditions, even when at least one condition has been determined to be optimal, the range the user acceptably other conditions parameter setting apparatus which can determine the parameter set to fit in, the method, and to provide a program and a storage medium realizing the control method.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定装置であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、前記試行毎の動作結果をグループ化するグループ化手段とを備えることを特徴とする。 The present invention, in order to achieve the above object, there is provided a parameter setting apparatus for speech recognition, attempt means for attempting speech recognition using it for a plurality of parameter sets prepared in advance with respect to the operating conditions When, in each of the trials, the operation results including the recognition rate, characterized in that it comprises the operation result holding means for holding together the parameter set corresponding thereto, and a grouping means for grouping the operation results for each of the trial.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法であって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、前記試行毎の動作結果をグループ化するグループ化工程とを備えることを特徴とする。 The present invention, in order to achieve the above object, a parameter setting method for speech recognition, attempt step for attempting speech recognition using it for a plurality of parameter sets prepared in advance with respect to the operating conditions When, in each of the trials, and operation result holding step of the operation results including the recognition rate is retained with the parameter set corresponding thereto, characterized in that it comprises a grouping step of grouping operation results for each of the trial.

本発明は、上記目的を達成するため、音声認識のためのパラメータ設定方法を実現するためのプログラムであって、動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、前記試行毎の動作結果をグループ化するグループ化モジュールとを備えることを特徴とする。 The present invention, in order to achieve the above object, a program for implementing a parameter setting method for speech recognition, speech using it for a plurality of parameter sets prepared in advance with respect to the operating conditions comprising a trial module for attempting to recognize, in each of the trials, and operation result holding module that holds together parameter set corresponding to an operation result including the recognition rate, and a grouping module for grouping the operation results for each of the trial it is characterized in.

本発明は、上記目的を達成するため、上記プログラムをコンピュータ読取可能に格納したことを特徴とする記憶媒体を提供する。 The present invention, in order to achieve the above object, provides a storage medium characterized by storing the program readable to a computer.

本発明によれば、複数の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件をユーザが許容可能な範囲内に収まるようにパラメータセットを決定することができる。 According to the present invention, among a plurality of operating conditions, determines a parameter set so even if at least one condition is determined to be optimal, fit the other conditions to users within an acceptable range be able to.

以下、本発明の実施の形態について図面を参照しながら説明する。 It will be described below with reference to the drawings, embodiments of the present invention.

(第1の実施の形態) (First Embodiment)
図1は本発明の第1の実施の形態に係る音声認識のためのパラメータ設定装置のハードウエア構成を示すブロック図である。 Figure 1 is a block diagram showing a hardware configuration of a parameter setting apparatus for speech recognition according to a first embodiment of the present invention. 本実施の形態においては、一般的なパーソナルコンピュータを用いてパラメータ設定装置を実現する場合について説明するが、本発明は専用のパラメータ設定装置であっても、また他の形態の装置であってもよいことはいうまでもない。 In the present embodiment, by using a general personal computer will be described for realizing a parameter setting apparatus, but the present invention is a dedicated parameter setting device, also be an apparatus other forms good it is needless to say.

パラメータ設定装置は、音声認識のためのパラメータを適切に設定するための装置であり、図1に示すように、ROMなどからなる制御メモリ101、中央処理装置(CPU)102、RAMなどからなるメモリ103、外部記憶装置104、入力装置105、表示装置106、バス107などから構成される。 Parameter setting device is a device for appropriately setting the parameter for speech recognition, as shown in FIG. 1, it consists of a control memory 101, a central processing unit (CPU) 102, RAM made of ROM memory 103, an external storage device 104, input device 105, display device 106, and the like bus 107. 制御メモリ101には、本パラメータ設定装置を実現するための制御プログラムやその制御プログラムで用いられるデータが格納される。 In the control memory 101, data used by the control program and a control program for realizing the present parameter setting apparatus is stored. これらの制御プログラムやデータは、中央処理装置102の制御の下で、バス107を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。 These control programs and data, under the control of the central processing unit 102, incorporated in the appropriate memory 103 via the bus 107, is executed by the central processing unit 102.

次に、本パラメータ設定装置のモジュール構成について図2を参照しながら説明する。 It will be described below with reference to FIG. 2 module configuration of the parameter setting apparatus. 図2は図1のパラメータ設定装置のモジュール構成を示すブロック図である。 Figure 2 is a block diagram showing the module configuration of a parameter setting apparatus of FIG.

本パラメータ設定装置のモジュール構成は、図2に示すように、パラメータ探索条件保持部201、パラメータ選択部202、評価用データ保持部203、音声認識部204、動作結果保持部205、ベクトル量子化部206、量子化結果保持部207、表示処理部208、および入力処理部209を含む。 Module configuration of the parameter setting apparatus, as shown in FIG. 2, the parameter search condition holding unit 201, the parameter selection unit 202, the evaluation data storage unit 203, the voice recognition unit 204, the operation result holding unit 205, vector quantization unit 206, including quantization result holding unit 207, display processing unit 208, and an input processing unit 209. このモジュール構成は、制御メモリ101に格納されている制御プログラムを中央処理装置102が実行することにより、構成されるものである。 The module configuration, the control program stored in the control memory 101 by the central processing unit 102 executes, is composed.

パラメータ探索条件保持部201は、各種パラメータを様々に変化させる場合の最大値、最小値、刻み幅などの探索条件を保持する。 Parameter search condition holding unit 201, the maximum value of the case of variously changing the various parameters, the minimum value, holds the search conditions, such as step size. パラメータ選択部202は、パラメータ探索条件保持部201が保持する探索条件の中からこれまでに試行していないパラメータセットの中から1つのパラメータセットを選び出す。 Parameter selection unit 202 select one parameter set from among the parameter sets that are not attempted so far out of the search condition parameter search condition holding unit 201 holds. 評価用データ保持部203は、音声認識の評価を行うためのデータを保持する。 Evaluation data holding unit 203 holds the data for the evaluation of the speech recognition. このデータは、具体的には、評価用の音声データ、認識文法、言語モデル、音響モデルなどである。 This data is, specifically, voice data for evaluation, recognition grammar, language model, and the like acoustic model. 音声認識部204は、パラメータ選択部202により選択されたパラメータセットを用いて音声認識を行う。 Speech recognition unit 204 performs speech recognition using the parameter set selected by the parameter selection unit 202. 動作結果保持部205は、各試行において音声認識を実行した結果として得られる動作結果を保持する。 Operation result holding unit 205 holds the operation results obtained as a result of executing the speech recognition in each trial. ここで、動作結果とは、認識率、認識時間、およびメモリ使用量を示すものである。 Here, operation results and the recognition rate, recognition time, and shows the memory usage.

ベクトル量子化部206は、上記動作結果をベクトルとみなしてベクトル量子化を行う。 Vector quantization section 206 performs vector quantization of the operation result is regarded as a vector. 量子化結果保持部207は、ベクトル量子化部206によるベクトル量子化の結果を保持する。 Quantization result holding unit 207 holds the result of the vector quantization by the vector quantization unit 206. 表示処理部208は、ベクトル量子化部206によるベクトル量子化の結果を表示する。 The display processing unit 208 displays the result of the vector quantization by the vector quantization unit 206. 入力処理部209は、ユーザが量子化結果の中から所望の一つを選択入力するための操作を行うための操作手段を有し、該操作手段を用いた操作により選択入力された量子化結果を受理する。 Input processor 209, a user has an operation means for performing an operation for selectively inputting a desired one from among the quantization result, select the input quantization result by the operation using the manipulation means a to accept. パラメータセット決定部210は、ユーザの入力に対応するパラメータセットを求める。 Parameter set determination unit 210 obtains the parameter set corresponding to the user input.

次に、本パラメータ設定装置の処理について図3を参照しながら説明する。 Will be described with reference to FIG processing of the parameter setting apparatus. 図3は図2のパラメータ設定装置の処理の手順を示すフローチャートである。 Figure 3 is a flowchart showing a procedure of processing parameter setting apparatus of FIG. この図3のフローチャートで示される手順は、図2のモジュール構成により実行されるものである。 Procedure shown in the flowchart of FIG. 3, it is executed by the module configuration of FIG.

本パラメータ設定装置においては、図3に示すように、まずステップS301において、パラメータ選択部202が、パラメータ探索条件保持部201に保持されている探索条件の中に未試行のパラメータセットが存在するか否かを判定する。 Or in the parameter setting apparatus, as shown in FIG. 3, first in step S301, the parameter selection unit 202, there are parameters set untried in the search condition held in the parameter search condition holding unit 201 and determines whether or not. ここで、探索条件とは、音声認識を様々な値のパラメータで試行するための、各パラメータのとりうる最小値、最大値、および刻み幅などで定義されるものである。 Here, the search condition, for attempting to speech recognition parameters of different values, the minimum value which can be taken for each parameter is defined by such as maximum value, and step size. また、いうまでもないが、探索条件は、試行すべきパラメータの値をリストアップしたものでもよい。 Further, needless to say, the search condition may be one that lists the value of the parameter should be tried. そして、未試行のパラメータセットが存在する場合は、パラメータ選択部202によりパラメータ探索条件保持部201が保持する探索条件の中から、未試行のパラメータセットの一つが選択され、処理がステップS302に進められる。 When the parameter set untried exists, from among the search condition parameter search condition holding unit 201 is held by the parameter selection unit 202, a parameter set untried is selected, the process proceeds to step S302 It is. これに対し、未試行のパラメータセットが存在しない場合は、処理がステップS304に進められる。 In contrast, if the parameter set untried does not exist, the process proceeds to step S304.

ステップS302においては、音声認識部204が、パラメータ選択部202が選択したパラメータセットと、評価用データ保持部203が保持する評価用データを用いて音声認識を行う。 In step S302, the speech recognition unit 204 performs speech recognition using the parameter set by the parameter selection unit 202 selects the evaluation data evaluation data holding unit 203 holds. 音声認識部204は、認識率、認識時間、メモリ使用量をそれぞれ計算する。 Speech recognition unit 204, the recognition rate, recognition time, calculates the memory usage, respectively. そして、ステップS303において、動作結果保持部205が、音声認識の結果として得られる認識率、認識時間、メモリ使用量およびその試行に用いたパラメータセットを組にして保持する。 Then, in step S303, the operation result holding unit 205, the resulting recognition rate of the speech recognition, recognition time and holds a parameter set used for the memory usage and the attempt to set. 次いで、処理がステップS301に戻る。 Then, the process returns to step S301.

ステップS304においては、ベクトル量子化部206が、これまでの各試行で得られた動作結果(認識率、認識時間、メモリ使用量)を3次元のベクトルとみなしてベクトル量子化を行い、その結果を量子化結果保持部207に保持する。 In step S304, the vector quantization unit 206, so far operating results obtained in the trial (recognition rate, recognition time, memory usage) performs vector quantization regarded as three-dimensional vector, the result the retaining the quantization result holding unit 207. ベクトル量子化は、一般的な方法のものを利用すればよい。 Vector quantization may be utilized as general methods. また、量子化の結果として得られる量子化ベクトルの数は、ユーザがその中から選択することが可能な程度に少ないことが望ましく5〜10程度がよい。 Further, the number of quantization vector obtained as a result of the quantization, it is the user desirably about 5 to 10 small enough to be able to choose from. この数は、予め適切な値を設定しておいてもよいし、ユーザに設定させてもかまわない。 This number may be may be set in advance a suitable value, it is set by the user.

次いで、ステップS305において、表示処理部208が量子化結果保持部207に保持されている量子化結果をユーザに提示し、続くステップS306において、入力処理部209が、ユーザの入力を受理する。 Then, in step S305, and presented to the user the quantization result display processing unit 208 is held in the quantization result holding unit 207, in the subsequent step S306, the input processing unit 209, accepts user input. ここで入力される情報は、量子化結果の中からユーザが所望するものの一つである。 Information input here is one of those desired by the user from among the quantization result. 入力を受理すると、ステップS307において、パラメータセット決定部210が、入力処理部209が受理したユーザの選択結果に基づいて量子化結果保持部207に保持されている量子化結果に一致するパラメータセットを探し出し、それを求めるパラメータのセットとする。 When receiving an input, at step S307, the parameter set determining section 210, a parameter set which matches the quantization result held in the quantization result holding unit 207 based on the user's selection result of the input processing unit 209 has accepted locate, and a set of parameters that ask for it. そして、本処理は、終了する。 Then, this process ends.

次に、本実施の形態におけるベクトル量子化部206によるベクトル量子化の入出力データについて図4を参照しながら説明する。 Next, the input and output data of the vector quantization by the vector quantization unit 206 in this embodiment will be described with reference to FIG. 図4は図2のベクトル量子化部206によるベクトル量子化の入出力データの一例を示す図である。 Figure 4 is a diagram showing an example of input and output data of the vector quantization by the vector quantization unit 206 of FIG.

ベクトル量子化部206に入力されるベクトル量子化の入力、すなわち、すべての試行の動作結果としては、例えば図4に示すような入力401がある。 Input vector quantization inputted to the vector quantization unit 206, i.e., as the operation results of all the trials, for example an input 401 as shown in FIG. この入力401に対応するパラメータセットは、パラメータセット403である。 Parameter set corresponding to the input 401 is a parameter set 403. 入力401およびパラメータセット403は、図2の動作結果保持部205に保持される。 Input 401 and parameter set 403 is held in the operation result holding unit 205 of FIG. 上記入力401に対して、ベクトル量子化部206からは、ベクトル量子化の出力402が得られる。 With respect to the input 401, from the vector quantization unit 206, the output 402 of the vector quantization is obtained. この出力402は、量子化結果保持部207に保持される。 This output 402 is held in the quantization result holding unit 207.

このように、本実施の形態によれば、すべての試行を対象にベクトル量子化を行うので、ユーザが所望する動作条件に近いパラメータセットを決定することができる。 Thus, according to this embodiment, since the target vector quantization all attempts, it is possible to determine the parameter set close to the operating condition desired by the user. 換言すれば、認識率、認識時間、メモリ使用量の動作条件のうち、少なくとも1つの条件が最適になるように決定された場合においても、他の条件がユーザ許容可能な範囲内に収まるようにパラメータセットを決定することができる。 In other words, the recognition rate, recognition time, among the operating conditions of the memory usage, even when at least one condition has been determined to be optimal, as other conditions is within the user acceptable range it is possible to determine the parameters set.

本実施の形態においては、ベクトル量子化の結果をユーザに提示し、その中から所望する結果をユーザに選択させる場合について説明したが、これに限定されるものではなく、ベクトル量子化の結果として得られた複数の代表ベクトルの中で各要素(認識率、認識時間、メモリ使用量)について、その値が最大となる要素を含むベクトルを、それぞれ認識率優先、認識時間優先、省メモリ優先の各モードに割り付け、そのときのパラメータセットを各モードのパラメータとしてユーザに提供するようにしてもよい。 In the present embodiment, presented to the user the results of the vector quantization, there has been described a case where the user to select the results desired from them is not limited thereto, as a result of the vector quantization each element in the plurality of representative vectors obtained (recognition rate, recognition time, memory usage) for a vector comprising an element whose value is maximum, respectively recognition rate priority, recognition time priority, memory saving priority assigned to each mode, the parameter set at that time may be provided to the user as a parameter for each mode. これにより、音声認識のパラメータチューニングに関する経験が少ないユーザでもパラメータセットの選択が可能となる。 As a result, it is possible to select the parameters set in the user about the experience is less parameter tuning of voice recognition.

また、本実施の形態においては、すべての試行を対象にベクトル量子化を行う場合について説明したが、これに限定されるものではなく、音声認識のパラメータとして明らかに不適当なものを取り除いた後、ベクトル量子化を行うようにしてもよい。 Further, in the present embodiment has described the case of performing target vector quantization all trials, it is not limited to this, after removing the ones clearly unsuitable as a parameter for speech recognition , it may be carried out vector quantization. 音声認識のパラメータとして明らかに不適当であることを判別する方法としては、動作結果に着目し、例えば認識率に関して言えば、認識率が80%以下のもの、認識率の最大値の80%以下のもの、認識率の最大値より20%以上低いものなどを不適当であるとすればよい。 As a method of determining that it is clearly unsuitable as a parameter of the speech recognition, focusing on the operation result, for example, when it comes to the recognition rate, those recognition rate below 80%, 80% or less of the maximum value of the recognition rate ones, those less than 20% than the maximum value of the recognition rate and may be set to be unsuitable. いうまでもなく、認識率に限らず、認識時間やメモリ使用量に関する動作結果について同様の事前処理を行うことは、有効である。 Needless to say, not only the recognition rate, it performs the same pre-processing operation results on the recognition time and memory usage is effective. これにより、上述した、各要素(認識率、認識時間、メモリ使用量)のベクトルを認識率優先、認識時間優先、省メモリ優先の各モードへ割り付ける場合においては、たとえ認識率優先モードのパラメータセットを選択しても、認識率とメモリ使用量を許容可能な範囲内に収めることが保証される。 Thus, the above-described, each element (recognition rate, recognition time, memory usage) vector recognition rate priority, recognition time priority, when allocating to each mode of memory saving priority, even if the parameter set in the recognition rate priority mode It is selected, that keep the recognition rate and the memory usage within an acceptable range is ensured.

(第2の実施の形態) (Second Embodiment)
次に、本発明の第2の実施の形態について図5を参照しながら説明する。 It will be described below with reference to FIG. 5, a second embodiment of the present invention. 図5は本発明の第2の実施の形態に係るパラメータ設定装置における認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果を表した図である。 Figure 5 is a diagram showing the results of grouping the two-dimensional plane on the recognition time and memory usage in the parameter setting apparatus according to a second embodiment of the present invention.

上記第1の実施の形態は、量子化の結果として得られる量子化ベクトルの数を、ユーザがその中から選択することが可能な程度に少ないことが望ましいとし、その数を5〜10程度としていることに対し、本実施の形態は、動作結果の値毎にグルーピングして提示する方法を採用する。 The first embodiment, the number of quantization vector obtained as a result of the quantization, the user may be desirable small enough to be able to choose from among them, that number is set to about 5 to 10 to Being, the present embodiment employs a method of presenting and grouped for each value of the operation result.

本実施の形態の方法の場合、すべての試行により得られる動作結果が、メモリ使用量と認識時間の組で分類される。 For the method of this embodiment, the operation results obtained by all trials are classified in a set of memory usage and recognition time. 例えば、メモリ使用量の場合は0.2MB刻み、認識時間の場合は50ミリ秒刻みで量子化するなどの方法が用いられる。 For example, in the case of memory usage increments 0.2MB, methods such as in the case of recognition time is quantized in increments 50 ms is used. このような観点ですべての動作結果が分類される。 This perspective in all operating results are classified. 次に、各グループにおいて、認識率が最大となる動作結果が選択される。 Then, in each group, operation result is selected recognition rate is maximum. この各グループで選択された動作結果が、上記第1の実施の形態におけるベクトル量子化の結果に相当する。 Selected operating results Each group corresponds to the result of the vector quantization in the first embodiment. そして、これがユーザに提示される。 And this is presented to the user.

メモリ使用量や認識時間の刻み幅は、システム設計上問題とならない程度の大きさにする。 Step size of memory usage and recognition time is a size that does not become a system design problem. すなわち、同じグループに属するものは大差ないと考えてよいことになる。 That is, those belonging to the same group will be be considered as not much different. その中で、認識率が最大となる動作結果を選択できるため、上記第1の実施の形態と比較すると明らかなように、認識率を犠牲にすることなく、また、メモリ使用量や認識時間の刻みも妥当な大きさに刻むことができるという利点がある。 Among them, since the recognition rate can select an operation result as a maximum, the so first apparent when compared with the embodiment, without sacrificing the recognition rate, also memory usage and recognition of time increments also has the advantage that it is possible to engrave a reasonable size.

本実施の形態においては、例えば図5に示すような、認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果が提示される。 In the present embodiment, for example, as shown in FIG. 5, the grouping result is presented in a two-dimensional plane on the recognition time and memory usage. ここで、平面上の数字は、各グループにおける最大認識率である。 Here, the numbers on the plane is the maximum recognition rate in each group. ユーザは、この図5から所望の認識率、メモリ使用量、認識時間を達成するパラメータセットを選択することができる。 The user desired recognition rate from FIG. 5, memory usage, the parameter set for achieving a recognition time can be selected.

例えば、図5の最大認識率93のグループ501と最大認識率94のグループ502を比較すると、グループ501に関しては、グループ502より認識率は高いが、その差はわずか1%である。 For example, when comparing the groups 502 of the group 501 and the maximum recognition rate 94 maximum recognition rate 93 of Figure 5, with respect to group 501, although the recognition rate is higher than the group 502, the difference is only 1%. また、認識時間に関しては、各グループ501,502は、850ミリ秒〜900ミリ秒の同じグループとなる。 In addition, with regard to recognition time, each of the groups 501 and 502, the same group of 850 milliseconds to 900 milliseconds. 一方で、メモリ使用量に着目すると、グループ501においては、2.2MB〜2.4MBのメモリ量が必要であるが、グループ502においては、グループ501より少ない、1.6MB〜1.8MBのメモリ量がである。 On the other hand, when attention is paid to the memory usage, in group 501, it is necessary memory amount of 2.2MB~2.4MB, in the group 502 is less than the group 501, memory 1.6MB~1.8MB the amount is is. よって、ユーザは、若干認識率は低いもののメモリ使用量が格段に少ないグループ502を選択することも可能となる。 Thus, the user, the memory usage of some recognition rate low is also possible to select a much smaller group 502.

本実施の形態においては、メモリ使用量−認識時間平面に認識率を提示する場合について説明したが、これに限定されるものではなく、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよい。 In the present embodiment, memory usage - has been described to present the recognition rate in the recognition time plane, is not limited to this, memory usage - recognition rate plan and recognition time - the recognition rate plan it may be presented. いうまでもなく、メモリ使用量−認識率平面の場合は、認識時間の最小値を、認識時間−認識率平面の場合は、メモリ使用量の最小値をそれぞれ表示する。 Of course, memory usage - in the case of recognition rate plan, the minimum value of the recognition time, recognition time - in the case of recognition rate plan, to display a minimum of memory usage, respectively.

上記第1の実施の形態においては、動作結果(認識率、認識時間、メモリ使用量)をベクトルとみなしてベクトル量子化する場合について説明したが、これに限定されるものではなく、(認識率、メモリ使用量)をベクトルとみなしてベクトル量子化を行う場合もよいものとする。 In the first embodiment, the operation result (recognition rate, recognition time, memory usage) there has been described a case where the vector quantizing regarded as vectors, it is not limited thereto, (recognition rate , also intended may if the memory usage) is regarded as a vector performs vector quantization. さらに、上記第2の実施の形態と組み合わせて、量子化の結果をメモリ使用量−認識時間平面上に表示するようにしてもよい。 Furthermore, in combination with the above second embodiment, the result of quantization memory usage - it may be displayed on a recognition time plane. 平面上に提示する数字は、その代表ベクトルによって代表される動作結果の集合の中の最大認識率である。 The numbers presented in the plane is the maximum recognition rate in the set of results operation represented by that representative vector. この場合は、動作結果がどの代表ベクトルに所属するかを記録しておく必要がある。 In this case, it is necessary to record the operation result belongs to which representative vector.

また、メモリ使用量−認識時間平面上に認識率を表示することに代えて、メモリ使用量−認識率平面や認識時間−認識率平面を提示するようにしてもよく、メモリ使用量−認識率平面の場合は認識時間の最小値が、認識時間−認識率平面の場合はメモリ使用量の最小値がそれぞれ表示されることになる。 Moreover, memory usage - Instead of displaying the recognition rate on recognition time plane, memory usage - recognition rate plan and recognition time - may be presented the recognition rate plan, memory usage - recognition rate the minimum value of the recognition time in the case of planes, recognition time - in the case of recognition rate plan will be a minimum of memory usage is displayed.

上記第1の実施の形態のベクトル量子化において、認識率、認識時間、メモリ使用量はそれぞれ違う性質のものであるので、距離尺度としてそれぞれの分散で正規化したものを利用してもよい。 In vector quantization of the first embodiment, the recognition rate, recognition time, so memory usage is of different nature, respectively, may be utilized normalized with the respective distributed as a distance measure. この場合の分散は、試行結果のすべてもしくは一部を使ってその各要素である認識率、認識時間、メモリ使用量の値の分散をそれぞれ求めることで実現できる。 The dispersion in this case, the recognition rate that is each element with all or part of the trial result, recognition time can be realized by obtaining the variance of the values ​​of memory usage, respectively.

なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。 The present invention can be applied to a system constituted by a plurality of devices or to an apparatus comprising a single device. 前述した実施形態の機能を実現するソフトウエアのプログラムコードを、ネットワークなどを介してダウンロードして実行したり、プログラムコードを記録した記録媒体をシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。 The software program code for realizing the functions of the foregoing embodiments, or download and run over a network, and supplies the recording medium recording the program code to the system or apparatus, the system or apparatus computer ( or CPU, MPU) may read and execute the program code stored in the recording medium, it is needless to say that is achieved.

この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。 In this case, the program code itself read from the recording medium realizes the functions of the embodiments and the recording medium which records the program code constitutes the present invention. プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As the recording medium for supplying the program code include a floppy (registered trademark) disk, a hard disk, using a magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card, ROM, and the like be able to.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることはいうまでもない。 Further, by executing the read program by computer, as well as functions of the above embodiments are realized on the basis of the instructions of the program code, an OS running on the computer of the actual processing performs part or all but also to a case where the functions of the embodiments mentioned above are realized by those processes.

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることはいうまでもない。 Furthermore, the program codes read out from the recording medium are written in a memory of a function expansion unit connected to a function expansion board inserted into the computer or on the basis of the instructions of the program code, the function expansion a CPU or the like provided in the board or function expansion unit performs part or all of the actual processing so that the program codes and the functions of the above-described embodiments are realized by those processes.

本発明の第1の実施の形態に係る、音声認識のためのパラメータを適切に設定するためのパラメータ設定装置のハードウエア構成を示すブロック図である。 According to the first embodiment of the present invention, it is a block diagram showing a hardware configuration of a parameter setting apparatus for setting an appropriate parameter for speech recognition. 図1のパラメータ設定装置のモジュール構成を示すブロック図である。 Is a block diagram showing the module configuration of a parameter setting apparatus of FIG. 図2のパラメータ設定装置の処理の手順を示すフローチャートである。 It is a flowchart showing a procedure of processing parameter setting apparatus of FIG. 図2のベクトル量子化部206によるベクトル量子化の入出力データの一例を示す図である。 It is a diagram illustrating an example of input and output data of the vector quantization by the vector quantization unit 206 of FIG. 本発明の第2の実施の形態に係るパラメータ設定装置における認識時間とメモリ使用量に関する2次元平面上にグループ分けの結果を表した図である。 It is a diagram illustrating a result of grouping the two-dimensional plane on the recognition time and memory usage in the parameter setting apparatus according to a second embodiment of the present invention.

符号の説明 DESCRIPTION OF SYMBOLS

101 制御メモリ101 101 control memory 101
102 中央処理装置(CPU) 102 central processing unit (CPU)
103 メモリ103 103 memory 103
104 外部記憶装置 105 入力装置 106 表示装置 107 バス 201 パラメータ探索条件保持部 202 パラメータ選択部 203 評価用データ保持部 204 音声認識部 205 動作結果保持部 206 ベクトル量子化部 207 量子化結果保持部 208 表示処理部 209 入力処理部 104 external storage device 105 input device 106 display device 107 bus 201 parameter search condition holding unit 202 the parameter selection unit 203 for evaluation data holding unit 204 the speech recognition unit 205 operates result holding unit 206 vector quantization section 207 quantization result holding unit 208 displays processing unit 209 input processing unit

Claims (10)

  1. 音声認識のためのパラメータ設定装置であって、 A parameter setting apparatus for speech recognition,
    動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行手段と、 And attempt means for attempting speech recognition using it for a plurality of parameter sets prepared in advance with respect to the operating conditions,
    前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持手段と、 In each of the trials, and operation result holding means for the operation results including the recognition rate is retained with the parameter set corresponding thereto,
    前記試行毎の動作結果をグループ化するグループ化手段とを備えることを特徴とするパラメータ設定装置。 Parameter setting device, characterized in that it comprises a grouping means for grouping the operation results for each of the trial.
  2. 前記グループ化手段は、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項1記載のパラメータ設定装置。 It said grouping means, the parameter setting apparatus according to claim 1, wherein the grouping operation results for each of the trials using vector quantization.
  3. 前記グループ化手段によるグループ化の前段処理として不適当な動作結果を取り除く除去手段を備えることを特徴とする請求項1記載のパラメータ設定装置。 Parameter setting apparatus according to claim 1, characterized in that it comprises a removal means for removing improper operation resulting pre-processing of grouping by said grouping means.
  4. 音声認識のためのパラメータ設定方法であって、 A parameter setting method for speech recognition,
    動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行工程と、 A trial step of attempting speech recognition using it for a plurality of parameter sets prepared in advance with respect to the operating conditions,
    前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持工程と、 In each of the trials, and operation result holding step of the operation results including the recognition rate is retained with the parameter set corresponding thereto,
    前記試行毎の動作結果をグループ化するグループ化工程とを備えることを特徴とするパラメータ設定方法。 Parameter setting method characterized by comprising a grouping step of grouping operation results for each of the trial.
  5. 前記グループ化工程では、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項4記載のパラメータ設定方法。 In the grouping step, the parameter setting method according to claim 4, wherein the grouping operation results for each of the trials using vector quantization.
  6. 前記グループ化工程によるグループ化の前段処理として不適当な動作結果を取り除く除去工程を備えることを特徴とする請求項4記載のパラメータ設定方法。 Parameter setting method according to claim 4, characterized in that it comprises a removal step of removing the improper operation as a result pre-processing of the grouping by the grouping step.
  7. 音声認識のためのパラメータ設定方法を実現するためのプログラムであって、 A program for realizing a parameter setting method for speech recognition,
    動作条件に対して予め用意されている複数のパラメータセット毎にそれを用いて音声認識を試行する試行モジュールと、 A trial module attempting speech recognition using it for a plurality of parameter sets prepared in advance with respect to the operating conditions,
    前記試行毎における、認識率を含む動作結果をそれに対応するパラメータセットとともに保持する動作結果保持モジュールと、 In each of the trials, and operation result holding module that holds together parameter set corresponding to an operation result including the recognition rate,
    前記試行毎の動作結果をグループ化するグループ化モジュールとを備えることを特徴とするプログラム。 Program; and a grouping module for grouping the operation results for each of the trial.
  8. 前記グループ化モジュールは、ベクトル量子化を用いて前記試行毎の動作結果をグループ化することを特徴とする請求項7記載のプログラム。 The grouping module, according to claim 7, wherein the program characterized by grouping operation results for each of the trials using vector quantization.
  9. 前記グループ化工程によるグループ化の前段処理として不適当な動作結果を取り除く除去モジュールを備えることを特徴とする請求項7記載のプログラム。 According to claim 7, wherein a program characterized in that it comprises a removal module for removing the improper operation as a result pre-processing of the grouping by the grouping step.
  10. 請求項7記載のプログラムをコンピュータ読取可能に格納したことを特徴とする記憶媒体。 Storage medium characterized by the claim 7, wherein the program stored computer readable so.
JP2003412497A 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium Pending JP2005173157A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003412497A JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003412497A JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Publications (1)

Publication Number Publication Date
JP2005173157A true JP2005173157A (en) 2005-06-30

Family

ID=34732921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003412497A Pending JP2005173157A (en) 2003-12-10 2003-12-10 Parameter setting device, parameter setting method, program and storage medium

Country Status (1)

Country Link
JP (1) JP2005173157A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009532742A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド A method and system for evaluating and improving the performance of speech recognition system
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374870B2 (en) 2005-02-04 2013-02-12 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8612235B2 (en) 2005-02-04 2013-12-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8756059B2 (en) 2005-02-04 2014-06-17 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8868421B2 (en) 2005-02-04 2014-10-21 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US9202458B2 (en) 2005-02-04 2015-12-01 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US9928829B2 (en) 2005-02-04 2018-03-27 Vocollect, Inc. Methods and systems for identifying errors in a speech recognition system
US10068566B2 (en) 2005-02-04 2018-09-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
JP2009532742A (en) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド A method and system for evaluating and improving the performance of speech recognition system
JP2013232017A (en) * 2006-04-03 2013-11-14 Vocollect Inc Method and system for assessing and improving performance of speech recognition system
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9697818B2 (en) 2011-05-20 2017-07-04 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream

Similar Documents

Publication Publication Date Title
US8761915B2 (en) System and method for automatically producing haptic events from a digital audio file
US6353809B2 (en) Speech recognition with text generation from portions of voice data preselected by manual-input commands
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
US4866778A (en) Interactive speech recognition apparatus
US6832194B1 (en) Audio recognition peripheral system
JP4450991B2 (en) Dynamically configurable acoustic models for speech recognition system
JP3940363B2 (en) Hierarchical language models
EP1455341A2 (en) Block synchronous decoding
US6993482B2 (en) Method and apparatus for displaying speech recognition results
KR100391243B1 (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
ES2214815T3 (en) Speaker verification and identification by voice characteristics.
EP1636790B1 (en) System and method for configuring voice readers using semantic analysis
US7603278B2 (en) Segment set creating method and apparatus
JP2597791B2 (en) Speech recognition apparatus and method
JP4215418B2 (en) Word prediction method, speech recognition method, a speech recognition apparatus and a program using the method
US7240012B2 (en) Speech recognition status feedback of volume event occurrence and recognition status
US20070094004A1 (en) Conversation controller
US7797146B2 (en) Method and system for simulated interactive conversation
JP2522154B2 (en) Voice recognition system
JP3854713B2 (en) Speech synthesis method and apparatus and a storage medium
US8620662B2 (en) Context-aware unit selection
JP3984207B2 (en) Speech recognition evaluation device, speech recognition evaluation method, and a voice recognition evaluation program
JP2005521106A (en) Pattern recognition
KR19980701676A (en) Tonal languages ​​(tonal language) for context-dependent recognition (context dependent) unit syllables (sub-syllable) system for creating models and methods used
EP1349145A2 (en) System and method for providing information using spoken dialogue interface

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060418