JP7214841B2 - THRESHOLD ADJUSTMENT DEVICE, THRESHOLD ADJUSTMENT METHOD, AND RECORDING MEDIUM - Google Patents
THRESHOLD ADJUSTMENT DEVICE, THRESHOLD ADJUSTMENT METHOD, AND RECORDING MEDIUM Download PDFInfo
- Publication number
- JP7214841B2 JP7214841B2 JP2021511407A JP2021511407A JP7214841B2 JP 7214841 B2 JP7214841 B2 JP 7214841B2 JP 2021511407 A JP2021511407 A JP 2021511407A JP 2021511407 A JP2021511407 A JP 2021511407A JP 7214841 B2 JP7214841 B2 JP 7214841B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- evaluation
- recognition
- list
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 5
- 238000011156 evaluation Methods 0.000 claims description 250
- 238000004590 computer program Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 20
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明の実施形態は、閾値調整装置、閾値調整方法および記録媒体に関する。 Embodiments of the present invention relate to a threshold adjustment device, a threshold adjustment method, and a recording medium.
従来、予め定められた複数の認識対象語のいずれかが入力音声に含まれる場合に、その認識対象語を入力音声に対する認識結果として出力する音声認識装置が知られている。この音声認識装置では、各認識対象語に対する反応しやすさを閾値によって制御できる。例えば、入力音声から算出される音響特徴量と、複数の認識対象語のうちのいずれかの音響特徴量との特徴空間上における距離がその認識対象語に対して設定された閾値以下であれば、入力音声に対する認識結果として、その認識対象語が出力される。この場合、複数の認識対象語の各々に対して適切な閾値を設定することで、入力音声に含まれる認識対象語を正しく認識することができる。 2. Description of the Related Art Conventionally, there is known a speech recognition apparatus that, when input speech includes any of a plurality of predetermined recognition target words, outputs the recognition target word as a recognition result for the input speech. In this speech recognition device, the responsiveness to each recognition target word can be controlled by a threshold value. For example, if the distance in the feature space between the acoustic feature value calculated from the input speech and the acoustic feature value of any one of a plurality of recognition target words is equal to or less than the threshold set for the recognition target word , the recognition target word is output as the recognition result for the input speech. In this case, by setting an appropriate threshold for each of the plurality of recognition target words, the recognition target words contained in the input speech can be correctly recognized.
しかし、複数の認識対象語の各々に対し、その認識対象語が入力音声に含まれる場合は反応し、他の認識対象語やノイズには反応しないように適切な閾値を設定することは難しく、このような閾値の調整をサポートする仕組みが求められている。 However, it is difficult to set an appropriate threshold value for each of a plurality of recognition target words so that the recognition target words are included in the input speech and not reacted to other recognition target words or noise. There is a demand for a mechanism that supports such threshold adjustment.
本発明が解決しようとする課題は、予め定められた複数の認識対象語の各々に対して適切な閾値を設定できるように閾値の調整をサポートする閾値調整装置、閾値調整方法および記録媒体を提供することである。 The problem to be solved by the present invention is to provide a threshold adjustment device, a threshold adjustment method, and a recording medium that support threshold adjustment so that an appropriate threshold can be set for each of a plurality of predetermined recognition target words. It is to be.
実施形態の閾値調整装置は、音声認識部と、評価部と、表示制御部と、を備える。音声認識部は、音声認識を行う。評価部は、前記音声認識部に対し、予め定められた複数の認識対象語に対し個別に設定される複数の閾値を要素とする閾値リストと評価用音声とを入力し、前記音声認識部が出力する前記評価用音声に対する認識結果に基づいて、前記閾値リストを用いた前記音声認識部による前記複数の認識対象語の各々に対する認識精度を表す評価値を算出する。表示制御部は、前記複数の認識対象語のうちの任意の認識対象語に対応する閾値を調整するための閾値調整画面を表示装置に表示させる。前記閾値調整画面は、前記評価部によって前記複数の認識対象語の各々に対して算出された評価値を、前記複数の認識対象語の各々に対して事前に算出された理想値と併せて提示する精度一覧画面を含む。 A threshold adjustment device according to an embodiment includes a speech recognition unit, an evaluation unit, and a display control unit. The speech recognition unit performs speech recognition. The evaluation unit inputs, to the speech recognition unit, a threshold list whose elements are a plurality of threshold values individually set for a plurality of predetermined recognition target words, and evaluation speech, and the speech recognition unit An evaluation value representing recognition accuracy for each of the plurality of recognition target words by the speech recognition unit using the threshold list is calculated based on the recognition result of the evaluation speech to be output. The display control unit causes the display device to display a threshold adjustment screen for adjusting a threshold corresponding to an arbitrary recognition target word among the plurality of recognition target words. The threshold adjustment screen presents the evaluation value calculated for each of the plurality of recognition target words by the evaluation unit together with the ideal value calculated in advance for each of the plurality of recognition target words. Contains a list of accuracy screens.
上記構成の閾値調整装置によれば、予め定められた複数の認識対象語の各々に対して適切な閾値を設定できるように、閾値の調整をサポートすることができる。 According to the threshold adjustment device having the above configuration, threshold adjustment can be supported so that an appropriate threshold can be set for each of a plurality of predetermined recognition target words.
以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。以下の実施形態では、数十個程度の特定のキーワード(認識対象語)のみに反応するボイストリガ音声認識への適用例を想定して説明する。 Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. In the following embodiments, an example of application to voice-triggered speech recognition that reacts only to several tens of specific keywords (recognition target words) will be described.
図1は、本実施形態の閾値調整装置の機能的な構成例を示すブロック図である。本実施形態の閾値調整装置は、図1に示すように、音声認識部1と、評価部2と、表示制御部3とを備える。
FIG. 1 is a block diagram showing a functional configuration example of the threshold adjustment device of this embodiment. The threshold adjustment device of this embodiment includes a
音声認識部1は、音声認識モデル10を用いて入力音声に対する音声認識処理を行う。本実施形態で利用される音声認識モデル10には、音の特性を解析する音響モデルと、音声認識モデル10の認識対象として予め定められたキーワード群が含まれる。音声認識モデル10に含まれるキーワード群は、キーワードテーブル20に登録される。
A
音声認識モデル10が認識対象とする個々のキーワードに対する反応しやすさを制御するために、音声認識部1に閾値リストが入力される。閾値リストは、各キーワードに対して個別に設定される複数の閾値を要素とするリストである。本実施形態では、音響特徴量間の類似性の指標として特徴空間上の距離を用い、入力音声の音響特徴量とキーワードの音響特徴量との間の距離が閾値以下である場合に音声認識部1がそのキーワードを出力するため、閾値を高く設定するほど対応するキーワードに反応しやすくなる。ここで、閾値の値域は0~1とし、特徴空間上の距離が0~1の値に正規化されて閾値と比較されるものとする。閾値リストは、閾値リストテーブル40に登録される。
A threshold list is input to the
音声認識部1は、例えば、音響モデルを用いて入力音声から音響特徴量を算出し、認識対象となるキーワード群のうち、この入力音声の音響特徴量と特徴空間上で最も近い音響特徴量を持つキーワードを特定する。そして、音声認識部1は、入力音声の音響特徴量と特定したキーワードの音響特徴量との特徴空間上における距離が、特定したキーワードに対して設定された閾値以下の場合に、入力音声に対する認識結果として、特定したキーワードを出力する。
The
評価部2は、音声認識部1に対し、閾値リストテーブル40に随時登録される閾値リストと、評価用データテーブル30に登録されている評価用データの音声(評価用音声)とを入力し、音声認識部1が出力する評価用音声に対する認識結果に基づいて、閾値リストを用いた音声認識部1による各キーワードに対する認識精度を表す評価値を算出する。評価部2による評価結果は、評価結果テーブル50に記録される。
The
また、評価部2は、後述の初期評価によって各キーワードの理想的な評価値(理想値)を事前に算出する。評価部2により事前に算出されたキーワードごとの理想値は、理想値テーブル60に記録される。
Also, the
表示制御部3は、音声認識モデル10が認識対象とするキーワード群のうちの任意のキーワードに対応する閾値を調整するための閾値調整画面を任意の表示装置に表示させる。閾値調整画面は、後述の精度一覧画面70(図8参照)、誤認識解析画面80(図9参照)、初期評価結果画面90(図10参照)を含む。
The
図2は、キーワードテーブル20の一例を示す図である。キーワードテーブル20は、音声認識モデル10が認識対象とする各キーワードが登録されるテーブルである。キーワードテーブル20は、図2に示すように、各キーワードに対して一意に割り当てられたIDと、各キーワードのテキストとを含む。
FIG. 2 is a diagram showing an example of the keyword table 20. As shown in FIG. The keyword table 20 is a table in which each keyword to be recognized by the
図3は、評価用データテーブル30の一例を示す図である。評価用データテーブル30は、評価部2による評価に用いられる評価用データが登録されるテーブルである。評価用データは、音声とその音声に含まれるキーワードからなる。つまり、音声認識モデル10の認識対象として予め定められたキーワードを含む評価用音声と、その評価用音声から認識されるべき正解のキーワードとの組みが評価用データである。評価用データテーブル30は、図3に示すように、各評価用データに対して一意に割り当てられたIDと、音声のファイル名と、キーワードIDとを含む。キーワードIDは、音声に含まれるキーワードのIDを示す。
FIG. 3 is a diagram showing an example of the evaluation data table 30. As shown in FIG. The evaluation data table 30 is a table in which evaluation data used for evaluation by the
図4は、閾値リストテーブル40の一例を示す図である。閾値リストテーブル40は、音声認識部1に入力される閾値リストが登録されるテーブルである。閾値リストテーブル40は、図4に示すように、各閾値リストに対して一意に割り当てられたIDと、閾値リストとを含む。閾値リストは、上述のように、音声認識モデル10が認識対象とする各キーワードに対して個別に設定される閾値を要素とするリストである。
FIG. 4 is a diagram showing an example of the threshold list table 40. As shown in FIG. The threshold list table 40 is a table in which the threshold list input to the
閾値リストテーブル40に登録される閾値リストとしては、評価部2の初期評価で用いられる初期評価用閾値リスト、評価部2の初期評価によって得られる初期閾値リスト、閾値調整画面を用いて生成される調整後閾値リストがある。図4の例では、IDが“1”とIDが“2”の閾値リストが初期評価用閾値リスト、IDが“19”の閾値リストが初期閾値リスト、IDが“20”の閾値リストが調整後閾値リストであることを想定している。
The threshold list registered in the threshold list table 40 includes the initial evaluation threshold list used in the initial evaluation by the
初期評価用閾値リストは、音声認識モデル10が認識対象とする各キーワードに共通の閾値を設定する閾値リスト、つまり、要素の値が全て同じ閾値リストである。各キーワードで共通とする要素の値が異なる複数の初期評価用リストが、閾値リストテーブル40に登録される。
The initial evaluation threshold list is a threshold list in which a common threshold is set for each keyword to be recognized by the
初期閾値リストは、各キーワードに対して個別に設定される閾値として、初期評価によって理想値が得られたときに用いられた初期評価用閾値リストの閾値を用いた閾値リストである。初期閾値リストは、評価部2による初期評価の結果をもとに生成され、閾値リストテーブル40に登録される。
The initial threshold list is a threshold list that uses the thresholds of the initial evaluation threshold list that were used when the ideal values were obtained by the initial evaluation as the thresholds that are individually set for each keyword. The initial threshold list is generated based on the results of the initial evaluation by the
調整後閾値リストは、ユーザが閾値調整画面を用いて任意の認識対象語に対応する閾値を調整することにより得られる閾値リストである。調整後閾値リストは、閾値調整画面を用いた操作に応じて随時生成され、閾値リストテーブル40に登録される。 The post-adjustment threshold list is a threshold list obtained by the user adjusting the threshold corresponding to an arbitrary recognition target word using the threshold adjustment screen. The post-adjustment threshold list is generated as needed according to the operation using the threshold adjustment screen and registered in the threshold list table 40 .
図5は、評価結果テーブル50の一例を示す図である。評価結果テーブル50は、評価部2による評価結果が記録されるテーブルである。評価結果テーブル50は、図5に示すように、各評価結果に対して一意に割り当てられたIDと、閾値リストIDと、キーワードIDと、正解率と、拒絶率と、誤認識キーワードとを含む。
FIG. 5 is a diagram showing an example of the evaluation result table 50. As shown in FIG. The evaluation result table 50 is a table in which evaluation results by the
閾値リストIDは、評価の際に音声認識部1に入力した閾値リストのIDである。キーワードIDは、評価対象となるキーワードのIDである。ここでは、1つの閾値リストに対してキーワードごとの音声認識部1による認識精度を評価するものとし、閾値リストとキーワードの組合せごとの評価結果が、評価結果テーブル50の1つのエントリに記録される。
The threshold list ID is the ID of the threshold list input to the
正解率は、評価対象となるキーワードを含む評価用音声に対する音声認識部1による認識結果がそのキーワードであった場合を正解とし、(正解回数/そのキーワードを含む評価用データの総数)×100(%)で算出される。拒絶率は、音声認識部1の認識結果がキーワードなしであった場合を拒絶とし、(拒絶回数/評価対象となるキーワードを含む評価用データの総数)×100(%)で算出される。これら正解率および拒絶率は、閾値リストを用いた音声認識部1によるキーワードに対する認識精度を表す評価値として、評価結果テーブル50に記録される。
The accuracy rate is defined as the correct answer when the recognition result of the
上述の正解と拒絶以外に、音声認識部1による認識結果が正解と異なるキーワードである場合、つまり他のキーワードを誤認識する場合がある。音声認識部1が正解と異なる他のキーワードを誤認識した場合、誤認識したキーワードごとに誤認識した回数が評価部2によりカウントされ、誤認識したキーワードのIDとそのキーワードを誤認識した回数の組が、評価結果テーブル50の誤認識キーワードに配列として記録される。
In addition to the above-mentioned correct answer and rejection, there is a case where the recognition result by the
図6は、理想値テーブル60の一例を示す図である。理想値テーブル60は、評価部2が初期評価によって算出したキーワードごとの理想値が記録されるテーブルである。理想値テーブル60は、各キーワードに対して一意に割り当てられたIDと、各キーワードの理想値である正解率および拒絶率とを含む。正解率は、初期評価によって得られた正解率のうち、最も値が高いものが記録される。拒絶率は、最も高い正解率が得られた初期評価における拒絶率が記録される。
FIG. 6 is a diagram showing an example of the ideal value table 60. As shown in FIG. The ideal value table 60 is a table in which the ideal value for each keyword calculated by the
次に、図7のフローチャートに沿って、本実施形態の閾値調整装置の動作を説明する。図7は、本実施形態の閾値調整装置の動作例を示すフローチャートである。 Next, the operation of the threshold adjustment device of this embodiment will be described along the flowchart of FIG. FIG. 7 is a flow chart showing an operation example of the threshold adjustment device of this embodiment.
まず、閾値調整装置に対するデータ登録が実施される(ステップS101)。ここで登録されるデータは、音声認識モデル10および評価用データである。音声認識モデル10の登録は、例えば、モデルのファイル名と認識対象となる各キーワードの文字列とを含むJSONファイルをアップロードすることによって行う。モデルのファイルは予め装置内部に格納しておいてもよいし、別途アップロードする構成でもよい。登録された音声認識モデル10は、音声認識部1が音声認識処理を行うために使用される。また、この音声認識モデル10に含まれる認識対象の各キーワードが、キーワードテーブル20に登録される。
First, data registration for the threshold adjustment device is performed (step S101). The data registered here are the
また、評価用データの登録は、例えば、複数の評価用音声のファイル名と各評価用音声に含まれるキーワードの文字列とを含むJSONファイルをアップロードすることによって行う。各評価用音声のファイルは予め装置内部に格納しておいてもよいし、別途アップロードする構成でもよい。アップロードした各評価用音声のファイル名とキーワードのIDが、評価用データテーブル30に登録される。 Registration of the evaluation data is performed by uploading a JSON file containing, for example, the file names of multiple evaluation voices and the character strings of keywords included in each evaluation voice. Each evaluation voice file may be stored in the device in advance, or may be uploaded separately. The file name and keyword ID of each uploaded evaluation voice are registered in the evaluation data table 30 .
データ登録が終了すると、評価部2が初期評価を行う(ステップS102)。初期評価では、評価部2は、各キーワードに共通の閾値を設定する初期評価用閾値リストと、評価用データテーブル30に登録されている各評価用データの音声(評価用音声)を、初期評価用閾値リストにおける閾値を所定間隔で変更しながら音声認識部1に繰り返し入力する。初期評価用閾値リストの閾値は、例えば、0.1を開始値として0.95まで0.05刻みで変化させる。これらの初期評価用閾値リストは、音声認識部1に順次入力されるとともに閾値リストテーブル40に登録される。
When the data registration is completed, the
評価部2は、初期評価用閾値リストと評価用音声を音声認識部1に入力するたびに、その初期評価用閾値リストの閾値を用いた音声認識部1によるキーワードごとの認識精度を評価する。初期評価用閾値リストの閾値に対応するキーワードごとの評価は、音声認識部1が出力する認識結果を評価用データに含まれるキーワードと照合し、キーワードごとの正解率・拒絶率(評価値)を算出することで行われる。すなわち、評価部2は、以上のように閾値を変化させた初期評価用と評価用音声を音声認識部1に繰り返し入力しながら、音声認識部1が出力する評価用音声に対する認識結果に基づいて、キーワードごとの評価値を繰り返し算出する。これら評価部2による初期評価の評価結果は、閾値リストテーブル40に登録された初期評価用閾値リストのIDとともに、評価結果テーブル50に記録される。
The
以上の初期評価を実施した後、評価部2は、キーワードごとに、最良の正解率が得られた評価結果を評価結果テーブル50から検索し、その正解率・拒絶率を理想値として、キーワードのIDとともに理想値テーブル60に記録する。また、評価部2は、最良の正解率が得られたキーワードごとの閾値を要素とする閾値リストを初期閾値リストとして閾値リストテーブル40に登録する。
After carrying out the above initial evaluation, the
次に、評価部2は、初期閾値リストを用いた評価を行う(ステップS103)。初期評価と同様に、評価部2は、閾値リスト(ここでは初期閾値リスト)と評価用音声を音声認識部1に入力し、音声認識部1が出力する認識結果をもとにキーワードごとの正解率・拒絶率(評価値)を算出して、評価結果を評価結果テーブル50に記録する。
Next, the
初期閾値リストを用いた評価が終了すると、表示制御部3が、ユーザが使用する端末の表示装置などの任意の表示装置に閾値調整画面を表示させ、この閾値調整画面を用いたユーザの操作に応じて閾値の調整を行う(ステップS104)。
When the evaluation using the initial threshold list is completed, the
まず、表示制御部3は、閾値調整画面として、例えば図8に示すような精度一覧画面70を表示装置に表示させる。この精度一覧画面70は、評価部2によって認識対象のキーワードの各々に対して算出された評価値を、理想値テーブル60に記録された理想値と併せて提示する画面である。
First, the
図8に示す精度一覧画面70では、グラフ表示71により、音声認識部1に入力した閾値リスト(ここでは初期閾値リスト)での各キーワードの評価値を理想値と併せて提示している。グラフ表示71は、横軸に認識対象の各キーワードが配置され、キーワードごとの評価値(正解率・拒絶率)と理想値(正解率・拒絶率)が、縦軸の該当する位置にプロットされている。図中の白の丸が初期閾値リストでの正解率、黒の丸が理想値としての正解率を示し、図中の白の三角が初期閾値リストでの拒絶率、黒の三角が理想値としての拒絶率を示している。これらキーワードごとの評価値は、初期閾値リストのIDとキーワードのIDをキーとして評価結果テーブル50を検索することで取得される。また、キーワードごとの理想値は、キーワードIDをキーとして理想値テーブル60を検索することで取得される。
In the
あるキーワードにおいて、初期閾値リストでの評価値が理想値と一致しないのは、理想値では他のキーワードに対して同一の閾値を設定しているのに対し、初期閾値リストでは他のキーワードに異なる閾値を設定していることにより発生する、キーワード間の相互作用のためである。ユーザは、この精度一覧画面70のグラフ表示71を参照することにより、初期閾値リストでの評価値が理想値に対して低下しているキーワード(図8の例では「オン」)を容易に把握することができる。
For a given keyword, the evaluation value in the initial threshold list does not match the ideal value. This is due to interactions between keywords that occur due to setting thresholds. By referring to the
精度一覧画面70上でユーザが任意のキーワードをクリックして選択し、「誤検知解析」ボタン72を押すと、閾値調整画面は、例えば図9に示す誤認識解析画面80に遷移する。この誤認識解析画面80は、精度一覧画面70で選択されたキーワードについて、そのキーワードを含む評価用音声に対して音声認識部1が他のキーワードを認識結果として出力した回数、つまり、音声認識部1による誤認識の回数を、誤認識したキーワードごとに提示する画面である。
When the user clicks and selects an arbitrary keyword on the
図9に示す誤認識解析画面80では、グラフ表示81により、誤認識したキーワードごとの誤認識の回数を提示している。グラフ表示81は、横軸に認識対象の各キーワードが配置され、誤認識されたキーワードについては、その誤認識回数が縦軸の該当する位置まで伸びる棒グラフで表されている。誤認識されたキーワードの誤認識回数は、精度一覧画面70上で選択されたキーワードのIDをキーとして評価結果テーブル50を検索することで取得される。ユーザは、この誤認識解析画面80を参照することにより、誤認識を防止するために閾値を下げるべきキーワード(図9の例では「音楽」)を容易に把握することができる。
In the
誤認識解析画面80上でユーザが「戻る」ボタン82を押すと、閾値調整画面は、図8に示した精度一覧画面70に戻る。そして、精度一覧画面70上でユーザが任意のキーワードをクリックで選択し、「初期評価結果」ボタン73を押すと、閾値調整画面は、例えば図10に示す初期評価結果画面90に遷移する。この初期評価結果画面90は、選択されたキーワードについて、初期評価で用いた初期評価用閾値リストの閾値ごとに評価部2により算出された評価値(正解率・拒絶率)の一覧を提示する画面である。
When the user presses a "return"
図10に示す初期評価結果画面90では、グラフ表示91により、初期評価で用いた初期評価用閾値リストの閾値ごとの評価値の一覧を提示している。グラフ表示91は、横軸に初期評価で用いた各初期評価用閾値リストの閾値が配置され、それぞれの閾値に対応する正解率と拒絶率が縦軸の該当する位置まで伸びる棒グラフで表されている。図中の白の棒グラフが閾値ごとの正解率、黒の棒グラフが閾値ごとの拒絶率を示している。閾値ごとの正解率・拒絶率は、キーワードのIDと初期評価用閾値リストのIDをキーとして評価結果テーブル50を検索することで取得される。ユーザは、この初期評価結果画面90を参照することにより、閾値の調整可能範囲などを把握できる。正解率が十分に高く、拒絶率が十分に低い範囲(図10の例では0.45~0.75の範囲)であれば、閾値を調整してよいと考えられる。
In the initial
初期評価結果画面90上でユーザが設定したい閾値をクリックして選択し、「閾値設定」ボタン92を押すと、精度一覧画面70上で選択したキーワードに対する閾値が、初期評価結果画面90上で選択した閾値に変更され、閾値調整画面は精度一覧画面70に戻る。誤認識解析画面80で把握した他のキーワードに対する閾値を変更する場合、ユーザは、そのキーワードを精度一覧画面70上で選択し、初期評価結果画面90上で閾値を選択して「閾値設定」ボタン92を押すことにより、そのキーワードの閾値も変更できる。すなわち、ユーザは、表示装置に閾値調整画面として表示される精度一覧画面70、誤認識解析画面80、初期評価結果画面90を用いて、各キーワードに設定する閾値を所望の値に適切に調整することができる。
When the user clicks and selects the threshold he/she wants to set on the initial
閾値を変更したい全てのキーワードについて同様の操作を行った後、精度一覧画面70上でユーザが「再評価」ボタン74を押すと(ステップS105:No)、変更された閾値を反映した新たな閾値リストが調整後閾値リストとして閾値リストテーブル40に登録される。また、閾値調整装置の動作フローはステップS103に戻り、評価部2によってその調整後閾値リストを用いた評価が再度行われ、評価結果が評価結果テーブル50に記録される。その後、調整後閾値リストでの各キーワードの評価値を理想値と併せて提示する精度一覧画面70が表示される。このとき、初期閾値リストでの各キーワードの評価値も消さずに提示してもよい。この場合は、初期閾値リストでの評価値と調整後閾値リストでの評価値とを例えば色分けなどによって明確に区別できるようにすることが望ましい。
After performing the same operation for all the keywords for which the threshold is to be changed, when the user presses the "re-evaluate"
ユーザは、認識対象の各キーワードについて適切な評価結果が得られるまで上述の操作を繰り返し、各キーワードについて適切な評価結果が得られたことを確認したら、精度一覧画面70上で「終了ボタン」75を押す(ステップS105:Yes)。これにより、閾値調整装置の一連の動作が終了する。このとき、最新の調整後閾値リストが、ステップS101で登録された音声認識モデル10に対応する最適な閾値リストとして、指定された外部の配信先に配信されるようにしてもよい。また、最新の調整後閾値リストを、ステップS101で登録された音声認識モデル10に対応する最適な閾値リストとして閾値調整装置の内部に保存され、必要に応じて外部からアクセスできるようにしてもよい。
The user repeats the above operation until an appropriate evaluation result is obtained for each keyword to be recognized, and after confirming that an appropriate evaluation result has been obtained for each keyword, clicks the "end button" 75 on the
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の閾値調整装置は、認識対象として予め定められた複数のキーワードの各々に対して個別に設定される閾値を要素とする閾値リストを用いた場合の認識精度を表す評価値をキーワードごとに算出し、算出した評価値を理想値と併せて提示する精度一覧画面70を表示装置に表示させるようにしている。したがって、ユーザは、この精度一覧画面70参照することで、閾値を変更すべきキーワードを容易に把握することができる。
As described above in detail with specific examples, the threshold adjustment device of the present embodiment uses thresholds set individually for each of a plurality of keywords predetermined as recognition targets as elements. An evaluation value representing the recognition accuracy when using the threshold list is calculated for each keyword, and an
また、本実施形態の閾値調整装置は、精度一覧画面70上で任意のキーワードが選択されると、誤認識解析画面80や初期評価結果画面90を表示装置に表示させるようにしている。したがって、ユーザは誤認識解析画面80を参照することで、選択したキーワードに対して誤認識されやすい他のキーワードを容易に把握できるとともに、初期評価結果画面90を参照することで、選択したキーワードの閾値を変更可能な範囲を容易に把握することができ、閾値の変更を適切に実施することができる。
Further, the threshold adjusting apparatus of the present embodiment displays an erroneous
このように、本実施形態の閾値調整装置は、認識対象として予め定められた複数のキーワードの各々に対して適切な閾値を設定できるように、閾値の調整をサポートすることができる。 In this manner, the threshold adjustment device of the present embodiment can support threshold adjustment so that an appropriate threshold can be set for each of a plurality of keywords predetermined as recognition targets.
<変形例1>
上述の閾値調整装置は、閾値を自動調整する機能を備える構成としてもよい。図11は、本変形例の閾値調整装置の機能的な構成例を示すブロック図である。本変形例の閾値調整装置は、図1に示した構成に対し、自動調整部4が付加された構成である。<
The threshold adjustment device described above may be configured to have a function of automatically adjusting the threshold. FIG. 11 is a block diagram showing a functional configuration example of the threshold adjustment device of this modification. The threshold adjustment device of this modification has a configuration in which an
本変形例では、初期閾値リストを用いた評価が終了すると、表示制御部3が、閾値調整画面として、まず、図12に示すような精度一覧画面70を表示装置に表示させる。この精度一覧画面70は、図8に示した精度一覧画面70に対し、「自動調整」ボタン76が付加された構成である。この精度一覧画面70上でユーザが「自動調整」ボタン76を押すと、自動調整部4が起動する。
In this modification, when the evaluation using the initial threshold list is completed, the
自動調整部4は、起動後、まず、精度一覧画面70に提示される評価値と理想値との差分に基づいて、閾値を調整する対象となるキーワード(第1の認識対象語)を選択する。例えば、自動調整部4は、評価値が理想値から最も低下しているキーワードを選択する。そして、自動調整部4は、選択したキーワードに対応する初期評価結果画面90に提示される閾値ごとの評価値の一覧に基づいて、選択したキーワードの正解率が低下せず拒絶率が上昇しない範囲で、そのキーワードに対応する閾値を上げる。
After being activated, the
また、自動調整部4は、精度一覧画面70上で選択したキーワードに対応する誤認識解析画面80において最も誤認識の回数が多かったキーワードを、精度一覧画面70上で選択したキーワードとともに閾値を調整するキーワード(第2の認識対象語)として選択する。そして、自動調整部4は、選択したキーワードに対応する初期評価結果画面90に提示される閾値ごとの評価値の一覧に基づいて、選択したキーワードの正解率が低下せず拒絶率が上昇しない範囲で、そのキーワードに対応する閾値を下げる。
In addition, the
自動調整部4は、以上の動作を規定回数繰り返し、変更した閾値を反映した新たな閾値リストを調整後閾値リストとして閾値リストテーブル40に登録する。その後、上述の実施形態と同様に、評価部2によってその調整後閾値リストを用いた評価が再度行われ、評価結果が評価結果テーブル50に記録される。そして、調整後閾値リストでの各キーワードの評価値を理想値と併せて提示する精度一覧画面70が表示される。
The
本変形例では、以上のように、閾値を調整すべきキーワードの選択やそのキーワードに対応する閾値の調整を自動で行うことができるため、ユーザの操作負担を軽減できるといった特有の効果が得られる。 In this modified example, as described above, it is possible to automatically select a keyword for which the threshold value should be adjusted and adjust the threshold value corresponding to the keyword, thereby obtaining a unique effect of reducing the user's operation burden. .
<変形例2>
上述の実施形態では、音声認識モデル10の認識対象となるキーワードのいずれかが評価用音声に含まれるものとしたが、キーワードが含まれていないノイズ音声、あるいは音声認識モデル10の認識対象ではない他のワードが含まれるノイズ音声を評価用音声に加えてもよい。このようなノイズ音声を評価用音声に加える場合、評価用データテーブル30の該当するエントリのキーワードIDには、該当なしを示す“n/a”が記録される。このようなノイズ音声に対する音声認識部1の認識結果としては、キーワードなし(拒絶)が正しい結果である。<
In the above-described embodiment, it is assumed that any of the keywords to be recognized by the
本変形例では、初期評価後の評価実施(図7のステップS103)において、キーワードを含む評価用音声に加えてノイズ音声を音声認識部1に入力し、認識対象となるキーワードごとに、音声認識部1がノイズ音声に対する認識結果としてそのキーワードを誤認識(誤反応)した回数を記録する。そして、図8に示した精度一覧画面70において、キーワードごとの評価値および理想値と併せて、ノイズ音声で誤認識された回数を提示する。ユーザは、この精度一覧画面70を参照することにより、ノイズ音声に対して誤認識されやすいキーワードを容易に把握することができ、そのキーワードを閾値の調整対象として選択し、上述の実施形態と同様に閾値の調整を適切に行うことができる。
In this modification, in the evaluation after the initial evaluation (step S103 in FIG. 7), in addition to the evaluation speech containing the keyword, noise speech is input to the
以上のように、本変形例では、ノイズ音声に対して誤認識されやすいキーワードをユーザに的確に把握させることができ、閾値の調整をより効果的にサポートすることができるといった特有の効果が得られる。 As described above, in this modified example, it is possible to allow the user to accurately grasp keywords that are likely to be erroneously recognized with respect to noise speech, and to more effectively support threshold adjustment. be done.
<変形例3>
上述の実施形態では、閾値調整の対象として選択されたキーワードに対応する初期評価結果画面90において、正解率が十分に高くかつ拒絶率が十分に低い範囲を、閾値の調整可能な範囲としている。しかし、この範囲はあくまで評価用データを用いた評価部2の評価結果をもとに導き出される範囲であり、この範囲の境界付近の閾値を調整後の閾値として設定すると、より多様な音声が入力される実際の音声認識においては、認識精度が低下することも想定される。<
In the above-described embodiment, the range in which the correct answer rate is sufficiently high and the rejection rate is sufficiently low in the initial
そこで、初期評価結果画面90において、隣接する閾値での正解率が急激に低下している、あるいは隣接する閾値での拒絶率が急激に上昇しているような閾値を調整後の閾値として設定しようとした場合に、その初期評価結果画面90上またはその画面から遷移する精度一覧画面70上で、閾値調整によって精度が低下する虞があることを示す警告を表示してもよい。隣接する閾値での正解率が急激に低下している、あるいは隣接する閾値での拒絶率が急激に上昇しているとの判定は、例えば、隣接する閾値での正解率が10%以上低下する、あるいは隣接する閾値での拒絶率が10%以上上昇するといった条件を予め定めておけばよい。
Therefore, in the initial
なお、上述の変形例1で説明したように、自動調整部4が閾値の調整を自動で行う構成の場合においても、同様の警告表示を行うようにしてもよい。すなわち、自動調整部4が調整後の閾値として、隣接する閾値での正解率が急激に低下している、あるいは隣接する閾値での拒絶率が急激に上昇しているような閾値を選択した場合に、初期評価結果画面90上または精度一覧画面70上で警告を表示し、ユーザが閾値の調整を許可した場合に閾値の調整を行うようにしてもよい。
As described in
以上のように、本変形例では、却って認識精度の低下を招くような閾値の調整を行う虞がある場合に警告を表示するようにしているので、閾値の調整をより効果的にサポートすることができるといった特有の効果が得られる。 As described above, in this modified example, a warning is displayed when there is a risk of the adjustment of the threshold value that would rather cause a decrease in recognition accuracy. Therefore, it is possible to more effectively support the adjustment of the threshold value. You can get the unique effect of being able to
<変形例4>
上述の実施形態では、特定のキーワードのみに反応するボイストリガ音声認識への適用例を想定したが、ボイストリガ音声認識に限らず、連続した音声を文字に変換する連続音声認識に対して本発明を適用することもできる。連続音声認識においては、一般的な用語に加えて専門的な用語を認識可能にするためのユーザ単語辞書を追加することが可能である。そして、そのユーザ単語辞書に登録された各単語の認識されやすさ、認識されにくさを、閾値によって制御することができる。<
In the above-described embodiment, an example of application to voice-triggered speech recognition that reacts only to a specific keyword was assumed, but the present invention is not limited to voice-triggered speech recognition, but also applies to continuous speech recognition that converts continuous speech into characters. can also be applied. In continuous speech recognition, it is possible to add a user word dictionary to enable recognition of technical terms in addition to general terms. Then, the ease of recognition and the difficulty of recognition of each word registered in the user word dictionary can be controlled by a threshold value.
したがって、連続音声認識に本発明を適用する場合は、ユーザ単語辞書に登録された各単語を上述のボイストリガ音声認識におけるキーワードと同様に扱い、上述の実施形態と同様の方法で、ユーザ単語辞書内の各単語に対して設定される閾値の調整を適切にサポートすることができる。 Therefore, when the present invention is applied to continuous speech recognition, each word registered in the user word dictionary is treated in the same manner as the keyword in the above-described voice-triggered speech recognition, and the user word dictionary is processed in the same manner as in the above-described embodiment. can adequately support adjustment of the threshold set for each word in the .
上述した実施形態や各変形例の閾値調整装置における、閾値調整画面に表示する評価値は、音声認識部1が出力する認識結果をもとに、キーワードテーブル20に登録されたキーワードごとの正解率・拒絶率(評価値)を算出した各キーワードの評価値である。すなわち、複数の発話者が発話した音声の認識結果に対して、キーワードごとの評価値を表示しているため、複数の発話者の音声認識結果が混在したものが評価対象となっている。
しかし、評価値の表示方法についてはこれに限らず、例えば、発話者ごとの音声認識結果を対象に、キーワードごとの正解率・拒絶率(評価値)を算出し、発話者ごとの各キーワードの評価値を表示するようにしても良い。同様に誤認識解析画面においても、発話者ごとの誤認識キーワードを算出し、発話者ごとの誤認識キーワードおよびその出現回数を表示するようにしても良い。The evaluation value displayed on the threshold adjustment screen in the threshold adjustment device of the above-described embodiment and modifications is based on the recognition result output by the
However, the display method of the evaluation value is not limited to this. An evaluation value may be displayed. Similarly, on the misrecognition analysis screen, the misrecognition keyword for each speaker may be calculated, and the misrecognition keyword for each speaker and the number of appearances of the misrecognition keyword may be displayed.
<補足説明>
上述した実施形態や各変形例の閾値調整装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。すなわち、上述の閾値調整装置の各部の機能は、汎用のコンピュータに搭載された1以上のプロセッサにプログラムを実行させることにより実現することができる。このとき、閾値調整装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、コンピュータ読み取り可能な記憶媒体に上記のプログラムを記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。<Supplementary explanation>
The threshold value adjustment devices of the above-described embodiments and modifications can be realized by using, for example, a general-purpose computer as basic hardware. That is, the function of each part of the above-described threshold adjustment device can be realized by causing one or more processors installed in a general-purpose computer to execute a program. At this time, the threshold adjustment device may be realized by pre-installing the above program in a computer, storing the above program in a computer-readable storage medium, or executing the above program via a network. It may be realized by distributing and installing this program on a computer as appropriate.
図13は、上述の閾値調整装置のハードウェア構成例を示すブロック図である。閾値調整装置は、例えば図13に示すように、CPU(Central Processing Unit)などのプロセッサ101と、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリ102と、HDD(Hard Disk Drive)やSSD(Solid State Drive)などのストレージデバイス103と、液晶パネルなどの表示装置106やキーボードやポインティングデバイスなどの入力装置107といった機器を接続するための機器I/F104と、装置外部と通信を行う通信I/F105と、これら各部を接続するバス108とを備えた一般的なコンピュータとしてのハードウェア構成を有する。
FIG. 13 is a block diagram showing a hardware configuration example of the above threshold adjustment device. For example, as shown in FIG. 13, the threshold adjustment device includes a processor 101 such as a CPU (Central Processing Unit), a memory 102 such as a RAM (Random Access Memory) or a ROM (Read Only Memory), and a HDD (Hard Disk Drive). , a
上述の閾値調整装置を図13に示すハードウェア構成により実現する場合、例えば、プロセッサ101がメモリ102を利用して、ストレージデバイス103などに格納されたプログラムを読み出して実行することにより、上述の音声認識部1、評価部2、表示制御部3、自動調整部4などの各部の機能を実現することができる。また、上述の音声認識モデル10、キーワードテーブル20、評価用データテーブル30、閾値リストテーブル40、評価結果テーブル50、理想値テーブル60は、例えばメモリ102やストレージデバイス103などに格納しておき、適宜読み出して処理に利用することができる。
When the above-described threshold adjustment device is realized by the hardware configuration shown in FIG. 13, for example, the processor 101 uses the memory 102 to read and execute a program stored in the
なお、上述の閾値調整装置の各部の機能は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェア(汎用のプロセッサではなく専用のプロセッサ)により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。また、上述の閾値調整装置は、単一のコンピュータにより実現する場合に限らず、複数のコンピュータに機能を分散して実現することもできる。 It should be noted that some or all of the functions of each part of the threshold adjustment device described above are implemented by dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array) (not a general-purpose processor but a dedicated hardware). processor). Further, the configuration may be such that a plurality of processors are used to implement the functions of the respective units described above. Further, the above-described threshold adjustment device is not limited to being implemented by a single computer, but can be implemented by distributing the functions to a plurality of computers.
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiment of the present invention has been described above, this embodiment is presented as an example and is not intended to limit the scope of the invention. This novel embodiment can be embodied in various other forms, and various omissions, replacements, and modifications can be made without departing from the scope of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are included in the scope of the invention described in the claims and equivalents thereof.
1 音声認識部
2 評価部
3 表示制御部
4 自動調整部
10 音声認識モデル
20 キーワードテーブル
30 評価用データテーブル
40 閾値リストテーブル
50 評価結果テーブル
60 理想値テーブル1
Claims (13)
前記音声認識部に対し、予め定められた複数の認識対象語に対し個別に設定される複数の閾値を要素とする閾値リストと評価用音声とを入力し、前記音声認識部が出力する前記評価用音声に対する認識結果に基づいて、前記閾値リストを用いた前記音声認識部による前記複数の認識対象語の各々に対する認識精度を表す評価値を算出する評価部と、
前記複数の認識対象語のうちの任意の認識対象語に対応する閾値を調整するための閾値調整画面を表示装置に表示させる表示制御部と、を備え、
前記閾値調整画面は、前記評価部によって前記複数の認識対象語の各々に対して算出された評価値を、前記複数の認識対象語の各々に対して事前に算出された理想値と併せて提示する精度一覧画面を含み、
前記評価部は、前記複数の認識対象語の各々について、当該認識対象語を含む前記評価用音声から前記音声認識部が他の認識対象語を誤認識した回数を、誤認識した当該他の認識対象語ごとにカウントし、
前記閾値調整画面は、前記複数の認識対象語のうちの選択された認識対象語について、前記評価部がカウントした誤認識の回数を、誤認識した認識対象語ごとに提示する誤認識解析画面をさらに含む、
閾値調整装置。 a speech recognition unit that performs speech recognition;
inputting a threshold value list whose elements are a plurality of threshold values individually set for a plurality of predetermined recognition target words and evaluation speech to the speech recognition unit, and outputting the evaluation from the speech recognition unit; an evaluation unit that calculates an evaluation value representing the recognition accuracy of each of the plurality of recognition target words by the speech recognition unit using the threshold list based on the recognition result of the speech for the target speech;
a display control unit that causes a display device to display a threshold adjustment screen for adjusting a threshold corresponding to an arbitrary recognition target word among the plurality of recognition target words,
The threshold adjustment screen presents the evaluation value calculated for each of the plurality of recognition target words by the evaluation unit together with the ideal value calculated in advance for each of the plurality of recognition target words. including an accuracy list screen to
The evaluation unit calculates, for each of the plurality of recognition target words, the number of times the speech recognition unit incorrectly recognizes another recognition target word from the evaluation speech containing the recognition target word. count for each target word,
The threshold adjustment screen is an erroneous recognition analysis screen for presenting the number of erroneous recognitions counted by the evaluation unit for each erroneously recognized recognition target word for the recognition target word selected from the plurality of recognition target words. further including,
Threshold adjuster.
前記複数の認識対象語のうちの任意の認識対象語に対応する閾値を調整するための閾値調整画面を表示装置に表示させる表示制御ステップと、を含み、
前記閾値調整画面は、前記評価ステップにおいて前記複数の認識対象語の各々に対して算出された評価値を、前記複数の認識対象語の各々に対して事前に算出された理想値と併せて提示する精度一覧画面を含み、
前記評価ステップは、前記複数の認識対象語の各々について、当該認識対象語を含む前記評価用音声から前記音声認識部が他の認識対象語を誤認識した回数を、誤認識した当該他の認識対象語ごとにカウントし、
前記閾値調整画面は、前記複数の認識対象語のうちの選択された認識対象語について、前記評価ステップがカウントした誤認識の回数を、誤認識した認識対象語ごとに提示する誤認識解析画面をさらに含む、
閾値調整方法。 A threshold value list including a plurality of threshold values individually set for a plurality of predetermined recognition target words as elements and evaluation speech are input to a speech recognition unit that performs speech recognition, and the speech recognition unit outputs the threshold list. an evaluation step of calculating an evaluation value representing the recognition accuracy of each of the plurality of recognition target words by the speech recognition unit using the threshold list, based on the recognition result of the evaluation speech;
a display control step of causing a display device to display a threshold adjustment screen for adjusting a threshold corresponding to an arbitrary recognition target word among the plurality of recognition target words,
The threshold adjustment screen presents the evaluation value calculated for each of the plurality of recognition target words in the evaluation step together with the ideal value calculated in advance for each of the plurality of recognition target words. including an accuracy list screen to
In the evaluation step, for each of the plurality of recognition target words, the number of times the speech recognition unit incorrectly recognizes another recognition target word from the evaluation speech containing the recognition target word is counted. count for each target word,
The threshold adjustment screen is an erroneous recognition analysis screen for presenting the number of erroneous recognitions counted in the evaluation step for each of the erroneously recognized target words selected from among the plurality of target words to be recognized. further including,
Threshold adjustment method.
音声認識を行う音声認識部と、
前記音声認識部に対し、予め定められた複数の認識対象語に対し個別に設定される複数の閾値を要素とする閾値リストと評価用音声とを入力し、前記音声認識部が出力する前記評価用音声に対する認識結果に基づいて、前記閾値リストを用いた前記音声認識部による前記複数の認識対象語の各々に対する認識精度を表す評価値を算出する評価部と、
前記複数の認識対象語のうちの任意の認識対象語に対応する閾値を調整するための閾値調整画面を表示装置に表示させる表示制御部と、を実現させ、
前記閾値調整画面は、前記評価部によって前記複数の認識対象語の各々に対して算出された評価値を、前記複数の認識対象語の各々に対して事前に算出された理想値と併せて提示する精度一覧画面を含み、
前記評価部は、前記複数の認識対象語の各々について、当該認識対象語を含む前記評価用音声から前記音声認識部が他の認識対象語を誤認識した回数を、誤認識した当該他の認識対象語ごとにカウントし、
前記閾値調整画面は、前記複数の認識対象語のうちの選択された認識対象語について、前記評価部がカウントした誤認識の回数を、誤認識した認識対象語ごとに提示する誤認識解析画面をさらに含む、
記録媒体。 A computer-readable recording medium storing a computer program, wherein the computer program causes the computer to:
a speech recognition unit that performs speech recognition;
inputting a threshold value list whose elements are a plurality of threshold values individually set for a plurality of predetermined recognition target words and evaluation speech to the speech recognition unit, and outputting the evaluation from the speech recognition unit; an evaluation unit that calculates an evaluation value representing the recognition accuracy of each of the plurality of recognition target words by the speech recognition unit using the threshold list based on the recognition result of the speech for the target speech;
a display control unit that causes a display device to display a threshold adjustment screen for adjusting a threshold corresponding to an arbitrary recognition target word among the plurality of recognition target words,
The threshold adjustment screen presents the evaluation value calculated for each of the plurality of recognition target words by the evaluation unit together with the ideal value calculated in advance for each of the plurality of recognition target words. including an accuracy list screen to
The evaluation unit calculates, for each of the plurality of recognition target words, the number of times the speech recognition unit incorrectly recognizes another recognition target word from the evaluation speech containing the recognition target word. count for each target word,
The threshold adjustment screen is an erroneous recognition analysis screen for presenting the number of erroneous recognitions counted by the evaluation unit for each erroneously recognized recognition target word for the recognition target word selected from the plurality of recognition target words. further including,
recording medium.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910248475.5 | 2019-03-29 | ||
CN201910248475.5A CN111754995B (en) | 2019-03-29 | 2019-03-29 | Threshold value adjusting device, threshold value adjusting method, and recording medium |
PCT/JP2020/011855 WO2020203275A1 (en) | 2019-03-29 | 2020-03-17 | Threshold value adjustment device, threshold value adjustment method, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020203275A1 JPWO2020203275A1 (en) | 2021-11-25 |
JP7214841B2 true JP7214841B2 (en) | 2023-01-30 |
Family
ID=72664544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021511407A Active JP7214841B2 (en) | 2019-03-29 | 2020-03-17 | THRESHOLD ADJUSTMENT DEVICE, THRESHOLD ADJUSTMENT METHOD, AND RECORDING MEDIUM |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7214841B2 (en) |
CN (1) | CN111754995B (en) |
WO (1) | WO2020203275A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488050B (en) * | 2021-07-09 | 2024-03-26 | 北京有竹居网络技术有限公司 | Voice wakeup method and device, storage medium and electronic equipment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009008115A1 (en) | 2007-07-09 | 2009-01-15 | Mitsubishi Electric Corporation | Voice recognizing apparatus and navigation system |
JP2011022476A (en) | 2009-07-17 | 2011-02-03 | Fujitsu Ltd | Threshold management program for voice recognition, method of the same, and voice recognition device |
WO2012094014A1 (en) | 2011-01-07 | 2012-07-12 | Nuance Communications, Inc. | Automatic updating of confidence scoring functionality for speech recognition systems |
US20130138439A1 (en) | 2011-11-29 | 2013-05-30 | Nuance Communications, Inc. | Interface for Setting Confidence Thresholds for Automatic Speech Recognition and Call Steering Applications |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02300800A (en) * | 1989-05-15 | 1990-12-12 | Ricoh Co Ltd | Speech recognition device |
JP2005043461A (en) * | 2003-07-23 | 2005-02-17 | Canon Inc | Voice recognition method and voice recognition device |
JP2006330074A (en) * | 2005-05-23 | 2006-12-07 | Canon Inc | Device and method for speech recognition |
JP5576113B2 (en) * | 2006-04-03 | 2014-08-20 | ヴォコレクト・インコーポレーテッド | Method and system for fitting a model to a speech recognition system |
JP2008033198A (en) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | Voice interaction system, voice interaction method, voice input device and program |
JP5613335B2 (en) * | 2011-08-19 | 2014-10-22 | 旭化成株式会社 | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device |
CN103337241B (en) * | 2013-06-09 | 2015-06-24 | 北京云知声信息技术有限公司 | Voice recognition method and device |
JP6400936B2 (en) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | Voice search method, voice search device, and program for voice search device |
JP6712803B2 (en) * | 2016-08-03 | 2020-06-24 | 国立大学法人電気通信大学 | Phonetic symbol/personality information providing device, phonetic symbol/personality information providing method, and phonetic symbol/personality information providing program |
JP6705410B2 (en) * | 2017-03-27 | 2020-06-03 | カシオ計算機株式会社 | Speech recognition device, speech recognition method, program and robot |
-
2019
- 2019-03-29 CN CN201910248475.5A patent/CN111754995B/en active Active
-
2020
- 2020-03-17 WO PCT/JP2020/011855 patent/WO2020203275A1/en active Application Filing
- 2020-03-17 JP JP2021511407A patent/JP7214841B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009008115A1 (en) | 2007-07-09 | 2009-01-15 | Mitsubishi Electric Corporation | Voice recognizing apparatus and navigation system |
JP2011022476A (en) | 2009-07-17 | 2011-02-03 | Fujitsu Ltd | Threshold management program for voice recognition, method of the same, and voice recognition device |
WO2012094014A1 (en) | 2011-01-07 | 2012-07-12 | Nuance Communications, Inc. | Automatic updating of confidence scoring functionality for speech recognition systems |
US20130138439A1 (en) | 2011-11-29 | 2013-05-30 | Nuance Communications, Inc. | Interface for Setting Confidence Thresholds for Automatic Speech Recognition and Call Steering Applications |
Also Published As
Publication number | Publication date |
---|---|
WO2020203275A1 (en) | 2020-10-08 |
JPWO2020203275A1 (en) | 2021-11-25 |
CN111754995A (en) | 2020-10-09 |
CN111754995B (en) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230031603A1 (en) | Display apparatus and method for registration of user command | |
US10817672B2 (en) | Natural language understanding (NLU) processing based on user-specified interests | |
JP6203288B2 (en) | Speech recognition system and method | |
JP6350148B2 (en) | SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM | |
CN109754793B (en) | Device and method for recommending functions of vehicle | |
US11790891B2 (en) | Wake word selection assistance architectures and methods | |
US10553206B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
JP7389421B2 (en) | Device for estimating mental and nervous system diseases | |
CN110334242B (en) | Method and device for generating voice instruction suggestion information and electronic equipment | |
JP5743976B2 (en) | Information processing apparatus, program, and information processing method | |
CN110164416B (en) | Voice recognition method and device, equipment and storage medium thereof | |
JP2015530614A (en) | Method and system for predicting speech recognition performance using accuracy scores | |
JP2002358096A (en) | Method and device for training parameters of pattern recognition system exactly associated with one implemented transform example of one pattern from list | |
JP7214841B2 (en) | THRESHOLD ADJUSTMENT DEVICE, THRESHOLD ADJUSTMENT METHOD, AND RECORDING MEDIUM | |
JP5646675B2 (en) | Information processing apparatus and method | |
US20210330241A1 (en) | A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test | |
US20200066250A1 (en) | Speech synthesis device, speech synthesis method, and computer program product | |
JP2022114906A (en) | psychological state management device | |
US11069341B2 (en) | Speech correction system and speech correction method | |
CN110419078B (en) | System and method for automatic speech recognition | |
JP2015099335A (en) | Information processing device and method thereof | |
CN111048098A (en) | Voice correction system and voice correction method | |
CN113870842B (en) | Voice control method, device, equipment and medium based on weight adjustment | |
JP2017015847A (en) | Voice search device, voice search method, and program | |
JP6454261B2 (en) | Information terminal, program, and advice presentation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7214841 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |