JPH08314493A - Voice recognition method, numeral line voice recognition device and video recorder system - Google Patents

Voice recognition method, numeral line voice recognition device and video recorder system

Info

Publication number
JPH08314493A
JPH08314493A JP7122841A JP12284195A JPH08314493A JP H08314493 A JPH08314493 A JP H08314493A JP 7122841 A JP7122841 A JP 7122841A JP 12284195 A JP12284195 A JP 12284195A JP H08314493 A JPH08314493 A JP H08314493A
Authority
JP
Japan
Prior art keywords
recognition
score
reference value
voice
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7122841A
Other languages
Japanese (ja)
Inventor
Akira Ishida
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP7122841A priority Critical patent/JPH08314493A/en
Publication of JPH08314493A publication Critical patent/JPH08314493A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE: To provide a voice recognition method and a numeral line voice recognition device improving handleability and obtaining a precise recognition result. CONSTITUTION: This method is the voice recognition method constituted of processing Pi inputting a voice signal from a microphone 11 as a recognition subject, the processing P2 obtaining a recognition score showing the probability of the recognition related to plural respective recognition candidates, the processing P31 performing first decision comparing the first rank recognition score with a first reference value and performing rejection when the first rank recognition score is smaller than the first reference value, the processing P32 obtaining a score ratio showing the ratio of a second rank recognition score for the first rank recognition score when the first rank recognition score is larger than the first reference value, and performing second decision comparing the score ratio with a second reference value and performing the rejection when the score ratio is larger than the second reference value and the processing P4 regarding the recognition candidate obtaining the first rank recognition score as the recognition result when the score ratio is smaller than the second reference value.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声認識方法及び数字列
音声認識装置に関し、特に、話者が発声した数字列の音
声認識に好適な音声認識方法及び数字列音声認識装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition method and a number string voice recognition device, and more particularly to a voice recognition method and a number string voice recognition device suitable for voice recognition of a number string uttered by a speaker.

【0002】[0002]

【従来の技術】ビデオレコーダとして一般に広く普及し
ているビデオテープレコーダの録画予約の操作は機械操
作が苦手な人達、特に老人にとっては難しいとされてお
り、それを容易にする技術としてGコードと称される数
字列を利用したビデオテープレコーダの録画予約のため
の手法が近年普及している。このGコードは、一般的に
は2桁乃至8桁程度の数字列を専用の装置に入力する
と、その数字列がデコードされてビデオテープレコーダ
の録画予約に必要な諸元、即ちチャネル番号,録画開始
日時,録画時間等がビデオテープレコーダに設定される
ものである。換言すれば、上述の諸元を所定の法則に従
ってエンコードすることによりGコードが生成される。
このようにして生成されたGコードは新聞等に掲載され
ている。従って、ユーザは新聞等に掲載されているGコ
ードを見つつ専用の装置に数字列を入力すればよいの
で、機械操作が苦手な人達でも容易にビデオテープレコ
ーダの録画予約を行なえる。
2. Description of the Related Art It is said that it is difficult for people who are not good at machine operation, especially for elderly people, to make a recording reservation operation of a video tape recorder which is widely used as a video recorder. In recent years, a technique for recording reservation of a video tape recorder using a so-called number sequence has become widespread. This G code is generally such that when a digit string of about 2 to 8 digits is input to a dedicated device, the digit string is decoded and the data necessary for recording reservation of the video tape recorder, that is, the channel number and the recording. The start date and time, the recording time, etc. are set in the video tape recorder. In other words, the G code is generated by encoding the above-mentioned specifications according to a predetermined law.
The G code generated in this way is published in newspapers and the like. Therefore, the user only needs to enter the number string into the dedicated device while looking at the G code published in the newspaper or the like, so that even those who are not good at machine operation can easily make a recording reservation for the video tape recorder.

【0003】しかし現実には、未知の数字列の各数字を
逐次的にキー操作により入力することは意外に面倒であ
って、途中で間違って最初から再入力する必要が生じる
ことが多い。これは、たとえば自身が記憶している電話
番号を入力するのであれば、ユーザはキーのみに視線を
置いてキー操作が可能であるが、Gコードのような未知
の数字列を入力する場合には、ユーザは新聞等に掲載さ
れている数字列と装置のキーとの間で視線を往復させつ
つキー操作を行なう必要があるためである。
However, in reality, it is unexpectedly troublesome to sequentially input each number of an unknown number string by key operation, and it is often necessary to erroneously input the number again from the beginning. This is because, for example, if the user inputs a telephone number stored by himself / herself, the user can operate the key by putting his / her eyes on only the key, but when inputting an unknown number string such as a G code. This is because the user needs to perform a key operation while reciprocating his or her line of sight between the number string published in a newspaper or the like and the key of the device.

【0004】このような事情から、Gコードを音声入力
することが考えられる。その場合には、ユーザは新聞等
に掲載されているGコードの数字列上に視線を固定した
状態で各数字を順に読み上げるのみでよいため、途中で
再入力しなければならないという状態に陥る虞は少なく
なる。
Under these circumstances, it is possible to input the G code by voice. In that case, the user only has to read each number in order with the line of sight fixed on the G-coded number string published in newspapers, etc., which may lead to a state where the user must re-enter the number on the way. Will be less.

【0005】一方近年、所謂移動電話機と称される無線
式の電話機が普及している。移動電話機には大きく分け
て主として自動車に装備される自動車電話機と、利用者
が持ち運ぶ携帯電話機とがあり、両者に兼用可能なタイ
プもある。自動車電話機では、安全性の観点から運転者
が手を触れずに操作可能な所謂ハンズフリータイプであ
ることが望ましい。ハンズフリータイプの電話機は、通
常の電話機においても回線が接続された後の状態として
は既に実用化されているが、ダイヤルの操作に関しては
ユーザ自身の手で操作する必要がある。しかし特に自動
車電話機の場合、ユーザが運転中にダイヤルボタンを操
作する際には手と視線がそちらにとられるために非常に
危険な状態になる。従って、最初にメインスイッチをオ
ンするのみにて、電話番号を音声入力し、それによって
回線が接続した後はそのままハンズフリーで通話可能で
あることが望ましい。
On the other hand, in recent years, a wireless telephone called a so-called mobile telephone has become widespread. Mobile telephones are roughly divided into car telephones mainly installed in automobiles and mobile telephones carried by users, and there are also types that can be used for both. From the viewpoint of safety, it is desirable that the car phone be of a so-called hands-free type that can be operated by the driver without touching it. Hands-free type telephones have already been put to practical use even after being connected to a line even in ordinary telephones, but it is necessary for the user to operate the dials themselves. However, particularly in the case of a car telephone, when the user operates the dial buttons while driving, his / her eyes and his / her eyes are caught, which is very dangerous. Therefore, it is desirable that a telephone number can be input by voice only by first turning on the main switch, and after the line is connected, hands-free communication can be performed as it is.

【0006】ところで現状の音声認識の技術では、万人
のあらゆる言葉を音声認識することは困難であり、一般
的には予め登録した人の音声によるある限定された範囲
の言葉のみを認識対象としている場合が多い。しかし、
異なる読みを含めても15種類程度の言葉で表される数字
のみに認識対象を限定すれば、万人の音声を認識するこ
とも可能である。従って、上述のようなGコードの入力
装置、あるいは電話番号の入力装置等のような数字のみ
を対象とする用途には万人を対象とした音声認識装置は
充分に実用可能である。
By the way, it is difficult for the current speech recognition technology to speech-recognize all the words of everyone, and in general, only a limited range of words by the speech of a person who is registered in advance is targeted for recognition. In many cases But,
Even if different readings are included, it is possible to recognize everyone's voice by limiting the recognition target to only numbers expressed in about 15 different words. Therefore, the voice recognition device for everyone can be sufficiently put to practical use for the purpose of only the numbers such as the input device of the G code or the input device of the telephone number as described above.

【0007】図19は上述のような用途に使用される従来
の音声認識装置による音声認識の原理の概念を示す模式
図である。また、図20は図19に示されている従来の音声
認識装置による具体的な処理手順を示したフローチャー
トである。
FIG. 19 is a schematic diagram showing the concept of the principle of voice recognition by the conventional voice recognition device used for the above-mentioned applications. Further, FIG. 20 is a flowchart showing a specific processing procedure by the conventional voice recognition device shown in FIG.

【0008】図19において、参照符号1はマイクロフォ
ンを示しており、話者が発声した音声が入力される。マ
イクロフォン1に入力された音声は音声入力処理P1によ
り音声信号として取り込まれ、”0(ゼロ,レイ, マ
ル)”乃至”9(キュウ,ク)”の内から複数の認識候
補それぞれに対して認識の確度を示す認識スコアが音声
認識処理P2により求められる。この音声認識処理P2によ
り第1位の認識スコアが求められた認識候補が正当であ
るか否かが、基準値と第1位の認識スコアとを比較する
ことによりリジェクトチェック処理P3においてチェック
される。そして、リジェクトチェック処理P3において、
第1位の認識スコアが基準値よりも大であれば正当であ
ると認められ、認識候補を認識結果報知処理P4がスピー
カ6から合成音声にて発声することにより、あるいはLC
D 7に文字表示することにより報知する。
In FIG. 19, reference numeral 1 indicates a microphone, and the voice uttered by the speaker is input. The voice input to the microphone 1 is captured as a voice signal by the voice input process P1 and recognized for each of a plurality of recognition candidates from "0 (zero, ray, circle)" to "9 (kyu, ku)". The recognition score indicating the accuracy of is obtained by the voice recognition process P2. Whether or not the recognition candidate for which the first-ranked recognition score has been obtained by this voice recognition processing P2 is valid is checked in the reject check processing P3 by comparing the reference value with the first-ranked recognition score. . Then, in the reject check process P3,
If the first-ranked recognition score is larger than the reference value, it is recognized as valid, and the recognition result notification process P4 utters a recognition candidate from the speaker 6 in a synthesized voice, or LC
Notify by displaying characters on D 7.

【0009】次に、上述のような従来の音声認識の手法
を音声認識装置で実行する場合の具体的な処理手順につ
いて、図20のフローチャートを参照して説明する。ま
ず、音声認識の基準になるリジェクト閾値”reject”が
設定される (ステップS1) 。このリジェクト閾値”reje
ct”の設定は固定値でもよいし、種々の条件に応じて変
更することも可能である。次に、装置の図示されていな
い入力ボタンがオンされると (ステップS2) 、マイクロ
フォン1から音声が入力されて音声入力処理P1により音
声信号として取り込まれる (ステップS3) 。
Next, a specific processing procedure when the conventional speech recognition method as described above is executed by the speech recognition apparatus will be described with reference to the flowchart of FIG. First, a reject threshold "reject", which is a reference for voice recognition, is set (step S1). This reject threshold "reje
The ct ”setting may be a fixed value or may be changed according to various conditions. Next, when an input button (not shown) of the device is turned on (step S2), the voice from the microphone 1 is output. Is input and captured as a voice signal by the voice input process P1 (step S3).

【0010】音声入力処理P1により取り込まれた音声信
号は音声認識処理P2により、従来公知の手法により認識
される (ステップS4) 。具体的には、音声認識処理P2に
おいては、取り込まれた音声信号に対して”0”乃至”
9”の認識結果の候補に関して認識結果の確度を表す認
識スコアがそれぞれ計算される。
The voice signal taken in by the voice input process P1 is recognized by the voice recognition process P2 by a conventionally known method (step S4). Specifically, in the voice recognition process P2, “0” to “” are applied to the captured voice signal.
A recognition score representing the accuracy of the recognition result is calculated for each of the 9 ”recognition result candidates.

【0011】リジェクトチェック処理P3においては、音
声認識処理P2により計算された認識スコアの内の第1位
の認識スコアが先に設定されているリジェクト閾値”re
ject”より大であるか否かを判断する (ステップS5) 。
この判断結果がNOである場合は、正当な認識が出来なか
ったとしてリジェクトが報知され (ステップS10)、再度
音声認識処理P1による音声信号の取り込みが行なわれる
(ステップS3) 。ステップS5での判断結果がYES である
場合は、認識結果報知処理P4によりスピーカ6またはLC
D 7を利用した認識結果の報知が行なわれる (ステップ
S6) 。
In the reject check process P3, the first-ranked recognition score of the recognition scores calculated by the voice recognition process P2 is first set as the reject threshold "re".
It is determined whether it is larger than "ject" (step S5).
If the result of this determination is NO, the rejection is informed that proper recognition could not be performed (step S10), and the voice signal is captured again by the voice recognition process P1.
(Step S3). If the determination result in step S5 is YES, the recognition result notification process P4 causes the speaker 6 or LC
Notification of recognition results using D 7 is performed (step
S6).

【0012】この状態で、装置に備えられている転送ボ
タン(図示せず)が操作されていなければ (ステップS
7) 、一つの数字の認識が完了したものとして一時記憶
される(ステップS11)。そして、次の数字の入力を受け
付けるためにステップS3へ処理が戻される。上述のよう
にして、ステップS3, S4, S5, S6, S7, S11 の各ステッ
プが順次実行されてステップS3へ戻るループ処理が反復
されることにより、各一回のループ処理について一つの
数字の音声認識が行なわれる。
In this state, if the transfer button (not shown) provided in the apparatus is not operated (step S
7) Then, it is temporarily stored as the recognition of one number is completed (step S11). Then, the process returns to step S3 to accept the input of the next number. As described above, the steps S3, S4, S5, S6, S7, and S11 are sequentially executed, and the loop process of returning to step S3 is repeated, so that one numerical value for each loop process is repeated. Speech recognition is performed.

【0013】このようにして順次的に全ての数字の入力
が終了した後に転送ボタンがオンされると (ステップS
7) 、それまでに入力されていた各数字が数字列として
デコードされ (ステップS8) 、このデコード結果はそれ
を本来必要とするたとえばビデオテープレコーダあるい
は電話機等の装置に送信される。この後、入力ボタンが
オフされる (ステップS9) 。
When the transfer button is turned on after all the numbers have been input in this way (step S
7) Then, the respective numbers input so far are decoded as a number string (step S8), and the decoding result is transmitted to a device such as a video tape recorder or a telephone which originally needs it. After this, the input button is turned off (step S9).

【0014】なお、ステップS6において一つの数字の認
識結果が報知された後に、ステップS12 にて示されてい
るように、ユーザがその認識結果に対して、即ちスピー
カ6から発声される認識結果の合成音声、あるいはLCD
7に表示される認識結果の数字に対して確認ボタンを使
用して確認を行なうように構成することも可能である。
これは、リジェクトチェック部4において第1位の認識
スコアが得られた認識結果の候補といえども、それが必
ずしも正当な認識結果であるという保証はないからであ
る。
After the recognition result of one number is notified in step S6, as shown in step S12, the user recognizes the recognition result, that is, the recognition result uttered from the speaker 6. Synthetic voice or LCD
It is also possible to use a confirmation button to confirm the number of the recognition result displayed on 7.
This is because even if the recognition result candidate for which the first recognition score is obtained by the reject check unit 4 is a candidate for the recognition result, it is not necessarily guaranteed that it is a valid recognition result.

【0015】いまたとえば話者が数字列”5492”を音声
入力する場合について、それに対する従来の音声認識装
置の応答の状態を示す図21, 図22の模式図を参照して説
明する。従来の音声認識装置では、装置が音声認識をし
た場合に、そのことを示す確認音を発声すると共に認識
結果を表示し、それに対してユーザが確認ボタンを操作
することにより一つの数字の入力が完了するタイプと、
認識結果を合成音声で発声し、それが正しければユーザ
がそのまま次の数字を発声するタイプとがある。
Now, for example, a case where the speaker inputs the numeral string "5492" by voice will be described with reference to the schematic diagrams of FIGS. 21 and 22 showing the state of the response of the conventional voice recognition apparatus to it. In the conventional voice recognition device, when the device performs voice recognition, a confirmation sound indicating that is emitted and the recognition result is displayed, and the user operates the confirmation button to input one number. Type to complete,
There is a type in which the recognition result is uttered by synthetic voice, and if it is correct, the user utters the next number as it is.

【0016】まず、図21には前者のタイプが示されてい
る。即ち、まずユーザが「ゴ」と発声すると、装置はそ
れを音声認識した場合にはたとえば「ピッ」というよう
な確認音をスピーカ6から発声すると共に、認識結果を
LCD 7に表示する。ユーザはLCD 7上へ視線を移して表
示されている認識結果を確認したうえで確認ボタンをオ
ン操作した後、次の数字である「ヨン」を発声する。
First, FIG. 21 shows the former type. That is, when the user utters “go”, the device utters a confirmation sound such as “beep” from the speaker 6 when it recognizes the voice, and the recognition result is displayed.
Display on LCD 7. The user shifts his line of sight on the LCD 7 to check the displayed recognition result, turns on the confirmation button, and then utters the next number, “Yon”.

【0017】このような図21の模式図に示されている例
では、個々の数字の入力間隔がある程度以上には短縮さ
れず、従ってユーザの立場では各数字を発声する間隔が
長くなって使い勝手が悪くなる。また、確認音が発声す
る都度、LCD 7上に視線を移す必要があるため、自動車
電話機に適用するには問題がある。
In the example shown in the schematic diagram of FIG. 21, the input intervals of individual numbers are not shortened to a certain extent or more, and therefore, the intervals for uttering each number are long from the user's standpoint, which is convenient. Becomes worse. In addition, since it is necessary to shift the line of sight to the LCD 7 each time the confirmation sound is emitted, there is a problem in applying it to a mobile phone.

【0018】また、図22には後者のタイプが示されてい
る。即ち、まずユーザが「ゴ」と発声すると、装置はそ
れを音声認識した場合に認識結果を合成音声でスピーカ
6から発声する。ユーザはこの合成音声で発声される認
識結果を確認した後、次の数字である「ヨン」を発声す
る。
The latter type is shown in FIG. That is, first, when the user utters "go", the device utters the recognition result as a synthesized voice from the speaker 6 when recognizing the voice. After confirming the recognition result uttered by this synthetic voice, the user utters the next number, "Yong."

【0019】このような図22の模式図に示されている例
では、図21に示されている例に比して、ユーザがLCD 7
上に視線を移す必要はないが、やはり一字一字の入力間
隔がある程度以上には短縮されず、従ってユーザの立場
では各数字を発声する間隔が開いて使い勝手が悪くな
る。
In the example shown in the schematic view of FIG. 22, the user can operate the LCD 7 in comparison with the example shown in FIG.
Although it is not necessary to shift the line of sight to the upper part, the input interval for each character is not shortened to a certain extent, and therefore, from the user's point of view, the interval for uttering each number is increased and the usability deteriorates.

【0020】[0020]

【発明が解決しようとする課題】ところで、上述のよう
な従来の音声認識装置では、主として以下のような二つ
の難点がある。
By the way, the conventional speech recognition apparatus as described above has the following two disadvantages.

【0021】第1の問題点は認識結果の確度に関する問
題である。従来の一般的な音声認識のための手法では前
述のように、幾つかの認識結果の候補の内の第1位の認
識スコアがリジェクト閾値”reject”以上である場合は
その候補を最終的な認識結果としていた。しかし、二
つ、あるいはそれ以上の認識結果の候補の認識スコア間
に有意な差が無いような場合にも、従来は第1位の認識
スコアが求められた候補を正当な認識結果としていたた
め、認識結果の確度が低かった。たとえば、話者が「イ
チ」,「シチ」あるいは「ヒチ」と発声した場合には、
その認識結果として”1”及び”7”の双方にほぼ同程
度の認識スコアが得られる可能性があり、誤認識の可能
性が高くなる。
The first problem is the accuracy of the recognition result. As described above, in the conventional method for general speech recognition, if the first-ranked recognition score of some recognition result candidates is equal to or higher than the reject threshold “reject”, the candidate is finalized. It was a recognition result. However, even if there is no significant difference between the recognition scores of two or more recognition result candidates, the candidate for which the first-ranked recognition score is obtained is conventionally a valid recognition result. , The accuracy of the recognition result was low. For example, if the speaker says "ichi", "shichi", or "hichi",
As a result of the recognition, there is a possibility that almost the same recognition scores can be obtained for both "1" and "7", which increases the possibility of erroneous recognition.

【0022】第2の問題点は、従来の音声認識の手法で
は誤認識を少なくすることとリジェクトの発生を少なく
することとがトレードオフの関係にあるという点であ
る。一般的に音声認識において誤認識の可能性を低下さ
せるためには、リジェクト閾値を比較的高い値に設定す
ればよい。しかし、リジェクト閾値を高くすればするほ
ど、リジェクトが多発することになる。このような事情
から、本願出願人は特開平4-152397号公報(G10L 3/00 3
01) に開示されているような発明を先に出願している。
The second problem is that the conventional speech recognition method has a trade-off relationship between reducing erroneous recognition and reducing the occurrence of rejects. Generally, in order to reduce the possibility of erroneous recognition in voice recognition, the reject threshold may be set to a relatively high value. However, the higher the reject threshold is, the more rejects occur. Under such circumstances, the applicant of the present application has filed Japanese Patent Application Laid-Open No. 4-152397 (G10L 3/00 3
The invention as disclosed in (01) has been filed first.

【0023】この特開平4-152397号公報に開示されてい
る音声認識装置では、ある認識対象の認識処理に際して
一旦リジェクトされた後の再認識処理においてはリジェ
クト閾値をより低く設定している。このように、ダイナ
ミックにリジェクト閾値を設定することにより、話者が
同一の音声を何度発生してもリジェクトされるという問
題は解決される。しかし、上述の第1の問題点は解決さ
れない。
In the speech recognition apparatus disclosed in Japanese Patent Laid-Open No. 4-152397, the reject threshold is set lower in the re-recognition process after being rejected once in the recognition process of a certain recognition target. Thus, by dynamically setting the reject threshold, the problem that the speaker is rejected no matter how many times the same voice is generated is solved. However, the above-mentioned first problem cannot be solved.

【0024】第3の問題点は装置の使い勝手に関する問
題である。これは上述の第1の問題点の解消を目的とし
て、個々の数字の認識結果をたとえばLCD に表示してユ
ーザに確認を求める場合には、ユーザは視線をLCD へ移
動させると共に確認ボタンを操作する必要が生じる。こ
のような動作はユーザにとって煩瑣であるのみならず、
自動車の運転中においては非常に危険な状態を招来し、
更に次の入力が可能になるまでにタイムラグが生じる。
また、個々の数字の認識結果をスピーカから合成音声と
して発声してユーザに確認を求める場合には、ユーザは
視線を移動する必要はないが少なくとも確認ボタンを操
作する必要が生じる。この場合にも、次の入力が可能に
なるまでにタイムラグが生じるため、使い勝手が悪くな
ることは否めない。
The third problem is the usability of the device. This is for the purpose of solving the above-mentioned first problem. When displaying the recognition result of each numeral on the LCD, for example, and asking the user for confirmation, the user moves the line of sight to the LCD and operates the confirmation button. Need to do. Such operation is not only troublesome for the user,
It is very dangerous when driving a car,
There is a time lag before the next input becomes possible.
Further, when uttering the recognition result of each number as a synthesized voice from the speaker and asking the user for confirmation, the user does not have to move the line of sight, but at least the confirmation button needs to be operated. Even in this case, since there is a time lag until the next input is possible, it cannot be denied that usability deteriorates.

【0025】本発明はこのような事情に鑑みてなされた
ものであり、使い勝手を向上させると共に、より確度の
高い認識結果が得られ、且つリジェクトの多発を回避し
得る音声認識方法,数字列音声認識装置及びビデオレコ
ーダシステムの提供を目的とする。
The present invention has been made in view of the above circumstances, and improves the usability, obtains a more accurate recognition result, and avoids a large number of rejects. An object is to provide a recognition device and a video recorder system.

【0026】[0026]

【課題を解決するための手段】本発明に係る音声認識方
法は、認識対象の音声信号に対する認識結果の確度を示
す認識スコアを複数の認識候補それぞれに関して求め、
求められた認識スコアの内の第1位の認識スコアを第1
の基準値と比較する第1の判定を行ない、第1の判定の
結果、第1位の認識スコアが第1の基準値よりも小であ
る場合は全認識候補をリジェクトし、第1位の認識スコ
アが第1の基準値よりも大である場合は第1位の認識ス
コアに対する第2位の認識スコアの比率を表すスコア比
を求め、求められたスコア比を第2の基準値と比較する
第2の判定を行ない、第2の判定の結果、スコア比が第
2の基準値よりも大である場合は全認識候補をリジェク
トし、スコア比が第2の基準値よりも小である場合は第
1位の認識スコアが求められた認識候補を認識結果と見
做すことを特徴とする。
A speech recognition method according to the present invention obtains a recognition score indicating the accuracy of a recognition result for a speech signal to be recognized for each of a plurality of recognition candidates,
The first recognition score of the obtained recognition scores is the first
The first judgment is made by comparing with the reference value of, and as a result of the first judgment, if the recognition score of the first place is smaller than the first reference value, all recognition candidates are rejected and the first place If the recognition score is higher than the first reference value, a score ratio representing the ratio of the second-ranked recognition score to the first-ranked recognition score is obtained, and the obtained score ratio is compared with the second reference value. If the score ratio is larger than the second reference value as a result of the second judgment, all recognition candidates are rejected, and the score ratio is smaller than the second reference value. In this case, the recognition candidate for which the first recognition score is obtained is regarded as a recognition result.

【0027】また本発明に係る音声認識方法は、同一の
認識対象に対する第1の判定または第2の判定の結果に
従ったリジェクトが行なわれた場合に、第1の基準値を
より小に、第2の基準値をより大に設定して第1の判定
及び第2の判定を再度行なうことを特徴とする。
Further, in the voice recognition method according to the present invention, when the same recognition target is rejected according to the result of the first judgment or the second judgment, the first reference value is made smaller. It is characterized in that the second reference value is set to a larger value and the first determination and the second determination are performed again.

【0028】更に本発明に係る音声認識方法は、同一の
認識対象に対する第1の判定または第2の判定の結果に
従ったリジェクトが所定回数連続して行なわれた場合
に、第1の基準値を”0”に、第2の基準値を”1”に
設定すること特徴とする。
Further, in the voice recognition method according to the present invention, the first reference value is obtained when the rejects according to the result of the first judgment or the second judgment for the same recognition object are continuously performed a predetermined number of times. Is set to "0" and the second reference value is set to "1".

【0029】本発明に係る数字列音声認識装置は、認識
対象の一連の数字列の各一桁の数字の音声信号に対する
認識結果の確度を示す認識スコアを複数の認識候補それ
ぞれに関して算出する認識スコア算出手段と、認識スコ
ア算出手段により算出された第1位の認識スコアを第1
の基準値と比較する第1の判定手段と、第1の判定手段
による判定の結果、第1位の認識スコアが第1の基準値
よりも小である場合は全認識候補をリジェクトする第1
のリジェクト手段と、第1位の認識スコアが第1の基準
値よりも大である場合は認識スコア算出手段により算出
された第1位の認識スコアに対する第2位の認識スコア
の比率を表すスコア比を求めるスコア比算出手段と、ス
コア比算出手段により算出されたスコア比を第2の基準
値と比較する第2の判定手段と、第2の判定手段による
判定の結果、スコア比が第2の基準値よりも大である場
合は全認識候補をリジェクトする第2のリジェクト手段
と、スコア比が第2の基準値よりも小である場合は認識
スコア算出手段により第1位の認識スコアが算出された
認識候補を認識結果として出力する認識結果出力手段と
を備えたことを特徴とする。
The number string voice recognition apparatus according to the present invention calculates a recognition score indicating the accuracy of a recognition result for a voice signal of each one-digit number of a series of number strings to be recognized, for each of a plurality of recognition candidates. The calculation means and the first-ranked recognition score calculated by the recognition score calculation means are the first
And a first determining means for comparing with the reference value of No. 1 and a first determining means rejects all recognition candidates when the first-ranked recognition score is smaller than the first reference value.
And a score representing the ratio of the second-ranked recognition score to the first-ranked recognition score calculated by the recognition-scoring calculation means when the first-ranked recognition score is larger than the first reference value. The score ratio calculating means for obtaining the ratio, the second judging means for comparing the score ratio calculated by the score ratio calculating means with the second reference value, and the score ratio as the result of the judgment by the second judging means are the second. If the score ratio is smaller than the second reference value, the first recognition score is determined by the second reject means that rejects all the recognition candidates if the recognition score is greater than the reference value. And a recognition result output means for outputting the calculated recognition candidate as a recognition result.

【0030】また本発明に係る数字列音声認識装置は、
同一の認識対象に対する第1のリジェクト手段または第
2のリジェクト手段によるリジェクトが行なわれた場合
に、第1の基準値をより小に設定し、第2の基準値をよ
り大に設定して第1の判定手段及び第2の判定手段に再
度判定を行なわせる再判定手段を備えたことを特徴とす
る。
The number string voice recognition apparatus according to the present invention is
When the same reject target is rejected by the first reject means or the second reject means, the first reference value is set smaller and the second reference value is set larger. It is characterized in that the first judging means and the second judging means are provided with re-judging means for making the judgment again.

【0031】更に本発明に係る数字列音声認識装置は、
再判定手段が、同一の認識対象に対する第1のリジェク
ト手段または第2のリジェクト手段によるリジェクトが
所定回数連続して行なわれた場合に、第1の基準値を”
0”に、第2の基準値を”1”に設定すべくなしてある
ことを特徴とする。
Further, the number string voice recognition device according to the present invention is
The re-determination means sets the first reference value to "when the rejection by the first reject means or the second reject means for the same recognition target is continuously performed a predetermined number of times.
It is characterized in that the second reference value is set to 0 "and the second reference value is set to" 1 ".

【0032】また更に本発明に係る数字列音声認識装置
は、音声出力手段と、認識結果出力手段が認識結果を出
力する都度、音声出力手段に所定の合成音声を発声さ
せ、認識対象の一連の数字列の全ての数字に対して認識
結果出力手段が認識結果を出力した場合に音声出力手段
に認識結果の各数字を合成音声にて連続的に発声させる
手段とを更に備えたことを特徴とする。
Furthermore, the number string voice recognition apparatus according to the present invention causes the voice output means and the voice output means to utter a predetermined synthetic voice each time the recognition result output means outputs a recognition result, and a series of recognition targets is output. When the recognition result output unit outputs the recognition result for all the numbers in the number string, the voice output unit further includes a unit for continuously uttering each number of the recognition result as a synthetic voice. To do.

【0033】更に、本発明のビデオレコーダシステム
は、所定のフォーマットのデータが与えられることによ
り録画予約を行なうべくなしてあるビデオレコーダ本体
と、所定のフォーマットのデータを送信するリモートコ
ントロール装置とで構成されており、リモートコントロ
ール装置として上述のような本発明の数字列音声認識装
置を利用し、ビデオレコーダ本体に与えられるべきデー
タの元となる一連の数字列の各一桁の数字の音声信号を
認識対象としている。
Further, the video recorder system of the present invention comprises a video recorder main body which is designed to make a recording reservation by being given data of a predetermined format, and a remote control device which transmits data of a predetermined format. The number string voice recognition device of the present invention as described above is used as a remote control device, and a voice signal of each one-digit number of a series of number strings which is the source of data to be given to the video recorder main body is generated. It is a recognition target.

【0034】[0034]

【作用】本発明に係る音声認識方法では、認識対象の音
声信号に対する認識結果の確度を示す認識スコアが複数
の認識候補それぞれに関して求められ、求められた認識
スコアの内の第1位の認識スコアを第1の基準値と比較
する第1の判定が行なわれ、この第1の判定の結果、第
1位の認識スコアが第1の基準値よりも小である場合は
全認識候補がリジェクトされ、第1位の認識スコアが第
1の基準値よりも大である場合は第1位の認識スコアに
対する第2位の認識スコアの比率を表すスコア比が求め
られ、求められたスコア比を第2の基準値と比較する第
2の判定が行なわれ、この第2の判定の結果、スコア比
が第2の基準値よりも大である場合は全認識候補がリジ
ェクトされ、スコア比が第2の基準値よりも小である場
合は第1位の認識スコアが求められた認識候補が認識結
果として見做される。
In the voice recognition method according to the present invention, the recognition score indicating the accuracy of the recognition result for the voice signal to be recognized is obtained for each of the plurality of recognition candidates, and the first recognition score among the obtained recognition scores is obtained. Is compared with a first reference value, and if the result of the first determination is that the first-ranked recognition score is smaller than the first reference value, all recognition candidates are rejected. , If the first-ranked recognition score is higher than the first reference value, a score ratio representing the ratio of the second-ranked recognition score to the first-ranked recognition score is calculated, and the calculated score ratio is A second determination is made to compare with a reference value of 2, and if the result of this second determination is that the score ratio is larger than the second reference value, all recognition candidates are rejected and the score ratio is set to the second. If it is smaller than the reference value of Core recognition candidates obtained is regarded as a recognition result.

【0035】また本発明に係る音声認識方法では、同一
の認識対象に対する第1の判定または第2の判定の結果
に従ったリジェクトが行なわれた場合に、第1の基準値
がより小に、第2の基準値がより大に設定された上で第
1の判定及び第2の判定が再度行なわれる。
Further, in the voice recognition method according to the present invention, the first reference value becomes smaller when the same recognition target is rejected according to the result of the first judgment or the second judgment. The first determination and the second determination are performed again after the second reference value is set to a larger value.

【0036】更に本発明に係る音声認識方法では、同一
の認識対象に対する第1の判定または第2の判定の結果
に従ったリジェクトが所定回数連続して行なわれた場合
に、第1の基準値が”0”に、第2の基準値が”1”に
設定される。
Further, in the voice recognition method according to the present invention, the first reference value is obtained when the rejects according to the result of the first judgment or the second judgment for the same recognition object are continuously performed a predetermined number of times. Is set to "0" and the second reference value is set to "1".

【0037】本発明に係る数字列音声認識装置では、認
識対象の一連の数字列の各一桁の数字の音声信号に対す
る認識結果の確度を示す認識スコアが複数の認識候補そ
れぞれに関して認識スコア算出手段により算出され、認
識スコア算出手段により算出された第1位の認識スコア
が第1の基準値と第1の判定手段により比較され、この
第1の判定手段による判定の結果、第1位の認識スコア
が第1の基準値よりも小である場合は全認識候補が第1
のリジェクト手段によりリジェクトされ、第1位の認識
スコアが第1の基準値よりも大である場合は認識スコア
算出手段により算出された第1位の認識スコアに対する
第2位の認識スコアの比率を表すスコア比がスコア比算
出手段により求められ、スコア比算出手段により算出さ
れたスコア比が第2の基準値と第2の判定手段により比
較され、第2の判定手段による判定の結果、スコア比が
第2の基準値よりも大である場合は全認識候補が第2の
リジェクト手段によりリジェクトされ、スコア比が第2
の基準値よりも小である場合は認識スコア算出手段によ
り第1位の認識スコアが算出された認識候補が認識結果
出力手段により認識結果として出力される。
In the number string voice recognition apparatus according to the present invention, the recognition score calculation means for each of the plurality of recognition candidates has the recognition score indicating the accuracy of the recognition result for the voice signal of each one-digit number of the series of number strings to be recognized. The first-ranked recognition score calculated by the recognition score calculation means is compared with the first reference value by the first judgment means, and the result of the judgment by the first judgment means is the first-rank recognition. If the score is smaller than the first reference value, all recognition candidates are first
When the recognition score of the first place is higher than the first reference value, the ratio of the recognition score of the second place to the recognition score of the second place calculated by the recognition score calculation unit is The score ratio representing means is obtained by the score ratio calculating means, the score ratio calculated by the score ratio calculating means is compared with the second reference value by the second judging means, and the result of the judgment by the second judging means is the score ratio. Is larger than the second reference value, all recognition candidates are rejected by the second rejecting means, and the score ratio is the second.
When it is smaller than the reference value of, the recognition candidate for which the first recognition score is calculated by the recognition score calculation means is output as the recognition result by the recognition result output means.

【0038】また本発明に係る数字列音声認識装置で
は、同一の認識対象に対する第1のリジェクト手段また
は第2のリジェクト手段によるリジェクトが行なわれた
場合に、再判定手段により第1の基準値がより小に、第
2の基準値がより大に設定された上で第1の判定手段及
び第2の判定手段により再度判定が行なわれる。
Further, in the numeral string voice recognition apparatus according to the present invention, when the first reject means or the second reject means rejects the same recognition target, the re-determining means determines the first reference value. The second reference value is set to a smaller value, and then the determination is performed again by the first determining means and the second determining means.

【0039】更に本発明に係る数字列音声認識装置で
は、同一の認識対象に対する第1のリジェクト手段また
は第2のリジェクト手段によるリジェクトが所定回数連
続して行なわれた場合に、再判定手段により第1の基準
値が”0”に、第2の基準値が”1”に設定される。
Further, in the number string voice recognition apparatus according to the present invention, when the first reject means or the second reject means rejects the same recognition object continuously for a predetermined number of times, the re-determining means determines The reference value of 1 is set to "0" and the second reference value is set to "1".

【0040】また更に本発明に係る数字列音声認識装置
では、認識結果出力手段が認識結果を出力する都度、音
声出力手段から所定の合成音声が発声され、認識対象の
一連の数字列の全ての数字に対して認識結果出力手段が
認識結果を出力した場合に音声出力手段から認識結果の
各数字が合成音声にて連続的に発声される。
Furthermore, in the numeral string voice recognition apparatus according to the present invention, each time the recognition result output means outputs the recognition result, a predetermined synthetic voice is uttered from the voice output means, and all the series of numeral strings to be recognized are recognized. When the recognition result output means outputs a recognition result for a numeral, each numeral of the recognition result is continuously uttered by the voice output means as a synthetic voice.

【0041】更に、本発明のビデオレコーダシステムで
は、ビデオレコーダ本体に与えられるべきデータの元と
なる一連の数字列の各一桁の数字の音声信号が認識対象
として上述のような本発明の数字列音声認識装置を利用
したリモートコントロール装置により音声認識される。
Further, in the video recorder system of the present invention, the voice signal of each one-digit number of the series of numbers which is the source of the data to be given to the video recorder main body is recognized as the number of the present invention as described above. Voice recognition is performed by the remote control device using the row voice recognition device.

【0042】[0042]

【実施例】以下、本発明をその実施例を示す図面に基づ
いて詳述する。なお、以下に説明する各実施例では、本
発明の音声認識方法及び数字列音声認識装置をビデオレ
コーダシステムのGコードの入力装置(以下、Gコード
リモコンと言う)に適用した場合について説明する。ま
た、以下の各実施例では装置構成、即ちハードウェアは
共通であるが、各実施例におけるソフトウェア(認識方
法)が異なる。従って、まず最初に本発明に係る音声認
識方法の原理について説明し、次に各実施例に共通であ
るハードウェア構成について説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below in detail with reference to the drawings showing the embodiments thereof. In each of the embodiments described below, the case where the voice recognition method and the number string voice recognition device of the present invention are applied to a G code input device (hereinafter referred to as a G code remote controller) of a video recorder system will be described. In each of the following embodiments, the device configuration, that is, the hardware is common, but the software (recognition method) in each embodiment is different. Therefore, first, the principle of the voice recognition method according to the present invention will be described, and then the hardware configuration common to each embodiment will be described.

【0043】図1は本発明に係る音声認識方法の原理を
示す模式図である。図1において、参照符号11はマイク
ロフォンを示しており、話者が発声した音声が入力され
る。マイクロフォン11に入力された音声は音声入力処理
P1により音声信号として取り込まれ、”0(ゼロ,レ
イ, マル)”乃至”9(キュウ,ク)”の認識候補それ
ぞれに対して認識の確度を示す認識スコアが音声認識処
理P2により求められる。この音声認識処理P2により第1
位の認識スコアが求められた認識候補が正当であるか否
かが、第1の基準値と第1位の認識スコアとが比較され
ることにより絶対差によるリジェクトチェック処理P31
においてチェックされる。
FIG. 1 is a schematic diagram showing the principle of the voice recognition method according to the present invention. In FIG. 1, reference numeral 11 indicates a microphone into which a voice uttered by a speaker is input. Voice input processing for voice input to microphone 11
A speech recognition process P2 obtains a recognition score indicating the accuracy of recognition for each of the recognition candidates "0 (zero, ray, circle)" to "9 (kyu, ku)" that is captured as a voice signal by P1. This voice recognition process P2
Whether the recognition candidate for which the rank recognition score is obtained is valid or not is determined by comparing the first reference value with the recognition score of the first rank, thereby performing a reject check process P31 based on an absolute difference.
Checked in.

【0044】リジェクトチェック処理P31 においては、
第1位の認識スコアが第1の基準値より小さければ、全
ての認識候補がリジェクトされる。リジェクトされなか
った場合は、更に相対比によるリジェクトチェック処理
P32 において、第1位の認識スコアに対する第2位の認
識スコアの比率が求められ、それが第2の基準値と比較
されることにより相対比によるリジェクトチェックが行
なわれる。そして、両リジェクトチェック処理P31, P32
の双方において正当であると認められれば、第1位の認
識スコアの認識候補が認識結果と見做され、認識結果報
知処理P4によりスピーカ15から合成音声にて発声される
ことにより、あるいはLCD 25に文字表示されることによ
り報知される。
In the reject check process P31,
If the first-ranked recognition score is smaller than the first reference value, all recognition candidates are rejected. If not rejected, further reject check processing by relative ratio
In P32, the ratio of the second-ranked recognition score to the first-ranked recognition score is determined, and the ratio is compared with the second reference value to perform a rejection check based on the relative ratio. Then, both reject check processes P31, P32
If both are recognized as valid, the recognition candidate of the first recognition score is regarded as the recognition result, and the recognition result notifying process P4 causes the speaker 15 to make a synthetic voice or the LCD 25 It is notified by being displayed in characters.

【0045】図2は本発明に係る数字列音声認識装置の
一具体的適用例としてのビデオレコーダシステムのGコ
ードリモコンのハードウェア構成例を示すブロック図で
ある。本発明の数字列音声認識装置の内部構成は大きく
は、参照符号10にて示されているDSP(Digital Signal P
rocessor) 部と、参照符号20にて示されているマイクロ
コンピュータ部とに分かれる。なお、参照符号40はこの
Gコードリモコンと共にビデオレコーダシステムを構成
するビデオレコーダ本体であるが、この実施例ではビデ
オテープレコーダ(VTR) が使用されている。
FIG. 2 is a block diagram showing a hardware configuration example of a G code remote controller of a video recorder system as a specific application example of the numeral string voice recognition apparatus according to the present invention. The internal structure of the number string voice recognition device of the present invention is roughly represented by reference numeral 10 (DSP (Digital Signal P
rocessor) section and a microcomputer section indicated by reference numeral 20. Reference numeral 40 is a video recorder main body which constitutes a video recorder system together with the G code remote controller. In this embodiment, a video tape recorder (VTR) is used.

【0046】DSP部10は主として、マイクロフォン11,A/
D変換器12,DSP13,D/A変換器14, スピーカ15, PROM16,
マイクロコンピュータ部20とのI/F(インタフェイス)17,
RAM18, ROM19 等にて構成されている。
The DSP section 10 is mainly composed of the microphone 11, A /
D converter 12, DSP13, D / A converter 14, speaker 15, PROM16,
I / F (interface) with the microcomputer unit 20,
It consists of RAM18, ROM19, etc.

【0047】話者が発声した音声はマイクロフォン11か
ら入力し、マイクアンプ11A を介して A/D変換器12によ
りディジタル信号として取り込まれ、 DSP13により処理
される。 DSP13には、PROM16, RAM18, ROM19等の記憶装
置が接続されている。
The voice uttered by the speaker is input from the microphone 11, taken in as a digital signal by the A / D converter 12 via the microphone amplifier 11A, and processed by the DSP 13. Storage devices such as PROM16, RAM18, and ROM19 are connected to the DSP13.

【0048】ROM19には、スピーカ15から合成音声とし
て出力すべき種々の音声の符号化データ、音声認識のた
めのニューラルネットワークのウェイトデータ等が予め
格納されている。 RAM18には、 DSP13による処理に必要
な種々の変数の値、及び処理途中, 処理結果のデータ等
が一時的に記憶される。PROM16には、 DSP13による処理
に必要なプログラムが格納されている。
The ROM 19 stores in advance coded data of various voices to be output as synthesized voices from the speaker 15, weight data of a neural network for voice recognition, and the like. The RAM 18 temporarily stores the values of various variables necessary for processing by the DSP 13, data during processing, processing result data, and the like. The PROM16 stores the programs required for processing by the DSP13.

【0049】DSP13は、PROM16に格納されているプログ
ラムに従って所定の処理を行ない、必要に応じて ROM19
に格納されている符号化データを読み出して復調し、 D
/A変換器14を介してスピーカアンプ15A へ出力すること
により、スピーカ15から合成音声を発声させる。また、
DSP13は必要に応じてマイクロコンピュータ21との間で
データの送受を行なう。 I/F17はこのために使用され
る。
The DSP 13 performs a predetermined process according to the program stored in the PROM 16 and, if necessary, the ROM 19
Read the encoded data stored in
By outputting to the speaker amplifier 15A via the / A converter 14, a synthesized voice is uttered from the speaker 15. Also,
The DSP 13 sends and receives data to and from the microcomputer 21 as needed. I / F 17 is used for this.

【0050】マイクロコンピュータ部20は主として、マ
イクロコンピュータ21, 転送ボタン22, Gコードボタン
23, I/F24, LCD25, 送信器26等で構成されている。
The microcomputer section 20 mainly includes a microcomputer 21, a transfer button 22, and a G code button.
23, I / F24, LCD25, transmitter 26, etc.

【0051】マイクロコンピュータ21には転送ボタン2
2, Gコードボタン23からそれらがオン(プッシュ)さ
れている場合にオン信号が継続的に与えられる。送信器
26は、認識された数字列をGコードとしてデコードした
結果を VTR40へ送信するために使用される。また、 LCD
25は、 I/F24を介してマイクロコンピュータ21により制
御されることにより、認識結果の数字列の表示、あるい
はその他の種々の表示に使用される。
The transfer button 2 is provided on the microcomputer 21.
2, The ON signal is continuously given from the G code button 23 when they are turned on (pushed). Transmitter
26 is used for transmitting the result of decoding the recognized digit sequence as a G code to the VTR 40. Also, LCD
25 is used by the microcomputer 21 via the I / F 24 to display a numeric string of the recognition result or other various displays.

【0052】マイクロコンピュータ21にはROM 及び RAM
が内蔵されており、内蔵ROM にはマイクロコンピュータ
21による処理に必要なプログラム、あるいは任意の数字
列をGコードとしてデコードするためのプログラム (ま
たはテーブル) 等が格納されている。また、内蔵RAM は
マイクロコンピュータ21によるプログラム実行中に種々
のデータを記憶する。
ROM and RAM are provided in the microcomputer 21.
Is built-in, and the built-in ROM has a microcomputer
A program necessary for the processing by 21 or a program (or table) for decoding an arbitrary number string as a G code is stored. Further, the built-in RAM stores various data while the program is being executed by the microcomputer 21.

【0053】図3は本発明の数字列音声認識装置として
のGコードリモコンの外観を示す模式図である。図3に
おいて、参照符号30はケーシングであり、上述の図2に
示されている構成要素が格納されている。なお、マイク
ロフォン11, スピーカ15, 転送ボタン22, Gコードボタ
ン23及び LCD25はそれぞれの機能を有効に発揮させるた
めにケーシング30の表面に一部が露出している。
FIG. 3 is a schematic view showing the external appearance of a G code remote controller as a number string voice recognition device of the present invention. In FIG. 3, reference numeral 30 is a casing in which the above-mentioned components shown in FIG. 2 are stored. The microphone 11, the speaker 15, the transfer button 22, the G code button 23 and the LCD 25 are partially exposed on the surface of the casing 30 in order to effectively exhibit their respective functions.

【0054】〔第1の実施例〕上述のような構成の本発
明の数字列音声認識装置としてのGコードリモコンの第
1の実施例の動作、換言すれば本発明の音声認識方法に
ついて、マイクロコンピュータ21による処理手順を分割
して示す図4,図5及び図6のフローチャートを参照し
て説明する。なお、以下これらの図4,図5及び図6に
示されているフローチャートを第1のフローチャートと
言う。
[First Embodiment] The operation of the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention having the above-described configuration, in other words, the voice recognition method of the present invention, Description will be made with reference to the flowcharts of FIG. 4, FIG. 5, and FIG. The flowcharts shown in FIGS. 4, 5 and 6 will be referred to as a first flowchart hereinafter.

【0055】この図4,図5及び図6に示されている第
1のフローチャートの特徴、即ち本発明の主たる特徴
は、音声入力された数字の認識を従来のような単に第1
位の認識スコアの絶対値のみで行なうのではなく、第1
位の認識スコアと第2位の認識スコアとの比をも考慮し
て行なう点にある。このような特徴により、本発明の第
1の実施例では誤認識の多発を防止している。
The feature of the first flow chart shown in FIGS. 4, 5 and 6, that is, the main feature of the present invention is that the recognition of a voice-input numeral is simply performed by the first method.
First, instead of using only the absolute value of the recognition score
The point is that the ratio between the recognition score of the second rank and the recognition score of the second rank is also taken into consideration. Due to such characteristics, the first embodiment of the present invention prevents frequent occurrence of erroneous recognition.

【0056】まず、マイクロコンピュータ21は変数j,
kを共にゼロクリアし (ステップS31)、Gコードボタン
23のオン/オフ状態を調べる (ステップS32)。Gコード
ボタン23がオン状態である場合は、マイクロコンピュー
タ21はタイマの計時値”time”をゼロクリアする (ステ
ップS33)。次に、マイクロコンピュータ21は I/F17を介
して DSP13へ音声取り込みコマンドを送信する (ステッ
プS34)。これに応答して、 DSP13ではマイクロフォン11
からの音声入力を受け付ける状態になる。
First, the microcomputer 21 sets the variable j,
Clears both k to zero (step S31), and G code button
Check the on / off state of 23 (step S32). When the G code button 23 is in the ON state, the microcomputer 21 clears the timer value "time" to zero (step S33). Next, the microcomputer 21 sends a voice capture command to the DSP 13 via the I / F 17 (step S34). In response, the DSP13 has a microphone 11
The voice input from will be accepted.

【0057】DSP13は音声を取り込むとマイクロコンピ
ュータ21に対して I/F17を介して音声取り込み終了応答
を送信する。この DSP13から送信された音声取り込み終
了応答をマイクロコンピュータ21が受信した場合 (ステ
ップS35)、マイクロコンピュータ21は DSP13に対して音
声認識を行なわせるコマンド (認識コマンド) を送信す
る (ステップS36)。但し、 DSP13が音声を取り込むこと
が出来ず、且つGコードボタン23がオンされている状態
である場合は (ステップS61)、ステップS35 とS61 とを
往復するループ処理が反復されて DSP13はマイクロフォ
ン11からの音声入力を待機する状態になる。
When the DSP 13 captures the voice, it sends a voice capture end response to the microcomputer 21 via the I / F 17. When the microcomputer 21 receives the voice capture end response transmitted from the DSP 13 (step S35), the microcomputer 21 transmits a command (recognition command) for causing the DSP 13 to perform voice recognition (step S36). However, when the DSP 13 cannot take in the sound and the G code button 23 is turned on (step S61), the loop process that goes back and forth between steps S35 and S61 is repeated, and the DSP 13 causes the microphone 11 to operate. Waiting for voice input from.

【0058】DSP13は、マイクロコンピュータ21から送
信された認識コマンドに応答して、先に取り込んだ音声
の認識を行ない、その結果、即ち認識結果の候補及び各
候補の認識スコアをマイクロコンピュータ21へ送信す
る。マイクロコンピュータ21はDSP13から送信された認
識結果の候補及び各候補の認識スコアを受信する (ステ
ップS37)。なお、この際の DSP13による音声認識の手順
は公知の技術を利用している。
In response to the recognition command transmitted from the microcomputer 21, the DSP 13 recognizes the voice previously captured, and transmits the result, that is, the candidate of the recognition result and the recognition score of each candidate to the microcomputer 21. To do. The microcomputer 21 receives the recognition result candidates and the recognition score of each candidate transmitted from the DSP 13 (step S37). Note that the procedure of voice recognition by the DSP 13 at this time uses known technology.

【0059】次に、マイクロコンピュータ21は、リジェ
クト閾値”reject”として”150 ”を、スコア比閾値”
score ”として”0.5 ”をそれぞれセットする (ステッ
プS38)。これらの値は内蔵ROM に格納されているプログ
ラムで固定されていてもよいし、種々の条件に応じて変
更可能になっていてもよい。そして、マイクロコンピュ
ータ21は DSP13から送信されて来た認識スコアの内の第
1位の認識スコアをリジェクト閾値”reject(=150)”と
比較する (ステップS39)。この結果、第1位の認識スコ
アがリジェクト閾値”reject”以上である場合は、マイ
クロコンピュータ21は下記の演算を行なう (ステップS4
0)。なお、本実施例では認識スコアの理論的最小値は”
0”, 最大値は”255 ”である。
Next, the microcomputer 21 sets "150" as the reject threshold "reject" and the score ratio threshold "
"0.5" is set as each score (step S38). These values may be fixed by the program stored in the internal ROM or may be changeable according to various conditions. Then, the microcomputer 21 compares the first-ranked recognition score among the recognition scores transmitted from the DSP 13 with the reject threshold “reject (= 150)” (step S39). When the recognition score is equal to or higher than the reject threshold “reject”, the microcomputer 21 performs the following calculation (step S4
0). In this example, the theoretical minimum value of the recognition score is "
0 ", the maximum value is" 255 ".

【0060】スコア比=第2位の認識スコア/第1位の
認識スコア
Score ratio = second recognition score / first recognition score

【0061】マイクロコンピュータ21はこのステップS4
0 で求めたスコア比と先にステップS38 において”0.5
”に設定したスコア比閾値”score ”とを比較する
(ステップS41)。この結果、スコア比がスコア比閾値”s
core ”以上である場合は、マイクロコンピュータ21は
第1位の認識スコアが得られた認識候補を認識結果とし
て内蔵RAM に格納すると共に、 DSP13へ応答音声出力コ
マンドを送信する (ステップS42)。この応答音声出力コ
マンドに応答して DSP13は認識結果の数字を合成音声に
てスピーカ15から出力すると共に、マイクロコンピュー
タ21に対して終了応答を出力する。
The microcomputer 21 executes this step S4
The score ratio obtained in 0 and “0.5” in step S38 previously.
Compare with the score ratio threshold "score" set to "
(Step S41). As a result, the score ratio is the score ratio threshold "s.
If it is equal to or more than "core", the microcomputer 21 stores the recognition candidate having the first-ranked recognition score in the built-in RAM as the recognition result and transmits the response voice output command to the DSP 13 (step S42). In response to the response voice output command, the DSP 13 outputs the number of the recognition result as a synthesized voice from the speaker 15 and outputs an end response to the microcomputer 21.

【0062】マイクロコンピュータ21は、 DSP13から終
了応答を受信すると (ステップS43)、変数jを”1”イ
ンクリメントし (ステップS44)、転送フラグに”0”を
セットする (ステップS45)。
Upon receipt of the end response from the DSP 13 (step S43), the microcomputer 21 increments the variable j by "1" (step S44) and sets "0" in the transfer flag (step S45).

【0063】以上で一つの数字が音声認識されたことに
なり、ステップS32 へ処理が戻される。なお、変数jは
上述のステップS32 からステップS45 までのループ処理
が一回実行される都度、”1”ずつインクリメントされ
る。従って、変数jの値はその時点で既に認識済みの字
数を表している。
With the above, one number is recognized as voice, and the process is returned to step S32. The variable j is incremented by "1" each time the above-mentioned loop processing from step S32 to step S45 is executed once. Therefore, the value of the variable j represents the number of characters already recognized at that time.

【0064】ところで、ステップS39 において第1位の
認識スコアがリジェクト閾値”reject”未満であった場
合、換言すれば第1位の認識スコアの値が150 未満であ
った場合、及びステップS41 においてスコア比がスコア
比閾値”score ”以下であった場合には、マイクロコン
ピュータ21は正当な認識結果が得られなかった、即ちリ
ジェクトが行なわれたことを示すリジェクト音を出力さ
せるコマンドを DSP13へ送信する (ステップS46)。これ
に応答して DSP13はたとえば「ブッ」というようなリジ
ェクト音をスピーカ15から出力すると共に、マイクロコ
ンピュータ21に対して終了応答を出力する。この DSP13
から出力される終了応答を受信すると (ステップS47)、
マイクロコンピュータ21はステップS32 へ処理を戻す。
By the way, when the first-ranked recognition score is less than the reject threshold "reject" in step S39, in other words, when the first-ranked recognition score is less than 150, and in step S41, When the ratio is less than the score ratio threshold “score”, the microcomputer 21 sends a command to the DSP 13 to output a reject sound indicating that a valid recognition result was not obtained, that is, the reject was performed. (Step S46). In response to this, the DSP 13 outputs a reject sound such as "buzz" from the speaker 15, and outputs an end response to the microcomputer 21. This DSP13
When the end response output from is received (step S47),
The microcomputer 21 returns the process to step S32.

【0065】前述のステップS35 とステップS61 とが反
復されるループ処理において、音声が DSP13に取り込ま
れない状態でGコードボタン23がオフされていることを
マイクロコンピュータ21が検出した場合、マイクロコン
ピュータ21は DSP13に対して音声取り込み強制終了コマ
ンドを送信する (ステップS62)。これに応答して DSP13
は終了応答信号を送信するので、それを受信することに
よりマイクロコンピュータ21はそれまでに認識されてい
る字数を表す変数jの値を変数kにコピーして保存する
(ステップS64)。この後、マイクロコンピュータ21は変
数jをゼロクリアし (ステップS65)、ステップS32 へ処
理を戻す。
When the microcomputer 21 detects that the G code button 23 is turned off in a state where the voice is not captured by the DSP 13 in the loop processing in which the steps S35 and S61 are repeated, the microcomputer 21 Sends a voice capture forced termination command to DSP 13 (step S62). In response to this, DSP13
Sends an end response signal, and upon receiving it, the microcomputer 21 copies the value of the variable j representing the number of characters recognized so far to the variable k and stores it.
(Step S64). After that, the microcomputer 21 clears the variable j to zero (step S65) and returns the process to step S32.

【0066】上述の状態は、任意桁数の数字列が入力さ
れた後にユーザがそれ以上の入力を停止した状態、換言
すればユーザによる所望の数字列の入力が終了したか、
あるいはユーザが何らかの理由で数字の入力を中止した
状態である。この場合には、ステップS32 へ処理が戻さ
れるが、その時点でGコードボタン23がオフ状態である
場合はステップS71 へ処理が進められる。このステップ
S71 では、マイクロコンピュータ21は転送ボタン22のオ
ン/オフの状態を調べる。転送ボタン22がオンされてい
ない場合は、先にステップS33 でゼロクリアされたタイ
マの計時値”time”が所定の制限時間に達しているか否
かが調べられる (ステップS78)。
The above-described state is a state in which the user stops inputting any more digits after the number string having an arbitrary number of digits is input, in other words, whether or not the user has finished inputting the desired number string,
Alternatively, the user has stopped inputting numbers for some reason. In this case, the process returns to step S32, but if the G code button 23 is in the off state at that time, the process proceeds to step S71. This step
In S71, the microcomputer 21 checks the on / off state of the transfer button 22. If the transfer button 22 is not turned on, it is checked whether or not the time value "time" of the timer, which has been zero-cleared in step S33, has reached a predetermined time limit (step S78).

【0067】タイマの計時値”time”が制限時間に達す
るまではステップS78 からステップS32 へ処理が戻さ
れ、更にステップS71, S78を経由するループ処理が反復
される。従って、Gコードボタン23及び転送ボタン22の
双方がオフ状態である場合は、マイクロコンピュータ21
はそれらの内のいずれかがオン状態になるのを待つ状態
になる。但し、いずれもがオフ状態のままでタイマの計
時値”time”が制限時間に達した場合はマイクロコンピ
ュータ21は上述のループ処理を終了するので、それまで
に認識済みの数字列は無効になる。しかし、それ以前に
Gコードボタン23がオンされれば、マイクロコンピュー
タ21はステップS32 でそれを検出してステップS33 へ処
理を進めるので、数字列の入力が新たに可能な状態にな
る。一方、転送ボタン22がオンされれば、マイクロコン
ピュータ21はステップS71 でそれを検出してGコードを
VTR40へ送信するための処理を行なう。
Until the timed value "time" of the timer reaches the time limit, the processing is returned from step S78 to step S32, and the loop processing through steps S71 and S78 is repeated. Therefore, when both the G code button 23 and the transfer button 22 are off, the microcomputer 21
Enters a state waiting for one of them to turn on. However, if all of the timers are in the off state and the timed value "time" of the timer reaches the time limit, the microcomputer 21 ends the loop processing described above, and thus the recognized number string is invalid. . However, if the G code button 23 is turned on before that, the microcomputer 21 detects it in step S32 and advances the process to step S33, so that a new digit string can be input. On the other hand, if the transfer button 22 is turned on, the microcomputer 21 detects it in step S71 and outputs the G code.
Performs processing for transmission to VTR40.

【0068】この場合、まずマイクロコンピュータ21は
タイマの計時値”time”をゼロクリアし (ステップS7
2)、変数kの値が”0”であるか否かを調べる (ステッ
プS73)。変数kは前述したように、それまでに認識済み
の数字の個数を表す。従って、変数kの値が”0”であ
る場合は数字列の認識は行なわれていないので、マイク
ロコンピュータ21はステップS32 へ処理を戻す。変数k
の値が”0”でなければ、次にマイクロコンピュータ21
は転送フラグの値を調べる (ステップS74)。
In this case, the microcomputer 21 first clears the timer value "time" to zero (step S7).
2), it is checked whether or not the value of the variable k is "0" (step S73). As described above, the variable k represents the number of recognized numbers. Therefore, when the value of the variable k is "0", the numeric string is not recognized, and the microcomputer 21 returns the process to step S32. Variable k
If the value of is not "0", then the microcomputer 21
Checks the value of the transfer flag (step S74).

【0069】転送フラグは、その値が”0”である場合
はその時点で認識済みの数字列の転送が未だ行なわれて
いないことを、”1”である場合はその時点で認識済み
の数字列の転送が既に行なわれたことをそれぞれ示して
いる。従って、マイクロコンピュータ21は、転送フラグ
の値が”0”でなければステップS32 へ処理を戻し、”
0”である場合は既に認識されている数字列をGコード
としてデコードする (ステップS75)。このデコード結果
は送信器26により VTR40へ送信される (ステップS76)。
この後、転送フラグが”1”にセットされ (ステップS7
7)、ステップS32 へ処理が戻される。
When the value of the transfer flag is "0", it means that the transfer of the recognized digit string at that time has not been performed yet, and when it is "1", the recognized character string at that time. Each indicates that a column transfer has already occurred. Therefore, the microcomputer 21 returns the processing to step S32 if the value of the transfer flag is not "0",
If it is "0", the already recognized numeral string is decoded as a G code (step S75). The decoding result is transmitted to the VTR 40 by the transmitter 26 (step S76).
After this, the transfer flag is set to "1" (step S7
7), the process is returned to step S32.

【0070】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第1の実施例では、音声
入力された数字の認識を従来のような単に第1位の認識
スコアの絶対値のみで行なうのではなく、第1位の認識
スコアと第2位の認識スコアとの比をも考慮して行なう
ことにより、誤認識の多発を防止する点を特徴としてい
る。以下に具体的に説明する。
As described above, in the first embodiment of the G code remote controller as the number string voice recognition device of the present invention, the recognition of the number inputted by the voice is simply performed by the absolute value of the first recognition score. A feature of the present invention is that it prevents occurrence of erroneous recognition by not only using the values but also considering the ratio between the first-ranked recognition score and the second-ranked recognition score. This will be specifically described below.

【0071】上述の図4,図5及び図6に示されている
第1のフローチャートでは、ステップS38 においてまず
リジェクト閾値”reject”が150 に、スコア比閾値”sc
ore”が0.5 に設定された上で、ステップS39 において
第1位の認識スコアがリジェクト閾値”reject”と比較
されている。この処理は従来の音声認識装置においては
一般的に採用されている認識手法である。しかし、たと
えば話者が「ニ」と発声した場合に図7のグラフに示さ
れているような認識スコアの分布が得られたとする。
In the first flowchart shown in FIGS. 4, 5 and 6, the reject threshold "reject" is first set to 150 and the score ratio threshold "sc" is set in step S38.
ore "is set to 0.5, and the first-ranked recognition score is compared with the reject threshold" reject "in step S39. This process is a recognition generally used in the conventional speech recognition apparatus. However, it is assumed that a distribution of recognition scores as shown in the graph of FIG. 7 is obtained when the speaker utters “d”.

【0072】ここでは、認識結果「サン」の認識スコア
が” 183”であって第1位に、「ニ」の認識スコアが”
140”であって第2位になっている。従来であれば、第
1位の認識結果「サン」の認識スコア” 183”がリジェ
クト閾値”reject (この場合は150)”よりも大であるた
め、直ちに「サン」が認識結果と見做され、結果的には
誤認識になる。しかし、本発明の第1の実施例では、第
1のフローチャートのステップS40 において第1位の認
識スコアと第2位の認識スコアとの比が求められ、ステ
ップS41 においてスコア比閾値”score(この場合は0.
5)”と比較される。この場合、第1位の認識結果である
「サン」の認識スコア” 183”と第2位の認識結果であ
る「ニ」の認識スコア” 140”との比は約0.765 であっ
てスコア比閾値”score ”以上であるため、認識結果は
リジェクトされる。換言すれば、少なくとも第1位の認
識スコアと第2位の認識スコアとの間に有意な差がない
ような曖昧な認識結果が得られた場合には、たとえ第1
位の認識スコアがリジェクト閾値”reject”以上であっ
ても認識結果をリジェクトすることにより、誤認識の多
発が防止される。
Here, the recognition score of the recognition result "Sun" is "183", and the recognition score of "D" is "1st".
It is 140 ”and it is in the second place. In the conventional case, the recognition score“ 183 ”of the first recognition result“ Sun ”is larger than the reject threshold“ reject (150 in this case) ”. Therefore, "Sun" is immediately regarded as a recognition result, resulting in a false recognition. However, in the first embodiment of the present invention, the ratio between the first-ranked recognition score and the second-ranked recognition score is obtained in step S40 of the first flowchart, and the score ratio threshold "score (this score If 0.
5) ”. In this case, the ratio between the recognition score“ 183 ”of the first recognition result“ San ”and the recognition score“ 140 ”of the second recognition result“ Dii ”is The recognition result is rejected because it is about 0.765 and is higher than the score ratio threshold “score”. In other words, even if the ambiguous recognition result is obtained such that there is no significant difference between at least the first-ranked recognition score and the second-ranked recognition score,
Even if the position recognition score is equal to or higher than the reject threshold “reject”, rejecting the recognition result prevents frequent misrecognition.

【0073】本発明の数字列音声認識装置としてのGコ
ードリモコンの第1の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンを実際に使用する場合の手
順を説明する。
In the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, a microcomputer is used.
Although the program 21 is programmed to perform the above-described processing, the procedure when the user actually uses the G code remote controller as the numeral string voice recognition device of the present invention will be described below.

【0074】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S31, S32, S71, S78の順に処理が進み、以降はステップ
S32 へ戻ってステップS71, S78, S32 の順にループ処理
が反復される。
Before the user starts using the G code remote controller as the number string voice recognition device of the present invention, the microcomputer 21 is in a state of waiting for some operation by the user. That is, since both the transfer button 22 and the G code button 23 are off,
The process proceeds in the order of S31, S32, S71, S78, and then steps
Returning to S32, the loop processing is repeated in the order of steps S71, S78 and S32.

【0075】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
When the user keeps the G code button 23 in the ON state to input the G code, an ON signal is given to the microcomputer 21. Microcomputer 21
Detects an ON signal from the G code button 23 in step S32 during the loop processing of steps S32, S71, S78, S32. As a result, the microcomputer 21 thereafter proceeds from step S32 to step S35, and enters a loop process that reciprocates between step S35 and step S61. When the user utters the first digit of the G code in this state, the DSP 13 captures the user's voice. After that, the microcomputer 21 executes the processing of each step from step S35 to step S45.
Recognizes the voice previously captured and utters the speaker 15 with the synthesized voice of the recognition result.

【0076】このように、マイクロコンピュータ21がス
テップS32 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について一つずつ取り込ま
れる。そして、取り込まれた各数字はリジェクト閾値”
reject”=150,スコア比閾値”score ”=0.5 の各基準
値で音声認識され、更に認識結果の合成音声によるスピ
ーカ15からの発声が行なわれる。
As described above, the microcomputer 21 repeats the loop processing of sequentially returning from step S32 to step S45 and returning to step S32, whereby the G code of an arbitrary number of digits uttered by the user sequentially. Each number of is taken one by one for each loop processing. And each captured number is the reject threshold ”
Speech recognition is performed with each of the reference values of "reject" = 150 and score ratio threshold value "score" = 0.5, and the synthesized speech of the recognition result is used to utter from the speaker 15.

【0077】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められてステップS32
へ処理が戻される。従ってこの場合には、ユーザがGコ
ードボタン23をオンし続けている限りは、リジェクトさ
れた数字の再入力が可能である。
It should be noted that if the recognition processing of the individual numbers is rejected midway, step S39 or step S41 is performed.
From step S46 to S47, the process proceeds to step S32
The process is returned to. Therefore, in this case, as long as the user continues to turn on the G code button 23, the rejected numeral can be input again.

【0078】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。この場
合、ユーザが合成音声による応答を確認した上でGコー
ドボタン23をオフする反応時間よりも早くマイクロコン
ピュータ21による処理はステップS32 を経てステップS3
5 まで進むので、マイクロコンピュータ21はユーザがG
コードボタン23をオフしたことをステップS35 とステッ
プS61 とを反復するループ処理中のステップS61 におい
て検出する。これにより、マイクロコンピュータ21はス
テップS62 からステップS65 の各ステップの処理を行な
って DSP13に音声の取り込みを終了させ、その後にステ
ップS32 からステップS71 へ処理を進める。
After finishing inputting all the numbers of the G code, the user turns off the G code button 23. In this case, the processing by the microcomputer 21 proceeds from step S32 to step S3 earlier than the reaction time when the user confirms the response by the synthesized voice and turns off the G code button 23.
The user can select G
The fact that the code button 23 has been turned off is detected in step S61 during the loop processing in which steps S35 and S61 are repeated. As a result, the microcomputer 21 performs the processing of each step from step S62 to step S65 to end the voice acquisition in the DSP 13, and then advances the processing from step S32 to step S71.

【0079】ステップS71 では転送ボタン22のオン/オ
フが調べられ、オフである場合はステップS78 では所定
時間が経過したか否かが調べられる。更に、ステップS7
8 で所定時間が経過していないと判断された場合にはス
テップS32 へ処理が戻され、以降はステップS71, S78を
順次経由してステップS32 へ戻るループ処理が反復され
る。従って、最後の数字が認識された時点から所定時間
が経過するまでの間にユーザが転送ボタン22をオンすれ
ば、マイクロコンピュータ21はそれを上述のループ処理
中のステップS71 において検出する。この場合には、マ
イクロコンピュータ21は以降はステップS72 からステッ
プS77 までの各ステップの処理を行なうことにより、先
に認識された数字列をGコードとしてデコードして VTR
40へ送信する。
In step S71, it is checked whether the transfer button 22 is on or off, and if it is off, it is checked in step S78 whether a predetermined time has elapsed. Further, step S7
When it is determined in 8 that the predetermined time has not elapsed, the process is returned to step S32, and thereafter, the loop process of sequentially returning to step S32 through steps S71 and S78 is repeated. Therefore, if the user turns on the transfer button 22 before the predetermined time elapses from the time when the last digit is recognized, the microcomputer 21 detects it at step S71 in the above-mentioned loop processing. In this case, the microcomputer 21 thereafter performs the processing of steps S72 to S77 to decode the previously recognized numeral string as a G code and decode it in the VTR.
Send to 40.

【0080】Gコードボタン23も転送ボタン22も共にオ
ンされない内に所定時間が経過した場合にはステップS7
8 においてそれが検出されるので、マイクロコンピュー
タ21による処理は終了する。この場合は、既に認識済み
のGコードは無効になるが、再度Gコードボタン23をオ
ンすることによりユーザは新たなGコードを入力するこ
とが可能になる。
If the predetermined time elapses before neither the G code button 23 nor the transfer button 22 is turned on, step S7
Since it is detected at 8, the processing by the microcomputer 21 ends. In this case, the already recognized G code becomes invalid, but by turning on the G code button 23 again, the user can input a new G code.

【0081】なお、Gコードの入力途中で誤入力、ある
いは誤認識にユーザが気付いた場合には、Gコードボタ
ン23をオフすればよい。この場合、マイクロコンピュー
タ21はGコードボタン23がオフされたことをステップS6
1 で検出するので、以降は前述同様にステップS32 へ処
理が戻され、ステップS71, S72からステップS32 へ戻る
ループ処理が反復される。そして、ユーザが再度Gコー
ドボタン23をオンしてその状態を維持すれば、上述のル
ープ処理のステップS32 からステップS33 へ処理が進ん
で新たにGコードの入力が可能な状態になる。
If the user notices an erroneous input or erroneous recognition during the input of the G code, the G code button 23 may be turned off. In this case, the microcomputer 21 confirms that the G code button 23 has been turned off in step S6.
Since the detection is performed in step 1, the process is returned to step S32 as described above, and the loop process of returning from steps S71 and S72 to step S32 is repeated. Then, if the user turns on the G code button 23 again and keeps that state, the process proceeds from step S32 to step S33 of the above-described loop process, and a state in which a new G code can be input is entered.

【0082】なお上記第1の実施例では、リジェクト閾
値”reject”を”150 ”に、スコア比閾値”score ”
を”0.5 ”にそれぞれ設定して音声認識を行なっている
が、他の適当な数値を採用してもよいことは言うまでも
ない。
In the first embodiment, the reject threshold "reject" is set to "150" and the score ratio threshold "score" is set.
Is set to "0.5" for voice recognition, but it goes without saying that other suitable numerical values may be adopted.

【0083】〔第2の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第2の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図8,図9
及び図10のフローチャートを参照して説明する。なお、
以下これらの図8,図9及び図10に示されているフロー
チャートを第2のフローチャートと言う。また、図8,
図9及び図10に示されている第2のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
[Second Embodiment] Next, regarding the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, the processing procedure of the microcomputer 21, in other words, the voice recognition of the present invention. 8 and 9 showing the method divided
Also, description will be made with reference to the flowchart of FIG. In addition,
Hereinafter, the flowcharts shown in FIGS. 8, 9 and 10 will be referred to as a second flowchart. In addition, FIG.
A first showing the processing procedure of the first embodiment among the processing steps of the second flowchart shown in FIGS. 9 and 10.
The same step numbers are given to the same portions as the processing steps in the flowchart of FIG.

【0084】図8,図9及び図10に示されている第2の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS31 に代
えてステップS131が、ステップS38 に代えてステップS1
38が、ステップS44 に代えてステップS144が、ステップ
S65 に代えてステップS165がそれぞれ実行され、更に図
4,図5及び図6に示されている第1のフローチャート
のステップS47 の次にステップS48 が追加して実行され
る。
In the second flow chart shown in FIGS. 8, 9 and 10, step S31 in the first flow chart shown in FIGS. 4, 5 and 6 is replaced by step S31. S131 replaces step S38 with step S1
38, step S144 instead of step S44
Step S165 is executed instead of S65, and step S48 is additionally executed after step S47 of the first flowchart shown in FIGS. 4, 5 and 6.

【0085】この図8,図9及び図10に示されている第
2のフローチャートの特徴、即ち第2の実施例の特徴
は、音声入力された数字の認識結果がリジェクトされた
場合にその再入力に際してはリジェクト閾値”reject”
及びスコア比閾値”score ”が緩和されるという点にあ
る。換言すれば、本第2の実施例では、一旦リジェクト
された後の再入力に際しては前回よりもリジェクトされ
る可能性が低くなるため、リジェクトの多発が防止され
る点にある。
The characteristic of the second flow chart shown in FIGS. 8, 9 and 10, that is, the characteristic of the second embodiment is that when the recognition result of a numeral input by voice is rejected, Rejection threshold "reject" for input
And the score ratio threshold "score" is relaxed. In other words, in the second embodiment, the possibility of being rejected at the time of re-inputting after being once rejected is lower than that at the previous time, so that a large number of rejects are prevented.

【0086】上述のような本第2の実施例の特徴は、第
1の実施例におけるステップS38 に代えて実行されるス
テップS138の処理により主として実現される。即ち、マ
イクロコンピュータ21はリジェクトが連続した回数を示
す変数iを他の変数j及びkと共にまずステップS131に
おいてゼロクリアした上でステップS32 以降の処理を開
始してステップS32, S71, S78 の順のループ処理に入
る。そして、ある一つの数字の音声を取り込んだ後のス
テップS138での認識処理に際して、一回目は変数iが”
0”であるので前述の第1の実施例のステップS38 での
処理と同様に、リジェクト閾値”reject”=150 に、ま
たスコア比閾値”score ”=0.5 にそれぞれ設定された
上でステップS39, S40, S41 においてリジェクトするか
否かの判断が行なわれる。
The characteristics of the second embodiment as described above are mainly realized by the process of step S138 executed in place of step S38 of the first embodiment. That is, the microcomputer 21 first clears the variable i, which indicates the number of times the reject is consecutive, together with the other variables j and k to zero in step S131, starts the processing in step S32 and thereafter, and loops in the order of step S32, S71, S78. Start processing. Then, in the recognition processing in step S138 after capturing a certain number of voices, the variable i is "
Since it is 0 ", similar to the processing in step S38 of the first embodiment, the rejection threshold" reject "= 150 and the score ratio threshold" score "= 0.5 are set, and then step S39, Whether or not to reject is determined in S40 and S41.

【0087】この一回目の認識処理でリジェクトされな
かった場合はステップS44 に代えてステップS144におい
て変数jが”1”インクリメントされると共にリジェク
トが連続した回数を表す変数iはゼロクリアされる。し
かし、リジェクトされた場合はステップS47 の次のステ
ップS48 において変数iが”1”インクリメントされ
る。
If not rejected in the first recognition process, the variable j is incremented by "1" in step S144 instead of step S44, and the variable i representing the number of times the rejects are continuously performed is cleared to zero. However, if rejected, the variable i is incremented by "1" in step S48 following step S47.

【0088】このように、一回目の認識処理においてリ
ジェクトされた場合は変数iが”1”インクリメントさ
れて”0”から”1”になるため、次のステップS138で
リジェクト閾値”reject”=100 に、またスコア比閾
値”score ”=0.8 にそれぞれ設定された上でステップ
S39, S40, S41 においてリジェクトするか否かの判断が
行なわれる。従って、一回リジェクトされた後の二回目
の認識処理に際しては、一回目の認識処理に比してより
リジェクトの可能性が小さい状態でリジェクトするか否
かの判断が行なわれることになる。
As described above, when rejected in the first recognition process, the variable i is incremented by "1" and changed from "0" to "1". Therefore, in the next step S138, the reject threshold "reject" = 100. And the score ratio threshold "score" = 0.8, respectively.
In S39, S40, S41, it is determined whether or not to reject. Therefore, in the second recognition process after the first rejection, it is determined whether or not to reject in a state in which the possibility of rejection is smaller than that in the first recognition process.

【0089】更に、二回連続してリジェクトされた場合
にはステップS48 において変数iが更に”1”インクリ
メントされて”2”になるため、ステップS138において
リジェクト閾値”reject”=0 に、またスコア比閾値”
score ”=1.0 にそれぞれ設定された上でステップS39,
S40, S41 においてリジェクトするか否かの判断が行な
われる。従ってこの二回連続してリジェクトされた後の
三回目の認識処理に際しては、リジェクトの可能性が全
くない状態でリジェクトするか否かの判断が行なわれる
ことになる。換言すれば、二回連続してリジェクトされ
た後には、第1位の認識スコアの認識候補が無条件で認
識結果として決定される。
Further, in the case of being rejected twice in succession, the variable i is further incremented by "1" in step S48 to become "2". Therefore, in step S138, the rejection threshold value "reject" = 0 and the score is again scored. Ratio threshold ”
score ”= 1.0, and then step S39,
Whether or not to reject is determined in S40 and S41. Therefore, at the time of the third recognition process after the second successive rejection, it is determined whether or not to reject in the state where there is no possibility of rejection. In other words, the recognition candidate of the first-ranked recognition score is unconditionally determined as the recognition result after being rejected twice in succession.

【0090】なお、ユーザが数字列の音声入力を終了し
た場合、あるいは途中で中止した場合には、第1のフロ
ーチャートに示されているステップS65 に代えてステッ
プS165において変数iは変数jと共にゼロクリアされた
後、ステップS32 へ処理が戻される。
When the user finishes inputting the voice of the number string or cancels it in the middle, the variable i is cleared to zero together with the variable j in step S165 instead of step S65 shown in the first flow chart. After that, the process is returned to step S32.

【0091】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
The other processing is the same as that of the first embodiment described above, and the description thereof is omitted.

【0092】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第2の実施例では、音声
入力された数字の認識を第1の実施例のような固定され
たリジェクト閾値”reject”及びスコア比閾値”score
”で行なうのではなく、リジェクトされた後の再入力
に際してはリジェクト閾値”reject”, スコア比閾値”
score ”共に緩和して行なう点を特徴としている。この
ような特徴により、本発明の第2の実施例では、前述の
第1の実施例での誤認識の多発の防止に加えて、リジェ
クトの多発を防止している。以下に具体的に説明する。
As described above, in the second embodiment of the G code remote controller as the numeral string voice recognition apparatus of the present invention, the recognition of the numeral inputted by voice is fixed to the fixed reject threshold as in the first embodiment. "Reject" and score ratio threshold "score
“Reject threshold“ reject ”, score ratio threshold” when re-input after rejected
It is characterized in that both the score and the score are relaxed. Due to such a feature, in the second embodiment of the present invention, in addition to the prevention of frequent occurrence of erroneous recognition in the first embodiment, the rejection It prevents frequent occurrence, which will be described in detail below.

【0093】上述の図8,図9及び図10に示されている
第2のフローチャートでは、 DSP13により取り込まれた
ある音声の認識に際して、一回目はステップS138におい
て第1の実施例と同様にリジェクト閾値”reject”が15
0 に、スコア比閾値”score”が0.5 にそれぞれ設定さ
れた上で、ステップS39 において第1位の認識スコアが
リジェクト閾値”reject”と比較されている。ここで、
たとえば図11のグラフに示されているような認識スコア
の分布が得られたとする。
In the second flow chart shown in FIG. 8, FIG. 9 and FIG. 10 described above, when recognizing a certain voice captured by the DSP 13, the first time rejecting is performed in step S138 as in the first embodiment. The threshold "reject" is 15
The score ratio threshold "score" is set to 0.5 and the first recognition score is compared with the reject threshold "reject" in step S39. here,
For example, assume that a distribution of recognition scores as shown in the graph of FIG. 11 is obtained.

【0094】ここでは、認識結果「ニ」の認識スコア
が” 145”であって第1位に、「サン」の認識スコア
が”90”であって第2位になっている。この場合、第1
位の認識結果「ニ」の認識スコア” 145”がリジェクト
閾値”reject (この場合は150)”よりも小であるため、
リジェクトされる。しかし、本発明の第2の実施例で
は、ユーザがGコードボタン23をオフしなければ再度入
力が受け付けられると共に、ステップS138において今回
はリジェクト閾値”reject”が100 に、スコア比閾値”
score ”が0.8 にそれぞれ再設定された上で、ステップ
S39 において第1位の認識スコアが再度リジェクト閾
値”reject (この場合は100)”と比較される。
Here, the recognition score of the recognition result "d" is "145", which is first, and the recognition score of "sun" is "90", which is second. In this case, the first
Since the recognition score “145” of the rank recognition result “d” is smaller than the reject threshold “reject (150 in this case)”,
Rejected. However, in the second embodiment of the present invention, if the user does not turn off the G code button 23, the input is accepted again, and in this step S138, the reject threshold "reject" is set to 100 and the score ratio threshold "
score ”is reset to 0.8 and then step
In S39, the first recognition score is again compared with the reject threshold "reject (100 in this case)".

【0095】この場合、第1位の認識結果である「ニ」
の認識スコア” 145”はリジェクト閾値”reject”より
も大であるため、ステップS41 においてスコア比閾値”
score(この場合は0.8)”と比較される。この場合、第1
位の認識結果である「ニ」の認識スコア” 145”と第2
位の認識結果である「サン」の認識スコア”90”との比
は約0.621 であってスコア比閾値”score ”よりも小で
あるため、「ニ」が認識結果として決定される。換言す
れば、一度リジェクトされた後の二度目の認識処理に際
しては、リジェクト閾値”reject”, スコア比閾値”sc
ore ”共に緩和されるので、リジェクトされる可能性が
低下する。更に、二度目の認識処理に際してもリジェク
トされた場合には、リジェクト閾値”reject”が”0”
に、スコア比閾値”score ”が”1”にそれぞれ設定さ
れるので、実質的にはリジェクトは行なわれず、認識ス
コアが第1位の候補が必ずそのまま認識結果として決定
される。
In this case, the first recognition result is "d".
Since the recognition score “145” is larger than the reject threshold “reject”, the score ratio threshold “step” is determined in step S41.
score (0.8 in this case) ”. In this case, the first
Second, the recognition score of “D”, which is the recognition result of rank “145”
Since the ratio of the position recognition result “San” to the recognition score “90” is about 0.621, which is smaller than the score ratio threshold “score”, “D” is determined as the recognition result. In other words, in the second recognition process after being rejected once, the reject threshold “reject” and the score ratio threshold “sc
Since both ore "are relaxed, the possibility of being rejected is reduced. Furthermore, when rejected at the time of the second recognition processing, the reject threshold" reject "is" 0 ".
In addition, since the score ratio threshold “score” is set to “1” respectively, the rejection is not actually performed, and the candidate with the first recognition score is always determined as it is as the recognition result.

【0096】本発明の数字列音声認識装置としてのGコ
ードリモコンの第2の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第2の実施例を実際に使
用する場合の手順を説明する。
In the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, a microcomputer is used.
21 is programmed to perform the above-mentioned processing, but the procedure for the user to actually use the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention will be described below. To do.

【0097】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S131, S32, S71, S78 の順に処理が進み、以降はステッ
プS32 へ戻ってステップS71, S78, S32 の順にループ処
理が反復される。
Before the user starts using the G code remote controller as the number string voice recognition device of the present invention, the microcomputer 21 is in a state of waiting for some operation by the user. That is, since both the transfer button 22 and the G code button 23 are off,
The process proceeds in the order of S131, S32, S71, S78, and thereafter, the process returns to step S32 and the loop process is repeated in the order of steps S71, S78, S32.

【0098】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
When the user keeps the G code button 23 in the ON state to input the G code, the ON signal is given to the microcomputer 21. Microcomputer 21
Detects an ON signal from the G code button 23 in step S32 during the loop processing of steps S32, S71, S78, S32. As a result, the microcomputer 21 thereafter proceeds from step S32 to step S35, and enters a loop process that reciprocates between step S35 and step S61. When the user utters the first digit of the G code in this state, the DSP 13 captures the user's voice. After that, the microcomputer 21 executes the processing of each step from step S35 to step S45.
Recognizes the voice previously captured and utters the speaker 15 with the synthesized voice of the recognition result.

【0099】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に認識結果
の合成音声によるスピーカ15からの発声が行なわれる。
As described above, the microcomputer 21 repeats the loop process of sequentially returning to step S32 through the steps from step S35 to step S45, whereby the G code of an arbitrary number of digits uttered by the user sequentially. For each loop processing, each number is captured one by one and the reject threshold is “reject” = 150, score ratio threshold ”
Speech is recognized with a reference value of "score" = 0.5, and the synthesized speech of the recognition result is uttered from the speaker 15.

【0100】なお、個々の数字の入力処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声され、ステップS48 におい
て変数iが”1”インクリメントされた上でステップS3
2 へ処理が戻される。従ってこの場合にユーザがGコー
ドボタン23をオンし続けていれば、変数iが”1”にな
ることによりリジェクト閾値”reject”=100,スコア比
閾値”score ”=0.8 となり、一回目よりもリジェクト
の基準値が低い状態での再認識が可能になる。しかし、
二回連続してリジェクトされた場合には、変数iが”
2”になることによりリジェクト閾値”reject”=0,ス
コア比閾値”score ”=1.0 となり、第1位の認識スコ
アの認識候補が無条件で認識結果として決定される。こ
のため、リジェクトが反復される可能性が低下し、最大
でも連続二回のリジェクト後の三回目の入力音声が認識
される。
If the input processing of individual numbers is rejected midway, step S39 or step S41 is performed.
From step S46 to S47, a reject sound such as "buzz" is uttered, the variable i is incremented by "1" in step S48, and then step S3.
The process is returned to 2. Therefore, in this case, if the user continues to turn on the G code button 23, the variable i becomes "1", and thus the reject threshold "reject" = 100 and the score ratio threshold "score" = 0.8, which is more than the first time. Re-recognition is possible when the reject reference value is low. But,
When rejected twice in succession, the variable i is "
When it becomes 2 ”, the rejection threshold“ reject ”= 0 and the score ratio threshold“ score ”= 1.0, and the recognition candidate of the first recognition score is unconditionally determined as the recognition result. Therefore, the rejection is repeated. The possibility that the input voice is reduced is recognized, and at the maximum, the third input voice after two consecutive rejects is recognized.

【0101】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフし、転送ボタン
22をオンする。これ以降の操作は前述の第1の実施例と
同様である。
When all the numbers of the G code have been input, the user turns off the G code button 23 and then the transfer button.
Turn on 22. The subsequent operations are the same as those in the first embodiment described above.

【0102】なお上記第2の実施例では、リジェクトが
行なわれる都度、リジェクト閾値”reject”を”150
”, ”100 ”, ”0”に、スコア比閾値”score ”
を”0.5 ”, ”0.8 ”, ”1”に、共に3段階に順次的
に変更しているが、2段階に変更しても、あるいは4段
階以上に変更してもよく、更に上記以外の数値を採用し
てもよいことは言うまでもない。
In the second embodiment described above, the reject threshold "reject" is set to "150" every time reject is performed.
"," 100 "," 0 ", score ratio threshold" score "
Are sequentially changed to "0.5", "0.8", "1" in 3 steps, but may be changed in 2 steps or 4 steps or more. It goes without saying that numerical values may be adopted.

【0103】〔第3の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第3の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図12,図13
及び図14のフローチャートを参照して説明する。なお、
以下これらの図12,図13及び図14に示されているフロー
チャートを第3のフローチャートと言う。また、図12,
図13及び図14に示されている第3のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
[Third Embodiment] Next, regarding the third embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, the processing procedure of the microcomputer 21, in other words, the voice recognition of the present invention. Figures 12 and 13 showing the method divided
Also, description will be made with reference to the flowchart of FIG. In addition,
Hereinafter, the flowcharts shown in FIGS. 12, 13 and 14 will be referred to as a third flowchart. Also, in FIG.
A first showing the processing procedure of the first embodiment among the processing steps of the third flowchart shown in FIGS. 13 and 14.
The same step numbers are given to the same portions as the processing steps in the flowchart of FIG.

【0104】図12,図13及び図14に示されている第3の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS42 に代
えてステップS142が、ステップS65 に代えてステップS2
65乃至ステップS270がそれぞれ実行される。
In the third flow chart shown in FIGS. 12, 13 and 14, step S42 in the first flow chart shown in FIG. 4, FIG. 5 and FIG. 6 is replaced with step S42. S142 replaces step S65 with step S2
65 to step S270 are executed respectively.

【0105】この図12,図13及び図14に示されている第
2のフローチャートの特徴、即ち第3の実施例の特徴
は、音声入力された各数字の認識結果をその都度ユーザ
が確認することは出来ないが、数字列の入力が終了した
時点で全体を確認することが出来るように構成して各数
字の入力間隔を短縮可能にした点にある。
The characteristic of the second flowchart shown in FIGS. 12, 13 and 14, that is, the characteristic of the third embodiment, is that the user confirms the recognition result of each digit input by voice each time. Although it is not possible, it is possible to shorten the input interval of each number by configuring so that the whole can be confirmed when the input of the number string is completed.

【0106】上述のような本第3の実施例の特徴はステ
ップS265乃至ステップS270の処理により主として実現さ
れる。即ち、ある一つの数字の音声の取り込み処理に際
して認識結果がリジェクトされなかった場合は、ステッ
プS142での処理によりマイクロコンピュータ21は DSP13
に対して認識済みの確認音、たとえば「ピッ」というよ
うな音を出力させるコマンドを送信することにより、ユ
ーザに対しては単に一つの数字の入力及び認識が行なわ
れたことのみを知らせる。
The features of the third embodiment as described above are mainly realized by the processes of steps S265 to S270. That is, if the recognition result is not rejected during the process of capturing a voice of one number, the microcomputer 21 causes the DSP 13 to perform the process in step S142.
By sending a command for outputting a recognized confirmation sound to the user, for example, a sound such as a beep, the user is notified only that one number has been input and recognized.

【0107】Gコードの音声入力が終了した場合、ある
いは途中で中止された場合には、第1のフローチャート
に示されているステップS65 に代えてステップS265乃至
ステップS270の処理により、認識済みの数字列が一括し
て合成音声にてスピーカ15から発声される。即ち、まず
マイクロコンピュータ21は変数kの値、即ち認識された
数字の個数が1以上であるか否かを、換言すれば一つで
も数字が認識されているか否かを判定する (ステップS2
65) 。
When the voice input of the G code is completed or is stopped midway, the recognized digit is obtained by the processing of steps S265 to S270 instead of step S65 shown in the first flowchart. The rows are collectively uttered from the speaker 15 as synthetic voice. That is, the microcomputer 21 first determines whether the value of the variable k, that is, the number of recognized numbers is 1 or more, in other words, whether or not even one number is recognized (step S2
65).

【0108】数字が全く認識されていなかったとステッ
プS265において判定された場合には、マイクロコンピュ
ータ21はステップS32 へ処理を戻して待機状態になる。
ステップS265において数字が一つでも認識されていた場
合には、マイクロコンピュータ21は”k−j”番目に認
識された音声の認識結果に対応する合成音声をスピーカ
15から発声させるためのコマンドを DSP13へ送信する
(ステップS266) 。
If it is determined in step S265 that no numeral has been recognized, the microcomputer 21 returns to step S32 and enters a standby state.
If any number is recognized in step S265, the microcomputer 21 outputs a synthesized voice corresponding to the recognition result of the "kj" th recognized voice to the speaker.
Send a command to speak from 15 to DSP13
(Step S266).

【0109】これに応答して DSP13は合成音声をスピー
カ15から発声させると共にその終了を示す終了応答信号
を送信する。マイクロコンピュータ21は、この DSP13か
ら送信された終了応答信号を受信すると (ステップS26
7) 、変数jを”1”デクリメントし (ステップS268)
、更にその結果が”0”よりも小さくなっているか否
かを判定する (ステップS269) 。変数jが”0”になる
までの間はステップS269からステップS266へ処理が戻さ
れるので、マイクロコンピュータ21はステップS266乃至
ステップS269のループ処理を反復する。
In response to this, the DSP 13 utters the synthesized voice from the speaker 15 and transmits an end response signal indicating the end thereof. When the microcomputer 21 receives the end response signal transmitted from the DSP 13 (step S26
7), decrement the variable j by "1" (step S268)
Further, it is determined whether or not the result is smaller than "0" (step S269). The process is returned from step S269 to step S266 until the variable j becomes "0", and therefore the microcomputer 21 repeats the loop process of steps S266 to S269.

【0110】ところで、ステップS61 からステップS62
へ処理が進められた時点では変数jは認識済みの数字の
個数を表している。また、ステップS64 において”k=
j”とされているので、この時点では変数kも認識済み
の数字の個数を表している。そして、上述のループ処理
の一回目のステップS266での処理においては、”k=
j”であるため第”0”番目、換言すれば変数jが”
0”であった時点で認識された数字を合成音声で発声さ
せるコマンドがマイクロコンピュータ21から DSP13へ送
信される。この後、上述のステップS266乃至ステップS2
69のループ処理が反復される都度、ステップS268におい
て変数jが”1”ずつデクリメントされるため、ステッ
プS266においては変数jが”1”, ”2”…であった時
点それぞれにおいて認識された数字が合成音声でスピー
カ15から発声されることになる。
By the way, from step S61 to step S62
The variable j represents the number of recognized numbers when the process is advanced to. In step S64, "k =
At this point, the variable k also represents the number of recognized numbers, and in the first loop processing of step S266, "k =
Since it is j ”, it is“ 0 ”th, in other words, the variable j is“
The command for uttering the number recognized at the time of "0" with the synthesized voice is transmitted from the microcomputer 21 to the DSP 13. After that, the above steps S266 to S2 are performed.
Each time the loop processing of 69 is repeated, the variable j is decremented by "1" at step S268, and therefore, at step S266, the number recognized at each time when the variable j is "1", "2" ... Will be uttered from the speaker 15 as a synthetic voice.

【0111】やがて、変数jが”0”よりも小さくなる
とループ処理から脱出し、マイクロコンピュータ21は変
数j及びiを共にゼロクリアし (ステップS270) 、ステ
ップS32 へ処理を戻す。以上の処理により、認識済みの
数字列の各数字が合成音声でスピーカ15から順次的且つ
連続的に発声される。
Eventually, when the variable j becomes smaller than "0", the process exits from the loop process, the microcomputer 21 clears both variables j and i to zero (step S270), and returns the process to step S32. Through the above processing, each number in the recognized number string is sequentially and continuously uttered as a synthetic voice from the speaker 15.

【0112】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
The other processing is the same as that of the first embodiment described above, and the description thereof is omitted.

【0113】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第3の実施例では、音声
入力された数字の認識結果の確認を第1及び第2の実施
例のようにその都度ユーザに求めるのではなく、全ての
数字が入力された後に一括して合成音声で発声すること
により求めるようにしている。このような特徴により、
本発明の第3の実施例では、前述の第1及び第2の実施
例に比して迅速な入力が可能になる。以下に具体的に説
明する。
As described above, in the third embodiment of the G code remote controller as the numeral string voice recognition apparatus of the present invention, the confirmation of the recognition result of the numeral inputted by voice is confirmed as in the first and second embodiments. Instead of asking the user each time, all the numbers are input and then collectively uttered as a synthetic voice. Due to these characteristics,
The third embodiment of the present invention enables quick input as compared with the first and second embodiments described above. This will be specifically described below.

【0114】いまたとえば前述の従来例の場合と同様
に、ユーザが数字列”5492”を音声入力する場合につい
て、それに対する本発明の音声認識装置としてのGコー
ドリモコンの第3の実施例の応答の状態を示す図15の模
式図を参照して説明する。
Now, for example, as in the case of the above-mentioned conventional example, when the user inputs the numeral string "5492" by voice, the response of the third embodiment of the G code remote controller as the voice recognition apparatus of the present invention is responsive to it. This will be described with reference to the schematic diagram of FIG.

【0115】上述の図12,図13及び図14に示されている
第3のフローチャートでは、 DSP13により取り込まれた
ある音声を認識した場合、ステップS142において認識を
したことの確認のみを知らせるたとえば「ピッ」という
ような短い確認音をスピーカ15から発声する。即ち、図
15に示されているように、ユーザがまず「ゴ」と発声す
るとスピーカ15から「ピッ」と音がし、次にユーザが
「ヨン」と発声するとスピーカ15から「ピッ」と音が
し、次にユーザが「キュウ」と発声するとスピーカ15か
ら「ピッ」と音がし、最後にユーザが「ニ」と発声する
とスピーカ15から「ピッ」と音がする。そして、ユーザ
がGコードボタン23をオフするとスピーカ15から「ゴ・
ヨン・キュウ・ニ」と連続的に認識結果が発声される。
In the third flow chart shown in FIG. 12, FIG. 13 and FIG. 14 described above, when a certain voice captured by the DSP 13 is recognized, only confirmation that the recognition is performed is given in step S142. A short confirmation sound such as "beep" is emitted from the speaker 15. That is, the figure
As shown in FIG. 15, when the user first says “go”, the speaker 15 beeps, and when the user says “yeon”, the speaker 15 beeps, Next, when the user utters "kyu", the speaker 15 beeps, and when the user finally utters "d", the speaker 15 beeps. When the user turns off the G code button 23, the speaker 15 displays
The recognition result is continuously uttered as "Yeon Kyu Ni".

【0116】本発明の数字列音声認識装置としてのGコ
ードリモコンの第3の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第3の実施例を実際に使
用する場合の手順を説明する。
In the third embodiment of the G code remote controller as the number string voice recognition device of the present invention, a microcomputer is used.
21 is programmed to perform the above-mentioned processing, but the procedure for the user to actually use the third embodiment of the G code remote controller as the numeral string voice recognition device of the present invention will be described below. To do.

【0117】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S31, S32, S71, S78の順に処理が進み、以降はステップ
S32 へ戻ってステップS71, S78, S32 の順にループ処理
が反復される。
Before the user starts using the G code remote controller as the number string voice recognition device of the present invention, the microcomputer 21 is in a state of waiting for some operation by the user. That is, since both the transfer button 22 and the G code button 23 are off,
The process proceeds in the order of S31, S32, S71, S78, and then steps
Returning to S32, the loop processing is repeated in the order of steps S71, S78 and S32.

【0118】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識を行なう。
When the user keeps the G code button 23 in the ON state to input the G code, the ON signal is given to the microcomputer 21. Microcomputer 21
Detects an ON signal from the G code button 23 in step S32 during the loop processing of steps S32, S71, S78, S32. As a result, the microcomputer 21 thereafter proceeds from step S32 to step S35, and enters a loop process that reciprocates between step S35 and step S61. When the user utters the first digit of the G code in this state, the DSP 13 captures the user's voice. After that, the microcomputer 21 executes the processing of each step from step S35 to step S45.
Recognizes the previously captured voice.

【0119】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に一つの数
字が認識される都度、スピーカ15から「ピッ」というよ
うな確認音が発声される。
In this way, the microcomputer 21 repeats the loop processing of sequentially returning from step S35 to step S45 and returning to step S32, whereby the G code of an arbitrary number of digits sequentially uttered by the user. For each loop processing, each number is captured one by one and the reject threshold is “reject” = 150, score ratio threshold ”
The voice is recognized with the reference value of score "= 0.5, and a confirmation sound such as" beep "is emitted from the speaker 15 every time one number is recognized.

【0120】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声される。
If the individual number recognition process is rejected during the process, step S39 or step S41 is performed.
From step S46 to S47, a reject sound such as "buzz" is uttered.

【0121】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。すると、
スピーカ15からは認識済みのGコードの数字列が順次的
に合成音声で発声されるので、ユーザは自身の望み通り
の数字列が入力されているか否かを確認した上で転送ボ
タン22をオンすればよい。これ以降の操作は前述の第1
の実施例と同様である。なお、ユーザの望み通りにGコ
ードが入力されていない場合には、再度Gコードボタン
23をオンすれば、ユーザはGコードの再入力を新たに行
なうことが可能になる。
When all the numbers of the G code have been input, the user turns off the G code button 23. Then
The recognized G-code number sequence is uttered from the speaker 15 in sequence as a synthetic voice, so the user confirms whether or not the desired number sequence is input, and then the transfer button 22 is turned on. do it. Subsequent operations are the above-mentioned first
This is the same as the embodiment. If the G code is not entered as the user desires, press the G code button again.
When 23 is turned on, the user can newly input the G code again.

【0122】なお上記第3の実施例では、リジェクト閾
値”reject”を”150 ”に、スコア比閾値”score ”
を”0.5 ”にそれぞれ設定して音声認識を行なっている
が、前述の第1の実施例と同様に他の適当な数値を採用
してもよいことは言うまでもない。
In the third embodiment, the reject threshold "reject" is set to "150" and the score ratio threshold "score" is set.
Is set to "0.5" for voice recognition, but it goes without saying that other suitable numerical values may be adopted as in the first embodiment.

【0123】〔第4の実施例〕次に、本発明の数字列音
声認識装置としてのGコードリモコンの第4の実施例に
ついて、そのマイクロコンピュータ21の処理手順、換言
すれば本発明の音声認識方法を分割して示す図16,図17
及び図18のフローチャートを参照して説明する。なお、
以下これらの図16,図17及び図18に示されているフロー
チャートを第4のフローチャートと言う。また、図16,
図17及び図18に示されている第4のフローチャートの各
処理ステップの内の第1の実施例の処理手順を示す第1
のフローチャート、第2の実施例の処理手順を示す第2
のフローチャート、第3の実施例の処理手順を示す第3
のフローチャートの処理ステップと同一の部分には同一
のステップ番号を付してある。
[Fourth Embodiment] Next, regarding the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, the processing procedure of the microcomputer 21, in other words, the voice recognition of the present invention. 16 and 17 showing the method divided
18 and the flowchart of FIG. 18. In addition,
Hereinafter, the flowcharts shown in FIGS. 16, 17, and 18 will be referred to as a fourth flowchart. Also, in FIG.
A first showing the processing procedure of the first embodiment among the processing steps of the fourth flowchart shown in FIGS. 17 and 18.
Flow chart of the second embodiment showing the processing procedure of the second embodiment
Flow chart of the third embodiment showing the processing procedure of the third embodiment
The same step numbers are given to the same portions as the processing steps in the flowchart of FIG.

【0124】図16,図17及び図18に示されている第4の
フローチャートでは前述の図4,図5及び図6に示され
ている第1のフローチャートの内の、ステップS31 に代
えてステップS131が、ステップS38 に代えてステップS1
38が、ステップS44 に代えてステップS144が、ステップ
S65 に代えてステップS265乃至ステップS270がそれぞれ
実行され、更に図4,図5及び図6に示されている第1
のフローチャートのステップS47 の次にステップS48 が
追加して実行される。
In the fourth flow chart shown in FIGS. 16, 17 and 18, step S31 in the first flow chart shown in FIG. 4, FIG. 5 and FIG. 6 is replaced with step S31. S131 replaces step S38 with step S1
38, step S144 instead of step S44
Steps S265 to S270 are executed instead of S65, and the first step shown in FIGS. 4, 5 and 6 is executed.
The step S48 is additionally executed after the step S47 in the flowchart of FIG.

【0125】この図16,図17及び図18に示されている第
4のフローチャートの特徴、即ち第4の実施例の特徴
は、端的には前述の第2の実施例の特徴と第3の実施例
の特徴とを併せた特徴である。即ち、第2の実施例の特
徴である音声入力された数字の認識結果がリジェクトさ
れた場合の再認識に際してはリジェクト閾値”reject”
及びスコア比閾値”score ”が緩和されるという点、換
言すれば、一旦リジェクトされた後の再認識に際しては
前回よりもリジェクトされる可能性が低くなるという点
と、第3の実施例の特徴である音声入力された各数字の
認識結果を数字列の入力が終了した時点で一括して全体
を確認することが出来るように構成した点とにある。
The features of the fourth flow chart shown in FIGS. 16, 17 and 18, that is, the features of the fourth embodiment are, in short, the features of the second embodiment and the features of the third embodiment. This is a feature that combines the features of the embodiment. That is, the reject threshold "reject" at the time of re-recognition when the recognition result of the numbers input by voice, which is the feature of the second embodiment, is rejected.
And the point that the score ratio threshold “score” is relaxed, in other words, the possibility of being rejected after re-recognition once rejected is lower than that of the previous time, and the feature of the third embodiment. That is, the recognition result of each number inputted by voice can be collectively confirmed at the time when the input of the number sequence is completed.

【0126】上述のような本第4の実施例の特徴はステ
ップS138の処理、及びステップS156乃至ステップS270の
処理により主として実現される。即ち、マイクロコンピ
ュータ21はリジェクトが連続した回数を示す変数iを他
の変数j及びkと共にまずステップS131においてゼロク
リアした上でステップS32 以降の処理を開始してステッ
プS32, S71, S78 の順のループ処理に入る。そして、あ
る一つの数字の音声を取り込んだ後のステップS138での
認識処理に際して、一回目は変数iが”0”であるので
前述の第1の実施例のステップS38 での処理と同様に、
リジェクト閾値”reject”=150 に、またスコア比閾
値”score ”=0.5 にそれぞれ設定された上でステップ
S39, S40, S41 においてリジェクトするか否かの判断が
行なわれる。
The features of the fourth embodiment as described above are mainly realized by the processing of step S138 and the processing of steps S156 to S270. That is, the microcomputer 21 first clears the variable i indicating the number of times the rejects are consecutively performed together with the other variables j and k to zero in step S131, starts the processing in step S32 and thereafter, and loops in the order of steps S32, S71, S78. Start processing. Then, in the recognition processing in step S138 after capturing a certain number of voices, the variable i is "0" at the first time, and therefore, in the same manner as the processing in step S38 of the first embodiment,
Set the reject threshold "reject" = 150 and the score ratio threshold "score" = 0.5, and then step
In S39, S40, S41, it is determined whether or not to reject.

【0127】この一回目の処理でリジェクトされなかっ
た場合は第1のフローチャートのステップS44 に代えて
ステップS144において変数jが”1”インクリメントさ
れると共にリジェクトが連続した回数を表す変数iはゼ
ロクリアされる。しかし、リジェクトされた場合はステ
ップS47 の次のステップS48 において変数iが”1”イ
ンクリメントされる。
If the reject is not made in this first processing, the variable j is incremented by "1" in step S144 instead of step S44 of the first flowchart, and the variable i representing the number of times the reject is consecutively cleared to zero. It However, if rejected, the variable i is incremented by "1" in step S48 following step S47.

【0128】このように、一回目の認識処理においてリ
ジェクトされた場合は変数iが”1”インクリメントさ
れて”1”になるため、次のステップS138でリジェクト
閾値”reject”=100 に、またスコア比閾値”score ”
=0.8 にそれぞれ設定された上でステップS39, S40, S4
1 においてリジェクトするか否かの判断が行なわれる。
従って、一回リジェクトされた後の二回目の認識処理に
際しては、一回目の認識処理に比してよりリジェクトの
可能性が小さい状態でリジェクトするか否かの判断が行
なわれることになる。
As described above, when rejected in the first recognition process, the variable i is incremented by "1" and becomes "1". Therefore, in the next step S138, the rejection threshold value "reject" = 100 and the score is again set. Ratio threshold "score"
= 0.8 respectively and then steps S39, S40, S4
At 1, it is judged whether or not to reject.
Therefore, in the second recognition process after the first rejection, it is determined whether or not to reject in a state in which the possibility of rejection is smaller than that in the first recognition process.

【0129】更に、二回連続してリジェクトされた場合
にはステップS48 において変数iが更に”1”インクリ
メントされて”2”になるため、ステップS138において
リジェクト閾値”reject”=0 に、またスコア比閾値”
score ”=1.0 にそれぞれ設定された上でステップS39,
S40, S41 においてリジェクトするか否かの判断が行な
われる。従ってこの二回連続してリジェクトされた後の
三回目の認識処理に際しては、リジェクトの可能性が全
くない状態でリジェクトするか否かの判断が行なわれる
ことになる。換言すれば、二回連続してリジェクトされ
た後には、第1位の認識スコアの認識候補が無条件で認
識結果として決定される。
Further, in the case where the variables are rejected twice in succession, the variable i is further incremented by "1" in step S48 to become "2". Therefore, in step S138, the rejection threshold "reject" = 0 and the score Ratio threshold ”
score ”= 1.0, and then step S39,
Whether or not to reject is determined in S40 and S41. Therefore, at the time of the third recognition process after the second successive rejection, it is determined whether or not to reject in the state where there is no possibility of rejection. In other words, the recognition candidate of the first-ranked recognition score is unconditionally determined as the recognition result after being rejected twice in succession.

【0130】Gコードの音声入力が終了した場合、ある
いは途中で中止された場合には、第2のフローチャート
に示されているステップS65 に代えてステップS265乃至
ステップS270の処理により、認識済みの数字列が一括し
て合成音声にてスピーカ15から発声される。即ち、まず
マイクロコンピュータ21は変数kの値、即ち認識された
数字の個数が1以上であるか否かを、換言すれば一つで
も数字が認識されているか否かを判定する (ステップS2
65) 。
When the voice input of the G code is completed or is stopped midway, the recognized digit is obtained by the processing of steps S265 to S270 instead of step S65 shown in the second flowchart. The rows are collectively uttered from the speaker 15 as synthetic voice. That is, the microcomputer 21 first determines whether the value of the variable k, that is, the number of recognized numbers is 1 or more, in other words, whether or not even one number is recognized (step S2
65).

【0131】数字が全く認識されていなかったとステッ
プS265において判定された場合には、マイクロコンピュ
ータ21はステップS32 へ処理を戻して待機状態になる。
ステップS265において数字が一つでも認識されていた場
合には、マイクロコンピュータ21は”k−j”番目に認
識された音声の認識結果に対応する合成音声を発声させ
るためのコマンドを DSP13へ送信する (ステップS266)
If it is determined in step S265 that no numeral has been recognized, the microcomputer 21 returns the process to step S32 and enters the standby state.
If at least one number is recognized in step S265, the microcomputer 21 sends to the DSP 13 a command for producing a synthetic voice corresponding to the recognition result of the "kj" th recognized voice. (Step S266)
.

【0132】これに応答して DSP13は合成音声をスピー
カ15から発声させると共にその終了を示す終了応答信号
を送信する。マイクロコンピュータ21は、この DSP13か
ら送信される終了応答信号を受信すると (ステップS26
7) 、変数jを”1”デクリメントし (ステップS268)
、更にその結果が”0”よりも小さくなっているか否
かを判定する (ステップS269) 。変数jが”0”になる
までの間はステップS269からステップS266へ処理が戻さ
れるので、マイクロコンピュータ21はステップS266乃至
ステップS269のループ処理を反復する。
In response to this, the DSP 13 utters the synthesized voice from the speaker 15 and transmits an end response signal indicating the end thereof. When the microcomputer 21 receives the end response signal transmitted from the DSP 13 (step S26
7), decrement the variable j by "1" (step S268)
Further, it is determined whether or not the result is smaller than "0" (step S269). The process is returned from step S269 to step S266 until the variable j becomes "0", and therefore the microcomputer 21 repeats the loop process of steps S266 to S269.

【0133】ところで、ステップS61 からステップS62
へ処理が進められた時点では変数jは認識済みの数字の
個数を表している。また、ステップS64 において”k=
j”とされているので、この時点では変数kも認識済み
の数字の個数を表している。そして、上述のステップS2
66乃至ステップS269のループ処理の一回目のステップS2
66での処理においては、”k=j”であるため第”0”
番目、換言すれば変数jが”0”であった時点で認識さ
れた数字を合成音声で発声させるコマンドがマイクロコ
ンピュータ21から DSP13へ送信される。この後、上述の
ループ処理が反復される都度、ステップS268において変
数jが”1”ずつデクリメントされるため、ステップS2
66においては変数jが”1”, ”2”…であった時点そ
れぞれにおいて認識された数字が合成音声でスピーカ15
から発声されることになる。
By the way, from step S61 to step S62
The variable j represents the number of recognized numbers when the process is advanced to. In step S64, "k =
Since it is set as j ″, the variable k also represents the number of recognized numbers at this time.
The first step S2 of the loop processing of 66 to step S269
In the process of 66, since it is “k = j”, it is the “0”.
In other words, in other words, a command for uttering the number recognized when the variable j is "0" with synthetic voice is transmitted from the microcomputer 21 to the DSP 13. After that, each time the above loop processing is repeated, the variable j is decremented by "1" in step S268, and thus step S2 is performed.
In FIG. 66, the numbers recognized at the time when the variable j is “1”, “2” ...
Will be uttered by.

【0134】やがて、変数jが”0”よりも小さくなる
とループ処理から脱出し、マイクロコンピュータ21は変
数j及びiを共にゼロクリアし (ステップS270) 、ステ
ップS32 へ処理を戻す。以上の処理により、認識済みの
数字列の各数字が合成音声でスピーカ15から順次的に発
声される。
Eventually, when the variable j becomes smaller than "0", the process exits from the loop process, the microcomputer 21 clears both variables j and i to zero (step S270), and returns the process to step S32. Through the above processing, each number in the recognized number string is sequentially uttered as a synthetic voice from the speaker 15.

【0135】他の処理に関しては前述の第1の実施例と
同様であるので、その説明は省略する。
The other processing is the same as that of the first embodiment described above, and therefore its explanation is omitted.

【0136】前述のように、本発明の数字列音声認識装
置としてのGコードリモコンの第4の実施例では、第2
の実施例の特徴と第3の実施例の特徴とを併せ持ってい
る。従って、誤認識の多発が防止されると共にリジェク
トの多発も防止され、更に音声入力の円滑化が図られ
る。
As described above, in the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, the second code is used.
It has both the features of the embodiment of (3) and the features of the third embodiment. Therefore, it is possible to prevent the frequent occurrence of erroneous recognition, the frequent occurrence of rejects, and smooth voice input.

【0137】本発明の数字列音声認識装置としてのGコ
ードリモコンの第4の実施例ではマイクロコンピュータ
21が以上のような処理を行なうようにプログラミングさ
れているが、以下にユーザが本発明の数字列音声認識装
置としてのGコードリモコンの第4の実施例を実際に使
用する場合の手順を説明する。
In the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention, a microcomputer is used.
21 is programmed to perform the above-mentioned processing, but the procedure for the case where the user actually uses the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention will be described below. To do.

【0138】ユーザが本発明の数字列音声認識装置とし
てのGコードリモコンの使用を開始する以前において
は、マイクロコンピュータ21はユーザによる何らかの操
作を待機する状態になっている。即ち、転送ボタン22も
Gコードボタン23も共にオフ状態であるため、ステップ
S131, S32, S71, S78 の順に処理が進み、以降はステッ
プS32 へ戻ってステップS71, S78, S32 の順にループ処
理が反復される。
Before the user starts using the G code remote controller as the number string voice recognition device of the present invention, the microcomputer 21 is in a state of waiting for some operation by the user. That is, since both the transfer button 22 and the G code button 23 are off,
The process proceeds in the order of S131, S32, S71, S78, and thereafter, the process returns to step S32 and the loop process is repeated in the order of steps S71, S78, S32.

【0139】ユーザがGコードを入力するためにGコー
ドボタン23をオン状態に維持するとオン信号がマイクロ
コンピュータ21に与えられる。マイクロコンピュータ21
は、ステップS32, S71, S78, S32の順のループ処理中の
ステップS32 においてGコードボタン23からのオン信号
を検出する。これによりマイクロコンピュータ21は、以
降はステップS32 からステップS35 へ処理を進め、この
ステップS35 とステップS61 とを往復するループ処理に
入る。この状態でユーザがGコードの最初の一つの数字
を発声すると、 DSP13がユーザの音声を取り込む。この
後、マイクロコンピュータ21はステップS35 からステッ
プS45 までの各ステップの処理を実行するので、 DSP13
は先に取り込んだ音声の認識及びその認識結果の合成音
声によるスピーカ15からの発声を行なう。
When the user keeps the G code button 23 in the ON state to input the G code, the ON signal is given to the microcomputer 21. Microcomputer 21
Detects an ON signal from the G code button 23 in step S32 during the loop processing of steps S32, S71, S78, S32. As a result, the microcomputer 21 thereafter proceeds from step S32 to step S35, and enters a loop process that reciprocates between step S35 and step S61. When the user utters the first digit of the G code in this state, the DSP 13 captures the user's voice. After that, the microcomputer 21 executes the processing of each step from step S35 to step S45.
Recognizes the voice previously captured and utters the speaker 15 with the synthesized voice of the recognition result.

【0140】このように、マイクロコンピュータ21がス
テップS35 からステップS45 までの各ステップを順次経
由してステップS32 へ戻るループ処理を反復することに
より、ユーザが順次的に発声した任意桁数のGコードの
各数字が各一回のループ処理について、一つずつ取り込
まれてリジェクト閾値”reject”=150,スコア比閾値”
score ”=0.5 の基準値で音声認識され、更に認識結果
の合成音声によるスピーカ15からの発声が行なわれる。
As described above, the microcomputer 21 repeats the loop processing of sequentially returning from step S35 to step S45 and returning to step S32, whereby the G code of an arbitrary number of digits uttered by the user sequentially. For each loop processing, each number is captured one by one and the reject threshold is “reject” = 150, score ratio threshold ”
Speech is recognized with a reference value of "score" = 0.5, and the synthesized speech of the recognition result is uttered from the speaker 15.

【0141】なお、個々の数字の認識処理が途中でリジ
ェクトされた場合は、ステップS39またはステップS41
からステップS46, S47へ処理が進められて「ブッ」とい
うようなリジェクト音が発声され、ステップS48 におい
て変数iが”1”インクリメントされた上でステップS3
2 へ処理が戻される。従ってこの場合にユーザがGコー
ドボタン23をオンし続けていれば、変数iが”1”にな
ることによりリジェクト閾値”reject”=100,スコア比
閾値”score ”=0.8 となり、一回目よりもリジェクト
の基準値が低い状態での再認識が可能になる。しかし、
二回連続してリジェクトされた場合には、変数iが”
2”になることによりリジェクト閾値”reject”=0,ス
コア比閾値”score ”=1.0 となり、第1位の認識スコ
アの認識候補が無条件で認識結果として決定される。こ
のため、リジェクトが反復される可能性が低下し、最大
でも連続二回のリジェクト後の三回目の入力音声が認識
される。
If the individual number recognition process is rejected midway, step S39 or step S41 is performed.
From step S46 to S47, a reject sound such as "buzz" is uttered, the variable i is incremented by "1" in step S48, and then step S3.
The process is returned to 2. Therefore, in this case, if the user continues to turn on the G code button 23, the variable i becomes "1", and thus the reject threshold "reject" = 100 and the score ratio threshold "score" = 0.8, which is more than the first time. Re-recognition is possible when the reject reference value is low. But,
When rejected twice in succession, the variable i is "
When it becomes 2 ”, the rejection threshold“ reject ”= 0 and the score ratio threshold“ score ”= 1.0, and the recognition candidate of the first recognition score is unconditionally determined as the recognition result. Therefore, the rejection is repeated. The possibility that the input voice is reduced is recognized, and at the maximum, the third input voice after two consecutive rejects is recognized.

【0142】やがてGコードの全ての数字を入力し終え
ると、ユーザはGコードボタン23をオフする。すると、
スピーカ15からは認識済みのGコードの数字列が順次的
且つ連続的に合成音声で発声されるので、ユーザは自身
の望み通りの数字列が入力されているか否かを確認した
上で転送ボタン22をオンすればよい。これ以降の操作は
前述の第1の実施例と同様である。なお、ユーザの望み
通りにGコードが入力されていない場合には、再度Gコ
ードボタン23をオンすれば、ユーザはGコードの再入力
を新たに行なうことが可能になる。
After inputting all the numbers of the G code, the user turns off the G code button 23. Then
The recognized G-code number sequence is uttered by the synthesized voice sequentially and continuously from the speaker 15. Therefore, the user confirms whether or not the desired number sequence is input, and then the transfer button. Turn on 22. The subsequent operations are the same as those in the first embodiment described above. If the G code has not been input as the user desires, the G code button 23 is turned on again to allow the user to newly input the G code again.

【0143】なお上記第4の実施例では、リジェクトが
行なわれる都度、リジェクト閾値”reject”を”150
”, ”100 ”, ”0”に、スコア比閾値”score ”
を”0.5 ”, ”0.8 ”, ”1”に、共に3段階に順次的
に変更しているが、前述の第2の実施例と同様に2段階
に変更しても、あるいは4段階以上に変更してもよく、
更に上記以外の数値を採用してもよいことは言うまでも
ない。
In the fourth embodiment, the reject threshold "reject" is set to "150" every time reject is performed.
"," 100 "," 0 ", score ratio threshold" score "
Are sequentially changed to "0.5", "0.8", "1" in three steps, but even if they are changed to two steps as in the second embodiment described above, or to four steps or more. You can change it,
Needless to say, numerical values other than the above may be adopted.

【0144】また上記各実施例では本発明の音声認識方
法及び数字列音声認識装置をGコードの音声入力のため
のGコードリモコンに適用しているが、これに限るもの
ではなく、他にたとえば電話番号の音声入力のための装
置等のような、複数桁の数字で構成される数字列を入力
するための種々の装置に適用可能であることは言うまで
もない。
In each of the above embodiments, the voice recognition method and the number string voice recognition device of the present invention are applied to the G code remote controller for G code voice input. However, the present invention is not limited to this, and other examples such as It is needless to say that the present invention can be applied to various devices for inputting a number string composed of a plurality of digits, such as a device for inputting a voice of a telephone number.

【0145】[0145]

【発明の効果】以上に詳述したように本発明に係る音声
認識方法及び数字列音声認識装置によれば、従来一般的
に行なわれている第1位の認識スコアを有する認識候補
をそのまま認識結果とする手法、あるいは第1位の認識
スコアが基準値以上である場合はその認識候補を認識結
果とするのではなく、更に加えて第1位の認識スコアに
対する第2位の認識スコアの比率が基準値以下である場
合に、換言すればそれらの間に充分に有意な差がある場
合に第1位の認識スコアを有する認識候補を認識結果と
する。これにより、二つあるいはそれ以上の認識候補の
認識スコア間に有意な差がないような曖昧な場合にリジ
ェクトされるので、誤認識の可能性が低下する。
As described above in detail, according to the voice recognition method and the numerical string voice recognition device of the present invention, the recognition candidate having the first-ranked recognition score which is generally used in the past is directly recognized. The resulting method, or if the first-ranked recognition score is equal to or higher than the reference value, the recognition candidate is not used as the recognition result, and the ratio of the second-ranked recognition score to the first-ranked recognition score is further added. When is less than or equal to the reference value, in other words, when there is a sufficiently significant difference between them, the recognition candidate having the first recognition score is set as the recognition result. As a result, it is rejected in an ambiguous case in which there is no significant difference between the recognition scores of two or more recognition candidates, and the possibility of erroneous recognition decreases.

【0146】また本発明に係る音声認識方法及び数字列
音声認識装置によれば、一旦リジェクトが発生した後の
再認識に際しては、リジェクトの基準が緩和されるた
め、リジェクトが多発することがなく、ユーザにとって
は同じ発声を何度も繰り返さなければならないという煩
わしさから解放される。
Further, according to the voice recognition method and the numerical string voice recognition apparatus of the present invention, when re-recognizing once a reject occurs, the reject criterion is relaxed, so that rejects do not occur frequently. The user is freed from the trouble of having to repeat the same utterance many times.

【0147】更に本発明に係る数字列音声認識装置によ
れば、一つの数字をユーザが発声する都度、単にその認
識が行なわれたことのみを示す応答音声が発せられ、ユ
ーザが全ての数字を入力し終えた時点でそれまでに認識
済みの数字の全てが順次的且つ連続的に合成音声として
発せられる。これにより、ユーザはマイペースで数字を
順次的に発声すれば、装置側でそれらを順次的に認識す
ることが出来るので、たとえば特に自動車電話機等に適
用した場合の安全性が確保される。
Further, according to the number string voice recognition apparatus of the present invention, every time the user utters a single number, a response voice indicating only that the recognition is performed is emitted, and the user recognizes all the numbers. When the input is completed, all the numbers recognized so far are sequentially and continuously uttered as synthesized speech. As a result, the user can sequentially recognize the numbers by uttering the numbers at his own pace, so that the safety can be secured especially when applied to, for example, an automobile telephone.

【0148】また更に本発明に係るビデオレコーダシス
テムによれば、上述のような数字列音声認識装置をリモ
ートコントロール装置として利用することにより、音声
入力によりビデオレコーダ本体の予約録画が可能になる
ので、機械操作が苦手な人達にも容易に操作可能にな
る。
Furthermore, according to the video recorder system of the present invention, by using the above-mentioned number string voice recognition device as a remote control device, it is possible to make a reserved recording of the video recorder main body by voice input. This makes it easy for people who are not good at operating machines.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る音声認識方法の原理を示す模式図
である。
FIG. 1 is a schematic diagram showing the principle of a voice recognition method according to the present invention.

【図2】本発明に係る数字列音声認識装置としてのGコ
ードリモコンのハードウェアの構成例を示すブロック図
である。
FIG. 2 is a block diagram showing a hardware configuration example of a G code remote controller as a number string voice recognition device according to the present invention.

【図3】本発明の数字列音声認識装置としてのGコード
リモコンの外観を示す模式図である。
FIG. 3 is a schematic diagram showing an appearance of a G code remote controller as a number string voice recognition device of the present invention.

【図4】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
FIG. 4 is a flowchart showing an operation procedure of the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図5】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
FIG. 5 is a flowchart showing an operation procedure of the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図6】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作手順を示すフローチャー
トである。
FIG. 6 is a flowchart showing an operation procedure of the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図7】本発明の数字列音声認識装置としてのGコード
リモコンの第1の実施例の動作状態を説明するための、
話者が「ニ」と発声した場合の認識スコアの分布を示す
グラフである。
FIG. 7 is a view for explaining an operation state of the first embodiment of the G code remote controller as the numeral string voice recognition device of the present invention;
6 is a graph showing a distribution of recognition scores when a speaker utters "d".

【図8】本発明の数字列音声認識装置としてのGコード
リモコンの第2の実施例の動作手順を示すフローチャー
トである。
FIG. 8 is a flowchart showing an operation procedure of the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図9】本発明の数字列音声認識装置としてのGコード
リモコンの第2の実施例の動作手順を示すフローチャー
トである。
FIG. 9 is a flowchart showing an operation procedure of the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図10】本発明の数字列音声認識装置としてのGコー
ドリモコンの第2の実施例の動作手順を示すフローチャ
ートである。
FIG. 10 is a flowchart showing an operation procedure of the second embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図11】本発明の数字列音声認識装置としてのGコー
ドリモコンの第2の実施例の動作状態を説明するための
認識スコアの分布を示すグラフである。
FIG. 11 is a graph showing the distribution of recognition scores for explaining the operation state of the second embodiment of the G code remote controller as the number string voice recognition device of the present invention.

【図12】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
FIG. 12 is a flowchart showing an operation procedure of the third embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図13】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
FIG. 13 is a flowchart showing an operation procedure of the third embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図14】本発明の数字列音声認識装置としてのGコー
ドリモコンの第3の実施例の動作手順を示すフローチャ
ートである。
FIG. 14 is a flowchart showing an operation procedure of the third embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図15】本発明の音声認識装置としてのGコードリモ
コンの第3の実施例の音声入力に対する応答の状態を示
す模式図である。
FIG. 15 is a schematic diagram showing a response state to a voice input of the third embodiment of the G code remote controller as the voice recognition device of the present invention.

【図16】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
FIG. 16 is a flowchart showing an operation procedure of the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図17】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
FIG. 17 is a flowchart showing the operation procedure of the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図18】本発明の数字列音声認識装置としてのGコー
ドリモコンの第4の実施例の動作手順を示すフローチャ
ートである。
FIG. 18 is a flowchart showing an operation procedure of the fourth embodiment of the G code remote controller as the numeral string voice recognition device of the present invention.

【図19】従来の音声認識装置による音声認識の原理の
概念を示す模式図である。
FIG. 19 is a schematic diagram showing the concept of the principle of voice recognition by a conventional voice recognition device.

【図20】従来の音声認識装置による具体的な処理手順
を示すフローチャートである。
FIG. 20 is a flowchart showing a specific processing procedure by a conventional voice recognition device.

【図21】数字列”5492”を音声入力する場合の従来の
音声認識装置の応答の状態を示す模式図である。
FIG. 21 is a schematic diagram showing a response state of a conventional voice recognition device when a number string “5492” is input by voice.

【図22】数字列”5492”を音声入力する場合の従来の
音声認識装置の応答の状態を示す模式図である。
FIG. 22 is a schematic diagram showing a response state of a conventional voice recognition device when a number string “5492” is input by voice.

【符号の説明】[Explanation of symbols]

10 DSP部 11 マイクロフォン 13 DSP 15 スピーカ 16 PROM 18 RAM 19 ROM 20 マイクロコンピュータ部 21 マイクロコンピュータ 22 転送ボタン22 23 Gコードボタン 25 LCD 40 VTR 10 DSP section 11 Microphone 13 DSP 15 Speaker 16 PROM 18 RAM 19 ROM 20 Microcomputer section 21 Microcomputer 22 Transfer button 22 23 G code button 25 LCD 40 VTR

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 認識対象の音声信号に対する認識結果の
確度を示す認識スコアを複数の認識候補それぞれに関し
て求め、 求められた認識スコアの内の第1位の認識スコアを第1
の基準値と比較する第1の判定を行ない、 前記第1の判定の結果、第1位の認識スコアが前記第1
の基準値よりも小である場合は全認識候補をリジェクト
し、 前記第1の判定の結果、第1位の認識スコアが前記第1
の基準値よりも大である場合は第1位の認識スコアに対
する第2位の認識スコアの比率を表すスコア比を求め、 求められたスコア比を第2の基準値と比較する第2の判
定を行ない、 前記第2の判定の結果、前記スコア比が前記第2の基準
値よりも大である場合は全認識候補をリジェクトし、 前記第2の判定の結果、前記スコア比が前記第2の基準
値よりも小である場合は第1位の認識スコアが求められ
た認識候補を認識結果と見做すことを特徴とする音声認
識方法。
1. A recognition score indicating the accuracy of a recognition result for a speech signal to be recognized is obtained for each of a plurality of recognition candidates, and the first-ranked recognition score among the obtained recognition scores is first.
The first determination is performed by comparing the first recognition score with the first recognition score as a result of the first determination.
If it is smaller than the reference value of, all recognition candidates are rejected, and as a result of the first determination, the first recognition score is the first recognition score.
If it is larger than the reference value of, the score ratio representing the ratio of the recognition score of the second place to the recognition score of the first place is obtained, and the obtained second score is compared with the second reference value. If, as a result of the second determination, the score ratio is larger than the second reference value, all recognition candidates are rejected, and as a result of the second determination, the score ratio is the second. A voice recognition method, characterized in that a recognition candidate for which a first-ranked recognition score is obtained is regarded as a recognition result when the recognition candidate is smaller than the reference value of.
【請求項2】 同一の認識対象に対する前記第1の判定
または前記第2の判定の結果に従ったリジェクトが行な
われた場合に、前記第1の基準値をより小に、前記第2
の基準値をより大に設定して前記第1の判定及び前記第
2の判定を再度行なうことを特徴とする請求項1に記載
の音声認識方法。
2. When the same object to be recognized is rejected according to the result of the first determination or the second determination, the first reference value is set to a smaller value and the second reference value is set to a smaller value.
The voice recognition method according to claim 1, wherein the reference value is set to a larger value and the first determination and the second determination are performed again.
【請求項3】 同一の認識対象に対する前記第1の判定
または前記第2の判定の結果に従ったリジェクトが所定
回数連続して行なわれた場合に、前記第1の基準値を”
0”に、前記第2の基準値を”1”に設定すること特徴
とする請求項2に記載の音声認識方法。
3. When the rejection according to the result of the first judgment or the second judgment for the same recognition target is continuously performed a predetermined number of times, the first reference value is set to "
The voice recognition method according to claim 2, wherein the second reference value is set to "0" and the second reference value is set to "1".
【請求項4】 認識対象の一連の数字列の各一桁の数字
の音声信号に対する認識結果の確度を示す認識スコアを
複数の認識候補それぞれに関して算出する認識スコア算
出手段と、 前記認識スコア算出手段により算出された第1位の認識
スコアを第1の基準値と比較する第1の判定手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
コアが前記第1の基準値よりも小である場合は全認識候
補をリジェクトする第1のリジェクト手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
コアが前記第1の基準値よりも大である場合は前記認識
スコア算出手段により算出された第1位の認識スコアに
対する第2位の認識スコアの比率を表すスコア比を求め
るスコア比算出手段と、 前記スコア比算出手段により算出されたスコア比を第2
の基準値と比較する第2の判定手段と、 前記第2の判定手段による判定の結果、前記スコア比が
前記第2の基準値よりも大である場合は全認識候補をリ
ジェクトする第2のリジェクト手段と、 前記第2の判定手段による判定の結果、前記スコア比が
前記第2の基準値よりも小である場合は前記認識スコア
算出手段により第1位の認識スコアが算出された認識候
補を認識結果として出力する認識結果出力手段とを備え
たことを特徴とする数字列音声認識装置。
4. A recognition score calculation means for calculating, for each of a plurality of recognition candidates, a recognition score indicating the accuracy of a recognition result for a voice signal of each one-digit number of a series of numbers to be recognized, the recognition score calculation means. A first determination unit that compares the first-ranked recognition score with a first reference value; and, as a result of the determination by the first determination unit, the first-ranked recognition score is the first reference value. When the first recognition score is larger than the first reference value as a result of the judgment by the first rejecting means for rejecting all the recognition candidates when it is smaller than the above, and the first judging means. Is a score ratio calculation means for obtaining a score ratio representing the ratio of the second-ranked recognition score to the first-ranked recognition score calculated by the recognition score calculation means; and the score calculated by the score ratio calculation means. The second
Second determination means for comparing with the reference value of, and as a result of the determination by the second determination means, if the score ratio is larger than the second reference value, reject all recognition candidates. As a result of the judgment by the rejecting means and the second judging means, if the score ratio is smaller than the second reference value, the recognition candidate for which the first recognition score is calculated by the recognition score calculating means. And a recognition result output means for outputting as a recognition result.
【請求項5】 同一の認識対象に対する前記第1のリジ
ェクト手段または前記第2のリジェクト手段によるリジ
ェクトが行なわれた場合に、前記第1の基準値をより小
に、前記第2の基準値をより大に設定して前記第1の判
定手段及び前記第2の判定手段に再度判定を行なわせる
再判定手段を備えたことを特徴とする請求項4に記載の
数字列音声認識装置。
5. When the same rejected object is rejected by the first reject means or the second reject means, the first reference value is set smaller and the second reference value is set smaller. 5. The number string voice recognition device according to claim 4, further comprising re-determination means which is set to a larger value and causes the first determination means and the second determination means to perform the determination again.
【請求項6】 前記再判定手段は、同一の認識対象に対
する前記第1のリジェクト手段または前記第2のリジェ
クト手段によるリジェクトが所定回数連続して行なわれ
た場合に、前記第1の基準値を”0”に、前記第2の基
準値を”1”に設定すべくなしてあることを特徴とする
請求項5に記載の数字列音声認識装置。
6. The re-determining means sets the first reference value when the first rejecting means or the second rejecting means rejects the same recognition target continuously a predetermined number of times. 6. The number string voice recognition device according to claim 5, wherein the second reference value is set to "0" and the second reference value is set to "1".
【請求項7】 音声出力手段と、 前記認識結果出力手段が認識結果を出力する都度、前記
音声出力手段に所定の合成音声を発声させ、認識対象の
一連の数字列の全ての数字に対して前記認識結果出力手
段が認識結果を出力した場合に前記音声出力手段に認識
結果の各数字を合成音声にて連続的に発声させる手段と
を備えたことを特徴とする請求項4に記載の数字列音声
認識装置。
7. A voice output means, and each time the recognition result output means outputs a recognition result, the voice output means is caused to utter a predetermined synthetic voice for all numbers in a series of numbers to be recognized. The number according to claim 4, further comprising: a unit that causes the voice output unit to continuously utter each number of the recognition result in a synthesized voice when the recognition result output unit outputs the recognition result. Row voice recognition device.
【請求項8】 所定のフォーマットのデータが与えられ
ることにより録画予約を行なうべくなしてあるビデオレ
コーダ本体と、前記所定のフォーマットのデータを送信
するリモートコントロール装置とで構成されるビデオレ
コーダシステムであって、 前記ビデオレコーダ本体に与えられるべきデータの元と
なる認識対象の一連の数字列の各一桁の数字の音声信号
に対する認識結果の確度を示す認識スコアを複数の認識
候補それぞれに関して算出する認識スコア算出手段と、 前記認識スコア算出手段により算出された第1位の認識
スコアを第1の基準値と比較する第1の判定手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
コアが前記第1の基準値よりも小である場合は全認識候
補をリジェクトする第1のリジェクト手段と、 前記第1の判定手段による判定の結果、第1位の認識ス
コアが前記第1の基準値よりも大である場合は前記認識
スコア算出手段により算出された第1位の認識スコアに
対する第2位の認識スコアの比率を表すスコア比を求め
るスコア比算出手段と、 前記スコア比算出手段により算出されたスコア比を第2
の基準値と比較する第2の判定手段と、 前記第2の判定手段による判定の結果、前記スコア比が
前記第2の基準値よりも大である場合は全認識候補をリ
ジェクトする第2のリジェクト手段と、 前記第2の判定手段による判定の結果、前記スコア比が
前記第2の基準値よりも小である場合は前記認識スコア
算出手段により第1位の認識スコアが算出された認識候
補を認識結果として出力する認識結果出力手段と、 前記認識結果出力手段により一つの数字の認識結果とし
て順次的に決定された認識候補の各数字を数字列として
所定の論理に従って前記所定のフォーマットのデータに
変換する変換手段と、 前記変換手段により得られたデータを前記ビデオレコー
ダ本体へ送信する送信手段とを前記リモートコントロー
ル装置に備えたことを特徴とするビデオレコーダシステ
ム。
8. A video recorder system comprising a video recorder main body, which is designed to make a recording reservation by being given data of a predetermined format, and a remote control device for transmitting the data of the predetermined format. Recognition for each of a plurality of recognition candidates, a recognition score indicating the accuracy of the recognition result for the voice signal of each one-digit number of the series of numbers to be recognized that is the source of the data to be given to the video recorder main body. Score calculation means, first determination means for comparing the first-ranked recognition score calculated by the recognition score calculation means with a first reference value, and the first-ranked result as a result of the judgment by the first determination means. A first rejecting means for rejecting all recognition candidates when the recognition score is less than the first reference value; As a result of the determination by the first determination means, if the first-ranked recognition score is larger than the first reference value, the second-ranked one with respect to the first-ranked recognition score calculated by the recognition-score calculating means. The score ratio calculating means for obtaining a score ratio representing the ratio of the recognition scores of the
Second determination means for comparing with the reference value of, and as a result of the determination by the second determination means, if the score ratio is larger than the second reference value, reject all recognition candidates. As a result of the judgment by the rejecting means and the second judging means, if the score ratio is smaller than the second reference value, the recognition candidate for which the first recognition score is calculated by the recognition score calculating means. A recognition result output means for outputting as a recognition result, each number of recognition candidates sequentially determined as a recognition result of one number by the recognition result output means is a number string as data of a predetermined format according to a predetermined logic The remote control device is provided with a converting means for converting into the video recording device, and a transmitting means for transmitting the data obtained by the converting means to the video recorder main body. Video recorder system
【請求項9】 同一の認識対象に対する前記第1のリジ
ェクト手段または前記第2のリジェクト手段によるリジ
ェクトが行なわれた場合に、前記第1の基準値をより小
に、前記第2の基準値をより大に設定して前記第1の判
定手段及び前記第2の判定手段に再度判定を行なわせる
再判定手段を前記リモートコントロール装置に備えたこ
とを特徴とする請求項8に記載のビデオレコーダシステ
ム。
9. When the same rejected object is rejected by the first rejecting means or the second rejecting means, the first reference value is set smaller and the second reference value is set smaller. 9. The video recorder system according to claim 8, wherein the remote control device is provided with a re-judging unit which is set to a larger value and causes the first judging unit and the second judging unit to judge again. .
【請求項10】 前記再判定手段は、同一の認識対象に
対する前記第1のリジェクト手段または前記第2のリジ
ェクト手段によるリジェクトが所定回数連続して行なわ
れた場合に、前記第1の基準値を”0”に、前記第2の
基準値を”1”に設定すべくなしてあることを特徴とす
る請求項9に記載のビデオレコーダシステム。
10. The re-determining means sets the first reference value when the first rejecting means or the second rejecting means rejects the same recognition target continuously a predetermined number of times. 10. The video recorder system according to claim 9, wherein the second reference value is set to "0", and the second reference value is set to "1".
【請求項11】 音声出力手段と、 前記認識結果出力手段が認識結果を出力する都度、前記
音声出力手段に所定の合成音声を発声させ、認識対象の
一連の数字列の全ての数字に対して前記認識結果出力手
段が認識結果を出力した場合に前記音声出力手段に認識
結果の各数字を合成音声にて連続的に発声させる手段と
を前記リモートコントロール装置に備えたことを特徴と
する請求項8に記載のビデオレコーダシステム。
11. A voice output means, and each time the recognition result output means outputs a recognition result, the voice output means utters a predetermined synthetic voice, and with respect to all numbers of a series of number strings to be recognized. 7. The remote control device comprises: means for causing the voice output means to continuously utter each number of the recognition result when the recognition result output means outputs the recognition result. 8. The video recorder system according to item 8.
JP7122841A 1995-05-22 1995-05-22 Voice recognition method, numeral line voice recognition device and video recorder system Pending JPH08314493A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7122841A JPH08314493A (en) 1995-05-22 1995-05-22 Voice recognition method, numeral line voice recognition device and video recorder system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7122841A JPH08314493A (en) 1995-05-22 1995-05-22 Voice recognition method, numeral line voice recognition device and video recorder system

Publications (1)

Publication Number Publication Date
JPH08314493A true JPH08314493A (en) 1996-11-29

Family

ID=14845962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7122841A Pending JPH08314493A (en) 1995-05-22 1995-05-22 Voice recognition method, numeral line voice recognition device and video recorder system

Country Status (1)

Country Link
JP (1) JPH08314493A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000316128A (en) * 1999-05-06 2000-11-14 Sony Corp Broadcast program reserving device by voice recognition using epg
JP2005528018A (en) * 2002-04-08 2005-09-15 フランス テレコム Mobile multimedia terminal and home gateway remote control method using such terminal
JP2005277955A (en) * 2004-03-25 2005-10-06 Sharp Corp Recording apparatus, recording system and remote control unit
JP2013152475A (en) * 2001-03-28 2013-08-08 Qualcomm Inc Speech recognition system using technology for implicitly adapting to speaker
JP2018515817A (en) * 2015-03-20 2018-06-14 フェイスブック,インク. How to improve control by combining eye tracking and speech recognition
JPWO2018055983A1 (en) * 2016-09-23 2019-01-17 パナソニックIpマネジメント株式会社 Translation apparatus, translation system, and evaluation server
CN109461503A (en) * 2018-11-14 2019-03-12 科大讯飞股份有限公司 A kind of cognition appraisal procedure, device, equipment and the readable storage medium storing program for executing of object

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000316128A (en) * 1999-05-06 2000-11-14 Sony Corp Broadcast program reserving device by voice recognition using epg
JP2013152475A (en) * 2001-03-28 2013-08-08 Qualcomm Inc Speech recognition system using technology for implicitly adapting to speaker
JP2005528018A (en) * 2002-04-08 2005-09-15 フランス テレコム Mobile multimedia terminal and home gateway remote control method using such terminal
JP2005277955A (en) * 2004-03-25 2005-10-06 Sharp Corp Recording apparatus, recording system and remote control unit
JP2018515817A (en) * 2015-03-20 2018-06-14 フェイスブック,インク. How to improve control by combining eye tracking and speech recognition
JPWO2018055983A1 (en) * 2016-09-23 2019-01-17 パナソニックIpマネジメント株式会社 Translation apparatus, translation system, and evaluation server
CN109461503A (en) * 2018-11-14 2019-03-12 科大讯飞股份有限公司 A kind of cognition appraisal procedure, device, equipment and the readable storage medium storing program for executing of object

Similar Documents

Publication Publication Date Title
CN104168353A (en) Bluetooth earphone and voice interaction control method thereof
JPH08314493A (en) Voice recognition method, numeral line voice recognition device and video recorder system
JP2000338991A (en) Voice operation telephone device with recognition rate reliability display function and voice recognizing method thereof
EP1187441A2 (en) Audio recognition method and device for sequence of numbers
JPH09326856A (en) Speech recognition reply device
JPS6126079B2 (en)
JPH08314495A (en) Numeral line voice recognition device and video recorder system
JP2003177788A (en) Audio interactive system and its method
JP2788658B2 (en) Voice dialing device
JPH08314500A (en) Method and device for recognizing voice
JP3443874B2 (en) Speech recognition apparatus and method
JP2656234B2 (en) Conversation voice understanding method
JP2782850B2 (en) Car phone
JP3069150B2 (en) Voice dialing device
JPH04192852A (en) Dial number outgoing method
JPH05216492A (en) Speech start control method
JPS59144945A (en) Controlling system of speech recognition
WO1992000586A1 (en) Keyword-based speaker selection
JPS6041863A (en) Pushphone voice input device
JPH1146238A (en) Telephone set
JPS61143798A (en) Voice dialing apparatus
JP2001034288A (en) Voice recognition system and method for portable telephone system
KR100307322B1 (en) Method of changing the item selected from the pre-entered input data in telephone information retrieval service
JPH06332665A (en) Voice input system
JPS61281299A (en) Voice recognition equipment