JPH10254489A - Speech recognition system for numerals - Google Patents

Speech recognition system for numerals

Info

Publication number
JPH10254489A
JPH10254489A JP10059827A JP5982798A JPH10254489A JP H10254489 A JPH10254489 A JP H10254489A JP 10059827 A JP10059827 A JP 10059827A JP 5982798 A JP5982798 A JP 5982798A JP H10254489 A JPH10254489 A JP H10254489A
Authority
JP
Japan
Prior art keywords
sequence
digit
string
digits
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10059827A
Other languages
Japanese (ja)
Other versions
JP4216361B2 (en
Inventor
Stephan Gamm
ガン ステファン
Nils Dr Lenke
レンケ ニルス
Joerg Ockel
オーケル イェルグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JPH10254489A publication Critical patent/JPH10254489A/en
Application granted granted Critical
Publication of JP4216361B2 publication Critical patent/JP4216361B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

PROBLEM TO BE SOLVED: To provide the speech recognition system which prevents the transmission of the numerals that are incorrectly recognized. SOLUTION: The system is provided with a control device 33 which recognizes at least one of numeral columns and generates the recognized numerals of at least one of numeral columns. If there exists at least one erroneously recognized numeral of a first numeral column, the device 33 compares a second numeral column against the first numeral column. If the number of numerals in the second numeral column is less than the number of numerals in the first numeral column, the device 33 determines the related numerals of the portion of the first numeral column which has the numeral that best matches with the numeral of the second numeral column and the device 33 replaces the numerals of the determined portion of the first numeral column by the unmatched numerals of the second numeral column.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、少なくとも1つの
数字列を認識し、前記少なくとも1つの数字列の認識さ
れた数字を発生する制御装置を具える数字用音声認識シ
ステムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition system for numbers, comprising a control device for recognizing at least one digit sequence and generating a recognized digit of said at least one digit sequence.

【0002】[0002]

【従来の技術】このようなシステムは、例えばWO 9
5/06309 A1から既知であり、マイクロホンと
変調赤外線信号を形成する回路とを含む遠隔制御装置を
具える。前記マイクロホンによって捕らえられたユーザ
の音声入力は、赤外線信号を経て制御装置に送信され、
この制御装置は、前記音声入力を符号ワードに変換し、
例えばビデオカセットレコーダまたはテレビジョン受像
機用の制御コマンドを形成する評価回路に送信する。特
定の機能を前記テレビジョン受像機またはビデオカセッ
トレコーダにおいて、個々の音声入力または音声コマン
ドによって実行することができる。例えば、チャネルを
選択することができ、音量レベルを設定することがで
き、または、ビデオテープの再生を停止することができ
る。チャネル、日付、開始および終了時間を入力するプ
ログラミングを予め一定に規定された逐次的な順序にお
いて行う、前記ビデオカセットレコーダの時間プログラ
ミングの説明も与える。音声を入力する場合、数字の入
力が必要である。例えばチャネルまたは時刻に関して数
字が入力された後、前記ビデオカセットレコーダまたは
テレビジョン受像機の個々の制御を与える応答を行う。
つぎに、格納されたパターンとの比較を行う。数字が間
違って認識され、間違ったパターンに割り当てられる
と、不完全な制御になる。
2. Description of the Related Art Such a system is disclosed, for example, in WO 9
5/06309 A1 and comprises a remote control including a microphone and a circuit for forming a modulated infrared signal. The voice input of the user captured by the microphone is transmitted to the control device via an infrared signal,
The control device converts the speech input into a code word,
It is transmitted to an evaluation circuit which forms control commands for, for example, a video cassette recorder or a television receiver. Certain functions can be performed on the television receiver or video cassette recorder by individual voice inputs or voice commands. For example, a channel can be selected, a volume level can be set, or video tape playback can be stopped. A description is also given of the time programming of the videocassette recorder, wherein the programming for inputting the channel, date, start and end times is performed in a predefined, sequential order. When inputting voice, it is necessary to input numbers. For example, after a number has been entered for a channel or time, a response is provided giving individual control of the video cassette recorder or television receiver.
Next, comparison with the stored pattern is performed. If the numbers are misrecognized and assigned to the wrong pattern, there is incomplete control.

【0003】[0003]

【発明が解決しようとする課題】したがって、本発明の
目的は、不正確に認識された数字の伝達を回避する音声
認識装置を提供することである。
SUMMARY OF THE INVENTION It is therefore an object of the present invention to provide a speech recognition apparatus which avoids the transmission of incorrectly recognized digits.

【0004】[0004]

【課題を解決するための手段】この目的は、少なくとも
1つの誤って認識された第1数字列の数字がある場合、
前記制御装置が、口述の第2数字列を前記第1数字列と
比較し、前記第2数字列の数字の数が前記第1数字列の
数字の数より少ない場合、前記制御装置が、前記第2数
字列の数字と一致する数字を最も多く有する前記第1数
字列の部分の関連する数字を決定し、前記制御装置が、
前記第2数字列の不一致数字を前記第1数字列の決定さ
れた部分の数字の代わりにする、序章において規定した
形式のシステムによって達成される。
The object of the present invention is to provide a method, comprising: at least one misrecognized first digit sequence number;
The controller compares the dictated second number string with the first number string, and when the number of numbers in the second number string is less than the number of numbers in the first number string, the controller is Determining the associated number of the portion of the first number sequence that has the most number that matches the number of the second number sequence;
This is achieved by a system of the type defined in the introduction, wherein the mismatched digits of the second sequence are replaced by the digits of the determined part of the first sequence.

【0005】本発明によるシステムにおいて、前記音声
入力の検証をユーザが行う。認識されないこれらの数字
の選択的な訂正を行う。前記音声認識は、刊行物「Herm
annNey, Volker Steinbiss, Xavier Aubert, Reinhold
Haeb-Umbach: Progress inLarge Vocabulary, Continuo
us Speech Recognition, in: H. Niemann, R. de Mori,
G. Hanrieder: Progress and Prospects of Speech Re
search and Technology, 1994, pp. 75 to 92 」から既
知の方法から取ってもよい。この方法によれば、リンク
された数字の連続を、隠れマルコフモデルの助けをかり
て認識する。入力された数字の連続を検証のために発生
した後、ユーザは、認識された数字列を受諾または拒絶
することができ、その後、特定の数字をもう一度入力す
ることができる。前記数字を、前記制御装置による音声
合成によって発生するか、前もって入力および格納され
た1つの数字によって発生する。前記制御装置を、0な
いし9の数字と、例えば「はい」、「いいえ」等のよう
な特定の制御入力とを理解するものとする。
In the system according to the present invention, the user performs verification of the voice input. Make selective corrections to these numbers that are not recognized. The speech recognition is described in the publication "Herm
annNey, Volker Steinbiss, Xavier Aubert, Reinhold
Haeb-Umbach: Progress in Large Vocabulary, Continuo
us Speech Recognition, in: H. Niemann, R. de Mori,
G. Hanrieder: Progress and Prospects of Speech Re
search and Technology, 1994, pp. 75 to 92 ". According to this method, a sequence of linked numbers is recognized with the help of a hidden Markov model. After generating the sequence of entered digits for verification, the user can accept or reject the recognized digit sequence, and then re-enter the particular digit. The number is generated by speech synthesis by the controller or by a previously entered and stored number. The controller shall understand the numbers 0 to 9 and certain control inputs such as, for example, "Yes", "No" and the like.

【0006】第1数字列を認識した場合、ユーザにこの
列が正確に理解されているかどうかを質問する。正確で
ない場合、ユーザに他の音声入力を与えることを要求す
る。このときユーザは、完全に新たな数字列を入力して
もよく、部分的な数字列のみを入力してもよい。その
後、前記第1数字列と新たに入力された第2数字列とを
比較する。次に前記制御装置は、最も多くの前記第2数
字列の数字と一致する数字を有する前記第1数字列の部
分を決定する。このとき、前記第2数字列の数字の数が
前記第1数字列の数字の数より少ないことが必要条件で
ある。その後、前記第2数字列の不一致数字を、前記第
1数字列の部分の数字の代わりにする。
When recognizing the first sequence of digits, the user is asked if the sequence is understood correctly. If not, request the user to provide another audio input. At this time, the user may input a completely new number string or only a partial number string. Thereafter, the first number string is compared with the newly input second number string. Next, the controller determines the portion of the first number sequence that has a number that matches the most number of the second number sequence. At this time, it is a necessary condition that the number of numbers in the second number string is smaller than the number of numbers in the first number string. Thereafter, the mismatched digits in the second digit sequence are substituted for the digits in the first digit sequence.

【0007】このようなシステムは、例えば、電話番号
を音声入力によって形成する電話セクションを形成す
る。さらに、本発明によるシステムを、高められたサー
ビス(例えば、ネットワークにおける言語選択)におい
て使用してもよい。
[0007] Such a system forms, for example, a telephone section in which telephone numbers are formed by voice input. Furthermore, the system according to the invention may be used in enhanced services (eg language selection in a network).

【0008】本発明によるシステムは、ユーザが、訂正
の場合においてのみ個々の文脈を有するこれらのような
数字を入力するという利点を有する。例えば、ユーザ
は、間違って理解された数字の前および後の数字のみを
発音する。この訂正の形態は、ユーザが慣れている自然
な動作に一致し、数字列全体をもう一度入力するよりも
速い。加えて、この形式の訂正は、部分的な数字列の入
力によって識別誤りの危険がより少なくなるため、成功
の可能性がより高い。
[0008] The system according to the invention has the advantage that the user enters such a number with an individual context only in the case of a correction. For example, the user pronounces only the digits before and after the misunderstood number. This form of correction corresponds to the natural behavior that the user is accustomed to, and is faster than re-entering the entire digit string. In addition, this form of correction is more likely to be successful because the entry of partial digit strings reduces the risk of identification errors.

【0009】評価プロセス中、前記制御装置は、前記第
1および第2数字列の数字の数を決定し、前記第1数字
列のすべての関連する部分のどの数字が、前記第2数字
列の数字と一致するかを決定する。前記第1数字列の種
々の部分またはサブ列の各々が同じ数の一致を有する場
合、これらのうちの1つのサブ列を訂正のために選択す
る。前記第2数字列と一致する数字の数が同じ複数のサ
ブ列から第1のサブ列を選択してもよい。
During the evaluation process, the control device determines the number of digits in the first and second digit sequences, and determines which digits of all relevant parts of the first digit sequence are of the second digit sequence. Determine if it matches the number. If various parts or sub-strings of the first number sequence have the same number of matches, one of these sub-columns is selected for correction. The first sub-column may be selected from a plurality of sub-columns having the same number of numbers matching the second number string.

【0010】さらに、前記制御装置を、前記第2数字列
の数字で代える前記第1数字列の少なくとも1つの数字
にマーキングし、マークされた数字を発音するのに使用
する。他の数字も、特定の強勢で発音する。前記制御装
置は、前記数字列において奇数位置を有する数字を上昇
する強勢で示し、前記数字列において偶数位置を有する
数字と最後の位置を有する数字とを下降する強勢で示
す。この対様式の韻律による自然な発音の形態は、数字
の記録を改善することができる。訂正された数字の強調
(一定の強勢)での発音は、成功した証明をより簡単に
することができる。
[0010] Further, the control device is used to mark at least one number of the first number string to be replaced with the number of the second number string, and to pronounce the marked number. Other numbers are also pronounced with certain stress. The controller indicates the numbers having odd positions in the sequence of numbers with increasing stress and the numbers having even positions and the last position of the numbers with decreasing stress. This natural form of pronunciation with paired prosody can improve the recording of numbers. Pronunciation with corrected numerical emphasis (constant stress) can make successful proof easier.

【0011】訂正された第1数字列を第1および第2数
字列の評価後に発生することによって、前記制御装置
は、数字列が正確に認識されたかどうかのユーザへの質
問を形成する。
By generating the corrected first digit sequence after the evaluation of the first and second digit sequence, the controller forms a question for the user as to whether the digit sequence has been correctly recognized.

【0012】本発明は、少なくとも1つの数字列を認識
し、この少なくとも1つの文字列の認識された数字を発
生する、数字の音声認識方法にも関係する。このとき、
第1数字列の少なくとも1つの数字が誤って認識される
イベントにおいて、口述された第2数字列を前記第1数
字列と比較し、前記第2数字列の数字の数が前記第1数
字列の数字の数より少ない場合、その列が前記第2数字
列の数字と一致する数字を最も多く有する前記第1文字
列の部分の数字の訂正を決定し、前記第2数字列の不一
致数字を前記第1数字列の決定された部分の数字の代わ
りにすることが与えられる。
[0012] The invention also relates to a method for recognizing a digit, which recognizes at least one digit sequence and generates a recognized digit of the at least one character sequence. At this time,
In an event where at least one digit of the first digit sequence is incorrectly recognized, the dictated second digit sequence is compared with the first digit sequence, and the number of digits in the second digit sequence is changed to the first digit sequence. If the number of numbers is less than the number of the second character string, determine the correction of the number of the part of the first character string that has the most number of numbers that match the number of the second number string, It is provided to substitute for the digits of the determined part of the first digit sequence.

【0013】本発明のこれらおよび他の態様は、以下に
説明する実施形態の参照から明らかになるであろう。
[0013] These and other aspects of the invention will be apparent from and elucidated with reference to the embodiments described hereinafter.

【0014】[0014]

【発明の実施の形態】図1は、数字用音声認識システム
の好適な実施形態を示し、このシステムは、マイクロホ
ン1と、2つの増幅器2および3と、音声認識装置4
と、評価回路5と、ラウドスピーカ6とを具える。音声
認識装置4および評価回路5は、制御装置33を形成す
る。ユーザの音声入力をマイクロホン1に供給する。該
システムは、特定の音声入力、すなわち、特定の数字列
(例えば、「3 8 7 4 21 6」)と、増幅器
2を経て音声認識装置4に供給される制御入力とを含
む。音声認識装置4は、例えば、適切な周辺装置を有す
る信号プロセッサを具えてもよく、この信号プロセッサ
の実行プログラムは、音声認識を可能にする。このよう
なプログラムは既知であり、このプログラムが基礎とす
る方法を、例えば、文献「Hermann Ney, Volker Steinb
iss, Xavier Aubert, Reinhold Haeb-Umbach: Progress
in Large Vocabulary, Continuous Speech Recognitio
n, in: H. Niemann, R. de Mori, G. Hanrieder: Progr
ess and Prospects of Speech Research and Technolog
y, 1994, pp. 75 to 92 」から取ってもよい。ユーザに
よって入力された数字列を認識し、評価回路5に(例え
ば、ASCII符号において)符号ワードとして入力す
る。評価回路5は、前記認識された数字から音声応答を
形成する音声応答ユニットを含む。この音声応答ユニッ
トを、合成された数字を増幅器3に入力する音声合成器
としてもよく、前記音声合成ユニットが、発声者の格納
された音声節をメモリから取り出し、これらの音声節を
増幅器3に入力してもよい。
FIG. 1 shows a preferred embodiment of a digitized speech recognition system, which comprises a microphone 1, two amplifiers 2 and 3, and a speech recognition device 4.
, An evaluation circuit 5 and a loudspeaker 6. The speech recognition device 4 and the evaluation circuit 5 form a control device 33. The voice input of the user is supplied to the microphone 1. The system includes a particular speech input, ie, a particular sequence of digits (eg, “3 8 7 4 21 6”) and a control input supplied to the speech recognizer 4 via the amplifier 2. The speech recognizer 4 may, for example, comprise a signal processor with suitable peripherals, whose execution program enables speech recognition. Such programs are known and the methods on which they are based are described, for example, in the literature "Hermann Ney, Volker Steinb
iss, Xavier Aubert, Reinhold Haeb-Umbach: Progress
in Large Vocabulary, Continuous Speech Recognitio
n, in: H. Niemann, R. de Mori, G. Hanrieder: Progr
ess and Prospects of Speech Research and Technolog
y, 1994, pp. 75 to 92 ". Recognize the digit string input by the user and input it to the evaluation circuit 5 as a code word (for example, in an ASCII code). The evaluation circuit 5 includes a voice response unit that forms a voice response from the recognized digits. The voice response unit may be a voice synthesizer for inputting the synthesized numbers to the amplifier 3, and the voice synthesis unit retrieves the stored voice syllables of the speaker from the memory and sends these voice syllables to the amplifier 3. You may enter it.

【0015】前記音声応答をラウドスピーカ6を経てユ
ーザに通知し、これらを試験する。前記評価回路はさら
に、例えば、「これらの数字列は正確に理解されていま
すか」のような特定の通知または文句も発生する。この
ときユーザは、数字または数字列が誤って理解されたイ
ベントにおいて訂正を実行してもよい。
The voice response is notified to the user via the loudspeaker 6, and these are tested. The evaluation circuit also generates certain notices or complaints, such as, for example, "Is these numbers exactly understood?" At this time, the user may execute a correction in an event in which a number or a string of numbers is misunderstood.

【0016】評価回路5は、適切な周辺装置を有するマ
イクロプロセッサをさらに含み、このマイクロプロセッ
サは、前記認識された制御入力および数字を処理し、前
記音声応答ユニットを制御するソフトウェアモジュール
を具える。図2は、数字を認識する主な処理のフローチ
ャートを示す。数字列を音声認識装置4によって認識
し、これを図2のブロック7において略語ERK ZN
によって示し、その後、解析およびアクセントマーキン
グ(AN AK,ブロック8)を前記音声応答ユニット
に関して実行する。数字列において偶数位置を有する数
字に「b」をマークし、前記数字列において奇数位置を
有する数字に「e」をマークする。前記数字列の最後の
数字に、前記数字列において偶数位置を有するか奇数位
置を有するかに係わりなく、「e」をマークする。これ
は、前記数字列の第1、3、5位置等における数字を
「b」によって特徴付け、前記数字列の第2、4、6位
置等における数字を「e」によって特徴付けることを意
味する。このとき、前記応答に関して対様式の韻律が発
生する。例えば、数字列「3 8 7 4 2 1
6」を、「3b 8e 7b 4e 2b 1e 6
e」のようにマークする。
The evaluation circuit 5 further includes a microprocessor having suitable peripherals, the microprocessor comprising a software module for processing the recognized control inputs and digits and for controlling the voice response unit. FIG. 2 shows a flowchart of the main processing for recognizing numbers. The digit sequence is recognized by the speech recognition device 4 and is identified in block 7 of FIG. ZN
, Then parsing and accent marking (AN AK, block 8) is performed for the voice response unit. The number having an even position in the number sequence is marked with "b" and the number having an odd position in the number sequence is marked with "e". The last digit of the sequence is marked with an "e", regardless of whether it has an even or odd position in the sequence. This means that the numbers at the first, third, fifth, etc. positions of the number sequence are characterized by "b" and the numbers at the second, fourth, sixth position, etc. of the number sequence are characterized by "e". At this time, a pair-style prosody is generated for the response. For example, the numeric string “3 8 7 4 2 1
6 "to" 3b 8e 7b 4e 2b 1e 6
e ".

【0017】図2に示すフローチャートにおいて、ブロ
ック8の後の次のステップをブロック9(AU KO)
によって示す。このブロックは、前記認識された数字列
の応答と、前記数字列が正確に認識されたかどうかの質
問とを特徴とする。前記数字列に応答した場合、評価回
路5の音声応答ユニットは、2つの文句変形を使用す
る。数字を、上昇または下降強勢で発生する。「b」を
マークした文字に対して、文句を上昇強勢で使用し、
「e」をマークした文字に対して、文句を下降強勢で使
用する。結果として、前記音声応答ユニットにおいて対
様式の韻律パターンが存在し、このパターンは、人間の
自然な話し方に対応する。
In the flowchart shown in FIG. 2, the next step after block 8 is called block 9 (AU KO)
Indicated by This block is characterized by a response of the recognized number sequence and a question as to whether the number sequence was correctly recognized. When responding to the digit sequence, the voice response unit of the evaluation circuit 5 uses two phrase variants. The numbers occur on ascending or descending stress. For words marked "b", use a complaint with ascending stress,
For the character marked "e", the phrase is used in descending stress. As a result, there is a paired prosodic pattern in the voice response unit, which pattern corresponds to the natural way of speaking of humans.

【0018】一度ユーザが、前記システムが認識してい
ることについての質問に返答すると(ブロック10,E
RK A)、質問ブロック11(OK?)において、そ
の返答が何であるかを試験する。ユーザが「はい」と返
答した場合、前記数字列を認識し、前記入力を終了す
る。次に、前記認識された数字列を使用し、さらなる処
理をしてもよい。前記返答が「いいえ」である場合、前
記システムはユーザに訂正を要求し、これをブロック1
2における略語AU FRによって表す。このときユー
ザは、完全に新たな数字列か、数字サブ列を入力しても
よい。前記新たに入力された数字列のその後の音声認識
プロセスおよび解析を、ブロック13において略語ER
ZKによって示す。ブロック13における音声認識
および音声解析後、上述したような他の分析および強勢
マーキングを実行する(ブロック8)。
Once the user has answered the question about what the system is aware of (block 10, E
RK A), question block 11 (OK?) Tests what the answer is. If the user replies “yes”, the number string is recognized and the input is terminated. Next, further processing may be performed using the recognized number sequence. If the answer is "No", the system requests a correction from the user,
Abbreviation AU in 2 Expressed by FR. At this time, the user may input a completely new number string or a number sub-string. The subsequent speech recognition process and analysis of the newly entered digit sequence is referred to in block 13 by the abbreviation ER
K Indicated by ZK. After speech recognition and speech analysis in block 13, other analysis and stress marking as described above are performed (block 8).

【0019】ブロック13によって示される解析を、図
3および4のフローチャートの助けを借りてさらに説明
する。図3における解析の開始をSTとして示す。最初
に、前の数字列Z1の長さL(Z1)が新たな数字列Z
2の長さL(Z2)より短いかどうかを試験する(ブロ
ック14:L(Z1)<L(Z2))。違う場合、新た
な数字列Z2を前の数字列Z1の代わりにし、これをブ
ロック15においてZ1→Z2によって示す。これは、
解析(EN)を終了する。しかしながら、数字列Z1が
数字列Z2より長いか、またはこれに等しい場合、ブロ
ック16に示すように、変数m、mTおよびmSをゼロ
にセットする(m=0,mT=0,mS=0)。
The analysis represented by block 13 will be further described with the aid of the flow charts of FIGS. The start of the analysis in FIG. 3 is shown as ST. First, the length L (Z1) of the previous number string Z1 is changed to the new number string Z.
Test whether it is shorter than the length L (Z2) of block 2 (block 14: L (Z1) <L (Z2)). If not, the new digit sequence Z2 replaces the previous digit sequence Z1, which is indicated in block 15 by Z1 → Z2. this is,
The analysis (EN) ends. However, if the sequence Z1 is longer than or equal to the sequence Z2, the variables m, mT and mS are set to zero as shown in block 16 (m = 0, mT = 0, mS = 0). .

【0020】ここで、前の数字列Z1のどの部分が新た
な数字列Z2と最も共通しているかを見つける前記フロ
ーチャートの部分を説明する。第1ループの開始におい
て、数字列Z2を数字列Z1の各々の部分と比較したか
どうかを試験する(ブロック17)。ブロック17にお
いて、変数mの値が数字列Z1およびZ2の長さの差以
下であるかどうかを検査する:m≦L(Z1)−L(Z
2)。例えば、数字列Z1が数字「3 8 7 4 2
1 6」を有し、数字列Z2が数字「752」を有す
る場合、数字列Z1の長さは7に等しく、数字列Z2の
長さは3に等しい。したがって、数字列Z1の五つの部
分(「387」、「874」、「742」、「421」
および「216」を数字列Z2と比較するため、前記第
1ループを全部で5回通過すべきである。ブロック17
における比較が、変数mの値が数字列Z1およびZ2の
長さの差より大きいことを示す場合、前記第1ループを
終了し、図4にそのフローチャートを示す第2ループに
切り替える。前記第2ループへの変化を、マーク「A」
(ブロック18)によって示す。
Here, a description will be given of a part of the flowchart for finding which part of the previous number string Z1 is most common with the new number string Z2. At the beginning of the first loop, it is tested whether the sequence Z2 has been compared with each part of the sequence Z1 (block 17). In block 17, it is checked whether the value of the variable m is less than or equal to the difference between the lengths of the digit strings Z1 and Z2: m ≦ L (Z1) −L (Z
2). For example, if the number string Z1 is the number “3 8 7 4 2
If the number string Z2 has the number "752", the length of the number string Z1 is equal to 7 and the length of the number string Z2 is equal to 3. Therefore, the five parts of the numeric string Z1 (“387”, “874”, “742”, “421”)
And the first loop should be passed a total of five times to compare & 216 with the digit sequence Z2. Block 17
If the comparison in indicates that the value of the variable m is greater than the difference between the lengths of the numeric strings Z1 and Z2, the first loop is ended and the processing is switched to the second loop whose flowchart is shown in FIG. The change to the second loop is indicated by the mark "A".
(Block 18).

【0021】比較m≦L(Z1)−L(Z2)が真であ
る場合、ブロック19に示すように2つの他の変数nお
よびtをゼロにセットする。変数nは数字列Z2におけ
る数字の位置を示し、変数tは、数字列Z1の比較すべ
き部分と、数字列Z2との一致する数字の数を示す。次
の質問ブロック20は、ブロック21、22および23
と同様にサブループの一部である。ブロック20におい
て、変数nの値が数字列Z2の長さより小さいかどうか
を確かめる。そうである場合、質問ブロック21は、数
字列Z1の位置m+nにおける数字が、数字列Z2の位
置nにおける数字に等しい(Z1(m+n)=Z2
(n))かどうかを質問する。この質問が肯定的に答え
られた場合、変数tを増分する(ブロック22)。否定
的に答えられた場合、ブロック22を処理したのと同じ
ようにブロック23にジャンプする。ブロック23は、
変数nの増分を示す。その後、ブロック20において処
理を行う。
If the comparison m≤L (Z1) -L (Z2) is true, set two other variables n and t to zero, as shown in block 19. The variable n indicates the position of the number in the number string Z2, and the variable t indicates the number of numbers that match the part of the number string Z1 to be compared with the number string Z2. The next question block 20 consists of blocks 21, 22 and 23
Is a part of the sub-loop as well. In block 20, it is checked whether the value of the variable n is smaller than the length of the digit string Z2. If so, the interrogation block 21 determines that the number at position m + n of the number string Z1 is equal to the number at position n of the number string Z2 (Z1 (m + n) = Z2
(N)). If the question is answered affirmatively, the variable t is incremented (block 22). If the answer is no, the process jumps to block 23 as if block 22 had been processed. Block 23
Indicates the increment of variable n. Thereafter, processing is performed in block 20.

【0022】変数nの値が数字列Z2の長さ以上になっ
た場合(ブロック20)、質問ブロック24で処理を行
う。ここで、変数tの値が変数mTの値より大きいかど
うか試験する。そうである場合、変数mTをtに等しく
セットし、変数mSをmに等しくセットする(ブロック
25)。変数mSは、数字列Z1の数字列Z2と一致す
る数字を最も多く有する部分を示す。変数mTは、一致
する数字の数に等しい。次のステップにおいて、ブロッ
ク24の質問の否定的な結果後、または、ブロック25
において変数mTおよびmSをセットした後、ブロック
26において変数mを増分する。これは、数字列Z2と
最も多く対応する数字列Z1の部分を決定する第1ルー
プ終了する。上記で規定した例において、数字「3 8
7 42 1 6」を有する数字列Z1において数字
「7 4 2」を有する部分は、数字「7 5 2」を
有する数字列Z2に最も多く対応する。
If the value of the variable n is equal to or greater than the length of the numeric string Z2 (block 20), processing is performed in a question block 24. Here, it is tested whether the value of the variable t is larger than the value of the variable mT. If so, the variable mT is set equal to t and the variable mS is set equal to m (block 25). The variable mS indicates a portion having the largest number of numbers that match the number string Z2 of the number string Z1. The variable mT is equal to the number of matching digits. In the next step, after the negative result of the question in block 24, or
After setting the variables mT and mS at, the variable m is incremented at block. This ends the first loop for determining the part of the number string Z1 most corresponding to the number string Z2. In the example specified above, the number "3 8
The part having the number “7 42” in the number string Z 1 having “7 42 16” corresponds most to the number string Z 2 having the number “75 2”.

【0023】図4のフローチャートにおいて示す第2ル
ープは、数字列Z1の数字列Z2の数字と異なる部分の
数字にマークする。図4に示すフローチャートは、ブロ
ック27におけるマーク「A」で開始する。この第2ル
ープの開始前に、変数nをゼロに設定し、これをブロッ
ク28に示す。この変数nは、数字列Z2における数字
の位置を示す。前記第2ループは、質問ブロック29お
よび30と、他のブロック31および32を具える。質
問ブロック29において、変数nの値が数字列Z2の長
さより小さいか(n<L(Z2))どうかを質問する。
これがそうでない場合、解析を終了する。そうである場
合、数字列Z1の前記部分の数字が、数字列Z2の割り
当てられた数字に等しいかどうかを試験する(ブロック
30)。これに対する数学的表現は、Z1(m+n)=
Z2(n)である。数字列Z1の位置m+nにおける数
字が、数字列Z2の位置nにおける数字に対応する場
合、ブロック32を処理する。他の場合において、前記
数字が対応しない場合、数字列Z2の位置nにおける数
字を、数字列Z1の位置n+mにおける数字の代わりに
する。この場合を、ブロック31において式Z1(m+
n)→Z2(n)によって示す。加えて、置き換えられ
た数字に参照符「a」を付ける。この関係を、ブロック
31において式aZ1(m+n)によって示す。次のス
テップにおいて、ブロック32において示すように変数
nを増分する。次に、質問ブロック29においてさらな
る処理を再び行う。
The second loop shown in the flowchart of FIG. 4 marks a part of the numeral string Z1 which is different from the numeral Z2. The flowchart shown in FIG. 4 starts with mark “A” in block 27. Prior to the start of this second loop, the variable n is set to zero, which is indicated in block 28. This variable n indicates the position of the numeral in the numeral string Z2. The second loop comprises question blocks 29 and 30, and other blocks 31 and 32. In a question block 29, it is asked whether the value of the variable n is smaller than the length of the digit string Z2 (n <L (Z2)).
If this is not the case, the analysis ends. If so, it tests whether the number in said part of the number sequence Z1 is equal to the assigned number of the number sequence Z2 (block 30). The mathematical expression for this is Z1 (m + n) =
Z2 (n). If the number at position m + n of the number string Z1 corresponds to the number at position n of the number string Z2, block 32 is processed. In other cases, if the numbers do not correspond, the number at position n of the number string Z2 is substituted for the number at position n + m of the number string Z1. In this case, in block 31, the expression Z1 (m +
n) → Z2 (n). In addition, reference numbers "a" are appended to the replaced numbers. This relationship is shown in block 31 by the expression aZ1 (m + n). In the next step, the variable n is incremented as shown in block 32. Next, further processing is performed again in question block 29.

【0024】ブロック13(図2)において解析した
後、新たな数字列Z1をブロック8に供給する。例え
ば、数字「3 8 7 5 2 1 6」を有する新た
な数字列Z1を、数字「3 8 7 4 2 1 6」
を有する前の数字列Z1と、数字列Z2の数字「7 5
2」とから形成する。このとき、数字「5」を数字
「4」の代わりにする。加えて、ブロック8はブロック
13から、前記代わりの数字のマーキングか、文字
「a」によって示される数字を受ける。ブロック8にお
いて、これらの数字に上述したような文字「b」および
「e」をマークする。マークされた数字列に対応する音
声応答をブロック9において発生する。「b」をマーク
された数字を上昇強勢で発音し、「e」をマークされた
数字を下降強勢で発音する。「a」をマークされた数字
をさらに強調し、変更をユーザに示す。例えば、新たな
数字列Z1のマーキングを、「3b 8e 7b a5
e 2b 1e 6e」のようにする。
After analysis in block 13 (FIG. 2), a new digit sequence Z1 is supplied to block 8. For example, a new numeric string Z1 having the number “3 8 7 5 2 1 6” is replaced with the number “3 8 7 4 2 1 6”
And the number “75” in the number string Z1 before
2 ". At this time, the number “5” is replaced with the number “4”. In addition, block 8 receives from block 13 the marking of said alternative number or the number indicated by the letter "a". At block 8, these numbers are marked with the letters "b" and "e" as described above. An audio response corresponding to the marked digit sequence is generated at block 9. The number marked "b" is pronounced ascending and the number marked "e" is pronounced as descending. The number marked "a" is further emphasized to indicate the change to the user. For example, the marking of the new numeral string Z1 is described as “3b 8e 7b a5
e 2b 1e 6e ".

【0025】図2のフローチャートに示し、ブロック8
ないし13を具えるループを、ユーザが前記結果を承認
するまで通過する。
As shown in the flowchart of FIG.
Through 13 until the user approves the result.

【0026】制御装置33を、音声認識ユニット4およ
び評価回路5の機能を行うコンピュータシステムとして
配置してもよいことをさらに認めるべきである。
It should further be appreciated that the control device 33 may be arranged as a computer system performing the functions of the speech recognition unit 4 and the evaluation circuit 5.

【図面の簡単な説明】[Brief description of the drawings]

【図1】音声認識システムのブロック図である。FIG. 1 is a block diagram of a speech recognition system.

【図2】音声認識システムの説明におけるフローチャー
トである。
FIG. 2 is a flowchart illustrating a speech recognition system.

【図3】音声認識システムの説明におけるフローチャー
トである。
FIG. 3 is a flowchart illustrating a speech recognition system.

【図4】音声認識システムの説明におけるフローチャー
トである。
FIG. 4 is a flowchart illustrating a speech recognition system.

【符号の説明】[Explanation of symbols]

1 マイクロホン 2、3 増幅器 4 音声認識装置 5 評価回路 6 ラウドスピーカ 33 制御装置 Reference Signs List 1 microphone 2, 3 amplifier 4 voice recognition device 5 evaluation circuit 6 loudspeaker 33 control device

───────────────────────────────────────────────────── フロントページの続き (72)発明者 ニルス レンケ ドイツ連邦共和国 53332 ボルンハイム ラートハウスシュトラーセ 8 (72)発明者 イェルグ オーケル ドイツ連邦共和国 52066 アーヘン ベ ントシュトラーセ 27アー ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Nils Renke Germany 53332 Bornheim Rathausstraße 8 (72) Inventor Jörg Oker Germany 52066 Aachen Bentstrasse 27 a

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも1つの数字列を認識し、前記
少なくとも1つの数字列の認識された数字を発生する制
御装置を具える数字用音声認識システムにおいて、第1
数字列の少なくとも1つの誤って認識された数字がある
場合、前記制御装置が、口述の第2数字列を前記第1数
字列と比較し、前記第2数字列の数字の数が前記第1数
字列の数字の数より少ない場合、前記制御装置が、その
列が前記第2数字列の数字に最も一致するものを有する
前記第1数字列の部分の関連する数字を決定し、前記制
御装置が、前記第2数字列の不一致数字を前記第1数字
列の決定された部分の数字の代わりにするようにしたこ
とを特徴とするシステム。
1. A number speech recognition system, comprising: a controller for recognizing at least one digit sequence and generating a recognized digit of said at least one digit sequence.
If there is at least one misrecognized number in the number sequence, the controller compares the dictated second number sequence with the first number sequence and determines that the number of digits in the second number sequence is the first number. If less than the number of digits in the sequence, the controller determines the associated number of the portion of the first sequence having the sequence that best matches the number in the second sequence; Wherein the mismatched digits of the second digit sequence are substituted for the digits of the determined portion of the first digit sequence.
【請求項2】 請求項1に記載のシステムにおいて、前
記制御装置を、 − 前記第1および第2数字列の数字の数を決定するこ
とと、 − 前記第1数字列のすべての関連する部分の数字の、
前記第2数字列との一致を決定することと、 − 前記第1数字列のより多くの部分が同じ数の一致す
る数字を有する場合、最も多くの一致を有する前記第1
数字列の部分を選択することとに使用することを特徴と
するシステム。
2. The system according to claim 1, wherein the controller comprises:-determining the number of digits in the first and second digit sequences;-all relevant parts of the first digit sequence. Of the number
Determining a match with the second digit string; and-if more parts of the first digit string have the same number of matching digits, the first with the most matches.
A system for selecting a portion of a number sequence.
【請求項3】 請求項1に記載のシステムにおいて、前
記制御装置を、前記第2数字列の数字による前記第1数
字列における少なくとも1つの代わりの数字にマーキン
グし、マークされた数字を音で発生することに使用する
ようにしたことを特徴とするシステム。
3. The system according to claim 1, wherein the control device marks at least one alternative number in the first sequence of numbers with a number of the second sequence of digits and sounds the marked number with a sound. A system for use in generating.
【請求項4】 請求項1に記載のシステムにおいて、訂
正された第1数字列を発生した場合、第1および第2数
字列の評価後、前記制御装置を、前記数字列が正確に認
識されているかどうかのユーザに対する質問を形成する
ことに使用するようにしたことを特徴とするシステム。
4. The system according to claim 1, wherein if a corrected first digit sequence is generated, after evaluating the first and second digit sequences, the control device can recognize the digit sequence correctly. A system for generating a question for a user as to whether or not they are in use.
【請求項5】 請求項1に記載のシステムにおいて、前
記制御装置を、前記数字列の奇数位置における数字を上
昇強勢で発生し、前記数字列の偶数位置における数字を
下降強勢で発生することに使用するようにしたことを特
徴とするシステム。
5. The system of claim 1, wherein the controller generates numbers at odd positions of the sequence of numbers with ascending force and generates numbers at even positions of the sequence of numbers with descending force. A system characterized in that it is used.
【請求項6】 少なくとも1つの数字列を認識し、前記
少なくとも1つの数字列の認識された数字を発生する音
声認識方法において、第1数字列の少なくとも1つの数
字が誤って認識されるイベントにおいて、口述された第
2数字列を前記第1数字列と比較し、前記第2数字列の
数字の数が前記第1数字列の数字の数より少ない場合、
その列が前記第2数字列の数字と一致する数字を最も多
く有する前記第1文字列の部分の数字の訂正を決定し、
前記第2数字列の不一致数字を前記第1数字列の決定さ
れた部分の数字の代わりにすることを特徴とする方法。
6. A speech recognition method for recognizing at least one digit sequence and generating a recognized digit of said at least one digit sequence, wherein at least one digit of the first digit sequence is incorrectly recognized. Comparing the dictated second number string with the first number string, if the number of numbers in the second number string is less than the number of numbers in the first number string,
Determining a correction of a number in the portion of the first string that has the most digits that match the digits of the second string;
The method of claim 1 wherein the mismatched digits of the second digit sequence replace the digits of the determined portion of the first digit sequence.
JP05982798A 1997-03-11 1998-03-11 Speech recognition system for numbers Expired - Lifetime JP4216361B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19709990:4 1997-03-11
DE19709990A DE19709990C2 (en) 1997-03-11 1997-03-11 System for recognizing spoken sequences of digits

Publications (2)

Publication Number Publication Date
JPH10254489A true JPH10254489A (en) 1998-09-25
JP4216361B2 JP4216361B2 (en) 2009-01-28

Family

ID=7822969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05982798A Expired - Lifetime JP4216361B2 (en) 1997-03-11 1998-03-11 Speech recognition system for numbers

Country Status (4)

Country Link
US (1) US6078887A (en)
EP (1) EP0865031B1 (en)
JP (1) JP4216361B2 (en)
DE (2) DE19709990C2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (en) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for error correcting voice recognition result
JP2002287792A (en) * 2001-03-27 2002-10-04 Denso Corp Voice recognition device

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19938649A1 (en) * 1999-08-05 2001-02-15 Deutsche Telekom Ag Method and device for recognizing speech triggers speech-controlled procedures by recognizing specific keywords in detected speech signals from the results of a prosodic examination or intonation analysis of the keywords.
DE10216117A1 (en) * 2002-04-12 2003-10-23 Philips Intellectual Property Symbol sequence voice recognition involves determining sub-symbol sequence to be corrected by comparing second sequence with sub-sequences longer or shorter than second sequence by number of symbols
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
JP4542974B2 (en) * 2005-09-27 2010-09-15 株式会社東芝 Speech recognition apparatus, speech recognition method, and speech recognition program
US7809566B2 (en) * 2005-10-14 2010-10-05 Nuance Communications, Inc. One-step repair of misrecognized recognition strings
JP4672686B2 (en) * 2007-02-16 2011-04-20 株式会社デンソー Voice recognition device and navigation device
DE102015213720B4 (en) * 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Method for detecting an input by a speech recognition system and speech recognition system
US11367432B2 (en) * 2019-05-03 2022-06-21 Google Llc End-to-end automated speech recognition on numeric sequences

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519972A1 (en) * 1985-06-04 1986-12-04 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Radiopaging arrangement with additional transmission of numerical information
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
DE69232407T2 (en) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Speech dialogue system to facilitate computer-human interaction
DE4225475A1 (en) * 1992-08-01 1994-02-03 Philips Patentverwaltung Speech recognition device
WO1995006309A1 (en) * 1993-08-27 1995-03-02 Voice Powered Technology International, Inc. Voice operated remote control system
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (en) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for error correcting voice recognition result
JP2002287792A (en) * 2001-03-27 2002-10-04 Denso Corp Voice recognition device
JP4604377B2 (en) * 2001-03-27 2011-01-05 株式会社デンソー Voice recognition device

Also Published As

Publication number Publication date
DE19709990A1 (en) 1998-09-24
EP0865031A2 (en) 1998-09-16
EP0865031B1 (en) 2003-06-18
JP4216361B2 (en) 2009-01-28
US6078887A (en) 2000-06-20
DE19709990C2 (en) 2000-03-02
DE59808726D1 (en) 2003-07-24
EP0865031A3 (en) 1999-03-17

Similar Documents

Publication Publication Date Title
KR100453021B1 (en) Oral Text Recognition Method and System
JP4867804B2 (en) Voice recognition apparatus and conference system
US20060229870A1 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US20060224384A1 (en) System and method for automatic speech recognition
JP2005208643A (en) System and method for automatic speech recognition learning using user correction
JP2005503590A (en) Correction of text recognized by speech recognition through comparison of speech sequences in recognized text with speech transcription of manually entered correction words
US20070027686A1 (en) Error detection for speech to text transcription systems
JP4216361B2 (en) Speech recognition system for numbers
JPH11352992A (en) Method and device for displaying a plurality of words
JPH07181997A (en) Method and apparatus for automatic extraction of prosodic information
JP4411089B2 (en) Method and system for speech recognition of symbol sequences
JPH06110494A (en) Pronounciation learning device
JP3083660B2 (en) Voice recognition device
KR100499854B1 (en) System and Method for detecting error type by phoneme, and System and method using the same
JP4296290B2 (en) Speech recognition apparatus, speech recognition method and program
JP2001265385A (en) Speaker recognizing device
JPH07230293A (en) Voice recognition device
JPH0736481A (en) Interpolation speech recognition device
JPS645320B2 (en)
JP6991409B2 (en) Information processing equipment, programs and information processing methods
JP2000276189A (en) Japanese dictation system
JPH07248792A (en) Voice recognition device
KR100677197B1 (en) Voice recognizing dictation method
JP3754257B2 (en) Voice input text creation method and apparatus
JPH0229799A (en) Speech recognizing device using phoneme as unit

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050311

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131114

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term