JPH11143487A - Method and device for converting voice to character - Google Patents

Method and device for converting voice to character

Info

Publication number
JPH11143487A
JPH11143487A JP9308252A JP30825297A JPH11143487A JP H11143487 A JPH11143487 A JP H11143487A JP 9308252 A JP9308252 A JP 9308252A JP 30825297 A JP30825297 A JP 30825297A JP H11143487 A JPH11143487 A JP H11143487A
Authority
JP
Japan
Prior art keywords
word
words
confirmed
determined
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9308252A
Other languages
Japanese (ja)
Inventor
Hiroyuki Ono
弘幸 大野
Tadashi Teramine
正 寺峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Gas Co Ltd
Original Assignee
Osaka Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Gas Co Ltd filed Critical Osaka Gas Co Ltd
Priority to JP9308252A priority Critical patent/JPH11143487A/en
Publication of JPH11143487A publication Critical patent/JPH11143487A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a sound-character conversion technology capable of converting the same word into the correct character without repetition. SOLUTION: A phoneme recognizing means 3 to divide the inputted sound into a plurality of segments and to allot one or more phonemes to each segment, a character string converting means 4 to determine one or more words based on the phoneme, and a definite word selecting means 6 to display one of the words stored in a storage part 51 on a monitor 52 as a definite word and to display other words than the fixed word as the next possible candidate, are provided.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力された音声信
号を認識して、文字データに変換する音声文字変換技術
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice / character conversion technology for recognizing an input voice signal and converting it into character data.

【0002】[0002]

【従来の技術】ファクトリー・オートメーション、オフ
ィス・オートメーション、ホームオートメーションが進
むとともに、数多くの機械が職場や家庭に導入されてい
るが、これらの機械へ命令を伝達する入力インタフェー
スとして、キーボードやマウスなどのポインティングデ
ィバイスが主に利用されている。しかしながら、キーボ
ードを通じての命令の入力は、キーボード操作が不得手
のものにとって、非常にわずらわしく、入力エラーがつ
きまとう。より、ユーザーフレンドリーなインターフェ
ースとしてアイコンやイラストを用いたグラフィックイ
ンターフェースがあり、そこでは、マウス等を用いて表
示されるメニューから所望の命令を選択する。この場
合、命令の数が少なければよいが、命令がある程度の数
となれば、メニューの階層が深くなり、所望の命令にた
どり着くのに多くの時間を要することになる。このよう
な欠点を解消すべく音声認識を用いた音声入力方式が登
場し始めている。音声認識のもつ利点は、入力に熟練を
要しないことや、目や手を用いないので他の作業を行っ
ている間に入力が行えることなどがあり、その期待は大
きい。
2. Description of the Related Art With the progress of factory automation, office automation, and home automation, many machines have been introduced in workplaces and homes. As input interfaces for transmitting commands to these machines, keyboards, mice, and the like are used. Pointing devices are mainly used. However, inputting an instruction through a keyboard is very troublesome for those who are not good at keyboard operation, and input errors are common. As a more user-friendly interface, there is a graphic interface using icons and illustrations, in which a desired command is selected from a menu displayed using a mouse or the like. In this case, it is sufficient that the number of instructions is small. However, if the number of instructions is a certain number, the hierarchy of the menu becomes deep, and much time is required to reach a desired instruction. In order to solve such disadvantages, a voice input method using voice recognition has begun to appear. The advantages of speech recognition are that it does not require skill in inputting, and that the input can be performed while other work is being performed because eyes and hands are not used.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、現状の
音声認識の技術は高い信頼性をもって確立しているとは
言えず、しばしば誤認識が生じる。特に、不特定話者連
続音声認識では、話し手のくせなどにより同じような誤
認識が続いたり、同じ言葉を意識して口調を変えながら
発音しなければ正しく認識されないということが頻繁に
生じる。本発明の目的は、同じ言葉を何度も繰り返すこ
となく正しい文字データに変換することが可能な変換す
る音声文字変換方法と音声文字変換装置を提供すること
である。
However, the current speech recognition technology has not been established with high reliability, and erroneous recognition often occurs. In particular, in the unspecified speaker continuous speech recognition, the same erroneous recognition continues due to the habit of a speaker or the like, and it often occurs that the same word is not recognized correctly unless the pronunciation is changed while changing the tone. An object of the present invention is to provide a voice-to-text conversion method and a voice-to-text conversion device capable of converting the same word into correct character data without repeating it many times.

【0004】[0004]

【課題を解決するための手段】上記目的を達成するた
め、本発明による音声文字変換方法は、入力された音声
を複数のセグメントに分割して音素認識し、各セグメン
トに対して1以上の音素を割り当て、この音素に基づい
て決定された1以上の単語を記憶部に格納し、格納され
た単語の1つを確定単語として出力するとともに前記確
定単語以外の単語を次候補とすることを特徴とする。
In order to achieve the above object, a speech-to-speech conversion method according to the present invention divides an input speech into a plurality of segments, recognizes phonemes, and generates one or more phonemes for each segment. And storing one or more words determined based on the phoneme in a storage unit, outputting one of the stored words as a confirmed word, and using a word other than the confirmed word as a next candidate. And

【0005】この方法では、それ自体は公知な音素認識
手法を用いて割り当てられた音素に対して1以上の単語
を対応付けて記憶部に格納し、1以上の単語から選択さ
れた1つの単語を確定単語として制御コマンドとすると
ともに、確定単語以外の単語を表示次候補とし、確定単
語が正しくない場合は表示次候補が確定単語として繰り
上げられる。確定単語が正しいものかどうかをチェック
するためには、例えば、確定単語をモニターに表示して
オペレータの判断を仰ぐことができるし、確定単語を音
声出力してオペレータの判断を仰ぐことも可能である。
いずれにしても、例えば、最初の確定単語が正しくなけ
れば、なんらかの次候補の表示のためのコマンドを送る
ことにより次候補が次の確定単語として出力されるの
で、正しい音声認識を求めてオペレータが何度も同じ言
葉を繰り返しても、誤まっている同じ単語を繰り返して
出力するということは回避できる。
[0005] In this method, one or more words are stored in a storage unit in association with a phoneme assigned using a known phoneme recognition method, and one phoneme selected from the one or more words is stored. Is used as a control word as a control word, and a word other than the control word is set as a next display candidate. In order to check whether the confirmed word is correct, for example, it is possible to display the confirmed word on a monitor and ask the operator's judgment, or to output the confirmed word by voice and ask the operator's judgment. is there.
In any case, for example, if the first confirmed word is not correct, by sending a command for displaying some next candidate, the next candidate is output as the next confirmed word. Even if the same word is repeated many times, it is possible to avoid outputting the same wrong word repeatedly.

【0006】確定単語と表示次候補とを区分けする好ま
しい方法として、例えば、前記音素に基づいて決定され
た単語には音素適合確率値をもって前記記憶部に格納さ
れ、高い確率値をもった単語から順に確定単語とするこ
とが提案される。音素に対応する単語には音素適合確率
値がリンクされているので、その確率値の高い順に単語
を表示していくことにより、同じ文字データが繰り返さ
れるというエラーがなくなるだけでなく、少ない選択回
数で正しい変換文字データに遭遇する可能性が高くな
る。
[0006] As a preferable method of classifying the determined word and the next display candidate, for example, a word determined based on the phoneme is stored in the storage unit with a phoneme matching probability value, and a word having a high probability value is used. It is suggested that the words be determined in order. Since the phoneme matching probability value is linked to the word corresponding to the phoneme, displaying the words in descending order of the probability value not only eliminates the error that the same character data is repeated, but also reduces the number of selections. Is more likely to encounter the correct converted character data.

【0007】さらに、本発明の好適な実施形態として、
所定時間以内に同じ音声が入力された場合次候補を確定
単語として出力する、例えばモニターに表示するような
方式を採用することが提案される。この場合、所定時間
以内の同じ音声の入力が先に確定単語に代えて次候補を
確定単語として出力するためのトリガーとなっているの
で、音声文字変換が正しくない場合でも、繰り返し発音
することで、順次異なる単語が確定単語として出力され
ていくので、繰り返し発音が同じ誤変換を繰り返すとい
う従来生じていたようなストレスをオペレータに与える
ことはなくなる。
Further, as a preferred embodiment of the present invention,
It is proposed to adopt a method of outputting the next candidate as a confirmed word when the same voice is input within a predetermined time, for example, displaying it on a monitor. In this case, the input of the same voice within a predetermined time is a trigger for outputting the next candidate as a fixed word instead of the fixed word first. Since different words are sequentially output as confirmed words, the operator is not given the stress that has conventionally occurred such that repeated pronunciations repeat the same erroneous conversion.

【0008】別な次候補出力トリガー方法として、例え
ば、予め最も認識されやすい音声を次候補の出力コマン
ドとして設定しておき、出力された単語が誤って認識さ
れていた場合、その次候補出力コマンドとしての音声を
発音することで次候補を順次表示させることも可能であ
る。
As another next candidate output trigger method, for example, a speech which is most easily recognized is set in advance as an output command of the next candidate, and if an output word is erroneously recognized, the next candidate output command is output. It is also possible to sequentially display the next candidate by pronouncing the voice as "?".

【0009】上記目的を達成するため、本発明による音
声文字変換装置は、入力された音声を複数のセグメント
に分割して各セグメントに対して1以上の音素を割り当
てる音素認識手段と、前記音素に基づいて1以上の単語
を決定する文字列変換手段と、前記決定された単語を格
納する記憶部と、前記格納された単語の1つを確定単語
として出力するとともに前記確定単語以外の単語を表示
の次候補とする確定単語選択手段とを備えている。
In order to achieve the above object, a speech-to-speech conversion apparatus according to the present invention divides an input speech into a plurality of segments and assigns at least one phoneme to each segment; Character string conversion means for determining one or more words based on the word, a storage unit for storing the determined word, and outputting one of the stored words as a confirmed word and displaying words other than the confirmed word And a definitive word selecting means to be the next candidate of

【0010】この装置では、文字列変換手段が割り当て
られた音素に対して1以上の単語を対応付けて記憶部に
格納し、確定単語選択手段が選択された1つの単語を確
定単語として出力して制御コマンドとして用いられると
ともに、出力された確定単語以外の単語を先の確定単語
の次候補として準備しておく。なんらかの次候補の確定
単語としての出力のためのコマンドを受け取ると、次候
補が先の確定単語に代えて出力されるので、正しい音声
認識を求めてオペレータが何度も同じ言葉を繰り返して
も、誤まっている同じ単語を繰り返して表示するという
ことは回避できる。もちろん、確定単語のチェックのた
めには、確定単語をモニターに表示することなどが提案
される。
In this device, the character string conversion means stores one or more words in association with the assigned phonemes in the storage unit, and the confirmed word selection means outputs the selected one word as a confirmed word. In addition, a word other than the output fixed word is prepared as a next candidate of the previous fixed word while being used as a control command. When receiving a command for outputting the next candidate as a confirmed word, the next candidate is output in place of the previous confirmed word, so even if the operator repeatedly repeats the same word for correct speech recognition, Repeated display of the same incorrect word can be avoided. Of course, for checking the confirmed word, it is proposed to display the confirmed word on a monitor.

【0011】この音声文字変換装置においても、前記提
案された方法で述べたように、単語適合確率値をもって
記憶部に格納された単語に対して、確定単語選択手段が
高い確率値をもった単語から順に確定単語として選択す
ることにより、その確率値の高い順に単語が出力される
ことになるので、同じ文字データが繰り返されるという
エラーがなくなるだけでなく、少ない選択回数で正しい
変換文字データに遭遇する可能性が高くなる。
In this speech-to-speech conversion apparatus, as described in the above-mentioned proposed method, a word having a high probability value is determined by the confirmed word selecting means with respect to the word stored in the storage unit with the word matching probability value. By selecting as a confirmed word in order from, the words are output in order of the probability value, so not only the error that the same character data is repeated is eliminated, but also the correct converted character data is encountered with a small number of selections Is more likely to do so.

【0012】また、所定時間以内に入力された音声が同
一であるかどうかを判定する入力音声評価手段が備えら
れ、所定時間以内に同じ音声が入力されたと判定された
場合、前記確定単語選択手段は前記次候補を確定単語と
して出力する(例えばモニターに表示する)構成を採用
するならば、音声文字変換が正しくない場合でも、繰り
返し発音することで、順次異なる単語は表示されていく
ので、繰り返し発音が同じ誤変換を繰り返すというスト
レスをオペレータに与えることはなくなる。本発明によ
るその他の特徴及び利点は、以下図面を用いた実施例の
説明により明らかになるだろう。
Further, there is provided input voice evaluation means for determining whether or not the voices input within a predetermined time are the same, and when it is determined that the same voice has been input within the predetermined time, the determined word selecting means is provided. If a configuration is adopted in which the next candidate is output as a confirmed word (for example, it is displayed on a monitor), even if the speech-to-text conversion is incorrect, different words are displayed successively by repeatedly pronouncing. The stress that the pronunciation repeats the same erroneous conversion is not given to the operator. Other features and advantages according to the present invention will become apparent from the following description of embodiments with reference to the drawings.

【0013】[0013]

【発明の実施の形態】図1に本発明による音声文字変換
技術を用いた音声コマンド入力システムの機能ブロック
図が示されている。このシステムでは、オペレータがコ
マンドを発声することにより、プラント現場に配置され
た監視カメラが操作される。例えば、オペレータが「L
NG気化器1号」と発声すると、監視カメラがLNG気
化器1号に照準をあわせるべく作動して、モニターにL
NG気化器1号の様子を表示するのである。
FIG. 1 is a functional block diagram of a voice command input system using a voice character conversion technique according to the present invention. In this system, a surveillance camera arranged at a plant site is operated by an operator issuing a command. For example, if the operator selects "L
"NG vaporizer No. 1", the surveillance camera operates to aim at LNG vaporizer No. 1, and L is displayed on the monitor.
The state of NG vaporizer No. 1 is displayed.

【0014】このシステムには、オペレータの発した音
声をアナログ音声信号に変換するマイク1、マイク1か
ら送られてきたアナログ音声信号をデジタル音声信号に
変換するA/D変換部2、音声信号を分析処理して発音
記号に似たような音素に置き換えていく音素認識手段
3、辞書ファイル41にアクセスしながら音素列に適当
な単語を割り当てていく文字列変換手段4、割り当てら
れた単語を一時的に格納する記憶部51、記憶部51に
格納された単語から最適なものを確定単語として選択す
る確定単語選択手段6が備えられている。さらに、確定
単語選択手段6によって確定単語として選択された単語
はモニター52に表示されるとともに、監視カメラ制御
手段7にも引き渡される。監視カメラ制御手段7を構成
するコマンド認識部71は、監視カメラ制御手段7に引
き渡された確定単語からコマンド辞書ファイル72にア
クセスして対応する制御コマンドを引き出し、この制御
コマンドはドライバー73によって監視カメラ74の駆
動モータを作動する制御信号に変換される。
This system includes a microphone 1 for converting a voice emitted by an operator into an analog voice signal, an A / D converter 2 for converting an analog voice signal sent from the microphone 1 into a digital voice signal, and a voice signal. Phoneme recognition means 3 for analyzing and replacing phonemes similar to phonetic symbols; character string conversion means 4 for assigning appropriate words to phoneme strings while accessing dictionary file 41; There is provided a storage unit 51 for temporarily storing, and a fixed word selecting unit 6 for selecting an optimum word from the words stored in the storage unit 51 as a fixed word. Further, the word selected as the confirmed word by the confirmed word selecting means 6 is displayed on the monitor 52 and is also passed to the monitoring camera control means 7. The command recognition unit 71 constituting the monitoring camera control means 7 accesses the command dictionary file 72 from the determined word passed to the monitoring camera control means 7 and derives a corresponding control command. It is converted into a control signal for operating the drive motor 74.

【0015】音素認識手段3は、それ自体は公知の音韻
認識アルゴリズムを用いたものであり、デジタル音声信
号から経時的な音声スペクトルを分析してその特徴パラ
メータを抽出する音響特徴抽出部31と、この特徴パラ
メータから音韻コードを生成する音韻コード変換部32
と、音韻コードに対応する音素を与える音素変換部33
とを備えている。音素変換部33で、音韻コードに対応
する音素を選択する際、一義的に音素が決定される場合
(つまり音素適合確率値が1)を除いて、複数の音素が
その音素適合確率値付きで選択される。文字列変換手段
4は、この音素適合確率値の高いものから順次組み合わ
せて制御コマンドとしての1つ以上の単語を生成し、記
憶部51に格納する。その際、生成された単語には属性
値として単語適合確率値がリンクされる。単語適合確率
値は、例えば、その単語の元となった音素の音素適合確
率値を乗算して簡単に得ることができる。確定単語選択
手段6は、ある音声に対して複数の単語が存在する時に
はまず最も高い単語適合確率値をもった単語を確定単語
として、モニター52に表示するとともに、これをカメ
ラ制御手段7に送り込み、監視カメラの操作をスタート
させる。
The phoneme recognizing means 3 uses a well-known phonemic recognition algorithm. The phoneme recognizing means 3 analyzes a temporal voice spectrum from a digital voice signal and extracts its characteristic parameters. Phoneme code conversion unit 32 for generating a phoneme code from this feature parameter
And a phoneme conversion unit 33 that gives a phoneme corresponding to the phoneme code.
And When selecting a phoneme corresponding to a phoneme code in the phoneme conversion unit 33, a plurality of phonemes are added with their phoneme matching probability values except when a phoneme is uniquely determined (that is, the phoneme matching probability value is 1). Selected. The character string conversion means 4 generates one or more words as control commands by sequentially combining the words having the highest phoneme matching probability values, and stores the words in the storage unit 51. At this time, a word matching probability value is linked to the generated word as an attribute value. The word matching probability value can be easily obtained by, for example, multiplying the phoneme matching probability value of the phoneme from which the word is based. When there are a plurality of words for a certain voice, the confirmed word selecting means 6 first displays the word having the highest word matching probability value as a confirmed word on the monitor 52 and sends it to the camera control means 7. , Start the operation of the surveillance camera.

【0016】ここで、もしモニター52に表示された単
語がオペレータが発音したものと異なる場合、この確定
単語を取り消して正しい単語が認識されるようにしなけ
ればならないが、例えば、誤認識の原因がオペレータの
発音の癖などであれば、再度オペレータが再度正しい制
御コマンドを発音しても、必ずしも正しく音声認識され
るとは限らない。このため、本発明では、誤認識した場
合のために、先に決定された確定単語以外の単語、つま
り2番目に高い単語適合確率値をもった単語が次候補と
して用意されているので、この次候補を確定単語とすれ
ばよい。このような確定単語の入れ替えを正しい確定単
語が出力されるまで、順次やっていけばよいのである。
Here, if the word displayed on the monitor 52 is different from the word pronounced by the operator, this fixed word must be canceled so that the correct word is recognized. In the case of an operator's pronunciation habit, even if the operator issues a correct control command again, the voice is not always recognized correctly. For this reason, in the present invention, words other than the confirmed word determined earlier, that is, words having the second highest word matching probability value are prepared as the next candidates in the case of misrecognition. The next candidate may be set as a confirmed word. Such replacement of the confirmed words may be performed sequentially until a correct confirmed word is output.

【0017】この実施の形態では、次候補を確定単語と
するトリガーとして、所定時間(例えば2秒)以内にオ
ペレータが再度同じ制御コマンドを繰り返すこと、つま
りこのシステムに同じ音声信号が入力されることを利用
しており、そのために、入力音声評価手段8が備えられ
ている。この入力音声評価手段8は、A/D変換部2か
ら入力された音声信号を所定時間前に入力された音声信
号と比較して、2つの信号が一致した場合単語替えコマ
ンドを確定単語選択手段に出力する。単語替えコマンド
を受け取った確定単語選択手段6は、次候補の単語を確
定単語とし、さらに次に高い単語適合確率をもつ単語を
次候補とする。もちろん、所定時間経過後にオペレータ
によって発音された音声は新たに音声認識される。
In this embodiment, the operator repeats the same control command again within a predetermined time (for example, 2 seconds) as a trigger for setting the next candidate as a fixed word, that is, the same voice signal is input to this system. For that purpose, an input voice evaluation means 8 is provided. The input voice evaluation unit 8 compares the voice signal input from the A / D conversion unit 2 with the voice signal input before a predetermined time, and determines a word replacement command when the two signals match each other. Output to The confirmed word selecting unit 6 that has received the word replacement command sets the next candidate word as the confirmed word, and sets the word having the next highest word matching probability as the next candidate. Of course, the voice pronounced by the operator after the elapse of the predetermined time is newly recognized.

【0018】以下図2を用いて、オペレータが「LNG
気化器1号」と発声したことを例にとって、この音声コ
マンド入力システムの作用を説明する。マイク1から入
力された音声はゲインコントロールされた後、16kH
zサンプリングと16ビット量子化でデジタル信号化さ
れる。さらに、約6.6ミリ秒のフレーム毎に20チャ
ンネルのフィルターバンクなどを用いて23の音響特徴
パラメータ表現に変換される。この音響特徴パラメータ
は、2段階の決定木からなる音韻エンコーダによって音
韻コードに変換される。
Hereinafter, referring to FIG.
The operation of the voice command input system will be described by taking as an example the utterance of "vaporizer 1". After the voice input from the microphone 1 is gain controlled,
It is converted into a digital signal by z sampling and 16-bit quantization. Further, each frame of about 6.6 milliseconds is converted into 23 acoustic feature parameter expressions using a 20-channel filter bank or the like. This acoustic feature parameter is converted into a phoneme code by a phoneme encoder consisting of a two-stage decision tree.

【0019】この2段階の決定木において、第1段の決
定木では、約6.6ミリ秒の各フレームの特徴量とし
て、そのフレームの23の音響特徴量と、その前後のフ
レームの音響特徴量との関係から導かれる161の特徴
量を合わせた計184の特徴量を入力ベクトルとして用
いる。この第1段の決定木の出力は、次の段階でセグメ
ンテーションを行うための0番から8番までの9クラス
である。この9クラスをセグメントクラスと呼ぶ。第2
段の決定木では、特徴量として、そのセグメントのセグ
メントクラスや、そのセグメントを構成するフレームの
音響特徴量の平均などの特徴量と、その前後のセグメン
トの特徴量との関係から導かれる特徴量を合わせた計2
82の特徴量を入力ベクトルとして用いる。この第2段
の決定木の出力は、音素よりさらに小さい単位である約
1800種類の音韻コードである。
In the two-stage decision tree, in the first stage of the decision tree, the acoustic features of 23 frames of the frame and the acoustic features of the frames before and after the frame are determined as the features of each frame of about 6.6 milliseconds. A total of 184 feature amounts obtained by combining 161 feature amounts derived from the relationship with the amounts are used as input vectors. The outputs of the first-stage decision tree are nine classes from No. 0 to No. 8 for performing segmentation in the next stage. These nine classes are called segment classes. Second
In the decision tree of the stage, as a feature amount, a feature amount derived from a relationship between a feature amount such as a segment class of the segment, an average of acoustic feature amounts of frames constituting the segment, and feature amounts of segments before and after the segment. Total 2
82 feature amounts are used as input vectors. The output of the second-stage decision tree is about 1800 types of phoneme codes, which are units smaller than phonemes.

【0020】得られた音韻コード列は、各音韻コードに
対して複数の音素を確率付きで割り当てた音韻コードフ
ァイルを参照しながら、音素適合確率付きで音韻コード
/音素変換される。各セグメント毎に所定の確率値以上
をもつ1つ以上の音素が選択される。この音素リスト
は、文法を参照しながら単語に変換されていくが、その
際例えば、”LPG”という単語には単語適合確率値=
0.64が与えられ、”LNG”という単語には、単語
適合確率値=0.36が与えられている。このように、
変換された単語は、記憶部51に格納される。
The obtained phoneme code sequence is subjected to phoneme code / phoneme conversion with a phoneme matching probability with reference to a phoneme code file in which a plurality of phonemes are assigned to each phoneme code with a probability. One or more phonemes having a predetermined probability value or more are selected for each segment. This phoneme list is converted into a word while referring to the grammar. At this time, for example, the word “LPG” has a word matching probability value =
0.64 is given, and the word “LNG” is given a word matching probability value = 0.36. in this way,
The converted word is stored in the storage unit 51.

【0021】上述したように音声認識され、文字に変換
された単語は、確定単語選択手段6によって、その確率
値が大きいものを組み合わせて最も確からしいものから
順に確定単語、次候補とする。この例では、最も確率値
が大きかった”LPG気化器1号”が最初の確定単語で
あり、”LNG気化器1号”が次候補で、”LPG気化
器2号”がこれに続く。よって、モニター52には、図
3に示すように”LPG気化器1号”が表示され、監視
カメラ74はLPG気化器1号を撮影すべく作動し始め
る。
The words that have been speech-recognized and converted into characters as described above are combined by the confirmed word selecting means 6 to combine the words with the greatest probability values into the confirmed word and the next candidate in order from the most probable one. In this example, “LPG vaporizer No. 1” having the largest probability value is the first confirmed word, “LNG vaporizer No. 1” is the next candidate, and “LPG vaporizer No. 2” follows. Accordingly, “LPG vaporizer No. 1” is displayed on the monitor 52 as shown in FIG. 3, and the monitoring camera 74 starts operating to photograph the LPG vaporizer No. 1.

【0022】しかしながら、オペレータが発音したのは
「LNG気化器1号」であり、この結果は誤認識である
ので、オペレータは1秒後に再度「LNG気化器1号」
と発音する。入力音声評価手段8は、誤認識のための再
入力を意味する所定時間、ここでは2秒以内での同じ音
声信号の入力を確認し、新たな音声認識処理をせずに或
いは新たな音声認識処理をしたとしてもその結果は無視
して、確定単語選択手段6に作用して、次候補である”
LNG気化器1号”を確定単語として、モニター52に
表示し、その結果、監視カメラ74はLNG気化器1号
を撮影すべく作動を変更する。今度は正しい制御コマン
ドが送られたことになるので、必要の場合、オペレータ
は、少なくとも2秒の経過を待って、次の制御コマンド
を送るべく発音する。
However, what the operator pronounced is "LNG vaporizer No. 1", and the result is erroneous recognition.
Pronounced The input voice evaluation means 8 confirms the input of the same voice signal within a predetermined period of time meaning re-input for erroneous recognition, in this case, within 2 seconds, and performs no new voice recognition processing or performs new voice recognition. Even if the processing is performed, the result is ignored, and it acts on the fixed word selecting means 6 to be the next candidate.
The LNG vaporizer No. 1 "is displayed as a confirmed word on the monitor 52, and as a result, the surveillance camera 74 changes its operation to photograph the LNG vaporizer No. 1. This time, the correct control command has been sent. Thus, if necessary, the operator will wait at least two seconds before speaking to send the next control command.

【0023】ここでの実施形態では、次候補表示のトリ
ガーとして同じ内容をもう1度発音することにしたが、
その他の方法、例えば、予め最も認識されやすい音声を
次候補の表示コマンドとして設定しておき、表示された
単語が誤って認識されていた場合、その次候補表示コマ
ンドとしての音声を発音することで次候補を順次表示さ
せることも可能である。
In this embodiment, the same content is reproduced once again as a trigger for displaying the next candidate.
Other methods, such as setting the most recognizable voice in advance as the display command of the next candidate, and if the displayed word is erroneously recognized, pronounces the voice as the next candidate display command. It is also possible to sequentially display the next candidates.

【0024】また、確定単語のチェックのために、確定
単語はモニター52に表示される構成に代えて、確定単
語を音声で出力することで、オペレータのチェックを受
けるようにしてもよい。
Further, in order to check the confirmed word, the confirmed word may be output by voice instead of being displayed on the monitor 52, so that the confirmed word may be checked by the operator.

【0025】本発明の重要な点は、何度も同じように誤
って音声認識されることを避けるため、1度行った音声
認識での結果で得られる他の言葉を次候補として利用す
ることである。この主旨から外れない限り、音声認識方
法としてその他の公知の方法を用いることも本発明の枠
内に入るものである。
An important point of the present invention is to use another word obtained as a result of the speech recognition performed once as a next candidate in order to avoid erroneous speech recognition in the same manner many times. It is. As long as it does not depart from the gist, it is within the scope of the present invention to use other known methods as speech recognition methods.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による音声文字変換技術を用いた音声コ
マンド入力システムの機能ブロック図
FIG. 1 is a functional block diagram of a voice command input system using a voice character conversion technology according to the present invention.

【図2】本発明による音声文字変換の流れを示す説明図FIG. 2 is an explanatory diagram showing a flow of speech character conversion according to the present invention.

【図3】本発明による音声文字変換における記憶部とモ
ニター画面の様子を示す説明図
FIG. 3 is an explanatory diagram showing a state of a storage unit and a monitor screen in voice transcription according to the present invention;

【符号の説明】[Explanation of symbols]

2 A/D変換部 3 音素認識手段 4 文字列変換手段 6 確定単語選択手段 7 カメラ制御手段 8 入力音声評価手段 51 記憶部 52 モニター 2 A / D conversion unit 3 Phoneme recognition unit 4 Character string conversion unit 6 Fixed word selection unit 7 Camera control unit 8 Input voice evaluation unit 51 Storage unit 52 Monitor

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声を複数のセグメントに分
割して音素認識し、各セグメントに対して1以上の音素
を割り当て、この音素に基づいて決定された1以上の単
語を記憶部に格納し、格納された単語の1つを確定単語
として出力するとともに前記確定単語以外の単語を次候
補とすることを特徴とする音声文字変換方法。
1. An input speech is divided into a plurality of segments, phonemes are recognized, one or more phonemes are assigned to each segment, and one or more words determined based on the phonemes are stored in a storage unit. And outputting one of the stored words as a confirmed word, and using a word other than the confirmed word as a next candidate.
【請求項2】 前記確定単語はモニターに表示させるた
めにモニターに出力されることを特徴とする請求項1に
記載の音声文字変換方法。
2. The method according to claim 1, wherein the confirmed word is output to a monitor for display on the monitor.
【請求項3】 前記音素に基づいて決定された単語は音
素適合確率値をもって前記記憶部に格納され、高い確率
値をもった単語から順に確定単語とすることを特徴とす
る請求項1又は2に記載の音声文字変換方法。
3. The word determined based on the phoneme is stored in the storage unit with a phoneme matching probability value, and the words having higher probability values are determined words in order. The transcription method described in 1.
【請求項4】 所定時間以内に同じ音声が入力された場
合、前記次候補を確定単語として出力することを特徴と
する請求項1〜3のいずれか1項に記載の音声文字変換
方法。
4. The voice-to-character conversion method according to claim 1, wherein if the same voice is input within a predetermined time, the next candidate is output as a confirmed word.
【請求項5】 入力された音声を複数のセグメントに分
割して各セグメントに対して1以上の音素を割り当てる
音素認識手段と、前記音素に基づいて1以上の単語を決
定する文字列変換手段と、前記決定された単語を格納す
る記憶部と、前記格納された単語の1つを確定単語とし
て出力するとともに前記確定単語以外の単語を表示の次
候補とする確定単語選択手段とを備えている音声文字変
換装置。
5. A phoneme recognition unit that divides an input speech into a plurality of segments and assigns one or more phonemes to each segment, and a character string conversion unit that determines one or more words based on the phonemes. A storage unit for storing the determined word, and a determined word selecting means for outputting one of the stored words as a determined word and selecting a word other than the determined word as a next candidate for display. Voice transcription device.
【請求項6】 前記確定単語の確認のために前記確定単
語を表示するモニターが備えられていることを特徴とす
る請求項5に記載の音声文字変換装置。
6. The apparatus according to claim 5, further comprising a monitor for displaying the confirmed word for confirming the confirmed word.
【請求項7】 前記音素に基づいて決定された単語は単
語適合確率値をもって前記記憶部に格納され、前記確定
単語選択手段は高い確率値をもった単語から順に確定単
語として選択することを特徴とする請求項5又は6に記
載の音声文字変換装置。
7. A word determined based on the phoneme is stored in the storage unit with a word matching probability value, and the confirmed word selecting means selects words having a higher probability value as confirmed words in order. The phonetic character conversion device according to claim 5 or 6, wherein
【請求項8】 所定時間以内に入力された音声が同一で
あるかどうかを判定する入力音声評価手段が備えられて
おり、所定時間以内に同じ音声が入力されたと判定され
た場合、前記確定単語選択手段は前記次候補を確定単語
として出力することを特徴とする請求項5〜7のいずれ
か1項に記載の音声文字変換装置。
8. An input voice evaluation means for determining whether or not voices input within a predetermined time are the same, and when it is determined that the same voice has been input within a predetermined time, the determined word is determined. The phonetic character converter according to claim 5, wherein the selection unit outputs the next candidate as a confirmed word.
JP9308252A 1997-11-11 1997-11-11 Method and device for converting voice to character Pending JPH11143487A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9308252A JPH11143487A (en) 1997-11-11 1997-11-11 Method and device for converting voice to character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9308252A JPH11143487A (en) 1997-11-11 1997-11-11 Method and device for converting voice to character

Publications (1)

Publication Number Publication Date
JPH11143487A true JPH11143487A (en) 1999-05-28

Family

ID=17978779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9308252A Pending JPH11143487A (en) 1997-11-11 1997-11-11 Method and device for converting voice to character

Country Status (1)

Country Link
JP (1) JPH11143487A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002344957A (en) * 2001-05-11 2002-11-29 Hitachi Kokusai Electric Inc Image monitoring system
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61231629A (en) * 1985-04-08 1986-10-15 Hitachi Ltd Voice input device
JPH02230225A (en) * 1989-03-03 1990-09-12 Nec Corp Camera control system
JPH03148750A (en) * 1989-11-06 1991-06-25 Fujitsu Ltd Sound word processor
JPH04134397A (en) * 1990-09-26 1992-05-08 Matsushita Electric Ind Co Ltd Voice recognizing device
JPH07120253B2 (en) * 1985-02-06 1995-12-20 株式会社日立製作所 Text input device by voice
JPH08190398A (en) * 1995-01-10 1996-07-23 Sony Corp Voice recognition device
JPH0983997A (en) * 1995-09-12 1997-03-28 Osaka Gas Co Ltd Operation unit
JP2686085B2 (en) * 1987-12-17 1997-12-08 三洋電機株式会社 Voice recognition system
JPH1039892A (en) * 1996-07-24 1998-02-13 Denso Corp Method and device for voice recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07120253B2 (en) * 1985-02-06 1995-12-20 株式会社日立製作所 Text input device by voice
JPS61231629A (en) * 1985-04-08 1986-10-15 Hitachi Ltd Voice input device
JP2686085B2 (en) * 1987-12-17 1997-12-08 三洋電機株式会社 Voice recognition system
JPH02230225A (en) * 1989-03-03 1990-09-12 Nec Corp Camera control system
JPH03148750A (en) * 1989-11-06 1991-06-25 Fujitsu Ltd Sound word processor
JPH04134397A (en) * 1990-09-26 1992-05-08 Matsushita Electric Ind Co Ltd Voice recognizing device
JPH08190398A (en) * 1995-01-10 1996-07-23 Sony Corp Voice recognition device
JPH0983997A (en) * 1995-09-12 1997-03-28 Osaka Gas Co Ltd Operation unit
JPH1039892A (en) * 1996-07-24 1998-02-13 Denso Corp Method and device for voice recognition

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
古井, ディジタル音声処理, JPN4006004383, 25 September 1985 (1985-09-25), JP, pages 160 - 161, ISSN: 0000719825 *
古井, ディジタル音声処理, JPNX007029609, 23 September 1985 (1985-09-23), JP, pages 160 - 161, ISSN: 0000859925 *
新美, 情報科学講座 E・19・3 音声認識, JPN4007000036, 10 October 1979 (1979-10-10), JP, pages 90 - 92, ISSN: 0000807868 *
新美, 情報科学講座 E・19・3 音声認識, JPNX007029608, 10 October 1979 (1979-10-10), JP, pages 90 - 92, ISSN: 0000859924 *
田村他: "ニューラルネットを用いた音声処理", テレビジョン学会誌, vol. 43, no. 9, JPN4007000035, 20 September 1998 (1998-09-20), JP, pages 935 - 943, ISSN: 0000807867 *
田村他: "ニューラルネットを用いた音声処理", テレビジョン学会誌, vol. 43, no. 9, JPNX007029607, 20 September 1998 (1998-09-20), JP, pages 935 - 943, ISSN: 0000859923 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002344957A (en) * 2001-05-11 2002-11-29 Hitachi Kokusai Electric Inc Image monitoring system
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad

Similar Documents

Publication Publication Date Title
JP4657736B2 (en) System and method for automatic speech recognition learning using user correction
EP0965978B1 (en) Non-interactive enrollment in speech recognition
US8433573B2 (en) Prosody modification device, prosody modification method, and recording medium storing prosody modification program
US5615296A (en) Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP1701338B1 (en) Speech recognition method
US6934682B2 (en) Processing speech recognition errors in an embedded speech recognition system
JPH0423799B2 (en)
JP2003316386A (en) Method, device, and program for speech recognition
US20050288922A1 (en) Method and system for speech recognition
JP2008233229A (en) Speech recognition system and speech recognition program
JP2002304190A (en) Method for generating pronunciation change form and method for speech recognition
WO2006054724A1 (en) Voice recognition device and method, and program
JPH07114395A (en) Data compression for speech recognition
NO309750B1 (en) Speech Recognition
JP2003022089A (en) Voice spelling of audio-dedicated interface
JPH06214587A (en) Predesignated word spotting subsystem and previous word spotting method
WO2006083020A1 (en) Audio recognition system for generating response audio by using audio data extracted
US20040006469A1 (en) Apparatus and method for updating lexicon
JPH06110494A (en) Pronounciation learning device
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
US7752045B2 (en) Systems and methods for comparing speech elements
JPH11143487A (en) Method and device for converting voice to character
JP3254977B2 (en) Voice recognition method and voice recognition device
JP3277579B2 (en) Voice recognition method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070607