JPS58186836A - 音声入力デ−タ処理装置 - Google Patents

音声入力デ−タ処理装置

Info

Publication number
JPS58186836A
JPS58186836A JP57070637A JP7063782A JPS58186836A JP S58186836 A JPS58186836 A JP S58186836A JP 57070637 A JP57070637 A JP 57070637A JP 7063782 A JP7063782 A JP 7063782A JP S58186836 A JPS58186836 A JP S58186836A
Authority
JP
Japan
Prior art keywords
input
recognition
word
voice
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57070637A
Other languages
English (en)
Inventor
Satoyuki Isono
磯野 智行
Katsuhiko Watanabe
勝彦 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP57070637A priority Critical patent/JPS58186836A/ja
Publication of JPS58186836A publication Critical patent/JPS58186836A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声入力によるデータ処理装置に関する。
近年、鍵盤入力に代わる新しい入力方式として音声入力
が注目され、コンピュータ入力用にあるいはワードプロ
セッサ用に研究されつつあるが、しかしまだ本格的な実
用には至っていない状況にある。その理由の一つは、−
文字当り又は−語当シの認識精度(または認識率)が認
識の対象となる語によっては80ないし95チと低く結
果の確認或いは、入力の訂正、反復などを必要とするの
で、従来の鍵盤入力又はベンタッチ入力等に比べて能率
が却って低下し、実用上の効果が上らないからである。
本発明は従来の上記実情に着目してなされたものであり
、従って本発明の目的は、音声入力方式の特長と欠点と
をよくわきまえ、これを従来のベンタッチ式入力と合理
的に組合わせることにより、よシ正確で高速なコンピュ
ータ用あるいはワードプロセッサ用のデータ入力装置を
提供することにある。
本発明によれは、連続あるいは擬似連続的に発声された
飴を音声認識し、その一連の認識された文字群をCRT
に表示し、次いで表示された文字群の中から誤認識ある
いは認識排除された語をベンタッチ方式によ91語づつ
指定し、ライトベンによυ指定された語に対応する正し
く入力すべき語を再度音声入力し、誤認識あるいは認識
排除され九語を正認識語と置換して行くことにより、正
確で能率的な入力を実現することができる音声入力デー
タ処理装置、が得られる。
本発明の詳細な説明に先立ち、音声認識の原理と、いく
つかの用語の定義についてまず説明する。
話者から発声があった場合に、音声認識装置は、通常発
声を0.5〜2秒程度の連続した発声単位に分解し、そ
の発声単位毎に認識処理を行う。各発声単位の中味はト
ウキヨウ、オオサカ、ナゴヤ等の牟暗でもよいし、イチ
、ニイ、サン等の数字でもよい。また、イ、口、ハなど
の単一の音(以下単音節と云う)でもよい。
音声認識装置は予めそれらの標準的な発声を登録してお
く。即ち、それらの音の特徴や形をメモリ上に記憶して
おく。これを以後音声パターンと呼ぶことにする。次い
で実際に発声の入力があった場合にその入力音声パター
ンと登録された音声パターンとの類似度を比較し、最も
類似度の高い組合わせを検出することによって入力音声
の認識を行う。以上が音声認識装置の一般的な認識原理
である。この場合、音声認識装置は処理に先立ち、先づ
音声を各発声単位毎に切り分けなければならないが、こ
れが容易に行々われるよう、各発声単位相互間には少く
とも0.3秒程度の空白区間(ポーズ)を設けるよう話
者に義務づけるやり方が提案されている。これを離散発
声方式の音声認識装置と云っている。
離散発声方式の音声認識装置には大きく分けて2つの使
い方がある。即ち、前述の例のように「トウキヨウ」「
オオサカ」「ナゴヤ」寺の谷半胎毎に登録し、これらを
単位として認識する方法と、イ、口、ハ等の各単音毎に
登録し認識する方法とである。
前者の場合には、各飴の発声の所要時間は^々1秒程度
゛であるから、カナ1文字当シの所要時間は0.2〜0
.3秒程度になり、けん盤入力に比べ、可成り高速と云
えるが、一方では、(1)、音声認識処理装置の内部の
メモリ容量上の制約から限られた種類の言葉しか登録で
きないこと、(2)、語数が多   ゛ければ、登録さ
れたパターン間相互に類似のものの組合せが多くなり、
認識の精度が低下する、(3)、大量の語の登録に長時
間装する等の欠点がある。
後者の方法によれば、五十音だけの登録をすることによ
り、これらの組合わせによるあらゆる語の入力ができ、
カナ鍵盤の如き自由な入力が可能とがる。
しかしながら、この方法の致命的な欠点は各単音を離散
的に発声せねばならぬので、発声の能率が極めて低下す
ることであり、認識精度の不充分さもあって、カナ鍵盤
の能率には一歩及ばないのが現状である。
上記の欠点をカバーすべく近年連続発声方式の音声認識
装置が開発されている。連続発声方式では数個の単位発
声が切れ切れでなく、互に連なって発声された場合にお
いても、それらを認識処理の過程でうまく切シ分けて認
識する方式である。
例えば、ト、つ、キ、ヨ、つなど五十音だけの登録を予
めしておくことによシ「トウキヨウ」の連続−語の発声
を処理し、認識することが可能である。この方式によれ
ば、前記に列挙した離散発声方式の2つの使い方の各各
の欠点をカバーするかに見られるが、併しなお重大な欠
点が残されている。即ち、認識精度がなお不充分であり
、精度を向上させるために、入力結果の確認ないし修正
、追加に余計な時間を必要とし、これが音声入力の効能
を大幅に減殺している。特に、イ、口、ノ・などの単音
の発声パターンは「トウキヨウ」「オオサカ」「ナゴヤ
」などの複合音の発声に比し、音の変化が単調で特徴が
つかみずらいことから、認識精度が一段と低く、ある実
験によればカナ−文字当り高々80から90%前後と云
われる。「トウキヨウ」などカナをn個組合わせた一語
当りの認識率は理論上告−文字当りの認識率rのn乗と
されるので、「゛トウキヨウ」の例では、(0,9)キ
0.59、即ち59%であり、実用上大いに問題である
また、前記離散発声方式と連続発声方式の他に、その中
間的存在にある擬似連続発声方式が提案されている。離
散発声方式においては各発声単位相互間に少なくとも0
.3秒程度の空白区間が必要であり、又連続発声方式に
おいてはこの空白区間は全〈必要ないが、各発声単位相
互間に0.02秒程度の空白区間を設けて一連の語を見
かけ上連続的に発声する方式がある。
この方式が擬似連続発声方式であり、これは又高速離散
発声方式とも言われる。この方式は、各発声単位の飴の
切り出しが容易であることから、一般に認識精度は連続
発声方式のそれに比べて高く、かつ入力速度は離散発声
方式のそれに比べて速いことから、性能的には離散発声
方式と連続発声方式の中間を行くものである。また、こ
こでは誤認識とは、間違って他の飴に認識することであ
り、認識排除とは、発声された飴がいずれの語にも判別
できずに排除することを意味する。
本発明は従来の上記実情に鑑みてなされたものであり、
従って本発明の目的は、音声認識のもつ前記の利点と欠
点とを十分認識し、音声入力の利点をうまく活用し、か
つその欠点を従来の方式とりわけベンタッチ方式等によ
ってうまく補遺し、両方式の合理的な結合によシ、正確
かつ能率的な音声信号の新規な入力装置を提供すること
にある。
本発明の上記目的は、連続あるいは擬似連続的に発声さ
れた音声を認識する音声認識部と、前記音声認識部から
の一連の認識結果を表示する表示部と、前記表示部に表
示された一連の認識結果のうち誤認識あるいは認識排除
された語を指定し該指定された飴に対応する一飴を再度
音声入力することにより正認識語と置換する修正手段と
を具備することを特徴とする音声入力データ処理装置、
によって達成される。
次に本発明をその良好な一実施例について、図面を参照
しながら詳細に説明する。第1図は本発明の一実施例を
示す概略構成図である。本図において、本発明の一実施
例は、マイクロホンを含む連続あるいは擬似連続(以下
連続的と称する)発声方式を可能とする音声認識部1、
ベンタッチ入力可能なCRT表示部2、ライトペン3お
よびこれら全体を制御する制御部4を基本的構成要素と
する。
本装置は次のように動作するよう構成される。
すなわち、音声認識部1は例えば数字109(1,2、
・・・・・・9.0)、アルファベット26種(AXB
%・・・・・・Y、Z)および濁音、半濁音を含む単音
節68種(ア、イ、つ・・・・・・ガ、ギ・・・・・・
パ、ピ・・・・・・但しジとヂ、ズとヅは同一カテゴリ
として扱う)の音声バタンか記憶されており、これらの
語を認識できるものとする。ここで例えば、数字の入力
の場合を考えるに、オペレータは“サン、ロク、ノ・チ
、ニイ、イチ”と連続的に発声すると、音声認識部1で
は、この発声人力に対し認識処理が施され、その結果、
r358☆1」と認識したとしよう。本例では2桁目の
5は6を間違って5と誤認識したもので、また4桁目の
☆は2がいずれの数字とも認識できすに排除されたもの
とする。
音声認識部1から「358☆1」が制御部4へ出力され
、ここで画面制御が行われ、CRT表示部2のいか々る
位置にいかなる形式で表示すべきかソ指示され、それら
の指示制御信号とともに認識結果がCRT表示部2へ出
力される。従って、CRT表示部2の画面上のしかるべ
き位置に「358☆1」と表示される。次に、オペレー
タはこのCR1表示部2上の認識結果から、2桁目の5
は、6を誤認識したものであシ、また4桁目は2が認識
排除されたことを知る。そこで、まず、オペレータはラ
イトベン3によりCR1表示部2上の2桁目の数字5の
位置にベンタッチを行い、再度正しく入力すべき数字6
を発声する。この場合、音声認識部1は、ライトペン3
が作動中の場合の入力音声は一語であることを知り、こ
の離散発声入力を一語連続的発声入力とみなし、認識処
理を行う。その結果は、制御部4によりライトペン3が
作動中はベンタッチにより指示された飴と置換されるよ
う制御され、その結果、CR1表示部2上の入力結果は
「368☆1」となる。また仮りに、この時再び誤認識
あるいは認識排除があった場合には、正しく入力される
迄ライトペン3を作動させつづけ、発声を繰り返せば良
い。次に、オペレータはライトペン3をCR1表示部2
上の4桁目の☆印の所にライトペン3を移動させ、前記
動作と同じように「2」と発声すれば良い。
以上は数字入力を例について述べたが、単音節入力の場
合も同様である。例えば、「ももたろう」という語群を
入力したい場合には、′モモタロウ”と連続的に発声し
、その結果、CR1表示部2上に「モオタロウ」と表示
されたとする。この場合「オ」の位置にライトベン3を
もって行き、再度1モ”と発声すれば良い。
アルファベットの入力についても全く同様である。
又、1μ加挿入の場合も同様であり、ライトベン3によ
り所定語間を指示して発声すればよい。
音声入力の場合の修正手段としては、従来は再度全語を
連続的に発声して、全語がすべて正しく認識される迄繰
り返す方法、または誤認識あるいは認識排除された飴の
みキーボードから入力する方法等があった。しかしなが
ら、前者の場合には前述した如く、全語がすべて正しく
認識される確率は非常に低く、また後者の場合には対応
するキーを見い出すのに時間がかかる等入力速度が極端
に遅くなると共に、オペレータに不快感を与え実用的で
はなかった。本発明によると、容易に修正すべき語の指
定がなされることおよび離散発声入力(これは又−語連
続的発声入力ともみなされる)の場合には、複数語連続
的発声入力の場合と比べて認識率が良いこと等から、極
めて容易に高速度で修正することができるものである。
本発明は、コンピュータの入力端末、ワードプロセッサ
、カナタイプライタなと従来フルキーボードが使われて
いたあらゆる分野に応用が可能である。また、最近では
カナ−漢字変換を%徴とするワードプロセッサが開発さ
れ実用化されているが、この場合のカナ入力手段として
も当然応用できる。要するに、本発明のねらいとすると
ころは、一つには連続的発声の音声入力の高速性を利用
して、あるまとまった長さのデータないしメツセージを
単位として人力し、かつ容易に修正処理が行なわれるこ
とを特徴としている。
なお、本実施例では、表示部としてベンタッチ入力可能
なCRT表示部を使用したが、同目的に対してはこのほ
かにも代替の手段がいろいろ考えら   □れる。例え
ば、通常のキーボード付CRT表示部を使用し、ライト
ペンの代シにCRT上にカーソルを設け、そのカーソル
をキーによシ移動させて所定の語に位置させ指定するこ
とも可能であシ、表示部を特定するものではない。
【図面の簡単な説明】
@1図は本発明の一実施例を示す概略構成図である。 110.音声認識部、2.、、CRT表示部、301.
ライトベン、409.制御部 特許出願人   日本電気株式会社 代 理 人   弁理士 熊谷雄太部  13−

Claims (1)

    【特許請求の範囲】
  1. 連続あるいは擬似連続的に発声された音声を認識する音
    声認識部と、前記音声認識部からの一連の認識結果を表
    示する表示部と、前記表示部に表示された一連の認識結
    果のうち誤認識あるいは認識排除された語を指定し該指
    定された語に対応する一語を再度音声入力することによ
    り正認識語と置換する修正手段とを具備することを特徴
    とする音声入力データ処理装置。
JP57070637A 1982-04-26 1982-04-26 音声入力デ−タ処理装置 Pending JPS58186836A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57070637A JPS58186836A (ja) 1982-04-26 1982-04-26 音声入力デ−タ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57070637A JPS58186836A (ja) 1982-04-26 1982-04-26 音声入力デ−タ処理装置

Publications (1)

Publication Number Publication Date
JPS58186836A true JPS58186836A (ja) 1983-10-31

Family

ID=13437353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57070637A Pending JPS58186836A (ja) 1982-04-26 1982-04-26 音声入力デ−タ処理装置

Country Status (1)

Country Link
JP (1) JPS58186836A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59214899A (ja) * 1983-05-23 1984-12-04 株式会社日立製作所 連続音声認識応答方法
JPS63167929A (ja) * 1987-01-05 1988-07-12 Sharp Corp 音声認識装置
US6564185B1 (en) 1998-09-08 2003-05-13 Seiko Epson Corporation Continuous speech recognition method and program medium with alternative choice selection to confirm individual words

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59214899A (ja) * 1983-05-23 1984-12-04 株式会社日立製作所 連続音声認識応答方法
JPH0552518B2 (ja) * 1983-05-23 1993-08-05 Hitachi Ltd
JPS63167929A (ja) * 1987-01-05 1988-07-12 Sharp Corp 音声認識装置
US6564185B1 (en) 1998-09-08 2003-05-13 Seiko Epson Corporation Continuous speech recognition method and program medium with alternative choice selection to confirm individual words

Similar Documents

Publication Publication Date Title
JP3542026B2 (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
JP4089861B2 (ja) 音声認識文章入力装置
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JPS58186836A (ja) 音声入力デ−タ処理装置
JPH04248596A (ja) 音声認識訂正装置
JP2000056795A (ja) 音声認識装置
US7865363B2 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
JP5596869B2 (ja) 音声認識装置
JP2001013992A (ja) 音声理解装置
JP2002189490A (ja) ピンイン音声入力の方法
JPH05119793A (ja) 音声認識方法及び装置
JP4797307B2 (ja) 音声認識装置及び音声認識方法
JPH0736481A (ja) 補完音声認識装置
JPS58123596A (ja) 補助情報を併用する音声認識方式
JP2001324995A (ja) 音声認識方法
JPH04291399A (ja) 音声認識方法
TW449734B (en) Keyword spotting method for mandarin speech without using filler models
JPH0731508B2 (ja) 音声認識応答装置
JPS63155263A (ja) 音声ワ−ドプロセツサ
JPS61139828A (ja) 言語入力装置
JPS59218547A (ja) 音声認識を用いた漢字入力装置
JPH11175087A (ja) 単語音声認識の文字列マッチング法
JPH0157370B2 (ja)