JPH03132797A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03132797A
JPH03132797A JP1272846A JP27284689A JPH03132797A JP H03132797 A JPH03132797 A JP H03132797A JP 1272846 A JP1272846 A JP 1272846A JP 27284689 A JP27284689 A JP 27284689A JP H03132797 A JPH03132797 A JP H03132797A
Authority
JP
Japan
Prior art keywords
phoneme
symbol string
voice
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1272846A
Other languages
English (en)
Inventor
Hideji Morii
森井 秀司
Seiji Hiraoka
平岡 省二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1272846A priority Critical patent/JPH03132797A/ja
Priority to EP90120020A priority patent/EP0423800B1/en
Priority to DE69016568T priority patent/DE69016568D1/de
Publication of JPH03132797A publication Critical patent/JPH03132797A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声を認識して機械の操作等を行なうために
用いる音声認識装置に関するものである。
従来の技術 従来、音声で遠隔地にある装置に対して操作を行なうシ
ステムとして、例えば、バンキング・サービスシステム
(電子技術、第26巻第1号43〜46ページ)が知ら
れている。このシステムは第6図に示すように、電話機
61などから入力された音声を公衆回線62等で伝送し
、その音声を中央処理装置側の音声認識装置63で認識
し、その認識結果をタスク制御装置64へ出力するよう
になっている。また、従来の他の例として、第6図に示
すように、使用者側の端末機61に組み込まれた音声認
識装置62で音声を認識し、その認識結果を端末機61
に組み込まれた符号器63で符号化し、伝送路64を経
て復号器65に送り、復号器66で復元して中央処理装
置側のタスク制御装置66に伝送するようにしたものも
提案されている。
発明が解決しようとする課題 しかしながら、上記従来例のうち、前者においては、使
用者の音声が帯域制限などの電話回線62の伝送特性や
伝送中に混入する回線ノイズの影響を受けるため、その
音声認識装置53は一般に認識性能が低下する。一方、
後者においては、音声自体を電話回線62等で伝送しな
いため、前者において見られる伝送による音声認識率の
低下はないが、音声認識装置62が使用者の端末機61
側に配置されているため、認識対象語粟や操作手順の変
更を中央処理装置側で行なうことは非常に困難で柔軟性
に欠けると同時に、端末側の装置価格が高いなどの課題
があつな。
本発明は、上記のような従来技術の課題を解決するもの
であり、回線ノイズなどの影響を受けないようにして音
声認識率を向上させろことができ、また、認識対象語粟
や操作手順等を中央処理装置側で自由に設定することが
でき、柔軟性を持たせることができるようにした音声認
識装置を提供することを目的とするものである。
課題を解決するための手段 上記課題を解決するための本発明の技術的手段は、音声
を入力し、その入力した音声が表す音素、若しくは音節
を抽出し、記号列として出力する手段と、上記記号列を
符号化して出力する手段と、上記符号化された記号列を
伝送する手段と、上記符号化されて伝送された音素、若
しくは音節な入力し、記号列に復元する手段と、上記復
元された記号列を入力し、上記音声が表す単語や文を認
識する手段を備えたものである。
作用 したがって、本発明によれば、抽出出力手段により入力
された音声が表す音素、若しくは音節を抽出し、記号列
として出力し、符号化出力手段により記号列を符号化し
、伝送手段を経て復元手段に送り、この復元手段で記号
列に復元し、単語・認識手段により記号列から単語や文
を認識して出力するので、回線ノイズなどの影響を受け
ることなく、また、認識対象語粟や操作手順等を中央処
理装置側で自由に設定することができる。
実施例 以下、本発明の実施例について図面を参照しながら説明
する。
まず、本発明の第1の実施例について説明する。
第1図は本発明の第1の実施例における音声認識装置を
示す構成図である。
音声認識には認識の基本単位として単語、音節、音素な
どを用いる方法があるが、本発明においては、文や単語
を表記できる単位、すなわち、音節や音素を基本単位と
する方法を用いる。以下の実施例では、ある言語を記述
するのに最小で不可欠な音韻論的単位である音素を用い
た場合について説明する。
第1図において、1は本発明の音声認識装置、2はタス
ク制御装置である。音声認識装置1は入力する音声をそ
の言語に基づく基本単位である音素の記号列に変換する
音素認識部3と、その音素記号列を符号化して出力する
符号器4と、符号化された音素記号列を伝送する伝送路
6と、符号化されて伝送された音素を入力し、音素記号
列に復元する復号器6と、復元された音素記号列を入力
し、音声が表す単語や文を認識する単語・文認識部7と
、単語・文認識部7で音素記号列とマツチングを行なう
音素表記が格納された単語辞書8を備えている。そして
、音素認識部3および符号器4は使用者側に配置され、
復号器6、単語・文認識部7および単語辞書8は通常、
遠隔地の中央処理装置側に配置される。
タスク制御装置2はバイキングサービスや情報検索等の
各アプリケーション全体を司る装置で、音声認識装置1
に対して単語辞書8の指定や認識開始指令等を行なう。
第2図は単語辞書8の一例を示したもので、音素記号で
表記されている。第2図における「単語」の欄は各単語
辞書項目に対応する漢字表記であるが、実際の認識には
使用されない。
以上の構成において、以下、その動作について説明する
使用する日本語の音素の種類を下記の第1表に示す。
第1表 音声はマイクロホンや電話の送話器などから電気信号と
して音素認識部3に入力され、発生された音素が認識さ
れる。その−例として「渋谷(しぶや)」と発声された
とすると、その音声信号は第3図(a)に示すようにな
り、音声認識部3で認識された音素記号列は上記第1表
から明らかなように第3図(bJに示す「5ibuja
Jとなる。現在の音声認識技術では100%の音素認識
率が得られず、一般にこの音素系列には誤りが含まれる
。認識された音素記号列は符号器4により、伝送路6に
適した符号化が行なわれて出力される。伝送路6が一般
の公衆電話回線の場合には、周波数シフトキーインク(
1;’SK)方式や位相シフトキーインク(PSK)方
式等で符号化を行なう。また、伝送路6としてバス構造
ネットワーク(イーサネット)などのディジタル回線を
利用することもできる。
復号器6では伝送路6を経て送られてきた信号を符号化
の逆の処理を行ない、音素記号列を復元する。単語・文
認識部7では復号器6からの音素記号列と第2図に示す
単語辞書8の各辞書項目の音素表記とのマツチングを行
ない、単語認識の場合、最も似通った単語の単語番号、
本例では「ool」を認識結果としてタスク制御装置2
に出力する。
単語辞書8は複数組用意しておき、各1回の音声認識処
理に対し、選択的に単語辞書8を使用して語粟な制限す
ることができる。文認識の場合には、更に構文情報や単
語の意味情報等を併用する。
次に、本発明の第2の実施例について説明する。
第4図は本発明の第2の実施例における音声認識装置を
示す構成図である。本実施例は音声認識装置1に対話シ
ステムに用いている。
第4図において、対話システムは伝送路6で接続された
端末機11と中実装置12とで構成されている。音声認
識部3および符号器4は端末機11側に配置され、復号
器6、単語・文認識部7および単語辞書8は中実装置1
2側に配置されている。また、中実装置12側にはタス
ク制御装置2に接続された符号器13が配置され、端末
機11側には符号器13に伝送路6で接続された復号器
14と、この復号器14に接続された端末機制御部16
が配置されている。
以上の構成において、以下、その動作について説明する
端末機11側で利用者が発声した音声は上記第1の実施
例と同様に音声認識装置1で認識処理される。認識結果
に対するタスク制御装置2の対応は符号器13、伝送路
6、復号器14を経て端末機制御部16に伝えられ、端
末機制御部16は表示器やスピーカを用い、文字や音声
の形で利用者に伝える。また、上記タスク制御装置2か
らの対応に続いて音声認識装置1の音声認識部3に再び
音声が入力される。なお、上記音声認識装置1の認識動
作開始指令はタスク制御装置2から単語・文認識部7へ
行なわれると同時に、端末機制御部16を介して音声認
識部3へも行なわれる。
このように上記第1、第2の実施例によれば、音声が表
す音素を抽出し、記号列を符号化して伝送手段を経て中
央処理装置側へ送り、中央処理装置側で復元化し、単語
や文を認識して出力するようにしているので、音声を直
接伝送する場合の回線ノイズなどの影響による音声認識
率の低下を防止することができ、遠隔地からの単語音声
、若しくは文音声を認識することができ、また、認識す
る単語や文を中央処理装置側で自由に設定することが可
能となる。また、第6図に示す従来例に比べ、利用者側
に置かれる多数の端末機を安価にすることができる。
なお、上記各実施例では、認識する言語の基本単位とし
て音素を用いたが、音素に限るものではなく、音節を基
本単位としてもよい。また、言語として日本語を前提と
して説明を行なったが、言語に応じた音素等の認識を行
なえば日本語以外の言語であってもよい。
発明の効果 以上述べたように本発明によれば、抽出出力手段により
入力された音声が表す音素、若しくは音節を抽出し、記
号列として出力し、符号化出力手段により記号列を符号
化し、伝送手段を経て復元手段に送り、この復元手段で
記号列に復元し、単語・文認識手段により記号列から単
語や文を認識して出力するので、回線ノイズなどの影響
を受けることなく、音声認識率を向上させ、遠隔地から
入力される単語音声、若しくは文音声を高い認識率で認
識することができる。また、対話システムの運用に際し
て認識対象語儒や操作手順等を中央処理装置側で自由に
変更でき、柔軟性を持たせることができる。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認識装置を
示す構成図、第2図は上記実施例に用いる単語辞書の一
例を示す図、第3図−ぞ(転)社命し÷拷入力音声信号
と音素認識の説明図、第4図は本発明の第2の実施例に
おける音声認識装置を示す構成図、第5図および第6図
はそれぞれ従来の音声認識装置を用いたシステム構成図
である。 1・・・音声認識装置、2・・・タスク制御装置、3・
・・音声認識部、4・・・符号器、5・・・伝送路、6
・・・復号器、7・・・単語・文認識部、8・・・単語
辞書。

Claims (1)

    【特許請求の範囲】
  1. 音声を入力し、その入力した音声が表す音素、若しくは
    音節を抽出し、記号列として出力する手段と、上記記号
    列を符号化して出力する手段と、上記符号化された記号
    列を伝送する手段と、上記符号化されて伝送された音素
    、若しくは音節を入力し、記号列に復元する手段と、上
    記復元された記号列を入力し、上記音声が表す単語や文
    を認識する手段を備えた音声認識装置。
JP1272846A 1989-10-19 1989-10-19 音声認識装置 Pending JPH03132797A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP1272846A JPH03132797A (ja) 1989-10-19 1989-10-19 音声認識装置
EP90120020A EP0423800B1 (en) 1989-10-19 1990-10-18 Speech recognition system
DE69016568T DE69016568D1 (de) 1989-10-19 1990-10-18 Einrichtung zur Spracherkennung.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1272846A JPH03132797A (ja) 1989-10-19 1989-10-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03132797A true JPH03132797A (ja) 1991-06-06

Family

ID=17519590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1272846A Pending JPH03132797A (ja) 1989-10-19 1989-10-19 音声認識装置

Country Status (3)

Country Link
EP (1) EP0423800B1 (ja)
JP (1) JPH03132797A (ja)
DE (1) DE69016568D1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
JP2001069071A (ja) * 1999-07-16 2001-03-16 Bayerische Motoren Werke Ag 車両内の通信システムと車両外の中央計算機との間の情報を無線伝達するための方法
US7225134B2 (en) 2000-06-20 2007-05-29 Sharp Kabushiki Kaisha Speech input communication system, user terminal and center system

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
CN1120469C (zh) 1998-02-03 2003-09-03 西门子公司 传输语音数据的方法
EP1220202A1 (en) * 2000-12-29 2002-07-03 Alcatel System and method for coding and decoding speaker-independent and speaker-dependent speech information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151726A (ja) * 1982-03-05 1983-09-09 Nippon Telegr & Teleph Corp <Ntt> 衛星回線による音声伝送方式

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
GB2183880A (en) * 1985-12-05 1987-06-10 Int Standard Electric Corp Speech translator for the deaf
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151726A (ja) * 1982-03-05 1983-09-09 Nippon Telegr & Teleph Corp <Ntt> 衛星回線による音声伝送方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
US5909662A (en) * 1995-08-11 1999-06-01 Fujitsu Limited Speech processing coder, decoder and command recognizer
JP2001069071A (ja) * 1999-07-16 2001-03-16 Bayerische Motoren Werke Ag 車両内の通信システムと車両外の中央計算機との間の情報を無線伝達するための方法
US7225134B2 (en) 2000-06-20 2007-05-29 Sharp Kabushiki Kaisha Speech input communication system, user terminal and center system

Also Published As

Publication number Publication date
EP0423800B1 (en) 1995-02-01
DE69016568D1 (de) 1995-03-16
EP0423800A3 (en) 1992-01-02
EP0423800A2 (en) 1991-04-24

Similar Documents

Publication Publication Date Title
KR100597110B1 (ko) 사전 데이터 압축 방법
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
JP3672800B2 (ja) 音声入力通信システム
US6975986B2 (en) Voice spelling in an audio-only interface
KR20060049290A (ko) 혼성-언어 텍스트의 음성 변환 방법
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
GB2423403A (en) Distributed language processing system and method of outputting an intermediary signal
Bagshaw Phonemic transcription by analogy in text-to-speech synthesis: Novel word pronunciation and lexicon compression
CN112420050A (zh) 一种语音识别方法、装置和电子设备
JPH03132797A (ja) 音声認識装置
Rabiner Toward vision 2001: Voice and audio processing considerations
Barros et al. Maximum entropy motivated grapheme-to-phoneme, stress and syllable boundary prediction for Portuguese text-to-speech
JP2655086B2 (ja) 電話回線音声入力システム
KR100652580B1 (ko) 이동단말기의 텍스트/음성 변환 방법
JPH10116093A (ja) 音声認識装置
CN1235320A (zh) 噪声环境下语音控制指令产生装置
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
JPH0155507B2 (ja)
CN118262724A (zh) 多模态语音模型的拒识训练方法、系统、设备及存储介质
JPS62119591A (ja) 文章読上げ装置
JPH08297673A (ja) 音声入力翻訳装置
JP2002189490A (ja) ピンイン音声入力の方法
KR100317215B1 (ko) Plu를 이용한 화자독립/어휘독립 음성모델 등록장치 및그 방법
Sharman Speech recognition in the office: how the technology supports dictation
CN117059077A (zh) 语音训练方法及计算机可读存储介质