JPH03132797A

JPH03132797A - 音声認識装置

Info

Publication number: JPH03132797A
Application number: JP1272846A
Authority: JP
Inventors: Hideji Morii; 森井　秀司; Seiji Hiraoka; 平岡　省二
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-10-19
Filing date: 1989-10-19
Publication date: 1991-06-06
Also published as: EP0423800B1; DE69016568D1; EP0423800A3; EP0423800A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声を認識して機械の操作等を行なうために
用いる音声認識装置に関するものである。

従来の技術従来、音声で遠隔地にある装置に対して操作を行なうシ
ステムとして、例えば、バンキング・サービスシステム
（電子技術、第２６巻第１号４３〜４６ページ）が知ら
れている。このシステムは第６図に示すように、電話機
６１などから入力された音声を公衆回線６２等で伝送し
、その音声を中央処理装置側の音声認識装置６３で認識
し、その認識結果をタスク制御装置６４へ出力するよう
になっている。また、従来の他の例として、第６図に示
すように、使用者側の端末機６１に組み込まれた音声認
識装置６２で音声を認識し、その認識結果を端末機６１
に組み込まれた符号器６３で符号化し、伝送路６４を経
て復号器６５に送り、復号器６６で復元して中央処理装
置側のタスク制御装置６６に伝送するようにしたものも
提案されている。

発明が解決しようとする課題しかしながら、上記従来例のうち、前者においては、使
用者の音声が帯域制限などの電話回線６２の伝送特性や
伝送中に混入する回線ノイズの影響を受けるため、その
音声認識装置５３は一般に認識性能が低下する。一方、
後者においては、音声自体を電話回線６２等で伝送しな
いため、前者において見られる伝送による音声認識率の
低下はないが、音声認識装置６２が使用者の端末機６１
側に配置されているため、認識対象語粟や操作手順の変
更を中央処理装置側で行なうことは非常に困難で柔軟性
に欠けると同時に、端末側の装置価格が高いなどの課題
があつな。

本発明は、上記のような従来技術の課題を解決するもの
であり、回線ノイズなどの影響を受けないようにして音
声認識率を向上させろことができ、また、認識対象語粟
や操作手順等を中央処理装置側で自由に設定することが
でき、柔軟性を持たせることができるようにした音声認
識装置を提供することを目的とするものである。

課題を解決するための手段上記課題を解決するための本発明の技術的手段は、音声
を入力し、その入力した音声が表す音素、若しくは音節
を抽出し、記号列として出力する手段と、上記記号列を
符号化して出力する手段と、上記符号化された記号列を
伝送する手段と、上記符号化されて伝送された音素、若
しくは音節な入力し、記号列に復元する手段と、上記復
元された記号列を入力し、上記音声が表す単語や文を認
識する手段を備えたものである。

作用したがって、本発明によれば、抽出出力手段により入力
された音声が表す音素、若しくは音節を抽出し、記号列
として出力し、符号化出力手段により記号列を符号化し
、伝送手段を経て復元手段に送り、この復元手段で記号
列に復元し、単語・認識手段により記号列から単語や文
を認識して出力するので、回線ノイズなどの影響を受け
ることなく、また、認識対象語粟や操作手順等を中央処
理装置側で自由に設定することができる。

実施例以下、本発明の実施例について図面を参照しながら説明
する。

まず、本発明の第１の実施例について説明する。

第１図は本発明の第１の実施例における音声認識装置を
示す構成図である。

音声認識には認識の基本単位として単語、音節、音素な
どを用いる方法があるが、本発明においては、文や単語
を表記できる単位、すなわち、音節や音素を基本単位と
する方法を用いる。以下の実施例では、ある言語を記述
するのに最小で不可欠な音韻論的単位である音素を用い
た場合について説明する。

第１図において、１は本発明の音声認識装置、２はタス
ク制御装置である。音声認識装置１は入力する音声をそ
の言語に基づく基本単位である音素の記号列に変換する
音素認識部３と、その音素記号列を符号化して出力する
符号器４と、符号化された音素記号列を伝送する伝送路
６と、符号化されて伝送された音素を入力し、音素記号
列に復元する復号器６と、復元された音素記号列を入力
し、音声が表す単語や文を認識する単語・文認識部７と
、単語・文認識部７で音素記号列とマツチングを行なう
音素表記が格納された単語辞書８を備えている。そして
、音素認識部３および符号器４は使用者側に配置され、
復号器６、単語・文認識部７および単語辞書８は通常、
遠隔地の中央処理装置側に配置される。

タスク制御装置２はバイキングサービスや情報検索等の
各アプリケーション全体を司る装置で、音声認識装置１
に対して単語辞書８の指定や認識開始指令等を行なう。

第２図は単語辞書８の一例を示したもので、音素記号で
表記されている。第２図における「単語」の欄は各単語
辞書項目に対応する漢字表記であるが、実際の認識には
使用されない。

以上の構成において、以下、その動作について説明する
。

使用する日本語の音素の種類を下記の第１表に示す。

第１表音声はマイクロホンや電話の送話器などから電気信号と
して音素認識部３に入力され、発生された音素が認識さ
れる。その−例として「渋谷（しぶや）」と発声された
とすると、その音声信号は第３図（ａ）に示すようにな
り、音声認識部３で認識された音素記号列は上記第１表
から明らかなように第３図（ｂＪに示す「５ｉｂｕｊａ
Ｊとなる。現在の音声認識技術では１００％の音素認識
率が得られず、一般にこの音素系列には誤りが含まれる
。認識された音素記号列は符号器４により、伝送路６に
適した符号化が行なわれて出力される。伝送路６が一般
の公衆電話回線の場合には、周波数シフトキーインク（
１；’ＳＫ）方式や位相シフトキーインク（ＰＳＫ）方
式等で符号化を行なう。また、伝送路６としてバス構造
ネットワーク（イーサネット）などのディジタル回線を
利用することもできる。

復号器６では伝送路６を経て送られてきた信号を符号化
の逆の処理を行ない、音素記号列を復元する。単語・文
認識部７では復号器６からの音素記号列と第２図に示す
単語辞書８の各辞書項目の音素表記とのマツチングを行
ない、単語認識の場合、最も似通った単語の単語番号、
本例では「ｏｏｌ」を認識結果としてタスク制御装置２
に出力する。

単語辞書８は複数組用意しておき、各１回の音声認識処
理に対し、選択的に単語辞書８を使用して語粟な制限す
ることができる。文認識の場合には、更に構文情報や単
語の意味情報等を併用する。

次に、本発明の第２の実施例について説明する。

第４図は本発明の第２の実施例における音声認識装置を
示す構成図である。本実施例は音声認識装置１に対話シ
ステムに用いている。

第４図において、対話システムは伝送路６で接続された
端末機１１と中実装置１２とで構成されている。音声認
識部３および符号器４は端末機１１側に配置され、復号
器６、単語・文認識部７および単語辞書８は中実装置１
２側に配置されている。また、中実装置１２側にはタス
ク制御装置２に接続された符号器１３が配置され、端末
機１１側には符号器１３に伝送路６で接続された復号器
１４と、この復号器１４に接続された端末機制御部１６
が配置されている。

以上の構成において、以下、その動作について説明する
。

端末機１１側で利用者が発声した音声は上記第１の実施
例と同様に音声認識装置１で認識処理される。認識結果
に対するタスク制御装置２の対応は符号器１３、伝送路
６、復号器１４を経て端末機制御部１６に伝えられ、端
末機制御部１６は表示器やスピーカを用い、文字や音声
の形で利用者に伝える。また、上記タスク制御装置２か
らの対応に続いて音声認識装置１の音声認識部３に再び
音声が入力される。なお、上記音声認識装置１の認識動
作開始指令はタスク制御装置２から単語・文認識部７へ
行なわれると同時に、端末機制御部１６を介して音声認
識部３へも行なわれる。

このように上記第１、第２の実施例によれば、音声が表
す音素を抽出し、記号列を符号化して伝送手段を経て中
央処理装置側へ送り、中央処理装置側で復元化し、単語
や文を認識して出力するようにしているので、音声を直
接伝送する場合の回線ノイズなどの影響による音声認識
率の低下を防止することができ、遠隔地からの単語音声
、若しくは文音声を認識することができ、また、認識す
る単語や文を中央処理装置側で自由に設定することが可
能となる。また、第６図に示す従来例に比べ、利用者側
に置かれる多数の端末機を安価にすることができる。

なお、上記各実施例では、認識する言語の基本単位とし
て音素を用いたが、音素に限るものではなく、音節を基
本単位としてもよい。また、言語として日本語を前提と
して説明を行なったが、言語に応じた音素等の認識を行
なえば日本語以外の言語であってもよい。

発明の効果以上述べたように本発明によれば、抽出出力手段により
入力された音声が表す音素、若しくは音節を抽出し、記
号列として出力し、符号化出力手段により記号列を符号
化し、伝送手段を経て復元手段に送り、この復元手段で
記号列に復元し、単語・文認識手段により記号列から単
語や文を認識して出力するので、回線ノイズなどの影響
を受けることなく、音声認識率を向上させ、遠隔地から
入力される単語音声、若しくは文音声を高い認識率で認
識することができる。また、対話システムの運用に際し
て認識対象語儒や操作手順等を中央処理装置側で自由に
変更でき、柔軟性を持たせることができる。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認識装置を
示す構成図、第２図は上記実施例に用いる単語辞書の一
例を示す図、第３図−ぞ（転）社命し÷拷入力音声信号
と音素認識の説明図、第４図は本発明の第２の実施例に
おける音声認識装置を示す構成図、第５図および第６図
はそれぞれ従来の音声認識装置を用いたシステム構成図
である。１・・・音声認識装置、２・・・タスク制御装置、３・
・・音声認識部、４・・・符号器、５・・・伝送路、６
・・・復号器、７・・・単語・文認識部、８・・・単語
辞書。

Claims

【特許請求の範囲】

音声を入力し、その入力した音声が表す音素、若しくは
音節を抽出し、記号列として出力する手段と、上記記号
列を符号化して出力する手段と、上記符号化された記号
列を伝送する手段と、上記符号化されて伝送された音素
、若しくは音節を入力し、記号列に復元する手段と、上
記復元された記号列を入力し、上記音声が表す単語や文
を認識する手段を備えた音声認識装置。