JP2685429B2

JP2685429B2 - 音声認識装置

Info

Publication number: JP2685429B2
Application number: JP8250024A
Authority: JP
Inventors: 博松浦; 宏之坪井; 彰一平井; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-09-20
Filing date: 1996-09-20
Publication date: 1997-12-03
Anticipated expiration: 2012-12-03
Also published as: JPH09120295A

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、入力音声に対する
複雑な認識処理を整然と効率良く行い得る音声認識装置
に関する。【０００２】【従来の技術】近時、音声認識処理技術が発達し、例え
ば工場の生産ラインにおける選別工程の音声入力による
制御や、音声による電話サービス等に応用されている。【０００３】また最近では、音声入力による文章作成装
置、つまり音声ワードプロセッサの実用化が進められて
いる。【０００４】ところが音声は種々の個人的特徴を含み、
またその変動要素も多い。これ故、一般的にその認識処
理方式が高度であり、また複雑である。特に不特定話者
を対象とし、連続発声された音声を認識処理する場合、
その認識処理法が相当複雑化する。またその認識処理時
間が相当長くなることも否めない。【０００５】そこで、例えば連続発声された音声に対す
る文節の切れ目などを指示するための支援情報をキー入
力操作により入力して、入力音声に対する認識処理を支
援することが考えられている。但し、文節の切れ目等の
支援情報は、認識処理が実行されて、認識候補が出力さ
れた後に入力する必要がある。即ち、支援情報を入力し
ても、入力音声に対する認識処理は前述したように相当
の時間が掛かる。【０００６】このため、その時間的なずれに起因して、
例えば処理制御コードに従って入力音声に対する認識候
補の言語的な処理を行おうとしても、その処理対象とす
る認識候補が求められていないことがある等の不具合が
生じる。このような理由により、複雑な音声認識処理を
整然と効率良く行うことが非常に困難である等の不具合
があった。【０００７】【発明が解決しようとする課題】文節の切れ目などを指
示するための支援情報をキー入力操作により入力して、
入力音声に対する認識処理を支援する方式が考えられて
いるが、認識処理が実行されて、認識候補が出力された
後に入力する必要があるため、必ずしも認識処理を支援
することが効果的ではない。【０００８】本発明の目的は、入力音声の文節の範囲を
指示するための支援情報を入力して特に文節単位の認識
処理を確実に実行できるように支援する機能を有し、結
果的に入力音声に対する認識処理を整然と効率良く行う
ことのできる実用性の高い音声認識装置を提供すること
にある。【０００９】【課題を解決するための手段】本発明の第１は、特に入
力音声に対する音節単位の音声認識処理を実行し、入力
音声の各音節の始端を示す第１のコード情報を出力する
プロセッサ手段と、入力音声の各音節からなる文節の範
囲を指示するための第２のコード情報を入力するための
入力手段と、認識候補バッファおよび入力順序制御バッ
ファを有し、前記音節単位の認識候補を前記認識候補バ
ッファに格納し、前記入力順序制御バッファには前記第
１のコード情報を前記プロセッサ手段により出力された
順に格納し、かつ前記入力手段により入力された第２の
コード情報を入力に応じて前記第１のコード情報と共に
格納するように構成されたメモリ手段とを備えた音声認
識装置である。プロセッサ手段は、メモリ手段に格納さ
れた第１，第２の各コード情報に基づいて、第１のコー
ド情報により認識候補バッファに格納された音節単位の
認識候補を読出し、第２のコード情報により認識候補か
らなる文字列の文節を特定し、この文節単位の文字列に
対する言語的認識処理を実行する。【００１０】本発明の第２は、本発明の第１の音声認識
装置に対して、第２のコード情報により認識候補からな
る文字列の文節を特定して文節単位の文書作成処理、具
体的には例えば仮名漢字変換処理を実行する機能を有す
る音声認識装置である。【００１１】【発明の実施の形態】以下図面を参照して本発明の実施
の形態を説明する。【００１２】（システム構成）図１は、本実施形態に関
係する音声認識装置の構成を示すブロック図ある。即
ち、音声入力部１を介して入力された音声信号はＡ／Ｄ
変換器２を介してディジタル化されて特徴抽出部３に導
かれる。特徴抽出部３は、例えば１６チャンネルのバン
ドパスフィルタにより構成されるもので、上記そのフィ
ルタ出力として前記入力音声の特徴パラメータを順次抽
出している。【００１３】類似度計算部４は上記入力音声の特徴パラ
メータを音声認識辞書と照合し、認識対象カテゴリの特
徴に対する上記特徴パラメータの類似度を、例えば複合
類似度法によって順次計算している。【００１４】そして類似度計算部４で求められた各カテ
ゴリに対する前記入力音声の特徴パラメータの類似度、
および前記特徴抽出部３で抽出された入力音声の特徴パ
ラメータは、ＤＭＡコントローラ５の制御を受けて、例
えば１フレーム（８ｍｓｅｃ）周期毎にバス６を介して
第１の共有メモリ７にブロック転送され、例えば図２に
示すように格納される。【００１５】尚、ＤＭＡコントローラ５は第１のプロセ
ッサ８の制御を受けて動作して、上記データ転送を制御
するものである。しかしその転送データ量が少ない場合
には、上記ＤＭＡコントローラ５を用いることなく、前
記第１のプロセッサ８の直接的な制御によって前記類似
度および特徴パラメータの共有メモリ７へのデータ転送
が行われる場合もある。【００１６】第１のプロセッサ８は、ローカルメモリ９
に格納されたプログラムに従って、該ローカルメモリ９
を作業領域として動作するもので、この第１のプロセッ
サ８にインターフェース１０，１１をそれぞれ介して前
記特徴抽出部３および類似度計算部４が接続され、その
処理動作が制御されている。またこの第１のプロセッサ
８は、バス交換回路１２を介して前記バス６に接続され
ており、前記共有メモリ７を直接アクセスし得るように
なっている。【００１７】この第１のプロセッサ８によって、前記共
有メモリ１５に格納されたデータ（特徴パラメータとそ
の類似度）から前記入力音声の、例えば摩擦性、破裂
性、無音性、鼻音性、無声性、有声性等の音響的特徴が
１フレーム毎に抽出されている。そしてこの第１のプロ
セッサ８によって抽出された音響的特徴は前記共有メモ
リ７に転送され、前記特徴パラメータやその類似度と共
に格納されるようになっている。【００１８】尚、共有メモリ７は、図２に示すように、
１項目（１フレーム）当り１９２バイトの情報格納領域
を５００項目分備え、４秒分に亙る入力音声の情報を格
納し得るように構成されている。そして前記特徴抽出部
３で求められた特徴情報（特徴パラメータ）、類似度計
算部４で計算された類似度の情報、およびこれらの情報
に基いて前記第１のプロセッサ８で求められた音響的特
徴情報がそれぞれフレーム毎に格納される。この際、そ
のフレームに対する第１のプロセッサ８による処理が終
了したことを示すフェーズ情報が、上記共有メモリ７に
書込まれる。【００１９】このようにして共有メモリ７には、第１の
プロセッサ８の制御の下で処理された入力音声の分析デ
ータが１フレームづつ格納され、常に現在から過去４秒
間に亙る分析データが保有されるようになっている。【００２０】また前記第１のプロセッサ８は、上述した
如く入力音声の音響的特徴を抽出した後、その音響的特
徴等に従って前記入力音声に対する音声区間の検出を行
っている。そしてその検出した音声区間に従って、例え
ば各音節の始端を示すコードを発生し、その検出タイミ
ングを音声の入力タイミングとして上記始端コードを後
述する第２の共有メモリに転送している。【００２１】一方、上記バス６にはバス交換回路１３を
介して第２のプロセッサ１４、およびローカルメモリ１
５が接続されている。この第２のプロセッサ１４は、ロ
ーカルメモリ１５に格納されたプログラムに従って、該
ローカルメモリ１５を作業領域として動作するものであ
り、前記共有メモリ７を直接アクセスし得るように構成
されている。【００２２】この第２のプロセッサ１４によって、上記
共有メモリ７に格納された情報が前記入力音声を１フレ
ーム毎に認識処理され、その認識候補が求められる。そ
して第２のプロセッサ１４は、例えば１フレーム毎に第
３位まで認識候補を求めて後述する第２の共有メモリに
転送している。この第２のプロセッサ１４による入力音
声のフレーム単位での認識処理は、前記フェーズ情報に
従って前記第１のプロセッサ８による入力音声の該当フ
レームに対する分析処理が終了していることを認識して
行われる。【００２３】尚、インターフェース１６を介して上記バ
ス６に接続されたフロッピーディスクドライブ（ＦＤ
Ｄ）１７は、例えば前記音声認識辞書や音声用仮名漢字
辞書等を格納したものである。このＦＤＤ１７から上記
辞書情報が前記第１および第２のプロセッサ８，１４に
読出されて、前述した特徴パラメータの認識対象カテゴ
リに対する類似度計算や入力音声の音響的特徴の抽出処
理、更には認識処理による認識候補の抽出等が行われる
ことになる。【００２４】以上の処理ブロック（第１のプロセッサ
系）により、入力音声の特徴情報の抽出処理と、抽出さ
れた特徴情報に基く入力音声の認識処理とが、共有メモ
リ７を介する第１のプロセッサ８と第２のプロセッサ１
４との間のデータの受渡しによって相互に連携して行わ
れるようになっている。【００２５】つまり第１のプロセッサ８によって入力音
声の特徴情報が求められ、その特徴情報が共有メモリ７
に格納される。そして第２のプロセッサ１４は共有メモ
リ７に格納された特徴情報に従ってその入力音声を認識
処理し、その認識候補を求めるようになっている。【００２６】ここで前記第１のプロセッサ８と第２のプ
ロセッサ１４とによって共有される共有メモリ７は、時
分割制御されて上記第１および第２のプロセッサ８，１
４によりそれぞれアクセスされる。従って第１のプロセ
ッサ８は、第２のプロセッサ１４の処理動作とは独立に
入力音声を逐次分析処理し、その分析結果（入力音声の
特徴情報）を順次共有メモリ７に格納する。これに対し
て第２のプロセッサ１５は、共有メモリ７にその特徴情
報の全てが書込まれたフレームに対して、順にそのフレ
ームの入力音声に対する認識処理を実行することにな
る。【００２７】従って第１および第２のプロセッサ８，１
５は、入力音声に対してパイプライン的に、その分析処
理とその分析結果（特徴情報）に基く認識処理とをそれ
ぞれ実行することになる。【００２８】一方、前記バス６にはバスインターフェー
ス１８を介して第２のプロセッサ系のバス１９が接続さ
れている。【００２９】この第２のプロセッサ系は、バス１９に接
続された第２の共有メモリ２０と、バス交換回路２１を
介してバス１９に接続された第３のプロセッサ２２とそ
のローカルメモリ２３、およびインターフェース２４，
２５をそれぞれ介して上記バス１９に接続されたマウス
２６とキーボード２７、そしてビデオＲＡＭ２８を介し
て上記バス１９に接続されたディスプレイ２９とからな
る。【００３０】第２の共有メモリ２０は、上述した第１乃
至第３のプロセッサ８，１４，２２によってそれぞれ共
有されるもので、例えば図３に示すように認識候補バッ
ファ２０ａと入力順序制御バッファ２０ｂとを備えて構
成される。【００３１】この認識候補バッファ２０ａは、前記第２
のプロセッサ１５によってフレーム毎に求められた第１
位から第３位の認識候補を順に格納するものである。ま
た入力順序制御バッファ２０ｂは、前記第１のプロセッ
サ８によって検出された入力音声の始端検出コード、お
よびマウス２６やキーボード２７からコード入力される
処理制御コマンドをその入力順序に従って順に格納する
ものである。【００３２】しかして第３のプロセッサ２２は、ローカ
ルメモリ２３に格納されたプログラムに従い、該ローカ
ルメモリ２３を作業領域として動作するもので、前記共
有メモリ２０の認識候補バッファ２０ａに格納された認
識候補を順に読出し、例えば日本語情報辞書や連接辞書
を参照して言語的に検定し、前記入力音声に対する認識
結果を求めている。そしてその認識結果を、例えば順次
仮名漢字変換処理して前記ビデオＲＡＭ２８に書込み、
該ビデオＲＡＭ２８上に日本語文章を作成して前記ディ
スプレイ２９にて表示している。【００３３】即ち、第３のプロセッサ２２は第２の共有
メモリ２０を介して前記第２のプロセッサ１４からの処
理データ（認識候補）を受け、これを言語的に処理して
その認識結果を求めるものとなっている。【００３４】ところで第３のプロセッサ２２による前記
認識候補の言語的処理は、前記共有メモリ２０の入力順
序制御バッファ２０ｂに格納されたコード情報に従っ
て、その手続きの流れが制御される。【００３５】即ち、前述したように入力順序制御バッフ
ァ２０ｂには入力音声の入力タイミングを示す音声始端
コード、および前記マウス２６やキーボード２７からコ
ード入力された処理制御コマンドや文字コードが、その
入力順に格納されている。この処理制御コマンドは、例
えば入力音声の文節の区切りを指示する情報等からな
る。【００３６】しかして今、例えば図４に示すように音声
が入力され、その入力音声に関する処理制御コマンドが
マウス２６やキーボード２７からコード入力されると、
上記入力音声の各音節の始端検出コードと処理制御コー
ドとが、図５に示すようにその入力順序に従って入力順
序制御バッファ２０ｂに格納される。【００３７】第３のプロセッサ２２は、この入力順序制
御バッファ２０ｂに格納されたコードを順に読出し、そ
のコードを判定して前記認識候補バッファ２０ａに格納
される認識候補に対する言語的な認識処理を実行するこ
とになる。【００３８】尚、認識候補バッファ２０ａに格納される
第１位から第３位までの各音節に対する認識候補は、入
力順序制御バッファ２０ｂに格納される始端検出コード
にそれぞれ対応付けられる。【００３９】従って図４および図５に示される例では、
第３のプロセッサ２２は第１音節目の始端コードを得、
次にマウスキー入力コードを得た場合、前記認識候補バ
ッファ２０ａに第１音節目の入力音声に対する認識候補
が格納されていることを上記始端コードに従って確認し
た後、上記マウスキー入力コードに従う言語的処理を実
行することになる。その後、次のタイミングで入力され
たキーボード入力コードに従って、その指示された処理
を行うことになる。【００４０】同様にして第３音節目の始端コードを得た
後、例えばマウスキー入力コードで示される文節の区切
りを示す情報を得た場合、第３のプロセッサ２２は上記
第３音節目に対する認識候補が認識候補バッファ２０ａ
に得られたことを確認して、その文節に対する言語的処
理を行うことになる。【００４１】尚、認識候補バッファ２０ａへの各音節に
対する認識候補の格納の終了は、例えば第２のプロセッ
サ１４が上記認識候補の格納時に該認識候補バッファ２
０ａに同時に書込む、第２のプロセッサ１４による処理
の終了を示すフェーズ情報を検出する等して確認され
る。【００４２】以上のようにして本装置では、第１乃至第
３のプロセッサ８，１４，２２により、入力音声に対す
る特徴抽出等の分析処理、この分析処理によって抽出さ
れた特徴情報に基く認識処理、およびその結果求められ
た認識候補に対する言語的な処理による認識結果の選択
と文章作成処理が、それぞれ段階的に分担して実行され
る。しかも各プロセッサはこれらの処理をパイプライン
的に実行し、共有メモリ７，２０を介してその処理デー
タを受渡しながら、その処理を並列的に実行する。【００４３】また共有メモリ７，２０に格納されるフェ
ーズ情報に従って前段のプロセッサによる処理が終了し
ていることを確認しながら、上述した各処理をそれぞれ
独立に実行することになる。従って入力音声に対する複
雑な認識処理を整然と、効率よく実行することが可能と
なる。【００４４】また本装置にあっては、共有メモリ２０の
入力順序制御バッファ２０ｂによって音声の入力タイミ
ングと、その入力音声に対する処理制御コマンドの入力
タイミングとが管理されているので、処理制御コマンド
を入力した時点と、その処理すべき入力音声に対する認
識候補が得られるタイミングとの間に時間的なずれが生
じても、その時間的なずれに拘りなく正確に該入力音声
に対する処理が行われる。【００４５】従って音声を発声入力しながら、その発声
に応じて処理制御コマンドを随時入力しても、その入力
順序に従って上記入力音声が正しく認識処理されること
になる。故に、発声者（オペレータ）に対する負担を大
幅に軽減して、自然性良く音声入力による文章作成を行
うことが可能となる。【００４６】また前記３つのプロセッサにおけるメモリ
アドレス空間の割当てを、例えば図６に示すように設定
しておけば、各プロセッサは任意に共有メモリ７，２０
をアクセスすることが可能となる。そして第１のプロセ
ッサ８と第２のプロセッサ１４とに共有される共有メモ
リ７に、例えば音声認識用のフレームデータを格納する
ようにし、また第１のプロセッサ８、第２のプロセッサ
１４、および第３のプロセッサ２２によって共有される
共有メモリ７に、例えばシステム制御用のフェイズ情
報、認識結果候補、および入力順序制御情報等を格納す
るようにすれば、個々のローカルメモリ、および共有メ
モリにそれぞれ格納する情報を最少限に止どめることが
可能となる。そして各プロセッサは、個々に独立に動作
してローカルメモリまたは共有メモリをアクセスすれば
良いので、そのアクセスの高速化を図り得る等の効果が
奏せられる。【００４７】従って複数のプロセッサによる音声認識処
理の分散化と、その並列的な処理、および共有メモリを
介したパイプライン的な処理とによって入力音声を整然
と、且つ効率良く実行することが可能となる等の実用上
多大なる効果が奏せられる。また本装置にあっては、各
プロセッサによって音声認識処理に対する役割が分担さ
れているので、その役割毎にプロセッサ系のモジュール
化を図ることが容易である。従ってハードウェア構成の
簡易化を図り得ると共に、ソフトウェア個性の簡略化を
図ることも容易であり、システムの拡張性に優れている
等の効果が奏せられる。【００４８】尚、本発明は上述した実施形態に限定され
るものではない。ここでは、音声の認識処理を３段階に
分けて実行したが、入力音声の分析処理とその認識処理
とは、コード入力される処理制御コマンドに関係なく実
行できることからこれらを統合して、その音声認識処理
を２段階に分けて実行するようにしても良い。また複数
のプロセッサによって共有メモリを時分割に共有する為
の制御方式も特に限定されない。その他、本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。【００４９】【発明の効果】以上詳述したように本発明によれば、一
連の音声認識処理を第１および第２のプロセッサ系にそ
れぞれ分散させて担わせ、これらのプロセッサ間で共有
メモリを介して処理データの受渡しを行いながら入力音
声に対する認識処理をそれぞれ独立に実行するので、入
力音声を効率良く認識処理することができる。また情報
の入力順序に従って各プロセッサによる認識処理の手順
が制御されるので、入力音声に対する認識処理を整然と
実行することが可能となる。また複数のプロセッサは、
認識処理レベルに応じて分散された処理をそれぞれ個別
に実行すれば良いので、各プロセッサに対する負担を軽
くすることが可能となり、各プロセッサとしては比較的
安価なものを用いることが可能となる。しかも、複数の
プロセッサによって処理を分担させるので、そのモジュ
ール化を図ることが可能となり、ハードウェアおよびソ
フトウェアの両面において、その構成の簡略化を図るこ
とが可能となる等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】【図１】本発明の実施形態に関係する音声認識装置の構
成を示すブロック図。【図２】本実施形態に関係する第１の共有メモリの構成
を示す図。【図３】本実施形態に関係する第２の共有メモリの構成
を示す図。【図４】本実施形態の動作を説明するための図。【図５】本実施形態の動作を説明するための図。【図６】本実施形態に関係するプロセッサのメモリアド
レス空間の構成例を示す図。【符号の説明】１…音声入力部２…Ａ／Ｄ変換器３…特徴抽出部４…類似度計算部５…ＤＭＡコントローラ６…バス７…第１の共有メモリ８…第１のプロセッサ９…ローカルメモリ１０…インターフェース１１…インターフェース１２…バス交換回路１３…バス交換回路１４…第２のプロセッサ１５…ローカルメモリ１６…ＦＤＤインターフェース１７…ＦＤＤ１８…バスインターフェース１９…バス２０…第２の共有メモリ２２…第３のプロセッサ２３…ローカルメモリ２４…インターフェース２５…インターフェース２６…マウス２７…キーボード２８…ビデオＲＡＭ２９…ディスプレイ

───────────────────────────────────────────────────── フロントページの続き (72)発明者竹林洋一神奈川県川崎市幸区小向東芝町１番地株式会社東芝総合研究所内 (56)参考文献特公昭47−21323（ＪＰ，Ｂ１)

Claims

(57)【特許請求の範囲】１．入力音声に対する特徴抽出処理、類似度計算処理お
よび音響的特徴抽出処理を含むフレーム単位の分析処理
を実行してフレーム単位の分析結果を出力し、前記入力
音声の各音節の始端を示す第１のコード情報を出力し、
前記分析結果に基づいて前記入力音声に対する音節単位
の音声認識処理を実行して認識候補を出力する第１のプ
ロセッサ手段と、前記入力音声の各音節からなる文節の範囲を指示するた
めの第２のコード情報を入力するための入力手段と、認識候補バッファおよび入力順序制御バッファを有し、
前記音節単位の認識候補を前記認識候補バッファに格納
し、前記入力順序制御バッファには前記第１のコード情
報を前記プロセッサ手段により出力された順に格納し、
かつ前記入力手段により入力された第２のコード情報を
入力に応じて前記第１のコード情報と共に格納するよう
に構成されたメモリ手段と、前記メモリ手段に格納された前記第１，第２の各コード
情報に基づいて、前記第１のコード情報により前記認識
候補バッファに格納された音節単位の認識候補を読出
し、前記第２のコード情報により認識候補からなる文字
列の文節を特定し、この文節単位の文字列に対する言語
的認識処理を実行して、前記入力音声に対する音声認識
結果を決定する第２のプロセッサ手段とを具備したこと
を特徴とする音声認識装置。２．入力音声に対する音節単位の音声認識処理を実行し
て認識候補を出力し、かつ前記入力音声の各音節の始端
を示す第１のコード情報を出力する音声認識手段と、前記入力音声の入力時に、前記入力音声の各音節からな
る文節の範囲を指示するための第２のコード情報を入力
するための入力手段と、前記音節単位の認識候補を格納する認識候補バッファ手
段と、前記第１のコード情報を出力された順に格納し、かつ前
記入力手段により入力された第２のコード情報を格納す
る入力順序制御バッファ手段と、前記第１のコード情報により前記認識候補バッファ手段
から音節単位の認識候補を読出し、前記第２のコード情
報により認識候補からなる文字列の文節を特定して文節
単位の文書作成処理を実行する手段とを具備したことを
特徴とする音声認識装置。