JP2685429B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2685429B2 JP2685429B2 JP8250024A JP25002496A JP2685429B2 JP 2685429 B2 JP2685429 B2 JP 2685429B2 JP 8250024 A JP8250024 A JP 8250024A JP 25002496 A JP25002496 A JP 25002496A JP 2685429 B2 JP2685429 B2 JP 2685429B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- recognition
- voice
- code information
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声に対する
複雑な認識処理を整然と効率良く行い得る音声認識装置
に関する。 【0002】 【従来の技術】近時、音声認識処理技術が発達し、例え
ば工場の生産ラインにおける選別工程の音声入力による
制御や、音声による電話サービス等に応用されている。 【0003】また最近では、音声入力による文章作成装
置、つまり音声ワードプロセッサの実用化が進められて
いる。 【0004】ところが音声は種々の個人的特徴を含み、
またその変動要素も多い。これ故、一般的にその認識処
理方式が高度であり、また複雑である。特に不特定話者
を対象とし、連続発声された音声を認識処理する場合、
その認識処理法が相当複雑化する。またその認識処理時
間が相当長くなることも否めない。 【0005】そこで、例えば連続発声された音声に対す
る文節の切れ目などを指示するための支援情報をキー入
力操作により入力して、入力音声に対する認識処理を支
援することが考えられている。但し、文節の切れ目等の
支援情報は、認識処理が実行されて、認識候補が出力さ
れた後に入力する必要がある。即ち、支援情報を入力し
ても、入力音声に対する認識処理は前述したように相当
の時間が掛かる。 【0006】このため、その時間的なずれに起因して、
例えば処理制御コードに従って入力音声に対する認識候
補の言語的な処理を行おうとしても、その処理対象とす
る認識候補が求められていないことがある等の不具合が
生じる。このような理由により、複雑な音声認識処理を
整然と効率良く行うことが非常に困難である等の不具合
があった。 【0007】 【発明が解決しようとする課題】文節の切れ目などを指
示するための支援情報をキー入力操作により入力して、
入力音声に対する認識処理を支援する方式が考えられて
いるが、認識処理が実行されて、認識候補が出力された
後に入力する必要があるため、必ずしも認識処理を支援
することが効果的ではない。 【0008】本発明の目的は、入力音声の文節の範囲を
指示するための支援情報を入力して特に文節単位の認識
処理を確実に実行できるように支援する機能を有し、結
果的に入力音声に対する認識処理を整然と効率良く行う
ことのできる実用性の高い音声認識装置を提供すること
にある。 【0009】 【課題を解決するための手段】本発明の第1は、特に入
力音声に対する音節単位の音声認識処理を実行し、入力
音声の各音節の始端を示す第1のコード情報を出力する
プロセッサ手段と、入力音声の各音節からなる文節の範
囲を指示するための第2のコード情報を入力するための
入力手段と、認識候補バッファおよび入力順序制御バッ
ファを有し、前記音節単位の認識候補を前記認識候補バ
ッファに格納し、前記入力順序制御バッファには前記第
1のコード情報を前記プロセッサ手段により出力された
順に格納し、かつ前記入力手段により入力された第2の
コード情報を入力に応じて前記第1のコード情報と共に
格納するように構成されたメモリ手段とを備えた音声認
識装置である。プロセッサ手段は、メモリ手段に格納さ
れた第1,第2の各コード情報に基づいて、第1のコー
ド情報により認識候補バッファに格納された音節単位の
認識候補を読出し、第2のコード情報により認識候補か
らなる文字列の文節を特定し、この文節単位の文字列に
対する言語的認識処理を実行する。 【0010】本発明の第2は、本発明の第1の音声認識
装置に対して、第2のコード情報により認識候補からな
る文字列の文節を特定して文節単位の文書作成処理、具
体的には例えば仮名漢字変換処理を実行する機能を有す
る音声認識装置である。 【0011】 【発明の実施の形態】以下図面を参照して本発明の実施
の形態を説明する。 【0012】(システム構成)図1は、本実施形態に関
係する音声認識装置の構成を示すブロック図ある。即
ち、音声入力部1を介して入力された音声信号はA/D
変換器2を介してディジタル化されて特徴抽出部3に導
かれる。特徴抽出部3は、例えば16チャンネルのバン
ドパスフィルタにより構成されるもので、上記そのフィ
ルタ出力として前記入力音声の特徴パラメータを順次抽
出している。 【0013】類似度計算部4は上記入力音声の特徴パラ
メータを音声認識辞書と照合し、認識対象カテゴリの特
徴に対する上記特徴パラメータの類似度を、例えば複合
類似度法によって順次計算している。 【0014】そして類似度計算部4で求められた各カテ
ゴリに対する前記入力音声の特徴パラメータの類似度、
および前記特徴抽出部3で抽出された入力音声の特徴パ
ラメータは、DMAコントローラ5の制御を受けて、例
えば1フレーム(8msec)周期毎にバス6を介して
第1の共有メモリ7にブロック転送され、例えば図2に
示すように格納される。 【0015】尚、DMAコントローラ5は第1のプロセ
ッサ8の制御を受けて動作して、上記データ転送を制御
するものである。しかしその転送データ量が少ない場合
には、上記DMAコントローラ5を用いることなく、前
記第1のプロセッサ8の直接的な制御によって前記類似
度および特徴パラメータの共有メモリ7へのデータ転送
が行われる場合もある。 【0016】第1のプロセッサ8は、ローカルメモリ9
に格納されたプログラムに従って、該ローカルメモリ9
を作業領域として動作するもので、この第1のプロセッ
サ8にインターフェース10,11をそれぞれ介して前
記特徴抽出部3および類似度計算部4が接続され、その
処理動作が制御されている。またこの第1のプロセッサ
8は、バス交換回路12を介して前記バス6に接続され
ており、前記共有メモリ7を直接アクセスし得るように
なっている。 【0017】この第1のプロセッサ8によって、前記共
有メモリ15に格納されたデータ(特徴パラメータとそ
の類似度)から前記入力音声の、例えば摩擦性、破裂
性、無音性、鼻音性、無声性、有声性等の音響的特徴が
1フレーム毎に抽出されている。そしてこの第1のプロ
セッサ8によって抽出された音響的特徴は前記共有メモ
リ7に転送され、前記特徴パラメータやその類似度と共
に格納されるようになっている。 【0018】尚、共有メモリ7は、図2に示すように、
1項目(1フレーム)当り192バイトの情報格納領域
を500項目分備え、4秒分に亙る入力音声の情報を格
納し得るように構成されている。そして前記特徴抽出部
3で求められた特徴情報(特徴パラメータ)、類似度計
算部4で計算された類似度の情報、およびこれらの情報
に基いて前記第1のプロセッサ8で求められた音響的特
徴情報がそれぞれフレーム毎に格納される。この際、そ
のフレームに対する第1のプロセッサ8による処理が終
了したことを示すフェーズ情報が、上記共有メモリ7に
書込まれる。 【0019】このようにして共有メモリ7には、第1の
プロセッサ8の制御の下で処理された入力音声の分析デ
ータが1フレームづつ格納され、常に現在から過去4秒
間に亙る分析データが保有されるようになっている。 【0020】また前記第1のプロセッサ8は、上述した
如く入力音声の音響的特徴を抽出した後、その音響的特
徴等に従って前記入力音声に対する音声区間の検出を行
っている。そしてその検出した音声区間に従って、例え
ば各音節の始端を示すコードを発生し、その検出タイミ
ングを音声の入力タイミングとして上記始端コードを後
述する第2の共有メモリに転送している。 【0021】一方、上記バス6にはバス交換回路13を
介して第2のプロセッサ14、およびローカルメモリ1
5が接続されている。この第2のプロセッサ14は、ロ
ーカルメモリ15に格納されたプログラムに従って、該
ローカルメモリ15を作業領域として動作するものであ
り、前記共有メモリ7を直接アクセスし得るように構成
されている。 【0022】この第2のプロセッサ14によって、上記
共有メモリ7に格納された情報が前記入力音声を1フレ
ーム毎に認識処理され、その認識候補が求められる。そ
して第2のプロセッサ14は、例えば1フレーム毎に第
3位まで認識候補を求めて後述する第2の共有メモリに
転送している。この第2のプロセッサ14による入力音
声のフレーム単位での認識処理は、前記フェーズ情報に
従って前記第1のプロセッサ8による入力音声の該当フ
レームに対する分析処理が終了していることを認識して
行われる。 【0023】尚、インターフェース16を介して上記バ
ス6に接続されたフロッピーディスクドライブ(FD
D)17は、例えば前記音声認識辞書や音声用仮名漢字
辞書等を格納したものである。このFDD17から上記
辞書情報が前記第1および第2のプロセッサ8,14に
読出されて、前述した特徴パラメータの認識対象カテゴ
リに対する類似度計算や入力音声の音響的特徴の抽出処
理、更には認識処理による認識候補の抽出等が行われる
ことになる。 【0024】以上の処理ブロック(第1のプロセッサ
系)により、入力音声の特徴情報の抽出処理と、抽出さ
れた特徴情報に基く入力音声の認識処理とが、共有メモ
リ7を介する第1のプロセッサ8と第2のプロセッサ1
4との間のデータの受渡しによって相互に連携して行わ
れるようになっている。 【0025】つまり第1のプロセッサ8によって入力音
声の特徴情報が求められ、その特徴情報が共有メモリ7
に格納される。そして第2のプロセッサ14は共有メモ
リ7に格納された特徴情報に従ってその入力音声を認識
処理し、その認識候補を求めるようになっている。 【0026】ここで前記第1のプロセッサ8と第2のプ
ロセッサ14とによって共有される共有メモリ7は、時
分割制御されて上記第1および第2のプロセッサ8,1
4によりそれぞれアクセスされる。従って第1のプロセ
ッサ8は、第2のプロセッサ14の処理動作とは独立に
入力音声を逐次分析処理し、その分析結果(入力音声の
特徴情報)を順次共有メモリ7に格納する。これに対し
て第2のプロセッサ15は、共有メモリ7にその特徴情
報の全てが書込まれたフレームに対して、順にそのフレ
ームの入力音声に対する認識処理を実行することにな
る。 【0027】従って第1および第2のプロセッサ8,1
5は、入力音声に対してパイプライン的に、その分析処
理とその分析結果(特徴情報)に基く認識処理とをそれ
ぞれ実行することになる。 【0028】一方、前記バス6にはバスインターフェー
ス18を介して第2のプロセッサ系のバス19が接続さ
れている。 【0029】この第2のプロセッサ系は、バス19に接
続された第2の共有メモリ20と、バス交換回路21を
介してバス19に接続された第3のプロセッサ22とそ
のローカルメモリ23、およびインターフェース24,
25をそれぞれ介して上記バス19に接続されたマウス
26とキーボード27、そしてビデオRAM28を介し
て上記バス19に接続されたディスプレイ29とからな
る。 【0030】第2の共有メモリ20は、上述した第1乃
至第3のプロセッサ8,14,22によってそれぞれ共
有されるもので、例えば図3に示すように認識候補バッ
ファ20aと入力順序制御バッファ20bとを備えて構
成される。 【0031】この認識候補バッファ20aは、前記第2
のプロセッサ15によってフレーム毎に求められた第1
位から第3位の認識候補を順に格納するものである。ま
た入力順序制御バッファ20bは、前記第1のプロセッ
サ8によって検出された入力音声の始端検出コード、お
よびマウス26やキーボード27からコード入力される
処理制御コマンドをその入力順序に従って順に格納する
ものである。 【0032】しかして第3のプロセッサ22は、ローカ
ルメモリ23に格納されたプログラムに従い、該ローカ
ルメモリ23を作業領域として動作するもので、前記共
有メモリ20の認識候補バッファ20aに格納された認
識候補を順に読出し、例えば日本語情報辞書や連接辞書
を参照して言語的に検定し、前記入力音声に対する認識
結果を求めている。そしてその認識結果を、例えば順次
仮名漢字変換処理して前記ビデオRAM28に書込み、
該ビデオRAM28上に日本語文章を作成して前記ディ
スプレイ29にて表示している。 【0033】即ち、第3のプロセッサ22は第2の共有
メモリ20を介して前記第2のプロセッサ14からの処
理データ(認識候補)を受け、これを言語的に処理して
その認識結果を求めるものとなっている。 【0034】ところで第3のプロセッサ22による前記
認識候補の言語的処理は、前記共有メモリ20の入力順
序制御バッファ20bに格納されたコード情報に従っ
て、その手続きの流れが制御される。 【0035】即ち、前述したように入力順序制御バッフ
ァ20bには入力音声の入力タイミングを示す音声始端
コード、および前記マウス26やキーボード27からコ
ード入力された処理制御コマンドや文字コードが、その
入力順に格納されている。この処理制御コマンドは、例
えば入力音声の文節の区切りを指示する情報等からな
る。 【0036】しかして今、例えば図4に示すように音声
が入力され、その入力音声に関する処理制御コマンドが
マウス26やキーボード27からコード入力されると、
上記入力音声の各音節の始端検出コードと処理制御コー
ドとが、図5に示すようにその入力順序に従って入力順
序制御バッファ20bに格納される。 【0037】第3のプロセッサ22は、この入力順序制
御バッファ20bに格納されたコードを順に読出し、そ
のコードを判定して前記認識候補バッファ20aに格納
される認識候補に対する言語的な認識処理を実行するこ
とになる。 【0038】尚、認識候補バッファ20aに格納される
第1位から第3位までの各音節に対する認識候補は、入
力順序制御バッファ20bに格納される始端検出コード
にそれぞれ対応付けられる。 【0039】従って図4および図5に示される例では、
第3のプロセッサ22は第1音節目の始端コードを得、
次にマウスキー入力コードを得た場合、前記認識候補バ
ッファ20aに第1音節目の入力音声に対する認識候補
が格納されていることを上記始端コードに従って確認し
た後、上記マウスキー入力コードに従う言語的処理を実
行することになる。その後、次のタイミングで入力され
たキーボード入力コードに従って、その指示された処理
を行うことになる。 【0040】同様にして第3音節目の始端コードを得た
後、例えばマウスキー入力コードで示される文節の区切
りを示す情報を得た場合、第3のプロセッサ22は上記
第3音節目に対する認識候補が認識候補バッファ20a
に得られたことを確認して、その文節に対する言語的処
理を行うことになる。 【0041】尚、認識候補バッファ20aへの各音節に
対する認識候補の格納の終了は、例えば第2のプロセッ
サ14が上記認識候補の格納時に該認識候補バッファ2
0aに同時に書込む、第2のプロセッサ14による処理
の終了を示すフェーズ情報を検出する等して確認され
る。 【0042】以上のようにして本装置では、第1乃至第
3のプロセッサ8,14,22により、入力音声に対す
る特徴抽出等の分析処理、この分析処理によって抽出さ
れた特徴情報に基く認識処理、およびその結果求められ
た認識候補に対する言語的な処理による認識結果の選択
と文章作成処理が、それぞれ段階的に分担して実行され
る。しかも各プロセッサはこれらの処理をパイプライン
的に実行し、共有メモリ7,20を介してその処理デー
タを受渡しながら、その処理を並列的に実行する。 【0043】また共有メモリ7,20に格納されるフェ
ーズ情報に従って前段のプロセッサによる処理が終了し
ていることを確認しながら、上述した各処理をそれぞれ
独立に実行することになる。従って入力音声に対する複
雑な認識処理を整然と、効率よく実行することが可能と
なる。 【0044】また本装置にあっては、共有メモリ20の
入力順序制御バッファ20bによって音声の入力タイミ
ングと、その入力音声に対する処理制御コマンドの入力
タイミングとが管理されているので、処理制御コマンド
を入力した時点と、その処理すべき入力音声に対する認
識候補が得られるタイミングとの間に時間的なずれが生
じても、その時間的なずれに拘りなく正確に該入力音声
に対する処理が行われる。 【0045】従って音声を発声入力しながら、その発声
に応じて処理制御コマンドを随時入力しても、その入力
順序に従って上記入力音声が正しく認識処理されること
になる。故に、発声者(オペレータ)に対する負担を大
幅に軽減して、自然性良く音声入力による文章作成を行
うことが可能となる。 【0046】また前記3つのプロセッサにおけるメモリ
アドレス空間の割当てを、例えば図6に示すように設定
しておけば、各プロセッサは任意に共有メモリ7,20
をアクセスすることが可能となる。そして第1のプロセ
ッサ8と第2のプロセッサ14とに共有される共有メモ
リ7に、例えば音声認識用のフレームデータを格納する
ようにし、また第1のプロセッサ8、第2のプロセッサ
14、および第3のプロセッサ22によって共有される
共有メモリ7に、例えばシステム制御用のフェイズ情
報、認識結果候補、および入力順序制御情報等を格納す
るようにすれば、個々のローカルメモリ、および共有メ
モリにそれぞれ格納する情報を最少限に止どめることが
可能となる。そして各プロセッサは、個々に独立に動作
してローカルメモリまたは共有メモリをアクセスすれば
良いので、そのアクセスの高速化を図り得る等の効果が
奏せられる。 【0047】従って複数のプロセッサによる音声認識処
理の分散化と、その並列的な処理、および共有メモリを
介したパイプライン的な処理とによって入力音声を整然
と、且つ効率良く実行することが可能となる等の実用上
多大なる効果が奏せられる。また本装置にあっては、各
プロセッサによって音声認識処理に対する役割が分担さ
れているので、その役割毎にプロセッサ系のモジュール
化を図ることが容易である。従ってハードウェア構成の
簡易化を図り得ると共に、ソフトウェア個性の簡略化を
図ることも容易であり、システムの拡張性に優れている
等の効果が奏せられる。 【0048】尚、本発明は上述した実施形態に限定され
るものではない。ここでは、音声の認識処理を3段階に
分けて実行したが、入力音声の分析処理とその認識処理
とは、コード入力される処理制御コマンドに関係なく実
行できることからこれらを統合して、その音声認識処理
を2段階に分けて実行するようにしても良い。また複数
のプロセッサによって共有メモリを時分割に共有する為
の制御方式も特に限定されない。その他、本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。 【0049】 【発明の効果】以上詳述したように本発明によれば、一
連の音声認識処理を第1および第2のプロセッサ系にそ
れぞれ分散させて担わせ、これらのプロセッサ間で共有
メモリを介して処理データの受渡しを行いながら入力音
声に対する認識処理をそれぞれ独立に実行するので、入
力音声を効率良く認識処理することができる。また情報
の入力順序に従って各プロセッサによる認識処理の手順
が制御されるので、入力音声に対する認識処理を整然と
実行することが可能となる。また複数のプロセッサは、
認識処理レベルに応じて分散された処理をそれぞれ個別
に実行すれば良いので、各プロセッサに対する負担を軽
くすることが可能となり、各プロセッサとしては比較的
安価なものを用いることが可能となる。しかも、複数の
プロセッサによって処理を分担させるので、そのモジュ
ール化を図ることが可能となり、ハードウェアおよびソ
フトウェアの両面において、その構成の簡略化を図るこ
とが可能となる等の実用上多大なる効果が奏せられる。
複雑な認識処理を整然と効率良く行い得る音声認識装置
に関する。 【0002】 【従来の技術】近時、音声認識処理技術が発達し、例え
ば工場の生産ラインにおける選別工程の音声入力による
制御や、音声による電話サービス等に応用されている。 【0003】また最近では、音声入力による文章作成装
置、つまり音声ワードプロセッサの実用化が進められて
いる。 【0004】ところが音声は種々の個人的特徴を含み、
またその変動要素も多い。これ故、一般的にその認識処
理方式が高度であり、また複雑である。特に不特定話者
を対象とし、連続発声された音声を認識処理する場合、
その認識処理法が相当複雑化する。またその認識処理時
間が相当長くなることも否めない。 【0005】そこで、例えば連続発声された音声に対す
る文節の切れ目などを指示するための支援情報をキー入
力操作により入力して、入力音声に対する認識処理を支
援することが考えられている。但し、文節の切れ目等の
支援情報は、認識処理が実行されて、認識候補が出力さ
れた後に入力する必要がある。即ち、支援情報を入力し
ても、入力音声に対する認識処理は前述したように相当
の時間が掛かる。 【0006】このため、その時間的なずれに起因して、
例えば処理制御コードに従って入力音声に対する認識候
補の言語的な処理を行おうとしても、その処理対象とす
る認識候補が求められていないことがある等の不具合が
生じる。このような理由により、複雑な音声認識処理を
整然と効率良く行うことが非常に困難である等の不具合
があった。 【0007】 【発明が解決しようとする課題】文節の切れ目などを指
示するための支援情報をキー入力操作により入力して、
入力音声に対する認識処理を支援する方式が考えられて
いるが、認識処理が実行されて、認識候補が出力された
後に入力する必要があるため、必ずしも認識処理を支援
することが効果的ではない。 【0008】本発明の目的は、入力音声の文節の範囲を
指示するための支援情報を入力して特に文節単位の認識
処理を確実に実行できるように支援する機能を有し、結
果的に入力音声に対する認識処理を整然と効率良く行う
ことのできる実用性の高い音声認識装置を提供すること
にある。 【0009】 【課題を解決するための手段】本発明の第1は、特に入
力音声に対する音節単位の音声認識処理を実行し、入力
音声の各音節の始端を示す第1のコード情報を出力する
プロセッサ手段と、入力音声の各音節からなる文節の範
囲を指示するための第2のコード情報を入力するための
入力手段と、認識候補バッファおよび入力順序制御バッ
ファを有し、前記音節単位の認識候補を前記認識候補バ
ッファに格納し、前記入力順序制御バッファには前記第
1のコード情報を前記プロセッサ手段により出力された
順に格納し、かつ前記入力手段により入力された第2の
コード情報を入力に応じて前記第1のコード情報と共に
格納するように構成されたメモリ手段とを備えた音声認
識装置である。プロセッサ手段は、メモリ手段に格納さ
れた第1,第2の各コード情報に基づいて、第1のコー
ド情報により認識候補バッファに格納された音節単位の
認識候補を読出し、第2のコード情報により認識候補か
らなる文字列の文節を特定し、この文節単位の文字列に
対する言語的認識処理を実行する。 【0010】本発明の第2は、本発明の第1の音声認識
装置に対して、第2のコード情報により認識候補からな
る文字列の文節を特定して文節単位の文書作成処理、具
体的には例えば仮名漢字変換処理を実行する機能を有す
る音声認識装置である。 【0011】 【発明の実施の形態】以下図面を参照して本発明の実施
の形態を説明する。 【0012】(システム構成)図1は、本実施形態に関
係する音声認識装置の構成を示すブロック図ある。即
ち、音声入力部1を介して入力された音声信号はA/D
変換器2を介してディジタル化されて特徴抽出部3に導
かれる。特徴抽出部3は、例えば16チャンネルのバン
ドパスフィルタにより構成されるもので、上記そのフィ
ルタ出力として前記入力音声の特徴パラメータを順次抽
出している。 【0013】類似度計算部4は上記入力音声の特徴パラ
メータを音声認識辞書と照合し、認識対象カテゴリの特
徴に対する上記特徴パラメータの類似度を、例えば複合
類似度法によって順次計算している。 【0014】そして類似度計算部4で求められた各カテ
ゴリに対する前記入力音声の特徴パラメータの類似度、
および前記特徴抽出部3で抽出された入力音声の特徴パ
ラメータは、DMAコントローラ5の制御を受けて、例
えば1フレーム(8msec)周期毎にバス6を介して
第1の共有メモリ7にブロック転送され、例えば図2に
示すように格納される。 【0015】尚、DMAコントローラ5は第1のプロセ
ッサ8の制御を受けて動作して、上記データ転送を制御
するものである。しかしその転送データ量が少ない場合
には、上記DMAコントローラ5を用いることなく、前
記第1のプロセッサ8の直接的な制御によって前記類似
度および特徴パラメータの共有メモリ7へのデータ転送
が行われる場合もある。 【0016】第1のプロセッサ8は、ローカルメモリ9
に格納されたプログラムに従って、該ローカルメモリ9
を作業領域として動作するもので、この第1のプロセッ
サ8にインターフェース10,11をそれぞれ介して前
記特徴抽出部3および類似度計算部4が接続され、その
処理動作が制御されている。またこの第1のプロセッサ
8は、バス交換回路12を介して前記バス6に接続され
ており、前記共有メモリ7を直接アクセスし得るように
なっている。 【0017】この第1のプロセッサ8によって、前記共
有メモリ15に格納されたデータ(特徴パラメータとそ
の類似度)から前記入力音声の、例えば摩擦性、破裂
性、無音性、鼻音性、無声性、有声性等の音響的特徴が
1フレーム毎に抽出されている。そしてこの第1のプロ
セッサ8によって抽出された音響的特徴は前記共有メモ
リ7に転送され、前記特徴パラメータやその類似度と共
に格納されるようになっている。 【0018】尚、共有メモリ7は、図2に示すように、
1項目(1フレーム)当り192バイトの情報格納領域
を500項目分備え、4秒分に亙る入力音声の情報を格
納し得るように構成されている。そして前記特徴抽出部
3で求められた特徴情報(特徴パラメータ)、類似度計
算部4で計算された類似度の情報、およびこれらの情報
に基いて前記第1のプロセッサ8で求められた音響的特
徴情報がそれぞれフレーム毎に格納される。この際、そ
のフレームに対する第1のプロセッサ8による処理が終
了したことを示すフェーズ情報が、上記共有メモリ7に
書込まれる。 【0019】このようにして共有メモリ7には、第1の
プロセッサ8の制御の下で処理された入力音声の分析デ
ータが1フレームづつ格納され、常に現在から過去4秒
間に亙る分析データが保有されるようになっている。 【0020】また前記第1のプロセッサ8は、上述した
如く入力音声の音響的特徴を抽出した後、その音響的特
徴等に従って前記入力音声に対する音声区間の検出を行
っている。そしてその検出した音声区間に従って、例え
ば各音節の始端を示すコードを発生し、その検出タイミ
ングを音声の入力タイミングとして上記始端コードを後
述する第2の共有メモリに転送している。 【0021】一方、上記バス6にはバス交換回路13を
介して第2のプロセッサ14、およびローカルメモリ1
5が接続されている。この第2のプロセッサ14は、ロ
ーカルメモリ15に格納されたプログラムに従って、該
ローカルメモリ15を作業領域として動作するものであ
り、前記共有メモリ7を直接アクセスし得るように構成
されている。 【0022】この第2のプロセッサ14によって、上記
共有メモリ7に格納された情報が前記入力音声を1フレ
ーム毎に認識処理され、その認識候補が求められる。そ
して第2のプロセッサ14は、例えば1フレーム毎に第
3位まで認識候補を求めて後述する第2の共有メモリに
転送している。この第2のプロセッサ14による入力音
声のフレーム単位での認識処理は、前記フェーズ情報に
従って前記第1のプロセッサ8による入力音声の該当フ
レームに対する分析処理が終了していることを認識して
行われる。 【0023】尚、インターフェース16を介して上記バ
ス6に接続されたフロッピーディスクドライブ(FD
D)17は、例えば前記音声認識辞書や音声用仮名漢字
辞書等を格納したものである。このFDD17から上記
辞書情報が前記第1および第2のプロセッサ8,14に
読出されて、前述した特徴パラメータの認識対象カテゴ
リに対する類似度計算や入力音声の音響的特徴の抽出処
理、更には認識処理による認識候補の抽出等が行われる
ことになる。 【0024】以上の処理ブロック(第1のプロセッサ
系)により、入力音声の特徴情報の抽出処理と、抽出さ
れた特徴情報に基く入力音声の認識処理とが、共有メモ
リ7を介する第1のプロセッサ8と第2のプロセッサ1
4との間のデータの受渡しによって相互に連携して行わ
れるようになっている。 【0025】つまり第1のプロセッサ8によって入力音
声の特徴情報が求められ、その特徴情報が共有メモリ7
に格納される。そして第2のプロセッサ14は共有メモ
リ7に格納された特徴情報に従ってその入力音声を認識
処理し、その認識候補を求めるようになっている。 【0026】ここで前記第1のプロセッサ8と第2のプ
ロセッサ14とによって共有される共有メモリ7は、時
分割制御されて上記第1および第2のプロセッサ8,1
4によりそれぞれアクセスされる。従って第1のプロセ
ッサ8は、第2のプロセッサ14の処理動作とは独立に
入力音声を逐次分析処理し、その分析結果(入力音声の
特徴情報)を順次共有メモリ7に格納する。これに対し
て第2のプロセッサ15は、共有メモリ7にその特徴情
報の全てが書込まれたフレームに対して、順にそのフレ
ームの入力音声に対する認識処理を実行することにな
る。 【0027】従って第1および第2のプロセッサ8,1
5は、入力音声に対してパイプライン的に、その分析処
理とその分析結果(特徴情報)に基く認識処理とをそれ
ぞれ実行することになる。 【0028】一方、前記バス6にはバスインターフェー
ス18を介して第2のプロセッサ系のバス19が接続さ
れている。 【0029】この第2のプロセッサ系は、バス19に接
続された第2の共有メモリ20と、バス交換回路21を
介してバス19に接続された第3のプロセッサ22とそ
のローカルメモリ23、およびインターフェース24,
25をそれぞれ介して上記バス19に接続されたマウス
26とキーボード27、そしてビデオRAM28を介し
て上記バス19に接続されたディスプレイ29とからな
る。 【0030】第2の共有メモリ20は、上述した第1乃
至第3のプロセッサ8,14,22によってそれぞれ共
有されるもので、例えば図3に示すように認識候補バッ
ファ20aと入力順序制御バッファ20bとを備えて構
成される。 【0031】この認識候補バッファ20aは、前記第2
のプロセッサ15によってフレーム毎に求められた第1
位から第3位の認識候補を順に格納するものである。ま
た入力順序制御バッファ20bは、前記第1のプロセッ
サ8によって検出された入力音声の始端検出コード、お
よびマウス26やキーボード27からコード入力される
処理制御コマンドをその入力順序に従って順に格納する
ものである。 【0032】しかして第3のプロセッサ22は、ローカ
ルメモリ23に格納されたプログラムに従い、該ローカ
ルメモリ23を作業領域として動作するもので、前記共
有メモリ20の認識候補バッファ20aに格納された認
識候補を順に読出し、例えば日本語情報辞書や連接辞書
を参照して言語的に検定し、前記入力音声に対する認識
結果を求めている。そしてその認識結果を、例えば順次
仮名漢字変換処理して前記ビデオRAM28に書込み、
該ビデオRAM28上に日本語文章を作成して前記ディ
スプレイ29にて表示している。 【0033】即ち、第3のプロセッサ22は第2の共有
メモリ20を介して前記第2のプロセッサ14からの処
理データ(認識候補)を受け、これを言語的に処理して
その認識結果を求めるものとなっている。 【0034】ところで第3のプロセッサ22による前記
認識候補の言語的処理は、前記共有メモリ20の入力順
序制御バッファ20bに格納されたコード情報に従っ
て、その手続きの流れが制御される。 【0035】即ち、前述したように入力順序制御バッフ
ァ20bには入力音声の入力タイミングを示す音声始端
コード、および前記マウス26やキーボード27からコ
ード入力された処理制御コマンドや文字コードが、その
入力順に格納されている。この処理制御コマンドは、例
えば入力音声の文節の区切りを指示する情報等からな
る。 【0036】しかして今、例えば図4に示すように音声
が入力され、その入力音声に関する処理制御コマンドが
マウス26やキーボード27からコード入力されると、
上記入力音声の各音節の始端検出コードと処理制御コー
ドとが、図5に示すようにその入力順序に従って入力順
序制御バッファ20bに格納される。 【0037】第3のプロセッサ22は、この入力順序制
御バッファ20bに格納されたコードを順に読出し、そ
のコードを判定して前記認識候補バッファ20aに格納
される認識候補に対する言語的な認識処理を実行するこ
とになる。 【0038】尚、認識候補バッファ20aに格納される
第1位から第3位までの各音節に対する認識候補は、入
力順序制御バッファ20bに格納される始端検出コード
にそれぞれ対応付けられる。 【0039】従って図4および図5に示される例では、
第3のプロセッサ22は第1音節目の始端コードを得、
次にマウスキー入力コードを得た場合、前記認識候補バ
ッファ20aに第1音節目の入力音声に対する認識候補
が格納されていることを上記始端コードに従って確認し
た後、上記マウスキー入力コードに従う言語的処理を実
行することになる。その後、次のタイミングで入力され
たキーボード入力コードに従って、その指示された処理
を行うことになる。 【0040】同様にして第3音節目の始端コードを得た
後、例えばマウスキー入力コードで示される文節の区切
りを示す情報を得た場合、第3のプロセッサ22は上記
第3音節目に対する認識候補が認識候補バッファ20a
に得られたことを確認して、その文節に対する言語的処
理を行うことになる。 【0041】尚、認識候補バッファ20aへの各音節に
対する認識候補の格納の終了は、例えば第2のプロセッ
サ14が上記認識候補の格納時に該認識候補バッファ2
0aに同時に書込む、第2のプロセッサ14による処理
の終了を示すフェーズ情報を検出する等して確認され
る。 【0042】以上のようにして本装置では、第1乃至第
3のプロセッサ8,14,22により、入力音声に対す
る特徴抽出等の分析処理、この分析処理によって抽出さ
れた特徴情報に基く認識処理、およびその結果求められ
た認識候補に対する言語的な処理による認識結果の選択
と文章作成処理が、それぞれ段階的に分担して実行され
る。しかも各プロセッサはこれらの処理をパイプライン
的に実行し、共有メモリ7,20を介してその処理デー
タを受渡しながら、その処理を並列的に実行する。 【0043】また共有メモリ7,20に格納されるフェ
ーズ情報に従って前段のプロセッサによる処理が終了し
ていることを確認しながら、上述した各処理をそれぞれ
独立に実行することになる。従って入力音声に対する複
雑な認識処理を整然と、効率よく実行することが可能と
なる。 【0044】また本装置にあっては、共有メモリ20の
入力順序制御バッファ20bによって音声の入力タイミ
ングと、その入力音声に対する処理制御コマンドの入力
タイミングとが管理されているので、処理制御コマンド
を入力した時点と、その処理すべき入力音声に対する認
識候補が得られるタイミングとの間に時間的なずれが生
じても、その時間的なずれに拘りなく正確に該入力音声
に対する処理が行われる。 【0045】従って音声を発声入力しながら、その発声
に応じて処理制御コマンドを随時入力しても、その入力
順序に従って上記入力音声が正しく認識処理されること
になる。故に、発声者(オペレータ)に対する負担を大
幅に軽減して、自然性良く音声入力による文章作成を行
うことが可能となる。 【0046】また前記3つのプロセッサにおけるメモリ
アドレス空間の割当てを、例えば図6に示すように設定
しておけば、各プロセッサは任意に共有メモリ7,20
をアクセスすることが可能となる。そして第1のプロセ
ッサ8と第2のプロセッサ14とに共有される共有メモ
リ7に、例えば音声認識用のフレームデータを格納する
ようにし、また第1のプロセッサ8、第2のプロセッサ
14、および第3のプロセッサ22によって共有される
共有メモリ7に、例えばシステム制御用のフェイズ情
報、認識結果候補、および入力順序制御情報等を格納す
るようにすれば、個々のローカルメモリ、および共有メ
モリにそれぞれ格納する情報を最少限に止どめることが
可能となる。そして各プロセッサは、個々に独立に動作
してローカルメモリまたは共有メモリをアクセスすれば
良いので、そのアクセスの高速化を図り得る等の効果が
奏せられる。 【0047】従って複数のプロセッサによる音声認識処
理の分散化と、その並列的な処理、および共有メモリを
介したパイプライン的な処理とによって入力音声を整然
と、且つ効率良く実行することが可能となる等の実用上
多大なる効果が奏せられる。また本装置にあっては、各
プロセッサによって音声認識処理に対する役割が分担さ
れているので、その役割毎にプロセッサ系のモジュール
化を図ることが容易である。従ってハードウェア構成の
簡易化を図り得ると共に、ソフトウェア個性の簡略化を
図ることも容易であり、システムの拡張性に優れている
等の効果が奏せられる。 【0048】尚、本発明は上述した実施形態に限定され
るものではない。ここでは、音声の認識処理を3段階に
分けて実行したが、入力音声の分析処理とその認識処理
とは、コード入力される処理制御コマンドに関係なく実
行できることからこれらを統合して、その音声認識処理
を2段階に分けて実行するようにしても良い。また複数
のプロセッサによって共有メモリを時分割に共有する為
の制御方式も特に限定されない。その他、本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。 【0049】 【発明の効果】以上詳述したように本発明によれば、一
連の音声認識処理を第1および第2のプロセッサ系にそ
れぞれ分散させて担わせ、これらのプロセッサ間で共有
メモリを介して処理データの受渡しを行いながら入力音
声に対する認識処理をそれぞれ独立に実行するので、入
力音声を効率良く認識処理することができる。また情報
の入力順序に従って各プロセッサによる認識処理の手順
が制御されるので、入力音声に対する認識処理を整然と
実行することが可能となる。また複数のプロセッサは、
認識処理レベルに応じて分散された処理をそれぞれ個別
に実行すれば良いので、各プロセッサに対する負担を軽
くすることが可能となり、各プロセッサとしては比較的
安価なものを用いることが可能となる。しかも、複数の
プロセッサによって処理を分担させるので、そのモジュ
ール化を図ることが可能となり、ハードウェアおよびソ
フトウェアの両面において、その構成の簡略化を図るこ
とが可能となる等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の実施形態に関係する音声認識装置の構
成を示すブロック図。 【図2】本実施形態に関係する第1の共有メモリの構成
を示す図。 【図3】本実施形態に関係する第2の共有メモリの構成
を示す図。 【図4】本実施形態の動作を説明するための図。 【図5】本実施形態の動作を説明するための図。 【図6】本実施形態に関係するプロセッサのメモリアド
レス空間の構成例を示す図。 【符号の説明】 1…音声入力部 2…A/D変換器 3…特徴抽出部 4…類似度計算部 5…DMAコントローラ 6…バス 7…第1の共有メモリ 8…第1のプロセッサ 9…ローカルメモリ 10…インターフェース 11…インターフェース 12…バス交換回路 13…バス交換回路 14…第2のプロセッサ 15…ローカルメモリ 16…FDDインターフェース 17…FDD 18…バスインターフェース 19…バス 20…第2の共有メモリ 22…第3のプロセッサ 23…ローカルメモリ 24…インターフェース 25…インターフェース 26…マウス 27…キーボード 28…ビデオRAM 29…ディスプレイ
成を示すブロック図。 【図2】本実施形態に関係する第1の共有メモリの構成
を示す図。 【図3】本実施形態に関係する第2の共有メモリの構成
を示す図。 【図4】本実施形態の動作を説明するための図。 【図5】本実施形態の動作を説明するための図。 【図6】本実施形態に関係するプロセッサのメモリアド
レス空間の構成例を示す図。 【符号の説明】 1…音声入力部 2…A/D変換器 3…特徴抽出部 4…類似度計算部 5…DMAコントローラ 6…バス 7…第1の共有メモリ 8…第1のプロセッサ 9…ローカルメモリ 10…インターフェース 11…インターフェース 12…バス交換回路 13…バス交換回路 14…第2のプロセッサ 15…ローカルメモリ 16…FDDインターフェース 17…FDD 18…バスインターフェース 19…バス 20…第2の共有メモリ 22…第3のプロセッサ 23…ローカルメモリ 24…インターフェース 25…インターフェース 26…マウス 27…キーボード 28…ビデオRAM 29…ディスプレイ
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 竹林 洋一
神奈川県川崎市幸区小向東芝町1番地
株式会社東芝総合研究所内
(56)参考文献 特公 昭47−21323(JP,B1)
Claims (1)
- (57)【特許請求の範囲】 1.入力音声に対する特徴抽出処理、類似度計算処理お
よび音響的特徴抽出処理を含むフレーム単位の分析処理
を実行してフレーム単位の分析結果を出力し、前記入力
音声の各音節の始端を示す第1のコード情報を出力し、
前記分析結果に基づいて前記入力音声に対する音節単位
の音声認識処理を実行して認識候補を出力する第1のプ
ロセッサ手段と、 前記入力音声の各音節からなる文節の範囲を指示するた
めの第2のコード情報を入力するための入力手段と、 認識候補バッファおよび入力順序制御バッファを有し、
前記音節単位の認識候補を前記認識候補バッファに格納
し、前記入力順序制御バッファには前記第1のコード情
報を前記プロセッサ手段により出力された順に格納し、
かつ前記入力手段により入力された第2のコード情報を
入力に応じて前記第1のコード情報と共に格納するよう
に構成されたメモリ手段と、 前記メモリ手段に格納された前記第1,第2の各コード
情報に基づいて、前記第1のコード情報により前記認識
候補バッファに格納された音節単位の認識候補を読出
し、前記第2のコード情報により認識候補からなる文字
列の文節を特定し、この文節単位の文字列に対する言語
的認識処理を実行して、前記入力音声に対する音声認識
結果を決定する第2のプロセッサ手段とを具備したこと
を特徴とする音声認識装置。 2.入力音声に対する音節単位の音声認識処理を実行し
て認識候補を出力し、かつ前記入力音声の各音節の始端
を示す第1のコード情報を出力する音声認識手段と、 前記入力音声の入力時に、前記入力音声の各音節からな
る文節の範囲を指示するための第2のコード情報を入力
するための入力手段と、 前記音節単位の認識候補を格納する認識候補バッファ手
段と、 前記第1のコード情報を出力された順に格納し、かつ前
記入力手段により入力された第2のコード情報を格納す
る入力順序制御バッファ手段と、 前記第1のコード情報により前記認識候補バッファ手段
から音節単位の認識候補を読出し、前記第2のコード情
報により認識候補からなる文字列の文節を特定して文節
単位の文書作成処理を実行する手段とを具備したことを
特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8250024A JP2685429B2 (ja) | 1996-09-20 | 1996-09-20 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8250024A JP2685429B2 (ja) | 1996-09-20 | 1996-09-20 | 音声認識装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60265506A Division JP2603920B2 (ja) | 1985-11-26 | 1985-11-26 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09120295A JPH09120295A (ja) | 1997-05-06 |
JP2685429B2 true JP2685429B2 (ja) | 1997-12-03 |
Family
ID=17201713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8250024A Expired - Lifetime JP2685429B2 (ja) | 1996-09-20 | 1996-09-20 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2685429B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3947871B2 (ja) | 2002-12-02 | 2007-07-25 | Necインフロンティア株式会社 | 音声データ送受信方式 |
-
1996
- 1996-09-20 JP JP8250024A patent/JP2685429B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09120295A (ja) | 1997-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US8731928B2 (en) | Speaker adaptation of vocabulary for speech recognition | |
US5950159A (en) | Word spotting using both filler and phone recognition | |
Rudnicky et al. | Interactive problem solving with speech | |
JPH073640B2 (ja) | 音声パタンテンプレ−トを発生する装置及び方法 | |
JP2685429B2 (ja) | 音声認識装置 | |
JP2871420B2 (ja) | 音声対話システム | |
EP0508225A2 (en) | Computer system for speech recognition | |
JP2603920B2 (ja) | 音声認識装置 | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
Hunt | Speaker adaptation for word‐based speech recognition systems | |
JPH09134193A (ja) | 音声認識装置 | |
JP3428309B2 (ja) | 音声認識装置 | |
JP3865149B2 (ja) | 音声認識装置および方法、辞書作成装置および情報記憶媒体 | |
JP3110025B2 (ja) | 発声変形検出装置 | |
Billi et al. | A PC-based very large vocabulary isolated word speech recognition system | |
JPH09114484A (ja) | 音声認識装置 | |
JP2578771B2 (ja) | 音声認識装置 | |
JP2951332B2 (ja) | 音声認識における文節候補削減方式 | |
Ito et al. | Sentence understanding of spoken Japanese using phrase spotting and dependency grammar | |
Alleva et al. | The Carnegie‐Mellon Portable Speech Library | |
JPS58223194A (ja) | 日本語音声入力方式 | |
Murveit et al. | An architecture of an MOS‐LSI speech recognition system using dynamic programming | |
Hori et al. | A speech understanding system based on a topic‐oriented language model | |
Chung et al. | Analysis, perception, and recognition of isolated Korean vowels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |