JP2010066360A

JP2010066360A - 分散型音声認識システム

Info

Publication number: JP2010066360A
Application number: JP2008230693A
Authority: JP
Inventors: Tomokazu Sano; 智一佐野; Katsunori Nagai; 克典永井; Yoshio Maruyama; 良雄丸山; Kojiro Okamoto; 浩次郎岡本; Taichi Nomura; 太一野村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-09-09
Filing date: 2008-09-09
Publication date: 2010-03-25
Anticipated expiration: 2028-09-09
Also published as: JP5049930B2

Abstract

【課題】発電等のプラントの制御装置に入力される音声の認識の精度を高める。
【解決手段】音声出力部１から入力した音声を音声信号に変換して認識し、その音声に、補機９に対する指令が含まれていれば、前記指令に応じた制御用データを補機９に出力する制御部と、補機９に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する記憶部とを有する制御装置２を複数備えた分散型音声認識システムにおいて、各制御装置２において、音声信号に対して当該音声が入力された時刻を示す時刻データを付加し、一方の制御装置２は、その制御装置２が有する時刻データが付加された音声信号と、他方の制御装置２から取得した音声信号のうち時刻データが示す時刻が略一致するものを比較することで入力した音声信号が正常であるか否かを判断する。
【選択図】図２

Description

本発明は、主に発電等のプラントの稼働を制御する複数の制御装置に行う指令を音声により行う技術に関する。

プラントが配置されている現場には、プラントの稼働を制御する制御装置（「制御盤」ともいう。）が配置されており、通常は、複数の制御装置が並列に配置されている。この制御装置では、その制御を行うにあたり、他の制御装置との信号の取り合いが行われている。

近年、制御装置間の信号の取り合いは、制御装置間をケーブル配線で接続した有線通信から無線通信に切り替えられるようになった。無線通信であれば、ケーブルの配線に必要なインタフェースや空間を設ける必要はなく、基本的には、制御装置に対して送信用装置および受信用装置を配置すれば十分である。しかし、無線通信では、制御装置等の規格を統一する必要が生じ、メーカが異なり、規格の異なる制御装置等が用いられる場合には、これらの装置からなるシステムの実現は難しい。

そこで、無線通信において音声を使用する方法が考えられる。つまり、現場に配置されたスピーカから制御装置用の指令を音声で制御装置に出力し、音声の信号処理を含めた制御装置間の信号の取り合いを実現するというものである。この方法であれば、前記送信用装置は不要であり、受信用装置のみ対応すれば良く、システムの実現における規格の統一化は容易になる。

このようなシステムは特に、制御装置の点検作業において有用である。この点検作業においては、特定の検査員が試験器材を現場に持ち込み、前記取り合いの動作確認、当該制御装置の制御対象となる補機、つまり、プラントを構成するポンプ、バルブ等の動作確認等といった、制御装置の点検が行われる。また、この点検では、現場にいる検査員と、現場から離れた工場で監視している監視員とがトランシーバ等で連絡を取り合っている。検査員は監視員からの指令に従って前記点検を行い、その結果を監視員に報告する。また、監視員が制御装置に対し直接指令するためのコマンド操作を行い、検査員による点検をサポートする場合もある。このコマンド操作を音声で行えば、点検作業は容易になる。

ただ、音声を使用する場合には、制御装置側で音声の認識を適切に行う必要があるが、その音声にノイズが入り込んでしまい、音声の誤認識を招くおそれがある。他の作業で多くのノイズが生じてしまう現場においては尚更である。

特許文献１に開示されているように、複数個所で音声を検出し、その音声を比較しながら認識すれば、ある程度は誤認識を低減することができる。しかし、音声の検出に対し、音声の認識を処理するための構成は単純化されているため、よほど高精度の音声認識技術を用いない限り、前記点検に必要とされる認識の精度を実現することは困難である。
特許第３７２５５６６号公報（段落００２５、図４等）

前記事情を鑑みて、本発明は、発電等のプラントの制御装置に入力される音声の認識の精度を高めることを目的とする。

前記目的を達成するため、本発明では、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断する。詳細は、後記する。

本発明により、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。

≪構成≫
以下、本発明の実施の形態（以下、「実施形態」という。）を、図を用いて説明する。
図１は、本実施形態による分散型音声認識システムが使用されるネットワークの構成を示したブロック図である。

この分散型音声認識システムは、発電等のプラントの稼働を制御し、現場において複数（図１では８つ）並列に配置された制御装置２に搭載されている。分散型音声認識システムの説明は、後記する。現場のネットワークには、前記制御装置２の他に、工場から出力される音声を少なくとも制御装置２に向けて出力する音声出力部１および工場にあるコンピュータ（工場用サーバ８等）とインターネット回線により通信可能に接続された現場用サーバ４が通信可能に接続されている。また、現場においては、検査員３が制御装置２の検査を行っている。検査としては、例えば、制御装置２に搭載されているＰＩ／Ｏ（Process Input／Output）インタフェースとして実現されるＡＩ／Ｏ（Analog Input／output）ユニットまたはＤＩ／Ｏ（Digital Input／Output）ユニットの静特性検査がある。

一方、工場においては、そのネットワークに対し、音声の入力を行うマイク７を有する工場用端末６および現場にあるコンピュータ（現場用サーバ４等）とインターネット回線により通信可能に接続された工場用サーバ８が通信可能に接続されている。工場においては、制御装置２の稼働状況を音声により制御する監視員５が待機している。また、監視員５と検査員３とは、例えば、トランシーバを用いて、主に制御装置２の点検に関する連絡を取り合っている。

なお、コンピュータである音声出力部１、制御装置２、現場用サーバ４、工場用端末６および工場用サーバ８は、そのハードウェア構成として、入力ポートを有する入力部、出力ポートを有する出力部、ＣＰＵ（Central Processing Unit）等として実現される制御部（第１の制御部、第２の制御部を含む。）、外部記憶装置としてのＨＤＤ（Hard Disk Drive）等で実現される記憶部（第１の記憶部、第２の記憶部を含む。）、読み書きされるデータが展開される記憶領域を有するＲＡＭ（Random Access Memory）等で実現されるメモリを有している。これらの装置で本発明に関する処理が実行されるときには、各装置の記憶部に格納されたプログラムがメモリにロードされ、各ＣＰＵ（制御部）により実行されることにより、ネットワークを構成する各装置上に具現化される各処理部により実行される。また、各プログラムは予め記憶部に格納されても良いし、他の記憶媒体または通信媒体（ネットワークまたはネットワークを伝搬する搬送波）を介して、必要なときに導入されても良い。

図２は、本実施形態による分散型音声認識システムの構成の一実施例を示したブロック図である。制御装置２の各々は、分散型音声認識システムを構成する機能部として、音声入力部（Ａ１またはＢ１）、音声認識部（Ａ２またはＢ２）、時刻印加部（Ａ３またはＢ３）、音声正常判断部（Ａ４またはＢ４）、メッセージ処理部（Ａ５またはＢ５）、重要音声テーブル（Ａ６またはＢ６）、認識音声テーブル（Ａ７またはＢ７）および指令メッセージテーブル（Ａ８またはＢ８）を備えている。図２に図示されている２つの制御装置２（第１の制御装置、第２の制御装置）は、音声出力部１から出力された音声が入力された制御装置２（図１に図示された８つの制御装置）から所定の方法で選択されたものである。選択の方法としては、例えば、各制御装置２に入力された音声の音量を計測し、最も大きな音量が入力された制御装置２を選ぶという方法がある。この場合、音量を計測する装置は、各制御装置２に備えられている。

音声入力部（Ａ１、Ｂ１）は、音声出力部１から出力された、監視員５の音声を、ノイズ、その他の音も含めて検出する機能を有する。検出した音声は、例えばデジタルの音声信号に変換され、その音声信号が音声認識部（Ａ２、Ｂ２）に出力される。

音声認識部（Ａ２、Ｂ２）は、音声入力部（Ａ１、Ｂ１）から出力された音声信号に対し、例えば、ＦＦＴ（Fast Fourier Transform）等を用いて周波数解析を行い、音声の特徴量を抽出する。特徴量が抽出できない場合は、ノイズのみからなる音声として認識し、その音声信号は無視される。無視された音声信号は破棄される。音声の認識は、例えば、前記特徴量を用いて複合類似度法、ＨＭＭ（Hidden Markov Model）、ＤＰ(Dynamic Programing)マッチングなどの手法により、各制御装置２に記憶されている不図示の辞書（キーワードが体系的に管理され、記憶されたデータ群）との照合が行われる。
また、特徴量が抽出された音声信号において、後記する重要音声テーブル（Ａ６、Ｂ６）に登録された音声と一致するものがあれば、その音声に重要音声が含まれているものとして処理し、当該音声信号が時刻印加部（Ａ３、Ｂ３）に出力される。なお、重要音声については、後記する。

時刻印加部（Ａ３、Ｂ３）は、音声認識部（Ａ２、Ｂ２）から出力された音声信号に対し、その音声が当該制御装置２に入力された時刻を示す時刻データを付加する。時刻データは、各制御装置２に搭載されている不図示のタイマが計時処理をしたことにより生成されたデータである。例えば、音声入力部（Ａ１、Ｂ１）がタイマに時刻データを生成するように要求したときに、計時処理が行われ、その要求を受信した時の時刻を生成するといった制御がなされる。時刻データが付加された音声信号は、認識音声テーブル（Ａ７、Ｂ７）に所定のデータ構造を有して一時的に登録される。

音声正常判断部（Ａ４、Ｂ４）は、認識音声テーブル（Ａ７、Ｂ７）から取得した音声信号が、ノイズの混入が所定の閾値以下となる正常なものであるか否かを判断する。この判断においては、他の制御装置２の音声正常判断部から当該音声信号を受信し、自ら受信した音声信号に付加された時刻データが示す時刻と他の制御装置から受信したそれとがほぼ同時刻、例えば、±０．２秒以内に収まる時刻の音声信号同士を比較する。この比較により正常と判断された音声信号は、メッセージ処理部（Ａ５、Ｂ５）に出力され、そうでないものは無視される。前記比較では、例えば、比較対象となる２つの音声信号の波形が一致する割合が閾値以上であるか否かが判断される。

メッセージ処理部（Ａ５、Ｂ５）は、音声正常判断部（Ａ４、Ｂ４）から出力された音声信号が制御装置２で実行される処理に用いられるもの、例えば、補機９の動作を制御するのに用いられる音声信号であるか否かを判断する。この判断は、当該音声信号が指令メッセージテーブル（Ａ８、Ｂ８）に登録された指令内容（後記）を含むか否かが判断される。登録されている場合には、その指令内容を示すデータ（制御用データ）を補機９に出力して補機９を制御し、そうでない場合には、当該音声信号は無視される。

重要音声テーブル（Ａ６またはＢ６）は、補機９を制御するために重要と判断された音声信号の音声を重要音声として、所定のデータ構造を有して（例えば、音声ファイル化して）登録するデータベースである。重要であるか否かの判断は、プラントを制御する者の設計事項であるが、通常は、補機９の動作を規定する音声を重要とする。例えば、補機９の「起動（キドウ）」、「停止（テイシ）」をいう。
図３は、重要音声テーブル（Ａ６、Ｂ６）のデータ構造を図示したものである。この重要音声テーブル（Ａ６またはＢ６）は、当該レコードを識別する番号が登録される識別番号（Ｎｏ）フィールド３０１と、重要と規定された音声が登録される重要音声フィールド３０２とを備えたデータベースである。入力された音声信号の音声において、重要音声フィールド３０２に登録された音声と一致する部分が存在したときは、その部分を重要音声と定めるフラグ処理がなされる。

認識音声テーブル（Ａ７、Ｂ７）は、時刻データが付加された音声信号を、所定のデータ構造を有して（例えば、音声ファイル化した音声信号と時刻データとを対応付けて）登録するデータベースである。
図４は、認識音声テーブル（Ａ７、Ｂ７）のデータ構造を図示したものである。この認識音声テーブル（Ａ７、Ｂ７）は、当該レコードを識別する番号が登録される識別番号（Ｎｏ）フィールド４０１と、時刻データが示す時刻が登録される時刻フィールド４０２と、音声信号が示す音声のうち重要音声でない部分が登録される音声フィールド４０３と、音声信号が示す音声のうち重要音声である部分が登録される重要音声フィールド４０４とを備えたデータベースである。当該音声信号に対する補機９の制御が済んだ後は、認識音声テーブル（Ａ７、Ｂ７）内の当該レコードは破棄される。
なお、音声正常判断部（Ａ４、Ｂ４）は、重要音声でない部分については、音声信号に若干量（例えば、３０％程度）のノイズが混入し、音声信号に乱れが生じたと判断した場合であっても正常と判断する。ただ、重要音声である部分については、音声信号に混入したノイズが微少量（例えば、１％程度）以下であるときに正常と判断するようにして認識の精度に差を設けるようにする。

指令メッセージテーブル（Ａ８、Ｂ８）は、各制御装置２がその指令対象（主に、補機９）にする指令内容を、所定のデータ構造を有して（例えば、音声ファイル化して）登録するデータベースである。
図５は、指令メッセージテーブル（Ａ８、Ｂ８）のデータ構造を図示したものである。この指令メッセージテーブル（Ａ８、Ｂ８）は、当該レコードを識別する番号が登録される識別番号（Ｎｏ）フィールド５０１と、指令対象となる設備、つまりプラントを識別する値が登録される対象設備番号フィールド５０２と、制御装置２の指令対象として、プラントを構成する補機９を識別する値が登録される指令対象フィールド５０３と、制御装置２からの指令内容を識別する値が登録される指令フィールド５０４と、前記指令内容を論理回路で表現したロジックシート（アルゴリズム）が登録されるロジックシートフィールド５０５と、指令内容に応じた制御を実現するためにロジックシートに入力される音声命令を識別する番号が登録される音声命令番号フィールド５０６とを備えたデータベースである。音声命令番号フィールド５０６に登録される番号は、指令フィールド５０４に登録される値と１対１に対応する。
ロジックシートは各制御装置２の記憶部に記憶されており、入力される音声信号に一致するレコードが抽出されたときに、そのレコードに登録されているロジックシートが読み出される。また、ロジックシートには、音声命令番号フィールド５０６に登録された番号が入力される、論理回路としての領域を備えている。

≪処理≫
次に、本実施形態による分散型音声認識システムによる処理動作について説明する。図６は、本実施形態による分散型音声認識システムによる処理動作を示すフローチャートである。この処理動作の主体は、各制御装置２の制御部である。
また、この処理動作が、現場にいる検査員３と工場で監視している監視員５とによる制御装置２の検査（主に、補機９に対する制御装置２の制御（取り合いも含む。）が正常に行われているか否かを確認する検査）において実行されているものとして説明する。ちなみに、検査員３と監視員５とはトランシーバで検査に関する連絡をやり取りしている。例えば、検査員３は監視員５に対し、
「盤No.5 端子台No.X11 １番、２番ジャンパーします」
とか、
「盤No.5 端子台No.X11 チャンネルNo.1 2.5V入力します」
といった、制御装置２の検査をするために、所定の信号入力を確認するための作業内容を報告する。
一方、監視員５は、前記した検査員３の作業に応じて補機９の稼働状態を変更するために、
「１号給水ポンプＡ起動します」
といった、補機９のテストに必要な指令を音声出力部１から音声により出力する。この音声は音量の大小は様々であるが、すべての制御装置２に入力される。

まず、ステップＳ０１において、制御装置２の制御部は、工場からネットワーク等を介して送信され、現場の音声出力部１から出力された、監視員５の音声を、ノイズその他の音も含めて検出する。検出した音声は、音声信号として入力される。入力された後、ステップＳ０２に進む。

次に、ステップＳ０２において、制御装置２の制御部は、入力された音声信号がメモリに記録可能であるか否かを判断する。記録可能であれば（Ｓ０２でＹｅｓ）、ステップＳ０３に進む。そうでなければ（Ｓ０２でＮｏ）ステップＳ０９に進む。なお、音声信号が記録可能であるとは、音声認識部（Ａ２、Ｂ２）において周波数解析を行い、音声の特徴量を抽出することが可能であることを意味する。また、重要音声テーブル（Ａ６、Ｂ６）を参照して、音声信号に「キドウ」といったような重要音声に相当する音声の特徴量が含まれていれば、その音声信号に含まれる重要音声のフラグ処理を行う。例えば、「１号給水ポンプＡ起動します」という音声が入力された場合、音声認識により「イチゴウキュウスイポンプエイキドウ」と解析され、「キドウ」という箇所については、重要音声テーブル（Ａ６、Ｂ６）のＮｏ１と番号付けられたレコード（図３参照）が参照されることにより重要信号としてフラグ処理される。なお、「します」の部分は無視される（ステップＳ０９参照）。

次に、ステップＳ０３において、制御装置２の制御部は、記録可能であると判断された音声信号に時刻を印加し、時刻データ付きの音声信号を生成する。時刻データ付きの音声信号は、認識音声テーブル（Ａ７、Ｂ７）に一時的に登録される。時刻を印加した後、ステップＳ０４に進む。「１号給水ポンプＡ起動します」という音声が１０：１０に入力された場合、認識音声テーブル（Ａ７、Ｂ７）のＮｏ１と番号付けられたレコード（図４参照）が作成される。

次に、ステップＳ０４において、制御装置２の制御部は、他の制御装置２で入力された時刻付近の音声信号と比較する。この比較においては、他の制御装置２から時刻データ付きの音声信号を取得し、認識音声テーブル（Ａ７、Ｂ７）の時刻フィールド４０２に登録された時刻を参照して、ほぼ同時刻と判断できる音声信号を抽出し、両者を比較する。比較した後、ステップＳ０５に進む。

次に、ステップＳ０５において、制御装置２の制御部は、比較対象となる音声信号同士が一致するか否かを判断する。音声信号が一致する場合には（ステップＳ０５でＹｅｓ）、正常な音声信号と判断され、ステップＳ０６に進む。そうでなければ（ステップＳ０５でＮｏ）、異常な音声信号と判断され、ステップＳ１０に進む。なお、音声信号同士が一致するとは、他の制御装置２から取得した時刻データ付きの音声信号に含まれる音声（重要音声以外の音声）と認識音声テーブル（Ａ７、Ｂ７）の該当レコードの音声フィールド４０３に登録された音声が若干のノイズが含まれていても一致し（比較対象となる音声信号の一致する割合が第２の閾値以上であるが、第１の閾値を下回り）、かつ、他の制御装置２から取得した時刻データ付きの音声信号に含まれる重要音声と認識音声テーブル（Ａ７、Ｂ７）の該当レコードの重要音声フィールド４０４に登録された重要音声が殆どノイズを含まず、ほぼ厳密に一致する（比較対象となる音声信号の一致する割合が第１の閾値以上である）ことを意味する。「１号給水ポンプＡ起動します。」という音声が入力された場合、一方では、「キュウスイポンプ」と認識され、他方では「キュウス××ンプ」（××の部分はノイズ）と認識されても、重要音声ではないので一致していると判断される。しかし、一方では「キドウ」と認識され、他方では「×ドウ」（×の部分はノイズ）と認識されたのであれば、重要音声であるので一致していないと判断される。

次に、ステップＳ０６おいて、制御装置２の制御部は、正常と判断された音声信号と、指令メッセージテーブル（Ａ８、Ｂ８）のデータとを比較する。正常と判断された音声信号に含まれる音声の特徴量を検索キーとして指令メッセージテーブル（Ａ８、Ｂ８）を検索する。比較した後、ステップＳ０７に進む。

次に、ステップＳ０７において、制御装置２の制御部は、指令メッセージテーブル（Ａ８、Ｂ８）に対象となるレコードは存在するか否かを判断する。具体的には、検索キーとなる音声信号に含まれる音声の特徴量が指令メッセージテーブル（Ａ８、Ｂ８）内の対象設備番号フィールド５０２、指令対象フィールド５０３、指令フィールド５０４に登録された値と一致するか否かを判断する。そのレコードが存在すれば（ステップＳ０７でＹｅｓ）、ステップＳ０８に進む。そうでなければ（ステップＳ０７でＮｏ）、ステップＳ１１に進む。
なお、本実施形態では、指令対象フィールド５０３に登録される値は、重要音声でない音声であり、指令フィールド５０４に登録される値は、重要音声であるとする。「１号給水ポンプＡ起動します」という音声が入力された場合、「イチゴウキュウスイポンプエイ」という部分がＮｏ１と番号付けられたレコードの指令対象フィールド５０３の値と一致し、「キドウ」という部分が、指令フィールド５０４の値と一致する。

次に、ステップＳ０８において、制御装置２の制御部は、指令メッセージテーブル（Ａ８、Ｂ８）に記載されているデータを補機９に出力する。具体的には、検索キーとなる音声信号により指令メッセージテーブル（Ａ８、Ｂ８）から抽出されたレコードにおいて、ロジックシートフィールド５０５に登録されていたロジックシートを記憶部から読み出し、音声命令番号フィールド５０６に登録されていた音声命令番号を、読み出したロジックシートの所定の領域に入力する。入力すれば、ロジックシートに示された論理回路に従って演算結果となる制御用データが求められる。その制御用データを補機９に出力して終了する。「１号給水ポンプＡ起動します」という音声が入力された場合、Ｎｏ１と番号付けられたレコードが参照され、「ＣＳ００１」というロジックシートおよび「１」という音声指令番号が抽出され、ロジックシートＣＳ００１の所定の領域に音声指令番号１が入力される。その結果、プラント１号の給水ポンプＡを起動させる制御用データが制御装置２から出力される。

次に、ステップＳ０９において、制御装置２の制御部は、記録不可能であると判断された音声信号を無視して、その音声信号を破棄して終了する。

次に、ステップＳ１０において、制御装置２の制御部は、他の制御装置２と比較して一致しないと判断された音声信号を無視して、その音声信号を破棄して終了する。

次に、ステップＳ１１において、制御装置２の制御部は、入力された音声信号に対し、指令メッセージテーブル（Ａ８、Ｂ８）に対象となるレコードは存在しないと判断された音声信号を無視して、その音声信号を破棄して終了する。
以上で、分散型音声認識システムによる処理動作の説明を終了する。

≪まとめ≫
本実施形態により、以下の効果を奏する。すなわち、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断するので、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。音声認識の精度を上げるときには、システム「単体」でいかに精度良く認識するかという考えが主流であるが、発電等のプラントの制御装置に用いる場合には、既に記したような困難が生じるので、音声認識する箇所を「複数」備えるようにして所望の認識精度を実現する。制御装置が元々複数備わっているハードウェア構成であるため、分散型音声認識システムを複数備えることによる、資源の減少、インタフェースの追加等といった負担は少ない。

また、音声認識で制御装置の制御を行うことにより、他の制御装置と接続するためにケーブル配線を用いる必要がなくなり、本実施形態の分散型音声認識システムの適用範囲は拡大される。

また、制御装置間の取り合いを音声で行うことになるため、取り合い信号数に制限は無く、さらに配線も不要となることから、配線を流れる電流の電流値の検討や接続試験等は不要であるとともに、装置全体を大幅に小規模化することができる。

≪その他≫
なお、前記形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することが可能である。

例えば、本実施形態では、監視員５がマイク７を使用して制御装置２に指令する音声を音声出力部１から出力した。しかし、この音声は、工場用端末６においてその指令用に予め録音しておき、所望のタイミングでその音声を読み出して音声出力部１から出力するようにしても良い。

また、本実施形態では、２台以上並列に配置された制御装置から２つの制御装置を選択してそれぞれの制御装置において音声認識を行った。しかし、音声認識を行う制御装置の数は複数であればその個数は限定しない。処理に伴う負荷を考慮しつつ、すべての制御装置において音声認識を行い音声信号が正常であるか否かを判断するようにしても良い。さらに、本実施形態の分散型音声認識システムを制御装置に搭載するのではなく、独立した複数個からなる装置として構成し、それらの装置を制御装置等と通信可能に接続したネットワークを構成しても良い。

その他、ハードウェア、ソフトウェア、各フローチャート、データ構造等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

音声により処理を実行する装置に対し、本発明の分散型音声認識システムを適用することができる。適用する際、装置と外部接続するか、装置の内部に搭載するかは問わない。

本実施形態による分散型音声認識システムが使用されるネットワークの構成を示したブロック図である。本実施形態による分散型音声認識システムの構成の一実施例を示したブロック図である。重要音声テーブル（Ａ６、Ｂ６）のデータ構造を図示したものである。認識音声テーブル（Ａ７、Ｂ７）のデータ構造を図示したものである。指令メッセージテーブル（Ａ８、Ｂ８）のデータ構造を図示したものである。本実施形態による分散型音声認識システムによる処理動作を示すフローチャートである。

符号の説明

１音声出力部
２制御装置（第１の制御装置、第２の制御装置を含む。）
３検査員
４現場用サーバ
５監視員
６工場用端末
７マイク
８工場用サーバ
９補機
Ａ１、Ｂ１音声入力部
Ａ２、Ｂ２音声認識部
Ａ３、Ｂ３時刻印加部
Ａ４、Ｂ４音声正常判断部
Ａ５、Ｂ５メッセージ処理部
Ａ６、Ｂ６重要音声テーブル
Ａ７、Ｂ７認識音声テーブル
Ａ８、Ｂ８指令メッセージテーブル

Claims

外部から入力した音声を第１の音声信号に変換し、前記第１の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声に、制御対象となる装置に対する指令が含まれていれば、前記指令に応じた制御用データを前記装置に出力するように制御する第１の制御部と、
制御対象となる装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第１の記憶部と、
を備える第１の制御装置と、
外部から入力した音声を第２の音声信号に変換し、前記第２の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声に、制御対象となる装置に対する指令が含まれていれば、前記指令に応じた制御用データを前記装置に出力するように制御する第２の制御部と、
制御対象となる装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第２の記憶部と、
を備える第２の制御装置と、
を少なくとも含み、前記第１の制御装置および前記第２の制御装置が通信可能に接続された分散型音声認識システムにおいて、
前記第１の制御部により前記第１の音声信号に対して当該音声が入力された時刻を示す第１の時刻データを付加するとともに、前記第２の制御部により前記第２の音声信号に対して当該音声が入力された時刻を示す第２の時刻データを付加し、
前記第１の制御部は、
前記第１の時刻データが付加された前記第１の音声信号と、前記第２の制御装置から取得した、前記第２の時刻データが付加された前記第２の音声信号のうち、前記第２の時刻データが示す時刻と前記第１の時刻データが示す時刻とが略一致するものを比較することで前記第１の音声信号が正常であるか否かを判断する
ことを特徴とする分散型音声認識システム。
前記第１の記憶部は、
前記比較により前記第１の音声信号と前記第２の音声信号との一致する割合が第１の閾値以上であるときに前記第１の音声信号が正常であると判断し、この音声を重要音声として記憶し、
前記第１の制御部は、
前記重要音声でない音声に対する前記比較において、前記第１の閾値を下回る第２の閾値以上の割合で一致すれば、前記第１の閾値以上の割合で一致することがなくとも前記第１の音声信号が正常であると判断する
ことを特徴とする請求項１に記載の分散型音声認識システム。
前記第１の記憶部は、
前記比較により前記第１の音声信号と前記第２の音声信号との一致する割合が第１の閾値以上であるときに前記第１の音声信号が正常であると判断し、この音声を重要音声として記憶し、
前記第１の制御部は、
前記重要音声に対する前記比較において、前記第１の閾値を下回る第２の閾値以上の割合で一致しても、前記第１の閾値以上の割合で一致することがなければ前記第１の音声信号が正常でないと判断する
ことを特徴とする請求項１に記載の分散型音声認識システム。