JP2010066360A - 分散型音声認識システム - Google Patents

分散型音声認識システム Download PDF

Info

Publication number
JP2010066360A
JP2010066360A JP2008230693A JP2008230693A JP2010066360A JP 2010066360 A JP2010066360 A JP 2010066360A JP 2008230693 A JP2008230693 A JP 2008230693A JP 2008230693 A JP2008230693 A JP 2008230693A JP 2010066360 A JP2010066360 A JP 2010066360A
Authority
JP
Japan
Prior art keywords
voice
control device
control
audio signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008230693A
Other languages
English (en)
Other versions
JP5049930B2 (ja
Inventor
Tomokazu Sano
智一 佐野
Katsunori Nagai
克典 永井
Yoshio Maruyama
良雄 丸山
Kojiro Okamoto
浩次郎 岡本
Taichi Nomura
太一 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008230693A priority Critical patent/JP5049930B2/ja
Publication of JP2010066360A publication Critical patent/JP2010066360A/ja
Application granted granted Critical
Publication of JP5049930B2 publication Critical patent/JP5049930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】発電等のプラントの制御装置に入力される音声の認識の精度を高める。
【解決手段】音声出力部1から入力した音声を音声信号に変換して認識し、その音声に、補機9に対する指令が含まれていれば、前記指令に応じた制御用データを補機9に出力する制御部と、補機9に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する記憶部とを有する制御装置2を複数備えた分散型音声認識システムにおいて、各制御装置2において、音声信号に対して当該音声が入力された時刻を示す時刻データを付加し、一方の制御装置2は、その制御装置2が有する時刻データが付加された音声信号と、他方の制御装置2から取得した音声信号のうち時刻データが示す時刻が略一致するものを比較することで入力した音声信号が正常であるか否かを判断する。
【選択図】図2

Description

本発明は、主に発電等のプラントの稼働を制御する複数の制御装置に行う指令を音声により行う技術に関する。
プラントが配置されている現場には、プラントの稼働を制御する制御装置(「制御盤」ともいう。)が配置されており、通常は、複数の制御装置が並列に配置されている。この制御装置では、その制御を行うにあたり、他の制御装置との信号の取り合いが行われている。
近年、制御装置間の信号の取り合いは、制御装置間をケーブル配線で接続した有線通信から無線通信に切り替えられるようになった。無線通信であれば、ケーブルの配線に必要なインタフェースや空間を設ける必要はなく、基本的には、制御装置に対して送信用装置および受信用装置を配置すれば十分である。しかし、無線通信では、制御装置等の規格を統一する必要が生じ、メーカが異なり、規格の異なる制御装置等が用いられる場合には、これらの装置からなるシステムの実現は難しい。
そこで、無線通信において音声を使用する方法が考えられる。つまり、現場に配置されたスピーカから制御装置用の指令を音声で制御装置に出力し、音声の信号処理を含めた制御装置間の信号の取り合いを実現するというものである。この方法であれば、前記送信用装置は不要であり、受信用装置のみ対応すれば良く、システムの実現における規格の統一化は容易になる。
このようなシステムは特に、制御装置の点検作業において有用である。この点検作業においては、特定の検査員が試験器材を現場に持ち込み、前記取り合いの動作確認、当該制御装置の制御対象となる補機、つまり、プラントを構成するポンプ、バルブ等の動作確認等といった、制御装置の点検が行われる。また、この点検では、現場にいる検査員と、現場から離れた工場で監視している監視員とがトランシーバ等で連絡を取り合っている。検査員は監視員からの指令に従って前記点検を行い、その結果を監視員に報告する。また、監視員が制御装置に対し直接指令するためのコマンド操作を行い、検査員による点検をサポートする場合もある。このコマンド操作を音声で行えば、点検作業は容易になる。
ただ、音声を使用する場合には、制御装置側で音声の認識を適切に行う必要があるが、その音声にノイズが入り込んでしまい、音声の誤認識を招くおそれがある。他の作業で多くのノイズが生じてしまう現場においては尚更である。
特許文献1に開示されているように、複数個所で音声を検出し、その音声を比較しながら認識すれば、ある程度は誤認識を低減することができる。しかし、音声の検出に対し、音声の認識を処理するための構成は単純化されているため、よほど高精度の音声認識技術を用いない限り、前記点検に必要とされる認識の精度を実現することは困難である。
特許第3725566号公報(段落0025、図4等)
前記事情を鑑みて、本発明は、発電等のプラントの制御装置に入力される音声の認識の精度を高めることを目的とする。
前記目的を達成するため、本発明では、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断する。詳細は、後記する。
本発明により、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。
≪構成≫
以下、本発明の実施の形態(以下、「実施形態」という。)を、図を用いて説明する。
図1は、本実施形態による分散型音声認識システムが使用されるネットワークの構成を示したブロック図である。
この分散型音声認識システムは、発電等のプラントの稼働を制御し、現場において複数(図1では8つ)並列に配置された制御装置2に搭載されている。分散型音声認識システムの説明は、後記する。現場のネットワークには、前記制御装置2の他に、工場から出力される音声を少なくとも制御装置2に向けて出力する音声出力部1および工場にあるコンピュータ(工場用サーバ8等)とインターネット回線により通信可能に接続された現場用サーバ4が通信可能に接続されている。また、現場においては、検査員3が制御装置2の検査を行っている。検査としては、例えば、制御装置2に搭載されているPI/O(Process Input/Output)インタフェースとして実現されるAI/O(Analog Input/output)ユニットまたはDI/O(Digital Input/Output)ユニットの静特性検査がある。
一方、工場においては、そのネットワークに対し、音声の入力を行うマイク7を有する工場用端末6および現場にあるコンピュータ(現場用サーバ4等)とインターネット回線により通信可能に接続された工場用サーバ8が通信可能に接続されている。工場においては、制御装置2の稼働状況を音声により制御する監視員5が待機している。また、監視員5と検査員3とは、例えば、トランシーバを用いて、主に制御装置2の点検に関する連絡を取り合っている。
なお、コンピュータである音声出力部1、制御装置2、現場用サーバ4、工場用端末6および工場用サーバ8は、そのハードウェア構成として、入力ポートを有する入力部、出力ポートを有する出力部、CPU(Central Processing Unit)等として実現される制御部(第1の制御部、第2の制御部を含む。)、外部記憶装置としてのHDD(Hard Disk Drive)等で実現される記憶部(第1の記憶部、第2の記憶部を含む。)、読み書きされるデータが展開される記憶領域を有するRAM(Random Access Memory)等で実現されるメモリを有している。これらの装置で本発明に関する処理が実行されるときには、各装置の記憶部に格納されたプログラムがメモリにロードされ、各CPU(制御部)により実行されることにより、ネットワークを構成する各装置上に具現化される各処理部により実行される。また、各プログラムは予め記憶部に格納されても良いし、他の記憶媒体または通信媒体(ネットワークまたはネットワークを伝搬する搬送波)を介して、必要なときに導入されても良い。
図2は、本実施形態による分散型音声認識システムの構成の一実施例を示したブロック図である。制御装置2の各々は、分散型音声認識システムを構成する機能部として、音声入力部(A1またはB1)、音声認識部(A2またはB2)、時刻印加部(A3またはB3)、音声正常判断部(A4またはB4)、メッセージ処理部(A5またはB5)、重要音声テーブル(A6またはB6)、認識音声テーブル(A7またはB7)および指令メッセージテーブル(A8またはB8)を備えている。図2に図示されている2つの制御装置2(第1の制御装置、第2の制御装置)は、音声出力部1から出力された音声が入力された制御装置2(図1に図示された8つの制御装置)から所定の方法で選択されたものである。選択の方法としては、例えば、各制御装置2に入力された音声の音量を計測し、最も大きな音量が入力された制御装置2を選ぶという方法がある。この場合、音量を計測する装置は、各制御装置2に備えられている。
音声入力部(A1、B1)は、音声出力部1から出力された、監視員5の音声を、ノイズ、その他の音も含めて検出する機能を有する。検出した音声は、例えばデジタルの音声信号に変換され、その音声信号が音声認識部(A2、B2)に出力される。
音声認識部(A2、B2)は、音声入力部(A1、B1)から出力された音声信号に対し、例えば、FFT(Fast Fourier Transform)等を用いて周波数解析を行い、音声の特徴量を抽出する。特徴量が抽出できない場合は、ノイズのみからなる音声として認識し、その音声信号は無視される。無視された音声信号は破棄される。音声の認識は、例えば、前記特徴量を用いて複合類似度法、HMM(Hidden Markov Model)、DP(Dynamic Programing)マッチングなどの手法により、各制御装置2に記憶されている不図示の辞書(キーワードが体系的に管理され、記憶されたデータ群)との照合が行われる。
また、特徴量が抽出された音声信号において、後記する重要音声テーブル(A6、B6)に登録された音声と一致するものがあれば、その音声に重要音声が含まれているものとして処理し、当該音声信号が時刻印加部(A3、B3)に出力される。なお、重要音声については、後記する。
時刻印加部(A3、B3)は、音声認識部(A2、B2)から出力された音声信号に対し、その音声が当該制御装置2に入力された時刻を示す時刻データを付加する。時刻データは、各制御装置2に搭載されている不図示のタイマが計時処理をしたことにより生成されたデータである。例えば、音声入力部(A1、B1)がタイマに時刻データを生成するように要求したときに、計時処理が行われ、その要求を受信した時の時刻を生成するといった制御がなされる。時刻データが付加された音声信号は、認識音声テーブル(A7、B7)に所定のデータ構造を有して一時的に登録される。
音声正常判断部(A4、B4)は、認識音声テーブル(A7、B7)から取得した音声信号が、ノイズの混入が所定の閾値以下となる正常なものであるか否かを判断する。この判断においては、他の制御装置2の音声正常判断部から当該音声信号を受信し、自ら受信した音声信号に付加された時刻データが示す時刻と他の制御装置から受信したそれとがほぼ同時刻、例えば、±0.2秒以内に収まる時刻の音声信号同士を比較する。この比較により正常と判断された音声信号は、メッセージ処理部(A5、B5)に出力され、そうでないものは無視される。前記比較では、例えば、比較対象となる2つの音声信号の波形が一致する割合が閾値以上であるか否かが判断される。
メッセージ処理部(A5、B5)は、音声正常判断部(A4、B4)から出力された音声信号が制御装置2で実行される処理に用いられるもの、例えば、補機9の動作を制御するのに用いられる音声信号であるか否かを判断する。この判断は、当該音声信号が指令メッセージテーブル(A8、B8)に登録された指令内容(後記)を含むか否かが判断される。登録されている場合には、その指令内容を示すデータ(制御用データ)を補機9に出力して補機9を制御し、そうでない場合には、当該音声信号は無視される。
重要音声テーブル(A6またはB6)は、補機9を制御するために重要と判断された音声信号の音声を重要音声として、所定のデータ構造を有して(例えば、音声ファイル化して)登録するデータベースである。重要であるか否かの判断は、プラントを制御する者の設計事項であるが、通常は、補機9の動作を規定する音声を重要とする。例えば、補機9の「起動(キドウ)」、「停止(テイシ)」をいう。
図3は、重要音声テーブル(A6、B6)のデータ構造を図示したものである。この重要音声テーブル(A6またはB6)は、当該レコードを識別する番号が登録される識別番号(No)フィールド301と、重要と規定された音声が登録される重要音声フィールド302とを備えたデータベースである。入力された音声信号の音声において、重要音声フィールド302に登録された音声と一致する部分が存在したときは、その部分を重要音声と定めるフラグ処理がなされる。
認識音声テーブル(A7、B7)は、時刻データが付加された音声信号を、所定のデータ構造を有して(例えば、音声ファイル化した音声信号と時刻データとを対応付けて)登録するデータベースである。
図4は、認識音声テーブル(A7、B7)のデータ構造を図示したものである。この認識音声テーブル(A7、B7)は、当該レコードを識別する番号が登録される識別番号(No)フィールド401と、時刻データが示す時刻が登録される時刻フィールド402と、音声信号が示す音声のうち重要音声でない部分が登録される音声フィールド403と、音声信号が示す音声のうち重要音声である部分が登録される重要音声フィールド404とを備えたデータベースである。当該音声信号に対する補機9の制御が済んだ後は、認識音声テーブル(A7、B7)内の当該レコードは破棄される。
なお、音声正常判断部(A4、B4)は、重要音声でない部分については、音声信号に若干量(例えば、30%程度)のノイズが混入し、音声信号に乱れが生じたと判断した場合であっても正常と判断する。ただ、重要音声である部分については、音声信号に混入したノイズが微少量(例えば、1%程度)以下であるときに正常と判断するようにして認識の精度に差を設けるようにする。
指令メッセージテーブル(A8、B8)は、各制御装置2がその指令対象(主に、補機9)にする指令内容を、所定のデータ構造を有して(例えば、音声ファイル化して)登録するデータベースである。
図5は、指令メッセージテーブル(A8、B8)のデータ構造を図示したものである。この指令メッセージテーブル(A8、B8)は、当該レコードを識別する番号が登録される識別番号(No)フィールド501と、指令対象となる設備、つまりプラントを識別する値が登録される対象設備番号フィールド502と、制御装置2の指令対象として、プラントを構成する補機9を識別する値が登録される指令対象フィールド503と、制御装置2からの指令内容を識別する値が登録される指令フィールド504と、前記指令内容を論理回路で表現したロジックシート(アルゴリズム)が登録されるロジックシートフィールド505と、指令内容に応じた制御を実現するためにロジックシートに入力される音声命令を識別する番号が登録される音声命令番号フィールド506とを備えたデータベースである。音声命令番号フィールド506に登録される番号は、指令フィールド504に登録される値と1対1に対応する。
ロジックシートは各制御装置2の記憶部に記憶されており、入力される音声信号に一致するレコードが抽出されたときに、そのレコードに登録されているロジックシートが読み出される。また、ロジックシートには、音声命令番号フィールド506に登録された番号が入力される、論理回路としての領域を備えている。
≪処理≫
次に、本実施形態による分散型音声認識システムによる処理動作について説明する。図6は、本実施形態による分散型音声認識システムによる処理動作を示すフローチャートである。この処理動作の主体は、各制御装置2の制御部である。
また、この処理動作が、現場にいる検査員3と工場で監視している監視員5とによる制御装置2の検査(主に、補機9に対する制御装置2の制御(取り合いも含む。)が正常に行われているか否かを確認する検査)において実行されているものとして説明する。ちなみに、検査員3と監視員5とはトランシーバで検査に関する連絡をやり取りしている。例えば、検査員3は監視員5に対し、
「盤No.5 端子台No.X11 1番、2番ジャンパーします」
とか、
「盤No.5 端子台No.X11 チャンネルNo.1 2.5V入力します」
といった、制御装置2の検査をするために、所定の信号入力を確認するための作業内容を報告する。
一方、監視員5は、前記した検査員3の作業に応じて補機9の稼働状態を変更するために、
「1号給水ポンプA起動します」
といった、補機9のテストに必要な指令を音声出力部1から音声により出力する。この音声は音量の大小は様々であるが、すべての制御装置2に入力される。
まず、ステップS01において、制御装置2の制御部は、工場からネットワーク等を介して送信され、現場の音声出力部1から出力された、監視員5の音声を、ノイズその他の音も含めて検出する。検出した音声は、音声信号として入力される。入力された後、ステップS02に進む。
次に、ステップS02において、制御装置2の制御部は、入力された音声信号がメモリに記録可能であるか否かを判断する。記録可能であれば(S02でYes)、ステップS03に進む。そうでなければ(S02でNo)ステップS09に進む。なお、音声信号が記録可能であるとは、音声認識部(A2、B2)において周波数解析を行い、音声の特徴量を抽出することが可能であることを意味する。また、重要音声テーブル(A6、B6)を参照して、音声信号に「キドウ」といったような重要音声に相当する音声の特徴量が含まれていれば、その音声信号に含まれる重要音声のフラグ処理を行う。例えば、「1号給水ポンプA起動します」という音声が入力された場合、音声認識により「イチゴウキュウスイポンプエイキドウ」と解析され、「キドウ」という箇所については、重要音声テーブル(A6、B6)のNo1と番号付けられたレコード(図3参照)が参照されることにより重要信号としてフラグ処理される。なお、「します」の部分は無視される(ステップS09参照)。
次に、ステップS03において、制御装置2の制御部は、記録可能であると判断された音声信号に時刻を印加し、時刻データ付きの音声信号を生成する。時刻データ付きの音声信号は、認識音声テーブル(A7、B7)に一時的に登録される。時刻を印加した後、ステップS04に進む。「1号給水ポンプA起動します」という音声が10:10に入力された場合、認識音声テーブル(A7、B7)のNo1と番号付けられたレコード(図4参照)が作成される。
次に、ステップS04において、制御装置2の制御部は、他の制御装置2で入力された時刻付近の音声信号と比較する。この比較においては、他の制御装置2から時刻データ付きの音声信号を取得し、認識音声テーブル(A7、B7)の時刻フィールド402に登録された時刻を参照して、ほぼ同時刻と判断できる音声信号を抽出し、両者を比較する。比較した後、ステップS05に進む。
次に、ステップS05において、制御装置2の制御部は、比較対象となる音声信号同士が一致するか否かを判断する。音声信号が一致する場合には(ステップS05でYes)、正常な音声信号と判断され、ステップS06に進む。そうでなければ(ステップS05でNo)、異常な音声信号と判断され、ステップS10に進む。なお、音声信号同士が一致するとは、他の制御装置2から取得した時刻データ付きの音声信号に含まれる音声(重要音声以外の音声)と認識音声テーブル(A7、B7)の該当レコードの音声フィールド403に登録された音声が若干のノイズが含まれていても一致し(比較対象となる音声信号の一致する割合が第2の閾値以上であるが、第1の閾値を下回り)、かつ、他の制御装置2から取得した時刻データ付きの音声信号に含まれる重要音声と認識音声テーブル(A7、B7)の該当レコードの重要音声フィールド404に登録された重要音声が殆どノイズを含まず、ほぼ厳密に一致する(比較対象となる音声信号の一致する割合が第1の閾値以上である)ことを意味する。「1号給水ポンプA起動します。」という音声が入力された場合、一方では、「キュウスイポンプ」と認識され、他方では「キュウス××ンプ」(××の部分はノイズ)と認識されても、重要音声ではないので一致していると判断される。しかし、一方では「キドウ」と認識され、他方では「×ドウ」(×の部分はノイズ)と認識されたのであれば、重要音声であるので一致していないと判断される。
次に、ステップS06おいて、制御装置2の制御部は、正常と判断された音声信号と、指令メッセージテーブル(A8、B8)のデータとを比較する。正常と判断された音声信号に含まれる音声の特徴量を検索キーとして指令メッセージテーブル(A8、B8)を検索する。比較した後、ステップS07に進む。
次に、ステップS07において、制御装置2の制御部は、指令メッセージテーブル(A8、B8)に対象となるレコードは存在するか否かを判断する。具体的には、検索キーとなる音声信号に含まれる音声の特徴量が指令メッセージテーブル(A8、B8)内の対象設備番号フィールド502、指令対象フィールド503、指令フィールド504に登録された値と一致するか否かを判断する。そのレコードが存在すれば(ステップS07でYes)、ステップS08に進む。そうでなければ(ステップS07でNo)、ステップS11に進む。
なお、本実施形態では、指令対象フィールド503に登録される値は、重要音声でない音声であり、指令フィールド504に登録される値は、重要音声であるとする。「1号給水ポンプA起動します」という音声が入力された場合、「イチゴウキュウスイポンプエイ」という部分がNo1と番号付けられたレコードの指令対象フィールド503の値と一致し、「キドウ」という部分が、指令フィールド504の値と一致する。
次に、ステップS08において、制御装置2の制御部は、指令メッセージテーブル(A8、B8)に記載されているデータを補機9に出力する。具体的には、検索キーとなる音声信号により指令メッセージテーブル(A8、B8)から抽出されたレコードにおいて、ロジックシートフィールド505に登録されていたロジックシートを記憶部から読み出し、音声命令番号フィールド506に登録されていた音声命令番号を、読み出したロジックシートの所定の領域に入力する。入力すれば、ロジックシートに示された論理回路に従って演算結果となる制御用データが求められる。その制御用データを補機9に出力して終了する。「1号給水ポンプA起動します」という音声が入力された場合、No1と番号付けられたレコードが参照され、「CS001」というロジックシートおよび「1」という音声指令番号が抽出され、ロジックシートCS001の所定の領域に音声指令番号1が入力される。その結果、プラント1号の給水ポンプAを起動させる制御用データが制御装置2から出力される。
次に、ステップS09において、制御装置2の制御部は、記録不可能であると判断された音声信号を無視して、その音声信号を破棄して終了する。
次に、ステップS10において、制御装置2の制御部は、他の制御装置2と比較して一致しないと判断された音声信号を無視して、その音声信号を破棄して終了する。
次に、ステップS11において、制御装置2の制御部は、入力された音声信号に対し、指令メッセージテーブル(A8、B8)に対象となるレコードは存在しないと判断された音声信号を無視して、その音声信号を破棄して終了する。
以上で、分散型音声認識システムによる処理動作の説明を終了する。
≪まとめ≫
本実施形態により、以下の効果を奏する。すなわち、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断するので、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。音声認識の精度を上げるときには、システム「単体」でいかに精度良く認識するかという考えが主流であるが、発電等のプラントの制御装置に用いる場合には、既に記したような困難が生じるので、音声認識する箇所を「複数」備えるようにして所望の認識精度を実現する。制御装置が元々複数備わっているハードウェア構成であるため、分散型音声認識システムを複数備えることによる、資源の減少、インタフェースの追加等といった負担は少ない。
また、音声認識で制御装置の制御を行うことにより、他の制御装置と接続するためにケーブル配線を用いる必要がなくなり、本実施形態の分散型音声認識システムの適用範囲は拡大される。
また、制御装置間の取り合いを音声で行うことになるため、取り合い信号数に制限は無く、さらに配線も不要となることから、配線を流れる電流の電流値の検討や接続試験等は不要であるとともに、装置全体を大幅に小規模化することができる。
≪その他≫
なお、前記形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することが可能である。
例えば、本実施形態では、監視員5がマイク7を使用して制御装置2に指令する音声を音声出力部1から出力した。しかし、この音声は、工場用端末6においてその指令用に予め録音しておき、所望のタイミングでその音声を読み出して音声出力部1から出力するようにしても良い。
また、本実施形態では、2台以上並列に配置された制御装置から2つの制御装置を選択してそれぞれの制御装置において音声認識を行った。しかし、音声認識を行う制御装置の数は複数であればその個数は限定しない。処理に伴う負荷を考慮しつつ、すべての制御装置において音声認識を行い音声信号が正常であるか否かを判断するようにしても良い。さらに、本実施形態の分散型音声認識システムを制御装置に搭載するのではなく、独立した複数個からなる装置として構成し、それらの装置を制御装置等と通信可能に接続したネットワークを構成しても良い。
その他、ハードウェア、ソフトウェア、各フローチャート、データ構造等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
音声により処理を実行する装置に対し、本発明の分散型音声認識システムを適用することができる。適用する際、装置と外部接続するか、装置の内部に搭載するかは問わない。
本実施形態による分散型音声認識システムが使用されるネットワークの構成を示したブロック図である。 本実施形態による分散型音声認識システムの構成の一実施例を示したブロック図である。 重要音声テーブル(A6、B6)のデータ構造を図示したものである。 認識音声テーブル(A7、B7)のデータ構造を図示したものである。 指令メッセージテーブル(A8、B8)のデータ構造を図示したものである。 本実施形態による分散型音声認識システムによる処理動作を示すフローチャートである。
符号の説明
1 音声出力部
2 制御装置(第1の制御装置、第2の制御装置を含む。)
3 検査員
4 現場用サーバ
5 監視員
6 工場用端末
7 マイク
8 工場用サーバ
9 補機
A1、B1 音声入力部
A2、B2 音声認識部
A3、B3 時刻印加部
A4、B4 音声正常判断部
A5、B5 メッセージ処理部
A6、B6 重要音声テーブル
A7、B7 認識音声テーブル
A8、B8 指令メッセージテーブル

Claims (3)

  1. 外部から入力した音声を第1の音声信号に変換し、前記第1の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声に、制御対象となる装置に対する指令が含まれていれば、前記指令に応じた制御用データを前記装置に出力するように制御する第1の制御部と、
    制御対象となる装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第1の記憶部と、
    を備える第1の制御装置と、
    外部から入力した音声を第2の音声信号に変換し、前記第2の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声に、制御対象となる装置に対する指令が含まれていれば、前記指令に応じた制御用データを前記装置に出力するように制御する第2の制御部と、
    制御対象となる装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第2の記憶部と、
    を備える第2の制御装置と、
    を少なくとも含み、前記第1の制御装置および前記第2の制御装置が通信可能に接続された分散型音声認識システムにおいて、
    前記第1の制御部により前記第1の音声信号に対して当該音声が入力された時刻を示す第1の時刻データを付加するとともに、前記第2の制御部により前記第2の音声信号に対して当該音声が入力された時刻を示す第2の時刻データを付加し、
    前記第1の制御部は、
    前記第1の時刻データが付加された前記第1の音声信号と、前記第2の制御装置から取得した、前記第2の時刻データが付加された前記第2の音声信号のうち、前記第2の時刻データが示す時刻と前記第1の時刻データが示す時刻とが略一致するものを比較することで前記第1の音声信号が正常であるか否かを判断する
    ことを特徴とする分散型音声認識システム。
  2. 前記第1の記憶部は、
    前記比較により前記第1の音声信号と前記第2の音声信号との一致する割合が第1の閾値以上であるときに前記第1の音声信号が正常であると判断し、この音声を重要音声として記憶し、
    前記第1の制御部は、
    前記重要音声でない音声に対する前記比較において、前記第1の閾値を下回る第2の閾値以上の割合で一致すれば、前記第1の閾値以上の割合で一致することがなくとも前記第1の音声信号が正常であると判断する
    ことを特徴とする請求項1に記載の分散型音声認識システム。
  3. 前記第1の記憶部は、
    前記比較により前記第1の音声信号と前記第2の音声信号との一致する割合が第1の閾値以上であるときに前記第1の音声信号が正常であると判断し、この音声を重要音声として記憶し、
    前記第1の制御部は、
    前記重要音声に対する前記比較において、前記第1の閾値を下回る第2の閾値以上の割合で一致しても、前記第1の閾値以上の割合で一致することがなければ前記第1の音声信号が正常でないと判断する
    ことを特徴とする請求項1に記載の分散型音声認識システム。
JP2008230693A 2008-09-09 2008-09-09 分散型音声認識システム Active JP5049930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008230693A JP5049930B2 (ja) 2008-09-09 2008-09-09 分散型音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008230693A JP5049930B2 (ja) 2008-09-09 2008-09-09 分散型音声認識システム

Publications (2)

Publication Number Publication Date
JP2010066360A true JP2010066360A (ja) 2010-03-25
JP5049930B2 JP5049930B2 (ja) 2012-10-17

Family

ID=42192024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008230693A Active JP5049930B2 (ja) 2008-09-09 2008-09-09 分散型音声認識システム

Country Status (1)

Country Link
JP (1) JP5049930B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316641A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 一种语音控制方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02178699A (ja) * 1988-12-28 1990-07-11 Nec Corp 音声認識装置
JPH04318900A (ja) * 1991-04-18 1992-11-10 Oki Electric Ind Co Ltd 多方向同時収音式音声認識方法
JPH07199985A (ja) * 1993-11-24 1995-08-04 At & T Corp 音声認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02178699A (ja) * 1988-12-28 1990-07-11 Nec Corp 音声認識装置
JPH04318900A (ja) * 1991-04-18 1992-11-10 Oki Electric Ind Co Ltd 多方向同時収音式音声認識方法
JPH07199985A (ja) * 1993-11-24 1995-08-04 At & T Corp 音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316641A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 一种语音控制方法及电子设备

Also Published As

Publication number Publication date
JP5049930B2 (ja) 2012-10-17

Similar Documents

Publication Publication Date Title
US10546585B2 (en) Localizing and verifying utterances by audio fingerprinting
JP6630765B2 (ja) 個別化されたホットワード検出モデル
US9053704B2 (en) System and method for standardized speech recognition infrastructure
US20200090647A1 (en) Keyword Detection In The Presence Of Media Output
JP6276400B2 (ja) 制御装置およびメッセージ出力制御システム
JP3967952B2 (ja) 文法更新システム及び方法
WO2015163774A1 (en) Methods and apparatus to enhance security of authentication
CN107680613A (zh) 一种声控设备语音识别能力测试方法及设备
US9298811B2 (en) Automated confirmation and disambiguation modules in voice applications
CN101208739A (zh) 用于安全信息的语音识别系统
CN103578468A (zh) 一种语音识别中置信度阈值的调整方法及电子设备
US20170178632A1 (en) Multi-user unlocking method and apparatus
US20080154596A1 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
WO2022083969A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
CN112767939A (zh) 一种智能设备唤醒方法、装置、计算机设备及存储介质
CN110716843B (zh) 系统故障分析处理方法、装置、存储介质及电子设备
JP6775563B2 (ja) 人工知能機器の自動不良検出のための方法およびシステム
JP5049930B2 (ja) 分散型音声認識システム
US20190121610A1 (en) User Interface For Hands Free Interaction
KR20210054246A (ko) 전자장치 및 그 제어방법
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
EP4372547A1 (en) Configuration of audio for voice test system automation
WO2023182015A1 (ja) 音声認証装置および音声認証方法
CN114090685A (zh) 门禁人员的生物识别数据的同步及确认校验方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5049930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150