JP5049930B2 - Distributed speech recognition system - Google Patents
Distributed speech recognition system Download PDFInfo
- Publication number
- JP5049930B2 JP5049930B2 JP2008230693A JP2008230693A JP5049930B2 JP 5049930 B2 JP5049930 B2 JP 5049930B2 JP 2008230693 A JP2008230693 A JP 2008230693A JP 2008230693 A JP2008230693 A JP 2008230693A JP 5049930 B2 JP5049930 B2 JP 5049930B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- audio signal
- command
- control device
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、主に発電等のプラントの稼働を制御する複数の制御装置に行う指令を音声により行う技術に関する。 The present invention relates to a technique for giving a voice command to a plurality of control devices that mainly control operation of a plant such as power generation.
プラントが配置されている現場には、プラントの稼働を制御する制御装置(「制御盤」ともいう。)が配置されており、通常は、複数の制御装置が並列に配置されている。この制御装置では、その制御を行うにあたり、他の制御装置との信号の取り合いが行われている。 A control device (also referred to as a “control panel”) for controlling the operation of the plant is arranged at a site where the plant is arranged, and usually a plurality of control devices are arranged in parallel. In this control device, signals are exchanged with other control devices when performing the control.
近年、制御装置間の信号の取り合いは、制御装置間をケーブル配線で接続した有線通信から無線通信に切り替えられるようになった。無線通信であれば、ケーブルの配線に必要なインタフェースや空間を設ける必要はなく、基本的には、制御装置に対して送信用装置および受信用装置を配置すれば十分である。しかし、無線通信では、制御装置等の規格を統一する必要が生じ、メーカが異なり、規格の異なる制御装置等が用いられる場合には、これらの装置からなるシステムの実現は難しい。 In recent years, signal communication between control devices can be switched from wired communication in which control devices are connected by cable wiring to wireless communication. In the case of wireless communication, it is not necessary to provide an interface or space necessary for cable wiring. Basically, it is sufficient to arrange a transmission device and a reception device with respect to the control device. However, in wireless communication, it is necessary to unify the standards of control devices and the like. When control devices with different standards are used from different manufacturers, it is difficult to realize a system composed of these devices.
そこで、無線通信において音声を使用する方法が考えられる。つまり、現場に配置されたスピーカから制御装置用の指令を音声で制御装置に出力し、音声の信号処理を含めた制御装置間の信号の取り合いを実現するというものである。この方法であれば、前記送信用装置は不要であり、受信用装置のみ対応すれば良く、システムの実現における規格の統一化は容易になる。 Therefore, a method of using voice in wireless communication can be considered. In other words, a command for the control device is output to the control device by voice from a speaker arranged at the site, and signal exchange between the control devices including voice signal processing is realized. With this method, the transmitting device is not necessary, and only the receiving device needs to be supported, and it is easy to standardize the standard in realizing the system.
このようなシステムは特に、制御装置の点検作業において有用である。この点検作業においては、特定の検査員が試験器材を現場に持ち込み、前記取り合いの動作確認、当該制御装置の制御対象となる補機、つまり、プラントを構成するポンプ、バルブ等の動作確認等といった、制御装置の点検が行われる。また、この点検では、現場にいる検査員と、現場から離れた工場で監視している監視員とがトランシーバ等で連絡を取り合っている。検査員は監視員からの指令に従って前記点検を行い、その結果を監視員に報告する。また、監視員が制御装置に対し直接指令するためのコマンド操作を行い、検査員による点検をサポートする場合もある。このコマンド操作を音声で行えば、点検作業は容易になる。 Such a system is particularly useful in inspection work for control devices. In this inspection work, a specific inspector brings test equipment to the site, confirms the operation of the joint, and confirms the operation of auxiliary equipment that is the control target of the control device, that is, pumps, valves, etc. constituting the plant. The control device is inspected. In this inspection, an inspector at the site and a monitor who is monitoring at a factory away from the site communicate with each other through a transceiver or the like. The inspector performs the inspection in accordance with the instruction from the observer and reports the result to the observer. In some cases, the supervisor may perform a command operation for directing the control device to support inspection by the inspector. If this command operation is performed by voice, the inspection work becomes easy.
ただ、音声を使用する場合には、制御装置側で音声の認識を適切に行う必要があるが、その音声にノイズが入り込んでしまい、音声の誤認識を招くおそれがある。他の作業で多くのノイズが生じてしまう現場においては尚更である。 However, when voice is used, it is necessary to properly recognize the voice on the control device side, but noise enters the voice and may cause erroneous recognition of the voice. This is especially true at sites where a lot of noise is generated by other operations.
特許文献1に開示されているように、複数個所で音声を検出し、その音声を比較しながら認識すれば、ある程度は誤認識を低減することができる。しかし、音声の検出に対し、音声の認識を処理するための構成は単純化されているため、よほど高精度の音声認識技術を用いない限り、前記点検に必要とされる認識の精度を実現することは困難である。
前記事情を鑑みて、本発明は、発電等のプラントの制御装置に入力される音声の認識の精度を高めることを目的とする。 In view of the above circumstances, an object of the present invention is to improve the accuracy of recognition of voice input to a plant control device such as power generation.
前記目的を達成するため、本発明では、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断する。詳細は、後記する。 In order to achieve the above object, according to the present invention, when speech recognition is performed in a plant control device such as power generation, it is determined whether or not the input speech signals coincide with each other. Details will be described later.
本発明により、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。 According to the present invention, it is possible to improve the accuracy of recognition of a voice input to a plant control device such as power generation.
≪構成≫
以下、本発明の実施の形態(以下、「実施形態」という。)を、図を用いて説明する。
図1は、本実施形態による分散型音声認識システムが使用されるネットワークの構成を示したブロック図である。
≪Configuration≫
Embodiments of the present invention (hereinafter referred to as “embodiments”) will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a network in which the distributed speech recognition system according to the present embodiment is used.
この分散型音声認識システムは、発電等のプラントの稼働を制御し、現場において複数(図1では8つ)並列に配置された制御装置2に搭載されている。分散型音声認識システムの説明は、後記する。現場のネットワークには、前記制御装置2の他に、工場から出力される音声を少なくとも制御装置2に向けて出力する音声出力部1および工場にあるコンピュータ(工場用サーバ8等)とインターネット回線により通信可能に接続された現場用サーバ4が通信可能に接続されている。また、現場においては、検査員3が制御装置2の検査を行っている。検査としては、例えば、制御装置2に搭載されているPI/O(Process Input/Output)インタフェースとして実現されるAI/O(Analog Input/output)ユニットまたはDI/O(Digital Input/Output)ユニットの静特性検査がある。
This distributed speech recognition system controls the operation of a plant such as power generation, and is mounted on a plurality of
一方、工場においては、そのネットワークに対し、音声の入力を行うマイク7を有する工場用端末6および現場にあるコンピュータ(現場用サーバ4等)とインターネット回線により通信可能に接続された工場用サーバ8が通信可能に接続されている。工場においては、制御装置2の稼働状況を音声により制御する監視員5が待機している。また、監視員5と検査員3とは、例えば、トランシーバを用いて、主に制御装置2の点検に関する連絡を取り合っている。
On the other hand, in a factory, a factory server 6 having a
なお、コンピュータである音声出力部1、制御装置2、現場用サーバ4、工場用端末6および工場用サーバ8は、そのハードウェア構成として、入力ポートを有する入力部、出力ポートを有する出力部、CPU(Central Processing Unit)等として実現される制御部(第1の制御部、第2の制御部を含む。)、外部記憶装置としてのHDD(Hard Disk Drive)等で実現される記憶部(第1の記憶部、第2の記憶部を含む。)、読み書きされるデータが展開される記憶領域を有するRAM(Random Access Memory)等で実現されるメモリを有している。これらの装置で本発明に関する処理が実行されるときには、各装置の記憶部に格納されたプログラムがメモリにロードされ、各CPU(制御部)により実行されることにより、ネットワークを構成する各装置上に具現化される各処理部により実行される。また、各プログラムは予め記憶部に格納されても良いし、他の記憶媒体または通信媒体(ネットワークまたはネットワークを伝搬する搬送波)を介して、必要なときに導入されても良い。
In addition, the audio |
図2は、本実施形態による分散型音声認識システムの構成の一実施例を示したブロック図である。制御装置2の各々は、分散型音声認識システムを構成する機能部として、音声入力部(A1またはB1)、音声認識部(A2またはB2)、時刻印加部(A3またはB3)、音声正常判断部(A4またはB4)、メッセージ処理部(A5またはB5)、重要音声テーブル(A6またはB6)、認識音声テーブル(A7またはB7)および指令メッセージテーブル(A8またはB8)を備えている。図2に図示されている2つの制御装置2(第1の制御装置、第2の制御装置)は、音声出力部1から出力された音声が入力された制御装置2(図1に図示された8つの制御装置)から所定の方法で選択されたものである。選択の方法としては、例えば、各制御装置2に入力された音声の音量を計測し、最も大きな音量が入力された制御装置2を選ぶという方法がある。この場合、音量を計測する装置は、各制御装置2に備えられている。
FIG. 2 is a block diagram showing an example of the configuration of the distributed speech recognition system according to the present embodiment. Each of the
音声入力部(A1、B1)は、音声出力部1から出力された、監視員5の音声を、ノイズ、その他の音も含めて検出する機能を有する。検出した音声は、例えばデジタルの音声信号に変換され、その音声信号が音声認識部(A2、B2)に出力される。
The voice input unit (A1, B1) has a function of detecting the voice of the supervisor 5 output from the
音声認識部(A2、B2)は、音声入力部(A1、B1)から出力された音声信号に対し、例えば、FFT(Fast Fourier Transform)等を用いて周波数解析を行い、音声の特徴量を抽出する。特徴量が抽出できない場合は、ノイズのみからなる音声として認識し、その音声信号は無視される。無視された音声信号は破棄される。音声の認識は、例えば、前記特徴量を用いて複合類似度法、HMM(Hidden Markov Model)、DP(Dynamic Programing)マッチングなどの手法により、各制御装置2に記憶されている不図示の辞書(キーワードが体系的に管理され、記憶されたデータ群)との照合が行われる。
また、特徴量が抽出された音声信号において、後記する重要音声テーブル(A6、B6)に登録された音声と一致するものがあれば、その音声に重要音声が含まれているものとして処理し、当該音声信号が時刻印加部(A3、B3)に出力される。なお、重要音声については、後記する。
The voice recognition unit (A2, B2) performs frequency analysis on the voice signal output from the voice input unit (A1, B1) using, for example, FFT (Fast Fourier Transform) or the like, and extracts voice feature values. To do. If the feature quantity cannot be extracted, it is recognized as a voice consisting only of noise, and the voice signal is ignored. Ignored audio signals are discarded. Speech recognition is performed by using, for example, a dictionary (not shown) stored in each
In addition, in the voice signal from which the feature amount is extracted, if there is a voice that matches the voice registered in the important voice table (A6, B6) to be described later, the voice is processed as being included in the voice, The audio signal is output to the time application unit (A3, B3). The important voice will be described later.
時刻印加部(A3、B3)は、音声認識部(A2、B2)から出力された音声信号に対し、その音声が当該制御装置2に入力された時刻を示す時刻データを付加する。時刻データは、各制御装置2に搭載されている不図示のタイマが計時処理をしたことにより生成されたデータである。例えば、音声入力部(A1、B1)がタイマに時刻データを生成するように要求したときに、計時処理が行われ、その要求を受信した時の時刻を生成するといった制御がなされる。時刻データが付加された音声信号は、認識音声テーブル(A7、B7)に所定のデータ構造を有して一時的に登録される。
The time application unit (A3, B3) adds time data indicating the time when the voice is input to the
音声正常判断部(A4、B4)は、認識音声テーブル(A7、B7)から取得した音声信号が、ノイズの混入が所定の閾値以下となる正常なものであるか否かを判断する。この判断においては、他の制御装置2の音声正常判断部から当該音声信号を受信し、自ら受信した音声信号に付加された時刻データが示す時刻と他の制御装置から受信したそれとがほぼ同時刻、例えば、±0.2秒以内に収まる時刻の音声信号同士を比較する。この比較により正常と判断された音声信号は、メッセージ処理部(A5、B5)に出力され、そうでないものは無視される。前記比較では、例えば、比較対象となる2つの音声信号の波形が一致する割合が閾値以上であるか否かが判断される。
The sound normality determination unit (A4, B4) determines whether or not the sound signal acquired from the recognized sound table (A7, B7) is a normal signal in which noise mixing is a predetermined threshold value or less. In this determination, the audio signal is received from the audio normality determination unit of the
メッセージ処理部(A5、B5)は、音声正常判断部(A4、B4)から出力された音声信号が制御装置2で実行される処理に用いられるもの、例えば、補機9の動作を制御するのに用いられる音声信号であるか否かを判断する。この判断は、当該音声信号が指令メッセージテーブル(A8、B8)に登録された指令内容(後記)を含むか否かが判断される。登録されている場合には、その指令内容を示すデータ(制御用データ)を補機9に出力して補機9を制御し、そうでない場合には、当該音声信号は無視される。
The message processing unit (A5, B5) controls the operation of the
重要音声テーブル(A6またはB6)は、補機9を制御するために重要と判断された音声信号の音声を重要音声として、所定のデータ構造を有して(例えば、音声ファイル化して)登録するデータベースである。重要であるか否かの判断は、プラントを制御する者の設計事項であるが、通常は、補機9の動作を規定する音声を重要とする。例えば、補機9の「起動(キドウ)」、「停止(テイシ)」をいう。
図3は、重要音声テーブル(A6、B6)のデータ構造を図示したものである。この重要音声テーブル(A6またはB6)は、当該レコードを識別する番号が登録される識別番号(No)フィールド301と、重要と規定された音声が登録される重要音声フィールド302とを備えたデータベースである。入力された音声信号の音声において、重要音声フィールド302に登録された音声と一致する部分が存在したときは、その部分を重要音声と定めるフラグ処理がなされる。
The important voice table (A6 or B6) registers the voice of the voice signal determined to be important for controlling the
FIG. 3 shows the data structure of the important voice table (A6, B6). The important voice table (A6 or B6) is a database including an identification number (No)
認識音声テーブル(A7、B7)は、時刻データが付加された音声信号を、所定のデータ構造を有して(例えば、音声ファイル化した音声信号と時刻データとを対応付けて)登録するデータベースである。
図4は、認識音声テーブル(A7、B7)のデータ構造を図示したものである。この認識音声テーブル(A7、B7)は、当該レコードを識別する番号が登録される識別番号(No)フィールド401と、時刻データが示す時刻が登録される時刻フィールド402と、音声信号が示す音声のうち重要音声でない部分が登録される音声フィールド403と、音声信号が示す音声のうち重要音声である部分が登録される重要音声フィールド404とを備えたデータベースである。当該音声信号に対する補機9の制御が済んだ後は、認識音声テーブル(A7、B7)内の当該レコードは破棄される。
なお、音声正常判断部(A4、B4)は、重要音声でない部分については、音声信号に若干量(例えば、30%程度)のノイズが混入し、音声信号に乱れが生じたと判断した場合であっても正常と判断する。ただ、重要音声である部分については、音声信号に混入したノイズが微少量(例えば、1%程度)以下であるときに正常と判断するようにして認識の精度に差を設けるようにする。
The recognized voice table (A7, B7) is a database that registers a voice signal to which time data is added, having a predetermined data structure (for example, associating a voice signal that has been converted into a voice file and time data). is there.
FIG. 4 shows the data structure of the recognition voice table (A7, B7). The recognition voice table (A7, B7) includes an identification number (No)
Note that the voice normality determination unit (A4, B4) is a case where it is determined that the audio signal is disturbed by a slight amount (for example, about 30%) of noise in the non-important voice part. Even if it is judged as normal. However, with respect to a portion that is an important voice, a difference is provided in recognition accuracy so that it is judged normal when the noise mixed in the voice signal is a very small amount (for example, about 1%) or less.
指令メッセージテーブル(A8、B8)は、各制御装置2がその指令対象(主に、補機9)にする指令内容を、所定のデータ構造を有して(例えば、音声ファイル化して)登録するデータベースである。
図5は、指令メッセージテーブル(A8、B8)のデータ構造を図示したものである。この指令メッセージテーブル(A8、B8)は、当該レコードを識別する番号が登録される識別番号(No)フィールド501と、指令対象となる設備、つまりプラントを識別する値が登録される対象設備番号フィールド502と、制御装置2の指令対象として、プラントを構成する補機9を識別する値が登録される指令対象フィールド503と、制御装置2からの指令内容を識別する値が登録される指令フィールド504と、前記指令内容を論理回路で表現したロジックシート(アルゴリズム)が登録されるロジックシートフィールド505と、指令内容に応じた制御を実現するためにロジックシートに入力される音声命令を識別する番号が登録される音声命令番号フィールド506とを備えたデータベースである。音声命令番号フィールド506に登録される番号は、指令フィールド504に登録される値と1対1に対応する。
ロジックシートは各制御装置2の記憶部に記憶されており、入力される音声信号に一致するレコードが抽出されたときに、そのレコードに登録されているロジックシートが読み出される。また、ロジックシートには、音声命令番号フィールド506に登録された番号が入力される、論理回路としての領域を備えている。
In the command message table (A8, B8), each
FIG. 5 shows the data structure of the command message table (A8, B8). This command message table (A8, B8) includes an identification number (No)
The logic sheet is stored in the storage unit of each
≪処理≫
次に、本実施形態による分散型音声認識システムによる処理動作について説明する。図6は、本実施形態による分散型音声認識システムによる処理動作を示すフローチャートである。この処理動作の主体は、各制御装置2の制御部である。
また、この処理動作が、現場にいる検査員3と工場で監視している監視員5とによる制御装置2の検査(主に、補機9に対する制御装置2の制御(取り合いも含む。)が正常に行われているか否かを確認する検査)において実行されているものとして説明する。ちなみに、検査員3と監視員5とはトランシーバで検査に関する連絡をやり取りしている。例えば、検査員3は監視員5に対し、
「盤No.5 端子台No.X11 1番、2番ジャンパーします」
とか、
「盤No.5 端子台No.X11 チャンネルNo.1 2.5V入力します」
といった、制御装置2の検査をするために、所定の信号入力を確認するための作業内容を報告する。
一方、監視員5は、前記した検査員3の作業に応じて補機9の稼働状態を変更するために、
「1号給水ポンプA起動します」
といった、補機9のテストに必要な指令を音声出力部1から音声により出力する。この音声は音量の大小は様々であるが、すべての制御装置2に入力される。
<< Process >>
Next, processing operations performed by the distributed speech recognition system according to the present embodiment will be described. FIG. 6 is a flowchart showing the processing operation by the distributed speech recognition system according to the present embodiment. The main body of this processing operation is the control unit of each
In addition, this processing operation is performed by the
"Board No.5 Terminal block No.X11 Jumper No.1 and No.2"
And,
“Panel No.5 Terminal block No.X11 Channel No.1 2.5V input”
In order to check the
On the other hand, the supervisor 5 changes the operating state of the
"No. 1 water supply pump A starts"
A command necessary for the test of the
まず、ステップS01において、制御装置2の制御部は、工場からネットワーク等を介して送信され、現場の音声出力部1から出力された、監視員5の音声を、ノイズその他の音も含めて検出する。検出した音声は、音声信号として入力される。入力された後、ステップS02に進む。
First, in step S01, the control unit of the
次に、ステップS02において、制御装置2の制御部は、入力された音声信号がメモリに記録可能であるか否かを判断する。記録可能であれば(S02でYes)、ステップS03に進む。そうでなければ(S02でNo)ステップS09に進む。なお、音声信号が記録可能であるとは、音声認識部(A2、B2)において周波数解析を行い、音声の特徴量を抽出することが可能であることを意味する。また、重要音声テーブル(A6、B6)を参照して、音声信号に「キドウ」といったような重要音声に相当する音声の特徴量が含まれていれば、その音声信号に含まれる重要音声のフラグ処理を行う。例えば、「1号給水ポンプA起動します」という音声が入力された場合、音声認識により「イチゴウキュウスイポンプエイキドウ」と解析され、「キドウ」という箇所については、重要音声テーブル(A6、B6)のNo1と番号付けられたレコード(図3参照)が参照されることにより重要信号としてフラグ処理される。なお、「します」の部分は無視される(ステップS09参照)。
Next, in step S02, the control unit of the
次に、ステップS03において、制御装置2の制御部は、記録可能であると判断された音声信号に時刻を印加し、時刻データ付きの音声信号を生成する。時刻データ付きの音声信号は、認識音声テーブル(A7、B7)に一時的に登録される。時刻を印加した後、ステップS04に進む。「1号給水ポンプA起動します」という音声が10:10に入力された場合、認識音声テーブル(A7、B7)のNo1と番号付けられたレコード(図4参照)が作成される。
Next, in step S03, the control unit of the
次に、ステップS04において、制御装置2の制御部は、他の制御装置2で入力された時刻付近の音声信号と比較する。この比較においては、他の制御装置2から時刻データ付きの音声信号を取得し、認識音声テーブル(A7、B7)の時刻フィールド402に登録された時刻を参照して、ほぼ同時刻と判断できる音声信号を抽出し、両者を比較する。比較した後、ステップS05に進む。
Next, in step S <b> 04, the control unit of the
次に、ステップS05において、制御装置2の制御部は、比較対象となる音声信号同士が一致するか否かを判断する。音声信号が一致する場合には(ステップS05でYes)、正常な音声信号と判断され、ステップS06に進む。そうでなければ(ステップS05でNo)、異常な音声信号と判断され、ステップS10に進む。なお、音声信号同士が一致するとは、他の制御装置2から取得した時刻データ付きの音声信号に含まれる音声(重要音声以外の音声)と認識音声テーブル(A7、B7)の該当レコードの音声フィールド403に登録された音声が若干のノイズが含まれていても一致し(比較対象となる音声信号の一致する割合が第2の閾値以上であるが、第1の閾値を下回り)、かつ、他の制御装置2から取得した時刻データ付きの音声信号に含まれる重要音声と認識音声テーブル(A7、B7)の該当レコードの重要音声フィールド404に登録された重要音声が殆どノイズを含まず、ほぼ厳密に一致する(比較対象となる音声信号の一致する割合が第1の閾値以上である)ことを意味する。「1号給水ポンプA起動します。」という音声が入力された場合、一方では、「キュウスイポンプ」と認識され、他方では「キュウス××ンプ」(××の部分はノイズ)と認識されても、重要音声ではないので一致していると判断される。しかし、一方では「キドウ」と認識され、他方では「×ドウ」(×の部分はノイズ)と認識されたのであれば、重要音声であるので一致していないと判断される。
Next, in step S05, the control unit of the
次に、ステップS06おいて、制御装置2の制御部は、正常と判断された音声信号と、指令メッセージテーブル(A8、B8)のデータとを比較する。正常と判断された音声信号に含まれる音声の特徴量を検索キーとして指令メッセージテーブル(A8、B8)を検索する。比較した後、ステップS07に進む。
Next, in step S06, the control unit of the
次に、ステップS07において、制御装置2の制御部は、指令メッセージテーブル(A8、B8)に対象となるレコードは存在するか否かを判断する。具体的には、検索キーとなる音声信号に含まれる音声の特徴量が指令メッセージテーブル(A8、B8)内の対象設備番号フィールド502、指令対象フィールド503、指令フィールド504に登録された値と一致するか否かを判断する。そのレコードが存在すれば(ステップS07でYes)、ステップS08に進む。そうでなければ(ステップS07でNo)、ステップS11に進む。
なお、本実施形態では、指令対象フィールド503に登録される値は、重要音声でない音声であり、指令フィールド504に登録される値は、重要音声であるとする。「1号給水ポンプA起動します」という音声が入力された場合、「イチゴウキュウスイポンプエイ」という部分がNo1と番号付けられたレコードの指令対象フィールド503の値と一致し、「キドウ」という部分が、指令フィールド504の値と一致する。
Next, in step S07, the control unit of the
In the present embodiment, it is assumed that the value registered in the
次に、ステップS08において、制御装置2の制御部は、指令メッセージテーブル(A8、B8)に記載されているデータを補機9に出力する。具体的には、検索キーとなる音声信号により指令メッセージテーブル(A8、B8)から抽出されたレコードにおいて、ロジックシートフィールド505に登録されていたロジックシートを記憶部から読み出し、音声命令番号フィールド506に登録されていた音声命令番号を、読み出したロジックシートの所定の領域に入力する。入力すれば、ロジックシートに示された論理回路に従って演算結果となる制御用データが求められる。その制御用データを補機9に出力して終了する。「1号給水ポンプA起動します」という音声が入力された場合、No1と番号付けられたレコードが参照され、「CS001」というロジックシートおよび「1」という音声指令番号が抽出され、ロジックシートCS001の所定の領域に音声指令番号1が入力される。その結果、プラント1号の給水ポンプAを起動させる制御用データが制御装置2から出力される。
Next, in step S08, the control unit of the
次に、ステップS09において、制御装置2の制御部は、記録不可能であると判断された音声信号を無視して、その音声信号を破棄して終了する。
Next, in step S09, the control unit of the
次に、ステップS10において、制御装置2の制御部は、他の制御装置2と比較して一致しないと判断された音声信号を無視して、その音声信号を破棄して終了する。
Next, in step S <b> 10, the control unit of the
次に、ステップS11において、制御装置2の制御部は、入力された音声信号に対し、指令メッセージテーブル(A8、B8)に対象となるレコードは存在しないと判断された音声信号を無視して、その音声信号を破棄して終了する。
以上で、分散型音声認識システムによる処理動作の説明を終了する。
Next, in step S11, the control unit of the
This is the end of the description of the processing operation performed by the distributed speech recognition system.
≪まとめ≫
本実施形態により、以下の効果を奏する。すなわち、発電等のプラントの制御装置において音声認識を行う際に、入力された音声の音声信号が各制御装置同士で一致するか否かを判断するので、発電等のプラントの制御装置に入力される音声の認識の精度を高めることができる。音声認識の精度を上げるときには、システム「単体」でいかに精度良く認識するかという考えが主流であるが、発電等のプラントの制御装置に用いる場合には、既に記したような困難が生じるので、音声認識する箇所を「複数」備えるようにして所望の認識精度を実現する。制御装置が元々複数備わっているハードウェア構成であるため、分散型音声認識システムを複数備えることによる、資源の減少、インタフェースの追加等といった負担は少ない。
≪Summary≫
According to the present embodiment, the following effects can be obtained. That is, when performing speech recognition in a plant control device such as power generation, it is determined whether or not the voice signals of the input speech match between the control devices, so that they are input to the plant control device such as power generation. The accuracy of voice recognition can be increased. When raising the accuracy of speech recognition, the idea of how to recognize accurately with the system “single unit” is the mainstream, but when used for plant control devices such as power generation, the difficulties described above arise, A desired recognition accuracy is achieved by providing “plural” speech recognition locations. Since the hardware configuration originally includes a plurality of control devices, the burden of reducing resources, adding interfaces, and the like due to the provision of a plurality of distributed speech recognition systems is small.
また、音声認識で制御装置の制御を行うことにより、他の制御装置と接続するためにケーブル配線を用いる必要がなくなり、本実施形態の分散型音声認識システムの適用範囲は拡大される。 Further, by controlling the control device by voice recognition, it is not necessary to use cable wiring to connect to another control device, and the application range of the distributed speech recognition system of this embodiment is expanded.
また、制御装置間の取り合いを音声で行うことになるため、取り合い信号数に制限は無く、さらに配線も不要となることから、配線を流れる電流の電流値の検討や接続試験等は不要であるとともに、装置全体を大幅に小規模化することができる。 In addition, since the communication between the control devices is performed by voice, there is no limit on the number of signals to be connected, and no wiring is required, so there is no need to examine the current value of the current flowing through the wiring or to perform a connection test. At the same time, the entire apparatus can be greatly reduced in size.
≪その他≫
なお、前記形態は、本発明を実施するための最良のものであるが、その実施形式はこれに限定するものではない。したがって、本発明の要旨を変更しない範囲において、その実施形式を種々変形することが可能である。
≪Others≫
In addition, although the said form is the best thing for implementing this invention, the implementation form is not limited to this. Therefore, various modifications can be made to the implementation form without changing the gist of the present invention.
例えば、本実施形態では、監視員5がマイク7を使用して制御装置2に指令する音声を音声出力部1から出力した。しかし、この音声は、工場用端末6においてその指令用に予め録音しておき、所望のタイミングでその音声を読み出して音声出力部1から出力するようにしても良い。
For example, in the present embodiment, the
また、本実施形態では、2台以上並列に配置された制御装置から2つの制御装置を選択してそれぞれの制御装置において音声認識を行った。しかし、音声認識を行う制御装置の数は複数であればその個数は限定しない。処理に伴う負荷を考慮しつつ、すべての制御装置において音声認識を行い音声信号が正常であるか否かを判断するようにしても良い。さらに、本実施形態の分散型音声認識システムを制御装置に搭載するのではなく、独立した複数個からなる装置として構成し、それらの装置を制御装置等と通信可能に接続したネットワークを構成しても良い。 In the present embodiment, two control devices are selected from two or more control devices arranged in parallel, and voice recognition is performed in each control device. However, the number of control devices that perform speech recognition is not limited as long as it is plural. It is also possible to determine whether or not the voice signal is normal by performing voice recognition in all the control devices while considering the load associated with the processing. Further, the distributed speech recognition system according to the present embodiment is not mounted on the control device, but is configured as a plurality of independent devices, and a network in which these devices are communicably connected to the control device is configured. Also good.
その他、ハードウェア、ソフトウェア、各フローチャート、データ構造等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 In addition, specific configurations such as hardware, software, flowcharts, and data structures can be changed as appropriate without departing from the spirit of the present invention.
音声により処理を実行する装置に対し、本発明の分散型音声認識システムを適用することができる。適用する際、装置と外部接続するか、装置の内部に搭載するかは問わない。 The distributed speech recognition system of the present invention can be applied to a device that executes processing by speech. When applied, it does not matter whether it is externally connected to the device or mounted inside the device.
1 音声出力部
2 制御装置(第1の制御装置、第2の制御装置を含む。)
3 検査員
4 現場用サーバ
5 監視員
6 工場用端末
7 マイク
8 工場用サーバ
9 補機
A1、B1 音声入力部
A2、B2 音声認識部
A3、B3 時刻印加部
A4、B4 音声正常判断部
A5、B5 メッセージ処理部
A6、B6 重要音声テーブル
A7、B7 認識音声テーブル
A8、B8 指令メッセージテーブル
DESCRIPTION OF
3
Claims (3)
前記第1の制御装置は、
外部から入力した音声を第1の音声信号に変換し、前記第1の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声が、予め定められた指令を含んでいる指令含有条件を満たし、前記第1の音声信号が正常である正常条件を満たし、かつ、前記第1の音声信号に前記第1の装置を特定する情報が含まれると判断した場合には、前記指令に応じた制御用データを前記第1の装置に出力するように制御する第1の制御部と、
前記第1の装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第1の記憶部と、
を備え、
前記第2の制御装置は、
外部から入力した音声を第2の音声信号に変換し、前記第2の音声信号から音声の特徴量を抽出することにより音声を認識し、前記認識がなされた音声が、予め定められた指令を含んでいる指令含有条件を満たし、前記第2の音声信号が正常である正常条件を満たし、かつ、前記第2の音声信号に前記第2の装置を特定する情報が含まれると判断した場合には、前記指令に応じた制御用データを前記第2の装置に出力するように制御する第2の制御部と、
前記第2の装置に対する指令と、前記制御用データを求めるアルゴリズムとを対応付けて記憶する第2の記憶部と、
を備え、
前記第1の制御装置および前記第2の制御装置が通信可能に接続され、
前記第1の制御部は、前記指令含有条件が満たされていると判断した場合には、前記第1の音声信号に対して当該音声が入力された時刻を示す第1の時刻データを付加し、
前記第2の制御部は、前記指令含有条件が満たされていると判断した場合には、前記第2の音声信号に対して当該音声が入力された時刻を示す第2の時刻データを付加し、
前記第1の制御部は、
前記第1の時刻データが付加された前記第1の音声信号と、前記第2の制御装置から取得した、前記第2の時刻データが付加された前記第2の音声信号のうち、前記第2の時刻データが示す時刻と前記第1の時刻データが示す時刻とが略一致するものを比較することで前記第1の音声信号について前記正常条件が満たされているか否かを判断する
ことを特徴とする分散型音声認識システム。
A distributed speech recognition system comprising: a first control device that controls a first device; and a second control device that controls a second device,
The first control device includes:
The voice inputted from the outside is converted into a first voice signal, the voice is recognized by extracting the feature amount of the voice from the first voice signal, and the recognized voice receives a predetermined command. including satisfies the command containing conditions are in the first audio signal meets the normal condition is normal, and when it is determined to be within the first information identifying the first device in the audio signal Includes a first control unit that controls to output control data according to the command to the first device;
A first storage unit that stores a command for the first device and an algorithm for obtaining the control data in association with each other;
Equipped with a,
The second control device includes:
A voice inputted from outside is converted into a second voice signal, a voice feature is extracted from the second voice signal, the voice is recognized, and the recognized voice receives a predetermined command. including satisfies the command containing conditions are in, the second audio signal meets the normal condition is normal, and when it is determined that includes the information for specifying the second device to a second audio signal Includes a second control unit that controls to output control data in accordance with the command to the second device;
A second storage unit that stores a command for the second device and an algorithm for obtaining the control data in association with each other;
Equipped with a,
Before SL first controller and the second controller is communicatively connected,
When the first control unit determines that the command inclusion condition is satisfied, the first control unit adds first time data indicating a time when the sound is input to the first sound signal. ,
When the second control unit determines that the command inclusion condition is satisfied, the second control unit adds second time data indicating a time when the sound is input to the second sound signal. ,
The first controller is
Of the first audio signal to which the first time data is added and the second audio signal to which the second time data is added and acquired from the second control device, the second audio signal Comparing whether the time indicated by the first time data substantially matches the time indicated by the first time data to determine whether or not the normal condition is satisfied for the first audio signal. Distributed speech recognition system.
前記比較により前記第1の音声信号に含まれ、前記指令に対応する第1の重要音声信号と、前記第2の音声信号に含まれ、前記指令に対応する第2の重要音声信号との一致する割合が第1の閾値以上であり、かつ、
前記比較により前記第1の音声信号に含まれる第1の非重要音声信号と、前記第2の音声信号に含まれる第2の非重要音声信号との一致する割合が、前記第1の閾値を下回る第2の閾値以上である場合には、前記第1の音声信号について前記正常条件が満たされていると判断する
ことを特徴とする請求項1に記載の分散型音声認識システム。 The first controller is
The first important audio signal included in the first audio signal by the comparison and corresponding to the command matches the second important audio signal included in the second audio signal and corresponding to the command. der ratio than the first threshold value is, and,
According to the comparison, the proportion of the first non-important audio signal included in the first audio signal and the second non-important audio signal included in the second audio signal is equal to the first threshold value. 2. The distributed speech recognition system according to claim 1, wherein the normal condition is determined to be satisfied for the first speech signal when the second threshold is less than or equal to a second threshold value.
それぞれの前記制御装置は、自身に入力される音声の音量を計測する音量計測手段を備え、 Each of the control devices includes volume measuring means for measuring the volume of the sound input to itself,
それぞれの前記音量計測手段のうちで、最も大きな音量が計測された音量計測手段を備える制御装置を前記第2の制御装置とする Of each of the sound volume measuring means, a control device provided with sound volume measuring means for measuring the maximum sound volume is defined as the second control device.
ことを特徴とする請求項1又は請求項2に記載の分散型音声認識システム。 The distributed speech recognition system according to claim 1 or 2, wherein the system is a distributed speech recognition system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008230693A JP5049930B2 (en) | 2008-09-09 | 2008-09-09 | Distributed speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008230693A JP5049930B2 (en) | 2008-09-09 | 2008-09-09 | Distributed speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010066360A JP2010066360A (en) | 2010-03-25 |
JP5049930B2 true JP5049930B2 (en) | 2012-10-17 |
Family
ID=42192024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008230693A Active JP5049930B2 (en) | 2008-09-09 | 2008-09-09 | Distributed speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5049930B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316641B (en) * | 2017-06-30 | 2021-06-15 | 联想(北京)有限公司 | Voice control method and electronic equipment |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02178699A (en) * | 1988-12-28 | 1990-07-11 | Nec Corp | Voice recognition device |
JP3163109B2 (en) * | 1991-04-18 | 2001-05-08 | 沖電気工業株式会社 | Multi-directional simultaneous voice pickup speech recognition method |
TW323364B (en) * | 1993-11-24 | 1997-12-21 | At & T Corp |
-
2008
- 2008-09-09 JP JP2008230693A patent/JP5049930B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010066360A (en) | 2010-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200243086A1 (en) | Localizing and Verifying Utterances by Audio Fingerprinting | |
JP6630765B2 (en) | Individualized hotword detection model | |
JP6683234B2 (en) | Audio data processing method, device, equipment and program | |
US9053704B2 (en) | System and method for standardized speech recognition infrastructure | |
JP3967952B2 (en) | Grammar update system and method | |
CA3052641A1 (en) | Keyword detection in the presence of media output | |
CN107680613A (en) | A kind of voice-operated device speech recognition capabilities method of testing and equipment | |
CN101208739A (en) | Speech recognition system for secure information | |
US10592823B2 (en) | Learning model construction device, abnormality detection device, abnormality detection system and server | |
CN107886944A (en) | A kind of audio recognition method, device, equipment and storage medium | |
CN103578468A (en) | Method for adjusting confidence coefficient threshold of voice recognition and electronic device | |
CN104751852A (en) | Method and device for processing sounds | |
US20080154596A1 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN110678821B (en) | Processing device, processing method, and program | |
KR102474804B1 (en) | Apparatus for controlling voice recognition, system having the same and method thereof | |
JP5049930B2 (en) | Distributed speech recognition system | |
JP6775563B2 (en) | Methods and systems for automatic failure detection of artificial intelligence equipment | |
US20180366127A1 (en) | Speaker recognition based on discriminant analysis | |
US20210390960A1 (en) | Authentication device | |
KR102303699B1 (en) | Processing method based on voice recognition for aircraft | |
KR20210054246A (en) | Electorinc apparatus and control method thereof | |
KR20200053242A (en) | Voice recognition system for vehicle and method of controlling the same | |
WO2023182015A1 (en) | Voice authentication device and voice authentication method | |
WO2023228542A1 (en) | Authentication system and authentication method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120723 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5049930 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |