JP2000356999A - Device and method for inputting command by voice - Google Patents

Device and method for inputting command by voice

Info

Publication number
JP2000356999A
JP2000356999A JP11170303A JP17030399A JP2000356999A JP 2000356999 A JP2000356999 A JP 2000356999A JP 11170303 A JP11170303 A JP 11170303A JP 17030399 A JP17030399 A JP 17030399A JP 2000356999 A JP2000356999 A JP 2000356999A
Authority
JP
Japan
Prior art keywords
voice
command
keyword
request
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11170303A
Other languages
Japanese (ja)
Inventor
Shuntaro Suzuki
俊太郎 鈴木
Seiji Koide
誠二 小出
Yoshiji Matsuura
由次 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IHI Corp
Original Assignee
IHI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IHI Corp filed Critical IHI Corp
Priority to JP11170303A priority Critical patent/JP2000356999A/en
Publication of JP2000356999A publication Critical patent/JP2000356999A/en
Pending legal-status Critical Current

Links

Landscapes

  • Control By Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the flexibility for a voice request. SOLUTION: The device is provided with a voice signal converting section 2 which conducts voice recognition by comparing and collating a voice request that is pronounced by an operator for an operation object body and plural keywords that are used to specify commands to be provided to the body and outputs one or plural keywords having high degree of suitability for the request as voice recognition candidates, an interactive example database 4 which stores a keyword string that are made by combining plural keywords in a prescribed order for every command as an interactive example, and a command interpreting section 3 which outputs a command corresponding to the keyword string to the operation object body when the keyword string that matches with the keyword inputted from the section 2 is detected from the database 4.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声によるコマン
ド入力装置及び方法に係わり、特に音声認識手法を用い
てオペレータの音声要求をプラントに対するコマンドと
して認識する技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus and a method for inputting a command by voice, and more particularly to a technique for recognizing a voice request of an operator as a command to a plant using a voice recognition technique.

【0002】[0002]

【従来の技術】特開平5−137181号公報には、音
声入力によってプラントを運転するプラント制御システ
ムが記載されている。このプラント制御システムは、音
声入力を音声認識技術を用いてプラントに対する運転指
令として認識し、この運転指令に対応する運転方法をデ
ータベースから読み出してプラントの自動運転を実現す
るものである。
2. Description of the Related Art JP-A-5-137181 describes a plant control system for operating a plant by voice input. This plant control system realizes automatic operation of a plant by recognizing a voice input as an operation command for a plant using a voice recognition technology, reading an operation method corresponding to the operation command from a database.

【0003】一方、特開平5−290101号公報に
は、発話文章の認識率を向上させた連続音声認識処理技
術が開示されている。この技術は、プラント機能階層化
モデル、運転操作知識ベース、対話履歴知識ベースを利
用してプラントデータの評価を行うことにより運転員の
注目範囲を絞り込んで運転員の発話の目的や内容を決定
すると共に、音声認識部が生成した複数の認識文章候補
各々の発話の目的や内容を抽出し、これを上記注目範囲
の絞り込みによって決定した発話の目的や内容を比較す
ることにより最終的に認識文章の決定を行う。
On the other hand, Japanese Patent Application Laid-Open No. 5-290101 discloses a continuous speech recognition processing technique in which the recognition rate of an uttered sentence is improved. This technology evaluates plant data using a plant function hierarchical model, operation knowledge base, and dialog history knowledge base to narrow down the attention area of the operator and determine the purpose and content of the operator's utterance. At the same time, the purpose and content of the utterance of each of the plurality of recognition sentence candidates generated by the speech recognition unit are extracted, and the purpose and content of the utterance determined by narrowing down the range of interest are compared. Make a decision.

【0004】[0004]

【発明が解決しようとする課題】しかし、このような従
来技術では、所望の音声認識率を確保するために運転員
に定型的なパターンの音声要求を強要するものであっ
た。すなわち、音声要求に対する柔軟性に欠けるため、
実用上の使い勝手が悪かった。また、従来技術は、運転
員の音声要求を一方的に受け付けて認識するため、より
確実に音声要求を認識するという点で不十分なものであ
った。特に、このような音声認識手法に基づくコマンド
入力装置をプラントに適用する場合には、オペレータの
音声要求を正確に認識し、オペレータの音声要求をより
忠実に反映したコマンドを生成する必要がある。
However, in such prior art, a driver is forced to request a standard pattern of voice in order to secure a desired voice recognition rate. In other words, because of the lack of flexibility for voice requests,
Practical usability was poor. Further, the prior art is insufficient in that the voice request of the operator is unilaterally received and recognized, and thus the voice request is more reliably recognized. In particular, when a command input device based on such a voice recognition technique is applied to a plant, it is necessary to accurately recognize a voice request of an operator and generate a command that more accurately reflects the voice request of the operator.

【0005】本発明は、上述する問題点に鑑みてなされ
たもので、以下の点を目的とするものである。 (1)音声要求に対する柔軟性を向上させる。 (2)実用上の使い勝手を向上させる。 (3)より確実に音声要求を認識する。
The present invention has been made in view of the above-mentioned problems, and has the following objects. (1) Improve flexibility for voice requests. (2) Improve practical usability. (3) Recognize the voice request more reliably.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するため
に、本発明では、音声によるコマンド入力装置に係わる
第1の手段として、オペレータから発音された操作対象
物に対する音声要求と操作対象物に提供するコマンドを
特定するための複数のキーワードとを比較照合すること
により音声認識し、音声要求に対して適合度の高い1あ
るいは複数のキーワードを音声認識候補として出力する
音声認識手段と、複数のキーワードを所定順番で組み合
わせたキーワード列をコマンド毎に対話事例として記憶
する対話事例記憶手段と、音声認識手段から入力された
キーワードに一致するキーワード列を前記対話事例記憶
手段から検出すると、当該キーワード列に対応するコマ
ンドを操作対象物に出力するコマンド解釈部とを具備す
る手段を採用する。
In order to achieve the above-mentioned object, according to the present invention, as a first means relating to a command input device by voice, a voice request for an operation object pronounced by an operator and an operation object are provided. Voice recognition means for performing voice recognition by comparing and collating with a plurality of keywords for specifying a command to be provided, and outputting one or a plurality of keywords having high relevance to the voice request as voice recognition candidates; A dialogue case storage unit for storing a keyword sequence in which keywords are combined in a predetermined order as a dialogue case for each command, and a keyword sequence matching the keyword input from the voice recognition unit is detected from the dialogue case storage unit. And a command interpreter for outputting a command corresponding to the operation target to the operation target.

【0007】音声によるコマンド入力装置に係わる第2
の手段として、上記第1の手段において、コマンド解釈
部は、対話事例としてのキーワード列に対して音声認識
候補としてのキーワードが不足している場合に、音声認
識手段から入力されなかった不足キーワードを直前に入
力されたキーワードに基づいて補完し、該補完によって
得られたキーワード列に対応するコマンドを操作対象物
に出力するという手段を採用する。
The second related to the command input device by voice
In the above-mentioned first means, the command interpreting unit according to the first means, when there is a shortage of keywords as speech recognition candidates in the keyword sequence as a dialogue example, replaces the missing keyword not input from the speech recognition means. A means is employed in which complement is performed based on the keyword input immediately before, and a command corresponding to the keyword string obtained by the complement is output to the operation target.

【0008】音声によるコマンド入力装置に係わる第3
の手段として、上記第1の手段において、コマンド解釈
部は、対話事例としてのキーワード列に対して音声認識
候補としてのキーワードの順番が入れ替わったキーワー
ド列が音声認識手段から入力された場合に、キーワード
の順番を転置して得られたキーワード列に対応するコマ
ンドを操作対象物に出力するという手段を採用する。
The third related to the command input device by voice
In the first means, in the first means, when a keyword sequence in which the order of keywords as speech recognition candidates is replaced with a keyword sequence as a dialogue example is input from the speech recognition means, And outputting a command corresponding to the keyword string obtained by transposing the order to the operation target.

【0009】音声によるコマンド入力装置に係わる第4
の手段として、上記第1〜第3いずれかの手段におい
て、コマンド解釈部の指示に基づいてオペレータに対す
る音声メッセージを音声合成する音声合成手段を備え、
コマンド解釈部は、対話事例としてのキーワード列に音
声認識候補としてのキーワードが一致しない場合には、
コマンドの特定に必要な音声の入力をオペレータに促す
音声メッセージの合成を音声合成手段に指示するという
手段を採用する。
The fourth related to the command input device by voice
Means, in any one of the first to third means, further comprising a voice synthesizing means for voice-synthesizing a voice message to the operator based on an instruction of the command interpreting unit;
If the keyword as a speech recognition candidate does not match the keyword string as the dialogue example,
A means for instructing the voice synthesizing means to synthesize a voice message urging the operator to input a voice necessary for specifying the command is employed.

【0010】音声によるコマンド入力装置に係わる第5
の手段として、上記第4の手段において、音声認識手段
は、コマンド解釈部の指示によって音声要求の音声認識
に供するキーワードの範囲を限定するように構成され、
コマンド解釈部は、音声合成手段に音声メッセージを音
声合成させた場合に、音声認識手段に対してキーワード
の範囲を当該音声メッセージに対するオペレータの応答
に関連するものに限定する指示を出力するという手段を
採用する。
Fifth related to command input device by voice
In the fourth means, the voice recognition means is configured to limit a range of a keyword to be used for voice recognition of a voice request in accordance with an instruction of the command interpretation unit,
The command interpreting unit outputs, to the voice recognizing means, an instruction to limit the range of the keyword to those related to an operator's response to the voice message when the voice synthesizing means causes the voice message to be synthesized. adopt.

【0011】一方、本発明では、音声によるコマンド入
力方法に係わる第1の手段として、操作対象物に提供す
るコマンドを特定するための複数のキーワードを所定順
番で組み合わせたキーワード列をコマンド毎に対話事例
として予め記憶する工程と、オペレータから発音された
音声要求を前記キーワードと比較照合することにより音
声認識し、当該音声要求に対して適合度の高い1あるい
は複数のキーワードを音声認識候補として出力する工程
と、声認識候補としての前記キーワードと対話事例とし
てのキーワード列とを比較照合し、両者が一致した場合
にキーワード列に対応するコマンドを操作対象物に出力
する工程とを有する手段を採用する。
On the other hand, according to the present invention, as a first means relating to a command input method by voice, a keyword sequence in which a plurality of keywords for specifying a command to be provided to an operation target are combined in a predetermined order is interacted for each command. A step of storing in advance as a case, and performing voice recognition by comparing a voice request pronounced by an operator with the keyword, and outputting one or a plurality of keywords having high relevance to the voice request as voice recognition candidates. And a step of comparing and collating the keyword as a voice recognition candidate with a keyword string as a dialogue example, and outputting a command corresponding to the keyword string to the operation target when both match. .

【0012】音声によるコマンド入力方法に係わる第2
の手段として、上記第1の手段において、対話事例とし
てのキーワード列に対して音声認識候補としてのキーワ
ードが不足している場合には、直前に入力されたキーワ
ードに基づいて補完し、該補完によって得られたキーワ
ード列に対応するコマンドを操作対象物に出力するとい
う手段を採用する。
The second related to the command input method by voice
In the first means, when the keyword as the speech recognition candidate is insufficient for the keyword sequence as the dialogue example, the keyword is complemented based on the keyword input immediately before. Means of outputting a command corresponding to the obtained keyword string to the operation target is adopted.

【0013】音声によるコマンド入力方法に係わる第3
の手段として、上記第1の手段において、対話事例とし
てのキーワード列に対して音声認識候補としてのキーワ
ードの順番が入れ替わったキーワードが入力された場合
に、キーワードの順番を転置して得られたキーワード列
に対応するコマンドを操作対象物に出力するという手段
を採用する。
The third related to the command input method by voice
In the first means, when a keyword in which the order of the keywords as the speech recognition candidates is exchanged with respect to the keyword sequence as the dialogue example is input, the keyword obtained by transposing the order of the keywords is obtained. Means of outputting the command corresponding to the column to the operation target is adopted.

【0014】音声によるコマンド入力方法に係わる第4
の手段として、上記第1〜第3いずれかの手段におい
て、対話事例としてのキーワード列に音声認識候補とし
てのキーワードが一致しない場合には、コマンドの特定
に必要な音声の入力を音声メッセージによってオペレー
タに促すという手段を採用する。
The fourth related to the command input method by voice
In any one of the first to third means, if the keyword as a speech recognition candidate does not match the keyword string as a dialogue example, the operator inputs a voice necessary for specifying a command by a voice message. Adopt means to prompt.

【0015】音声によるコマンド入力方法に係わる第5
の手段として、上記第4の手段において、オペレータに
対して音声メッセージを提供した場合、音声要求の音声
認識に供するキーワードの範囲を当該音声メッセージに
対するオペレータの応答に関連するものに限定するとい
う手段を採用する。
Fifth related to a command input method by voice
Means for limiting the range of keywords used for voice recognition of a voice request to those related to the operator's response to the voice message in the fourth means. adopt.

【0016】[0016]

【発明の実施の形態】以下、図面を参照して、本発明に
係わる音声によるコマンド入力装置及び方法の一実施形
態について説明する。なお、本実施形態は、本発明をプ
ラントの操作に適用したものであり、より具体的にはオ
ペレータの音声要求に基づいて操作対象物であるプラン
ト制御装置にコマンドを入力する場合に関するものであ
る。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of a voice command input device and method according to the present invention; The present embodiment is an application of the present invention to plant operation, and more specifically relates to a case where a command is input to a plant control device that is an operation target based on a voice request of an operator. .

【0017】図1は、本実施形態における音声によるコ
マンド入力装置(以下、音声コマンド入力装置)のブロ
ック図である。この図に示すように、本音声コマンド入
力装置Aは、マイク1、音声信号変換部2(音声認識手
段)、コマンド解釈部3、対話事例データベース4(対
話事例記憶手段)、日本語合成出力部5(音声合成手
段)及びスピーカ6から構成されている。
FIG. 1 is a block diagram of a voice command input device (hereinafter, voice command input device) according to the present embodiment. As shown in the figure, the voice command input device A includes a microphone 1, a voice signal conversion unit 2 (voice recognition unit), a command interpretation unit 3, a dialogue case database 4 (dialog case storage unit), and a Japanese synthesis output unit. 5 (speech synthesis means) and a speaker 6.

【0018】このうち、マイク1は、オペレータが発声
した音声要求をオペレータ音声信号に変換するものであ
る。本実施形態の場合、オペレータは、プラント制御装
置を介してプラントの運転を監視するプラント運転員で
あり、該プラント運転員が発声する音声要求は、例えば
プラントを構成する各種機器の運転状態をプラント制御
装置に表示させることを指示するもの、あるいは上記各
種機器の運転状態の変更を指示指示するもの等が考えら
れる。
The microphone 1 converts a voice request uttered by the operator into an operator voice signal. In the case of the present embodiment, the operator is a plant operator who monitors the operation of the plant via the plant control device, and the voice request uttered by the plant operator is, for example, the operation state of various devices constituting the plant. A device that instructs the control device to display, a device that instructs a change in the operation state of the various devices, and the like may be considered.

【0019】音声信号変換部2は、一種の音声認識エン
ジンであり、マイク1から供給されたオペレータ音声信
号(音声要求)を音声認識することにより、認識候補と
してのキーワード列をコマンド解釈部3に出力するもの
である。この音声信号変換部2は、オペレータ音声信号
と予め記憶されたキーワードとの適合度を判断し、該適
合度の高いキーワードを適合度の値と共に認識候補とし
てコマンド解釈部3に出力する。また、音声信号変換部
2は、複数のキーワードを予め複数のグループに分けて
記録しており、後述するように、コマンド解釈部3から
供給される対話状況選択信号で指定されたグループ中の
各キーワードをオペレータ音声信号と比較参照するよう
に構成されている。
The voice signal conversion unit 2 is a kind of voice recognition engine. The voice signal conversion unit 2 recognizes an operator voice signal (voice request) supplied from the microphone 1, and sends a keyword sequence as a recognition candidate to the command interpretation unit 3. Output. The voice signal conversion unit 2 determines the degree of matching between the operator voice signal and a keyword stored in advance, and outputs a keyword having a high degree of matching together with the value of the degree of matching to the command interpreting unit 3 as a recognition candidate. Further, the audio signal conversion unit 2 records a plurality of keywords in advance in a plurality of groups and records each keyword in the group specified by the dialogue status selection signal supplied from the command interpretation unit 3 as described later. It is configured to compare and refer to the keyword with the operator voice signal.

【0020】ここで、上記音声信号変換部2に記憶され
るキーワードについて、具体的に補完説明する。このキ
ーワードは、「操作主体」を特定するためのキーワード
及びこの操作主体に対する「操作内容」を特定するため
のキーワードから構成されている。例えば、ある機器の
運転状態をプラント制御装置に表示させる場合、オペレ
ータは、少なくとも操作主体としての「機器」と操作内
容としての「表示」とを特定する音声要求を発音する。
Here, the keywords stored in the audio signal conversion unit 2 will be specifically complemented. This keyword is composed of a keyword for specifying the “operating subject” and a keyword for specifying “operation content” for the operating subject. For example, when the operation state of a certain device is displayed on the plant control device, the operator issues a voice request specifying at least “device” as the operation subject and “display” as the operation content.

【0021】音声信号変換部2には、このように「操作
主体」を特定するためのキーワードと「操作内容」を特
定するためのキーワードとが予め登録されており、これ
らキーワードと音声要求との比較照合に基づいてオペレ
ータの音声要求の音声認識が行われる。音声信号変換部
2は、音声要求に基づいてオペレータ音声信号が入力さ
れると、上記「操作主体」を特定するためのキーワード
と「操作内容」を特定するためのキーワードを抽出し、
これら2つのキーワードからなるキーワード列をコマン
ド解釈部3に出力する。このようなキーワード列は、適
合度の値と共に認音声認識候補としてコマンド解釈部3
に1つあるいは複数出力されることになる。なお、この
ようなキーワードは、プラント制御装置に入力し得るコ
マンドの内容に応じて、つまり操作対象物に応じて適宜
設定されるものである。
The keyword for specifying the "operator" and the keyword for specifying the "operation content" are registered in advance in the audio signal converter 2, and the keyword and the audio request are registered. Voice recognition of the voice request of the operator is performed based on the comparison and collation. When an operator voice signal is input based on a voice request, the voice signal conversion unit 2 extracts a keyword for specifying the “operating subject” and a keyword for specifying “operation content”,
A keyword string composed of these two keywords is output to the command interpreter 3. Such a keyword string is used as a recognition speech recognition candidate together with the value of the matching degree by the command interpreter 3.
Or one or more. Note that such keywords are appropriately set according to the content of a command that can be input to the plant control device, that is, according to the operation target.

【0022】さらに、上記キーワードは、オペレータの
音声要求の内容(つまり対話状況)に応じていくつかの
種類にグループ分けして登録されている。例えばオペレ
ータが機器の運転状態の表示をプラント制御装置に音声
要求する場合、この音声要求は、プラントが正常動作し
ている場合と異常時の場合とでは内容が明らかに異な
る。すなわち、プラントの正常動作時に係わる音声要求
が入力される対話状況において、プラントの異常時に係
わる音声要求がオペレータから入力されることはない。
Further, the above-mentioned keywords are registered by being grouped into several types according to the content of the voice request of the operator (that is, the dialogue situation). For example, when the operator makes a voice request to the plant control device to display the operating state of the equipment, the content of the voice request is clearly different between when the plant is operating normally and when it is abnormal. That is, in a dialogue situation where a voice request related to normal operation of the plant is input, a voice request related to abnormal plant is not input from the operator.

【0023】また、後述するようにオペレータの音声要
求に対して、当該音声要求の実行確認や要求確認を本音
声コマンド入力装置Aからオペレータに問い合わせるよ
うな対話状況では、一般的な音声要求の対話状況に対し
て限定された音声がオペレータから入力されることにな
る。本音声コマンド入力装置Aが一般的な音声要求をオ
ペレータから受け付けるような場合(対話状況)では、
如何なる音声要求が入力されるか不明なので、音声信号
変換部2に登録された総てのキーワードを音声要求の音
声認識に供する必要がある。
As will be described later, in a dialogue situation where the voice command input device A inquires the operator about the execution confirmation of the voice request or the request confirmation in response to the voice request from the operator, a general voice request dialogue is performed. A voice limited to the situation will be input from the operator. In a case where the voice command input device A accepts a general voice request from an operator (interaction situation),
Since it is unknown what voice request is input, it is necessary to use all the keywords registered in the voice signal converter 2 for voice recognition of the voice request.

【0024】しかし、ある限定された内容の音声しか入
力されないことが分かっているような対話状況に対して
は、音声認識に供するキーワードを上記限定された音声
に応じて絞り込むことにより、認識率の向上と音声信号
変換部2の負荷軽減(処理の高速化等)を実現すること
ができる。
However, in a dialogue situation in which it is known that only a limited content of voice is input, a keyword to be used for voice recognition is narrowed down according to the above-described limited voice, so that the recognition rate is reduced. It is possible to realize improvement and reduce the load on the audio signal conversion unit 2 (speeding up processing, etc.).

【0025】本実施形態では、このような対話状況によ
る音声要求内容の相違を考慮し、対話状況に応じてキー
ワードを予めいくつかにグループ分けして音声信号変換
部2に登録している。音声信号変換部2は、コマンド解
釈部3から入力された対話状況選択信号にによって指定
された特定のグループのキーワードをオペレータ音声信
号と比較参照することにより、音声信号変換部2の負荷
の軽減と音声要求の認識率の向上を図っている。
In the present embodiment, in consideration of such a difference in the content of the voice request depending on the dialogue situation, the keywords are pre-divided into several groups according to the dialogue situation and registered in the voice signal converter 2. The voice signal converter 2 reduces the load on the voice signal converter 2 by comparing and referencing a keyword of a specific group specified by the dialogue status selection signal input from the command interpreter 3 with the operator voice signal. The aim is to improve the recognition rate of voice requests.

【0026】コマンド解釈部3は、音声信号変換部2か
ら順次入力された各キーワード列を対話事例データベー
ス4に予め記憶された対話事例と比較照合することによ
りプラント制御装置に提供するコマンドとして解釈し、
該コマンドをプラント制御装置に出力するものである。
また、このコマンド解釈部3は、各キーワード列をコマ
ンドとして解釈できない場合には、当該コマンドとして
解釈するために必要なキーワード(不足キーワード)の
問い合わせ等を日本語合成出力部5に指示する。なお、
当該コマンド解釈部3の詳細動作については後述する。
The command interpreting unit 3 interprets each keyword string sequentially input from the voice signal converting unit 2 as a command to be provided to the plant control device by comparing and collating with a dialogue example stored in the dialogue case database 4 in advance. ,
This command is output to the plant control device.
If the command interpretation unit 3 cannot interpret each keyword string as a command, it instructs the Japanese synthesis output unit 5 to inquire about a keyword (missing keyword) necessary for interpreting the command string. In addition,
The detailed operation of the command interpreter 3 will be described later.

【0027】対話事例データベース4は、上記プラント
制御装置に提供し得るコマンドに対応したキーワード列
を対話事例として複数記憶したものである。上述したよ
うに、プラント制御装置はプラントを構成する機器毎に
運転状態を表示することが可能であり、コマンドとして
も運転状態の表示を機器毎に指示するものが用意されて
いる。対話事例データベース4は、このようなコマンド
に対応して、操作主体である「機器」を特定するための
キーワード及び「表示」という操作内容を特定するため
のキーワードを正常な順番で組み合わせたキーワード列
を対話事例として記憶している。
The dialogue case database 4 stores a plurality of keyword strings corresponding to commands that can be provided to the plant control apparatus as dialogue cases. As described above, the plant control device can display the operating state for each device constituting the plant, and a command for displaying the operating state for each device is prepared as a command. In response to such a command, the dialogue case database 4 includes a keyword sequence in which keywords for specifying the “device” as the operation subject and keywords for specifying the operation content of “display” are combined in a normal order. Is stored as a dialogue example.

【0028】ここで、ある操作主体に対する操作をコマ
ンドとしてプラント制御装置に提供する場合、音声要求
としては、操作主体の次に操作内容が続くことが正常で
ある。例えば、上記機器としのポンプの運転状態をプラ
ント制御装置上に表示させたい場合、オペレータは、正
常な日本語として「ポンプ(操作主体)を表示(操作内
容)しろ」という音声要求を発する。この場合、助詞や
接尾語については様々なバリエーションが考えられる
が、正常な日本語では少なくとも操作主体である「ポン
プ」の次に操作内容を示す「表示」が続く音声要求とな
る。上記対話事例データベース4は、このように日本語
の音声要求として正常(典型的)な配列のキーワードを
各コマンド毎に対話事例として記憶している。
Here, when an operation for a certain operation subject is provided to the plant control apparatus as a command, it is normal that the operation content follows the operation subject as the voice request. For example, when it is desired to display the operating state of the pump as the device on the plant control device, the operator issues a voice request to "display (operate) the pump (operation subject)" as normal Japanese. In this case, various variations can be considered for the particles and suffixes. In normal Japanese, however, the voice request is such that at least “pump”, which is the operation subject, and “display” indicating the operation content follow. The dialogue case database 4 stores keywords having a normal (typical) array as a Japanese voice request as a dialogue case for each command.

【0029】このように、対話事例データベース4には
プラント制御装置に提供し得るコマンドに対応したキー
ワード列が対話事例として複数記憶されているが、これ
らキーワード列つまり各コマンドは、実行確認が必要な
コマンドであるか否かを示す付帯情報と共に記憶されて
いる。この付帯情報によって、例えば各種機器の運転状
態をプラント制御装置に表示させることを指示するコマ
ンドは実行確認不要なコマンドに設定され、各種機器の
運転状態の変更を指示指示するコマンドは、プラントを
誤って操作することは許されないので、実行確認が必要
なコマンドに設定されている。
As described above, a plurality of keyword strings corresponding to commands that can be provided to the plant control device are stored in the dialog case database 4 as dialog examples, and these keyword strings, that is, each command, require execution confirmation. It is stored together with additional information indicating whether the command is a command. According to the supplementary information, for example, a command for instructing the operation state of various devices to be displayed on the plant control device is set to a command that does not require execution confirmation, and a command for instructing a change in the operation state of various devices is set to a wrong plant Command is not allowed, so it is set to a command that requires execution confirmation.

【0030】日本語合成出力部5は、上記コマンド解釈
部3から入力された「不足キーワード」の問い合わせ指
示等に基づいて、当該不足キーワードが何であるのかを
オペレータに問い返す聞き直し信号を生成すると共に、
該聞き直し信号をスピーカ6に出力するものである。ス
ピーカ6は、この聞き直し信号を音声変換してオペレー
タに対して音声報知するものである。
The Japanese synthesis output unit 5 generates a re-listening signal for asking the operator what the missing keyword is based on an inquiry instruction of the “missing keyword” input from the command interpreting unit 3 and the like. ,
The re-listening signal is output to the speaker 6. The speaker 6 converts the re-listening signal into voice and notifies the operator of voice.

【0031】次に、このように構成された本音声コマン
ド入力装置Aの動作について、図2に示す状態遷移図を
参照して詳しく説明する。なお、この状態遷移図におい
て、楕円で枠取りした処理S01〜S06はオペレータによ
る処理、方形に枠取りした処理S11〜S15は、本音声コ
マンド入力装置Aによる処理を示している。
Next, the operation of the voice command input device A thus configured will be described in detail with reference to the state transition diagram shown in FIG. In this state transition diagram, processes S01 to S06 framed by an ellipse indicate processes by the operator, and processes S11 to S15 framed in a square indicate processes by the voice command input device A.

【0032】まず、本音声コマンド入力装置Aは、例え
ば特定の起動指示音声が音声信号変換部2によって音声
認識されると、動作モードがスリープモードからアクテ
ィブモードに移行し、これ以降特定の終了指示音声が認
識されるまでの間、オペレータからマイク1に入力され
る音声をプラント制御装置に対する音声要求として認識
・解釈する。
First, the voice command input device A changes the operation mode from the sleep mode to the active mode when, for example, a specific start instruction voice is recognized by the voice signal converter 2, and thereafter, the specific end instruction is given. Until the voice is recognized, the voice input from the operator to the microphone 1 is recognized and interpreted as a voice request to the plant control device.

【0033】このアクティブモードに移行したばかりの
初期状態において、例えばオペレータから特定機器の運
転状態の表示を促す音声要求がマイク1に入力される
と、この音声要求は、オペレータ音声信号としてマイク
1から音声信号変換部2に入力され、音声認識候補であ
るキーワード列に変換される。この場合、音声信号変換
部2は、この音声要求と予め記憶されたキーワードとを
比較照合し、適合度のより高いキーワード列から順にコ
マンド解釈部3に出力する。
In the initial state immediately after the transition to the active mode, when a voice request for prompting the display of the operating state of a specific device is input to the microphone 1 from the operator, the voice request is transmitted from the microphone 1 as an operator voice signal. The speech signal is input to the speech signal conversion unit 2 and is converted into a keyword string which is a speech recognition candidate. In this case, the voice signal conversion unit 2 compares and verifies the voice request with a keyword stored in advance, and outputs the keyword request to the command interpretation unit 3 in order from a keyword string having a higher degree of matching.

【0034】例えば、オペレータが「ポンプを表示し
ろ」という音声要求をマイク1に入力すると、音声信号
変換部2は、「ポンプ」及び「表示」がキーワードとし
て予め記憶されている場合に、「ポンプ+表示」とから
なるキーワード列をコマンド解釈部3に出力する。ここ
で仮に、オペレータが「表示しろ、ポンプを」という音
声要求をマイク1に入力した場合には、個々のキーワー
ドの配列が先の「ポンプを表示しろ」に対して転置した
「表示+ポンプ」というキーワード列がコマンド解釈部
3に出力されることになる。
For example, when the operator inputs a voice request to "display a pump" to the microphone 1, the voice signal conversion unit 2 outputs "pump" and "display" as keywords in advance. A keyword string consisting of “+ display” is output to the command interpreter 3. Here, if the operator inputs a voice request of “display, pump” to the microphone 1, the arrangement of individual keywords is “display + pump” transposed with respect to the previous “display pump”. Is output to the command interpreter 3.

【0035】コマンド解釈部3は、このようにして音声
信号変換部2から入力されたキーワード列に対して、対
話事例データベース4を検索することにより当該キーワ
ード列に一致する対話事例を抽出する。コマンド解釈部
3は、要求S01としてキーワード列が入力されると、ま
ず最初に、このキーワード列が、十分に解釈可能であ
り確認が不要な要求であるか、十分に解釈可能である
が重要な操作であるため実行前に確認が必要な要求であ
るか、あるいは解釈することが不可能な意味不明ある
いは曖昧な要求であるか、否かを判断する。
The command interpreter 3 searches the dialogue case database 4 for the keyword sequence input from the voice signal converter 2 in this manner, and extracts a dialogue case that matches the keyword sequence. When a keyword string is input as the request S01, the command interpreting unit 3 firstly determines whether the keyword string is a request that can be sufficiently interpreted and does not require confirmation, or is sufficiently interpretable but important. It is determined whether the request is a request that needs to be confirmed before execution because it is an operation, or whether it is an unclear or ambiguous request that cannot be interpreted.

【0036】そして、コマンド解釈部3は、この要求S
01が確認不要な要求つまり当該要求S01について音声信
号変換部2から入力されたキーワード列に一致する音声
事例が対話事例データベース4の検索によって検出され
た場合は、矢印b1に沿って遷移することにより当該要
求S01を実行S11する。すなわち、コマンド解釈部3
は、当該要求S01に該当するコマンドを生成してプラン
ト制御装置に出力する。
Then, the command interpreter 3 sends the request S
When a request for which the request 01 is not required to be confirmed, that is, for the request S01, a voice example that matches the keyword string input from the voice signal conversion unit 2 is detected by searching the dialogue case database 4, a transition is made along the arrow b1. The request S01 is executed S11. That is, the command interpreter 3
Generates a command corresponding to the request S01 and outputs the command to the plant control device.

【0037】このようにして1つの要求S01に対する実
行S11が完了すると、コマンド解釈部3は、矢印b2に
沿って遷移することによりオペレータからの新たな要求
S01を受け付けるか、あるいは矢印b3に沿って遷移す
ることにより、いま実行S11した要求S01に対する修正
要求S05を受け付ける待機状態に移行する。
When the execution S11 for one request S01 is completed in this way, the command interpreting unit 3 accepts a new request S01 from the operator by making a transition along the arrow b2, or along the arrow b3. By making the transition, the process shifts to a standby state for receiving a correction request S05 for the request S01 that has just been executed S11.

【0038】ここで、例えば対話事例データベース4に
「ポンプ+表示」とからなる対話事例が登録されていた
場合において、オペレータが「表示しろ、ポンプを」と
いうに、「ポンプ」と「表示」とを転置した音声要求を
入力した場合、コマンド解釈部3は、「表示+ポンプ」
を上記「ポンプ+表示」と同等であると判断して要求S
01を実行S11する。すなわち、このようなを転置した音
声要求を想定し、対話事例データベース4には「表示+
ポンプ」という対話事例が予め記憶されており、コマン
ド解釈部3は、この対話事例に基づいて要求S01を実行
S11する。
Here, for example, in the case where a dialogue example consisting of “pump + display” is registered in the dialogue case database 4, the operator may call “display, pump” and “pump” and “display”. When a voice request in which is transposed is input, the command interpreter 3 outputs “display + pump”
Is determined to be equivalent to the above “pump + display” and the request S
Execute 01 in S11. That is, assuming a voice request in which such a transposition is performed, the dialogue case database 4 stores “display +
A dialogue example of “pump” is stored in advance, and the command interpreting unit 3 executes the request S01 based on the dialogue example.

【0039】一方、コマンド解釈部3は、先の要求S01
が確認必要な要求つまり対話事例データベース4の検索
によって実行前に確認が必要であると判断した場合に
は、矢印b5に沿って遷移することにより当該要求S01
に対する実行確認S12を行う。例えば、オペレータが
「ポンプ出力を25%に設定しろ」というようなポンプ
(機器)の運転状態の変更に係わる音声要求をした場
合、コマンド解釈部3は、プラントを誤って操作するこ
とは絶対に避けなければならないので、「ポンプ出力を
25%に設定します、よろしいですか」と聞き直した
後、実行確認S12を行う。この場合、コマンド解釈部3
は、日本語合成出力部5に上記聞き直しを指示してスピ
ーカ6から報知させる。
On the other hand, the command interpreter 3 sends the request S01
If it is determined that confirmation is necessary before execution by searching for a request requiring confirmation, that is, by searching the dialogue case database 4, the request S01 is made by transiting along the arrow b5.
Is performed on the execution confirmation S12. For example, if the operator issues a voice request regarding a change in the operating state of the pump (equipment) such as “set the pump output to 25%”, the command interpreting unit 3 will never operate the plant incorrectly. Since it is necessary to avoid this, after asking "Set the pump output to 25%, are you sure?", The execution confirmation S12 is performed. In this case, the command interpreter 3
Instructs the Japanese synthesis output unit 5 to perform the above-mentioned re-listening and notifies the speaker 6 from the speaker 6.

【0040】また、音声信号変換部2において「ポン
プ」と「表示」のうち何れか一方のみが抽出された場
合、コマンド解釈部3には、「表示」あるいは「ポン
プ」の何れか一方からなるキーワードが入力されること
になる。このような場合、コマンド解釈部3は、音声信
号変換部2から入力されなかった方のキーワード(不足
キーワード)を補完することによって、オペレータの音
声要求の解釈を試みる。そして、この結果得られた要求
が実行確認不要なものであれば、矢印b1に沿って遷移
することにより実行S11を行い、実行確認が必要なもの
であれば矢印b5に沿って遷移することにより当該要求
S01に対する実行確認S12を行う。
When only one of "pump" and "display" is extracted by the audio signal converter 2, the command interpreter 3 comprises either "display" or "pump". The keyword will be entered. In such a case, the command interpreting unit 3 attempts to interpret the voice request of the operator by complementing the keyword that was not input from the voice signal converting unit 2 (the missing keyword). If the request obtained as a result does not require execution confirmation, execution S11 is performed by transitioning along arrow b1. If the request requires execution confirmation, transition is performed along arrow b5. An execution confirmation S12 is performed for the request S01.

【0041】例えば、「ポンプを表示しろ」という音声
要求に引き続いて、当該ポンプとは異なる「タンク」と
いう機器名のキーワードのみがコマンド解釈部3に入力
された場合、コマンド解釈部3は、直前の「ポンプ+表
示」というキーワード列との比較に基づいて不足キーワ
ードである「表示」を特定する。
For example, following a voice request of "display a pump", if only a keyword having a device name of "tank" different from the pump is input to the command interpreting unit 3, the command interpreting unit 3 will The missing keyword “display” is identified based on a comparison with the keyword column “pump + display”.

【0042】なお、上記補完を十分に行えない場合、コ
マンド解釈部3は、矢印b15に沿って遷移することによ
り要求確認S13を行う。コマンド解釈部3は、例えば
「設定」というキーワードのみがコマンド解釈部3に入
力された場合、直前に入力された「ポンプ+表示」とい
うキーワード列に基づいて不足キーワードを全て補うこ
とができないので、「ポンプをいくつに設定するのです
か」と聞き直す要求確認S13を行う。このとき、コマン
ド解釈部3は、「ポンプをいくつに設定するのですか」
という音声メッセージに対応した聞き直し音声信号の生
成を音声合成出力部5に指示し、当該音声メッセージを
スピーカ6から音声報知させる。
If the above complementation cannot be performed sufficiently, the command interpreting section 3 performs request confirmation S13 by making a transition along the arrow b15. For example, when only the keyword “setting” is input to the command interpreting unit 3, the command interpreting unit 3 cannot compensate for all the missing keywords based on the keyword string “pump + display” input immediately before. A request confirmation S13 for asking "How many pumps should be set?" At this time, the command interpreter 3 asks "How many pumps should be set?"
The voice synthesizing output unit 5 is instructed to generate a re-listening voice signal corresponding to the voice message, and the voice message is notified from the speaker 6.

【0043】さらに、このような要求確認S13に対し
て、オペレータから「25%」という選択・修正S02が
入力された場合(矢印b16による遷移の場合)、コマン
ド解釈部3は、「ポンプ+25%+設定」というキーワ
ード列に基づいて要求S01を解釈する。この場合、当該
要求S01は、実行確認が必要な要求であるため、矢印b
19に沿って遷移することによって実行確認S12が行われ
る。
Further, in response to such a request confirmation S13, when the operator inputs a selection / correction S02 of "25%" (in the case of the transition by the arrow b16), the command interpreting section 3 sets "Pump + 25%". The request S01 is interpreted based on the keyword string “+ setting”. In this case, since the request S01 is a request that requires execution confirmation, the arrow b
The execution confirmation S12 is performed by making a transition along the line 19.

【0044】このような実行確認S12に対して、オペレ
ータが取り得る対応は、本音声コマンド入力装置Aの
解釈に同意するか(許可S03)、本音声コマンド入力
装置Aの解釈に同意しないか(不許可S04)、修正要
求S05を行うか、あるいは要求を中止S06するか、の
うち何れかとなる。このような対話状況では、上述した
初期的にオペレータの要求S01を受け付ける場合に比較
して、オペレータが本音声コマンド入力装置Aに入力す
る音声の内容は限定される。
In response to the execution confirmation S12, the operator can take an action as to agree with the interpretation of the voice command input device A (permission S03) or disagree with the interpretation of the voice command input device A ( Either a non-permission S04), a correction request S05, or a cancellation of the request S06 is made. In such a dialogue situation, the content of the voice input by the operator to the voice command input device A is limited as compared with the case where the operator's request S01 is initially received as described above.

【0045】すなわち、一旦入力された要求S01に対し
て実行確認S12を行うような対話状況において、オペレ
ータが本音声コマンド入力装置Aに入力する音声は、上
記4つのうちの何れかに限定されるので、コマンド解釈
部3は、このような対話状況において、これら4つの対
応に関連したグループを指定する対話状況選択信号を音
声信号変換部2に出力する。音声信号変換部2は、オペ
レータから当該実行確認S12に対するオペレータ音声信
号が入力されると、上記対話状況選択信号によって指定
されたグループのキーワードをオペレータ音声信号と比
較照合することにより適合度の高いキーワードを抽出し
てコマンド解釈部3に出力する。
That is, in an interactive situation in which the execution confirmation S12 is performed for the request S01 once input, the voice input to the voice command input device A by the operator is limited to any of the above four. Therefore, in such a dialogue situation, the command interpreting section 3 outputs a dialogue situation selection signal for specifying a group associated with these four correspondences to the audio signal conversion section 2. When an operator's voice signal corresponding to the execution confirmation S12 is input from the operator, the voice signal conversion unit 2 compares the keyword of the group specified by the dialogue status selection signal with the operator's voice signal, thereby obtaining a keyword having a high degree of matching. Is extracted and output to the command interpreter 3.

【0046】例えば、この実行確認S12に対する応答と
して本音声コマンド入力装置Aの解釈を許可S03する音
声がオペレータから入力された場合(矢印b6)、コマ
ンド解釈部3は、矢印b7に沿って遷移することにより
自らの解釈に基づくコマンドを生成してプラント制御装
置に出力、すなわち実行S11する。
For example, when a voice for permitting interpretation of the voice command input device A S03 is input from the operator as a response to the execution confirmation S12 (arrow b6), the command interpreting section 3 makes a transition along the arrow b7. As a result, a command based on its own interpretation is generated and output to the plant controller, that is, execution S11.

【0047】また、コマンド解釈部3は、要求S01に対
する修正要求S05が入力された場合(矢印b8)に、当
該修正要求S05について音声信号変換部2から入力され
たキーワードが対話事例データベース4に対話事例とし
て存在するつまり実行可能であれば、矢印b4に沿って
遷移することにより当該修正要求S05に対応するコマン
ドを生成して実行S11する。なお、この場合、当該修正
要求S05に対して実行確認S12が再度必要になる場合
(矢印b9)がある。
When the correction request S05 corresponding to the request S01 is input (arrow b8), the command interpreter 3 inputs the keyword input from the voice signal converter 2 for the correction request S05 to the dialogue case database 4. If it exists as a case, that is, if it can be executed, a transition is made along the arrow b4 to generate and execute S11 a command corresponding to the correction request S05. In this case, the execution confirmation S12 may be required again for the correction request S05 (arrow b9).

【0048】また、要求S01に対する不許可S04の音声
が入力された場合(矢印b10)、コマンド解釈部3は、
矢印b11に沿って遷移することにより修正促進S14をオ
ペレータに要求する。この修正促進S14において、コマ
ンド解釈部3は、日本語生成出力部5に対して、どのよ
うに修正すれば良いのかを問い正す聞き直し音声信号の
生成を指示する。そして、日本語生成出力部5は、この
聞き直し音声信号を生成すると、スピーカ6に出力して
オペレータに対して報知させる。
When the voice of the disapproval S04 corresponding to the request S01 is input (arrow b10), the command interpreter 3
By making a transition along the arrow b11, a correction promotion S14 is requested of the operator. In the correction promotion S14, the command interpreting unit 3 instructs the Japanese generation output unit 5 to generate a re-listening audio signal for inquiring how to correct. Then, when the regenerated audio signal is generated, the Japanese generation output unit 5 outputs the signal to the speaker 6 to notify the operator.

【0049】ここで、このようにしてオペレータに対し
て修正促進S14を要求した対話状況において、オペレー
タの対応は、要求S01に対する修正要求S05あるいは要
求S01の中止S05の何れかとなる。したがって、このよ
うな対話状況において、コマンド解釈部3は、この修正
要求S05及び中止S05に関連したグループを指定する対
話状況選択信号を音声信号変換部2に出力し、オペレー
タの音声の認識に供するキーワードを当該対話状況に即
したものに限定する。
Here, in the dialogue situation where the operator requests the correction promotion S14 in this way, the operator's response is either the correction request S05 to the request S01 or the suspension S05 of the request S01. Therefore, in such a dialogue situation, the command interpreter 3 outputs a dialogue situation selection signal designating a group related to the correction request S05 and the cancellation S05 to the voice signal converter 2 to be used for recognition of the voice of the operator. The keywords are limited to those suitable for the dialogue situation.

【0050】そして、修正促進S14に対する応答として
修正要求S05が入力されると(矢印b13による遷移)、
上述した実行確認S12に対する修正要求S05の場合と同
様にして、実行確認が不要であれば矢印b4に沿って遷
移して当該修正要求S05を実行S11し、実行確認が必要
な要求であるときには、矢印b9に沿って遷移すること
により実行確認S12を再度オペレータに要求する。
When a correction request S05 is input as a response to the correction promotion S14 (transition by arrow b13),
In the same manner as in the case of the correction request S05 for the execution confirmation S12 described above, if the execution confirmation is unnecessary, the process transits along the arrow b4 to execute the correction request S05. By making a transition along the arrow b9, the execution confirmation S12 is again requested to the operator.

【0051】一方、コマンド解釈部3は、先の要求S01
が意味不明あるいは曖昧であると判断した場合、矢印b
15に沿って遷移することにより要求確認S13を行う。こ
のような場合は、例えば当該要求S01について音声信号
変換部2から入力されたキーワードに一致する対話事例
が対話事例データベース4の検索によって検出されない
場合、音声信号変換部2から入力されたキーワードに対
する補完を試みても適合する対話事例を検出できなかっ
た場合、あるいは適合する対話事例が検出されてもその
適合度が低かったり、複数の対話事例が検出されてそれ
らの適合度に有意差がない場合等である。
On the other hand, the command interpreter 3 sends the request S01
If it is determined that is meaningless or ambiguous, the arrow b
The request confirmation S13 is performed by transitioning along the line 15. In such a case, for example, if no dialogue example that matches the keyword input from the voice signal conversion unit 2 for the request S01 is detected by searching the dialogue case database 4, the keyword input from the voice signal conversion unit 2 is complemented. Failed to detect a suitable dialogue example, or if a suitable dialogue example was detected but its relevance was low, or multiple dialogue cases were detected and there was no significant difference in their relevance. And so on.

【0052】このような状況においてオペレータの対応
としては、要求S01の選択・修正S02または要求S01の
中止S06が考えられる。ここで、音声信号変換部2から
当該要求確認S13に対する選択・修正S02が入力された
場合において(矢印b16)、当該選択・修正S02が実行
可能な場合つまり選択・修正S02について音声信号変換
部2から入力されたキーワードに一致する対話事例が対
話事例データベース4の検索によって検出された場合
は、実行確認が必要なときには矢印b19に沿って遷移す
ることにより実行確認S12を行い、その必要がないとき
には矢印b17に沿って遷移することにより要求S01を直
接実行S11する。
In such a situation, as an action of the operator, selection / correction S02 of request S01 or suspension S06 of request S01 can be considered. Here, when the selection / correction S02 corresponding to the request confirmation S13 is input from the voice signal conversion unit 2 (arrow b16), when the selection / correction S02 is executable, that is, the selection / correction S02 is performed. If a dialogue case that matches the keyword input from is detected by searching the dialogue case database 4, the execution confirmation S12 is performed by transiting along the arrow b19 when execution confirmation is necessary, and when the execution confirmation is unnecessary. The request S01 is directly executed S11 by transiting along the arrow b17.

【0053】一方、当該選択・修正S02が実行可能でな
い場合、つまり当該選択・修正S02を行っても要求S01
が意味不明あるいは曖昧な場合(矢印b18)、コマンド
解釈部3は上記要求確認S13を再度行う。
On the other hand, if the selection / correction S02 is not executable, that is, even if the selection / correction S02 is performed, the request S01 is not made.
Is unknown or ambiguous (arrow b18), the command interpreter 3 performs the request confirmation S13 again.

【0054】また、上記要求確認S13に対して要求S01
の中止S06がオペレータから指示された場合つまり矢印
b20に沿って遷移した場合(また、矢印b12,b14に沿
って遷移した場合も同様)、コマンド解釈部3は、矢印
b21に沿って遷移することによって先の要求S01に係わ
る対話を中止する(対話中止S15)。そして、この対話
中止S15を判断した場合には、コマンド解釈部3は、矢
印b21に沿って遷移することによって新たな要求S01が
入力されるのを待つ待機状態となる。
Further, in response to the request confirmation S13, the request S01
When the stop S06 is instructed by the operator, that is, when the transition is made along the arrow b20 (also when the transition is made along the arrows b12 and b14), the command interpreting section 3 makes the transition along the arrow b21. As a result, the dialog relating to the previous request S01 is stopped (dialog stop S15). Then, when the dialog stop S15 is determined, the command interpreter 3 transitions along the arrow b21 to enter a standby state waiting for a new request S01 to be input.

【0055】このように、本実施形態のコマンド入力装
置は、音声信号変換部2の音声認識の結果得られた音声
要求に係わるキーワード列を対話事例データベース4に
記憶された対話事例(キーワード列)と比較照合し、実
行についてオペレータの意図を確認する必要がない要求
である場合にのみ、音声要求に対応したコマンドを生成
してプラント制御装置に出力する(つまり実行する)。
そして、オペレータの意図を確認する必要がある要求の
場合には、実行確認S12の後に実行する。さらに、要求
が意味不明あるいは曖昧であると判断した場合には、要
求確認によって正しい要求を導出した後、実行あるいは
実行確認後に実行する。
As described above, in the command input device of the present embodiment, the keyword sequence related to the voice request obtained as a result of the voice recognition of the voice signal converter 2 is stored in the dialog case database 4 in the dialog case (keyword sequence). A command corresponding to the voice request is generated and output to the plant control device (that is, executed) only when the request does not need to confirm the intention of the operator for execution.
If the request requires confirmation of the operator's intention, the request is executed after execution confirmation S12. Further, when it is determined that the request is unclear or ambiguous, a correct request is derived by request confirmation and then executed or executed after execution is confirmed.

【0056】したがって、本実施形態によれば、音声要
求の発音内容に対して柔軟に対応しているので実用上の
使い勝手が向上すると共に、オペレータの音声要求をよ
り正確に反映したコマンドをプラント制御装置に出力す
ることができるので、コマンド入力装置の信頼性を向上
させることができる。
Therefore, according to the present embodiment, since the sound content of the voice request is flexibly handled, the practical usability is improved, and a command reflecting the voice request of the operator more accurately is transmitted to the plant control. Since the data can be output to the device, the reliability of the command input device can be improved.

【0057】また、本実施形態のコマンド入力装置は、
実行確認S12や修正促進S14の場合等、その時々の対話
状況に応じて音声信号変換部2に対話状況選択信号を出
力することにより、オペレータの音声要求の認識に供す
るキーワードの内容をオペレータの応答に関連するもの
にダイナミック(動的)に限定する。したがって、音声
信号変換部2の負荷を軽減することが可能であると共
に、音声要求に対する音声認識率を向上させることがで
きるので、さらに信頼性を向上させることが可能であ
る。
The command input device according to the present embodiment
In the case of execution confirmation S12 and correction promotion S14, etc., by outputting a dialogue state selection signal to the voice signal conversion unit 2 according to the dialogue state at that time, the contents of the keyword used for recognition of the voice request of the operator are answered by the operator. Is limited to those related to (dynamic). Therefore, it is possible to reduce the load on the voice signal conversion unit 2 and to improve the voice recognition rate for the voice request, so that the reliability can be further improved.

【0058】なお、本発明は、上記実施形態は、本発明
をオペレータの音声要求を操作対象物であるプラント制
御装置にコマンドとして入力する場合に適用したもので
あるが、本発明はこれに限定されるものではない。本発
明は、プラント制御装置以外の種々の操作対象物に音声
要求に基づくコマンドを提供する場合に適用可能なもの
である。
Although the present invention is applied to the case where the voice request of the operator is input as a command to the plant control device which is the operation target in the above embodiment, the present invention is not limited to this. It is not something to be done. INDUSTRIAL APPLICABILITY The present invention is applicable to a case where a command based on a voice request is provided to various operation objects other than the plant control device.

【0059】また、上記実施形態では、操作主体を特定
するものとその操作内容を特定する2つのキーワードと
からなるキーワード列を用いたが、本発明はこれに限定
されるものではない。操作対象物によっては、3つ以上
のキーワードからなるキーワード列によってコマンドを
特定する場合も考えられる。さらに、図2に示した上記
状態遷移図はあくまで一例であり、本願発明をプラント
の操作に適用した場合に他の状態遷移を設定することが
考えられる。
Further, in the above embodiment, the keyword string including the keyword for specifying the operation subject and the two keywords for specifying the operation content is used, but the present invention is not limited to this. Depending on the operation target, a command may be specified by a keyword string including three or more keywords. Further, the state transition diagram shown in FIG. 2 is merely an example, and it is conceivable to set another state transition when the present invention is applied to plant operation.

【0060】[0060]

【発明の効果】以上説明したように、本発明に係わる音
声によるコマンド入力装置及び方法によれば、以下のよ
うな効果を奏する。
As described above, the voice command input device and method according to the present invention have the following effects.

【0061】(1)請求項1または請求項6記載の発明
によれば、操作対象物に提供するコマンドを特定するた
めの複数のキーワードを所定順番で組み合わせたキーワ
ード列をコマンド毎に対話事例として予め記憶し、オペ
レータから発音された音声要求を上記キーワードと比較
照合することにより音声認識し、当該音声要求に対して
適合度の高い1あるいは複数のキーワードを音声認識候
補とし、当該声認識候補としてのキーワードと対話事例
としてのキーワード列とを比較照合し、両者が一致した
場合にキーワード列に対応するコマンドを操作対象物に
出力するので、オペレータの音声要求をより正確に反映
したコマンドをプラント制御装置に出力することができ
る。したがって、音声によるコマンド入力装置の信頼性
を向上させることができる。
(1) According to the first or sixth aspect of the invention, a keyword sequence in which a plurality of keywords for specifying a command to be provided to an operation target are combined in a predetermined order is used as a dialog example for each command. A voice request that is stored in advance and is spoken by an operator is subjected to voice recognition by comparing and collating with the above-mentioned keyword, and one or more keywords having high relevance to the voice request are set as voice recognition candidates, and are set as the voice recognition candidates. Is compared with the keyword string as a dialogue example, and if the two match, the command corresponding to the keyword string is output to the operation target, so the command that more accurately reflects the voice request of the operator is plant controlled. It can be output to the device. Therefore, the reliability of the voice command input device can be improved.

【0062】(2)請求項2または請求項7記載の発明
によれば、対話事例としてのキーワード列に対して音声
認識候補としてのキーワードが不足している場合には、
直前に入力されたキーワードに基づいて補完し、該補完
によって得られたキーワード列に対応するコマンドを操
作対象物に出力するので、音声要求の発音内容に対して
柔軟に対応することが可能であり、よってコマンド入力
装置の実用上の使い勝手を向上させることができる。ま
た、この場合、オペレータとしては、音声要求を連続し
て音声によるコマンド入力装置に入力するような場合等
に、キーワードの一部を省略することが可能となるの
で、オペレータの負荷を軽減することが可能である。
(2) According to the second or seventh aspect of the present invention, when there is a shortage of keywords as speech recognition candidates in a keyword sequence as a dialogue example,
Completion is performed based on the keyword input immediately before, and a command corresponding to the keyword string obtained by the completion is output to the operation target, so that it is possible to flexibly respond to the pronunciation content of the voice request. Therefore, practical usability of the command input device can be improved. Further, in this case, the operator can omit a part of the keyword when the voice request is continuously input to the command input device by voice, so that the load on the operator can be reduced. Is possible.

【0063】(3)請求項3または請求項8記載の発明
によれば、対話事例としてのキーワード列に対して音声
認識候補としてのキーワードの順番が入れ替わったキー
ワードが入力された場合に、キーワードの順番を転置し
て得られたキーワード列に対応するコマンドを操作対象
物に出力するので、音声要求の発音内容に対して柔軟に
対応することが可能であり、よって音声によるコマンド
入力装置の実用上の使い勝手を向上させることができ
る。
(3) According to the invention as set forth in claim 3 or claim 8, when a keyword in which the order of keywords as voice recognition candidates has been exchanged with respect to a keyword sequence as a dialogue example is input, the keyword Since the command corresponding to the keyword sequence obtained by transposing the order is output to the operation target, it is possible to flexibly respond to the pronunciation content of the voice request, and therefore, the practical use of the command input device by voice becomes practical. Can be improved.

【0064】(4)請求項4または請求項9記載の発明
によれば、対話事例としてのキーワード列に音声認識候
補としてのキーワードが一致しない場合には、コマンド
の特定に必要な音声の入力を音声メッセージによってオ
ペレータに促すので、音声要求の発音内容に対して柔軟
に対応することが可能であり、よって音声によるコマン
ド入力装置の実用上の使い勝手をさらに向上させること
ができる。
(4) According to the invention as set forth in claim 4 or claim 9, when a keyword as a speech recognition candidate does not match a keyword sequence as a dialogue example, a speech necessary for specifying a command is input. Since the voice message prompts the operator, it is possible to flexibly respond to the pronunciation content of the voice request, so that the practical usability of the voice command input device can be further improved.

【0065】(5)請求項5または請求項10記載の発
明によれば、音声要求の音声認識に供するキーワードの
範囲を当該音声メッセージに対するオペレータの応答に
関連するものに限定するので、音声認識手段の負荷を軽
減することが可能であると共に、音声要求に対する音声
認識率を向上させることができるので、さらに信頼性を
向上させることが可能である。
(5) According to the invention described in claim 5 or claim 10, the range of keywords used for voice recognition of a voice request is limited to those related to the response of the operator to the voice message. Can be reduced, and the voice recognition rate for voice requests can be improved, so that reliability can be further improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一実施形態に係わる音声コマンド入
力装置の機能構成を示すブロック図である。
FIG. 1 is a block diagram showing a functional configuration of a voice command input device according to an embodiment of the present invention.

【図2】 本発明の一実施形態に係わる音声コマンド入
力装置の動作を示す状態遷移図である。
FIG. 2 is a state transition diagram showing an operation of the voice command input device according to one embodiment of the present invention.

【符号の説明】[Explanation of symbols]

A……音声コマンド入力装置 1……マイク 2……音声信号変換部(音声認識手段) 3……コマンド解釈部 4……対話事例データベース(対話事例記憶手段) 5……日本語合成出力部(音声合成手段) 6……スピーカ A voice command input device 1 microphone 2 voice signal converter (voice recognition means) 3 command interpreter 4 dialogue case database (dialogue case storage means) 5 Japanese synthesis output unit ( Voice synthesis means) 6. Speaker

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松浦 由次 東京都江東区豊洲三丁目1番15号 石川島 播磨重工業株式会社東二テクニカルセンタ ー内 Fターム(参考) 5D015 AA01 AA04 BB01 LL01 LL06 LL12 5H215 AA01 BB09 BB11 CC07 CX06 JJ05 JJ15 9A001 HH17 HH18 JJ48 KK54 LL09 ────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yuji Matsuura 3-1-1, Toyosu, Koto-ku, Tokyo AA01 BB09 BB11 CC07 CX06 JJ05 JJ15 9A001 HH17 HH18 JJ48 KK54 LL09

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 オペレータから発音された操作対象物に
対する音声要求と操作対象物に提供するコマンドを特定
するための複数のキーワードとを比較照合することによ
り音声認識し、音声要求に対して適合度の高い1あるい
は複数のキーワードを音声認識候補として出力する音声
認識手段(2)と、 複数の前記キーワードを所定順番で組み合わせたキーワ
ード列をコマンド毎に対話事例として記憶する対話事例
記憶手段(4)と、 前記音声認識手段(2)から入力されたキーワードに一
致するキーワード列を前記対話事例記憶手段(4)から
検出すると、当該キーワード列に対応するコマンドを操
作対象物に出力するコマンド解釈部(3)と、 を具備することを特徴とする音声によるコマンド入力装
置。
1. A voice request for an operation target pronounced by an operator is compared with a plurality of keywords for specifying a command to be provided to the operation target. Voice recognition means (2) for outputting one or a plurality of keywords having a high keyword as voice recognition candidates, and dialogue case storage means (4) for storing a keyword sequence in which a plurality of the keywords are combined in a predetermined order as a dialogue case for each command. A command interpreting unit that outputs a command corresponding to the keyword string to the operation target when a keyword string matching the keyword input from the voice recognition unit (2) is detected from the dialogue case storage unit (4). 3) A command input device by voice, comprising:
【請求項2】 コマンド解釈部(3)は、対話事例とし
てのキーワード列に対して音声認識候補としてのキーワ
ードが不足している場合に、音声認識手段(2)から入
力されなかった不足キーワードを直前に入力されたキー
ワードに基づいて補完し、該補完によって得られたキー
ワード列に対応するコマンドを操作対象物に出力するこ
とを特徴とする請求項1記載の音声によるコマンド入力
装置。
2. A command interpreting unit (3) which, when there is a shortage of keywords as speech recognition candidates in a keyword sequence as a dialogue example, deletes a missing keyword not input from the speech recognition means (2). The command input device using voice according to claim 1, wherein the command is complemented based on a keyword input immediately before, and a command corresponding to the keyword string obtained by the complementation is output to the operation target.
【請求項3】 コマンド解釈部(3)は、対話事例とし
てのキーワード列に対して音声認識候補としてのキーワ
ードの順番が入れ替わったキーワード列が音声認識手段
(2)から入力された場合に、キーワードの順番を転置
して得られたキーワード列に対応するコマンドを操作対
象物に出力することを特徴とする請求項1記載の音声に
よるコマンド入力装置。
3. A command interpreting unit (3) which, when a keyword sequence in which the order of keywords as speech recognition candidates is replaced with a keyword sequence as a dialogue example is input from the speech recognition unit (2), The command input device by voice according to claim 1, wherein a command corresponding to the keyword sequence obtained by transposing the order is output to the operation target.
【請求項4】 コマンド解釈部(3)の指示に基づいて
オペレータに対する音声メッセージを音声合成する音声
合成手段(5)を備え、コマンド解釈部(3)は、対話
事例としてのキーワード列に音声認識候補としてのキー
ワードが一致しない場合には、コマンドの特定に必要な
音声の入力をオペレータに促す音声メッセージの合成を
音声合成手段(5)に指示することを特徴とする請求項
1〜3いずれかに記載の音声によるコマンド入力装置。
4. A voice synthesizing means (5) for voice-synthesizing a voice message to an operator based on an instruction of a command interpreting unit (3), wherein the command interpreting unit (3) performs voice recognition on a keyword sequence as a dialogue example. 4. The apparatus according to claim 1, wherein when the keywords do not match, the voice synthesizing unit is instructed to synthesize a voice message urging the operator to input a voice necessary for specifying the command. A command input device by voice described in 1.
【請求項5】 音声認識手段(2)は、コマンド解釈部
(3)の指示によって音声要求の音声認識に供するキー
ワードの範囲を限定するように構成され、コマンド解釈
部(3)は、音声合成手段(5)に音声メッセージを音
声合成させた場合に、音声認識手段(2)に対してキー
ワードの範囲を当該音声メッセージに対するオペレータ
の応答に関連するものに限定する指示を出力することを
特徴とする請求項4記載の音声によるコマンド入力装
置。
5. The voice recognition means (2) is configured to limit a range of a keyword to be used for voice recognition of a voice request in accordance with an instruction of the command interpretation unit (3), and the command interpretation unit (3) performs voice synthesis. When the means (5) synthesizes a voice message by voice, outputting an instruction to the voice recognizing means (2) to limit the range of the keyword to those related to the response of the operator to the voice message. The voice command input device according to claim 4.
【請求項6】 操作対象物に提供するコマンドを特定す
るための複数のキーワードを所定順番で組み合わせたキ
ーワード列をコマンド毎に対話事例として予め記憶する
工程と、 オペレータから発音された音声要求を前記キーワードと
比較照合することにより音声認識し、当該音声要求に対
して適合度の高い1あるいは複数のキーワードを音声認
識候補として出力する工程と、 音声認識候補としての前記キーワードと対話事例として
のキーワード列とを比較照合し、両者が一致した場合に
キーワード列に対応するコマンドを操作対象物に出力す
る工程と、 を有することを特徴とする音声によるコマンド入力方
法。
6. A step of storing, in advance, a keyword sequence in which a plurality of keywords for specifying a command to be provided to an operation target in a predetermined order as a dialogue example for each command; A step of performing speech recognition by comparing and collating with a keyword and outputting one or more keywords having a high degree of relevance to the speech request as speech recognition candidates; a keyword sequence as the speech recognition candidate and a dialogue example And outputting a command corresponding to the keyword string to the operation target when the two match, and a command input method by voice.
【請求項7】 対話事例としてのキーワード列に対して
音声認識候補としてのキーワードが不足している場合に
は、直前に入力されたキーワードに基づいて補完し、該
補完によって得られたキーワード列に対応するコマンド
を操作対象物に出力することを特徴とする請求項6記載
の音声によるコマンド入力方法。
7. When a keyword string as a speech recognition candidate is insufficient for a keyword string as a dialogue example, complement is performed based on a keyword input immediately before, and a keyword string obtained by the complementation is added to the keyword string obtained by the complementation. 7. The command input method by voice according to claim 6, wherein a corresponding command is output to the operation target.
【請求項8】 対話事例としてのキーワード列に対して
音声認識候補としてのキーワードの順番が入れ替わった
キーワードが入力された場合に、キーワードの順番を転
置して得られたキーワード列に対応するコマンドを操作
対象物に出力することを特徴とする請求項6記載の音声
によるコマンド入力方法。
8. When a keyword in which the order of keywords as voice recognition candidates is exchanged with respect to a keyword string as a dialogue example is input, a command corresponding to a keyword string obtained by transposing the order of keywords is output. 7. The method according to claim 6, wherein the command is output to an operation target.
【請求項9】 対話事例としてのキーワード列に音声認
識候補としてのキーワードが一致しない場合には、コマ
ンドの特定に必要な音声の入力を音声メッセージによっ
てオペレータに促すことを特徴とする請求項6〜8いず
れかに記載の音声によるコマンド入力方法。
9. The method according to claim 6, wherein when a keyword as a voice recognition candidate does not match a keyword string as a dialogue example, an operator is prompted by a voice message to input a voice necessary for specifying a command. 8. The command input method by voice according to any one of 8.
【請求項10】 オペレータに対して音声メッセージを
提供した場合、音声要求の音声認識に供するキーワード
の範囲を当該音声メッセージに対するオペレータの応答
に関連するものに限定することを特徴とする請求項9記
載の音声によるコマンド入力方法。
10. The method according to claim 9, wherein when a voice message is provided to the operator, the range of keywords used for voice recognition of the voice request is limited to those related to the response of the operator to the voice message. Command input method by voice.
JP11170303A 1999-06-16 1999-06-16 Device and method for inputting command by voice Pending JP2000356999A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11170303A JP2000356999A (en) 1999-06-16 1999-06-16 Device and method for inputting command by voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11170303A JP2000356999A (en) 1999-06-16 1999-06-16 Device and method for inputting command by voice

Publications (1)

Publication Number Publication Date
JP2000356999A true JP2000356999A (en) 2000-12-26

Family

ID=15902477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11170303A Pending JP2000356999A (en) 1999-06-16 1999-06-16 Device and method for inputting command by voice

Country Status (1)

Country Link
JP (1) JP2000356999A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251019A (en) * 2008-04-01 2009-10-29 Toyota Motor Corp Speech recognition device
US9361063B2 (en) 2012-06-19 2016-06-07 Ntt Docomo, Inc. Function execution instruction system, function execution instruction method, and function execution instruction program
US9905225B2 (en) 2013-12-26 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Voice recognition processing device, voice recognition processing method, and display device
WO2019146586A1 (en) * 2018-01-25 2019-08-01 川崎重工業株式会社 Robot instruction device
JP2019126902A (en) * 2018-01-25 2019-08-01 川崎重工業株式会社 Robot teaching device
JP2020046163A (en) * 2018-09-21 2020-03-26 リンナイ株式会社 Heating cooking system
JP2021086445A (en) * 2019-11-28 2021-06-03 株式会社リコー Information processing system, information processing method, and information processing device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251019A (en) * 2008-04-01 2009-10-29 Toyota Motor Corp Speech recognition device
US9361063B2 (en) 2012-06-19 2016-06-07 Ntt Docomo, Inc. Function execution instruction system, function execution instruction method, and function execution instruction program
US9905225B2 (en) 2013-12-26 2018-02-27 Panasonic Intellectual Property Management Co., Ltd. Voice recognition processing device, voice recognition processing method, and display device
WO2019146586A1 (en) * 2018-01-25 2019-08-01 川崎重工業株式会社 Robot instruction device
JP2019126902A (en) * 2018-01-25 2019-08-01 川崎重工業株式会社 Robot teaching device
JP2020046163A (en) * 2018-09-21 2020-03-26 リンナイ株式会社 Heating cooking system
JP2021086445A (en) * 2019-11-28 2021-06-03 株式会社リコー Information processing system, information processing method, and information processing device

Similar Documents

Publication Publication Date Title
US8630858B2 (en) Methods and apparatus for initiating actions using a voice-controlled interface
US6356869B1 (en) Method and apparatus for discourse management
US7725322B2 (en) Spoken dialogue interface apparatus and method
US7174300B2 (en) Dialog processing method and apparatus for uninhabited air vehicles
US7546382B2 (en) Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
CA2493265C (en) System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
US6208972B1 (en) Method for integrating computer processes with an interface controlled by voice actuated grammars
US20020198714A1 (en) Statistical spoken dialog system
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US20020065654A1 (en) Method for integrating processes with a multi-faceted human centered interface
JP2001034289A (en) Interactive system using natural language
JP3423296B2 (en) Voice dialogue interface device
US6591236B2 (en) Method and system for determining available and alternative speech commands
JP2003022089A (en) Voice spelling of audio-dedicated interface
US20080033724A1 (en) Method for generating a context-based voice dialogue output in a voice dialog system
KR20220143683A (en) Electronic Personal Assistant Coordination
JP2000356999A (en) Device and method for inputting command by voice
US7433823B1 (en) Speech input disambiguation computing system
JP3378595B2 (en) Spoken dialogue system and dialogue progress control method thereof
CN112204656A (en) Efficient dialog configuration
US20070129950A1 (en) Speech act-based voice XML dialogue apparatus for controlling dialogue flow and method thereof
KR20200058612A (en) Artificial intelligence speaker and talk progress method using the artificial intelligence speaker
JP2006023444A (en) Speech dialog system
US9286893B2 (en) Pre-processed annotation of street grammar in speech enabled navigation systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406