JPH08241098A - メディア認識制御システム - Google Patents

メディア認識制御システム

Info

Publication number
JPH08241098A
JPH08241098A JP4440295A JP4440295A JPH08241098A JP H08241098 A JPH08241098 A JP H08241098A JP 4440295 A JP4440295 A JP 4440295A JP 4440295 A JP4440295 A JP 4440295A JP H08241098 A JPH08241098 A JP H08241098A
Authority
JP
Japan
Prior art keywords
voice
media
input
control
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4440295A
Other languages
English (en)
Inventor
Taminori Tomita
民則 冨田
Takehiro Yamada
剛裕 山田
Tomohisa Kohiyama
智久 小檜山
Tetsuya Kawahara
哲也 河原
Kazuhiro Fujisaki
一博 藤崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4440295A priority Critical patent/JPH08241098A/ja
Publication of JPH08241098A publication Critical patent/JPH08241098A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【目的】 あるメディアを用いた制御機能とあるメディ
アの入力機能とを、ユーザの操作を要することなく、選
択的に実行できるようにする。 【構成】 初期状態では、音声制御インターフェース1
2が主処理部11に接続されている。音声制御インター
フェース12がマイク2からの音声コマンドを認識し、
これに応じた制御信号を主処理部11に送る。主処理部
11は、この制御信号が音声データの入力を指示すると
き、インターフェース選択制御部16によってインター
フェース選択部15を制御し、音声制御インターフェー
ス12から音声入力インターフェース13に切り換え
る。その後、音声制御インターフェース12が音声コマ
ンドを認識すると、音声制御インターフェース12はイ
ンターフェース選択制御部16によってインターフェー
ス選択部15を制御し、音声入力インターフェース13
から音声制御インターフェース12に切り換える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声や映像など情報内
容を伝達,記録する態様としてのメディアを利用して情
報処理を行なうメディア認識処理システムに関する。
【0002】
【従来の技術】近年、パーソナルコンピュータなどの情
報処理装置が扱うことのできるメディアが各種提案され
ている。一般に、各メディアは、夫々装置の制御を目的
としたヒューマンインタフェースとして利用される場合
(以下、これを制御用メディアという)と、装置へのデ
ータ入力そのものを目的として利用される場合(以下、
これを入力データ用メディアという)とがある。
【0003】例えば、音声メディアを考えたとき、前者
の利用の例が音声でコマンドを与え情報処理装置の制御
を行なう音声制御システムであり、後者の例が音声の再
生、加工などを目的として情報処理装置に記録する音声
入力システムである。
【0004】図9は音声制御機能を備えた従来の音声制
御システムの一例を示す構成図である。
【0005】同図において、マイクロホン92で収録さ
れた音声信号は、音声制御インターフェース93に入力
される。音声制御インターフェース93は、音声信号を
認識し、認識内容に応じた制御信号を生成する機能を有
している。この制御信号は情報処理装置91に送信さ
れ、情報処理装置91は制御信号に応じて制御される。
【0006】ところで、従来の音声制御インタフェース
では、予め語句とそれに対応する音声が登録されてお
り、入力された音声と登録されている音声とが比較され
て認識が行なわれるものである。そのため、音声制御イ
ンターフェース93を用いたシステムでは、システム上
で使用するコマンドや認識したい語句とそれに対応した
音声が登録されており、登録されたコマンドや語句の範
囲内で音声制御が行なわれる。
【0007】図10は音声入力機能を備えた従来の音声
入力システムの一例を示す構成図である。
【0008】同図において、マイクロホン102で得ら
れる音声信号が音声入力インターフェース103に供給
される。音声入力インターフェース103は、音声信号
を情報処理装置101に入力できるディジタルデータに
変換する機能を有しており、このディジタル音声データ
は情報処理装置101に送られる。このように、音声入
力システムでは、音声入力インターフェース103を介
して音声を入力する。
【0009】一方、上記のような制御システムと入力シ
ステムを同じメディアを用いて実現するシステムも考案
されている。しかしながら、制御用メディアと入力デー
タ用メディアが同じメディアである場合には、システム
に入力されたメディアが制御のためのコマンドか、入力
して記録するためのデータなのかが区別がつかないので
問題になる。例えば、音声メディアを考えたとき、図9
に示した音声制御機能と図10に示した音声入力機能を
備えたシステムにおいては、操作者の発生した音声が制
御用メディアなのか、入力データ用メディアなのかが区
別できず問題となる。
【0010】この問題を解決する方法としては、特開昭
60−122430号公報に示されるように、スイッチ
により音声メディアを区別する方法が知られている。
【0011】これを図11で説明すると、マイクロホン
112からのアナログ音声信号は、入力選択部113に
より、音声制御インターフェース93と音声入力インタ
ーフェース103とのいずれかに入力されて、情報処理
装置111に供給されるが、このとき、入力選択部11
3の制御はユーザが入力選択スイッチ114を操作する
ことにより行なわれる。即ち、入力される音声メディア
が制御用のものか入力音声用のものかが、ユーザの入力
選択スイッチ114の操作によって決められるのであ
る。
【0012】
【発明が解決しようとする課題】ところが、このように
入力メディアが制御用のものか入力音声用のものかを区
別するために、ユーザがスイッチやキーなどを手動操作
することになると、折角メディアの入力を人手によらず
にできるようにしながら、スイッチやキー操作という人
手の操作を必要とすることになり、システムの利点を半
減してしまうことになる。
【0013】本発明の目的は、かかる問題を解消し、入
力メディアを制御用とするか入力データ用とするかの選
択操作の手間を省き、使い勝手が向上したメディア認識
制御システムを提供することにある。
【0014】例えば、音声メディアであれば、音声入力
だけで操作可能な、音声制御機能と音声入力機能を備え
たシステムを提供することである。
【0015】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明は、少なくともあるメディアを認識し認識
内容に応じた制御を行なうメディア認識制御手段と、該
メディアを入力データとして入力するメディア入力手段
とを備えたシステムであって、該メディアの入力が認識
制御用であるか、入力用であるかを該メディア認識制御
手段により認識し、その認識結果に応じて、自動的に、
該メディア認識制御手段と該メディア入力手段とのいず
れか一方の選択を行なう選択手段を設ける。
【0016】
【作用】主処理部に対して有効となるメディア認識制御
手段と該メディア入力手段との選択を、メディア認識制
御手段によるメディアの認識結果に基づいて行ない、シ
ステム自体が選択制御をするため、従来のようなかかる
選択のためのスイッチやキーなどの操作が一切不要とな
り、メディアの入力のみでシステムの運用が可能とな
る。
【0017】
【実施例】以下、本発明の実施例を図面を参照して説明
する。
【0018】図1は音声制御ボイスメールシステムとし
ての本発明によるメディア認識制御システムの第1の実
施例を示す外観図である。
【0019】なお、この実施例では、メディアとして音
声メディアを使用したものである。ここでいう音声と
は、人間の発声する声に限らず、手をたたく音や指を鳴
らす音のほか、楽器の音などの音波信号全般を含むもの
とする。
【0020】同図において、クライアントの個数は任意
であるが、ここでは、2つのクライアント1,2がネッ
トワークを介して接続されているものとする。これらク
ライアント1,2は、本体1にマイクロホン2,スピー
カ3,表示装置4などが設けられ、また、図示しない
が、メール記憶用のメモリも備えており、マイクロホン
2からの音声の入力により、クライアントの制御や他の
クライアンとに送るメールの入力などを行なうことがで
きるし、また、他のクライアントからネットワークを介
して送られてきたメールを一旦記録し、必要なときに、
マイクロホン2からの制御用音声の入力により、このメ
ールを取り出してスピーカ3から再生できるようになっ
ている。
【0021】このようにして、この実施例による音声制
御ボイスメールシステムは、互いにネットワークで接続
されたクライアントPC間でボイスメールのやり取りを
行なうものであり、音声で制御可能なボイスメール機能
を実現している。
【0022】なお、表示装置4は、液晶パネルやCRT
などの情報処理装置用に一般的に使用されているもので
よい。また、マイクロホン2やスピーカ3は小型なもの
であればよい。
【0023】図2は図1におけるクライアントPCの一
具体例の機能構成を示すブロック図であって、11は主
処理部、12は音声制御インターフェース、13は音声
入力インターフェース、14はネットワークインターフ
ェース部、15はインターフェース選択部、16はイン
ターフェース選択制御部、17は音声出力インターフェ
ースであり、図1に対応する部分には同一符号を付けて
いる。
【0024】同図において、マイクロホン2から入力さ
れる音声信号を認識してシステム制御信号を生成する音
声制御インタフェース12と、この音声信号からデジタ
ル音声データを生成する音声入力インタフェース13
と、クライアントをネットワークに接続するネットワー
クインタフェース14と、音声制御インタフェース12
からのシステム制御信号と音声入力インタフェース13
からのデジタル音声データとのいずれかを選択して主処
理部11に供給するインタフェース選択部15と、この
インタフェース選択部15を制御するインタフェース選
択制御部16と、主処理部11からの音声データをスピ
ーカ3に出力する音声出力インタフェース17とから構
成される。
【0025】主処理部11は、CPU(Central Process
ing Unit)や上記のメモリ,表示制御部などから構成さ
れ、システムの基本的な処理を実行する。なお、この主
処理部11としては、パーソナルコンピュータなどの情
報処理装置を用いることができる。音声出力インタフェ
ース17は、主処理部11からの音声データをスピーカ
3で再生できる音声信号に変換する。インタフェース選
択部15は、音声制御と音声入力との各インタフェース
と、主処理部11の接続や切断を行なう。このインタフ
ェース選択部15の制御は、インタフェース選択制御部
16によって行なわれる。
【0026】図3は図2のインタフェース選択部15と
インタフェース選択制御部16との一具体例を各インタ
ーフェース12,13及び主処理部11とともに示した
構成図であって、15a,15bはアクティブHigh
の3ステートゲート、16aは2入力のアンドゲート、
16bは2入力のオア回路、11aは音声制御アクティ
ブ信号線、11bは音声入力アクティブ信号線、12a
はインタフェースコントロール信号線である。
【0027】同図において、主処理部11は、音声制御
アクティブ信号11bを介して、任意に音声制御インタ
フェース13をアクティブにすることが可能である。な
お、ここでいうアクティブとは、主処理部11と接続さ
れた状態のことをいう。
【0028】また、音声制御インタフェース12は、イ
ンタフェースコントロール信号12aを介して、任意に
自身をアクティブにすることができ、さらに、任意に音
声入力インタフェース13と主処理部11との接続を切
ることができる。
【0029】以上のような構成を有する音声制御ボイス
メールシステムの動作を図4と図5を用いて説明する。
【0030】図4はボイスメール録音送信時のユーザの
音声入力手順とこれに対応するボイスメールシステムの
処理,音声制御インタフェース12,音声入力インタフ
ェース13と主処理部11との接続状態、並びに、イン
タフェースコントロール信号12a,音声制御アクティ
ブ信号11a,音声入力アクティブ信号11bの状態を
示す図である。
【0031】また、図5はボイスメール受信再生時にお
けるユーザの音声入力手順とこれに対応するボイスメー
ルシステムの処理,音声制御インタフェース12,音声
入力インタフェース13と主処理部11との接続状態を
示した図である。
【0032】なお、これらの図中、音声入力の「」で囲
まれた部分はシステムのコマンドを示し、“ ”で囲ま
れた部分はユーザが入力するメール内容、つまり、音声
データを示す。
【0033】また、接続状態はインターフェース12,
13が、インターフェース選択部15により、主処理部
11と接続されているかどうかを示し、ONのときには
接続され、OFFのときには接続されていないことを示
している。信号出力は、インターフェースコントロール
信号線12aにHighのコントロール信号が出力され
ているかどうか、音声入力アクティブ信号線11a,音
声制御アクティブ信号線11bにHighのアクティブ
信号が出力されているかどうかを示している。
【0034】この実施例では、起動した最初の状態で
は、音声制御インタフェース12がアクティブの状態に
なる。このため、ユーザはシステム立ち上げ後から、即
音声のみによる制御を行なうことができる。そして、通
常、ボイスメールシステムの起動前では、主処理部11
から音声制御アクティプ信号線11b,インターフェー
ス選択制御部16のオア回路16aを介してHighの
アクティブ信号がインターフェース選択部15の3ステ
ートゲート15aをオンにすることにより、音声制御イ
ンタフェース12のみがインターフェース選択部15を
介して主処理部11に接続されてアクティブになってい
る。
【0035】図4において、この状態で(1)「ボイス
メール送信開始」コマンドを表わす音声マイクロホン2
より入力すると、ボイスメールシステムが起動する。次
に、(2)「送信先入力」コマンドを表わす音声を入力
すると、システムは送信先のアドレス番号の入力待ち状
態になる。その後、(3)「**番」と送信先の番号を
入力し、これを表示装置4で認識した後、(4)「メー
ル録音開始」のコマンドを表わす音声を入力すると、音
声制御インターフェース12はこのコマンドを認識して
これに応じて制御信号を生成し、インターフェース選択
部15を介して主処理部11に送る。
【0036】以上のコマンドは、音声制御インターフェ
ース12で認識されて制御信号が生成され、インターフ
ェース選択部15を介して主処理部11に送られ、主処
理部11は表示装置4を制御して各コマンドを表示させ
たり、メモリの制御などの各制御を行なう。
【0037】主処理部11は、音声制御インターフェー
ス12から「メール録音開始」コマンドに対する制御信
号を受け取ると、図示しないメモリを録音開始状態とす
るとともに、音声制御アクティブ信号線11bへのアク
ティブ信号の出力を停止し、音声入力アクティブ信号線
11aにHighのアクティブ信号を出力する。このア
クティブ信号はインターフェース選択制御部16のアン
ドゲート16bに供給される。このアンドゲート16b
には、また、インターフェースコントロール信号線12
aを介して音声制御インターフェース12に接続され、
その制御用メディアの認識によってHighのコントロ
ール信号が反転されて供給されるようになっているが、
このときには、このコントロール信号が出力されていな
いため、アンドゲート16bの出力はHighである。
このため、インターフェース選択部15の3ステートゲ
ート15bはオンとなり、音声入力インターフェース1
3がインターフェース選択部15を介して主処理部11
に接続される。これにより、システムは音声入力機能を
アクティブにし、同時に、音声制御インタフェース12
は主処理部11との接続を切断される。
【0038】このようにして、システムは、音声入力イ
ンタフェース13に入力される音声信号を音声データと
して主処理部11内のメモリに記録を開始する。
【0039】ユーザは、マイクロホン2から、メール内
容(5)“****の件ですが……以上です。”という
メッセージを入力する。これによってメール内容の録音
が終了し、(6)「メール録音終了」コマンドを表わす
音声を入力すると、この音声で音声制御インタフェース
12が「メール録音終了」コマンドを認識し、インター
フェースコントロール信号線12aにHighのコント
ロール信号を出力する。これにより、インタフェース選
択制御部16は、3ステータゲート15bをオフにして
音声入力インタフェース13と主処理部11を切断する
とともに、3ステータゲート15aをオンにして音声制
御インタフェース12と主処理部11を接続する。これ
と同時に、システムの録音状態を一時停止状態にする。
【0040】そして、「メール録音終了」コマンドを認
識したシステムは、(7)録音終了確認処理に入る。こ
の状態では、表示装置4にメールの録音を終了するかど
うかを問うメッセージが表示され、音声入力として「は
い」あるいは「いいえ」の入力を受け付ける。入力音声
が「いいえ」ならば、入力した「メール録音終了」の音
声はメールの内容だったとみなして、(5)の録音状態
に復帰する。「はい」ならば、システムの録音状態は終
了する。
【0041】なお、(7)の状態で、予め定めた時間が
経過しても、音声の入力がない場合は、メール録音の終
了とみなして次の処理を実行するようにしてもよい。
【0042】また、「メール録音終了」のコマンドが入
力されなくても、音声入力が途絶えてから予め定めた時
間が経過したら、(7)の録音終了確認処理を行なうよ
うにしてもよい。
【0043】さらに、以上説明した確認処理は、例えば
メールの録音開始時にも行なうようにしてもよいし、勿
論、任意の処理の前後に行なうようにしてもよい。
【0044】このように、確認処理を適宜行なうことに
より、誤認識による操作ミスが減少する。
【0045】その後、録音したメール内容の確認を行な
うために、(8)「内容確認」コマンドを用いて録音し
たメールの再生を行なうことができる。但し、これは必
ずしも必要ではない。メールの再生は、主処理部11内
で録音した音声データを読み出し、音声出力インタフェ
ース17を通してスピーカ3に供給する。このとき、録
音内容が好ましいものでないときには、送信を中止する
ことができるし、メールをさらに追加する必要があると
きには、(4)に戻って再録音を選択できるようにして
もよい。
【0046】録音したメールの内容確認後、(9)「送
信実行」コマンドを入力すると、録音されたメールが主
処理部11のメモリから読み出され、ネットワークイン
ターフェース部14,ネットワークを介して送信され
る。メールの送信完了後、(10)「メール送信終了」
コマンドを入力することにより、ボイスメールシステム
の動作が終了する。
【0047】次に、図5により、受信したボイスメール
の再生動作を説明する。このボイスメールは、他のクラ
イアントからネットワークを介して送られてきたもの
を、ネットワークインターフェース部14から取り込
み、主処理部11のメモリに記録したものであり、その
再生は、ユーザの希望するときに、以下のように音声を
入力することによって行なうことができる。
【0048】まず、(1)「受信メール再生開始」コマ
ンドを表わす音声を入力することにより、このコマンド
を音声制御インターフェース12が認識し、その制御信
号がインターフェース選択部15を介して主処理部11
に供給されることにより、ボイスメールシステムが起動
する。このとき、音声制御インタフェース12のみがア
クティブになっているのは、先に説明したメール録音送
信時と同様である。
【0049】次に、(2)「受信メール一覧」コマンド
を表わす音声を入力すると、これが音声制御インターフ
ェース12で認識されて主処理部11が動作し、受信し
たメールの一覧が表示装置4に表示される。ユーザがそ
の中から再生したいメール番号を選択し、そのメール番
号を(3)「**番」と入力すると、これが音声制御イ
ンターフェース12で認識されて主処理部11が動作
し、表示装置4にそのメール番号が表示される。
【0050】これをユーザが確認して、(4)「メール
再生開始」コマンドを表わす音声を入力すると、(5)
これが音声制御インターフェース12で認識されて主処
理部11が動作し、メモリから該当するメールが再生さ
れる。メールの内容は音声出力インターフェース17を
介してスピーカ3に供給され、これによってメールの内
容の音声が出力される。また、このコマンドにより、主
処理部11はインターフェース選択部15の3ステート
ゲート15a,15bをオフにし、2つのインターフェ
ース12,13を主処理部11から切断する。
【0051】メール再生終了後、(6)「受信メール再
生終了」コマンドを表わす音声を入力すると、これが音
声制御インターフェース12で認識されて制御信号が生
成され、この制御信号によって主処理部11がボイスメ
ールシステムの再生動作を終了する。これと同時に、主
処理部11はインターフェース選択部15の3ステート
ゲート15aをオンにし、音声制御インターフェース1
2を主処理部11に接続する。
【0052】このボイスメール受信再生時では、入力音
声データを記録する必要がないので、音声入力インタフ
ェース13は主処理部11から切断されたままである。
【0053】以上説明したように、この実施例では、制
御用音声メディアとしてのコマンドの入力時には、音声
制御インタフェース12を主処理部11に接続し、音声
制御機能のみをアクティブにして音声認識とシステム制
御を行なう。また、入力データ用音声メディアとしての
ボイスメールの録音時には、音声入力インタフェース1
3を主処理部11と接続し、音声入力機能をアクティブ
にして音声データを記録する。
【0054】このように、この実施例では、ユーザが入
力する音声信号が制御用音声メディア(コマンド)であ
るか、あるいは入力データ用音声メディア(ボイスメー
ル内容)であるかに応じてインタフェース12,13を
切り換える。従って、ユーザは、音声入力をするだけ
で、ボイスメールシステムを操作することができる。
【0055】また、受信メールの再生中では、音声制御
インターフェース12が主処理部11から切断されて音
声制御がアクティブでないので、スピーカ3から出力さ
れるボイスメール中に「メール録音終了」コマンドや
「受信メール再生終了」コマンド以外の制御コマンドが
含まれ、これがマイクロホン2から入力されても、主処
理部11はこれに応答せず、システムは誤動作すること
がないし、このような誤動作のことを考えないでボイス
メールの作成を行なうことができる。
【0056】なお、この実施例では、音声入力と主処理
部の制御とに従ってインタフェースを選択するようにし
ているが、どちらか一方のみの制御に従ってインタフェ
ースの選択を行なってもよい。
【0057】また、音声制御インタフェースや音声入力
インタフェースは1系統に限らず、複数系統設けるよう
にしてもよい。このようにすると、例えば、音声入力の
条件(例えば、制御コマンドの種類など)毎に、その認
識精度や認識速度が最適となるような音声制御インター
フェースを設け、入力制御コマンドに対して最も適した
音声制御インタフェースを選択することにより、そのコ
マンドの認識精度や速度が高まり、音声認識システムの
性能がより向上することになる。
【0058】また、この実施例は、ボイスメールシステ
ムに限らず、ビデオメールやテレビ会議システムなど、
音声入力可能な情報処理装置などを利用したその他のシ
ステム全般に適用可能である。
【0059】また、この実施例では、音声メディアを扱
ったが、音声以外のメディアによる制御システムについ
ても、当然適用することができる。
【0060】例えば、情報処理学会研究報告ヒューマン
インタフェース39−7に示されている、ユーザの身振
り手振りを認識して情報処理装置の制御などを行なうジ
ェスチャー制御は、メディアとして映像メディアを用い
た制御である。このジェスチャー制御をこの第1の実施
例の音声制御の代わりに使用し、ビデオメールシステム
とすることができる。これに適用した本発明の第2の実
施例を図面を用いて説明する。
【0061】図6は、このようにジェスチャーのみの制
御によって操作可能なビデオメールシステムとしての、
本発明によるメディア認識制御システムの第2の実施例
でのクライアントPCを示すブロック図であって、9は
ビデオカメラ、11’は主処理部、18はジェスチャー
制御インターフェース、19はデータ入力インターフェ
ース、15’はインターフェース選択部であり、図2に
対応する部分には同一符号を付けている。
【0062】図6において、各クライアントは、マイク
ロホン2と、映像を入力するためのビデオカメラ9、ビ
デオカメラ9から入力される映像信号からジェスチャー
を認識してシステム制御信号を生成するジェスチャー制
御インタフェース18と、映像信号と音声信号からディ
ジタルデータを生成するデータ入力インタフェース19
と、クライアントをネットワークに接続するネットワー
クインタフェース14と、ジェスチャー制御インタフェ
ース18からのシステム制御信号とデータ入力インタフ
ェース19からのディジタルデータとを主処理部11に
入力するかどうかを制御するインタフェース選択部1
5’と、このインタフェース選択部15’を制御するイ
ンタフェース選択制御部16とから構成される。
【0063】主処理部11は、CPU(Central Process
ing Unit)と、メモリと、表示制御部などから構成さ
れ、システムの基本的な処理を実行する。なお、この主
処理部11としては、パーソナルコンピュータなどの情
報処理装置を用いてもよい。
【0064】インタフェース選択部15’は、ジェスチ
ャー制御インターフェース18,データ入力インタフェ
ース19と主処理部11との接続,切断を行なうもので
あり、この制御はインタフェース選択制御部16によっ
て行なわれる。インタフェース選択部15’の構成は、
データ入力が映像と音声の両方であって、音声制御の代
わりにジェスチャー制御インタフェースが接続されてい
る点を除けば、図3に示した音声制御ボイスメールシス
テムにおけるインタフェース選択部15と同様である。
インタフェース選択制御部16は、扱うデータが映像信
号か音声信号かの違いがあるだけで、図2の音声制御ボ
イスメールシステムにおける図3のインタフェース選択
制御部16と同様である。
【0065】かかる構成の実施例は、音声コマンドがジ
ェスチャーコマンド、音声入力が映像入力に入れ替わっ
た形で音声制御ビデオメールシステムと同様の動作をす
る。これにより、このジェスチャー制御ビデオメールシ
ステムは、入力されるユーザの動きがジェスチャーによ
る制御コマンドなのか、ビデオメールの内容なのかに応
じてインタフェース18,19を切り換える。このた
め、ビデオメールの内容にメール終了コマンド以外のジ
ェスチャーコマンドと同じ動作が存在したとしても、ジ
ェスチャー制御機能はアクティブではないので、誤動作
などの問題なくビデオメールの作成を行なうことができ
る。また、メール終了コマンドと同じ動作の入力を行な
うときには、終了確認処理を実行することで、誤動作を
防ぐ事ができる。従って、ユーザは、ジェスチャー入力
をするだけで、ビデオメールシステムを操作することが
できる。
【0066】以上の各実施例は、単一のメディアを用い
て制御を行なうものであったが、複数のメディアを組み
合わせて制御するようにしてもよい。例えば、図2で示
した第1の実施例の音声と図6で示した第2の実施例の
映像を組み合わせた制御インタフェースが考えられる。
制御コマンドは特定のジェスチャーと言葉を組み合わせ
たものになり、両者を同時にシステムに入力することで
認識される。
【0067】図7は、このような音声制御機能とジェス
チャー制御機能とを備えた音声ジェスチャー制御システ
ムとしての、本発明によるメディア認識制御システムの
第3の実施例でのクライアントPCを示すブロック図で
あって、20は制御信号同期化部、15”はインターフ
ェース選択部であり、図2及び図6に対応する部分には
同一符号を付けている。
【0068】同図において、各クライアントは、音声制
御インタフェース12と、ジェスチャー制御インタフェ
ース18と、ネットワークインタフェース14と、表示
装置4と、主処理部11とに加え、マイクロホン2から
の音声信号とビデオカメラ9からの映像信号をディジタ
ル化して主処理部11で扱える形式に変換するデータ入
力インタフェース19と、インタフェース選択部15”
と、制御信号同期化部20とから構成されている。
【0069】インタフェース選択部15”は、各インタ
フェース12,18,19と主処理部11との接続、切
断を行なう。
【0070】インタフェース選択制御部16は図3に示
したインタフェース選択制御部16と同様の構成をなし
ており、初期状態では、データ入力インタフェース19
と主処理部11との間を切断し、制御信号同期化部20
と主処理部11とを接続するように、インタフェース選
択部15”を制御する。データ入力の開始を指示するコ
マンド入力があると、インタフェース選択部15”を制
御して、データ入力インタフェース19と主処理部11
とを接続し、制御信号同期化部20と主処理部11との
間を切断する。逆に、データ入力の終了を指示するコマ
ンド入力があると、インタフェース選択部15”を制御
して、データ入力インタフェース19と主処理部11と
の間を切断し、制御信号同期化部20と主処理部11と
を接続する。
【0071】制御信号同期化部20は、音声制御インタ
フェース12とジェスチャー制御インタフェース18が
夫々入力メディアを認識して生成される制御信号の同期
をとるものである。このように同期をとることにより、
操作者からの音声とジェスチャーの入力に対し、音声コ
マンドとジェスチャーコマンドが夫々認識されるまでの
時間差が吸収され、音声とジェスチャーが同時に入力さ
れたものとして制御が実行される。
【0072】もし、音声制御インタフェース12とジェ
スチャー制御インタフェース18からの制御信号の同期
をとらなければ、操作者が音声とジェスチャーを同時に
入力したつもりでいても、これら音声制御インタフェー
ス12とジェスチャー制御インタフェース18が認識を
完了して制御信号を生成する処理に時間差が生じたと
き、システムは夫々が別の独立したコマンド入力とみな
し、誤動作を引き起こす原因となる。
【0073】図8は図7における制御信号同期化部20
の一具体例を示すブロック図であって、15"a,15"
b,15"c,15"dは3ステートゲート、20a,2
0bはデータを一時保持するレジスタ、20cはデータ
入力開始とデータ入力終了のコマンド及びその確認をデ
コードするコマンドデコーダであり、図7,図3に対応
する部分には同一符号を付けている。
【0074】同図において、音声制御インタフェース1
2で生成された制御データはレジスタ20aに書き込ま
れ、同様に、ジェスチャー制御インタフェース18で生
成された制御データはレジスタ20bに書き込まれる。
このとき、各制御インタフェース12,18の動作は非
同期であり、マイクロホン2やビデオカメラ9からの入
力が認識され次第、それに応じた制御データを生成し、
レジスタ20a,20bに書き込む。
【0075】これらレジスタ20a,20bにともに制
御データが書き込まれると、もしくは、これらレジスタ
20a,20bのどちらかに制御データの書込みがなさ
れてから一定時間経過すると、インタフェース選択部1
5"にこれら制御データが送信される。
【0076】また、そのときの制御データであるレジス
タ20a,20bの内容が、データ入力の開始を指示す
るコマンドであれば、コマンドデコーダ20cはインタ
フェースコントロール信号線12aにLowを出力し、
3ステートゲート15"c,15"dをオンにしてデータ
入力インターフェース19を主処理部11’に接続し、
そのまま次にデータ入力の終了を指示するコマンドが入
力されて確認されるまで、その状態を維持する。そし
て、データ入力終了コマンドが入力されて確認される
と、コマンドデコーダ20cはインタフェースコントロ
ール信号線12aにHighを出力する。これにより、
3ステートゲート15"c,15"dをオフしてデータ入
力インターフェース19は主処理部11’から切断さ
れ、3ステートゲート15"a,15"bをオンにして制
御信号同期化部20を主処理部11’に接続する。
【0077】以上述べた構成を有する音声ジェスチャー
制御システムの動作は、音声制御インタフェース12
と、ジェスチャー制御インタフェース18と、制御信号
同期化部20とをまとめて1つの制御インタフェースと
みなして、単一メディアによる制御インタフェースを有
する図2,図6に示した実施例と同様に動作させること
ができる。
【0078】このように、この第3の実施例では、前記
した各実施例と同様の効果を、音声と映像(ジェスチャ
ー)という複数のメディアを組み合わせたコマンドを用
いて得ることができる。また、複数のメディアを組み合
わせることにより、単一のメディアによる場合に比べ
て、認識の確実性がより向上する効果がある。
【0079】さらに、各メディア制御インタフェースを
同期させる制御信号同期化部20を備えることにより、
複数のメディアからなる制御コマンドをより入力しやす
くする効果を得ることができる。
【0080】さらに、例えば、ビデオメールシステムで
あれば、手を振る動作をしながら音声で「さようなら」
という音声を入力することをメール入力終了のコマンド
にするなどして、コマンドを生活習慣に馴染んだ挨拶な
どに対応付けることにより、システムの利用が通常の会
話のように行なえ、よりユーザに親しみやすく使い勝手
の良いシステムとすることができる。
【0081】なお、上記実施例では、メディアとして、
マイクロホンとカメラから入力する音声と映像(ジェス
チャー)としたが、これら以外のメディア、例えば、位
置情報や照度情報、温度情報、圧力情報、速度情報、加
速度情報などを用いることもできる。
【0082】例えば、位置情報をメディアとする場合に
は、位置情報を位置センサーを用いて得るようにし、所
定の位置に立って音声コマンドを入力することを制御コ
マンドの入力とするなどの方法がある。
【0083】また、加速度情報をメディアとする場合、
例えば、移動するシステム機器を対象に、加速度情報を
加速度センサーを用いて得るようにし、加速度がゼロの
ときは使用できるが、加速度がゼロでないときは使用で
きないようなコマンドを用いることもできる。このよう
なものとしては、例えば、車載用のメールシステムがあ
り、車の発進時や停車するときなど運転手が特に運転に
集中しなければならないときには受信メールを再生でき
ないようにして、車の安全も考慮したシステムの利用を
図ることができる。
【0084】
【発明の効果】以上説明したように、本発明によれば、
入力されるメディアがシステム制御用コマンドであるか
入力データであるかを区別できるため、コマンドと入力
データの誤認から生じるシステムの誤動作を防ぐことが
できるし、単一のメディアによりシステムの制御ができ
るので、システムの使い勝手が向上される。
【0085】特に、メディアが音声の場合には、コマン
ド入力を行なうための音声入力と、それ以外の音声入力
を区別することが可能なため、コマンドではない入力を
コマンドと認識してしまう誤動作を防ぐことができる。
さらに、音声入力のみによりシステムの制御を行なうこ
とができるため、音声制御システムの使い勝手が向上さ
れる。また、従来技術で必要とした手操作を一切必要と
しない音声制御ボイスメールシステムを実現することが
可能になる。
【0086】また、本発明によるジェスチャー制御ビデ
オメールシステムにおいても、手操作を一切必要としな
いジェスチャー制御ボイスメールシステムを実現するこ
とが可能になる。
【0087】さらに、音声ジェスチャー制御システムに
おいては、音声とジェスチャーを組み合わせた入力によ
り、普段の挨拶などの動作と言葉をコマンドに設定する
ことができ、使い勝手が向上してよりユーザに親しみや
すいシステムを提供することができる。
【図面の簡単な説明】
【図1】本発明によるメディア認識制御システムの第1
の実施例を示す外観図である。
【図2】図1におけるクライアントPCの一具体例を示
すブロック図である。
【図3】図2におけるインターフェース選択部とインタ
ーフェース選択制御部の一具体例を示す構成図である。
【図4】第1の実施例の送信ボイスメール録音手順を示
す図である。
【図5】第1の実施例の受信ボイスメール再生手順を示
す図である。
【図6】本発明によるメディア認識制御システムの第2
の実施例におけるクライアントPCの一具体例を示すブ
ロック図である。
【図7】本発明によるメディア認識制御システムの第3
の実施例におけるクライアントPCの一具体例を示すブ
ロック図である。
【図8】図7における制御信号同期化部とインターフェ
ース選択部とインターフェース選択制御部の一具体例を
示す構成図である。
【図9】従来のメディア認識制御システムの一例を示す
ブロック図である。
【図10】従来のメディア認識制御システムの他の例を
示すブロック図である。
【図11】従来のメディア認識制御システムのさらに他
の例を示すブロック図である。
【符号の説明】
1 本体 2 マイクロホン 3 スピーカ 4 表示装置 9 ビデオカメラ 11,11’,11” 主処理部 12 音声制御インタフェース 13 音声入力インタフェース 14 ネットワークインタフェース 15,15’,15” インタフェース選択部 16 インタフェース選択制御部 17 音声出力インタフェース 18 ジェスチャー制御インターフェース 19 データ入力インターフェース 20 制御信号同期化部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 17/00 9168−5L G06F 15/20 Z (72)発明者 河原 哲也 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所システム開発研究所内 (72)発明者 藤崎 一博 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 少なくともあるメディアを認識し、認識
    内容に応じた制御を行なうメディア認識制御手段と、該
    メディアをデータとして入力するメディア入力手段とを
    備えたシステムにおいて、 該メディアの入力が認識制御用であるか、入力用である
    かを該メディア認識制御手段により認識し、その認識結
    果に応じて、自動的に、該メディア認識制御手段と該メ
    ディア入力手段とのいずれか一方の選択を行なう選択手
    段を設けたことを特徴とするメディア認識制御システ
    ム。
  2. 【請求項2】 請求項1において、 前記メディア認識制御手段の認識結果の確認をユーザに
    求める確認処理手段を備えたことを特徴とするメディア
    認識制御システム。
  3. 【請求項3】 請求項2において、 前記確認処理手段は、前記認識結果を表示する表示装置
    を備えたことを特徴とするメディア認識制御システム。
  4. 【請求項4】 請求項1,2または3において、 前記メディアが音声メディアであって、前記メディア入
    力手段として音声入力手段を、前記メディア認識制御手
    段として音声認識制御手段を夫々備えたことを特徴とす
    るメディア認識制御システム。
  5. 【請求項5】 請求項1,2または3において、 前記メディアが映像メディアであり、前記メディア入力
    手段として映像入力手段を、前記メディア認識手段とし
    てジェスチャー認識制御手段を夫々備えたことを特徴と
    するメディア認識制御システム。
  6. 【請求項6】 請求項1,2または3において、 前記メディアが複数であって、各メディアに対応したメ
    ディア認識制御手段を夫々備え、 認識制御用のメディア入力は、各メディアを組み合わせ
    たものであることを特徴とするメディア認識制御システ
    ム。
  7. 【請求項7】 請求項6において、 前記夫々のメディア認識制御手段を同期させる手段を備
    えたことを特徴とするメディア認識制御システム。
  8. 【請求項8】 請求項1〜7のいずれか1つにおいて、 前記メディアが音声メディアと映像メディアであり、前
    記認識制御用のメディアは日常生活で用いられる挨拶で
    あることを特徴とするメディア認識制御システム。
  9. 【請求項9】 請求項1〜8のいずれか1つにおいて、 初期状態で前記メディア認識制御手段がアクティブであ
    ることを特徴とするメディア認識制御システム。
  10. 【請求項10】 請求項1〜9のいずれか1つにおい
    て、 ボイスメールであることを特徴とするメディア認識制御
    システム。
  11. 【請求項11】 請求項1〜9のいずれか1つにおい
    て、 ビデオメールであることを特徴とするメディア認識制御
    システム。
  12. 【請求項12】 請求項1〜9のいずれか1つにおい
    て、 テレビ会議装置であることを特徴とするメディア認識制
    御システム。
JP4440295A 1995-03-03 1995-03-03 メディア認識制御システム Pending JPH08241098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4440295A JPH08241098A (ja) 1995-03-03 1995-03-03 メディア認識制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4440295A JPH08241098A (ja) 1995-03-03 1995-03-03 メディア認識制御システム

Publications (1)

Publication Number Publication Date
JPH08241098A true JPH08241098A (ja) 1996-09-17

Family

ID=12690524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4440295A Pending JPH08241098A (ja) 1995-03-03 1995-03-03 メディア認識制御システム

Country Status (1)

Country Link
JP (1) JPH08241098A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2004234604A (ja) * 2003-01-29 2004-08-19 Mitac Technology Corp 無線音声信号受信モジュールを配置したコンピュータ装置
JP2009187194A (ja) * 2008-02-05 2009-08-20 Dainippon Printing Co Ltd 端末装置、それに用いられるプログラム及び情報処理システム
JP2019164286A (ja) * 2018-03-20 2019-09-26 シャープ株式会社 音声入力装置、及び遠隔対話システム
JP2021503148A (ja) * 2017-11-14 2021-02-04 マイ, シャオMAI, Xiao デカップルされたセキュリティアクセサリを介した常時聴取アシスタントデバイスへの情報のセキュリティ/プライバシー
US11445315B2 (en) 2019-02-07 2022-09-13 Thomas STACHURA Privacy device for smart speakers
US11838745B2 (en) 2017-11-14 2023-12-05 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening assistant device

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
JP2004234604A (ja) * 2003-01-29 2004-08-19 Mitac Technology Corp 無線音声信号受信モジュールを配置したコンピュータ装置
JP2009187194A (ja) * 2008-02-05 2009-08-20 Dainippon Printing Co Ltd 端末装置、それに用いられるプログラム及び情報処理システム
JP2021503148A (ja) * 2017-11-14 2021-02-04 マイ, シャオMAI, Xiao デカップルされたセキュリティアクセサリを介した常時聴取アシスタントデバイスへの情報のセキュリティ/プライバシー
US11838745B2 (en) 2017-11-14 2023-12-05 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening assistant device
JP2023021965A (ja) * 2017-11-14 2023-02-14 スタフラ,トーマス デカップルされたセキュリティアクセサリを介した常時聴取アシスタントデバイスへの情報のセキュリティ/プライバシー
JP2019164286A (ja) * 2018-03-20 2019-09-26 シャープ株式会社 音声入力装置、及び遠隔対話システム
US11503418B2 (en) 2019-02-07 2022-11-15 Thomas STACHURA Privacy device for smart speakers
US11477590B2 (en) 2019-02-07 2022-10-18 Thomas STACHURA Privacy device for smart speakers
US11445300B2 (en) 2019-02-07 2022-09-13 Thomas STACHURA Privacy device for smart speakers
US11606657B2 (en) 2019-02-07 2023-03-14 Thomas STACHURA Privacy device for smart speakers
US11711662B2 (en) 2019-02-07 2023-07-25 Thomas STACHURA Privacy device for smart speakers
US11770665B2 (en) 2019-02-07 2023-09-26 Thomas STACHURA Privacy device for smart speakers
US11805378B2 (en) 2019-02-07 2023-10-31 Thomas STACHURA Privacy device for smart speakers
US11445315B2 (en) 2019-02-07 2022-09-13 Thomas STACHURA Privacy device for smart speakers
US11863943B2 (en) 2019-02-07 2024-01-02 Thomas STACHURA Privacy device for mobile devices
US12010487B2 (en) 2019-02-07 2024-06-11 Thomas STACHURA Privacy device for smart speakers

Similar Documents

Publication Publication Date Title
WO2001050454A1 (fr) Regleur de dispositif, systeme de reglage de dispositif et support enregistre comportant le programme de reglage de dispositif
JPH08241098A (ja) メディア認識制御システム
JP2020113150A (ja) 音声翻訳対話システム
JP7347324B2 (ja) エージェント連携装置
JPH10326176A (ja) 音声対話制御方法
JP2001042891A (ja) 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
WO2006126679A1 (ja) データ記録装置、及びデータ記録装置におけるデータファイルの送信方法
TWI539293B (zh) 用於同步控制系統中的電子設備及其同步控制方法
JP2002091489A (ja) 音声認識装置
JP2000089789A (ja) 音声認識装置及び記録媒体
JP2002149560A (ja) 電子メール装置及び電子メールシステム
JPH10143350A (ja) 先入れ先出しメモリ制御システム
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
JPH08212187A (ja) マルチメディアデータ出力方法
JPH11237892A (ja) 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体
JP2002023903A (ja) ユーザ対話方法、この方法を実施する装置、およびこの方法を実行するプログラムを記憶する記憶媒体
JPH0388592A (ja) テレビ電話装置
KR20000046192A (ko) 실시간 음성 재생 시스템 및 그를 이용한 음성 재생 방법
JP3873513B2 (ja) 情報記録装置
JP2001228894A (ja) 音声認識装置
JP2512494B2 (ja) 音響映像機器
JPH0883158A (ja) 情報処理方法及び装置
JP2002223194A (ja) データ処理装置およびデータ処理方法
JP2004354942A (ja) 音声対話システム、音声対話方法及び音声対話プログラム
JPH1153163A (ja) 音声伝言メモ装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040706