JP2002032349A - ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体 - Google Patents

ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体

Info

Publication number
JP2002032349A
JP2002032349A JP2000215062A JP2000215062A JP2002032349A JP 2002032349 A JP2002032349 A JP 2002032349A JP 2000215062 A JP2000215062 A JP 2000215062A JP 2000215062 A JP2000215062 A JP 2000215062A JP 2002032349 A JP2002032349 A JP 2002032349A
Authority
JP
Japan
Prior art keywords
node
service
human
machine interface
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000215062A
Other languages
English (en)
Inventor
Takashi Fujimori
隆 藤森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000215062A priority Critical patent/JP2002032349A/ja
Priority to US09/904,460 priority patent/US20020010588A1/en
Publication of JP2002032349A publication Critical patent/JP2002032349A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】機器へのヒューマンマシンインタフェースの組
み込み、実装にあたって、装置あたりのコストを低減し
たり、操作上の情報を機器間で共通化して異なる機器で
あっても同一の操作感が得られるようにしたりすること
を目的とする。 【解決手段】ヒューマンマシンインタフェースの機能を
各々が分割して分散オブジェクトの形態で構成する各機
能要素を、ネットワーク100のノード101〜107上に複数
配備し、各ノードが連携してデータ処理を行うことで、
各ヒューマンマシンインタフェースの機能を実現するも
のであって、各ノードが人間との間のデータの入出力部
であるアプリケーションノード101,102,103,105と、ア
プリケーションノードとネットワーク100上で接続され
ていて入出力されるデータを処理するサービスノード10
4と、両ノードの機能を備える複合ノード106,107のいず
れかである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、人間とコンピュー
タの間の情報交換を仲介するためのヒューマンマシンイ
ンタフェースシステム及びそのプログラムを記録したコ
ンピュータ読取り可能な記録媒体に関する。
【0002】
【従来の技術】従来のヒューマンマシンインタフェース
システムの一例としては、組込み用のマイクロプロセッ
サを中心として当該機器に搭載されたハードウェア及び
ソフトウェア資源のみを使用して実現されているものが
あげられる。図13に示すように、音声による操作と応答
の機能を有するこの従来のヒューマンマシシインフェー
スシステムは、機能構成上は音声信号のディジタルデー
タ化手段1210と、音声認識のための音声信号の前処理手
段1211と、音声認識のためのパタンマッチング手段121
2、音声認識のための系列判定手段1213と、音声認識結
果に基づいて当該装置の動作を制御する機器制御手段12
15と、当該装置の内部状態に基づいて操作者に対して情
報の提供を行うメッセージ生成手段1216と、生成された
メッセージを音声波形に変換する音声合成手段1217と、
音響信号に変換するディジタルデータアナログ信号変換
手段1218と、上記の各機能ブロックの一連の動作の制御
を行うシステム制御手段1214とから構成されている。そ
してこれらの構成のうち、パタンマッチング手段1212で
はパタン要素マッチング処理を行うときに所定の記憶装
置に記憶されている認識用パタン辞書1220を参照し、系
列判定手段1213では系列判定処理を行うときに所定の記
憶装置に記憶されている認識用単語辞書1221を参照し、
メッセージ生成手段1216ではメッセージ生成処理を行う
ときに所定の記憶装置に記憶されている合成用単語辞書
1222を参照し、そして、音声合成手段1217では音声合成
処理を行うときに所定の記憶装置に記憶されている合成
用パタン辞書1223を参照する。
【0003】また回路要素構成上では、同じく図13に示
す様にアナログ音声信号入力回路及びA/D変換回路1204
が音声信号のディジタルデータ化を行い、信号処理プロ
セッサ1202が環境雑音の排除及び特徴パラメータの抽出
等のディジタル音声データの前処理を行い、同じかまた
は別の信号処理プロセッサ1202が特徴パラメータの標準
単位パタンとのマッチング処理を行い、同じ信号処理プ
ロセッサまたは別のプロセッサ1202が系列の判定を行
う。機器の制御プロセッサ1201が判定された結果に基づ
いて当該機器の制御を行い、内部状態の情報提供のため
のメッセージを生成する。音声認識処理に使用したのと
同一のまたは別の信号処理プロセッサ1202はメッセージ
から音声を合成して、D/A変換回路及びアナログ音声出
力回路1203により音声波形として送出する。上記の処理
に共通な回路要素として音声信号の蓄積や処理の中間結
果、制御のためのプログラム実行に必要な記憶回路が含
まれる。こうしたシステムが動作するのに必要な電源回
路、タイミング生成回路も含まれている。
【0004】しかし、上記の従来技術を複数の機器から
なるヒューマンマシンインタフェースに適用する場合に
は、次のような問題点があった。第1の問題点は、従来
の方法を用いた場合、ヒューマンマシンインタフェース
機能を実現するためのコストが大きいということであ
る。その理由は、想定している組込み用途のマイクロプ
ロセッサベースのシステムとしては音声を用いたヒュー
マンマシンインタフェースの機能に消費されるハードウ
ェア及びソフトウェアリソースの比率が相対的に大きく
かつ個々の機器がすべて同機能の為のリソースを具備す
る必要があるためである。また、多くの場合にこうした
ヒューマンマシンインタフェースの機能は、当該機器に
とってはその主たる目的ではなく、操作性を向上するた
めの手段として採用されている事から費用対効果の評価
が低くなされる傾向が強い。
【0005】第2の問題点は、搭載可能な機能及び性能
が不充分ということである。その理由は、上記のコスト
上の理由と製品に設定可能な上限コストにより実際に搭
載されるヒューマンマシンインタフェースはその機能や
性能が十分高いものを搭載することが困難なためであ
る。そのほかの機能・性能の制限要因としては小型の機
器の場合や携帯型の機器の場合、電源容量の制限、放熱
容量の制限などから高性能の信号処理プロセッサやマイ
クロプロセッサ、大容量のメモリを搭載することは事実
上困難な点である。
【0006】第3の問題点は異なる複数の機器の間でヒ
ューマンマシンインタフェースに関わる情報が有効利用
されないということである。その理由は、ヒューマンマ
シンインタフェースの動作パラメータ等の情報を明示的
ないしは適応的に設定することによってその操作性が高
められるのであるが、個々の機器が独立にそれらを行い
連携がなされないことからすべての機器をそのたびごと
に設定する必要がある為である。
【0007】次に他の従来技術について説明する。上記
とは別の従来のある種のヒューマンマシンインタフェー
スシステムの一例が、特開平10−207683号公報に記載さ
れている。図14に示すように、この従来のヒューマンマ
シンインタフェースシステムは、電話網を介して入力さ
れた音声の認識とそれに対する応答処理を効果的に行う
ことを目的としたものであり、私設交換機装置(PBX)130
4と、音声応答装置1300と、音声認識合成サーバ1310、
リソース管理装置1311と、ローカルネットワーク1308
と、電話回線1302と、電話回線加入者線1306とから構成
されている。このような構成を有する従来の電話応答に
適用されたヒューマンマシンシステムはつぎのように動
作する。
【0008】すなわち、交換機1304を介して音声応答装
置1300に着呼があると音声応答装置1300はローカルネッ
トワーク1302を介してリソース管理装置1311に対して利
用可能な音声認識サーバを問い合わせる。リソース管理
装置はその時点で利用可能な音声認識装置を調べ利用可
能な場合には音声応答装置1300に対して音声認識合成サ
ーバ1310が利用可能であることを伝える。音声応答装置
1300は音声認識合成サーバ1310に対して音声信号を伝送
する。音声認識合成サーバ1310は音声認識処理を行い結
果を音声応答装置1300に返す。音声応答装置1300はリソ
ース管理装置1311に対し利用可能な音声合成装置を問い
合わせる。リソース管理装置はその時点で利用可能な音
声合成装置を調べ利用可能な場合には音声応答装置1300
に対して音声認識合成サーバ1310か利用可能であること
を伝える。音声応答装置1300は、音声合成テキストを音
声認識合成サーバ1310に対して送る。音声認識合成サー
バ1310は音声の合成を行い結果を音声応答装置1300に伝
送する。音声応答装置1300はPBX1304を介して電話回線1
302を通じて合成された音声での返答を返す。
【0009】しかし、この従来技術には、次のような問
題点があった。第1の問題点は、開放型のシステムでの
維持管理コストが煩雑となり、それを実行する場合には
大きなコストを要するということである。その理由は、
プログラミングモデルが通信プロトコルに強く依存して
いるため、特にネットワークプロトコルの低位階層の構
成が変更し難く、システムの拡張性に関してダイナミッ
クな再構成や複数のプロトコルの混在が要求される機能
不特定の民生機器ノードによって構成される環境では維
持や管理に多くのコストが必要となるためである。図15
は、図14に示すシステムにおけるプログラミングモデル
の構成を示すブロック図である。音声応答装置1300で動
作するアプリケーションプログラム1401と、音声認識合
成サーバ1310で動作するサーバプログラム1411との間に
は、それぞれのプログラムの下位階層に位置するネット
ワークトランスポート層1405及び1415と、ネットワーク
インタフェース回路1406及び1416とが存在している。そ
して、アプリケーションプログラム1401とサーバプログ
ラム1411では、ネットワークトランスポート層1405及び
1415の構成に合わせた専用のインタフェースをそれぞれ
用いて、データ伝送が実施される。
【0010】第2の問題点は、サービスの処理の仕組み
がコマンドレスポンスの形態を基本としていることか
ら、アプリケーションプログラムインタフェースの拡張
に伴う変更の影響が及ぶ範囲が広いために長期間にわた
ってシステムを拡張しつづけることが難しいということ
である。その理由は、新たなインタフェース構造を導入
する場合にも、それが影響を与えるすべてのノードのソ
フトウェアに対してプログラムの更新を行う必要があ
り、それはネットワーク上で動作している可能性のある
過去のインタフェースに対してインタオペラビリティを
保証する必要があるためである。
【0011】本発明の有効性を高める背景としてさら
に、昨今の機器のネットワーキングコストの低下と普及
の進展があげられる。従来に比してヒューマンマシンイ
ンタフェース機能をネットワーク上に構成しようとした
場合、その実現に要するコストが低下し、また提供でき
るバンド幅も拡大し、さらにそれに加えて搭載している
機器やネットワーク接続を前提としている機器が増える
兆しを見せているのである。
【0012】
【発明が解決しようとする課題】上記のような従来の技
術における構成と、それらの課題についてまとめると次
のようになる。従来の構成としては、ネットワークを
利用せず、ヒューマンマシンインタフェースの機能を自
装置内で備えるスタンドアロン構成のものと、ネット
ワークの接続はなされているものの、ヒューマンマシン
インタフェースの機能は個別に持っていて、共通化につ
いても特定用途システムの中で閉じているものに分ける
ことがでる。それらのうち、一方、スタンドアロン構成
のものでは、従来の機器におけるヒューマンマシンイン
タフェースが上記の様に操作対象の機器に完全に組み込
まれており、他の機器やシステムとのインタラクション
は想定されていない。他方、ネットワークを持つもので
は、ネットワークを利用して特定のヒューマンインタフ
ェースの機能を共用している構成である。しかし、上記
のような例では音声の認識機能をアプリケーションサー
バとして配備している。このような場合では、アプリケ
ーションサービスの単位で分散化をしているために、異
なる表現媒体での処理機能の共通化はなされていないこ
とから、比較的低レベルの処理までは対処できるが、ヒ
ューマンインタフェースの統合を行うのには不適当な形
態である。
【0013】上述したように、従来の構成においては、
個々の機器が個別にヒューマンマシンインタフェースを
持つことによって次の欠点が生じていた。コスト高、
機能不足、使いにくい、情報の共通化ができない、
適応能力が小さい、利用範囲が狭い。このような欠
点を生じる理由は、類似の機能を複数の機器が独立に
もつこと、搭載できるリソースが価格、スペースによ
り強く制限を受けること、全く独立に設計されてお
り、情報を共有する各層の手段が存在しないこと、リ
ソース制約とネットワーク未対応であること、特定の
用途に対して設計されていて、共通の情報を利用できな
いことである。
【0014】本発明は、上記の事情を考慮してなされた
ものであって、機器へのヒューマンマシンインタフェー
スの組み込み、実装にあたって、従来の問題点の改善を
図ることを目的としたものであって、より具体的には、
装置あたりのコストを低減すること、あるいは、機能及
び性能を引き上げること、あるいは、ヒューマンマシン
インタフェースの操作上の情報を機器間で共通化して異
なる機器であっても同一の操作感が得られるようにする
こと、あるいは、システムの拡張を柔軟に行うことがで
きるようにすること、あるいは、異なる表現媒体のヒュ
ーマンマシンインタフェースの上位レベルの情報の処理
の共通化を図ることができるようにすることを図ったヒ
ューマンマシンインタフェースシステム及びそのプログ
ラムを記録したコンピュータ読取り可能な記録媒体を提
供することを目的とする。
【0015】
【課題を解決するための手段】上記課題を解決するた
め、請求項1記載の発明は、ヒューマンマシンインタフ
ェースの機能を分散オブジェクトとして分割された形態
で構成する各機能要素を、ネットワークのノード上に複
数配備し、各ノードが連携してデータ処理を行うこと
で、各ヒューマンマシンインタフェースの機能を実現す
ることを特徴とする。請求項2記載の発明は、前記各ノ
ードが、入出力部であるアプリケーションノードと、ア
プリケーションノードで入出力されるデータを処理する
サービスノードと、両ノードの機能を備える複合ノード
のいずれかであることを特徴とする。請求項3記載の発
明は、前記サービスノード又は複合ノードとして、表現
媒体に依存するデータ処理を行う下位サービスノード又
は下位複合ノードと、表現媒体に依存しないデータ処理
を行う上位サービスノード又は上位複合ノードとが存在
し、上位サービスノード又は上位複合ノードが、複数の
異なる表現媒体にそれぞれが依存する複数の下位サービ
スノード又は下位複合ノードによって共通に利用される
ことを特徴とする。請求項4記載の発明は、前記アプリ
ケーションノード又は複合ノードから他の前記サービス
ノード又は複合ノードに対してサービス開始要求と処理
データとを送り、該他の前記サービスノード又は複合ノ
ードにおいて該アプリケーションノード又は複合ノード
における入力情報又は出力情報の作成処理を行うことを
特徴とする。請求項5記載の発明は、前記各ノードが、
上位から下位に向けて、アプリケーションオブジェクト
又はサービスオブジェクトと、分散オブジェクトの上位
部分であるプロキシーと、分散オブジェクトの下位部分
であるオブジェクトトランスポート機構及びリモートク
ラスリファレンス機構と、ネットワークトランスポート
層と、ネットワークインタフェース回路とからなるソフ
トウェア実行機構を有して構成されていることを特徴と
する。請求項6記載の発明は、請求項1〜5のいずれか
1項に記載のヒューマンマシンインタフェースシステム
において実行されるプログラムを記録した計算機読取り
可能な記録媒体である。
【0016】すなわち、本発明は、(1)ヒューマンマシ
ンインタフェース機能をローカルネットワーク等のネッ
トワークによって機能分散し、また情報共有を可能とし
ている点、(2)ヒューマンマシンインタフェースシステ
ムが分散オブジェクトモデルに基づいている点、(3)ヒ
ューマンマシンインタフェースのバックエンドサービス
をその処理階層によって分散化したオブジェクトによっ
て実現し、異なる表現メディアのヒューマンマシンイン
タフェースの高位階層の処理の統合化と情報の共通化を
図っている点を特徴とし、それらによって、(4)ヒュー
マンマシンインタフェースの実現に要するコストを大幅
に低下させることを可能にし、(5)機器毎に搭載する場
合に比して部品コスト、ソフトウェアコスト、消費エネ
ルギー、実装面積等の制約を大幅に緩和させ、実現でき
るヒューマンマシンインタフェースの機能及び性能の向
上を可能にし、(6)開放型のシステムを長期間にわたっ
て維持拡張を容易にかつ低コストで実現することを可能
にしている。
【0017】
【発明の実施の形態】以下、図面を参照して本発明によ
るヒューマンマシンインタフェースシステムの実施の形
態について説明する。
【0018】本発明は、有線または無線ネットワークで
接続された複数の小規模機器において従来の方法に比し
て高い性能と低いコスト、高い拡張性をもつヒューマン
マシンインタフェース機能を提供するものである。ここ
で、ヒューマンマシンインタフェースとは、コンピュー
タ等の機械と、人間との接点において、両者の仲介をす
る機器及びそれを制御するソフトウェアを指している。
図1に示すように、その操作及び状態監視の手段として
のヒューマンマシンインタフェースを保有すべき装置が
存在するローカルネットワーク上に、それらを実現する
のに必要となる複雑で多くの演算量を要するヒューマン
マシンインタフェースの機能要素を含む装置を設け、ヒ
ューマンマシンインタフェースの機能全体を直接操作す
る機器上とヒューマンマシンインタフェースの各階層の
処理機能要素を含む複数の装置上に分散させたオブジェ
クトの連携によって動作する分散オブジェクトモデルに
基づく構成とする。このようにして、機能の分散と共有
をネットワーク上で階層化したヒューマンマシンインタ
フェース処理を分散オブジェクトモデルに基づいて実現
することによって、ハードウェア資源及び情報資源の効
率的な利用が可能となり、個々のヒューマンマシンイン
タフェースのコストの低減と性能の向上、更には情報の
一括管理が可能となることから保守性が改善するととも
にシステムの高い拡張性の提供を可能にする。
【0019】なお、分散オブジェクトモデルとは、一般
に、オブジェクト指向プログラミングモデルに基づいて
設計実装されたソフトウェアの機能要素がネットワーク
(通信機構)で接続された処理装置(ホスト)に分散して配
置された系において、それらが様式化された連携の仕組
みを通じて相互に呼び出しや参照をおこなうことによっ
て系全体として所期のアプリケーションが実現されるソ
フトウェアのフレームワークを指す。実用化されている
ものには、OMG(Object Management Group)のCORBA(Comm
on Object Request Broker Architecture)や、SUN Micr
osystems(商標)のJava(商標)/RMI(及びjini)、Micr
osoft(商標)のDCOM(Distributed Common Object Mode
l)などがある。
【0020】図1を参照すると、本発明のヒューマンマ
シンインタフェースシステムの一実施形態は、有線また
は無線を使用した物理層を用いて機器間の通信路を提供
するローカルネットワーク100と、個々の機器の本来の
仕事をする手段とそのための指令を与え状態を監視ない
し確認するためのヒューマンマシンインタフェース手段
を有する装置(アプリケーションノード)101、102、10
3、105と、ヒューマンマシンインタフェース機能のうち
特に複雑で処理に要する演算量やハードウェア資源ない
しは大量の情報資源が必要な機能を提供することを目的
とする手段を搭載した装置(サービスノード)104と、ア
プリケーションノードでありかつサービスノードでもあ
る装置(複合ノード)106、107から構成されている。な
お、この場合、ノードとは、ネットワークを構成するコ
ンピュータ、端末装置、通信制御装置等の機器またはそ
れを制御するプログラムを指している。
【0021】本実施形態において、アプリケーションノ
ードは、コンピュータ、情報機器、通信機器等の端末装
置において、人間に対して直接、音声、映像、画像等の
媒体や、機械的動作を用いてデータの入出力を行う機能
を提供するネットワークの構成要素であり、サービスノ
ードは、アプリケーションノードに対して各種情報処理
機能を提供するネットワークの構成要素である。また、
本システムでは分散オブジェクトモデルに基づいて各ア
プリケーションノードと各サービスノード間のデータ処
理が実行されるが、その際、各アプリケーションノード
におけるアプリケーションオブジェクトと各サービスノ
ードにおけるサービスオブジェクトとの間のアクセスを
可能とするための分散アプリケーションディレクトリサ
ービス及び分散オブジェクトディレクトリサービスは、
図示していないサーバ装置によって提供されているもの
とする。なお、このような分散オブジェクトモデルに関
する従来の技術の一例が、特開平10−254701号公報、特
開平11−96054号公報等に記述されている。
【0022】図2を参照すると、図1に示すアプリケーシ
ョンノード101,102,103,105等に対応するアプリケーシ
ョンノード200には、その内部機能として、それぞれが
単独または統合された形でCPU(Central Processing Un
it)、DSP(Digital SignalProcessor)、記憶装置、イ
ンタフェース等のハードウェアと、それを用いて動作す
るソフトウェアプログラムとから構成されている、総合
制御手段201、ローカルネットワークインタフェース手
段202、ディスプレイ処理手段203、音声信号の入力処理
手段204、音声信号の出力処理手段205からなる。ただ
し、ディスプレイ処理手段203、音声信号の入力処理手
段204、音声信号の出力処理手段205の各構成について
は、必ずしもすべてを各アプリケーションノードに設け
る必要はなく、1もしくは2個のみとしたり、または、同
一の手段を複数系統備えるようにしてもよい。これらの
手段はそれぞれ概略つぎのように動作する。
【0023】総合制御手段201は、システム制御手段210
が中心となり機器制御手段212に対して機器の目的であ
る動作の制御のマクロな制御(複数の制御手順をまとめ
て行う制御)を行い、ヒューマンマシンインタフェース
(HMI)制御手段211に対してそのマクロな指令と監視を行
う。ローカルネットワークインタフェース手段202は、
分散オブジェクトモデルに基づいたソフトウェアの実行
をサポートとするとともにネットワークを介したノード
間の通信をするための通信処理をおこなう。内部はOSI
(Open System Interconnection)参照モデルにおける物
理層と一部のデータリンク層の処理を行うNIC(Network
Interface Card)220と、データリンク層の一部、ネット
ワーク層、トランスポート層を含む狭義のネットワーク
プロトコル処理を行うネットワークプロトコル処理部22
1、ソフトウェア(通常プログラム)によって構成され
るものであって、分散オブジェクト系の実行基盤をとな
る分散オブジェクトインタフェース222で構成される。
【0024】ディスプレイ処理手段203は、表示を行う
手段を提供するもので、ディスプレイのうち複雑な処理
や情報資源へのアクセスが必要であるものがネットワー
クを介してサービスノートへ送られてそこで処理され、
その処理結果を受信したものに対して復号処理を行う復
号化処理231と、ディスプレイへの表示操作を行う表示
操作(ディスプレイ)230で構成される。音声信号の入力
処理手段204は、音声入力を行う手段を提供するもの
で、音声認識等の複雑な処理や情報資源へのアクセスが
必要なものがネットワークを介して送られるためその符
号化処理を行う符号化処理241と、信号の入力とディジ
タル化処理を行う変換部240で構成される。音声信号の
出力処理手段205は、音声出力を行う手段を提供するも
ので、テキストからの音声合成等の複雑な処理や情報資
源へのアクセスが必要なものがネットワークを介して送
られるためその復号化処理を行う復号化処理251と、ア
ナログ信号への変換と信号の出力を行う変換部250で構
成される。
【0025】なお、上記構成のうち、復号化処理231、
符号化処理241、及び復号化処理251は、それぞれ、HMI
制御手段211と、ハードウェアあるいはソフトウェアに
よる通信手段232,242,及び252で接続されている。ま
た、本システムにおいては、ヒューマンマシンインタフ
ェースの各データ処理がネットワークの同一の処理系に
ないしはその代理によって行われる。したがって、各機
器101〜103(図1)では、それらの処理系との間でデータ
を授受する部分の構成、すなわち、上記の例ではヒュー
マンマシンインタフェース(HMI)制御手段211、ディスプ
レイ処理手段203、音声信号の入力処理手段204、音声信
号の出力処理手段205の各構成について、各機器101〜10
3間で比較的容易に共通化することができる。このよう
に各機器のインタフェース仕様を共通化すれば、ヒュー
マンマシンインタフェースの操作上の情報を機器間で共
通化でき、異なる機器であっても同一の操作感を得られ
ることになる。
【0026】図3を参照すると、図1に示すサービスノー
ド104等に対応するサービスノード300の内部機能は、そ
れぞれが単独または統合された形でCPU、DSP、記憶装
置、インタフェース等のハードウェアとそれを用いて動
作するソフトウェアとから構成されている、総合制御手
段301、ローカルネットワークインタフェース手段302、
ディスプレイ処理手段303、音声信号の入力処理手段30
4、音声信号の出力処理手段305からなる。ただし、ディ
スプレイ処理手段303、音声信号の入力処理手段304、音
声信号の出力処理手段305の各構成については、必ずし
もすべてを各サービスノードに設ける必要はなく、1も
しくは2個のみとしたり、または、同一の手段を複数系
統備えるようにしてもよい。これらの手段はそれぞれ概
略つぎのように動作する。
【0027】総合制御手段301は、システム制御手段310
が中心となりヒューマンマシンインタフェース(HMI)制
御手段311に対してそのマクロな指令と監視を行う。ロ
ーカルネットワークインタフェース手段302は、分散オ
ブジェクトモデルに基づいたソフトウェアの実行をサポ
ートとするとともにネットワークを介したノード間の通
信をするための通信処理をおこなう。その内部は、物理
層と一部のデータリンク層の処理を行うNIC320と、デー
タリンク層の一部、ネットワーク層、トランスポート層
を含む狭義のネットワークプロトコル処理を行うネット
ワークプロトコル処理部321と、分散オブジェクト系の
実行基盤をとなる分散オブジェクトインタフェース322
とで構成される。ディスプレイ処理手段303は、表示を
行う手段を提供するもので、ディスプレイのうち複雑な
処理や情報資源へのアクセスが必要であったものを処理
し、ネットワークを介して送りだすための符号化処理33
1と、ディスプレイイメージを生成するディスプレイイ
メージ生成330で構成される。音声信号の入力処理手段3
04は、音声入力を行う手段を提供するもので、音声認識
等の複雑な処理や情報資源へのアクセスが必要なものの
処理を行うためネットワークを介して送られてくる音声
信号の復号化処理を行う復号化処理341と、音声認識処
理を行う音声認識処理340で構成される。音声信号の出
力処理手段305は、音声出力を行う手段を提供するもの
でテキストからの音声合成等の複雑な処理や情報資源へ
のアクセスが必要なものが処理されネットワークを介し
て送られるための符号化処理を行う符号化処理351と、
音声合成処理を行う音声合成処理350で構成される。
【0028】なお、上記構成のうち、符号化処理331、
復号化処理341、及び符号化処理351は、それぞれ、HMI
制御手段311と、ハードウェアあるいはソフトウェアに
よる通信手段332,342,及び352で接続されている。
【0029】図4を参照すると、本発明のヒューマンマ
シンインタフェースシステムの一実施形態の分散オブジ
ェクトモデルに基づくソフトウェア実行の機構が示され
る。図4に示す構成401〜406のうち、アプリケーション
オブジェクト401が図2に示すディスプレイ処理手段20
3、音声信号の入力処理手段204、音声信号の出力処理手
段205に対応する構成であり、ブロック402〜406が図2の
ローカルネットワークインタフェース手段202に対応す
る構成であり、ブロック412〜416が図3のローカルネッ
トワークインタフェース手段302に対応する構成であ
り、そして、サービスオブジェクト411が図3に示すディ
スプレイ処理手段303、音声信号の入力処理手段304、音
声信号の出力処理手段305に対応する構成である。
【0030】アプリケーションオブジェクト401は、サ
ービスオブジェクト411を、アプリケーションオブジェ
クト401とサービスオブジェクト411のそれぞれに接続さ
れた下位のレイアを用いて呼び出し、透過的に実行す
る。下位に位置するプロキシーであるスタブ402及びス
ケルトン412はそれぞれのローカルホストにおける呼び
出しの代行を行い上記透過的実行を実現する。オブジェ
クトトランスポート403,413はネットワーク上でオブジ
ェクトの参照のための移動機能を提供する。リモートク
ラスリファレンス404,414はネットワーク上に分散した
クラス参照のための機能を提供する。ネットワーク/ト
ランスポート層処理405,415はそれぞれのレイアの通信
処理を行いオープンで拡張性の高い通信基盤を提供す
る。ネットワークインタフェース回路406,416は物理層
とデータリンクその一部の処理を行い電気信号によるネ
ットワーク構成手段を提供する。
【0031】図4に示す構成において、プロキシー(スタ
ブ)402及びプロキシー(スケルトン)412は、図2及び図3
の分散オブジェクトインタフェース222,322をアプリケ
ーションオブジェクト401及びサービスオブジェクト411
の構成に依存する上位の部分と依存しない下位の部分に
分けた場合に、上位の部分に対応する構成である。オブ
ジェクトトランスポート403,413と、リモートクラスリ
ファレンス404,414とは、ともに図2及び図3の分散オブ
ジェクトインタフェース222,322のうちのアプリケーシ
ョンオブジェクト401及びサービスオブジェクト411の構
成に依存しない下位の部分に対応する構成である。ネッ
トワーク/トランスポート層処理405,415は、例えばTCP/
IP(Transmission Control Protocol/Internet Protoco
l)などのネットワークプロトコル処理を行うものであ
って、図2,図3のネットワークプロトコル処理部221,321
に対応する構成である。そして、ネットワークインタフ
ェース回路406,416は、図2,図3のNIC220,320に対応する
構成である。すなわち、これらの構成のうち、スタブ40
2及びスケルトン412のみがアプリケーションオブジェク
ト401あるいはサービスオブジェクト411に依存する構成
であり、オブジェクトトランスポート403,413〜ネット
ワークインタフェース回路406,416はアプリケーション
オブジェクト401あるいはサービスオブジェクト411に依
存しない構成である。
【0032】次に、図5及び図6、図7、図8のフローチャ
ートを参照して本実施形態の動作について説明する。ま
ず、サービスを提供する1または複数のオブジェクト(サ
ービスオブジェクト411)はネットワーク100上の他の1ま
たは複数のアプリケーション(アプリケーションオブジ
ェクト401)が利用できる様に、その存在をネットワーク
上のレジストリに登録する必要がある(図5)。起動さ
れたサービスオブジェクトはネットワーク上に存在する
レジストリの探索を行う(図5のステップ501)。次に、検
索されたレジストリの判定を行い(ステップ502)。この
とき登録の要件を満たすレジストリが見出されなかった
場合、レジストリ選択の例外処理(図5のステップ550)を
行い登録は行われない。登録可能なレジストリがある場
合には候補のなかから実際に登録するレジストリの選択
を行う(図5のステップ503)。決定されたレジストリに対
してサービスオブジェクトの登録を行う(図5のステップ
504)。さらに、レジストリへの登録の確認を行い(図5の
ステップ505)、何らかの異常がある場合には登録例外処
理を行って異常終了とする(図5のステップ560)。正常に
登録されたことが確認された場合には正常終了となる
(図5のステップ507)。
【0033】次にアプリケーションがサービスを利用と
する場合、アプリケーションはまずネットワーク上でレ
ジストリの探索を行う(図6のステップ601)。探索結果の
レジストリの判定を行い目的のサービスの登録の有無を
調べる(図6のステップ602)、ネットワークのスコープ内
に対象とするレジストリが発見されなかった場合にはレ
ジストリの選択例外処理(図6のステップ650)を行い異常
終了する。何らかのレジストリが発見された場合にはレ
ジストリの選択結果の決定行い(図6のステップ603)その
内容を参照する(図6のステップ604)。参照の適否の判定
を行い(図6のステップ605)、誤りが発見された場合には
サービス参照例外処理(図6のステップ660)を行い異常終
了し、誤りがなかった場合にはロードを行った後正常終
了する(図6のステップ606)。
【0034】次にサービスの利用の具体例を音声生成の
ケースを用いて説明する。図7に示すように、処理は左
側の列の流れ図の示すアプリケーション(アプリケーシ
ョンオブジェクト401)側の処理(図7のステップ700)と右
側の列の流れ図が示すサービス(サービスオブジェクト4
11)側の処理(図7のステップ720)とが相互作用を行いつ
つ進行する。まずアプリケーション側では、音声生成サ
ービスについて図6の処理によってサービスの参照を獲
得し(図7のステップ701)、サービスに対して利用開始を
伝える(図7のステップ702)。一方サービス側は起動処理
(図7のステップ721)の後、上記図5の処理によってサー
ビスの登録がなされる(図7のステップ722)。その後サー
ビス開始要求を待っている(図7のステップ723)ときに、
サービス要求(図7のステップ702)があると新たに音声生
成のためのスレッドを追加起動し(図7のステップ730)、
結果を返す。アプリケーション側はその結果によりサー
ビスが開始できることを確認するかタイムアウトによる
打ち切りまで応答を待っている(図7のステップ703)の
で、音声生成のためのアーギュメントを設定し(図7のス
テップ704)、音声の生成を指示(図7のステップ705)を行
った後、結果待ちの状態に入る(図7のステップ706)。な
おアプリケーション側のホストとしてはこの待機期間に
他のプロセスを実行することは可能である。
【0035】音声生成の指示を受けたサービス側はアー
ギュメントとして与えられた生成音声テキストの解析を
行い(図7のステップ731)、音響パラメータを決定し、時
系列的なパラメータ列を得る(図7のステップ732)。ここ
で生成に障害を生じるエラーが発見された場合には例外
処理(図7のステップ733)を行う。その後パラメータ列か
ら音声波形データを生成し(図7のステップ734)、形式を
整えるために符号化を行いアプリケーション側に実行結
果として返す(図7のステップ735)。処理が完了したス
レッドは削除される(図7のステップ736)。実行結果を待
っていたアプリケーション側では音声信号の復号(図7の
ステップ707)と音響信号として出力するか(図7のステッ
プ708)、更に別のアプリケーションに引き渡す。
【0036】次にサービスの利用の具体例をもうひとつ
音声認識のケースを用いて説明する。図8に示すよう
に、処理は左側の列の流れ図の示すアプリケーション側
の処理(図8のステップ800)と右側の列の流れ図が示すサ
ービス側の処理(図8のステップ840)とが相互作用を行い
つつ進行する。まずアプリケーション側では、音声認識
サービスを図6の処理によってサービスの参照を獲得し
(図8のステップ801)、サービスに対して利用開始を伝え
る(図8のステップ802)。一方サービス側は起動処理(図8
のステップ841)の後、上記図5の処理によってサービス
の登録がされる(図8のステップ842)。その後サービス開
始要求を待っている(図8のステップ843)ときに、サービ
ス要求(図8のステップ802)があると、新たに音声認識の
ためのスレッドを追加起動し(図8のステップ850)、結果
を返す。アプリケーション側はその結果によりサービス
が開始できることを確認するかタイムアウトによる打ち
切りまで応答を待っている(図8のステップ803)ので、音
声認識の開始を音響的におおまかに検出するための音声
入力有無判定(図8のステップ804)を行い、音声の認識を
指示(図8のステップ805)を行う。引き続き所定のフレー
ム単位(例えば1フレーム単位)で符号化(図8のステッ
プ806)、音声有無判定(図8のステップ807)、サービス側
への伝送(図8のステップ808)を反復する。発声の終了の
検出がされるか所定の時間を過ぎたことによるタイムア
ウトを検出すると、音声信号終端の指示をサービス側に
伝える(図8のステップ810)。
【0037】音声認識の指示を受けたサービス側は音声
信号の復号(図8のステップ851)、環境雑音等の除去、よ
り正確な音声区間の判定処理を行う(図8のステップ85
2)。引き続き音響的な特徴パラメータの抽出を行い(図8
のステップ853)、保持している特徴パラメータの辞書と
のマッチングを行いその候補に対するスコアリングを逐
次行う(図8のステップ854)。ついで、単語辞書とのマッ
チングとスコアリングを行い(図8のステップ855)、尤度
の高いものを選択する操作を音声の終端の指示があるか
または音声区間終了検出あるいはタイムアウトが発声す
るまでつづける(図8のステップ856)。認識結果を符号化
し(図8のステップ857)、結果としてアプリケーション側
に返す(図8のステップ858)。処理が完了したスレッドは
削除される(図8のステップ859)。実行結果を待っていた
アプリケーション側では(図8のステップ811)、音声認識
結果の復号(図8のステップ812)と結果のさらなる加工な
いしは別のアプリケーションへの引き渡しを行う(図8の
ステップ813)。
【0038】以上説明したように本実施の形態によれ
ば、次のような効果を得ることができる。第1の効果
は、装置あたりのコストを低減することができることに
ある。その理由は、ネットワークに接続されている機器
の間で利用多重度は民生機器等では一般に十分低いため
ヒューマンマシンインタフェースの個々のサービスの個
数は機器の個数に比べてかなり小さく(例えば10%)取る
ことができるためである。
【0039】第2の効果は、機能及び性能を引き上げる
ことが可能になることにある。その理由は、上記の機器
一台あたりのコストを低減できることと合わせて、機器
の電源容量や放熱容量、筐体形状による制約を回避する
ことができるためである。
【0040】第3の効果は、ヒューマンマシンインタフ
ェースの操作上の情報を機器間で共通化でき、異なる機
器であっても同一の操作感が得られることにある。その
理由は、ヒューマンマシンインタフェースの処理はネッ
トワークの同一の処理系にないしはその代理によって行
われるためである。
【0041】第4の効果は、システムの拡張を柔軟に行
うことができることにある。その理由は、より高い処理
性能が必要になった場合にはヒューマンマシンインタフ
ェースのサービスの多重度を低減するかあるいはより高
性能のハードウェアリソースを有するノードを追加する
ことでそれまでに利用していた環境がそのまま利用でき
るためである。またこのことによって、導入時の費用を
低減することが可能となる。
【0042】第5の効果は、異なる表現媒体のヒューマ
ンマシンインタフェースの上位レベルの情報の処理の共
通化を図ることができることにある。その理由は、例え
ば音声情報と文字情報の処理に共通するテキストの処
理、セマンティクスに基づく処理などの上位の処理を独
立したサービスとしてネットワーク上に装備することが
可能となるからである。
【0043】次に、本発明の他の実施形態について図面
を参照して詳細に説明する。図9を参照すると、本実施
形態は、ローカルネットワーク1000と、アプリケーショ
ンノードである装置1、装置2、装置3(それぞれ1001、10
02、1003)、音声認識サービスノードである装置4(100
4)、センテンスレベルのスコアリングを行うノードであ
る装置5(1005)、文字認識ノードでありアプリケーショ
ンノードをかねる複合ノードである装置6(1006)、音声
生成サービスノードとアプリケーションノードをかねる
装置7(1007)とから構成されている。
【0044】図9に示される様に装置1(1001)、装置2(10
02)、装置3(1003)、装置4(1004)、装置5(1005)、装置6
(1006)、装置7(1007)はローカルネットワーク1000で接
続されている。これらの装置はそれぞれ概略つぎのよう
な機能を有する。装置1、2、3(1001〜1003)は、機器固
有のアプリケーションの実行ともに操作に対するヒュー
マンインタフェースのフロントエンドの機能を提供す
る。装置4(1004)は、ネットワーク1000に接続された上
記装置1、2、3(1001〜1003)のヒューマンインタフェー
スのうち音声認識のバックエンド機能を提供する。装置
5(1005)は、ヒューマンインタフェースの機能のうち表
現媒体に依存することのない上位階層の照合とそれに基
づくスコアリングの機能を提供する。装置6(1006)は、
ヒューマンインタフェースの機能のうち文字認識のバッ
クエンド機能を提供すると共に装置固有のアプリケーシ
ョンを実行する。装置7(1007)は、ヒューマンインタフ
ェースの機能のうち音声生成のバックエンド機能を提供
すると共に装置固有のアプリケーションを実行する。
【0045】次に、図10及び図11に示すフローチャート
を参照して本実施形態における音声認識の動作について
詳細に説明する。図10及び図11は一続きのフローチャー
トを2つの図に分けて示すものであって、図10の結合子
(A)と図11の結合子(A)は接続されていて、図10のスレッ
ドS1及びS2は、図11のスレッドS1及びS2と同じものを示
している。図10及び図11に示すように、処理は最も左側
の列の流れ図の示すアプリケーション側の処理(図10の
ステップ1100)と中の列の流れ図が示すサービス側1の処
理(図10のステップ1140)及び右側の列の流れ図が示すサ
ービス側2の処理(図10のステップ1160)とが相互作用を
行いつつ進行する。この場合、アプリケーション側の処
理(図10のステップ1100)が、図9の装置1、2、3(1001〜1
003)のいずれかで実行されるものであって、サービス側
1の処理(図10のステップ1140)が図9の装置4(1004)で実
行されるものであって、そして、サービス側2の処理(図
10のステップ1160)が図9の装置5(1005)で実行されるも
のである。
【0046】まずアプリケーション側では、音声認識サ
ービスを図6の処理によってサービスの参照を獲得し(図
10のステップ1101)、サービス1に対して利用開始を伝え
る(図10のステップ1102)。一方サービス側1は起動処理
(図10のステップ1141)の後、上記図5の処理によってサ
ービスの登録がされる(図10のステップ1142)。その後サ
ービス開始要求を待っている(図10のステップ1143)とき
に、サービス要求(図10のステップ1102)があると新たに
音声認識のためのスレッドS1を追加起動し(図10のステ
ップ1150)、結果を返す。アプリケーション側はその結
果によりサービスが開始できることを確認するかタイム
アウトによる打ち切りまで応答を待っている(図10のス
テップ1103)ので、音声認識の開始を音響的におおまか
に検出するための音声入力有無判定(図10のステップ110
4)を行い、音声の認識を指示(図10のステップ1105)を行
う。引き続き所定のフレーム単位(例えば1フレーム単
位)で符号化(図10のステップ1106)、音声有無判定(図10
のステップ1107)、サービス側1への伝送(図10のステッ
プ1108)を反復する。発声の終了の検出がされるか所定
の時間を過ぎたことによるタイムアウトを検出すると、
音声信号終端の指示をサービス側に伝える(図10のステ
ップ1110)。
【0047】音声認識の指示を受けたサービス側1は音
声信号の復号(図11のステップ1151)、環境雑音等の除
去、より正確な音声区間の判定処理を行う(図11のステ
ップ1152)。引き続き音響的な特徴パラメータの抽出を
行い(図11のステップ1153)、保持している特徴パラメー
タの辞書とのマッチングを行い、その候補に対するスコ
アリングを逐次行う(図11のステップ1154)。ついで、単
語辞書とのマッチングとスコアリングを行い(図11のス
テップ1155)、尤度の高いものを選択する操作を音声の
終端の指示があるかまたは音声区間終了検出あるいはタ
イムアウトが発声するまでづける(図11のステップ115
5)。ここで得られた単語ないしはそれに近いレベルの認
識結果をサービス側2のセンテンスレベルのスコアリン
グサービス(図10のステップ1160)に送られる。サービス
側2ではこの時点ですでに起動及びサービス登録(図10の
ステップ1161,1162)と、サービススレッドS2の追加(図1
0のステップ1170)が、開始要求の受付(図10のステップ1
163)の結果として行われている。
【0048】センテンスレベルのスコアリングサービス
スレッドS2では単語辞書の検索(図11のステップ1171)を
行い、シンタクス情報によるスコアリング(図11のステ
ップ1172)、セマンティクス情報に夜スコアリング(図11
のステップ1173)を経て総合的なスコアリングを行い(図
11のステップ1174)、結果をサービス側1に返す処理(図1
1のステップ1175)が行われる。センテンスが終了した場
合(図11のステップ1176)、処理が完了したスレッドS2は
削除される(図11のステップ1177)。サービス側1では発
声の終了を検出すると(図11のステップ1156)、認識結果
を符号化し(図11のステップ1157)、結果としてアプリケ
ーション側に返す(図11のステップ1158)。処理が完了し
たスレッドS1は削除される(図11のステップ1159)。実行
結果を待っていたアプリケーション側では(図11のステ
ップ1111)、音声認識結果の復号(図11のステップ1112)
と結果のさらなる加工ないしは別のアプリケーションへ
の引き渡しを行う(図11のステップ1113)。
【0049】次に、図12を参照して、本発明の他の実施
形態について説明する。図12に示すシステムは、音声認
識応答、文字テキスト表示等を行うヒューマンマシンイ
ンタフェースを有するシステムである。図12に示す実施
の形態において、システムの全体のハードウェア上の構
成はローカルエリアネットワーク(LAN)10に接続された
アプリケーションノードとして機能するホスト11〜13
と、サービスノードとして機能するホスト14〜19と、更
にアプリケーションサービスに関するレジストリを提供
するホスト20と、分散オブジェクトに対するレジストリ
を提供するホスト21とから構成されている。ただし、レ
ジストリノードはアプリケーションノードあるいは各種
サービスノードと同一ホスト上で稼動することも可能で
ある。またこれらのアプリケーションノード機能/サー
ビスノード機能とホストは動的に変化することが可能で
ある。すなわち、上記の分散オブジェクトないし分散サ
ービスのエンティティは必ずしも異なるホスト上実行さ
れることを要求しない。また、オブジェクトがネットワ
ーク上で引き渡されて他のホスト上で実行される事もあ
り得る。さらにアプリケーションの要求するバンド幅と
伝送遅延が満たされるならば、サブネットワークを持つ
ネットワークにも適用することができる。
【0050】まず、アプリケーションノードについて説
明する。図12に示す例では、ホスト11は、システムコン
トロール11aと、HMIコントロール11bと、アプリケーシ
ョンサービスインタフェース11cと、ネットワークイン
タフェース(スタブ)11dと、HMI(音声/表示)フロントエ
ンド11eと、アプリケーション特定インタフェースIO1
1fとから構成されている。ホスト12とホスト13も、ホス
ト11と同様に構成されているものとする。これらの構成
によって、ホスト11、ホスト12、及びホスト13は、ヒュ
ーマンマシンインタフェースサービスのアプリケーショ
ンノードとして、音声によるコマンド入力及び音声応答
/ステータスディスプレイ機能を提供する。これらノー
ドには何れも装置の目的に応じた制御や入出力機能(ア
プリケーション特定インタフェースIO11f)が備わっ
ている。アプリケーションノードの分散アプリケーショ
ンインタフェースとして、アプリケーションサービスイ
ンタフェース11cと、ネットワークインタフェース11dが
存在する。アプリケーションノード側のヒューマンマシ
ンインタフェースの統合を行っているのがヒューマンマ
シンインタフェース(HMI)コントロール11bである。アプ
リケーションノード側のヒューマンインタフェースのロ
ーカルデバイスへのアクセスと制御それに符号化等の信
号変換を行うのがHMIフロントエンド11eである。ここで
は音声とディスプレイとなっているが、異なる種類のヒ
ューマンインタフェース媒体を使用する場合にはそのタ
イプに応じてこのレイアは変更される。そして、システ
ムコントロール11aによって各機能が統合制御される。
【0051】次に、アプリケーションサービスと、レジ
ストリについて説明する。図12の例では、上述のアプリ
ケーションノード11〜13に対してアプリケーションサー
ビスを提供する複数のサービスノード14〜17がネットワ
ーク10上に配置されている。この例では、それらは、文
字認識サービスノード14、音声認識サービスノード15、
音声合成(音声応答)サービスノード16、ディスプレイ内
容合成サービスノード17として構成されている。この場
合、ノード(ホスト)14は、文字認識サービスコントロー
ル14aと、ロー・レベル文字認識処理14bと、文字認識デ
ータ14cと、ネットワークインタフェース(スタブ/スケ
ルトン)14dとから構成されている。ノード15は、音声認
識サービスコントロール15aと、音響的音声認識プロセ
ッシング15bと、音響認識データ15cと、ネットワークイ
ンタフェース(スタブ/スケルトン)15dとから構成されて
いる。ノード16は、音声合成サービスコントロール16a
と、音響的音声生成処理16bと、音響生成データ16cと、
ネットワークインタフェース(スタブ/スケルトン)16dと
から構成されている。そして、ノード17は、ディスプレ
イ内容合成サービスコントロール17aと、表示イメージ
生成処理17bと、表示イメージ生成データ17cと、ネット
ワークインタフェース(スタブ/スケルトン)17dとから構
成されている。
【0052】更に各ヒューマンインタフェースの上位処
理にあたる機能を有するシンタクス処理(構文処理)オブ
ジェクト18a、セマンティック/プラグマティック処理
(意味/語用処理)オブジェクト19aが、各ノード18,19に
よって提供される。それらはネットワークを介して各機
能を提供するためにネットワークインタフェース(スタ
ブ)18a,19aをそれぞれ有している。この実施形態では、
構文処理オブジェクト18a、セマンティック/プラグマテ
ィック処理オブジェクト19aによって提供される機能
が、共用可能となっていて、文字認識サービス14a、音
声認識サービス15a及び音声合成サービス16aのいずれか
らでも利用できるようになっている。また、ネットワー
ク上での分散オブジェクト、分散サービスのロケータで
ある分散アプリケーションレジストリ20aと、分散オブ
ジェクトレジストリ21aとが、ホスト20とホスト21によ
ってそれぞれ提供される。
【0053】次に、図12に示すシステムの動作について
説明する。 (1)オブジェクト、サービスの登録………ノード14〜19
がネットワーク10に接続されると、それぞれ分散アプリ
ケーションレジストリ20aと、分散オブジェクトレジス
トリ21aに対して登録が行われる。典型的なレジストリ
としては、前者ではJava(商標) RMI(Remote Method Inv
ocation) レジストリ、後者ではJini(商標) LookupやUP
nP(Universal Plug and Play) SSDP(Simple Service Di
scoveryProtocol)プロキシーなどがそれらにあたる。
【0054】(2)HMI処理の実行………ネットワーク10上
のあるアプリケーションノード(ノード11とする)がHMI
処理、例えば音声認識を行う場合、アプリケーションノ
ード11はネットワーク10上のアプリケーションサービス
15を分散アプリケーションレジストリ (20a)を参照する
ことによって発見し、使用開始手続きを行う。サービス
要求と共に符号化された音声情報のデータグラムを送
る。音声認識サービスノード15は、ここではサービスに
対してローカルに存在する音響的なマッチング処理を行
うと共に、ネットワーク10上に装備されている構文処理
オブジェクト18a及び、セマンティックス/プラグマティ
ック処理オブジェクト19aを起動して入力音声文章の認
識処理を行う。結果がサービスノード15からのレスポン
スとしてアプリケーションノード11側に送り返される。
音声コマンドの受理とそれを反映した内部処理、更に音
声による応答のシーケンスの決定などの最上位の処理は
ここではアプリケーションノード11側のヒューマンマシ
ンインタフェースコントロール11bの部分によって行わ
れる。
【0055】音声応答………音声の応答を行う場合に
は同様にネットワーク10上の分散アプリケーションサー
ビスである音声合成サービス16aに処理が依頼される。
ここでは、応答すべき音声の音響的な合成を行うと共
に、合成する文章の構文、意味、状況に応じた修飾を同
じくネットワーク10上に装備されている構文処理オブジ
ェクト18a及び、セマンティックス/プラグマティック処
理オブジェクト19aを起動して行うことで高品質の音声
応答を可能にする。
【0056】表示の生成………アプリケーションノー
ドにおけるグラフィックス/テキストディスプレイによ
るダイアログの生成においては、同様にネットワーク10
上の分散アプリケーションサービスであるディスプレイ
内容合成サービス17aに依頼することで、ローカルには
フォントやグラフィックパタンなどの大量のデータを固
定的にかつノード毎に重複して持つ必要が無い上に高品
質のディスプレイコンテンツを低いプロセッサ負荷で得
ることを可能にする。
【0057】その他の適用例………音声HMIのほか
に、カメラのイメージの照合やフォーカス調整など、文
字の認識サービスなどの性能の改善、コストの低減など
に適用可能である。
【0058】図12を参照した実施の形態においても、他
の実施の形態と同様に、機器の操作者とのインタフェー
ス機能を実現する手段としてヒューマンマシンインタフ
ェースの機能要素を、分散オブジェクトの形態でネット
ワーク上に配備し、例えば、音声認識処理と音声応答処
理において、それぞれに対応して設けられた音声認識サ
ービス15aと音声応答サービス16aとを用いて下位階層の
処理を行い、各処理に対して共通に設けられた構文処理
オブジェクト18a及びセマンティックス/プラグマティッ
ク処理オブジェクト19aを利用して上位階層のデータ処
理を行うようにすることで、各処理階層で必要なハード
ウェアや演算能力、情報等のリソースの共通化を図り、
また個々のノードを固有の処理に特化することによって
総コストの低減、高い性能の認識応答能力の提供を図る
ことができる。また、ネットワークに接続された機器す
べてにわたってヒューマンインタフェースの仕様の共通
化が容易となり、更に認識・応答に関する情報の一元化
によって適応結果が共通に反映される。それによってヒ
ューマンマシンインタフェース品質や品位が大幅に向上
し、製品の価値が高まるとともに利用者の負担が軽減さ
れる。
【0059】また、ネットワークに接続された機器すべ
てにわたって、ヒューマンインタフェースに関わるデー
タ及びプログラムの共通化が可能となるために、同デー
タ及びプログラムの更新、適応化を一元的に行うことが
でき、システムの構築、保守、拡張を容易に行うことが
できる。なお、ネットワーク上のヒューマンマシンイン
タフェース機能要素は、分散オブジェクトとして分散ア
プリケーションを構成し、分散アプリケーションは分散
アプリケーションレジストリによってアプリケーション
サービスとして登録され、アプリケーションノードによ
って参照される。
【0060】すなわち、本実施の形態によれば次のよう
な効果を得ることができる。ネットワークに接続され
たヒューマンインタフェース機能を必要とする機器の個
々のハードウェアコストを低減することが可能となる。
これは、個々の機器が類似の機能を独立に持つ必要がな
いためである。ネットワークに接続された機器のヒュ
ーマンインタフェース機能の性能の向上、機能の向上を
図ることができる。これは、機能の共通化によって、個
別に持つ場合に比べて機能あたりのリソースを大きくす
ることが可能であり、より高性能のハードウェア、ソフ
トウェアの実装を可能にするからである。ネットワー
クに接続された機器のヒューマンインタフェース機能の
構築、保守、拡張を一元的に実施することができるため
にそれらに要するコストを低減することができる。これ
は、ヒューマンインタフェースの性能、品質を向上させ
るのに欠かせない適応化の結果は一元化されており共通
に反映されるので個別に行うのに比べて適応効率がよく
また、それらを保守拡張する場合も1箇所に対して行え
ば良いからである。リソースの増強が漸進的にできか
つ過去に使用していたリソースも継続して使用すること
ができるために維持コストの低減とシステムのライフタ
イムの長期化を可能にする。これは、分散オブジェクト
アーキテクチャに基づいているので、必要とされる処理
負荷に応じてリソースを追加増強できるので過剰な初期
コストが発生せず、かつ漸次進歩して性能価格比の向上
するハードウェアの市場的利点を活用することができる
からである。
【0061】なお、本発明の実施の形態の応用例として
は、例えば、アプリケーションノードとして携帯端末、
PDA(Personal Digital Assistants)端末等の携帯形情報
機器を用い、ネットワークを無線ネットワークとし、そ
して、サービスノードとしてワークステーション、大型
計算機等を用い、アプリケーションノードをネットワー
クに対して動的に接続、切断できるようにするもの等が
考えられる。
【0062】同様な機能を有するシステムを従来の技術
によって構成しようとした場合、従来のスタンドアロン
型の構成においては、高性能のHMI機能を実現するため
に、各携帯端末に、高速のプロセッサ、高速のメモリ、
大容量のストレージデバイスが必要となり、コストの点
で折り合えない。また、携帯形の装置では電源容量の制
限が厳しく高性能のハードウェアを搭載できないし、電
力消費によって生じる熱を放出するため機構を搭載する
ことが難しい。また、大規模なハードウェアを搭載する
スペースの制限が厳しく、また携帯型機器機器毎にそれ
らの機構を個別に持った場合、情報の共通化が困難であ
る。特に学習など適応化を行う場合に顕著である。さら
に、機器毎に個別に持った場合、アップデート等の保守
を個別に行う必要ある。また、分散オブジェクトモデル
によらない従来のネットワークによるHMIプログラム実
行の際の問題点としては、ネットワーク構造やネットワ
ークプロトコルに対する依存性が強く(環境依存性が強
く)、民生機器としてシステムを維持管理することが難
しいという問題があり、また、様々の種類の機器がネッ
トワークに接続される可能性があり、それらを機能を維
持しつつシステムを拡張するのには複雑すぎて困難が多
く、HMI統合の効果が充分発揮できない(拡張性が低
い)という問題があった。さらに、表現メディア独立
(音、画像等の媒体独立)の言語処理が必要であったた
め、すなわち、従来は音声入力、音声出力、手書き文字
入力等の処理を独立に行っていたため、ネットワーク分
散による機能統合がそのままでは利点を発揮できないと
いう問題もあった。これに対して、本発明では、分散オ
ブジェクトモデルとしてシステムを構築しているので、
高性能のHMI機能を分散オブジェクトとすることで、携
帯端末に備える必要がなくなり、上記のような従来の問
題点を解決することができる。また、例えば、上記各実
施の形態で採用したように、各サービスを、メディア依
存のレイア(文字認識、音声認識、音声合成等の下位の
階層のレイア)とメディア独立のレイア(構文処理、セマ
ンティクス/プラグマティック処理等の上位の階層のレ
イア)に分け、別の機能単位によって実現されるサービ
スとすることで、異なるメディアにおいて機能を共通化
すること、及び辞書等の情報を共用することが可能とな
り、従来の問題点が解決される。
【0063】なお、本発明の実施の形態は上記のものに
限定されることはなく、適宜変更することが可能であ
る。例えば、各HMIサービスを提供する各サービスオブ
ジェクトにおいて、例えば認識処理時に、アプリケーシ
ョンノードとしての端末装置の操作者の識別情報を用い
て、操作者毎に認識処理に学習処理を行うようにし、同
一の操作者が異なる端末からアクセスしてきた場合に
も、過去の学習データを利用した認識処理を実行するこ
と等の構成の追加を行うことができる。また、本発明の
各ノードにおいて実行されるプログラムは、全体とし
て、あるいは所定の部分毎に計算機読取り可能な記録媒
体を用いて、あるいは通信回線を用いて、配布すること
が可能である。
【0064】
【発明の効果】本発明によれば、従来に比べ、容易に、
装置あたりのコストを低減したり、機能及び性能を引き
上げたり、ヒューマンマシンインタフェースの操作上の
情報を機器間で共通化して異なる機器であっても同一の
操作感が得られるようにしたり、システムの拡張を柔軟
に行うことができるようにしたり、あるいは、異なる表
現媒体のヒューマンマシンインタフェースの上位レベル
の情報の処理の共通化を図ることができる。
【図面の簡単な説明】
【図1】 本発明によるヒューマンマシンインタフェー
スシステムの一実施の形態を示すブロック図。
【図2】 図1のアプリケーションノードの構成例を示
すブロック図。
【図3】 図1のサービスノードの構成例を示すブロッ
ク図。
【図4】 図1に示すシステムのプログラミングモデル
の構成を示すブロック図である。
【図5】 図1のシステムの動作を説明するためのフロ
ーチャート。
【図6】 図1のシステムの動作を説明するためのフロ
ーチャート。
【図7】 図1のシステムの動作を説明するためのフロ
ーチャート。
【図8】 図1のシステムの動作を説明するためのフロ
ーチャート。
【図9】 本発明によるヒューマンマシンインタフェー
スシステムの他の実施の形態を示すブロック図。
【図10】 図9のシステムの動作を説明するためのフ
ローチャート。
【図11】 図9のシステムの動作を説明するためのフ
ローチャート。
【図12】 本発明によるヒューマンマシンインタフェ
ースシステムの他の実施の形態を示すブロック図。
【図13】 従来のヒューマンマシンインタフェースシ
ステムの構成例を示すブロック図。
【図14】 従来のヒューマンマシンインタフェースシ
ステムの他の構成例を示すブロック図。
【図15】 図14に示すシステムのプログラミングモデ
ルの構成を示すブロック図である。
【符号の説明】
10,100,1000 ローカルエリアネットワーク 11,12,13,101,102,103,105,1001,1002,1003,1005 アプ
リケーションノード 14,15,16,17,18,19,104,1004 サービスノード 106,107,1006,1007 複合ノード
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 13/00 357 G06F 13/00 357Z G10L 15/00 G10L 3/00 551A 15/28 551P 571A Fターム(参考) 5B045 GG01 GG07 5B089 GA11 GA23 GB03 HB10 JA11 JB05 KA10 KB03 KB09 KC13 LB08 LB13 5B098 AA10 GA01 GC16 5D015 KK00 KK04 LL07 5E501 AC34 BA20 CA08 CB15 DA14 EA21 EB05 FA32

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ヒューマンマシンインタフェースの機能
    を分散オブジェクトの形態で構成する各機能要素を、ネ
    ットワークのノード上に複数配備し、 各ノードが連携してデータ処理を行うことで、各ヒュー
    マンマシンインタフェースの機能を実現することを特徴
    とするヒューマンマシンインタフェースシステム。
  2. 【請求項2】 前記各ノードが、入出力部であるアプリ
    ケーションノードと、アプリケーションノードで入出力
    されるデータを処理するサービスノードと、両ノードの
    機能を備える複合ノードのいずれかであることを特徴と
    する請求項1記載のヒューマンマシンインタフェースシ
    ステム。
  3. 【請求項3】 前記サービスノード又は複合ノードとし
    て、表現媒体に依存するデータ処理を行う下位サービス
    ノード又は下位複合ノードと、表現媒体に依存しないデ
    ータ処理を行う上位サービスノード又は上位複合ノード
    とが存在し、上位サービスノード又は上位複合ノード
    が、複数の異なる表現媒体にそれぞれが依存する複数の
    下位サービスノード又は下位複合ノードによって共通に
    利用されることを特徴とする請求項2記載のヒューマン
    マシンインタフェースシステム。
  4. 【請求項4】 前記アプリケーションノード又は複合ノ
    ードから他の前記サービスノード又は複合ノードに対し
    てサービス開始要求と処理データとを送り、該他の前記
    サービスノード又は複合ノードにおいて該アプリケーシ
    ョンノード又は複合ノードにおける入力情報又は出力情
    報の作成処理を行うことを特徴とする請求項2又は3記
    載のヒューマンマシンインタフェースシステム。
  5. 【請求項5】 前記各ノードが、上位から下位に向け
    て、アプリケーションオブジェクト又はサービスオブジ
    ェクトと、分散オブジェクトの上位部分であるプロキシ
    ーと、分散オブジェクトの下位部分であるオブジェクト
    トランスポート機構及びリモートクラスリファレンス機
    構と、ネットワークトランスポート層と、ネットワーク
    インタフェース回路とからなるソフトウェア実行機構を
    有して構成されていることを特徴とする請求項1〜4の
    いずれか1項に記載のヒューマンマシンインタフェース
    システム。
  6. 【請求項6】 請求項1〜5のいずれか1項に記載のヒ
    ューマンマシンインタフェースシステムにおいて実行さ
    れるプログラムを記録した計算機読取り可能な記録媒
    体。
JP2000215062A 2000-07-14 2000-07-14 ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体 Pending JP2002032349A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000215062A JP2002032349A (ja) 2000-07-14 2000-07-14 ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体
US09/904,460 US20020010588A1 (en) 2000-07-14 2001-07-16 Human-machine interface system mediating human-computer interaction in communication of information on network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000215062A JP2002032349A (ja) 2000-07-14 2000-07-14 ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2002032349A true JP2002032349A (ja) 2002-01-31

Family

ID=18710548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000215062A Pending JP2002032349A (ja) 2000-07-14 2000-07-14 ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体

Country Status (2)

Country Link
US (1) US20020010588A1 (ja)
JP (1) JP2002032349A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4823306B2 (ja) * 2005-04-22 2011-11-24 エイ・ティ・アンド・ティ・コーポレーション VoIPネットワークにおけるメディアサーバリソースの管理

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050171780A1 (en) * 2004-02-03 2005-08-04 Microsoft Corporation Speech-related object model and interface in managed code system
FR2872939B1 (fr) * 2004-07-08 2006-09-29 K1 Sarl Procede ameliore de creation d'une interface homme-machine et plate-forme logicielle de creation d'une telle interface
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
WO2019077013A1 (en) 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623600A (en) * 1995-09-26 1997-04-22 Trend Micro, Incorporated Virus detection and removal apparatus for computer networks
US6385583B1 (en) * 1998-10-02 2002-05-07 Motorola, Inc. Markup language for interactive services and methods thereof
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6445776B1 (en) * 1998-12-31 2002-09-03 Nortel Networks Limited Abstract interface for media and telephony services
US6851115B1 (en) * 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4823306B2 (ja) * 2005-04-22 2011-11-24 エイ・ティ・アンド・ティ・コーポレーション VoIPネットワークにおけるメディアサーバリソースの管理

Also Published As

Publication number Publication date
US20020010588A1 (en) 2002-01-24

Similar Documents

Publication Publication Date Title
JP3943543B2 (ja) マルチモーダル環境における対話管理およびアービトレーションを提供するシステムおよび方法
US6212574B1 (en) User mode proxy of kernel mode operations in a computer operating system
US7216351B1 (en) Systems and methods for synchronizing multi-modal interactions
US6938087B1 (en) Distributed universal communication module for facilitating delivery of network services to one or more devices communicating over multiple transport facilities
US20020194388A1 (en) Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
JP2002540536A (ja) コンピュータシステム用分散型オブジェクト
JP2001290724A (ja) プラグアンドプレイ機能を有するフレームワークおよびその再構成方法
KR20030060884A (ko) 웹 운영체제 및 웹 데스크탑
JP2004046810A (ja) クライアント/サーバ環境におけるアプリケーションステップのディスパッチ方法及びサービスポータルシステム
JP2002207604A (ja) 通信ネットワークに接続されたデータ処理オブジェクトを遠隔より使用する方法および使用するための装置
JP2002032349A (ja) ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体
Apel et al. Towards the development of ubiquitous middleware product lines
US7668144B2 (en) Dynamically extensible communications device
Maes et al. Multi-modal interaction in the age of information appliances
CA2527447A1 (en) Message oriented construction of web services
US20080313309A1 (en) Client-server data transfer control
KR100663425B1 (ko) 다양한 망 관리 프로토콜을 위한 시스템 인터페이스 장치 및 방법
KR101855318B1 (ko) 적어도 하나의 네트워크-연계된 객체를, 적어도 부분적으로, 할당 및/또는 구성하는 것을, 적어도 부분적으로, 허용하는 적어도 하나의 메커니즘
KR100463823B1 (ko) 리거시 시스템 및 콘텐츠 프로바이더(cp) 연동용soap 기반 통신 게이트웨이 시스템 및 이를 이용한프로토콜 변환 방법
JP2003177882A (ja) 無線印刷インターフェース・キットおよび方法
JP2002007228A (ja) リバースプロキシーシステム
CN116684492A (zh) 数据传输方法、装置、相关设备及存储介质
Islam From smart to autonomous phones
CN118101744A (zh) 用于操作资源对象的方法及装置、电子设备
CN114124957A (zh) 一种应用于机器人的分布式节点互联方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050531