JPH04125266A

JPH04125266A - エレベータの情報入力装置

Info

Publication number: JPH04125266A
Application number: JP2243945A
Authority: JP
Inventors: Yutaka Nakajima; 豊中島
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-09-17
Filing date: 1990-09-17
Publication date: 1992-04-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の目的〕（産業上の利用分野）に関する。

（従来の技術）音声認識手段を有する従来のエレベータ装置について図
面を用いて説明する。第４図及び第５図にて図示したエ
レベータ装置の概要は、エレベータ利用者から発せられ
た音声を受けてこれを電気信号に変換して出力するマイ
クロホーン（以下「マイク」という）のごとき音声入力
手段と、マイクから出力された電気信号を入力してエレ
ベータ利用者が発した音声を認識し、これに基づいて必
要な信号処理を実施するマイクロコンピュータ等から成
る音声認識ユニットのごとき音声認識手段とから成って
いる。前記マイクは、例えばエレベータホールにあって
は第５図符号４にて示すように、エレベータドア１の脇
のホール呼びボタン３が配設されている位置の近傍に配
設されており、一方、前記音声認識ユニットは、第４図
にて図示するような各部を具備した構成となっている。

なお、第５図にて、符号２は、エレベータの昇降かどの
現在位置を表示する位置表示手段である。また音声が認
識できた場合ＯＫクランプ５Ａが点灯し、認識できなか
った場合リジェクトランプ１５Ｂが点灯する。

第４図において、Ａ／Ｄ変換部６は、マイク４から入力
されたエレベータ利用者が発した音声信号に対応する電
気信号（即ち、アナログ信号）を受けてこれを前記電気
信号に対応したディジタル信号に変換した後出力する。

バンドパスフィルタ部７、音声区間検出部８、サンプリ
ング部９等は、音声認識処理に必要な入力音声の周波数
分析を始めとする各種信号処理を行なうために設けられ
ている。即ち、バンドパスフィルタ部７には、ディジタ
ルシグナルプロセッサ（ｒＤｓＰＪと略記する）が使用
されている。

前記バンドパスフィルタ部７は、Ａ／Ｄ変換部６から出
力されたディジタル信号を受けて、高速フーリエ変換（
通常、ｒＦＦＴＪという）にて前記マイク４を通して入
力された音声信号の帯域制限をディジタル的に行ない、
サンプリング周波数１２ＫＨｚ、　１２ビツトのディジ
タル値を得るようになっている。更に前記バンドパスフ
ィルタ部７は、前記サンプリング周波数１２ＫＨｚ、１
２ビツトのディジタル値から音声信号の特徴のみを抽出
し、８履ｓｅｃ単位のスペクトル系列に変換して情報量
の圧縮を行なった後、出力する。バンドパスフィルタ部
７が上述したような信号処理を行なう理由としては、前
記サンプリング周波数１２　Ｋ　Ｈｚ、１２ビツトのデ
ィジタル値が音声信号に対して連続的な数値となってい
るためである。

音声区間検出部８は、前記バンドパスフィルタ部７から
の出力を受けて有効な音声信号の抽出を行なうとともに
、この抽出した音声信号に基づいて実際に音声認識すべ
き音声データをまとめるようになっている。サンプリン
グ部９は、前記音声区間検出部８から出力された実際に
音声認識すべき音声データを受けると、この音声データ
が辞書記憶部１０に格納されている音声認識に用いる辞
書パターンの音声区間長に適合するように正規化する。

前記音声データ即ちエレベータ利用者からの入力音声の
長さは、各々のエレベータ利用者毎に異なるからである
。前記サンプリング部９は、前記正規化により前記音声
データを２５６点のデータ（１６Ｘ］、６の三次元デー
タ）に変換した後出力する。

辞書記憶部１０には、２５６点の辞書パターン記憶（登
録）されている。前記辞書記憶部１０に記憶（登録）さ
れる単語数は例えば１６単語程度であり、認識区別しに
くい音声には数種類の単語が辞書に格納されている。例
えば、１階は「イツカイ」、「イチカイ」等、複数個の
辞書を持つようにすれば、音声認識率の向上を図ること
ができる。ＣＰＴＪ５はプログラム記憶部１２に格納さ
れている音声認識処理を行なうのに必要な処理手順が示
されているプログラムに基づき、サンプリング部９から
出力された前記２５６点のデータと、辞書記憶部１０に
記憶されている２５６点の辞書パターンとを比較して類
似度を演算する。ＣＰＵ５は、前記類似度演算の結果前
記辞書記憶部１０の中から最も類似度の高い辞書パター
ンを抽出し、この抽出した辞書パターンを音声認識の処
理結果として操作出力部１１に出力するようになってい
る。操作出力部１１は、ＣＰＵ５からの出力信号を受け
てこれをエレベータ制御部１３に出力する。エレベータ
制御部１３は、操作出力部１１を通してＣＰＵ５から出
力される信号を受けると、この信号に基づいてエレベー
タ装置の駆動を制御する。また認識結果は認識結果表示
部１４より表示部１５に送られ、ＯＫ、？の表現を行な
っている。

上述した構成のエレベータ装置には、不特定話者単語認
識と称される音声認識方法が用いられるのが一般的であ
り、この音声認識方法によれば、不特定話者即ち誰の音
声でも認識することが可能である。又、上記不特定話者
単語認識と称される方法においては、例えば、音声内容
が「ヒラケ」、「トジロ」、「ゴカイ」等の単語単位で
音声認識されるようになっている。

第６図は、上記第４図、第５図にて図示した構成のエレ
ベータ装置における音声認識の処理過程を示す音声波形
図である。第６図において、第６図（ａ）はマイク４か
ら入力された音声波形を示しており、この音声波形には
、前記ＣＰＵ５が上述したプロセスを経て音声認識すべ
き単語の他に様々な雑音が混入している。第６図（ｂ）
は、前記音声区間検出部８による音声認識に必要な単語
の区間の抽出の過程を図示している。音声区間検出部８
による上記信号処理が必要な理由は、上述したように、
第６図（ａ）にて示した音声波形に、音声認識すべき単
語の他に様々な雑音が混入しているためである。上記処
理においては、前記第６図（ａ）にて示した音声波形の
中から最も特徴のある振幅を持った音声が入力されたこ
とを検出することが条件となるので、大きな騒音がマイ
ク４から入力されたときには誤検知する可能性がある。

第６図（ｃ）は、前記バントパスフィルタ部７からの出
力結果を示しており、バンドパスフィルタ部７からは図
のごと〈１６チヤネルの周波数帯のデータが出力される
。

前記第４図にて図示した構成において、例えばエレベー
タ利用者がマイク４に向って「ゴカイ」と発音すると、
この「ゴカイ」に対応するアナログ電圧信号がＡ／Ｄ変
換器６を通してバンドパスフィルタ部７、音声区間検出
部８、サンプリング部９にて夫々既述のような信号処理
が施されてＣＰＵ５に出力される。ＣＰＵ５は、サンプ
リング部９を通して与えられた信号と辞書記憶部１０に
記憶されている辞書パターンとから所定の音声認識処理
動作を実行し、操作出力部１１を通してエレベータ制御
部１３に出力する。この操作出力部１１からの出力によ
ってエレベータ制御部１３はエレベータ装置を構成する
各部の制御を行なう。即ち、５階の呼び応答ランプを点
灯するとともに、エレベータかご駆動機構を制御してエ
レベータがごを５階へと移動するので、従来のようにエ
レベータ利用者が５階の呼びボタンを押した場合と全く
同様となる。

（発明が解決しようとする課題）上述した構成の音声認識機能を具備したエレベータ情報
入力装置においては呼びボタンを押さなくとも利用者の
声で操作ができるわけであるが、エレベータにおいての
音声指令は事務機器のように接話マイクを使用するわけ
ではなく多くの利用者の前で声を出さなければならない
ように周囲環境が異なる。

その結果、音声を発する場合には他の利用者を気にしな
がら行なうことになり、結果的に正常に認識されない場
合が多くなる。利用者はこのような環境で何度か声を発
しなけれるばならない状態が続くと、利用者に対して精
神的苦痛を与えることになる。

つまり、現在では音声による指令を受は付ける装置は一
般的でなく、かつ、エレベータのように公衆の前で行わ
なければならない装置はないので利用者が慣れていない
ために認識できない結果が生じるわけである。

またエレベータ情報入力装置では利用者の音声の処理結
果をｒＯＫＪ　、ｒ？Ｊなどにより結果表示するため、
利用者から見れば何が問題で認識されなかったのかわか
らないため不満が残る欠点があった。

これらの問題は特に音声認識機能を具備したエレベータ
情報入力装置を初めて使用する人にとっては重大であり
、初めて使用した時に悪い印象を持ってしまうとその人
は二度と本装置を使用しなくなってしまう恐れがあり、
本装置による使い勝手の向上が有効にならないことにな
ってしまう欠点になっていた。

さらに、従来のエレベータ情報入力装置は利用者の音声
がどのような標準パターンと類似しているかを判定して
いるので利用者に対して有効な発生方法を教示するのは
従来、何等考慮されていない。

本発明は上記欠点を解決するために音声認識処理におけ
る内部情報を利用者に報知し、利用者の音声指令が装置
内でどのように解釈されたかを明確にして音声の認識率
を向上させるエレベータの情報入力装置を提供するもの
である。

〔発明の構成〕

（課題を解決するための手段）上記目的を達成するために本発明ではマイクに入力され
た音を受けてこれを電気信号に変換して音声認識を実施
する過程において久方音声の大きさ、音声認識実行にお
ける類似度演算点数、また音声波形等の内で情報をとり
だす手段を備え、音声の認識処理と伴にこれら内部情報
を利用者に報知できる構成としている。

（作用）入力音声と標準パターン音声との類似度を比較部にて演
算し、この演算結果を、表示部に表示し、音声指令の演
算処理内容を利用客に報知する。

（実施例）以下、図面により本発明の一実施例について説明する。

第１図は本発明によるブロック図である。

従来構成の第４図と比較すると本装置の内部情報を格納
して利用者に報知するための記憶部である内部情報格納
部１６が追加されている。一般に音声認識処理はＤＳＰ
などの専用処理装置で分析しているが、その判定はＣＰ
Ｕ５にて実施しているのでこの内部情報格納部１６はＣ
ＰＵ５のレジスタとなる。

次に本発明により利用者に対する報知情報量を拡大する
と単にランプ表示では表現しきれないため報知に画像表
示部１５Ａが追加される。これは漢字表示を考えると３
２０　Ｘ　３２ドツト以上の画素数があれば充分な表現
ができる。またこの画像表示用に画像表示用の記憶部と
画像制御部を備えた認識結果表示部１４Ａを付加する必
要がある。

第２図は、本発明の一実施例に従うエレベータ装置が用
いられているエレベータホールの外観図である。本実施
例に従うエレベータ装置は、エレベータ利用者から発せ
られた音声によりエレベータ利用者の行き先階を登録す
るようになっているものである。第２図において、前記
第５図と同一物には同一符号を付す。なお、符号３Ａは
、行先呼応答ランプであり、音声認識の結果たる階数（
１〜５）が点灯表示されるように構成されている。

第２図にて図示した構成によれば、エレベータ利用者が
エレベータかとに乗る前にマイク４を通して行先階を入
力することによって自動的に呼びが登録されるようにな
っているので、エレベータかご内では呼び登録する必要
がない。

第７図は、本発明の一実施例に従うエレベータ装置の構
成を示すブロック図である。第７図において、前記第４
図と同一物には同一符号を付す。

本実施例は利用者からの音声指令が基準値を超える類似
度を得ることができなかった場合にその最も類似度の高
い単語とその得点を表示して利用者に報知するものであ
り、前述の如くエレベータホールからの行先呼に限った
場合を図示した。従って内部情報格納部１６Ａの構成は
音声認識結果の第一候補単語を示すレジスタとその演算
結果の得点を示す類似度得点レジスタの２つのレジスタ
になっている。

類似度の判定は３次元の２つの波形を比較するため各種
の方法が採用されているが、一般的には各ポイントにお
ける波形の差分を２乗して加えた値になっており、単純
に１００点などの判定はできないが、相対的な数値とし
て１００点表現することは容易である。ただし、この場
合全く異った音声でも数１０点の表示をしてしまうが実
用上問題はない。

次に報知内容は第８図に示すように文字による表現を行
なう。この場合２０文字×２行程度の表示容量が必要で
ある。漢字１文字を１６　Ｘ　１６ドツトで表現すると
すれば３２０　Ｘ　３２ドツトの画像表示部１５が必要
であり、認識結果表示部１４もその表示に必要な画像記
憶部（１，５にバイト程度）を有する。

一般に画像表示はパーソナルコンピュータに代表される
ように汎用的に使用されているのでここでは詳細は略す
。

次に上記構成の制御動作を、主に第３図にて図示するフ
ローチャートを併用しながら説明する。

音声区間検出部８において、バンドパスフィルタ部７か
ら出方された信号中から有効な音声の抽出が行なわれ、
この抽出された音声がサンプリング部９を通して与えら
れることによって、ＣＰＵ５は、マイク４を通してエレ
ベータ利用者から音声が入力されたものと認識する（ス
テップ１ｏ１）。

ステップ１０１において、エレベータ利用者から音声が
入力されたことを認識すると、通常行なわれているのと
同様な音声認識処理を実行しくステップ１０２）　、ス
テップ１０２にて行なわれた音声認識処理結果の類似度
演算を行なう。即ち、サンプリング部９から与えられた
２５６点の音声データと辞書記憶部１０内に記憶されて
いる２５６パターンとを比較して類似度を演算し、類似
度が第１位〜第３位程度の認識単語と類似度結果とを８
力する（ステップ１０３）。

ステップ１０４ではステップ１０３で実施された各候補
の単語のうち第１位の単語が８０％を超える類似度を示
した場合にその単語を認識結果と判定する。

この決定方法は構成によって異なるが、類似度の判定基
準を高くすると、正常認識と判定される率が低くなるた
め正確に発音しないと認識できなくなる。

一般にエレベータが使用される環境は周囲の暗騒音は定
常的に低いが利用客のざわめきや廊下を歩く靴音などの
非定常的な騒音が発生するため類似度は８０％程度が好
ましい。ここでの８０％は同時に類似度８０点と表現で
きる。ここで類似度が基準値以上であれば通常の認識動
作であるステップ１０５以降の処理を行ない、類似度が
基準値以下であれば本発明による内部情報の表示である
ステップ１０８以降の処理を行なう。

ここではまず正常処理について説明する。ステップ１０
５では類似度の高い第一候補の呼びを示す単語にカイ、
サンカイなど）を選び出しステップ１０６でその単語を
呼びデータの形に変換する。

呼びデータは一般的に１バイトのデータ構造の内に１ビ
ツト毎に意味を持つ形であるので階床を１ビツトのデー
タに変換する処理となっている。

ステップ１０７は第８図（ｂ）に示すように認識結果を
文字表現する処理を行なっている。本図ではパニカイ”
の単語を認識して呼びを登録したことを示している。

次に本発明であるステップ１０８以降を説明する。

ステップ１０８は先に音声認識処理過程の説明時に示し
た類似度演算過程において計算された各候補の単語のう
ち最も類似度の高い第一候補単語を抽出することを示し
ている。音声認識は久方音声と辞書に格納されたすべて
の単語の類似度を演算しているのでこの結果を検索する
ことにより容易に実施できる。

ステップ１０９は同様に利用客に報知できる形に類似度
を変換する処理を示している。通常このような報知は詳
細表現しても意味がないので数値の丸め処理になってい
る。本例では１ケタ目の数値を四捨五入している。

従って類似度４５％では表示は５０点となる。

ステップ１１０では以上の結果を文字情報に変換して認
識結果表示部１４へ書き込むことを示している。表示例
として第８図（ｃ）を示す。

また第８図（ａ）は音声入力待ち状態の表示である。

本実施例によれば音声指令の類似度が低い時でも単に？
”を表現して再発声を要求するのではなく最も近い辞書
記憶部の階番号とその得点を表示するので利用者は再発
声する時に注意して指令することができる。

つまり゛′ニカイ″と発声したのに結果が３階。

５０点のように発声した内容と異なる結果が得られた時
は周囲の騒音や発声する前に余分な音を出した（例えば
″え〜っと２階”）ことが考えられる。

特に何人かの人が集まって本装置を使用している場合な
ど多く発声するため、利用者は次には気をつけて発声で
きる。また同様にして結果が２階。

５０点のように発声した内容とは一致しているが得点が
低い場合には声が小さい、マイクとの距離が長いなど主
として音声のレベルが低い場合に生じるため利用者は次
には発声位置、量に注意できる。

このように本実施例では類似度の演算結果の報知により
、利用者が発声方法について学習する効果がある。

一般にエレベータは不特定多数の人が利用するので各利
用者すべての音声を認識することは困難であるが、本実
施例では点数表示といった形で利用者が興味を持ってエ
レベータを利用できる効果がある。

上述の実施例では音声認識の結果類似度が基準値を超え
なかった場合に第一候補階床と類似度得点を報知する場
合を示したが、類似度が基準値以上であっても得点表示
してもよい。

また、この類似度の表現は数値に限らずパーセントを示
す円グラフや棒グラフなどの図形表示も容易に実施可能
である。

この−例を第９図に示す。これは画像表示可能な高解像
画面（例えば液晶など）上に類似度を円グラフ表現して
いる。この結果利用者は直感的に結果を判断することが
できる。

また別の表現として音声波形を上記画面上に表示して同
時に辞書に格納済の音声波形を表示すれば、波形の違い
により騒音の影響を知ることができる。

また入力音声の大きさを棒グラフによりレベルメータ表
示するだけでも利用者は発声した音声の量を知ることが
でき、声が小さいなどの問題点発見ができる。この例を
第１０図に示す。

また以上表示による報知について説明したが音声により
結果表示してもよい。

〔発明の効果〕

本発明によれば音声認識処理内容を簡素化して利用者に
報知するので音声指令に対して意図しなかった結果が得
られてもその原因を推測して発声方法や操作位置を見直
すことができるので、その結果認識率が向上するだけで
なく、楽しんで利用することができるので利用者とエレ
ベータの信頼感の向上も行なえる。

一方エレベータホールは建物の通路であり長時間マイク
の前に立つことは通行のさまたげとなるが認識率の向上
によってその時間を短くすることができ、全体的なサー
ビス向上の効果もある。

また音声認識技術は現在では完全な不特定話者の認識は
困難とされ、認識できない話者の存在があるが本発明に
よれば利用者の学習効果により、エレベータ利用者すべ
ての音声を認識できるようになる利点もある。

【図面の簡単な説明】

第１図は本発明によるエレベータ情報入力装置の構成を
示すブロック図、第２図は本発明の一実施例に従うエレ
ベータ装置が用いられているエレベータホールの外観図
、第３図は第１図にて示した構成の制御動作を示すフロ
ーチャート、第４図は従来技術に従うエレベータ装置の
構成を示すブロック図、第５図は従来技術に従うエレベ
ータ装置が用いられているエレベータホールの外観図、
第６図は音声認識機能を具備した一般的なエレベータ装
置の音声認識処理過程における音声波形図、第７図は本
発明の一実施例に従うエレベータ装置と同様の表示例を
示す図である。５・・・ＣＰＵ　　　　　　６・・・Ａ／Ｄ変換部７・
・・バンドパスフィルタ部８・・・音声区間検出部　９・・・サンプリング部１０
・・・辞書記憶部　　　１１・・・操作出力部１２・・
・プログラム記憶部１３・・・エレベータ制御部　１４・・・認識結果表示
部１５Ａ・・・画像表示部　　１６・・・内部情報格納
部代理人　弁理士　則　近　憲　佑ＳＡ第図第図第図第図／Ｓ第図第図（ｂ）第図ＨＨＪ６問シｌシー（昭５辷＝（Ｃ）第図

Claims

【特許請求の範囲】

エレベータのかご及びホールで利用客の音声による指令
を認識して操作を行なうエレベータにおいて入力音声と
標準パターン音声の比較部と前記比較結果の類似度を演
算する手段と文字図形データの表示部と前記類似度演算
結果を出力する手段を備え音声指令の演算処理内容を利
用客に報知することを特徴とするエレベータの情報入力
装置。