JP2020066472A

JP2020066472A - エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Info

Publication number: JP2020066472A
Application number: JP2018197920A
Authority: JP
Inventors: イェンスデーンホフ; Doenhoff Jens; 剛志柴田; Tsuyoshi Shibata
Original assignee: Hitachi Building Systems Co Ltd
Current assignee: Hitachi Building Systems Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-04-30

Abstract

【課題】ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。【解決手段】エレベーターが有する通信装置は、乗りかごが有するスピーカ及びマイクロフォンと、監視センタが接続されているＩＰネットワークとに接続されている。通信装置は、乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。乗りかご内の緊急ボタンが使用されることで開始された緊急通信において、通信装置が、該当の一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、マイクロフォンを介して入力された音声の音声認識を行う。【選択図】図１

Description

本発明は、概して、エレベーター用の緊急通信の支援に関する。

エレベーターに関して緊急事態が生じた場合には、乗りかごの内の乗客は、遠隔のセンタと緊急通信を行うこと、具体的には、例えば、乗りかご内の緊急ボタンを押して、遠隔のセンタにいるオペレータと通話を行うことができる。このような緊急通話には、ＶｏＩＰ（Voice-over-IP（Internet Protocol））が利用される。

しかし、呼びが成功するか否か、及び、乗客とオペレータ間で互いに理解可能な通話が行えるか否かは、ＩＰネットワークの通信品質に依存する。ＩＰネットワークの通信品質は、一定ではない。

そこで、特許文献１に開示の技術、すなわち、ＶｏＩＰ技術と音声認識技術の両方を使用する技術が知られている。具体的には、例えば、特許文献１に開示の技術は、音声通信中にペイロードチャネルのサービス品質が所定の閾値を下回る場合、送信側の音声通話をテキストへ変換し、通信チャネルを介して、当該テキストを受信側へ送信する。テキストは、受信側で、音声に変換される。

WO2015/030769

エレベーター用の緊急通信にはＶｏＩＰが利用されるので、ＩＰネットワークの品質に関わらず当該緊急通信を維持するためには、特許文献１のように送信側で音声認識を行う（音声をテキストに変換する）こと、つまり、エレベーター側で音声認識を行うことが好ましい。

しかし、単純に音声認識技術をエレベーター用の緊急通信のためにエレベーター側に適用することはできない。例えば、発話がされる環境に依存しない音声認識を採用することが考えられる。しかし、そのような音声認識には、通常、高性能且つ大量のハードウェア計算資源（例えば、ＣＰＵ性能及び記憶容量）が必要とされる。エレベーターの設置スペース又はその他の理由から、エレベーター側で資源が制限されることがある。このため、資源不足から音声通話での連絡ミス等が生じ易いと考えられる。音声通話での連絡ミス等が生じ易い状況は、エレベーター用の緊急通信には好ましくない。

エレベーターが有する通信装置は、乗りかごが有するスピーカ及びマイクロフォンと、監視センタが接続されているＩＰネットワークとに接続されている。通信装置は、乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値である。乗りかご内の緊急ボタンが使用されることで開始された緊急通信において、通信装置が、一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、乗りかごのマイクロフォンを介して入力された音声の音声認識を行う。通信装置は、当該音声認識により得られたテキストメッセージを含む送信メッセージを、ＩＰネットワークを介して監視センタへ送信する。

ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。

実施例１に係るシステム全体の構成図。エレベーター側の演算装置のハードウェア構成図。実施例１に係るエレベーター側処理の概要図。エレベーター側処理全体の流れを示すフローチャート。状態認識（Ｓ４１０）の流れを示すフローチャート。モデル選択（Ｓ４２０）の流れを示すフローチャート。ボタンマッピング選択（Ｓ４３０）の流れを示すフローチャート。音声認識（Ｓ４４０）の流れを示すフローチャート。ボタンマッピング提示（Ｓ４５５）の流れを示すフローチャート。音声選択（Ｓ４７５）の流れを示すフローチャート。発音モデル選択テーブルの構成図。音響モデル選択テーブルの構成図。言語モデル選択テーブルの構成図。モデル参照テーブルの構成図。固定メッセージテーブルの構成図。メイントピックの階層構造を示す図。メイントピック遷移テーブルの構成図。現在状態テーブルの構成図の一例。ボタンメッセージマッピングテーブルの構成図。過去送信メッセージテーブルの構成図。認識エラー閾値の一例を示す図。オーバーライドメッセージの構成図。オーバーライドモデル取得（Ｓ６２５）の流れを示すフローチャート。オーバーライドボタンマッピング取得（Ｓ７３０）の流れを示すフローチャート。送信メッセージの構成図。実施例２に係るエレベーター側処理の概要図。実施例３に係るエレベーター側処理の概要図。実施例４に係るエレベーター側処理の概要図。

以下の説明では、「インターフェースデバイスユニット」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちのいずれでもよい。
・Ｉ／Ｏ（Input/Output）デバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するＩ／Ｏインターフェースデバイス。表示用計算機に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイスであってもよい。

また、以下の説明では、「メモリユニット」は、一つ以上のメモリであり、典型的には主記憶デバイスでよい。メモリユニットにおける少なくとも一つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。

また、以下の説明では、「ＰＤＥＶユニット」は、一つ以上のＰＤＥＶであり、典型的には補助記憶デバイスでよい。「ＰＤＥＶ」は、物理的な記憶デバイス（Physical storage DEVice）を意味し、典型的には、不揮発性の記憶デバイス、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）である。

また、以下の説明では、「記憶ユニット」は、メモリユニットとＰＤＥＶユニットの少なくとも一部（典型的には少なくともメモリユニットの少なくとも一部）である。

また、以下の説明では、「プロセッサユニット」は、一つ以上のプロセッサである。少なくとも一つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサでもよい。少なくとも一つのプロセッサは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサでもよい。

また、以下の説明では、「ｘｘｘテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。

また、以下の説明では、「ｋｋｋ部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサユニットによって実行されることで実現されてもよいし、一つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されてもよい。プログラムがプロセッサユニットによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶ユニット及び／又はインターフェースユニット等を用いながら行われるため、機能はプロセッサユニットの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサユニットあるいはそのプロセッサユニットを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

図１は、実施例１に係るシステム全体の構成図である。

当該システムは、エレベーター１０１と遠隔のコールセンタ１６０とに大別される。エレベーター１０１とコールセンタ１６０はＩＰネットワーク１５０（例えばインターネット）を介して接続されている。

エレベーター１０１の乗りかご１１０に、制御パネル１１５、緊急ボタン１１１、センサ群１１２（一つ以上のセンサ）、スピーカ１１３及びマイクロフォン１１４が設けられている。スピーカ１１３及びマイクロフォン１１４にインターフォン１２１が接続されている。制御パネル１１５、緊急ボタン１１１、一つ以上のセンサ１１０、インターフォン１２１、及びＩＰネットワーク１５０に、通信装置１３０が接続されている。通信装置１３０を介して、コールセンタ１６０との間で通信が行われる。

制御パネル１１５は、複数のボタンを有する。複数のボタンは、例えば、乗りかご１１０が停止し得る複数の行き先階にそれぞれ対応した複数の行き先階ボタン、及び、ドアの開閉を指定するボタンを含む。制御パネル１１５における各ボタンは、機械式ボタンでもよいし、タッチパネル上に実現されるタッチボタンでもよい。

緊急ボタン１１１は、緊急事態等の場合に乗客によりコールセンタ１６０と音声通話するために押されるボタンである。緊急ボタン１１１は、典型的には機械式ボタンであるが、タッチパネル上に実現されるタッチボタンでもよい。また、緊急ボタン１１１は、制御パネル１１５に含まれてもよいが、本実施例では、説明の理解を助けるために、緊急ボタン１１１は、制御パネル１１５とは別のコンポーネントである。

センサ群１１２は、例えば、乗りかご１１０内を撮影するカメラや、乗りかご１１０内の重量（積載量）を計測する重量センサを含んでよい。また、マイクロフォン１１４が一つのセンサとして使用されてもよい。

インターフォン１２１は、スピーカ１１３及びマイクロフォン１１４を介して乗りかご１１０内の乗客がコールセンタ１６０内のオペレータと通話を行うことを可能にする。

通信装置１３０は、音声認識モデルデータベース１３２を格納し、ＶｏＩＰ制御部１３１と、音声認識部１３３とを備える。音声認識モデルデータベース１３２は、複数の音声認識モデルを含む。ＶｏＩＰ制御部１３１は、ＶｏＩＰに従う通信を制御する。音声認識部１３３は、音声認識を行う。

コールセンタ１６０は、通信装置１７０、インターフォン１８０、スピーカ１６４、マイクロフォン１６５、ディスプレイ１６６、及びキーボード（更に例えばポインティングデバイス）１６７を備える。通信装置１７０に、インターフォン１８０、ディスプレイ１６６、キーボード１６７及びＩＰネットワーク１５０が接続される。

通信装置１７０は、音声認識モデルデータベース１７２を格納し、ＶｏＩＰ制御部１７１及び音声認識部１７３を備える。音声認識モデルデータベース１７２は、複数の音声認識モデルを含む。ＶｏＩＰ制御部１７１は、ＶｏＩＰに従う通信を制御する。音声認識部１７３は、音声認識を行う。

インターフォン１８０は、スピーカ１６４及びマイクロフォン１６５を介してオペレータが乗りかご１１０内の乗客と通話を行うことを可能にする。

ディスプレイ１６６及びキーボード１６７は、例えば、テキスト入力や視覚化出力を可能にするために通信装置１７０に接続される。

図１に例示の構成によれば、乗りかご１１０内の乗客とコールセンタ１６０内のオペレータが、ＩＰネットワーク１５０を介してＶｏＩＰによって通話をすることが可能である。具体的には、例えば、乗客が発した言葉は、マイクロフォン１１４を介してアナログ音声としてインターフォン１２１に送られる。インターフォン１２１により、当該アナログ音声はデジタル音声に変換され、当該デジタル音声が通信装置１３０に送られる。ＶｏＩＰ制御部１３１は、コールセンタ１６０の通信装置１７０内のＶｏＩＰ制御部１７１とＶｏＩＰ接続を開始する。当該デジタル音声が、ＶｏＩＰ制御部１３１からＶｏＩＰ制御部１７１を介してインターフォン１８０に送られる。インターフォン１８０が、当該デジタル音声をアナログ音声に変換する。アナログ音声がスピーカ１６４から出力される。同様の流れで、コールセンタ１６０内のオペレータが発した言葉は、マイクロフォン１６５、インターフォン１８０、ＶｏＩＰ制御部１７１、ＶｏＩＰ制御部１３１及びインターフォン１２１を介して、スピーカ１１３から出力される。

なお、アナログ音声からデジタル音声への変換は、インターフォン１２１（又は１８０）に代えて通信装置１３０（又は１７０）が行ってもよい。

また、ＶｏＩＰ通信が可能な程にＩＰネットワーク１５０の通信品質が良好でない場合、音声認識部１３３が、デジタル音声をテキストに変換する音声認識を行う。この場合、音声に代えてテキストのメッセージが、ＩＰネットワーク１５０を介してコールセンタ１６０に送信される。コールセンタ１６０において、当該メッセージが、例えばディスプレイ１６６に表示される。

コールセンタ１６０は、エレベーター１０１に物理的に近接していてもよい。例えば、エレベーター１０１とコールセンタ１６０は、同じ建物（例えば商業ビル）内に配置されてもよい。また、コールセンタ１６０は、スピーカ１６４及びマイクロフォン１６５を含む電話機と、ディスプレイ１６６及びキーボード１６７及び通信装置１７０を備えた計算機とを含む小さな部屋などであってもよい。

図２は、通信装置１３０のハードウェア構成図である。

通信装置１３０は、ＮＩＣ（Network Interface Card）２４０、一つ以上のＩ／Ｏインターフェースデバイス２６０、プライマリメモリ２２０、セカンダリメモリ２３０及びそれらにバス２１０を介して接続されたＣＰＵ２１５を備える。ＮＩＣ２４０が、一つ以上の通信インターフェースデバイスの一例である。ＮＩＣ２４０及び一つ以上のＩ／Ｏインターフェースデバイス２６０が、インターフェースデバイスユニットの一例である。プライマリメモリ２２０及びセカンダリメモリ２３０が記憶ユニットの一例である。プライマリメモリ２２０が、メモリユニットの一例である。セカンダリメモリ２３０が、メモリユニット及びＰＤＥＶユニットの少なくとも一つの一例である。ＣＰＵ２１５が、プロセッサユニットの一例である。

プライマリメモリ２２０は、揮発性であるが、セカンダリメモリ２３０は不揮発性である。このため、セカンダリメモリ２３０に格納されたデータ又はプログラムは、電断後も利用可能である。

図２に例示のハードウェア資源を基に、ＶｏＩＰ制御部１３１及び音声認識部１３３が実現される。また、音声認識モデルデータベース１３２がセカンダリメモリ２３０に格納される。

通信装置１７０のハードウェア構成も、図２に例示のハードウェア構成と同様でよい。但し、本実施例では、エレベーター１０１内の通信装置１３０のハードウェア資源の性能及び量は、コールセンタ１６０内の通信装置１７０のハードウェア資源の性能及び量よりも小さくてよい。このため、例えば、本実施例では、通信装置１３０は、「埋込み型マイクロコンピュータ」と呼ばれる装置でよく、一方、通信装置１７０は、「デスクトップコンピュータ」又は「サーバ」と呼ばれる装置であってもよい。

図３は、実施例１に係るエレベーター側処理の概要図である。

本実施例の概要の一例は、以下の通りである。

乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境（発話がされる環境に相当）を定義する一つ又は複数の属性値群に基づき一つ又は複数の音声認識モデル（及びそれらに関連する一つ又は複数のパラメータ値群）が用意される。一つ又は複数のパラメータ値群の各々は、一つ以上のパラメータ値である。一つ又は複数の属性値群の各々は、属性値群は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。全ての属性値群について採用されている属性項目は同じとは限られないでよい。属性項目としては、例えば、かごサイズ（乗りかご１１０のサイズ）、エレベーターモデル（エレベーター１０１のモデル）、メイン素材（乗りかご１１０に使用されているメインの素材）、ノイズ環境（乗りかご１１０内又はその周囲のノイズ環境）、人数（乗客数）、乗りかご１１０の積載量、言語（主に使用される言語（例えば方言を含んでよい））、性別（話者の性別）、及び、メイントピック（発話の主な内容）といった項目を採用することができる。音声認識部１３３は、現在の乗りかご環境に適した一つ以上の音声認識モデルを複数の音声認識モデルから選択し、選択した一つ以上の音声認識モデルを用いて音声認識を行う。「現在の乗りかご環境」は、かごサイズのような静的な属性値（不変の属性値）に代えて又は加えて、人数のような変わり得る動的な属性値に依存する。動的な属性値は、センサ群１１２により得られた情報（例えば数値又は画像）と、緊急ボタン１１１の押下により開始された緊急通信において過去に送信された送信メッセージとのうちの少なくとも一部に基づき決定される。これにより、ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。「音声認識モデル」としては、入力を基に出力を行う様々なモデル（例えば何らかの学習済みモデル）を採用し得る。例えば、少なくとも一つの音声認識モデルは、ＡＲＩＭＡモデルでもよいし、ニューラルネットワークでもよい。

また、本実施例では、音声認識部１３３は、少なくとも一つの音声認識モデルを、現在の乗りかご環境に加えて、遠隔のオペレータ３７０から入力された情報にも基づいて、選択する。つまり、少なくとも一つの音声認識モデルの選択に、オペレータ３７０の知識又は経験が利用される。これにより、選択された音声認識モデルがより適切であることが期待され、結果として、より高い音声認識精度が期待される。

また、本実施例では、予め複数のテキストメッセージ（例えば、制御パネル１１５が有するボタンよりも多くのテキストメッセージ）が用意される。音声認識精度が十分ではない場合（例えば、閾値未満である場合、或いは、音声認識精度が十分ではないことをオペレータ３７０又は乗客から入力された場合）、又は、音声認識精度が十分であるか否かに関わらずに、音声認識部１３３は、現在の乗りかご環境に基づいて、複数のテキストメッセージから一つ以上のテキストメッセージ（例えば、テキストメッセージがマッピングされることが許されているボタン（以下、マップエーブルボタン）の数と同数のテキストメッセージ）を選択する。音声認識部１３３は、選択されたテキストメッセージを、それぞれ、制御パネル１１５が有するマップエーブルボタンにマップする。音声認識部１３３は、テキストメッセージとマップエーブルボタンの関係を、例えば聴覚的に（又は視覚的に）乗客に提示する。乗客は、最適なテキストフレーズに対応したマップエーブルボタンを押下する。音声認識部１３３は、押下されたマップエーブルボタンにマッピングされているテキストメッセージを、ＩＰネットワーク１５０を介して送信する。これにより、音声認識精度が不十分だとしても、オペレータ３７０に正確に伝達をすることができる。なお、マップエーブルボタンは、例えば、行き先階ボタンでよい。

また、本実施例では、音声認識部１３３は、少なくとも一つのテキストメッセージを、現在の乗りかご環境に加えて、遠隔のオペレータ３７０から入力された情報にも基づいて、選択する。つまり、少なくとも一つのテキストメッセージの選択に、オペレータ３７０の知識又は経験が利用される。これにより、選択されたテキストメッセージがより適切であることが期待され、結果として、より正確な伝達が期待される。

また、本実施例では、音声認識モデルとして、３種類のモデル、具体的には、発音に関わる音声認識モデルである発音モデル、音響に関わる音声認識モデルである音響モデル、及び、言語に関わる音声認識モデルである言語モデルがある。発音、音響及び言語といった３種類の各々について、一つ又は複数の音声認識モデルがある。本実施例では、３種類の各々について、一つ以上の音声認識モデル（及びそれに関連したパラメータ値群）が選択される。発音モデル、音響モデル及び言語モデルのうちの少なくとも一つに代えて又は加えて、別種のモデルが音声認識モデルとして採用されてもよい。音声認識モデルが複数のサブモデルへ分割された場合、各サブモデルも、音声認識モデルでよい。

以下、本実施例を詳細に説明する。なお、以下、説明の混同を避けるために、音声認識により得られたテキストメッセージを、「音声テキストメッセージ」と言い、予め用意されているテキストメッセージを、「固定テキストメッセージ」と言うことがある。

本実施例では、処理は、準備処理３１０、選択処理３３０及び伝達処理３６０という３つの処理に大別することができる。

準備処理３１０では、音声認識モデルデータベース１３２及び固定メッセージデータベース３１２が用意される。音声認識モデルデータベース１３２及び固定メッセージデータベース３１２は、例えばセカンダリメモリ２３０に格納される。固定メッセージデータベース３１２は、複数の固定テキストメッセージを含む。音声認識モデルデータベース１３２の詳細の一例は、図１１〜図１３に示す通りである。固定メッセージデータベース３１２の詳細の一例は、図１５に示す通りである。

選択処理３３０では、現在状態３３３（現在の乗りかご環境）を認識する状態認識３３２が定期的に行われる。具体的には、例えば、現在状態３３３は、現在の乗りかご環境を定義する一つ以上の静的な属性値（例えば、乗りかご１１０のサイズ）の他に、現在の乗りかご環境を定義する一つ以上の動的な属性値（例えば、人数）を含む。緊急通信中に（例えば、緊急ボタン１１１が押下されて通信装置１３０及び１７０間のコネクションが確立されている間）、音声認識部１３３は、センサ群１１２からの情報と、過去メッセージ群３５０（この緊急通信中に先に送信された一つ以上のテキストメッセージ）とのうちの少なくとも一部を基に、状態認識３３２を行う。現在状態３３３及び過去メッセージ群３５０は、例えばプライマリメモリ２２０に格納される。現在状態３３３の詳細の一例は、図１８に示す通りである。例えば、センサの一つであるカメラからの画像を基に人数が識別され、当該識別された人数を基に状態認識３３２が行われる。

選択処理３３０では、音声認識部１３３が、現在状態３３３を基に（例えば、更に、オペレータ３７０から入力された情報を基に）、音声認識モデルデータベース１３２から一つ以上の音声認識モデルを選択するモデル選択３３４を行う。選択された一つ以上の音声認識モデル（及び当該一つ以上の音声認識モデルを用いた音声認識で使用される一つ以上のパラメータ）は、選択モデル群３３５として格納される（例えばプライマリメモリ２２０に格納される）。

また、選択処理３３０では、音声認識精度が十分ではない場合、又は、音声認識精度が十分であるか否かに関わらずに、音声認識部１３３が、現在状態３３３を基に（例えば、更に、オペレータ３７０から入力された情報を基に）、固定メッセージデータベース３１２から一つ以上の固定テキストメッセージを選択するメッセージ選択３４０を行う。メッセージ選択３４０では、更に、制御パネル１１５が有するマップエーブルボタンに選択された固定テキストメッセージがそれぞれマップされる。選択された一つ以上の固定テキストメッセージとマップエーブルボタンとの対応関係は、例えば、選択メッセージ群３４１として格納される（例えばプライマリメモリ２２０に格納される）選択された固定テキストメッセージの数がマップエーブルボタンの数よりも多い場合、メッセージ選択３４０では、固定テキストメッセージの絞り込みが行われてよい。

伝達処理３６０では、音声認識部１３３が、話者からマイクロフォン１１４を介して入力された音声を選択モデル群３３５を基に音声テキストメッセージに変換する音声認識３６２を行う。音声テキストメッセージを含む送信メッセージ３６３が格納される（例えばプライマリメモリ２２０に格納される）。

また、伝達処理３６０では、音声認識部１３３が、制御パネル１１５が有するマップエーブルボタンが押下された場合、当該マップエーブルボタンにマップされている固定テキストメッセージを選択メッセージ群３４１から取得するボタン選択３８１を行う。押下されたボタンにマップされている固定テキストメッセージを含んだ送信メッセージ３６３（例えば、図２５に例示のフォーマットを有するメッセージ）が格納される。

伝達処理３６０において、送信メッセージ３６３は、コールセンタ１６０への送信対象である。音声認識部１３３は、送信メッセージ３６３を、ＩＰネットワーク１５０を介して、コールセンタ１６０に送信する。送信メッセージ３６３のフォーマットは、例えば図２５に例示の通りである。コールセンタ１６０に送信された送信メッセージ３６３の全部又は一部（例えばテキストメッセージ）が、音声認識部１３３により過去メッセージ群３５０に含められる。

送信された送信メッセージに対して、通信装置１３０は、コールセンタ１６０から、例えば次のようにして応答を受け付けてよい。すなわち、受信され送信メッセージ３６３内のテキストメッセージが、通信装置１７０により、ディスプレイ１６６に表示される、又は、インターフォン１８０を介してスピーカ１６４から出力される。オペレータ３７０が、マイクロフォン１６５又はキーボード１６７を介して情報を入力する。入力された情報が示す音声又はテキストメッセージを、通信装置１７０から通信装置１３０が受ける。通信装置１３０が、受けた音声（又は、受けたテキストメッセージが音声認識部１３３により変換された音声）をインターフォン１２１を介してスピーカ１１３から出力する（又は、受けたテキストメッセージ（或いは、受けた音声が音声認識部１３３により変換されたテキストメッセージ）を図示しない表示パネルに表示する）。

図４は、エレベーター側処理全体の流れを示すフローチャートである。

音声認識部１３３が、状態認識を行う（Ｓ４１０）。状態認識の詳細の一例は、図５に示す通りである。状態認識では、現在状態３３３の一例である現在状態テーブル１８０１（図１８参照）が更新される。

次に、音声認識部１３３が、モデル選択を行う（Ｓ４２０）。モデル選択の詳細の一例は、図６に示す通りである。モデル選択では、現在状態テーブル１８０１に基づいて、関連した音声認識モデル及びパラメータが選択される。

次に、音声認識部１３３が、ボタンマッピング選択を行う（Ｓ４３０）。ボタンマッピング選択の詳細の一例は、図７に示す通りである。ボタンマッピング選択では、固定テキストメッセージが、固定メッセージデータベース３１２の一例である固定メッセージテーブル１５０１（図１５参照）から選択され、それに応じて、選択メッセージ群３４１の一例であるボタンメッセージマッピングテーブル１９０１（図１９参照）が更新される。

次に、音声認識部１３３が、送信対象のテキストメッセージを得るために音声認識を行う（Ｓ４４０）。音声認識の詳細の一例は、図８に示す通りである。音声認識では、以前に選択された音声認識モデル及びパラメータを使用して、マイクロフォン１１４からのサンプリングされたオーディオに音声認識が適用される。

次に、音声認識部１３３が、Ｓ４４０の音声認識での認識エラー（推定値）が、認識エラー閾値（図２１参照）を超えているか否かを判断する（Ｓ４５０）。Ｓ４５０の判断結果が偽の場合（Ｓ４５０：ＮＯ）、音声認識部１３３が、Ｓ４４０の音声認識の結果として得られた音声テキストメッセージ（及びそれに関連した情報）を使用して、送信メッセージを作成する。その後、処理が、Ｓ４８５に進む。なお、認識エラー閾値は、デフォルト値でもよいし、オペレータによって設定された値でもよい。

Ｓ４５０の判断結果が真の場合（Ｓ４５０：ＹＥＳ）、音声認識部１３３が、ボタンマッピング提示を行う（Ｓ４５５）。ボタンマッピング提示の詳細の一例は、図９に示す通りである。ボタンマッピング提示では、固定テキストメッセージの以前の選択及びマッピングが乗りかご１１０内の乗客に提示される。

音声認識部１３３が、乗りかご１１０内で言葉が話されたか否かを判断する（Ｓ４６０）。例えば、音声認識部１３３が、マイクロフォン１１４を介して取り込まれた音に関し、言葉または発話が述べられている確率を評価し、評価された確率が所定の閾値を上回っているか否かを判断する。或いは、例えば、音声認識部１３３が、予想されるバックグラウンドノイズとは異なる何らかの音がマイクロフォン１１４を介して取り込まれているか否かを判断する。Ｓ４６０の判断結果が真の場合（Ｓ４６０：ＹＥＳ）、処理がＳ４４０に戻る。Ｓ４６０はスキップされてもよい。

Ｓ４６０の判断結果が偽の場合（Ｓ４６０：ＮＯ）、音声認識部１３３（又はＶｏＩＰ制御部１３１）が、乗りかご１１０内のボタン、具体的には、制御パネル１１５のボタンのうちの１つまたは緊急ボタン１１１が押下されたか否かを判断する（Ｓ４７０）。例えば、所定の時間長にわたってボタンが押下され続けられなかった場合には、Ｓ４７０の判断結果は偽である。Ｓ４７０の判断結果が偽の場合（Ｓ４７０：ＮＯ）、処理がＳ４５５に戻る。

Ｓ４７０の判断結果が真の場合（Ｓ４７０：ＹＥＳ）、音声認識部１３３が、送信対象のテキストメッセージを得るためにボタン選択を行う（Ｓ４７５）。ボタン選択の詳細の一例は、図１０に示す通りである。ボタン選択では、押下されたボタンにマップされた固定テキストメッセージが得られる。

Ｓ４７５の後、音声認識部１３３が、Ｓ４７５の結果として得られた固定テキストメッセージ（及びそれに関連した情報）を使用して、送信メッセージを作成する。なお、送信メッセージのフォーマットは、エレベーター１０１からコールセンタ１６０へ送られる送信メッセージについても、コールセンタ１６０からエレベーター１０１へ送られる送信メッセージについても同じである（図２５の例は、コールセンタ１６０からエレベーター１０１へ送られる送信メッセージを示している）。

ＶｏＩＰ制御部１３１が、Ｓ４５７又はＳ４８０で得られた送信メッセージをオペレータへ送信する。本実施例では、送信メッセージの宛先は、コールセンタ１６０である。変形例として、送信メッセージの宛先は、緊急ボタン１１１が押下されたときに、例えば、宛先リストから、緊急ボタン１１１が押下された時刻、又は、エレベーター１０１を有する建物のロケーションに従って、選択されてよい。

図４に示した処理において、周辺ノイズ、話者の性別および言語などの動的な属性値を含む現在状態（現在の乗りかご環境）に対応した音声認識モデル及びパラメータが選択され、結果として、音声認識の精度が最適化される。また、乗りかご１１０内の乗客に差し迫った通信ニーズに最も適したメッセージを伝えられるように、マップエーブルボタンと予め用意されて固定テキストメッセージのマッピングを最適化がされる。このようにして、適時性及び精度の両方が重要である緊急通信を改善することができる。

図５は、状態認識（Ｓ４１０）の流れを示すフローチャートである。なお、以下の説明では、説明の混同を避けるために、テーブルに記載の属性項目「ｘｘｘ」に対応した属性値を値「ｘｘｘ」と呼ぶこととする。

音声認識部１３３が、現在状態テーブル１８０１の全部（又は特定の部分）が空であるか否かを判断する（Ｓ５１０）。Ｓ５１０の判断結果が偽の場合（Ｓ５１０：ＮＯ）、処理がＳ５４０に進む。

Ｓ５１０の判断結果が真の場合（Ｓ５１０：ＹＥＳ）、音声認識部１３３が、新たな緊急ＩＤを作成し、現在状態テーブル１８０１へ挿入する（Ｓ５２０）。例えば、緊急ＩＤは、緊急ＩＤとしての正の整数を単調に増大させることで新たに生成されてもよい。また、例えば、次の利用可能な緊急ＩＤが、例えばセカンダリメモリ２３０に格納されていて、今回のＳ５２０において、この格納されている緊急ＩＤが、現在状態テーブル１８０１へと挿入され、そして、次のＳ５２０で利用可能な緊急ＩＤ（インクリメント後の緊急ＩＤ）が格納されてもよい。

音声認識部１３３が、標準情報を現在状態テーブル１８０１へ挿入する（Ｓ５３０）。「標準情報」は、エレベーター１０１のモデル、乗りかご１１０のサイズ、及び、乗りかご１１０のメイン素材のような、一つ以上の静的な属性値を含んだ情報である。また、例えば、標準情報は、セカンダリメモリ２３０又はその他の記憶領域から取得された構成ファイルが示す情報（例えば、エレベーター１０１の乗りかご１１０又はその環境に対する変化（例えば、新たなディスプレイが据え付けられた後の変化、又は、そのエレベーター１０１が設置されている建物のすぐ近くを通る新たな幹線道路が造られた後の変化））であってオペレータ（又はメンテナンスエンジニア）によって更新可能な情報を含んでもよい。

音声認識部１３３が、センサ群１１２から情報を収集する（Ｓ５４０）。例えば、センサ群１１２は、カメラ及びモーションセンサを含むが、センサ群１１２が含むセンサはそれらに限定されない。

音声認識部１３３が、センサ群１１２から収集された情報に従い、現在状態テーブル１８０１に情報を挿入（又は、当該テーブル１８０１内の情報を更新）する（Ｓ５４５）。例えば、カメラの撮影画像から、乗りかご１１０内の人数が検知され、当該検知された人数を基に、テーブル１８０１が更新されてよい。

音声認識部１３３が、過去送信メッセージテーブル２００１（図２０参照）に従い、現在状態テーブル１８０１に情報を挿入（又は、当該テーブル１８０１内の情報を更新）する（Ｓ５５０）。例えば、過去送信メッセージテーブル２００１は、新たなエントリがテーブルの末尾に付加されるように更新される。従って、テーブル２００１の最後のエントリは、最近の送信メッセージに対応する。テーブル２００１の最後のエントリが選択され、当該エントリにおける緊急ＩＤが、現在状態テーブル１８０１内の現在の緊急ＩＤと比較される。両方の緊急ＩＤが同じである場合には、メイントピックを使用して現在状態テーブル１８０１が更新される。また、例えば、話者の性別及び話された言語などの更なる情報が、例えば、図８に例示の音声認識において推定され、この推定された情報を基に、現在状態テーブル１８０１が更新されてよい。また、例えば、メイントピック遷移テーブル１７０１（図１７参照）が参照され、メイントピック遷移テーブル１７０１の値「現在トピック」が、現在状態テーブル１８０１の値「メイントピック」と比較される。値「メイントピック」にマッチする値「現在トピック」を含んだ全てのエントリ（絞り込まれたエントリ）について、メイントピック遷移テーブル１７０１の値「キーワード」が、過去送信メッセージテーブル２００１の値「テキスト」と比較される。値「キーワード」の全部が値「テキスト」に含まれている場合には、そのエントリはマッチである。マッチした全てのエントリから最大の値「重み」を有するエントリが選択される。選択されたエントリにおける値「次トピック」が、現在状態テーブル１８０１の値「メイントピック」として格納される。本実施例では、例えば、メイントピック遷移テーブル１７０１の値「キーワード」は、シンプルなブーリアンマッチングパターンに従う。“＋”は、ブーリアンＡＮＤを表す。“＋”により組み合わされたすべてのキーワード要素（値「キーワード」の要素としてのキーワード（例えば単語））が、過去送信メッセージテーブル２００１の値「テキスト」に含まれている場合に、値「キーワード」が値「テキスト」にマッチしていることになる。例えば、値「キーワード」“finger + door”は、値「テキスト」“I caught my finger in the elevator door”にマッチすることになるが、値「テキスト」“The elevator door is not opening”にはマッチしないことになる。記述されているパターンマッチングシンタックス及びアルゴリズムは、例示的なものにすぎず、本発明は、記述されているパターンマッチングシンタックス及びアルゴリズムには限定されない。

図５によれば、例えば次のことが言える。すなわち、音声認識の精度に影響し得る情報を基に、現在状態テーブル１８０１が有する情報が現状に適した情報に更新される。
・リバーブレーションのような音響パラメータに影響する乗りかご１１０のサイズ又はメイン素材。
・乗りかご１１０の外側で発生することが予想されるオーディオノイズ。
・発音パラメータ及び言語パラメータに影響する、及び／又は、制御パネル１１５のマップエーブルボタンにマップされる固定テキストメッセージの選択に影響する、言語及び性別（話者の言語及び性別）。

図６は、モデル選択（Ｓ４２０）の流れを示すフローチャートである。

音声認識部１３３が、音声認識モデルのオーバーライドメッセージ（オーバーライドの指示）がオペレータから受信したか否かを判断する（Ｓ６１０）。例えば、そのようなオーバーライドメッセージは、オペレータが緊急通信の一部としてエレベーター１０１へ送信している通信アイテムの一部でよい。音声認識モデルのオーバーライドメッセージは、例えば、音響モデル（及びそれに関連したパラメータ値群）、発音モデル（及びそれに関連したパラメータ値群）、及び、言語モデル（及びそれに関連したパラメータ値群）を含んでよい。そのようなメッセージのフォーマットの一例は、図２２に示す通りである。また、「パラメータ値群」とは、一つ以上のパラメータ値である。「パラメータ値」は、パラメータ項目に対応した値である。

次に、音声認識部１３３が、オーバーライドを行うか否かを判断する（Ｓ６２０）。例えば、図２２に例示のオーバーライドメッセージが受信され、且つ、オーバーライドモデルの数が０よりも大きいか否かが判断される。Ｓ６２０の判断結果が真の場合（Ｓ６２０：ＹＥＳ）、音声認識部１３３が、オーバーライドモデル取得を行う（Ｓ６２５）。オーバーライドモデル取得の詳細の一例は、図２３に示す通りである。オーバーライドモデル取得では、受信されたオーバーライドメッセージに関連して、関連した発音モデル及びモデルパラメータ値群の選択が実行される。

Ｓ６２０の判断結果が偽の場合（Ｓ６２０：ＮＯ）、音声認識部１３３が、発音モデル（及びそれに関連したパラメータ値群）を、現在状態テーブル１８０１に従って、発音モデル選択テーブル１１０１（図１１参照）から取得する（Ｓ６４０）。例えば、発音モデル選択テーブル１１０１の値「言語」及び値「性別」が、現在状態テーブル１８０１の値「言語」及び値「性別」と比較される。値「発音モデル」は、例えば、発音モデルそれ自体への参照でよい。発音モデルそれ自体の位置は、例えば、次のようにして特定可能である。すなわち、図１４のモデル参照テーブル１４０１から、モデル値「発音」と、発音モデル選択テーブル１１０１から選択された値「発音モデル」と同じ値「番号」とを含んだエントリが特定される。当該エントリにおける値「ファイル名」が、選択されることになる発音モデルそれ自体（例えばインスタンス）の位置を示す。発音モデル選択テーブル１１０１から選択されたエントリにおけるパラメータ値群（例えば、モデルパラメータ１及びモデルパラメータ２等の値）が、その後の音声認識のために使用されることになる発音モデルのパラメータ値群として選択される。モデルパラメータ値群は、発音モデルを用いた音声認識において使用されるパラメータ値群である。例えば、発音モデル選択テーブル１１０１の複数のエントリがマッチする場合には、それら複数のエントリのうちの一つのエントリ（例えば先頭のエントリ）が、モデル及びパラメータの選択のために使用される。また、例えば、現在状態テーブル１８０１が空である場合には、発音モデル選択テーブル１１０１の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル１８０１からマッチしたエントリを見つけることができなかった場合には、発音モデル選択テーブル１１０１の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル１８０１が、値「言語」“English”及び値「性別」“Male”を含んでいる場合、発音モデル選択テーブル１１０１におけるエントリ１１１０がマッチする。そして、モデル参照テーブル１４０１のエントリ１４１０が、発音モデルそれ自体の位置を示す。すなわち、発音モデルそれ自体が“/models/pronunciation/1”に存在する。モデルパラメータ１の値が“α１”であり、モデルパラメータ２の値が“β３”である。

音声認識部１３３が、音響モデル（及びそれに関連したパラメータ値群）を、現在状態テーブル１８０１に従って、図１２の音響モデル選択テーブル１２０１から取得する（Ｓ６４５）。例えば、音響モデル選択テーブル１２０１の値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」が、現在状態テーブル１８０１の値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」と比較される。すべての値がマッチするエントリが音響モデル選択テーブル１２０１から選択される。値「音響モデル」は、音響モデルそれ自体（例えばインスタンス）への参照である。音響モデルそれ自体の位置は、例えば、次のようにして特定される。すなわち、図１４のモデル参照テーブル１４０１から、モデル値「音響」と、音響モデル選択テーブル１２０１から選択されたエントリにおける値「音響モデル」と同じ値「番号」とを含んだエントリが見つけられる。当該エントリにおける値「ファイル名」が、音響モデルそれ自体の位置を示す。音響モデル選択テーブル１２０１から選択されたエントリにおけるモデルパラメータ値群（モデルパラメータ１、モデルパラメータ２等の値）が、その後の音声認識のために使用されることになる音響モデルのパラメータ値群として選択される。例えば、音響モデル選択テーブル１２０１の複数のエントリがマッチする場合には、その複数のエントリのうちの一つのエントリ（例えば先頭のエントリ）が、モデルおよびパラメータ値群の選択のために使用される。また、例えば、現在状態テーブル１８０１が空である場合には、音響モデル選択テーブル１２０１の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル１８０１からマッチしたエントリを見つけることができなかった場合には、音響モデル選択テーブル１２０１の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル１８０１が、値「エレベーターモデル」“BBB”、値「かごサイズ」“4m²”、値「メイン素材」“Metal”、値「ノイズ環境」“Quiet”及び値「人数」“1”を含んでいる場合には、音響モデル選択テーブル１２０１におけるエントリ１２１０がマッチすることになる。そしてモデル参照テーブル１４０１のエントリ１４２０が、音響モデルそれ自体の位置を示す。すなわち、音響モデルそれ自体が“/models/acoustic/1”に存在する。モデルパラメータ１の値が“γ３”であり、モデルパラメータ２の値が“δ１”である。

音声認識部１３３が、言語モデル（及びそれに関連したパラメータ値群）を、現在状態テーブル１８０１に従って、図１３の言語モデル選択テーブル１３０１から取得する（Ｓ６５０）。例えば、言語モデル選択テーブル１３０１の値「言語」及び値「メイントピック」が、現在状態テーブル１８０１の値「言語」及び値「メイントピック」と比較される。両方の値がマッチするエントリが言語モデル選択テーブル１３０１から選択される。値「言語モデル」は、言語モデルそれ自体（例えばインスタンス）への参照である。言語モデルそれ自体の位置は、例えば、次のようにして特定される。すなわち、図１４のモデル参照テーブル１４０１から、モデル値「言語」と、言語モデル選択テーブル１３０１から選択されたエントリにおける値「言語モデル」と同じ値「番号」とを含んだエントリが見つけられる。当該エントリにおける値「ファイル名」が、言語モデルそれ自体の位置を示す。言語モデル選択テーブル１３０１から選択されたエントリにおけるモデルパラメータ値群（モデルパラメータ１及びモデルパラメータ２等の値）が、その後の音声認識のために使用されることになる言語モデルのパラメータ値群として選択される。例えば、言語モデル選択テーブル１３０１の複数のラインがマッチする場合には、それら複数のエントリのうちの一つのエントリ（例えば先頭のエントリ）が、モデルおよびパラメータ値群の選択のために使用される。また、例えば、現在状態テーブル１８０１が空である場合には、言語モデル選択テーブル１３０１の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル１８０１からマッチしたエントリを見つけることができなかった場合には、言語モデル選択テーブル１３０１の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル１８０１が、値「言語」“English”及び値「メイントピック」“Speaker’s condition”を含んでいた場合には、言語モデル選択テーブル１３０１におけるエントリ１３１０がマッチする。そして、モデル参照テーブル１４０１のエントリ１４３０が、言語モデルそれ自体の位置を示す。すなわち、言語モデルそれ自体が“/models/language/2”に存在する。モデルパラメータ１の値が“ε２”であり、モデルパラメータ２の値が“ζ４”である。

図６の処理によれば、音声認識モデル及びパラメータ値群が、オペレータからのオーバーライド、又は、現在状態に基づいて選択される。結果として、音声認識では、特定の状況および関連した環境に最も適した音声認識モデル及びパラメータ値群（例えば、音響モデル用のパラメータ値群、発音モデル用のパラメータ値群、及び言語モデル用のパラメータ値群）を使用することができる。

図７は、ボタンマッピング選択（Ｓ４３０）の流れを示すフローチャートである。

音声認識部１３３が、ボタンマッピングのオーバーライドメッセージがオペレータから受信したか否かを判断する（Ｓ７１０）。例えば、そのようなオーバーライドメッセージは、オペレータが緊急通信の一部としてエレベーター１０１へ送信している通信アイテムの一部でよい。ボタンマッピングのオーバーライドメッセージは、例えば、下記、
・固定テキストメッセージのリスト、及び、マップエーブルボタンへの固定テキストメッセージのそれぞれのマッピング、又は、
・固定テキストメッセージのリスト、及び、当該リストにおける各固定テキストメッセージの優先度、
を含んでよい。そのようなメッセージのフォーマットの一例は、図２２に示す通りである。

次に、音声認識部１３３が、オーバーライドを行うか否かを判断する（Ｓ７２０）。例えば、図２２に例示のオーバーライドメッセージが受信され、且つ、オーバーライドボタンの数が０よりも大きいか否かが判断される。Ｓ７２０の判断結果が真の場合（Ｓ７２０：ＹＥＳ）、音声認識部１３３が、オーバーライドボタンマッピング取得を行う（Ｓ７３０）。オーバーライドボタンマッピング取得の詳細の一例は、図２４に示す通りである。オーバーライドボタンマッピング取得では、受信されたオーバーライドメッセージに関連して、マップエーブルボタンと固定テキストメッセージとのマッピングが実行される。

Ｓ７２０の判断結果が偽の場合（Ｓ７２０：ＮＯ）、音声認識部１３３が、図１５の固定メッセージテーブル１５０１から、固定テキストメッセージ（値「固定メッセージ」）を、現在状態テーブル１８０１に従って選択し、選択した固定テキストメッセージを固定メッセージテーブル１５０１の値「優先度」の順に応じてソートし、固定テキストメッセージを上位ｎ個（ｎ＝マップエーブルボタンの数）の固定テキストメッセージに制限し、その結果を基に、図１９のボタンメッセージマッピングテーブル１９０１を更新する（Ｓ７４０）。具体的には、例えば、固定メッセージテーブル１５０１の値「言語」及び値「メイントピック」が、現在状態テーブル１８０１の値「言語」及び値「メイントピック」と比較される。両方の値がマッチする全てのエントリ（固定メッセージテーブル１５０１におけるエントリ）が、値「優先度」の昇順にソートされる。値「固定メッセージ」が、ボタンメッセージマッピングテーブル１９０１内に上から下へと、固定メッセージテーブル１５０１のマッチするエントリの終わりに達するまで挿入される（このケースにおいては、ボタンメッセージマッピングテーブル１９０１の残りの値「ボタン種類」がブランクのままにされて、マップされる値「固定メッセージ」がないことを意味する）、又は、ボタンメッセージマッピングテーブル１９０１の終わりに達するまで挿入される（このケースにおいては、固定メッセージテーブル１５０１の残りのマッチするエントリは却下される）。

図７の処理によれば、現在状態に最も関連している（又はオーバーライドに対応した）固定テキストメッセージが最大マップエーブルボタン数分選択され、それらがマップエーブルボタンにそれぞれマップされる。乗客は、所望の固定テキストメッセージがマップされたマップエーブルボタンを押下することで、当該固定テキストメッセージをコールセンタ１６０のオペレータに伝えることができる。

図８は、音声認識（Ｓ４４０）の流れを示すフローチャートである。

音声認識部１３３が、マイクロフォン１１４によって取り込まれたオーディオ信号をサンプリングする（Ｓ８１０）。

次に、音声認識部１３３が、図６のモデル選択において取得された発音モデル、音響モデル及び言語モデル、並びに、それらに関連したパラメータ値群を使用して、サンプリングされたオーディオに音声認識を適用する。例えば、音声認識のための方法としては、様々な方法のうちの少なくとも一つを適用することができるようなものである。

最後に、音声認識部１３３が、音声認識の結果を返す（Ｓ８３０）。例えば、音声認識の結果は、認識されたテキスト（例えば、連続したテキスト、別々のフレーズ、または単一のキーワード）、および音声認識に関する推定された認識エラーを含む。認識エラーは、別々のフレーズまたは単一のキーワードの推定された認識エラーの合計（例えば、それを何らかの係数または定数によってさらに調整したもの）であることが可能である。

図８の処理によれば、現在状態に適した音声認識を行うことができる。

図９は、ボタンマッピング提示（Ｓ４５５）の流れを示すフローチャートである。

音声認識部１３３が、固定テキストメッセージ及びボタン使用に関する情報である提示情報を聴覚的に（又は視覚的に）提示する（Ｓ９１０）。例えば、提示情報は、固定テキストメッセージとボタンとのマッピングに関する情報を含む。提示情報は、エレベーターのボタンを使用する通信が可能にされていることの説明を含んでもよい。当該説明は、例えば、事前に録音されたサンプルとして例えばセカンダリメモリ２３０に格納されていてよい。また、例えば、提示情報は、テキスト形式で格納され、何らかの形式のテキスト／発話合成が、そのテキストを、発話に似ている音へと転換されてよい。

音声認識部１３３が、エレベーター１０１内の図示しないディスプレイが利用可能であるか否かを判断する（Ｓ９２０）。例えば、現在状態テーブル１８０１における値「ディスプレイ利用可？」が参照される。

Ｓ９２０の判断結果が真の場合（Ｓ９２０：ＹＥＳ）、すなわち、乗りかご１１０内でディスプレイが利用可能である場合には、音声認識部１３３が、Ｓ９１０において聴覚的に提示された情報と同様の情報を、エレベーター１０１内のディスプレイに表示する（Ｓ９３０）。表示される情報は、Ｓ９１０において提示された情報とは異なってよい。その後、音声認識部１３３が、固定テキストメッセージとボタンとのマッピングに関する情報を、ボタンメッセージマッピングテーブル１９０１に従いエレベーター１０１内のディスプレイに表示する（Ｓ９４０）。

Ｓ９２０の判断結果が偽の場合（Ｓ９２０：ＮＯ）、音声認識部１３３が、ボタンメッセージマッピングテーブル１９０１が示すマッピングに関する情報を聴覚的に提示する（Ｓ９５０）。この提示は、例えば、Ｓ９１０と同様の方法で行われてよい。

図９の処理によれば、エレベーター１０１のボタンと固定テキストメッセージとのマッピングに関する情報が提示される。これにより、乗客は、いずれのボタンを押下すればいずれの固定テキストメッセージがコールセンタ１６０に伝わるかを知ることができる。

なお、図９の処理において、視覚的な手掛かりとして、例えば、エレベーター１０１のボタンにおけるＬＥＤライトが使用されてよい。そのＬＥＤライトは、例えば、ボタンマッピングが説明されている際に音声認識部１３３により点滅されてよい。

図１０は、ボタン選択（Ｓ４７５）の流れを示すフローチャートである。

音声認識部１３３が、押下されたボタンを認識する（Ｓ１０１０）。例えば、いずれのマップエーブルボタンが押下されても押下されたことを意味する信号がＩ／Ｏインターフェースデバイス２６０において受信される。

次に、音声認識部１３３が、ボタンメッセージマッピングテーブル１９０１における関連する固定テキストメッセージ（押下されたボタンに対応しているメッセージ）を探す（Ｓ１０２０）。

最後に、音声認識部１３３が、見つかったメッセージを返す（Ｓ１０３０）。なお、押下されたボタンにメッセージがマップされていなかった場合、又は、メッセージが見つからなかったという事実を伝えるその他の何らかの情報が存在している場合には、エラー通知が、乗りかご１１０において視覚的に又は聴覚的に提示されてよい。

図１０の処理によれば、押下されたボタンに対応したメッセージを遠隔のオペレータへ伝えることができる。

本実施例では、音声認識モデルデータベース１３２は、図１１〜図１３及び図１５に記載のテーブル、すなわち、図１１の発音モデル選択テーブル１１０１、図１２の音響モデル選択テーブル１２０１、図１３の言語モデル選択テーブル１３０１、及び、図１５の固定メッセージテーブル１５０１を含む。オペレータは、これらのテーブルを基に、図２２に例示のフォーマットを有するオーバーライドメッセージを作成し、エレベーター１０１へ送信してよい。当該オーバーライドメッセージに従い、上述のオーバーライドモデル取得又はオーバーライドボタンマッピング取得がエレベーター側で行われる。

図１１は、発音モデル選択テーブル１１０１の構成図である。

発音モデル選択テーブル１１０１は、音声認識に関し発音に影響し得る要素群（一以上の要素）毎に、エントリを有する。ここでの要素群は、値「言語」と値「性別」の組であるが、値「言語」と値「性別」のうちの一方が無くてもよいし、値「言語」と値「性別」の少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「言語」、値「性別」、値「発音モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。

値「発音モデル」は、値「言語」及び値「性別」の組に最適な発音モデルの番号である。当該値「発音モデル」に対応したモデルパラメータ値群は、当該発音モデルについて音声認識において使用されるパラメータ値群である。

図１２は、音響モデル選択テーブル１２０１の構成図である。

音響モデル選択テーブル１２０１は、音声認識に関し音響に影響し得る要素群毎に、エントリを有する。ここでの要素群は、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」である。これらの要素のうちの一部の要素が無くてもよいし、これらの要素のうちの少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」、値「人数」、値「音響モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。

値「発音モデル」は、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」の組に最適な音響モデルの番号である。当該値「音響モデル」に対応したモデルパラメータ値群は、当該音響モデルについて音声認識において使用されるパラメータ値群である。

図１３は、言語モデル選択テーブル１３０１の構成図である。

言語モデル選択テーブル１３０１は、音声認識に関し言語に関わる要素群毎に、エントリを有する。ここでの要素群は、値「言語」と値「メイントピック」の組であるが、値「言語」と値「メイントピック」のうちの一方が無くてもよいし、値「言語」と値「メイントピック」の少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「言語」、値「メイントピック」、値「言語モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。

値「言語モデル」は、値「言語」及び値「メイントピック」の組に最適な言語モデルの番号である。当該値「言語モデル」に対応したモデルパラメータ値群は、当該言語モデルについて音声認識において使用されるパラメータ値群である。

図１４は、モデル参照テーブル１４０１の構成図である。

モデル参照テーブル１４０１が有する各エントリは、値「モデル」、値「番号」、及び値「ファイル名」を含む。値「モデル」は、音声認識モデルの種別（本実施例では、発音、音響又は言語）を示す。値「番号」は、モデルの番号を示す。値「番号」は、図１１に示した値「発音モデル」、図１２に示した値「音響モデル」、及び、図１３に示した値「言語モデル」のいずれかと一致し得る。

図１１〜図１４に示したテーブルによれば、音声認識に影響し得る各要素群について現在状態に最適なモデル及びパラメータ値群を、モデル種類毎に取得することができる。これにより、エレベーターという限られた環境での緊急通信において当該緊急通信に十分な音声認識の精度が期待できる。

図１５は、固定メッセージテーブル１５０１の構成図である。

固定メッセージテーブル１５０１は、音声認識に関し言語に関わる要素群毎に、エントリを有する。つまり、ここでの要素群は、言語モデル選択テーブル１３０１について述べた要素群と同じ、具体的には、言語とメイントピックの組である。言語とメイントピックのうちの一方が無くてもよいし、言語とメイントピックの少なくとも一つに代えて又は加えて他の要素が採用されてもよい。また、ここでの要素群は、必ずしも言語モデル選択テーブル１３０１について述べた要素群と同じでなくてもよい。

各エントリは、値「言語」、値「メイントピック」、値「固定メッセージ」、及び、値「優先度」を含む。少なくとも一つの組（値「言語」及び値「メイントピック」の組）について、対応する複数の値「固定メッセージ」の値「優先度」は、緊急通信の進捗等に応じて、動的に変更されてもよい。例えば、或る組（値「言語」及び値「メイントピック」の組）について、優先度が最も高い（値「優先度」が最も小さい）固定メッセージがコールセンタ１６０に送信されたならば、当該固定メッセージの優先度が最下位とされ、次の優先度が最も高い優先度に更新されてもよい。

図１５のテーブルによれば、音声認識に関わる各要素群について、当該要素群に一つ以上の固定メッセージと優先度が関連付けられている。これにより、現在状態に関連しないメッセージをマップエーブルボタンにマップされることを避けることができる。

図１６は、メイントピックの階層構造を示す図である。

複数のメイントピックが図１６に例示のような階層構造を持つことで、緊急通信において、送信されるメッセージを、段階的に詳細にしていくことができる。マップエーブルボタンに対する固定メッセージのマッピングは、図１６に例示の階層構造に従い、乗りかご１１０内の乗客とオペレータとの間の会話の進捗に応じて（メイントピックの経路に応じて）、適宜に更新することができる。

図１６に例示の階層構造は、例えば、図１７のメイントピック遷移テーブル１７０１の構築に使用される。図１６に例示の階層構造は、乗りかご内のディスプレイに表示されてもよい。メイントピックの遷移は、例えば次の通りである。緊急ボタン１１１が押下されたことによって緊急通信が開始されたときは、メイントピックは未だ不明である。図１６の例によれば、最初のメイントピックは、“Basic information”や“Injury”等が期待される。そして、例えば、最初のメイントピックが“Injury”の場合（図示のチェックマークを参照）、次のメイントピックは、“Number of persons”や“Speaker’s condition”等であることが期待される。“Speaker’s condition”がメイントピックの場合（図示のチェックマークを参照）、次のメイントピックは、“Injury additional information A”及び“Injury additional information B”が期待される。

図１７は、メイントピック遷移テーブル１７０１の構成図である。

メイントピック遷移テーブル１７０１は、メイントピックの遷移の流れ定義したテーブルである。メイントピック遷移テーブル１７０１は、メイントピック毎にエントリを有する。各エントリは、値「現在トピック」、値「キーワード」、値「次トピック」及び値「重み」を含む。一つのエントリを例に取ると次の通りである。

値「現在トピック」は、現在のメイントピックを示す。値「キーワード」は、一つ以上のキーワード（例えば単語）の集合である。値「次トピック」は、次のメイントピックを示す。値「重み」は、二つ以上のエントリが該当したときにいずれのエントリを採用するかに使用される値である（例えば、当該二つ以上のエントリのうち値「重み」が最も大きいエントリが採用される）。

図１７の例によれば、値「キーワード」から、値「現在トピック」が決まり、結果として、一つ以上の値「次トピック」が決まる。この一つ以上の値「次トピック」から、次の値「現在トピック」が選択される。このようにして、メイントピックが遷移する。

図１８は、現在状態テーブル１８０１の構成図である。

現在状態テーブル１８０１は、値「緊急ＩＤ」と、現在状態を示す情報とを含む。

値「緊急ＩＤ」は、緊急ボタン１１１が押下される都度に割り振られるＩＤを示す。

現在状態を定義する要素として、値「エレベーターモデル」、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「デフォルト言語」、値「マップエーブルボタン数」及び値「ディスプレイ利用可？」のような静的な属性値もあれば、値「ノイズ環境」、値「人数」、値「言語」、値「性別」及び値「メイントピック」のような動的な属性値もある。値「人数」は、例えば、センサ群１１２に含まれているカメラの撮影画像を基に特定された人数を示す値でよい。値「言語」は、例えば、マイクロフォン１１４を介して入力された音声を基に特定された言語を示す値でよい。値「性別」は、撮影画像及び入力音声のうちの少なくとも一つを基に特定された性別を示す値でよい。値「メイントピック」は、例えば、過去送信メッセージ中のテキストに適合した値「キーワード」（図１７参照）に対応する値「現在トピック」を用いて選択された値「次トピック」である。静的な属性値及び動的な属性値のいずれについても、一部の属性値が無くてもよいし、少なくとも一つの属性値に代えて又は加えて他の属性値が採用されてもよい。

図１９は、ボタンメッセージマッピングテーブル１９０１の構成図である。

ボタンメッセージマッピングテーブル１９０１は、マップエーブルボタン毎にエントリを有する。各エントリは、値「ボタン種類」及び値「固定メッセージ」を含む。値「ボタン種類」は、マップエーブルボタンの種類（例えば、ドア開、ドア閉、１階等といった役割）を示す。値「固定メッセージ」は、マップエーブルボタンにマップされた固定メッセージを示す。値「ボタン種類」は、単なる数値でもよく、また、値「固定メッセージ」は、固定メッセージの格納位置へのポインタであってもよい。

図２０は、過去送信メッセージテーブル２００１の構成図である。

過去送信メッセージテーブル２００１は、エレベーター１０１からコールセンタ１６０に過去に送信された送信メッセージに関する情報を有する。過去送信メッセージテーブル２００１は、送信メッセージ毎にエントリを有する。各エントリは、値「緊急ＩＤ」、値「番号」、値「認識方法」、値「テキスト」、値「認識エラー」及び値「メイントピック」を含む。一つのエントリを例に取ると次の通りである。

値「緊急ＩＤ」は、送信メッセージ（例えば図２５）が含んでいた値「緊急ＩＤ」である。値「番号」は、送信メッセージが含んでいた値「番号」である。本実施例では、一つの緊急通信について、一つの緊急ＩＤがあり、その下位に、送信メッセージがエレベーター１０１から或いはコールセンタ１６０から送信される都度にインクリメントされる番号がある。値「緊急ＩＤ」と値「番号」の組から、送信メッセージを特定することができる。

値「認識方法」は、送信メッセージ内の値「テキスト」（テキストメッセージ）を認識した方法、具体的には、当該値「テキスト」が音声認識（“Speech recognition”）とボタン押下（“Button”）のいずれにより取得された値「テキスト」であるかを示す。値「テキスト」は、テキストメッセージである。

値「認識エラー」は、エレベーター１０１での音声認識において検出された認識エラー（数値）を示す。このため、値「認識方法」が“Button”の場合、値「認識エラー」は“0.0”（認識エラー無し）である。値「メイントピック」は、エレベーター１０１において特定された値「現在トピック」（送信メッセージ内のテキストメッセージが依存したメイントピック）を示す。

図２０の過去送信メッセージテーブル２００１を参照することで、乗客がオペレータへ伝えたメッセージに関する情報や当該情報の遷移（例えば、特定されたメイントピックと送信されたテキストメッセージの関係、及び、メイントピックの遷移）がわかる。

図２１は、認識エラー閾値の一例を示す。

図２１に例示の認識エラー閾値が、例えばプライマリメモリ２２０に設定される。音声認識部１３３は、検出された認識エラーが当該閾値を超えたことを検出した場合には、音声認識の代替としてボタン押下によりメッセージを送信するといった選択を行うことができる。

図２２は、オーバーライドメッセージの構成図である。

図２２に例示の構成（フォーマット）のオーバーライドメッセージは、モデルのオーバーライドにもボタンメッセージマッピングのオーバーライドにも使用することができる。オーバーライドメッセージは、コールセンタ１６０（オペレータ）からエレベーター１０１が受信する。図２２に例示のオーバーライドメッセージのうちモデルのオーバーライドに関する部分のみで構成されたモデル用のオーバーライドメッセージと、図２２に例示のオーバーライドメッセージのうちマッピングのオーバーライドに関する部分のみで構成されたマッピング用のオーバーライドメッセージとがあってもよい。

オーバーライドメッセージのうちモデルのオーバーライドに関する部分に関しては、例えば次の通りである。
・値「オーバーライドモデル数」がある。値「オーバーライドモデル数」は、オーバーライドされるモデルの数を示す。
・オーバーライドされるモデル毎に、値「種類」、値「番号」、一つ以上のパラメータ値がある。値「種類」は、オーバーライドされるモデルの種類（すなわち、発音、音響及び言語のいずれであるか）を示す。値「番号」は、オーバーライドされるモデルの番号を示す。パラメータ値は、オーバーライド後のパラメータ値を含む。図２２の例によれば、図１２に例示の音響モデル（値「音響モデル」“２”、値「モデルパラメータ１」“γ２”、値「モデルパラメータ２」“δ２”）が、音響モデル（値「音響モデル」“２”、値「モデルパラメータ１」“γ３”、値「モデルパラメータ２」“δ１”）にオーバーライドされる。オーバーライドされるモデルは、テーブルにあるモデルでもよいし、テーブルから一時領域（例えばワーク領域）に読み出されたモデル（つまり一時的なモデル）でもよい。

オーバーライドメッセージのうちマッピングのオーバーライドに関する部分に関しては、例えば次の通りである。
・値「オーバーライドボタン数」がある。値「オーバーライドボタン数」は、オーバーライドされるボタン（正確には、ボタンと固定メッセージの組）の数を示す。
・オーバーライドされるボタン毎に、値「ボタン種類」及び値「固定メッセージ」がある。値「ボタン種類」は、オーバーライドされるボタンの種類を示す。値「固定メッセージ」は、固定テキストメッセージを示す。図２２の例によれば、図１９に例示のマッピング（値「ボタン種類」“Open door”と値「固定メッセージ」“Somebody is injured”）が、マッピング（値「ボタン種類」“Open door”と値「固定メッセージ」“I require specific medication”）にオーバーライドされる。

図２２に例示のオーバーライドメッセージに応答して、選択される音声認識モデル（及びそれに関連するパラメータ値群）、及び、選択されるボタンメッセージマッピングをオペレータから（コールセンタ１６０側から）オーバーライドすることができる。

図２３は、オーバーライドモデル取得（Ｓ６２５）の流れを示すフローチャートである。

受信したオーバーライドメッセージが、例えば、図２２に例示のオーバーライドメッセージであるとする。音声認識部１３３が、カウンタ変数Iに“１”を設定する（Ｓ２３１０）。

次に、音声認識部１３３が、オーバーライドメッセージの値「オーバーライドモデルI 種類」及び値「オーバーライドモデルI 番号」に対応したモデルを取得する（Ｓ２３２０）。例えば、I＝１の場合、値「オーバーライドモデル１種類」“音響”及び値「オーバーライドモデル１番号」“２”に対応したモデルが取得される。

次に、音声認識部１３３が、カウンタ変数Jに“１”を設定する（Ｓ２３３０）。

次に、音声認識部１３３が、オーバーライドメッセージから値「オーバーライドモデルI パラメータ値J」を取得する（Ｓ２３４０）。

次に、音声認識部１３３が、オーバーライドメッセージにおける値「オーバーライドモデルI パラメータ数」がカウンタ変数Jよりも大きいか否か、つまり、未だ取得されていないオーバーライドパラメータ値がモデルIについて存在するか否かを判断する（Ｓ２３５０）。

Ｓ２３５０の判断結果が真の場合（Ｓ２３５０：ＹＥＳ）、音声認識部１３３が、カウンタ変数Jをインクリメントする（Ｓ２３６０）。その後、処理が、Ｓ２３４０に戻る。

Ｓ２３５０の判断結果が偽の場合（Ｓ２３５０：ＮＯ）、音声認識部１３３が、オーバーライドメッセージにおける値「オーバーライドモデル数」がカウンタ変数Iよりも大きいか否か、つまり、未だ取得されていないオーバーライドモデルが存在するか否かを判断する（Ｓ２３８０）。Ｓ２３８０の判断結果が偽の場合（Ｓ２３８０：ＮＯ）、処理が終了する。

Ｓ２３８０の判断結果が真の場合（Ｓ２３８０：ＹＥＳ）、音声認識部１３３が、カウンタ変数Iをインクリメントする（Ｓ２３９０）。その後、処理が、Ｓ２３２０に戻る。

図２４は、オーバーライドボタンマッピング取得（Ｓ７３０）の流れを示すフローチャートである。

受信したオーバーライドメッセージが、例えば、図２２に例示のオーバーライドメッセージであるとする。音声認識部１３３が、カウンタ変数Kに“１”を設定する（Ｓ２４１０）。

次に、音声認識部１３３が、オーバーライドメッセージから値「オーバーライドボタンK ボタン種類」を取得する（Ｓ２４２０）。例えば、K＝１の場合、“Open door”が取得される。

次に、音声認識部１３３が、オーバーライドメッセージから値「オーバーライドボタンK 固定メッセージ」を取得する（Ｓ２４３０）。例えば、K＝１の場合、“I require specific medication”が取得される。

次に、音声認識部１３３が、取得された情報に従いボタンメッセージマッピングテーブル１９０１を更新する（Ｓ２４３５）。例えば、図１９の値「ボタン種類」“Open door”及び値「固定メッセージ」“Somebody is injured”が、値「ボタン種類」“Open door”及び値「固定メッセージ」“I require specific medication”にオーバーライドされる。つまり、ドア開用のボタンに、“Somebody is injured”に代えて“I require specific medication”がマップされることになる。

次に、音声認識部１３３が、オーバーライドメッセージにおける値「オーバーライドボタン数」がカウンタ変数Kよりも大きいか否か、つまり、未だオーバーライドが済んでいないボタンメッセージマッピングが存在するか否かを判断する（Ｓ２４４０）。Ｓ２４４０の判断結果が偽の場合（Ｓ２４４０：ＮＯ）、処理が終了する。

Ｓ２４４０の判断結果が真の場合（Ｓ２４４０：ＹＥＳ）、音声認識部１３３が、カウンタ変数Kをインクリメントする（Ｓ２４５０）。その後、処理が、Ｓ２４２０に戻る。

図２５は、エレベーター１０１とコールセンタ１６０との間の緊急通信において送受信される送信メッセージの構成図である。

送信メッセージは、値「送信元」、値「宛先」、値「緊急ＩＤ」、値「番号」、値「テキストメッセージ」及び値「追加フィールド数」を含む。

値「送信元」は、送信メッセージの送信元を示す。値「宛先」は、送信メッセージの宛先元を示す。値「送信元」及び値「宛先」のいずれも、IDであってもよいし、IPアドレスであってもよい。

値「緊急ＩＤ」は、送信メッセージが送信される緊急通信について割り振られたＩＤを示す。値「番号」は、当該緊急通信における当該送信メッセージについて割り振られた番号を示す。値「緊急ＩＤ」及び値「番号」の組から、送信メッセージを特定することができる。

値「テキストメッセージ」は、音声認識又はボタン押下により得られたテキストメッセージである。

値「追加フィールド数」は、更なる属性値の数を示す。更なる属性値として、値「認識方法」、値「認識エラー」及び値「メイントピック」のうちの少なくとも一つを採用することができる。値「追加フィールド数」≧１の場合、更なる属性値それ自体も、送信メッセージに含まれる。

実施例２を説明する。その際、実施例１との相違点を主に説明し、実施例１との共通点については説明を省略又は簡略する。

図２６は、実施例２に係るエレベーター側処理の概要図である。

実施例２によれば、オペレータ３７０からオーバーライドメッセージは送信されない。

このため、モデル選択（Ｓ４２０）では、図６のＳ６４０、Ｓ６４５及びＳ６５０が行われればよく、それ以外の処理は不要である。

また、ボタンマッピング選択（Ｓ４３０）では、図７のＳ７４０が行われればよく、それ以外の処理は不要である。

実施例３を説明する。その際、実施例２との相違点を主に説明し、実施例２との共通点については説明を省略又は簡略する。

図２７は、実施例３に係るエレベーター側処理の概要図である。

実施例３によれば、ボタン押下による固定テキストメッセージの取得は行われない。このため、固定メッセージデータベース３１２、メッセージ選択３４０、選択メッセージ群３４１及びボタン選択３８１が不要である。

また、エレベーター側処理全体の流れにおいて、Ｓ４３０が不要である。また、Ｓ４５０：ＹＥＳの場合、Ｓ４５５及びＳ４６０に代えて、音声認識部１３３が、認識不可能な発話に関する情報を視覚的に又は聴覚的に提示し、再度Ｓ４４０を行ってもよい。また、Ｓ４７０、Ｓ４７５及びＳ４８０は不要である。

また、現在状態テーブル１８０１において、値「マップエーブルボタン数」は不要である。

実施例４を説明する。その際、実施例３との相違点を主に説明し、実施例３との共通点については説明を省略又は簡略する。

図２８は、実施例４に係るエレベーター側処理の概要図である。

実施例４によれば、音声認識３６２において使用されるモデル及びパラメータ値群は静的な属性値に基づいて予め決められている。このため、選択処理３３０が不要である。すなわち、更に、状態認識３３２、現在状態３３３、モデル選択３３４、選択モデル群３３５及び過去メッセージ群３５０が不要である。

また、エレベーター側処理全体の流れにおいて、Ｓ４３０の他に、Ｓ４１０及びＳ４２０も不要である。

音声認識モデルデータベース１３２には、乗りかご環境に関する静的な属性値群（一つ以上の静的な属性値）に基づき、発音、音響及び言語の各々について、予め、音声認識モデル及びパラメータ値群が登録される。エレベーター側での音声認識では、発音、音響及び言語の各々について、常に、登録されている音声認識モデル及びパラメータ値群が使用される。

以上、幾つかの実施例を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施例にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。

例えば、緊急通信において、テキストベースのメッセージ通信は、ＩＰネットワークの品質に関わらず行われてもよい（言い換えれば、ＶｏＩＰに代えて、常に、テキストベースのメッセージ通信が行われてもよい）。

また、例えば、音声認識モデルに関連付けられる属性値群は、静的な属性値群（一つ以上の静的な属性値）及び動的な属性値群（一つ以上の動的な属性値）のうちの一方又は両方でよい。このため、例えば、モデル選択３３４では、音声認識部１３３は、予め用意された複数の音声認識モデル（及び複数のパラメータ値群）から、静的な属性値群と現在の動的な属性値群とのうちの少なくとも動的な属性値群を用いて、音声認識モデル（及びパラメータ値群）を選択してもよい。

また、例えば、一つの送信メッセージは、音声テキストメッセージ（音声認識により得られたテキストメッセージ）と固定テキストメッセージ（ボタン押下により得られたテキストメッセージ）とのうちの一方又は両方を含んでよい。

また、例えば、音声認識部１３３は、認識エラーが閾値を超えたか否かに関わらずにボタンマッピング選択を行ってもよい。この場合、音声認識部１３３は、認識エラーが閾値を超えた場合に、ボタンマッピング提示を行ってよい。

以上の説明を、例えば、下記のように総括することができる。

第１の例示的な観点によれば、通信装置１３０が、乗りかご１１０内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値である。緊急ボタン１１１が使用されることで開始された緊急通信において、通信装置１３０が、一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、マイクロフォン１１４を介して入力された音声の音声認識を行う。通信装置１３０が、当該音声認識により得られたテキストメッセージを含む送信メッセージを、ＩＰネットワーク１５０を介してコールセンタ１６０（監視センタの一例）へ送信する。これにより、ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。

第２の例示的な観点によれば、第１の例示的な観点において、一つ又は複数の属性値群の各々は、静的な属性値群と動的な属性値群の少なくとも一つを含む。静的な属性値群は、それぞれが不変の一つ以上の静的な属性値である。動的な属性値群は、それぞれが動的に変わり得る一つ以上の動的な属性値である。これにより、静的な属性値群及び動的な属性値群の一方又は両方に従う音声認識モデルが使用されるので、様々なエレベーター環境について音声認識を適用することができる。

第３の例示的な観点によれば、第２の例示的な観点において、静的な属性値群は、エレベーターのモデル、乗りかごのサイズ、及び、乗りかごのメイン素材、のうちの少なくとも一つの静的な属性値を含む。当該少なくとも一つの静的な属性値は、乗りかご環境に影響する度合いが比較的強い属性値であり、故に、十分な音声認識精度の維持が期待できる。

第４の例示的な観点によれば、第２又は第３の例示的な観点において、通信装置１３０が、乗りかご環境を定義する一つ又は複数の動的な属性値を含んだ情報であり乗りかご環境を示す情報である現在状態テーブル１８０１（現在状態情報の一例）に含まれる一つ又は複数の動的な属性値に適合した一つ以上の属性値群にそれぞれ対応した一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルに関連する一つ以上のパラメータ値群を選択する。該当の一つ以上の音声認識モデルは、当該選択された一つ以上の音声認識モデルである。乗りかご１１０のセンサ群１１２により定期的に又は不定期的に得られた情報に基づき現在状態テーブル１８０１が定期的に又は不定期的に更新される。このように、乗りかご１１０のセンサ群１１２により得られた情報に従い更新される現在状態テーブル１８０１は動的な属性値を含み、予め用意される音声認識モデルは動的な属性値に関連付けられているので、乗りかご環境の変化に応じた音声認識を維持することができる。

第５の例示的な観点によれば、第４の例示的な観点において、一つ又は複数の動的な属性値は、乗りかご１１０内の人数、乗りかご１１０の積載量、話者が使用する言語、話者の性別、及び、発話のメイントピック、のうちの少なくとも一つの動的な属性値を含む。当該少なくとも一つの動的な属性値は、乗りかご環境に影響する度合いが比較的強い属性値であり、故に、十分な音声認識精度の維持が期待できる。

第６の例示的な観点によれば、第１乃至第５の例示的な観点のいずれかにおいて、一つ又は複数の音声認識モデルは、下記のうちの少なくとも一つ、
・それぞれが発音に関する音声認識モデルである一つ又は複数の発音モデル、
・それぞれが音響に関する音声認識モデルである一つ又は複数の音響モデル、
・それぞれが言語に関する音声認識モデルである一つ又は複数の言語モデル、
を含む。発音、音響及び言語の少なくとも一つについて音声認識モデルが使用される。このため、緊急通信に十分な音声認識精度の維持が期待できる。発音、音響及び言語の各々について音声認識モデル及びパラメータ値群が使用されることが好ましい。更に、第５の例示的な観点についていえば、一つ又は複数の発音モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及び性別を含んでよく、一つ又は複数の音響モデルの各々について、関連付けられる属性値群は、動的な属性値として人数を含んでよく、一つ又は複数の言語モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及びメイントピックを含んでよい。これにより、緊急通信に十分な音声認識精度の維持が一層期待できる。

第７の例示的な観点によれば、第５又は第６の例示的な観点において、通信装置１３０は、過去送信メッセージ中（例えば、過去送信メッセージテーブル２００１中）のテキストメッセージを用いて、メイントピック遷移テーブル１７０１（メイントピック遷移情報の一例）から、当該過去送信メッセージに対応したメイントピックの次のメイントピックを特定する。通信装置１３０は、当該特定された次のメイントピックを現在のメイントピックとして現在状態テーブル１８０１に格納する。メイントピック遷移情報は、複数のメイントピックの各々について、当該メイントピックに対応したキーワードと、複数のメイントピックの各々について次のメイントピックとを示す情報である。過去送信メッセージに対応したメイントピックは、メイントピック遷移テーブル１７０１が示す複数のメイントピック（例えば値「現在トピック」）のうち、過去送信メッセージ中のテキストメッセージが含むキーワードに対応したメイントピックである。これにより、音声認識モデルの選択のために参照される現在状態テーブル１８０１には、今回の音声認識で採用されると推定されたメイントピックを現在のメイントピックとすることができ、結果として、音声認識精度の向上が期待できる。

第８の例示的な観点によれば、第４乃至第７の例示的な観点のいずれかにおいて、乗りかご１１０は、緊急ボタン１１１を含む複数のボタンを有する。複数のボタンは、機械式のボタン、タッチパネル上に表示されたボタン、及びそれらの混在でよい。複数のボタンのうちの二つ以上のボタンの各々は、テキストメッセージが割り当てられ得るボタンであるマップエーブルボタンである。通信装置１３０は、現在状態テーブル１８０１に適合する一つ以上のテキストメッセージを、複数のテキストメッセージを含む情報である固定メッセージテーブル１５０１（固定メッセージ情報の一例）から選択し、当該選択した一つ以上のテキストメッセージを一つ以上のマップエーブルボタンにマップする。通信装置１３０は、音声認識により得られたテキストメッセージに代えて又は加えて、複数のボタンのうち押された（例えばタッチされた）マップエーブルボタンにマップされているテキストメッセージを送信メッセージに含め、当該送信メッセージを、ＩＰネットワーク１５０を介してコールセンタ１６０へ送信する。これにより、音声認識精度がたとえ不十分であったとしても、乗りかごに通常存在するボタンを利用することで新たな資源を追加することなく、コールセンタ１６０に正確なメッセージを伝達することが期待できる。

第９の例示的な観点によれば、第８の例示的な観点において、一つ又は複数の動的な属性値は、話者が使用する言語、及び、発話のメイントピックを含む。固定メッセージテーブル１５０１は、複数のテキストメッセージの各々について、当該テキストメッセージに関連付けられた言語及びメイントピックを含む。上記選択された一つ以上のテキストメッセージの各々は、現在状態テーブル１８０１が含む言語及びメイントピックに適合するテキストメッセージである。これにより、マップエーブルボタンにマップされるテキストメッセージが適切であることがより期待できる。

第１０の例示的な観点によれば、第９の例示的な観点において、固定メッセージテーブル１５０１は、複数のテキストメッセージの各々について、更に、当該テキストメッセージに関連付けられ同一のメイントピックについての優先度を含む。マップされるテキストメッセージの数は、マップエーブルボタンの数と、現在状態テーブル１８０１が示すメイントピックについての優先度とに依存する。これにより、マップエーブルボタンの数は限られているが、その限られた範囲において現在の乗りかご環境に適切なテキストメッセージをマップすることができる。

第１１の例示的な観点によれば、第８乃至第１０の例示的な観点のいずれかにおいて、通信装置１３０は、マッピングのオーバーライド指示（例えば上述のオーバーライドメッセージ）をコールセンタ１６０から受け付ける。通信装置１３０、当該オーバーライド指示に従い、マップエーブルボタンとテキストメッセージとのマッピングを更新する（例えば、オーバーライドボタンマッピング取得（Ｓ７３０））。このようにして、ボタンメッセージマッピングに関し、コールセンタ１６０のオペレータの知識又は経験を利用することができる。

第１２の例示的な観点によれば、第１乃至第１１の例示的な観点のいずれかにおいて、通信装置１３０は、音声認識モデル及びパラメータ値群のオーバーライド指示（例えば上述のオーバーライドメッセージ）をコールセンタ１６０から受け付ける。当該オーバーライド指示に従い、例えば上述のオーバーライドモデル取得（Ｓ６２５）が行われ、結果として、音声認識において使用される一つ以上の音声認識モデルの各々は、当該オーバーライド指示に従う音声認識モデルであり、当該音声認識に使用されるパラメータ値群は、当該オーバーライド指示に従うパラメータ値群である。このようにして、モデル選択に関し、コールセンタ１６０のオペレータの知識又は経験を利用することができる。

１０１：エレベーター
１３０：通信装置
１３１：ＶｏＩＰ制御部
１３２：音声認識モデルデータベース
１３３：音声認識部

Claims

緊急ボタン、スピーカ及びマイクロフォンを有する乗りかごと、監視センタが接続されているＩＰネットワークと前記スピーカ及び前記マイクロフォンとに接続され前記ＩＰネットワークを介して前記監視センタと通信を行う通信装置とを備えたエレベーターであって、
前記通信装置が、前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納し、
前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
前記緊急ボタンが使用されることで開始された緊急通信において、前記通信装置が、
前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、
前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記ＩＰネットワークを介して前記監視センタへ送信する、
ことを特徴するエレベーター。
前記一つ又は複数の属性値群の各々は、静的な属性値群と動的な属性値群の少なくとも一つを含み、
前記静的な属性値群は、それぞれが不変の一つ以上の静的な属性値であり、
前記動的な属性値群は、それぞれが動的に変わり得る一つ以上の動的な属性値である、
ことを特徴とする請求項１に記載のエレベーター。
前記静的な属性値群は、エレベーターのモデル、乗りかごのサイズ、及び、乗りかごのメイン素材、のうちの少なくとも一つの静的な属性値を含む、
ことを特徴とする請求項２に記載のエレベーター。
前記通信装置が、前記乗りかご環境を定義する一つ又は複数の動的な属性値を含んだ情報であり前記乗りかご環境を示す情報である現在状態情報に含まれる前記一つ又は複数の動的な属性値に適合した一つ以上の属性値群にそれぞれ対応した一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルに関連する一つ以上のパラメータ値群を選択し、
前記該当の一つ以上の音声認識モデルは、前記選択された一つ以上の音声認識モデルであり、
前記乗りかごが、一つ以上のセンサであるセンサ群を備え、
前記センサ群により定期的に又は不定期的に得られた情報に基づき前記現在状態情報が定期的に又は不定期的に更新される、
ことを特徴する請求項２に記載のエレベーター。
前記一つ又は複数の動的な属性値は、前記乗りかご内の人数、前記乗りかごの積載量、話者が使用する言語、話者の性別、及び、発話のメイントピック、のうちの少なくとも一つの動的な属性値を含む、
ことを特徴する請求項４に記載のエレベーター。
前記一つ又は複数の音声認識モデルは、下記のうちの少なくとも一つを含み、
それぞれが発音に関する音声認識モデルである一つ又は複数の発音モデル、
それぞれが音響に関する音声認識モデルである一つ又は複数の音響モデル、
それぞれが言語に関する音声認識モデルである一つ又は複数の言語モデル、
前記一つ又は複数の発音モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及び性別を含み、
前記一つ又は複数の音響モデルの各々について、関連付けられる属性値群は、動的な属性値として人数を含み、
前記一つ又は複数の言語モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及びメイントピックを含み、
前記選択された一つ以上の音声認識モデルは、発音モデル、音響モデル及び言語モデルのうちの少なくとも一つを含む、
ことを特徴する請求項５に記載のエレベーター。
前記通信装置は、
過去送信メッセージ中のテキストメッセージを用いて、メイントピック遷移情報から、当該過去送信メッセージに対応したメイントピックの次のメイントピックを特定し、
当該特定された次のメイントピックを現在のメイントピックとして前記現在状態情報に格納し、
前記メイントピック遷移情報は、複数のメイントピックの各々について、当該メイントピックに対応したキーワードと、前記複数のメイントピックの各々について次のメイントピックとを示す情報であり、
前記過去送信メッセージに対応したメイントピックは、前記複数のメイントピックのうち、前記過去送信メッセージ中のテキストメッセージが含むキーワードに対応したメイントピックである、
ことを特徴する請求項５に記載のエレベーター。
前記乗りかごは、前記緊急ボタンを含む複数のボタンを有し、
前記複数のボタンのうちの二つ以上のボタンの各々は、テキストメッセージが割り当てられ得るボタンであるマップエーブルボタンであり、
前記通信装置は、
前記現在状態情報に適合する一つ以上のテキストメッセージを、複数のテキストメッセージを含む情報である固定メッセージ情報から選択し、
前記選択した一つ以上のテキストメッセージを一つ以上のマップエーブルボタンにマップし、
前記音声認識により得られたテキストメッセージに代えて又は加えて、前記複数のボタンのうち押されたマップエーブルボタンにマップされているテキストメッセージを送信メッセージに含め、当該送信メッセージを、前記ＩＰネットワークを介して前記監視センタへ送信する、
ことを特徴する請求項４に記載のエレベーター。
前記一つ又は複数の動的な属性値は、話者が使用する言語、及び、発話のメイントピックを含み、
前記固定メッセージ情報は、前記複数のテキストメッセージの各々について、当該テキストメッセージに関連付けられた言語及びメイントピックを含み、
前記選択された一つ以上のテキストメッセージの各々は、前記現在状態情報が含む言語及びメイントピックに適合するテキストメッセージである、
ことを特徴する請求項８に記載のエレベーター。
前記固定メッセージ情報は、前記複数のテキストメッセージの各々について、更に、当該テキストメッセージに関連付けられ同一のメイントピックについての優先度を含み、
前記マップされるテキストメッセージの数は、マップエーブルボタンの数と、前記現在状態情報が示すメイントピックについての優先度とに依存する、
ことを特徴する請求項９に記載のエレベーター。
前記通信装置は、
マッピングのオーバーライド指示を前記監視センタから受け付け、
当該オーバーライド指示に従い、マップエーブルボタンとテキストメッセージとのマッピングを更新する、
ことを特徴する請求項８に記載のエレベーター。
前記通信装置は、音声認識モデル及びパラメータ値群のオーバーライド指示を前記監視センタから受け付け、
前記該当の一つ以上の音声認識モデルの各々は、前記オーバーライド指示に従う音声認識モデルであり、
前記該当の一つ以上の音声認識モデルの各々について、当該音声認識モデルに関連したパラメータ値群は、前記オーバーライド指示に従うパラメータ値群である、
ことを特徴する請求項１に記載のエレベーター。
乗りかごが有するスピーカ及びマイクロフォンと監視センタが接続されているＩＰネットワークとに接続されエレベーターに備えられた通信装置が行う通信支援方法であって、
前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納し、
前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
前記緊急ボタンが使用されることで開始された緊急通信において、
前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、
前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記ＩＰネットワークを介して前記監視センタへ送信する、
ことを特徴する通信支援方法。
乗りかごが有するスピーカ及びマイクロフォンと監視センタが接続されているＩＰネットワークとに接続されるようにエレベーターに搭載される通信装置であって、
前記スピーカ、前記マイクロフォン、及び前記ＩＰネットワークに接続されるインターフェースユニットと、
前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを記憶する記憶ユニットと、
前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
前記インターフェースユニット及び前記記憶ユニットに接続されており、前記緊急ボタンが使用されることで開始された緊急通信において、前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記ＩＰネットワークを介して前記監視センタへ送信するプロセッサユニットと
を備えることを特徴とする通信装置。