JP2020066472A - エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 - Google Patents

エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 Download PDF

Info

Publication number
JP2020066472A
JP2020066472A JP2018197920A JP2018197920A JP2020066472A JP 2020066472 A JP2020066472 A JP 2020066472A JP 2018197920 A JP2018197920 A JP 2018197920A JP 2018197920 A JP2018197920 A JP 2018197920A JP 2020066472 A JP2020066472 A JP 2020066472A
Authority
JP
Japan
Prior art keywords
value
voice recognition
speech recognition
model
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018197920A
Other languages
English (en)
Inventor
イェンス デーンホフ
Doenhoff Jens
イェンス デーンホフ
剛志 柴田
Tsuyoshi Shibata
剛志 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Building Systems Co Ltd
Original Assignee
Hitachi Building Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Building Systems Co Ltd filed Critical Hitachi Building Systems Co Ltd
Priority to JP2018197920A priority Critical patent/JP2020066472A/ja
Publication of JP2020066472A publication Critical patent/JP2020066472A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indicating And Signalling Devices For Elevators (AREA)

Abstract

【課題】ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。【解決手段】エレベーターが有する通信装置は、乗りかごが有するスピーカ及びマイクロフォンと、監視センタが接続されているIPネットワークとに接続されている。通信装置は、乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。乗りかご内の緊急ボタンが使用されることで開始された緊急通信において、通信装置が、該当の一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、マイクロフォンを介して入力された音声の音声認識を行う。【選択図】図1

Description

本発明は、概して、エレベーター用の緊急通信の支援に関する。
エレベーターに関して緊急事態が生じた場合には、乗りかごの内の乗客は、遠隔のセンタと緊急通信を行うこと、具体的には、例えば、乗りかご内の緊急ボタンを押して、遠隔のセンタにいるオペレータと通話を行うことができる。このような緊急通話には、VoIP(Voice-over-IP(Internet Protocol))が利用される。
しかし、呼びが成功するか否か、及び、乗客とオペレータ間で互いに理解可能な通話が行えるか否かは、IPネットワークの通信品質に依存する。IPネットワークの通信品質は、一定ではない。
そこで、特許文献1に開示の技術、すなわち、VoIP技術と音声認識技術の両方を使用する技術が知られている。具体的には、例えば、特許文献1に開示の技術は、音声通信中にペイロードチャネルのサービス品質が所定の閾値を下回る場合、送信側の音声通話をテキストへ変換し、通信チャネルを介して、当該テキストを受信側へ送信する。テキストは、受信側で、音声に変換される。
WO2015/030769
エレベーター用の緊急通信にはVoIPが利用されるので、IPネットワークの品質に関わらず当該緊急通信を維持するためには、特許文献1のように送信側で音声認識を行う(音声をテキストに変換する)こと、つまり、エレベーター側で音声認識を行うことが好ましい。
しかし、単純に音声認識技術をエレベーター用の緊急通信のためにエレベーター側に適用することはできない。例えば、発話がされる環境に依存しない音声認識を採用することが考えられる。しかし、そのような音声認識には、通常、高性能且つ大量のハードウェア計算資源(例えば、CPU性能及び記憶容量)が必要とされる。エレベーターの設置スペース又はその他の理由から、エレベーター側で資源が制限されることがある。このため、資源不足から音声通話での連絡ミス等が生じ易いと考えられる。音声通話での連絡ミス等が生じ易い状況は、エレベーター用の緊急通信には好ましくない。
エレベーターが有する通信装置は、乗りかごが有するスピーカ及びマイクロフォンと、監視センタが接続されているIPネットワークとに接続されている。通信装置は、乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値である。乗りかご内の緊急ボタンが使用されることで開始された緊急通信において、通信装置が、一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、乗りかごのマイクロフォンを介して入力された音声の音声認識を行う。通信装置は、当該音声認識により得られたテキストメッセージを含む送信メッセージを、IPネットワークを介して監視センタへ送信する。
ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。
実施例1に係るシステム全体の構成図。 エレベーター側の演算装置のハードウェア構成図。 実施例1に係るエレベーター側処理の概要図。 エレベーター側処理全体の流れを示すフローチャート。 状態認識(S410)の流れを示すフローチャート。 モデル選択(S420)の流れを示すフローチャート。 ボタンマッピング選択(S430)の流れを示すフローチャート。 音声認識(S440)の流れを示すフローチャート。 ボタンマッピング提示(S455)の流れを示すフローチャート。 音声選択(S475)の流れを示すフローチャート。 発音モデル選択テーブルの構成図。 音響モデル選択テーブルの構成図。 言語モデル選択テーブルの構成図。 モデル参照テーブルの構成図。 固定メッセージテーブルの構成図。 メイントピックの階層構造を示す図。 メイントピック遷移テーブルの構成図。 現在状態テーブルの構成図の一例。 ボタンメッセージマッピングテーブルの構成図。 過去送信メッセージテーブルの構成図。 認識エラー閾値の一例を示す図。 オーバーライドメッセージの構成図。 オーバーライドモデル取得(S625)の流れを示すフローチャート。 オーバーライドボタンマッピング取得(S730)の流れを示すフローチャート。 送信メッセージの構成図。 実施例2に係るエレベーター側処理の概要図。 実施例3に係るエレベーター側処理の概要図。 実施例4に係るエレベーター側処理の概要図。
以下の説明では、「インターフェースデバイスユニット」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちのいずれでもよい。
・I/O(Input/Output)デバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するI/Oインターフェースデバイス。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイスであってもよい。
また、以下の説明では、「メモリユニット」は、一つ以上のメモリであり、典型的には主記憶デバイスでよい。メモリユニットにおける少なくとも一つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。
また、以下の説明では、「PDEVユニット」は、一つ以上のPDEVであり、典型的には補助記憶デバイスでよい。「PDEV」は、物理的な記憶デバイス(Physical storage DEVice)を意味し、典型的には、不揮発性の記憶デバイス、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
また、以下の説明では、「記憶ユニット」は、メモリユニットとPDEVユニットの少なくとも一部(典型的には少なくともメモリユニットの少なくとも一部)である。
また、以下の説明では、「プロセッサユニット」は、一つ以上のプロセッサである。少なくとも一つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも一つのプロセッサは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
また、以下の説明では、「xxxテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。
また、以下の説明では、「kkk部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサユニットによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよい。プログラムがプロセッサユニットによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶ユニット及び/又はインターフェースユニット等を用いながら行われるため、機能はプロセッサユニットの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサユニットあるいはそのプロセッサユニットを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
図1は、実施例1に係るシステム全体の構成図である。
当該システムは、エレベーター101と遠隔のコールセンタ160とに大別される。エレベーター101とコールセンタ160はIPネットワーク150(例えばインターネット)を介して接続されている。
エレベーター101の乗りかご110に、制御パネル115、緊急ボタン111、センサ群112(一つ以上のセンサ)、スピーカ113及びマイクロフォン114が設けられている。スピーカ113及びマイクロフォン114にインターフォン121が接続されている。制御パネル115、緊急ボタン111、一つ以上のセンサ110、インターフォン121、及びIPネットワーク150に、通信装置130が接続されている。通信装置130を介して、コールセンタ160との間で通信が行われる。
制御パネル115は、複数のボタンを有する。複数のボタンは、例えば、乗りかご110が停止し得る複数の行き先階にそれぞれ対応した複数の行き先階ボタン、及び、ドアの開閉を指定するボタンを含む。制御パネル115における各ボタンは、機械式ボタンでもよいし、タッチパネル上に実現されるタッチボタンでもよい。
緊急ボタン111は、緊急事態等の場合に乗客によりコールセンタ160と音声通話するために押されるボタンである。緊急ボタン111は、典型的には機械式ボタンであるが、タッチパネル上に実現されるタッチボタンでもよい。また、緊急ボタン111は、制御パネル115に含まれてもよいが、本実施例では、説明の理解を助けるために、緊急ボタン111は、制御パネル115とは別のコンポーネントである。
センサ群112は、例えば、乗りかご110内を撮影するカメラや、乗りかご110内の重量(積載量)を計測する重量センサを含んでよい。また、マイクロフォン114が一つのセンサとして使用されてもよい。
インターフォン121は、スピーカ113及びマイクロフォン114を介して乗りかご110内の乗客がコールセンタ160内のオペレータと通話を行うことを可能にする。
通信装置130は、音声認識モデルデータベース132を格納し、VoIP制御部131と、音声認識部133とを備える。音声認識モデルデータベース132は、複数の音声認識モデルを含む。VoIP制御部131は、VoIPに従う通信を制御する。音声認識部133は、音声認識を行う。
コールセンタ160は、通信装置170、インターフォン180、スピーカ164、マイクロフォン165、ディスプレイ166、及びキーボード(更に例えばポインティングデバイス)167を備える。通信装置170に、インターフォン180、ディスプレイ166、キーボード167及びIPネットワーク150が接続される。
通信装置170は、音声認識モデルデータベース172を格納し、VoIP制御部171及び音声認識部173を備える。音声認識モデルデータベース172は、複数の音声認識モデルを含む。VoIP制御部171は、VoIPに従う通信を制御する。音声認識部173は、音声認識を行う。
インターフォン180は、スピーカ164及びマイクロフォン165を介してオペレータが乗りかご110内の乗客と通話を行うことを可能にする。
ディスプレイ166及びキーボード167は、例えば、テキスト入力や視覚化出力を可能にするために通信装置170に接続される。
図1に例示の構成によれば、乗りかご110内の乗客とコールセンタ160内のオペレータが、IPネットワーク150を介してVoIPによって通話をすることが可能である。具体的には、例えば、乗客が発した言葉は、マイクロフォン114を介してアナログ音声としてインターフォン121に送られる。インターフォン121により、当該アナログ音声はデジタル音声に変換され、当該デジタル音声が通信装置130に送られる。VoIP制御部131は、コールセンタ160の通信装置170内のVoIP制御部171とVoIP接続を開始する。当該デジタル音声が、VoIP制御部131からVoIP制御部171を介してインターフォン180に送られる。インターフォン180が、当該デジタル音声をアナログ音声に変換する。アナログ音声がスピーカ164から出力される。同様の流れで、コールセンタ160内のオペレータが発した言葉は、マイクロフォン165、インターフォン180、VoIP制御部171、VoIP制御部131及びインターフォン121を介して、スピーカ113から出力される。
なお、アナログ音声からデジタル音声への変換は、インターフォン121(又は180)に代えて通信装置130(又は170)が行ってもよい。
また、VoIP通信が可能な程にIPネットワーク150の通信品質が良好でない場合、音声認識部133が、デジタル音声をテキストに変換する音声認識を行う。この場合、音声に代えてテキストのメッセージが、IPネットワーク150を介してコールセンタ160に送信される。コールセンタ160において、当該メッセージが、例えばディスプレイ166に表示される。
コールセンタ160は、エレベーター101に物理的に近接していてもよい。例えば、エレベーター101とコールセンタ160は、同じ建物(例えば商業ビル)内に配置されてもよい。また、コールセンタ160は、スピーカ164及びマイクロフォン165を含む電話機と、ディスプレイ166及びキーボード167及び通信装置170を備えた計算機とを含む小さな部屋などであってもよい。
図2は、通信装置130のハードウェア構成図である。
通信装置130は、NIC(Network Interface Card)240、一つ以上のI/Oインターフェースデバイス260、プライマリメモリ220、セカンダリメモリ230及びそれらにバス210を介して接続されたCPU215を備える。NIC240が、一つ以上の通信インターフェースデバイスの一例である。NIC240及び一つ以上のI/Oインターフェースデバイス260が、インターフェースデバイスユニットの一例である。プライマリメモリ220及びセカンダリメモリ230が記憶ユニットの一例である。プライマリメモリ220が、メモリユニットの一例である。セカンダリメモリ230が、メモリユニット及びPDEVユニットの少なくとも一つの一例である。CPU215が、プロセッサユニットの一例である。
プライマリメモリ220は、揮発性であるが、セカンダリメモリ230は不揮発性である。このため、セカンダリメモリ230に格納されたデータ又はプログラムは、電断後も利用可能である。
図2に例示のハードウェア資源を基に、VoIP制御部131及び音声認識部133が実現される。また、音声認識モデルデータベース132がセカンダリメモリ230に格納される。
通信装置170のハードウェア構成も、図2に例示のハードウェア構成と同様でよい。但し、本実施例では、エレベーター101内の通信装置130のハードウェア資源の性能及び量は、コールセンタ160内の通信装置170のハードウェア資源の性能及び量よりも小さくてよい。このため、例えば、本実施例では、通信装置130は、「埋込み型マイクロコンピュータ」と呼ばれる装置でよく、一方、通信装置170は、「デスクトップコンピュータ」又は「サーバ」と呼ばれる装置であってもよい。
図3は、実施例1に係るエレベーター側処理の概要図である。
本実施例の概要の一例は、以下の通りである。
乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境(発話がされる環境に相当)を定義する一つ又は複数の属性値群に基づき一つ又は複数の音声認識モデル(及びそれらに関連する一つ又は複数のパラメータ値群)が用意される。一つ又は複数のパラメータ値群の各々は、一つ以上のパラメータ値である。一つ又は複数の属性値群の各々は、属性値群は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。全ての属性値群について採用されている属性項目は同じとは限られないでよい。属性項目としては、例えば、かごサイズ(乗りかご110のサイズ)、エレベーターモデル(エレベーター101のモデル)、メイン素材(乗りかご110に使用されているメインの素材)、ノイズ環境(乗りかご110内又はその周囲のノイズ環境)、人数(乗客数)、乗りかご110の積載量、言語(主に使用される言語(例えば方言を含んでよい))、性別(話者の性別)、及び、メイントピック(発話の主な内容)といった項目を採用することができる。音声認識部133は、現在の乗りかご環境に適した一つ以上の音声認識モデルを複数の音声認識モデルから選択し、選択した一つ以上の音声認識モデルを用いて音声認識を行う。「現在の乗りかご環境」は、かごサイズのような静的な属性値(不変の属性値)に代えて又は加えて、人数のような変わり得る動的な属性値に依存する。動的な属性値は、センサ群112により得られた情報(例えば数値又は画像)と、緊急ボタン111の押下により開始された緊急通信において過去に送信された送信メッセージとのうちの少なくとも一部に基づき決定される。これにより、ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。「音声認識モデル」としては、入力を基に出力を行う様々なモデル(例えば何らかの学習済みモデル)を採用し得る。例えば、少なくとも一つの音声認識モデルは、ARIMAモデルでもよいし、ニューラルネットワークでもよい。
また、本実施例では、音声認識部133は、少なくとも一つの音声認識モデルを、現在の乗りかご環境に加えて、遠隔のオペレータ370から入力された情報にも基づいて、選択する。つまり、少なくとも一つの音声認識モデルの選択に、オペレータ370の知識又は経験が利用される。これにより、選択された音声認識モデルがより適切であることが期待され、結果として、より高い音声認識精度が期待される。
また、本実施例では、予め複数のテキストメッセージ(例えば、制御パネル115が有するボタンよりも多くのテキストメッセージ)が用意される。音声認識精度が十分ではない場合(例えば、閾値未満である場合、或いは、音声認識精度が十分ではないことをオペレータ370又は乗客から入力された場合)、又は、音声認識精度が十分であるか否かに関わらずに、音声認識部133は、現在の乗りかご環境に基づいて、複数のテキストメッセージから一つ以上のテキストメッセージ(例えば、テキストメッセージがマッピングされることが許されているボタン(以下、マップエーブルボタン)の数と同数のテキストメッセージ)を選択する。音声認識部133は、選択されたテキストメッセージを、それぞれ、制御パネル115が有するマップエーブルボタンにマップする。音声認識部133は、テキストメッセージとマップエーブルボタンの関係を、例えば聴覚的に(又は視覚的に)乗客に提示する。乗客は、最適なテキストフレーズに対応したマップエーブルボタンを押下する。音声認識部133は、押下されたマップエーブルボタンにマッピングされているテキストメッセージを、IPネットワーク150を介して送信する。これにより、音声認識精度が不十分だとしても、オペレータ370に正確に伝達をすることができる。なお、マップエーブルボタンは、例えば、行き先階ボタンでよい。
また、本実施例では、音声認識部133は、少なくとも一つのテキストメッセージを、現在の乗りかご環境に加えて、遠隔のオペレータ370から入力された情報にも基づいて、選択する。つまり、少なくとも一つのテキストメッセージの選択に、オペレータ370の知識又は経験が利用される。これにより、選択されたテキストメッセージがより適切であることが期待され、結果として、より正確な伝達が期待される。
また、本実施例では、音声認識モデルとして、3種類のモデル、具体的には、発音に関わる音声認識モデルである発音モデル、音響に関わる音声認識モデルである音響モデル、及び、言語に関わる音声認識モデルである言語モデルがある。発音、音響及び言語といった3種類の各々について、一つ又は複数の音声認識モデルがある。本実施例では、3種類の各々について、一つ以上の音声認識モデル(及びそれに関連したパラメータ値群)が選択される。発音モデル、音響モデル及び言語モデルのうちの少なくとも一つに代えて又は加えて、別種のモデルが音声認識モデルとして採用されてもよい。音声認識モデルが複数のサブモデルへ分割された場合、各サブモデルも、音声認識モデルでよい。
以下、本実施例を詳細に説明する。なお、以下、説明の混同を避けるために、音声認識により得られたテキストメッセージを、「音声テキストメッセージ」と言い、予め用意されているテキストメッセージを、「固定テキストメッセージ」と言うことがある。
本実施例では、処理は、準備処理310、選択処理330及び伝達処理360という3つの処理に大別することができる。
準備処理310では、音声認識モデルデータベース132及び固定メッセージデータベース312が用意される。音声認識モデルデータベース132及び固定メッセージデータベース312は、例えばセカンダリメモリ230に格納される。固定メッセージデータベース312は、複数の固定テキストメッセージを含む。音声認識モデルデータベース132の詳細の一例は、図11〜図13に示す通りである。固定メッセージデータベース312の詳細の一例は、図15に示す通りである。
選択処理330では、現在状態333(現在の乗りかご環境)を認識する状態認識332が定期的に行われる。具体的には、例えば、現在状態333は、現在の乗りかご環境を定義する一つ以上の静的な属性値(例えば、乗りかご110のサイズ)の他に、現在の乗りかご環境を定義する一つ以上の動的な属性値(例えば、人数)を含む。緊急通信中に(例えば、緊急ボタン111が押下されて通信装置130及び170間のコネクションが確立されている間)、音声認識部133は、センサ群112からの情報と、過去メッセージ群350(この緊急通信中に先に送信された一つ以上のテキストメッセージ)とのうちの少なくとも一部を基に、状態認識332を行う。現在状態333及び過去メッセージ群350は、例えばプライマリメモリ220に格納される。現在状態333の詳細の一例は、図18に示す通りである。例えば、センサの一つであるカメラからの画像を基に人数が識別され、当該識別された人数を基に状態認識332が行われる。
選択処理330では、音声認識部133が、現在状態333を基に(例えば、更に、オペレータ370から入力された情報を基に)、音声認識モデルデータベース132から一つ以上の音声認識モデルを選択するモデル選択334を行う。選択された一つ以上の音声認識モデル(及び当該一つ以上の音声認識モデルを用いた音声認識で使用される一つ以上のパラメータ)は、選択モデル群335として格納される(例えばプライマリメモリ220に格納される)。
また、選択処理330では、音声認識精度が十分ではない場合、又は、音声認識精度が十分であるか否かに関わらずに、音声認識部133が、現在状態333を基に(例えば、更に、オペレータ370から入力された情報を基に)、固定メッセージデータベース312から一つ以上の固定テキストメッセージを選択するメッセージ選択340を行う。メッセージ選択340では、更に、制御パネル115が有するマップエーブルボタンに選択された固定テキストメッセージがそれぞれマップされる。選択された一つ以上の固定テキストメッセージとマップエーブルボタンとの対応関係は、例えば、選択メッセージ群341として格納される(例えばプライマリメモリ220に格納される)選択された固定テキストメッセージの数がマップエーブルボタンの数よりも多い場合、メッセージ選択340では、固定テキストメッセージの絞り込みが行われてよい。
伝達処理360では、音声認識部133が、話者からマイクロフォン114を介して入力された音声を選択モデル群335を基に音声テキストメッセージに変換する音声認識362を行う。音声テキストメッセージを含む送信メッセージ363が格納される(例えばプライマリメモリ220に格納される)。
また、伝達処理360では、音声認識部133が、制御パネル115が有するマップエーブルボタンが押下された場合、当該マップエーブルボタンにマップされている固定テキストメッセージを選択メッセージ群341から取得するボタン選択381を行う。押下されたボタンにマップされている固定テキストメッセージを含んだ送信メッセージ363(例えば、図25に例示のフォーマットを有するメッセージ)が格納される。
伝達処理360において、送信メッセージ363は、コールセンタ160への送信対象である。音声認識部133は、送信メッセージ363を、IPネットワーク150を介して、コールセンタ160に送信する。送信メッセージ363のフォーマットは、例えば図25に例示の通りである。コールセンタ160に送信された送信メッセージ363の全部又は一部(例えばテキストメッセージ)が、音声認識部133により過去メッセージ群350に含められる。
送信された送信メッセージに対して、通信装置130は、コールセンタ160から、例えば次のようにして応答を受け付けてよい。すなわち、受信され送信メッセージ363内のテキストメッセージが、通信装置170により、ディスプレイ166に表示される、又は、インターフォン180を介してスピーカ164から出力される。オペレータ370が、マイクロフォン165又はキーボード167を介して情報を入力する。入力された情報が示す音声又はテキストメッセージを、通信装置170から通信装置130が受ける。通信装置130が、受けた音声(又は、受けたテキストメッセージが音声認識部133により変換された音声)をインターフォン121を介してスピーカ113から出力する(又は、受けたテキストメッセージ(或いは、受けた音声が音声認識部133により変換されたテキストメッセージ)を図示しない表示パネルに表示する)。
図4は、エレベーター側処理全体の流れを示すフローチャートである。
音声認識部133が、状態認識を行う(S410)。状態認識の詳細の一例は、図5に示す通りである。状態認識では、現在状態333の一例である現在状態テーブル1801(図18参照)が更新される。
次に、音声認識部133が、モデル選択を行う(S420)。モデル選択の詳細の一例は、図6に示す通りである。モデル選択では、現在状態テーブル1801に基づいて、関連した音声認識モデル及びパラメータが選択される。
次に、音声認識部133が、ボタンマッピング選択を行う(S430)。ボタンマッピング選択の詳細の一例は、図7に示す通りである。ボタンマッピング選択では、固定テキストメッセージが、固定メッセージデータベース312の一例である固定メッセージテーブル1501(図15参照)から選択され、それに応じて、選択メッセージ群341の一例であるボタンメッセージマッピングテーブル1901(図19参照)が更新される。
次に、音声認識部133が、送信対象のテキストメッセージを得るために音声認識を行う(S440)。音声認識の詳細の一例は、図8に示す通りである。音声認識では、以前に選択された音声認識モデル及びパラメータを使用して、マイクロフォン114からのサンプリングされたオーディオに音声認識が適用される。
次に、音声認識部133が、S440の音声認識での認識エラー(推定値)が、認識エラー閾値(図21参照)を超えているか否かを判断する(S450)。S450の判断結果が偽の場合(S450:NO)、音声認識部133が、S440の音声認識の結果として得られた音声テキストメッセージ(及びそれに関連した情報)を使用して、送信メッセージを作成する。その後、処理が、S485に進む。なお、認識エラー閾値は、デフォルト値でもよいし、オペレータによって設定された値でもよい。
S450の判断結果が真の場合(S450:YES)、音声認識部133が、ボタンマッピング提示を行う(S455)。ボタンマッピング提示の詳細の一例は、図9に示す通りである。ボタンマッピング提示では、固定テキストメッセージの以前の選択及びマッピングが乗りかご110内の乗客に提示される。
音声認識部133が、乗りかご110内で言葉が話されたか否かを判断する(S460)。例えば、音声認識部133が、マイクロフォン114を介して取り込まれた音に関し、言葉または発話が述べられている確率を評価し、評価された確率が所定の閾値を上回っているか否かを判断する。或いは、例えば、音声認識部133が、予想されるバックグラウンドノイズとは異なる何らかの音がマイクロフォン114を介して取り込まれているか否かを判断する。S460の判断結果が真の場合(S460:YES)、処理がS440に戻る。S460はスキップされてもよい。
S460の判断結果が偽の場合(S460:NO)、音声認識部133(又はVoIP制御部131)が、乗りかご110内のボタン、具体的には、制御パネル115のボタンのうちの1つまたは緊急ボタン111が押下されたか否かを判断する(S470)。例えば、所定の時間長にわたってボタンが押下され続けられなかった場合には、S470の判断結果は偽である。S470の判断結果が偽の場合(S470:NO)、処理がS455に戻る。
S470の判断結果が真の場合(S470:YES)、音声認識部133が、送信対象のテキストメッセージを得るためにボタン選択を行う(S475)。ボタン選択の詳細の一例は、図10に示す通りである。ボタン選択では、押下されたボタンにマップされた固定テキストメッセージが得られる。
S475の後、音声認識部133が、S475の結果として得られた固定テキストメッセージ(及びそれに関連した情報)を使用して、送信メッセージを作成する。なお、送信メッセージのフォーマットは、エレベーター101からコールセンタ160へ送られる送信メッセージについても、コールセンタ160からエレベーター101へ送られる送信メッセージについても同じである(図25の例は、コールセンタ160からエレベーター101へ送られる送信メッセージを示している)。
VoIP制御部131が、S457又はS480で得られた送信メッセージをオペレータへ送信する。本実施例では、送信メッセージの宛先は、コールセンタ160である。変形例として、送信メッセージの宛先は、緊急ボタン111が押下されたときに、例えば、宛先リストから、緊急ボタン111が押下された時刻、又は、エレベーター101を有する建物のロケーションに従って、選択されてよい。
図4に示した処理において、周辺ノイズ、話者の性別および言語などの動的な属性値を含む現在状態(現在の乗りかご環境)に対応した音声認識モデル及びパラメータが選択され、結果として、音声認識の精度が最適化される。また、乗りかご110内の乗客に差し迫った通信ニーズに最も適したメッセージを伝えられるように、マップエーブルボタンと予め用意されて固定テキストメッセージのマッピングを最適化がされる。このようにして、適時性及び精度の両方が重要である緊急通信を改善することができる。
図5は、状態認識(S410)の流れを示すフローチャートである。なお、以下の説明では、説明の混同を避けるために、テーブルに記載の属性項目「xxx」に対応した属性値を値「xxx」と呼ぶこととする。
音声認識部133が、現在状態テーブル1801の全部(又は特定の部分)が空であるか否かを判断する(S510)。S510の判断結果が偽の場合(S510:NO)、処理がS540に進む。
S510の判断結果が真の場合(S510:YES)、音声認識部133が、新たな緊急IDを作成し、現在状態テーブル1801へ挿入する(S520)。例えば、緊急IDは、緊急IDとしての正の整数を単調に増大させることで新たに生成されてもよい。また、例えば、次の利用可能な緊急IDが、例えばセカンダリメモリ230に格納されていて、今回のS520において、この格納されている緊急IDが、現在状態テーブル1801へと挿入され、そして、次のS520で利用可能な緊急ID(インクリメント後の緊急ID)が格納されてもよい。
音声認識部133が、標準情報を現在状態テーブル1801へ挿入する(S530)。「標準情報」は、エレベーター101のモデル、乗りかご110のサイズ、及び、乗りかご110のメイン素材のような、一つ以上の静的な属性値を含んだ情報である。また、例えば、標準情報は、セカンダリメモリ230又はその他の記憶領域から取得された構成ファイルが示す情報(例えば、エレベーター101の乗りかご110又はその環境に対する変化(例えば、新たなディスプレイが据え付けられた後の変化、又は、そのエレベーター101が設置されている建物のすぐ近くを通る新たな幹線道路が造られた後の変化))であってオペレータ(又はメンテナンスエンジニア)によって更新可能な情報を含んでもよい。
音声認識部133が、センサ群112から情報を収集する(S540)。例えば、センサ群112は、カメラ及びモーションセンサを含むが、センサ群112が含むセンサはそれらに限定されない。
音声認識部133が、センサ群112から収集された情報に従い、現在状態テーブル1801に情報を挿入(又は、当該テーブル1801内の情報を更新)する(S545)。例えば、カメラの撮影画像から、乗りかご110内の人数が検知され、当該検知された人数を基に、テーブル1801が更新されてよい。
音声認識部133が、過去送信メッセージテーブル2001(図20参照)に従い、現在状態テーブル1801に情報を挿入(又は、当該テーブル1801内の情報を更新)する(S550)。例えば、過去送信メッセージテーブル2001は、新たなエントリがテーブルの末尾に付加されるように更新される。従って、テーブル2001の最後のエントリは、最近の送信メッセージに対応する。テーブル2001の最後のエントリが選択され、当該エントリにおける緊急IDが、現在状態テーブル1801内の現在の緊急IDと比較される。両方の緊急IDが同じである場合には、メイントピックを使用して現在状態テーブル1801が更新される。また、例えば、話者の性別及び話された言語などの更なる情報が、例えば、図8に例示の音声認識において推定され、この推定された情報を基に、現在状態テーブル1801が更新されてよい。また、例えば、メイントピック遷移テーブル1701(図17参照)が参照され、メイントピック遷移テーブル1701の値「現在トピック」が、現在状態テーブル1801の値「メイントピック」と比較される。値「メイントピック」にマッチする値「現在トピック」を含んだ全てのエントリ(絞り込まれたエントリ)について、メイントピック遷移テーブル1701の値「キーワード」が、過去送信メッセージテーブル2001の値「テキスト」と比較される。値「キーワード」の全部が値「テキスト」に含まれている場合には、そのエントリはマッチである。マッチした全てのエントリから最大の値「重み」を有するエントリが選択される。選択されたエントリにおける値「次トピック」が、現在状態テーブル1801の値「メイントピック」として格納される。本実施例では、例えば、メイントピック遷移テーブル1701の値「キーワード」は、シンプルなブーリアンマッチングパターンに従う。“+”は、ブーリアンANDを表す。“+”により組み合わされたすべてのキーワード要素(値「キーワード」の要素としてのキーワード(例えば単語))が、過去送信メッセージテーブル2001の値「テキスト」に含まれている場合に、値「キーワード」が値「テキスト」にマッチしていることになる。例えば、値「キーワード」“finger + door”は、値「テキスト」“I caught my finger in the elevator door”にマッチすることになるが、値「テキスト」“The elevator door is not opening”にはマッチしないことになる。記述されているパターンマッチングシンタックス及びアルゴリズムは、例示的なものにすぎず、本発明は、記述されているパターンマッチングシンタックス及びアルゴリズムには限定されない。
図5によれば、例えば次のことが言える。すなわち、音声認識の精度に影響し得る情報を基に、現在状態テーブル1801が有する情報が現状に適した情報に更新される。
・リバーブレーションのような音響パラメータに影響する乗りかご110のサイズ又はメイン素材。
・乗りかご110の外側で発生することが予想されるオーディオノイズ。
・発音パラメータ及び言語パラメータに影響する、及び/又は、制御パネル115のマップエーブルボタンにマップされる固定テキストメッセージの選択に影響する、言語及び性別(話者の言語及び性別)。
図6は、モデル選択(S420)の流れを示すフローチャートである。
音声認識部133が、音声認識モデルのオーバーライドメッセージ(オーバーライドの指示)がオペレータから受信したか否かを判断する(S610)。例えば、そのようなオーバーライドメッセージは、オペレータが緊急通信の一部としてエレベーター101へ送信している通信アイテムの一部でよい。音声認識モデルのオーバーライドメッセージは、例えば、音響モデル(及びそれに関連したパラメータ値群)、発音モデル(及びそれに関連したパラメータ値群)、及び、言語モデル(及びそれに関連したパラメータ値群)を含んでよい。そのようなメッセージのフォーマットの一例は、図22に示す通りである。また、「パラメータ値群」とは、一つ以上のパラメータ値である。「パラメータ値」は、パラメータ項目に対応した値である。
次に、音声認識部133が、オーバーライドを行うか否かを判断する(S620)。例えば、図22に例示のオーバーライドメッセージが受信され、且つ、オーバーライドモデルの数が0よりも大きいか否かが判断される。S620の判断結果が真の場合(S620:YES)、音声認識部133が、オーバーライドモデル取得を行う(S625)。オーバーライドモデル取得の詳細の一例は、図23に示す通りである。オーバーライドモデル取得では、受信されたオーバーライドメッセージに関連して、関連した発音モデル及びモデルパラメータ値群の選択が実行される。
S620の判断結果が偽の場合(S620:NO)、音声認識部133が、発音モデル(及びそれに関連したパラメータ値群)を、現在状態テーブル1801に従って、発音モデル選択テーブル1101(図11参照)から取得する(S640)。例えば、発音モデル選択テーブル1101の値「言語」及び値「性別」が、現在状態テーブル1801の値「言語」及び値「性別」と比較される。値「発音モデル」は、例えば、発音モデルそれ自体への参照でよい。発音モデルそれ自体の位置は、例えば、次のようにして特定可能である。すなわち、図14のモデル参照テーブル1401から、モデル値「発音」と、発音モデル選択テーブル1101から選択された値「発音モデル」と同じ値「番号」とを含んだエントリが特定される。当該エントリにおける値「ファイル名」が、選択されることになる発音モデルそれ自体(例えばインスタンス)の位置を示す。発音モデル選択テーブル1101から選択されたエントリにおけるパラメータ値群(例えば、モデルパラメータ1及びモデルパラメータ2等の値)が、その後の音声認識のために使用されることになる発音モデルのパラメータ値群として選択される。モデルパラメータ値群は、発音モデルを用いた音声認識において使用されるパラメータ値群である。例えば、発音モデル選択テーブル1101の複数のエントリがマッチする場合には、それら複数のエントリのうちの一つのエントリ(例えば先頭のエントリ)が、モデル及びパラメータの選択のために使用される。また、例えば、現在状態テーブル1801が空である場合には、発音モデル選択テーブル1101の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル1801からマッチしたエントリを見つけることができなかった場合には、発音モデル選択テーブル1101の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル1801が、値「言語」“English”及び値「性別」“Male”を含んでいる場合、発音モデル選択テーブル1101におけるエントリ1110がマッチする。そして、モデル参照テーブル1401のエントリ1410が、発音モデルそれ自体の位置を示す。すなわち、発音モデルそれ自体が“/models/pronunciation/1”に存在する。モデルパラメータ1の値が“α1”であり、モデルパラメータ2の値が“β3”である。
音声認識部133が、音響モデル(及びそれに関連したパラメータ値群)を、現在状態テーブル1801に従って、図12の音響モデル選択テーブル1201から取得する(S645)。例えば、音響モデル選択テーブル1201の値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」が、現在状態テーブル1801の値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」と比較される。すべての値がマッチするエントリが音響モデル選択テーブル1201から選択される。値「音響モデル」は、音響モデルそれ自体(例えばインスタンス)への参照である。音響モデルそれ自体の位置は、例えば、次のようにして特定される。すなわち、図14のモデル参照テーブル1401から、モデル値「音響」と、音響モデル選択テーブル1201から選択されたエントリにおける値「音響モデル」と同じ値「番号」とを含んだエントリが見つけられる。当該エントリにおける値「ファイル名」が、音響モデルそれ自体の位置を示す。音響モデル選択テーブル1201から選択されたエントリにおけるモデルパラメータ値群(モデルパラメータ1、モデルパラメータ2等の値)が、その後の音声認識のために使用されることになる音響モデルのパラメータ値群として選択される。例えば、音響モデル選択テーブル1201の複数のエントリがマッチする場合には、その複数のエントリのうちの一つのエントリ(例えば先頭のエントリ)が、モデルおよびパラメータ値群の選択のために使用される。また、例えば、現在状態テーブル1801が空である場合には、音響モデル選択テーブル1201の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル1801からマッチしたエントリを見つけることができなかった場合には、音響モデル選択テーブル1201の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル1801が、値「エレベーターモデル」“BBB”、値「かごサイズ」“4m2”、値「メイン素材」“Metal”、値「ノイズ環境」“Quiet”及び値「人数」“1”を含んでいる場合には、音響モデル選択テーブル1201におけるエントリ1210がマッチすることになる。そしてモデル参照テーブル1401のエントリ1420が、音響モデルそれ自体の位置を示す。すなわち、音響モデルそれ自体が“/models/acoustic/1”に存在する。モデルパラメータ1の値が“γ3”であり、モデルパラメータ2の値が“δ1”である。
音声認識部133が、言語モデル(及びそれに関連したパラメータ値群)を、現在状態テーブル1801に従って、図13の言語モデル選択テーブル1301から取得する(S650)。例えば、言語モデル選択テーブル1301の値「言語」及び値「メイントピック」が、現在状態テーブル1801の値「言語」及び値「メイントピック」と比較される。両方の値がマッチするエントリが言語モデル選択テーブル1301から選択される。値「言語モデル」は、言語モデルそれ自体(例えばインスタンス)への参照である。言語モデルそれ自体の位置は、例えば、次のようにして特定される。すなわち、図14のモデル参照テーブル1401から、モデル値「言語」と、言語モデル選択テーブル1301から選択されたエントリにおける値「言語モデル」と同じ値「番号」とを含んだエントリが見つけられる。当該エントリにおける値「ファイル名」が、言語モデルそれ自体の位置を示す。言語モデル選択テーブル1301から選択されたエントリにおけるモデルパラメータ値群(モデルパラメータ1及びモデルパラメータ2等の値)が、その後の音声認識のために使用されることになる言語モデルのパラメータ値群として選択される。例えば、言語モデル選択テーブル1301の複数のラインがマッチする場合には、それら複数のエントリのうちの一つのエントリ(例えば先頭のエントリ)が、モデルおよびパラメータ値群の選択のために使用される。また、例えば、現在状態テーブル1801が空である場合には、言語モデル選択テーブル1301の関連するエントリが、値“Undef.”に関してマッチする。更に、例えば、現在状態テーブル1801からマッチしたエントリを見つけることができなかった場合には、言語モデル選択テーブル1301の関連するエントリが、値“Undef.”に関してマッチする。具体的には、例えば、現在状態テーブル1801が、値「言語」“English”及び値「メイントピック」“Speaker’s condition”を含んでいた場合には、言語モデル選択テーブル1301におけるエントリ1310がマッチする。そして、モデル参照テーブル1401のエントリ1430が、言語モデルそれ自体の位置を示す。すなわち、言語モデルそれ自体が“/models/language/2”に存在する。モデルパラメータ1の値が“ε2”であり、モデルパラメータ2の値が“ζ4”である。
図6の処理によれば、音声認識モデル及びパラメータ値群が、オペレータからのオーバーライド、又は、現在状態に基づいて選択される。結果として、音声認識では、特定の状況および関連した環境に最も適した音声認識モデル及びパラメータ値群(例えば、音響モデル用のパラメータ値群、発音モデル用のパラメータ値群、及び言語モデル用のパラメータ値群)を使用することができる。
図7は、ボタンマッピング選択(S430)の流れを示すフローチャートである。
音声認識部133が、ボタンマッピングのオーバーライドメッセージがオペレータから受信したか否かを判断する(S710)。例えば、そのようなオーバーライドメッセージは、オペレータが緊急通信の一部としてエレベーター101へ送信している通信アイテムの一部でよい。ボタンマッピングのオーバーライドメッセージは、例えば、下記、
・固定テキストメッセージのリスト、及び、マップエーブルボタンへの固定テキストメッセージのそれぞれのマッピング、又は、
・固定テキストメッセージのリスト、及び、当該リストにおける各固定テキストメッセージの優先度、
を含んでよい。そのようなメッセージのフォーマットの一例は、図22に示す通りである。
次に、音声認識部133が、オーバーライドを行うか否かを判断する(S720)。例えば、図22に例示のオーバーライドメッセージが受信され、且つ、オーバーライドボタンの数が0よりも大きいか否かが判断される。S720の判断結果が真の場合(S720:YES)、音声認識部133が、オーバーライドボタンマッピング取得を行う(S730)。オーバーライドボタンマッピング取得の詳細の一例は、図24に示す通りである。オーバーライドボタンマッピング取得では、受信されたオーバーライドメッセージに関連して、マップエーブルボタンと固定テキストメッセージとのマッピングが実行される。
S720の判断結果が偽の場合(S720:NO)、音声認識部133が、図15の固定メッセージテーブル1501から、固定テキストメッセージ(値「固定メッセージ」)を、現在状態テーブル1801に従って選択し、選択した固定テキストメッセージを固定メッセージテーブル1501の値「優先度」の順に応じてソートし、固定テキストメッセージを上位n個(n=マップエーブルボタンの数)の固定テキストメッセージに制限し、その結果を基に、図19のボタンメッセージマッピングテーブル1901を更新する(S740)。具体的には、例えば、固定メッセージテーブル1501の値「言語」及び値「メイントピック」が、現在状態テーブル1801の値「言語」及び値「メイントピック」と比較される。両方の値がマッチする全てのエントリ(固定メッセージテーブル1501におけるエントリ)が、値「優先度」の昇順にソートされる。値「固定メッセージ」が、ボタンメッセージマッピングテーブル1901内に上から下へと、固定メッセージテーブル1501のマッチするエントリの終わりに達するまで挿入される(このケースにおいては、ボタンメッセージマッピングテーブル1901の残りの値「ボタン種類」がブランクのままにされて、マップされる値「固定メッセージ」がないことを意味する)、又は、ボタンメッセージマッピングテーブル1901の終わりに達するまで挿入される(このケースにおいては、固定メッセージテーブル1501の残りのマッチするエントリは却下される)。
図7の処理によれば、現在状態に最も関連している(又はオーバーライドに対応した)固定テキストメッセージが最大マップエーブルボタン数分選択され、それらがマップエーブルボタンにそれぞれマップされる。乗客は、所望の固定テキストメッセージがマップされたマップエーブルボタンを押下することで、当該固定テキストメッセージをコールセンタ160のオペレータに伝えることができる。
図8は、音声認識(S440)の流れを示すフローチャートである。
音声認識部133が、マイクロフォン114によって取り込まれたオーディオ信号をサンプリングする(S810)。
次に、音声認識部133が、図6のモデル選択において取得された発音モデル、音響モデル及び言語モデル、並びに、それらに関連したパラメータ値群を使用して、サンプリングされたオーディオに音声認識を適用する。例えば、音声認識のための方法としては、様々な方法のうちの少なくとも一つを適用することができるようなものである。
最後に、音声認識部133が、音声認識の結果を返す(S830)。例えば、音声認識の結果は、認識されたテキスト(例えば、連続したテキスト、別々のフレーズ、または単一のキーワード)、および音声認識に関する推定された認識エラーを含む。認識エラーは、別々のフレーズまたは単一のキーワードの推定された認識エラーの合計(例えば、それを何らかの係数または定数によってさらに調整したもの)であることが可能である。
図8の処理によれば、現在状態に適した音声認識を行うことができる。
図9は、ボタンマッピング提示(S455)の流れを示すフローチャートである。
音声認識部133が、固定テキストメッセージ及びボタン使用に関する情報である提示情報を聴覚的に(又は視覚的に)提示する(S910)。例えば、提示情報は、固定テキストメッセージとボタンとのマッピングに関する情報を含む。提示情報は、エレベーターのボタンを使用する通信が可能にされていることの説明を含んでもよい。当該説明は、例えば、事前に録音されたサンプルとして例えばセカンダリメモリ230に格納されていてよい。また、例えば、提示情報は、テキスト形式で格納され、何らかの形式のテキスト/発話合成が、そのテキストを、発話に似ている音へと転換されてよい。
音声認識部133が、エレベーター101内の図示しないディスプレイが利用可能であるか否かを判断する(S920)。例えば、現在状態テーブル1801における値「ディスプレイ利用可?」が参照される。
S920の判断結果が真の場合(S920:YES)、すなわち、乗りかご110内でディスプレイが利用可能である場合には、音声認識部133が、S910において聴覚的に提示された情報と同様の情報を、エレベーター101内のディスプレイに表示する(S930)。表示される情報は、S910において提示された情報とは異なってよい。その後、音声認識部133が、固定テキストメッセージとボタンとのマッピングに関する情報を、ボタンメッセージマッピングテーブル1901に従いエレベーター101内のディスプレイに表示する(S940)。
S920の判断結果が偽の場合(S920:NO)、音声認識部133が、ボタンメッセージマッピングテーブル1901が示すマッピングに関する情報を聴覚的に提示する(S950)。この提示は、例えば、S910と同様の方法で行われてよい。
図9の処理によれば、エレベーター101のボタンと固定テキストメッセージとのマッピングに関する情報が提示される。これにより、乗客は、いずれのボタンを押下すればいずれの固定テキストメッセージがコールセンタ160に伝わるかを知ることができる。
なお、図9の処理において、視覚的な手掛かりとして、例えば、エレベーター101のボタンにおけるLEDライトが使用されてよい。そのLEDライトは、例えば、ボタンマッピングが説明されている際に音声認識部133により点滅されてよい。
図10は、ボタン選択(S475)の流れを示すフローチャートである。
音声認識部133が、押下されたボタンを認識する(S1010)。例えば、いずれのマップエーブルボタンが押下されても押下されたことを意味する信号がI/Oインターフェースデバイス260において受信される。
次に、音声認識部133が、ボタンメッセージマッピングテーブル1901における関連する固定テキストメッセージ(押下されたボタンに対応しているメッセージ)を探す(S1020)。
最後に、音声認識部133が、見つかったメッセージを返す(S1030)。なお、押下されたボタンにメッセージがマップされていなかった場合、又は、メッセージが見つからなかったという事実を伝えるその他の何らかの情報が存在している場合には、エラー通知が、乗りかご110において視覚的に又は聴覚的に提示されてよい。
図10の処理によれば、押下されたボタンに対応したメッセージを遠隔のオペレータへ伝えることができる。
本実施例では、音声認識モデルデータベース132は、図11〜図13及び図15に記載のテーブル、すなわち、図11の発音モデル選択テーブル1101、図12の音響モデル選択テーブル1201、図13の言語モデル選択テーブル1301、及び、図15の固定メッセージテーブル1501を含む。オペレータは、これらのテーブルを基に、図22に例示のフォーマットを有するオーバーライドメッセージを作成し、エレベーター101へ送信してよい。当該オーバーライドメッセージに従い、上述のオーバーライドモデル取得又はオーバーライドボタンマッピング取得がエレベーター側で行われる。
図11は、発音モデル選択テーブル1101の構成図である。
発音モデル選択テーブル1101は、音声認識に関し発音に影響し得る要素群(一以上の要素)毎に、エントリを有する。ここでの要素群は、値「言語」と値「性別」の組であるが、値「言語」と値「性別」のうちの一方が無くてもよいし、値「言語」と値「性別」の少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「言語」、値「性別」、値「発音モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。
値「発音モデル」は、値「言語」及び値「性別」の組に最適な発音モデルの番号である。当該値「発音モデル」に対応したモデルパラメータ値群は、当該発音モデルについて音声認識において使用されるパラメータ値群である。
図12は、音響モデル選択テーブル1201の構成図である。
音響モデル選択テーブル1201は、音声認識に関し音響に影響し得る要素群毎に、エントリを有する。ここでの要素群は、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」である。これらの要素のうちの一部の要素が無くてもよいし、これらの要素のうちの少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」、値「人数」、値「音響モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。
値「発音モデル」は、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「ノイズ環境」及び値「人数」の組に最適な音響モデルの番号である。当該値「音響モデル」に対応したモデルパラメータ値群は、当該音響モデルについて音声認識において使用されるパラメータ値群である。
図13は、言語モデル選択テーブル1301の構成図である。
言語モデル選択テーブル1301は、音声認識に関し言語に関わる要素群毎に、エントリを有する。ここでの要素群は、値「言語」と値「メイントピック」の組であるが、値「言語」と値「メイントピック」のうちの一方が無くてもよいし、値「言語」と値「メイントピック」の少なくとも一つに代えて又は加えて他の要素が採用されてもよい。各エントリは、値「言語」、値「メイントピック」、値「言語モデル」、及び、モデルパラメータ値群を含む。一つのエントリを例に取ると、次の通りである。
値「言語モデル」は、値「言語」及び値「メイントピック」の組に最適な言語モデルの番号である。当該値「言語モデル」に対応したモデルパラメータ値群は、当該言語モデルについて音声認識において使用されるパラメータ値群である。
図14は、モデル参照テーブル1401の構成図である。
モデル参照テーブル1401が有する各エントリは、値「モデル」、値「番号」、及び値「ファイル名」を含む。値「モデル」は、音声認識モデルの種別(本実施例では、発音、音響又は言語)を示す。値「番号」は、モデルの番号を示す。値「番号」は、図11に示した値「発音モデル」、図12に示した値「音響モデル」、及び、図13に示した値「言語モデル」のいずれかと一致し得る。
図11〜図14に示したテーブルによれば、音声認識に影響し得る各要素群について現在状態に最適なモデル及びパラメータ値群を、モデル種類毎に取得することができる。これにより、エレベーターという限られた環境での緊急通信において当該緊急通信に十分な音声認識の精度が期待できる。
図15は、固定メッセージテーブル1501の構成図である。
固定メッセージテーブル1501は、音声認識に関し言語に関わる要素群毎に、エントリを有する。つまり、ここでの要素群は、言語モデル選択テーブル1301について述べた要素群と同じ、具体的には、言語とメイントピックの組である。言語とメイントピックのうちの一方が無くてもよいし、言語とメイントピックの少なくとも一つに代えて又は加えて他の要素が採用されてもよい。また、ここでの要素群は、必ずしも言語モデル選択テーブル1301について述べた要素群と同じでなくてもよい。
各エントリは、値「言語」、値「メイントピック」、値「固定メッセージ」、及び、値「優先度」を含む。少なくとも一つの組(値「言語」及び値「メイントピック」の組)について、対応する複数の値「固定メッセージ」の値「優先度」は、緊急通信の進捗等に応じて、動的に変更されてもよい。例えば、或る組(値「言語」及び値「メイントピック」の組)について、優先度が最も高い(値「優先度」が最も小さい)固定メッセージがコールセンタ160に送信されたならば、当該固定メッセージの優先度が最下位とされ、次の優先度が最も高い優先度に更新されてもよい。
図15のテーブルによれば、音声認識に関わる各要素群について、当該要素群に一つ以上の固定メッセージと優先度が関連付けられている。これにより、現在状態に関連しないメッセージをマップエーブルボタンにマップされることを避けることができる。
図16は、メイントピックの階層構造を示す図である。
複数のメイントピックが図16に例示のような階層構造を持つことで、緊急通信において、送信されるメッセージを、段階的に詳細にしていくことができる。マップエーブルボタンに対する固定メッセージのマッピングは、図16に例示の階層構造に従い、乗りかご110内の乗客とオペレータとの間の会話の進捗に応じて(メイントピックの経路に応じて)、適宜に更新することができる。
図16に例示の階層構造は、例えば、図17のメイントピック遷移テーブル1701の構築に使用される。図16に例示の階層構造は、乗りかご内のディスプレイに表示されてもよい。メイントピックの遷移は、例えば次の通りである。緊急ボタン111が押下されたことによって緊急通信が開始されたときは、メイントピックは未だ不明である。図16の例によれば、最初のメイントピックは、“Basic information”や“Injury”等が期待される。そして、例えば、最初のメイントピックが“Injury”の場合(図示のチェックマークを参照)、次のメイントピックは、“Number of persons”や“Speaker’s condition”等であることが期待される。“Speaker’s condition”がメイントピックの場合(図示のチェックマークを参照)、次のメイントピックは、“Injury additional information A”及び“Injury additional information B”が期待される。
図17は、メイントピック遷移テーブル1701の構成図である。
メイントピック遷移テーブル1701は、メイントピックの遷移の流れ定義したテーブルである。メイントピック遷移テーブル1701は、メイントピック毎にエントリを有する。各エントリは、値「現在トピック」、値「キーワード」、値「次トピック」及び値「重み」を含む。一つのエントリを例に取ると次の通りである。
値「現在トピック」は、現在のメイントピックを示す。値「キーワード」は、一つ以上のキーワード(例えば単語)の集合である。値「次トピック」は、次のメイントピックを示す。値「重み」は、二つ以上のエントリが該当したときにいずれのエントリを採用するかに使用される値である(例えば、当該二つ以上のエントリのうち値「重み」が最も大きいエントリが採用される)。
図17の例によれば、値「キーワード」から、値「現在トピック」が決まり、結果として、一つ以上の値「次トピック」が決まる。この一つ以上の値「次トピック」から、次の値「現在トピック」が選択される。このようにして、メイントピックが遷移する。
図18は、現在状態テーブル1801の構成図である。
現在状態テーブル1801は、値「緊急ID」と、現在状態を示す情報とを含む。
値「緊急ID」は、緊急ボタン111が押下される都度に割り振られるIDを示す。
現在状態を定義する要素として、値「エレベーターモデル」、値「エレベーターモデル」、値「かごサイズ」、値「メイン素材」、値「デフォルト言語」、値「マップエーブルボタン数」及び値「ディスプレイ利用可?」のような静的な属性値もあれば、値「ノイズ環境」、値「人数」、値「言語」、値「性別」及び値「メイントピック」のような動的な属性値もある。値「人数」は、例えば、センサ群112に含まれているカメラの撮影画像を基に特定された人数を示す値でよい。値「言語」は、例えば、マイクロフォン114を介して入力された音声を基に特定された言語を示す値でよい。値「性別」は、撮影画像及び入力音声のうちの少なくとも一つを基に特定された性別を示す値でよい。値「メイントピック」は、例えば、過去送信メッセージ中のテキストに適合した値「キーワード」(図17参照)に対応する値「現在トピック」を用いて選択された値「次トピック」である。静的な属性値及び動的な属性値のいずれについても、一部の属性値が無くてもよいし、少なくとも一つの属性値に代えて又は加えて他の属性値が採用されてもよい。
図19は、ボタンメッセージマッピングテーブル1901の構成図である。
ボタンメッセージマッピングテーブル1901は、マップエーブルボタン毎にエントリを有する。各エントリは、値「ボタン種類」及び値「固定メッセージ」を含む。値「ボタン種類」は、マップエーブルボタンの種類(例えば、ドア開、ドア閉、1階等といった役割)を示す。値「固定メッセージ」は、マップエーブルボタンにマップされた固定メッセージを示す。値「ボタン種類」は、単なる数値でもよく、また、値「固定メッセージ」は、固定メッセージの格納位置へのポインタであってもよい。
図20は、過去送信メッセージテーブル2001の構成図である。
過去送信メッセージテーブル2001は、エレベーター101からコールセンタ160に過去に送信された送信メッセージに関する情報を有する。過去送信メッセージテーブル2001は、送信メッセージ毎にエントリを有する。各エントリは、値「緊急ID」、値「番号」、値「認識方法」、値「テキスト」、値「認識エラー」及び値「メイントピック」を含む。一つのエントリを例に取ると次の通りである。
値「緊急ID」は、送信メッセージ(例えば図25)が含んでいた値「緊急ID」である。値「番号」は、送信メッセージが含んでいた値「番号」である。本実施例では、一つの緊急通信について、一つの緊急IDがあり、その下位に、送信メッセージがエレベーター101から或いはコールセンタ160から送信される都度にインクリメントされる番号がある。値「緊急ID」と値「番号」の組から、送信メッセージを特定することができる。
値「認識方法」は、送信メッセージ内の値「テキスト」(テキストメッセージ)を認識した方法、具体的には、当該値「テキスト」が音声認識(“Speech recognition”)とボタン押下(“Button”)のいずれにより取得された値「テキスト」であるかを示す。値「テキスト」は、テキストメッセージである。
値「認識エラー」は、エレベーター101での音声認識において検出された認識エラー(数値)を示す。このため、値「認識方法」が“Button”の場合、値「認識エラー」は“0.0”(認識エラー無し)である。値「メイントピック」は、エレベーター101において特定された値「現在トピック」(送信メッセージ内のテキストメッセージが依存したメイントピック)を示す。
図20の過去送信メッセージテーブル2001を参照することで、乗客がオペレータへ伝えたメッセージに関する情報や当該情報の遷移(例えば、特定されたメイントピックと送信されたテキストメッセージの関係、及び、メイントピックの遷移)がわかる。
図21は、認識エラー閾値の一例を示す。
図21に例示の認識エラー閾値が、例えばプライマリメモリ220に設定される。音声認識部133は、検出された認識エラーが当該閾値を超えたことを検出した場合には、音声認識の代替としてボタン押下によりメッセージを送信するといった選択を行うことができる。
図22は、オーバーライドメッセージの構成図である。
図22に例示の構成(フォーマット)のオーバーライドメッセージは、モデルのオーバーライドにもボタンメッセージマッピングのオーバーライドにも使用することができる。オーバーライドメッセージは、コールセンタ160(オペレータ)からエレベーター101が受信する。図22に例示のオーバーライドメッセージのうちモデルのオーバーライドに関する部分のみで構成されたモデル用のオーバーライドメッセージと、図22に例示のオーバーライドメッセージのうちマッピングのオーバーライドに関する部分のみで構成されたマッピング用のオーバーライドメッセージとがあってもよい。
オーバーライドメッセージのうちモデルのオーバーライドに関する部分に関しては、例えば次の通りである。
・値「オーバーライドモデル数」がある。値「オーバーライドモデル数」は、オーバーライドされるモデルの数を示す。
・オーバーライドされるモデル毎に、値「種類」、値「番号」、一つ以上のパラメータ値がある。値「種類」は、オーバーライドされるモデルの種類(すなわち、発音、音響及び言語のいずれであるか)を示す。値「番号」は、オーバーライドされるモデルの番号を示す。パラメータ値は、オーバーライド後のパラメータ値を含む。図22の例によれば、図12に例示の音響モデル(値「音響モデル」“2”、値「モデルパラメータ1」“γ2”、値「モデルパラメータ2」“δ2”)が、音響モデル(値「音響モデル」“2”、値「モデルパラメータ1」“γ3”、値「モデルパラメータ2」“δ1”)にオーバーライドされる。オーバーライドされるモデルは、テーブルにあるモデルでもよいし、テーブルから一時領域(例えばワーク領域)に読み出されたモデル(つまり一時的なモデル)でもよい。
オーバーライドメッセージのうちマッピングのオーバーライドに関する部分に関しては、例えば次の通りである。
・値「オーバーライドボタン数」がある。値「オーバーライドボタン数」は、オーバーライドされるボタン(正確には、ボタンと固定メッセージの組)の数を示す。
・オーバーライドされるボタン毎に、値「ボタン種類」及び値「固定メッセージ」がある。値「ボタン種類」は、オーバーライドされるボタンの種類を示す。値「固定メッセージ」は、固定テキストメッセージを示す。図22の例によれば、図19に例示のマッピング(値「ボタン種類」“Open door”と値「固定メッセージ」“Somebody is injured”)が、マッピング(値「ボタン種類」“Open door”と値「固定メッセージ」“I require specific medication”)にオーバーライドされる。
図22に例示のオーバーライドメッセージに応答して、選択される音声認識モデル(及びそれに関連するパラメータ値群)、及び、選択されるボタンメッセージマッピングをオペレータから(コールセンタ160側から)オーバーライドすることができる。
図23は、オーバーライドモデル取得(S625)の流れを示すフローチャートである。
受信したオーバーライドメッセージが、例えば、図22に例示のオーバーライドメッセージであるとする。音声認識部133が、カウンタ変数Iに“1”を設定する(S2310)。
次に、音声認識部133が、オーバーライドメッセージの値「オーバーライドモデルI 種類」及び値「オーバーライドモデルI 番号」に対応したモデルを取得する(S2320)。例えば、I=1の場合、値「オーバーライドモデル1 種類」“音響”及び値「オーバーライドモデル1 番号」“2”に対応したモデルが取得される。
次に、音声認識部133が、カウンタ変数Jに“1”を設定する(S2330)。
次に、音声認識部133が、オーバーライドメッセージから値「オーバーライドモデルI パラメータ値J」を取得する(S2340)。
次に、音声認識部133が、オーバーライドメッセージにおける値「オーバーライドモデルI パラメータ数」がカウンタ変数Jよりも大きいか否か、つまり、未だ取得されていないオーバーライドパラメータ値がモデルIについて存在するか否かを判断する(S2350)。
S2350の判断結果が真の場合(S2350:YES)、音声認識部133が、カウンタ変数Jをインクリメントする(S2360)。その後、処理が、S2340に戻る。
S2350の判断結果が偽の場合(S2350:NO)、音声認識部133が、オーバーライドメッセージにおける値「オーバーライドモデル数」がカウンタ変数Iよりも大きいか否か、つまり、未だ取得されていないオーバーライドモデルが存在するか否かを判断する(S2380)。S2380の判断結果が偽の場合(S2380:NO)、処理が終了する。
S2380の判断結果が真の場合(S2380:YES)、音声認識部133が、カウンタ変数Iをインクリメントする(S2390)。その後、処理が、S2320に戻る。
図24は、オーバーライドボタンマッピング取得(S730)の流れを示すフローチャートである。
受信したオーバーライドメッセージが、例えば、図22に例示のオーバーライドメッセージであるとする。音声認識部133が、カウンタ変数Kに“1”を設定する(S2410)。
次に、音声認識部133が、オーバーライドメッセージから値「オーバーライドボタンK ボタン種類」を取得する(S2420)。例えば、K=1の場合、“Open door”が取得される。
次に、音声認識部133が、オーバーライドメッセージから値「オーバーライドボタンK 固定メッセージ」を取得する(S2430)。例えば、K=1の場合、“I require specific medication”が取得される。
次に、音声認識部133が、取得された情報に従いボタンメッセージマッピングテーブル1901を更新する(S2435)。例えば、図19の値「ボタン種類」“Open door”及び値「固定メッセージ」“Somebody is injured”が、値「ボタン種類」“Open door”及び値「固定メッセージ」“I require specific medication”にオーバーライドされる。つまり、ドア開用のボタンに、“Somebody is injured”に代えて“I require specific medication”がマップされることになる。
次に、音声認識部133が、オーバーライドメッセージにおける値「オーバーライドボタン数」がカウンタ変数Kよりも大きいか否か、つまり、未だオーバーライドが済んでいないボタンメッセージマッピングが存在するか否かを判断する(S2440)。S2440の判断結果が偽の場合(S2440:NO)、処理が終了する。
S2440の判断結果が真の場合(S2440:YES)、音声認識部133が、カウンタ変数Kをインクリメントする(S2450)。その後、処理が、S2420に戻る。
図25は、エレベーター101とコールセンタ160との間の緊急通信において送受信される送信メッセージの構成図である。
送信メッセージは、値「送信元」、値「宛先」、値「緊急ID」、値「番号」、値「テキストメッセージ」及び値「追加フィールド数」を含む。
値「送信元」は、送信メッセージの送信元を示す。値「宛先」は、送信メッセージの宛先元を示す。値「送信元」及び値「宛先」のいずれも、IDであってもよいし、IPアドレスであってもよい。
値「緊急ID」は、送信メッセージが送信される緊急通信について割り振られたIDを示す。値「番号」は、当該緊急通信における当該送信メッセージについて割り振られた番号を示す。値「緊急ID」及び値「番号」の組から、送信メッセージを特定することができる。
値「テキストメッセージ」は、音声認識又はボタン押下により得られたテキストメッセージである。
値「追加フィールド数」は、更なる属性値の数を示す。更なる属性値として、値「認識方法」、値「認識エラー」及び値「メイントピック」のうちの少なくとも一つを採用することができる。値「追加フィールド数」≧1の場合、更なる属性値それ自体も、送信メッセージに含まれる。
実施例2を説明する。その際、実施例1との相違点を主に説明し、実施例1との共通点については説明を省略又は簡略する。
図26は、実施例2に係るエレベーター側処理の概要図である。
実施例2によれば、オペレータ370からオーバーライドメッセージは送信されない。
このため、モデル選択(S420)では、図6のS640、S645及びS650が行われればよく、それ以外の処理は不要である。
また、ボタンマッピング選択(S430)では、図7のS740が行われればよく、それ以外の処理は不要である。
実施例3を説明する。その際、実施例2との相違点を主に説明し、実施例2との共通点については説明を省略又は簡略する。
図27は、実施例3に係るエレベーター側処理の概要図である。
実施例3によれば、ボタン押下による固定テキストメッセージの取得は行われない。このため、固定メッセージデータベース312、メッセージ選択340、選択メッセージ群341及びボタン選択381が不要である。
また、エレベーター側処理全体の流れにおいて、S430が不要である。また、S450:YESの場合、S455及びS460に代えて、音声認識部133が、認識不可能な発話に関する情報を視覚的に又は聴覚的に提示し、再度S440を行ってもよい。また、S470、S475及びS480は不要である。
また、現在状態テーブル1801において、値「マップエーブルボタン数」は不要である。
実施例4を説明する。その際、実施例3との相違点を主に説明し、実施例3との共通点については説明を省略又は簡略する。
図28は、実施例4に係るエレベーター側処理の概要図である。
実施例4によれば、音声認識362において使用されるモデル及びパラメータ値群は静的な属性値に基づいて予め決められている。このため、選択処理330が不要である。すなわち、更に、状態認識332、現在状態333、モデル選択334、選択モデル群335及び過去メッセージ群350が不要である。
また、エレベーター側処理全体の流れにおいて、S430の他に、S410及びS420も不要である。
音声認識モデルデータベース132には、乗りかご環境に関する静的な属性値群(一つ以上の静的な属性値)に基づき、発音、音響及び言語の各々について、予め、音声認識モデル及びパラメータ値群が登録される。エレベーター側での音声認識では、発音、音響及び言語の各々について、常に、登録されている音声認識モデル及びパラメータ値群が使用される。
以上、幾つかの実施例を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施例にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。
例えば、緊急通信において、テキストベースのメッセージ通信は、IPネットワークの品質に関わらず行われてもよい(言い換えれば、VoIPに代えて、常に、テキストベースのメッセージ通信が行われてもよい)。
また、例えば、音声認識モデルに関連付けられる属性値群は、静的な属性値群(一つ以上の静的な属性値)及び動的な属性値群(一つ以上の動的な属性値)のうちの一方又は両方でよい。このため、例えば、モデル選択334では、音声認識部133は、予め用意された複数の音声認識モデル(及び複数のパラメータ値群)から、静的な属性値群と現在の動的な属性値群とのうちの少なくとも動的な属性値群を用いて、音声認識モデル(及びパラメータ値群)を選択してもよい。
また、例えば、一つの送信メッセージは、音声テキストメッセージ(音声認識により得られたテキストメッセージ)と固定テキストメッセージ(ボタン押下により得られたテキストメッセージ)とのうちの一方又は両方を含んでよい。
また、例えば、音声認識部133は、認識エラーが閾値を超えたか否かに関わらずにボタンマッピング選択を行ってもよい。この場合、音声認識部133は、認識エラーが閾値を超えた場合に、ボタンマッピング提示を行ってよい。
以上の説明を、例えば、下記のように総括することができる。
第1の例示的な観点によれば、通信装置130が、乗りかご110内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納する。一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値である。一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値である。緊急ボタン111が使用されることで開始された緊急通信において、通信装置130が、一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、マイクロフォン114を介して入力された音声の音声認識を行う。通信装置130が、当該音声認識により得られたテキストメッセージを含む送信メッセージを、IPネットワーク150を介してコールセンタ160(監視センタの一例)へ送信する。これにより、ハードウェア計算資源が制限されたエレベーター側で音声認識を行ってもエレベーター用の緊急通信に十分な音声認識精度を維持することができる。
第2の例示的な観点によれば、第1の例示的な観点において、一つ又は複数の属性値群の各々は、静的な属性値群と動的な属性値群の少なくとも一つを含む。静的な属性値群は、それぞれが不変の一つ以上の静的な属性値である。動的な属性値群は、それぞれが動的に変わり得る一つ以上の動的な属性値である。これにより、静的な属性値群及び動的な属性値群の一方又は両方に従う音声認識モデルが使用されるので、様々なエレベーター環境について音声認識を適用することができる。
第3の例示的な観点によれば、第2の例示的な観点において、静的な属性値群は、エレベーターのモデル、乗りかごのサイズ、及び、乗りかごのメイン素材、のうちの少なくとも一つの静的な属性値を含む。当該少なくとも一つの静的な属性値は、乗りかご環境に影響する度合いが比較的強い属性値であり、故に、十分な音声認識精度の維持が期待できる。
第4の例示的な観点によれば、第2又は第3の例示的な観点において、通信装置130が、乗りかご環境を定義する一つ又は複数の動的な属性値を含んだ情報であり乗りかご環境を示す情報である現在状態テーブル1801(現在状態情報の一例)に含まれる一つ又は複数の動的な属性値に適合した一つ以上の属性値群にそれぞれ対応した一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルに関連する一つ以上のパラメータ値群を選択する。該当の一つ以上の音声認識モデルは、当該選択された一つ以上の音声認識モデルである。乗りかご110のセンサ群112により定期的に又は不定期的に得られた情報に基づき現在状態テーブル1801が定期的に又は不定期的に更新される。このように、乗りかご110のセンサ群112により得られた情報に従い更新される現在状態テーブル1801は動的な属性値を含み、予め用意される音声認識モデルは動的な属性値に関連付けられているので、乗りかご環境の変化に応じた音声認識を維持することができる。
第5の例示的な観点によれば、第4の例示的な観点において、一つ又は複数の動的な属性値は、乗りかご110内の人数、乗りかご110の積載量、話者が使用する言語、話者の性別、及び、発話のメイントピック、のうちの少なくとも一つの動的な属性値を含む。当該少なくとも一つの動的な属性値は、乗りかご環境に影響する度合いが比較的強い属性値であり、故に、十分な音声認識精度の維持が期待できる。
第6の例示的な観点によれば、第1乃至第5の例示的な観点のいずれかにおいて、一つ又は複数の音声認識モデルは、下記のうちの少なくとも一つ、
・それぞれが発音に関する音声認識モデルである一つ又は複数の発音モデル、
・それぞれが音響に関する音声認識モデルである一つ又は複数の音響モデル、
・それぞれが言語に関する音声認識モデルである一つ又は複数の言語モデル、
を含む。発音、音響及び言語の少なくとも一つについて音声認識モデルが使用される。このため、緊急通信に十分な音声認識精度の維持が期待できる。発音、音響及び言語の各々について音声認識モデル及びパラメータ値群が使用されることが好ましい。更に、第5の例示的な観点についていえば、一つ又は複数の発音モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及び性別を含んでよく、一つ又は複数の音響モデルの各々について、関連付けられる属性値群は、動的な属性値として人数を含んでよく、一つ又は複数の言語モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及びメイントピックを含んでよい。これにより、緊急通信に十分な音声認識精度の維持が一層期待できる。
第7の例示的な観点によれば、第5又は第6の例示的な観点において、通信装置130は、過去送信メッセージ中(例えば、過去送信メッセージテーブル2001中)のテキストメッセージを用いて、メイントピック遷移テーブル1701(メイントピック遷移情報の一例)から、当該過去送信メッセージに対応したメイントピックの次のメイントピックを特定する。通信装置130は、当該特定された次のメイントピックを現在のメイントピックとして現在状態テーブル1801に格納する。メイントピック遷移情報は、複数のメイントピックの各々について、当該メイントピックに対応したキーワードと、複数のメイントピックの各々について次のメイントピックとを示す情報である。過去送信メッセージに対応したメイントピックは、メイントピック遷移テーブル1701が示す複数のメイントピック(例えば値「現在トピック」)のうち、過去送信メッセージ中のテキストメッセージが含むキーワードに対応したメイントピックである。これにより、音声認識モデルの選択のために参照される現在状態テーブル1801には、今回の音声認識で採用されると推定されたメイントピックを現在のメイントピックとすることができ、結果として、音声認識精度の向上が期待できる。
第8の例示的な観点によれば、第4乃至第7の例示的な観点のいずれかにおいて、乗りかご110は、緊急ボタン111を含む複数のボタンを有する。複数のボタンは、機械式のボタン、タッチパネル上に表示されたボタン、及びそれらの混在でよい。複数のボタンのうちの二つ以上のボタンの各々は、テキストメッセージが割り当てられ得るボタンであるマップエーブルボタンである。通信装置130は、現在状態テーブル1801に適合する一つ以上のテキストメッセージを、複数のテキストメッセージを含む情報である固定メッセージテーブル1501(固定メッセージ情報の一例)から選択し、当該選択した一つ以上のテキストメッセージを一つ以上のマップエーブルボタンにマップする。通信装置130は、音声認識により得られたテキストメッセージに代えて又は加えて、複数のボタンのうち押された(例えばタッチされた)マップエーブルボタンにマップされているテキストメッセージを送信メッセージに含め、当該送信メッセージを、IPネットワーク150を介してコールセンタ160へ送信する。これにより、音声認識精度がたとえ不十分であったとしても、乗りかごに通常存在するボタンを利用することで新たな資源を追加することなく、コールセンタ160に正確なメッセージを伝達することが期待できる。
第9の例示的な観点によれば、第8の例示的な観点において、一つ又は複数の動的な属性値は、話者が使用する言語、及び、発話のメイントピックを含む。固定メッセージテーブル1501は、複数のテキストメッセージの各々について、当該テキストメッセージに関連付けられた言語及びメイントピックを含む。上記選択された一つ以上のテキストメッセージの各々は、現在状態テーブル1801が含む言語及びメイントピックに適合するテキストメッセージである。これにより、マップエーブルボタンにマップされるテキストメッセージが適切であることがより期待できる。
第10の例示的な観点によれば、第9の例示的な観点において、固定メッセージテーブル1501は、複数のテキストメッセージの各々について、更に、当該テキストメッセージに関連付けられ同一のメイントピックについての優先度を含む。マップされるテキストメッセージの数は、マップエーブルボタンの数と、現在状態テーブル1801が示すメイントピックについての優先度とに依存する。これにより、マップエーブルボタンの数は限られているが、その限られた範囲において現在の乗りかご環境に適切なテキストメッセージをマップすることができる。
第11の例示的な観点によれば、第8乃至第10の例示的な観点のいずれかにおいて、通信装置130は、マッピングのオーバーライド指示(例えば上述のオーバーライドメッセージ)をコールセンタ160から受け付ける。通信装置130、当該オーバーライド指示に従い、マップエーブルボタンとテキストメッセージとのマッピングを更新する(例えば、オーバーライドボタンマッピング取得(S730))。このようにして、ボタンメッセージマッピングに関し、コールセンタ160のオペレータの知識又は経験を利用することができる。
第12の例示的な観点によれば、第1乃至第11の例示的な観点のいずれかにおいて、通信装置130は、音声認識モデル及びパラメータ値群のオーバーライド指示(例えば上述のオーバーライドメッセージ)をコールセンタ160から受け付ける。当該オーバーライド指示に従い、例えば上述のオーバーライドモデル取得(S625)が行われ、結果として、音声認識において使用される一つ以上の音声認識モデルの各々は、当該オーバーライド指示に従う音声認識モデルであり、当該音声認識に使用されるパラメータ値群は、当該オーバーライド指示に従うパラメータ値群である。このようにして、モデル選択に関し、コールセンタ160のオペレータの知識又は経験を利用することができる。
101:エレベーター
130:通信装置
131:VoIP制御部
132:音声認識モデルデータベース
133:音声認識部

Claims (14)

  1. 緊急ボタン、スピーカ及びマイクロフォンを有する乗りかごと、監視センタが接続されているIPネットワークと前記スピーカ及び前記マイクロフォンとに接続され前記IPネットワークを介して前記監視センタと通信を行う通信装置とを備えたエレベーターであって、
    前記通信装置が、前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納し、
    前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
    前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
    前記緊急ボタンが使用されることで開始された緊急通信において、前記通信装置が、
    前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、
    前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記IPネットワークを介して前記監視センタへ送信する、
    ことを特徴するエレベーター。
  2. 前記一つ又は複数の属性値群の各々は、静的な属性値群と動的な属性値群の少なくとも一つを含み、
    前記静的な属性値群は、それぞれが不変の一つ以上の静的な属性値であり、
    前記動的な属性値群は、それぞれが動的に変わり得る一つ以上の動的な属性値である、
    ことを特徴とする請求項1に記載のエレベーター。
  3. 前記静的な属性値群は、エレベーターのモデル、乗りかごのサイズ、及び、乗りかごのメイン素材、のうちの少なくとも一つの静的な属性値を含む、
    ことを特徴とする請求項2に記載のエレベーター。
  4. 前記通信装置が、前記乗りかご環境を定義する一つ又は複数の動的な属性値を含んだ情報であり前記乗りかご環境を示す情報である現在状態情報に含まれる前記一つ又は複数の動的な属性値に適合した一つ以上の属性値群にそれぞれ対応した一つ以上の音声認識モデルと、当該一つ以上の音声認識モデルに関連する一つ以上のパラメータ値群を選択し、
    前記該当の一つ以上の音声認識モデルは、前記選択された一つ以上の音声認識モデルであり、
    前記乗りかごが、一つ以上のセンサであるセンサ群を備え、
    前記センサ群により定期的に又は不定期的に得られた情報に基づき前記現在状態情報が定期的に又は不定期的に更新される、
    ことを特徴する請求項2に記載のエレベーター。
  5. 前記一つ又は複数の動的な属性値は、前記乗りかご内の人数、前記乗りかごの積載量、話者が使用する言語、話者の性別、及び、発話のメイントピック、のうちの少なくとも一つの動的な属性値を含む、
    ことを特徴する請求項4に記載のエレベーター。
  6. 前記一つ又は複数の音声認識モデルは、下記のうちの少なくとも一つを含み、
    それぞれが発音に関する音声認識モデルである一つ又は複数の発音モデル、
    それぞれが音響に関する音声認識モデルである一つ又は複数の音響モデル、
    それぞれが言語に関する音声認識モデルである一つ又は複数の言語モデル、
    前記一つ又は複数の発音モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及び性別を含み、
    前記一つ又は複数の音響モデルの各々について、関連付けられる属性値群は、動的な属性値として人数を含み、
    前記一つ又は複数の言語モデルの各々について、関連付けられる属性値群は、動的な属性値として言語及びメイントピックを含み、
    前記選択された一つ以上の音声認識モデルは、発音モデル、音響モデル及び言語モデルのうちの少なくとも一つを含む、
    ことを特徴する請求項5に記載のエレベーター。
  7. 前記通信装置は、
    過去送信メッセージ中のテキストメッセージを用いて、メイントピック遷移情報から、当該過去送信メッセージに対応したメイントピックの次のメイントピックを特定し、
    当該特定された次のメイントピックを現在のメイントピックとして前記現在状態情報に格納し、
    前記メイントピック遷移情報は、複数のメイントピックの各々について、当該メイントピックに対応したキーワードと、前記複数のメイントピックの各々について次のメイントピックとを示す情報であり、
    前記過去送信メッセージに対応したメイントピックは、前記複数のメイントピックのうち、前記過去送信メッセージ中のテキストメッセージが含むキーワードに対応したメイントピックである、
    ことを特徴する請求項5に記載のエレベーター。
  8. 前記乗りかごは、前記緊急ボタンを含む複数のボタンを有し、
    前記複数のボタンのうちの二つ以上のボタンの各々は、テキストメッセージが割り当てられ得るボタンであるマップエーブルボタンであり、
    前記通信装置は、
    前記現在状態情報に適合する一つ以上のテキストメッセージを、複数のテキストメッセージを含む情報である固定メッセージ情報から選択し、
    前記選択した一つ以上のテキストメッセージを一つ以上のマップエーブルボタンにマップし、
    前記音声認識により得られたテキストメッセージに代えて又は加えて、前記複数のボタンのうち押されたマップエーブルボタンにマップされているテキストメッセージを送信メッセージに含め、当該送信メッセージを、前記IPネットワークを介して前記監視センタへ送信する、
    ことを特徴する請求項4に記載のエレベーター。
  9. 前記一つ又は複数の動的な属性値は、話者が使用する言語、及び、発話のメイントピックを含み、
    前記固定メッセージ情報は、前記複数のテキストメッセージの各々について、当該テキストメッセージに関連付けられた言語及びメイントピックを含み、
    前記選択された一つ以上のテキストメッセージの各々は、前記現在状態情報が含む言語及びメイントピックに適合するテキストメッセージである、
    ことを特徴する請求項8に記載のエレベーター。
  10. 前記固定メッセージ情報は、前記複数のテキストメッセージの各々について、更に、当該テキストメッセージに関連付けられ同一のメイントピックについての優先度を含み、
    前記マップされるテキストメッセージの数は、マップエーブルボタンの数と、前記現在状態情報が示すメイントピックについての優先度とに依存する、
    ことを特徴する請求項9に記載のエレベーター。
  11. 前記通信装置は、
    マッピングのオーバーライド指示を前記監視センタから受け付け、
    当該オーバーライド指示に従い、マップエーブルボタンとテキストメッセージとのマッピングを更新する、
    ことを特徴する請求項8に記載のエレベーター。
  12. 前記通信装置は、音声認識モデル及びパラメータ値群のオーバーライド指示を前記監視センタから受け付け、
    前記該当の一つ以上の音声認識モデルの各々は、前記オーバーライド指示に従う音声認識モデルであり、
    前記該当の一つ以上の音声認識モデルの各々について、当該音声認識モデルに関連したパラメータ値群は、前記オーバーライド指示に従うパラメータ値群である、
    ことを特徴する請求項1に記載のエレベーター。
  13. 乗りかごが有するスピーカ及びマイクロフォンと監視センタが接続されているIPネットワークとに接続されエレベーターに備えられた通信装置が行う通信支援方法であって、
    前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを格納し、
    前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
    前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
    前記緊急ボタンが使用されることで開始された緊急通信において、
    前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、
    前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記IPネットワークを介して前記監視センタへ送信する、
    ことを特徴する通信支援方法。
  14. 乗りかごが有するスピーカ及びマイクロフォンと監視センタが接続されているIPネットワークとに接続されるようにエレベーターに搭載される通信装置であって、
    前記スピーカ、前記マイクロフォン、及び前記IPネットワークに接続されるインターフェースユニットと、
    前記乗りかご内でされた発話の音声認識の精度に影響する乗りかご環境を定義する一つ又は複数の属性値群に基づき用意された一つ又は複数の音声認識モデルとそれらに関連する一つ又は複数のパラメータ値群とを記憶する記憶ユニットと、
    前記一つ又は複数の属性値群の各々は、一つ以上の属性項目にそれぞれ対応した一つ以上の属性値であり、
    前記一つ又は複数の音声認識モデルの各々について、当該音声認識モデルに関連するパラメータ値群は、当該音声認識モデルを使用した音声認識において使用される一つ以上のパラメータ値であり、
    前記インターフェースユニット及び前記記憶ユニットに接続されており、前記緊急ボタンが使用されることで開始された緊急通信において、前記一つ又は複数の音声認識モデルのうちの該当の一つ以上の音声認識モデルと、前記一つ以上の音声認識モデルの各々について当該音声認識モデルに関連するパラメータ値群とを使用して、前記マイクロフォンを介して入力された音声の音声認識を行い、前記音声認識により得られたテキストメッセージを含む送信メッセージを、前記IPネットワークを介して前記監視センタへ送信するプロセッサユニットと
    を備えることを特徴とする通信装置。
JP2018197920A 2018-10-19 2018-10-19 エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 Pending JP2020066472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018197920A JP2020066472A (ja) 2018-10-19 2018-10-19 エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018197920A JP2020066472A (ja) 2018-10-19 2018-10-19 エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Publications (1)

Publication Number Publication Date
JP2020066472A true JP2020066472A (ja) 2020-04-30

Family

ID=70389466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018197920A Pending JP2020066472A (ja) 2018-10-19 2018-10-19 エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Country Status (1)

Country Link
JP (1) JP2020066472A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111891857A (zh) * 2020-08-05 2020-11-06 田小华 一种电梯语音智能控制方法及系统
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229584A (ja) * 2001-01-31 2002-08-16 Toyota Central Res & Dev Lab Inc 音声認識方法、音声情報検索方法、プログラム、記録媒体、音声認識システム、音声認識用サーバ・コンピュータおよび音声情報検索用サーバ・コンピュータ
JP2016044054A (ja) * 2014-08-25 2016-04-04 株式会社日立製作所 遠隔監視システム及び遠隔監視方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229584A (ja) * 2001-01-31 2002-08-16 Toyota Central Res & Dev Lab Inc 音声認識方法、音声情報検索方法、プログラム、記録媒体、音声認識システム、音声認識用サーバ・コンピュータおよび音声情報検索用サーバ・コンピュータ
JP2016044054A (ja) * 2014-08-25 2016-04-04 株式会社日立製作所 遠隔監視システム及び遠隔監視方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
JP7242520B2 (ja) 2019-07-11 2023-03-20 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
CN111891857A (zh) * 2020-08-05 2020-11-06 田小华 一种电梯语音智能控制方法及系统

Similar Documents

Publication Publication Date Title
US11356730B2 (en) Systems and methods for routing content to an associated output device
US11289087B2 (en) Context-based device arbitration
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
US11949818B1 (en) Selecting user device during communications session
US20170133012A1 (en) Voice control method and voice control system
CN111989741A (zh) 具有动态可切换端点的基于语音的用户接口
US11776541B2 (en) Communicating announcements
EP4195025A1 (en) Systems and methods for routing content to an associated output device
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
JP2013205523A (ja) 応答生成装置、応答生成方法および応答生成プログラム
JP2020066472A (ja) エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法
JPWO2012137284A1 (ja) エレベータの行先階登録装置
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP2020101822A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
US20210241755A1 (en) Information-processing device and information-processing method
US20190035420A1 (en) Information processing device, information processing method, and program
JP2014109998A (ja) 対話装置及びコンピュータ対話方法
WO2020158171A1 (ja) 応答エージェントを選択する情報処理装置
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
US20210134272A1 (en) Information processing device, information processing system, information processing method, and program
JP2003015689A (ja) 音声操作装置
WO2021140816A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6697172B1 (ja) 情報処理装置および情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220506

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221101