JP2023117120A

JP2023117120A - エレベータ用の音声認識システム

Info

Publication number: JP2023117120A
Application number: JP2022019655A
Authority: JP
Inventors: 行宏宮川; Yukihiro Miyagawa
Original assignee: Fujitec Co Ltd
Current assignee: Fujitec Co Ltd
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-08-23
Anticipated expiration: 2042-02-10
Also published as: JP7349072B2

Abstract

【課題】音声認識の精度を向上させることができるエレベータ用の音声認識システムを提供することを課題とする。【解決手段】かご内で集音した音データから搭乗者の音声データを抽出し且つ該音声データの発生源の位置を特定する処理を実行する音処理手段２と、かご内を撮像した画像データに基づいて搭乗者の位置を特定する処理を実行する画像処理手段３と、前記音処理手段２で抽出した前記音声データのうち、前記発生源の位置が前記画像処理手段３で特定した前記搭乗者の位置と同じものに対して音声認識を行う音声認識手段６と、を備える、エレベータ用の音声認識システム１。【選択図】図１

Description

本発明は、エレベータの搭乗者の音声を認識するためのエレベータ用の音声認識システムに関する。

従来、エレベータには、搭乗者の音声を認識する音声認識システムが搭載されているものがあり、例えば、特許文献１のエレベータには、かご内マイクで集音した音声を認識し、認識した音声に基づいてかご内の状況を認識する音声認識装置を備える音声認識システムが搭載されている。

特開２０１１－０７３８１９号公報

ところで、上記従来のような音声認識システムのかご内マイクには、音声認識の対象とした搭乗者の音声だけでなく、音声認識の対象外の搭乗者の音声や環境音も入るため、音声認識装置が正しく音声を認識できないことがある。

そこで、本発明は、かかる実情に鑑み、音声認識の精度を向上させることができるエレベータ用の音声認識システムの提供を課題とする。

本発明のエレベータ用の音声認識システムは、
かご内で集音した音データから搭乗者の音声データを抽出し且つ該音声データの発生源の位置を特定する処理を実行する音処理手段と、
かご内を撮像した画像データに基づいて搭乗者の位置を特定する処理を実行する画像処理手段と、
前記音処理手段で抽出した前記音声データのうち、前記発生源の位置が前記画像処理手段で特定した前記搭乗者の位置と同じものに対して音声認識を行う音声認識手段と、を備える。

上記構成のエレベータ用の音声認識システムは、搭乗者の音声の発生源の位置と搭乗者の立ち位置の対応関係が一致している音声データに対して音声認識手段が音声認識を行えるように構成されているため、音声認識の対象とすべき音声データとは別の音声データに音声認識をしてしまうことが抑えられ、これにより、音声認識の精度が向上するようになっている。

本発明のエレベータ用の音声認識システムは、
前記音処理手段は、前記音声データに基づいて発声元の搭乗者の特徴を示す音声特徴情報を抽出する音声特徴抽出手段を有するように構成されていてもよい。

このようにすれば、搭乗者の特徴を示す情報を用いることができるため、音声認識を行うべき対象であるか否かの判定や音声認識の精度を高めることができる。

本発明のエレベータ用の音声認識システムは、
前記画像処理手段は、前記画像データに写る搭乗者の特徴を示す被写体特徴情報を抽出する被写体特徴抽出手段を有するように構成されていてもよい。

この場合においても、搭乗者の特徴を示す情報を用いることができるため、音声認識を行うべき対象であるか否かの判定や音声認識の精度を高めることができる。

本発明のエレベータ用の音声認識システムは、
前記画像データに写る搭乗者の挙動に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する挙動判定手段を備え、
前記音声認識手段は、前記発生源の位置が、前記挙動判定手段によって音声認識を行う対象とすべき搭乗者であるか判定された前記画像データが示す前記搭乗者の位置と同じである前記音声データに対して音声認識を行うように構成されていてもよい。

このようにすれば、搭乗者の動きも用いて音声認識を行うべき対象であるか否かの判定を行うことができるため、音声認識を行うべき対象であるか否かの判定精度を高めることができる。

本発明のエレベータ用の音声認識システムは、
前記音声データに基づいて抽出された言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段を備え、
前記音声認識手段は、前記言葉判定手段が音声認識を行う対象とすべき搭乗者であると判定した前記音声データに対して音声認識を行うようにしてもよい。

このようにすれば、搭乗者の言葉に基づいて音声認識を行うべき対象であるか否かの判定を行うことができるため、音声認識を行うべき対象であるか否かの判定精度を高めることができる。

以上のように、本発明のエレベータ用の音声認識システムは、音声認識の精度を向上させることができるという優れた効果を奏し得る。

図１は、本発明の一実施形態に係るエレベータ用の音声認識システムの構成の概要を示すブロック図である。図２は、同実施形態に係るエレベータ用の音声認識システムで用いる搭乗者情報の説明図である。図３は、同実施形態に係るエレベータ用の音声認識システムで用いる画像データの説明図である。図４は、同実施形態に係るエレベータ用の音声認識システムのメインフローチャートである。図５は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、音声関連情報を作成する処理の流れを示すサブフローチャートである。図６は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、画像処理手段を作成する処理の流れを示すサブフローチャートである。図７は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、搭乗者情報を作成する処理の流れを示すサブフローチャートである。図８は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、搭乗者が連絡者であるか否かを判定する処理の流れを示すサブローチャートである。

以下、本発明の一実施形態にかかるエレベータ用の音声認識システム（以下、音声認識システムと称する）について、添付図面を参照しつつ説明する。

音声認識システムは、かご内の搭乗者の音声に対して音声認識を行うように構成されたシステムである。また、本実施形態では、かご内の搭乗者のうち、外部に連絡を取ろうとしている搭乗者（本実施形態では連絡者と称する）を特定したうえで、この搭乗者の音声を認識できるように構成されていることを一例に挙げて音声認識システムの説明を行う。

なお、音声認識システムで音声認識を行う対象とするかごは、例えば、図１に示すように、かご内の音を集音する集音装置Ｍと、かご内を撮像する撮像装置Ｃと、かごの外部に連絡をとるための外部連絡装置Ｔ（図３参照）とが設置されているものであればよい。

本発明の音声認識システム１は、かご内で集音した音データに基づいて、搭乗者一人ごとに該搭乗者の音声データを含む音声関連情報を作成する処理を実行する音処理手段２と、かご内を撮像した画像データに基づいて、搭乗者一人ごとに該搭乗者が写る被写体データを含む被写体関連情報を作成する処理を実行する画像処理手段３と、同一の搭乗者の音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成する搭乗者情報作成手段４と、搭乗者情報に基づいて音声認識を行う対象とする搭乗者を選択する対象選択手段５と、対象選択手段５が音声認識を行う対象として選択した搭乗者の音声データに対して音声認識を行う音声認識手段６と、を備える。

音処理手段２は、音データを取得する音データ取得手段２０と、音データ取得手段２０で取得した音データから搭乗者ごとの音声データを作成する音声作成手段２１と、音声作成手段２１が作成した音声データに基づいて音声の発生源（搭乗者の位置を示す情報であり、本実施形態では音声位置情報と称する）を導出する音声位置導出手段２２と、音声作成手段２１が抽出した音声データに基づいて発声元の搭乗者の特徴を示す情報（本実施形態では音声特徴情報と称する）を導出する音声特徴導出手段２３と、を有する。

音データ取得手段２０が取得する音データとは、かご内に設置されている集音装置Ｍが集音した音データのことである。また、音データ取得手段２０は、集音装置Ｍから直接的に音データを取得してもよいし、集音装置Ｍによって集音された後に記憶手段に記憶された音データを取得するように構成されていてもよい（すなわち、集音装置Ｍから間接的に音データを取得するように構成されていてもよい。

音声作成手段２１は、音データから雑音を除去する雑音除去処理と、雑音除去処理で雑音を除去した音データから搭乗者一人ごとの音声データを作成する音声抽出処理と、を実行するように構成されている。

雑音除去処理において音データから除去する雑音とは、搭乗者がいない状態のかご内で集音できる音のことであり、かごの動作音や、かご内でのアナウンス、かご外から入り込む外部の環境音等のことである。

さらに、雑音除去処理は、予め作成されている雑音のデータを取得し、該雑音のデータに基づいて音データから雑音の成分（雑音のデータに含まれている音成分と同一又は略同一の音成分）を除去するように構成されていればよい。

音声抽出処理は、音データから搭乗者の音声に該当する部分を切り出すことによって音声データを作成してもよいし、音データから搭乗者の音声成分を分離することによって音声データを作成するように構成されていてもよい。すなわち、音声抽出処理は、搭乗者一人分の音声が入った音声データを作成するように構成されていればよい。

音声位置導出手段２２は、例えば、かご内に設置した複数の集音装置Ｍによって集音した複数の音データに基づいて音源位置情報を導出するように構成されていればよい。この場合、音声位置導出手段２２は、複数の音データを比較して音の伝わる速さの差や、音圧の差を導出し、これらの情報と、各集音装置の設置位置等の情報とに基づいて音声の発生源の位置を導出するように構成されていればよい。

また、音声位置情報は、かご内の所定の範囲のエリア（例えば、かご内を前後方向と左右方向とで区画することで設定した複数のエリア）の位置を示す情報であってもよいし、かご内における前後方向と左右方向の座標を示す情報であってもよい。

音声特徴導出手段２３は、音声データに基づいて音声成分（搭乗者の音声成分）の特徴を導出する音声成分導出処理と、音声成分導出処理で抽出した音声成分に基づいて搭乗者の特徴を示す音声特徴情報を導出する音声特徴導出処理とを実行するように構成されている。

音声成分導出処理は、例えば、ケプストラム分析により、音声データから搭乗者の音声成分を導出するように構成されていればよい。また、音声成分導出処理で導出する音声成分とは、例えば、音の大きさや、高さ、音色等のことである。

音声特徴導出処理は、音声成分導出処理で抽出した音声成分に基づいて性別や、年齢層等の搭乗者の外見に関連する特徴を導出するように構成されていればよい。

ここで、図２に示すように、本実施形態の音処理手段２では、音声位置導出手段２２が抽出した音源位置情報Ｄ１１は音声データＤ１０に関連付けられ、音声特徴導出手段２３が音声特徴導出処理で導出した音声特徴情報Ｄ１２は音声データＤ１０に関連付ける。そのため、音声関連情報Ｄ１には、音声データＤ１０と、音源位置情報Ｄ１１と、音声特徴情報Ｄ１２とが含まれる。

画像処理手段３は、画像データを取得する画像データ取得手段３０と、画像データ取得手段３０で取得した画像データから搭乗者ごとの被写体データを抽出する被写体抽出手段３１と、被写体抽出手段３１が抽出した被写体データに基づいて搭乗者の位置情報（以下、被写体位置情報と称する）を導出する被写体位置導出手段３２と、被写体抽出手段３１が抽出した被写体データに基づいて被写体（搭乗者）の挙動を導出する挙動導出手段３３と、被写体抽出手段３１が抽出した被写体データに基づいて被写体（搭乗者）の特徴を示す情報（本実施形態では被写体特徴情報と称する）を導出する被写体特徴導出手段３４と、を有する。

画像データ取得手段３０が取得する画像データとは、かご内に設置されている撮像装置Ｃ（例えば、カメラ等）が撮像した画像のことである。また、画像データ取得手段３０は、撮像装置Ｃから直接的に画像データを取得してもよいし、撮像装置Ｃによって撮像された後に記憶手段に記憶された画像データを取得するように構成されていてもよい（すなわち、撮像装置Ｃから間接的に画像データを取得するように構成されていてもよい）。

被写体抽出手段３１は、画像データ内で搭乗者が写っている領域を指定する。本実施形態では、図３に示すように、画像データＰに対して複数の区画領域Ｐ１が設定されており、被写体抽出手段３１は、複数の区画領域Ｐ１のうち、搭乗者（Ｈ１，Ｈ２）が写っている区画領域Ｐ１を指定し、該区画領域Ｐ１を被写体データとするように構成されている。

図３では、連絡者である搭乗者に符号「Ｈ１」を付し、連絡者でない搭乗者には符号「Ｈ２」を付している。

なお、画像データＰは、動画であってもよいし、静止画であってもよい。画像データＰを静止画とする場合は、例えば、時系列順に連続する複数の静止画を一つの画像データとすればよい。

被写体位置導出手段３２は、被写体抽出手段３１が抽出した被写体データに基づいて搭乗者の位置情報（かご内における搭乗者の位置を示す情報）を導出する。

被写体位置導出手段３２は、例えば、画像データＰ内での被写体データ（区画領域）Ｐ１の位置に基づいて搭乗者位置情報を導出するように構成されていてもよい。この場合、画像データの各区画領域には、予めかご内の対応する位置が関連付けておき、被写体位置導出手段３２は、被写体抽出手段３１が抽出した被写体データ（区画領域）Ｐの位置を搭乗者位置情報とするように構成されていればよい。

挙動導出手段３３は、図１に示すように、搭乗者の挙動を導出する挙動導出処理と、挙動導出処理で抽出した搭乗者の挙動に基づいて、搭乗者がかごの外部に連絡をとろうとしている連絡者であるか否かを判定する連絡者判定処理と、連絡者判定処理の判定結果に基づいて搭乗者がかごの外部に連絡をとろうとしている連絡者であることを示す連絡者情報、又は搭乗者がかごの外部に連絡をとろうとしている連絡者ではないことを示す非連絡者情報を被写体データに関連付ける連絡者情報付与処理と、を実行するように構成されている。

本実施形態の挙動導出処理は、搭乗者の挙動の有無を判定し、搭乗者に挙動が有ると判定した場合は、搭乗者の挙動の種類と、搭乗者の向きとを導出するように構成されている。

挙動導出処理は、例えば、搭乗者の挙動の種類として、搭乗者が発話していると認められる発話動作や、搭乗者が発話していないと認められる非発話動作を導出するように構成されていればよい。

また、挙動導出処理は、例えば、搭乗者の向きとして、搭乗者が外部連絡装置の方に向いているか、搭乗者が外部連絡装置とは別の方に向いているかを導出するように構成されていればよい。

連絡者判定処理は、挙動導出処理で導出した搭乗者の挙動の種類が発話動作であり、且つ搭乗者の向きが外部連絡装置の方である場合は搭乗者が連絡者であると判定し、挙動導出処理で搭乗者に挙動がないと判定した場合、若しくは、搭乗者の挙動の種類が非発話動作であると導出されるか、搭乗者の向きが搭乗者の挙動の種類が非発話動作であると導出された場合に、搭乗者が連絡者ではないと判定するように構成されている。

連絡者情報付与処理は、図２に示すように、連絡者判定処理で搭乗者が連絡者であると判定した場合は被写体データＤ２０に連絡者情報Ｄ２２を関連付け、連絡者判定処理で搭乗者が連絡者でないと判定した場合は被写体データＤ２０に非連絡者情報Ｄ２３を関連付けるように構成されている。

被写体特徴抽出手段で抽出する搭乗者の特徴も、性別や、年齢層等の搭乗者の外見に関連する特徴である。

ここで、本実施形態の画像処理手段３では、被写体位置導出手段３２が抽出した被写体位置情報Ｄ２１は被写体データＤ２０に関連付けられ、被写体特徴導出手段３４が導出した被写体特徴情報Ｄ４も被写体データＤ２０に関連付けられ、また、上述のように、連絡者情報Ｄ２２又は非連絡者情報Ｄ２３も被写体データＤ２０に関連付けられる。そのため、画像関連情報Ｄ２には、被写体データＤ２０と、被写体位置情報Ｄ２１と、連絡者情報Ｄ２２又は非連絡者情報Ｄ２３の何れか一方と、被写体特徴情報Ｄ２４とが含まれている。

搭乗者情報作成手段４は、図１に示すように、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とを比較し、音声位置情報と被写体位置情報とが同じ位置を示している場合は、音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成するように構成されている。

なお、搭乗者情報作成手段４は、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とが同じ位置を示しており、且つ音声特徴情報が示す搭乗者の特徴と被写体特徴情報が示す搭乗者の特徴とが対応している場合に音声データと被写体データとを関連付けて搭乗者情報を作成するように構成されていてもよい。

対象選択手段５は、搭乗者の挙動と搭乗者が発した言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定するように構成されている。

より具体的に説明すると、対象選択手段５は、搭乗者情報を選択する選択手段５０と、搭乗者の挙動情報に基づいて音声認識を行う対象とすべき搭乗者（本実施形態では連絡者）であるか否かを判定する挙動判定手段５１と、搭乗者情報の音声データから搭乗者が発した言葉を抽出し、且つ抽出した言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段５２と、を有する。

挙動判定手段５１は、被写体データに非連絡者情報が関連付けられている場合に、搭乗者が音声認識を行う対象とすべき搭乗者（連絡者）でないと判定するように構成されている。

言葉判定手段５２は、搭乗者が連絡者であるか否かを判定するために予め設定されている判定用の言葉が音声データから抽出した言葉に含まれているか否かを判定し、音声データから抽出した言葉に判定用の言葉が含まれている場合は搭乗者を連絡者と判定し、音声データから抽出した言葉に判定用の言葉が含まれていない場合は搭乗者が連絡者でないと判定するように構成されている。判定用の言葉とは、例えば、かごの異常を示す言葉等のことである。

音声認識手段６は、挙動判定手段５１と言葉判定手段５２により連絡者が特定されていない状態においては、選択手段５０が選択した搭乗者情報に含まれる音声データの音声認識を行い、連絡者が特定されている状態においては、連絡者の搭乗者情報に含まれる音声データの音声認識を行うように構成されている。

本実施形態に係る音声認識システム１の構成は、以上の通りである。続いて、音声認識システム１の動作を説明する。

音声認識システム１は、図４に示すように、音処理手段２が音声関連情報を作成し（Ｓ１）、画像処理手段３が被写体関連情報を作成し（Ｓ２）、搭乗者情報を作成する場合（音声位置情報と被写体位置情報とが一致している場合）は（Ｓ３でＹｅｓ）、搭乗者情報作成手段４が音声関連情報と被写体関連情報とに基づいて搭乗者情報を作成する（Ｓ４）。

続いて、対象選択手段５０５が選択した搭乗者情報が連絡者のものであるか否かを判定し（Ｓ５）、対象選択手段５０５が搭乗者情報を連絡者のものであると判定した場合（Ｓ６でＹｅｓ）は、音声データに対して音声認識手段６による音声認識を行う（Ｓ７）ように構成されている。

なお、本実施形態の音声認識システムは、音声認識手段６による音声データに対する音声認識を終了した後、または、搭乗者情報を作成しない場合（Ｓ３でＮｏ）、または、対象選択手段５０５が搭乗者情報を連絡者のものでないと判定した場合（Ｓ６でＮｏ）、処理を終了するか（Ｓ８でＹｅｓ）、処理を続行するか（Ｓ８でＮｏ）を判定する。

また、図４では、音処理手段２による処理の流れの後に画像処理手段３による処理の流れを図示しているが、搭乗者情報作成手段４による処理が実行される前に音処理手段２による処理と画像処理手段３による処理とを完了させることができれば、画像処理手段３による処理の後に音処理手段２の処理が実行されてもよいし、音処理手段２による処理と画像処理手段３による処理とが並列的に処理されてもよい。

音処理手段２は、図５に示すように、音データ取得手段２０が音データを取得するまで処理を繰り返し（Ｓ１０でＮｏ）、そして、音データ取得手段２０が音データを取得すると（Ｓ１０でＹｅｓ）と、音声作成手段２１が音データ取得手段２０で取得した音データから搭乗者ごとの音声データを作成し（Ｓ１１）、音声作成手段２１によって作成された音声データに基づいて音声位置導出手段２２が音源位置情報を導出し（Ｓ１２）、さらに、音声作成手段２１によって作成された音声データに基づいて音声特徴導出手段２３が搭乗者の特徴を示す音声特徴情報を導出する（Ｓ１３）。

そして、導出された音源位置情報と音声特徴情報が音声データに関連付けられることによって、音声関連情報が作成される（Ｓ１４）。

画像処理手段３は、図６に示すように、画像データ取得手段３０が画像データを取得するまで処理を繰り返し（Ｓ２０でＮｏ）、そして、画像データ取得手段３０が画像データを取得すると（Ｓ２０でＹｅｓ）、被写体抽出手段３１が画像データ取得手段３０で取得した画像データから搭乗者ごとの被写体データを抽出し（Ｓ２１）、被写体抽出手段３１が抽出した被写体データに基づいて被写体位置導出手段３２が被写体位置情報を導出し（Ｓ２２）、被写体抽出手段３１が抽出した被写体データに基づいて挙動導出手段３３が被写体（搭乗者）の挙動を導出し、該挙動に基づいて被写体データに連絡者情報又は非連絡者情報の何れか一方を関連付け（Ｓ２３）、被写体抽出手段３１が抽出した被写体データに基づいて被写体特徴導出手段３４が被写体（搭乗者）の被写体特徴情報を導出する（Ｓ２４）。

そして、連絡者情報又は非連絡者情報の何れか一方が関連付けられている被写体データに対して被写体位置情報と被写体特徴情報とを関連付けることによって画像関連情報を作成する（Ｓ２５）。

搭乗者情報作成手段４は、図７に示すように、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とを比較し（Ｓ３０）、音声位置情報と被写体位置情報とが同じ位置かを比較する処理を繰り返し（Ｓ３１でＮｏ）、音声位置情報と被写体位置情報とが同じ位置を示している場合（Ｓ３１でＹｅｓ）は、音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成する（Ｓ３２）。

対象選択手段５０５は、図８に示すように、選択手段５０が搭乗者情報を選択し（Ｓ５０）、挙動判定手段５１により搭乗者が連絡者でないと判定され（Ｓ５１でＮｏ）、言葉判定手段５２により搭乗者が連絡者でないと判定された場合（Ｓ５２でＮｏ）、搭乗者が連絡者でない旨を示す判定結果を出力し（Ｓ５３）、言葉判定手段５２により搭乗者が連絡者でないと判定された場合（Ｓ５２でＮｏ）、搭乗者が連絡者でない旨を示す判定結果を出力する（Ｓ５３）。

一方で、挙動判定手段５１により搭乗者が連絡者であると判定されるか（Ｓ５１でＹｅｓ）、言葉判定手段５２により搭乗者が連絡者であると判定された場合（Ｓ５２でＹｅｓ）、搭乗者が連絡者である旨を示す判定結果を出力する（Ｓ５３）、言葉判定手段５２により搭乗者が連絡者でないと判定された場合（Ｓ５２でＮｏ）、搭乗者が連絡者である旨を示す判定結果を出力する（Ｓ５４）。

そして、図４に示すように、搭乗者が連絡者であると判定結果が出力されている場合は（Ｓ６でＹｅｓ）、音声認識手段６による音声認識を行う。

そして、音声認識手段６による音声認識が行われる。

以上のように、本実施形態の音声認識システム１によれば、搭乗者の音声の発生源の位置と搭乗者の立ち位置の対応関係が一致している音声データに対して音声認識手段が音声認識を行えるように構成されているため、音声認識の対象とすべき音声データとは別の音声データに音声認識をしてしまうことが抑えられる。

このように、本実施形態の音声認識システム１は、音声認識の対象を適切に選択できるようにすることによって、音声認識の精度を向上させることができるようになっている。

また、音声関連情報に含まれる音声特徴情報や、被写体特徴情報に含まれる被写体特徴情報等の発声元の搭乗者の特徴を示す情報を用いることができるため、これらの情報を用いることによって音声認識を行うべき対象であるか否かの判定や、音声認識の精度を高めることもできる。

特に、本実施形態の音声特徴情報や被写体特徴情報は、搭乗者の外見に関連する特徴であるため、これらの情報を用いることによって音声認識を行うべき対象であるか否かの判定や、音声認識の精度を高めやすい。

なお、上述のように、搭乗者情報作成手段４が、音声データに関連付けられている音声位置情報と被写体データに関連付けられている被写体位置情報とが同じ位置を示しており、且つ音声特徴情報が示す搭乗者の特徴と被写体特徴情報が示す搭乗者の特徴とが対応している場合に音声データと被写体データとを関連付けて搭乗者情報を作成するように構成されている場合は、連絡者の特定誤りを抑えることができる。

さらに、本実施形態の音声認識システム１では、音声の発生源の位置（音声関連情報の音声位置情報）と搭乗者の位置（被写体関連情報の被写体位置情報）との対応関係に加えて、搭乗者の挙動に基づいても搭乗者が連絡者であるか否かを判定するように構成されているため、音声認識を行うべき対象を選択する精度が向上する。

また、本実施形態の音声認識システム１においては、搭乗者が発した言葉に基づいても搭乗者が連絡者であるか否かを判定するように構成されているため、音声認識を行うべき対象を柔軟に選択できるようになる。

なお、本発明に係るエレベータ用の音声認識システムは、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加え得ることは勿論である。

上記実施形態において特に言及しなかったが、外部連絡装置Ｔとは、例えば、インターホンや、携帯情報端末（例えば、スマートホン）等のことである。

上記実施形態の音声位置導出手段２２は、複数の集音装置Ｍを用いるように構成されていたが、例えば、１つの集音装置Ｍを用いるように構成されていてもよい。但し、複数の集音装置Ｍを用いた方が、音声の発生源の位置を導出する精度が高まる。

上記実施形態において特に言及しなかったが、音声認識手段６による音声認識を繰り返し行う際においては、連絡者を特定するための音処理手段２、画像処理手段３、搭乗者情報作成手段４、対象選択手段５による一連の処理を再度行ったうえで音声認識手段６による音声認識を行っても良いし、連絡者を特定した際に既に導出した情報（例えば、音声特徴情報や、被写体特徴情報等）を利用して、連絡者を特定するための一連の処理を行わずに音声認識手段６による音声認識を行っても良い。

上記実施形態では、かご内の搭乗者のうち、連絡者を特定したうえで、この連絡者の音声を認識できるように構成されていることを一例に挙げて音声認識システム１の説明を行ったが、この構成に限定されない。音声認識システム１は、例えば、連絡者とは別の種類の搭乗者を特定したうえで、この搭乗者の音声を認識できるように構成されていてもよい。

上記実施形態において特に言及しなかったが、音声認識システム１は、例えば、情報を記憶するための記憶装置や、制御用のマイコンを備え、かごに記憶装置と制御用のマイコンとが設置されるように構成されていてもよい。この場合、記憶装置には、かご内を撮像した画像データや、言葉判定手段５２で用いる判定用の言葉（キーワード）を示す情報等が記憶され、また、音処理手段２や、画像処理手段３、搭乗者情報作成手段４と、対象選択手段５と、音声認識手段６による処理は制御用のマイコンにより実行される。なお、記憶装置に記憶させる情報は、例えば、データベース形式であってもよい。

上記実施形態では、集音装置Ｍが外部連絡装置Ｔで構成されることを一例に挙げて説明を行ったが、外部連絡装置Ｔは、例えば、インターホンのように、かご内の音を集音する集音部と、かご内に音（より具体的には、搭乗者へのアナウンスや、搭乗者と対話するための音声等）を出力する出力部を備えているものであればよい。

また、集音装置Ｍは、外部連絡装置Ｔ以外の装置によって構成することも可能であり、例えば、外部連絡装置Ｔではなく、かご内に設置されたマイクにより構成されていてもよい。この場合、かご内にスピーカーを設置すれば、このスピーカーを外部連絡装置Ｔの出力部の代用として用いれば、外部連絡装置Ｔを必要とせず、集音機能を重複させない構成にすることができる。

上記実施形態において特に言及しなかったが、音声認識システム１では、かご内で集音した音データと、かご内を撮像した画像データとに基づいてかご内の状況を判定し、この判定結果に応じて必要なアクション（例えば、エレベータの動作の制御や、搭乗者への問いかけ等）を行うように構成されていてもよい。このようにすれば、判定したかご内の状況に基づいて、どのようなアクションをとるべきかを正しく判定できるようになる。

１…音声認識システム、２…音処理手段、３…画像処理手段、４…搭乗者情報作成手段、５…対象選択手段、６…音声認識手段、２０…音データ取得手段、２１…音声作成手段、２２…音声位置導出手段、２３…音声特徴導出手段、３０…画像データ取得手段、３１…被写体抽出手段、３２…被写体位置導出手段、３３…挙動導出手段、３４…被写体特徴導出手段、５０…選択手段、５１…挙動判定手段、５２…言葉判定手段、５０５…対象選択手段、Ｃ…撮像装置、Ｄ１…音声関連情報、Ｄ１０…音声データ、Ｄ１１…音源位置情報、Ｄ１２…音声特徴情報、Ｄ２…画像関連情報、Ｄ２０…被写体データ、Ｄ２１…被写体位置情報、Ｄ２２…連絡者情報、Ｄ２３…非連絡者情報、Ｄ２４…被写体特徴情報、Ｄ４…被写体特徴情報、Ｍ…集音装置、Ｐ…画像データ、Ｐ１…区画領域、Ｔ…外部連絡装置

Claims

かご内で集音した音データから搭乗者の音声データを抽出し且つ該音声データの発生源の位置を特定する処理を実行する音処理手段と、
かご内を撮像した画像データに基づいて搭乗者の位置を特定する処理を実行する画像処理手段と、
前記音処理手段で抽出した前記音声データのうち、前記発生源の位置が前記画像処理手段で特定した前記搭乗者の位置と同じものに対して音声認識を行う音声認識手段と、を備える、
エレベータ用の音声認識システム。
前記音処理手段は、前記音声データに基づいて発声元の搭乗者の特徴を示す音声特徴情報を抽出する音声特徴抽出手段を有する、
請求項１に記載のエレベータ用の音声認識システム。
前記画像処理手段は、前記画像データに写る搭乗者の特徴を示す被写体特徴情報を抽出する被写体特徴抽出手段を有するように構成される、
請求項１又は請求項２に記載のエレベータ用の音声認識システム。
前記画像データに写る搭乗者の挙動に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する挙動判定手段を備え、
前記音声認識手段は、前記発生源の位置が、前記挙動判定手段によって音声認識を行う対象とすべき搭乗者であるか判定された前記画像データが示す前記搭乗者の位置と同じである前記音声データに対して音声認識を行う、
請求項１乃至請求項３の何れか１項に記載のエレベータ用の音声認識システム。
前記音声データに基づいて抽出された言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段を備え、
前記音声認識手段は、前記言葉判定手段が音声認識を行う対象とすべき搭乗者であると判定した前記音声データに対して音声認識を行う、
請求項１乃至請求項４の何れか１項に記載のエレベータ用の音声認識システム。