JP2019080134A

JP2019080134A - ドアホン親機および通知方法

Info

Publication number: JP2019080134A
Application number: JP2017204643A
Authority: JP
Inventors: 上　近史; Kinshi Kami; 近史上; 繁弘深澤; Shigehiro Fukasawa
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2019-05-23

Abstract

【課題】登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知する。【解決手段】ドアホン親機は、玄関子機から映像データを入力する映像データ入力部１１２と、映像データに含まれる画像に映っている人物の顔を認識する顔認識部１７０と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部１４０と、を備える。一例において、顔認識部１７０は、入力された映像データに含まれる複数の画像に基づいて、人物の顔を認識する。一例において、複数の画像は、ドアホン親機１００の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる。一例において、テキストに対応する音声は、ドアホン親機１００の鳴動終了後に出力される。【選択図】図２

Description

本開示は、ドアホン親機および通知方法に関する。

在宅者が屋外にいる訪問者と通話できるドアホンシステムが普及している。通常、ドアホンシステムにおいては、在宅者が応答して訪問者と通話を開始するまで、訪問者が誰であるのか在宅者が知ることは出来ない。そこで、在宅者が応答する前に訪問者の種類を在宅者が識別できるドアホンシステムが提案されている（特許文献１）。特許文献１の手法においては、玄関子機において、訪問者が呼出操作部の操作ボタンの中から、家族、友人、宅配人、その他等の自分の種類を表示しているボタンを操作すると、在宅者に通知される訪問者の種類が特定される。

特開２００６−２８７４６７号公報

しかしながら、特許文献１に開示されたドアホンシステムでは、通常のドアホンシステムと比較して、自分の種類を表示しているボタンを選択する手間が発生するという問題がある。さらに、訪問者が自分の種類とは異なる種類のボタンを操作した場合、在宅者は訪問者の正しい種類を知ることができない問題がある。

本開示の非限定的な実施例は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知できる、改善されたドアホン親機および通知方法の提供に資する。

本開示の一態様に係るドアホン親機は、玄関子機から映像データを入力する映像データ入力部と、前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、を備える構成を採る。

本開示の一態様に係る通知方法は、玄関子機から映像データを入力するステップと、前記映像データに含まれる画像に映っている人物の顔を認識するステップと、認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、を備える構成を採る。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の一態様によれば、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知できる。

本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

本開示に係るドアホンシステムの一例を示す概要図本開示に係るドアホン親機の一例を示す構成図図２の顔認識部の一例を示す構成図本開示に係る玄関子機の一例を示す構成図本開示に係るデータのフローの一例を示すシーケンス図本開示に係るドアホン親機の顔認識およびＴＴＳ再生動作の一例を示すフローチャート図６のステップＳ１０３からＳ１１４におけるドアホン親機の動作の様子を示す説明図本開示に係るドアホン親機の仮登録動作の一例を示すフローチャート本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者選択画面の一例本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者名前入力画面の一例

以下、図面を適宜参照して、本発明の実施の形態について、詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために、提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（第１の実施の形態）
図１は、本開示に係るドアホンシステム１０の一例を示す概要図である。

ドアホンシステム１０は、ドアホン親機１００と、玄関子機２００とを備える。玄関子機２００の台数は、１以上の任意の数である。玄関子機２００は、それぞれ、ドアホン親機１００と接続されている。

ドアホン親機１００および玄関子機２００は、それぞれのユーザが、通話をする手段を提供する。例えば、ドアホン親機１００のユーザは、ドアホンシステム１０を設置した家の屋内にいる在宅者であり、玄関子機２００のユーザは、ドアホンシステム１０を設置した家の訪問者である。一例において、玄関子機２００は、設置位置および設置方向を除いて、同一の機能を有する。

図２は、本開示に係るドアホン親機１００の一例を示す構成図である。ドアホン親機１００は、映像処理部１１０と、表示出力部１２０と、音声処理部１３０と、音声出力部１４０と、音声入力部１５０と、呼制御部１６０と、顔認識部１７０と、記憶部１８０と、ＴＴＳ(Text-To-Speech)処理部１９０とを備える。一例において、ドアホン親機１００は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を備えるコンピュータである。ＣＰＵは、例えば、ＲＯＭから処理内容に応じたプログラムを読み出してＲＡＭに展開し、展開したプログラムと協働して、ドアホン親機１００の各ブロックの動作を集中制御する。

映像処理部１１０は、入力された映像データを処理し、表示出力部１２０が表示する画像を生成する。映像処理部１１０は、映像データ入力部１１２と、映像データデコード部１１４とを備える。

映像データ入力部１１２は、ストリーミング形式の映像データを玄関子機２００から入力する。一例において、映像データは、デジタル形式のデータである。他の一例において、映像データは、アナログ形式のデータである。

映像データデコード部１１４は、ストリーミング形式の映像データを画像データに変換する。画像データは、表示出力部１２０に表示される画像のデータとして使用される。画像は、例えば、静止画である。一例において、映像データは、１秒間に静止画１５枚分の静止画データに変換される。

表示出力部１２０は、映像処理部１１０から入力された画像を表示する。表示出力部は、例えば、ＬＣＤ表示装置またはＯＬＥＤ表示装置である。

音声処理部１３０は、音声入力部１５０から入力した音声を表すリニア形式の電気信号を処理し、音声データを出力する。さらに、音声処理部１３０は、玄関子機２００から入力した音声データを処理し、音声を表すリニア形式の電気信号を出力する。音声処理部１３０は、音声データ入力部１３２と、音声データデコード部１３４と、音声データエンコード部１３６と、音声データ出力部１３８と、を備える。

音声データ入力部１３２は、玄関子機２００からストリーミング形式の音声データを入力する。音声データは、例えば、訪問者が玄関子機２００に向かって話しかけた声を表す。

音声データデコード部１３４は、玄関子機２００から入力したストリーミング形式の音声データをデコードし、音声を表すリニア形式のリニア形式の電気信号を出力する。一例において、デコードは、デジタル−アナログ変換である。デコードの方式は、玄関子機２００の音声データエンコード部２２６（図４参照）が使用するエンコードの方式に対応する。

音声データエンコード部１３６は、音声入力部１５０から入力された音声を表すリニア形式の電気信号をエンコードし、ストリーミング形式の音声データを出力する。一例において、エンコードは、アナログ−デジタル変換である。エンコードの方式は、玄関子機２００の音声データデコード部２２４（図４参照）が使用するデコードの方式に対応する。

音声データ出力部１３８は、音声データエンコード部１３６から入力したストリーミング形式の音声データを玄関子機２００に出力する。

音声出力部１４０は、ＴＴＳ処理部１９０が生成した音声を表すリニア形式の電気信号や、呼制御部１６０または音声処理部１３０から入力した音声を表すリニア形式の電気信号を、音声に変換し、ドアホン親機１００の外部に向けて出力するスピーカである。

音声入力部１５０は、ドアホン親機１００の周辺の音声をリニア形式の電気信号に変換するマイクロフォンである。

呼制御部１６０は、玄関子機２００からの呼を制御する。呼制御部１６０は、着信処理部１６２と、待機処理部１６４と、通話処理部１６６と、を備える。

着信処理部１６２は、玄関子機２００からの着信を処理する。一例において、着信処理部１６２は、玄関子機２００からの着信の通知に応じて、待機処理部１６４に着信を通知する。

待機処理部１６４は、玄関子機２００からの着信から、ドアホン親機１００と玄関子機２００との間の通話の開始までの待機処理を行う。一例において、待機処理部１６４は、着信処理部１６２からの着信の通知に応じて、音声出力部１４０への呼出音を表すリニア形式の電気信号の出力を開始し、ドアホン親機１００と玄関子機２００との間の映像データの通信を開始する。また、一例において、待機処理部１６４は、ドアホン親機１００が備える応答ボタン（図示せず）の押下の検出に応じて、音声出力部１４０への呼出音を表すリニア形式の電気信号の出力を終了し、通話処理部１６６に応答を通知する。一例において、呼出音を表すリニア形式の電気信号の出力の開始から終了までは、３秒間である。

通話処理部１６６は、ドアホン親機１００と玄関子機２００との間の通話を処理する。一例において、通話処理部１６６は、待機処理部１６４からの応答の通知に応じて、ドアホン親機１００と玄関子機２００との間の音声データの通信を開始する。また、一例において、通話処理部１６６は、呼終了の検出に応じて、ドアホン親機１００と玄関子機２００との間の映像データおよび音声データの通信を切断する。

顔認識部１７０は、入力された画像に映っている人物の顔を認識する。人物は、例えば、訪問者である。顔認識部１７０の構成については、図３を参照して後述する。

記憶部１８０は、顔認識部１７０が認識する対象である人物の顔の画像または顔の特徴量と人物の名前とを登録する登録用データベースを記憶する。顔の特徴量は、顔認識部１７０が顔認識に用いる任意の量であり、例えば、顔検出部１７４が用いるカスケード分類器、顔照合部１７６が用いるニューラルネットワークのパラメータや顔の表現データやＬＢＰＨ（Local Binary Patterns Histograms）やＳＵＲＦ（Speeded Up Robust Features）特徴量である。以下、顔の画像および／または顔の特徴量を登録することを、単に顔を登録するという。

ＴＴＳ処理部１９０は、入力されたテキストをテキスト解析処理して、読み上げ音声を表す音声（ＴＴＳ音声）を表すリニア形式の電気信号を生成することにより、入力されたテキストをＴＴＳ再生する。入力されるテキストは、例えば、訪問者の名前である。テキスト解析処理およびリニア形式の電気信号の生成は、任意の公知の手法を使用できる。

図３は、図２の顔認識部１７０の一例を示す構成図である。顔認識部１７０は、画像補正部１７２と、顔検出部１７４と、顔照合部１７６と、認識結果チャタリング判定部１７８と、を備える。

画像補正部１７２は、入力された画像データからグレースケール画像を抽出する。入力される画像データは、例えば、映像処理部１１０が生成した静止画のデータである。一例において、画像補正部１７２は、入力された画像の色空間をＲＧＢ色空間からＨＳＶ色空間に変換し、Ｖ成分をグレースケール画像として抽出する。他の一例において、画像補正部１７２は、入力された画像の色空間をＲＧＢ色空間からＨＬＳ色空間に変換し、Ｌ成分をグレースケール画像として抽出する。

画像補正部１７２は、さらに、グレースケール画像の画像補正を実施する。画像補正は、例えば、ノイズ低減処理、エッジ強調処理、および明暗調整処理の少なくとも１つを含む。ノイズ低減処理、エッジ強調処理、および明暗調整処理の技法としては、いずれも任意の公知の技法を用いることができる。

顔検出部１７４は、入力された画像から人物の顔を検出する。入力される画像は、例えば、画像補正されたグレースケール画像である。顔の検出技法としては、任意の公知の技法を用いることができ、例えば、Ｈａａｒ−ｌｉｋｅ特徴量を用いたカスケード分類器、ＪｏｉｎｔＨａａｒ−ｌｉｋｅ特徴量を用いたカスケード分類器、またはＳｐａｒｓｅ特徴量を用いたカスケード分類器を用いることができる。

顔照合部１７６は、顔検出部１７４が検出した人物の顔と登録用データベースに登録されている顔とを照合することにより、人物をリアルタイムに認識する。顔の照合方法としては、任意の公知の技法を用いることができ、例えば、ＳＵＲＦ特徴量を用いたテンプレートマッチングやニューラルネットワークを用いることができる。顔照合部１７６が生成する認識の結果（顔認識結果）は、顔照合部１７６による照合の結果（顔照合結果）のうちの、一致した顔照合結果を含む。一例において、顔照合部１７６は、一致した顔照合結果とともに、その一致の確からしさを示すスコアを含む顔認識結果をリアルタイムに生成する。

なお、登録用データベースに登録された顔が正面を向いた顔である場合、顔検出部１７４が検出した人物の顔がより正面を向いている程、顔照合部１７６の顔照合結果はより正確であることが期待される。そこで、一例において、顔検出部１７４は、入力された画像から人物の顔の向きを、人物の顔と併せて検出し、顔照合部１７６は、検出された顔の向きに応じて、一致の確からしさを示すスコアを生成する。例えば、顔照合部１７６は、検出された顔の向きが正面により近いほど、より高いスコアを生成する。

認識結果チャタリング判定部１７８は、顔照合部１７６の顔認識結果をチャタリング判定する。ここで、チャタリング判定とは、同一の被写体に対して顔照合部１７６が生成した複数の顔認識結果に含まれる一致した顔照合結果と、それぞれの一致の確からしさを示すスコアとに基づいて、複数の顔認識結果から最も確からしい一致した顔照合結果を判定することである。一例において、呼出音が３秒間鳴動する間、画像補正部１７２が１秒間に静止画１５枚分の画像データを入力し、各静止画に対して顔照合部１７６がリアルタイムに１秒当たり１５個の顔認識結果を生成する場合を考える。この場合、認識結果チャタリング判定部１７８は、３×１５＝４５個の顔認識結果に含まれる一致した顔照合結果と、それぞれの一致の確からしさを示すスコアとに基づいて、最も確からしい一致した顔照合結果を判定する。この顔照合結果は、顔認識部１７０の顔認識結果として用いられる。

図４は、本開示に係る玄関子機２００の一例を示す構成図である。簡潔のために、以下、玄関子機２００を一例にとって説明する。玄関子機２００は、映像生成部２１０と、音声処理部２２０と、音声出力部２３０と、音声入力部２４０と、制御部２５０と、を備える。一例において、玄関子機２００は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を備えるコンピュータである。ＣＰＵは、例えば、ＲＯＭから処理内容に応じたプログラムを読み出してＲＡＭに展開し、展開したプログラムと協働して、玄関子機２００の各ブロックの動作を集中制御する。

映像生成部２１０は、被写体の映像データを生成する。被写体は、例えば、玄関子機２００に向かって話しかけている訪問者である。映像生成部２１０は、撮像部２１２と、映像データエンコード部２１４と、映像データ出力部２１６と、を備える。

撮像部２１２は、被写体を撮像する。撮像部２１２は、例えば、ＣＭＯＳカメラまたはＣＣＤカメラである。

映像データエンコード部２１４は、撮像部２１２が撮像した被写体の映像データをストリーミング形式にエンコードする。一例において、エンコードの方式は、デジタル形式であり、例えば、ＭＰＥＧ−２形式またはＨ．２６４形式である。他の一例において、エンコードの方式は、アナログ形式である。

映像データ出力部２１６は、ストリーミング形式の映像データをドアホン親機１００（図２参照）に出力する。

音声処理部２２０は、音声入力部２４０から入力した音声を表すリニア形式の電気信号を処理し、音声データを出力する。さらに、音声処理部２２０は、ドアホン親機１００から入力した音声データを処理し、音声を表すリニア形式の電気信号を出力する。

音声処理部２２０は、音声データ入力部２２２と、音声データデコード部２２４と、音声データエンコード部２２６と、音声データ出力部２２８と、を備える。音声データ入力部２２２、音声データデコード部２２４、音声データエンコード部２２６、および音声データ出力部２２８は、それぞれ、ドアホン親機１００（図２参照）の音声データ入力部１３２、音声データデコード部１３４、音声データエンコード部１３６、および音声データ出力部１３８と同様の機能を備えるので、説明を省略する。

音声出力部２３０は、音声処理部２２０から入力した音声を表すリニア形式の電気信号を、音声に変換し、玄関子機２００の外部に向けて出力するスピーカである。

音声入力部２４０は、玄関子機２００の周辺の音声をリニア形式の電気信号に変換するマイクロフォンである。

制御部２５０は、映像生成部２１０と音声処理部２２０との動作を制御する。例えば、制御部２５０は、玄関子機２００が備える呼出ボタン（図示せず）の押下に応じて、ドアホン親機１００に着信を通知し、映像生成部２１０に映像データの出力を開始させ、音声処理部２２０に音声データの出力を開始させる。また、例えば、制御部２５０は、呼終了の検出に応じて、映像生成部２１０に映像データの出力を終了させ、音声処理部２２０に音声データの出力を終了させる。

図５は、本開示に係るデータのフローの一例を示すシーケンス図である。通常のテレビドアホンシステム同様、ステップＳ２０１における着信の開始とともに、ステップＳ２０２において、呼出音の鳴動が開始する。映像生成部２１０によって生成された映像データは、ステップＳ２０３において、ドアホン親機１００に送信される。ドアホン親機１００によって受信された映像データは、ステップＳ２０４において映像処理部１１０で静止画データに変換され、ステップＳ２０５において表示出力部１２０に送られる。ステップＳ２０６において、静止画データは、表示出力部１２０に表示される。

これに加えて、本開示に係るドアホン親機１００においては、呼出音の鳴動開始（ステップＳ２０２）の後、映像処理部１１０からの静止画データは、ステップＳ２０７において顔認識部１７０にも入力され、ステップＳ２０８においてリアルタイムで顔の検出、照合、および認識がリアルタイムに行われる。

さらに、本開示に係るドアホン親機１００においては、呼出音の鳴動終了（ステップＳ２１５）までの間、静止画が更新され、顔の検出、照合、および認識が繰り返し行われる。即ち、ステップＳ２０９においてドアホン親機１００によって受信された映像データは、ステップＳ２１０において映像処理部１１０で静止画データに変換される。変換された静止画像データは、ステップＳ２１１において表示出力部１２０に送られる。ステップＳ２１２において、静止画データは、表示出力部１２０に表示される。これと並行して、映像処理部１１０からの静止画データは、ステップＳ２１３において顔認識部１７０にも入力され、ステップＳ２１４においてリアルタイムで顔の検出、照合、および認識がリアルタイムに行われる。

ステップＳ２１５において呼出音の鳴動が通知した後、ステップＳ２１６において顔認識結果が顔認識部１７０から呼制御部１６０に送信される。ステップＳ２１７において、顔認識結果が一致した顔照合結果を含むかどうかが顔認識部１７０によって判定される。顔認識結果が一致した顔照合結果を含むと判定された場合（ステップＳ２１７：ＹＥＳ）、ステップＳ２１８において、ＴＴＳ処理部１９０によって、一致した顔に関連付けられたテキストからＴＴＳ音声データが生成される。ステップＳ２１９において、音声出力部１４０によって、ＴＴＳ音声データが再生される。一方、顔認識結果が一致した顔照合結果を含まないと判定された場合（ステップＳ２１７：ＮＯ）、ＴＴＳ音声データが再生されることはない。

一般的に、玄関子機２００が撮像する訪問者は、常に撮像部２１２の方を向いているとは限らない。しかしながら、呼出音の鳴動開始から鳴動終了までの間は、訪問者は、撮像部２１２の方を向いており、撮像部２１２は訪問者の正面を向いた顔を撮像する可能性が高いと考えられる。そこで、呼出音の鳴動開始から鳴動終了までの間に、顔認識部１７０がリアルタイムで顔の検出、照合、および認識を行うことにより、正面を向いた顔の画像を用いて、より精度の高い顔認識を行うことができる。

［顔認識およびＴＴＳ再生動作］
図６は、本開示に係るドアホン親機１００の顔認識およびＴＴＳ再生動作の一例を示すフローチャートである。図６に示されるフローチャートは、繰り返し実行される。

ステップＳ１０１において、呼制御部１６０は、ドアホン親機１００が着信中であるか否かを判定する。例えば、呼制御部１６０は、呼制御部１６０が備える状態フラグ（図示せず）が着信中を示すか否かを判定する。

ステップＳ１０１において、ドアホン親機１００が着信中でないと判定された場合（ステップＳ１０１：ＮＯ）、ステップＳ１０２において、呼制御部１６０は、ドアホン親機１００が着信を開始したか否かを判定する。

ドアホン親機１００が着信を開始した場合（ステップＳ１０２：ＹＥＳ）、ステップＳ１０３において、呼制御部１６０は、呼制御部１６０の状態フラグを着信中に変更し、ドアホン親機１００の鳴動を開始させる。一方、ドアホン親機１００が着信を開始していない場合（ステップＳ１０２：ＮＯ）、フローが終了する。

ステップＳ１０１において、ドアホン親機１００が着信中であると判定された場合（ステップＳ１０１：ＹＥＳ）、ステップＳ１０５において、呼制御部１６０は、ドアホン親機１００の鳴動が終了したか否かを判定する。例えば、呼制御部１６０は、呼制御部１６０の状態フラグが鳴動中を示すか否かを判定する。

ステップＳ１０５において、ドアホン親機１００の鳴動が終了していないと判定された場合（ステップＳ１０５：ＮＯ）、ステップＳ１０６において、画像補正部１７２は、映像処理部１１０から入力された静止画から、グレースケール画像を抽出する。

ステップＳ１０７において、画像補正部１７２は、グレースケール画像に対して画像補正を実施する。

ステップＳ１０８において、顔検出部１７４は、画像補正されたグレースケール画像からの顔の検出を実施する。ステップＳ１０９において、顔検出部１７４は、顔が検出されたか否かを判定する。ステップＳ１０９において、顔が検出されなかったと判定された場合（ステップＳ１０９：ＮＯ）、フローを終了する。

ステップＳ１０９において、顔が検出されたと判定された場合（ステップＳ１０９：ＹＥＳ）、ステップＳ１１０において、顔検出部１７４は、顔が検出されたグレースケール画像の顔の部分に正規化処理を実施する。正規化処理は、ステップＳ１１１において、登録用データベースに登録された顔との照合を精度良く行うための処理であり、例えば、回転処理および拡大縮小処理の少なくとも１つを含む。

ステップＳ１１１において、顔照合部１７６および認識結果チャタリング判定部１７８は、顔認識を実施する。

一方、ステップＳ１０５において、ドアホン親機１００の鳴動が終了したと判定された場合（ステップＳ１０５：ＹＥＳ）、ステップＳ１１２において、呼制御部１６０は、顔認識部１７０からドアホン親機１００の呼出音の鳴動開始から鳴動終了の間に実施された顔認識の顔認識結果を取得する。

ステップＳ１１３において、呼制御部１６０は、顔認識結果の中に一致した顔照合結果が存在するか否かを判定する。

ステップＳ１１３において、顔認識結果の中に一致した顔照合結果が含まれると判定された場合（ステップＳ１１３：ＹＥＳ）、ステップＳ１１４において、呼制御部１６０は、一致した顔に関連付けられたテキストをＴＴＳ処理部１９０に出力し、ＴＴＳ処理部１９０にＴＴＳ再生を開始させ、フローを終了する。

なお、ステップＳ１１４の後、フローを終了する前に、登録用データベースに登録された顔を、一致した顔で更新し、古い顔の登録を削除してもよい。これにより、経年変化により訪問者の顔が変化する場合であっても、顔認識部１７０が訪問者の顔をより良好に認識できる。

一方、ステップＳ１１３において、顔認識結果の中に一致した顔照合結果が含まれないと判定された場合（ステップＳ１１３：ＮＯ）、そのままフローを終了する。

図７は、図６のステップＳ１０３からＳ１１４におけるドアホン親機の動作の様子を示す説明図である。訪問者Ｐが玄関子機２００の呼出ボタンを押した後、図６のステップＳ１０３において、ドアホン親機１００の鳴動が開始した結果、ドアホン親機１００の音声出力部１４０から鳴動音「ピーンポーン」が出力される。

次いで、図６のステップＳ１１１において、玄関子機２００が撮像した映像から抽出された画像内の訪問者Ｐの顔と、記憶部１８０に記憶された人物「はなこ」、「たろう」、「おかあさん」、「おとうさん」の顔とが照合される。照合の結果、図６のステップＳ１１３において、訪問者Ｐの顔と「おかあさん」の顔とが一致したと判定された場合、図６のステップＳ１１４において、鳴動音に続き、音声出力部１４０から、「おかあさん」の顔に関連付けられたＴＴＳ音声「おかあさん」が出力される。

本開示のドアホン親機１００は、玄関子機２００から映像データを入力する映像データ入力部１１２と、映像データに含まれる画像に映っている人物の顔を認識する顔認識部１７０と、認識された人物の顔に関連付けられたテキストに対応する音声（ＴＴＳ音声）を出力する音声出力部１４０と、を備える構成を採る。

本開示のドアホン親機１００によれば、訪問者Ｐを示す情報を、ドアホン親機１００に表示される画像に加えて、音声によって在宅者に伝達する。したがって、例えば、ドアホン親機１００が鳴動した際に、ドアホン親機１００から離れた位置にいる在宅者が、訪問者Ｐの画像を確認するためにドアホン親機１００の設置位置まで移動しなくても、鳴動に続くＴＴＳ音声を聞くことによって訪問者Ｐを特定できる。

さらに、ドアホン親機１００が、在宅者の身長と比較して高い位置に設置されているために、在宅者がドアホン親機１００の画像を視ることができない場合であっても、鳴動に続くＴＴＳ音声を聞くことによって訪問者Ｐを特定できる。また、視覚障害や視力の低下によって、在宅者がドアホン親機１００の画像を視ることができない場合であっても、鳴動に続くＴＴＳ音声を聞くことによって訪問者Ｐを特定できる。

［登録動作］
次に、記憶部１８０に、訪問者の顔と訪問者のＴＴＳ音声に用いられるテキストとを関連付けるための登録動作について説明する。登録動作により、訪問者の顔が登録用データベースに登録される。

登録動作は、仮登録動作と本登録動作との２段階からなる。記憶部１８０は、仮保存データベースを記憶する。仮登録動作は、仮保存データベースへの登録動作である。一方、本登録動作は、登録用データベースへの登録動作である。仮保存データベースと登録用データベースとは、別のデータベースである。

図８は、本開示に係るドアホン親機１００の仮登録動作の一例を示すフローチャートである。

図８のステップＳ３０１，Ｓ３０２，Ｓ３０３，Ｓ３０４，Ｓ３０５，Ｓ３０６の処理内容は、それぞれ、図６に示されるステップＳ１０６，Ｓ１０７，Ｓ１０８，Ｓ１０９，Ｓ１１０，Ｓ１１１の処理内容と同様であるので、説明を省略する。

ステップＳ３０７において、呼制御部１６０は、顔認識結果の中に一致した顔照合結果が含まれるか否かを判定する。

ステップＳ３０７において、顔認識結果の中に一致した顔照合結果が含まれると判定された場合（ステップＳ３０７：ＹＥＳ）、訪問者の顔が既に登録用データベースに登録されている可能性が高いので、そのままフローを終了する。一方、ステップＳ３０７において、顔認識結果の中に一致した顔照合結果が含まれないと判定された場合（ステップＳ３０７：ＮＯ）、訪問者の顔が未だ登録用データベースに登録されていない可能性が高い。そこで、ステップＳ３０８において、ドアホン親機１００は、仮保存データベースに訪問者の顔を登録し、仮登録動作のフローを終了する。

図９Ａは、本開示に係るドアホン親機１００の本登録動作で使用される仮登録訪問者選択画面Ｉ１の一例である。仮登録訪問者選択画面Ｉ１は、仮保存データベースに仮登録された訪問者の顔の画像から、登録の対象となる訪問者の顔の画像Ｉ３を選択するためのＧＵＩである。一例において、ドアホン親機１００の表示出力部１２０（図２参照）が、画面上でタッチされた位置を検出できるタッチパネルである。表示出力部１２０が、仮登録訪問者選択画面Ｉ１を表示する。

在宅者がボタンＢ１およびボタンＢ２をタップまたは押下すると、仮保存データベースに登録された訪問者の顔の画像Ｉ３および訪問者の訪問日時（撮像日時）Ｌの表示が切り替わる。在宅者がボタンＢ３をタップまたは押下すると、ＴＴＳ再生に用いられるテキストを関連付ける訪問者が確定される。

図９Ｂは、本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者名前入力画面Ｉ２の一例である。表示出力部１２０が、仮登録訪問者名前入力画面Ｉ２を表示する。

画像Ｉ３に映っている訪問者の名前を、在宅者がテキストボックスＴに入力し、ボタンＢ４をタップまたは押下すると、入力された名前が訪問者のＴＴＳ再生に用いられるテキストとして、訪問者の顔に関連づけられて登録用データベースに登録される。

上記の登録動作により、在宅者は、訪問者の顔の画像を別途撮像することなく、登録用データベースに登録できる。したがって、訪問者が撮像に協力的であるか否かを問わず、在宅者は、訪問者の顔を登録用データベースに登録できる。

（実施の形態およびその効果）
本開示のドアホン親機は、玄関子機から映像データを入力する映像データ入力部と、前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、を備える。これにより、ドアホン親機は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を音声によって在宅者に通知できる。

本開示のドアホン親機において、前記顔認識部は、入力された映像データに含まれる複数の画像に基づいて、前記人物の顔を認識する。これにより、顔認識部は、訪問者の顔をより正確に認識できる。

本開示のドアホン親機において、前記顔認識部は、前記複数の画像のそれぞれに対する顔照合結果の一致の確からしさに基づいて、前記人物の顔を認識する。これにより、顔認識部は、一致した可能性のより高い顔照合結果に基づいて、訪問者の顔をより正確に認識できる。

本開示のドアホン親機において、前記複数の画像は、ドアホン親機の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる。これにより、顔認識部は、訪問者の正面を向いた顔の画像に基づいて、訪問者の顔をより正確に認識できる。

本開示のドアホン親機において、テキストに対応する音声は、ドアホン親機の鳴動終了後に出力される。これにより、鳴動音によって注意を惹きつけられた在宅者が、引き続き注意を払った状態で訪問者の名前等のテキストに対応する音声を聞くことができる。

本開示の通知方法は、玄関子機から映像データを入力するステップと、前記映像データに含まれる画像に映っている人物の顔を認識するステップと、認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、を備える。これにより、ドアホン親機は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を音声によって在宅者に通知できる。

上記の実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）、又は、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

本開示に係るドアホン親機は、テレビドアホンシステムに使用されるのに好適である。

１０ドアホンシステム
１００ドアホン親機
１１０映像処理部
１１２映像データ入力部
１１４映像データデコード部
１２０表示出力部
１３０音声処理部
１４０音声出力部
１５０音声入力部
１６０呼制御部
１６２着信処理部
１６４待機処理部
１６６通話処理部
１７０顔認識部
１７２画像補正部
１７４顔検出部
１７６顔照合部
１７８認識結果チャタリング判定部
１８０記憶部
１９０ＴＴＳ処理部
２００玄関子機

Claims

玄関子機から映像データを入力する映像データ入力部と、
前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、
認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、
を備えるドアホン親機。
前記顔認識部は、入力された映像データに含まれる複数の画像に基づいて、前記人物の顔を認識する、請求項１に記載のドアホン親機。
前記顔認識部は、前記複数の画像のそれぞれに対する顔照合結果の一致の確からしさに基づいて、前記人物の顔を認識する、請求項２に記載のドアホン親機。
前記複数の画像は、ドアホン親機の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる、請求項３に記載のドアホン親機。
前記テキストに対応する音声は、ドアホン親機の鳴動終了後に出力される、請求項１から４のいずれかに記載のドアホン親機。
玄関子機から映像データを入力するステップと、
前記映像データに含まれる画像に映っている人物の顔を認識するステップと、
認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、
を備える通知方法。