JP2019080134A - ドアホン親機および通知方法 - Google Patents

ドアホン親機および通知方法 Download PDF

Info

Publication number
JP2019080134A
JP2019080134A JP2017204643A JP2017204643A JP2019080134A JP 2019080134 A JP2019080134 A JP 2019080134A JP 2017204643 A JP2017204643 A JP 2017204643A JP 2017204643 A JP2017204643 A JP 2017204643A JP 2019080134 A JP2019080134 A JP 2019080134A
Authority
JP
Japan
Prior art keywords
unit
face
video data
visitor
door phone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017204643A
Other languages
English (en)
Inventor
上 近史
Kinshi Kami
近史 上
繁弘 深澤
Shigehiro Fukasawa
繁弘 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2017204643A priority Critical patent/JP2019080134A/ja
Publication of JP2019080134A publication Critical patent/JP2019080134A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

【課題】登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知する。【解決手段】ドアホン親機は、玄関子機から映像データを入力する映像データ入力部112と、映像データに含まれる画像に映っている人物の顔を認識する顔認識部170と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部140と、を備える。一例において、顔認識部170は、入力された映像データに含まれる複数の画像に基づいて、人物の顔を認識する。一例において、複数の画像は、ドアホン親機100の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる。一例において、テキストに対応する音声は、ドアホン親機100の鳴動終了後に出力される。【選択図】図2

Description

本開示は、ドアホン親機および通知方法に関する。
在宅者が屋外にいる訪問者と通話できるドアホンシステムが普及している。通常、ドアホンシステムにおいては、在宅者が応答して訪問者と通話を開始するまで、訪問者が誰であるのか在宅者が知ることは出来ない。そこで、在宅者が応答する前に訪問者の種類を在宅者が識別できるドアホンシステムが提案されている(特許文献1)。特許文献1の手法においては、玄関子機において、訪問者が呼出操作部の操作ボタンの中から、家族、友人、宅配人、その他等の自分の種類を表示しているボタンを操作すると、在宅者に通知される訪問者の種類が特定される。
特開2006−287467号公報
しかしながら、特許文献1に開示されたドアホンシステムでは、通常のドアホンシステムと比較して、自分の種類を表示しているボタンを選択する手間が発生するという問題がある。さらに、訪問者が自分の種類とは異なる種類のボタンを操作した場合、在宅者は訪問者の正しい種類を知ることができない問題がある。
本開示の非限定的な実施例は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知できる、改善されたドアホン親機および通知方法の提供に資する。
本開示の一態様に係るドアホン親機は、玄関子機から映像データを入力する映像データ入力部と、前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、を備える構成を採る。
本開示の一態様に係る通知方法は、玄関子機から映像データを入力するステップと、前記映像データに含まれる画像に映っている人物の顔を認識するステップと、認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、を備える構成を採る。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の一態様によれば、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を在宅者に通知できる。
本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
本開示に係るドアホンシステムの一例を示す概要図 本開示に係るドアホン親機の一例を示す構成図 図2の顔認識部の一例を示す構成図 本開示に係る玄関子機の一例を示す構成図 本開示に係るデータのフローの一例を示すシーケンス図 本開示に係るドアホン親機の顔認識およびTTS再生動作の一例を示すフローチャート 図6のステップS103からS114におけるドアホン親機の動作の様子を示す説明図 本開示に係るドアホン親機の仮登録動作の一例を示すフローチャート 本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者選択画面の一例 本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者名前入力画面の一例
以下、図面を適宜参照して、本発明の実施の形態について、詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために、提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(第1の実施の形態)
図1は、本開示に係るドアホンシステム10の一例を示す概要図である。
ドアホンシステム10は、ドアホン親機100と、玄関子機200とを備える。玄関子機200の台数は、1以上の任意の数である。玄関子機200は、それぞれ、ドアホン親機100と接続されている。
ドアホン親機100および玄関子機200は、それぞれのユーザが、通話をする手段を提供する。例えば、ドアホン親機100のユーザは、ドアホンシステム10を設置した家の屋内にいる在宅者であり、玄関子機200のユーザは、ドアホンシステム10を設置した家の訪問者である。一例において、玄関子機200は、設置位置および設置方向を除いて、同一の機能を有する。
図2は、本開示に係るドアホン親機100の一例を示す構成図である。ドアホン親機100は、映像処理部110と、表示出力部120と、音声処理部130と、音声出力部140と、音声入力部150と、呼制御部160と、顔認識部170と、記憶部180と、TTS(Text-To-Speech)処理部190とを備える。一例において、ドアホン親機100は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えるコンピュータである。CPUは、例えば、ROMから処理内容に応じたプログラムを読み出してRAMに展開し、展開したプログラムと協働して、ドアホン親機100の各ブロックの動作を集中制御する。
映像処理部110は、入力された映像データを処理し、表示出力部120が表示する画像を生成する。映像処理部110は、映像データ入力部112と、映像データデコード部114とを備える。
映像データ入力部112は、ストリーミング形式の映像データを玄関子機200から入力する。一例において、映像データは、デジタル形式のデータである。他の一例において、映像データは、アナログ形式のデータである。
映像データデコード部114は、ストリーミング形式の映像データを画像データに変換する。画像データは、表示出力部120に表示される画像のデータとして使用される。画像は、例えば、静止画である。一例において、映像データは、1秒間に静止画15枚分の静止画データに変換される。
表示出力部120は、映像処理部110から入力された画像を表示する。表示出力部は、例えば、LCD表示装置またはOLED表示装置である。
音声処理部130は、音声入力部150から入力した音声を表すリニア形式の電気信号を処理し、音声データを出力する。さらに、音声処理部130は、玄関子機200から入力した音声データを処理し、音声を表すリニア形式の電気信号を出力する。音声処理部130は、音声データ入力部132と、音声データデコード部134と、音声データエンコード部136と、音声データ出力部138と、を備える。
音声データ入力部132は、玄関子機200からストリーミング形式の音声データを入力する。音声データは、例えば、訪問者が玄関子機200に向かって話しかけた声を表す。
音声データデコード部134は、玄関子機200から入力したストリーミング形式の音声データをデコードし、音声を表すリニア形式のリニア形式の電気信号を出力する。一例において、デコードは、デジタル−アナログ変換である。デコードの方式は、玄関子機200の音声データエンコード部226(図4参照)が使用するエンコードの方式に対応する。
音声データエンコード部136は、音声入力部150から入力された音声を表すリニア形式の電気信号をエンコードし、ストリーミング形式の音声データを出力する。一例において、エンコードは、アナログ−デジタル変換である。エンコードの方式は、玄関子機200の音声データデコード部224(図4参照)が使用するデコードの方式に対応する。
音声データ出力部138は、音声データエンコード部136から入力したストリーミング形式の音声データを玄関子機200に出力する。
音声出力部140は、TTS処理部190が生成した音声を表すリニア形式の電気信号や、呼制御部160または音声処理部130から入力した音声を表すリニア形式の電気信号を、音声に変換し、ドアホン親機100の外部に向けて出力するスピーカである。
音声入力部150は、ドアホン親機100の周辺の音声をリニア形式の電気信号に変換するマイクロフォンである。
呼制御部160は、玄関子機200からの呼を制御する。呼制御部160は、着信処理部162と、待機処理部164と、通話処理部166と、を備える。
着信処理部162は、玄関子機200からの着信を処理する。一例において、着信処理部162は、玄関子機200からの着信の通知に応じて、待機処理部164に着信を通知する。
待機処理部164は、玄関子機200からの着信から、ドアホン親機100と玄関子機200との間の通話の開始までの待機処理を行う。一例において、待機処理部164は、着信処理部162からの着信の通知に応じて、音声出力部140への呼出音を表すリニア形式の電気信号の出力を開始し、ドアホン親機100と玄関子機200との間の映像データの通信を開始する。また、一例において、待機処理部164は、ドアホン親機100が備える応答ボタン(図示せず)の押下の検出に応じて、音声出力部140への呼出音を表すリニア形式の電気信号の出力を終了し、通話処理部166に応答を通知する。一例において、呼出音を表すリニア形式の電気信号の出力の開始から終了までは、3秒間である。
通話処理部166は、ドアホン親機100と玄関子機200との間の通話を処理する。一例において、通話処理部166は、待機処理部164からの応答の通知に応じて、ドアホン親機100と玄関子機200との間の音声データの通信を開始する。また、一例において、通話処理部166は、呼終了の検出に応じて、ドアホン親機100と玄関子機200との間の映像データおよび音声データの通信を切断する。
顔認識部170は、入力された画像に映っている人物の顔を認識する。人物は、例えば、訪問者である。顔認識部170の構成については、図3を参照して後述する。
記憶部180は、顔認識部170が認識する対象である人物の顔の画像または顔の特徴量と人物の名前とを登録する登録用データベースを記憶する。顔の特徴量は、顔認識部170が顔認識に用いる任意の量であり、例えば、顔検出部174が用いるカスケード分類器、顔照合部176が用いるニューラルネットワークのパラメータや顔の表現データやLBPH(Local Binary Patterns Histograms)やSURF(Speeded Up Robust Features)特徴量である。以下、顔の画像および/または顔の特徴量を登録することを、単に顔を登録するという。
TTS処理部190は、入力されたテキストをテキスト解析処理して、読み上げ音声を表す音声(TTS音声)を表すリニア形式の電気信号を生成することにより、入力されたテキストをTTS再生する。入力されるテキストは、例えば、訪問者の名前である。テキスト解析処理およびリニア形式の電気信号の生成は、任意の公知の手法を使用できる。
図3は、図2の顔認識部170の一例を示す構成図である。顔認識部170は、画像補正部172と、顔検出部174と、顔照合部176と、認識結果チャタリング判定部178と、を備える。
画像補正部172は、入力された画像データからグレースケール画像を抽出する。入力される画像データは、例えば、映像処理部110が生成した静止画のデータである。一例において、画像補正部172は、入力された画像の色空間をRGB色空間からHSV色空間に変換し、V成分をグレースケール画像として抽出する。他の一例において、画像補正部172は、入力された画像の色空間をRGB色空間からHLS色空間に変換し、L成分をグレースケール画像として抽出する。
画像補正部172は、さらに、グレースケール画像の画像補正を実施する。画像補正は、例えば、ノイズ低減処理、エッジ強調処理、および明暗調整処理の少なくとも1つを含む。ノイズ低減処理、エッジ強調処理、および明暗調整処理の技法としては、いずれも任意の公知の技法を用いることができる。
顔検出部174は、入力された画像から人物の顔を検出する。入力される画像は、例えば、画像補正されたグレースケール画像である。顔の検出技法としては、任意の公知の技法を用いることができ、例えば、Haar−like特徴量を用いたカスケード分類器、Joint Haar−like特徴量を用いたカスケード分類器、またはSparse特徴量を用いたカスケード分類器を用いることができる。
顔照合部176は、顔検出部174が検出した人物の顔と登録用データベースに登録されている顔とを照合することにより、人物をリアルタイムに認識する。顔の照合方法としては、任意の公知の技法を用いることができ、例えば、SURF特徴量を用いたテンプレートマッチングやニューラルネットワークを用いることができる。顔照合部176が生成する認識の結果(顔認識結果)は、顔照合部176による照合の結果(顔照合結果)のうちの、一致した顔照合結果を含む。一例において、顔照合部176は、一致した顔照合結果とともに、その一致の確からしさを示すスコアを含む顔認識結果をリアルタイムに生成する。
なお、登録用データベースに登録された顔が正面を向いた顔である場合、顔検出部174が検出した人物の顔がより正面を向いている程、顔照合部176の顔照合結果はより正確であることが期待される。そこで、一例において、顔検出部174は、入力された画像から人物の顔の向きを、人物の顔と併せて検出し、顔照合部176は、検出された顔の向きに応じて、一致の確からしさを示すスコアを生成する。例えば、顔照合部176は、検出された顔の向きが正面により近いほど、より高いスコアを生成する。
認識結果チャタリング判定部178は、顔照合部176の顔認識結果をチャタリング判定する。ここで、チャタリング判定とは、同一の被写体に対して顔照合部176が生成した複数の顔認識結果に含まれる一致した顔照合結果と、それぞれの一致の確からしさを示すスコアとに基づいて、複数の顔認識結果から最も確からしい一致した顔照合結果を判定することである。一例において、呼出音が3秒間鳴動する間、画像補正部172が1秒間に静止画15枚分の画像データを入力し、各静止画に対して顔照合部176がリアルタイムに1秒当たり15個の顔認識結果を生成する場合を考える。この場合、認識結果チャタリング判定部178は、3×15=45個の顔認識結果に含まれる一致した顔照合結果と、それぞれの一致の確からしさを示すスコアとに基づいて、最も確からしい一致した顔照合結果を判定する。この顔照合結果は、顔認識部170の顔認識結果として用いられる。
図4は、本開示に係る玄関子機200の一例を示す構成図である。簡潔のために、以下、玄関子機200を一例にとって説明する。玄関子機200は、映像生成部210と、音声処理部220と、音声出力部230と、音声入力部240と、制御部250と、を備える。一例において、玄関子機200は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えるコンピュータである。CPUは、例えば、ROMから処理内容に応じたプログラムを読み出してRAMに展開し、展開したプログラムと協働して、玄関子機200の各ブロックの動作を集中制御する。
映像生成部210は、被写体の映像データを生成する。被写体は、例えば、玄関子機200に向かって話しかけている訪問者である。映像生成部210は、撮像部212と、映像データエンコード部214と、映像データ出力部216と、を備える。
撮像部212は、被写体を撮像する。撮像部212は、例えば、CMOSカメラまたはCCDカメラである。
映像データエンコード部214は、撮像部212が撮像した被写体の映像データをストリーミング形式にエンコードする。一例において、エンコードの方式は、デジタル形式であり、例えば、MPEG−2形式またはH.264形式である。他の一例において、エンコードの方式は、アナログ形式である。
映像データ出力部216は、ストリーミング形式の映像データをドアホン親機100(図2参照)に出力する。
音声処理部220は、音声入力部240から入力した音声を表すリニア形式の電気信号を処理し、音声データを出力する。さらに、音声処理部220は、ドアホン親機100から入力した音声データを処理し、音声を表すリニア形式の電気信号を出力する。
音声処理部220は、音声データ入力部222と、音声データデコード部224と、音声データエンコード部226と、音声データ出力部228と、を備える。音声データ入力部222、音声データデコード部224、音声データエンコード部226、および音声データ出力部228は、それぞれ、ドアホン親機100(図2参照)の音声データ入力部132、音声データデコード部134、音声データエンコード部136、および音声データ出力部138と同様の機能を備えるので、説明を省略する。
音声出力部230は、音声処理部220から入力した音声を表すリニア形式の電気信号を、音声に変換し、玄関子機200の外部に向けて出力するスピーカである。
音声入力部240は、玄関子機200の周辺の音声をリニア形式の電気信号に変換するマイクロフォンである。
制御部250は、映像生成部210と音声処理部220との動作を制御する。例えば、制御部250は、玄関子機200が備える呼出ボタン(図示せず)の押下に応じて、ドアホン親機100に着信を通知し、映像生成部210に映像データの出力を開始させ、音声処理部220に音声データの出力を開始させる。また、例えば、制御部250は、呼終了の検出に応じて、映像生成部210に映像データの出力を終了させ、音声処理部220に音声データの出力を終了させる。
図5は、本開示に係るデータのフローの一例を示すシーケンス図である。通常のテレビドアホンシステム同様、ステップS201における着信の開始とともに、ステップS202において、呼出音の鳴動が開始する。映像生成部210によって生成された映像データは、ステップS203において、ドアホン親機100に送信される。ドアホン親機100によって受信された映像データは、ステップS204において映像処理部110で静止画データに変換され、ステップS205において表示出力部120に送られる。ステップS206において、静止画データは、表示出力部120に表示される。
これに加えて、本開示に係るドアホン親機100においては、呼出音の鳴動開始(ステップS202)の後、映像処理部110からの静止画データは、ステップS207において顔認識部170にも入力され、ステップS208においてリアルタイムで顔の検出、照合、および認識がリアルタイムに行われる。
さらに、本開示に係るドアホン親機100においては、呼出音の鳴動終了(ステップS215)までの間、静止画が更新され、顔の検出、照合、および認識が繰り返し行われる。即ち、ステップS209においてドアホン親機100によって受信された映像データは、ステップS210において映像処理部110で静止画データに変換される。変換された静止画像データは、ステップS211において表示出力部120に送られる。ステップS212において、静止画データは、表示出力部120に表示される。これと並行して、映像処理部110からの静止画データは、ステップS213において顔認識部170にも入力され、ステップS214においてリアルタイムで顔の検出、照合、および認識がリアルタイムに行われる。
ステップS215において呼出音の鳴動が通知した後、ステップS216において顔認識結果が顔認識部170から呼制御部160に送信される。ステップS217において、顔認識結果が一致した顔照合結果を含むかどうかが顔認識部170によって判定される。顔認識結果が一致した顔照合結果を含むと判定された場合(ステップS217:YES)、ステップS218において、TTS処理部190によって、一致した顔に関連付けられたテキストからTTS音声データが生成される。ステップS219において、音声出力部140によって、TTS音声データが再生される。一方、顔認識結果が一致した顔照合結果を含まないと判定された場合(ステップS217:NO)、TTS音声データが再生されることはない。
一般的に、玄関子機200が撮像する訪問者は、常に撮像部212の方を向いているとは限らない。しかしながら、呼出音の鳴動開始から鳴動終了までの間は、訪問者は、撮像部212の方を向いており、撮像部212は訪問者の正面を向いた顔を撮像する可能性が高いと考えられる。そこで、呼出音の鳴動開始から鳴動終了までの間に、顔認識部170がリアルタイムで顔の検出、照合、および認識を行うことにより、正面を向いた顔の画像を用いて、より精度の高い顔認識を行うことができる。
[顔認識およびTTS再生動作]
図6は、本開示に係るドアホン親機100の顔認識およびTTS再生動作の一例を示すフローチャートである。図6に示されるフローチャートは、繰り返し実行される。
ステップS101において、呼制御部160は、ドアホン親機100が着信中であるか否かを判定する。例えば、呼制御部160は、呼制御部160が備える状態フラグ(図示せず)が着信中を示すか否かを判定する。
ステップS101において、ドアホン親機100が着信中でないと判定された場合(ステップS101:NO)、ステップS102において、呼制御部160は、ドアホン親機100が着信を開始したか否かを判定する。
ドアホン親機100が着信を開始した場合(ステップS102:YES)、ステップS103において、呼制御部160は、呼制御部160の状態フラグを着信中に変更し、ドアホン親機100の鳴動を開始させる。一方、ドアホン親機100が着信を開始していない場合(ステップS102:NO)、フローが終了する。
ステップS101において、ドアホン親機100が着信中であると判定された場合(ステップS101:YES)、ステップS105において、呼制御部160は、ドアホン親機100の鳴動が終了したか否かを判定する。例えば、呼制御部160は、呼制御部160の状態フラグが鳴動中を示すか否かを判定する。
ステップS105において、ドアホン親機100の鳴動が終了していないと判定された場合(ステップS105:NO)、ステップS106において、画像補正部172は、映像処理部110から入力された静止画から、グレースケール画像を抽出する。
ステップS107において、画像補正部172は、グレースケール画像に対して画像補正を実施する。
ステップS108において、顔検出部174は、画像補正されたグレースケール画像からの顔の検出を実施する。ステップS109において、顔検出部174は、顔が検出されたか否かを判定する。ステップS109において、顔が検出されなかったと判定された場合(ステップS109:NO)、フローを終了する。
ステップS109において、顔が検出されたと判定された場合(ステップS109:YES)、ステップS110において、顔検出部174は、顔が検出されたグレースケール画像の顔の部分に正規化処理を実施する。正規化処理は、ステップS111において、登録用データベースに登録された顔との照合を精度良く行うための処理であり、例えば、回転処理および拡大縮小処理の少なくとも1つを含む。
ステップS111において、顔照合部176および認識結果チャタリング判定部178は、顔認識を実施する。
一方、ステップS105において、ドアホン親機100の鳴動が終了したと判定された場合(ステップS105:YES)、ステップS112において、呼制御部160は、顔認識部170からドアホン親機100の呼出音の鳴動開始から鳴動終了の間に実施された顔認識の顔認識結果を取得する。
ステップS113において、呼制御部160は、顔認識結果の中に一致した顔照合結果が存在するか否かを判定する。
ステップS113において、顔認識結果の中に一致した顔照合結果が含まれると判定された場合(ステップS113:YES)、ステップS114において、呼制御部160は、一致した顔に関連付けられたテキストをTTS処理部190に出力し、TTS処理部190にTTS再生を開始させ、フローを終了する。
なお、ステップS114の後、フローを終了する前に、登録用データベースに登録された顔を、一致した顔で更新し、古い顔の登録を削除してもよい。これにより、経年変化により訪問者の顔が変化する場合であっても、顔認識部170が訪問者の顔をより良好に認識できる。
一方、ステップS113において、顔認識結果の中に一致した顔照合結果が含まれないと判定された場合(ステップS113:NO)、そのままフローを終了する。
図7は、図6のステップS103からS114におけるドアホン親機の動作の様子を示す説明図である。訪問者Pが玄関子機200の呼出ボタンを押した後、図6のステップS103において、ドアホン親機100の鳴動が開始した結果、ドアホン親機100の音声出力部140から鳴動音「ピーンポーン」が出力される。
次いで、図6のステップS111において、玄関子機200が撮像した映像から抽出された画像内の訪問者Pの顔と、記憶部180に記憶された人物「はなこ」、「たろう」、「おかあさん」、「おとうさん」の顔とが照合される。照合の結果、図6のステップS113において、訪問者Pの顔と「おかあさん」の顔とが一致したと判定された場合、図6のステップS114において、鳴動音に続き、音声出力部140から、「おかあさん」の顔に関連付けられたTTS音声「おかあさん」が出力される。
本開示のドアホン親機100は、玄関子機200から映像データを入力する映像データ入力部112と、映像データに含まれる画像に映っている人物の顔を認識する顔認識部170と、認識された人物の顔に関連付けられたテキストに対応する音声(TTS音声)を出力する音声出力部140と、を備える構成を採る。
本開示のドアホン親機100によれば、訪問者Pを示す情報を、ドアホン親機100に表示される画像に加えて、音声によって在宅者に伝達する。したがって、例えば、ドアホン親機100が鳴動した際に、ドアホン親機100から離れた位置にいる在宅者が、訪問者Pの画像を確認するためにドアホン親機100の設置位置まで移動しなくても、鳴動に続くTTS音声を聞くことによって訪問者Pを特定できる。
さらに、ドアホン親機100が、在宅者の身長と比較して高い位置に設置されているために、在宅者がドアホン親機100の画像を視ることができない場合であっても、鳴動に続くTTS音声を聞くことによって訪問者Pを特定できる。また、視覚障害や視力の低下によって、在宅者がドアホン親機100の画像を視ることができない場合であっても、鳴動に続くTTS音声を聞くことによって訪問者Pを特定できる。
[登録動作]
次に、記憶部180に、訪問者の顔と訪問者のTTS音声に用いられるテキストとを関連付けるための登録動作について説明する。登録動作により、訪問者の顔が登録用データベースに登録される。
登録動作は、仮登録動作と本登録動作との2段階からなる。記憶部180は、仮保存データベースを記憶する。仮登録動作は、仮保存データベースへの登録動作である。一方、本登録動作は、登録用データベースへの登録動作である。仮保存データベースと登録用データベースとは、別のデータベースである。
図8は、本開示に係るドアホン親機100の仮登録動作の一例を示すフローチャートである。
図8のステップS301,S302,S303,S304,S305,S306の処理内容は、それぞれ、図6に示されるステップS106,S107,S108,S109,S110,S111の処理内容と同様であるので、説明を省略する。
ステップS307において、呼制御部160は、顔認識結果の中に一致した顔照合結果が含まれるか否かを判定する。
ステップS307において、顔認識結果の中に一致した顔照合結果が含まれると判定された場合(ステップS307:YES)、訪問者の顔が既に登録用データベースに登録されている可能性が高いので、そのままフローを終了する。一方、ステップS307において、顔認識結果の中に一致した顔照合結果が含まれないと判定された場合(ステップS307:NO)、訪問者の顔が未だ登録用データベースに登録されていない可能性が高い。そこで、ステップS308において、ドアホン親機100は、仮保存データベースに訪問者の顔を登録し、仮登録動作のフローを終了する。
図9Aは、本開示に係るドアホン親機100の本登録動作で使用される仮登録訪問者選択画面I1の一例である。仮登録訪問者選択画面I1は、仮保存データベースに仮登録された訪問者の顔の画像から、登録の対象となる訪問者の顔の画像I3を選択するためのGUIである。一例において、ドアホン親機100の表示出力部120(図2参照)が、画面上でタッチされた位置を検出できるタッチパネルである。表示出力部120が、仮登録訪問者選択画面I1を表示する。
在宅者がボタンB1およびボタンB2をタップまたは押下すると、仮保存データベースに登録された訪問者の顔の画像I3および訪問者の訪問日時(撮像日時)Lの表示が切り替わる。在宅者がボタンB3をタップまたは押下すると、TTS再生に用いられるテキストを関連付ける訪問者が確定される。
図9Bは、本開示に係るドアホン親機の本登録動作で使用される仮登録訪問者名前入力画面I2の一例である。表示出力部120が、仮登録訪問者名前入力画面I2を表示する。
画像I3に映っている訪問者の名前を、在宅者がテキストボックスTに入力し、ボタンB4をタップまたは押下すると、入力された名前が訪問者のTTS再生に用いられるテキストとして、訪問者の顔に関連づけられて登録用データベースに登録される。
上記の登録動作により、在宅者は、訪問者の顔の画像を別途撮像することなく、登録用データベースに登録できる。したがって、訪問者が撮像に協力的であるか否かを問わず、在宅者は、訪問者の顔を登録用データベースに登録できる。
(実施の形態およびその効果)
本開示のドアホン親機は、玄関子機から映像データを入力する映像データ入力部と、前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、を備える。これにより、ドアホン親機は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を音声によって在宅者に通知できる。
本開示のドアホン親機において、前記顔認識部は、入力された映像データに含まれる複数の画像に基づいて、前記人物の顔を認識する。これにより、顔認識部は、訪問者の顔をより正確に認識できる。
本開示のドアホン親機において、前記顔認識部は、前記複数の画像のそれぞれに対する顔照合結果の一致の確からしさに基づいて、前記人物の顔を認識する。これにより、顔認識部は、一致した可能性のより高い顔照合結果に基づいて、訪問者の顔をより正確に認識できる。
本開示のドアホン親機において、前記複数の画像は、ドアホン親機の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる。これにより、顔認識部は、訪問者の正面を向いた顔の画像に基づいて、訪問者の顔をより正確に認識できる。
本開示のドアホン親機において、テキストに対応する音声は、ドアホン親機の鳴動終了後に出力される。これにより、鳴動音によって注意を惹きつけられた在宅者が、引き続き注意を払った状態で訪問者の名前等のテキストに対応する音声を聞くことができる。
本開示の通知方法は、玄関子機から映像データを入力するステップと、前記映像データに含まれる画像に映っている人物の顔を認識するステップと、認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、を備える。これにより、ドアホン親機は、登録済みの訪問者にボタン等の選択操作をさせることなく、訪問者の名前を音声によって在宅者に通知できる。
上記の実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
本開示に係るドアホン親機は、テレビドアホンシステムに使用されるのに好適である。
10 ドアホンシステム
100 ドアホン親機
110 映像処理部
112 映像データ入力部
114 映像データデコード部
120 表示出力部
130 音声処理部
140 音声出力部
150 音声入力部
160 呼制御部
162 着信処理部
164 待機処理部
166 通話処理部
170 顔認識部
172 画像補正部
174 顔検出部
176 顔照合部
178 認識結果チャタリング判定部
180 記憶部
190 TTS処理部
200 玄関子機

Claims (6)

  1. 玄関子機から映像データを入力する映像データ入力部と、
    前記映像データに含まれる画像に映っている人物の顔を認識する顔認識部と、
    認識された人物の顔に関連付けられたテキストに対応する音声を出力する音声出力部と、
    を備えるドアホン親機。
  2. 前記顔認識部は、入力された映像データに含まれる複数の画像に基づいて、前記人物の顔を認識する、請求項1に記載のドアホン親機。
  3. 前記顔認識部は、前記複数の画像のそれぞれに対する顔照合結果の一致の確からしさに基づいて、前記人物の顔を認識する、請求項2に記載のドアホン親機。
  4. 前記複数の画像は、ドアホン親機の呼出音の鳴動開始から鳴動終了の間に入力された映像データに含まれる、請求項3に記載のドアホン親機。
  5. 前記テキストに対応する音声は、ドアホン親機の鳴動終了後に出力される、請求項1から4のいずれかに記載のドアホン親機。
  6. 玄関子機から映像データを入力するステップと、
    前記映像データに含まれる画像に映っている人物の顔を認識するステップと、
    認識された人物の顔に関連付けられたテキストに対応する音声を出力するステップと、
    を備える通知方法。
JP2017204643A 2017-10-23 2017-10-23 ドアホン親機および通知方法 Pending JP2019080134A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017204643A JP2019080134A (ja) 2017-10-23 2017-10-23 ドアホン親機および通知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017204643A JP2019080134A (ja) 2017-10-23 2017-10-23 ドアホン親機および通知方法

Publications (1)

Publication Number Publication Date
JP2019080134A true JP2019080134A (ja) 2019-05-23

Family

ID=66628841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017204643A Pending JP2019080134A (ja) 2017-10-23 2017-10-23 ドアホン親機および通知方法

Country Status (1)

Country Link
JP (1) JP2019080134A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7381014B2 (ja) 2019-12-04 2023-11-15 株式会社デジタル・ナレッジ 試験システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7381014B2 (ja) 2019-12-04 2023-11-15 株式会社デジタル・ナレッジ 試験システム

Similar Documents

Publication Publication Date Title
JP7221258B2 (ja) 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体
JP6705656B2 (ja) 視覚補助装置及びオブジェクトの分類の検出方法
US20220277752A1 (en) Voice interaction method and related apparatus
WO2019088511A1 (en) Electronic device and method for reliability-based object recognition
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
JP2007102683A (ja) 画像配信システム、および画像配信方法
CN111583919B (zh) 信息处理方法、装置及存储介质
KR20100026701A (ko) 수화 번역기 및 그 방법
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
KR20060112290A (ko) 휴대단말기에서 메인언어를 설정하는 방법
JP2007094535A (ja) 認証システム及び認証方法
JP2011004007A (ja) テレビ会議装置、テレビ会議方法、そのプログラム
JP2019080134A (ja) ドアホン親機および通知方法
CN112820300A (zh) 音频处理方法及装置、终端、存储介质
JP2011066467A (ja) テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム
JP2006268710A (ja) 翻訳システム
US20220006952A1 (en) Solid-state imaging device, solid-state imaging method, and electronic equipment
CN112073639A (zh) 拍摄控制方法及装置、计算机可读介质和电子设备
JP2012060294A (ja) 撮像装置
KR20200054153A (ko) 마이크로폰으로 인공지능스피커와 연동되는 전자펜 시스템
JP7450748B2 (ja) 情報表示装置及び情報表示方法
JP7390670B2 (ja) 共同玄関子機、共同玄関子機の画像出力方法、及びプログラム
CN113473061B (zh) 视频通话的方法与电子设备
KR101364844B1 (ko) 화상통화기능을 갖는 이동통신단말기 및 그 제어방법

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191018