JP2019186929A

JP2019186929A - カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体

Info

Publication number: JP2019186929A
Application number: JP2019067340A
Authority: JP
Inventors: 忠▲海▼ ▲張▼; zhong hai Zhang; ▲海▼全 ▲呉▼; Hai Quan Qu; 恩勤 ▲張▼; en qin Zhang; 磊曹; Lei Cao; 瑞文 ▲師▼; Ruiwen Shi
Original assignee: Shenzhen Grandsun Electronics Co Ltd
Current assignee: Shenzhen Grandsun Electronics Co Ltd
Priority date: 2018-04-04
Filing date: 2019-03-29
Publication date: 2019-10-24
Anticipated expiration: 2039-03-29
Also published as: US10917577B2; JP6785908B2; US20190313031A1; CN108737719A; EP3550827A1

Abstract

【課題】本発明は、通信技術分野に適用され、カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体を提供する。【解決手段】当該方法は、音声が検出された場合、前記音声にキーワードがあるか否かを識別することと、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定することと、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御することと、を含む。上記方法によって、複数の人が同時に発言する時にカメラの頻繁な回転による振れを効果的に回避することができる。【選択図】図１

Description

本発明は、通信技術分野に属し、特にカメラ撮影制御方法、装置、インテリジェント装置および記憶媒体に関する。

インターネット技術の台頭は、人々の交流方式を大いに充実させ、異なる地域にいる人の間の交流が益々便利になる。そこで、遠隔ビデオ会議システムは重要な遠隔交流技術として、その便利さと高い効率のため、企業の稼働効率を大幅に向上させる。従来の技術では、ビデオ会議を行う場合、参加者が頻繁に討論することがあり、参加者Ａが観点を発表すると、システムは検出された音声によってＡの位置を算出してカメラを参加者Ａにアライメントするように起動するが、Ａの発言はもう終わってカメラがまだＡにアライメントしない恐れがあり、その時参加者Ｂが言い始め、システムは検出されたＢの音声によってＢの位置を算出すると同時に、カメラをＢの所在方向へ回転させるように制御し、その時Ｃが発言しまたは複数の参加者が同時に発言する場合があり、このように従来の簡単なカメラ追従を採用されば、カメラは異なる参加者の間に振れることを引き起こしてしまう。要約すると、従来のビデオ会議技術では、カメラによる追従撮影が間に合わず、複数の人が同時に発言する時にカメラの頻繁なステアリングによる振れを引き起こし、ビデオ撮影効率が低下するという問題がある。

これに鑑みて、本発明の実施例は、カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体を提供し、従来のビデオ会議技術ではカメラによる追従撮影が間に合わず、複数の人が同時に発言する時にカメラの頻繁なステアリングによる振れを引き起こし、ビデオ撮影効率が低下するという問題を解決する。

本発明の第一態様第一態様はカメラ撮影制御方法を提供し、前記カメラ撮影制御方法は、
音声が検出された場合、前記音声にキーワードがあるか否かを識別することと、
前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定することと、
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御することと、を含む。

本発明の態様第二態様はカメラ撮影制御装置を提供し、前記カメラ撮影制御装置は、
音声が検出された場合、前記音声にキーワードがあるか否かを識別するためのキーワード識別ユニットと、
前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定するための音源位置決めユニットと、
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御するための第一撮影制御ユニットと、を含む。

本発明の第三態様は、メモリーと、プロセッサと、前記メモリーに記憶され、前記プロセッサで実行可能なコンピュータプログラムとを含み、前記プロセッサは前記コンピュータプログラムを実行する時に前記第一態様に記載のカメラ撮影制御方法のステップを実現する。

本発明の第四態様は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサによって実行される時に上記第一態様に記載のカメラ撮影制御方法のステップを実現する。

本発明の実施例は従来技術と比較して、以下の有益な効果を有する、すなわち、音声が検出された場合、先ず、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、次に、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御し、カメラを効果的に回転させて音源対象を撮影することによって、複数の人が発言する時にカメラの頻繁な回転による振れを引き起こすことを回避し、さらにビデオ撮影の正確率を高め、ユーザーエクスペリエンスを向上させる。

本発明の実施例における技術的解決手段をより明確に説明するために、以下、実施例または従来技術の説明で使用される図面を簡単に紹介する。当然のことながら、以下の説明における図面は、本発明のいくつかの実施例に過ぎず、当業者であれば、創造的労働を要することなく、これらの図面に基づく他の図面を得ることができる。

本発明の実施例によるカメラ撮影制御方法を実現するフローチャートである。本発明の実施例による音源対象に対応する音源角度の記録を含むカメラ撮影制御方法を実現するフローチャートである。本発明の実施例による音源対象の再撮影場合を含むカメラ撮影制御方法を実現するフローチャートである。本発明の実施例によるカメラ撮影制御方法の応用シーンの模式図である。本発明の別の実施例によるカメラ撮影制御方法を実現するフローチャートである。本発明の実施例によるカメラ撮影制御装置の構造を示すブロック図である。本発明の実施例によるインテリジェント装置の模式図である。

以下の説明では、本発明の実施例を完全に理解するために提供される特定のシステム構造、技術などの詳細は、単なる例示に過ぎず、本発明を制限するものではない。しかしながら、当業者には、これらの具体的な詳細なしに他の実施例において本発明を実施できることが明らかであろう。その他の場合、本発明の説明を妨害しないために、周知のシステム、装置、回路および方法の詳細は省略する。

本発明の実施例は、複数の人が同時に発言する場合に撮影対象を正確に確定し、カメラの頻繁な回転による振れを回避するために、カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体を提供し、主に、音声が検出された場合、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、前記音源対象の音源角度によって、前記音源対象を前記カメラが撮影する画面の中央に位置させるように、前記カメラのステアリングを制御する。上記カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体を具体的に説明するために、以下、具体的な実施例を挙げて説明する。

本発明に記載の技術的解決手段を説明するために、以下、具体的な実施例を挙げて説明する。
実施例一：
図１は、本発明の実施例によるカメラ撮影制御方法示すフローチャートである。当該方法フローは、ステップＳ１０１乃至Ｓ１０３を含む。各ステップの具体的な実現原理は以下のとおりである。
ステップＳ１０１では、音声が検出された場合、前記音声にキーワードがあるか否かを識別する。

本発明の実施例において、ビデオ電話又はビデオ会議を必要とする場合、インテリジェント装置を用いて音源対象を追跡して撮影する。インテリジェント装置は起動後にリアルタイムで現在シーンの音声を収集し始める。具体的には、マイクロホンアレイによりあらゆる方向にリアルタイムで音声をピックアップし、現在シーンの誰かからの音声を受ける。前記インテリジェント装置はスマートロボットであってもよく、回転可能なカメラを有するスマートスピーカーであってもよく、スマートスピーカーのマイクロホンアレイによって音声をピックアップし、回転可能なカメラによってビデオを撮影する。マイクロホンアレイが音声をピックアップした場合に、音声にキーワードがあるか否かを識別し、前記キーワードとはユーザーによって事前指定された単語又は文を指し、カメラの回転をトリガーするために用いられ、前記キーワードはユーザーによってリセットされる。

好ましくは、本発明の実施例において、音声におけるキーワードを正確に識別するために、前記ステップＳ１０１は以下を含む、すなわち、
Ａ１、音声が検出された場合、前記音声をテキスト情報に変換する。
Ａ２、前記テキスト情報に基づいて単語分割を行う。具体的には、文法の格式でテキスト情報を単語に分割し、さらに、音声情報から分割された単語を単語ベクトルとして記憶し、前記単語ベクトルにはさらに、当該単語ベクトルに対応する音声を識別するための識別ビットが設けられる。

Ａ３、分割された単語と予め設定されたキーワードを整合し、前記音声にキーワードがあるか否かを確定し、具体的には、分割された単語と予め設定されたキーワードを照合整合すれば、前記音声にキーワードがあることを確定し、分割された単語が予め設定されたキーワードと整合しなければ、前記音声にキーワードがないことを確定する。

本発明の実施例において、音声をテキスト情報に変換して単語分割処理を行い、分割された単語を予め設定されたキーワードで一つずつ整合することによって、音声にキーワードがあるか否かを確定し、キーワード識別の正確率を高めることができる。

好ましくは、検出された音声を意味識別して音声の意味を識別することができ、識別された音声の意味が予め設定されたキーワードの意味と同じであれば、前記音声にキーワードがあることを確定し、カメラの回転をトリガーすることができ、前記音声の意味が予め設定されたキーワードの意味と同じでなければ、前記音声にキーワードがないことを確定し、即ち、カメラの回転をトリガーすることができない。

ステップＳ１０２では、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定する。
本発明の実施例において、前記音声に指定したキーワードがある場合、マイクロホンアレイアルゴリズムによって前記音声の音源方向を取得することができる。単一のマイクロホンは音声情報のみを取得できるが、複数のマイクロホンにより一定の幾何学的位置に応じて配置されたマイクロホンアレイは、音声情報だけでなく音声の空間的情報を取得することもできる。マイクロホンアレイアルゴリズムとは、一定の幾何学的位置に応じて配置されたマイクロホンアレイを用いて、ある音源から各マイクロホンまでの相対遅延時間および音波の到達時間差を算出することで、当該音源の音源方向を位置決めする。本発明の実施例において、マイクロホンアレイの個数と配列方式は制限されるものではなく、水平に並び替えてもよく、垂直に並び替えてもよく、又は、ランダムに並び替えてもよいが、マイクロホンアレイの個数と配列方式が確定された場合、マイクロホンアレイにおける各マイクロホンユニットの位置が確定される。

ステップＳ１０３では、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御する。
本発明の実施例において、検出された音声にキーワードがあることを識別した場合、カメラのステアリングをトリガーし、そして前記音声の音源角度によって前記カメラの回転に必要な方向を確定し、撮影効果を向上させるために、カメラを前記音声の音源に回転させる場合、前記音源に対応する音源対象が前記カメラの撮影する画面の中央にあるようにする。さらに、インテリジェント装置（又はカメラ）が前記音源に対応する音源対象に近い場合、カメラの光学的パラメータを、前記音源に対応する音源対象の顔が前記カメラの撮影する画面の中央にあるように調整する。

好ましくは、前記ステップＳ１０３は以下を含む、すなわち、
Ｂ１、前記カメラの現在の角度を取得する。
Ｂ２、前記音源角度と前記カメラの現在の角度との角度差を算出し、前記音源角度と前記カメラの現在の角度はいずれも相対角度を指す。

Ｂ３、前記音源角度と前記カメラの現在の角度との角度差によって、予め設定された回転速度に基づいて、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御する。具体的には、予め設定された回転速度は電機の速度を指す。本発明の実施例において、回転速度を予め設定することによって、カメラがステアリングする時に回転速度が速すぎることに起因する撮影画面の不安定、または回転速度が遅すぎることに起因する時間遅れを回避し、効率を向上させる。

好ましくは、前記Ｂ３は具体的には、以下を含む、すなわち、
Ｂ３１、前記音源角度と前記カメラの現在の角度との角度差によって、第一回転速度で前記カメラを前記音源に回転させるように制御する。
Ｂ３２、顔を検出し、顔が検出された場合、第二回転速度に基づいて、前記音声を出す音源対象を前記カメラの撮影する画面の中央に位置させるように、前記カメラのステアリングを制御し、ここで、前記第一回転速度は、前記第二回転速度よりも大きい。前記第一回転速度と第二回転速度はいずれも電機速度である。

本発明の実施例において、前記音源角度は前記音源に対応する音源対象の正確な角度ではなく、方向角であるため、前記音源角度と前記カメラの現在の角度との角度差によって、時間を節約するために、カメラを前記音源に迅速に回転させてから、電機速度を遅くさせ、顔検出技術を起動してカメラが撮影する画面における音源対象の顔を取得し、カメラの向きを、顔が撮影する画面の中央にあるように正確に調整する。

本発明第一実施例において、音声が検出された場合、先ず、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、次に、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御し、時間を節約するために、カメラを前記音声の音源の所在方向に迅速に回転させてから、回転速度を低減し、カメラの角度を前記音源に対応する音源対象が前記カメラが撮影する画面の中央にあるように正確に調整することによって、カメラを効果的に回転させて音源対象を撮影し、複数の人が発言する時にカメラの頻繁な回転による振れを引き起こすることを回避し、さらにビデオ撮影の正確率を高め、ユーザーエクスペリエンスを向上させる。

実施例二：
上記実施例一に提供されるカメラ撮影制御方法に基づいて、本発明の別の実施例を提出し、図２は、当該実施例二に係るカメラ撮影制御方法を示すフローチャートであり、その詳細は次のとおりである。

ステップＳ２０１では、音声が検出された場合、前記音声にキーワードがあるか否かを識別する。
ステップＳ２０２では、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定する。
ステップＳ２０３では、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御する。

本実施例において、ステップＳ２０１乃至ステップＳ２０３の具体的なステップは実施例一のステップＳ１０１乃至ステップＳ１０３を参照し、ここで再度の説明を省略する。
ステップＳ２０４では、前記音声を出す音源対象が前記カメラの撮影する画面にある場合、前記音声の音声特徴および前記音声を出す音源対象に対応する音源角度を記録して関連付ける。

具体的には、前記音源に対応する音源対象が前記カメラの撮影する画面の中央にある場合、前記音源対象に対応する音源角度を記録し、前記音源対象に対応する音源角度は音源対象が前記カメラの撮影する画面の中央にある場合のカメラの角度（すなわち基準点に対する電機の正確な角度）であり、さらに前記音声の音声特徴、例えば音源角度、音声特徴等が記録され、ここで、音声特徴は音源対象を表すための特徴であり、音色、音声周波数および音声音響インテンシティ等を含む。記録された前記音源対象に対応する音源角度を前記音声の音声特徴に関連付け、さらに、記録された前記音源対象に対応する音源角度および前記音声の音声特徴を二次元配列として記憶し、すなわち一つの二次元配列には一つの音源対象に対応する音源角度および音源対象の音声特徴が記憶される。

当然のことながら、前記二次元配列に記憶されたのは音源対象に対応する音源角度を含む度数区間、例えば、前記音源対象に対応する音源角度が一定の度数で上下に浮動した後の度数区間であってもよい。新しい音声の音源角度が記録された度数区間内にあると検出された場合、カメラを迅速に回転させ前記音源対象にアライメントすることができる。

好ましくは、図３に示すように、前記ステップＳ２０４の後、さらに以下を含む、すなわち、
ステップＳ２０５では、新しい音声が検出された場合、前記新しい音声を出す音源対象の音源角度を確定する。
ステップＳ２０６では、前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲内にあるか否かを判断する。
ステップＳ２０７では、前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあれば、前記記録された音源対象に対応する音源角度によって、前記新しい音声の音源角度に対応する音源対象を前記カメラの撮影する画面の中央に位置させるように、前記カメラのステアリングを制御する。

一つの応用シーンを例として、ビデオ会議中、四つのマイクロホンアレイを備えるカメラ付きのスマートスピーカーを用い、三つの音源対象Ａ、ＢおよびＣの所在位置は図３Ａに示すように、キーワードとして“Ｓｍａｒｔｂｏｙ”を予め設定し、Ａが発言する時、マイクロホンアレイを使用してＡの発言をシステムに録音し、システムはキーワード識別アルゴリズムによってＡがキーワードを話すか否かを検出し、Ａの音声にキーワードの“Ｓｍａｒｔｂｏｙ”があることが検出された場合、マイクロホンアレイアルゴリズムによってＡの音声中の音源角度を取得し、それにより、取得した前記音源角度に基づいてＡがＭＩＣ４位置の近くにあることを確定し、電機を起動し、カメラをＭｉｃ４の近くに迅速に回転させてから、電機の速度を遅くさせ、顔検出し、顔が検出されると、カメラの角度を低速で調整し、検出された顔がカメラの撮影する画像の中央位置に位置するまで、電機を停止し、カメラの位置を固定し、かつＡの正確な位置、および確定された音源角度を記録し、次のビデオ会議中、再びＡの発言が検出された場合、カメラを迅速に回転させてＡにアライメントし、調整時間を低減し、ユーザーエクスペリエンスの向上させることができる。

本発明第二実施例において、音声が検出された場合、先ず、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、次に、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御し、カメラを効果的に回転させて音源対象を撮影することによって、複数の人が発言する時にカメラの頻繁な回転による振れを引き起こすことを回避し、さらにビデオ撮影の正確率を高め、前記音声を出す音源対象が前記カメラの撮影する画面の中央にある場合、前記音声の音声特徴および前記音声を出す音源対象に対応する音源角度を記録して関連付け、それにより、同じ音源対象が再び発言する時にカメラを迅速かつ正確に回転させて当該音源対象にアライメントし、撮影効率をさらに上昇させ、ユーザーエクスペリエンスを向上させる。

実施例三：
上記実施例二に提供されるカメラ撮影制御方法に基づいて、図４示は当該実施例三に係るカメラ撮影制御方法を示すフローチャートであり、その詳細は次のとおりである。
ステップＳ４０１、音声が検出された場合、前記音声にキーワードがあるか否かを識別する。
ステップＳ４０２、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定する。
ステップＳ４０３、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御する。
ステップＳ４０４、前記音声を出す音源対象が前記カメラの撮影する画面中にある場合、前記音声の音声特徴および前記音声を出す音源対象に対応する音源角度を記録して関連付ける。

本実施例において、ステップＳ４０１乃至ステップＳ４０４の具体的なステップは実施例二ステップＳ２０１乃至ステップＳ２０４を参照し、ここで再度の説明を省略する。
ステップＳ４０５、新しい音声が検出された場合、前記新しい音声の音声特徴が記録された音声特徴と同じであるか否かを判断する。前記音声特徴は、音声周波数、音色、音声音響インテンシティおよびピッチを含むが、これらに限定されない。
ステップＳ４０６、前記新しい音声の音声特徴が記録の音声特徴と同じであれば、前記音声特徴に関連する音源対象に対応する音源角度を取得する。

具体的には、前記新しい音声の音声特徴が記録された音声特徴と同じであれば、前記記録から前記音声特徴に関連する音源対象に対応する音源角度、すなわち音源対象が初めて発言する時に記録されたカメラの角度を検索する。
ステップＳ４０７、前記音声特徴に関連する音源対象に対応する音源角度によって、前記カメラを前記音源対象に回転させるように制御する。
具体的には、前記音声特徴に関連する音源対象に対応する音源角度によって、予め設定された回転速度で前記カメラを迅速に回転させて前記音源対象にアライメントする。

本発明第三実施例において、音声が検出された場合、先ず、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、次に、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御し、カメラを効果的に回転させて音源対象を撮影することによって、複数の人が発言する時にカメラの頻繁な回転による振れを引き起こすことを回避し、さらにビデオ撮影の正確率を高め、ユーザーエクスペリエンスを向上させる。

上記実施例における各ステップの順番の大きさは実行順序の優位性を意味するものではなく、各過程の実行順序はその機能および内部論理によって確定され、本発明の実施例の実施過程を制限するものではないことを理解すべきである。

実施例五：
以上の実施例に記載のカメラ撮影制御方法に対応して、図５は本発明の実施例に係るカメラ撮影制御装置の構造を示すブロック図であり、該装置はインテリジェント装置に応用することができ、該インテリジェント装置は無線アクセスネットワークＲＡＮを経由して一つまたは複数のコアネットワークと通信するユーザー装置を含むことができ、該ユーザー装置は携帯電話（または「セル」電話と呼ばれる）またはモバイル機器を備えるコンピュータ等であってよく、例えば、ユーザー装置は携帯式、コンパクト式、手持ち式、コンピュータ内蔵装置であってもよく、それらは無線アクセスネットワークと音声および／またはデータを交換することができる。なお、例えば、該ユーザー装置は知能スピーカー、知能ロボット等であってもよい。説明の便宜上、本発明の実施例に関連する部分のみを示す。

説明の便宜上、本発明の実施例に関連する部分のみを示す。
図５を参照し、当該カメラ撮影制御装置は、キーワード識別ユニット５１、音源位置決めユニット５２、第一撮影制御ユニット５３を含み、ここで、
キーワード識別ユニット５１は、音声が検出された場合、前記音声にキーワードがあるか否かを識別するために用いられ、
音源位置決めユニット５２は、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定するために用いられ、
第一撮影制御ユニット５３は、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御するために用いられる。

好ましくは、前記第一撮影制御ユニット５３は具体的に、
前記カメラの現在の角度を取得するための角度取得モジュールと、
前記音源角度と前記カメラの現在の角度との角度差を算出するための角度算出モジュールと、
前記音源角度と前記カメラの現在の角度との角度差によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、予め設定された回転速度に基づいて前記カメラのステアリングを制御するための回転制御モジュールと、を含む。

好ましくは、前記回転制御モジュールは具体的に、
前記音源角度と前記カメラの現在の角度との角度差によって、第一回転速度に基づいて前記カメラを前記音源に回転させるように制御するための第一回転子モジュールと、
顔を検出し、顔が検出された場合、第二回転速度に基づいて、前記音声を出す音源対象を前記カメラの撮影する画面の中央に位置させるように、前記カメラのステアリングを制御するための第二回転子モジュールと、ここで、前記第一回転速度は、前記第二回転速度よりも大きい、を含む。

好ましくは、前記カメラ撮影制御装置は、
前記音声を出す音源対象が前記カメラの撮影する画面の中央にある場合、前記音声の音声特徴および前記音声を出す音源対象に対応する音源角度を記録して関連付けるための関連付け記録ユニット５４、をさらに含む。

好ましくは、前記カメラ撮影制御装置は、
新しい音声が検出された場合、前記新しい音声の音声特徴が記録された音声特徴と同じであるか否かを判断するための第一判断ユニット５５と、
前記第一判断ユニット５５はさらに、前記新しい音声の音声特徴が記録された音声特徴と同じであれば、前記音声特徴に関連する音源対象に対応する音源角度を取得するために用いられ、
前記音声特徴に関連する音源対象に対応する音源角度によって、前記カメラを前記音源対象に回転させるように制御するための第二撮影制御ユニット５６と、をさらに含む。

好ましくは、前記カメラ撮影制御装置は、
新しい音声が検出された場合、前記新しい音声を出す音源対象の音源角度を確定するための角度確定ユニット５７と、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあるか否かを判断するための第二判断ユニット５８と、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあれば、前記記録された音源対象に対応する音源角度によって、前記新しい音声の音源角度に対応する音源対象を前記カメラの撮影する画面中に位置させるように、前記カメラのステアリングを制御するための第三撮影制御ユニット５９と、をさらに含む。

本発明の第五実施例において、音声が検出された場合、先ず、前記音声にキーワードがあるか否かを識別し、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定し、次に、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御し、カメラを効果的に回転させて音源対象を撮影することによって、複数の人が発言する時にカメラの頻繁な回転による振れを引き起こすことを回避し、さらにビデオ撮影の正確率を高め、ユーザーエクスペリエンスを向上させる。

実施例六：
図６は本発明の一つの実施例に係るインテリジェント装置の模式図である。図６に示すように、当該実施例のインテリジェント装置６は、プロセッサ６０と、メモリ６１と、前記メモリ６１に記憶され、前記プロセッサ６０で実行可能なコンピュータプログラム６２、例えば撮影制御プログラムとを含む。前記プロセッサ６０は前記コンピュータプログラム６２を実行する時、上記各カメラ撮影制御方法の実施例におけるステップ、例えば図１に示すステップ１０１乃至１０３を実現する。または、前記プロセッサ６０は前記コンピュータプログラム６２を実行する時、上記各装置実施例における各モジュール／ユニットの機能、例えば図５に示すユニット５１乃至５３の機能を実現する。

例示的には、前記コンピュータプログラム６２は一つまたは複数のモジュール／ユニットに分割されてよく、前記一つ又は複数のモジュール／ユニットは前記メモリ６１に記憶され、かつ前記プロセッサ６０によって実行され、本発明に至った。前記一つ又は複数のモジュール／ユニットは、特定の機能を達成できる一連のコンピュータプログラム命令セグメントであってよく、該命令セグメントは前記コンピュータプログラム６２の前記インテリジェント装置６での実行過程を記述するためのものである。例えば、前記コンピュータプログラム６２はキーワード識別ユニット、音源位置決めユニット、第一撮影制御ユニットに分割されてよく、各ユニットの具体的な機能について、
キーワード識別ユニットは、音声が検出された場合、前記音声にキーワードがあるか否かを識別するために用いられ、
音源位置決めユニットは、前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定するために用いられ、
第一撮影制御ユニットは、前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御するために用いられる。

前記インテリジェント装置７はスマートスピーカー、スマートカメラおよびスマートロボット等のインテリジェント装置であってもよい。前記インテリジェント装置６は、プロセッサ６０と、メモリー６１とを含むが、それらに制限されない。当業者であれば、図６はインテリジェント装置６を例示するためのものに過ぎず、インテリジェント装置６を制限するものではなく、図示よりも多くの部品又は少ない部品、またはある部品の組み合わせ、または異なる部品を含んでよく、例えば前記インテリジェント装置はさらに入出力装置、ネットワークアクセスデバイス、バス等を含んでよい、ということを理解すべきである。

所謂プロセッサ６０は中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であってよく、ほかの汎用プロセッサ、ディジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）又はほかのプログラマブルロジックデバイス、ディスクリートゲートやトランジスタロジックデバイス、ディスクリートハードウェアコンポーネント等であってもよい。汎用プロセッサはマイクロプロセッサであってよく、または該プロセッサは任意の通常のプロセッサ等であってもよい。

前記メモリ６１は前記インテリジェント装置６の内部ストレージユニット、例えばインテリジェント装置６のハードディスクまたは内部メモリであってよい。前記メモリ６１は前記インテリジェント装置６の外部ストレージ装置、例えば前記インテリジェント装置６に配置される差し込み接続式ハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａＣａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）等であってもよい。さらに、前記メモリ６１は前記インテリジェント装置６の内部ストレージユニットを含み、さらに外部ストレージ装置を含んでもよい。前記メモリ６１は前記コンピュータプログラムおよび前記インテリジェント装置に必要なほかのプログラムおよびデータを記憶するために用いられる。前記メモリ６１はさらに出力済みまたは出力しようとするデータを一時記憶するために用いられる。

当業者であれば、説明しやすくおよび簡潔にするために、上述の各機能ユニット、モジュールの分けのみが例示されているが、実際の応用で、需要に応じて上記機能配分は異なる機能ユニット、モジュールによって完成されて分け、即ち前記装置の内部構造を異なる機能ユニットやモジュールに分けして上述機能の全部または一部を実現できることは明確に理解できるであろう。実施例における各機能ユニット、モジュールは一つの処理ユニットに統合されていてもよく、物理的に別々に存在していてもよく、二つ以上のユニットが一つのユニットに統合されてもよいが、上記統合ユニットは、ハードウェアの形態またはソフトウェア機能ユニットの形態を採用できる。また、各機能ユニット、モジュールの具体的な名称は、互いに区別することのみを目的とし、本出願の保護範囲を制限するものではない。上述のシステムにおけるユニット、モジュールの具体的な作業プロセスについては、前記の方法実施例における対応するプロセスを参照することができ、ここで再度の説明を省略する。

上記の実施例では、各実施例にそれぞれ重点を置いて説明したが、ある実施例では詳しく説明または記載しない部分について、ほかの実施例の関連説明を参照することができる。
当業者は、本説明書に開示される実施例と関連付けて説明した各例示的なユニットおよびアルゴリズムステップは、電子ハードウェア、またはコンピュータソフトウェアおよび電子ハードウェアの組み合わせによって実現することができる、ということを意識することができる。これらの機能はいったいハードウェア方式またはソフトウェア方式で実行しているか否かということに関して、技術的解決手段の特定の応用および設計上の制約条件に依存する。当業者は各特定の応用につき、異なる方法によって説明された機能を実現することができるが、これらの実現は本発明の範囲を逸脱するものと思われるべきではない。

本発明が提供する実施例において、開示される装置および方法はほかの方式で実行され得ることを理解すべきである。例えば、以上に記載のシステムの実施例は例示に過ぎず、例えば、前記モジュールまたはユニットの分割はただ論理機能の分割であり、実際に実現する場合、例えば複数のユニットまたはコンポーネントを組み合わせたり、ほかのシステムに集積したり、一部の特徴を無視したり、実行したりしないなど、ほかの分割方法も採用できる。さらに、表示または討論される相互の結合または直接結合または通信接続はあるインターフェース、装置またはユニットを経由する間接結合または通信接続であり、電気的、機械的またはほかの形式であってもよい。

前記分割部品として説明されるユニットは物理的に分離されてもよいし、物理的に分離されなくてもよいが、ユニットとして表示される部品は物理ユニットであってもなくてもよく、即ちある場合に位置してよく、または複数のネットワークユニットに分布してもよい。実際の需要に応じてそのユニットの一部または全部を選択して本実施例の解決手段の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つのプロセシングユニットに集積されてよく、各ユニットは単独で物理的に存在してもよく、二つまたは二つ以上のユニットは一つのユニットに集積されてもよい。上記集積されるユニットはハードウェアの形式で実現してよく、ソフトウェア機能ユニットの形式で実現してもよい。

前記集積されるユニットはソフトウェア機能ユニットの形式で実現しかつ独立製品として販売または使用する場合、一つのコンピュータ読み取り可能な記憶媒体に記憶することができる。これらの理解に基づいて、本発明の上記実施例を実現する方法における全部または一部のフローは、コンピュータプログラムによって関連するハードウェアを命令して完成させてもよく、前記コンピュータプログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、該コンピュータプログラムはプロセッサにより実行される時、上記各方法の実施例のステップを実現することができる。そのうち、前記コンピュータプログラムはコンピュータプログラムコードを含み、前記コンピュータプログラムコードはソースコード形式、目的コード形式、実行ファイルまたはある中間型等であってよい。前記コンピュータ可読媒体は前記コンピュータプログラムコードを携帯可能な任意の実体または装置、記録媒体、Ｕディスク、携帯型ハードディスク、磁気ディスク、光ディスク、コンピュータメモリ、読み出し専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気搬送波信号、電気信号およびソフトウェア分散媒体等を含んでよい。前記コンピュータ可読媒体に含まれる内容は裁判管轄区での法規および特許実施上の要求に基づいて適当に増減することができ、例えばある裁判管轄区では、法規および特許実施に基づいて、コンピュータ可読媒体は電気搬送波信号および電気通信信号を含まない、ということを説明すべきである。

以上に記載の実施例は本発明の技術的解決手段を説明するものであって、これを制限するものではなく、前記実施例を参照しながら本発明を詳細に説明したが、当業者であれば、それは依然として前記各実施例に記載の技術的解決手段を修正し、又はそのうち一部の技術特徴に対して均等物による置換を行うことができるが、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の精神と範疇から逸脱させるものではなく、それらは全て本発明の保護範囲に属する、ということを理解すべきである。

５１キーワード識別ユニット
５２音源位置決めユニット
５３第一撮影制御ユニット
６インテリジェント装置
６０プロセッサ
６１メモリ
６２コンピュータプログラム

Claims

音声が検出された場合、前記音声にキーワードがあるか否かを識別することと、
前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定することと、
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御することとを含むことを特徴とするカメラ撮影制御方法。
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御するステップは、
前記カメラの現在の角度を取得することと、
前記音源角度と前記カメラの現在の角度との角度差を算出することと、
前記音源角度と前記カメラの現在の角度との角度差によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、予め設定された回転速度に基づいて前記カメラのステアリングを制御することと、を含むことを特徴とする請求項１に記載のカメラ撮影制御方法。
前記音源角度と前記カメラの現在の角度との角度差によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、予め設定された回転速度に基づいて前記カメラの方向回転を制御するステップは、
前記音源角度と前記カメラの現在の角度との角度差によって、第一回転速度に基づいて前記カメラを前記音源に回転させるように制御することと、
顔を検出し、顔が検出された場合、前記音声を出す音源対象を前記カメラの撮影する画面の中央に位置させるように、第二回転速度に基づいて前記カメラのステアリングを制御することと、ここで、前記第一回転速度は、前記第二回転速度よりも大きい、を含むことを特徴とする請求項２に記載のカメラ撮影制御方法。
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラの方向回転を制御するステップの後にはさらに、
前記音声を出す音源対象が前記カメラの撮影する画面にある場合、前記音声の音声特徴および前記音声を出す音源対象の音源角度を記録して関連付けることを含むことを特徴とする請求項１〜３のいずれか一項に記載のカメラ撮影制御方法。
前記音声特徴は音声特徴を含み、前記カメラ撮影制御方法は、
新しい音声が検出された場合、前記新しい音声の音声特徴が記録された音声特徴と同じであるか否かを判断することと、
前記新しい音声の音声特徴が記録された音声特徴と同じであれば、前記音声特徴に関連する音源対象に対応する音源角度を取得することと、
前記音声特徴に関連する音源対象に対応する音源角度によって、前記カメラを前記音源対象に回転させるように制御することとをさらに含むことを特徴とする請求項４に記載のカメラ撮影制御方法。
前記カメラ撮影制御方法は、
新しい音声が検出された場合、前記新しい音声を出す音源対象の音源角度を確定することと、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあるか否かを判断することと、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあれば、前記記録された音源対象に対応する音源角度によって、前記新しい音声の音源角度に対応する音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御することと、をさらに含むことを特徴とする請求項４に記載のカメラ撮影制御方法。
音声が検出された場合、前記音声にキーワードがあるか否かを識別するためのキーワード識別ユニットと、
前記音声にキーワードがあれば、前記音声を出す音源対象の音源角度を確定するための音源位置決めユニットと、
前記音声を出す音源対象の音源角度によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、前記カメラのステアリングを制御するための第一撮影制御ユニットと、を含むことを特徴とするカメラ撮影制御装置。
前記第一撮影制御ユニットは、
前記カメラの現在の角度を取得するための角度取得モジュールと、
前記音源角度と前記カメラの現在の角度との角度差を算出するための角度算出モジュールと、
前記音源角度と前記カメラの現在の角度との角度差によって、前記音声を出す音源対象を前記カメラの撮影する画面に位置させるように、予め設定された回転速度に基づいて前記カメラのステアリングを制御するための回転制御モジュールと、を含むことを特徴とする請求項７に記載のカメラ撮影制御装置。
前記回転制御モジュールは、
前記音源角度と前記カメラの現在の角度との角度差によって、第一回転速度に基づいて前記カメラを前記音源に回転させるように制御するための第一回転子モジュールと、
顔を検出し、顔が検出された場合、第二回転速度に基づいて、前記音声を出す音源対象を前記カメラの撮影する画面の中央に位置させるように、前記カメラのステアリングを制御するための第二回転子モジュールと、ここで、前記第一回転速度は、前記第二回転速度よりも大きい、を含むことを特徴とする請求項８に記載のカメラ撮影制御装置。
前記装置は、
前記音声を出す音源対象が前記カメラの撮影する画面の中央にある場合、前記音声の音声特徴および前記音声を出す音源対象に対応する音源角度を記録して関連付けるための関連付け記録ユニットをさらに含むことを特徴とする請求項８に記載のカメラ撮影制御装置。
前記装置は、
新しい音声が検出された場合、前記新しい音声の音声特徴が記録された音声特徴と同じであるか否かを判断するための第一判断ユニットと、
前記音声特徴に関連する音源対象に対応する音源角度によって、前記カメラを前記音源対象に回転させるように制御するための第二撮影制御ユニットと、をさらに含むことを特徴とする請求項８に記載のカメラ撮影制御装置。
前記装置は、
新しい音声が検出された場合、前記新しい音声を出す音源対象の音源角度を確定するための角度確定ユニットと、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあるか否かを判断するための第二判断ユニットと、
前記新しい音声を出す音源対象の音源角度が記録された音源対象に対応する音源角度の予め設定された範囲にあれば、前記記録された音源対象に対応する音源角度によって、前記新しい音声の音源角度に対応する音源対象を前記カメラの撮影する画面中に位置させるように、前記カメラのステアリングを制御するための第三撮影制御ユニットと、をさらに含むことを特徴とする請求項８に記載のカメラ撮影制御装置。
メモリーと、プロセッサと、前記メモリーに記憶され、前記プロセッサで実行可能なコンピュータプログラムとを含むインテリジェント装置であって、前記プロセッサが前記コンピュータプログラムを実行する時、請求項１〜６のいずれか一項に記載のカメラ撮影制御方法のステップを実現することを特徴とするインテリジェント装置。
コンピュータプログラムが記憶されるコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される時、請求項１〜６のいずれか一項に記載のカメラ撮影制御方法のステップを実現することを特徴とするコンピュータ読み取り可能な記憶媒体。