JP2009284473A - Camera control apparatus and method - Google Patents
Camera control apparatus and method Download PDFInfo
- Publication number
- JP2009284473A JP2009284473A JP2009103361A JP2009103361A JP2009284473A JP 2009284473 A JP2009284473 A JP 2009284473A JP 2009103361 A JP2009103361 A JP 2009103361A JP 2009103361 A JP2009103361 A JP 2009103361A JP 2009284473 A JP2009284473 A JP 2009284473A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- camera
- control
- command
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Studio Devices (AREA)
Abstract
Description
本発明は、カメラの動作を制御するカメラ制御装置及び方法に関する。 The present invention relates to a camera control apparatus and method for controlling the operation of a camera.
音声で機器を制御する種々の技術が開発されているが、機器が入力した音声を扱う場合には、制御用の音声が悪影響を与えることがある。例えばビデオカメラは、音声を画像と共に収録することを本質的機能とするが、その収録中に制御用の音声も一緒に録音されてしまうという問題がある。そこで、入力される音声から、機器制御用の音声を抑圧する方法が提案されている(例えば、特許文献1乃至3)。 Various techniques for controlling a device by voice have been developed. However, when the voice input by the device is handled, the control voice may have an adverse effect. For example, a video camera has an essential function of recording sound together with an image, but there is a problem that control sound is also recorded during the recording. In view of this, a method of suppressing device control sound from input sound has been proposed (for example, Patent Documents 1 to 3).
テレビ会議システムなどで使われるカメラの中には、発言者の方向に自動的にカメラの撮像方向を向けるものがある。このカメラは、入力された音声を用いて発言者の方向を検知するため、カメラ制御用の音声が悪影響を与えることがある。例えば、カメラ制御として、音声コマンド「ホワイトボード」が認識された場合ホワイトボードの方向にカメラを向けるように構成されている場合を考える。この場合において、音声コマンドとして「ホワイトボード」と発声したにもかかわらず、この音声の方向が検知され、その発声者の方向へカメラが向いてしまう。これは意図したカメラの動作ではない。 Some cameras used in video conferencing systems and the like automatically point the camera in the direction of the speaker. Since this camera detects the direction of the speaker using the input voice, the camera control voice may have an adverse effect. For example, let us consider a case where the camera control is configured to point the camera in the direction of the whiteboard when the voice command “whiteboard” is recognized. In this case, although the voice command “whiteboard” is uttered, the direction of the voice is detected, and the camera faces the direction of the speaker. This is not the intended camera behavior.
そこで、上述のビデオカメラの場合と同様に、カメラに入力される音声から、カメラ制御用の音声を抑圧する方法が考えられる。しかし、カメラ制御用の音声コマンドとして「こっち」と発声した場合にもこの音声を抑圧してしまうと、その発言者の方向を検知できなってしまう。そのため、意図した動作が行えない。 Therefore, as in the case of the video camera described above, a method of suppressing the camera control sound from the sound input to the camera is conceivable. However, if this voice is suppressed even when “this” is spoken as a camera control voice command, the direction of the speaker cannot be detected. Therefore, the intended operation cannot be performed.
このように、音源方向を捉えて撮像装置をその音源方向に追従させる機能と、音声コマンドにより撮像装置の動作を制御する機能とを持たせる場合、互いの制御が干渉し両機能が意図どおりに働かないという問題がある。 In this way, when having the function of capturing the sound source direction and causing the imaging device to follow the direction of the sound source and the function of controlling the operation of the imaging device by voice commands, the mutual control interferes and both functions are as intended. There is a problem of not working.
本発明は、上述したような問題を解決することを目的としている。
本発明の一側面によれば、カメラの動作を制御するカメラ制御装置であって、音声を取得する取得手段と、前記取得手段で取得した前記音声の発生方向を検知する検知手段と、前記取得手段で取得した前記音声を認識する音声認識手段と、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御する制御手段とを備え、前記制御手段は、前記音声認識手段が前記音声を音声コマンドとして認識したときは、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制することを特徴とするカメラ制御装置が提供される。
The present invention aims to solve the above-described problems.
According to one aspect of the present invention, there is provided a camera control device that controls the operation of a camera, an acquisition unit that acquires audio, a detection unit that detects a direction in which the audio acquired by the acquisition unit is detected, and the acquisition Voice recognition means for recognizing the voice acquired by the means, and control means for controlling the imaging direction of the camera in the direction of generation of the voice detected by the detection means, wherein the voice recognition means When the voice is recognized as a voice command, there is provided a camera control device that suppresses controlling the imaging direction of the camera in the voice generation direction detected by the detection means.
本発明によれば、音源方向を捉えて撮像装置をその音源方向に追従させる機能と、音声コマンドにより撮像装置の動作を制御する機能とが、互いに干渉して悪影響を及ぼすことなく首尾よく動作するようになる。 According to the present invention, the function of capturing the sound source direction and causing the imaging device to follow the direction of the sound source and the function of controlling the operation of the imaging device by a voice command operate successfully without interfering with each other. It becomes like this.
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。 DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited to the following embodiment, It shows only the specific example advantageous for implementation of this invention. In addition, not all combinations of features described in the following embodiments are indispensable as means for solving the problems of the present invention.
(実施形態1)
図1において、本発明の一実施形態に係るカメラ制御装置のハードウェア構成を示すブロック図である。101はCPU(中央処理装置)で、システム制御部として装置全体の動作を制御する。102はROMで、制御プログラムを格納する。具体的には、後述する音声によるカメラ制御を行うプログラムを格納する。103はRAMである。これはCPU101のワークエリアを提供し、各種データなどを保持するために用いられる。104は記憶装置で、ハードディスクなどからなる。例えば、後述する音声コマンド表を格納する。音声によるカメラ制御を行うプログラムをこの記憶装置104に格納することも可能である。105は、音声による制御の対象とするカメラ(撮像装置)である。この被制御装置としてのカメラ105は、その撮像方向を制御可能に構成されている。106は音声を収集するマイクロホンである。
(Embodiment 1)
In FIG. 1, it is a block diagram which shows the hardware constitutions of the camera control apparatus which concerns on one Embodiment of this invention. A CPU (Central Processing Unit) 101 controls the operation of the entire apparatus as a system control unit. A
図2は、本発明の一実施形態に係るカメラ制御装置の機能構成を示すブロック図である。音声取得部201は、外部で発生した音声を取得し、音声方向検知部202及び音声認識部205へ送る。音声取得部201はマイクロホン106で実現される。なお、音声方向検知部202が音声の発生方向を容易に検知できるようにするためには、2本以上のマイクロホンから構成されることが好ましい。
FIG. 2 is a block diagram showing a functional configuration of the camera control apparatus according to the embodiment of the present invention. The
音声方向検知部202は、音声取得部201から送られる音声の発生方向を検知する。ここで、検知した音声の発生方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。生成したパン・チルト・ズーム情報は、撮像方向制御部203へと送られる。
The voice
音声認識部205は、音声取得部201から送られる音声を認識し、音声コマンドを出力する。入力した音声が音声コマンドとして認識されなかった場合は、音声コマンドでないことを出力する。カメラ制御装置をテレビ会議に用いた場合、通常の会話音声は音声コマンドとして認識されない。
The
音声認識部205が認識可能な音声コマンドは、音声コマンド表206で定義される。音声コマンド表206は、カメラ制御装置を用いる場面に応じて、適切なものを用いる。ここでは、カメラ制御装置を用いる場面の例として、図8の場面を想定する。
Voice commands that can be recognized by the
図8は、自分側と相手側の拠点を結んでテレビ会議を行う場面を示している。それぞれの拠点にカメラ制御装置が設置されている。カメラ制御装置同士は、例えばネットワークを通じてつながっている。自分側のモニタには、相手側のカメラ制御装置のカメラ204が撮像した映像を表示する。相手側のモニタには、自分側のカメラ制御装置のカメラ204が撮像した映像を表示する。自分側の出席者はAさん、Bさん、Cさんであるとする。相手側の出席者はXさん、Yさんであるとする。
FIG. 8 shows a scene where a video conference is performed by connecting the base of the other party and the other party. Camera control devices are installed at each site. The camera control devices are connected through a network, for example. The image captured by the
図8の場面において、自分側のカメラ制御装置で用いる音声コマンド表206の例を図4(a)に示す。図示のように、各音声コマンドには、「音声」、「制御情報」、「検知した音声方向への制御」の属性情報が関連付けられている。「音声」は、音声コマンドに対応する音声を音素などで表したものである。「制御情報」は、カメラ204をどう制御するかの指示である。例えば、音声コマンド「ホワイトボード」を認識した場合は、カメラ204の撮像方向をホワイトボードへ向ける。音声コマンド「Xさん」を認識すると、相手側のカメラ204の撮像方向をXさんへ向ける。「検知した音声方向への制御」は、音声取得部201が取得した音声を音声コマンドと認識した場合に、カメラ204の撮像方向を音声の発生方向へ追従制御するか否かの指示である。値が「○」の音声コマンドの場合、カメラ204の撮像方向を、検知した音声の発生方向へ追従させる。つまり、カメラ204の音声の発生方向への追従制御を抑制しない。値が「×」の音声コマンドの場合、カメラ204の撮像方向を、検知した音声の発生方向へ追従させない。つまり、カメラ204の音声の発生方向への追従制御を抑制する。
FIG. 4A shows an example of the voice command table 206 used in the camera control device on the own side in the scene of FIG. As illustrated, each voice command is associated with attribute information of “voice”, “control information”, and “control in detected voice direction”. “Voice” represents a voice corresponding to a voice command by a phoneme or the like. “Control information” is an instruction on how to control the
「検知した音声方向への制御」の値を「○」にする音声コマンドは、音声コマンドの発声者へ、カメラ204の撮像方向を向けるものである。発声者の方向は、音声方向検知部202が検知した方向である。例えば音声コマンド「こっち」である。
A voice command that sets the value of “control in detected voice direction” to “◯” directs the imaging direction of the
また例えば、音声コマンド「Xさん」は、相手側のカメラ204の撮像方向を、Xさんへ向けるコマンドである。このとき、呼び出されたXさんにとって、呼び出したのは誰かがわかるのが望ましい。そこで、自分側のカメラ204の撮像方向を、発声者Aさんの方向へ向ける。
Further, for example, the voice command “Mr. X” is a command for directing the imaging direction of the
「検知した音声方向への制御」の値を「×」にする音声コマンドの発声者へ、カメラ204の撮像方向を向けないものである。例えば、「ホワイトボード」は、音声コマンドの発声者ではなく、ホワイトボードの方向へ、カメラ204の撮像方向を向ける。
The direction in which the
撮像方向制御部203は、音声方向検知部202が生成したパン・チルト・ズーム情報と、音声認識部205が認識した音声コマンドを用いて、カメラ204の撮像方向を制御する。以下、図8の場面を用いて、いくつかの事例について説明する。特に断りが無い場合、自分側の拠点にあるカメラ制御装置の動作について説明する。
The imaging
[Aさんが(音声コマンド以外の)通常の発言を行った場合:]
音声取得部201がAさんの発言を音声として取得する。音声方向検知部202は、取得した音声の発生方向を検知する。ここで音声の発生方向はAさんの方向である。次に、Aさんの方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。一方、音声認識部205は、リジェクション機能を用いて、取得した音声が音声コマンドでないことを認識する。
[When Mr. A makes a normal speech (other than a voice command):]
The
音声認識では、各音声コマンドの確からしさを計算し、最も確からしさが高いものを結果として出力する。音声コマンド以外の音声が入力された場合、この確からしさが低い値となる。例えば、閾値を設け、確からしさが閾値以下の場合、音声コマンドでないと認識する。あるいは、あらゆる発話をモデル化したGBG(ガーベッジ)モデルを用いても良い。音声認識コマンドに近い音声が入力された場合には、音声コマンドのモデルのスコアのほうが、GBGモデルのスコアよりも大きくなる。一方、音声コマンドと異なる音声が入力された場合には、GBGモデルのスコアのほうが、音声コマンドのモデルのスコアよりも大きくなる。 In voice recognition, the likelihood of each voice command is calculated, and the highest likelihood is output as a result. When a voice other than a voice command is input, the probability is low. For example, a threshold is provided, and when the probability is less than or equal to the threshold, it is recognized that the command is not a voice command. Alternatively, a GBG (garbage) model in which all utterances are modeled may be used. When a voice close to a voice recognition command is input, the score of the voice command model is larger than the score of the GBG model. On the other hand, when a voice different from the voice command is input, the score of the GBG model is larger than the score of the voice command model.
以上の結果を用いて、撮像方向制御部203は、カメラ204の撮像方向を制御する。取得した音声は音声コマンドでない。よって、音声方向検知部202が生成したパン・チルト・ズーム情報を用いて、カメラ204を制御する。カメラ204の撮像方向をAさんへ向ける。相手側のモニタにAさんが映る。
Using the above result, the imaging
[Aさんが「ホワイトボード」と音声コマンドを発声した場合:]
音声取得部201がAさんの発声を音声として取得する。音声方向検知部202は、取得した音声の発生方向を検知する。ここで音声の発生方向はAさんの方向である。次に、Aさんの方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。一方、音声認識部205は、取得した音声を音声認識し、音声コマンド「ホワイトボード」を認識する。
[When Mr. A utters a voice command “Whiteboard”:]
The
以上の結果を用いて、撮像方向制御部203は、カメラ204の撮像方向を制御する。図4(a)の音声コマンド表206によれば、音声コマンド「ホワイトボード」の「検知した音声方向への制御」の値は「×」である。よって、音声方向検知部202が生成したパン・チルト・ズーム情報は用いない。音声コマンド「ホワイトボード」の制御情報を用いて、カメラ204を制御する。カメラ204の撮像方向をホワイトボードへ向ける。相手側のモニタにホワイトボードが映る。なお、カメラ204の撮像方向をホワイトボードへ向けるために必要なパン・チルト・ズーム情報は、予め設定しておくものとする。
Using the above result, the imaging
[Aさんが「こっち」と音声コマンドを発声した場合:]
音声取得部201がAさんの発声を音声として取得する。音声方向検知部202は、取得した音声の発生方向を検知する。ここで音声の発生方向はAさんの方向である。次に、Aさんの方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。一方、音声認識部205は、取得した音声を音声認識し、音声コマンド「こっち」を認識する。
[When Mr. A utters a voice command “This”:]
The
以上の結果を用いて、撮像方向制御部203は、カメラ204の撮像方向を制御する。音声コマンド「こっち」の「検知した音声方向への制御」の値は「○」である。よって、音声方向検知部202が生成したパン・チルト・ズーム情報を用いて、カメラ204を制御する。これによりカメラ204の撮像方向をAさんへ向ける。相手側のモニタにはAさんが映ることとなる。音声コマンド「こっち」の制御情報は無いので、音声コマンドに対する制御は行わない。
Using the above result, the imaging
音声コマンド「こっち」のように、予め制御情報(パン・チルト・ズーム)を設定することができない音声コマンドを処理することが可能となる。発言者により、「こっち」の方向が異なる。 As in the case of the voice command “here”, a voice command for which control information (pan / tilt / zoom) cannot be set in advance can be processed. The direction of “here” varies depending on the speaker.
[Aさんが「Xさん」と音声コマンドを発声した場合:]
音声取得部201がAさんの発声を音声として取得する。音声方向検知部202は、取得した音声の発生方向を検知する。ここで音声の発生方向はAさんの方向である。次に、Aさんの方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。一方、音声認識部205は、取得した音声を音声認識し、音声コマンド「Xさん」を認識する。
[When Mr. A utters a voice command “Mr. X”:]
The
以上の結果を用いて、撮像方向制御部203は、カメラ204の撮像方向を制御する。音声コマンド「Xさん」の「検知した音声方向への制御」の値は、「○」である。よって、音声方向検知部202が生成したパン・チルト・ズーム情報を用いて、カメラ204を制御する。カメラ204の撮像方向をAさんへ向ける。相手側のモニタにAさんが映る。
Using the above result, the imaging
一方、音声コマンド「Xさん」の制御情報は、相手側のカメラ制御装置へ送られる。この制御情報を用いて、相手側の撮像方向制御部203が、相手側のカメラ204の撮像方向をXさんへ向ける。自分側のモニタにXさんが映る。なお、相手側のカメラ204の撮像方向をXさんへ向けるために必要なパン・チルト・ズーム情報は、相手側のカメラ制御装置に、予め設定しておくものとする。
On the other hand, the control information of the voice command “Mr. X” is sent to the camera control device on the other side. Using this control information, the partner imaging
Aさんは、相手側のXさんと会話を開始するときに、音声コマンド「Xさん」を発声する。1つの音声コマンド「Xさん」により、自分側のカメラ204をAさんに向け、相手側のカメラ204をXさんに向けることができる。互いのモニタに、AさんとXさんが映り、AさんとXさんの会話をサポートする。このように、音声方向検知部202が生成したパン・チルト・ズーム情報と、音声認識部205が認識した音声コマンドを協調させ、柔軟に機器を制御することが可能となる。
Mr. A utters the voice command “Mr. X” when starting a conversation with the other party, Mr. X. With one voice command “Mr. X”, the user's
図3は、本発明の一実施形態に係るカメラ制御装置の処理手順を示すフローチャートである。S301で、音声取得部201が、外部で発声した音声を取得したか否かを判定する。音声を取得した場合はS302へ進む。音声を取得しなかった場合はS301へ戻る。
FIG. 3 is a flowchart showing a processing procedure of the camera control apparatus according to the embodiment of the present invention. In S301, it is determined whether or not the
S302で、音声方向検知部202が、取得した音声の発生方向を検知する。次に、検知した音声の発生方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。生成したパン・チルト・ズーム情報を撮像方向制御部203へ送る。
In S302, the voice
S303で、音声認識部205が、取得した音声を認識する。音声認識するための認識語彙は、例えば図4(a)に示す音声コマンドである。さらに音声コマンド以外の発話を認識する一手法としてGBGモデルを追加しても良い。
In step S303, the
S304で、音声認識部205が、音声認識の結果を用いて、取得した音声が音声コマンドか否かを判定する。音声コマンドの場合はS305へ進む。音声コマンドでない場合はS307へ進む。
In step S304, the
S305で、撮像方向制御部203が、音声コマンドの制御情報に従ってカメラ204を制御する。S306で、撮像方向制御部203が、音声コマンドが所定の音声コマンドか否かを判定する。所定の音声コマンドとは、「検知した音声方向への制御」の値が「○」のものである。所定の音声コマンドの場合はS307へ進む。所定の音声コマンドでない場合はS301へ戻る。
In step S305, the imaging
S307で、撮像方向制御部203が、送られたパン・チルト・ズーム情報を用いて、カメラ204の撮像方向を制御する。
In step S <b> 307, the imaging
なお、S301とS302の順番は逆でも良い。音声方向検知をした上で、音の中に音声が入力されているか否かを判定する。
また、本実施形態では図8のような自分側と相手側の拠点を結んでテレビ会議を行う場面でのユースケースとして説明したが、自分側の拠点一箇所におけるユースケースにおいても本発明は適用される。例えばミーティングの議事録を映像として記録する場合などに有効である。
Note that the order of S301 and S302 may be reversed. After detecting the voice direction, it is determined whether or not voice is input in the sound.
Further, although the present embodiment has been described as a use case in the case of performing a video conference by connecting the base of the other side and the other side as shown in FIG. 8, the present invention is also applied to a use case in one place of the base of the own side. Is done. For example, it is effective when recording the minutes of a meeting as a video.
なお、本実施形態では音声認識部205が認識する音声コマンドとして図4(a)のように、音声方向への制御を行う音声コマンドと音声方向への制御を行わない音声コマンドの二種類がある。しかし本発明はこれに限るものではなく、音声コマンドは全て音声方向への制御を行わないようにしても良い。図4(b)はその場合の音声コマンド表の例である。この場合、「検知した音声方向への制御」を表すフラグを持つ必要はない。またこの場合、S306は常にNOへ進む。 In this embodiment, there are two types of voice commands recognized by the voice recognition unit 205: a voice command that performs control in the voice direction and a voice command that does not perform control in the voice direction, as shown in FIG. . However, the present invention is not limited to this, and all voice commands may not be controlled in the voice direction. FIG. 4B is an example of a voice command table in that case. In this case, it is not necessary to have a flag indicating “control in the detected voice direction”. In this case, S306 always proceeds to NO.
(実施形態2)
上述の実施形態1では、音声取得部201が取得した音声を、音声方向検知部202と音声認識部205が共に利用する。ここでは、音声取得部201を、第1マイクロホン501と第2マイクロホン507に分離した実施形態について説明する。
(Embodiment 2)
In the first embodiment described above, both the voice
図5は、本実施形態に係るカメラ制御装置の機能構成を示すブロック図である。第1マイクロホン501は、音声方向検知部502が利用する。検知した音声方向へカメラ504を正しく向けるためには、第1マイクロホン501とカメラ504の位置関係が固定されるのが望ましい。例えば、第1マイクロホン501とカメラ504をカメラ制御装置の本体に組み込む構成とする。カメラ504の位置を変更しても、第1マイクロホン501とカメラ504の位置関係が固定されたままとなる。また、第1マイクロホン501は音声の方向を検知するため、2本以上のマイクロホンで構成されることが好ましい。
FIG. 5 is a block diagram illustrating a functional configuration of the camera control apparatus according to the present embodiment. The
第2マイクロホン507は、音声認識部508が利用する。音声認識率を向上させるためには、第2マイクロホン507が発声者の近くにあるのが望ましい。また、参加者が複数いる場合は、発声している参加者のそばに、随時移動できることが望ましい。例えば、第2マイクロホン507を本体から分離可能な構成とする。第2マイクロホン507と本体は、有線又は無線で通信を行う。発声者は、第2マイクロホン507を、自分のそばに置いて利用することが可能となる。または、発声者は、第2マイクロホン507を、手に持って利用することも可能である。
The
音声方向検知部502は、第1マイクロホン501から入力される音声の発生方向を検知する。そして、検知した音声の発生方向へ、カメラ504の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。生成したパン・チルト・ズーム情報は、撮像方向制御部503へ送られる。
The sound
音声入力ボタン505は、音声認識を開始するためのトリガとして用いられる。音声入力ボタンの押下が検知されると、押下信号が、音声認識部508と抑制部506へ送られる。音声入力ボタン505は、ハードボタンに限らず、ソフトで実装されたGUIのボタンでもよい。
The
音声認識部508は、音声入力ボタン505の押下信号を受けると、第2マイクロホン507から入力される音声を認識し、音声コマンドを出力する。音声認識部508が認識可能な音声コマンドは、音声コマンド表509に定義される。図8の場面において自分側のカメラ制御装置で用いる音声コマンド表509の例を図7に示す。各音声コマンドには、「音声」、「制御情報」、「音声方向制御抑制信号」の属性情報が関連付けられている。ここで、「音声方向制御抑制信号」は、カメラ504を音声の発生方向に制御しない指示を表す。
When the
音声認識部508は、認識した音声コマンドの制御情報を撮像方向制御部503へ送る。また、「音声方向制御抑制信号」の値が「有り」の場合、音声方向制御抑制信号を抑制部506へ送る。
The
抑制部506は、音声方向検知部502が検知した音声の発生方向へ、カメラ504の撮像方向を制御することを抑制するか否かを判定する。判定に利用する情報は、音声入力ボタン505からの押下信号と、音声認識部508からの音声方向制御抑制信号である。押下信号が無し又は音声方向制御抑制信号が無しの場合、「抑制しない」と判定する。押下信号が有りかつ音声方向制御抑制信号が有りの場合、「抑制する」と判定する。判定結果を撮像方向制御部503へ送る。
The
撮像方向制御部503は、音声方向検知部502から送られるパン・チルト・ズーム情報と、音声認識部508から送られる制御情報と、抑制部506の判定結果を用いて、カメラ504の撮像方向を制御する。以下、図8の場面を用いて、いくつかの事例について説明する。特に断りがない場合、自分側の拠点にあるカメラ制御装置の動作について説明する。
The imaging
[Aさんが通常の発言で「ホワイトボード」と発声した場合:]
Aさんの発声を、第1マイクロホン501と第2マイクロホン507が拾う。ここで音声方向検知部502は、音声の発生方向としてAさんの方向を検知する。音声入力ボタン505が押下されないため、抑制部506と音声認識部508から、撮像方向制御部503へ送られる情報はない。撮像方向制御部503は、音声方向検知部502から送られる情報に基づいて、カメラ504の撮像方向を制御する。こうしてカメラ504は、Aさんの方向を向く。
[When Mr. A says “Whiteboard” in a normal remark:]
The
[Aさんが音声入力ボタン505を押下し、「ホワイトボード」と発声した場合:]
Aさんの発声を、第1マイクロホン501と第2マイクロホン507が拾う。音声方向検知部502が、音声の発生方向としてAさんの方向を検知する。音声認識部508が、音声コマンド「ホワイトボード」を認識する。音声コマンド「ホワイトボード」は、「音声方向制御抑制信号」の値が「有り」である。音声方向検知部502が検知した音声の発生方向へ、カメラ504の撮像方向を制御することを抑制すると、抑制部506が判定する。撮像方向制御部503は、音声認識部508から送られる制御情報に基づいて、カメラ504の撮像方向を制御する。こうしてカメラ504は、ホワイトボードの方向を向く。
[When Mr. A presses the
The
[Aさんが音声入力ボタンを押下し、「こっち」と発声した場合:]
Aさんの発声を、第1マイクロホン501と第2マイクロホン507が拾う。音声方向検知部502が、音声の発生方向としてAさんの方向を検知する。音声認識部508が、音声コマンド「こっち」を認識する。音声コマンド「こっち」は「音声方向制御抑制信号」の値が「無し」である。音声検知部502が検知した音声の発生方向へ、カメラ504の撮像方向を制御することを抑制しないと、抑制部506が判定する。撮像方向制御部503は、音声方向検知部502から送られる情報に基づいて、カメラ504の撮像方向を制御する。こうしてカメラ504は、Aさんの方向を向く。
[When Mr. A presses the voice input button and says "Here":]
The
[Aさんが音声入力ボタンを押下し、「Xさん」と発声した場合:]
Aさんの発声を、第1マイクロホン501と第2マイクロホン507が拾う。音声方向検知部502が、音声の発生方向としてAさんの方向を検知する。音声認識部508が、音声コマンド「Xさん」を認識する。音声コマンド「Xさん」は「音声方向制御抑制信号」の値が「無し」である。音声検知部502が検知した音声の発生方向へ、カメラ504を制御することを抑制しないと、抑制部506が判定する。撮像方向制御部503は、音声方向検知部502から送られる情報に基づいて、カメラ504の撮像方向を制御する。こうしてカメラ504は、Aさんの方向を向く。
[When Mr. A presses the voice input button and says "Mr. X":]
The
一方、音声コマンド「Xさん」の制御情報は、相手側のカメラ制御装置に送られる。相手側のカメラ504は、Xさんの方向を向く。
On the other hand, the control information of the voice command “Mr. X” is sent to the camera control device on the other side. The
図6は、本発明の一実施形態に係るカメラ制御装置の処理手順を示すフローチャートである。 FIG. 6 is a flowchart showing a processing procedure of the camera control apparatus according to the embodiment of the present invention.
S601で、音声方向検知部502が、第1マイクロホン501に、音声入力が有るか無いかを判定する。音声入力が有る場合はS602へ進む。音声入力が無い場合はS601へ戻る。
In step S <b> 601, the voice
S602で、音声方向検知部502が、第1マイクロホン501へ入力された音声の発生方向を検知する。
In step S <b> 602, the voice
S603で、抑制部506が、音声入力ボタン505からの押下信号の有無を判定する。押下信号が有る場合はS604へ進む。押下信号が無い場合はS608へ進む。
In step S <b> 603, the
S604で、音声認識部508が、第2マイクロホン507から入力される音声を認識する。
In step S <b> 604, the
S605で、音声認識部508が、入力音声が音声コマンドとして認識されたか、すなわち、音声認識に成功したか否かを判定する。音声認識に成功した場合はS606へ進む。入力音声が音声コマンドとして認識されなかった、すなわち、音声認識に失敗した場合はS601へ戻る。
In step S605, the
S606で、撮像方向制御部503が、音声コマンドの制御情報に基づいて、カメラ504を制御する。
In step S606, the imaging
S607で、抑制部506が、音声認識部508からの音声方向制御抑制信号の有無を判定する。音声方向制御抑制信号が有る場合はS601へ戻る。音声方向制御抑制信号が無い場合はS608へ進む。
In step S <b> 607, the
S608で、撮像方向制御部503が、音声方向検知部502が検知した音声の発生方向へ、カメラ504の撮像方向を制御する。
In step S <b> 608, the image capturing
(実施形態3)
図5から音声入力ボタン505を取り除いた構成をとることも可能である。
(Embodiment 3)
A configuration in which the
この場合、第2マイクロホン507が音声入力を検出すると、「音声入力有り」の情報を、音声認識部508と抑制部506へ送る。音声認識部508は、音声入力ボタン505の押下信号の代わりに、第2マイクロホン507からの「音声入力有り」の情報を用いて処理を行う。抑制部506は、音声入力ボタン505の押下信号の代わりに、第2マイクロホン507からの「音声入力有り」の情報を用いて処理を行う。
In this case, when the
(実施形態4)
第2マイクロホン507と音声入力ボタン505を音声リモコンとして本体から分離した構成例を、図9に示す。
(Embodiment 4)
A configuration example in which the
第1マイクロホン501と音声方向検知部502と撮像方向制御部503とカメラ504は本体に組み込む。抑制部506と音声認識部508と音声コマンド表509は、本体と音声リモコンのどちらに組み込んでもよい。また、例えば赤外線を利用して、本体と音声リモコンの間の通信を行う。
The
(実施形態5)
実施形態1では、入力された音声を認識して、音声コマンドか否か、あるいは所定の音声コマンドか否かで、音声方向へカメラの撮像方向を制御するか否かを決定している。ここで音声認識部205は、音声取得部201が取得する音声コマンドや音声コマンド以外の発言が終了した時点で認識結果を取得することになる。従って、カメラ制御の開始は音声コマンドや音声コマンド以外の発言が終了した後になる。しかし本発明はこれに限るものではない。本実施形態では、発言者の発言中に、途中までの音声認識結果を所定の時間間隔で逐次取得して、その結果に基づいて逐次カメラの制御を決定する。なお、本実施形態では、音声コマンドの種類によって音声方向への制御を区別せず、図4(b)に示す音声コマンド表の音声コマンドを認識する例を説明する。
(Embodiment 5)
In the first embodiment, the input voice is recognized, and it is determined whether or not to control the imaging direction of the camera in the voice direction depending on whether or not it is a voice command or a predetermined voice command. Here, the
図10は本実施形態に係るカメラ制御装置の処理手順を示すフローチャートである。S1001で、音声取得部201が、外部で発声した音声を取得したか否かを判定する。音声を取得した場合はS1002へ進む。音声を取得しなかった場合はS1001へ戻る。
FIG. 10 is a flowchart showing a processing procedure of the camera control apparatus according to the present embodiment. In step S <b> 1001, the
S1002で、音声方向検知部202が、取得した音声の発生方向を検知する。次に、検知した音声の発生方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。生成したパン・チルト・ズーム情報は撮像方向制御部203へ送られる。
In S1002, the voice
S1003で、音声認識部205が、音声入力有りと判定された時点から現時点までに取得した音声を使って音声認識する。音声が発言の途中である場合も、途中までの音声で認識する。所定の長さの時間Tごとに逐次、認識結果を出力する。
In step S <b> 1003, the
S1004で、音声認識部205が、今回の音声認識結果と1つ前(所定の時間T前)の音声認識結果を比較する。1つ前の音声認識結果が音声コマンドかつ今回の音声認識結果と異なる場合は、S1005に進む。音声入力開始からはじめの音声認識結果の場合、1つ前の音声認識結果が音声コマンドでない場合、1つ前と今回の音声コマンドが等しい場合は、S1006に進む。
In step S1004, the
S1005では、撮像方向制御部203が、1つ前の音声コマンドに対する処理(後述のS1008で行われた処理)をキャンセルする。
In S1005, the imaging
S1006では、音声認識部205が、音声認識の結果を用いて、取得した音声が音声コマンドか否かを判定する。音声コマンドでない場合はS1007へ進む。音声コマンドの場合はS1008へ進む。
S1007では、撮像方向制御部203が、音声方向検知部202から送られたパン・チルト・ズーム情報を用いて、カメラ204の撮像方向を制御する。
In step S1006, the
In step S <b> 1007, the imaging
S1008では、撮像方向制御部203が、音声コマンドの制御情報(ズームする、登録されたホワイトボードの方向に向く等)に従ってカメラ204を制御する。
S1009では、撮像方向制御部203が、カメラ204を音声方向に制御することを抑制する。それまでに既に音声方向へカメラのパン・チルト・ズームが動いている場合には、音声方向から音声入力前にカメラの向いていた方向あるいは音声コマンドの制御情報の示す方向に戻すよう制御する。
In step S <b> 1008, the imaging
In step S <b> 1009, the imaging
なお、S1008とS1009とによる制御情報は組み合わせて制御情報を作ってカメラ204を制御する。従って、音声コマンドの内容によって、音声入力前にカメラの向いていた方向を向く場合と、音声コマンドの示す方向を向く場合とが存在する。
The control information in S1008 and S1009 is combined to create control information to control the
例えば、音声方向に制御中に音声認識結果が音声コマンド「ズーム」となった場合、S1008では音声コマンドに従ってズームを拡大する制御情報を生成する。S1009では音声方向にパン、チルトが制御されていたカメラを元の方向へ戻す制御を行う。そのためこれらを組み合わせ、ズームは拡大し、パン、チルトは音声入力前と同じ方向へと制御する。一方、音声方向に制御中に音声認識結果が音声コマンド「ホワイトボード」となった場合、S1008では音声コマンドに従ってホワイトボードに向ける制御情報を生成する。S1009では音声方向に制御されていたカメラのパン、チルトを元の方向へ戻そうとする。しかしここで、S1008で生成した、ホワイトボードに向けるパン、チルトの制御情報があるため、制御情報は音声入力前に向いていた方向ではなく、ホワイトボードの方向に向く制御情報となる。 For example, if the voice recognition result is the voice command “zoom” during control in the voice direction, control information for enlarging the zoom according to the voice command is generated in S1008. In step S1009, control is performed to return the camera whose pan and tilt are controlled in the voice direction to the original direction. Therefore, these are combined, zoom is expanded, and pan and tilt are controlled in the same direction as before audio input. On the other hand, if the voice recognition result is the voice command “whiteboard” during control in the voice direction, control information directed to the whiteboard is generated according to the voice command in S1008. In step S1009, the camera pan / tilt controlled in the audio direction is returned to the original direction. However, since there is pan / tilt control information directed to the whiteboard generated in step S1008, the control information is control information directed to the direction of the whiteboard, not the direction directed to the voice input.
S1010で、音声認識部205が、取得した音声に含まれる人の声の区間が終了したか否かを判定する。人の声の区間が終了していないと判定した場合には、S1003に戻り、さらに所定時間後の途中音声認識結果を取得する。人の声の区間が終了したと判定した場合には、S1011に進む。
In step S <b> 1010, the
S1011で、音声認識部205が、その時間での認識結果に認識結果を確定し、撮像方向制御部203が、カメラの撮像方向制御を確定する。すなわち、確定した認識結果に基づく撮像方向制御が実行された状態でカメラを固定する。
In step S <b> 1011, the
なお、S1001とS1002の順番は逆でも良い。音声方向検知をした上で、音の中に音声が入力されているか否かを判定する。なお、本実施形態は図8のような自分側と相手側の拠点を結んでテレビ会議を行う場面でも良いし、自分側の拠点一箇所において議事録を記録する場面でも良い。 Note that the order of S1001 and S1002 may be reversed. After detecting the voice direction, it is determined whether or not voice is input in the sound. In addition, this embodiment may be a scene where a video conference is performed by connecting the base of the other party and the other party as shown in FIG. 8, or a scene where the minutes are recorded at one place of the own base.
図11は、音声認識部205が、音声入力途中の認識結果を出力する様子を説明する図である。同図において、1101は音声コマンドなどの単語を表現するHMM(ヒドゥン・マルコフ・モデル)などのモデルである。1102は、モデル1101を構成する状態である。モデル1101は、1つ以上の状態と、状態間の遷移(自己ループを含む)で構成される。1103は、音声コマンド以外のあらゆる発話をモデル化したGBG(ガーベッジ)モデルである。音声認識コマンドに近い音声が入力された場合には、音声コマンドのモデルのスコアのほうが、GBGモデルのスコアよりも大きくなる。一方、音声コマンドと異なる音声が入力された場合には、GBGモデルのスコアのほうが、音声コマンドのモデルのスコアよりも大きくなる。実施形態1では、各音声コマンドの確からしさを計算して音声コマンド以外の発言であると認識するとして説明したが、本実施形態ではこのGBGモデルを用いて音声コマンド以外の発言であることを判定する。
FIG. 11 is a diagram for explaining how the
通常の音声認識では、発話区間が終了した時点で、各モデルの最終状態(図11の各モデルの中で、一番右端の状態)におけるスコアを比較することで、どれが尤もらしい認識結果かを求める。これに対して、S1003で実行する途中までの音声認識においては、各単語において全ての状態1102におけるスコアを比較し、その中で最大のスコアをその単語のスコアとする。この単語スコアを、全ての音声コマンドのモデルおよびGBGモデルで比較することで、最もスコアの高いモデルを、その時点での認識結果として得る。
In normal speech recognition, when the utterance period ends, by comparing the scores in the final state of each model (the rightmost state in each model in FIG. 11), which is the most likely recognition result? Ask for. On the other hand, in the speech recognition performed halfway in S1003, the scores in all the
図12は、本実施形態における音声認識と撮像方向制御の例を挙げた図である。同図の(a)は、「ホワイトボード」という音声コマンドを音声取得部201から入力した場合の例である。同図の横軸は時間軸であり、1201は「ホワイトボード」という発声がその時間区間に入力されている様子を示し、そして1201の中の文字が、その文字の音がその時間に入力されている様子を示す。
FIG. 12 is a diagram illustrating an example of voice recognition and imaging direction control in the present embodiment. FIG. 6A shows an example when a voice command “whiteboard” is input from the
実施形態1の場合、音声認識部205は音声全体が入力された後に音声認識結果を出力するため、同図のt_endになるまではカメラ制御は行われない。これに対して本実施形態の場合、S1001で音声入力を検知してから所定時間Tごとに、S1003で音声認識部205が途中音声認識結果を出力する。所定時間Tは、例えば100ミリ秒とする。音声認識部205が10ミリ秒ずつ音声の特徴量を分析する場合、10サンプルだけ分析を進めるごとに途中音声認識結果を出力することになる。図12(a)では、時刻t_1において音声コマンド「ホワイトボード」が認識されるため、S1009によって音声方向への撮像方向制御が抑制される。一方、音声コマンドに基づくホワイトボードへの撮像方向制御は実行される。さらに時刻が進み、t_2, t_3と進んでも認識結果は変わらず、最終的にt_endで制御が確定する。
In the case of the first embodiment, since the
図12(b)は、音声コマンド以外の発言を入力した場合の例である。この場合、撮像方向制御は音声方向に向けるべきであるが、実施形態1の場合、同図のt_endになるまではカメラ制御は行われない。これに対して本実施形態の場合、t_1の時点で音声コマンドのモデルよりもGBGモデルのほうがスコアが大きくなり、音声コマンド以外であるという途中認識結果が出る。これに従って、S1007で撮像方向制御部203が、音声方向に撮像方向を制御する。さらに時刻が進み、t_2, t_3と進んでも認識結果は変わらず、最終的にt_endで制御が確定する。従って、実施形態1よりも早い時刻t_1でカメラをユーザに向けることができる。
FIG. 12B shows an example when a speech other than a voice command is input. In this case, the imaging direction control should be directed to the voice direction, but in the case of the first embodiment, the camera control is not performed until t_end in FIG. On the other hand, in the case of the present embodiment, the score of the GBG model is larger than that of the voice command model at the time t_1, and an intermediate recognition result is obtained that it is other than the voice command. Accordingly, in step S1007, the imaging
図12(c)は、音声コマンド以外の発言のはじめに、音声コマンド「ホワイトボード」に一致する単語を含む場合の制御の様子を示している。(c)の場合、時刻t_1からt_5までは、音声認識部205が途中音声認識結果として「ホワイトボード」を得る。そのため、撮像方向制御部203は、S1008で音声コマンドに対応する撮像方向制御を行い、S1009で音声方向への撮像方向制御を抑制する。一方、t_6の時点では「ホワイトボードに書」までの音声が入力されるため、音声認識部205では「ホワイトボード」のモデルよりもGBGモデルのスコアが大きくなり、音声コマンド以外であるという認識結果を得る。そのため、この時点でS1005で、音声コマンド「ホワイトボード」に対応するホワイトボード方向への制御をキャンセルし、さらにS1007で音声方向へのカメラ制御を開始する。そしてt_endにてこの制御が確定する。この場合、一度は望ましい制御とは異なる「ホワイトボード」に関わる制御がされるものの、その後音声認識が進むことにより修正し、実施形態1のときと比較して、時刻t_endよりも早い時刻t_6で音声方向にカメラを向けることが可能となる。
FIG. 12C shows the state of control when a word that matches the voice command “whiteboard” is included at the beginning of a statement other than the voice command. In the case of (c), from time t_1 to time t_5, the
図12(d)は、音声コマンド以外の発言の途中に音声コマンド「ズーム」に一致する単語を含む場合の制御の様子を示している。この場合、時刻t_1からt_4までは音声コマンドに一致しない発言のため、S1007で音声方向へ撮像方向を制御する。ここでt_6において音声コマンド「ズーム」に一致する音声が含まれるが、t_6で認識される音声は「このカメラのズーム」となるため、音声認識結果は音声コマンド「ズーム」よりも音声コマンド以外のほうが音声認識のスコアが高くなり、そのまま制御される。この場合、t_1で制御開始した音声方向への制御がt_endで確定するので、実施形態1のときと比較して、時刻t_endよりも早い時刻t_1で音声方向にカメラを向けることが可能となる。 FIG. 12D shows the state of control when a word that matches the voice command “zoom” is included in the middle of a statement other than the voice command. In this case, since the speech does not match the voice command from time t_1 to t_4, the imaging direction is controlled in the voice direction in S1007. Here, at t_6, a voice that matches the voice command “zoom” is included, but the voice recognized at t_6 is “zoom of this camera”, so the voice recognition result is other than the voice command “zoom”. The voice recognition score becomes higher and is controlled as it is. In this case, since the control in the voice direction started at t_1 is confirmed at t_end, the camera can be pointed in the voice direction at time t_1 earlier than time t_end as compared to the first embodiment.
図12(e)は、音声コマンド「ズーム」の音声の前に短い雑音が入った例である。同図において、時刻t_1、t_2では、GBGモデルのスコアが大きくなり、音声コマンド以外の発言であると判定して音声方向へ撮像方向を制御する。ここでt_3になると音声コマンド「ズーム」の一部が音声の大部分を占めるため、音声コマンド「ズーム」を認識結果として得る。すると撮像方向制御部203は、S1008において音声コマンド「ズーム」に従ってズームを変更するよう制御し、さらにS1009において音声方向への撮像方向制御を抑制する。ここで既にt_1において音声方向への制御を開始しているため、撮像方向制御部203は、撮像方向を元の方向へ戻すよう制御する。そして時刻t_endで制御が確定する。従って、一度は望ましい制御とは異なる音声方向へ制御されるものの、その後音声認識が進むことにより修正し、実施形態1のときと比較して、時刻t_endよりも早い時刻t_3で音声方向にカメラを向けることが可能となる。
FIG. 12E shows an example in which a short noise is inserted before the voice of the voice command “Zoom”. In the figure, at times t_1 and t_2, the score of the GBG model increases, and it is determined that the statement is a statement other than a voice command, and the imaging direction is controlled in the voice direction. Here, at t_3, since a part of the voice command “zoom” occupies most of the voice, the voice command “zoom” is obtained as a recognition result. Then, the imaging
(実施形態6)
実施形態5では、途中の音声認識結果に応じて、音声方向への撮像方向制御を行うか抑制するかを逐次切り換えている。本実施形態ではさらに、制御するか抑制するかを短時間で切り換えないように、音声認識スコアに閾値を用意する。本実施形態の様子を図13に示す。
(Embodiment 6)
In the fifth embodiment, whether to perform the imaging direction control in the voice direction is sequentially switched according to the voice recognition result on the way. In the present embodiment, a threshold value is further prepared for the voice recognition score so that control or suppression is not switched in a short time. The state of this embodiment is shown in FIG.
図13は、横軸に時間軸をとり、音声コマンドのモデルのスコアとGBGモデルのスコアの差をグラフにした図である。同図の(a)は、実施形態5のとおり、音声コマンドのモデルのスコアとGBGモデルのスコアとを比較して、スコアの大きいほうの認識結果に基づいて逐次制御を切り替える場合のグラフである。同図において、1301は音声コマンドのモデルのスコアとGBGモデルのスコアの差を表すプロットである。プロット1301は、音声認識部205がスコアを出力する時間Tごとに得る。1302は、各時刻の制御を表す。スコアの差が負になると音声方向へ制御し、正になると音声方向への制御を抑制することになる。1302を見ると、音声の途中で制御が何度も切り換っていることがわかる。
FIG. 13 is a graph in which the horizontal axis represents the time axis, and the difference between the voice command model score and the GBG model score is graphed. (A) of the figure is a graph in the case where the score of the voice command model is compared with the score of the GBG model as in the fifth embodiment, and the sequential control is switched based on the recognition result of the larger score. . In the figure, 1301 is a plot showing the difference between the voice command model score and the GBG model score. The
これに対し、図13(b)は、スコアの差に閾値αを用意し、音声入力の途中ではスコアの差がαを超えた場合にのみ制御を切り換えることを表す。1303はこの場合の各時刻の制御を表す。スコアの差が閾値αを超えるまでは、スコアが逆転する可能性が高いとして制御を切り換えない。同図では(音声コマンドのモデルのスコア−GBGモデルのスコア)が−αを下回った時点で音声方向への制御を開始し、さらにその後αを上回った時点で音声方向への制御を抑制するよう制御している。1302と1303を比較すると、1303が安定して制御を切り換えていることがわかる。
On the other hand, FIG. 13B shows that a threshold value α is prepared for the difference in scores, and control is switched only when the score difference exceeds α during voice input.
また、このとき望ましくは、音声区間が終了した時点では、スコアの差がα以上であってもα未満であっても、終了した時点でのスコアが高いほうに基づいて制御するか抑制するかを決定する。なお、ここで図13(b)においてスコアの差の閾値αと−αは、α1と−α2のように絶対値が異なっていても構わない。 Also, at this time, preferably, at the time when the speech section ends, whether the control is to be controlled or suppressed based on the higher score at the end when the difference between the scores is greater than or less than α. To decide. Here, in FIG. 13B, the threshold value α and −α of the difference in score may be different in absolute value as α1 and −α2.
(実施形態7)
実施形態5および実施形態6では音声コマンドのモデルのスコアとGBGモデルのスコアとを比較して音声方向への撮像方向制御を行うか抑制するかを切り換えている。この際に、撮像方向制御部203は、スコアの差の大きさに応じてカメラの制御速度を変化させても良い。これによって、撮像方向が切り換るときに滑らかな制御を行うことができる。
(Embodiment 7)
In the fifth and sixth embodiments, the voice command model score and the GBG model score are compared to switch whether or not to control the imaging direction in the voice direction. At this time, the imaging
図14は、図13(b)のように閾値αを超えたときのみ撮像制御の切り換えを行う場合において、さらにカメラの制御速度を閾値αによって切り換えた例を示す。同図において、スコアの差がα以上の場合には、制御が切り換る可能性が低いので通常速度で撮像方向を制御する。一方、スコアの差がα未満の場合には、制御が切り換る可能性が高いので、通常速度よりも遅い速度で制御する。なお、速度を決定する閾値は、制御を決定する閾値αと異なっていても良い。また、スコアの差の閾値αと−αは、α1と−α2のように絶対値が異なっていても構わない。 FIG. 14 shows an example in which the control speed of the camera is further switched by the threshold value α when the imaging control is switched only when the threshold value α is exceeded as shown in FIG. In the same figure, when the difference between the scores is α or more, the imaging direction is controlled at the normal speed because there is a low possibility that the control is switched. On the other hand, when the difference in scores is less than α, there is a high possibility that the control will be switched, so control is performed at a speed slower than the normal speed. Note that the threshold for determining the speed may be different from the threshold α for determining the control. Further, the threshold value α and −α of the difference in score may be different in absolute value as in α1 and −α2.
また、スコアの差に応じて速度をより細かく制御しても良い。図15は、スコアの差に対するカメラの制御速度を表す図である。スコアの差が大きくなるほどカメラの制御速度を速くし、最大値V_maxに達した後はスコアの差が広がっても一定の速度とする。このようにスコアの差に応じて細かくカメラの速度を制御することで、音声認識部205の途中の認識結果が切り換っても、滑らかな撮像方向制御を行うことができる。
Further, the speed may be more finely controlled according to the difference in scores. FIG. 15 is a diagram illustrating the control speed of the camera with respect to the difference in score. As the difference in scores increases, the camera control speed is increased, and after reaching the maximum value V_max, the speed is constant even if the difference in scores increases. By controlling the camera speed finely according to the difference in score in this way, smooth imaging direction control can be performed even if the recognition result in the middle of the
なお、ここで図15のグラフは、音声コマンドのスコアがGBGモデルのスコアよりも高い場合と低い場合とで形状が異なっていても構わない。この場合、音声方向へ制御する場合と元の方向へ戻す場合とでスコアの差に対する速度が異なることになる。 Here, the shape of the graph of FIG. 15 may differ depending on whether the score of the voice command is higher or lower than the score of the GBG model. In this case, the speed with respect to the difference in score is different between the case of controlling in the voice direction and the case of returning to the original direction.
(実施形態8)
実施形態5では音声コマンドか音声コマンド以外の発言かに基づいて音声方向へ制御するか抑制するかを逐次決定して制御している。しかし本発明はこれに限るものではなく、実施形態1と同様に音声コマンドを抑制する音声コマンドと抑制しない音声コマンドに分類し、それによって処理を変えても良い。この場合、例えば、音声認識のための音声コマンド表として図4(a)を用いる。
(Embodiment 8)
In the fifth embodiment, whether to control in the voice direction or to suppress based on whether a voice command or a speech other than a voice command is determined and controlled. However, the present invention is not limited to this, and the voice commands may be classified into voice commands that suppress voice commands and voice commands that do not suppress, as in the first embodiment, and processing may be changed accordingly. In this case, for example, FIG. 4A is used as a voice command table for voice recognition.
この実施形態によるフローチャートを図16に示す。同図において、S1001からS1011は図10と同様の処理である。S1601において、撮像方向制御部203が、音声コマンドが所定の音声コマンドか否かを判定する。
A flowchart according to this embodiment is shown in FIG. In the figure, S1001 to S1011 are the same processes as in FIG. In step S1601, the imaging
所定の音声コマンドとは、図4(a)において「検知した音声方向への制御」の値が「○」のものである。これによって、音声方向への制御を抑制する音声コマンド「ズーム」、「ホワイトボード」が入力された場合は音方向への制御が行われない。一方、音声方向へ制御する音声コマンド「こっち」、「Xさん」が入力された場合は音方向への制御が、途中の認識結果が出た時点ですぐに制御される。 The predetermined voice command is a command whose value of “control in detected voice direction” is “◯” in FIG. Accordingly, when the voice commands “zoom” and “whiteboard” for suppressing the control in the voice direction are input, the control in the sound direction is not performed. On the other hand, when the voice commands “here” and “Mr. X” that control in the voice direction are input, the control in the sound direction is controlled immediately when an intermediate recognition result is output.
例えば、図8のように自分側と相手側の拠点を結んでテレビ会議を行う場面を想定する。ここで自分側の拠点で、Aさんが「Xさんの意見に賛成です。」と発言したとする。このとき、途中までの発言「Xさん」の時点で、音声認識部205はS1003において音声コマンド「Xさん」と認識する。すると撮像方向制御部203は、S1008で音声コマンド「Xさん」に基づいて相手側の拠点のカメラをXさんに向けるよう制御する。さらに音声コマンド「Xさん」はS1601で、音声方向への撮像方向制御を抑制しない所定のコマンドに該当するので、S1007に進み、撮像方向制御部203は、Aさんの方向へ自分側の拠点のカメラを制御する。しかし発言が進み、「Xさんの意見に」まで入力されると、音声認識部205はS1003において音声コマンド以外と認識する。すると撮像方向制御部203は、S1005で、前の時刻で行った音声コマンド「Xさん」に対する制御をキャンセルする。すなわち、相手側の拠点のカメラをXさんの方向から制御前の方向に戻す。一方、音声コマンド以外という認識結果によりS1006からS1007に進み、Aさんの方向への自分側の拠点のカメラ制御は継続する。
For example, as shown in FIG. 8, a scene is assumed in which a video conference is performed by connecting the bases of the own side and the other side. Suppose here that Mr. A remarked "I agree with Mr. X's opinion" at his base. At this time, the
(実施形態9)
実施形態5では、音声コマンドに対する制御(ズーム、ホワイトボードに向けるなど)もS1008において途中の音声認識結果に基づいて処理している。しかし本発明はこれに限るものではなく、音声コマンドに対する制御は音声認識結果が確定してから制御しても良い。この場合、音声方向への撮像方向制御のみ、早期に制御を実行し、音声コマンドに対しては音声が最後まで入力された時点で確実に実行することができる。
(Embodiment 9)
In the fifth embodiment, the control for the voice command (zoom, turning to the whiteboard, etc.) is also processed based on the voice recognition result in the middle in S1008. However, the present invention is not limited to this, and the voice command may be controlled after the voice recognition result is confirmed. In this case, only the imaging direction control in the voice direction can be executed at an early stage, and the voice command can be reliably executed when the voice is input to the end.
図17は本実施形態に係るカメラ制御装置の処理手順を示すフローチャートである。S1701で、音声取得部201が、外部で発声した音声を取得したか否かを判定する。音声を取得した場合はS1702へ進む。音声を取得しなかった場合はS1701へ戻る。
FIG. 17 is a flowchart showing a processing procedure of the camera control apparatus according to the present embodiment. In step S <b> 1701, it is determined whether the
S1702で、音声方向検知部202が、取得した音声の発生方向を検知する。次に、検知した音声の発生方向へ、カメラ204の撮像方向を制御するために必要な、パン・チルト・ズーム情報を生成する。生成したパン・チルト・ズーム情報を撮像方向制御部203へ送る。
In S1702, the voice
S1703で、音声認識部205が、音声入力有りと判定された時点から現時点までに取得した音声を使って音声認識する。音声が発言の途中である場合も、途中までの音声で認識する。所定の長さの時間ごとに逐次、認識結果を出力する。
In step S <b> 1703, the
S1704で、音声認識部205が、音声認識の結果を用いて、取得した音声が音声コマンドか否かを判定する。音声コマンドでない場合はS1705へ進む。音声コマンドの場合はS1706へ進む。
In step S1704, the
S1705では、撮像方向制御部203が、音声方向検知部202から送られたパン・チルト・ズーム情報を用いて、カメラ204の撮像方向を制御する。S1706では、撮像方向制御部203が、カメラ204を音声方向に制御することを抑制する。既にそれまでにカメラのパン・チルト・ズームが、音声入力前にカメラが向いていた元の方向から動いている場合には、元の方向に戻すよう制御する。
In step S <b> 1705, the imaging
S1707で、音声認識部205が、取得した音声に含まれる人の声の区間が終了したか否かを判定する。人の声の区間が終了していないと判定した場合には、S1703に戻り、さらに所定時間後の途中音声認識結果を取得する。人の声の区間が終了したと判定した場合には、S1708に進む。
In step S <b> 1707, the
S1708で、音声認識部205が、その時間での認識結果に認識結果を確定し、撮像方向制御部203が、カメラの撮像方向制御を確定する。S1709で、認識結果が音声コマンドであった場合は、S1710で、撮像方向制御部203が、音声コマンドの制御情報に従ってさらにカメラ204を制御する。
In step S <b> 1708, the
S1701とS1702の順番は逆でも良い。音声方向検知をした上で、音の中に音声が入力されているか否かを判定する。
なお、本実施形態は図8のような自分側と相手側の拠点を結んでテレビ会議を行う場面でも良いし、自分側の拠点一箇所において議事録を記録する場面でも良い。
The order of S1701 and S1702 may be reversed. After detecting the voice direction, it is determined whether or not voice is input in the sound.
In addition, this embodiment may be a scene where a video conference is performed by connecting the base of the other party and the other party as shown in FIG. 8, or a scene where the minutes are recorded at one place of the own base.
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
(Other embodiments)
As mentioned above, although embodiment of this invention was explained in full detail, this invention may be applied to the system comprised from several apparatuses, and may be applied to the apparatus which consists of one apparatus.
なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。 In the present invention, a program for realizing each function of the above-described embodiments is supplied directly or remotely to a system or apparatus, and a computer included in the system or apparatus reads and executes the supplied program code. Can also be achieved.
したがって、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。 Accordingly, since the functions and processes of the present invention are implemented by a computer, the program code itself installed in the computer also implements the present invention. That is, the computer program itself for realizing the functions and processes is also one aspect of the present invention.
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。 In this case, the program may be in any form as long as it has a program function, such as an object code, a program executed by an interpreter, or script data supplied to the OS.
プログラムを供給するためのコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などもある。 Examples of the computer-readable recording medium for supplying the program include a flexible disk, a hard disk, an optical disk, a magneto-optical disk, an MO, a CD-ROM, a CD-R, and a CD-RW. Examples of the recording medium include a magnetic tape, a non-volatile memory card, a ROM, a DVD (DVD-ROM, DVD-R), and the like.
また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。 The program may be downloaded from a homepage on the Internet using a browser on a client computer. That is, the computer program itself of the present invention or a compressed file including an automatic installation function may be downloaded from a home page to a recording medium such as a hard disk. Further, it is also possible to divide the program code constituting the program of the present invention into a plurality of files and download each file from a different home page. That is, a WWW server that allows a plurality of users to download a program file for realizing the functions and processing of the present invention on a computer may be a constituent requirement of the present invention.
また、本発明のプログラムを暗号化してコンピュータ読み取り可能なCD−ROM等のコンピュータ読み取り可能な記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。 The program of the present invention may be encrypted and stored in a computer-readable storage medium such as a computer-readable CD-ROM and distributed to users. In this case, only the user who cleared the predetermined condition is allowed to download the key information to be decrypted from the homepage via the Internet, decrypt the program encrypted with the key information, execute it, and install the program on the computer May be.
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。 Further, the functions of the above-described embodiments may be realized by the computer executing the read program. Note that an OS or the like running on the computer may perform part or all of the actual processing based on the instructions of the program. Of course, also in this case, the functions of the above-described embodiments can be realized.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。 Furthermore, the program read from the recording medium may be written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Based on the instructions of the program, a CPU or the like provided in the function expansion board or function expansion unit may perform part or all of the actual processing. In this way, the functions of the above-described embodiments may be realized.
Claims (13)
音声を取得する取得手段と、
前記取得手段で取得した前記音声の発生方向を検知する検知手段と、
前記取得手段で取得した前記音声を認識する音声認識手段と、
前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御する制御手段と、
を備え、
前記制御手段は、前記音声認識手段が前記音声を音声コマンドとして認識したときは、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制することを特徴とするカメラ制御装置。 A camera control device for controlling the operation of a camera,
An acquisition means for acquiring audio;
Detecting means for detecting the direction of occurrence of the sound acquired by the acquiring means;
Voice recognition means for recognizing the voice acquired by the acquisition means;
Control means for controlling the imaging direction of the camera in the direction of generation of the sound detected by the detection means;
With
When the voice recognition unit recognizes the voice as a voice command, the control unit suppresses controlling the imaging direction of the camera in the voice generation direction detected by the detection unit. Camera control device.
音声を取得する取得手段と、
前記取得手段で取得した前記音声の発生方向を検知する検知手段と、
前記取得手段で取得した前記音声を認識する音声認識手段と、
前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御する制御手段と、
を備え、
前記制御手段は、
前記音声認識手段が前記音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御する指示が当該音声コマンドに関連付けられている場合に、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御し、
前記音声認識手段が前記音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられている場合は、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とするカメラ制御装置。 A camera control device for controlling the operation of a camera,
An acquisition means for acquiring audio;
Detecting means for detecting the direction of occurrence of the sound acquired by the acquiring means;
Voice recognition means for recognizing the voice acquired by the acquisition means;
Control means for controlling the imaging direction of the camera in the direction of generation of the sound detected by the detection means;
With
The control means includes
When the voice recognition unit recognizes the voice as a voice command and the instruction to control the camera in the voice generation direction is associated with the voice command, the voice generation direction detected by the detection unit To control the imaging direction of the camera,
When the voice recognition unit recognizes the voice as a voice command and an instruction not to control the camera in the voice generation direction is associated with the voice command, the voice generation direction detected by the detection unit Further, it is possible to suppress controlling the imaging direction of the camera.
前記検知手段は、前記第1マイクロホンに入力された音声の発生方向を検知し、
前記音声認識手段は、前記第2マイクロホンに入力された音声を認識する
ことを特徴とする請求項1又は2に記載のカメラ制御装置。 The acquisition means includes a first microphone and a second microphone,
The detecting means detects a direction of generation of the sound input to the first microphone;
The camera control apparatus according to claim 1, wherein the voice recognition unit recognizes a voice input to the second microphone.
前記検知手段は、前記第1マイクロホンに入力された音声の発生方向を検知し、
前記音声認識手段は、前記第2マイクロホンに入力された音声を認識し、
前記制御手段は、
前記音声認識手段が前記第2マイクロホンへの音声入力を検出しない場合、又は、前記音声認識手段が前記第2マイクロホンに入力された前記音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられていない場合に、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御し、
前記音声認識手段が前記第2マイクロホンに入力された前記音声を音声コマンドとして認識しなかった場合、又は、当該音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられている場合は、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とする請求項2に記載のカメラ制御装置。 The acquisition means includes a first microphone and a second microphone,
The detecting means detects a direction of generation of the sound input to the first microphone;
The voice recognition means recognizes a voice input to the second microphone;
The control means includes
When the voice recognition unit does not detect a voice input to the second microphone, or when the voice recognition unit recognizes the voice input to the second microphone as a voice command, the camera generates the voice. When an instruction not to control the direction is not associated with the voice command, the imaging direction of the camera is controlled in the direction of generation of the voice detected by the detection unit;
When the voice recognition unit does not recognize the voice input to the second microphone as a voice command, or when the voice is recognized as a voice command, an instruction not to control the camera in the voice generation direction is given. 3. The camera control device according to claim 2, wherein when associated with the voice command, control of the imaging direction of the camera in the direction of generation of the voice detected by the detection unit is suppressed.
前記音声認識手段は、前記音声入力ボタンの押下をトリガとして音声認識を開始することを特徴とする請求項3に記載のカメラ制御装置。 A voice input button for the user to input a voice command;
The camera control apparatus according to claim 3, wherein the voice recognition unit starts voice recognition triggered by pressing of the voice input button.
前記取得手段は、第1マイクロホンと第2マイクロホンとを含み、
前記検知手段は、前記第1マイクロホンに入力された音声の発生方向を検知し、
前記音声認識手段は、前記音声入力ボタンの押下をトリガとして音声認識を開始して前記第2マイクロホンに入力された音声を認識し、
前記制御手段は、
前記音声入力ボタンが押下されていない場合、又は、前記音声入力ボタンが押下され前記音声認識手段が前記第2マイクロホンに入力された前記音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられていない場合に、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御し、
前記音声入力ボタンが押下され前記音声認識手段が前記第2マイクロホンに入力された前記音声を音声コマンドとして認識しなかった場合、又は、当該音声を音声コマンドとして認識した場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられている場合は、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とする請求項2に記載のカメラ制御装置。 A voice input button for the user to input a voice command;
The acquisition means includes a first microphone and a second microphone,
The detecting means detects a direction of generation of the sound input to the first microphone;
The voice recognition means recognizes the voice input to the second microphone by starting voice recognition triggered by pressing of the voice input button;
The control means includes
When the voice input button is not pressed, or when the voice input button is pressed and the voice recognition means recognizes the voice input to the second microphone as a voice command, the camera generates the voice. When an instruction not to control the direction is not associated with the voice command, the imaging direction of the camera is controlled in the direction of generation of the voice detected by the detection unit;
When the voice input button is pressed and the voice recognition unit does not recognize the voice input to the second microphone as a voice command, or when the voice is recognized as a voice command, the camera recognizes the voice. The control of the imaging direction of the camera in the direction of generation of the voice detected by the detection unit is suppressed when an instruction not to control in the generation direction is associated with the voice command. The camera control device described in 1.
前記制御手段は、前記途中の音声認識結果を得た時点で前記カメラの撮像方向の制御を実行し、前記途中の音声認識結果が音声コマンドであるときは、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とする請求項1に記載のカメラ制御装置。 The voice recognition means sequentially acquires voice recognition results in the middle by performing voice recognition at a predetermined time interval after the acquisition means starts acquiring voice,
The control means executes control of the imaging direction of the camera when the midway voice recognition result is obtained, and when the midway voice recognition result is a voice command, the control means detects the voice detected by the detection means. The camera control device according to claim 1, wherein control of the imaging direction of the camera in the generation direction is suppressed.
前記制御手段は、前記途中の音声認識結果を得た時点で前記カメラの撮像方向の制御を実行し、
前記途中の音声認識結果が、前記カメラを前記音声の発生方向に制御する指示が関連付けられている音声コマンドであるときは、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御し、
前記途中の音声認識結果が、前記カメラを前記音声の発生方向に制御しない指示が関連付けられている音声コマンドであるときは、前記検知手段が検知した前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とする請求項2に記載のカメラ制御装置。 The voice recognition means sequentially acquires voice recognition results in the middle by performing voice recognition at a predetermined time interval after the acquisition means starts acquiring voice,
The control means executes the control of the imaging direction of the camera at the time of obtaining the voice recognition result on the way,
When the voice recognition result on the way is a voice command associated with an instruction to control the camera in the voice generation direction, the imaging direction of the camera is set to the voice generation direction detected by the detection means. Control
When the voice recognition result in the middle is a voice command associated with an instruction not to control the camera in the voice generation direction, the imaging direction of the camera is set to the voice generation direction detected by the detection means. The camera control device according to claim 2, wherein control is suppressed.
取得手段が、音声を取得する取得ステップと、
検知手段が、前記取得ステップで取得した前記音声の発生方向を検知する検知ステップと、
音声認識手段が、前記取得ステップで取得した前記音声を認識する音声認識ステップと、
制御手段が、前記検知ステップで検知した前記音声の発生方向に前記カメラの撮像方向を制御する制御ステップと、
を有し、
前記制御ステップは、前記音声認識ステップで前記音声が音声コマンドとして認識されたときは、前記検知ステップで検知された前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とするカメラ制御方法。 A camera control method for controlling the operation of a camera,
An acquisition step in which the acquisition means acquires voice;
A detecting step for detecting a direction in which the sound acquired in the acquiring step is detected;
A voice recognition unit that recognizes the voice acquired by the acquisition step;
A control step, wherein the control means controls the imaging direction of the camera in the direction of generation of the sound detected in the detection step;
Have
In the control step, when the voice is recognized as a voice command in the voice recognition step, the control step suppresses controlling the imaging direction of the camera in the voice generation direction detected in the detection step. Camera control method.
取得手段が、音声を取得する取得ステップと、
検知手段が、前記取得ステップで取得した前記音声の発生方向を検知する検知ステップと、
音声認識手段が、前記取得ステップで取得した前記音声を認識する音声認識ステップと、
制御手段が、前記検知ステップで検知した前記音声の発生方向に前記カメラの撮像方向を制御する制御ステップと、
を有し、
前記制御ステップは、
前記音声認識ステップで前記音声が音声コマンドとして認識された場合で前記カメラを前記音声の発生方向に制御する指示が当該音声コマンドに関連付けられている場合に、前記検知ステップで検知された前記音声の発生方向に前記カメラの撮像方向を制御し、
前記音声認識ステップで前記音声が音声コマンドとして認識された場合で前記カメラを前記音声の発生方向に制御しない指示が当該音声コマンドに関連付けられている場合は、前記検知ステップで検知された前記音声の発生方向に前記カメラの撮像方向を制御することを抑制する
ことを特徴とするカメラ制御方法。 A camera control method for controlling the operation of a camera,
An acquisition step in which the acquisition means acquires voice;
A detecting step for detecting a direction in which the sound acquired in the acquiring step is detected;
A voice recognition unit that recognizes the voice acquired by the acquisition step;
A control step, wherein the control means controls the imaging direction of the camera in the direction of generation of the sound detected in the detection step;
Have
The control step includes
When the voice is recognized as a voice command in the voice recognition step and an instruction to control the camera in the voice generation direction is associated with the voice command, the voice detected in the detection step Controlling the imaging direction of the camera in the direction of occurrence,
When the voice is recognized as a voice command in the voice recognition step and an instruction not to control the camera in the voice generation direction is associated with the voice command, the voice of the voice detected in the detection step is Controlling the imaging direction of the camera in the direction of generation is suppressed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009103361A JP5495612B2 (en) | 2008-04-23 | 2009-04-21 | Camera control apparatus and method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008113231 | 2008-04-23 | ||
JP2008113231 | 2008-04-23 | ||
JP2009103361A JP5495612B2 (en) | 2008-04-23 | 2009-04-21 | Camera control apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009284473A true JP2009284473A (en) | 2009-12-03 |
JP5495612B2 JP5495612B2 (en) | 2014-05-21 |
Family
ID=41454393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009103361A Expired - Fee Related JP5495612B2 (en) | 2008-04-23 | 2009-04-21 | Camera control apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5495612B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179287A (en) * | 2010-12-16 | 2015-10-08 | ネイバー コーポレーションNAVER Corporation | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
CN109314747A (en) * | 2016-06-10 | 2019-02-05 | 佳能株式会社 | Control equipment, communication equipment, control method and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11341336A (en) * | 1998-05-29 | 1999-12-10 | Canon Inc | Device and method for controlling camera, and storage medium |
JP2003520528A (en) * | 2000-01-20 | 2003-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Multimodal video target acquisition and redirection system and method |
JP2003528548A (en) * | 2000-03-21 | 2003-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Hand-free home video production camcorder |
JP2003274358A (en) * | 2002-03-14 | 2003-09-26 | Sony Corp | Apparatus and method for imaging, and device and system for imaging management |
JP2007219207A (en) * | 2006-02-17 | 2007-08-30 | Fujitsu Ten Ltd | Speech recognition device |
JP2008083165A (en) * | 2006-09-26 | 2008-04-10 | Xanavi Informatics Corp | Voice recognition processing program and voice recognition processing method |
-
2009
- 2009-04-21 JP JP2009103361A patent/JP5495612B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11341336A (en) * | 1998-05-29 | 1999-12-10 | Canon Inc | Device and method for controlling camera, and storage medium |
JP2003520528A (en) * | 2000-01-20 | 2003-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Multimodal video target acquisition and redirection system and method |
JP2003528548A (en) * | 2000-03-21 | 2003-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Hand-free home video production camcorder |
JP2003274358A (en) * | 2002-03-14 | 2003-09-26 | Sony Corp | Apparatus and method for imaging, and device and system for imaging management |
JP2007219207A (en) * | 2006-02-17 | 2007-08-30 | Fujitsu Ten Ltd | Speech recognition device |
JP2008083165A (en) * | 2006-09-26 | 2008-04-10 | Xanavi Informatics Corp | Voice recognition processing program and voice recognition processing method |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179287A (en) * | 2010-12-16 | 2015-10-08 | ネイバー コーポレーションNAVER Corporation | Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method |
CN109314747A (en) * | 2016-06-10 | 2019-02-05 | 佳能株式会社 | Control equipment, communication equipment, control method and program |
US10863100B2 (en) | 2016-06-10 | 2020-12-08 | Canon Kabushiki Kaisha | Control apparatus, communication apparatus, control method, and storage medium |
CN109314747B (en) * | 2016-06-10 | 2021-07-23 | 佳能株式会社 | Control device, communication device, control method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5495612B2 (en) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Waibel et al. | SMaRT: The smart meeting room task at ISL | |
JP4557919B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP4837917B2 (en) | Device control based on voice | |
US9293134B1 (en) | Source-specific speech interactions | |
JP6531776B2 (en) | Speech dialogue system and speech dialogue method | |
US20160379633A1 (en) | Speech-Controlled Actions Based on Keywords and Context Thereof | |
JP4085924B2 (en) | Audio processing device | |
CN108231065A (en) | Multi-lingual person's speech recognition correction system | |
US9792901B1 (en) | Multiple-source speech dialog input | |
JPWO2010013371A1 (en) | Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
JP7279494B2 (en) | CONFERENCE SUPPORT DEVICE AND CONFERENCE SUPPORT SYSTEM | |
CN111936964B (en) | Non-interrupt NUI commands | |
JP2007322523A (en) | Voice translation apparatus and its method | |
JP6797338B2 (en) | Information processing equipment, information processing methods and programs | |
JP2010109898A (en) | Photographing control apparatus, photographing control method and program | |
JP2011257943A (en) | Gesture operation input device | |
WO2018135276A1 (en) | Speech and behavior control device, robot, control program, and control method for speech and behavior control device | |
JPH05122689A (en) | Video conference system | |
JP2008168375A (en) | Body language robot, its controlling method and controlling program | |
JP5495612B2 (en) | Camera control apparatus and method | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
JP7032284B2 (en) | A device, program and method for estimating the activation timing based on the image of the user's face. | |
JP2005055667A (en) | Audio processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140304 |
|
LAPS | Cancellation because of no payment of annual fees |