JP2003298916A

JP2003298916A - 撮影装置、データ処理装置及び方法、プログラム

Info

Publication number: JP2003298916A
Application number: JP2002102585A
Authority: JP
Inventors: Satoru Yashiro; 哲八代
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-04
Filing date: 2002-04-04
Publication date: 2003-10-17

Abstract

(57)【要約】【課題】音声指示が可能なビデオカメラ等において、
その音声指示が収録されることを抑制し、再生時の聞き
苦しさを軽減すること。【解決手段】収録する音声のうち、動作コマンドを示
す音声を音声認識器１１０で認識し、動作コマンドであ
ると認識された音声に対応する音声データを削除、或い
は、音量の低減処理を施すことにより、動作コマンドが
収録されることを抑制する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ビデオカメラに代
表される、画像や音声の収録技術に関する。

【０００２】

【従来の技術】ビデオカメラにより画像や音声を収録す
る場合、手指による操作ではカメラに力が加わることで
映像がぶれる事があった。また、汚れた手指による操作
により、ビデオカメラ等の汚れ、サビ，樹脂部分の化学
的劣化、接触不良、遺物混入など故障の原因となること
があった。

【０００３】一方、半導体技術の進歩により音声認識を
安価に行えるようになり、音声認識機能を備えたビデオ
カメラが提案されている。このビデオカメラによれば、
撮影者は音声により動作指示を行うことにより、直接ビ
デオカメラに触れることなく、種々の操作が可能とな
り、上述した問題を解消することができる。

【０００４】音声認識の方法としては、たとえば特開平
06-083382号公報における従来技術の紹介によれば，従
来、入力音声に含まれる特徴量を抽出し、予め登録され
ている音声の特徴量とのパターンマッチングを行うこと
が提案されている。

【０００５】また、特開平２−２７３７９８号公報によ
れば、ニューラルネットワークを用いた話者認識システ
ムにおいて、入力として音声の平均的な周波数特性及び
平均的なピッチ周波数を用いることにより、経時的な認
識率劣化を少なくするとともに実時間処理を可能とする
技術が提案されている。

【０００６】また、特開平３−１５７６９８号公報によ
れば、同様に、ニューラルネットワークを用いた話者認
識システムにおいて、登録話者認識用、追加学習用閾値
に基づいて話者判定や追加学習実施判定を行うことで、
経時的な認識率の劣化を少なくしつつ実時間処理を可能
とする技術が提案されている。

【０００７】また、話者を特定しない、不特定話者認識
に関する技術として、電気学会論文誌Ｖol．１０８−
Ｃ，Ｎｏ１０，Ｏct．’８８中の８５８〜８６５頁に示
される「２値のＴＳＰを用いた単語音声認識システムの
開発」によれば、音声の特徴量として時間−周波数パタ
ーン（Ｔime Ｓpectrum Ｐatten ＝ＴＳＰ）を２値化し
たものを用い、不特定話者による音声認識を行う技術が
報告されている。これは、不特定話者方式の課題である
話者による特徴量の変動を吸収するために、ファジー理
論でいうメンバーシップ関数の概念を導入したものであ
る。

【０００８】このような音声認識技術を背景として、音
声認識機能を備えたビデオカメラが普及しつつある。

【０００９】

【発明が解決しようとする課題】しかし、音声認識機能
を備えた従来のビデオカメラで撮影を行うと、ビデオカ
メラに対する撮影者の音声による動作指示が撮影時に記
録されてしまうという問題がある。例えば、”録画終
了”と撮影者が音声により動作指示を行った場合、その
音声も収録され再生時に再生されてしまう。このような
撮影者の音声による動作指示が、収録した画像の再生時
に出力されると聞き苦しいという問題があった。特に、
ビデオカメラ本体にマイクを内蔵している場合、被写体
より撮影者の方がマイクとの距離が近いため、撮影者が
発声した音声は被写体が発声した音声に比べて大きな音
量となって収録されてしまう。

【００１０】本発明の目的は、このような問題を解決す
ることにある。

【００１１】

【課題を解決するための手段】本発明によれば、撮像手
段と、音声入力手段と、前記音声入力手段から入力され
た音声を認識する音声認識手段と、前記音声入力手段か
ら入力された音声が、前記音声認識手段によって、動作
コマンドであると認識された場合に、該音声に対応する
音声データに所定の処理を行う処理手段と、を備えたこ
とを特徴とする撮影装置が提供される。

【００１２】また、本発明によれば、画像、及び、音声
を収録するためのデータ処理装置であって、収録する音
声のうち、動作コマンドを示す音声を認識する音声認識
手段と、前記音声認識手段によって、前記動作コマンド
であると認識された音声に対応する音声データに所定の
処理を行う処理手段と、を備えたことを特徴とするデー
タ処理装置が提供される。

【００１３】また、本発明によれば、画像、及び、音声
を収録するためのデータ処理方法であって、収録する音
声のうち、動作コマンドを示す音声を認識する音声認識
工程と、前記音声認識工程において、前記動作コマンド
であると認識された音声に対応する音声データに所定の
処理を行う処理工程と、を備えたことを特徴とするデー
タ処理方法が提供される。

【００１４】また、本発明によれば、画像、及び、音声
を収録するために、コンピュータに、収録する音声のう
ち、動作コマンドを示す音声を認識する音声認識工程
と、前記音声認識工程において、前記動作コマンドであ
ると認識された音声に対応する音声データに所定の処理
を行う処理工程と、を実行させるプログラムが提供され
る。

【００１５】また、本発明によれば、撮像手段と、第１
及び第２音声入力手段と、前記第２音声入力手段から入
力された音声を認識する音声認識手段と、前記第２音声
入力手段から入力された音声の音声データに所定の処理
を行う処理手段と、前記第１音声入力手段から入力され
た音声の音声データと、前記処理手段により処理された
音声データと、を加算する加算手段と、を備え、前記処
理手段は、前記第２音声入力手段から入力された音声の
うち、前記音声認識手段によって、動作コマンドである
と認識された音声に対応する音声データに対しては、第
１の処理を行い、動作コマンドでないと認識された音声
に対応する音声データに対しては、第２の処理を行うこ
とを特徴とする撮影装置が提供される。

【００１６】また、本発明によれば、撮像手段と、第１
及び第２音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するためのデータ処理装置であっ
て、前記第２音声入力手段から入力された音声を認識す
る音声認識手段と、前記第２音声入力手段から入力され
た音声の音声データに所定の処理を行う処理手段と、前
記第１音声入力手段から入力された音声の音声データ
と、前記処理手段により処理された音声データと、を加
算する加算手段と、を備え、前記処理手段は、前記第２
音声入力手段から入力された音声のうち、前記音声認識
手段によって、動作コマンドであると認識された音声に
対応する音声データに対しては、第１の処理を行い、動
作コマンドでないと認識された音声に対応する音声デー
タに対しては、第２の処理を行うことを特徴とするデー
タ処理装置が提供される。

【００１７】また、本発明によれば、撮像手段と、第１
及び第２音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するためのデータ処理方法であっ
て、前記第２音声入力手段から入力された音声を認識す
る音声認識工程と、前記第２音声入力手段から入力され
た音声の音声データに所定の処理を行う処理工程と、前
記第１音声入力手段から入力された音声の音声データ
と、前記処理工程により処理された音声データと、を加
算する加算工程と、を備え、前記処理工程は、前記第２
音声入力手段から入力された音声のうち、前記音声認識
工程によって、動作コマンドであると認識された音声に
対応する音声データに対しては、第１の処理を行い、動
作コマンドでないと認識された音声に対応する音声デー
タに対しては、第２の処理を行うことを特徴とするデー
タ処理方法が提供される。

【００１８】また、本発明によれば、撮像手段と、第１
及び第２音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するために、コンピュータに、前
記第２音声入力手段から入力された音声を認識する音声
認識工程と、前記第２音声入力手段から入力された音声
の音声データに所定の処理を行う処理工程と、前記第１
音声入力手段から入力された音声の音声データと、前記
処理工程により処理された音声データと、を加算する加
算工程と、を実行させるプログラムであって、前記処理
工程は、前記第２音声入力手段から入力された音声のう
ち、前記音声認識工程によって、動作コマンドであると
認識された音声に対応する音声データに対しては、第１
の処理を行い、動作コマンドでないと認識された音声に
対応する音声データに対しては、第２の処理を行うこと
を特徴とするプログラムが提供される。

【００１９】

【発明の実施の形態】以下、本発明の好適な実施の形態
について図面を参照して説明する。

【００２０】＜第１実施形態＞図１は、本発明の一実施
形態に係るビデオカメラのハードウエア構成を示した図
である。

【００２１】ＣＰＵ１０１は、ＲＯＭ１０２に格納され
たプログラムを実行する中央演算処理装置であり、本実
施形態のビデオカメラ全体の制御を司る。ＲＯＭ１０２
には、後述する処理を実行するためのプログラムやデー
タが格納されるメモリである。ＲＡＭ１０３は、ＣＰＵ
１０１のワークエリアとして機能するメモリである。

【００２２】記憶装置１０４は、本実施形態のビデオカ
メラにより収録された画像や音声のデータが格納される
装置であり、例えば、ハードディスク、或いは、磁気テ
ープメディアやフラッシュRAMなどの不揮発性メモリで
ある。また、この記憶装置１０４は必ずしもビデオカメ
ラ内に設ける必要は無く、外部に設けて電磁波や光波に
よりデータを送信して格納するようにしてもよい。

【００２３】撮像素子１０６は、画像を電気信号に変換
するセンサであり、例えば、ＣＣＤ素子などにより構成
される。本実施形態のビデオカメラは、この撮像素子１
０６を介して画像を撮影することができる。カメラコン
トローラ１０５は、レンズの焦点や絞り、或いは、拡大
率の制御等、図示しない光学系要素の制御を司り、撮像
素子１０６により撮像される画像を調整する。

【００２４】Ａ／Ｄ変換器１０７は、撮像素子１０６か
らの電気信号をＣＰＵ１０１で処理可能なデジタルデー
タに変換する。本実施形態の場合、デジタルデータに変
換された画像データは、ＲＡＭ１０３の所定の領域に逐
次格納される。この場合、画像と音声の同期を取るため
の時刻情報も併せて格納することもできる。

【００２５】マイク１０８は、被写体が発声する音声
や、撮影現場の周辺の音を収音し、音声を電気信号に変
換して出力する。本実施形態では、撮影者は音声により
ビデオカメラに対する動作指示、例えば、録画（画像及
び音声の収録）、再生、終了、ズームといった動作指示
（以下、動作コマンドという。）が可能であり、撮影者
が発声した音声による動作コマンドも、このマイク１０
８により収音される。Ａ／Ｄ変換器１０９は、マイク１
０８からの電気信号をＣＰＵ１０１で処理可能なデジタ
ルデータに変換する。本実施形態の場合、デジタルデー
タに変換された音声データは、ＲＡＭ１０３の所定の領
域に逐次格納される。この場合、画像と音声の同期を取
るための時刻情報も併せて格納することもできる。

【００２６】音声認識器１１０は、マイク１０８により
収音され、Ａ／Ｄ変換器１０９から出力された音声デー
タについて音声認識を行うものであり、本実施形態のビ
デオカメラに対して撮影者が発声した動作コマンドの有
無及び種類を出力する。音声認識方法については、上述
した従来の音声認識技術を採用することができるが、例
えば、各動作コマンドの音声データのサンプルを音声認
識器１１０又は別のメモリに格納しておき、これとＡ／
Ｄ変換器１０９からの音声データとを比較することによ
り、各動作コマンドの有無及び種類を判別、出力するよ
うにすることができる。

【００２７】また、音声認識器１１０は、Ａ／Ｄ変換器
１０９から出力される音声データのうち、動作コマンド
として認識した音声に対応する音声データの区間を指し
示す情報、例えば、その音声が発声された開始時刻及び
終了時刻、或いは、その音声データが格納されているＲ
ＡＭ１０３のアドレス、内部クロックにより計測された
時間等、も各動作コマンドの有無及び種類と共に出力す
る。以下、この情報を音声区間情報という。

【００２８】図４は、音声認識器１１０の入出力の例を
示す図である。図４は、撮影者が“録画（ろくが）”と
動作コマンドを発声した例を示している。音声認識器１
１０は、動作コマンドの種類（認識内容）と音声区間情
報とを出力している。図４の例の場合、音声区間情報
は、開始時刻と終了時刻である。

【００２９】サウンドI/F（インターフェース）１１１
は、デジタルの音声データをアナログデータに変換し、
増幅等してスピーカー１１２へ出力する。スピーカ１１
２は、電気信号を空気振動に変換する。これらの構成に
より、記憶装置１０４に収録された音声の再生出力や警
告音の出力が行われる。

【００３０】表示器１１３は、撮影中の画像や、再生画
像等を表示する装置であり、ＬＣＤ等のディスプレイと
そのドライバとが含まれる。また、本実施形態のビデオ
カメラの動作を選択するための機能メニューや動作モー
ド等も表示することもできる。操作パネル１１４は、ス
イッチやつまみ、ボタンなどから構成され、本実施形態
のビデオカメラに対する動作コマンドを手動で行うため
のものである。すなわち、本実施形態においては、動作
コマンドを音声又は手動のいずれかで行うことができ
る。操作パネル１１４に対する操作情報は、入力Ｉ／Ｆ
（インターフェース）を介してＣＰＵ１０１に検出され
る。

【００３１】次に、本実施形態のビデオカメラで実行さ
れる処理について説明する。図２は、電源を投入してか
らＣＰＵ１０１がＲＯＭ１０２に格納されたプログラム
を実行する処理を示すフローチャートである。

【００３２】電源を投入するとＳ２０１に進み、各種構
成の初期化といった装置全体の初期化処理を行う。Ｓ２
０２では、撮影者からの動作コマンドがあったか否かを
判定する。上述した通り、本実施形態では、動作コマン
ドを音声又は手動のいずれかで行うことができ、ＣＰＵ
１０１は、音声認識器１１０又は入力Ｉ／Ｆ１１５から
の動作コマンドをチェックする。

【００３３】動作コマンドがあった場合はＳ２０３に進
み、指示された動作コマンドに応じた処理を実行する。
ここでは、動作コマンドの内容に従って、撮影開始や撮
影終了、或いは、撮影条件の変更、若しくは、撮影した
画像の再生等、各種処理を実行する。なお、直ちに処理
を実行できないコマンドの場合は、処理のスケジューリ
ングを行う。スケジューリングされた処理はＣＰＵ１０
１に割り込み信号を供給することで起動される。なお、
動作コマンドが音声により行われた場合には、その旨及
び音声認識器１１０から出力される音声区間情報を保存
する。Ｓ２０２で動作コマンドがないと判断した場合に
は、Ｓ２０２を繰り返し動作コマンド待ちとなる。

【００３４】Ｓ２０７では、現在、画像及び音声の収録
中（画像の録画及び音声の録音）か否か判断する。収録
中でなければＳ２０２に戻る。収録中であればＳ２０５
へ進む。

【００３５】ここで、収録時の処理について説明する。
図３は、画像及び音声のデータを記憶装置１０４へ格納
する収録処理を示すフローチャートである。この処理
は、動作コマンドとして録画が指定された場合に実行さ
れる。

【００３６】Ｓ３０１では、ＲＡＭ１０３に格納された
画像データ及び音声データを、例えば、所定単位毎に読
み出して、それぞれ圧縮符号化する圧縮処理を実行す
る。圧縮の方法としては、例えば、動画符号圧縮に関す
る標準であるＭＰＥＧ１およびＭＰＥＧ２などが採用す
ることができる。このようにデータを圧縮して記録すれ
ば、より多くのデータを格納できるため望ましいが、必
ずしも圧縮しなければならないわけではない。

【００３７】Ｓ３０２では、Ｓ３０１で圧縮された画像
データ及び音声データを記憶装置１０４へ格納する。Ｓ
３０３では、撮影者から収録終了が指示されたか否かを
判定し、指示された場合は収録処理を終了し、そうでな
い場合は、Ｓ３０１へ戻って上述した処理を繰り返す。

【００３８】なお、画像及び音声の収録に際しては、読
み書き速度を向上させるために、画像と音声の同期を取
って多重化することが望ましい。つまり、これによって
任意の時刻における音声データと画像データとの記憶装
置１０４上の記憶アドレスの距離が離れ過ぎないように
なり、例えば、記憶装置１０４としてハードディスクを
用いた場合には、回転するディスクに対して効率的に連
続した読み書きが可能となる。

【００３９】図２のフローチャートに戻って、Ｓ２０５
では、Ｓ２０２においてチェックした動作コマンドが音
声によるものか、すなわち音声認識器１１０により認識
された動作コマンドなのか、入力Ｉ／Ｆ１１５を介して
操作パネル１１４から操作されたものであるのかを判定
する。音声による動作コマンドでなかった場合は、Ｓ２
０２へ戻り、音声による動作コマンドであった場合には
Ｓ２０６へ進む。

【００４０】Ｓ２０６では、ＲＡＭ１０３に格納されて
いる音声データに対して所定の処理を行う。詳細には、
保存しておいた音声区間情報を参照して、ＲＡＭ１０３
に格納されている音声データのうち、動作コマンドの音
声に対応する音声データに対して所定の処理を行う。

【００４１】処理の内容としては、例えば、その音声デ
ータをＲＡＭ１０３から削除する処理である。削除する
ことにより、その後に行われる図３に示した収録処理に
おいて、その音声データは記憶装置１０４の記憶対象外
となる。また、処理の内容としては、例えば、その音声
データの音量を低減する処理を採用することもできる。
この場合、例えば、音声波形の振幅を縮小するように音
声データを加工する。このように加工することで、その
後に行われる図３に示した収録処理において、その音声
データは元々の音声よりも音量が小さいデータとして記
憶装置１０４に記憶されることとなる。

【００４２】このように音声データを処理することで、
収録した画像及び音声を再生する場合に、撮影者が発声
した動作コマンドが消去されて再生されるか、或いは、
音量が小さくなって再生されるので、再生時の聞き苦し
さを低減することができる。

【００４３】なお、本実施形態では、Ｓ２０６の音声デ
ータ処理において、ＲＡＭ１０３に格納されている音声
データに対して、すなわち、図３の処理を経て記憶装置
１０４に格納される前の音声データに対して上述した処
理を行ったが、図３の処理を経て記憶装置１０４に格納
された音声データに対して上述した処理を行うようにし
てもよい。

【００４４】但し、図３の処理を経た音声データは、圧
縮されているため、Ｓ２０６の音声データ処理を行うた
めには、これを元に戻すためのデコード処理が必要とな
る等、処理が複雑化するおそれがあるので、本実施形態
のようにＲＡＭ１０３に格納されている音声データに対
して処理を行うことが望ましい。

【００４５】また、本実施形態では、音声認識を音声認
識器１１０により行ったが、同様の処理を実行する音声
認識プログラムをＲＯＭ１０２に格納しておく等してＣ
ＰＵ１０１が音声認識処理を実行するようにしてもよ
い。

【００４６】また、本実施形態では、図３の処理におい
て、画像及び音声データの圧縮処理をＣＰＵ１０１によ
りソフトウエアで行ったが、これらの圧縮処理を行う圧
縮器をハードウエアとして追加し、これに上記圧縮処理
を行わせることでＣＰＵ１０１の負担を軽減してもよ
い。

【００４７】また、本実施形態では本発明をビデオカメ
ラに適用した場合を例に挙げて説明したが、本発明はパ
ソコンとビデオカメラとを無線ＬＡＮ等で通信可能に接
続した構成にも適用することができる。この場合、ビデ
オカメラでは単に画像データと音声データとをパソコン
へ出力するようにしておき、その他の処理、例えば、動
作コマンドの音声認識や、音声データ処理、或いは、画
像及び音声データの収録処理といった図２、図３で示し
た処理をパソコンで実行させるようにしてもよい。

【００４８】また、本実施形態では、ビデオカメラに対
する音声による動作コマンドは、人間である撮影者が発
声していることを前提として説明したが、人間以外のも
の、例えば、カチンコやブザーなどの人間以外の音声で
もよく、これも本発明に含まれる。なお、この場合は、
対象とする音声を録音して標本化し、音声と動作コマン
ドとの対応関係を定義しておけばよい。

【００４９】＜第２実施形態＞次に、本発明の第２実施
形態について説明する。図５は、本発明の第２実施形態
に係るビデオカメラのハードウエア構成を示した図であ
る。以下、図１に示した第１実施形態のハードウエア構
成と異なる構成について説明する。特に説明しない構成
については第１実施形態と同じである。

【００５０】本実施形態では、被写体が発声する音声
や、撮影現場の周辺の音を収音し、音声を電気信号に変
換して出力するマイクとして、第１マイク１０８ａと第
２マイク１０８ｂとの２つのマイクを備え、これに伴
い、２つのＡ／Ｄ変換器１０９ａ及び１０９ｂを備え
る。

【００５１】第１マイク１０８ａは、主として被写体が
発声する音声を収音するためのマイクであり、第２マイ
ク１０８ｂは、主として撮影者が発声する動作コマンド
の音声を収音するためのマイクである。従って、例え
ば、第１マイク１０８ａは、被写体方向に指向されて配
置され、第２マイク１０８ｂは撮影者方向に指向されて
配置される。尤も、実際には、撮影者が発生する動作コ
マンドの音声は第１マイク１０８ａでも収音され、被写
体が発声する音声は第２マイク１０８ｂでも収音されよ
う。

【００５２】第２マイク１０８ｂは、例えば、ビデオカ
メラから分離可能なタイピン型や骨振動を収音するボー
ンタイプのマイクとしてもよく、撮影者が身に付けるこ
とができるようなものでもよい。

【００５３】本実施形態の場合、Ａ／Ｄ変換器１０９ａ
及び１０９ｂを介してデジタルデータに変換された、第
１マイク１０８ａ及び第２マイク１０８ｂで収音された
音声データは、それぞれ別々にＲＡＭ１０３の所定の領
域に逐次格納される。以下、第１マイク１０８ａで収音
された音声データを第１音声データといい、第２マイク
１０８ｂで収音された音声データを第２音声データとい
う。

【００５４】また、本実施形態の場合、音声認識器１１
０は、第２マイク１０８ｂで収音された音声に対して音
声認識を行う。

【００５５】次に、本実施形態のビデオカメラで実行さ
れる処理について説明する。図６は、電源を投入してか
らＣＰＵ１０１がＲＯＭ１０２に格納されたプログラム
を実行する処理を示すフローチャートである。また、図
７は、画像及び音声のデータを記憶装置１０４へ格納す
る収録処理を示すフローチャートである。

【００５６】本実施形態における処理を概説すると、本
実施形態では、第１マイク１０８ａから収音された第１
音声データと、第２マイク１０８ｂから収音された第２
音声データと、を加算し、その音声データを記憶装置１
０４へ格納する。この場合、第２音声データについて
は、動作コマンドに対応する音声データと、そうでない
音声データと、を区分けし、それぞれ別の値を乗算した
後に第１音声データと加算する。以下、動作コマンドに
対応する音声データについて乗算する値を第１乗算値と
いい、そうでない音声データについて乗算する値を第２
乗算値という。

【００５７】本実施形態の場合、第１乗算値は、第１音
声データと第２音声データとを加算した時に、動作コマ
ンドに対応する撮影者の音声が打ち消しあい、もっとも
小さくなるように設定され、負の値、すなわち、第２音
声データが反転する値をとる。この値は、例えば、撮影
者の一般的な撮影姿勢を想定して求めてもよいし、予備
的な試験等により、撮影者の声のみを第１マイク１０８
ａと第２マイク１０８ｂとで収音したときに得られる音
声波形のエネルギーの差から決定してもよい。

【００５８】また、第２乗算値は、動作コマンドに対応
しない音声に乗算される値であるので、例えば、撮影者
と被写体との音声の音量バランスが最適になるように設
定することが望ましい。これは、撮影者は動作コマンド
以外の発声、例えば、被写体との会話等も発声すること
を考慮したものである。第２乗算値は、固定の値として
もよいし撮影者が任意に設定できるようにしてもよく、
また、この第２乗算値も負の値、すなわち、第２音声デ
ータが反転する値をとる。

【００５９】このように音声データを処理することで、
収録した画像及び音声を再生する場合に、撮影者が発声
した動作コマンドが消去されて再生されるか、或いは、
音量が小さくなって再生されるので、再生時の聞き苦し
さを低減することができる。

【００６０】以下、図６及び図７のフローチャートに沿
ってこれらの処理を詳述する。図６において、Ｓ６０１
乃至Ｓ６０５の処理は、上述した図２のＳ２０１乃至Ｓ
２０５と同じ処理である。

【００６１】Ｓ６０６では、保存しておいた音声区間情
報を参照して、第２音声データに乗算する乗算値を変更
する処理を行う。第２音声データに乗算する乗算値は、
通常、上述した第２乗算値が設定されているが、Ｓ６０
６では、音声区間情報を参照して、第２音声データのう
ち、動作コマンドの音声に対応する音声データについて
は、第１乗算値へ変更して設定する。

【００６２】次に、図７を参照して本実施形態の場合の
画像及び音声の収録時の処理について説明する。

【００６３】Ｓ７０１では、第２音声データに乗算する
乗算値を取得する。上述した通り、通常は第２乗算値を
取得することとなるが、Ｓ６０６で乗算値が変更された
部分については、第１乗算値を取得することとなる。

【００６４】Ｓ７０２では、ＲＡＭ１０３に格納された
第２音声データに対して、Ｓ７０１で取得した乗算値を
乗算する。これにより第２音声データは反転し、また、
乗算値に従って音量の振幅が変更される。

【００６５】Ｓ７０３では、Ｓ７０２で乗算値が乗算さ
れた第２音声データと、ＲＡＭ１０３に格納された第１
音声データと、を加算する。これにより、両者の絶対値
の差分データが得られ、このデータが記憶対象の音声デ
ータとされる。

【００６６】Ｓ７０４乃至Ｓ７０６の処理は、上述した
図３のＳ３０１乃至Ｓ３０３と同じ処理である。以上に
より、動作コマンドの音声が消去されるか、或いは、音
量が小さくなった音声データが記憶装置１０４に格納さ
れるので、収録した画像及び音声を再生する場合に、撮
影者が発声した動作コマンドが消去されて再生される
か、或いは、音量が小さくなって再生され、再生時の聞
き苦しさを低減することができる。

【００６７】なお、第１マイク１０８ａと第２マイク１
０８ｂとは、離れて配置されているので、同じ音声を収
音しても音の伝達時間が異なり、音声に時間差が生じる
場合も考えられる。従って、第１音声データと第２音声
データとを加算する場合には、この時間差を考慮して加
算するようにしてもよい。

【００６８】また、本実施形態では、乗算値として負の
値をとる場合を想定して説明したが、第２音声データを
一括して反転し、正の値の乗算値を乗算するようにして
もよい。

【００６９】また、本実施形態では、第２音声データに
対する乗算値の乗算や、第１音声データと第２音声デー
タとの加算を、ＣＰＵ１０１によりソフトウエアで行っ
ているが、乗算器、反転器、加算器等をハードウエアと
して追加することでＣＰＵ１０１の負担を軽減してもよ
い。この場合、ＲＡＭ１０３には第１音声データと第２
音声データとを加算して得た音声データを格納するよう
にすることができる。

【００７０】また、本実施形態では、音声認識を音声認
識器１１０により行ったが、同様の処理を実行する音声
認識プログラムをＲＯＭ１０２に格納しておく等してＣ
ＰＵ１０１が音声認識処理を実行するようにしてもよ
い。同様に、本実施形態では、図７の処理において、画
像及び音声データの圧縮処理をＣＰＵ１０１によりソフ
トウエアで行ったが、これらの圧縮処理を行う圧縮器を
ハードウエアとして追加し、これに上記圧縮処理を行わ
せることでＣＰＵ１０１の負担を軽減してもよい。

【００７１】また、本実施形態では本発明をビデオカメ
ラに適用した場合を例に挙げて説明したが、本発明はパ
ソコンとビデオカメラとを無線ＬＡＮ等で通信可能に接
続した構成にも適用することができる。この場合、ビデ
オカメラでは単に画像データと音声データとをパソコン
へ出力するようにしておき、その他の処理、例えば、動
作コマンドの音声認識や、乗算値の変更、或いは、画像
及び音声データの収録処理といった図６、図７で示した
処理をパソコンで実行させるようにしてもよい。

【００７２】また、本実施形態では、ビデオカメラに対
する音声による動作コマンドは、人間である撮影者が発
声していることを前提として説明したが、人間以外のも
の、例えば、カチンコやブザーなどの人間以外の音声で
もよく、これも本発明に含まれる。なお、この場合は、
対象とする音声を録音して標本化し、音声と動作コマン
ドとの対応関係を定義しておけばよい。

【００７３】＜他の実施形態＞以上、本発明の好適な実
施の形態について説明したが、本発明の目的は、前述し
た実施形態の機能を実現するソフトウェアのプログラム
を、システムあるいは装置に供給し、そのシステムある
いは装置のコンピュータ（CPUやMPUを含む）がプログラ
ムを読み出し実行することによっても、達成されること
は言うまでもない。

【００７４】この場合、そのプログラム自体が前述した
実施形態の機能を実現することになり、そのプログラム
や、そのプログラムを記憶した記憶媒体或いはプログラ
ム製品は、本発明を構成することになる。また、コンピ
ュータが読み出したプログラムコードを実行することに
より、前述した実施形態の機能が実現されるだけでな
く、そのプログラムコードの指示に基づき、コンピュー
タ上で稼働しているオペレーティングシステム(OS)など
が実際の処理の一部または全部を行い、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。

【００７５】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００７６】

【発明の効果】以上説明した通り、本発明によれば、音
声による指示が、画像や音声と共に収録されることを抑
制することができるので、その再生時における聞き苦し
さが軽減される。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係るビデオカメラのハ
ードウエア構成を示した図である。

【図２】第１実施形態における、電源を投入してからＣ
ＰＵ１０１がＲＯＭ１０２に格納されたプログラムを実
行する処理を示すフローチャートである。

【図３】第１実施形態における、収録処理を示すフロー
チャートである。

【図４】音声認識器１１０の入出力の例を示す図であ
る。

【図５】本発明の第２実施形態に係るビデオカメラのハ
ードウエア構成を示した図である。

【図６】第２実施形態における、電源を投入してからＣ
ＰＵ１０１がＲＯＭ１０２に格納されたプログラムを実
行する処理を示すフローチャートである。

【図７】第２実施形態における、収録処理を示すフロー
チャートである。

Claims

【特許請求の範囲】

【請求項１】撮像手段と、音声入力手段と、前記音声入力手段から入力された音声を認識する音声認
識手段と、前記音声入力手段から入力された音声が、前記音声認識
手段によって、動作コマンドであると認識された場合
に、該音声に対応する音声データに所定の処理を行う処
理手段と、を備えたことを特徴とする撮影装置。
【請求項２】更に、前記撮像手段により撮像された画像の画像データ及び前
記音声入力手段から入力された音声の音声データを記憶
する記憶手段を備えたことを特徴とする請求項１に記載
の撮影装置。
【請求項３】前記所定の処理が、該音声に対応する音声データを前記記憶手段の記憶対象
外とする処理であることを特徴とする請求項２に記載の
撮影装置。
【請求項４】前記所定の処理が、該音声に対応する音声データを、前記記憶手段に記憶す
る前に削除する処理であることを特徴とする請求項２に
記載の撮影装置。
【請求項５】前記所定の処理が、該音声に対応する音声データについて、その音量を低減
するように処理することを特徴とする請求項２に記載の
撮影装置。
【請求項６】前記処理手段は、前記画像及び前記音声の収録時にのみ、前記音声データ
を処理することを特徴とする請求項１に記載の撮影装
置。
【請求項７】画像、及び、音声を収録するためのデー
タ処理装置であって、収録する音声のうち、動作コマンドを示す音声を認識す
る音声認識手段と、前記音声認識手段によって、前記動作コマンドであると
認識された音声に対応する音声データに所定の処理を行
う処理手段と、を備えたことを特徴とするデータ処理装
置。
【請求項８】画像、及び、音声を収録するためのデー
タ処理方法であって、収録する音声のうち、動作コマンドを示す音声を認識す
る音声認識工程と、前記音声認識工程において、前記動作コマンドであると
認識された音声に対応する音声データに所定の処理を行
う処理工程と、を備えたことを特徴とするデータ処理方
法。
【請求項９】画像、及び、音声を収録するために、コ
ンピュータに、収録する音声のうち、動作コマンドを示す音声を認識す
る音声認識工程と、前記音声認識工程において、前記動作コマンドであると
認識された音声に対応する音声データに所定の処理を行
う処理工程と、を実行させるプログラム。
【請求項１０】撮像手段と、第１及び第２音声入力手段と、前記第２音声入力手段から入力された音声を認識する音
声認識手段と、前記第２音声入力手段から入力された音声の音声データ
に所定の処理を行う処理手段と、前記第１音声入力手段から入力された音声の音声データ
と、前記処理手段により処理された音声データと、を加
算する加算手段と、を備え、前記処理手段は、前記第２音声入力手段から入力された音声のうち、前記
音声認識手段によって、動作コマンドであると認識され
た音声に対応する音声データに対しては、第１の処理を
行い、動作コマンドでないと認識された音声に対応する
音声データに対しては、第２の処理を行うことを特徴と
する撮影装置。
【請求項１１】前記第１の処理が、前記音声データに
第１の値を乗算する処理であり、前記第２の処理が、前
記音声データに第２の値を乗算する処理であることを特
徴とする請求項１０に記載の撮影装置。
【請求項１２】更に、前記撮像手段により撮像された画像の画像データ及び前
記加算手段により加算された音声データを記憶する記憶
手段を備えたことを特徴とする請求項１０に記載の撮影
装置。
【請求項１３】撮像手段と、第１及び第２音声入力手
段と、を備えた撮影装置からの画像、及び、音声を収録
するためのデータ処理装置であって、前記第２音声入力手段から入力された音声を認識する音
声認識手段と、前記第２音声入力手段から入力された音声の音声データ
に所定の処理を行う処理手段と、前記第１音声入力手段から入力された音声の音声データ
と、前記処理手段により処理された音声データと、を加
算する加算手段と、を備え、前記処理手段は、前記第２音声入力手段から入力された音声のうち、前記
音声認識手段によって、動作コマンドであると認識され
た音声に対応する音声データに対しては、第１の処理を
行い、動作コマンドでないと認識された音声に対応する
音声データに対しては、第２の処理を行うことを特徴と
するデータ処理装置。
【請求項１４】撮像手段と、第１及び第２音声入力手
段と、を備えた撮影装置からの画像、及び、音声を収録
するためのデータ処理方法であって、前記第２音声入力手段から入力された音声を認識する音
声認識工程と、前記第２音声入力手段から入力された音声の音声データ
に所定の処理を行う処理工程と、前記第１音声入力手段から入力された音声の音声データ
と、前記処理工程により処理された音声データと、を加
算する加算工程と、を備え、前記処理工程は、前記第２音声入力手段から入力された音声のうち、前記
音声認識工程によって、動作コマンドであると認識され
た音声に対応する音声データに対しては、第１の処理を
行い、動作コマンドでないと認識された音声に対応する
音声データに対しては、第２の処理を行うことを特徴と
するデータ処理方法。
【請求項１５】撮像手段と、第１及び第２音声入力手
段と、を備えた撮影装置からの画像、及び、音声を収録
するために、コンピュータに、前記第２音声入力手段から入力された音声を認識する音
声認識工程と、前記第２音声入力手段から入力された音声の音声データ
に所定の処理を行う処理工程と、前記第１音声入力手段から入力された音声の音声データ
と、前記処理工程により処理された音声データと、を加
算する加算工程と、を実行させるプログラムであって、前記処理工程は、前記第２音声入力手段から入力された音声のうち、前記
音声認識工程によって、動作コマンドであると認識され
た音声に対応する音声データに対しては、第１の処理を
行い、動作コマンドでないと認識された音声に対応する
音声データに対しては、第２の処理を行うことを特徴と
するプログラム。