JP2003298916A - 撮影装置、データ処理装置及び方法、プログラム - Google Patents

撮影装置、データ処理装置及び方法、プログラム

Info

Publication number
JP2003298916A
JP2003298916A JP2002102585A JP2002102585A JP2003298916A JP 2003298916 A JP2003298916 A JP 2003298916A JP 2002102585 A JP2002102585 A JP 2002102585A JP 2002102585 A JP2002102585 A JP 2002102585A JP 2003298916 A JP2003298916 A JP 2003298916A
Authority
JP
Japan
Prior art keywords
voice
data
processing
input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002102585A
Other languages
English (en)
Inventor
Satoru Yashiro
哲 八代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002102585A priority Critical patent/JP2003298916A/ja
Publication of JP2003298916A publication Critical patent/JP2003298916A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)

Abstract

(57)【要約】 【課題】 音声指示が可能なビデオカメラ等において、
その音声指示が収録されることを抑制し、再生時の聞き
苦しさを軽減すること。 【解決手段】 収録する音声のうち、動作コマンドを示
す音声を音声認識器110で認識し、動作コマンドであ
ると認識された音声に対応する音声データを削除、或い
は、音量の低減処理を施すことにより、動作コマンドが
収録されることを抑制する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ビデオカメラに代
表される、画像や音声の収録技術に関する。
【0002】
【従来の技術】ビデオカメラにより画像や音声を収録す
る場合、手指による操作ではカメラに力が加わることで
映像がぶれる事があった。また、汚れた手指による操作
により、ビデオカメラ等の汚れ、サビ,樹脂部分の化学
的劣化、接触不良、遺物混入など故障の原因となること
があった。
【0003】一方、半導体技術の進歩により音声認識を
安価に行えるようになり、音声認識機能を備えたビデオ
カメラが提案されている。このビデオカメラによれば、
撮影者は音声により動作指示を行うことにより、直接ビ
デオカメラに触れることなく、種々の操作が可能とな
り、上述した問題を解消することができる。
【0004】音声認識の方法としては、たとえば特開平
06-083382号公報における従来技術の紹介によれば,従
来、入力音声に含まれる特徴量を抽出し、予め登録され
ている音声の特徴量とのパターンマッチングを行うこと
が提案されている。
【0005】また、特開平2−273798号公報によ
れば、ニューラルネットワークを用いた話者認識システ
ムにおいて、入力として音声の平均的な周波数特性及び
平均的なピッチ周波数を用いることにより、経時的な認
識率劣化を少なくするとともに実時間処理を可能とする
技術が提案されている。
【0006】また、特開平3−157698号公報によ
れば、同様に、ニューラルネットワークを用いた話者認
識システムにおいて、登録話者認識用、追加学習用閾値
に基づいて話者判定や追加学習実施判定を行うことで、
経時的な認識率の劣化を少なくしつつ実時間処理を可能
とする技術が提案されている。
【0007】また、話者を特定しない、不特定話者認識
に関する技術として、電気学会論文誌Vol.108−
C,No10,Oct.’88中の858〜865頁に示
される「2値のTSPを用いた単語音声認識システムの
開発」によれば、音声の特徴量として時間−周波数パタ
ーン(Time Spectrum Patten =TSP)を2値化し
たものを用い、不特定話者による音声認識を行う技術が
報告されている。これは、不特定話者方式の課題である
話者による特徴量の変動を吸収するために、ファジー理
論でいうメンバーシップ関数の概念を導入したものであ
る。
【0008】このような音声認識技術を背景として、音
声認識機能を備えたビデオカメラが普及しつつある。
【0009】
【発明が解決しようとする課題】しかし、音声認識機能
を備えた従来のビデオカメラで撮影を行うと、ビデオカ
メラに対する撮影者の音声による動作指示が撮影時に記
録されてしまうという問題がある。例えば、”録画終
了”と撮影者が音声により動作指示を行った場合、その
音声も収録され再生時に再生されてしまう。このような
撮影者の音声による動作指示が、収録した画像の再生時
に出力されると聞き苦しいという問題があった。特に、
ビデオカメラ本体にマイクを内蔵している場合、被写体
より撮影者の方がマイクとの距離が近いため、撮影者が
発声した音声は被写体が発声した音声に比べて大きな音
量となって収録されてしまう。
【0010】本発明の目的は、このような問題を解決す
ることにある。
【0011】
【課題を解決するための手段】本発明によれば、撮像手
段と、音声入力手段と、前記音声入力手段から入力され
た音声を認識する音声認識手段と、前記音声入力手段か
ら入力された音声が、前記音声認識手段によって、動作
コマンドであると認識された場合に、該音声に対応する
音声データに所定の処理を行う処理手段と、を備えたこ
とを特徴とする撮影装置が提供される。
【0012】また、本発明によれば、画像、及び、音声
を収録するためのデータ処理装置であって、収録する音
声のうち、動作コマンドを示す音声を認識する音声認識
手段と、前記音声認識手段によって、前記動作コマンド
であると認識された音声に対応する音声データに所定の
処理を行う処理手段と、を備えたことを特徴とするデー
タ処理装置が提供される。
【0013】また、本発明によれば、画像、及び、音声
を収録するためのデータ処理方法であって、収録する音
声のうち、動作コマンドを示す音声を認識する音声認識
工程と、前記音声認識工程において、前記動作コマンド
であると認識された音声に対応する音声データに所定の
処理を行う処理工程と、を備えたことを特徴とするデー
タ処理方法が提供される。
【0014】また、本発明によれば、画像、及び、音声
を収録するために、コンピュータに、収録する音声のう
ち、動作コマンドを示す音声を認識する音声認識工程
と、前記音声認識工程において、前記動作コマンドであ
ると認識された音声に対応する音声データに所定の処理
を行う処理工程と、を実行させるプログラムが提供され
る。
【0015】また、本発明によれば、撮像手段と、第1
及び第2音声入力手段と、前記第2音声入力手段から入
力された音声を認識する音声認識手段と、前記第2音声
入力手段から入力された音声の音声データに所定の処理
を行う処理手段と、前記第1音声入力手段から入力され
た音声の音声データと、前記処理手段により処理された
音声データと、を加算する加算手段と、を備え、前記処
理手段は、前記第2音声入力手段から入力された音声の
うち、前記音声認識手段によって、動作コマンドである
と認識された音声に対応する音声データに対しては、第
1の処理を行い、動作コマンドでないと認識された音声
に対応する音声データに対しては、第2の処理を行うこ
とを特徴とする撮影装置が提供される。
【0016】また、本発明によれば、撮像手段と、第1
及び第2音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するためのデータ処理装置であっ
て、前記第2音声入力手段から入力された音声を認識す
る音声認識手段と、前記第2音声入力手段から入力され
た音声の音声データに所定の処理を行う処理手段と、前
記第1音声入力手段から入力された音声の音声データ
と、前記処理手段により処理された音声データと、を加
算する加算手段と、を備え、前記処理手段は、前記第2
音声入力手段から入力された音声のうち、前記音声認識
手段によって、動作コマンドであると認識された音声に
対応する音声データに対しては、第1の処理を行い、動
作コマンドでないと認識された音声に対応する音声デー
タに対しては、第2の処理を行うことを特徴とするデー
タ処理装置が提供される。
【0017】また、本発明によれば、撮像手段と、第1
及び第2音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するためのデータ処理方法であっ
て、前記第2音声入力手段から入力された音声を認識す
る音声認識工程と、前記第2音声入力手段から入力され
た音声の音声データに所定の処理を行う処理工程と、前
記第1音声入力手段から入力された音声の音声データ
と、前記処理工程により処理された音声データと、を加
算する加算工程と、を備え、前記処理工程は、前記第2
音声入力手段から入力された音声のうち、前記音声認識
工程によって、動作コマンドであると認識された音声に
対応する音声データに対しては、第1の処理を行い、動
作コマンドでないと認識された音声に対応する音声デー
タに対しては、第2の処理を行うことを特徴とするデー
タ処理方法が提供される。
【0018】また、本発明によれば、撮像手段と、第1
及び第2音声入力手段と、を備えた撮影装置からの画
像、及び、音声を収録するために、コンピュータに、前
記第2音声入力手段から入力された音声を認識する音声
認識工程と、前記第2音声入力手段から入力された音声
の音声データに所定の処理を行う処理工程と、前記第1
音声入力手段から入力された音声の音声データと、前記
処理工程により処理された音声データと、を加算する加
算工程と、を実行させるプログラムであって、前記処理
工程は、前記第2音声入力手段から入力された音声のう
ち、前記音声認識工程によって、動作コマンドであると
認識された音声に対応する音声データに対しては、第1
の処理を行い、動作コマンドでないと認識された音声に
対応する音声データに対しては、第2の処理を行うこと
を特徴とするプログラムが提供される。
【0019】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図面を参照して説明する。
【0020】<第1実施形態>図1は、本発明の一実施
形態に係るビデオカメラのハードウエア構成を示した図
である。
【0021】CPU101は、ROM102に格納され
たプログラムを実行する中央演算処理装置であり、本実
施形態のビデオカメラ全体の制御を司る。ROM102
には、後述する処理を実行するためのプログラムやデー
タが格納されるメモリである。RAM103は、CPU
101のワークエリアとして機能するメモリである。
【0022】記憶装置104は、本実施形態のビデオカ
メラにより収録された画像や音声のデータが格納される
装置であり、例えば、ハードディスク、或いは、磁気テ
ープメディアやフラッシュRAMなどの不揮発性メモリで
ある。また、この記憶装置104は必ずしもビデオカメ
ラ内に設ける必要は無く、外部に設けて電磁波や光波に
よりデータを送信して格納するようにしてもよい。
【0023】撮像素子106は、画像を電気信号に変換
するセンサであり、例えば、CCD素子などにより構成
される。本実施形態のビデオカメラは、この撮像素子1
06を介して画像を撮影することができる。カメラコン
トローラ105は、レンズの焦点や絞り、或いは、拡大
率の制御等、図示しない光学系要素の制御を司り、撮像
素子106により撮像される画像を調整する。
【0024】A/D変換器107は、撮像素子106か
らの電気信号をCPU101で処理可能なデジタルデー
タに変換する。本実施形態の場合、デジタルデータに変
換された画像データは、RAM103の所定の領域に逐
次格納される。この場合、画像と音声の同期を取るため
の時刻情報も併せて格納することもできる。
【0025】マイク108は、被写体が発声する音声
や、撮影現場の周辺の音を収音し、音声を電気信号に変
換して出力する。本実施形態では、撮影者は音声により
ビデオカメラに対する動作指示、例えば、録画(画像及
び音声の収録)、再生、終了、ズームといった動作指示
(以下、動作コマンドという。)が可能であり、撮影者
が発声した音声による動作コマンドも、このマイク10
8により収音される。A/D変換器109は、マイク1
08からの電気信号をCPU101で処理可能なデジタ
ルデータに変換する。本実施形態の場合、デジタルデー
タに変換された音声データは、RAM103の所定の領
域に逐次格納される。この場合、画像と音声の同期を取
るための時刻情報も併せて格納することもできる。
【0026】音声認識器110は、マイク108により
収音され、A/D変換器109から出力された音声デー
タについて音声認識を行うものであり、本実施形態のビ
デオカメラに対して撮影者が発声した動作コマンドの有
無及び種類を出力する。音声認識方法については、上述
した従来の音声認識技術を採用することができるが、例
えば、各動作コマンドの音声データのサンプルを音声認
識器110又は別のメモリに格納しておき、これとA/
D変換器109からの音声データとを比較することによ
り、各動作コマンドの有無及び種類を判別、出力するよ
うにすることができる。
【0027】また、音声認識器110は、A/D変換器
109から出力される音声データのうち、動作コマンド
として認識した音声に対応する音声データの区間を指し
示す情報、例えば、その音声が発声された開始時刻及び
終了時刻、或いは、その音声データが格納されているR
AM103のアドレス、内部クロックにより計測された
時間等、も各動作コマンドの有無及び種類と共に出力す
る。以下、この情報を音声区間情報という。
【0028】図4は、音声認識器110の入出力の例を
示す図である。図4は、撮影者が“録画(ろくが)”と
動作コマンドを発声した例を示している。音声認識器1
10は、動作コマンドの種類(認識内容)と音声区間情
報とを出力している。図4の例の場合、音声区間情報
は、開始時刻と終了時刻である。
【0029】サウンドI/F(インターフェース)111
は、デジタルの音声データをアナログデータに変換し、
増幅等してスピーカー112へ出力する。スピーカ11
2は、電気信号を空気振動に変換する。これらの構成に
より、記憶装置104に収録された音声の再生出力や警
告音の出力が行われる。
【0030】表示器113は、撮影中の画像や、再生画
像等を表示する装置であり、LCD等のディスプレイと
そのドライバとが含まれる。また、本実施形態のビデオ
カメラの動作を選択するための機能メニューや動作モー
ド等も表示することもできる。操作パネル114は、ス
イッチやつまみ、ボタンなどから構成され、本実施形態
のビデオカメラに対する動作コマンドを手動で行うため
のものである。すなわち、本実施形態においては、動作
コマンドを音声又は手動のいずれかで行うことができ
る。操作パネル114に対する操作情報は、入力I/F
(インターフェース)を介してCPU101に検出され
る。
【0031】次に、本実施形態のビデオカメラで実行さ
れる処理について説明する。図2は、電源を投入してか
らCPU101がROM102に格納されたプログラム
を実行する処理を示すフローチャートである。
【0032】電源を投入するとS201に進み、各種構
成の初期化といった装置全体の初期化処理を行う。S2
02では、撮影者からの動作コマンドがあったか否かを
判定する。上述した通り、本実施形態では、動作コマン
ドを音声又は手動のいずれかで行うことができ、CPU
101は、音声認識器110又は入力I/F115から
の動作コマンドをチェックする。
【0033】動作コマンドがあった場合はS203に進
み、指示された動作コマンドに応じた処理を実行する。
ここでは、動作コマンドの内容に従って、撮影開始や撮
影終了、或いは、撮影条件の変更、若しくは、撮影した
画像の再生等、各種処理を実行する。なお、直ちに処理
を実行できないコマンドの場合は、処理のスケジューリ
ングを行う。スケジューリングされた処理はCPU10
1に割り込み信号を供給することで起動される。なお、
動作コマンドが音声により行われた場合には、その旨及
び音声認識器110から出力される音声区間情報を保存
する。S202で動作コマンドがないと判断した場合に
は、S202を繰り返し動作コマンド待ちとなる。
【0034】S207では、現在、画像及び音声の収録
中(画像の録画及び音声の録音)か否か判断する。収録
中でなければS202に戻る。収録中であればS205
へ進む。
【0035】ここで、収録時の処理について説明する。
図3は、画像及び音声のデータを記憶装置104へ格納
する収録処理を示すフローチャートである。この処理
は、動作コマンドとして録画が指定された場合に実行さ
れる。
【0036】S301では、RAM103に格納された
画像データ及び音声データを、例えば、所定単位毎に読
み出して、それぞれ圧縮符号化する圧縮処理を実行す
る。圧縮の方法としては、例えば、動画符号圧縮に関す
る標準であるMPEG1およびMPEG2などが採用す
ることができる。このようにデータを圧縮して記録すれ
ば、より多くのデータを格納できるため望ましいが、必
ずしも圧縮しなければならないわけではない。
【0037】S302では、S301で圧縮された画像
データ及び音声データを記憶装置104へ格納する。S
303では、撮影者から収録終了が指示されたか否かを
判定し、指示された場合は収録処理を終了し、そうでな
い場合は、S301へ戻って上述した処理を繰り返す。
【0038】なお、画像及び音声の収録に際しては、読
み書き速度を向上させるために、画像と音声の同期を取
って多重化することが望ましい。つまり、これによって
任意の時刻における音声データと画像データとの記憶装
置104上の記憶アドレスの距離が離れ過ぎないように
なり、例えば、記憶装置104としてハードディスクを
用いた場合には、回転するディスクに対して効率的に連
続した読み書きが可能となる。
【0039】図2のフローチャートに戻って、S205
では、S202においてチェックした動作コマンドが音
声によるものか、すなわち音声認識器110により認識
された動作コマンドなのか、入力I/F115を介して
操作パネル114から操作されたものであるのかを判定
する。音声による動作コマンドでなかった場合は、S2
02へ戻り、音声による動作コマンドであった場合には
S206へ進む。
【0040】S206では、RAM103に格納されて
いる音声データに対して所定の処理を行う。詳細には、
保存しておいた音声区間情報を参照して、RAM103
に格納されている音声データのうち、動作コマンドの音
声に対応する音声データに対して所定の処理を行う。
【0041】処理の内容としては、例えば、その音声デ
ータをRAM103から削除する処理である。削除する
ことにより、その後に行われる図3に示した収録処理に
おいて、その音声データは記憶装置104の記憶対象外
となる。また、処理の内容としては、例えば、その音声
データの音量を低減する処理を採用することもできる。
この場合、例えば、音声波形の振幅を縮小するように音
声データを加工する。このように加工することで、その
後に行われる図3に示した収録処理において、その音声
データは元々の音声よりも音量が小さいデータとして記
憶装置104に記憶されることとなる。
【0042】このように音声データを処理することで、
収録した画像及び音声を再生する場合に、撮影者が発声
した動作コマンドが消去されて再生されるか、或いは、
音量が小さくなって再生されるので、再生時の聞き苦し
さを低減することができる。
【0043】なお、本実施形態では、S206の音声デ
ータ処理において、RAM103に格納されている音声
データに対して、すなわち、図3の処理を経て記憶装置
104に格納される前の音声データに対して上述した処
理を行ったが、図3の処理を経て記憶装置104に格納
された音声データに対して上述した処理を行うようにし
てもよい。
【0044】但し、図3の処理を経た音声データは、圧
縮されているため、S206の音声データ処理を行うた
めには、これを元に戻すためのデコード処理が必要とな
る等、処理が複雑化するおそれがあるので、本実施形態
のようにRAM103に格納されている音声データに対
して処理を行うことが望ましい。
【0045】また、本実施形態では、音声認識を音声認
識器110により行ったが、同様の処理を実行する音声
認識プログラムをROM102に格納しておく等してC
PU101が音声認識処理を実行するようにしてもよ
い。
【0046】また、本実施形態では、図3の処理におい
て、画像及び音声データの圧縮処理をCPU101によ
りソフトウエアで行ったが、これらの圧縮処理を行う圧
縮器をハードウエアとして追加し、これに上記圧縮処理
を行わせることでCPU101の負担を軽減してもよ
い。
【0047】また、本実施形態では本発明をビデオカメ
ラに適用した場合を例に挙げて説明したが、本発明はパ
ソコンとビデオカメラとを無線LAN等で通信可能に接
続した構成にも適用することができる。この場合、ビデ
オカメラでは単に画像データと音声データとをパソコン
へ出力するようにしておき、その他の処理、例えば、動
作コマンドの音声認識や、音声データ処理、或いは、画
像及び音声データの収録処理といった図2、図3で示し
た処理をパソコンで実行させるようにしてもよい。
【0048】また、本実施形態では、ビデオカメラに対
する音声による動作コマンドは、人間である撮影者が発
声していることを前提として説明したが、人間以外のも
の、例えば、カチンコやブザーなどの人間以外の音声で
もよく、これも本発明に含まれる。なお、この場合は、
対象とする音声を録音して標本化し、音声と動作コマン
ドとの対応関係を定義しておけばよい。
【0049】<第2実施形態>次に、本発明の第2実施
形態について説明する。図5は、本発明の第2実施形態
に係るビデオカメラのハードウエア構成を示した図であ
る。以下、図1に示した第1実施形態のハードウエア構
成と異なる構成について説明する。特に説明しない構成
については第1実施形態と同じである。
【0050】本実施形態では、被写体が発声する音声
や、撮影現場の周辺の音を収音し、音声を電気信号に変
換して出力するマイクとして、第1マイク108aと第
2マイク108bとの2つのマイクを備え、これに伴
い、2つのA/D変換器109a及び109bを備え
る。
【0051】第1マイク108aは、主として被写体が
発声する音声を収音するためのマイクであり、第2マイ
ク108bは、主として撮影者が発声する動作コマンド
の音声を収音するためのマイクである。従って、例え
ば、第1マイク108aは、被写体方向に指向されて配
置され、第2マイク108bは撮影者方向に指向されて
配置される。尤も、実際には、撮影者が発生する動作コ
マンドの音声は第1マイク108aでも収音され、被写
体が発声する音声は第2マイク108bでも収音されよ
う。
【0052】第2マイク108bは、例えば、ビデオカ
メラから分離可能なタイピン型や骨振動を収音するボー
ンタイプのマイクとしてもよく、撮影者が身に付けるこ
とができるようなものでもよい。
【0053】本実施形態の場合、A/D変換器109a
及び109bを介してデジタルデータに変換された、第
1マイク108a及び第2マイク108bで収音された
音声データは、それぞれ別々にRAM103の所定の領
域に逐次格納される。以下、第1マイク108aで収音
された音声データを第1音声データといい、第2マイク
108bで収音された音声データを第2音声データとい
う。
【0054】また、本実施形態の場合、音声認識器11
0は、第2マイク108bで収音された音声に対して音
声認識を行う。
【0055】次に、本実施形態のビデオカメラで実行さ
れる処理について説明する。図6は、電源を投入してか
らCPU101がROM102に格納されたプログラム
を実行する処理を示すフローチャートである。また、図
7は、画像及び音声のデータを記憶装置104へ格納す
る収録処理を示すフローチャートである。
【0056】本実施形態における処理を概説すると、本
実施形態では、第1マイク108aから収音された第1
音声データと、第2マイク108bから収音された第2
音声データと、を加算し、その音声データを記憶装置1
04へ格納する。この場合、第2音声データについて
は、動作コマンドに対応する音声データと、そうでない
音声データと、を区分けし、それぞれ別の値を乗算した
後に第1音声データと加算する。以下、動作コマンドに
対応する音声データについて乗算する値を第1乗算値と
いい、そうでない音声データについて乗算する値を第2
乗算値という。
【0057】本実施形態の場合、第1乗算値は、第1音
声データと第2音声データとを加算した時に、動作コマ
ンドに対応する撮影者の音声が打ち消しあい、もっとも
小さくなるように設定され、負の値、すなわち、第2音
声データが反転する値をとる。この値は、例えば、撮影
者の一般的な撮影姿勢を想定して求めてもよいし、予備
的な試験等により、撮影者の声のみを第1マイク108
aと第2マイク108bとで収音したときに得られる音
声波形のエネルギーの差から決定してもよい。
【0058】また、第2乗算値は、動作コマンドに対応
しない音声に乗算される値であるので、例えば、撮影者
と被写体との音声の音量バランスが最適になるように設
定することが望ましい。これは、撮影者は動作コマンド
以外の発声、例えば、被写体との会話等も発声すること
を考慮したものである。第2乗算値は、固定の値として
もよいし撮影者が任意に設定できるようにしてもよく、
また、この第2乗算値も負の値、すなわち、第2音声デ
ータが反転する値をとる。
【0059】このように音声データを処理することで、
収録した画像及び音声を再生する場合に、撮影者が発声
した動作コマンドが消去されて再生されるか、或いは、
音量が小さくなって再生されるので、再生時の聞き苦し
さを低減することができる。
【0060】以下、図6及び図7のフローチャートに沿
ってこれらの処理を詳述する。図6において、S601
乃至S605の処理は、上述した図2のS201乃至S
205と同じ処理である。
【0061】S606では、保存しておいた音声区間情
報を参照して、第2音声データに乗算する乗算値を変更
する処理を行う。第2音声データに乗算する乗算値は、
通常、上述した第2乗算値が設定されているが、S60
6では、音声区間情報を参照して、第2音声データのう
ち、動作コマンドの音声に対応する音声データについて
は、第1乗算値へ変更して設定する。
【0062】次に、図7を参照して本実施形態の場合の
画像及び音声の収録時の処理について説明する。
【0063】S701では、第2音声データに乗算する
乗算値を取得する。上述した通り、通常は第2乗算値を
取得することとなるが、S606で乗算値が変更された
部分については、第1乗算値を取得することとなる。
【0064】S702では、RAM103に格納された
第2音声データに対して、S701で取得した乗算値を
乗算する。これにより第2音声データは反転し、また、
乗算値に従って音量の振幅が変更される。
【0065】S703では、S702で乗算値が乗算さ
れた第2音声データと、RAM103に格納された第1
音声データと、を加算する。これにより、両者の絶対値
の差分データが得られ、このデータが記憶対象の音声デ
ータとされる。
【0066】S704乃至S706の処理は、上述した
図3のS301乃至S303と同じ処理である。以上に
より、動作コマンドの音声が消去されるか、或いは、音
量が小さくなった音声データが記憶装置104に格納さ
れるので、収録した画像及び音声を再生する場合に、撮
影者が発声した動作コマンドが消去されて再生される
か、或いは、音量が小さくなって再生され、再生時の聞
き苦しさを低減することができる。
【0067】なお、第1マイク108aと第2マイク1
08bとは、離れて配置されているので、同じ音声を収
音しても音の伝達時間が異なり、音声に時間差が生じる
場合も考えられる。従って、第1音声データと第2音声
データとを加算する場合には、この時間差を考慮して加
算するようにしてもよい。
【0068】また、本実施形態では、乗算値として負の
値をとる場合を想定して説明したが、第2音声データを
一括して反転し、正の値の乗算値を乗算するようにして
もよい。
【0069】また、本実施形態では、第2音声データに
対する乗算値の乗算や、第1音声データと第2音声デー
タとの加算を、CPU101によりソフトウエアで行っ
ているが、乗算器、反転器、加算器等をハードウエアと
して追加することでCPU101の負担を軽減してもよ
い。この場合、RAM103には第1音声データと第2
音声データとを加算して得た音声データを格納するよう
にすることができる。
【0070】また、本実施形態では、音声認識を音声認
識器110により行ったが、同様の処理を実行する音声
認識プログラムをROM102に格納しておく等してC
PU101が音声認識処理を実行するようにしてもよ
い。同様に、本実施形態では、図7の処理において、画
像及び音声データの圧縮処理をCPU101によりソフ
トウエアで行ったが、これらの圧縮処理を行う圧縮器を
ハードウエアとして追加し、これに上記圧縮処理を行わ
せることでCPU101の負担を軽減してもよい。
【0071】また、本実施形態では本発明をビデオカメ
ラに適用した場合を例に挙げて説明したが、本発明はパ
ソコンとビデオカメラとを無線LAN等で通信可能に接
続した構成にも適用することができる。この場合、ビデ
オカメラでは単に画像データと音声データとをパソコン
へ出力するようにしておき、その他の処理、例えば、動
作コマンドの音声認識や、乗算値の変更、或いは、画像
及び音声データの収録処理といった図6、図7で示した
処理をパソコンで実行させるようにしてもよい。
【0072】また、本実施形態では、ビデオカメラに対
する音声による動作コマンドは、人間である撮影者が発
声していることを前提として説明したが、人間以外のも
の、例えば、カチンコやブザーなどの人間以外の音声で
もよく、これも本発明に含まれる。なお、この場合は、
対象とする音声を録音して標本化し、音声と動作コマン
ドとの対応関係を定義しておけばよい。
【0073】<他の実施形態>以上、本発明の好適な実
施の形態について説明したが、本発明の目的は、前述し
た実施形態の機能を実現するソフトウェアのプログラム
を、システムあるいは装置に供給し、そのシステムある
いは装置のコンピュータ(CPUやMPUを含む)がプログラ
ムを読み出し実行することによっても、達成されること
は言うまでもない。
【0074】この場合、そのプログラム自体が前述した
実施形態の機能を実現することになり、そのプログラム
や、そのプログラムを記憶した記憶媒体或いはプログラ
ム製品は、本発明を構成することになる。また、コンピ
ュータが読み出したプログラムコードを実行することに
より、前述した実施形態の機能が実現されるだけでな
く、そのプログラムコードの指示に基づき、コンピュー
タ上で稼働しているオペレーティングシステム(OS)など
が実際の処理の一部または全部を行い、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。
【0075】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0076】
【発明の効果】以上説明した通り、本発明によれば、音
声による指示が、画像や音声と共に収録されることを抑
制することができるので、その再生時における聞き苦し
さが軽減される。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係るビデオカメラのハ
ードウエア構成を示した図である。
【図2】第1実施形態における、電源を投入してからC
PU101がROM102に格納されたプログラムを実
行する処理を示すフローチャートである。
【図3】第1実施形態における、収録処理を示すフロー
チャートである。
【図4】音声認識器110の入出力の例を示す図であ
る。
【図5】本発明の第2実施形態に係るビデオカメラのハ
ードウエア構成を示した図である。
【図6】第2実施形態における、電源を投入してからC
PU101がROM102に格納されたプログラムを実
行する処理を示すフローチャートである。
【図7】第2実施形態における、収録処理を示すフロー
チャートである。

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 撮像手段と、 音声入力手段と、 前記音声入力手段から入力された音声を認識する音声認
    識手段と、 前記音声入力手段から入力された音声が、前記音声認識
    手段によって、動作コマンドであると認識された場合
    に、該音声に対応する音声データに所定の処理を行う処
    理手段と、を備えたことを特徴とする撮影装置。
  2. 【請求項2】 更に、 前記撮像手段により撮像された画像の画像データ及び前
    記音声入力手段から入力された音声の音声データを記憶
    する記憶手段を備えたことを特徴とする請求項1に記載
    の撮影装置。
  3. 【請求項3】 前記所定の処理が、 該音声に対応する音声データを前記記憶手段の記憶対象
    外とする処理であることを特徴とする請求項2に記載の
    撮影装置。
  4. 【請求項4】 前記所定の処理が、 該音声に対応する音声データを、前記記憶手段に記憶す
    る前に削除する処理であることを特徴とする請求項2に
    記載の撮影装置。
  5. 【請求項5】 前記所定の処理が、 該音声に対応する音声データについて、その音量を低減
    するように処理することを特徴とする請求項2に記載の
    撮影装置。
  6. 【請求項6】 前記処理手段は、 前記画像及び前記音声の収録時にのみ、前記音声データ
    を処理することを特徴とする請求項1に記載の撮影装
    置。
  7. 【請求項7】 画像、及び、音声を収録するためのデー
    タ処理装置であって、 収録する音声のうち、動作コマンドを示す音声を認識す
    る音声認識手段と、 前記音声認識手段によって、前記動作コマンドであると
    認識された音声に対応する音声データに所定の処理を行
    う処理手段と、を備えたことを特徴とするデータ処理装
    置。
  8. 【請求項8】 画像、及び、音声を収録するためのデー
    タ処理方法であって、 収録する音声のうち、動作コマンドを示す音声を認識す
    る音声認識工程と、 前記音声認識工程において、前記動作コマンドであると
    認識された音声に対応する音声データに所定の処理を行
    う処理工程と、を備えたことを特徴とするデータ処理方
    法。
  9. 【請求項9】 画像、及び、音声を収録するために、コ
    ンピュータに、 収録する音声のうち、動作コマンドを示す音声を認識す
    る音声認識工程と、 前記音声認識工程において、前記動作コマンドであると
    認識された音声に対応する音声データに所定の処理を行
    う処理工程と、を実行させるプログラム。
  10. 【請求項10】 撮像手段と、 第1及び第2音声入力手段と、 前記第2音声入力手段から入力された音声を認識する音
    声認識手段と、 前記第2音声入力手段から入力された音声の音声データ
    に所定の処理を行う処理手段と、 前記第1音声入力手段から入力された音声の音声データ
    と、前記処理手段により処理された音声データと、を加
    算する加算手段と、を備え、 前記処理手段は、 前記第2音声入力手段から入力された音声のうち、前記
    音声認識手段によって、動作コマンドであると認識され
    た音声に対応する音声データに対しては、第1の処理を
    行い、動作コマンドでないと認識された音声に対応する
    音声データに対しては、第2の処理を行うことを特徴と
    する撮影装置。
  11. 【請求項11】 前記第1の処理が、前記音声データに
    第1の値を乗算する処理であり、前記第2の処理が、前
    記音声データに第2の値を乗算する処理であることを特
    徴とする請求項10に記載の撮影装置。
  12. 【請求項12】 更に、 前記撮像手段により撮像された画像の画像データ及び前
    記加算手段により加算された音声データを記憶する記憶
    手段を備えたことを特徴とする請求項10に記載の撮影
    装置。
  13. 【請求項13】 撮像手段と、第1及び第2音声入力手
    段と、を備えた撮影装置からの画像、及び、音声を収録
    するためのデータ処理装置であって、 前記第2音声入力手段から入力された音声を認識する音
    声認識手段と、 前記第2音声入力手段から入力された音声の音声データ
    に所定の処理を行う処理手段と、 前記第1音声入力手段から入力された音声の音声データ
    と、前記処理手段により処理された音声データと、を加
    算する加算手段と、を備え、 前記処理手段は、 前記第2音声入力手段から入力された音声のうち、前記
    音声認識手段によって、動作コマンドであると認識され
    た音声に対応する音声データに対しては、第1の処理を
    行い、動作コマンドでないと認識された音声に対応する
    音声データに対しては、第2の処理を行うことを特徴と
    するデータ処理装置。
  14. 【請求項14】 撮像手段と、第1及び第2音声入力手
    段と、を備えた撮影装置からの画像、及び、音声を収録
    するためのデータ処理方法であって、 前記第2音声入力手段から入力された音声を認識する音
    声認識工程と、 前記第2音声入力手段から入力された音声の音声データ
    に所定の処理を行う処理工程と、 前記第1音声入力手段から入力された音声の音声データ
    と、前記処理工程により処理された音声データと、を加
    算する加算工程と、を備え、 前記処理工程は、 前記第2音声入力手段から入力された音声のうち、前記
    音声認識工程によって、動作コマンドであると認識され
    た音声に対応する音声データに対しては、第1の処理を
    行い、動作コマンドでないと認識された音声に対応する
    音声データに対しては、第2の処理を行うことを特徴と
    するデータ処理方法。
  15. 【請求項15】 撮像手段と、第1及び第2音声入力手
    段と、を備えた撮影装置からの画像、及び、音声を収録
    するために、コンピュータに、 前記第2音声入力手段から入力された音声を認識する音
    声認識工程と、 前記第2音声入力手段から入力された音声の音声データ
    に所定の処理を行う処理工程と、 前記第1音声入力手段から入力された音声の音声データ
    と、前記処理工程により処理された音声データと、を加
    算する加算工程と、を実行させるプログラムであって、 前記処理工程は、 前記第2音声入力手段から入力された音声のうち、前記
    音声認識工程によって、動作コマンドであると認識され
    た音声に対応する音声データに対しては、第1の処理を
    行い、動作コマンドでないと認識された音声に対応する
    音声データに対しては、第2の処理を行うことを特徴と
    するプログラム。
JP2002102585A 2002-04-04 2002-04-04 撮影装置、データ処理装置及び方法、プログラム Withdrawn JP2003298916A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002102585A JP2003298916A (ja) 2002-04-04 2002-04-04 撮影装置、データ処理装置及び方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002102585A JP2003298916A (ja) 2002-04-04 2002-04-04 撮影装置、データ処理装置及び方法、プログラム

Publications (1)

Publication Number Publication Date
JP2003298916A true JP2003298916A (ja) 2003-10-17

Family

ID=29388986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002102585A Withdrawn JP2003298916A (ja) 2002-04-04 2002-04-04 撮影装置、データ処理装置及び方法、プログラム

Country Status (1)

Country Link
JP (1) JP2003298916A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009290456A (ja) * 2008-05-28 2009-12-10 Sanyo Electric Co Ltd 音声記録装置及び音声再生装置
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
CN109257544A (zh) * 2017-07-14 2019-01-22 卡西欧计算机株式会社 图像记录装置、图像记录方法以及记录介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP2009290456A (ja) * 2008-05-28 2009-12-10 Sanyo Electric Co Ltd 音声記録装置及び音声再生装置
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
CN109257544A (zh) * 2017-07-14 2019-01-22 卡西欧计算机株式会社 图像记录装置、图像记录方法以及记录介质
JP2019022039A (ja) * 2017-07-14 2019-02-07 カシオ計算機株式会社 画像記録装置、画像記録方法及びプログラム
US10616479B2 (en) 2017-07-14 2020-04-07 Casio Computer Co., Ltd. Image recording apparatus, image recording method, and computer-readable storage medium

Similar Documents

Publication Publication Date Title
CN110970057B (zh) 一种声音处理方法、装置与设备
CN101841649B (zh) 记录带声音的静止图像的数字照相机
JP4441879B2 (ja) 信号処理装置および方法、プログラム、並びに記録媒体
JP5247384B2 (ja) 撮像装置、情報処理方法、プログラムおよび記憶媒体
JP2006287749A (ja) 撮像装置、及びその制御方法
KR101739942B1 (ko) 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치
JP2006287387A (ja) 撮像装置、音声記録方法及びプログラム
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP2004080788A (ja) カメラおよびカメラにおけるノイズを低減する方法
CN104580888A (zh) 一种图像处理方法及终端
JP2008053802A (ja) 記録装置、ノイズ除去方法、ノイズ除去装置
JP5392827B2 (ja) 音データ処理装置
JP4429081B2 (ja) 情報処理装置及び情報処理方法
JP2003298916A (ja) 撮影装置、データ処理装置及び方法、プログラム
JP2013179585A (ja) 音処理装置および音処理プログラム
JP2011139306A (ja) 撮像装置及び再生装置
CN115942108A (zh) 一种视频处理方法及电子设备
CN104079822B (zh) 摄像装置、信号处理装置及方法
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP5171369B2 (ja) 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
WO2021020197A1 (ja) 映像生成方法
JP4295540B2 (ja) 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JP2000155595A (ja) 撮像装置
JP3238816B2 (ja) 撮像装置
JP2003078879A (ja) 記録再生装置、記録装置、再生装置、これらの制御方法、プログラム及びビデオカメラ

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050607