JP7483421B2 - 撮像装置、制御方法、及びプログラム - Google Patents

撮像装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7483421B2
JP7483421B2 JP2020043327A JP2020043327A JP7483421B2 JP 7483421 B2 JP7483421 B2 JP 7483421B2 JP 2020043327 A JP2020043327 A JP 2020043327A JP 2020043327 A JP2020043327 A JP 2020043327A JP 7483421 B2 JP7483421 B2 JP 7483421B2
Authority
JP
Japan
Prior art keywords
video
word
recording
control unit
system control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020043327A
Other languages
English (en)
Other versions
JP2021145256A (ja
Inventor
清登 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020043327A priority Critical patent/JP7483421B2/ja
Priority to US17/191,149 priority patent/US11570349B2/en
Priority to CN202110266795.0A priority patent/CN113395443A/zh
Publication of JP2021145256A publication Critical patent/JP2021145256A/ja
Application granted granted Critical
Publication of JP7483421B2 publication Critical patent/JP7483421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、音声に基づいて動作を制御する撮像装置、制御方法、及びプログラムに関する。
深層学習に基づいた自然言語処理(NLP)の技術革新によって音声認識の技術が発達している。結果として、ユーザが発した音声をより精度良く認識できるようになり、音声入力による機器制御の需要が向上している。
特許文献1は、制御用音声が入力された直前の位置まで記録手段を巻き戻すことによって、制御用音声が記録手段に記録されることを防止する技術を開示する。
特開2001-203974号公報
特許文献1(特に、巻き戻し制御に関する部分)においては、録画停止を指示する制御用音声に基づく制御が説明されており、複数の制御用音声を用いる構成は想定されていない。例えば、複数の制御用音声が存在する構成に特許文献1の技術を適用する場合、いずれの制御用音声に基づいて巻き戻し処理を実行すべきかは、特許文献1の内容から明らかでない。
以上の事情に鑑み、本発明は、不要な制御用音声を動画から適切に排除可能な撮像装置、制御方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の撮像装置は、動画を取得する撮像手段と、音声を集音する音声入力手段と、前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御する制御手段と、を有し、前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合、前記制御手段は、前記動画の記録を停止すると共に、前記ウェイクワードの開始時刻までの動画データを動画ファイルとして記録させる、ことを特徴とする。
本発明によれば、不要な制御音声を動画から適切に排除可能である。
本発明の実施形態に係る撮像装置の一例としてのデジタルカメラの外観図である。 本発明の実施形態に係るデジタルカメラの機能的構成を示すブロック図である。 本発明の実施形態におけるメイン処理を示すフローチャートである。 本発明の実施形態における初期化処理を示すフローチャートである。 本発明の実施形態における設定変更処理を示すフローチャートである。 本発明の実施形態における設定変更処理を示すフローチャートである。 本発明の実施形態における設定変更画面の一例を示す説明図である。 本発明の実施形態における音声入力処理を示すフローチャートである。 本発明の実施形態における音声入力処理を示すフローチャートである。 本発明の実施形態における動画編集処理を示すフローチャートである。
以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。例えば、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。
図1は、本発明の実施形態に係る撮像装置の一例としてのデジタルカメラ100の外観図である。デジタルカメラ100は、表示部28、モード切替スイッチ60、シャッターボタン61、操作部70、電源スイッチ72、コントローラホイール73、コネクタ112、記録媒体スロット201、及び蓋202を有する。
表示部28は、撮像画像や各種情報を表示する表示手段であって、例えば、液晶ディスプレイによって構成される。
モード切替スイッチ60は、動画撮影モード、静止画撮影モード等の種々のモードを切り替える操作部材である。
シャッターボタン61は、デジタルカメラ100に対して動画、静止画等の画像の撮影を指示する操作部材である。
操作部70は、ユーザからの種々の操作を受け付ける操作部材であって、スイッチ、ボタン、表示部28と一体に構成されるタッチパネル等を含む。コントローラホイール73は、ユーザからの回転操作を受け付ける操作部材である。
モード切替スイッチ60、シャッターボタン61、操作部70、及びコントローラホイール73が、本実施形態に係る操作手段を構成する。
電源スイッチ72は、デジタルカメラ100の電源オン状態と電源オフ状態とを切り替える操作部材である。
コネクタ112は、デジタルカメラ100と接続ケーブル111とを接続する要素である。接続ケーブル111は、パーソナルコンピュータ、プリンタ等の外部機器とデジタルカメラ100とを接続する要素である。
記録媒体スロット201は、メモリカード、ハードディスク等の記録媒体200を格納する構造である。記録媒体スロット201に格納された記録媒体200は、記録媒体スロット201の端子を介してデジタルカメラ100と電気的に接続されて通信可能となる。結果として、記録媒体200に対するデータの記録や記録媒体200からのデータの読み出しが可能となる。
蓋202は、閉状態において記録媒体スロット201に格納された記録媒体200を覆う構造である。図1において、蓋202は開状態にあり、記録媒体スロット201から記録媒体200の一部が露出している。
図2は、本実施形態に係るデジタルカメラ100の構成を示すブロック図である。以下、デジタルカメラ100に設けられている要素についてそれぞれ説明する。
システム制御部50は、例えば、CPU(Central Processing Unit)等の1以上のプロセッサを用いて構成され、デジタルカメラ100に含まれる複数の要素の動作を統合的に制御する。
不揮発性メモリ56は、不揮発性であり電気的に記録及び消去が可能な記憶媒体であって、例えばEEPROM(Electrically Erasable Programmable Read-Only Memory)によって構成される。不揮発性メモリ56は、システム制御部50によって用いられる動作用の値(定数、変数等)及び制御用のプログラムを格納している。
システムメモリ52は、揮発性の記憶媒体であって、例えばRAM(Random Access Memory)によって構成される。システムメモリ52は、システム制御部50が使用する動作用の値(定数、変数等)が記憶されプログラムが展開されるワーキングメモリとして機能する。
フローチャート等を参照して後述される本実施形態の種々の処理は、システム制御部50が有する1以上のプロセッサが、不揮発性メモリ56に格納されているプログラムをシステムメモリ52に展開して実行することによって実現される。なお、本実施形態の種々の処理の少なくとも一部が、システム制御部50による制御の下、システム制御部50以外の要素によって実現されてもよい。
撮影レンズ103は、ズームレンズ及びフォーカスレンズを含むレンズ群である。図示の簡単のため、図2では模式的に1枚のレンズで撮影レンズ103が表現されている。シャッター101は、システム制御部50に制御されて開閉するフォーカルプレーンシャッターである。撮像部22は、CCD素子やCMOS素子によって構成される撮像素子であって、撮像面に結像した被写体の光学像を電気信号に変換してA/D変換器23に出力する。A/D変換器23は、撮像部22から出力される電気信号(アナログ信号)をデジタル信号(画像データ)に変換して、メモリ制御部15及び画像処理部24の少なくともいずれかに出力する。
撮像部22は、撮影レンズ103及びシャッター101と共に撮像手段を構成する。バリア102は、以上の撮像手段を覆うことによって汚れや破損を防止する。
画像処理部24は、A/D変換器23又はメモリ制御部15から供給されるデジタル信号(画像データ)に対して種々の画像処理(画素補間処理、リサイズ処理、色変換処理等)を実行する集積回路である。画像処理部24は、撮像された画像データに基づいて種々の演算処理を実行する。システム制御部50は、以上の演算処理の結果に基づいて、露光制御処理及び測距制御処理を実行することができる。以上の制御処理によって、TTL(Through-The-Lens)方式のAF処理、AE処理、EF処理(フラッシュプリ発光処理)が実現される。また、画像処理部24は、以上の演算処理の結果に基づいて、TTL方式のオートホワイトバランス(AWB)処理を実行できる。
メモリ32は、撮像部22にて取得されA/D変換器23によってデジタル信号に変換された画像データ、表示部28に表示すべき画像データ等のデータを記憶する記憶媒体である。A/D変換器23から出力された画像データは、画像処理部24の処理後にメモリ制御部15を介して、又は、直接的にメモリ制御部15を介して、メモリ32に書き込まれる。メモリ32は、所定枚数の静止画や所定時間に亘る動画及び音声を格納するのに十分な容量を有している。メモリ32は、画像表示用のビデオメモリとしても機能する。
D/A変換器13は、メモリ32に格納されている画像表示用のデータをアナログ信号に変換して表示部28に供給する。
表示部28は、液晶ディスプレイ等の表示器を有しており、メモリ32に書き込まれD/A変換器13を介して供給された表示用の画像データ(アナログ信号)を表示器に表示する。表示部28は、撮像部22、A/D変換器23、メモリ制御部15、メモリ32、D/A変換器13等を介して逐次的に供給される画像データを表示することによって、スルー画像を継続的に表示する電子ビューファインダーとして機能する。すなわち、デジタルカメラ100は、撮像手段を用いた逐次的な撮影によって取得される撮像画像を表示部28に表示することで、ライブビュー表示(LV表示)を実現できる。以上のライブビュー表示による画像を「LV画像」と称することがある。
システム制御部50は、上述したメモリ32、D/A変換器19、表示部28等の表示関連要素を制御することによって表示制御を実現する。
システムタイマー53は、種々の制御に用いられるタイミング生成部であると共に不図示の内蔵時計の時間を計測する計時部である。システム制御部50は、システムタイマー53が生成するタイミングに基づいて各部の動作を制御する。
前述したように、モード切替スイッチ60、シャッターボタン61、操作部70(後述されるタッチパネル70aを含む)、及びコントローラホイール73が、本実施形態に係る操作手段を構成する。以上の操作手段は、システム制御部50に対して各種の動作指示を入力する。
モード切替スイッチ60は、種々の動作モードを切り替えるのに用いられる。以上の動作モードには、静止画を取得する静止画モード、動画を取得する動画モード、及び静止画・動画を再生する再生モードが含まれる。静止画モードは、オート撮影モード、オートシーン判別モード、マニュアルモード、絞り優先モード(Avモード)、シャッター速度優先モード(Tvモード)、撮影シーン別の撮影設定となる各種シーンモード、プログラムAEモード、カスタムモードを含む。同様に、動画撮影モードにも、以上のような複数のモードが含まれる。ユーザがモード切替スイッチ60を操作することによって、以上のいずれかのモードが直接的に選択される。また、モード切替スイッチ60の操作によって表示されたモード一覧画面から、後述されるタッチパネル70a等の他の操作部材を用いてモードが選択されてもよい。
シャッターボタン61は、押下操作の途中で(すなわち、半押しによって)ON状態となる第1シャッタースイッチ62と、押下操作の完了によって(すなわち、全押しによって)ON状態となる第2シャッタースイッチ64とを含む。第1シャッタースイッチ62がON状態になると、第1シャッタースイッチ信号SW1が出力され、AF処理、AE処理、AWB処理、EF処理等の撮影準備動作の開始がシステム制御部50に指示される。一方、第2シャッタースイッチ64がON状態になると、第2シャッタースイッチ信号SW2が出力され、信号読出し処理、現像処理、圧縮・伸長処理、データ書込み処理等の一連の撮影動作の開始がシステム制御部50に指示される。
操作部70は、前述したように複数の操作部材を有する。各操作部材に対しては、場面ごとに相異なる複数の機能を割り当てることができる。すなわち、各操作部材は、押下によって場面に応じた機能をトリガする機能ボタンとして機能し得る。機能の割当ては、例えば、設定画面において表示部28に表示される種々の機能アイコンを選択することによって行われる。以上の機能ボタンとして、終了ボタン、戻りボタン、画像送りボタン、ジャンプボタン、絞り込みボタン、属性変更ボタン、動画記録ボタンが非限定的に例示される。メニューボタンが押下されると、各種の設定を行うためのメニュー画面が表示部28に表示される。ユーザは、表示部28に表示されたメニュー画面と、十字キー及びSETボタンとを用いて直感的に各種の設定を指示することができる。
コントローラホイール73は、選択項目の指示等に対応するユーザの回転操作を検出する操作部材であって、例えば、回転操作の操作量に応じて回転してパルス信号を出力するダイヤル部材である。システム制御部50は、以上のパルス信号によって特定した回転操作の角度や回転した数に基づいてデジタルカメラ100の各部を制御する。なお、コントローラホイール73が、自身は回転せずに回転動作によるユーザの指の動きを検出して信号を出力するタッチセンサを有するタッチホイール部材であってもよい。
電源部30は、デジタルカメラ100に電源を供給する要素であって、一次電池(アルカリ電池、リチウム電池等)、二次電池(NiCd電池、NiMH電池、Li電池等)、及びACアダプタの少なくともいずれかによって構成される。電源制御部80は、電池検出回路、DC-DCコンバータ、通電するブロックを切り替えるスイッチ回路等により構成されている。電源制御部80は、電池が装着されているか否か、装着されている電池の種別、及び電池残量を検出することができる。電源制御部80は、以上の検出結果及びシステム制御部50からの指示に基づいてDC-DCコンバータを制御し、所要の電圧を所要の期間に亘ってデジタルカメラ100の各部(記録媒体200を含む)の各部に供給する。
記録媒体I/F18は、デジタルカメラ100に接続可能な記録媒体200との接続インタフェースである。記録媒体200は、デジタルカメラ100にて取得された画像や動画を記録するメモリカード等の外部記録媒体であって、半導体メモリ、磁気ディスク等の記憶素子から構成される。システム制御部50は、後述される本実施形態の処理に従って取得された動画を、記録媒体I/F18を介して記録媒体200に記録できる。
通信部54は、有線又は無線によってデジタルカメラ100と他の装置とを接続し、映像信号や音声信号等の信号を送受信する通信インタフェースであって、無線LANやインターネット等のネットワークにも接続できる。通信部54は、デジタルカメラ100で取得された静止画及び動画(LV画像を含む)、並びに記録媒体200に記録されている静止画及び動画を外部に送信でき、外部機器から画像及び各種の情報を受信できる。
姿勢検知部55は、重力方向におけるデジタルカメラ100の姿勢を検知し、姿勢情報をシステム制御部50に出力する。姿勢検知部55は、例えば、加速度センサーやジャイロセンサーを用いて構成される。システム制御部50は、姿勢検知部55からの姿勢情報に対応する向き情報を画像に添付したり、姿勢情報に基づいて画像の向きを変換して記録したりすることができる。画像に添付された向き情報は、その画像を撮影した時点におけるデジタルカメラ100の向き(横構え又は縦構え)を示す情報である。
操作部70は、操作部材として、表示部28に対するユーザの接触操作を検知するタッチパネル70aを有する。タッチパネル70aは、表示部28の表示面に取り付けられるように一体的に構成される。タッチパネル70aの光の透過率は、表示部28による表示を妨げない値に設定されると好適である。タッチパネル70aの入力座標と表示部28の表示座標とを対応付けることによって、ユーザが表示部28による表示画面を直接的に操作できるようなGUI(Graphical User Interface)が提供される。システム制御部50は、タッチパネル70aから入力される入力座標に基づいて、タッチパネル70aに対する以下のようなタッチ操作を検出できる。
-タッチダウン:指やペン等の接触体が、タッチパネル70aに対する接触を開始したこと
-タッチオン:接触体が、動かずにタッチパネル70aに接触している状態であること
-タッチムーブ:接触体が、タッチパネル70aに接触したまま移動していること
-タッチアップ:タッチパネル70aに接触していた接触体が、タッチパネル70aから離れたこと
-タッチオフ:接触体が、タッチパネル70aに接触していないこと
タッチダウンが検出されると、同時にタッチオンも検出される。タッチダウンの後、タッチアップが検出されない限り、通常はタッチオンが検出され続ける。タッチムーブは、タッチオンが検出されている状態において検出される。タッチオンが検出されていても、タッチ位置が移動していなければタッチムーブは検出されない。タッチしていた全ての接触帯がタッチアップしたことが検出された後、タッチオフが検出される。
音声入力部90は、マイクロフォンによって集音された音を電気信号(音信号)に変換して、システム制御部50に出力する。システム制御部50は、入力された音信号を音データとして動画と共に記録できる他、入力された音信号を音声入力(音声による操作指示)に用いることができる。音声入力処理について以下に説明する。
システム制御部50は、任意の好適な音声認識アルゴリズムを用いて、入力された音信号からユーザ音声以外の音を除去し、音声言語の最小単位である音素を抽出し、抽出された音素に基づいて文字を認識する。なお、システム制御部50は、さらに、認識された複数の文字に基づいて単語を認識してもよい。システム制御部50は、以上の音声認識で取得された複数の文字の組合せ、単語、又は単語の組合せが、ウェイクワード又は制御ワードに該当するか否かを判定する。
ウェイクワードに該当すると判定された場合、システム制御部50は、制御ワードを受付可能な状態(後述される「制御用音声入力有効状態」)に遷移する。以上の状態において制御ワードが音声入力部90を介して入力されると、システム制御部50は、入力された制御ワードに対応する制御動作を実行する。システム制御部50は、例えば、制御ワードに応じて動画記録を開始したり停止したりすることができる。なお、ウェイクワード及び制御ワードは、「制御関連ワード」と総称されることがある。
なお、以上の音声認識(音素解析や単語解析)は、デジタルカメラ100以外の装置で行われてもよい。例えば、音声入力部90を介して入力された音信号を、システム制御部50が通信部54を介して外部装置に供給し、外部装置が音声認識を実行して、その認識結果をデジタルカメラ100に返送してもよい。
図3は、本発明の実施形態におけるメイン処理を示すフローチャートである。本実施形態のメイン処理は、デジタルカメラ100の電源投入後に実行される処理であって、ユーザ音声の認識、音声操作による動画記録の開始及び停止、並びに動画データ編集を含む一連の処理である。前述したように、本フローは、システム制御部50が有する1以上のプロセッサが、不揮発性メモリ56に格納されているプログラムをシステムメモリ52に展開して実行することによって実現される。
ステップS301において、システム制御部50は初期化処理を実行する。本ステップの初期化処理については図4を参照して後に詳述される。
ステップS302において、システム制御部50は、操作手段に対するユーザ操作によって設定変更が指示されているか否かを判定する。設定変更は、「動画記録停止のウェイクワード」の登録又は削除、「動画記録停止の制御ワード」の登録又は削除、「動画編集設定」の変更、及び「動画編集方法」の変更を含む概念である。設定変更が指示されている場合(S302:YES)、システム制御部50は処理をステップS303の設定変更処理(図5)に進める。一方、設定変更が指示されていない場合(S302:NO)、システム制御部50は処理をステップS304の音声入力処理(図7)に進める。
ステップS303において、システム制御部50は設定変更処理を実行する。本ステップの設定変更処理については図5及び図6を参照して後に詳述される。
ステップS304において、システム制御部50は音声入力処理を実行する。本ステップの音声入力処理については図7を参照して後に詳述される。
ステップS305において、システム制御部50は、電源スイッチ72に対する押下等の操作によってメイン処理の終了が指示されているか否かを判定する。処理終了が指示されている場合(S305:YES)、システム制御部50は処理をステップS306に進める。一方、処理終了が指示されていない場合(S305:NO)、システム制御部50は処理をステップS302に戻す。
ステップS306において、システム制御部50は、設定値を不揮発性メモリ56に記憶してメイン処理を終了する。設定値は、「動画記録停止のウェイクワード」、「動画記録停止の制御ワード」、「動画編集設定」、及び「動画編集方法」を示す値である。
図4は、図3のステップS301の初期化処理の詳細を示すフローチャートである。概略的には、本処理では、音声入力及び動画編集の設定値に関する初期化(システムメモリ52の初期化)が実行される。
ステップS401において、システム制御部50は、システムメモリ52内の「音声入力の受付状態」を示す箇所(領域)に「制御用音声入力無効状態」を設定する。ここで、不揮発性メモリ56内の「音声入力の受付状態」を示す箇所に設定値が記憶されている場合、システム制御部50は、その設定値をシステムメモリ52内の「音声入力の受付状態」を示す箇所に設定する。
ステップS402において、システム制御部50は、システムメモリ52内の「動画記録停止のウェイクワード」を示す箇所をクリアする。ここで、不揮発性メモリ56内の「動画記録停止のウェイクワード」を示す箇所に設定値が記憶されている場合、システム制御部50は、その設定値をシステムメモリ52内の「動画記録停止のウェイクワード」を示す箇所に設定する。
ステップS403において、システム制御部50は、システムメモリ52内の「動画記録停止の制御ワード」を示す箇所をクリアする。ここで、不揮発性メモリ56内の「動画記録停止の制御ワード」を示す箇所に設定値が記憶されている場合、システム制御部50は、その設定値をシステムメモリ52内の「動画記録停止の制御ワード」を示す箇所に設定する。
ステップS404において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所を「編集しない」に設定する。ここで、不揮発性メモリ56内の「動画編集設定」を示す箇所に設定値が記憶されている場合、システム制御部50は、その設定値をシステムメモリ52内の「動画編集設定」を示す箇所に設定する。
ステップS405において、システム制御部50は、システムメモリ52内の「動画編集方法」を示す箇所を「自動削除」に設定する。ここで、不揮発性メモリ56内の「動画編集方法」を示す箇所に設定値が記憶されている場合、システム制御部50は、その設定値をシステムメモリ52内の「動画編集方法」を示す箇所に設定する。
ステップS406において、システム制御部50は、システムメモリ52内の「音素の文字と時間値」を示す箇所をクリアする。
ステップS407において、システム制御部50は、システムメモリ52内の「単語解析結果」を示す箇所をクリアする。
図5は、図3のステップS303の設定変更処理の詳細を示すフローチャートである。図6は、設定変更画面を例示する説明図である。本処理では、ユーザからの指示入力に従って音声入力及び動画編集に関する設定が変更される。概略的には、本処理では、動画記録処理に関する音声入力設定であるウェイクワード及び制御ワードが、ユーザからの指示に基づいて変更される。
ステップS501において、システム制御部50は、ユーザによる操作手段への操作が、「動画記録停止の音声入力」に関する変更指示であるか否かを判定する。ステップS501の判定が肯定的(YES)である場合、システム制御部50は処理をステップS502に進めると共に、図6(a)に示す設定変更画面を表示部28に表示させる。図6(a)に示す設定変更画面には、「動画記録停止のウェイクワード」を入力可能なテキストボックス801、「動画記録停止の制御ワード」を入力可能なテキストボックス802、及びOKボタン803が含まれる。一方、ステップS501の判定が否定的(NO)である場合、システム制御部50は処理をステップS516に進める。
ステップS502において、システム制御部50は、「動画記録停止のウェイクワード」がユーザに入力されたか否かを判定する。より具体的には、テキストボックス801にウェイクワードを示す文字列が入力された状態でOKボタン803がタッチされると、システム制御部50は、「動画記録停止のウェイクワード」が入力されたと判定する(S502:YES)。他方、テキストボックス801が空白の状態でOKボタン803がタッチされると、システム制御部50は、「動画記録停止のウェイクワード」が入力されなかったと判定する(S502:NO)。ステップS502の判定が肯定的(YES)である場合、システム制御部50は処理をステップS503に進め、ステップS502の判定が否定的(NO)である場合、システム制御部50は処理をステップS504に進める。
ステップS503において、システム制御部50は、ユーザが入力した「動画記録停止のウェイクワード」を、システムメモリ52内の「動画記録停止のウェイクワード」を示す箇所に記憶する(すなわち、登録する)。システム制御部50は、「動画記録停止のウェイクワード」を文字列として記憶してもよいし単語として記憶してもよい。「動画記録停止のウェイクワード」が単語として記憶される場合、システム制御部50が入力文字列に対して単語解析を行ってもよいし、ユーザが入力時に単語の切れ目を特定してもよい。
ステップS504において、システム制御部50は、システムメモリ52内の「動画記録停止のウェイクワード」を示す箇所をクリアする。
ステップS505において、システム制御部50は、「動画記録停止の制御ワード」がユーザに入力されたか否かを判定する。より具体的には、テキストボックス802に制御ワードを示す文字列が入力された状態でOKボタン803がタッチされると、システム制御部50は、「動画記録停止の制御ワード」が入力されたと判定する(S505:YES)。他方、テキストボックス802が空白の状態でOKボタン803がタッチされると、システム制御部50は、「動画記録停止の制御ワード」が入力されなかったと判定する(S505:NO)。ステップS505の判定が肯定的(YES)である場合、システム制御部50は処理をステップS506に進め、ステップS505の判定が否定的(NO)である場合、システム制御部50は処理をステップS507に進める。
ステップS506において、システム制御部50は、ユーザが入力した「動画記録停止の制御ワード」を、システムメモリ52内の「動画記録停止の制御ワード」を示す箇所に記憶する(すなわち、登録する)。システム制御部50は、「動画記録停止の制御ワード」を文字列として記憶してもよいし単語として記憶してもよい。「動画記録停止の制御ワード」が単語として記憶される場合の解析についてはステップS503と同様である。
ステップS507において、システム制御部50は、システムメモリ52内の「動画記録停止の制御ワード」を示す箇所をクリアする。
ステップS508において、システム制御部50は、システムメモリ52に「動画記録停止のウェイクワード」が記録されているか否かを判定する。ステップS508の判定が肯定的(YES)である場合、システム制御部50は処理をステップS511に進め、ステップS508の判定が否定的(NO)である場合、システム制御部50は処理をステップS509に進める。
ステップS509において、システム制御部50は、図6(b)に示す設定変更画面を表示部28に表示させ、「動画編集設定」を「動画記録停止のウェイクワードの前まで」に変更する指示がなされたか否かを判定する。より具体的には、図6(b)に示す設定変更画面の「ウェイクワードの前まで」を示すチェックボックス804がチェックされた状態でYESボタン805がタッチされると、システム制御部50は、ステップS509の判定が肯定的(YES)であると判定する。他方、図6(b)に示す設定変更画面の「ウェイクワードの前まで」を示すチェックボックス804がチェックされた状態でNOボタン806がタッチされると、システム制御部50は、ステップS509の判定が否定的(NO)であると判定する。ステップS509の判定が肯定的(YES)である場合、システム制御部50は処理をステップS510に進め、ステップS509の判定が否定的(NO)である場合、システム制御部50は処理をステップS516に進める。なお、ステップS509において、「ウェイクワードの前まで」を示すチェックボックス804が、チェックされた状態で変更不可能であるように表示されると好適である。
ステップS510において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「動画記録停止のウェイクワードの前まで」を設定し、処理をステップS516に進める。
ステップS511において、システム制御部50は、システムメモリ52に「動画記録停止の制御ワード」が記録されているか否かを判定する。ステップS511の判定が肯定的(YES)である場合、システム制御部50は処理をステップS514に進め、ステップS511の判定が否定的(NO)である場合、システム制御部50は処理をステップS512に進める。
ステップS512において、システム制御部50は、「動画編集設定」を「動画記録停止の制御ワードの前まで」に変更する指示がなされたか否かを判定する。ステップS512の判定が肯定的(YES)である場合、システム制御部50は処理をステップS513に進め、ステップS512の判定が否定的(NO)である場合、システム制御部50は処理をステップS516に進める。
ステップS513において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「動画記録停止の制御ワードの前まで」を設定し、処理をステップS516に進める。
ステップS514において、システム制御部50は、「動画編集設定」を「編集しない」に変更する指示がなされたか否かを判定する。ステップS514の判定が肯定的(YES)である場合、システム制御部50は処理をステップS515に進め、ステップS514の判定が否定的(NO)である場合、システム制御部50は処理をステップS516に進める。
ステップS515において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「編集しない」を設定し、処理をステップS516に進める。
ステップS516において、システム制御部50は、ユーザによる操作手段への操作が、「動画編集設定」に関する変更指示であるか否かを判定する。ステップS516の判定が肯定的(YES)である場合、システム制御部50は処理をステップS517に進めると共に、図6(c)に示す設定変更画面を表示部28に表示させる。図6(c)に示す設定変更画面には、「ウェイクワードの前まで」を示すチェックボックス807及びOKボタン808等の要素が含まれる。一方、ステップS516の判定が否定的(NO)である場合、システム制御部50は処理をステップS522に進める。
ステップS517において、システム制御部50は、「動画編集設定」を「動画記録停止のウェイクワードの前まで」に変更する指示がなされたか否かを判定する。より具体的には、チェックボックス807がチェックされた状態でOKボタン808がタッチされると、システム制御部50は、「動画記録停止のウェイクワードの前まで」に変更する指示がなされたと判定する(S517:YES)。ステップS517の判定が肯定的(YES)である場合、システム制御部50は処理をステップS518に進め、ステップS517の判定が否定的(NO)である場合、システム制御部50は処理をステップS519に進める。なお、図6(c)に示す設定変更画面において、複数のチェックボックスのうち最後にチェックされたもののみがチェックされると好適である。
ステップS518において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「動画記録停止のウェイクワードの前まで」を設定し、処理をステップS522に進める。
ステップS519において、システム制御部50は、「動画編集設定」を「動画記録停止の制御ワードの前まで」に変更する指示がなされたか否かを判定する。より具体的には、「動画停止ワードの前まで」を示すチェックボックスがチェックされた状態でOKボタン808がタッチされると、システム制御部50は、「動画記録停止の制御ワードの前まで」に変更する指示がなされたと判定する(S519:YES)。ステップS519の判定が肯定的(YES)である場合、システム制御部50は処理をステップS520に進め、ステップS519の判定が否定的(NO)である場合、システム制御部50は処理をステップS521に進める。
ステップS520において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「動画記録停止の制御ワードの前まで」を設定し、処理をステップS522に進める。
ステップS521において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所に「編集しない」を設定し、処理をステップS522に進める。
ステップS522において、システム制御部50は、ユーザによる操作手段への操作が、「動画編集方法」に関する変更指示であるか否かを判定する。ステップS522の判定が肯定的(YES)である場合、システム制御部50は処理をステップS523に進めると共に、図6(d)に示す設定変更画面を表示部28に表示させる。図6(d)に示す設定変更画面には、「自動削除」を示すチェックボックス809及びOKボタン810等の要素が含まれる。一方、ステップS522の判定が否定的(NO)である場合、システム制御部50は本フローの設定変更処理を終了する。
ステップS523において、システム制御部50は、「動画編集方法」を「自動削除」に変更する指示がなされたか否かを判定する。より具体的には、チェックボックス809がチェックされた状態でOKボタン810がタッチされると、システム制御部50は、「動画編集方法」を「自動削除」に変更する指示がなされたと判定する(S523:YES)。ステップS523の判定が肯定的(YES)である場合、システム制御部50は処理をステップS524に進め、ステップS523の判定が否定的(NO)である場合、システム制御部50は処理をステップS525に進める。なお、図6(d)に示す設定変更画面において、複数のチェックボックスのうち最後にチェックされたもののみがチェックされると好適である。
ステップS524において、システム制御部50は、システムメモリ52内の「動画編集方法」を示す箇所に「自動削除」を設定し、本フローの設定変更処理を終了する。
ステップS525において、システム制御部50は、システムメモリ52内の「動画編集方法」を示す箇所に「情報付与」を設定し、本フローの設定変更処理を終了する。
図7は、図3のステップS304の音声入力処理の詳細を示すフローチャートである。概略的には、本処理では、入力された音信号が解析され、解析結果に基づいて動画記録の開始及び停止が制御される。図3のフローチャートから明らかなように、メイン処理が実行されている間、図7の音声入力処理が繰り返して実行される。なお、本処理に含まれる各ステップにおいて、任意の好適な音声認識アルゴリズムを用いることができる。
ステップS701において、システム制御部50は、マイクロフォン及び音声入力部90を通して音信号が入力されているか否かを判定する。ステップS701の判定が肯定的(YES)である場合、システム制御部50は処理をステップS702に進め、ステップS701の判定が否定的(NO)である場合、システム制御部50は処理をステップS724に進める。
ステップS702において、システム制御部50は、入力された音信号からユーザ音声以外の音を除去する。
ステップS703において、システム制御部50は、ステップS702にてノイズ除去された音信号に対して、文字に相当する音声の最小単位波形である音素を抽出する音素解析を実行する。
ステップS704において、システム制御部50は、ステップS703における音素解析の結果に基づいて、入力された音信号に音素(文字に可換な音)が存在するか否かを判定する。ステップS704の判定が肯定的(YES)である場合、システム制御部50は処理をステップS705に進め、ステップS704の判定が否定的(NO)である場合、システム制御部50は処理をステップS724に進める。
ステップS705において、システム制御部50は、ステップS703における音素解析の結果に基づいて、取得された複数の音素の各々に関する波形開始の時間値及び対応する文字を、テーブルとしてシステムメモリ52に記憶する。
ステップS706において、システム制御部50は、ステップS705においてシステムメモリ52に格納された音信号に対応する文字に対して単語解析を行う。単語解析の結果はシステムメモリ52に記憶されてよい。
ステップS707において、システム制御部50は、システムメモリ52内の「音声入力の受付状態」を示す箇所が「制御用音声入力有効状態」を示すか否かを判定する。ステップS707の判定が肯定的(YES)である場合、システム制御部50は処理をステップS713に進め、ステップS707の判定が否定的(NO)である場合、システム制御部50は処理をステップS708に進める。
ステップS708において、システム制御部50は、音声認識で取得された複数の文字の組合せ、単語、又は単語の組合せが、ウェイクワードに該当するか否かを判定する。ステップS708の判定が肯定的(YES)である場合、システム制御部50は処理をステップS709に進め、ステップS708の判定が否定的(NO)である場合、システム制御部50は処理をステップS724に進める。
ここで、ステップS708において、システム制御部50は、ステップS705にて取得された文字を結合した文字列に基づいて判定してもよいし、ステップS706の単語解析の結果として取得された単語(又は単語の組合せ)に基づいて判定してもよい。なお、システムメモリ52に「動画記録停止のウェイクワード」が記憶され、かつ動画記録中である場合、システム制御部50は、「動画記録停止のウェイクワード」もステップS708の判定におけるウェイクワードとして用いることができる。
ステップS709において、システム制御部50は、ステップS708の判定に係る文字又は単語(ウェイクワード)に相当する音信号に含まれる最初の音素が開始する時間値を、ウェイクワード開始時刻Xとしてシステムメモリ52に記憶する。システム制御部50は、ステップS705において記憶された音素及び時間値を示すテーブルから、本ステップの必要情報を読み出すことができる。
ステップS710において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る音素の文字及び時間値のデータをクリアする。
ステップS711において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る単語情報のデータをクリアする。
ステップS712において、システム制御部50は、システムメモリ52内の「音声入力の受付状態」を「制御用音声入力有効状態」に遷移させ、処理をステップS724に進める。
ステップS713において、システム制御部50は、音声認識で取得された複数の文字の組合せ、単語、又は単語の組合せが、動画記録開始を示す制御ワードに該当するか否かを判定する。ステップS713の判定が肯定的(YES)である場合、システム制御部50は処理をステップS714に進め、ステップS713の判定が否定的(NO)である場合、システム制御部50は処理をステップS718に進める。
ここで、ステップS713において、システム制御部50は、ステップS705にて取得された文字を結合した文字列に基づいて判定してもよいし、ステップS706の単語解析の結果として取得された単語(又は単語の組合せ)に基づいて判定してもよい。
ステップS714において、システム制御部50は、動画記録を開始する処理を実行し、処理をステップS715に進める。
ステップS715において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る音素の文字及び時間値のデータをクリアする。
ステップS716において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る単語情報のデータをクリアする。
ステップS717において、システム制御部50は、システムメモリ52内の「音声入力の受付状態」を「制御用音声入力無効状態」に遷移させる。ステップS717が終了すると、システム制御部50は処理をステップS724に進める。
ステップS718において、システム制御部50は、音声認識で取得された複数の文字の組合せ、単語、又は単語の組合せが、動画記録停止を示す制御ワードに該当するか否かを判定する。ステップS718の判定が肯定的(YES)である場合、システム制御部50は処理をステップS719に進め、ステップS718の判定が否定的(NO)である場合、システム制御部50は処理をステップS722に進める。
ここで、ステップS718において、システム制御部50は、ステップS705にて取得された文字を結合した文字列に基づいて判定してもよいし、ステップS706の単語解析の結果として取得された単語(又は単語の組合せ)に基づいて判定してもよい。なお、システムメモリ52に「動画記録停止の制御ワード」が記憶され、かつ動画記録中である場合、システム制御部50は、「動画記録停止の制御ワード」もステップS718の判定における制御ワードとして用いることができる。
ステップS719において、システム制御部50は、ステップS718の判定に係る文字又は単語(動画記録停止の制御ワード)に相当する音信号に含まれる最初の音素が開始する時間値を、制御ワード開始時刻Yとしてシステムメモリ52に記憶する。システム制御部50は、ステップS705において記憶された音素及び時間値を示すテーブルから、本ステップの必要情報を読み出すことができる。
ステップS720において、システム制御部50は、動画記録を停止する処理を実行する。
ステップS721において、システム制御部50は、動画データを編集する処理を実行し、処理をステップS715に進める。本ステップの動画編集処理については図8を参照して後に詳述される。
ステップS722において、システム制御部50は、音声認識で取得された複数の文字の組合せ、単語、又は単語の組合せが、その他の制御ワードに該当するか否かを判定する。ステップS722の判定が肯定的(YES)である場合、システム制御部50は処理をステップS723に進め、ステップS722の判定が否定的(NO)である場合、システム制御部50は処理をステップS724に進める。
ここで、ステップS722において、システム制御部50は、ステップS705にて取得された文字を結合した文字列に基づいて判定してもよいし、ステップS706の単語解析の結果として取得された単語(又は単語の組合せ)に基づいて判定してもよい。
ステップS723において、システム制御部50は、ステップS722の判定に係るその他の制御ワードに基づいた処理を実行し、処理をステップS715に進める。
ステップS724において、システム制御部50は、ステップS704における音素の存在判定が、一定時間以上に亘って継続的に否定的(NO)であるか否かを判定する。一定時間以上に亘って継続的に音素が存在していない場合、システム制御部50は処理をステップS725に進め、一定時間未満において音素が存在したことがある場合、システム制御部50は本フローの音声入力処理を終了する。
ステップS725において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る音素の文字及び時間値のデータをクリアする。
ステップS726において、システム制御部50は、システムメモリ52に記憶されている、今回の処理に係る単語情報のデータをクリアする。
ステップS727において、システム制御部50は、システムメモリ52内の「音声入力の受付状態」を「制御用音声入力無効状態」に遷移させる。ステップS727が終了すると、システム制御部50は、今回の本フローの音声入力処理を終了する。
図8は、図7のステップS721の動画編集処理の詳細を示すフローチャートである。概略的には、本処理では、制御関連ワードの開始時刻までの動画データを動画ファイルとして切り出す、又は、制御関連ワードの開始時刻を示す参照情報を動画データに付与する。
ステップS801において、システム制御部50は、システムメモリ52内の「動画編集方法」を示す箇所が「自動削除」を示すか否かを判定する。ステップS801の判定が肯定的(YES)である場合、システム制御部50は処理をステップS802に進め、ステップS801の判定が否定的(NO)である場合、システム制御部50は処理をステップS806に進める。
ステップS802において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所が「動画記録停止のウェイクワードの前まで」を示すか否かを判定する。ステップS802の判定が肯定的(YES)である場合、システム制御部50は処理をステップS803に進め、ステップS802の判定が否定的(NO)である場合、システム制御部50は処理をステップS804に進める。
ステップS803において、システム制御部50は、ステップS720にて停止した動画記録処理に係る動画データのうち、システムメモリ52内のウェイクワード開始時刻Xまでのデータを動画ファイルとして切り出し、記録媒体200に記録する。
ステップS804において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所が「動画記録停止の制御ワードの前まで」を示すか否かを判定する。ステップS804の判定が肯定的(YES)である場合、システム制御部50は処理をステップS805に進め、ステップS804の判定が否定的(NO)である場合、システム制御部50は本フローの動画編集処理を終了する。
ステップS805において、システム制御部50は、ステップS720にて停止した動画記録処理に係る動画データのうち、システムメモリ52内の制御ワード開始時刻Yまでのデータを動画ファイルとして切り出し、記録媒体200に記録する。
ステップS806において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所が「動画記録停止のウェイクワードの前まで」を示すか否かを判定する。ステップS806の判定が肯定的(YES)である場合、システム制御部50は処理をステップS807に進め、ステップS806の判定が否定的(NO)である場合、システム制御部50は処理をステップS808に進める。
ステップS807において、システム制御部50は、ステップS720にて停止した動画記録処理に係る動画データ内のウェイクワード開始時刻Xに対応するフレームに、ウェイクワード開始時刻Xを示す参照情報を付与して、記録媒体200に記録する。ユーザは、ウェイクワード開始時刻Xを示す参照情報が付与されたフレーム以降の動画データを、以上の参照情報に基づいて動画ファイルから後に削除することができる。
ステップS808において、システム制御部50は、システムメモリ52内の「動画編集設定」を示す箇所が「動画記録停止の制御ワードの前まで」を示すか否かを判定する。ステップS808の判定が肯定的(YES)である場合、システム制御部50は処理をステップS809に進め、ステップS808の判定が否定的(NO)である場合、システム制御部50は本フローの動画編集処理を終了する。
ステップS809において、システム制御部50は、ステップS720にて停止した動画記録処理に係る動画データ内の制御ワード開始時刻Yに対応するフレームに、制御ワード開始時刻Yを示す参照情報を付与して、記録媒体200に記録する。ユーザは、制御ワード開始時刻Yを示す参照情報が付与されたフレーム以降の動画データを、以上の参照情報に基づいて動画ファイルから後に削除することができる。
上記した本実施形態の構成によれば、不要な制御音声を動画から適切に排除可能である。制御関連ワード(ウェイクワード又は制御ワード)の開始時刻までの動画データを動画ファイルとして記録する構成によれば、制御関連ワードの音声が動画ファイルから適切に排除できる。また、制御関連ワードの開始時刻に対応する動画データ内のフレームに参照情報を付与して動画データを動画ファイルとして記録する構成によれば、参照情報が示すフレーム以降に含まれる制御関連ワードの音声を含む部分を動画ファイルから容易に排除できる。加えて、動画データの記録範囲や参照情報の付与箇所をユーザが切り替えられる構成によれば、ユーザが所望する部分を動画ファイルに残すことが容易になる。
<その他の実施形態>
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施形態及び以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
システム制御部50が、図7及び図8の音声関連処理において、ニューラルネットワークを用いた音声認識処理を実行してもよい。この場合、例えば制御関連ワードの音声を入力とし、そのワードに対応する処理の識別情報を教師データとしてニューラルネットワークを学習させることで生成した学習済みモデルを構築する。例えば「動画ストップ」などの音声を入力とし、対応する処理として動画の記録を停止する処理の識別情報を教師データとして学習する。以上の音声認識処理において、入力された音信号に制御関連ワード(ウェイクワード又は制御ワード)が含まれる確率がニューラルネットワークから出力されてよい。システム制御部50は、以上の確率に基づいて動画編集を実行することができる。例えば、システム制御部50は、確率が所定閾値以上である場合、制御関連ワードの開始時刻X,Yまでのデータを動画ファイルとして切り出し、確率が所定閾値未満である場合、制御関連ワードの開始時刻X,Yに対応するフレームに参照情報を付与してよい。以上の構成によれば、制御関連ワードが含まれる確率が高い場合には自動的に不要部分が削除されるので、ユーザの利便性が高まる。他方、制御関連ワードが含まれる確率がそれ程高くない場合には、自動削除が実行されずに参照情報が付与されるので、誤った削除が抑制される上、参照情報による後からの削除処理もユーザにとって容易である。
なお、ニューラルネットワークで構築された学習済みモデルの実行にはある程度のマシンパワーが必要となる。そこで、例えばニューラルネットワークをインターネット経由で接続したサーバで実行するようにしてもよい。すなわち、デジタルカメラ100は、入力される音声を、例えばWi-Fiを介して所定のサーバにアップロードし、サーバが音声認識を実行する。そして、認識結果として出力される処理の識別情報をダウンロードする。このようにすることで、システム制御部50の処理速度が不足していても学習モデルによる実装が可能となる。
また、音声認識はユーザが話しかけてくるというシーンで利用されるため、ユーザによる発声から処理の実行までの時間はできるだけ短いほうが好ましい。そこで、ウェイクワードの認識はデジタルカメラ100で実行し、ウェイクワードに続く音声コマンドの認識はサーバで実行するようにしてもよい。このようにすることで、サーバにアップロードするデータ量を減らすことができるため、アップロードに要する時間を短縮することができる。なお、ウェイクワードがあらかじめ定められたものであればニューラルネットワークの層は、音声コマンドの認識をするニューラルネットワークに比べて少なく抑えられる。そのため、デジタルカメラ100でニューラルネットワークで構築された学習済みモデルを実行することが可能なように実装することが可能である。
以上の実施形態においては、システム制御部50が種々の制御処理を実行している。以上の制御処理は、単一のハードウェアによって実行されてもよいし、複数のハードウェア(例えば、複数のプロセッサ又は回路)によって分担して実行されてもよい。
以上の実施形態においては、本発明に係る撮像装置としてデジタルカメラ100が例示されている。しかしながら、本発明は、撮像手段及び音声入力手段を有する任意の機器に適用できる。例えば、本発明を、パーソナルコンピュータ、PDA、携帯電話端末、ゲーム機、音声認識装置等の機器に適用することが可能である。
以上、本発明の好ましい実施の形態について説明したが、本発明は上述した実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、本発明は、上述の実施の形態の1以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
22 撮像部(撮像手段)
50 システム制御部(制御手段)
90 音声入力部(音声入力手段)
100 デジタルカメラ(撮像装置)
101 シャッター(撮像手段)
103 撮影レンズ(撮像手段)

Claims (15)

  1. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御する制御手段と、を備え、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合、前記制御手段は、前記動画の記録を停止すると共に、前記ウェイクワードの開始時刻までの動画データを動画ファイルとして記録させる、ことを特徴とする撮像装置。
  2. 前記動画の記録停止のためのウェイクワードをユーザが設定でき、
    前記ウェイクワードの前記開始時刻までの前記動画データを前記動画ファイルとして記録させる設定と、前記制御ワードの前記開始時刻までの前記動画データを前記動画ファイルとして記録させる設定とを、前記ユーザが切り替えられる、ことを特徴とする請求項1に記載の撮像装置。
  3. 前記動画の記録停止のためのウェイクワード及び前記制御ワードをユーザが設定でき、
    前記ウェイクワードの前記開始時刻までの前記動画データを前記動画ファイルとして記録させる設定と、前記動画の記録が停止された時刻までの前記動画データを前記動画ファイルとして記録させる設定とを、前記ユーザが切り替えられる、ことを特徴とする請求項1に記載の撮像装置。
  4. 前記ウェイクワードの前記開始時刻までの前記動画データを前記動画ファイルとして記録させる設定と、前記制御ワードの前記開始時刻までの前記動画データを前記動画ファイルとして記録させる設定と、前記動画の記録が停止された時刻までの前記動画データを前記動画ファイルとして記録させる設定とを、ユーザが切り替えられる、ことを特徴とする請求項1に記載の撮像装置。
  5. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御する制御手段と、を備え、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合、前記制御手段は、前記動画の記録を停止すると共に、前記ウェイクワードの開始時刻に対応する動画データ内のフレームに参照情報を付与して、動画データを動画ファイルとして記録させる、ことを特徴とする撮像装置。
  6. 前記動画の記録停止のためのウェイクワードをユーザが設定でき、
    前記ウェイクワードの前記開始時刻に対応する前記フレームに前記参照情報を付与した前記動画データを前記動画ファイルとして記録させる設定と、前記制御ワードの前記開始時刻に対応する前記フレームに前記参照情報を付与した前記動画データを前記動画ファイルとして記録させる設定とを、前記ユーザが切り替えられる、ことを特徴とする請求項5に記載の撮像装置。
  7. 前記動画の記録停止のためのウェイクワード及び前記制御ワードをユーザが設定でき、
    前記ウェイクワードの前記開始時刻に対応する前記フレームに前記参照情報を付与した前記動画データを前記動画ファイルとして記録させる設定と、前記動画データに前記参照情報を付与せずに前記動画ファイルとして記録させる設定とを、前記ユーザが切り替えられる、ことを特徴とする請求項5に記載の撮像装置。
  8. 前記ウェイクワードの前記開始時刻に対応する前記フレームに前記参照情報を付与した前記動画データを前記動画ファイルとして記録させる設定と、前記制御ワードの前記開始時刻に対応する前記フレームに前記参照情報を付与した前記動画データを前記動画ファイルとして記録させる設定と、前記動画データに前記参照情報を付与せずに前記動画ファイルとして記録させる設定とを、ユーザが切り替えられる、ことを特徴とする請求項5に記載の撮像装置。
  9. 前記制御手段は、前記開始時刻を示す前記参照情報が付与された前記フレーム以降の前記動画データを前記動画ファイルから削除する、ことを特徴とする請求項5から請求項8のいずれか1項に記載の撮像装置。
  10. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御する制御手段と、を備え、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合に、前記動画の記録を停止すると共に前記ウェイクワードの開始時刻までの動画データを動画ファイルとして記録させる設定と、前記動画の記録を停止すると共に前記ウェイクワードの開始時刻に対応する動画データ内のフレームに参照情報を付与して動画データを動画ファイルとして記録させる設定とを、ユーザが切り替えられる、ことを特徴とする撮像装置。
  11. 前記制御手段は、前記音声入力手段を介して前記ウェイクワードが入力されると前記制御ワードを受付可能な状態に遷移する、ことを特徴とする請求項1から請求項10のいずれか1項に記載の撮像装置。
  12. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、を備える撮像装置の制御方法であって、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御することと、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合、前記動画の記録を停止すると共に、前記ウェイクワードの開始時刻までの動画データを動画ファイルとして記録させることと、を備えることを特徴とする制御方法。
  13. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、を備える撮像装置の制御方法であって、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御することと、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合、前記動画の記録を停止すると共に、前記ウェイクワードの開始時刻に対応する動画データ内のフレームに参照情報を付与して、動画データを動画ファイルとして記録させることと、を備えること特徴とする制御方法。
  14. 動画を取得する撮像手段と、
    音声を集音する音声入力手段と、を備える撮像装置の制御方法であって、
    前記音声入力手段が集音した前記音声に含まれるウェイクワード及び制御ワードに基づいて前記動画の記録を制御することと、
    前記動画の記録を停止することを指示する前記制御ワードが前記音声に含まれる場合に、前記動画の記録を停止すると共に前記ウェイクワードの開始時刻までの動画データを動画ファイルとして記録させる設定と、前記動画の記録を停止すると共に前記ウェイクワードの開始時刻に対応する動画データ内のフレームに参照情報を付与して動画データを動画ファイルとして記録させる設定とを切り替えることと、を備えること特徴とする制御方法。
  15. コンピュータを、請求項1乃至11のいずれか1項に記載された撮像装置の各手段として機能させるためのプログラム。
JP2020043327A 2020-03-12 2020-03-12 撮像装置、制御方法、及びプログラム Active JP7483421B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020043327A JP7483421B2 (ja) 2020-03-12 2020-03-12 撮像装置、制御方法、及びプログラム
US17/191,149 US11570349B2 (en) 2020-03-12 2021-03-03 Image pickup apparatus that controls operations based on voice, control method, and storage medium
CN202110266795.0A CN113395443A (zh) 2020-03-12 2021-03-11 基于语音来控制操作的摄像设备、控制方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020043327A JP7483421B2 (ja) 2020-03-12 2020-03-12 撮像装置、制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021145256A JP2021145256A (ja) 2021-09-24
JP7483421B2 true JP7483421B2 (ja) 2024-05-15

Family

ID=77617487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020043327A Active JP7483421B2 (ja) 2020-03-12 2020-03-12 撮像装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US11570349B2 (ja)
JP (1) JP7483421B2 (ja)
CN (1) CN113395443A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230402068A1 (en) * 2022-06-10 2023-12-14 Lemon Inc. Voice-controlled content creation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027396A (ja) 2000-07-10 2002-01-25 Matsushita Electric Ind Co Ltd 付加情報入力方法および映像編集方法並びに当該方法を用いる装置およびシステム
WO2019032462A1 (en) 2017-08-07 2019-02-14 Sonos, Inc. REMOVAL OF AWAKENING WORD DETECTION
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019113636A (ja) 2017-12-22 2019-07-11 オンキヨー株式会社 音声認識システム
JP2020030739A (ja) 2018-08-24 2020-02-27 キヤノン株式会社 通信装置、その制御方法、およびそのプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001203974A (ja) * 2000-01-19 2001-07-27 Matsushita Electric Ind Co Ltd 音声制御型音声映像記録装置及び音声制御方法
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002027396A (ja) 2000-07-10 2002-01-25 Matsushita Electric Ind Co Ltd 付加情報入力方法および映像編集方法並びに当該方法を用いる装置およびシステム
WO2019032462A1 (en) 2017-08-07 2019-02-14 Sonos, Inc. REMOVAL OF AWAKENING WORD DETECTION
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019113636A (ja) 2017-12-22 2019-07-11 オンキヨー株式会社 音声認識システム
JP2020030739A (ja) 2018-08-24 2020-02-27 キヤノン株式会社 通信装置、その制御方法、およびそのプログラム

Also Published As

Publication number Publication date
US20210289123A1 (en) 2021-09-16
US11570349B2 (en) 2023-01-31
JP2021145256A (ja) 2021-09-24
CN113395443A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN104754208B (zh) 电子装置及其控制方法
JP7129294B2 (ja) 電子機器および領域選択方法
JP6494215B2 (ja) 電子機器、その制御方法およびプログラム
JP7483421B2 (ja) 撮像装置、制御方法、及びプログラム
JP4916403B2 (ja) 画像処理装置及びその制御方法
JP6180285B2 (ja) 撮像装置、撮像方法、及びプログラム
JP4498169B2 (ja) 画像処理装置及びその制御方法
JP4682097B2 (ja) 撮像装置及びその制御方法及びプログラム及び記憶媒体
US11954935B2 (en) Electronic device improved in object detection performance, image capturing apparatus, method of controlling electronic device, and storage medium
JP7463071B2 (ja) 電子機器および電子機器の制御方法
JP7532052B2 (ja) 撮像装置およびその制御方法
JP7482640B2 (ja) 音声入力装置およびその制御方法ならびにプログラム
JP4810485B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP6407017B2 (ja) 表示制御装置およびその制御方法
JP7098495B2 (ja) 画像処理装置及びその制御方法
JP5893341B2 (ja) 表示制御装置、表示制御装置の制御方法およびプログラム
JP6742833B2 (ja) 情報処理装置及び情報処理方法
JP2020057845A (ja) 編集装置、その制御方法、及びプログラム
JP4701297B2 (ja) 画像処理装置、方法および記録媒体
US20230396731A1 (en) Image reproduction apparatus, control method thereof, and storage medium
JP7086722B2 (ja) 表示制御装置およびその制御方法
JP4721417B2 (ja) 撮像装置およびその制御方法
JP2016082276A (ja) 撮像装置
CN117176887A (zh) 图像再现设备及其控制方法和存储介质
JP2013219502A (ja) 画像再生装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240501

R150 Certificate of patent or registration of utility model

Ref document number: 7483421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150