JP2022183848A - Speech recognition device, display device, and control method and program and storage medium therefor - Google Patents
Speech recognition device, display device, and control method and program and storage medium therefor Download PDFInfo
- Publication number
- JP2022183848A JP2022183848A JP2021091349A JP2021091349A JP2022183848A JP 2022183848 A JP2022183848 A JP 2022183848A JP 2021091349 A JP2021091349 A JP 2021091349A JP 2021091349 A JP2021091349 A JP 2021091349A JP 2022183848 A JP2022183848 A JP 2022183848A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- input
- command
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000035945 sensitivity Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 16
- 238000006073 displacement reaction Methods 0.000 claims description 10
- 238000003384 imaging method Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004091 panning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Telescopes (AREA)
Abstract
Description
本発明は、音声認識装置、音声認識装置を有する表示装置、それらの制御方法、プログラム、および記憶媒体に関する。 The present invention relates to a speech recognition device, a display device having the speech recognition device, a control method thereof, a program, and a storage medium.
望遠カメラと、望遠カメラで撮像した画像を表示する表示部とを備える電子双眼鏡がある。電子双眼鏡では、画像の他、音声を録音することもある。望遠カメラで観察する被写体に関する音声を取得するため、特定の方向に強い感度を有する(指向性を有する)マイクを用いることがある。強い指向性を有するマイクを使用する代わりに、複数のマイクを用いたビームフォーミング技術を用いて、特定の方向からの音声を取得する方法がある。 2. Description of the Related Art Electronic binoculars include a telephoto camera and a display unit that displays an image captured by the telephoto camera. Electronic binoculars sometimes record sound in addition to images. A microphone that has strong sensitivity in a specific direction (has directivity) is sometimes used to capture the sound of an object observed with a telephoto camera. Instead of using microphones with strong directivity, there is a method of acquiring sound from a specific direction using beamforming technology using multiple microphones.
特許文献1は、複数のマイクを用いたビームフォーミング制御を開示する。特許文献1には、さらに、深度センサーを用いて被写体までの距離を測定し、ビームフォーミング対象がないときは、指向性を制御しないことで、音声の誤認識を防ぐ方法について記述されている。 Patent Literature 1 discloses beamforming control using a plurality of microphones. Patent Document 1 further describes a method of measuring the distance to a subject using a depth sensor and not controlling the directivity when there is no beamforming target, thereby preventing erroneous recognition of voice.
また、音声を入力可能である場合に、ユーザー(観察者)が、音声認識処理を用いてハンズフリーで電子双眼鏡の制御を指示することも可能となる。 In addition, when voice can be input, the user (observer) can use voice recognition processing to give hands-free instructions to control the electronic binoculars.
しかしながら、上述の特許文献に開示された従来技術では、被写体がビームフォーミングの対象となる範囲に存在する場合は、特定の方向でない方向からの音声に対する感度が低下してしまう。この時、電子双眼鏡の近傍のユーザーが音声認識処理による操作のための発話(操作コマンドの入力)を行っても、特定の方向でない方向からの音声に対する感度が低下していることから、適切に音声認識処理が実行されないことがあった。 However, in the conventional technology disclosed in the above-mentioned patent document, when the subject exists in the beamforming target range, the sensitivity to sound coming from a direction other than a specific direction decreases. At this time, even if the user near the electronic binoculars utters an utterance (input of an operation command) for operation by voice recognition processing, since the sensitivity to voice from a direction other than a specific direction has decreased, Voice recognition processing was not executed in some cases.
そこで、本発明は、特定の方向に対して感度を高めて音声を取得している状態であっても、音声認識制御のための操作コマンドの入力を可能とする音声認識装置、表示装置、それらの制御方法、プログラム、および記憶媒体を提供することを目的とする。 Accordingly, the present invention provides a speech recognition device, a display device, and the like that enable input of an operation command for speech recognition control even in a state in which speech is being acquired with increased sensitivity in a specific direction. The object is to provide a control method, a program, and a storage medium for
本発明にかかる音声認識装置の一の形態は、複数の音声入力手段から得られた複数の音声データに基づいて特定の方向から入力される音声を、他の方向から入力される音声よりも高い感度で取得可能なビームフォーミング制御を実行する制御手段と、前記複数の音声入力手段から得られた音声データがあらかじめ定められたコマンドに対応する場合に、当該コマンドに対応する制御信号を出力する音声認識手段と、を有し、前記音声認識手段は、前記ビームフォーミング制御が有効であって、前記複数の音声入力手段から入力された複数の音声データが所定の条件を満たす場合に、前記複数の音声データが前記あらかじめ定められたコマンドに対応するか否かを判定することを特徴とする。 One form of the speech recognition device according to the present invention is to make speech input from a specific direction higher than speech input from other directions based on a plurality of speech data obtained from a plurality of speech input means. Control means for executing beamforming control that can be obtained with sensitivity; and voice for outputting a control signal corresponding to a command when voice data obtained from the plurality of voice input means corresponds to a predetermined command. and a recognition means, wherein the voice recognition means recognizes the plurality of voice data input from the plurality of voice input means when the beamforming control is effective and the plurality of voice data input from the plurality of voice input means satisfies a predetermined condition. It is characterized by determining whether or not the voice data corresponds to the predetermined command.
本発明にかかる音声認識装置、表示装置、それらの制御方法、プログラム、および記憶媒体によれば、特定の方向に対して感度を高めて音声を取得している状態であっても、音声認識制御のための操作コマンドの入力が可能となる。 According to the speech recognition device, the display device, the control method thereof, the program, and the storage medium according to the present invention, even in a state in which speech is being acquired with increased sensitivity in a specific direction, speech recognition control can be performed. It becomes possible to input an operation command for
以下に、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。本実施形態において、音声認識装置および音声認識装置を備える表示装置として、望遠カメラと、望遠カメラで撮像した画像を表示する表示部とを備える電子双眼鏡を例示する。なお、本発明を適用する装置は、上記に限らない。複数の集音装置(マイク)の入力を用いて特定の方向に対して強い指向性を持つ音声入力が可能であり、音声認識による機器制御を実行可能な装置であれば、本発明の適用が可能である。例えば、パーソナルコンピューター(PC)、タブレット、スマートフォン、およびテレビなどの機器にも適用可能である。 Preferred embodiments of the present invention are described in detail below with reference to the accompanying drawings. In this embodiment, electronic binoculars including a telephoto camera and a display section for displaying an image captured by the telephoto camera are exemplified as a speech recognition device and a display device including the speech recognition device. In addition, the apparatus to which the present invention is applied is not limited to the above. The present invention can be applied to any device capable of inputting voice with strong directivity in a specific direction using inputs from a plurality of sound collectors (microphones) and capable of executing device control by voice recognition. It is possible. For example, it is also applicable to devices such as personal computers (PCs), tablets, smartphones, and televisions.
以下、図1~図6を用いて、本実施形態における電子双眼鏡100による制御を説明する。本実施形態において、電子双眼鏡100を使用しているユーザーが所望の被写体を観察し、音声認識により電子双眼鏡100を制御するシーンを想定している。 Control by the electronic binoculars 100 according to the present embodiment will be described below with reference to FIGS. 1 to 6. FIG. In this embodiment, a scene is assumed in which a user using the electronic binoculars 100 observes a desired subject and controls the electronic binoculars 100 by voice recognition.
図1は、電子双眼鏡100が実行する音声認識を実施するためのフローチャートである。図2は、電子双眼鏡100の外観図である。図2(a)は、電子双眼鏡100を前方側から見た場合の外観斜視図である。図2(b)は、電子双眼鏡100を後方側から見た外観斜視図である。 FIG. 1 is a flow chart for voice recognition performed by the electronic binoculars 100 . FIG. 2 is an external view of the electronic binoculars 100. As shown in FIG. FIG. 2A is an external perspective view of the electronic binoculars 100 as seen from the front side. FIG. 2B is an external perspective view of the electronic binoculars 100 as seen from the rear side.
図2に示すように、電子双眼鏡100は、カメラ101、右眼用ディスプレイ102、左眼用ディスプレイ103、パンニング部104、チルト部105、ジャイロセンサー106、操作部材107およびフレーム110を有する。さらに電子双眼鏡100は、加速度センサー203、および音声入力部301~304を有する。
As shown in FIG. 2 , electronic binoculars 100 have
カメラ101は、観察対象を撮影する撮像装置である。図2(a)中の矢印で示すように、パンニング部104およびチルト部105を駆動することにより、パン方向、チルト方向に回動可能である。パンニング部104、チルト部105は内臓されたアクチュエータによって駆動する。カメラ部101は、焦点距離を100mmと400mm(35mmフルサイズ換算での焦点距離)の2段階をユーザー操作により切り替えて使用することが出来る。焦点距離の切り替えや、電子双眼鏡の電源ON/OFFなどの操作は、操作部材108を介してユーザーが行う。また、頭の振れを検出するためのジャイロセンサー106が備えられている。焦点距離400mmのときは、光学ズームと電子ズームを併用して撮影する。
A
カメラ101によって撮影された画像(以下、撮影画像)がユーザー設定の画角に合わせて表示範囲を切り出され、ユーザーが観察する表示画像が生成される。生成された表示画像は、リアルタイムに表示部であるディスプレイ102、103に表示される。
An image captured by the camera 101 (hereinafter referred to as a captured image) is cut out in a display range according to the angle of view set by the user, and a display image that the user observes is generated. The generated display image is displayed on
カメラ101は、オートフォーカス機能を有し、観察範囲内に含まれる観察対象に関して、自動的に合焦する。ピント調整で駆動する不図示のフォーカシングレンズの停止位置によって、ピントが合う被写体距離は一意に決まる。したがって、予めこの関係をシステム内に保持しておくと、オートフォーカスで停止したフォーカシングレンズの停止位置から、被写体距離を検出することが出来る。すなわち、カメラ101は、被写体距離を検出する機能も有する。
The
図3は、電子双眼鏡100のブロック図である。CPU201は、電子双眼鏡の各部を制御するプロセッサである。CPU201は、カメラ101、右眼用ディスプレイ102、左眼用ディスプレイ103、ジャイロセンサー106、操作部材107、およびカメラ回動制御機構202を制御する。また、CPU201は、加速度センサー203、音声処理部305を制御する。
FIG. 3 is a block diagram of the electronic binoculars 100. As shown in FIG. A
加速度センサー203は、電子双眼鏡100の微小な上下左右の変位を検出する。
The
音声入力部301、302、303、304は、それぞれマイクロフォン(以降マイク)を含む音声入力部である。音声入力部301~304は、音声信号を電気信号にさらにデジタル信号に変換して出力する。音声入力部301、302は、電子双眼鏡100のフレーム110の左側に、略直線上に並んで設けられる。音声入力部303、304は、電子双眼鏡100のフレーム110の右側に略直線上に並んで設けられる。直線上に並んで設けられた2つの音声入力部の入力信号(音声信号)を用いて、音声処理部305および音声用メモリ306によってビームフォーミング制御が実行される。
ビームフォーミング制御は、2つ以上の無指向性のマイクを用い、マイクの配置を変えることなく、信号処理によりマイクの指向性を2つのマイクの軸線上に先鋭化し、所定の方向の音を強調することができる。2つの音声入力部が電子双眼鏡100の前後方向に並んで設けられており、ビームフォーミング制御により、電子双眼鏡100の前方、ユーザーすなわち装着者(観察者)の真正面から入力される音を強調することができる。これにより、装着者が見ている(撮影している)被写体音周辺の音を強調することが可能となる。 Beamforming control uses two or more omnidirectional microphones, without changing the placement of the microphones, and uses signal processing to sharpen the directivity of the microphones on the axis of the two microphones, emphasizing sound in a given direction. can do. Two sound input units are provided side by side in the front and back direction of the electronic binoculars 100, and beam forming control emphasizes the sound input from the front of the electronic binoculars 100, that is, directly in front of the user, that is, the wearer (observer). can be done. As a result, it is possible to emphasize the sound around the sound of the object that the wearer is viewing (capturing).
音声入力部301、302、303、304から入力された音声コマンドに基づいて、音声処理部305および音声用メモリ306は、音声認識制御を行うことができる。音声用メモリ306に予め撮影装置の各種制御に対応する音声コマンドが保存されている。保存された音声コマンドに対応する音声データが、音声入力部301~304の少なくとも1つから入力されたことに応じて、音声処理部305は対応する制御コマンドをCPU201に出力する。CPU201が入力された制御コマンドに応じて制御を実行することにより、操作部材107を介して行う指示と同様に電子双眼鏡100の制御を指示することが可能となる。
Based on voice commands input from
図6は音声用メモリ306に格納された音声コマンドのデータ構造例を示す模式図である。音声処理部305は、音声用メモリ306に格納された音声コマンドに基づいて、音声コマンド認識処理を実行する。
FIG. 6 is a schematic diagram showing an example data structure of a voice command stored in the
音声用メモリ306は逐次的に書き換えを行う音声データバッファ領域と、あらかじめ定められた音声コマンドのプロファイルを持つコマンド領域を有する。
The
音声データバッファ領域は、音声入力部301、302、303、304のいずれかの音声データが逐次的に格納される。音声データをバッファ可能な量は、判定する音声コマンドの長さに応じて決定される。判定する音声コマンドが入力されうる期間にわたる音声データを格納可能なように、あらかじめ設定される。
The audio data buffer area sequentially stores audio data from any one of the
音声コマンドは、起動コマンドと操作コマンドとを含む。 Voice commands include activation commands and operation commands.
起動コマンドは、音声認識による制御の開始を指示する音声コマンドである。音声認識処理は、音声認識機能を有効としている間は常に実行されるが、起動コマンドは、ユーザーが明示的に音声認識による制御の開始を指示するために用いられる。起動コマンドは、短いワード、もしくは少ないワード数で、会話などで発生しづらいユニークなコマンドであることが望ましい。例えば、“Hi,Camera”など、撮像装置100を呼びかけるコマンドが想定される。この登録ワード該当するプロファイルデータがワードプロファイルAとして格納されている。 The activation command is a voice command that instructs the start of control by voice recognition. Speech recognition processing is always executed while the speech recognition function is enabled, but the activation command is used by the user to explicitly instruct the start of control by speech recognition. It is desirable that the activation command be a unique command that is short or small in number of words and is unlikely to occur in a conversation. For example, a command calling the imaging device 100 such as "Hi, Camera" is assumed. Profile data corresponding to this registered word is stored as word profile A. FIG.
操作コマンドは、音声認識による電子双眼鏡100の制御の実行を指示するための音声コマンドである。操作コマンドは、指示する制御に対応する短文や複数のワードで構成される。音声認識により制御を実行可能な処理は例えば、静止画撮影、動画撮影、追尾開始などであるとする。例えば、操作コマンドB-1は、静止画撮影を指示する音声コマンドであって、“Snap it”が設定されている。また、操作コマンドB-2は、動画撮影の開始を指示する音声コマンドであって、や“Start Movie”が設定されている。操作コマンドは、制御対象の処理に合わせて複数のコマンド(操作コマンドB-1~B-N)が登録されている。 The operation command is a voice command for instructing execution of control of the electronic binoculars 100 by voice recognition. An operation command is composed of a short sentence or a plurality of words corresponding to the commanded control. Processing that can be controlled by voice recognition is assumed to be, for example, still image shooting, moving image shooting, tracking start, and the like. For example, the operation command B-1 is a voice command for instructing still image shooting, and "Snap it" is set. The operation command B-2 is a voice command for instructing the start of moving image shooting, and "Start Movie" is set. As for the operation command, a plurality of commands (operation commands B-1 to BN) are registered according to the process to be controlled.
起動コマンドと操作コマンドは便宜上、別々に格納しているが、同じワードであっても構わない。また、仕向け先や、言語対応によって、ワードの書き換えをおこなう、また、ユーザーが自由に書き換えられる仕組みであっても構わない。 The activation command and the operation command are stored separately for convenience, but they may be stored in the same word. In addition, it may be a mechanism in which words are rewritten depending on the destination or language compatibility, or the user can freely rewrite the words.
音声処理部305は、音声データバッファ領域に逐次的に格納される音声データと、コマンド領域の起動コマンドもしくは操作コマンドを比較し、一致度が閾値以上であった音声コマンドに対応する音声データが入力されたと判定する。音声処理部305は、当該音声コマンドに対応する制御の実行を指示するための制御コマンドをCPU201に出力する。
The
なお、本実施形態の電子双眼鏡100では、ビームフォーミング制御に関わる“Zoom Up”や”Zoom OUT”などの音声コマンドをほかのコマンドより大きなサイズで保持することで、他のコマンドよりも高い認識精度で反応することが可能となる。 Note that, in the electronic binoculars 100 of the present embodiment, voice commands related to beam forming control such as "Zoom Up" and "Zoom OUT" are held in a larger size than other commands, thereby achieving higher recognition accuracy than other commands. It is possible to react with
図1は本実施形態における電子双眼鏡100の音声認識制御のフローチャートである。音声コマンドにより電子双眼鏡100を制御、ビームフォーミング制御により被写体音拡大を実行・終了し、音声コマンドにより再度通常の撮影に戻るまでの処理を示す。本フローチャートに示す制御は、電子双眼鏡100の音声認識機能を有効とし、電子双眼鏡100の電源がONである状態で、繰り返し実行されるとする。 FIG. 1 is a flowchart of voice recognition control of the electronic binoculars 100 according to this embodiment. It shows the processing from controlling the electronic binoculars 100 by a voice command, executing and ending object sound amplification by beamforming control, and returning to normal photography again by a voice command. The control shown in this flowchart is assumed to be executed repeatedly with the voice recognition function of the electronic binoculars 100 enabled and the electronic binoculars 100 powered on.
なお、電子双眼鏡100は、通常の撮影を開始するとき、ユーザーにより操作部材107で電源ON操作がなされると、カメラ101が起動し、撮影画像を各ディスプレイ102、103へとリアルタイムに表示を開始する。電子双眼鏡100は、カメラ101の焦点距離を100mmと400mmとの2段階で切り替え可能な構成であるが、電源ON直後に関しては、観察対象を見つけやすいように、より広角である100mmで制御するとする。
In the electronic binoculars 100, when the user turns on the power with the
そして、ユーザーは観察対象を見つけると、操作部材107を介して焦点距離を400mmと切り替える。そして、取得画像からオートフォーカス(AF)や自動露出制御(AE)を行い、ユーザーはカメラ101が撮影した画像を通じて、被写体の観察を始めることが出来る。
When the user finds an observation target, the user switches the focal length to 400 mm via the
また、ユーザーは、操作部材107の代わりに音声コマンドを用いて、焦点距離を制御することも出来る。その際、前述のビームフォーミング制御を用い、被写体周辺の音の強調を行うことが可能である。
Also, the user can use voice commands instead of the
S1001で、音声処理部305は、音声入力部301~304の少なくとも1つから起動コマンドに対応する音声が入力されたか否かを判定する。起動コマンドに対応する音声が入力されたと判定された場合、音声処理部305は、操作コマンドの待ち受け状態に移行し、S1002に進む。起動コマンドに対応する音声が入力されない場合、処理は、S1020に進む。
In S1001, the
S1002で、音声処理部305は、入力された音声データより周波数特性(f特)を取得し、音声用メモリ306に保持する。
In S<b>1002 , the
S1003で、音声処理部305は、音声入力部301~304の少なくとも1つから操作コマンドに対応する音声が入力されたか否かを判定する。音声処理部305は、音声入力部301~304の少なくとも1つから入力された音声が、音声用メモリ306にあらかじめ保持されてある複数の操作コマンドのうちいずれかと一致するか否かを判定する。操作コマンドと一致する音声が入力された場合、処理は、S1004に進む。操作コマンドと一致する音声が入力されない場合、処理はS1003に戻り、操作コマンドに対応する音声の入力を待ち受ける。
In S1003, the
S1004で、音声処理部305は、入力された音声に対応する操作コマンドに対応する制御の実行を指示する制御コマンドをCPU201へ通知する。CPU201は、通知された制御コマンドに対応する処理を実行する。ここで、操作コマンド“Zoom UP”に対応する音声が入力されたとする。CPU201は、カメラ101の焦点距離を400mmに制御し、さらに、音声入力部301、302および音声入力部303、304を用いたビームフォーミング制御による特定方向からの音声を強調する処理を実行する。この時、ビームフォーミング制御により感度を高める方向は、カメラ101の撮影方向である。すなわち、操作コマンド“Zoom UP”が入力された場合は、カメラ101の撮影範囲が拡大されるとともに、ビームフォーミング制御によって撮影方向に対して音声入力の感度が高められる。
In S1004, the
S1005で、音声処理部305は、音声入力部301~304の少なくとも1つから音声データが入力されたか否かを判定する。音声データが入力されない場合、処理はS1005に戻る。音声データが入力された場合、処理はS1006に進む。
In S1005, the
S1006で、音声処理部305は、各音声入力部301~304から入力された音声データ(入力信号)の位相差を比較する。
In S1006, the
S1007で、音声処理部305は、各音声入力部301~304から入力された音声データのレベル(音量)を比較する。
In S1007, the
S1008で、音声入力部301~304に入力された音声データが同等であるかを判定する。装着者であるユーザーが発話した音声コマンドであれば、4つの音声入力部301~304に入力される音声データの位相およびレベルは、ほぼ同じとなる為、装着者から発せられたコマンドかどうかの一次判定に用いる。4つの音声入力部301~304に入力される音声データの位相およびレベルは、ほぼ同じである場合、処理はS1009に進む。そうでない場合、装着者による音声認識制御のための音声入力でないと判定し、S1005に戻る。
In S1008, it is determined whether the voice data input to the
S1009で、各音声入力部301~304から入力された音声データの周波数特性と、S1002で保持した周波数特性とを比較する。周波数特性が同等であれば、起動コマンドを発話した装着者と、操作コマンドを入力した同じかどうかの二次判定を行う。S1007は、音声入力部301~304から音声用メモリ306に一時的に保持された各音声データに対して音声処理部305が処理を行うことで実現する。周波数特性が同等であれば、起動コマンドを発話した装着者と、操作コマンドを入力した同じであると判定しS1008に進む。そうでない場合、装着者による音声認識制御のための音声入力でないと判定し、S1005に戻る。
At S1009, the frequency characteristics of the audio data input from each of the
S1010で、CPU201は、音声データが入力されたタイミングで、装着者が発話したかどうかを電子双眼鏡100のブリッジ部分にとりつけられた加速度センサ203が検知した上下方向の微小変位に基づいて判定する。上下方向の微小変位(検知結果)が発話検知のためにあらかじめ定められた変位検知条件を満たさない場合は、装着者の発話による音声データの入力でないと判定し、S1005に戻る。上下方向の微小変位が発話検知のためにあらかじめ定められた変位検知条件を満たす場合は、装着者の発話による音声データの入力であると判定し、S1011に進む。
In S1010, the
S1011にて、入力された音声データに対応するコマンドの検出を行う。S1006~S1010の処理を行うことで、音声入力部301~304の指向性が装着者の口元に向いていないビームフォーミング制御中でも音声認識制御を実行可能となる。
At S1011, a command corresponding to the input voice data is detected. By performing the processing of S1006 to S1010, voice recognition control can be executed even during beamforming control in which the directivity of the
なお、S1011では、ビームフォーミング制御に関連するコマンドか否かの判定を行う。図6に示すように、本実施例では、ビームフォーミングに関わる“ZoomUp”や”ZoomOUT”などの音声コマンドをほかのコマンドより大きなサイズで保持している。 In S1011, it is determined whether or not the command is related to beamforming control. As shown in FIG. 6, in this embodiment, voice commands such as "ZoomUp" and "ZoomOUT" related to beamforming are held in a larger size than other commands.
また、ユーザーは、ビームフォーミング制御後は、必然的に、ビームフォーミングを解除する、ビームフォーミング先の音を録音するなど、ビームフォーミング制御に関わる制御を実施する。このため、ビームフォーミング制御に関わるコマンドであるか否か、に絞って判定処理を行うことで、より高い認識精度で反応することが可能となる。 In addition, after beamforming control, the user inevitably performs control related to beamforming control, such as canceling beamforming and recording the sound of the beamforming destination. Therefore, it is possible to respond with higher recognition accuracy by performing determination processing focusing on whether or not the command is related to beam forming control.
S1012では、S1011で検知したコマンドに応じて、CPU201が電子双眼鏡100の制御を行う。また、処理はS1005に戻る。
In S1012, the
図4、図5を用いて、各処理を詳細に説明する。図4は、音声処理部305の機能ブロックを示すブロック図である。音声処理部305は、ビームフォーミング制御部401、録音処理部402、音声認識処理部403、位相比較処理部404、音圧比較処理部405、および特定帯域検出部406を有する。
Each process will be described in detail with reference to FIGS. 4 and 5. FIG. FIG. 4 is a block diagram showing functional blocks of the
音声認識処理部403は、音声用メモリ306を用いて、音声データバッファに格納された音声データとあらかじめ保持している音声コマンドとの比較を行い、音声コマンド認識を実施する。また、音声認識処理部は403、各音声入力部301~304の入力のうち位相を比較する位相比較処理部404、音圧を比較する音圧比較処理部405、特定の帯域を検出する特定帯域検出部406の判定信号をイネーブル信号として入力する構成をとる。
The voice
イネーブル信号は各比較、後述のように検出処理が所定の値を検知した際に有効となり、音声認識処理部を補正することができる。また、イネーブル信号はCPU201の制御により、有効化、非有効化を制御することができる。
The enable signal becomes effective when each comparison or detection process detects a predetermined value as will be described later, and the speech recognition processing section can be corrected. Also, the enable signal can be controlled to be enabled or disabled under the control of the
録音処理部402では、ビームフォーミング制御部401にて強調された帯域の音データを音声用メモリ306に対して出力することができる。
The
図5は、図1のS1005~S1011で示したビームフォーミング制御中の音声認識制御における各信号に関するタイミングチャートである。 FIG. 5 is a timing chart regarding each signal in voice recognition control during beamforming control shown in S1005 to S1011 in FIG.
加速度センサー203における加速度変位が一定の値を超えると、CPU201が、検出されたことをトリガに音声処理部305へイネーブル信号を送り音声処理部305の各処理を有効にさせる。
When the acceleration displacement in the
その後、音声入力部301~304の入力を位相比較処理部404および音圧比較処理部405にて比較する。位相比較処理部404では、音声入力部301~304に入力された音声データの位相を比較し、各データの位相がそろっているかどうかの比較を行う。該比較には、音声用メモリ306に保持した所定の閾値が用いられる。各データの位相差が所定の閾値内に入っていた場合は、MIC間位相差比較信号を有効にする。
After that, the inputs of the
また、音圧比較処理部405では、音声入力部301~304に入力さえた音圧レベルが所定の閾値の範囲内であるか判定を行う。各データの音圧差が所定の閾値内に入っていた場合は、MIC間音圧レベル比較信号を有効にする。
Further, the sound pressure
前述の通り、装着者であるユーザーが発話した音声コマンドであれば、各音声入力部とユーザーの口元との距離はほぼ同じである為、4つの音声入力部に入力される音データの位相とレベルはほぼ同じとなる。MIC間位相差比較信号およびMIC間音圧レベル比較信号は、ともに有効になる。 As described above, in the case of a voice command uttered by the user who is the wearer, the distance between each voice input unit and the user's mouth is almost the same, so the phase of the sound data input to the four voice input units Levels are almost the same. Both the inter-MIC phase difference comparison signal and the inter-MIC sound pressure level comparison signal become valid.
また、特定帯域検出部406にて、あらかじめ保持した周波数特性と発話されたコマンドとの帯域比較を行い、起動コマンドを発話した装着者と同じかどうかの二次判定を行う。該帯域比較は、音声入力部301~304から音声用メモリ306に一時的に保持された各音声データに対して音声処理部305が処理を行うことで実現する。音声コマンドが所定の帯域内であると判定された場合は、特定帯域検出信号を有効にする。
Further, the specific
その後、T601にて、音声データおよび前記3つの信号を用いて、起動コマンドであるか否かの判定が完了する。起動コマンドであると判定される場合、MIC間位相差比較信号、MIC間音圧レベル比較信号、および特定帯域検出信号が有効である。 After that, at T601, using the voice data and the three signals, the judgment as to whether or not it is an activation command is completed. If it is determined to be an activation command, the inter-MIC phase difference comparison signal, the inter-MIC sound pressure level comparison signal, and the specific band detection signal are valid.
T601~T602間のタイミングチャートは、制御コマンドを発話した際の音声コマンドの検出チャートである。処理及びタイミングは起動コマンドと同様の為、説明を省略する。 A timing chart between T601 and T602 is a voice command detection chart when a control command is uttered. Since the processing and timing are the same as those of the activation command, the description is omitted.
上述のように制御することにより、本実施例における音声認識装置、および音声認識装置を有する表示装置は、ビームフォーミング制御により特定の方向の音声データを増幅している場合においても装着者による音声認識制御の実行を可能とする。特に、ユーザーの口元の変位、MIC間位相差比較、MIC間音圧レベル比較、特定帯域の検出を行うことで、音声コマンドにより再度通常の撮影に戻ることが可能となる。 By controlling as described above, the speech recognition device and the display device having the speech recognition device according to the present embodiment can perform speech recognition by the wearer even when voice data in a specific direction is amplified by beamforming control. Allows execution of control. In particular, by performing the displacement of the user's mouth, the phase difference comparison between MICs, the sound pressure level comparison between MICs, and the detection of a specific band, it is possible to return to normal photography by a voice command.
(その他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。 Although preferred embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various modifications and changes are possible within the scope of the gist.
100 電子双眼鏡
101 カメラ
102 103 ディスプレイ
104 パンニング部
105 チルト部
106 ジャイロセンサ
107 操作部材
203 加速度センサー
301、302、303、304 音声入力部
100
Claims (11)
前記複数の音声入力手段から得られた音声データがあらかじめ定められたコマンドに対応する場合に、当該コマンドに対応する制御コマンドを出力する音声認識手段と、
を有し、
前記音声認識手段は、前記ビームフォーミング制御が有効であって、前記複数の音声入力手段から入力された複数の音声データが所定の条件を満たす場合に、前記複数の音声データが前記あらかじめ定められたコマンドに対応するか否かを判定する
ことを特徴とする音声認識装置。 Executes beamforming control that can acquire voice input from a specific direction with higher sensitivity than voice input from other directions based on multiple voice data obtained from multiple voice input means. a control means for
voice recognition means for outputting a control command corresponding to a predetermined command when voice data obtained from the plurality of voice input means corresponds to the command;
has
When the beamforming control is effective and the plurality of speech data input from the plurality of speech inputting devices satisfies a predetermined condition, the speech recognition device performs the above-mentioned plurality of speech data according to the predetermined condition. A voice recognition device that determines whether or not it corresponds to a command.
前記音声認識手段は、前記検知手段の検知結果が、所定の変位検知条件を満たす場合に、前記複数の音声データが前記あらかじめ定められたコマンドに対応するか否かを判定する
ことを特徴とする請求項1に記載の音声認識装置。 further comprising detection means for detecting displacement of the speech recognition device at the timing when the plurality of speech data are input;
The voice recognition means determines whether or not the plurality of voice data correspond to the predetermined command when the detection result of the detection means satisfies a predetermined displacement detection condition. The speech recognition device according to claim 1.
ことを特徴とする請求項1または2に記載の音声認識装置。 The predetermined condition is characterized in that the frequency characteristics of the plurality of audio data match the frequency characteristics of the audio data of the wearer's utterance acquired before the beam forming control is executed. 3. The speech recognition device according to claim 1 or 2.
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。 4. The speech recognition apparatus according to any one of claims 1 to 3, wherein said predetermined command includes a command for instructing activation of the device and a command for instructing control of the device.
前記制御手段は、前記撮像手段が画像を撮影する方向から入力される音声を、他の方向から入力される音声よりも高い感度で取得するように前記ビームフォーミング制御を実行する
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声認識装置。 Further comprising imaging means for capturing an image,
The control means executes the beam forming control so that the sound input from the direction in which the imaging means captures the image is acquired with higher sensitivity than the sound input from other directions. 5. The speech recognition device according to any one of claims 1 to 4.
前記制御手段は、前記ビームフォーミング制御を実行する
ことを特徴とする請求項1乃至5のいずれか1項に記載の音声認識装置。 In response to the voice recognition means detecting input of voice data corresponding to a command for expanding the imaging range of the imaging means while the beam forming control is not being executed,
6. The speech recognition apparatus according to claim 1, wherein said control means executes said beamforming control.
ことを特徴とする請求項1乃至6のいずれか1項に記載の音声認識装置。 While the beam forming control is being performed, the speech recognition means recognizes the plurality of speech data if the plurality of speech data do not satisfy the predetermined condition even if the plurality of speech data are input. 7. The speech recognition apparatus according to any one of claims 1 to 6, wherein it does not determine whether or not data corresponds to the predetermined command.
前記画像を表示する表示手段と、
複数の音声入力手段と、
前記複数の音声入力手段から得られた複数の音声データに基づいて、前記撮像手段が撮影する方向から入力される音声を、他の方向から入力される音声よりも高い感度で取得することが可能なビームフォーミング制御を実行する制御手段と、
前記複数の音声入力手段から得られた音声データがあらかじめ定められたコマンドに対応する場合に、当該コマンドに対応する制御コマンドを出力する音声認識手段と、
を有し、
前記音声認識手段は、前記ビームフォーミング制御が有効であって、前記複数の音声入力手段から入力された複数の音声データが所定の条件を満たす場合に、前記複数の音声データが前記あらかじめ定められたコマンドに対応するか否かを判定する
ことを特徴とする表示装置。 imaging means for capturing an image;
display means for displaying the image;
a plurality of voice input means;
Based on the plurality of audio data obtained from the plurality of audio input means, it is possible to acquire the audio input from the imaging direction with higher sensitivity than the audio input from other directions. a control means for performing beamforming control;
voice recognition means for outputting a control command corresponding to a predetermined command when voice data obtained from the plurality of voice input means corresponds to the command;
has
When the beamforming control is effective and the plurality of speech data input from the plurality of speech inputting devices satisfies a predetermined condition, the speech recognition device performs the above-mentioned plurality of speech data according to the predetermined condition. A display device that determines whether or not it corresponds to a command.
前記複数の音声入力手段から得られた音声データがあらかじめ定められたコマンドに対応する場合に、当該コマンドに対応する制御コマンドを出力する音声認識工程と、
を有し、
前記音声認識工程は、前記ビームフォーミング制御が有効であって、前記複数の音声入力手段から入力された複数の音声データが所定の条件を満たす場合に、前記複数の音声データが前記あらかじめ定められたコマンドに対応するか否かを判定する
ことを特徴とする音声認識装置の制御方法。 Executes beamforming control that can acquire voice input from a specific direction with higher sensitivity than voice input from other directions based on multiple voice data obtained from multiple voice input means. a control process for
a speech recognition step of outputting a control command corresponding to a predetermined command when the speech data obtained from the plurality of speech input means corresponds to the command;
has
In the speech recognition step, when the beamforming control is effective and the plurality of speech data input from the plurality of speech input means satisfies a predetermined condition, the plurality of speech data are determined in advance. A control method for a speech recognition device, characterized by determining whether or not it corresponds to a command.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091349A JP2022183848A (en) | 2021-05-31 | 2021-05-31 | Speech recognition device, display device, and control method and program and storage medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021091349A JP2022183848A (en) | 2021-05-31 | 2021-05-31 | Speech recognition device, display device, and control method and program and storage medium therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022183848A true JP2022183848A (en) | 2022-12-13 |
Family
ID=84437276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021091349A Pending JP2022183848A (en) | 2021-05-31 | 2021-05-31 | Speech recognition device, display device, and control method and program and storage medium therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022183848A (en) |
-
2021
- 2021-05-31 JP JP2021091349A patent/JP2022183848A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6504808B2 (en) | Imaging device, setting method of voice command function, computer program, and storage medium | |
CN104580992A (en) | Control method and mobile terminal | |
US10715736B2 (en) | Image capturing apparatus and non-transitory recording medium | |
JP7292853B2 (en) | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF | |
JP2017103697A (en) | Image processing device, imaging device, image processing method and program | |
JP2021114716A (en) | Imaging apparatus | |
JP6815830B2 (en) | Imaging device and its control method | |
JP2011061461A (en) | Imaging apparatus, directivity control method, and program therefor | |
JP5510559B2 (en) | Voice control device and imaging device | |
JP2022183848A (en) | Speech recognition device, display device, and control method and program and storage medium therefor | |
US11490001B2 (en) | Imaging apparatus | |
CN111527446B (en) | Image pickup apparatus, control method therefor, and recording medium | |
JP2017173470A (en) | Imaging apparatus | |
JP7118746B2 (en) | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF | |
JP2016058982A (en) | Imaging apparatus | |
JP7009604B2 (en) | Image pickup device and its control method | |
JP7365793B2 (en) | Imaging device, its control method, and program | |
JP2019023686A (en) | Imaging device | |
JP2013007851A (en) | Imaging apparatus | |
US20230199299A1 (en) | Imaging device, imaging method and program | |
JP2007248672A (en) | Photographic device, control method and control program | |
JP2003098422A (en) | Autofocusing device | |
JP2000244885A (en) | Image photographing device, method therefor, storage medium and video conference system | |
JP2013201642A (en) | Electronic device | |
JP2023003157A (en) | Electronic device and control method thereof, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |