JP2000050149A - Video camera - Google Patents

Video camera

Info

Publication number
JP2000050149A
JP2000050149A JP10211500A JP21150098A JP2000050149A JP 2000050149 A JP2000050149 A JP 2000050149A JP 10211500 A JP10211500 A JP 10211500A JP 21150098 A JP21150098 A JP 21150098A JP 2000050149 A JP2000050149 A JP 2000050149A
Authority
JP
Japan
Prior art keywords
voice
pattern
sound
signal
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10211500A
Other languages
Japanese (ja)
Inventor
Kazuhiko Ozawa
一彦 小沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10211500A priority Critical patent/JP2000050149A/en
Publication of JP2000050149A publication Critical patent/JP2000050149A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)

Abstract

PROBLEM TO BE SOLVED: To realize a unit operation by means of sound input without installing a microphone for operation sound input and a speaker for operation confirmation, to miniaturize the constitution and to reduce the cost. SOLUTION: Microphones 1L and 1R for photographing sound input are shared for operation sound input, and operation sound inputted form the microphones 1L and 1R is recognized in DSP 22 of a sound input operation processing block 60. A micro computer 24 generates an operation control signal 25 corresponding to operation sound which DSP 22 recognizes and controls a recording/reproducing device 15 by the control signal 25. DSP 22 generates an operation confirmation signal 26 for informing a user of the recognition result of operation sound and outputs it from a regular reproduction speaker 13.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、例えばカメラ一体
型ビデオテープレコーダのように、少なくとも音声入力
用のマイクロホンを備えたビデオカメラに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a video camera having at least a microphone for audio input, such as a camera-integrated video tape recorder.

【0002】[0002]

【従来の技術】近年、各種の電子機器は、高性能、多機
能化されるに従って操作が複雑化し、誰でも簡単に操作
することが難しくなってきている。この問題の一つの解
決法として、使用者が電子機器の操作内容を表す単語の
音声(以下適宜、操作音声と呼ぶ)を発声し、電子機器
がその操作音声を認識して動作することにより、操作性
の向上を図るような技術が知られている。
2. Description of the Related Art In recent years, the operation of various electronic devices has become more complicated as they have become more sophisticated and multifunctional, and it has become difficult for anyone to easily operate them. As one solution to this problem, a user utters a voice of a word indicating the operation content of the electronic device (hereinafter, appropriately referred to as an operation voice), and the electronic device recognizes the operation voice and operates. Techniques for improving operability are known.

【0003】図4には、通常の撮影時の音声(以下適
宜、撮影音声と呼ぶ)を取り込んで記録する際に用いる
撮影音声入力用マイクロホン101L,101Rと、上
記操作音声を取り込むための操作音声入力用(音声認識
がなされる音声の入力用)マイクロホン120とを備
え、上記撮影音声入力用マイクロホン101L,101
Rから入力した撮影音声については磁気テープ等の記録
媒体に記録し、一方、上記操作音声入力用マイクロホン
120から入力した操作音声により機器の操作を実現す
るような、カメラ一体型ディジタルビデオテープレコー
ダ(以下、カメラ一体型ディジタルVTRと呼ぶ)の一
般的な構成を示す。
FIG. 4 shows photographing sound input microphones 101L and 101R used to capture and record normal photographing sound (hereinafter, appropriately referred to as photographing sound), and operation sound for capturing the operation sound. An input microphone (for inputting voice for which voice recognition is performed) 120, and the photographing voice input microphones 101L and 101L.
The photographing sound input from the R is recorded on a recording medium such as a magnetic tape, while the operation sound input from the operation sound input microphone 120 realizes the operation of the device, and the camera-integrated digital video tape recorder ( Hereinafter, a general configuration of a camera-integrated digital VTR will be described.

【0004】図4中の破線で囲まれたブロックのうち、
上部のブロックはカメラ一体型ディジタルVTRの主要
構成要素である記録再生信号処理ブロック100を示
し、下部のブロックは使用者(ユーザ)からの操作音声
を取り込んで機器の操作を制御することを実現するため
の音声入力操作処理ブロック130を示している。
[0004] Of the blocks surrounded by broken lines in FIG.
The upper block shows a recording / reproducing signal processing block 100 which is a main component of the camera-integrated digital VTR, and the lower block realizes control of the operation of the device by taking in the operation voice from the user (user). Input operation processing block 130 is shown.

【0005】記録再生信号処理ブロック100におい
て、CCD(固体撮像素子)102からの映像信号は、
カメラ系信号処理回路103にて各種信号処理を受けて
ディジタル映像信号104に変換され、記録系映像/音
声信号処理回路105に送られる。
In a recording / reproducing signal processing block 100, a video signal from a CCD (solid-state imaging device) 102 is
The digital signal is converted into a digital video signal 104 after undergoing various kinds of signal processing in the camera signal processing circuit 103, and is sent to the recording video / audio signal processing circuit 105.

【0006】また、L(左),R(右)2チャンネルの
撮影音声入力用マイクロホン101L,101Rから入
力された撮影音声信号は、それぞれ対応するプリアンプ
116L,116Rにて増幅され、さらにアナログ/デ
ィジタル変換器(ADC)106でディジタル音声信号
107に変換され、記録系映像/音声信号処理回路10
5に送られる。
[0006] The photographing sound signals input from the L (left) and R (right) two-channel photographing sound input microphones 101L and 101R are amplified by corresponding preamplifiers 116L and 116R, respectively, and further analog / digital. The digital signal is converted into a digital audio signal 107 by a converter (ADC) 106, and the recording video / audio signal processing circuit 10
Sent to 5.

【0007】当該記録系映像/音声信号処理回路105
は、ディジタル映像信号104とディジタル音声信号1
07に対して、それぞれ対応するビデオ映像系の圧縮処
理、音声系のシャフリング処理、テープに記録するため
の映像と音声信号のフレーミング処理等を行い、記録映
像/音声信号108を生成する。この記録映像/音声信
号108は、スイッチSW114に送られる。
The recording system video / audio signal processing circuit 105
Are digital video signal 104 and digital audio signal 1
07, the corresponding video / video compression processing, audio-based shuffling processing, framing processing of video and audio signals to be recorded on a tape, and the like are performed to generate a recorded video / audio signal 108. This recording video / audio signal 108 is sent to the switch SW114.

【0008】記録時におけるスイッチSW114は、被
切換端子がREC(記録)側に切り換えられ、これによ
り上記記録映像/音声信号108は当該スイッチSW1
14を介してビデオテープレコーダ(VTR)等の内蔵
されている記録再生装置115に送られることになる。
The switch SW114 at the time of recording has its switched terminal switched to the REC (recording) side, whereby the recorded video / audio signal 108 is switched to the switch SW1.
The data is sent to a built-in recording / reproducing device 115 such as a video tape recorder (VTR) via the.

【0009】当該記録時の記録再生装置115は、入力
された記録映像/音声信号108をRF信号化し、当該
RF信号を、回転ドラムと磁気ヘッドで構成される電気
磁気変換系により磁気テープに記録する。
The recording / reproducing apparatus 115 at the time of recording converts the input recording video / audio signal 108 into an RF signal, and records the RF signal on a magnetic tape by an electro-magnetic conversion system including a rotating drum and a magnetic head. I do.

【0010】逆に、再生時の記録再生装置115は、磁
気テープに記録されているRF信号を電気磁気変換系に
て再生し、当該RF信号を映像/音声信号(再生映像/
音声信号109)に変換してスイッチSW114に送
る。
Conversely, the recording / reproducing apparatus 115 at the time of reproduction reproduces an RF signal recorded on a magnetic tape by an electro-magnetic conversion system, and converts the RF signal into a video / audio signal (reproduced video / video).
The signal is converted to an audio signal 109) and sent to the switch SW114.

【0011】当該再生時におけるスイッチSW114
は、被切換端子がPB(再生)側に切り換えられ、これ
により再生映像/音声信号109は再生系映像/音声信
号処理回路110に送られることになる。
The switch SW114 during the reproduction
In this case, the switched terminal is switched to the PB (reproducing) side, whereby the reproduced video / audio signal 109 is sent to the reproducing video / audio signal processing circuit 110.

【0012】再生系映像/音声信号処理回路110は、
記録系映像/音声信号処理回路105とは逆の信号処理
を行うものであり、再生映像/音声信号109に対して
映像と音声信号のデフレーミング処理、映像系の伸張処
理、音声系のデシャフリング処理等を行う。
The reproduction video / audio signal processing circuit 110
It performs signal processing opposite to that of the recording video / audio signal processing circuit 105. The reproduced video / audio signal 109 is subjected to video and audio signal deframing processing, video expansion processing, and audio deshuffling processing. And so on.

【0013】この再生系映像/音声信号処理回路110
から出力された映像信号は、例えば外部出力端子から出
力、あるいは図示しない表示処理系に送られて表示され
る。また、再生系映像/音声信号処理回路110から出
力された音声信号(撮影音声信号)111は、ディジタ
ル/アナログ変換器(DAC)112にてアナログ音声
信号に変換され、アンプ117にて増幅された後、再生
スピーカ113にて電気音声変換されて音声として出力
される。この再生スピーカ113は、記録再生装置11
5が磁気テープから再生した撮影音声を出力するための
スピーカである。
The reproduction video / audio signal processing circuit 110
Is output from, for example, an external output terminal or sent to a display processing system (not shown) to be displayed. An audio signal (photographed audio signal) 111 output from the reproduction video / audio signal processing circuit 110 is converted into an analog audio signal by a digital / analog converter (DAC) 112 and amplified by an amplifier 117. Thereafter, the sound is converted into electric sound by the reproduction speaker 113 and output as sound. The reproduction speaker 113 is connected to the recording / reproduction device 11.
Reference numeral 5 denotes a speaker for outputting the photographed sound reproduced from the magnetic tape.

【0014】次に、音声入力操作処理ブロック130に
おいて、操作音声入力用マイクロホン120から入力さ
れた音声信号は、プリアンプ128にて増幅され、さら
にアナログ/ディジタル変換器(ADC)121でディ
ジタル音声信号に変換され、DSP(ディジタルシグナ
ルプロセッサ)122に送られる。
Next, in a voice input operation processing block 130, the voice signal input from the operation voice input microphone 120 is amplified by a preamplifier 128, and further converted into a digital voice signal by an analog / digital converter (ADC) 121. The signal is converted and sent to a DSP (Digital Signal Processor) 122.

【0015】DSP122では、入力されたディジタル
音声信号から音声パターン(以下、入力音声パターンと
呼ぶ)を抽出し、当該入力音声パターンとROM(リー
ドオンリメモリ)123に予め登録されている操作音声
認識用の音声パターン(以下、操作音声パターンと呼
ぶ)との一致を分析する。このパターン一致分析結果の
信号はマイクロコンピュータ124に送られる。
The DSP 122 extracts a voice pattern (hereinafter, referred to as an input voice pattern) from the input digital voice signal, and uses the input voice pattern and an operation voice recognition registered in a ROM (read only memory) 123 in advance. Of the voice pattern (hereinafter, referred to as an operation voice pattern) is analyzed. The signal of the pattern matching analysis result is sent to the microcomputer 124.

【0016】ROM123には、音声による機器操作の
ために予め用意された単語群の操作音声パターンが登録
されている。当該操作のために用意された単語群として
は、日本語においては例えば「ろくが」、「とまれ」、
「さいせい」等が考えられる。なお、「ろくが」とは録
画スタートの操作を機器に指示するための単語であり、
「とまれ」は停止の操作を機器に指示するための単語で
あり、「さいせい」は再生スタートの操作を機器に指示
するための単語である。
In the ROM 123, operation voice patterns of a group of words prepared in advance for voice-based device operation are registered. The word group prepared for the operation includes, for example, “Rokuga”, “Tomare”,
"Saisei" and the like are conceivable. Note that “Rokuga” is a word for instructing a device to start recording,
“Tore” is a word for instructing the device to perform a stop operation, and “Saisei” is a word for instructing the device to perform a reproduction start operation.

【0017】DSP122でのパターン一致分析におい
て、入力音声パターンと操作音声パターンが一致した場
合、マイクロコンピュータ124は、操作コントロール
信号125を発生して記録再生装置115に送ると同時
に、操作確認信号126を発生して操作確認用スピーカ
127に送る。
In the pattern matching analysis by the DSP 122, when the input voice pattern and the operation voice pattern match, the microcomputer 124 generates the operation control signal 125 and sends it to the recording / reproducing device 115, and at the same time, generates the operation confirmation signal 126. It is generated and sent to the operation confirmation speaker 127.

【0018】操作コントロール信号125は、当該一致
した操作音声パターンに対応した操作を記録再生装置1
15に対して行わせるためのコントロール信号であり、
操作確認信号126は、操作音声入力用マイクロホン1
20から入力された音声の内容を機器が認識(操作音声
として認識)したことを使用者に知らせるための音声信
号である。なお、操作確認信号126は、例えばブザー
音やいわゆるビープ音等の信号であり、したがって操作
確認用スピーカ127はこれらブザー音やビープ音を出
力するようなスピーカである。
The operation control signal 125 indicates an operation corresponding to the matched operation voice pattern in the recording / reproducing apparatus 1.
15 is a control signal for causing
The operation confirmation signal 126 is input to the operation voice input microphone 1
This is a voice signal for notifying the user that the device has recognized the content of the voice input from the device 20 (recognized as an operation voice). The operation confirmation signal 126 is a signal such as a buzzer sound or a so-called beep sound. Therefore, the operation confirmation speaker 127 is a speaker that outputs these buzzer sounds or beep sounds.

【0019】一方、DSP122でのパターン一致分析
において、入力音声パターンと操作音声パターンが一致
しない場合は、DSP122及びマイクロコンピュータ
124は現在の状態を維持し、パターン一致分析を続行
する。
On the other hand, in the pattern matching analysis in the DSP 122, if the input voice pattern and the operation voice pattern do not match, the DSP 122 and the microcomputer 124 maintain the current state and continue the pattern matching analysis.

【0020】[0020]

【発明が解決しようとする課題】図4に示したように、
従来は、操作音声(音声認識される音声)を取り込むた
めの操作音声入力用マイクロホンと、撮影音声(記録媒
体に記録すべき本来の音声)を取り込むための撮影音声
入力用マイクロホンとを別々に用意するのが一般的であ
る。
As shown in FIG.
Conventionally, an operation voice input microphone for capturing operation voices (voices recognized by voice) and a shooting voice input microphone for capturing shooting voices (original voices to be recorded on a recording medium) are separately prepared. It is common to do.

【0021】このように、操作音声入力用マイクロホン
と撮影音声入力用マイクロホンとを別々に用意するの
は、操作音声はDSP等に送られて音声認識及び判断等
がなされるのに対して、撮影音声は記録再生装置にて磁
気テープ等の記録媒体に記録するための信号処理が施さ
れるからである。また、例えば実際に撮影を行っている
ときに、撮影音声と共に操作音声を記録媒体に記録して
しまわないようにし、且つ操作音声による機器の操作指
示を確実に実行可能にするために、操作音声入力用マイ
クロホンと撮影音声入力用マイクロホンとを別々に用意
すると同時に、これら操作音声入力用マイクロホンと撮
影音声入力用マイクロホンは互いに隔離して配置されて
いる。
As described above, the operation voice input microphone and the photographing voice input microphone are separately prepared because the operation voice is sent to a DSP or the like to perform voice recognition and judgment. This is because the sound is subjected to signal processing for recording on a recording medium such as a magnetic tape by the recording / reproducing apparatus. In addition, for example, in order to prevent the operation sound from being recorded on the recording medium together with the photographing sound during the actual shooting, and to make it possible to reliably execute the device operation instruction by the operation sound, The input microphone and the photographing voice input microphone are separately prepared, and the operation voice input microphone and the photographing voice input microphone are arranged separately from each other.

【0022】しかし、実際には、カメラ一体型ディジタ
ルVTR等の小型機器においては、両者のマイクロホン
を完全に隔離することは難しく、操作音声(音声認識さ
れる音声)も撮影音声と同時に記録されてしまうことが
多いという難点がある。また、小型化及びコスト削減と
いう観点から、2種類のマイクロホンを隔離して取り付
けることはデメリットである。
However, in practice, it is difficult to completely isolate both microphones in a small device such as a digital VTR with a built-in camera, and an operation voice (voice to be recognized) is also recorded at the same time as a shooting voice. There is a drawback that it often happens. Also, from the viewpoint of miniaturization and cost reduction, it is disadvantageous to mount two types of microphones separately.

【0023】さらに、音声による操作機能をカメラ一体
型ディジタルVTR等に持たせた場合、音声認識を行っ
た結果、正しく操作音声を認識したか否かを、使用者
(ユーザ)に知らせる必要があり、そのための操作確認
用スピーカが別に必要となる。しかし、近年のカメラ一
体型ディジタルVTR等においては、撮影音声の再生用
スピーカを内蔵することが一般化しており、当該再生用
スピーカに加えて更に操作確認用スピーカを設けること
は、小型化及びコスト削減の観点から望ましくない。
Further, when an operation function using voice is provided in a digital VTR with a built-in camera, it is necessary to inform the user whether or not the operation voice has been correctly recognized as a result of voice recognition. However, an operation confirmation speaker for that purpose is separately required. However, in recent years, a camera-integrated digital VTR and the like generally include a built-in speaker for reproducing photographed sound, and providing a speaker for operation confirmation in addition to the speaker for reproduction is downsized and cost-effective. It is not desirable from the viewpoint of reduction.

【0024】そこで、本発明はこのような状況に鑑みて
なされたものであり、例えばカメラ一体型ディジタルV
TR等のビデオカメラにおいて、操作音声入力用マイク
ロホンや操作確認用スピーカ等を設けずに音声入力によ
る機器操作を実現すると同時に、構成の小型化と低コス
ト化を実現するビデオカメラを提供することを目的とす
る。
Therefore, the present invention has been made in view of such a situation.
To provide a video camera such as a TR that realizes device operation by voice input without providing a microphone for operation voice input, a speaker for operation confirmation, and the like, and at the same time, realizes miniaturization and cost reduction of the configuration. Aim.

【0025】[0025]

【課題を解決するための手段】本発明のビデオカメラ
は、少なくとも撮影時の音声を入力可能なマイクロホン
を備えてなるビデオカメラであり、マイクロホンから入
力された音声信号の認識を行い、その認識結果に基づい
て各部を制御することにより、上述した課題を解決す
る。
SUMMARY OF THE INVENTION A video camera according to the present invention is a video camera provided with a microphone capable of inputting at least a sound at the time of photographing. The video camera recognizes an audio signal input from the microphone and obtains a recognition result. The above-mentioned problem is solved by controlling each unit based on the above.

【0026】また、本発明のビデオカメラは、マイクロ
ホンから入力された音声信号を音声認識手段が認識した
ときに、少なくとも撮影時に記録された音声を再生可能
なスピーカとから所定の音声を出力させることにより、
上述した課題を解決する。
In the video camera of the present invention, when a voice signal input from a microphone is recognized by voice recognition means, a predetermined voice is output from at least a speaker capable of reproducing voice recorded at the time of shooting. By
The above-mentioned problem is solved.

【0027】[0027]

【発明の実施の形態】本発明の好ましい実施の形態につ
いて、図面を参照しながら説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described with reference to the drawings.

【0028】本発明のビデオカメラが適用される一実施
の形態としてカメラ一体型ディジタルVTRを挙げ、以
下、本実施の形態のカメラ一体型ディジタルVTRにつ
いて説明する。
As one embodiment to which the video camera of the present invention is applied, a camera-integrated digital VTR will be described. Hereinafter, the camera-integrated digital VTR of this embodiment will be described.

【0029】図1には、Lチャンネル側マイクロホン1
L及びRチャンネル側マイクロホン1Rを備え、これら
マイクロホン1L,1Rにて、実際の撮影音声を取り込
むと共に、音声により機器の操作を実現するための操作
音声をも取り込むようにした、本実施の形態のカメラ一
体型ディジタルVTRの全体構成を示す。
FIG. 1 shows an L-channel microphone 1
This embodiment includes L and R channel side microphones 1R, and the microphones 1L and 1R capture actual photographing voices and also capture operation voices for realizing operation of devices by voices. 1 shows the overall configuration of a camera-integrated digital VTR.

【0030】図1中の破線で囲まれたブロックのうち、
ブロック50は本実施の形態のカメラ一体型ディジタル
VTR全体の信号処理ブロック(以下、カメラ一体型V
TR信号処理ブロック50とする)を示し、ブロック6
0は音声入力により機器の操作を実現するための処理ブ
ロック(以下、音声入力操作処理ブロック60とする)
を示している。
Of the blocks surrounded by broken lines in FIG.
A block 50 is a signal processing block (hereinafter referred to as a camera-integrated VTR) of the entire camera-integrated digital VTR of the present embodiment.
TR signal processing block 50), and block 6
0 is a processing block for realizing the operation of the device by voice input (hereinafter referred to as a voice input operation processing block 60).
Is shown.

【0031】先ず、本実施の形態のカメラ一体型ディジ
タルVTRの主要構成要素である、上記カメラ一体型V
TR信号処理ブロック50について説明する。
First, the camera-integrated VTR, which is a main component of the camera-integrated digital VTR of the present embodiment, is described.
The TR signal processing block 50 will be described.

【0032】カメラ一体型VTR信号処理ブロック50
において、CCD(固体撮像素子)2からの映像信号
は、カメラ系信号処理回路3にて各種信号処理を受けて
ディジタル映像信号4に変換され、記録系映像/音声信
号処理回路5に送られる。
Camera-integrated VTR signal processing block 50
, A video signal from a CCD (solid-state imaging device) 2 undergoes various kinds of signal processing in a camera signal processing circuit 3, is converted into a digital video signal 4, and is sent to a recording video / audio signal processing circuit 5.

【0033】また、L(左),R(右)2チャンネルの
マイクロホン1L,1Rから入力された音声信号は、そ
れぞれ対応するプリアンプ16L,16Rにて増幅さ
れ、さらにアナログ/ディジタル変換器(ADC)6で
ディジタル音声信号7に変換された後、記録系映像/音
声信号処理回路5に送られると共に後述する音声入力操
作処理ブロック60にも送られる。
The audio signals input from the L (left) and R (right) two-channel microphones 1L and 1R are amplified by the corresponding preamplifiers 16L and 16R, respectively, and further converted to an analog / digital converter (ADC). After being converted into a digital audio signal 7 in step 6, it is sent to the recording video / audio signal processing circuit 5 and also to an audio input operation processing block 60 to be described later.

【0034】当該記録系映像/音声信号処理回路5は、
ディジタル映像信号4とディジタル音声信号7に対し
て、それぞれ対応するビデオ映像系の圧縮処理、音声系
のシャフリング処理、テープに記録するための映像と音
声信号のフレーミング処理等を行い、記録映像/音声信
号8を生成する。この記録映像/音声信号8は、スイッ
チSW14に送られる。
The recording video / audio signal processing circuit 5
The digital video signal 4 and the digital audio signal 7 are subjected to the corresponding video video compression processing, audio shuffling processing, framing processing of video and audio signals to be recorded on tape, and the like. An audio signal 8 is generated. This recorded video / audio signal 8 is sent to the switch SW14.

【0035】この記録時におけるスイッチSW14は、
被切換端子がREC(記録)側に切り換えられる。これ
により、上記記録映像/音声信号8は、スイッチSW1
4を介してビデオテープレコーダ(VTR)等の記録再
生装置15に送られることになる。
The switch SW14 at the time of this recording is
The switched terminal is switched to the REC (recording) side. As a result, the recorded video / audio signal 8 is switched to the switch SW1
4 to a recording / reproducing device 15 such as a video tape recorder (VTR).

【0036】当該記録時の記録再生装置15は、入力さ
れた記録映像/音声信号8をRF信号化し、当該RF信
号を、回転ドラムと磁気ヘッドで構成される電気磁気変
換系により磁気テープに記録する。
The recording / reproducing device 15 at the time of recording converts the input recorded video / audio signal 8 into an RF signal, and records the RF signal on a magnetic tape by an electro-magnetic conversion system including a rotating drum and a magnetic head. I do.

【0037】逆に、再生時の記録再生装置15は、磁気
テープに記録されているRF信号を上記電気磁気変換系
にて再生し、当該再生されたRF信号を映像/音声信号
(再生映像/音声信号9)に変換してスイッチSW14
に送る。
Conversely, the recording / reproducing device 15 at the time of reproduction reproduces the RF signal recorded on the magnetic tape by the above-mentioned electro-magnetic conversion system, and converts the reproduced RF signal into a video / audio signal (reproduced video / audio). Switch to the audio signal 9) and switch SW14
Send to

【0038】当該再生時におけるスイッチSW14は、
被切換端子がPB(再生)側に切り換えられる。これに
より、再生映像/音声信号9は、スイッチSW14を介
して再生系映像/音声信号処理回路10に送られること
になる。
The switch SW14 at the time of the reproduction is
The switched terminal is switched to the PB (reproduction) side. As a result, the reproduced video / audio signal 9 is sent to the reproduction video / audio signal processing circuit 10 via the switch SW14.

【0039】再生系映像/音声信号処理回路10は、記
録系映像/音声信号処理回路5とは逆の信号処理を行う
ものであり、再生映像/音声信号9に対して映像と音声
信号のデフレーミング処理、映像系の伸張処理、音声系
のデシャフリング処理等を行う。
The reproduction video / audio signal processing circuit 10 performs signal processing reverse to that of the recording video / audio signal processing circuit 5, and performs decoding of video and audio signals on the reproduction video / audio signal 9. It performs framing processing, video-based decompression processing, and audio-based deshuffling processing.

【0040】この再生系映像/音声信号処理回路10か
ら出力された映像信号は、例えば外部出力端子から出
力、あるいは図示しない表示処理系に送られて表示され
る。
The video signal output from the reproduction video / audio signal processing circuit 10 is output from, for example, an external output terminal or sent to a display processing system (not shown) for display.

【0041】また、再生系映像/音声信号処理回路10
から出力された音声信号(撮影音声信号)は、加算器3
0を介してディジタル/アナログ変換器(DAC)12
に送られ、このディジタル/アナログ変換器12にてア
ナログ音声信号に変換され、さらにアンプ17にて増幅
された後、スピーカ13にて電気音声変換されて音声と
して出力される。加算器30は、後述する音声入力操作
処理ブロック60のDSP22からの操作確認信号(音
声信号)を、スピーカ13に送られる音声信号に加える
ために設けられたものであり、したがって、加算器30
から出力された音声信号11は、撮影音声信号と操作確
認信号を含むことになる。これにより、スピーカ13
は、記録再生装置15が磁気テープから取り出した撮影
音声の再生と、操作確認信号に基づく操作確認音声の再
生の、両方に使用されることになる。なお、当該スピー
カ13は、撮影音声を再生することができるスピーカで
あるため、ブザー音やビープ音だけでなく、言葉等の様
々な音声を出力することができる。
Also, the reproduction video / audio signal processing circuit 10
The audio signal (photographed audio signal) output from the
0 through a digital / analog converter (DAC) 12
The digital / analog converter 12 converts the audio signal into an analog audio signal, which is further amplified by an amplifier 17, converted into an electric audio signal by a speaker 13, and output as audio. The adder 30 is provided to add an operation confirmation signal (voice signal) from the DSP 22 of the voice input operation processing block 60 described later to the voice signal sent to the speaker 13.
The audio signal 11 output from the device includes a photographing audio signal and an operation confirmation signal. Thereby, the speaker 13
Is used for both the reproduction of the photographed sound taken out of the magnetic tape by the recording / reproducing device 15 and the reproduction of the operation confirmation sound based on the operation confirmation signal. Since the speaker 13 is a speaker that can reproduce the photographed sound, it can output not only a buzzer sound and a beep sound but also various sounds such as words.

【0042】次に、音声入力操作処理ブロック60につ
いて説明する。
Next, the voice input operation processing block 60 will be described.

【0043】上記ディジタル/アナログ変換器6からの
ディジタル音声信号7は、音声入力操作処理ブロック6
0のDSP22にも送られる。
The digital audio signal 7 from the digital / analog converter 6 is supplied to an audio input operation processing block 6
0 is also sent to the DSP 22.

【0044】DSP22では、入力されたディジタル音
声信号7から音声パターン(入力音声パターン)を抽出
し、当該入力音声パターンと、ROM(リードオンリメ
モリ)23に標準音声パターンの一つとして予め登録さ
れている操作音声認識用の音声パターン(操作音声パタ
ーン)との一致を分析する。このパターン一致分析結果
の信号は、認識判定出力45としてマイクロコンピュー
タ24に送られる。
The DSP 22 extracts a voice pattern (input voice pattern) from the input digital voice signal 7, and registers the input voice pattern and one of standard voice patterns in a ROM (read only memory) 23 in advance. The matching with the voice pattern for operation voice recognition (operation voice pattern) is analyzed. The signal of the pattern matching analysis result is sent to the microcomputer 24 as a recognition determination output 45.

【0045】ROM23には、標準音声パターンの一つ
として、音声による機器操作のために予め用意された言
葉に対応する操作音声パターンや、後述する操作確認や
音声対話のために予め用意された言葉に対応する確認音
声パターンや対話音声パターンなどが登録されている。
なお、上記機器操作のために用意された言葉としては、
日本語においては例えば「ろくが」、「ていし(或いは
とまれ)」、「さいせい」など、機器の操作を表すもの
として一般的に使用される各種の単語群が考えられる。
なお、ここに一例として挙げた「ろくが」とは録画スタ
ートの操作を機器に指示するための単語であり、「てい
し」は停止の操作を機器に指示するための単語であり、
「さいせい」は再生スタートの操作を機器に指示するた
めの単語である。また、上記操作確認のために用意され
た言葉としては、例えば「ろくがします」、「ていしし
ます」、「さいせいします」などを挙げることができ、
音声対話のために用意された言葉としては、例えば「ろ
くがしますか?」、「ていししますか?」、「さいせい
しますか?」などを挙げることができる。もちろんこれ
らは一例であり、ROM23には、他の様々な音声パタ
ーンが登録されている。
The ROM 23 stores, as one of the standard voice patterns, an operation voice pattern corresponding to a word prepared in advance for operating the device by voice, and a word prepared in advance for operation confirmation and voice dialog described later. , A confirmation voice pattern, a conversation voice pattern, and the like corresponding to.
In addition, as the words prepared for the above-mentioned device operation,
In Japanese, for example, various word groups generally used to represent the operation of the device, such as “Rokuga”, “Ishi (or Tomari)”, and “Saisei”, can be considered.
Note that “Rokuga” mentioned here as an example is a word for instructing the device to perform a recording start operation, “Ishishi” is a word for instructing the device to perform a stop operation,
“Saisei” is a word for instructing a device to perform a reproduction start operation. In addition, as words prepared for the above-mentioned operation confirmation, for example, “Rokushigashiru”, “Ishigashishi”, “Saiseishi”, etc. can be mentioned.
The words prepared for the voice dialogue include, for example, "Do you want to do something?", "Do you want to do something?", "Do you want to make something?" Of course, these are merely examples, and various other audio patterns are registered in the ROM 23.

【0046】DSP22でのパターン一致分析におい
て、入力音声パターンと操作音声パターンが一致した場
合、当該DSP22は、一致した旨を示す認識判定信号
45をマイクロコンピュータ24に送ると共に、操作確
認信号26を発生して加算器30に送る。
In the pattern matching analysis by the DSP 22, when the input voice pattern and the operation voice pattern match, the DSP 22 sends a recognition determination signal 45 indicating the match to the microcomputer 24 and generates the operation confirmation signal 26. And sends it to the adder 30.

【0047】ここで、操作確認信号26は、マイクロホ
ン1L,1Rから入力された音声の内容を機器が認識
(操作音声として認識)したことを使用者に知らせるた
めの信号である。当該操作確認信号26は、ブザー音や
いわゆるビープ音等を発生させるための信号であっても
良いが、本実施の形態では、操作音声として認識した内
容を使用者に確認させるための言葉に対応する音声信号
(以下、確認音声信号と呼ぶ)、若しくは使用者との間
で音声対話を行うための言葉に対応する音声信号(以
下、対話音声信号と呼ぶ)とする。なお、確認音声とし
ては、例えば「ろくがします」、「ていしします」、
「さいせいします」などを挙げることができ、また、対
話音声としては、例えば「ろくがしますか?」、「てい
ししますか?」、「さいせいしますか?」などを挙げる
ことができる。
Here, the operation confirmation signal 26 is a signal for notifying the user that the device has recognized the content of the voice input from the microphones 1L and 1R (recognized as the operation voice). The operation confirmation signal 26 may be a signal for generating a buzzer sound, a so-called beep sound, or the like. In the present embodiment, the operation confirmation signal 26 corresponds to a word for causing the user to confirm the content recognized as the operation sound. (Hereinafter, referred to as a confirmation voice signal) or a voice signal corresponding to a word for performing a voice dialogue with the user (hereinafter, referred to as a dialogue voice signal). In addition, as confirmation voices, for example, "Rokugashiru", "
You can mention "I'll do it", and the dialogue voices are, for example, "Do you want to do it?" be able to.

【0048】このように、上記操作確認信号26として
上記確認音声信号を出力する場合のDSP22は、RO
M23に登録されている標準音声パターンの中から当該
確認音声信号に対応する確認音声パターンを読み出し、
この確認音声パターンから確認音声信号を生成して出力
する。例えば「ろくがします」の確認音声信号を出力す
るときのDSP22は、ROM23から当該「ろくがし
ます」の確認音声パターンを読み出し、この確認音声パ
ターンから「ろくがします」の確認音声信号を生成して
出力する。また、上記操作確認信号26として上記対話
音声信号を出力する場合のDSP22は、ROM23に
登録されている標準音声パターンの中から当該対話音声
信号に対応する対話音声パターンを読み出し、この確認
音声パターンから確認音声信号を生成して出力する。例
えば、「ろくがしますか?」の対話音声信号を出力する
ときのDSP22は、ROM23から当該「ろくがしま
すか?」の対話音声パターンを読み出し、この対話音声
パターンから「ろくがしますか?」の対話音声信号を生
成して出力する。
As described above, when outputting the confirmation voice signal as the operation confirmation signal 26, the DSP 22
A confirmation sound pattern corresponding to the confirmation sound signal is read from the standard sound patterns registered in M23,
A confirmation voice signal is generated from this confirmation voice pattern and output. For example, when outputting the confirmation sound signal of "Rokugashiru", the DSP 22 reads the confirmation sound pattern of "Rokugashiru" from the ROM 23, and from this confirmation sound pattern, the confirmation sound signal of "Rokugashiru". Is generated and output. When outputting the dialogue voice signal as the operation confirmation signal 26, the DSP 22 reads the dialogue voice pattern corresponding to the dialogue voice signal from the standard voice patterns registered in the ROM 23, and reads out the dialogue voice pattern from the confirmation voice pattern. Generate and output a confirmation voice signal. For example, the DSP 22 that outputs the dialogue voice signal “Rokusugare?” Reads out the dialogue voice pattern “Rokusugare?” From the ROM 23, and reads “Rokugarashita” from this dialogue voice pattern. ?? is generated and output.

【0049】なお、本実施の形態では、DSP22が操
作確認信号を生成する例を挙げているが、マイクロコン
ピュータ24がROM23内の標準音声パターンを用い
て操作確認信号を生成するようにしてもよい。
In the present embodiment, the example in which the DSP 22 generates the operation confirmation signal is described. However, the microcomputer 24 may generate the operation confirmation signal using the standard voice pattern in the ROM 23. .

【0050】一方、DSP22でのパターン一致分析に
おいて、入力音声パターンと操作音声パターンが一致
し、当該一致した旨を示す認識判定信号をDSP22か
ら受け取ったときのマイクロコンピュータ24は、操作
コントロール信号25を発生して記録再生装置15に送
る。
On the other hand, in the pattern matching analysis in the DSP 22, the input voice pattern and the operation voice pattern match, and when the microcomputer 24 receives a recognition determination signal indicating the matching from the DSP 22, the microcomputer 24 outputs the operation control signal 25. It is generated and sent to the recording / reproducing device 15.

【0051】ここで、操作コントロール信号25は、当
該一致した操作音声パターンに対応した操作を記録再生
装置15に対して行わせるためのコントロール信号であ
る。例えば一致した操作音声パターンが「ろくが」の音
声パターンである場合、マイクロコンピュータ24は、
記録再生装置15に対して録画動作を開始させる操作コ
ントロール信号25を送り、また、例えば一致した操作
音声パターンが「さいせい」の音声パターンである場
合、マイクロコンピュータ24は、記録再生装置15に
対して再生動作を開始させる操作コントロール信号25
を送る。
Here, the operation control signal 25 is a control signal for causing the recording / reproducing apparatus 15 to perform an operation corresponding to the matched operation voice pattern. For example, if the matched operation voice pattern is the voice pattern “Rokuga”, the microcomputer 24
An operation control signal 25 for starting the recording operation is sent to the recording / reproducing device 15, and for example, when the matched operation sound pattern is a “saisei” sound pattern, the microcomputer 24 sends a signal to the recording / reproducing device 15. Control signal 25 for starting playback operation
Send.

【0052】このように、本実施の形態においては、操
作コントロール信号25に基づいて記録再生装置15を
動作させることで、当該記録再生装置15の音声による
操作制御を実現している。なお、ここまでの説明では、
操作音声としての単語一つに対して一操作を対応させた
例を挙げているが、複数の単語等を組み合わせた操作音
声により、複数の操作を組み合わせた複雑な動作を記録
再生装置15に対して行わせることも可能である。例え
ば「5ふん ろくが ていし」という操作音声を入力し
た場合には、5分間録画した後に停止するように記録再
生装置15が制御され、例えば「さいしょ もどり さ
いせい」という操作音声を入力した場合にはテープの最
初に戻って再生を開始するように記録再生装置15が制
御される。
As described above, in the present embodiment, by operating the recording / reproducing apparatus 15 based on the operation control signal 25, the operation control of the recording / reproducing apparatus 15 by voice is realized. In the description so far,
Although an example in which one operation is made to correspond to one word as the operation voice is described, a complicated operation in which a plurality of operations are combined is performed on the recording / reproducing device 15 by an operation voice in which a plurality of words and the like are combined. It is also possible to do it. For example, when an operation voice of “5 Fengoku ga shishi” is input, the recording / reproducing device 15 is controlled to stop after recording for 5 minutes. For example, an operation voice of “Saiyo Return Saisei” is input. In such a case, the recording / reproducing device 15 is controlled so as to return to the beginning of the tape and start reproduction.

【0053】なお、DSP22でのパターン一致分析に
おいて、入力音声パターンと操作音声パターンが一致し
ない場合は、DSP22及びマイクロコンピュータ24
は現在の状態を維持し、パターン一致分析を続行するこ
とになる。
In the pattern matching analysis in the DSP 22, if the input voice pattern and the operation voice pattern do not match, the DSP 22 and the microcomputer 24
Will maintain the current state and continue the pattern matching analysis.

【0054】ところで、本実施の形態では、実際の撮影
音声と操作音声の両方を共通のマイクロホン1L,1R
にて取り込むようにしているため、記録再生装置15に
は撮影音声だけでなく操作音声も記録されてしまう不具
合が生ずる虞がある。なお、この問題は、前記図4に示
したような構成において、撮影音声入力用マイクロホン
と操作音声入力用マイクロホンが近接している場合にも
同様に発生する問題である。
In the present embodiment, both the actual photographing voice and the operation voice are shared by the common microphones 1L and 1R.
Therefore, there is a possibility that the recording / reproducing apparatus 15 may record not only the photographing voice but also the operation voice. This problem also occurs when the microphone for photographing voice input and the microphone for operation voice input are close to each other in the configuration shown in FIG.

【0055】本実施の形態では、このような問題を解決
するために、上記DSP22によって入力音声パターン
と操作音声パターンが一致したことを検出した場合、マ
イクロコンピュータ24は、例えばその操作音声を含む
部分を記録しないように記録再生装置15を制御するた
めの操作コントロール信号25を出力するか、或いは、
当該操作音声が記録されてしまった部分を後に上書きす
るように記録再生装置15を制御するための操作コント
ロール信号25を出力する。
In the present embodiment, in order to solve such a problem, when the DSP 22 detects that the input voice pattern and the operation voice pattern match, the microcomputer 24 operates, for example, a part including the operation voice. Output an operation control signal 25 for controlling the recording / reproducing device 15 so as not to record the
An operation control signal 25 for controlling the recording / reproducing device 15 so as to later overwrite the portion where the operation voice has been recorded is output.

【0056】このようなマイクロコンピュータ24によ
る記録再生装置15の制御の様子を、図2を用いて具体
的に説明する。
The manner in which the microcomputer 24 controls the recording / reproducing device 15 will be specifically described with reference to FIG.

【0057】図2の(A)は、記録再生装置15が停止
若しくは録画一時停止モードになっている状態から、使
用者による例えば「ろくが」の音声に応じて録画をスタ
ートさせる場合(録画モードへ移る場合)の、記録再生
装置15の動作モード遷移を表している。この図2の
(A)において、例えば図中T1のタイミングで使用者
が「ろくが」の音声を発声した場合、DSP22は当該
「ろくが」の入力音声パターンと操作音声パターンの
「ろくが」との一致を検出する。この一致検出結果を受
けたマイクロコンピュータ24は、上記T1のタイミン
グから所定時間経過後、或いは「ろくが」の音声入力終
了後の図中T2のタイミングで、操作コントロール信号
25により記録再生装置15の録画をスタートさせる。
これにより、使用者による「ろくが」の音声は記録再生
装置15に記録されないことになる。
FIG. 2A shows a case where recording is started in response to a user's voice, for example, "Rokuga" from a state in which the recording / reproducing device 15 is stopped or in a recording pause mode (recording mode). FIG. 7 shows the transition of the operation mode of the recording / reproducing device 15). In FIG. 2A, for example, when the user utters the voice of “Rokuga” at the timing of T1 in the figure, the DSP 22 causes the input voice pattern of the “Rokuga” and the “Rokuga” of the operation voice pattern. Detects a match with The microcomputer 24 that has received the result of the coincidence detection uses the operation control signal 25 to operate the recording / reproducing device 15 at a timing T2 in the figure after a predetermined time has elapsed from the timing T1 or at the timing T2 in FIG. Start recording.
As a result, the voice of “Rokuga” by the user is not recorded in the recording / reproducing device 15.

【0058】また、図2の(B)は、記録再生装置が録
画モードになっている状態から、使用者による例えば
「ていし」の音声に応じて録画をストップさせる場合
(録画停止若しくは録画一時停止モードへ移る場合)
の、記録再生装置15の動作モード遷移を表している。
この図2の(B)において、例えば図中T3のタイミン
グで使用者が「ていし」の音声を発声した場合、DSP
22は当該「ていし」の入力音声パターンと操作音声パ
ターンの「ていし」との一致を検出する。この一致検出
結果を受けたマイクロコンピュータ24は、上記T3の
タイミングから所定時間経過後、或いは「ていし」の音
声入力終了後の図中T4のタイミングで、操作コントロ
ール信号25により記録再生装置15の録画位置を図中
T3の位置に戻してから録画停止或いは録画一時停止モ
ードにする。この録画停止或いは録画一時停止モードに
なっている状態で、その後に録画が行われると、図中T
3からT4までの間は上書きされるようになる。すなわ
ち、この図2の(B)の場合、図中T3からT4までの
間に使用者が発声した「ていし」の音声は記録されるこ
とになるが、上述のように図中T4からT3まで戻され
てその後に上書きがなされることにより、当該使用者に
よる「ていし」の音声は記録再生装置15に記録されな
い(記録として残らない)ことになる。
FIG. 2B shows a case in which the recording is stopped in response to the user's voice, for example, "stop" from the state in which the recording / reproducing apparatus is in the recording mode (stop recording or temporarily stop recording). When moving to stop mode)
5 shows the operation mode transition of the recording / reproducing apparatus 15.
In FIG. 2B, for example, when the user utters the voice of “Ishi” at the timing of T3 in the figure, the DSP
Reference numeral 22 detects the coincidence between the input voice pattern of the "teishi" and the "teishi" of the operation voice pattern. The microcomputer 24 that has received the result of the coincidence detection sends the operation control signal 25 to the recording / reproducing device 15 at a timing T4 in the figure after a lapse of a predetermined time from the timing T3, or at a timing T4 in FIG. After the recording position is returned to the position of T3 in the figure, the recording is stopped or the recording is temporarily stopped. In the recording stop or recording pause mode, if recording is performed later, T in FIG.
It is overwritten from 3 to T4. In other words, in the case of FIG. 2B, the voice of "Ishishi" uttered by the user during the period from T3 to T4 in the figure is recorded, but as described above, from T4 to T3 in the figure. Is returned and overwritten thereafter, so that the sound of the user is not recorded in the recording / reproducing device 15 (is not recorded).

【0059】以上のように、本実施の形態のカメラ一体
型ディジタルVTRにおいては、操作音声の内容に合わ
せて記録再生装置15の動作モードを制御することで、
簡単に操作音声を記録しないようにすることができる。
As described above, in the camera-integrated digital VTR according to the present embodiment, the operation mode of the recording / reproducing device 15 is controlled in accordance with the content of the operation sound.
It is possible to easily prevent the operation voice from being recorded.

【0060】一方、再生時においては、使用者からの操
作音声が記録されることはないので、入力音声パターン
と操作音声パターンの一致を検出した時点で、記録再生
装置15に対してその操作音声パターンに該当する操作
を行わせればよい。
On the other hand, since the operation voice from the user is not recorded at the time of reproduction, the operation voice is transmitted to the recording / reproducing device 15 when the match between the input voice pattern and the operation voice pattern is detected. An operation corresponding to the pattern may be performed.

【0061】なお、使用者からの入力音声をDSP22
が操作音声として認識したときには、前述したようにス
ピーカ13から確認音声信号26に応じた確認音声或い
は対話音声が出力されることになるので、例えば実際に
上記T2から録画をスタート、或いは上記T4にて録画
をストップするのは、当該確認音声或いは対話音声によ
って機器が正しく操作を認識していることを使用者が確
認できた後となる。すなわち、マイクロコンピュータ2
4が操作コントロール信号25によって実際に記録再生
装置15を操作制御するのは、上記確認音声或いは対話
音声により機器が正しく操作を認識していることを使用
者が確認した後となる。このように、使用者による確認
がなされたことをマイクロコンピュータ24が知る方法
としては、例えば、確認音声をスピーカ13から出力し
た後に一定時間使用者から新たな操作音声の入力或いは
再度の操作音声入力がないときに、上記使用者による確
認がなされたとみなす方法や、例えば、確認音声をスピ
ーカ13から出力した後に例えば使用者による「オーケ
ー(OK)」或いは「かくにん」の音声入力がなされた
ときに、上記使用者による確認がなされたとする方法、
さらに例えば、確認音声をスピーカ13から出力した後
に例えば使用者により図示しない所定の確認ボタンや確
認スイッチ等からの入力がなされたときに、上記使用者
による確認がなされたとする方法、などが考えられる。
なお、これらの方法は一例であり、他に様々な方法が考
えられる。
It is to be noted that the input voice from the user is transmitted to the DSP 22
Is recognized as an operation voice, a confirmation voice or a dialogue voice corresponding to the confirmation voice signal 26 is output from the speaker 13 as described above. Therefore, for example, recording is actually started from the above T2, or The recording is stopped after the user has confirmed that the device has correctly recognized the operation by the confirmation voice or the dialogue voice. That is, the microcomputer 2
The user 4 actually controls the operation of the recording / reproducing device 15 by the operation control signal 25 after the user confirms that the device has correctly recognized the operation by the confirmation voice or the dialogue voice. As described above, as a method for the microcomputer 24 to know that the confirmation has been made by the user, for example, after a confirmation sound is output from the speaker 13, a new operation sound is input from the user for a predetermined time or an operation sound is input again When there is no, there is a method in which the confirmation is made by the user or, for example, after the confirmation voice is output from the speaker 13, for example, a voice input of “OK” or “OK” is made by the user. Sometimes, if the above user confirms,
Further, for example, a method may be considered in which the confirmation is made by the user when a confirmation sound is output from the speaker 13 and then the user inputs an input from a predetermined confirmation button or confirmation switch (not shown). .
Note that these methods are merely examples, and various other methods are conceivable.

【0062】また例えば、使用者以外の他者から発声さ
れた音声が前記操作音声と同じ単語を含む場合は、当該
他者による音声を使用者からの操作音声として誤って検
出してしまい、使用者が意図しない操作がなされてしま
う虞がある。このようなことから、本実施の形態では、
話者を特定(使用者の声を特定)するようなパターンを
ROM23に登録しておくようにすることで、誤認識を
避けるようにしている。すなわち、図1のROM23と
して、記憶保持動作が必要ない書き換え可能なメモリを
用い、予め使用者が前記操作音声を入力して学習させた
操作音声パターンを登録しておくことにする。これによ
り、他者による音声を使用者からの操作音声として誤認
識してしまうことを防止できる。
For example, if a voice uttered by another person other than the user contains the same word as the operation voice, the voice of the other person is erroneously detected as the operation voice of the user, and There is a possibility that an operation not intended by the user may be performed. For this reason, in the present embodiment,
By registering a pattern for identifying a speaker (identifying a user's voice) in the ROM 23, erroneous recognition is avoided. In other words, a rewritable memory that does not require a memory holding operation is used as the ROM 23 in FIG. 1, and an operation voice pattern learned by the user by inputting the operation voice is registered in advance. This can prevent erroneous recognition of the voice of another person as the operation voice of the user.

【0063】さらに例えば、通常の音声として記録すべ
き音声、すなわち撮影音声として「ろくが」や「てい
し」、「さいせい」等が使用者から発声され、その音声
をマイクロホンにて取り込んだような場合、これらの撮
影音声を操作音声として誤って検出してしまうと、使用
者が意図しない操作がなされてしまうと共に、これら撮
影音声を記録したいのにもかかわらず記録されないこと
になるが、近年における音声認識技術の進歩によれば、
そのような誤認識は減少する方向にある。また、例えば
図1に示すようにスイッチ31を設け、このスイッチ3
1をオンにしているときのみ、音声による操作を受け付
けるようにするような方法を考えることもできる。な
お、この方法は一例であり、他に様々な方法が考えられ
る。
Further, for example, a sound to be recorded as a normal sound, that is, “Rokuga”, “Ishishi”, “Saisei” or the like is uttered by a user as a photographed sound, and the sound is captured by a microphone. In such a case, if these photographed sounds are erroneously detected as operation sounds, an operation not intended by the user is performed, and the photographed sounds are not recorded despite the desire to record them. According to advances in speech recognition technology in
Such misperceptions are on the decline. Further, for example, a switch 31 is provided as shown in FIG.
It is also possible to consider a method in which a voice operation is accepted only when 1 is turned on. Note that this method is an example, and various other methods are conceivable.

【0064】次に、図3には、図1に示した音声入力操
作処理ブロック60内のDSP22及びROM23の具
体的構成例を示す。
Next, FIG. 3 shows a specific configuration example of the DSP 22 and the ROM 23 in the voice input operation processing block 60 shown in FIG.

【0065】この図3において、図1のアナログ/ディ
ジタル変換器6からのディジタル音声信号7は、DSP
22に送られる。ここで、本実施の形態では、実際の撮
影音声と操作音声の両方を共通のマイクロホン1L,1
Rにて取り込むようにしているため、当該DSP22に
入力されるディジタル音声信号7は、撮影音声信号の
み、操作音声信号のみ、或いは撮影音声信号と操作音声
信号が混ざり合った信号の何れかとなる。したがって、
当該DSP22では、供給されたディジタル音声信号7
から操作音声信号のみを抜き出さなければならない。
In FIG. 3, digital audio signal 7 from analog / digital converter 6 in FIG.
22. Here, in the present embodiment, both the actual shooting sound and the operation sound are shared by the common microphones 1L and 1L.
The digital audio signal 7 input to the DSP 22 is either a photographed audio signal only, an operation audio signal only, or a mixed signal of the photographed audio signal and the operation audio signal. Therefore,
In the DSP 22, the supplied digital audio signal 7
Only the operation voice signal must be extracted from.

【0066】このため、DSP22に入力されたディジ
タル音声信号は、先ず前処理部41に入力される。当該
前処理部41は、入力したディジタル音声信号7から音
声区間の信号のみを抽出すると共に、音声信号以外の雑
音を除去するフィルタ等により構成されている。この前
処理部41にて取り出された音声区間の信号は、スペク
トル分析/特徴パラメータ抽出部42に送られる。
Therefore, the digital audio signal input to the DSP 22 is first input to the pre-processing unit 41. The pre-processing unit 41 is configured by a filter for extracting only a signal in a voice section from the input digital voice signal 7 and removing noise other than the voice signal. The signal of the voice section extracted by the preprocessing unit 41 is sent to the spectrum analysis / feature parameter extraction unit 42.

【0067】当該スペクトル分析/特徴パラメータ抽出
部42は、音声区間の信号のスペクトル分析を行い、得
られたスペクトル成分を元に、後段のパターンマッチン
グ部43でのパターンマッチングに必要な特徴的なパタ
ーンやピッチ波形等のパラメータを抽出する。このスペ
クトル分析/特徴パラメータ抽出部42により抽出され
た特徴パラメータが前記入力音声パターンとしてパター
ンマッチング部43に送られる。
The spectrum analysis / characteristic parameter extraction unit 42 performs a spectrum analysis of the signal of the voice section, and uses the obtained spectral components to obtain characteristic patterns necessary for pattern matching in the pattern matching unit 43 in the subsequent stage. And parameters such as pitch waveforms. The feature parameters extracted by the spectrum analysis / feature parameter extraction unit 42 are sent to the pattern matching unit 43 as the input voice pattern.

【0068】パターンマッチング部43では、特徴パラ
メータから求めたパターン、すなわちマイクロホンから
入力された音声のパターン(入力音声パターン)と、予
めROM23の標準音声パターン格納領域44に格納さ
れている操作音声パターンとのパターンマッチングを行
い、それらのパターンが一致するか否かの判定を行う。
このパターンマッチング部43によるパターンマッチン
グの結果が、認識判定出力45として図1のマイクロコ
ンピュータ24に送られる。
In the pattern matching section 43, the pattern obtained from the characteristic parameter, that is, the pattern of the voice input from the microphone (input voice pattern) and the operation voice pattern previously stored in the standard voice pattern storage area 44 of the ROM 23 are stored. And it is determined whether or not the patterns match.
The result of the pattern matching by the pattern matching unit 43 is sent to the microcomputer 24 of FIG.

【0069】また、入力音声パターンと操作音声パター
ンとが一致したとき、このパターンマッチング部43か
らはその一致した操作音声パターンに対応する信号が操
作確認信号発生部46に送られる。当該操作確認信号発
生部46では、ROM23の標準音声パターン格納部4
4から、その一致した操作音声パターンに対応してスピ
ーカ13から出力すべき確認音声を生成するためのパタ
ーン(確認音声パターン)、若しくは対話音声を生成す
るためのパターン(対話音声パターン)を取り出し、こ
れらの音声パターンを用いて前記操作確認信号としての
音声信号を生成する。すなわち、パターンマッチングの
結果、例えば入力音声パターンの「ろくが」と操作音声
パターンの「ろくが」が一致したような場合において
は、確認音声パターンである「ろくがします」の音声パ
ターン、若しくは、対話音声パターンである「ろくがし
ますか?」の音声パターンを、ROM23の標準音声パ
ターン格納部44から読み出して、その音声信号を出力
するようなことを行う。
When the input voice pattern matches the operation voice pattern, a signal corresponding to the matched operation voice pattern is sent from the pattern matching unit 43 to the operation confirmation signal generation unit 46. In the operation confirmation signal generator 46, the standard voice pattern storage 4
4, a pattern (confirmation voice pattern) for generating a confirmation voice to be output from the speaker 13 or a pattern (conversation voice pattern) for generating a dialogue voice is extracted from the corresponding operation voice pattern. An audio signal as the operation confirmation signal is generated using these audio patterns. In other words, as a result of the pattern matching, for example, when the input voice pattern “Rokuga” matches the operation voice pattern “Rokuga”, the confirmation voice pattern “Rokugashiru” voice pattern, or The voice pattern of the dialogue voice pattern "Do you want to do?" Is read from the standard voice pattern storage unit 44 of the ROM 23, and the voice signal is output.

【0070】上述したように本発明実施の形態において
は、前記図4の構成のように操作音声入力用と撮影音声
入力用のマイクロホンを別々に設けることなく、撮影音
声を入力するために元々設けられているマイクロホンを
操作音声入力用に共用することで、マイクロホンの個数
を減らすことのみならず、操作音声入力用のプリアンプ
やアナログ/ディジタル変換器等のハードウェアを削減
でき、その結果、全体のコストを下げ、且つ、構成の小
型化をも実現している。また、本実施の形態によれば、
マイクロホンを共用することによって撮影音声信号と操
作音声信号にクロストークが生じていたとしても、操作
音声を正確に認識でき、したがって確実な音声操作が可
能であり、且つ、撮影音声については記録を、操作音声
については記録されないようにすることが可能である。
As described above, in the embodiment of the present invention, microphones for inputting operation voice and inputting voice for shooting are not separately provided as in the configuration of FIG. By sharing the microphone for operation voice input, not only the number of microphones can be reduced, but also hardware such as preamplifiers and analog / digital converters for operation voice input can be reduced. The cost is reduced and the size of the configuration is also reduced. According to the present embodiment,
Even if crosstalk occurs between the photographing voice signal and the operation voice signal by sharing the microphone, the operation voice can be accurately recognized, and therefore, a reliable voice operation can be performed. It is possible that the operation voice is not recorded.

【0071】さらに本発明実施の形態においては、図4
の構成のように操作確認用と再生用のスピーカを別々に
設けることなく、再生用のスピーカを操作確認用に共用
することで、スピーカの個数やその他当該スピーカに付
属する部品等を減らすことができ、その結果、全体のコ
ストを下げ、且つ、構成の小型化をも実現している。ま
た、本実施の形態によれば、再生用スピーカを操作確認
用に用いているため、操作確認音声として、従来のよう
なブザー音やビープ音だけでなく、言葉としての音声を
用いることができ、したがって当該音声による確認や使
用者との間での対話形式による確認等が可能となる。
Further, in the embodiment of the present invention, FIG.
By not using separate speakers for operation confirmation and playback as in the above configuration, the speakers for playback are shared for operation confirmation, thereby reducing the number of speakers and other parts attached to the speakers. As a result, the overall cost is reduced and the size of the configuration is reduced. Further, according to the present embodiment, since the reproduction speaker is used for operation confirmation, not only a conventional buzzer sound and beep sound but also a sound as a word can be used as the operation confirmation sound. Therefore, it is possible to perform confirmation by the voice or confirmation by dialogue with the user.

【0072】本発明は、上記実施の形態に一例として挙
げたカメラ一体型ディジタルVTRに限らず、音声記録
用のマイクロホンと音声再生用スピーカを備え、当該マ
イクロホンにて取り込んだ音声を記録するような各種の
電子機器に適用でき、例えば、撮影時の音声を記録可能
なディジタルスチルカメラ等にも適用可能である。
The present invention is not limited to the camera-integrated digital VTR described as an example in the above embodiment, but includes a microphone for voice recording and a speaker for voice reproduction, and records the voice fetched by the microphone. The present invention can be applied to various electronic devices, for example, a digital still camera capable of recording sound at the time of shooting.

【0073】また、マイクロコンピュータ24が音声入
力に基づいて制御するのは、記録再生装置15に限ら
ず、当該カメラ一体型ディジタルVTRの他の部分であ
ってもよい。例えば、撮影した映像を表示する表示手段
(例えば液晶表示装置等)を備えている場合に、この表
示手段の表示動作を制御したり、レンズ系のフォーカシ
ングやズーミング等を制御するようなことも可能であ
る。
What the microcomputer 24 controls based on the voice input is not limited to the recording / reproducing device 15, but may be another part of the camera-integrated digital VTR. For example, when a display means (for example, a liquid crystal display device or the like) for displaying a photographed image is provided, it is possible to control the display operation of the display means and to control focusing and zooming of a lens system. It is.

【0074】[0074]

【発明の効果】以上の説明で明らかなように、本発明に
おいては、撮影時の音声を入力可能なマイクロホンから
入力された音声信号の認識を行い、その認識結果に基づ
いて各部を制御することにより、別個に操作音声入力用
マイクロホンを設けることなく、音声入力による機器操
作を実現し、構成の小型化と低コスト化を実現してい
る。
As is apparent from the above description, according to the present invention, a voice signal input from a microphone capable of inputting a voice at the time of shooting is recognized, and each unit is controlled based on the recognition result. Accordingly, the device operation by voice input is realized without providing a separate microphone for operation voice input, and the configuration is reduced in size and cost is reduced.

【0075】また、本発明においては、マイクロホンか
ら入力された音声信号を音声認識手段が認識したとき
に、撮影時に記録された音声を再生可能なスピーカから
所定の音声を出力させることにより、別個に操作確認用
スピーカを設けることなく、音声入力による機器操作を
実現し、構成の小型化と低コスト化を実現している。
Further, according to the present invention, when the voice recognition means recognizes the voice signal input from the microphone, a predetermined voice is output from a speaker capable of reproducing the voice recorded at the time of shooting, so that the voice is separately output. The device operation by voice input is realized without providing an operation confirmation speaker, and the configuration is reduced in size and cost is reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明実施の形態のカメラ一体型ディジタルV
TRの概略構成を示すブロック回路図である。
FIG. 1 is a digital V-camera integrated with a camera according to an embodiment of the present invention.
FIG. 2 is a block circuit diagram illustrating a schematic configuration of a TR.

【図2】マイクロコンピュータによる記録再生装置の制
御の様子についての説明に用いる図である。
FIG. 2 is a diagram used to describe a state of control of a recording / reproducing device by a microcomputer.

【図3】図1の音声入力操作処理ブロック内のDSP及
びROMの具体的構成例を示すブロック回路図である。
FIG. 3 is a block circuit diagram showing a specific configuration example of a DSP and a ROM in the voice input operation processing block of FIG. 1;

【図4】音声操作が可能なカメラ一体型ディジタルVT
Rの概略構成を示すブロック回路図である。
FIG. 4 is a camera-integrated digital VT capable of voice operation.
FIG. 2 is a block circuit diagram illustrating a schematic configuration of R.

【符号の説明】[Explanation of symbols]

1L,1R 撮影及び操作音声入力用のマイクロホン、
2 CCD、 3カメラ系信号処理回路、 5 記録
系映像/音声信号処理回路、 6 アナログ/ディジタ
ル変換器、 10 再生系映像/音声信号処理回路、
12 ディジタル/アナログ変換器、 13 再生及び
操作確認用のスピーカ、 SW14スイッチ、 15
記録再生装置、 16L,16R プリアンプ、 22
DSP、 23 ROM、 24 マイクロコンピュ
ータ、 30 加算器、 31 スイッチ、 41 前
処理部、 42 スペクトル分析/特徴パラメータ抽出
部、 43 パターンマッチング部、 44 標準音声
パターン格納部、 46 操作確認信号発声部、 50
カメラ一体型VTR信号処理ブロック、 60 音声
入力操作ブロック
1L, 1R Microphone for photographing and operation voice input,
2 CCD, 3 camera system signal processing circuit, 5 recording system video / audio signal processing circuit, 6 analog / digital converter, 10 reproduction system video / audio signal processing circuit,
12 digital / analog converter, 13 speaker for playback and operation confirmation, SW14 switch, 15
Recording / reproducing device, 16L, 16R preamplifier, 22
DSP, 23 ROM, 24 microcomputer, 30 adder, 31 switch, 41 preprocessing unit, 42 spectrum analysis / feature parameter extraction unit, 43 pattern matching unit, 44 standard voice pattern storage unit, 46 operation confirmation signal utterance unit, 50
Camera integrated VTR signal processing block, 60 voice input operation block

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも撮影時の音声を入力可能なマ
イクロホンを備えてなるビデオカメラにおいて、 上記マイクロホンから入力された音声信号の認識を行う
音声認識手段と、 上記音声信号の認識結果に基づいて各部を制御する制御
手段とを有することを特徴とするビデオカメラ。
1. A video camera comprising at least a microphone capable of inputting a sound at the time of photographing, a voice recognizing means for recognizing a voice signal input from the microphone, and each unit based on a recognition result of the voice signal. And a control means for controlling the video camera.
【請求項2】 上記制御手段は、少なくとも記録装置を
制御し、上記マイクロホンから入力された音声信号のう
ち、上記音声認識手段にて認識した音声信号を除く他の
音声信号を上記記録装置に記録させることを特徴とする
請求項1記載のビデオカメラ。
2. The control means controls at least a recording device, and records other audio signals of the audio signals input from the microphone except for the audio signal recognized by the audio recognition means in the recording device. The video camera according to claim 1, wherein the video camera is operated.
【請求項3】 上記音声認識手段は、予め登録してなる
複数の音声パターンと上記マイクロホンから入力された
音声信号のパターンとを比較して一致を検出し、 上記音声認識手段において一致を検出したとき、上記制
御手段は、当該一致した音声パターンに対応する制御を
行うことを特徴とする請求項1記載のビデオカメラ。
3. The voice recognition means detects a match by comparing a plurality of voice patterns registered in advance with a pattern of a voice signal input from the microphone, and detects a match by the voice recognition means. 2. The video camera according to claim 1, wherein said control means performs control corresponding to the matched audio pattern.
【請求項4】 上記音声認識手段は、上記マイクロホン
から入力された音声信号から音声区間を抽出する音声区
間抽出手段と、上記抽出した音声区間のスペクトル分析
を行うスペクトル分析手段と、当該スペクトル分析結果
から音声の特徴パラメータを上記マイクロホンから入力
された音声信号のパターンとして抽出する特徴パラメー
タ抽出手段と、複数の音声パターンを格納する音声パタ
ーン格納手段と、上記特徴パラメータのパターンと上記
音声パターン格納手段に格納されている音声パターンと
を比較して一致を検出するパターン比較一致検出手段と
を備えることを特徴とする請求項3記載のビデオカメ
ラ。
4. The voice recognition means includes: voice section extraction means for extracting a voice section from a voice signal input from the microphone; spectrum analysis means for performing a spectrum analysis of the extracted voice section; A feature parameter extracting unit that extracts a feature parameter of a voice as a pattern of a voice signal input from the microphone; a voice pattern storing unit that stores a plurality of voice patterns; and a pattern of the feature parameter and the voice pattern storing unit. 4. The video camera according to claim 3, further comprising: a pattern comparison / match detection unit that detects a match by comparing with a stored voice pattern.
【請求項5】 少なくとも撮影時に記録された音声を再
生可能なスピーカと、 上記マイクロホンから入力された音声信号を上記音声認
識手段が認識したときに、当該スピーカから所定の音声
を出力させる所定音声発生手段とを有することを特徴と
する請求項1記載のビデオカメラ。
5. A speaker capable of reproducing at least a sound recorded at the time of photographing, and a predetermined sound generation for outputting a predetermined sound from the speaker when the sound recognition means recognizes a sound signal input from the microphone. 2. The video camera according to claim 1, further comprising:
【請求項6】 上記所定音声発生手段は、上記音声認識
手段による認識結果を使用者に対して確認させるための
確認音声、若しくは、上記音声認識手段による認識結果
に応じて使用者との間で対話を行うための対話音声を、
上記所定の音声として上記スピーカから発生させること
を特徴とする請求項5記載のビデオカメラ。
6. The predetermined voice generating means includes: a confirmation voice for allowing a user to confirm the recognition result by the voice recognition means; or a predetermined voice between the user according to the recognition result by the voice recognition means. Dialogue voice for dialogue,
6. The video camera according to claim 5, wherein the predetermined sound is generated from the speaker.
JP10211500A 1998-07-27 1998-07-27 Video camera Withdrawn JP2000050149A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10211500A JP2000050149A (en) 1998-07-27 1998-07-27 Video camera

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10211500A JP2000050149A (en) 1998-07-27 1998-07-27 Video camera

Publications (1)

Publication Number Publication Date
JP2000050149A true JP2000050149A (en) 2000-02-18

Family

ID=16606978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10211500A Withdrawn JP2000050149A (en) 1998-07-27 1998-07-27 Video camera

Country Status (1)

Country Link
JP (1) JP2000050149A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253966A (en) * 2008-04-09 2009-10-29 Akira Tomita Fingertip camera ii
JP2010035118A (en) * 2007-10-25 2010-02-12 Canon Inc Image capturing apparatus and information processing method
JP2010200195A (en) * 2009-02-27 2010-09-09 Sanyo Electric Co Ltd Electronic camera
JP2016009202A (en) * 2014-06-20 2016-01-18 株式会社デンソー Drive recorder and program for drive recorder

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010035118A (en) * 2007-10-25 2010-02-12 Canon Inc Image capturing apparatus and information processing method
JP2009253966A (en) * 2008-04-09 2009-10-29 Akira Tomita Fingertip camera ii
JP2010200195A (en) * 2009-02-27 2010-09-09 Sanyo Electric Co Ltd Electronic camera
JP2016009202A (en) * 2014-06-20 2016-01-18 株式会社デンソー Drive recorder and program for drive recorder

Similar Documents

Publication Publication Date Title
JP2687712B2 (en) Integrated video camera
CN102098436B (en) Imaging apparatus and its control method
JP2000050149A (en) Video camera
JP2011139306A (en) Imaging device, and reproduction device
JP2004301893A (en) Control method of voice recognition device
JP2000155595A (en) Image pickup device
JP2000078516A (en) Recording device, recording and reproducing device, voice information recording method and recording medium
JP4143487B2 (en) Time-series information control system and method, and time-series information control program
JP2003295892A (en) Interpretation system and program
JP2001339681A (en) Digital still camera and its operation control method
JP2000020091A (en) Voice recording and reproducing device
JP2003298916A (en) Imaging apparatus, data processing apparatus and method, and program
KR20060057748A (en) Apparatus and method variable as corresponding to image and voice
JP3027317B2 (en) Video recording / reproducing device with still camera
JPH1152995A (en) Voice reproducing device
KR200223513Y1 (en) Portable Voice and Still Image Recorder
JP2000236508A (en) Image recorder
JP4472213B2 (en) Data recording / reproducing device
JPH0969038A (en) Voice output device
JP2000101919A (en) Signal processor and method, reproducing device and method, and image pickup device
JP3350392B2 (en) Electronic still camera with video output function
KR970007749B1 (en) Audio editing device in complex system of tv/vcr
JP2008160755A (en) Moving picture recording and reproducing apparatus
KR20020089290A (en) The Moving Picture and Sound Preservation System of the Video-phone
JPH05161100A (en) Magnetic video recording and reproducing device incorporated with camera

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004