JP2000081899A - Speech recognizing device and speech recording and reproducing device - Google Patents

Speech recognizing device and speech recording and reproducing device

Info

Publication number
JP2000081899A
JP2000081899A JP10249908A JP24990898A JP2000081899A JP 2000081899 A JP2000081899 A JP 2000081899A JP 10249908 A JP10249908 A JP 10249908A JP 24990898 A JP24990898 A JP 24990898A JP 2000081899 A JP2000081899 A JP 2000081899A
Authority
JP
Japan
Prior art keywords
filter
post
audio data
audio
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10249908A
Other languages
Japanese (ja)
Inventor
秀享 ▲高▼橋
Hideyuki Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10249908A priority Critical patent/JP2000081899A/en
Publication of JP2000081899A publication Critical patent/JP2000081899A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain good speech recognition performance with recorded speeches without deteriorating the sound quality of reproduced sounds by executing control in such a manner that a post filter means is not driven at the time of executing speech recognition processing and that the post filter means is driven at the time of reproduction. SOLUTION: A post filter control section 55 judges whether a reproducing button is clicked or not and if the section judges that the button is clicked, the section controls a changeover switch 56 and connects the output of a synthesizing filter 53 to the post filter 54. As a result, the post filter 54 is driven. The speeches are then reproduced by a speaker in accordance with the post filter output. When the speech recognition button is clicked, the post filter control section 55 controls the changeover switch 56 and connects the output of the synthesizing filter 53 as it is to a terminal. As a result, the post filter 54 is not driven. The speech recognition processing is thus executed in accordance with the signal not passing the post filter 54.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置、音
声記録再生装置、より詳しくは、音声データの復号化を
行ってそのノイズ整形を行い得る音声認識装置、音声記
録再生装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device and a voice recording / reproducing device, and more particularly to a voice recognition device and a voice recording / reproducing device capable of decoding voice data and shaping the noise.

【0002】[0002]

【従来の技術】いわゆる音声ワードプロセッサ、あるい
は、口述することにより音声データを入力すると、該音
声データに基づいて自動的に文書を作成し、それを画面
等に表示する、いわゆるディクテーションシステムの実
現は、従来からの音声認識システム開発における一つの
目標であり、現在、活発に研究が進められている。
2. Description of the Related Art A so-called voice word processor or a so-called dictation system that automatically creates a document based on the voice data when inputting voice data by dictation and displays it on a screen or the like, This is one of the goals in the development of a conventional speech recognition system, and is currently being actively researched.

【0003】こうした近年の音声認識技術および計算機
技術の進歩に伴って、パーソナルコンピュータにマイク
ロフォンを接続し、このマイクロフォンを用いて入力し
た音声を、該パーソナルコンピュータ上で文書化して画
面に表示させる装置が開発されていて、一般に市販され
ている。
[0003] With the recent advances in speech recognition technology and computer technology, a microphone is connected to a personal computer, and voice input using the microphone is documented on the personal computer and displayed on a screen. It has been developed and is generally commercially available.

【0004】一方、従来より、文書を作成するにあた
り、作成したい文書の内容を一旦テープレコーダ等の録
音装置に口述録音して、後で秘書やタイピスト等がその
口述内容を再生しながら、タイプライタやワードプロセ
ッサ等の文書作成装置により文書化する、といった形態
をとることが、テープレコーダ等の録音装置の有効な利
用形態の1つとして一般化している。
On the other hand, conventionally, when a document is created, the content of the document to be created is once dictated and recorded on a recording device such as a tape recorder, and a secretary or a typist or the like later reproduces the dictated content, and a typewriter. The use of a recording device such as a tape recorder or the like has become common as one of effective forms of using a recording device such as a tape recorder.

【0005】このような口述録音においては以前から、
録音内容を自動的に文書に変換する技術の実現が強く望
まれている。
[0005] In such dictation recordings,
It is strongly desired to realize a technique for automatically converting a recorded content into a document.

【0006】こうした要望を実現する技術の一例とし
て、例えば、特公昭63−33174号公報には、テー
プレコーダ等の録音装置を音声認識装置に接続して、該
録音装置の再生信号を入力して文章作成を行う装置に関
する技術が記載されている。
As an example of a technique for realizing such a demand, for example, Japanese Patent Publication No. 63-33174 discloses that a recording device such as a tape recorder is connected to a voice recognition device, and a reproduction signal of the recording device is inputted. This document describes a technology related to an apparatus for creating sentences.

【0007】ところで、近年のコンピュータ技術やディ
ジタル信号処理技術等の発展により、録音内容をディジ
タルデータ化して、フラッシュメモリ等の書込み/消去
が可能な記録媒体に記録する、いわゆるディジタルレコ
ーダが開発されるようになり、さらに、そのディジタル
化された録音内容をパーソナルコンピュータに転送し
て、該パーソナルコンピュータにおいて録音内容を再生
することが可能となっている。
With the recent development of computer technology and digital signal processing technology, so-called digital recorders have been developed which convert recorded data into digital data and record it on a writable / erasable recording medium such as a flash memory. As a result, the digitized recorded contents can be transferred to a personal computer, and the recorded contents can be reproduced on the personal computer.

【0008】本出願人は、このようなディジタルレコー
ダから転送された録音データを、パーソナルコンピュー
タ上において簡単な操作で扱うことを可能とする音声デ
ータの処理制御装置を開発しており、特願平9−149
728号においてその提案を行っている。
The present applicant has developed an audio data processing control device which enables the recorded data transferred from such a digital recorder to be handled by a simple operation on a personal computer. 9-149
No. 728 makes the proposal.

【0009】さらに本出願人は、ディジタル記録された
音声を、上記音声データの処理制御装置から音声認識装
置に渡して音声認識させ、文書として画面に表示させる
ディクテーションシステムを開発しており、特願平9−
149729号においてその提案を行っている。
Further, the present applicant has developed a dictation system in which digitally recorded voice is passed from the voice data processing control device to a voice recognition device for voice recognition and displayed on a screen as a document. Hei 9-
No. 149729 makes such a proposal.

【0010】このようなディクテーションシステムによ
れば、一旦ディジタルレコーダに録音し、後でコンピュ
ータにその録音データを転送して、該コンピュータに転
送された録音データに対して音声認識を行い文書を作成
させることが可能となるために、コンピュータの前に座
って直接音声入力をする必要がなく、様々な環境下での
音声入力ができるようになり、また、音声認識を行うと
きの録音装置の再生操作等の煩わしい操作が必要なくな
る等の大きな利点を有している。
According to such a dictation system, a recording is temporarily made on a digital recorder, the recording data is transferred to a computer later, and the recording data transferred to the computer is subjected to voice recognition to create a document. It is not necessary to sit down in front of the computer and input voice directly, so that voice input can be performed in various environments, and playback operation of the recording device when performing voice recognition. There is a great advantage that a troublesome operation such as is unnecessary.

【0011】ところで、上記したようなディジタルレコ
ーダにおいては、より長い録音可能時間を確保するため
に、入力された音声信号に対して高能率な符号化を施す
ことによって、記録媒体に記録されるデータ量をできる
だけ減らす工夫がなされている。
By the way, in the above-mentioned digital recorder, in order to secure a longer recordable time, the input audio signal is subjected to highly efficient encoding, so that the data recorded on the recording medium can be recorded. Attempts have been made to minimize the amount.

【0012】こうした音声信号を効率良く圧縮するため
に広く用いられている手段として、音声信号を、スペク
トル包絡を表す線形予測パラメータと、線形予測残差信
号に対応する音源パラメータとを用いて符号化する方式
がある。このような線形予測の手段を用いた音声符号化
方式は、少ない伝送容量で比較的高品質な合成音声を得
られることから、最近のハードウェア技術の進歩と相ま
って様々な応用方式が盛んに研究され、開発されてい
る。
As means widely used for efficiently compressing such a speech signal, a speech signal is encoded using a linear prediction parameter representing a spectral envelope and an excitation parameter corresponding to the linear prediction residual signal. There is a method to do. Since the speech coding method using such a linear prediction method can obtain relatively high quality synthesized speech with a small transmission capacity, various application methods are actively studied in conjunction with recent advances in hardware technology. Is being developed.

【0013】その中でも良い音質が得られる方式とし
て、例えばKleijin等による "Improved speech quality
and efficient vector quantization in SELP"(ICASS
P'88 s4.4,pp.155-158,1988)と題した論文に記載されて
いる、過去の音源信号を繰り返して得られる適応コード
ブックを用いるCELP(Code Excited Linear PredictiveC
oding)方式がよく知られている。
Among them, as a method for obtaining good sound quality, for example, “Improved speech quality” by Kleijin et al.
and efficient vector quantization in SELP "(ICASS
P'88 s4.4, pp. 155-158, 1988), a CELP (Code Excited Linear Predictive C) using an adaptive codebook obtained by repeating past sound source signals.
The oding) scheme is well known.

【0014】このような音声符号化に対する音声復号化
においては、主観的音質を向上させる目的で、ポストフ
ィルタを使用することが知られている。このポストフィ
ルタは、聴覚マスキング特性を利用して、ノイズシェイ
ピングを行うものである。ノイズシェイピングとは、本
来はほぼ平坦なスペクトル特性をもつ量子化雑音に対し
て、処理対象音声のスペクトル特性に近くなるようにス
ペクトル変形を行い、マスキングにより量子化雑音の知
覚を抑える機能をいう。このようなポストフィルタは、
一般に、音声復号化部の直後に配置されるようになって
いる。このポストフィルタの詳細な構成については、例
えば特開平8−63196号公報に記載されたものが挙
げられる。
In speech decoding for such speech encoding, it is known to use a post filter for the purpose of improving subjective sound quality. This post filter performs noise shaping by utilizing the auditory masking characteristic. Noise shaping refers to a function of transforming quantization noise, which originally has almost flat spectral characteristics, so as to be close to the spectral characteristics of the speech to be processed, and suppressing the perception of the quantization noise by masking. Such a post filter
Generally, it is arranged immediately after the audio decoding unit. The detailed configuration of the post filter is described, for example, in Japanese Patent Application Laid-Open No. 8-63196.

【0015】[0015]

【発明が解決しようとする課題】上記したようなポスト
フィルタは、あくまで量子化雑音に対して処理対象音声
のスペクトル特性に近くなるようにスペクトル変形を行
い、マスキングにより量子化雑音の知覚を抑えることに
より主観的な音質を向上させることを目的としたもので
あって、原音声のスペクトルを忠実に再現するものでは
ない。従って、ポストフィルタリングを行った結果、主
観的な音質が向上しても、原音声のスペクトルと再生音
声のスペクトルとの波形近似度は、かえって小さくなっ
てしまうことが多い。これが原因となって、再生音を音
声認識させる場合に、認識性能が低下してしまうという
問題があった。
The above-mentioned post-filter performs a spectral transformation on the quantization noise so as to be close to the spectral characteristic of the speech to be processed, and suppresses the perception of the quantization noise by masking. Therefore, it is intended to improve the subjective sound quality and does not faithfully reproduce the spectrum of the original sound. Therefore, even if the subjective sound quality is improved as a result of the post-filtering, the degree of waveform approximation between the spectrum of the original sound and the spectrum of the reproduced sound is rather small in many cases. As a result, there is a problem that the recognition performance is reduced when the reproduced sound is subjected to voice recognition.

【0016】本発明は上記事情に鑑みてなされたもので
あり、録音された音声に対して、再生音の音質を劣化さ
せることなく、かつ良好な音声認識性能を得ることが可
能となる音声認識装置、音声記録再生装置を提供するこ
とを目的としている。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and has been made in view of the above circumstances. It is an object of the present invention to provide a device and an audio recording / reproducing device.

【0017】[0017]

【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声認識装置は、音声データが
符号化された状態で記録されている記録媒体から該音声
データを取り込む音声データ取込手段と、この音声デー
タ取込手段により取り込んだ音声データを復号化する復
号化手段と、この復号化手段により復号化された音声デ
ータのノイズ整形を行うポストフィルタ手段と、上記音
声データを音声認識処理するかあるいは再生するかを判
別する判別手段と、上記判別手段によって音声認識処理
を行うと判別されたときには上記ポストフィルタ手段を
駆動させないように制御し上記判別手段によって再生す
ると判別されたときには上記ポストフィルタ手段を駆動
させるように制御するポストフィルタ駆動制御手段とを
備えたものである。
In order to achieve the above object, a voice recognition apparatus according to a first aspect of the present invention provides a voice recognition device for capturing voice data from a recording medium in which voice data is recorded in an encoded state. Data acquisition means, decoding means for decoding audio data acquired by the audio data acquisition means, post-filter means for performing noise shaping on the audio data decoded by the decoding means, Discriminating means for discriminating whether to perform speech recognition processing or reproduction, and when the discriminating means determines that speech recognition processing is to be performed, the post-filter means is controlled not to be driven, and discrimination is made by the discriminating means to reproduce. And a post-filter drive control means for controlling the post-filter means to drive the post-filter means.

【0018】また、第2の発明による音声記録再生装置
は、入力音声を電気信号に変換して音声データ化する音
声入力手段と、この音声入力手段からの音声データを符
号化する符号化手段と、この符号化手段により符号化さ
れた音声データを記録する記録媒体と、上記符号化され
た音声データを復号化する復号化手段と、この復号化手
段により復号化された音声データのノイズ整形を行うポ
ストフィルタ手段と、上記復号化手段により復号化され
た音声データを出力する出力手段と、この出力手段を介
して音声データの出力を行う場合であってかつその音声
データが音声認識処理を行うためのものである場合には
上記ポストフィルタ手段を駆動させないように制御しそ
れ以外の場合には上記ポストフィルタ手段を駆動させる
ように制御するポストフィルタ駆動制御手段とを備えた
ものである。
The audio recording / reproducing apparatus according to the second aspect of the present invention comprises: an audio input means for converting an input audio into an electric signal to generate audio data; and an encoding means for encoding the audio data from the audio input means. A recording medium for recording audio data encoded by the encoding means, a decoding means for decoding the encoded audio data, and a noise shaping of the audio data decoded by the decoding means. Post-filtering means, output means for outputting audio data decoded by the decoding means, and output of audio data via the output means, and the audio data performs a voice recognition process. In other words, the post-filter means is controlled not to be driven, and otherwise, the post-filter means is controlled not to be driven. It is obtained by a preparative filter drive control means.

【0019】さらに、第3の発明による音声記録再生装
置は、上記第2の発明による音声記録再生装置におい
て、上記出力手段がイヤフォンジャックであって、この
イヤフォンジャックを介して出力する音声データが音声
認識処理を行うためのものであるか否かを検出する検出
手段をさらに備えたものである。
Further, the audio recording / reproducing apparatus according to the third invention is the audio recording / reproducing apparatus according to the second invention, wherein the output means is an earphone jack, and the audio data output via the earphone jack is audio data. The apparatus further comprises a detecting means for detecting whether or not the recognition processing is performed.

【0020】[0020]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図8は本発明の第1の実
施形態を示したものであり、図1は音声記録再生装置お
よび音声認識装置を含むシステムの全体的な構成を示す
図である。
Embodiments of the present invention will be described below with reference to the drawings. FIGS. 1 to 8 show a first embodiment of the present invention, and FIG. 1 is a diagram showing an overall configuration of a system including a voice recording / reproducing device and a voice recognition device.

【0021】この音声記録再生装置および音声認識装置
を含むシステムは、図1に示すように、音声を電気信号
に変換して音声データ化し必要に応じて再生等も行う音
声記録再生装置としてのディジタルレコーダ1と、この
ディジタルレコーダ1に着脱可能に装着して用いられる
ものであって上記音声データを記録する記録媒体たるミ
ニチュアカード2と、このミニチュアカード2を後述す
るPCカードスロット20(図3参照)に挿入して接続
可能とするためのPCカードアダプタ3と、音声認識結
果を表示するためのディスプレイ5や入力を行うための
キーボード6、マウス7等を備え、上記PCカードスロ
ット20を介して上記ミニチュアカード2から得た音声
データに、制御プログラム8や音声認識プログラム9に
よる処理を施す音声認識装置としてのパーソナルコンピ
ュータ4とを有して構成されている。
As shown in FIG. 1, a system including the voice recording / reproducing device and the voice recognition device converts a voice into an electric signal, converts it into voice data, and reproduces the voice data as necessary. Recorder 1, miniature card 2 which is detachably attached to digital recorder 1 and is used as a recording medium for recording the audio data, and PC card slot 20 (see FIG. 3) for inserting miniature card 2 ), A PC card adapter 3 for enabling connection and a display 5 for displaying a speech recognition result, a keyboard 6 for inputting, a mouse 7 and the like. A sound to be processed by the control program 8 and the voice recognition program 9 on the voice data obtained from the miniature card 2. It is configured to include a personal computer 4 as the recognition device.

【0022】次に、図2は、上記ディジタルレコーダ1
の主として電気的な構成を示すブロック図である。
Next, FIG. 2 shows the digital recorder 1 described above.
FIG. 3 is a block diagram mainly showing an electrical configuration of FIG.

【0023】このディジタルレコーダ1は、図2に示す
ように、音声を入力して電気信号に変換する音声入力手
段たるマイクロフォン(以下、マイクと略す)21と、
このマイク21からの音声信号を適正なレベルに増幅す
るためのプリアンプ22と、このプリアンプ22により
増幅された音声信号から不要な高域成分を除去するため
のものでありコード化手段(CODEC)25を構成す
るローパスフィルタ(LPF)26と、このローパスフ
ィルタ26から出力されたアナログの音声信号をディジ
タルデータに変換するためのものであり上記CODEC
25を構成するA/D変換器27と、このディジタルデ
ータ化された音声信号を録音動作時に符号化(圧縮)す
るとともに、再生動作時に符号化データの復号化(伸
張)を行う符号化手段であり復号化手段を兼ねた符号化
/復号化部(DSP)31と、後述するポストフィルタ
駆動制御手段たるシステム制御部34から得られるアド
レス情報に基づいて後述する記録媒体たるフラッシュメ
モリカード33に音声情報を記録/再生する際のコント
ロールを行う例えば16ビットCPUで構成されるメモ
リ制御部32と、上述した記録媒体たるミニチュアカー
ド2等でなるフラッシュメモリカード33と、上記符号
化/復号化部31から再生動作時に出力される音声信号
中の量子化雑音を処理対象音声のスペクトル特性に近く
なるようにスペクトル変形するポストフィルタ手段たる
ポストフィルタ30と、このポストフィルタ30から出
力されたディジタルの音声信号をアナログ信号に変換す
るためのものであり上記CODEC25を構成するD/
A変換器28と、このD/A変換器28によりアナログ
信号に変換された音声信号から不要な高域成分を除去す
るためのものであり上記CODEC25を構成するロー
パスフィルタ29と、このローパスフィルタ29から出
力されたアナログの音声信号を増幅するパワーアンプ2
3と、このパワーアンプ23により駆動されて音声を発
するスピーカ24と、各種の操作ボタン等により構成さ
れている操作入力部36と、このディジタルレコーダ1
に関する各種の情報を表示する例えばLCD等でなる表
示部35と、このディジタルレコーダ1の各回路に電力
を供給する例えば着脱式の電池等でなる電源37と、上
述したCODEC25,符号化/復号化部31,メモリ
制御部32,フラッシュメモリカード33,表示部3
5,電源37を含むこのディジタルレコーダ1全体を統
括的に制御するものであり上記操作入力部36の出力が
接続されている例えば8ビットCPUで構成されるシス
テム制御部34とを有して構成されている。
As shown in FIG. 2, the digital recorder 1 includes a microphone (hereinafter, abbreviated as a microphone) 21 as a sound input means for inputting a sound and converting it into an electric signal.
A preamplifier 22 for amplifying the audio signal from the microphone 21 to an appropriate level; and a coding means (CODEC) 25 for removing unnecessary high frequency components from the audio signal amplified by the preamplifier 22. And a low-pass filter (LPF) 26 for converting an analog audio signal output from the low-pass filter 26 into digital data.
An A / D converter 27 constituting the digital audio signal 25 and encoding means for encoding (compressing) the digitalized audio signal during a recording operation and decoding (expanding) the encoded data during a reproducing operation. Based on address information obtained from an encoding / decoding unit (DSP) 31 also serving as a decoding unit and a system control unit 34 serving as a post-filter drive control unit described later, audio is sent to a flash memory card 33 serving as a recording medium described later. A memory control unit 32 configured by, for example, a 16-bit CPU for controlling information recording / reproduction, a flash memory card 33 configured by the miniature card 2 or the like as a recording medium, and the encoding / decoding unit 31 Of the quantization noise in the audio signal output during playback operation so that it is close to the spectral characteristics of the audio to be processed A post filter unit serving postfilter 30 which deforms, constitute what is and the CODEC25 for converting the digital audio signal outputted from the post-filter 30 into an analog signal D /
An A converter 28, a low-pass filter 29 for removing unnecessary high-frequency components from the audio signal converted into an analog signal by the D / A converter 28, and constituting the CODEC 25; Amplifier 2 for amplifying the analog audio signal output from
3, a speaker 24 driven by the power amplifier 23 to emit sound, an operation input unit 36 including various operation buttons and the like, and the digital recorder 1
A display unit 35 such as an LCD for displaying various information related to the digital recorder 1, a power supply 37 such as a detachable battery for supplying power to each circuit of the digital recorder 1, a CODEC 25 described above, encoding / decoding, etc. Unit 31, memory control unit 32, flash memory card 33, display unit 3
5, a system control section 34 for controlling the whole of the digital recorder 1 including the power supply 37 and having an output of the operation input section 36 connected thereto. Have been.

【0024】図3は、上記パーソナルコンピュータ4の
電気的な構成を示すブロック図である。
FIG. 3 is a block diagram showing an electrical configuration of the personal computer 4.

【0025】このパーソナルコンピュータ4は、上記制
御プログラム8に従って音声再生や情報表示等を行い、
また上記音声認識プログラム9に従って文書作成等を行
うとともに、その他の各種プログラムに応じて様々な処
理を行うCPU11と、このCPU11の作業領域とな
る記録媒体たるメインメモリ12と、例えばハードディ
スクやフロッピーディスク等でなり上記制御プログラム
8や音声認識プログラム9が記録されている記録媒体た
る内部記録媒体13と、各種の外部機器に接続するため
の外部ポート14と、上記ディスプレイ5を接続するイ
ンターフェース(以下、IFと略す)15と、上記キー
ボード6やマウス7を接続するIF16と、音声データ
に基づいて音声を発するスピーカ18と、このスピーカ
18を接続するIF17と、上記PCカードスロット2
0を接続するためのIF19と、を有して構成されてい
て、上記CPU11、メインメモリ12、内部記録媒体
13、外部ポート14、IF15,16,17,19
は、バスを介して互いに接続されている。
The personal computer 4 performs sound reproduction, information display, and the like according to the control program 8.
The CPU 11 performs document creation and the like according to the voice recognition program 9 and performs various processes according to other various programs, a main memory 12 as a recording medium serving as a work area of the CPU 11, a hard disk, a floppy disk, and the like. An internal recording medium 13 as a recording medium in which the control program 8 and the voice recognition program 9 are recorded, an external port 14 for connecting to various external devices, and an interface (hereinafter, IF) for connecting the display 5 15), an IF 16 for connecting the keyboard 6 and the mouse 7, a speaker 18 for emitting sound based on audio data, an IF 17 for connecting the speaker 18, and the PC card slot 2.
0, and an IF 19 for connecting the CPU 11, the main memory 12, the internal recording medium 13, the external port 14, the IFs 15, 16, 17, and 19.
Are connected to each other via a bus.

【0026】なお、音声データは、上記PCカードスロ
ット20を介してPCカードアダプタ3に装着したミニ
チュアカード2から直接読み込むようにしても良いが、
一旦、上記内部記録媒体13に記録して、この内部記録
媒体13から読み出すようにしても良いし、あるいは、
ディジタルレコーダ1から通信手段等を介して直接読み
込むようにしても構わない。
The audio data may be read directly from the miniature card 2 attached to the PC card adapter 3 via the PC card slot 20.
The information may be temporarily recorded on the internal recording medium 13 and read out from the internal recording medium 13, or
You may make it read directly from the digital recorder 1 via communication means etc.

【0027】図4は、パーソナルコンピュータ4におい
て制御プログラムを実行させたときの画面表示の一例を
示す図である。
FIG. 4 is a diagram showing an example of a screen display when the control program is executed in the personal computer 4. As shown in FIG.

【0028】この図4はメイン画面41を示しており、
ファイルに関する操作や編集に関する操作などを選択す
るためのメニューバー42と、各種の操作をアイコンを
用いて視覚的に分かり易く表示するツールボタンバー4
3と、上記ミニチュアカード2から転送された音声ファ
イルの名前や記録時間の長さ、録音日時や優先度などの
情報を一覧表示するとともに、これらの音声ファイルの
内の再生や音声認識の対象となる音声ファイルをハイラ
イト表示する音声ファイルリストボックス44と、再生
ボタン46による再生処理や他のボタンによる停止、早
送り、早戻しなどの処理を行うための再生コントロール
45と、がそれぞれ表示されていて、上記ツールボタン
バー43には音声認識処理を開始させるための音声認識
ボタン47が設けられている。
FIG. 4 shows a main screen 41.
A menu bar 42 for selecting an operation related to a file or an operation related to editing, and a tool button bar 4 for displaying various operations in an easily understandable manner using icons.
3 and a list of information such as the name of the audio file transferred from the miniature card 2, the length of the recording time, the recording date and time, and the priority. An audio file list box 44 for highlighting an audio file is displayed, and a reproduction control 45 for performing processing such as reproduction by a reproduction button 46 and stop, fast forward, and fast rewind by other buttons are displayed. The tool button bar 43 is provided with a voice recognition button 47 for starting voice recognition processing.

【0029】図5は、上記パーソナルコンピュータ4に
おいて行われる音声データの再生および音声認識処理の
ための音声復号化処理(プログラム)の構成を示すブロ
ック図である。
FIG. 5 is a block diagram showing a configuration of a voice decoding process (program) for voice data reproduction and voice recognition processing performed in the personal computer 4.

【0030】図5に示すように、音声データ取込手段た
る符号化データ入力部51に入力された符号化された音
声データは、復号化手段を構成する駆動音源信号生成部
52と、同復号化手段を構成する合成フィルタ53と、
ポストフィルタ手段たるポストフィルタ54とに各入力
されるようになっている。
As shown in FIG. 5, the coded audio data input to the coded data input section 51 as the audio data capturing means is converted into a driving sound source signal generating section 52 constituting a decoding means and a decoding section. A synthesizing filter 53 constituting an optimizing means;
Each is input to a post filter 54 which is a post filter means.

【0031】上記駆動音源信号生成部52は、入力され
た符号化データから駆動音源信号を生成して出力するも
のである。
The driving excitation signal generating section 52 generates and outputs a driving excitation signal from the input coded data.

【0032】また、上記合成フィルタ53は、上記符号
化データ入力部51から入力された符号化データと上記
駆動音源信号生成部52から入力された駆動音源信号と
に基づいて、合成信号を生成して出力するものである。
The synthesis filter 53 generates a synthesized signal based on the coded data input from the coded data input section 51 and the driving excitation signal input from the driving excitation signal generation section 52. Output.

【0033】この合成フィルタ53の出力は、ポストフ
ィルタ駆動制御手段たる切替スイッチ56により、ポス
トフィルタ54に出力されるか、あるいはそのまま出力
されるかを切り替えられるようになっている。
The output of the synthesizing filter 53 can be switched between output to the post filter 54 or output as it is by the changeover switch 56 as the post filter drive control means.

【0034】この切替スイッチ56の動作は、ポストフ
ィルタ駆動制御手段であり判別手段を兼ねたポストフィ
ルタ制御部55により制御されるようになっていて、つ
まりこのポストフィルタ制御部55は、上記ポストフィ
ルタ54の駆動の切替えを制御するものである。
The operation of the changeover switch 56 is controlled by a post filter control unit 55 which is a post filter drive control unit and also serves as a discrimination unit. That is, the post filter control unit 55 The switching of the drive of the control unit 54 is controlled.

【0035】上記ポストフィルタ54は、入力された合
成信号からノイズ整形を行ったポストフィルタ出力信号
を生成して、出力端子から出力するものである。
The post-filter 54 generates a post-filter output signal that has been subjected to noise shaping from the input synthesized signal, and outputs the post-filter output signal from an output terminal.

【0036】このポストフィルタ制御部55の動作につ
いて図6を参照して説明する。図6はこの図5に示した
パーソナルコンピュータ4において行われる音声認識処
理および再生処理の動作の流れを示すフローチャートで
ある。
The operation of the post filter control section 55 will be described with reference to FIG. FIG. 6 is a flowchart showing the flow of the operation of the voice recognition process and the reproduction process performed in the personal computer 4 shown in FIG.

【0037】動作が開始されると、まず上記図4に示し
たような再生ボタン46が上記マウス7等によりクリッ
クされたか否かを判断し(ステップS1)、クリックさ
れている場合には、上記ポストフィルタ制御部55が切
替スイッチ56を制御して、上記合成フィルタ53の出
力をポストフィルタ54に接続する。これにより、ポス
トフィルタ54が駆動される(ステップS6)。そし
て、このポストフィルタ出力に基づき、上記スピーカ1
8により音声として再生される(ステップS7)。
When the operation is started, it is first determined whether or not the play button 46 as shown in FIG. 4 has been clicked by the mouse 7 or the like (step S1). The post filter control unit 55 controls the changeover switch 56 to connect the output of the synthesis filter 53 to the post filter 54. Thus, the post filter 54 is driven (Step S6). Then, based on the output of the post filter, the speaker 1
8 is reproduced as audio (step S7).

【0038】また、上記ステップS1において、再生ボ
タン46がクリックされていない場合には、次に、音声
認識ボタン47がクリックされたか否かを判断する(ス
テップS2)。ここでクリックされていない場合には、
上記ステップS1に戻ってボタン操作が行われるのを待
機する。
If it is determined in step S1 that the play button 46 has not been clicked, it is determined whether the voice recognition button 47 has been clicked (step S2). If not clicked here,
The process returns to step S1 to wait for a button operation.

【0039】一方、このステップS2において音声認識
ボタン47がクリックされた場合には、上記ポストフィ
ルタ制御部55が切替スイッチ56を制御して、上記合
成フィルタ53の出力をそのまま出力端子に接続する。
これにより、ポストフィルタ54は駆動されない(ステ
ップS3)。
On the other hand, if the voice recognition button 47 is clicked in step S2, the post-filter control unit 55 controls the changeover switch 56 to connect the output of the synthesis filter 53 to the output terminal as it is.
As a result, the post filter 54 is not driven (Step S3).

【0040】こうして、ポストフィルタ54を通らない
信号に基づいて音声認識処理が行われ(ステップS
4)、その認識結果がディスプレイ5に表示されて(ス
テップS5)、全文の認識が終わったところでこの処理
を終了する。
In this way, the speech recognition processing is performed based on the signal that does not pass through the post filter 54 (step S).
4) The recognition result is displayed on the display 5 (step S5), and the process ends when the recognition of all the sentences is completed.

【0041】また、図7は、上記パーソナルコンピュー
タ4において行われる音声データの再生および音声認識
処理のための音声復号化処理(プログラム)の他の構成
例を示すブロック図である。この図7において、上記図
5に示した構成と同様の機能を果たす部分については同
一の符号を付して説明を省略する。
FIG. 7 is a block diagram showing another configuration example of the audio decoding process (program) for reproducing the audio data and performing the audio recognition process performed in the personal computer 4. In FIG. 7, the same reference numerals are given to portions that perform the same functions as the configuration shown in FIG. 5, and description thereof will be omitted.

【0042】この図7は、音声再生用復号化部63と、
音声認識用復号化部64を独立に設けたものである。
FIG. 7 shows an audio reproducing decoding unit 63,
The speech recognition decoding unit 64 is provided independently.

【0043】ポストフィルタ駆動制御手段であり判別手
段を兼ねた復号化制御部61の制御に基づいて、同ポス
トフィルタ駆動制御手段たる切替スイッチ62の接続先
を、音声再生用復号化部63と音声認識用復号化部64
の何れにするかが切り替えられるようになっている。
Based on the control of the decoding control unit 61 which is the post-filter drive control means and also serves as the discrimination means, the connection destination of the changeover switch 62 which is the post-filter drive control means is changed to the audio reproduction decoding unit 63 Recognition decoding unit 64
Is switched.

【0044】上記音声再生用復号化部63は、符号化デ
ータ入力部51と駆動音源信号生成部52と合成フィル
タ53とポストフィルタ54とを有して構成され、該符
号化データ入力部51の出力は、駆動音源信号生成部5
2と合成フィルタ53とポストフィルタ54とに各入力
されるようになっている。
The audio reproduction decoding section 63 includes an encoded data input section 51, a driving excitation signal generating section 52, a synthesis filter 53, and a post filter 54. The output is the driving sound source signal generation unit 5
2, the synthesis filter 53, and the post filter 54.

【0045】また、上記音声認識用復号化部64は、符
号化データ入力部51と駆動音源信号生成部52と合成
フィルタ53とを有して構成され、該符号化データ入力
部51の出力は、駆動音源信号生成部52と合成フィル
タ53とに各入力されるようになっている。
The speech recognition decoding section 64 includes an encoded data input section 51, a drive excitation signal generating section 52, and a synthesis filter 53. The output of the encoded data input section 51 is , The driving sound source signal generation unit 52 and the synthesis filter 53.

【0046】このように音声再生用復号化部63と音声
認識用復号化部64を独立に設けることにより、音声認
識処理の途中であっても音声をスピーカから再生するこ
とが可能になるという利点を有している。
As described above, the independent provision of the audio reproducing decoding unit 63 and the audio recognizing decoding unit 64 enables the audio to be reproduced from the speaker even during the audio recognition processing. have.

【0047】上記復号化制御部61の動作について図8
を参照して説明する。図8は音声認識処理および再生処
理の動作の流れを示すフローチャートである。この図8
において、上記図6に示した構成と同様の処理を示す部
分については同一の符号を付して説明を省略する。
FIG. 8 shows the operation of the decoding control unit 61.
This will be described with reference to FIG. FIG. 8 is a flowchart showing the flow of the operation of the voice recognition processing and the reproduction processing. This FIG.
In FIG. 7, the same reference numerals are given to the portions indicating the same processes as those in the configuration shown in FIG. 6, and description thereof will be omitted.

【0048】上記ステップS1において、再生ボタン4
6がクリックされた場合には、上記復号化制御部61が
切替スイッチ62を制御して、出力を音声再生用復号化
部63に接続する。これにより、ポストフィルタ54を
含む音声再生用復号化部63が駆動される(ステップS
12)。その後、この音声再生用復号化部63の出力に
基づき、上記ステップS7においてスピーカ18により
音声として再生される。
In step S1, the reproduction button 4
When the button 6 is clicked, the decoding control section 61 controls the changeover switch 62 to connect the output to the decoding section 63 for audio reproduction. Thus, the audio reproduction decoding unit 63 including the post filter 54 is driven (Step S).
12). Thereafter, based on the output of the audio reproduction decoding unit 63, the audio is reproduced by the speaker 18 in step S7.

【0049】また、上記ステップS2において、音声認
識ボタン47がクリックされた場合には、上記復号化制
御部61が切替スイッチ62を制御して、出力を音声認
識用復号化部64に接続する。これにより、ポストフィ
ルタ54を含まない音声認識用復号化部64が駆動され
る(ステップS11)。その後のステップS4とステッ
プS5の処理は上述と同様である。
When the speech recognition button 47 is clicked in step S2, the decoding control section 61 controls the changeover switch 62 to connect the output to the speech recognition decoding section 64. Thus, the speech recognition decoding unit 64 not including the post filter 54 is driven (step S11). The subsequent steps S4 and S5 are the same as described above.

【0050】このような第1の実施形態によれば、音声
認識装置において、音声データを音声認識させるときと
再生させるときとで、ポストフィルタを駆動させるか否
かを適切に切替えるようにしたために、再生時には主観
的に良好な音質の音声を聞くことができるとともに、音
声認識時には音声認識の性能を向上させることができ
る。
According to the first embodiment, in the voice recognition device, whether or not to drive the post filter is appropriately switched between when voice data is recognized and when voice data is reproduced. In addition, it is possible to subjectively hear a sound of good sound quality during reproduction, and improve the performance of voice recognition during voice recognition.

【0051】図9から図12は本発明の第2の実施形態
を示したものであり、図9は音声記録再生装置および音
声認識装置を含むシステムの全体的な構成を示す図であ
って音声記録再生装置の一使用態様を示す図、図10は
音声記録再生装置の他の2つの使用態様を示す図であ
る。
FIGS. 9 to 12 show a second embodiment of the present invention. FIG. 9 is a diagram showing an overall configuration of a system including a voice recording / reproducing device and a voice recognition device, and FIG. 10 is a diagram showing one use mode of the recording / reproducing device, and FIG. 10 is a diagram showing another two use modes of the audio recording / reproducing device.

【0052】この第2の実施形態において、上述の第1
の実施形態と同様である部分については説明を省略し、
主として異なる点についてのみ説明する。
In the second embodiment, the first
The description of the same parts as those of the embodiment is omitted,
Only the differences will be mainly described.

【0053】上述した第1の実施形態は、パーソナルコ
ンピュ一夕に転送された音声データに対して、再生処理
または音声認識処理を行うものであったのに対して、こ
の第2の実施形態は、音声記録再生装置による再生信号
を、ラインを介して図示しないサウンドボードが搭載さ
れ音声認識処理プログラムが実行され得るパーソナルコ
ンピュー夕に入力して、音声認識処理を行うものであ
る。
In the first embodiment described above, the reproduction process or the voice recognition process is performed on the audio data transferred to the personal computer, whereas the second embodiment is different from the first embodiment. A voice recognition process is performed by inputting a reproduction signal from a voice recording / reproducing apparatus to a personal computer via a line, which is equipped with a sound board (not shown) and capable of executing a voice recognition processing program.

【0054】この第2の実施形態においては、使用者の
使用態様により、音声記録再生装置の再生信号の出力形
態は、以下の3つ態様を取り得るようになっている。
In the second embodiment, the output form of the reproduced signal of the audio recording / reproducing apparatus can take the following three forms depending on the use mode of the user.

【0055】まず第1は、音声記録再生装置に設けられ
ている内蔵スピーカによる放音を行う態様である。
First, a sound is emitted from a built-in speaker provided in the audio recording / reproducing apparatus.

【0056】すなわち、図10(A)に示すように、音
声記録再生装置たるディジタルレコーダ71には出力手
段たる内蔵スピーカ71aが設けられており、この内蔵
スピーカ71aにより録音した音声の再生を行って放音
している。
That is, as shown in FIG. 10A, a digital recorder 71 as an audio recording / reproducing apparatus is provided with a built-in speaker 71a as an output means, and the recorded sound is reproduced by the built-in speaker 71a. Sounding.

【0057】次に第2は、音声記録再生装置のイヤフォ
ン端子(イヤフォンジャック)にイヤフォンまたはヘッ
ドフォン等を接続して、該イヤフォンまたはヘッドフォ
ンによる放音を行う態様である。
Next, in a second mode, an earphone or a headphone or the like is connected to an earphone terminal (earphone jack) of the audio recording / reproducing apparatus, and sound is emitted by the earphone or the headphone.

【0058】すなわち、図10(B)に示すように、こ
のディジタルレコーダ71には、上記内蔵スピーカ71
aとともに、さらに出力手段たるイヤフォンジャック7
1bが設けられていて、このイヤフォンジャック71b
にイヤフォンプラグ76が接続されている。このイヤフ
ォンプラグ76は、イヤフォンコード75を介してイヤ
フォン74に接続されており、該イヤフォン74により
放音を行うようになっている。なお、この態様をとると
きには、内蔵スピーカ71aによる放音は行われない。
That is, as shown in FIG. 10B, the digital recorder 71 has the built-in speaker 71.
Earphone jack 7 which is output means together with a
1b is provided, and the earphone jack 71b
Is connected to an earphone plug 76. The earphone plug 76 is connected to an earphone 74 via an earphone cord 75, and emits sound using the earphone 74. In this case, sound is not emitted by the built-in speaker 71a.

【0059】そして第3は、音声記録再生装置のイヤフ
ォン端子と、音声認識プログラムが搭載されたパーソナ
ルコンピュータのサウンドボードのマイクロフォン端子
(またはライン端子)とをライン接続して音声記録再生
装置の再生音を該パーソナルコンピュータに入力し、該
パーソナルコンピュータにおいて音声認識処理を実行す
る態様である。
Third, the earphone terminal of the sound recording / reproducing device is connected to the microphone terminal (or line terminal) of the sound board of the personal computer on which the voice recognition program is installed by connecting the reproduction sound of the sound recording / reproducing device. Is input to the personal computer, and the personal computer executes voice recognition processing.

【0060】すなわち、図9に示すように、このディジ
タルレコーダ71は、上記イヤフォンジャック71bに
接続コード72の一端側に設けられたプラグ73を接続
し、該接続コード72の他端側をパーソナルコンピュー
タ4に接続することにより、再生音をパーソナルコンピ
ュータ4側に入力するようになっている。そして、この
パーソナルコンピュータ4において音声認識プログラム
を実行することにより音声認識処理が行われ、その結果
が画面上に表示される。または、このパーソナルコンピ
ュータ4において音声の再生処理が行われ、上記スピー
カ18により再生した音声が放音される。
That is, as shown in FIG. 9, in this digital recorder 71, a plug 73 provided at one end of a connection cord 72 is connected to the earphone jack 71b, and the other end of the connection cord 72 is connected to a personal computer. By connecting to the personal computer 4, the reproduced sound is inputted to the personal computer 4. Then, the voice recognition processing is performed by executing the voice recognition program in the personal computer 4, and the result is displayed on the screen. Alternatively, sound reproduction processing is performed in the personal computer 4, and the sound reproduced by the speaker 18 is emitted.

【0061】上述したような態様の何れをとっているか
を判別するためには、上記イヤフォンジャック71bへ
の接続がなされているか否かと、もし接続されている場
合には、その接続されたものは何であるかを検知するこ
とができればよい。
In order to determine which of the above-described embodiments is employed, it is determined whether or not the earphone jack 71b is connected, and if so, the connected one is What is necessary is just to be able to detect what it is.

【0062】図11は、このような態様を判別し得るデ
ィジタルレコーダ71の主として電気的な構成を示すブ
ロック図である。
FIG. 11 is a block diagram mainly showing an electrical configuration of the digital recorder 71 which can determine such an aspect.

【0063】上記パワーアンプ23の出力は、スイッチ
79を介して内蔵スピーカ71a側へ出力されるか、あ
るいは検出手段たる検出回路80と減衰抵抗78を介し
てイヤフォンジャック71b側へ出力されるようになっ
ている。
The output of the power amplifier 23 is output to the built-in speaker 71a via the switch 79 or to the earphone jack 71b via the detection circuit 80 and the attenuation resistor 78 as detection means. Has become.

【0064】上記スイッチ79は、イヤフォンジャック
71bの接点に連動してオン/オフの制御が行われるよ
うになっている。
The switch 79 is turned on / off in conjunction with the contact of the earphone jack 71b.

【0065】つまり、イヤフォンジャック71bに何も
接続されていない場合には、スイッチ79がオンとなっ
ているために、パワーアンプ23によって増幅された再
生信号は、該スイッチ79を介してスピーカに出力され
る。
That is, when nothing is connected to the earphone jack 71b, since the switch 79 is on, the reproduced signal amplified by the power amplifier 23 is output to the speaker via the switch 79. Is done.

【0066】一方、イヤフォンジャック71bにイヤフ
ォン等のプラグが接続された場合には、該イヤフォンジ
ャック71bの接点に連動してスイッチ79がオフにな
ることにより内蔵スピーカ71aヘの導通が断たれる。
このときには、上記パワーアンプ23によって増幅され
た再生信号は、該イヤフォンジャック71bから出力さ
れることになる。
On the other hand, when a plug such as an earphone is connected to the earphone jack 71b, the switch 79 is turned off in conjunction with the contact point of the earphone jack 71b, whereby the conduction to the built-in speaker 71a is cut off.
At this time, the reproduced signal amplified by the power amplifier 23 is output from the earphone jack 71b.

【0067】上記検出回路80は、イヤフォンジャック
71bヘの接続状況を検出するための回路であってその
検出結果が上記システム制御部34へ出力されるように
なっており、例えば、抵抗等を介在させてその抵抗の両
端の電圧降下等を検出するように構成されている。
The detection circuit 80 is a circuit for detecting the connection status to the earphone jack 71b, and the detection result is output to the system control unit 34. Then, a voltage drop or the like at both ends of the resistor is detected.

【0068】イヤフォンジャック71bに接続されるイ
ヤフォンもしくはヘッドフォンのインピーダンスは、通
常、数Ωから数十Ω程度である。これに対して、パーソ
ナルコンピュータのサウンドボードのインピーダンス
は、通常、2kΩ以上あるために、イヤフォンジャック
71bに、イヤフォンまたはヘッドフォンが接続された
のか、パーソナルコンピュータが接続されたのかを、容
易に検出することが可能である。
The impedance of an earphone or a headphone connected to the earphone jack 71b is usually about several Ω to several tens Ω. On the other hand, since the impedance of the sound board of the personal computer is usually 2 kΩ or more, it is easy to detect whether the earphone or the headphone or the personal computer is connected to the earphone jack 71b. Is possible.

【0069】また、イヤフォンジャック71bヘの接続
の有無は、イヤフォンジャック71bの短絡の有無を調
べればよい。
The presence or absence of connection to the earphone jack 71b may be determined by checking for a short circuit in the earphone jack 71b.

【0070】さらに、このディジタルレコーダ71に
は、符号化/復号化部31とポストフィルタ30の間に
ポストフィルタ駆動制御手段たる切替スイッチ77が配
設されていて、該符号化/復号化部31により復号化さ
れた出力を、ポストフィルタ30を通過させるか否かを
切り替えることができるようになっている。
Further, the digital recorder 71 is provided with a changeover switch 77 serving as a post-filter drive control means between the encoding / decoding section 31 and the post-filter 30. It is possible to switch whether or not to pass the decoded output through the post filter 30.

【0071】これにより、上記検出回路80からの検出
結果に基づいて、ポストフィルタ駆動制御手段たるシス
テム制御部34が、上記切替スイッチ77のオン/オフ
を制御するようになっている。
Thus, based on the detection result from the detection circuit 80, the system control section 34 as the post-filter drive control means controls the on / off of the switch 77.

【0072】図12は、このディジタルレコーダ71の
復号化時の動作を示すフローチャートである。
FIG. 12 is a flowchart showing the operation of the digital recorder 71 at the time of decoding.

【0073】動作が開始されると、まずイヤフォンジャ
ック71bの短絡の有無を検出することにより該イヤフ
ォンジャック71bに接続がなされたか否かを判断し
(ステップS21)、イヤフォン端子への接続がなされ
ている場合には、さらに、上記検出回路80の出力に基
づいて接続されたのがイヤフォン(あるいはヘッドフォ
ン)であるか否かを判断する(ステップS22)。
When the operation is started, first, it is determined whether or not the earphone jack 71b has been short-circuited by detecting whether or not the earphone jack 71b is short-circuited (step S21), and the connection to the earphone terminal is made. If yes, it is further determined whether or not the connected earphone (or headphone) is based on the output of the detection circuit 80 (step S22).

【0074】ここで接続されたのがイヤフォン(あるい
はヘッドフォン)であると判断された場合、または上記
ステップS21においてイヤフォンジャック71bに接
続がなされていないと判断された場合には、システム制
御部34が上記切替スイッチ77を制御して、符号化/
復号化部31の出力をポストフィルタ30に接続するこ
とにより、該ポストフィルタ30を駆動させる(ステッ
プS26)。
If it is determined that the earphone (or headphone) is connected, or if it is determined in step S21 that the earphone jack 71b is not connected, the system control unit 34 By controlling the changeover switch 77, the encoding /
The post filter 30 is driven by connecting the output of the decoding unit 31 to the post filter 30 (step S26).

【0075】その後、ポストフィルタ30を介した出力
が、上記パワーアンプ23による増幅等を経て、内蔵ス
ピーカ71aやイヤフォン(あるいはヘッドフォン)に
より音声として放音される(ステップS27)。
After that, the output through the post filter 30 is emitted as sound by the built-in speaker 71a or earphone (or headphone) through amplification or the like by the power amplifier 23 (step S27).

【0076】また、上記ステップS22において、接続
されたのがイヤフォン(あるいはヘッドフォン)でない
と判断された場合には、システム制御部34が上記切替
スイッチ77を制御して、符号化/復号化部31の出力
がポストフィルタ30を通過しないように迂回させて、
該ポストフィルタ30の駆動を行わせない(ステップS
23)。
If it is determined in step S22 that the earphone (or headphone) is not connected, the system control unit 34 controls the changeover switch 77 so that the encoding / decoding unit 31 Is bypassed so that the output of
The post filter 30 is not driven (step S
23).

【0077】この出力は、上記イヤフォンジャック71
bを介して上記プラグ73および接続コード72により
接続されているパーソナルコンピュータ4に入力され
て、該パーソナルコンピュータ4の音声認識プログラム
9により音声認識処理が行われ(ステップS24)、そ
の結果がディスプレイ5に表示される(ステップS2
5)。
This output is output from the earphone jack 71.
b, the data is input to the personal computer 4 connected by the plug 73 and the connection code 72, and the voice recognition program 9 of the personal computer 4 performs voice recognition processing (step S24). (Step S2
5).

【0078】このような第2の実施形態によれば、音声
記録再生装置において、音声データをパーソナルコンピ
ュータ側に転送して音声認識させるときと、内蔵スピー
カやイヤフォン等により再生信号を聴くときとで、ポス
トフィルタを駆動させるか否かを適切に切替えるように
したために、再生時には主観的に良好な音質の音声を聞
くことができるとともに、音声認識時には音声認識の性
能を向上させることが可能となる。
According to the second embodiment, in the audio recording / reproducing apparatus, when the audio data is transferred to the personal computer side for voice recognition, and when the reproduced signal is listened to by the built-in speaker, earphone, or the like. By appropriately switching whether or not to drive the post filter, it is possible to subjectively hear a sound of good sound quality during reproduction, and to improve the performance of speech recognition during speech recognition. .

【0079】なお、本発明は上述した実施形態に限定さ
れるものではなく、発明の主旨を逸脱しない範囲内にお
いて種々の変形や応用が可能であることは勿論である。
Note that the present invention is not limited to the above-described embodiment, and it is needless to say that various modifications and applications are possible without departing from the gist of the invention.

【0080】[0080]

【発明の効果】以上説明したように請求項1による本発
明の音声認識装置によれば、音声認識処理を行うときに
はポストフィルタ手段を駆動させないようにし、再生す
るときには該ポストフィルタ手段を駆動させるように制
御しているために、録音された音声に対して、再生音の
音質を劣化させることなく、かつ良好な音声認識性能を
得ることが可能となる。
As described above, according to the speech recognition apparatus of the present invention, the post-filter means is not driven when performing the speech recognition processing, and the post-filter means is driven when reproducing. , It is possible to obtain a good voice recognition performance without deteriorating the sound quality of the reproduced sound with respect to the recorded voice.

【0081】また、請求項2による本発明の音声記録再
生装置によれば、音声認識処理を行うために音声データ
の出力を行う場合にはポストフィルタ手段を駆動させな
いようにし、それ以外の場合には該ポストフィルタ手段
を駆動させるように制御しているために、録音された音
声に対して、再生音の音質を劣化させることなく、かつ
良好な音声認識性能を得ることが可能となる。
According to the audio recording / reproducing apparatus of the present invention, when outputting audio data for performing audio recognition processing, the post filter means is not driven, and otherwise, Is controlled so as to drive the post-filter means, so that it is possible to obtain good voice recognition performance without deteriorating the sound quality of the reproduced sound for the recorded voice.

【0082】さらに、請求項3による本発明の音声記録
再生装置によれば、請求項2に記載の発明と同様の効果
を奏するとともに、検出手段によりイヤフォンジャック
を介して出力する音声データが音声認識処理を行うため
のものであるか否かを検出することができる。
Further, according to the third aspect of the present invention, the same effects as those of the second aspect can be obtained, and the voice data output via the earphone jack by the detecting means can be recognized by voice. It is possible to detect whether or not it is for processing.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態の音声記録再生装置お
よび音声認識装置を含むシステムの全体的な構成を示す
図。
FIG. 1 is a diagram showing an overall configuration of a system including a voice recording / reproducing device and a voice recognition device according to a first embodiment of the present invention.

【図2】上記第1の実施形態のディジタルレコーダの主
として電気的な構成を示すブロック図。
FIG. 2 is a block diagram mainly showing an electrical configuration of the digital recorder of the first embodiment.

【図3】上記第1の実施形態のパーソナルコンピュータ
の電気的な構成を示すブロック図。
FIG. 3 is an exemplary block diagram showing an electrical configuration of the personal computer according to the first embodiment;

【図4】上記第1の実施形態のパーソナルコンピュータ
において、制御プログラムを実行させたときの画面表示
の一例を示す図。
FIG. 4 is an exemplary view showing an example of a screen display when a control program is executed in the personal computer of the first embodiment.

【図5】上記第1の実施形態のパーソナルコンピュータ
において行われる音声データの再生および音声認識処理
のための音声復号化処理(プログラム)の構成を示すブ
ロック図。
FIG. 5 is a block diagram showing a configuration of a voice decoding process (program) for voice data reproduction and voice recognition processing performed in the personal computer of the first embodiment.

【図6】上記図5の構成のパーソナルコンピュータにお
いて行われる音声認識処理および再生処理の動作の流れ
を示すフローチャート。
FIG. 6 is a flowchart showing a flow of an operation of voice recognition processing and reproduction processing performed in the personal computer having the configuration of FIG. 5;

【図7】上記第1の実施形態のパーソナルコンピュータ
において行われる音声データの再生および音声認識処理
のための音声復号化処理(プログラム)の他の構成例を
示すブロック図。
FIG. 7 is an exemplary block diagram showing another configuration example of the audio decoding process (program) for audio data reproduction and audio recognition processing performed in the personal computer of the first embodiment.

【図8】上記図7の構成のパーソナルコンピュータにお
いて行われる音声認識処理および再生処理の動作の流れ
を示すフローチャート。
FIG. 8 is a flowchart showing a flow of operations of voice recognition processing and reproduction processing performed in the personal computer having the configuration of FIG. 7;

【図9】本発明の第2の実施形態の音声記録再生装置お
よび音声認識装置を含むシステムの全体的な構成を示す
図であって音声記録再生装置の一使用態様を示す図。
FIG. 9 is a diagram illustrating an overall configuration of a system including a voice recording / reproducing device and a voice recognizing device according to a second embodiment of the present invention, illustrating one usage mode of the voice recording / reproducing device.

【図10】上記第2の実施形態において、音声記録再生
装置の他の2つの使用態様を示す図。
FIG. 10 is a diagram showing another two usage modes of the audio recording / reproducing device in the second embodiment.

【図11】上記第2の実施形態のディジタルレコーダの
主として電気的な構成を示すブロック図。
FIG. 11 is a block diagram mainly showing an electrical configuration of the digital recorder of the second embodiment.

【図12】上記第2の実施形態のディジタルレコーダの
復号化時の動作を示すフローチャート。
FIG. 12 is a flowchart showing the operation of the digital recorder of the second embodiment at the time of decoding.

【符号の説明】[Explanation of symbols]

1,71…ディジタルレコーダ(音声記録再生装置) 2…ミニチュアカード 3…PCカードアダプタ 4…パーソナルコンピュータ(音声認識装置) 11…CPU 20…PCカードスロット 21…マイク(音声入力手段) 30,54…ポストフィルタ(ポストフィルタ手段) 31…符号化/復号化部(符号化手段、復号化手段) 33…フラッシュメモリカード(記録媒体) 34…システム制御部(ポストフィルタ駆動制御手段) 51…符号化データ入力部(音声データ取込手段) 52…駆動音源信号生成部(復号化手段) 53…合成フィルタ(復号化手段) 55…ポストフィルタ制御部(判別手段、ポストフィル
タ駆動制御手段) 56,62,77…切替スイッチ(ポストフィルタ駆動
制御手段) 61…復号化制御部(判別手段、ポストフィルタ駆動制
御手段) 63…音声再生用復号化部 64…音声認識用復号化部 71a…内蔵スピーカ(出力手段) 71b…イヤフォンジャック(出力手段) 80…検出回路(検出手段)
1, 71: Digital recorder (voice recording / reproducing device) 2: Miniature card 3: PC card adapter 4: Personal computer (voice recognition device) 11: CPU 20: PC card slot 21: Microphone (voice input means) 30, 54: Post Filter (post-filter means) 31 ... Encoding / decoding section (encoding means, decoding means) 33 ... Flash memory card (recording medium) 34 ... System control section (post-filter drive control means) 51 ... Encoded data input Unit (audio data capturing unit) 52 driving excitation signal generation unit (decoding unit) 53 synthesis filter (decoding unit) 55 post-filter control unit (determination unit, post-filter driving control unit) 56, 62, 77 ... Changeover switch (post-filter drive control means) 61 ... Decoding control section (determination means, PO Strike filter drive control means) 63: decoding section for voice reproduction 64: decoding section for voice recognition 71a: built-in speaker (output means) 71b: earphone jack (output means) 80: detection circuit (detection means)

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 音声データが符号化された状態で記録さ
れている記録媒体から該音声データを取り込む音声デー
タ取込手段と、 この音声データ取込手段により取り込んだ音声データを
復号化する復号化手段と、 この復号化手段により復号化された音声データのノイズ
整形を行うポストフィルタ手段と、 上記音声データを音声認識処理するかあるいは再生する
かを判別する判別手段と、 上記判別手段によって音声認識処理を行うと判別された
ときには上記ポストフィルタ手段を駆動させないように
制御し、上記判別手段によって再生すると判別されたと
きには上記ポストフィルタ手段を駆動させるように制御
するポストフィルタ駆動制御手段と、 を具備したことを特徴とする音声認識装置。
An audio data fetching means for fetching audio data from a recording medium in which the audio data is recorded in an encoded state, and a decoding means for decoding the audio data fetched by the audio data taking means. Means, post-filter means for performing noise shaping of the audio data decoded by the decoding means, determination means for determining whether the audio data is subjected to voice recognition processing or reproduction, and voice recognition by the determination means. A post-filter drive control means for controlling not to drive the post-filter means when it is determined to perform the processing, and controlling to drive the post-filter means when it is determined to be reproduced by the determination means. A speech recognition device characterized by the following.
【請求項2】 入力音声を電気信号に変換して音声デー
タ化する音声入力手段と、 この音声入力手段からの音声データを符号化する符号化
手段と、 この符号化手段により符号化された音声データを記録す
る記録媒体と、 上記符号化された音声データを復号化する復号化手段
と、 この復号化手段により復号化された音声データのノイズ
整形を行うポストフィルタ手段と、 上記復号化手段により復号化された音声データを出力す
る出力手段と、 この出力手段を介して音声データの出力を行う場合であ
ってかつその音声データが音声認識処理を行うためのも
のである場合には上記ポストフィルタ手段を駆動させな
いように制御し、それ以外の場合には上記ポストフィル
タ手段を駆動させるように制御するポストフィルタ駆動
制御手段と、 を具備したことを特徴とする音声記録再生装置。
2. An audio input means for converting an input audio into an electric signal to generate audio data, an encoding means for encoding the audio data from the audio input means, and an audio encoded by the encoding means. A recording medium for recording data; decoding means for decoding the encoded audio data; post-filter means for noise shaping the audio data decoded by the decoding means; An output unit for outputting decoded audio data; and a post filter for outputting audio data via the output unit, and the audio data is for performing a voice recognition process. A post-filter drive control means for controlling not to drive the means, and otherwise controlling to drive the post-filter means. Audio recording and reproducing apparatus, characterized in that the.
【請求項3】 上記出力手段はイヤフォンジャックであ
って、 このイヤフォンジャックを介して出力する音声データ
が、音声認識処理を行うためのものであるか否かを検出
する検出手段をさらに具備したことを特徴とする請求項
2に記載の音声記録再生装置。
3. The output means is an earphone jack, and further comprises a detection means for detecting whether or not the audio data output via the earphone jack is for performing a voice recognition process. The audio recording / reproducing apparatus according to claim 2, wherein:
JP10249908A 1998-09-03 1998-09-03 Speech recognizing device and speech recording and reproducing device Withdrawn JP2000081899A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10249908A JP2000081899A (en) 1998-09-03 1998-09-03 Speech recognizing device and speech recording and reproducing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10249908A JP2000081899A (en) 1998-09-03 1998-09-03 Speech recognizing device and speech recording and reproducing device

Publications (1)

Publication Number Publication Date
JP2000081899A true JP2000081899A (en) 2000-03-21

Family

ID=17199996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10249908A Withdrawn JP2000081899A (en) 1998-09-03 1998-09-03 Speech recognizing device and speech recording and reproducing device

Country Status (1)

Country Link
JP (1) JP2000081899A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007178677A (en) * 2005-12-27 2007-07-12 Victor Co Of Japan Ltd High efficiency coding program and high efficiency coding apparatus
WO2014141574A1 (en) * 2013-03-14 2014-09-18 日本電気株式会社 Voice control system, voice control method, program for voice control, and program for voice output with noise canceling

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007178677A (en) * 2005-12-27 2007-07-12 Victor Co Of Japan Ltd High efficiency coding program and high efficiency coding apparatus
JP4556866B2 (en) * 2005-12-27 2010-10-06 日本ビクター株式会社 High efficiency encoding program and high efficiency encoding apparatus
WO2014141574A1 (en) * 2013-03-14 2014-09-18 日本電気株式会社 Voice control system, voice control method, program for voice control, and program for voice output with noise canceling
JP5979303B2 (en) * 2013-03-14 2016-08-24 日本電気株式会社 Voice control system, voice control method, voice control program, and noise-proof voice output program

Similar Documents

Publication Publication Date Title
JP4305084B2 (en) Music player
JP4012976B2 (en) Oral recording and recording / playback equipment
JP2000081899A (en) Speech recognizing device and speech recording and reproducing device
EP1530198A1 (en) Method of recording and playing compact disk quality sound signals for a doorbell system, and a receiver embodying such method
JPH10116097A (en) Voice reproducing device
JP2007221574A (en) Voice processing apparatus, voice processing method, and program
JP2002127062A (en) Robot system, robot control signal generating device, robot control signal generating method, recording medium, program and robot
KR20180099375A (en) Method of searching highlight in multimedia data and apparatus therof
JP3223552B2 (en) Message output device
JP3454138B2 (en) Sound field processing decision device
JP2000020091A (en) Voice recording and reproducing device
JP3043591B2 (en) Audio recording and playback device
KR20020090552A (en) A direct digital audio encoder and the encoding method thereof
KR100379995B1 (en) Multicodec player having text-to-speech conversion function
JP2002358098A (en) Data reproducing device
JPH11212590A (en) Voice processor, recording medium with voice recognition program recorded, and recording medium with processing program recorded
JP4276716B2 (en) Audio data recording / reproducing device
JP2009122609A (en) Acoustic signal coder and acoustic signal decoder, their method, program and recording medium
JP2003076400A (en) Voice modulation communication system and head set for the same and communicate method for the same
JPH10124099A (en) Speech recording device
JP2000075893A (en) Voice recognition device
JP2000259181A (en) Device and method for recognizing speech information, and recording medium where program for recognizing speech information is recorded
JP2008020840A (en) Speech synthesizer, speech synthesizing method and program for making computer function as the speech synthesizer, and filter generator, filter generating method and program for making computer function as the filter generator
KR20020074816A (en) Portabl electronic book having multi-function and control method of the same
JP2001318695A (en) Voice reproducing device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060110