JP3617603B2 - Audio information encoding method and generation method thereof - Google Patents

Audio information encoding method and generation method thereof Download PDF

Info

Publication number
JP3617603B2
JP3617603B2 JP24967298A JP24967298A JP3617603B2 JP 3617603 B2 JP3617603 B2 JP 3617603B2 JP 24967298 A JP24967298 A JP 24967298A JP 24967298 A JP24967298 A JP 24967298A JP 3617603 B2 JP3617603 B2 JP 3617603B2
Authority
JP
Japan
Prior art keywords
information
audio
audio information
amplitude
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24967298A
Other languages
Japanese (ja)
Other versions
JP2000081897A (en
Inventor
博司 関口
Original Assignee
カナース・データー株式会社
ペンタックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カナース・データー株式会社, ペンタックス株式会社 filed Critical カナース・データー株式会社
Priority to JP24967298A priority Critical patent/JP3617603B2/en
Publication of JP2000081897A publication Critical patent/JP2000081897A/en
Application granted granted Critical
Publication of JP3617603B2 publication Critical patent/JP3617603B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain a speech information of which reproduction time is extended or contracted and emphasized or attenuated without altering frequency components of original speech information itself in an arbitrary part as a speech for hearing exercise of Japanese English learners. SOLUTION: According to this recording method, a 1st speech information string sampled in a 1st period is divided into plural frequency components, and concerning each frequency component, a sinusoidal wave data, which has been changed in the amplitude and the number of waveforms of a predetermined part to an amplitude information sequence sequentially extracted in a 2nd period, is produced, and a 2nd speech information sequence synthesized by adding a sinusoidal wave data corresponding to these individual frequency components to the former sinusoidal data is recorded in a predetermined recording medium 15. In such a manner, a speech information string which is extended or contracted and emphasized or attenuated without changing the frequency in an arbitrary part is recorded in the obtained recording medium 15.

Description

【0001】
【発明の属する技術分野】
この発明は、所定の音声情報列に基づいて新たな音声情報列を生成するための音声情報の符号化方法及び該新たな音声情報の生成方法に関するものである。
【0002】
【従来の技術】
従来から、英会話等の語学の独習用、詩吟の練習用、法律の独習用、その他の目的のために、カセットテープ等の記録媒体に音声情報が記録された教材が種々提供されている。ここで、英会話の独習用の教材を例に説明すると、従来の主な記録媒体は、例えば一連の英語の発声(音声情報)が記録されてたカセットテープ(又はレコード)であり、学習者はこのテープ教材とテキストとを組み合せて使用していた。なお、このような教材には、初級用から上級用まで種々のレベルが用意されている。
【0003】
また、日本国特許第2581700号には、複数の区画に区分された上級者学習用に適した音声情報列(ナチュラルスピードの発生音)が記録された第1領域と、これら各区画に対応した等価な区画からなる初級者学習用に適した音声情報列(はっきりとした発生音であって、言語学上は同一の意味で派生の異なる音声)が記録された第2領域と、該上級者学習用及び初級者学習用の各音声情報列の対応する各区画の関係を、これら音声情報列の各区画の記録媒体における記録位置で示す情報が記録された第3領域とを、少なくとも備えたCD−ROM等の情報記録媒体、及びこのような構造を備えた情報記録媒体の対応する区画間での切替え再生等を含む再生方法が提案されている。
【0004】
【発明が解決しようとする課題】
上述のように、日本国特許第2581700号の情報記録媒体には、該媒体上の第1領域にネイティブスピーカーの発生音が記録され、また第2領域に言語上は同一の意味で遅緩した発音で構成された音声情報列が記録されている。したがって、第1領域に記録された音声情報列が再生されている最中に再生音を聞き取れなかった場合、第2領域に記録された同一内容の音声情報列(第1音声情報列の再生中の区画と第2音声情報列の再生すべき区画との対応は第3領域に記録されている)を切替えて再生することにより、学習者は聞き取れなかった音声の意味を理解することができる。
【0005】
しかしながら、英語学習者は上述のように第2領域に記録されている情報を聞くことにより第1領域に記録された情報を理解することはできても、依然として該第1領域に記録されている情報、取り分け聞き取れない音は単に繰り返し聞いただけでは聞き取れるようにはならない。日本人英語学習者の場合、日本語にない音素特に子音の聞き取りが苦手であり、ネイティブスピーカーとの会話に支障をきたしていることは周知である。
【0006】
この発明は聞き取り難い部分が学習者にとって聞き取りやすいように予め編集された音声を聞かせることで、元の音声に対するヒヤリング能力を向上させる技術に関し、英語学習者のヒヤリング練習用の音声情報として、元の音声情報自体の周波数成分を変えることなく選択的に周波数成分の振幅、再生時間が編集された音声情報の符号化方法及びその生成方法を提供することを目的としている。
【0007】
【課題を解決するための手段】
この発明は、ヒヤリング練習用の音声として、取り込まれた音声情報列の周波数成分を変えることなく、該音声情報列の所望の部分を強調あるいは減衰させたり、また再生時間を部分的に伸長あるいは短縮させた音声情報列を新たに生成する技術に関するものである。この発明では、再生される音声情報の音質を変えないため、サンプリングされた音声情報に対してではなく、該音声情報の各周波数成分に対して所望の編集を行い、これら編集された周波数成分を合成して新たな音声情報列を得ている。この構成により、日本人英語学習者にとって聞き取り難い部分が選択的に強調及び/又は伸長されたヒヤリング練習用の音声情報の提供を可能にする。また、上級者がヒヤリング能力のさらなる向上を望む場合には、逆に音声が選択的に減衰されたり再生時間が短縮された音声情報の提供を可能にする。
【0008】
具体的にこの発明に係る音声情報の符号化方法は、第1周期(例えば音楽CDの音響クロック44.1KHz)でサンプリングされた第1音声情報列を複数の周波数成分(以下、チャネルという)に分割し、第2周期(例えば1波形を形成するために必要なデータ数に相当)で各チャネルごとにその振幅情報を得る。なお、この振幅情報は第1音声情報列の例えば100データ分に相当する波形の振幅変化量で与えられ、もし100データ分で1波形が形成されない場合には1波形できるデータ数に増やして(第2周期を長くして)抽出される。なお、この第2周期は規則性のある周期であればよい。
【0009】
さらに、このように得られた各チャネルの振幅情報列(各チャネルごとに第2周期で抽出された振幅情報の列)に対してそれぞれ振幅情報を選択的に変更するよう編集された複数の修正振幅情報列が生成される。この複数の修正振幅情報列は、それぞれ各周波数成分に対応したチャネルごとに求められる。そして、各チャネルに対応した修正振幅情報列間で、互いに対応している同じタイミングで抽出された振幅情報からなる各情報成分群と、これら各情報成分群ごとに用意される、第1周期を基準にして音声再生時間の伸長あるいは短縮を指示するための制御情報とからなるVデータが生成される。
【0010】
続いて、この発明に係る音声情報の生成方法は、上記第2周期のデータとして生成されたVデータから、該Vデータにより与えられる振幅(修正後の値)を有するとともに第1周期のデータ間隔を有する、各チャネルに相当する正弦波データであって、上記制御情報で指示された再生時間に相当する波数の正弦波データを生成する。このようにチャネルごとに生成された正弦波データが順次加算されることにより、第1周期のオーディオデータ(第2音声情報列)が生成される。そして、この生成されたオーディオデータが所定の記録媒体に記録される。
【0011】
なお、この発明に係る音声情報の符号化方法では、第2周期で抽出された各チャネルの振幅情報列における各振幅情報に対し、任意の部分で選択的に強調されるか減衰されるよう編集が行われる。すなわち、各チャネルの振幅情報列について、各チャネル間で互いに対応している所定部分の振幅情報から与えられる振幅値をそれぞれ選択的に大きくあるいは小さく設定し直すことにより、修正振幅情報列が生成される。また、再生音の不自然な振幅変化を避けるため、各チャネルについて、生成される正弦波データの各振幅は、修正振幅情報列の互いに隣接した各振幅情報間の直線補間により得られた値により決定される。
【0012】
以上のようにこの発明に係る音声情報の符号化方法では、各チャネルごとに生成された振幅情報列に対して、その任意の部分の振幅を変更するよう構成されており、また、再生時間の伸長・短縮を指示するための制御情報が第2周期で抽出された各チャネルの振幅情報をまとめた情報成分群ごとに用意されるため、周波数成分を変更することなく、任意の部分において該再生音声の選択的な強調・減衰を可能にするとともに、再生時間の部分的な伸長・短縮も可能にする。
【0013】
これは、主として日本人がナチュラル・スピードの英語を単にゆっくり再生して聴けるようにした場合であっても、各周波数成分について単純にかつ一様に音声再生時間を伸ばしたり短縮したのでは不充分であり、発生音の種類によっては子音部のスペクトルの時間変化が言語上の音として別の音を意味する場合があるからである。例えば、BA(バ)とPA(パ)の発音は、前者のスペクトル変化が速く、後者は遅いだけでスペクトルそのものはほとんど同じ形をしている。したがって、BA(バ)という発音の子音部も含めて時間を伸長するとPA(パ)と聴こえることになる。これを防ぐには子音部の伸長度をBA(バ)と聴こえる限界に留め、母音部のみ望みの音声再生時間に伸長あるいは短縮するようにすれば、BA(バ)のままに聴こえることになる。一方、母音部はいくら伸長あるいは]短縮してもその母音のままで聴こえるから望みの長さ(望みの再生時間)に設定できる。一方、日本人には弱すぎて聴き取りにくい小さな子音部の音のところだけを選択的に2倍とか3倍に強調して聴かせることも必要である。母音部も含めて強調したのでは全体が大きくなり過ぎて効果がない。どうしても選択的に強調しなければならない。以上の理由から、各チャネルの振幅情報列も初級者にとって特に聞き取り難い部分を選択的に強調された修正振幅情報列が編集され、さらにこれら各チャネルごとの修正振幅情報列のうち同じタイミングで生成された振幅情報から構成されるVデータとともに再生時間の伸長を指示する制御情報が順次記録される。逆に、上級者の場合には上述の各発声音の特性を考慮して、所望の部分で再生音声が減衰したり、再生時間が短縮されるよう選択的に音声情報列が編集されてもよい。
【0014】
さらに、この発明に係る音声情報の符号化方法では、男性の音声が所定の記録媒体に記録された場合、音声再生時間の伸長を行いながら再生すると、出力される音声の周波数スペクトルは不変であっても感覚的により低い音にシフトしたような錯覚を起す可能性がある。逆に音声再生時間の短縮を行いながら再生すると、感覚的により低い音にシフトしたような錯覚を起す可能性もある。そこで、上記制御情報には、半音分あるいは1音分程度高音方向あるいは低音方向へ周波数成分全体をシフトして再生可能にするための周波数シフト指示情報を含むのが好ましい。
【0015】
また、この発明は、上述の日本国特許第2581700号に開示された技術と組合わせることにより、飛躍的な学習効果が期待できる。すなわち、ネイティブスピーカーの発声音を発声の節目で分割した可変長の区画に対応して、任意部分の音声が伸長及び/又は強調された音声情報を別途用意することにより、聞き取れなかった音声を繰り返し再生して聞くことができるとともに、係る音声の聞き取り難い部分が強調・伸長された音声を聞くことで、元の音声に対するヒヤリング能力の向上が期待できる。また、上級者にとっては、より積極的に学習効果を向上させるため、区画に区分されたネーティブスピーカーの発声音とともに任意部分の音声が短縮及び/又は減衰された音声情報を別途用意することにより、敢えて再生時間を短縮して再生したり、子音部を聞こえにくくする(振幅を小さくする)ことも可能であり、ネイティブスピーカーの発声音とを組合わせた学習が可能となる。
【0016】
具体的に上記第1音声情報列は、所定の音声再生手段で再生出力されるべき単語列から構成された1又は2以上の文に対応する音声情報列であって、発音の節目でそれぞれ分割された情報ごとに可変長の区画に区分された状態で記録媒体に記録される。これにより、上記第2音声情報列は、第1音声情報列の区画に対応して分割された区画ごとに所定の記録媒体に記録され、さらに該記録媒体には、該第1音声情報列と該第2音声情報列とを所定の音声再生手段で切替え再生すべく、切替え可能な各区画を当該所定の記録媒体における該各区画の記録位置で示す記録位置識別情報が記録される。このように、上記第1音声情報列の分割された各区画と第2音声情報列の各区画間での対応関係を予め記録しておくことにより、所望の1又は2以上の区画を繰り返し再生できるとともに、ナチュラルスピードの再生音と、各学習者のレベルに応じて用意された同一発生音をリアルタイムで切替えながら再生することが可能になる。
【0017】
したがって、この発明に係る符号化方法により所定の音声情報(波形データではなく、各周波数成分の修正された振幅情報列)が記録された音声情報記録媒体が得られる。
【0018】
このような音声情報の記録媒体としては、例えばCD−ROM、MD、MO等の円盤状記録媒体や、DAT等のテープ状記録媒体が適用可能であり、必然的に係る音声情報情報の記録媒体には、第1周期でサンプリングされた第1音声情報列を複数の周波数成分に分割し、これら各周波数成分について、第2周期で順次抽出された振幅情報列に対して所定部分の振幅及び所定部分に波形数が変更された正弦波データを生成し、これら各周波数成分に相当する正弦波データを加算して合成された第2音声情報列が少なくとも記録されている。すなわち、当該音声記録媒体に記録される第2音声情報列は、所定周期でサンプリングされた第1音声情報列を構成する各周波数成分について、各周波数成分間で互いに対応している部分に対し、少なくとも振幅が変更されるかあるいは波形数が変更されることにより、選択的に振幅及び再生時間が編集された第2音声情報列である。
【0019】
さらに、上記音声情報記録媒体は、所定の音声再生手段で再生出力されるべき単語列から構成された1又は2以上の文に対応する音声情報列である上記第1情報列が、発音の節目でそれぞれ分割された情報ごとに可変長の区画に区分された状態で記録されることにより、上述の日本国特許第2581700号に開示された技術と組合わせることが可能である。
【0020】
以上のような構成の音声情報記録媒体には、上記第1音声情報列とともに、上記第2音声情報列が、第1音声情報列の区画に対応して分割された区画ごとに記録され、さらに該第1音声情報列と該第2音声情報列とを所定の音声再生手段で切替え再生すべく、切替え可能な各区画を当該所定の記録媒体における該各区画の記録位置で示す記録位置識別情報が記録されているので、このような音声情報記録媒体を用意することにより、音声情報の再生では、一方の音声情報列の再生中であっても他方の音声情報列の対応する区画の音声情報列についてリアルタイムの切替え再生が可能になる。
【0021】
なお、上述された実施形態には、記録ソフト(上述の記録方法をパーソナルコンピュータ等で実施可能なプログラム、あるいは該プログラムが記録された記録媒体)、専用記録装置、使用マニュアル、あるいはこれらの組合わせによる販売、係る音声情報記録媒体単体での販売の他、該音声情報記録媒体、音声情報の再生ソフト(パーソナルコンピュータ等で実効可能なプログラム、あるいは該プログラムを記録した記録媒体を含む)、専用再生装置、使用マニュアル、あるいはこれらの組合わせによる販売が考えられる。
【0022】
【発明の実施の形態】
以下、この発明の一実施例を図1〜図14を用いて説明する。なお、図中同一部分には同一符号を付して重複する説明を省略する。
【0023】
この発明は、例えば英語学習者のヒヤリング練習に際し、予め聞き取り難い部分を選択的に強調あるいは減衰させたり、再生時間を伸長あるいは短縮させた音声情報の提供を可能にする技術である。したがって、このように予め編集された音声情報を聞いた学習者にとっては、元の音声に対するヒヤリング能力の向上が期待できる。
【0024】
図1は、この発明における音声情報の生成〜記録動作を概略的に説明するため概念図である。まず、マイク11等により、例えば音楽CDの音響クロック44.1KHz(第1周期)でサンプリングされたネイティブスピーカーのナチュラルスピードの音声(第1音声情報)がPC1本体に取り込まれ、一旦ハードディスク等に記録される。そして、取り込まれた音声情報を図2の表に示されたように区分された各チャネル(周波数成分)に分割するためフィルタリングされる。なお、取り込まれる音声情報の周波数範囲は75Hz〜10,000Hz、また、サンプリング周波数は音楽CDの音響クロックに合わせて44.1kHz(22.68μs)とする。分割するチャネル数は85(7オクターブ+1音)とし、各チャネル#1〜#85の中心周波数(中心f)は平均律(1オクターブ当り12平均律とする)の半音列になるように設定する(77.78Hz(D#)〜9,960Hz(D#))。
【0025】
以上のように各チャネル#1〜#85にそれぞれ分割されたデータは、その振幅情報が2.268msごと(44.1kHzサンプリングの100データに相当、ただし100データで1波形が形成できない場合にはデータ数を増やす)に抽出される。したがって、この実施形態では、各チャネル#1〜#85における振幅情報のサンプリングレート(第2周期)は441サンプル/s(2.268ms)である。なお、このサンプリングレートは、規則性のある周期であればよく、例えば100データ分取り込んだ次に、120データ分取り込んで処理するなど、これら異なるレートで交互に処理を繰り返すような実施形態であってもよい。
【0026】
さらに、PC1の制御系10は、2.268msごとにサンプリングされた各チャネル#1〜#85の振幅情報に対し、種々の編集(ディスプレイ12、及びキーボード、マウス等の入力装置13を介して行うことも可能)を行い、2.268msごとの修正振幅情報群を生成する。そして、各チャネル#1〜#85の修正振幅情報(修正振幅情報群を構成している要素)をそれぞれ1バイト(8ビット)で表現し、さらに2バイトの制御情報を付加して87バイト(85チャネル×1バイト+2バイト)のVデータ19を生成する。
【0027】
なお、修正振幅情報は、各チャネル#1〜#85の振幅情報列(2.268msでサンプリングされた振幅情報)における各振幅情報を、任意の部分で選択的に強調あるいは減衰させるよう編集して得られた情報である。すなわち、各チャネル#1〜#85の振幅情報列について、各チャネル間で互いに対応している所定部分の振幅情報から与えられる振幅値をそれぞれ選択的に大きくあるいは小さく設定し直すことにより、修正振幅情報列は生成される。また、上記制御情報は、上述の編集動作により指示された、各チャネル#1〜#85の周波数成分の再生すべき時間の伸長あるいは短縮を指示する伸長指示情報(1バイト)と各チャネル#1〜#85に相当している周波数成分を低音方向あるいは高音方向に半音又は1音だけ全体的にシフトさせて再生させるか否かを指示する周波数シフト指示情報(1バイト)で構成されている。
【0028】
上記伸長指示情報は、1データを何msで再生するかの再生クロック数で表現されている。例えば、この伸長指示情報を再生するクロック数の2分の1で表現すると、50で元の再生時間と同じになり、この情報を100に設定すると44.1kHzのクロックとして200クロックで再生することになり、再生時間を2倍に延ばすことが可能となる(この情報は1バイトで表現されるため、最大で256÷50=5.12倍まで再生時間の伸長が可能)。逆にこの情報を25に設定すると44.1kHzのクロックとして50クロックで再生することになり、再生時間を1/2に短縮することが可能となる。また、上記周波数シフト指示情報は、全周波数成分を低音方向あるいは高音方向にシフトさせる場合にON”1”、シフトさせる必要がない場合にはOFF”0”がセットされる。
【0029】
以上のように2.268msでサンプリングされた各チャネル#1〜#85の振幅情報を制御系10が所望の編集を施すことにより生成されたVデータ19に基づいて、新たな音声情報列が生成される。
【0030】
なお、上記生成されたVデータ19から新たな音声情報列を生成するためには、各チャネル#1〜#85に相当する波長の正弦波を生成する正弦波生成回路16−1〜16−85を有する外部装置16が必要になる。各生成回路16−1〜16−85には、各チャネル#1〜#85に対応した周波数の正弦波の基本データが記録されたROMと、生成した正弦波データを一旦記録しておくRAM#1〜#85をそれぞれ備えており、これら各回路では、制御系10から送られてきたVデータ19の修正振幅情報に基づいて成形され、かつ制御情報の伸長指示情報で指示された波形数の正弦波データをそれぞれのRAM#1〜#85に書込む。なお、この正弦波データを構成するデータ間隔は、サンプリング周波数44.1kHzのデータ間隔22.68μsである。
【0031】
そして、これら各生成回路16−1〜16−85におけるRAM#1〜#85に書込まれている正弦波データが44.1kHzのタイミングで順次読み出され、それぞれ加算されることによりオーディオデータ(音声情報列)が生成される。このオーディオデータは制御系10に送られ、I/Oを介してCD−ROM書込装置等の入出力装置14に制御系10から出力される。この入出力装置14は、制御系10から送られてきた44.1kHzのオーディオデータを例えばCD−ROM等の所定の音声情報記録媒体15に記録する。
【0032】
上記各生成回路16−1〜16−85で行われる正弦波データの生成では、再生音の不自然な振幅変化を避けるため、各チャネル#1〜#85について、正弦波データの各振幅が、修正振幅情報列の互いに隣接した各振幅情報間の直線補間により得られた値により決定される。また、外部装置16で生成されたオーディオデータはそのままDAC17及びAMPを介してスピーカー18から音声として出力してもよい。さらに、このような音声情報記録媒体15としては、例えばCD−ROM、MD、MO等の円盤状記録媒体や、DAT等のテープ状記録媒体が適用可能である。
【0033】
一方、この発明は主として日本人がナチュラル・スピードの英語を単にゆっくり再生して聴けるようする技術に関するものであるが、各周波数成分について単純にかつ一様に音声再生時間を伸ばしたり短縮したのでは不充分である。すなわち、図3は音声スペクトルの基本的な形状を示す図であるが、発生音の種類によっては子音部のスペクトルの時間変化が言語上の音として別の音を意味する場合があるからである。例えば、BA(バ)とPA(パ)の発音は、前者のスペクトル変化が速く、後者は遅いだけでスペクトルそのものはほとんど同じ形をしている。したがって、BA(バ)という発音の子音部も含めて時間を伸長するとPA(パ)と聴こえることになる。これを防ぐには子音部の伸長度をBA(バ)と聴こえる限界に留め、母音部のみ望みの音声再生時間に伸長あるいは短縮するようにすれば、BA(バ)のままに聴こえることになる。一方、母音部はいくら伸長あるいは短縮してもその母音のままで聴こえるから望みの長さ(望みの再生時間)に設定できる。一方、日本人には弱すぎて聴き取りにくい小さな子音部の音のところだけを選択的に2倍とか3倍に強調(振幅を大きくして)して聴かせることも必要である。母音部も含めて強調したのでは全体が大きくなり過ぎて効果がない。どうしても選択的に強調しなければならない。以上の理由から、各チャネルの振幅情報列も初級者にとって特に聞き取り難い部分を選択的に強調された修正振幅情報列が編集され、さらにこれら各チャネルごとの修正振幅情報列のうち同じタイミングで生成された振幅情報から構成される情報成分群とともに再生時間の伸長を指示する制御情報がVデータとして生成される。逆に、上級者の場合には上述の各発声音の特性を考慮して、所望の部分で再生音声が減衰させたり、再生時間が短縮されるよう選択的に音声情報列を編集してもよい。
【0034】
さらに、男性の音声が上述の記録方法で所定の記録媒体に記録された場合、音声再生時間の伸長及び/又は所望部分の音声強調を行いながら再生すると、出力される音声の周波数スペクトルは不変であっても感覚的により低い音にシフトしたような錯覚を起す可能性がある。逆に音声再生時間の短縮及び/又は所望部分の音声減衰を行いながら再生すると、感覚的により低い音にシフトしたような錯覚を起す可能性もある。そこで、上記制御情報には、半音分あるいは1音分程度低音方向あるいは高音方向へ周波数成分全体をシフトして再生可能にするための周波数シフト指示情報が含まれている。
【0035】
次に、この発明は、上述の日本国特許第2581700号に開示されているように、ネイティブスピーカーの音声が記録された記録媒体を再生等する技術に好適である。以下、係る技術にこの発明を適用する構成について説明する。
【0036】
この発明は、上述の日本国特許第2581700号に開示された技術と組合わせることにより、飛躍的な学習効果が期待できる。すなわち、ネイティブスピーカーの発声音を発声の節目で分割した可変長の区画に対応して、任意部分が選択的に伸長あるいは縮小されたり、強調あるいは減衰された音声情報を別途用意することにより、学習者は聞き取れなかった音声を繰り返し再生して聞くことができるとともに、聞き取り能力を向上させるべく、再生される音声の聞き取り難い部分が伸長あるいは短縮、強調あるいは減衰された音声としても聞くことが可能になる。
【0037】
図4は、所定の音声記録媒体に記録されるべき音声情報列を含む各種情報を概念的に説明するための図である。
【0038】
まず、音声情報記録媒体15に記録される第1音声情報列(44.1kHzでサンプリングされた音声情報列)は、映画における出演者の会話、日常の生活環境における会話等のように、長さの異なる複数のセンテンス(文)から構成され、また、各センテンス(各会話者の音声情報)の間に、音声が再生されていない状況、雑音のみが再生されている状況、音楽(BGM)のみが再生されている状況等のランダムに発生する無音声期間が存在し得る一連の音声情報列である。したがって、第1音声情報列は、所定の音声再生手段で再生出力されるべき複数の単語列から構成された1又は2以上の文に対応する音声情報列であって、当該音声情報記録媒体15の第1領域に、図4に示されたように、発音の節目でそれぞれ分割された音声情報ごとに可変長の区画(以下、セグメントという)に区分された状態で記録される。
【0039】
一般にネイティブスピーカーの英会話では、1センテンスは概ね3秒程度で発声されるため、記録されるべき音声情報列を構成するセグメントを決定する発音の節目を各センテンスの間に設定することで、図4(a)、(b)あるいは(d)に示されたように、音声情報列を構成する可変長セグメント621、622、799をそれぞれ構成するのが妥当である。なお、会話中のセンテンスの中には図4(c)に示されたように、極端に短いセンテンスも含まれるが、このセンテンス701も1つのセグメントを構成する。一方、図4(e)に示されたように、極端に長いセンテンスの場合には、接続詞や関係詞等の前が発音の節目となるため、図4(e)に示されたようなセンテンスでは、連続する2つのセグメント801、802で構成するのが妥当である。したがって、記録されるべき音声情報列のセグメントとは、発声上の区切り(息継ぎ位置)又は言語上(文法上)のなんらかの区切りにもとづいて分割された音声情報の記録単位であることを意味する。
【0040】
この発明では、まず上述のように第1情報列を分割して得られた各セグメントそれぞれに対し、任意の部分が選択的に編集(各周波数成分の振幅の変更、再生時間の変更)された第2音声情報列を生成する。この第2音声情報列は、具体的には図5に示されたように、各周波数成分について編集するPC1本体と、編集されたオーディオデータ(第2音声情報列)を生成する外部装置16で構成された装置により、所定の音声情報記録媒体15に記録される。
【0041】
特に、外部装置16は、図5に示されたように、オーディオデータを生成するマスターボード165と、各チャネルに対応して設けられた正弦波生成回路16−1〜16−85を備えたスレーブボード166で構成されている。マスターボード165は、PC1からのVデータをコントロール信号に従って各生成回路16−1〜16−85に供給すべく、タイミングコントローラ171と、FIFO172を備えるとともに、各生成回路16−1〜16−85から送られてきた正弦波データ(16ビット)を順次加算し、オーディオデータ(16ビット)を生成する加算器173と、PC1へ送信される該生成されたオーディオデータを一旦格納するバッファとしてのRAM174を備える。なお、図5に示されたマスターボード165は、PC1からの指示で第1音声情報列と新たに編集された第2音声情報列とを音にして何度でもスピー力に出し、耳で聴いて比較できるよう、生成されたオーディオデータを直接スピーカー177で再生出力すべく、DAC175及びAMP176が設けられている(音声再生のための構造は図1に示されたようにPC1側に設けられてもよい)。一方、スレーブボード166は、各チャネルに対応して所定の周波数の正弦波をそれぞれ生成する正弦波生成回路16−1〜16−85を備えており、これら生成回路16−1〜16−85は、正弦波を生成するためのデータが記録されたROMと、一旦生成された正弦波データを格納するバッファとしてのRAM#1〜#85をそれぞれ有する。
【0042】
なお、マスターボード165とスレーブボード166は、30本の信号バスとGND、Vccの合計32本のバスで接続されており、図中、167で示されたバス群は各生成回路16−1〜16−85へVデータを供給するためのVデータ関連バス群であり、168で示されたバス群は各生成回路からマスターボード165へオーディオデータ生成用の正弦波データを送るためのオーディオデータ関連バス群である。
【0043】
次に、この発明に係る音声情報の生成方法の、日本国特許第2581700号に開示された技術に適用された実施形態を、図5を参照しながら、図6及び図7のフローチャートを用いて説明する。
【0044】
まず、Vデータの生成はPC1側で行われる。すなわち、PC1では、一連の音声情報列(第1音声情報列)が44.1kHz(16bit/データ)をサンプリングし、この第1音声情報列に相当するサンプリングデータを一旦ハードディスクに格納し(ステップST1)、図4に示されたように複数のセグメントに分解する(ステップST2)。
【0045】
続いて、分割されたセグメントのうち1セグメントについて、デジタル・バンド・バス・フィルター・プログラムにより、まず第1チャンネル#1のバンド幅(75.57kHz〜80.06kHz)の波形情報をメモリーに展開する。この時も44.1kHzのレートに相当するデータ間隔のまま展開する。そして、100データごとに平均振幅情報(8ビット)を抽出する(ステップST3)。なお、上述のように第1チャネル#1の周波数成分について100データで1波形できない場合には1波形できるデータ数に増やして振隔情報を求める。対象セグメントのサンプリングデータが終了するまで、100データ分づつずらして同じ動作を繰り返す。この動作により、対象チャネルである第1チャネル#1についてデータ間隔2.268msの振幅情報列(1秒当り441個の振幅情報)である。対象チャネルである第1チャンネル#1の振幅情報抽出動作が終了すると(ステップST5)、続いてデジタル・バンド・バス・フィルターにより第2チャンネル#2の周波数を分割して上記ステップST3〜ST5の動作を繰り返し、対象チャネルを変更しながら(ステップST7)、第1チャネル#1〜第85チャネル#85について対象セグメントの振幅情報列が生成される。
【0046】
以上の動作は、対象セグメントを変更しながら(ステップST10)、ステップST1でサンプリングされた第1音声情報列を構成するすべてのセグメントが終了するまで行われる(ステップST9)。
【0047】
次に、以上のステップST1〜ST9が実行されることにより得られた、各セグメントいついて85チャネル分の振幅情報列に対し、PC1側では以下のような編集が行われ、Vデータが生成される(ステップST11)。
【0048】
まず、分割されたセグメントごとに生成された85チャネル分の振幅情報列群を格納先であるハードディスクから呼び出し、モニタ12上に順次その振幅波形を表示する。
【0049】
実際の編集作業は、表示された振幅波形の所望の部分を指定して再生時間を指定する(クロック50が基準)。また、必要であれば変更する部分を指定して振幅の変更(表示された振幅を基準にして倍率で設定)を行ったり、低音方向あるいは高音方向への周波数シフト指示を指定する。例えば、セグメントの中の子音部は振幅を2倍、再生時間を1.5倍にする一方、母音部は振幅をそのままにして、再生時間のみ2.5倍にする等、選択的に任意の部分に対して得られた振幅情報列を編集し、新たに各振幅情報が修正された修正振幅情報列を生成する。
【0050】
そして、得られた85チャネル分の修正振幅情報列のうち、各修正振幅情報列間で互いに対応している同じタイミングの情報成分をまとめた情報成分群ごとに、上述の再生時間の変更を指示する情報と周波数シフトを指示する情報とからなる制御情報を付加することにより、データ間隔2.268msのVデータが得られる。
【0051】
次に、以上のようにPC1側で用意されたVデータ(87バイト/データ)は外部装置16のマスターボード165へ送られ、さらに該マスターボード165からデータバスを介してスレーブボード166上の各正弦波生成回路16−1〜16−85へ送られる。なお、スレーブボード166は、実際には8回路が搭載された11枚のボード(11枚目のボードには8回路中5回路だけ使用する)で構成されるものとし、それぞれの回路が対応するチャネルの正弦波データを生成する(ステップST12)。なお、各回路は、正弦波の波形データを収納しているROMが異なることと、対応するチャンネルを指定する7ビットのDIP・SWの設定が異なること以外は全て同じで構成である。
【0052】
各チャネルを受け持つ各回路では、まず、マスターボード165から送られてきた87バイトのVデータのうちへッダー(2バイト)を共通に受け取る一方、該Vデータのうちの修正振幅情報については対応するチャネル用の修正振幅情報(1バイト)だけを受け取る。各回路では、44.1kHzの何クロック分で波形を成形し出力するのかを判断するため、受け取ったヘッダー情報の再生時間を調べられる。例えば指示された再生時間が50で与えられた場合には100クロック再生(再生時間は変らない)、110の時は220クロック再生(再生時間は2倍)となる。各回路には受け持つ周波数の正弦波データが44.1kHzで出力された時のデータ間隔でROMに収納されている(ROMのアドレスのゼロ番地からN番地までにその周波数の正弦波波が正確にM波収納されている(M、Nは自然数)。各回路中のプロセサ一は、1つの正弦波データを作るごと(22.68μsごと)にROMのアドレスを十1していく。そして、N番地の次にはゼロへ戻る。こうすることで、正確な正弦波を不連続点なしに作れる。ただし、上記正弦波データは、受け取った修正振幅情報をそのROMに格納されていた基本データに掛けて1つの正弦波データを生成する。また、各振幅情報は、今回の振幅情報と前回の振幅情報との間を直線補間することにより得られた値とする。
【0053】
以上のように、各回路で生成された正弦波データは、周期44.1kHz(22.68μs)でROMを参照し、上記補間で求められた係数を参照されたデータに掛けて出力バッファである各RAM#1〜#85へ収納する。
【0054】
そして、マスターボード165からのコントロール信号により、各RAM#1〜#85に格納された正弦波データが出力バス(16ビット)へ送出するタイミング(22.68μs周期)をもらい、その時だけバスへ送出する。1回路に与えられた時間幅は226ns(22.68μs÷85)となる。一方、マスターボード165側の取込タイミングはクロックと同期信号で与えられる。同期信号から何クロック目かの数は上記DIPスイッチで指定されたチャンネル番号と同じとなる。また、上記Vデータのヘッダー情報に含まれる周波数シフト指示情報がONの時、半音(又は全音)シフトした周波数の正弦波データが各回路から出力できるよう、各回路に設けられているROMに2種類の波形データを格納しておき、いずれかを選択できるようにする。
【0055】
一方、マスターボード165は各回路16−1〜16−85で生成された正弦波データを、22.68μs中85データの割合(データ間隔は22.68μs÷85=266ns)で受け取る。実際には、各回路からの正弦波データを受け取りながら加算器173で加算していき、44.1kHzのオーディオデータ(第2音声情報列)を生成する(ステップST13)。生成されたオーディオデータは順次バッファであるRAM174に格納され、PC1へ送られる。
【0056】
PC1では、送られてきたオーディオデータを入出力装置14を制御しながら所定の記録媒体15に該オーディオデータを記録していく(ステップST14)。
【0057】
次に、上述の日本国特許第2581700号に開示されてた技術が適用された各実施形態について説明する。
【0058】
まず、第1実施形態では、少なくとも2種類の音声情報列と記録位置識別情報が記録されている。すなわち、第1音声情報列は例えばネイティブスピーカが自然な速さで話す英語の音声情報からなり、この音声情報列は上述されたように発音の節目(センテンスの終りやセンテンス中の一息つける、発生上あるいは文法上の区切り)で複数の可変長セグメントに分割されている。第2音声情報列は、第1情報列を、上述のように任意の部分が選択的に編集することにより得られた音声情報列であって、第1音声情報列の各セグメントに対応して複数の可変長セグメントに分割されている。また、記録位置識別情報は、少なくとも、第1及び第2音声情報列における各セグメントが、当該音声記録媒体のどの位置に記録されているかを示す情報である。したがって、例えば第1音声情報列のt番目のセグメント”It's not much of a problem.”に対応する第2音声情報列のセグメント”It's・・・not・・・much・・of・・a・・・problem.”が、媒体のどの位置に記録されているかということは、この記録位置識別情報により認識することができる。
【0059】
その結果、第1及び第2音声情報列と記録位置識別情報は互いに無関係に記録されるのではなく、一定の関係をもって記録され、各音声情報列はセグメントを単位として有機的に組み合わされている。すなわち、第1及び第2音声情報列は互いに対をなしており、これらをセグメントごとに関連させているのが記録位置識別情報である。なお、この実施形態では、記録記録位置識別情報は当該音声情報記録媒体のディレクトリ領域に記録されており、少なくとも各セグメントの先頭位置に関する情報を含んでいる。
【0060】
以上のような構造を備えた音声情報記録媒体の再生では、記録されたセグメントごとに順番に音声再生が行われるが、特に、この再生方法では、当該音声情報記録媒体に記録された第1音声情報列から第2音声情報列への再生切換え(あるいは第2音声情報列から第1音声情報列への再生切換え)が可能であることを特徴としている。なお、この再生切換え動作は、セグメントを単位として行われる。例えば、第1音声情報列のt番目のセグメントが再生されているときに第2音声情報列の再生指示が入力されると(割込み要求の発生)、記録位置識別情報に基づいて第2音声情報列の対応するt番目のセグメントを読み出し、その対応するセグメントの音声再生が実行される。また逆に、第2音声情報列から第1音声情報列への再生切換えも、上述した再生切換え動作と同様に各セグメント単位で行われる。
【0061】
なお、この再生では、上述の再生切換え動作の他、リピート再生等の種々の変形が可能である。その代表的なものとして、いわゆる戻し指令がある。すなわち、再生中の停止命令により一時再生を中断した後に戻し指令が入力されたときは、指令された量だけ音声情報の読み出し位置を戻すことによりより操作者の希望に合った音声情報の再生が行われる。
【0062】
この第2実施形態は、上述された第1実施形態と基本的には同じ構造であるが、上記第1音声情報列及び第2音声情報列の他、第1音声情報列の内容と等価な意味内容であるが別の音声情報であり、例えば単語を区切って話すゆっくりとした速さの英語の音声情報である第3音声情報列を備えていることを特徴としている。また、この第3音声情報列も、複数の可変長セグメントから構成されており、上記記録位置識別情報は、これら第1〜第3音声情報列における各セグメント間での記録位置を管理している。したがって、この第2実施形態における再生動作は第1実施形態と同様である。
【0063】
なお、この第2実施形態において、重要なことは、上記第1音声情報列と、第3音声情報列はそれぞれ複数の可変長セグメントに区分されているが、互いにセグメントごとにその意味内容が対応していることである。例えば、第1音声情報列のt番目(図4(a)では621番目)のセグメントがネイティブスピーカの話す”It's not much of a problem.”であるときは、第3音声情報列のt番目のセグメントは各単語を区切って話す”It is not much of a problem.”となる。ただし、第2音声情報列と対応した内容でかつ別の音声情報からなるということは、言語上は同一の意味で発声の異なるものであることを示している。
【0064】
さらに、第3実施形態は、第1及び第2音声情報列の他、さらに文法解説等の音声情報列である第4音声情報列が当該音声情報記録媒体に記録されている点が、上述の第1実施形態と異なる。
【0065】
ここで重要なことは、上記第3音声情報列は第1及び第2音声情報列の1又は2以上の可変長セグメントをひとまとまりとしたセグメント群に区分されていることである。換言すれば、この第4音声情報列の1つのセグメント群は第1及び第2音声情報列の1又は2以上のセグメントを包含しており、したがって、第4音声情報列の1つのセグメント群は第1及び第2音声情報列の1又は2以上のセグメントと対になっている。特に、この構成は図4(e)に示されたように、1つのセンテンスが複数のセグメントに区分された場合を想定している。
【0066】
また、この第3実施形態において、所定の領域に記録された記録位置識別情報には、上記第4音声情報列の内容の記録位置をもセグメント群ごとに示す情報も含まれている。したがって、第1、第2及び第4音声情報列と記録位置識別情報は互いに一定の関係をもって媒体に記録され、各音声情報列はセグメントあるいはセグメント群を単位として有機的に組み合わされている。なお、この第3実施形態においても、記録位置識別情報は当該音声情報記録媒体のディレクトリ領域に記録され、各音声情報列におけるセグメントの先頭位置に関する情報を含んでいる。また、この実施形態においても、第1音声情報列の音声情報と等価であって、単語を区切って話すゆっくりとした速さの第3音声情報列をさらに記録してもよい。
【0067】
以上のような構造を備えた音声情報記録媒体の再生は、基本的に上述された第1実施形態の場合と同じであるが、第1及び第2音声情報列間での再生切換えの他、該第1及び第2音声情報列と第4音声情報列との間においても再生切換え動作を行う点が異なる。
【0068】
例えば、第1音声情報列の再生中にネイティブスピーカの”It's not much of
a problem.”が聴き取れなかったときは、再生中の第1音声情報列から第2音声情報列に再生を切換えることにより、選択的に伸長等の編集が施された音声
”It's・・・not・・・ much・・of・・a・・・problem.”を聴くことができる。そして、この日本語の意味や文法を知りたいときは、さらに、再生中の音声情報列から第4
音声情報列へ再生を切換えればよい。もちろん、この再生方法においても、上述の第1実施形態における再生動作で説明された戻し指令や停止命令を組み合せて使えるよう応用できることは言うまでもない。また、この第3実施形態における再生においても、切換え再生及びリピート再生が可能である。
【0069】
第4実施形態は、基本的に上述の第1実施形態の場合と同様であるが、第1及び第2音声情報列の他、文字情報列が記録されている点が主に異なる。この文字情報列は、第1又は第2音声情報列に対応する内容の文字情報に相当しており、例えばネイティブスピーカが話す英語(音声)に対応する文字情報に相当している。
【0070】
この文字情報列も、第1及び第2音声情報列の各セグメントと対応するセグメントに区分されている。また、この第4実施形態においても、記録位置識別情報には、この文字情報列の記録位置を各音声情報列のそれぞれのセグメントごとにそれらの先頭位置に関する情報が含まれ、当該音声情報記録媒体のディレクトリ領域に記録される。したがって、第1及び第2音声情報列と文字情報列はそれぞれセグメント単位で対応することになる。
【0071】
なお、この第4実施形態において、上述の第3実施形態における第4音声情報列を記録情報として加えるときは、第1及び第2音声情報列と文字情報列の1又は2以上のセグメントは第3音声情報列の1つのセグメント群にも対応することになる。この構成においても、上記記録位置識別情報には、各セグメントの先頭位置が含まれ、かつ当該音声記録媒体のディレクトリ領域に記録される。そして、上述の第3実施形態と同様に、この第4実施形態でも、第1音声情報列の音声情報と等価であって、単語を区切って話すゆっくりとした速さの第3音声情報列をさらに記録してもよい。
【0072】
以上のような構造を備えた音声情報記録媒体の再生も、基本的に上述の第2実施形態の場合と同様であるが、第1又は第2音声情報列の再生中に文字情報列がディスプレイ表示される点が異なる。
【0073】
例えば、第1音声情報列のセグメント”It's not much of a problem.”が再生されているときは、所定の表示部に”It's not much of a problem.”もしくは”It is not much of a problem.”がディスプレイ表示される。なお、この表示については再生中の音声情報列と時間的に完全に同期している必要はなく、文字が少しずつ遅れて表示されたり、あるいは少しずつ先に表示されたりしてもよい。また、この第4実施形態における再生でも、切換え再生及びリピート再生が可能である。
【0074】
次に、音声記録媒体の具体的な構造を、図8〜図11を用いて、以下詳細に説明する。
【0075】
図8は、音声情報記録媒体の例として、上述の第3実施形態を英会話独習用に適用したときの各音声情報列A、B、Cと、その記録内容を説明するための図である。この図において、音声情報列Aはネイティブスピーカの話す英語の情報列(第1音声情報列)であり、複数のセグメント621、622から構成されている。音声情報列Bは図6及び図7に示されたフローチャートを用いて説明されたように選択的に該第1情報列の所定部分が伸長等するよう編集された情報列(第2音声情報列)である。また、音声情報列Cは日本語の解説をする情報列(第3音声情報列)であり、この音声情報列Cに含まれるセグメント群は、各音声情報列A、Bの各セグメント621、622にそれぞれ対応している。
【0076】
また、図9は、図8に示された態様における1セグメント当りの時間と容量の関係を説明するための表である。この表において、1秒間は6キロバイトの容量に対応している。例えば音声情報列Aのセグメント621では、”It's”の発声時間が0.2秒、その容量が1.2KB(キロバイト)、”not”の発声時間が0.1秒、その容量が0.6KB(キロバイト)、”much of a”の発声時間が0.4秒、その容量が2.4KB(キロバイト)、そして”problem”の発声時間が0.3秒、その容量が1.8KB(キロバイト)であり、セグメント621全体の発声時間は2.0秒、その容量は12KB(キロバイト)となる。
【0077】
さらに、図10は、図8及び図9に示された形態におけるディレクトリ領域の記録内容を説明するための表である。この表において、ディレクトリ領域は、1セグメント当り9×3=27バイト(B)で構成される。音声情報列A、B、Cはそれぞれ図8の音声情報列A、B、Cに対応している。また、1バイトのCは属性を示し、C=0は音声情報列A、C=64は音声情報列Bであることを意味する。また、C=128、129は音声情報列Cであることを意味し、特にC=129のとき、すなわちビット表現(8ビット(bit))で”10000001”のときは前のセグメントと同じ解説対象であることを示す(音声情報列Cの解説対象となる同じセグメント群に属していることを示し、例えば図4(e)のセグメント801、802の場合が相当する)。
【0078】
位置情報のM、S、B(各1バイト)は産業界で標準になっているCD−ROM上の位置を表わすパラメータである。すなわちMは分、Sは秒、Bはブロックをそれぞれ示す。また、1ブロックは2,048バイトであり、75ブロックで1秒分を構成している。したがって、最大の数はM=59、S=59、B=74となる。次の2バイトのSBはスタートバイトを示し、その次の3バイトのLLLは各セグメント全体の長さを示している。なお、位置を示すパラメータに分、秒を使う理由はCD−ROMはもともと音楽用として開発されたためであり、始めからの時間として記録位置を表現するようになっている。そのためCD−ROMを当該音声情報記録媒体として採用した場合には、この分と秒は再生時の時間とは全く無関係であり、単に記録媒体上の記録位置を表わしている情報にすぎないことになる。
【0079】
その結果、例えば音声情報列Aにおけるセグメント621の”It's not much of a problem.”は、O分11秒3ブロックの826バイト目から6,000バイトの長さでネイティプスビーカの話す英語の音声情報が記録され、音声情報列Bにおける対応するセグメントは0分11秒3ブロックの2,026バイト目から17,400バイトの長さで選択的に伸長された上記ネイティブスピーカーの英語が記録され、音声情報列Cのセグメント群は0分11秒6ブロックの1,282バイト目から72,000バイトの長さで日本語解説が記録される。なお、621、622等のセグメントナンバーはメモリ上にはなく、そのアドレスに対応している。また、各セグメントの関係を示す記録位置識別情報は、このディレクトリ領域に含まれる。
【0080】
さらに具体的には、第10図に示されたディレクトリ領域の記録内容から、当該音声情報記録媒体の0分11秒3ブロックにおける826バイト目から826+6,000−1=6,825バイト目までの領域には、セグメントが621で属性Cが0の音声情報列すなわちネイティブスピーカが話す”It's not much of a problem.”に相当する情報が記録される。また、当該音声情報記録媒体の0分11秒3ブロックにおける2,026バイト目から2,026+17,400−1=19,425バイト目までの領域には、セグメントが621で属性Cが64の音声情報列すなわち選択的に伸長された音声情報が記録される。さらに、当該音声情報記録媒体の0分11秒6ブロックにおける1,282バイト目から1,282+72,000−1=73,281バイト目までの領域には、セグメントが621で属性Cが128の音声情報列すなわち日本語の解説に相当する情報が記録される。
【0081】
このように、図10に示されたディレクトリ領域を設ければ、図9に示されたような再生時間及び容量で図8に示された各音声情報列が記録可能である。
【0082】
次に、各セグメント621、622に関する情報は、例えば図11(a)に示された可変長セグメントのヘッダー部に記録される。このヘッダー部は、図11(b)に示されたように、先頭から文字情報や画像情報の有無等を示すための1バイト領域(1B)、音声情報列A用に用意された領域であって情報列タイプ(音声情報列A、B等を区別するための情報)を示す1バイトデータ、そのデータ長を示す3バイトデータ、及び予備の1バイトデータから構成された5バイト領域(5B)、音声情報列B用に用意された領域であって情報列タイプを示す1バイトデータ、そのデータ長を示す3バイトデータ、及び予備の1バイトデータから構成された5バイト領域(5B)、音声情報列C用に用意された領域であって情報列タイプを示す1バイトデータ及びそのデータ長を示す3バイトデータから構成された4バイト領域(4B)、文字情報列D用に用意された領域であって情報列タイプを示す1バイトデータ及びそのデータ長を示す3バイトデータから構成された4バイト領域(4B)、同様に文字情報列D用に用意された領域であってアドレスを示す3バイトデータ及びそのデータ長を示す3バイトデータから構成された6バイト領域(6B)、上記第3音声情報列のような他の情報列(タイプE)用に用意された4バイト領域(4B)、及び予備の3バイト領域(3B)からなる、32バイトの領域である。
【0083】
次に、図12〜図14を用いて、音声情報の再生動作及び装置構成を説明する。
【0084】
まず、図12は、音声再生を実現するための再生装置の全体構成を示す斜視図である。この図からも分かるように、音声記録媒体は、例えばポータブルなCDプレイヤ(再生装置本体200)により再生可能なCD−ROMであり、この再生装置本体200はコード接続されたハンドセット80によりリモート制御される。このハンドセット80には少なくとも再生中のセグメント番号を表示する液晶ディスプレイ(LCD)等の表示部210や、各種制御用ボタン群240が設けられている。また、操作者は再生装置本体200で再生された音声情報をイヤホン130を介して聴くことができる。
【0085】
また、図13は、図12に示された再生装置の構成を示すブロック図である。この図に示されたように、音声情報記録媒体15であるCD−ROMは再生機構205にセットされる。再生機構205はディスクインターフェイス(I/F)30及びバス40を介してCPU50に接続されている。また、バス40にはプログラムを格納するための例えば32キロバイト(KB)のROM60と、ディレクトリや音声情報列を一時的に格納するための例えば256キロバイトのRAM70とが接続されている。さらに、バス40には手動操作のためのハンドセット80との間で情報の授受を行なうハンドセットインターフェイス(I/F)90と、音声出力用のアンプ(AMP)100を介して外部端子110及びハンドセット80に接続されたD/Aコンパータ12に接続されている。なお、ハンドセット80には上述されたようにイヤホン130が接続されている。
【0086】
図14(a)、(b)は、それぞれROM60及びRAM70のメモリ割り当て状況を説明するための図である。図14(a)に示されたように、32キロバイトのROM60にはプログラムが格納される。一方、図14(b)に示されたように、RAM70には、(50+50)=100キロバイトのバッファ(50ブロック分に相当)と、(75+75)=150キロバイトのディレクトリと、6キロバイト分のシステムエリアが割り当てられる。したがって、RAM70には常時50ブロック分の音声情報列が保持され、かつ150キロバイト÷27≒5,555セグメント分のディレクトリ(音声情報列Aの部分のみで約30分間に相当)が保持される。
【0087】
なお、上述の具体例では音声情報記録媒体としてCD−ROMを用いているが、その代表的なものの容量は552メガバイト(MB)である。CD−ROMではアドレスを表わすのに分、秒、ブロックの単位を用いている。また、1ブロックは2,048バイト、75ブロックは1秒、60秒は1分であるため、該CD−ROMのアドレスの最大の値は59分59秒74ブロックである。逆に、このCD−ROMの容量は2,048×75×60×60=552.96メガバイトである。このうち、最初から2秒分はCD−ROMのフォーマットとしてユーザは使えないので、正確には最大容量とし552.6528MBとなる。さらに、最初から20秒に相当するところまでディレクトリ領域が割り当てられると、3メガバイトのディレクトリ容量をCD−ROMに確保することができる。
【0088】
なお、上述の実施形態には、音声情報の記録ソフト(上述の記録方法をパーソナルコンピュータ等で実施可能なプログラム、あるいは該プログラムが記録された記録媒体)、専用記録装置、使用マニュアル、あるいはこれらの組合わせによる販売、係る音声情報記録媒体単体での販売の他、該音声情報記録媒体、再生ソフト(パーソナルコンピュータ等で実効可能なプログラム、あるいは該プログラムを記録した記録媒体を含む)、専用再生装置、使用マニュアル、あるいはこれらの組合わせによる販売が考えられる。
【0089】
【発明の効果】
以上のようにこの発明は、第1周期でサンプリングされた第1音声情報列から分割された複数の周波数成分について、所望の部分に振幅を変更(強調あるいは減衰)したり波数を変更(再生時間を伸長するように増やすかあるいは再生時間を短縮のために減らす)することにより、修正された正弦波データを生成し、これら各周波数成分の正弦波データを加算することにより、新たに合成された第2音声情報列を得る。このように生成された所望の音声情報列は、周波数を変えることなく任意の部分で再生時間を伸長あるいは短縮したり、任意部分の音声が強調あるいは減衰された音声として再生できるという効果がある。
【0090】
また、この発明は、日本国特許第2581700号に開示された技術との組合わが可能であり、ネイティブスピーカーの発声音を発声の節目で分割した可変長の区画に対応して、任意部分の音声が伸長及び/又は強調された音声情報を別途用意することにより、初級学習者は聞き取れなかった音声を繰り返し再生して聞くことができるとともに、係る音声の聞き取り難い部分が強調・伸長された音声としても聞くことが可能になるという効果がある。また上級学習者とっては、任意部分の音声が短縮及び/又は減衰された音声情報を別途用意することにより、ネイティブスピーカーの発声音の再生と組合わせて、より積極的な学習が可能になるという効果がある。
【図面の簡単な説明】
【図1】この発明における音声情報の生成〜記録動作を説明するための概念図である。
【図2】サンプリングされた入力音声情報から分割する各周波数成分(チャネル)の一例を示す表である。
【図3】音声スペクトルの基本的な形状を説明するための図である。
【図4】音声記録媒体に記録されるべき音声情報列を含む各種情報を概念的に説明するための図である。
【図5】この発明に係る音声情報の生成方法を実現するための周辺装置の全体構成を示す図である。
【図6】この発明に係る音声情報の生成方法を説明するためのフローチャート(その1)である。
【図7】この発明に係る音声情報の生成方法を説明するためのフローチャート(その2)である。
【図8】英会話独習用に適用された音声記録媒体の各音声情報列と、その記録内容を説明するための図である。
【図9】図8に示された各音声情報列について、各セグメント当りの時間と容量との関係を説明するための表である。
【図10】図8及び図9に示された音声記録媒体におけるディレクトリ領域の記録内容(記録位置識別情報を含む)を説明するための表である。
【図11】音声記録媒体に記録されるべき可変長セグメントの構成を示す図である。
【図12】音声記録媒体の再生方法を実現する再生装置の全体構成を示す斜視図である。
【図13】図12に示された再生装置の構成を示すブロック図である。
【図14】図13に示されたROM及びRAMのメモリ割り当て状況を説明するための図である。
【符号の説明】
1…PC、10…制御系、14…入出力装置、15…音声情報記録媒体、19…Vデータ、16−1〜16−85…正弦波データ生成回路、17、175…DAC、18、177…スピーカー、173…加算器。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio information encoding method for generating a new audio information sequence based on a predetermined audio information sequence, and a method for generating the new audio information.
[0002]
[Prior art]
Conventionally, various teaching materials in which audio information is recorded on a recording medium such as a cassette tape have been provided for self-study of languages such as English conversation, practice of poetry, self-study of law, and other purposes. Here, taking a self-study material for English conversation as an example, a conventional main recording medium is, for example, a cassette tape (or record) in which a series of English utterances (voice information) is recorded. This tape material and text were used in combination. There are various levels of such teaching materials from beginner to advanced.
[0003]
In Japanese Patent No. 2581700, a first area in which a speech information sequence (sound generated by natural speed) suitable for advanced learning divided into a plurality of sections is recorded, and these sections correspond to each section. A second area in which a speech information string (sound that is clearly generated and differently derived in the same linguistic sense) suitable for beginner learning is composed of equivalent sections, and the advanced user It has at least a third area in which information indicating the relationship between the corresponding sections of each of the speech information strings for learning and beginner learning is recorded at the recording position in the recording medium of each section of these sound information strings. An information recording medium such as a CD-ROM and a reproducing method including switching reproduction between corresponding sections of the information recording medium having such a structure have been proposed.
[0004]
[Problems to be solved by the invention]
As described above, in the information recording medium of Japanese Patent No. 2581700, the sound generated by a native speaker is recorded in the first area on the medium, and the second area is delayed in the same sense in terms of language. A sound information sequence composed of pronunciation is recorded. Therefore, if the reproduced sound cannot be heard while the audio information sequence recorded in the first area is being reproduced, the audio information sequence having the same content recorded in the second area (during the reproduction of the first audio information sequence) And the correspondence between the section of the second audio information string and the section to be reproduced is recorded in the third area), and the learner can understand the meaning of the voice that could not be heard.
[0005]
However, although the English learner can understand the information recorded in the first area by listening to the information recorded in the second area as described above, it is still recorded in the first area. Information, especially sounds that cannot be heard, cannot be heard just by repeatedly listening. It is well known that Japanese learners of English are not good at listening to phonemes, especially consonants, that are not in Japanese, and hindering conversations with native speakers.
[0006]
The present invention relates to a technique for improving hearing ability of an original voice by letting a voice edited in advance so that a hard-to-hear part is easy to hear for a learner. It is an object of the present invention to provide a method for encoding audio information in which the amplitude and reproduction time of the frequency component are selectively edited without changing the frequency component of the audio information itself, and a method for generating the same.
[0007]
[Means for Solving the Problems]
The present invention emphasizes or attenuates a desired portion of the audio information sequence without changing the frequency component of the captured audio information sequence as hearing practice audio, and partially extends or shortens the reproduction time. The present invention relates to a technique for newly generating a voice information sequence. In the present invention, since the sound quality of the reproduced audio information is not changed, desired editing is performed on each frequency component of the audio information, not on the sampled audio information, and these edited frequency components are changed. A new audio information sequence is obtained by synthesis. With this configuration, it is possible to provide audio information for hearing practice in which portions difficult to hear for Japanese English learners are selectively emphasized and / or extended. On the other hand, when the advanced user desires further improvement of the hearing ability, it is possible to provide audio information in which the audio is selectively attenuated or the reproduction time is shortened.
[0008]
Specifically, in the audio information encoding method according to the present invention, a first audio information sequence sampled in a first period (for example, an audio clock 44.1 KHz of a music CD) is converted into a plurality of frequency components (hereinafter referred to as channels). The amplitude information is obtained for each channel in a second period (e.g., corresponding to the number of data necessary to form one waveform). This amplitude information is given by the amplitude change amount of the waveform corresponding to, for example, 100 data in the first audio information string. If one waveform is not formed in 100 data, the amplitude information is increased to the number of data capable of one waveform ( The second period is extracted). The second cycle may be a regular cycle.
[0009]
Further, a plurality of corrections edited so as to selectively change the amplitude information with respect to the amplitude information sequence of each channel obtained in this way (sequence of amplitude information extracted in the second period for each channel). An amplitude information sequence is generated. The plurality of modified amplitude information sequences are obtained for each channel corresponding to each frequency component. Then, between the modified amplitude information sequences corresponding to each channel, each information component group consisting of amplitude information extracted at the same timing corresponding to each other, and a first cycle prepared for each of these information component groups, V data including control information for instructing to extend or shorten the audio reproduction time with reference to is generated.
[0010]
Subsequently, the audio information generating method according to the present invention has an amplitude (value after correction) given by the V data from the V data generated as the data of the second period and a data interval of the first period. Sine wave data corresponding to each channel and having a wave number corresponding to the reproduction time indicated by the control information. By sequentially adding the sine wave data generated for each channel in this way, audio data (second audio information string) of the first period is generated. The generated audio data is recorded on a predetermined recording medium.
[0011]
In the audio information encoding method according to the present invention, each amplitude information in the amplitude information sequence of each channel extracted in the second period is edited so as to be selectively emphasized or attenuated in an arbitrary portion. Is done. That is, for the amplitude information string of each channel, a corrected amplitude information string is generated by selectively resetting the amplitude value given from the amplitude information of a predetermined portion corresponding to each channel. The In addition, in order to avoid an unnatural amplitude change of the reproduced sound, each amplitude of the generated sine wave data for each channel is based on a value obtained by linear interpolation between adjacent amplitude information in the corrected amplitude information sequence. It is determined.
[0012]
As described above, the audio information encoding method according to the present invention is configured to change the amplitude of an arbitrary portion of the amplitude information sequence generated for each channel, and the reproduction time Since control information for instructing expansion / reduction is prepared for each information component group in which the amplitude information of each channel extracted in the second period is collected, the reproduction is performed in an arbitrary part without changing the frequency component. The audio can be selectively emphasized and attenuated, and the playback time can be partially extended and shortened.
[0013]
This is mainly because even if Japanese people simply listen to natural speed English by listening slowly, it is not enough to simply extend or shorten the audio playback time for each frequency component. This is because, depending on the type of generated sound, the temporal change in the spectrum of the consonant part may mean another sound as a linguistic sound. For example, BA (PA) and PA (PA) pronunciations have a fast spectrum change, the latter is slow, and the spectrum itself has almost the same shape. Therefore, if the time is extended including the consonant part of the pronunciation of BA, it will be heard as PA. In order to prevent this, if the extension level of the consonant part is limited to the limit that can be heard as BA, and only the vowel part is extended or shortened to the desired voice reproduction time, it can be heard as BA. . On the other hand, the vowel part can be set to the desired length (desired playback time) since it can be heard as it is, no matter how much it is expanded or shortened. On the other hand, it is also necessary to selectively emphasize only the small consonant sounds that are too weak to be heard by the Japanese and to emphasize them twice or three times. The emphasis including the vowel part is too large to be effective. It must be emphasized selectively. For the reasons described above, the amplitude information sequence for each channel is also edited at the same timing in the modified amplitude information sequence for each channel, with the portion of the amplitude information sequence that is particularly difficult to hear for the beginner being selectively emphasized. The control information for instructing the extension of the reproduction time is sequentially recorded together with the V data composed of the amplitude information. On the other hand, in the case of an advanced user, even if the audio information string is selectively edited so that the reproduced audio is attenuated at a desired portion or the reproduction time is shortened in consideration of the characteristics of each uttered sound described above. Good.
[0014]
Furthermore, in the audio information encoding method according to the present invention, when male audio is recorded on a predetermined recording medium, the frequency spectrum of the output audio remains unchanged when the audio is reproduced while extending the audio reproduction time. However, there is a possibility of causing the illusion of shifting to a lower sound. On the other hand, when the playback is performed while shortening the voice playback time, there is a possibility of causing an illusion that the sound is shifted to a lower level. Therefore, it is preferable that the control information includes frequency shift instruction information for shifting the entire frequency component in the high pitch direction or the low pitch direction for about a semitone or one tone so as to be reproduced.
[0015]
In addition, the present invention can be expected to have a dramatic learning effect when combined with the technique disclosed in the above-mentioned Japanese Patent No. 2581700. In other words, corresponding to variable-length sections obtained by dividing the utterance sound of the native speaker by utterance milestones, by separately preparing audio information in which the audio of an arbitrary part is expanded and / or emphasized, the audio that could not be heard is repeated. By listening to the sound that can be reproduced and heard and the emphasized / extended portion of the sound that is difficult to hear can be expected to improve the hearing ability of the original sound. In addition, for advanced users, in order to improve the learning effect more positively, by separately preparing voice information in which the voice of an arbitrary part is shortened and / or attenuated together with the voice of the native speaker divided into sections, It is possible to play back with a shortened playback time, or to make it difficult to hear the consonant part (reduce the amplitude), and learning combined with the uttered sound of the native speaker becomes possible.
[0016]
Specifically, the first audio information sequence is an audio information sequence corresponding to one or more sentences composed of a word sequence to be reproduced and output by a predetermined audio reproducing means, and is divided at each pronunciation node. Each piece of information is recorded on a recording medium in a state of being divided into variable length sections. Thereby, the second audio information sequence is recorded on a predetermined recording medium for each section divided corresponding to the section of the first audio information sequence, and further, the first audio information sequence and the second audio information sequence are recorded on the recording medium. In order to switch and reproduce the second audio information string by a predetermined audio reproducing means, recording position identification information indicating each section that can be switched is indicated by the recording position of each section on the predetermined recording medium. In this manner, by recording in advance the correspondence relationship between each segment of the first audio information sequence and each segment of the second audio information sequence, one or more desired segments are repeatedly reproduced. In addition, it is possible to reproduce the natural speed reproduction sound and the same generated sound prepared according to the level of each learner while switching in real time.
[0017]
Therefore, the audio information recording medium in which predetermined audio information (not the waveform data but the amplitude information sequence in which each frequency component is corrected) is recorded by the encoding method according to the present invention is obtained.
[0018]
As such a sound information recording medium, for example, a disk-shaped recording medium such as a CD-ROM, MD, or MO, or a tape-shaped recording medium such as a DAT can be applied. The first audio information sequence sampled in the first period is divided into a plurality of frequency components, and for each of these frequency components, the amplitude of a predetermined portion and a predetermined value with respect to the amplitude information sequence sequentially extracted in the second period At least a second audio information sequence synthesized by generating sine wave data having a changed number of waveforms and adding the sine wave data corresponding to each frequency component is recorded. That is, the second audio information sequence recorded in the audio recording medium is a portion corresponding to each other between the frequency components for each frequency component constituting the first audio information sequence sampled at a predetermined cycle, This is the second audio information sequence in which the amplitude and the reproduction time are selectively edited by changing at least the amplitude or the number of waveforms.
[0019]
Further, in the audio information recording medium, the first information sequence, which is an audio information sequence corresponding to one or more sentences composed of a word sequence to be reproduced and output by a predetermined audio reproduction means, is a pronunciation node. By recording each divided information in a state of being divided into variable-length sections, it is possible to combine with the technique disclosed in the above-mentioned Japanese Patent No. 2581700.
[0020]
In the audio information recording medium configured as described above, the second audio information sequence is recorded for each of the sections divided corresponding to the sections of the first audio information sequence, together with the first audio information sequence. Recording position identification information indicating each switchable section as a recording position of each section on the predetermined recording medium so that the first sound information string and the second sound information string are switched and reproduced by a predetermined sound reproducing means. Therefore, by preparing such a sound information recording medium, the sound information in the corresponding section of the other sound information sequence can be reproduced even when one sound information sequence is being reproduced. Real-time switching playback is possible for the columns.
[0021]
In the above-described embodiment, the recording software (a program capable of executing the above-described recording method on a personal computer or the like, or a recording medium on which the program is recorded), a dedicated recording device, a use manual, or a combination thereof In addition to sales by such a voice information recording medium, the voice information recording medium, voice information playback software (including a program that can be executed by a personal computer, or a recording medium on which the program is recorded), dedicated playback The sale by an apparatus, a use manual, or these combination is considered.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below with reference to FIGS. In addition, the same code | symbol is attached | subjected to the same part in a figure, and the overlapping description is abbreviate | omitted.
[0023]
The present invention is a technique that makes it possible to provide voice information that is selectively emphasized or attenuated in advance, or that has been extended or shortened in reproduction time, for example, in hearing practice of an English learner. Therefore, the learner who has listened to the voice information edited in advance can be expected to improve the hearing ability with respect to the original voice.
[0024]
FIG. 1 is a conceptual diagram for schematically explaining the generation and recording operations of audio information according to the present invention. First, the natural speed sound (first sound information) of the native speaker sampled at, for example, the audio clock 44.1 KHz (first period) of the music CD is taken into the PC 1 main body by the microphone 11 or the like and once recorded on the hard disk or the like. Is done. Then, the captured audio information is filtered to divide into each channel (frequency component) divided as shown in the table of FIG. The frequency range of the audio information to be captured is 75 Hz to 10,000 Hz, and the sampling frequency is 44.1 kHz (22.68 μs) in accordance with the audio clock of the music CD. The number of channels to be divided is 85 (7 octaves + 1 sound), and the center frequency (center f) of each channel # 1 to # 85 is set to be a semitone string of equal temperament (12 equal temperament per octave). (77.78 Hz (D #) to 9,960 Hz (D #)).
[0025]
As described above, the data divided into the respective channels # 1 to # 85 has amplitude information of 2.268 ms (corresponding to 100 data of 44.1 kHz sampling, provided that one waveform cannot be formed with 100 data). To increase the number of data). Therefore, in this embodiment, the sampling rate (second period) of amplitude information in each channel # 1 to # 85 is 441 samples / s (2.268 ms). Note that this sampling rate may be a regular cycle. For example, after sampling 100 data, and then processing 120 data, the processing is repeated alternately at these different rates. May be.
[0026]
Further, the control system 10 of the PC 1 performs various editing (display 12 and input device 13 such as a keyboard and a mouse) on the amplitude information of each channel # 1 to # 85 sampled every 2.268 ms. To generate a modified amplitude information group every 2.268 ms. Then, the modified amplitude information (elements constituting the modified amplitude information group) of each channel # 1 to # 85 is expressed by 1 byte (8 bits), and further 2 bytes of control information is added to 87 bytes ( 85 channels × 1 byte + 2 bytes) V data 19 is generated.
[0027]
The corrected amplitude information is edited so that each amplitude information in the amplitude information string (amplitude information sampled at 2.268 ms) of each channel # 1 to # 85 is selectively emphasized or attenuated at an arbitrary portion. This is the information obtained. That is, with respect to the amplitude information string of each channel # 1 to # 85, the corrected amplitude is selectively set to be larger or smaller by selectively resetting the amplitude value given from the amplitude information of a predetermined portion corresponding to each other between the channels. An information sequence is generated. Further, the control information includes expansion instruction information (1 byte) instructed to extend or shorten the time to reproduce the frequency components of the channels # 1 to # 85, which are instructed by the editing operation, and each channel # 1. It is composed of frequency shift instruction information (1 byte) for instructing whether or not the frequency component corresponding to .about. # 85 is to be reproduced by shifting the entire half tone or one sound in the low or high pitch direction.
[0028]
The decompression instruction information is expressed by the number of reproduction clocks indicating how many ms one data is reproduced. For example, if this decompression instruction information is expressed by a half of the number of clocks to be reproduced, 50 is the same as the original reproduction time, and if this information is set to 100, it is reproduced at 200 clocks as a 44.1 kHz clock. Thus, it is possible to extend the reproduction time by a factor of 2 (since this information is expressed in 1 byte, the reproduction time can be expanded up to 256 ÷ 50 = 5.12 times). On the contrary, when this information is set to 25, reproduction is performed with 50 clocks as a 44.1 kHz clock, and the reproduction time can be reduced to ½. In the frequency shift instruction information, ON “1” is set when all frequency components are shifted in the bass direction or treble direction, and OFF “0” is set when no shift is necessary.
[0029]
As described above, a new audio information sequence is generated based on the V data 19 generated by the control system 10 performing desired editing on the amplitude information of each channel # 1 to # 85 sampled at 2.268 ms. Is done.
[0030]
In order to generate a new audio information sequence from the generated V data 19, sine wave generation circuits 16-1 to 16-85 that generate sine waves having wavelengths corresponding to the channels # 1 to # 85. The external device 16 having the above is required. In each of the generation circuits 16-1 to 16-85, a ROM in which basic data of a sine wave having a frequency corresponding to each of the channels # 1 to # 85 is recorded, and a RAM # in which the generated sine wave data is temporarily recorded. 1 to # 85. Each of these circuits is shaped based on the corrected amplitude information of the V data 19 sent from the control system 10, and has the number of waveforms indicated by the expansion instruction information of the control information. The sine wave data is written into each RAM # 1 to # 85. Note that the data interval constituting the sine wave data is a data interval of 22.68 μs with a sampling frequency of 44.1 kHz.
[0031]
The sine wave data written in the RAMs # 1 to # 85 in each of the generating circuits 16-1 to 16-85 are sequentially read out at the timing of 44.1 kHz and added to each other to add audio data ( Audio information sequence) is generated. This audio data is sent to the control system 10 and output from the control system 10 to the input / output device 14 such as a CD-ROM writing device via the I / O. The input / output device 14 records the 44.1 kHz audio data sent from the control system 10 on a predetermined audio information recording medium 15 such as a CD-ROM.
[0032]
In the generation of the sine wave data performed by each of the generation circuits 16-1 to 16-85, in order to avoid an unnatural amplitude change of the reproduced sound, each amplitude of the sine wave data for each channel # 1 to # 85 is It is determined by a value obtained by linear interpolation between adjacent amplitude information in the corrected amplitude information sequence. Further, the audio data generated by the external device 16 may be output as audio from the speaker 18 via the DAC 17 and AMP as it is. Furthermore, as the audio information recording medium 15, for example, a disk-shaped recording medium such as CD-ROM, MD, or MO, or a tape-shaped recording medium such as DAT can be applied.
[0033]
On the other hand, the present invention mainly relates to a technology that allows Japanese people to simply reproduce and listen to natural speed English, but it has not been possible to simply and uniformly extend or shorten the audio playback time for each frequency component. Insufficient. That is, FIG. 3 is a diagram showing the basic shape of the speech spectrum, but depending on the type of generated sound, the temporal change in the spectrum of the consonant part may mean another sound as a linguistic sound. . For example, BA (PA) and PA (PA) pronunciations have a fast spectrum change, the latter is slow, and the spectrum itself has almost the same shape. Therefore, if the time is extended including the consonant part of the pronunciation of BA, it will be heard as PA. In order to prevent this, if the extension level of the consonant part is limited to the limit that can be heard as BA, and only the vowel part is extended or shortened to the desired voice reproduction time, it can be heard as BA. . On the other hand, the vowel part can be set to the desired length (desired playback time) because it can be heard as it is, no matter how much it is expanded or shortened. On the other hand, it is also necessary to selectively emphasize only small consonant sounds that are too weak for the Japanese to listen to, with a double or triple enhancement (with an increased amplitude). The emphasis including the vowel part is too large to be effective. It must be emphasized selectively. For the reasons described above, the amplitude information sequence for each channel is also edited at the same timing in the modified amplitude information sequence for each channel, with the portion of the amplitude information sequence that is particularly difficult to hear for the beginner being selectively emphasized. Control information for instructing the extension of the reproduction time is generated as V data together with the information component group constituted by the amplitude information. On the other hand, in the case of an advanced user, even if the audio information string is selectively edited so that the reproduction sound is attenuated at a desired portion or the reproduction time is shortened in consideration of the characteristics of each uttered sound described above. Good.
[0034]
Furthermore, when a male voice is recorded on a predetermined recording medium by the above-described recording method, the frequency spectrum of the output voice remains unchanged if the voice playback time is extended and / or the desired portion of the voice is emphasized. There is a possibility that the illusion of shifting to a lower sound will be caused. On the other hand, when playback is performed while reducing the audio playback time and / or attenuating the audio of a desired portion, there is a possibility that an illusion that the sound has been shifted to a lower sound sensuously. Therefore, the control information includes frequency shift instruction information for making the entire frequency component reproducible by shifting the entire frequency component in the bass direction or the treble direction for about one semitone or one tone.
[0035]
Next, as disclosed in the above-mentioned Japanese Patent No. 2581700, the present invention is suitable for a technique for reproducing a recording medium in which the sound of a native speaker is recorded. Hereinafter, a configuration in which the present invention is applied to the technology will be described.
[0036]
This invention can be expected to have a dramatic learning effect when combined with the technique disclosed in the above-mentioned Japanese Patent No. 2581700. In other words, corresponding to variable-length sections obtained by dividing the utterances of native speakers by utterance milestones, learning is performed by separately preparing voice information in which arbitrary portions are selectively expanded or reduced, or emphasized or attenuated. The user can repeatedly hear and listen to the sound that he could not hear, and to improve the listening ability, it is also possible to hear the part of the reproduced sound that is difficult to hear as the sound is expanded, shortened, emphasized or attenuated. Become.
[0037]
FIG. 4 is a diagram for conceptually explaining various types of information including an audio information string to be recorded on a predetermined audio recording medium.
[0038]
First, the first audio information sequence (the audio information sequence sampled at 44.1 kHz) recorded on the audio information recording medium 15 has a length such as a conversation of a performer in a movie, a conversation in a daily living environment, and the like. It is composed of a plurality of sentences (sentences) with different voices, and between each sentence (voice information of each talker), a situation where no voice is played, a situation where only noise is played, and music (BGM) only This is a series of audio information sequences in which there may be a silent period that occurs at random, such as a situation where is being played. Therefore, the first audio information sequence is an audio information sequence corresponding to one or more sentences composed of a plurality of word sequences to be reproduced and output by a predetermined audio reproducing means, and the audio information recording medium 15 In the first area, as shown in FIG. 4, each piece of audio information divided at each pronunciation node is recorded in a state of being divided into variable-length sections (hereinafter referred to as segments).
[0039]
In general, in a native speaker's English conversation, one sentence is uttered in about 3 seconds. Therefore, by setting a pronunciation node that determines a segment constituting a speech information string to be recorded between each sentence, FIG. As shown in (a), (b), or (d), it is appropriate to configure the variable length segments 621, 622, and 799 constituting the audio information sequence, respectively. Note that, as shown in FIG. 4C, an extremely short sentence is included in the sentence in conversation, but this sentence 701 also constitutes one segment. On the other hand, as shown in FIG. 4 (e), in the case of an extremely long sentence, the sentence before the conjunction or relative is a pronunciation milestone, so the sentence as shown in FIG. 4 (e). Therefore, it is reasonable to configure the segment by two continuous segments 801 and 802. Therefore, the segment of the speech information sequence to be recorded means a recording unit of speech information divided based on a speech break (breathing position) or some linguistic (grammatical) break.
[0040]
In the present invention, first, an arbitrary portion is selectively edited (change of amplitude of each frequency component, change of reproduction time) for each segment obtained by dividing the first information string as described above. A second audio information sequence is generated. Specifically, as shown in FIG. 5, the second audio information sequence is generated by the PC 1 main body that edits each frequency component and the external device 16 that generates the edited audio data (second audio information sequence). The information is recorded on a predetermined audio information recording medium 15 by the configured device.
[0041]
In particular, as shown in FIG. 5, the external device 16 is a slave having a master board 165 for generating audio data and sine wave generation circuits 16-1 to 16-85 provided corresponding to the respective channels. The board 166 is configured. The master board 165 includes a timing controller 171 and a FIFO 172 to supply the V data from the PC 1 to each of the generation circuits 16-1 to 16-85 according to the control signal, and from each of the generation circuits 16-1 to 16-85. An adder 173 that sequentially adds the sine wave data (16 bits) sent to generate audio data (16 bits), and a RAM 174 as a buffer that temporarily stores the generated audio data transmitted to the PC 1. Prepare. Note that the master board 165 shown in FIG. 5 uses the first voice information sequence and the newly edited second voice information sequence as sounds in response to an instruction from the PC 1 and outputs them to the speaker again and again. The DAC 175 and the AMP 176 are provided so that the generated audio data can be directly reproduced and output by the speaker 177 (the structure for audio reproduction is provided on the PC 1 side as shown in FIG. 1). May be good). On the other hand, the slave board 166 includes sine wave generation circuits 16-1 to 16-85 that respectively generate sine waves of a predetermined frequency corresponding to each channel, and these generation circuits 16-1 to 16-85 are provided. , A ROM in which data for generating a sine wave is recorded, and RAMs # 1 to # 85 as buffers for storing the sine wave data once generated.
[0042]
Note that the master board 165 and the slave board 166 are connected by 30 signal buses and a total of 32 buses of GND and Vcc. In FIG. A bus group related to V data for supplying V data to 16-85, and a bus group indicated by 168 is related to audio data for sending sine wave data for generating audio data from each generating circuit to the master board 165. A group of buses.
[0043]
Next, an embodiment of the audio information generation method according to the present invention applied to the technique disclosed in Japanese Patent No. 2581700 will be described with reference to FIG. 5 and the flowcharts of FIGS. explain.
[0044]
First, generation of V data is performed on the PC 1 side. That is, in PC1, a series of audio information sequences (first audio information sequence) samples 44.1 kHz (16 bits / data), and sampling data corresponding to the first audio information sequence is temporarily stored in the hard disk (step ST1). 4), as shown in FIG. 4, it is decomposed into a plurality of segments (step ST2).
[0045]
Subsequently, the waveform information of the band width (75.57 kHz to 80.06 kHz) of the first channel # 1 is first developed in the memory for one of the divided segments by the digital band bass filter program. . Also at this time, the data interval corresponding to the 44.1 kHz rate is developed. Then, average amplitude information (8 bits) is extracted every 100 data (step ST3). As described above, when one waveform cannot be formed with 100 data with respect to the frequency component of the first channel # 1, the number of data that can be formed with one waveform is increased to obtain the distribution information. The same operation is repeated by shifting by 100 data until the sampling data of the target segment is completed. With this operation, the amplitude information string (441 pieces of amplitude information per second) with a data interval of 2.268 ms is obtained for the first channel # 1, which is the target channel. When the amplitude information extraction operation of the first channel # 1 as the target channel is completed (step ST5), the frequency of the second channel # 2 is subsequently divided by the digital band bus filter, and the operations of the above-described steps ST3 to ST5 are performed. Is repeated and the target channel is changed (step ST7), and the amplitude information string of the target segment is generated for the first channel # 1 to the 85th channel # 85.
[0046]
The above operation is performed until all segments constituting the first audio information sequence sampled in step ST1 are completed while changing the target segment (step ST10) (step ST9).
[0047]
Next, on the PC1 side, the following editing is performed on the amplitude information string for 85 channels for each segment obtained by executing the above steps ST1 to ST9, and V data is generated. (Step ST11).
[0048]
First, the 85-channel amplitude information sequence group generated for each divided segment is called from the storage destination hard disk, and the amplitude waveform is sequentially displayed on the monitor 12.
[0049]
In actual editing work, a desired portion of the displayed amplitude waveform is designated and a reproduction time is designated (clock 50 is a reference). Further, if necessary, the part to be changed is specified to change the amplitude (set with the magnification based on the displayed amplitude), or to specify a frequency shift instruction in the bass direction or the treble direction. For example, the consonant part in the segment doubles the amplitude and the reproduction time 1.5 times, while the vowel part keeps the amplitude as it is and the reproduction time only 2.5 times. The amplitude information sequence obtained for the portion is edited, and a modified amplitude information sequence in which each amplitude information is newly corrected is generated.
[0050]
Then, among the obtained corrected amplitude information strings for 85 channels, the above-described reproduction time change is instructed for each information component group in which information components of the same timing corresponding to each other between the corrected amplitude information strings are collected. By adding control information including information to be transmitted and information for instructing frequency shift, V data having a data interval of 2.268 ms can be obtained.
[0051]
Next, the V data (87 bytes / data) prepared on the PC 1 side as described above is sent to the master board 165 of the external device 16, and further from the master board 165 via the data bus, each data on the slave board 166. It is sent to the sine wave generation circuits 16-1 to 16-85. The slave board 166 is actually composed of 11 boards on which 8 circuits are mounted (only 5 of the 8 circuits are used for the 11th board), and each circuit corresponds. Channel sine wave data is generated (step ST12). Each circuit has the same configuration except that the ROM storing the sine wave waveform data is different and the 7-bit DIP / SW setting for specifying the corresponding channel is different.
[0052]
In each circuit that handles each channel, first, the header (2 bytes) of the 87-byte V data sent from the master board 165 is commonly received, while the corrected amplitude information in the V data corresponds. Only the modified amplitude information (1 byte) for the channel is received. Each circuit can check the reproduction time of the received header information in order to determine the number of clocks of 44.1 kHz for shaping and outputting the waveform. For example, when the instructed playback time is given as 50, 100 clock playback is performed (the playback time does not change), and when 110 is played, 220 clock playback is performed (the playback time is doubled). Each circuit stores the sine wave data of the frequency it is responsible for in the ROM at the data interval when it is output at 44.1 kHz (the sine wave wave of that frequency is accurately detected from address 0 to address N of the ROM address). M-waves are stored (M and N are natural numbers) The processor in each circuit increments the ROM address every time one sine wave data is created (every 22.68 μs). Next to the address, it returns to zero, so that an accurate sine wave can be created without discontinuities, but the above-mentioned sine wave data is converted into the basic data stored in the ROM. Multiply each piece to generate one sine wave data, and each amplitude information is a value obtained by linear interpolation between the current amplitude information and the previous amplitude information.
[0053]
As described above, the sine wave data generated by each circuit is an output buffer by referring to the ROM at a cycle of 44.1 kHz (22.68 μs) and multiplying the referenced data by the coefficient obtained by the above interpolation. Store in each of the RAMs # 1 to # 85.
[0054]
Then, the control signal from the master board 165 obtains the timing (22.68 μs cycle) at which the sine wave data stored in each of the RAMs # 1 to # 85 is sent to the output bus (16 bits), and is sent to the bus only at that time. To do. The time width given to one circuit is 226 ns (22.68 μs ÷ 85). On the other hand, the capture timing on the master board 165 side is given by a clock and a synchronization signal. The number of clocks from the synchronization signal is the same as the channel number specified by the DIP switch. Further, when the frequency shift instruction information included in the header information of the V data is ON, the sine wave data of the frequency shifted by a semitone (or full tone) can be output from each circuit to the ROM provided in each circuit. Stores various types of waveform data so that one can be selected.
[0055]
On the other hand, the master board 165 receives the sine wave data generated by the circuits 16-1 to 16-85 at a ratio of 85 data out of 22.68 μs (data interval is 22.68 μs ÷ 85 = 266 ns). In practice, the adder 173 adds the sine wave data from each circuit while receiving it to generate 44.1 kHz audio data (second audio information string) (step ST13). The generated audio data is sequentially stored in the RAM 174 which is a buffer and sent to the PC 1.
[0056]
The PC 1 records the audio data on the predetermined recording medium 15 while controlling the input / output device 14 with the sent audio data (step ST14).
[0057]
Next, each embodiment to which the technique disclosed in the above-mentioned Japanese Patent No. 2581700 is applied will be described.
[0058]
First, in the first embodiment, at least two types of audio information sequences and recording position identification information are recorded. That is, the first audio information sequence is composed of, for example, English audio information that is spoken by a native speaker at a natural speed, and this audio information sequence is generated as described above (the end of a sentence or a break in a sentence) Divided into a plurality of variable length segments. The second audio information sequence is an audio information sequence obtained by selectively editing the first information sequence as described above, and corresponds to each segment of the first audio information sequence. It is divided into multiple variable length segments. The recording position identification information is information indicating at which position on the audio recording medium at least each segment in the first and second audio information strings is recorded. Therefore, for example, the segment “It's ... not ... much ·· of ··· a ··· corresponding to the t-th segment"It's not much of a problem. " The position where “problem.” Is recorded can be recognized from this recording position identification information.
[0059]
As a result, the first and second audio information sequences and the recording position identification information are not recorded independently of each other but are recorded with a certain relationship, and each audio information sequence is organically combined in units of segments. . That is, the first and second audio information strings are paired with each other, and the recording position identification information is associated with each segment. In this embodiment, the recording / recording position identification information is recorded in the directory area of the audio information recording medium and includes at least information on the head position of each segment.
[0060]
In the reproduction of the audio information recording medium having the above-described structure, audio reproduction is performed in order for each recorded segment. In particular, in this reproduction method, the first audio recorded on the audio information recording medium is performed. It is characterized in that reproduction switching from the information sequence to the second audio information sequence (or reproduction switching from the second audio information sequence to the first audio information sequence) is possible. This reproduction switching operation is performed in units of segments. For example, when a reproduction instruction for the second audio information sequence is input while the t-th segment of the first audio information sequence is being reproduced (generation of an interrupt request), the second audio information is based on the recording position identification information. The corresponding t-th segment in the column is read, and the sound reproduction of the corresponding segment is executed. Conversely, playback switching from the second audio information sequence to the first audio information sequence is also performed in units of segments in the same manner as the above-described playback switching operation.
[0061]
In this reproduction, in addition to the reproduction switching operation described above, various modifications such as repeat reproduction are possible. A typical example is a so-called return command. That is, when a return command is input after temporary playback is interrupted by a stop command during playback, the voice information can be reproduced more appropriately to the operator's wish by returning the read position of the voice information by the commanded amount. Done.
[0062]
This second embodiment has basically the same structure as the first embodiment described above, but is equivalent to the contents of the first audio information sequence in addition to the first audio information sequence and the second audio information sequence. Although it is meaning content, it is another voice information, for example, it is characterized by having a third voice information sequence which is English voice information of slow speed speaking with words separated. The third audio information sequence is also composed of a plurality of variable length segments, and the recording position identification information manages the recording positions between the segments in the first to third audio information sequences. . Therefore, the reproducing operation in the second embodiment is the same as that in the first embodiment.
[0063]
In the second embodiment, the important thing is that the first audio information sequence and the third audio information sequence are each divided into a plurality of variable length segments. Is. For example, when the t-th segment (621 in FIG. 4A) of the first audio information sequence is “It's not much of a problem.” Spoken by the native speaker, the t-th segment of the third audio information sequence is The segment is "It is not much of a problem." However, the content corresponding to the second audio information string and consisting of different audio information indicates that the utterances are different in the same meaning in the language.
[0064]
Furthermore, in the third embodiment, in addition to the first and second audio information sequences, a fourth audio information sequence that is an audio information sequence such as a grammar commentary is recorded on the audio information recording medium. Different from the first embodiment.
[0065]
What is important here is that the third audio information sequence is divided into a group of one or more variable length segments of the first and second audio information sequences. In other words, one segment group of the fourth audio information sequence includes one or more segments of the first and second audio information sequences, and thus one segment group of the fourth audio information sequence is It is paired with one or more segments of the first and second audio information sequences. In particular, this configuration assumes a case where one sentence is divided into a plurality of segments as shown in FIG.
[0066]
In the third embodiment, the recording position identification information recorded in the predetermined area includes information indicating the recording position of the content of the fourth audio information sequence for each segment group. Therefore, the first, second and fourth audio information sequences and the recording position identification information are recorded on the medium with a certain relationship with each other, and each audio information sequence is organically combined in units of segments or segment groups. Also in the third embodiment, the recording position identification information is recorded in the directory area of the audio information recording medium, and includes information on the start position of the segment in each audio information string. Also in this embodiment, a third speech information sequence that is equivalent to the speech information of the first speech information sequence and has a slow speed may be recorded.
[0067]
The reproduction of the audio information recording medium having the structure as described above is basically the same as in the case of the first embodiment described above, but in addition to reproduction switching between the first and second audio information strings, The difference is that the playback switching operation is performed between the first and second audio information sequences and the fourth audio information sequence.
[0068]
For example, “It's not much of the native speaker during playback of the first audio information sequence”
If “problem” cannot be heard, the playback is switched from the first audio information sequence being reproduced to the second audio information sequence, so that the audio that has been selectively edited such as expanded
You can listen to "It's ... not ... much ... of ... a ... problem." And if you want to know the meaning and grammar of this Japanese language,
What is necessary is just to switch reproduction | regeneration to an audio | voice information sequence. Of course, it is needless to say that this reproduction method can also be applied so as to be used in combination with the return command and the stop command described in the reproduction operation in the first embodiment. Also in the playback in the third embodiment, switching playback and repeat playback are possible.
[0069]
The fourth embodiment is basically the same as the case of the first embodiment described above, except that a character information string is recorded in addition to the first and second audio information strings. This character information string corresponds to character information having contents corresponding to the first or second sound information string, and corresponds to, for example, character information corresponding to English (speech) spoken by a native speaker.
[0070]
This character information sequence is also divided into segments corresponding to the segments of the first and second audio information sequences. Also in the fourth embodiment, the recording position identification information includes information regarding the recording position of the character information string for each segment of each audio information string, and the audio information recording medium. Is recorded in the directory area. Therefore, the first and second audio information strings and the character information strings correspond to each other in segment units.
[0071]
In the fourth embodiment, when the fourth audio information sequence in the third embodiment is added as recording information, one or more segments of the first and second audio information sequences and the character information sequence are the first and second segments. This also corresponds to one segment group of the three audio information strings. Also in this configuration, the recording position identification information includes the head position of each segment and is recorded in the directory area of the audio recording medium. As in the third embodiment described above, the fourth embodiment also has a third voice information sequence that is equivalent to the voice information of the first voice information sequence and has a slow speed for speaking words. Further recording may be performed.
[0072]
The reproduction of the audio information recording medium having the above structure is basically the same as that of the second embodiment described above, but the character information string is displayed during the reproduction of the first or second audio information string. Different points are displayed.
[0073]
For example, when the segment “It's not much of a problem.” Of the first audio information sequence is being reproduced, “It's not much of a problem.” Or “It is not much of a problem.” "Is displayed on the display. Note that this display does not need to be completely synchronized with the audio information string being reproduced in time, and the characters may be displayed little by little or may be displayed little by little. In the reproduction in the fourth embodiment, switching reproduction and repeat reproduction are possible.
[0074]
Next, the specific structure of the audio recording medium will be described in detail below with reference to FIGS.
[0075]
FIG. 8 is a diagram for explaining each voice information sequence A, B, C when the third embodiment described above is applied for English conversation self-study as an example of a voice information recording medium, and the recorded contents thereof. In this figure, an audio information sequence A is an English information sequence (first audio information sequence) spoken by a native speaker, and is composed of a plurality of segments 621 and 622. As described with reference to the flowcharts shown in FIGS. 6 and 7, the audio information sequence B is an information sequence (second audio information sequence) edited so that a predetermined portion of the first information sequence is selectively expanded. ). The audio information sequence C is an information sequence (third audio information sequence) for explaining Japanese, and the segment group included in the audio information sequence C is the segments 621 and 622 of the audio information sequences A and B. It corresponds to each.
[0076]
FIG. 9 is a table for explaining the relationship between the time per segment and the capacity in the aspect shown in FIG. In this table, one second corresponds to a capacity of 6 kilobytes. For example, in the segment 621 of the audio information sequence A, the utterance time of “It's” is 0.2 seconds, the capacity is 1.2 KB (kilobytes), the utterance time of “not” is 0.1 seconds, and the capacity is 0.6 KB. (Kilobytes), “much of a” vocalization time is 0.4 seconds, its capacity is 2.4 KB (kilobytes), and “problem” vocalization time is 0.3 seconds, its capacity is 1.8 KB (kilobytes) The utterance time of the entire segment 621 is 2.0 seconds, and its capacity is 12 KB (kilobytes).
[0077]
Further, FIG. 10 is a table for explaining the recorded contents of the directory area in the form shown in FIGS. In this table, the directory area is composed of 9 × 3 = 27 bytes (B) per segment. The audio information sequences A, B, and C correspond to the audio information sequences A, B, and C in FIG. Further, C of 1 byte indicates an attribute, C = 0 means a voice information string A, and C = 64 means a voice information string B. Also, C = 128, 129 means the audio information sequence C, and in particular when C = 129, that is, when “10000001” in the bit representation (8 bits (bits)), it is the same explanation object as the previous segment. (Indicating that they belong to the same segment group to be explained in the audio information sequence C, for example, corresponding to the segments 801 and 802 in FIG. 4E).
[0078]
The position information M, S, and B (one byte each) are parameters representing the position on the CD-ROM that is standard in the industry. That is, M indicates minutes, S indicates seconds, and B indicates blocks. One block is 2,048 bytes, and 75 blocks constitute one second. Therefore, the maximum numbers are M = 59, S = 59, and B = 74. The next 2-byte SB indicates a start byte, and the next 3-byte LLL indicates the length of each segment. The reason why minutes and seconds are used for the parameter indicating the position is that the CD-ROM was originally developed for music, and the recording position is expressed as the time from the beginning. Therefore, when a CD-ROM is used as the audio information recording medium, the minutes and seconds are completely independent of the reproduction time, and are merely information indicating the recording position on the recording medium. Become.
[0079]
As a result, for example, “It's not much of a problem.” Of the segment 621 in the audio information sequence A is an English voice spoken by a natives beaker with a length of 6,000 bytes from the 826th byte of O block 11 seconds 3 blocks. The information is recorded, and the corresponding segment in the audio information sequence B is recorded in English of the native speaker, which is selectively extended with a length of 17,400 bytes from the 2,026 bytes of 0 minutes 11 seconds 3 blocks, In the segment group of the audio information string C, Japanese commentary is recorded with a length of 72,000 bytes from the 1st 282nd byte of 0 minute 11 seconds 6 blocks. Note that segment numbers such as 621 and 622 do not exist in the memory but correspond to their addresses. Further, the recording position identification information indicating the relationship between the segments is included in this directory area.
[0080]
More specifically, from the recorded contents of the directory area shown in FIG. 10 from the 826th byte to the 826 + 6,000-1 = 6,825th byte in the 0 minute 11 second 3 block of the audio information recording medium. In the area, an audio information string having a segment of 621 and an attribute C of 0, that is, information corresponding to “It's not much of a problem” spoken by a native speaker is recorded. Also, in the area from the 2,026th byte to the 2,026 + 17,400-1 = 19,425th byte in the 0 minute, 11 second, 3 block of the audio information recording medium, the audio of segment 621 and attribute C of 64 An information string, that is, selectively expanded audio information is recorded. Furthermore, in the area from the 1st 282nd byte to the 1st 282 + 72,000-1 = 73,281th byte in the 0 minute 11 second 6 block of the audio information recording medium, the audio of which the segment is 621 and the attribute C is 128 An information string, that is, information corresponding to a Japanese commentary is recorded.
[0081]
As described above, if the directory area shown in FIG. 10 is provided, each audio information sequence shown in FIG. 8 can be recorded with the reproduction time and capacity shown in FIG.
[0082]
Next, the information regarding each segment 621 and 622 is recorded on the header part of the variable-length segment shown by Fig.11 (a), for example. As shown in FIG. 11B, this header portion is a 1-byte area (1B) for indicating the presence / absence of character information and image information from the beginning, and an area prepared for the audio information string A. A 5-byte area (5B) composed of 1-byte data indicating information string type (information for distinguishing audio information strings A, B, etc.), 3-byte data indicating the data length, and spare 1-byte data A 5-byte area (5B) composed of 1-byte data indicating the information string type, 3-byte data indicating the data length, and spare 1-byte data, which is an area prepared for the audio information string B An area prepared for the information string C, a 4-byte area (4B) composed of 1-byte data indicating the information string type and 3-byte data indicating the data length, and an area prepared for the character information string D In 4-byte area (4B) composed of 1-byte data indicating the information string type and 3-byte data indicating the data length, and similarly 3-byte data indicating the address, which is an area prepared for the character information string D And a 6-byte area (6B) composed of 3-byte data indicating the data length, a 4-byte area (4B) prepared for another information sequence (type E) such as the third audio information sequence, and This is a 32-byte area consisting of a spare 3-byte area (3B).
[0083]
Next, the operation of reproducing audio information and the apparatus configuration will be described with reference to FIGS.
[0084]
First, FIG. 12 is a perspective view showing the overall configuration of a playback apparatus for realizing audio playback. As can be seen from this figure, the audio recording medium is, for example, a CD-ROM that can be played back by a portable CD player (playback apparatus main body 200). The playback apparatus main body 200 is remotely controlled by a corded handset 80. The This handset 80 is provided with at least a display unit 210 such as a liquid crystal display (LCD) for displaying a segment number being reproduced, and various control buttons 240. Further, the operator can listen to the audio information reproduced by the reproduction apparatus main body 200 via the earphone 130.
[0085]
FIG. 13 is a block diagram showing the configuration of the playback apparatus shown in FIG. As shown in this figure, the CD-ROM which is the audio information recording medium 15 is set in the reproduction mechanism 205. The playback mechanism 205 is connected to the CPU 50 via the disk interface (I / F) 30 and the bus 40. Also connected to the bus 40 are, for example, a 32 kilobyte (KB) ROM 60 for storing programs and a 256 kilobyte RAM 70 for temporarily storing directories and audio information strings. The bus 40 further includes a handset interface (I / F) 90 for transferring information to and from the handset 80 for manual operation, and an external terminal 110 and the handset 80 via an audio output amplifier (AMP) 100. Is connected to the D / A converter 12 connected to. Note that the earphone 130 is connected to the handset 80 as described above.
[0086]
FIGS. 14A and 14B are diagrams for explaining the memory allocation status of the ROM 60 and the RAM 70, respectively. As shown in FIG. 14A, the program is stored in the ROM 60 of 32 kilobytes. On the other hand, as shown in FIG. 14B, the RAM 70 includes a buffer of (50 + 50) = 100 kilobytes (corresponding to 50 blocks), a directory of (75 + 75) = 150 kilobytes, and a system of 6 kilobytes. Area is allocated. Therefore, the RAM 70 always holds an audio information string for 50 blocks, and holds a directory for 150 kilobytes ÷ 27≈5,555 segments (corresponding to about 30 minutes only for the audio information string A portion).
[0087]
In the above specific example, a CD-ROM is used as the audio information recording medium, but the typical capacity is 552 megabytes (MB). The CD-ROM uses units of minutes, seconds, and blocks to represent addresses. Since one block is 2,048 bytes, 75 blocks are 1 second, and 60 seconds is 1 minute, the maximum value of the address of the CD-ROM is 59 minutes 59 seconds 74 blocks. Conversely, the capacity of this CD-ROM is 2,048 × 75 × 60 × 60 = 552.96 megabytes. Among these, since the user cannot use the CD-ROM format for 2 seconds from the beginning, the maximum capacity is accurately set to 552.6528 MB. Furthermore, if a directory area is allocated up to 20 seconds from the beginning, a directory capacity of 3 megabytes can be secured in the CD-ROM.
[0088]
In the above-described embodiment, audio information recording software (a program capable of executing the above-described recording method on a personal computer or the like, or a recording medium on which the program is recorded), a dedicated recording device, a use manual, or these In addition to sales in combination, sales of the audio information recording medium alone, the audio information recording medium, playback software (including a program executable on a personal computer or the like, or a recording medium recording the program), a dedicated playback device , Sales manuals, or a combination of these.
[0089]
【The invention's effect】
As described above, according to the present invention, for a plurality of frequency components divided from the first audio information sequence sampled in the first period, the amplitude is changed (emphasized or attenuated) to a desired portion or the wave number is changed (reproduction time). The sine wave data is generated by adding the sine wave data of each of the frequency components, and is newly synthesized. A second audio information sequence is obtained. The desired audio information sequence generated in this way has an effect that the reproduction time can be extended or shortened at an arbitrary portion without changing the frequency, or the audio at the arbitrary portion can be reproduced as an enhanced or attenuated audio.
[0090]
In addition, the present invention can be combined with the technology disclosed in Japanese Patent No. 2581700, and an audio of an arbitrary part corresponding to a variable length section obtained by dividing the utterance sound of a native speaker by a utterance node. By separately preparing voice information that has been expanded and / or emphasized, beginner learners can repeatedly reproduce and listen to sounds that they have not been able to hear. It also has the effect of being able to hear. In addition, advanced learners can learn more actively in combination with the playback of utterances of native speakers by separately preparing audio information in which the audio of any part is shortened and / or attenuated. There is an effect.
[Brief description of the drawings]
FIG. 1 is a conceptual diagram for explaining generation and recording operations of audio information according to the present invention.
FIG. 2 is a table showing an example of each frequency component (channel) divided from sampled input voice information.
FIG. 3 is a diagram for explaining a basic shape of a speech spectrum.
FIG. 4 is a diagram for conceptually explaining various types of information including an audio information sequence to be recorded on an audio recording medium.
FIG. 5 is a diagram showing an overall configuration of a peripheral device for realizing a method for generating audio information according to the present invention.
FIG. 6 is a flowchart (No. 1) for explaining a method of generating audio information according to the present invention.
FIG. 7 is a flowchart (No. 2) for explaining a method of generating audio information according to the present invention.
FIG. 8 is a diagram for explaining each voice information sequence of a voice recording medium applied for English conversation self-study and the recorded contents thereof.
FIG. 9 is a table for explaining the relationship between time and capacity per segment for each audio information sequence shown in FIG. 8;
10 is a table for explaining recorded contents (including recording position identification information) of a directory area in the audio recording medium shown in FIGS. 8 and 9. FIG.
FIG. 11 is a diagram showing a configuration of variable length segments to be recorded on an audio recording medium.
FIG. 12 is a perspective view showing an overall configuration of a playback apparatus that realizes a playback method of an audio recording medium.
FIG. 13 is a block diagram showing a configuration of the playback apparatus shown in FIG.
14 is a diagram for explaining a memory allocation situation of the ROM and RAM shown in FIG. 13; FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... PC, 10 ... Control system, 14 ... Input / output device, 15 ... Audio information recording medium, 19 ... V data, 16-1 to 16-85 ... Sine wave data generation circuit, 17, 175 ... DAC, 18, 177 ... speaker, 173 ... adder.

Claims (4)

第1周期でサンプリングされた第1音声情報列を複数の周波数成分に分割し、
前記複数の周波数成分それぞれについて、少なくとも1周期分以上の正弦波データに相当する第2周期で抽出された振幅情報からなる振幅情報列における1又は2以上の所定部分が選択的に編集された修正振幅情報列を生成し、
前記複数の周波数成分それぞれの修正振幅情報列のうち、各周波数成分間で互いに対応している同じタイミングで抽出された振幅情報からなる各情報成分群と、これら各情報成分群ごとに用意された、前記第1周期を基準にして音声再生時間の伸長あるいは短縮を指示するための制御情報とからなるVデータを生成する音声情報の符号化方法。
Dividing the first audio information sequence sampled in the first period into a plurality of frequency components;
Correction in which each of the plurality of frequency components is selectively edited in one or more predetermined portions in an amplitude information sequence including amplitude information extracted in a second period corresponding to at least one period of sine wave data Generate an amplitude information sequence,
Each of the plurality of frequency components is prepared for each information component group composed of amplitude information extracted at the same timing corresponding to each other among the corrected amplitude information sequences of each of the frequency components, and each information component group. An audio information encoding method for generating V data comprising control information for instructing to extend or shorten the audio reproduction time with reference to the first period.
前記制御情報は、前記複数の周波数成分全体を高音方向あるいは低音方向にシフトした状態で再生させるための周波数シフト指示情報を含むことを特徴とする請求項1項記載の音声情報の符号化方法。2. The audio information encoding method according to claim 1, wherein the control information includes frequency shift instruction information for reproducing the plurality of frequency components in a state shifted in a high pitch direction or a low pitch direction. 請求項1記載の音声情報の符号化方法により生成されたVデータで与えられる振幅を有するとともに前記第1周期のデータ間隔を有する、前記複数の周波数成分それぞれに相当する正弦波データであって、前記Vデータに含まれる制御情報で指示された再生時間に相当する波数の正弦波データを生成し、
生成された前記正弦波データを順次加算することにより前記第1周期の第2音声情報列を生成する音声情報の生成方法。
A sine wave data corresponding to each of the plurality of frequency components, having amplitude given by V data generated by the speech information encoding method according to claim 1 and having a data interval of the first period, Generating sine wave data having a wave number corresponding to the reproduction time indicated by the control information included in the V data;
A speech information generation method for generating the second speech information sequence of the first period by sequentially adding the generated sine wave data.
前記複数の周波数成分それぞれに相当する正弦波データの各振幅は、前記修正振幅情報列の互いに隣接した各振幅情報間の直線補間により得られた値により決定されることを特徴とする請求項3記載の音声情報の生成方法。4. Each amplitude of sine wave data corresponding to each of the plurality of frequency components is determined by a value obtained by linear interpolation between adjacent amplitude information in the modified amplitude information sequence. A method for generating the described audio information.
JP24967298A 1998-09-03 1998-09-03 Audio information encoding method and generation method thereof Expired - Fee Related JP3617603B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24967298A JP3617603B2 (en) 1998-09-03 1998-09-03 Audio information encoding method and generation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24967298A JP3617603B2 (en) 1998-09-03 1998-09-03 Audio information encoding method and generation method thereof

Publications (2)

Publication Number Publication Date
JP2000081897A JP2000081897A (en) 2000-03-21
JP3617603B2 true JP3617603B2 (en) 2005-02-09

Family

ID=17196497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24967298A Expired - Fee Related JP3617603B2 (en) 1998-09-03 1998-09-03 Audio information encoding method and generation method thereof

Country Status (1)

Country Link
JP (1) JP3617603B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055592A (en) * 2000-05-31 2002-02-20 People Co Ltd Foreign language's word phoneme discriminating field forming method, foreign language's word phoneme discriminating field forming device, foreign language's word phoneme discriminating field forming system and foreign language's word phoneme discriminating field forming program
JP2001356677A (en) * 2000-06-13 2001-12-26 Toshio Yoshimura Language learning device and language data processing method
JP2002169461A (en) * 2000-11-30 2002-06-14 Norio Watanabe Language lesson device
US20040054525A1 (en) * 2001-01-22 2004-03-18 Hiroshi Sekiguchi Encoding method and decoding method for digital voice data
JP2002258728A (en) * 2001-03-02 2002-09-11 Matsui Rika Hearing training device
JP4669988B2 (en) * 2005-01-28 2011-04-13 株式会社国際電気通信基礎技術研究所 Language learning device
JP2006284645A (en) * 2005-03-31 2006-10-19 Nec Corp Speech reproducing device, and reproducing program and reproducing method therefor
KR20080073925A (en) 2007-02-07 2008-08-12 삼성전자주식회사 Method and apparatus for decoding parametric-encoded audio signal

Also Published As

Publication number Publication date
JP2000081897A (en) 2000-03-21

Similar Documents

Publication Publication Date Title
JPH09198091A (en) Formant converting device and karaoke device
JPH0950287A (en) Automatic singing device
JP2001215979A (en) Karaoke device
JP3617603B2 (en) Audio information encoding method and generation method thereof
JP3518253B2 (en) Data editing device
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JP3620787B2 (en) Audio data encoding method
JPS6073589A (en) Voice synthesization system
JP6413220B2 (en) Composite information management device
KR100383061B1 (en) A learning method using a digital audio with caption data
JP5560769B2 (en) Phoneme code converter and speech synthesizer
JP5106437B2 (en) Karaoke apparatus, control method therefor, and control program therefor
JP4081859B2 (en) Singing voice generator and karaoke device
JPH11249679A (en) Voice synthesizer
JPH09134188A (en) Singing voice synthesizer and musical tone reproducing device
JP5471138B2 (en) Phoneme code converter and speech synthesizer
JPS60225198A (en) Voice synthesizer by rule
JP2577372B2 (en) Speech synthesis apparatus and method
JP6911398B2 (en) Voice dialogue methods, voice dialogue devices and programs
JP5481958B2 (en) Phoneme code converter and speech synthesizer
JP2004184619A (en) System for acquiring language and practicing musical performance
JP5481957B2 (en) Speech synthesizer
JPH0413200A (en) Karaoke recorded instrumental accompaniment) device provided with voicing function
JP4229064B2 (en) Speech synthesis apparatus and speech synthesis program
JP4259422B2 (en) Performance control device and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040806

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees