本発明の一実施形態について図面を参照して説明する。本実施形態は、録音機に係る。特に、本実施形態に係る録音機は、録音中及び録音前後に収音した音声を、録音操作を行っているユーザが聞くことができるように構成されている。さらにこの録音機は、ユーザが聞いている音声の音質を調整することができ、音質を調整していても調整前の音声を記録することができる。
[録音機の装置構成]
本実施形態に係る録音機10の構成例の概略を図1のブロック図に示す。録音機10は、制御回路110と、メインメモリ122と、記憶装置124と、音質調整回路130とを備える。制御回路110と、メインメモリ122と、記憶装置124と、音質調整回路130とは、バスライン190を介して互いに接続されている。
制御回路110は、録音機10の各部の動作を制御する。メインメモリ122は、制御回路110の演算において用いられる記憶領域を有する。記憶装置124は、制御回路110で用いられるプログラム及び各種必要な情報、録音機10で取得された音声等、種々の情報を記憶する。録音機10で取得された音声を記録する記憶装置とプログラム等を記録する記憶装置とは異なってもよい。また、録音機10で取得された音声を記録する記憶装置は、録音機10と着脱可能であってもよい。音質調整回路130は、録音機10で収音した音声について、各種の音質調整処理を行う。
制御回路110及び音質調整回路130は、Central Processing Unit(CPU)、Application Specific Integrated Circuit(ASIC)、又はField Programmable Gate Array(FPGA)等を含み得る。制御回路110及び音質調整回路130は、それぞれ1つの集積回路等で構成されてもよいし、それぞれ複数の集積回路等が組み合わされて構成されてもよいし、制御回路110及び音質調整回路130が1つの集積回路で構成されてもよい。また、メインメモリ122及び記憶装置124には、例えば各種半導体メモリが用いられ得る。
録音機10は、マイク142と音声取得回路144とを備える。マイク142は、音波を電気信号に変換する。音声取得回路144は、マイク142で収音して生成された電気信号に基づいて、音声信号を生成する。音声取得回路144は、バスライン190に接続されている。音声取得回路144で生成された音声信号に対して、制御回路110の制御下で、音質調整回路130によって音質調整に係る処理が施されることがある。音質調整前又は後の音声は、制御回路110の制御下で、記憶装置124に記録されたり、後述する音声出力回路176へと出力されたりする。
録音機10は、姿勢センサ152と、姿勢取得回路154とを備える。姿勢センサ152は、例えば3軸の加速度センサを含み、録音機10の姿勢に応じた信号を出力する。姿勢取得回路154は、姿勢センサ152の出力に基づいて、録音機10の姿勢を表す姿勢信号を生成する。姿勢取得回路154は、バスライン190に接続されており、生成した姿勢信号は、制御回路110へと伝達される。制御回路110は、録音機10の姿勢に応じた処理を行ってもよい。例えば、姿勢に応じた音質調整、ユーザによる操作の補助、又は録音機10の動作等が行われてもよい。
録音機10は、操作装置162と操作取得回路164とを備える。操作装置162は、例えば、各種スイッチ、ダイヤル、タッチパネル等を含み、ユーザの操作を受け付ける。操作取得回路164は、操作装置162への入力に基づく操作信号を生成する。操作取得回路164は、バスライン190に接続されており、生成した操作信号は、制御回路110へと伝達される。
録音機10は、音声出力端子172と、スピーカ174と、音声出力回路176とを備える。音声出力端子172は、例えばイヤホンといった音声出力素子の端子が接続される端子である。音声出力回路176は、バスライン190に接続されている。音声出力回路176は、制御回路110の制御下で、音声取得回路144で生成された音声信号、当該音声信号に対して音質調整回路130で処理が施された音声信号、又は記憶装置124に記録された音声信号を取得する。音声出力回路176は、音声信号を音声出力端子172に出力して音声出力素子から音声を出力させたり、音声信号を音声出力素子の一つであるスピーカ174に出力してスピーカ174から音声を出力させたりする。
録音機10は、表示装置182と、表示制御回路184とを備える。表示装置182は、例えば液晶ディスプレイを含む。表示制御回路184は、バスライン190に接続されており、制御回路110の制御下で、表示装置182に、現在の録音機10の動作の状況、音量、音質、操作メニューなどの各種情報を表示させる。
録音機10は、バスライン190に接続された通信回路192を備える。通信回路192は、録音機10の外部と通信するための回路である。この通信は、有線であっても、無線であってもよく、例えばUSB、Wi−Fi(登録商標)、Bluetooth(登録商標)等を用いたものであってもよい。
録音機10は、バスライン190に接続された時計回路196を備える。制御回路110は、時計回路196から現在の日時の情報を取得する。
[録音機の使用状況]
本実施形態に係る録音機10の使用状況の一例について図2に示す模式図を参照して説明する。図2は、ユーザ901と参加者902との打合せの録音に録音機10が用いられている様子を示す。録音機10のユーザ901は、録音機10の音声出力端子172に接続されたイヤホン910を用いて、録音機10で収音した音声を聞きながら、録音機10に収音した音声を記録させる。図2に示す例では、ユーザ901の近くには空調機960があり、ユーザ901は、空調機960等が発生させる雑音も聞いている。
図2に示すような状況で、録音機10で収音した音声について音質調整をしていないときに、ユーザ901が感知している音を示す模式図を図3に示す。図3において、横軸は時間を示し、縦軸は音量を示す。図3において、実線801は人が発する声のうち高周波の成分の音量の時間変化を示し、一点鎖線802は人が発する声のうち低周波の成分の音量の時間変化を示す。実線801及び一点鎖線802が途切れている部分は、ユーザ901も参加者902も声を発することなく黙っているときを示している。図3において、破線803は、空調機960等が発生する低周波の雑音の音量の時間変化を示す。図3に示す例では、ユーザ901は、雑音を人の声の成分と同じ程度に感知している。
ユーザ901は、人の声を聞き取りやすいように、録音機10で収音した音のうち、高周波成分の出力レベルを上昇させるように、録音機10に音質調整を行わせる。このときのユーザ901が聞く音についての時間に対する音量レベルの模式図を図4に示す。実線801で示した人の声を含む高周波の音成分が、破線803で示した雑音レベルよりも高くなっており、音質調整を行っていない場合と比較して、ユーザ901にとって人の声を聞きやすくなっている。なお、このとき使われるイヤホンやスピーカや回路によっては、特定の周波数が聞き取りにくい場合もあり、このような環境下での音声を信じての音質調整は、必ずしも、後で再生時に聞く音質を先取りしたり、代表したりしたものではなく、再生時に聞くのに適した音質調整とは限らない。
録音機10で収音した音の各成分の音量の時間変化の模式図を図5に示す。図2に示す例では、録音機10は、ユーザ901よりも空調機960から離れている。このため、図5の破線803で示す空調機960等に由来する雑音の音量は、図3に示す両耳で周囲の音声を聞いているユーザ901が感じる程度よりも低い。また、録音機の場合、指向性の調整や、配置の工夫で、人間の耳よりも有利な収音が可能であり、録音現場における人間の耳の感覚は、必ずしも、後でその音声を再生した時に感じる感覚と同じとは限らない。モバイル性に優れた機器であれば、その再生用のイヤホンやスピーカなども、必ずしも、録音音声を確認できる音質のものとは限らない。
図3及び図5に示すように、ユーザ901が聞いている音は、録音機10で収音している音と異なることがある。そこで、本実施形態では、録音機10は、収音した音を音質調整しない状態で記録する。一方で、録音中にイヤホン910を用いてユーザ901が聞いている音は、ユーザ901にとって聞きやすいように音質の調整がなされる。
録音される音は、ユーザ901以外の、例えば、もっと聴覚が優れた人が、例えば、もっと静かで聞き取りに理想的な環境、あるいは、もっと本格的な視聴機器を利用して異なる環境で聞く可能性があるので、不必要な程度の音質調整が行われていない状態で記録された方がよい。また、録音される音を用いた機械による音声認識を行う場合、音声認識において周波数解析等が用いられることから、音質調整が行われていない音声の方が、認識の精度は高くなる。したがって、モバイル性に優れた、しかし、音質的には性能を犠牲にしたイヤホン等で確認したような音質調整がいたずらに行われていない音声が記録されることは有意義である。
上述の例では、環境に雑音がある場合を例に挙げて、雑音があっても聞きやすいように音質調整が行われる場合を説明したが、音質調整には種々の目的があり得る。例えばユーザ901の個性により聞きやすいように、音声の周波数特性を調整することもあり得る。例えば、加齢により高周波音を聞きにくい人は、高周波音を強調する音質調整により、音声を聞きやすくなることがある。また、小さな声を聞き取りにくい人は、周波数特性を変更しなくても、録音機10が収音した音の音量を大きくすることで、すなわち、録音機10は、集音器のように用いられることで、ユーザ901に音声を聞きやすくさせることがある。例えば上述のように、録音機10は種々の機能を果たし得る。
[録音された音声データの使用]
録音機10で録音された音声データは、種々の用途に用いられ得る。録音された音声データは、録音機10で再生され得る。また、音声データは、録音機10の通信回路192を介して、録音機10以外の機器に転送され、各種処理が行われ得る。
音声データの処理を行う再生・ディクテーション・記録装置20の構成例を図6に示す。再生・ディクテーション・記録装置20は、例えばパーソナルコンピュータ(PC)、音声プレイヤー等といった、各種情報機器によって実現され得る。
再生・ディクテーション・記録装置20は、制御回路210と、メインメモリ222と、記憶装置224と、音質調整回路230と、音声認識回路240とを備える。制御回路210と、メインメモリ222と、記憶装置224と、音質調整回路230と、音声認識回路240とは、バスライン290を介して互いに接続されている。
制御回路210は、再生・ディクテーション・記録装置20の各部の動作を制御する。メインメモリ222は、制御回路210の演算において用いられる記憶領域を有する。記憶装置224は、制御回路210で用いられるプログラム及び各種必要な情報、再生・ディクテーション・記録装置20で取得又は作成された音声データ、テキストデータ等といった、種々の情報を記憶する。音質調整回路230は、録音機10の音質調整回路130と同様に、再生する音声について、音質調整を行う。この際、再生する音声データが含まれる音声ファイルに格納された音質調整の設定に係るデータに基づいて、音質調整が行われ得る。音声認識回路240は、音声データに含まれる声情報に基づいて言語を認識する音声認識処理を行い、認識結果であるテキストを作成する。すなわち、音声認識回路240は、音声の自動テキスト化を行う。この自動テキスト化は、学習により作成された人工知能を用いて行われてもよい。
制御回路210、音質調整回路230及び音声認識回路240は、Central Processing Unit(CPU)、Application Specific Integrated Circuit(ASIC)、又はField Programmable Gate Array(FPGA)等を含み得る。制御回路210、音質調整回路230及び音声認識回路240は、それぞれ1つの集積回路等で構成されてもよいし、それぞれ複数の集積回路等が組み合わされて構成されてもよいし、制御回路210、音質調整回路230及び音声認識回路240のうち2つ以上が1つの集積回路で構成されてもよい。また、メインメモリ222及び記憶装置224には、例えば各種半導体メモリが用いられ得る。記憶装置224には、ハードディスクドライブなどが用いられてもよい。
再生・ディクテーション・記録装置20は、操作装置262と操作取得回路264とを備える。操作装置262は、例えば、キーボード、マウス、タッチパネル、各種スイッチ、ダイヤル等を含み、ユーザの操作を受け付ける。操作取得回路264は、操作装置262への入力に基づく操作信号を生成する。操作取得回路264は、バスライン290に接続されており、生成した操作信号は、制御回路210へと伝達される。
再生・ディクテーション・記録装置20は、音声出力端子272と、スピーカ274と、音声出力回路276とを備える。音声出力端子272は、例えばイヤホンといった音声出力素子の端子が接続される端子である。音声出力回路276は、バスライン290に接続されている。音声出力回路276は、制御回路210の制御下で、記憶装置224に記録された音声信号、又は、音質調整回路230が音質調整を施した音声信号等を取得する。音声出力回路276は、音声信号を音声出力端子272に出力して、音声出力素子から音声を出力させたり、音声信号をスピーカ274に出力して、スピーカ274から音声を出力させたりする。
再生・ディクテーション・記録装置20は、表示装置282と、表示制御回路284とを備える。表示装置282は、例えば液晶ディスプレイを含む。表示制御回路284は、制御回路210の制御下で、表示装置282に、現在の再生・ディクテーション・記録装置20の動作の状況、音量、音質、操作メニュー、音声認識されたテキスト、ユーザによって入力されたテキストなどの各種情報を表示させる。
再生・ディクテーション・記録装置20は、バスライン290に接続された通信回路292を備える。通信回路292は、再生・ディクテーション・記録装置20の外部と通信するための回路である。この通信は、有線であっても、無線であってもよく、例えばUSB、Wi−Fi、Bluetooth等を用いたものであってもよい。再生・ディクテーション・記録装置20は、通信回路292を介して、録音機10と接続し得る。また、再生・ディクテーション・記録装置20は、バスライン290に接続された時計回路296を備える。制御回路210は、時計回路296から現在の日時の情報を取得する。
再生・ディクテーション・記録装置20は、例えば、操作装置262を用いたユーザからの入力に応じて、記憶装置224に記録された音声データに基づいて、スピーカ274から再生した音声を出力する。ユーザは、出力された音声を聞きながら、テキスト化を行ってもよい。また、再生・ディクテーション・記録装置20は、例えば、音声データに基づいて、音声認識によって言語のテキスト化を行って、作成したテキストを記憶装置224に記憶したり、表示装置282に表示したりする。また、ユーザは、再生・ディクテーション・記録装置20で作成されたテキストを見ながら、再生された音声を聞いて、テキストの修正を行ったり、テキスト化されていない言語のテキスト化を行ったりすることができる。
再生・ディクテーション・記録装置20は、上述の機能を全て備えている必要はなく、必要な機能のみを備えていればよい。例えば、音声出力のみを行うときには、装置は、音声認識回路240等を必要としないし、音声認識のみを行うときには、装置は、スピーカ274等を必要としない。
[録音機の動作]
録音機10の動作について説明する。図7は、録音機10の動作を示すフローチャートである。この動作は、例えば録音機10の電源が入れられたときに開始する。
ステップS101において、制御回路110は、収音モードが選択されているか否かを判定する。収音モードは、録音機10で収音して、例えば音声出力端子172に接続されたイヤホンから収音した音を出力したり、収音した音を録音したりするモードである。収音モードが選択されていると判定されたとき、処理はステップS102に進む。
ステップS102において、制御回路110は、収音を行う。すなわち、制御回路110は、音声取得回路144にマイク142を用いて音声データを取得させる。ステップS103において、制御回路110は、音質調整回路130に、現在の音質調整の設定値に基づいて収音した音声に関して音質調整を行わせる。ステップS104において、制御回路110は、音声出力回路176に、音質調整済みの音声を出力させる。例えば、音声出力端子172に接続されたイヤホンから、調整済みの音声が出力される。
ステップS105において、制御回路110は、出力音声を調整する操作が行われたか否かを判定する。調整操作がおこなわれたとき、処理はステップS106に進む。ステップS106において、制御回路110は、出力音声調整処理を行う。出力音声調整処理について、図8に示すフローチャートを参照して説明する。
ステップS201において、制御回路110は、収音した音声について、音量等の自動レベル調整を行う。ステップS202において、制御回路110は、表示制御回路184に、表示装置182に出力音声の周波数ごとのレベルを表示させる。また、ステップS203において、制御回路110は、表示制御回路184に、表示装置182に音質調整に係るメニューを表示させる。
録音機10は、音質調整の特性を決める方法として、プリセット値から設定値を選択するモードと、個別に調整して設定値を決定するモードとの2種類のモードが用意されている。ステップS204において、制御回路110は、プリセット値から選択するモードが選ばれたか否かを判定する。録音機10には、音質調整に係る出力レベルの周波数特性について予めいくつかの特性値が用意されている。プリセット値から設定値を選択するモードでは、ユーザ901は、このプリセットされた特性値(プリセット値)の中から所望のものを選択することができる。プリセット値から選択するモードが選ばれたとき、処理はステップS205に進む。ステップS205において、制御回路110は、選択設定処理を行う。選択設定処理について、図9に示すフローチャートを参照して説明する。
ステップS301において、制御回路110は、音声出力回路176に、プリセット値による音質調整を反映した音声を出力させる。この音声を聞いたユーザ901は、その音質調整が所望の音質調整であるかを判定する。所望の音質調整であるときには、ユーザ901は、操作装置162を用いて現在反映されている設定値を選択する操作を行う。
ステップS302において、制御回路110は、現在の設定値が選択されたか否かを判定する。現在の設定値が選択されたとき、処理はステップS303に進む。ステップS303において、制御回路110は、音質調整の設定値を確定値として現在選択されている設定値に更新する。その後、選択設定処理は終了し、処理は出力音声調整処理に戻る。
ステップS302において、現在の設定値が選択されていないと判定されたとき、処理はステップS304に進む。ステップS304において、制御回路110は、適用する音質調整の設定値を他のプリセット値に変更するか否かを判定する。設定値を変更しないとき、選択設定処理は終了し、処理は出力音声調整処理に戻る。すなわち、設定値を更新せずに選択設定処理を終える。一方、設定値を変更するとき、処理はステップS305に進む。
ステップS305において、制御回路110は、設定値を変更する。その後、処理はステップS301に戻る。その結果、新たに設定された設定値に基づく音質調整が反映され、音声が出力され、当該音声が選択されたり、設定値が変更されたりする処理が繰り返される。
以上のように、選択設定処理では、用意された複数の音質調整の設定値の中から、ユーザ901の好みの設定値が簡易に選択され得る。
図8に戻って説明を続ける。ステップS205の選択設定処理の後、処理はステップS206に進む。また、ステップS204においてプリセット値から選択するモードが選ばれていないと判定されたとき、処理はステップS206に進む。ステップS206において、制御回路110は、個別調整のモードが選択されたか否かを判定する。すなわち、録音機10は、音質調整について、上述の選択設定処理のようなプリセット値から選択するだけではなく、音質調整について個別に周波数特性を設定することができるように構成されている。
個別調整のモードが選択されたとき、処理はステップS207に進む。ステップS207において、制御回路110は、個別設定処理を行う。個別設定処理では、録音機10は、所定の周波数の音を、音量を小音量から大音量に徐々に変化させ、また、それを周波数を変化させながら行い、周波数ごとにユーザが聞こえる音量を特定する。個別設定処理について、図10に示すフローチャートを参照して説明する。
ステップS401において、制御回路110は、出力音量の設定を小音量とする。ステップS402において、制御回路110は、所定の周波数の音を出力する。ステップS403において、制御回路110は、音が聞こえたときにオンにするスイッチがユーザによってオンにされたか否かを判定する。スイッチがオンにされていないとき、処理はステップS404に進む。ステップS404において、制御回路110は、音量を所定値だけ上げる。その後、処理はステップS402に戻る。すなわち、音量が所定値だけ大きくなった状態で、所定の周波数の音が出力される。
ステップS403でスイッチがオンにされたと判定されたとき、処理はステップS405に進む。ステップS405において、制御回路110は、スイッチがオンにされた周波数と音量を一時記憶する。その後、ステップS406において、制御回路110は、周波数を変更するか否かを判定する。個別設定処理では、例えば、2種類の周波数や、7種類の周波数等、任意の数の周波数で設定が行われる。周波数を変更すると判定されたとき、処理はステップS407に進む。ステップS407において、制御回路110は、出力周波数の設定を変更させる。その後、処理はステップS401に戻る。すなわち、新たに設定された周波数について、小音量から徐々に音量を大きくしながらスイッチがオンにされる音量を特定し記憶する。
ステップS406において、各周波数について聞こえる音量の特定が終了し、周波数の変更を行わないと判定されたとき、処理はステップS408に進む。ステップS408において、制御回路110は、一時記憶されている周波数と音量との関係に基づいて、音質調整の周波数特性の設定値を算出する。ステップS409において、制御回路110は、算出結果を設定値として更新する。以上で、個別設定処理を終了する。
以上のように、個別設定処理では、ユーザ毎に異なり得る聞こえの特性に応じた最適な設定値が設定され得る。
図8に戻って説明を続ける。ステップS207の個別設定処理の後、処理はステップS208に進む。また、ステップS206において個別調整が選択されていないと判定されたとき、処理はステップS208に進む。ステップS208において、制御回路110は、指向性について調整を行うことが選択されたか否かを判定する。指向性について調整を行わないと判定されたとき、処理はステップS210に進む。一方、指向性についての調整を行うと判定されたとき、処理はステップS209に進む。
ステップS209において、制御回路110は、ユーザからの指示に基づいて、複数のマイクのうち使用するマイクを選択したり、各々のマイクで取得した音声信号の処理方法を変更したりすること等によって収音の指向性に関する調整を行う。その後、処理はステップS210に進む。
なお、上述の他、ユーザは、マイク142の向きを調整したり、全体の音量を調整したりといった種々の録音状態の調整等も、例えば出力音声調整処理の最中に行ってもよい。
ステップS210において、制御回路110は、出力音声調整処理の終了が選択されたか否かを判定する。出力音声調整処理を終了しないとき、処理はステップS201に戻る。一方、出力音声調整処理を終了すると判定されたとき、出力音声調整処理は終了し、処理はメイン処理に戻る。
以上のような出力音声調整処理により、録音機10は、ユーザ901に応じた音質調整のための設定を行うことができる。このようなユーザ901に応じた設定によって、録音に係る操作を行っているユーザ901は、快適に音声を聞くことができる。
図7に戻って説明を続ける。出力音声調整処理の後、処理はステップS107に進む。また、ステップS105において、出力音声を調整する操作が行われていないと判定されたとき、処理はステップS107に進む。ステップS107において、制御回路110は、録音操作が行われたか否かを判定する。録音操作が行われたとき、処理はステップS108に進む。ステップS108において、制御回路110は、録音処理を行う。録音処理について、図11に示すフローチャートを参照して説明する。
ステップS501において、制御回路110は、音質調整を施していない音声について、録音を開始する。すなわち、例えば音声出力端子172に接続されたイヤホンから出力される音声は、音質調整を施したものとなっているが、記録される音声は、音質調整を施していないものとなる。
ステップS502において、制御回路110は、収音した音声について、自動レベル調整を行う。ステップS503において、制御回路110は、表示制御回路184に、表示装置182に出力音声のレベルを表示させる。
ステップS504において、制御回路110は、収音した音が無音であったなら、その期間に係るインデックスを音声の記録データに付加する。このようなインデックスが付加されることで、例えば会議を録音した場合に、再生時に参加者のうち誰かが発言しているときの音声データのみを再生することができるようになる。
ステップS505において、制御回路110は、録音しながらユーザが出力音声の調整を希望したか否かを判定する。ユーザは出力音声の調整を希望するとき、その旨を操作装置162を用いて入力する。出力音声の調整が希望されていないとき、処理はステップS506に進む。
ステップS506において、制御回路110は、録音の終了が選択されたか否かを判定する。録音の終了が選択されていないとき、処理はステップS504に戻り、録音が継続される。
ステップS505において、出力音声の調整が希望されていると判定されたとき、処理はステップS507に進む。ステップS507において、制御回路110は、図9を参照して説明した選択設定処理を実行する。すなわち、プリセットされた特性値に基づいて音質調整が順に施され、ユーザ901が好みの設定を選択することで、音質調整の設定がなされる。その後、処理はステップS508に進む。
所定の周波数の音を聞かなければいけない個別設定処理と異なり、選択設定処理であれば録音中の音を中断されずに聞き続けられるので、ここでは選択設定処理が行われるものとして説明した。録音中に録音音声を聞くことを中断してもよい場合には、個別設定処理が行われてもよい。
ステップS508において、制御回路110は、指向性の調整が希望されたか否かを判定する。指向性の調整が希望されていないとき、処理はステップS506に進む。一方、指向性の調整が希望されたとき、処理はステップS509に進む。ステップS509において、制御回路110は、ステップS209と同様の指向性調整処理が行われる。その後、処理はステップS506に進む。すなわち、録音の終了が選択されるまで、録音が継続されながら、上述の処理が繰り返される。
ステップS506において、録音を終了すると判定されたとき、処理はステップS510に進む。ステップS510において、制御回路110は、出力音声の音質調整が行われていたか否かが判定される。音質調整が行われているとき、処理はステップS511に進む。ステップS511において、制御回路110は、録音を停止し、録音した音声のファイル化を行う。このとき、ファイルには音質調整の設定に係るデータが音声ファイルと共に記録される。その後、録音処理は終了する。
ステップS510において、出力音声の音質調整が行われていないと判定されたとき、処理はステップS512に進む。ステップS512において、制御回路110は、録音を停止し、録音した音声のファイル化を行う。このとき、音質調整の設定に係るデータは記録されない。その後、録音処理は終了する。
録音処理で作成される音声ファイルの構成の一例について、図12に示す模式図を参照して説明する。音声ファイル310には、ファイル名311と、日時情報312と、連番情報313と、音声データ314と、調整設定データ315とが含まれる。ファイル名311は、任意でよく、録音日と通し番号との組み合わせ等でもよい。日時情報312は、録音の日時を示す情報を含む。連番情報313は、例えば録音機10を用いて録音したファイルの通し番号を含む。音声データ314は、録音によって得られた音声データである。この音声データ314は、音質調整が施される前の音声に係るデータである。調整設定データ315は、録音時にユーザ901が調整した音質調整に係る設定を示すデータである。音声ファイルの構成は図12に示すものに限らない。音声ファイルには、他の情報が追加されてもよく、例えば音質調整後の音声データがさらに含まれていてもよい。また、図12に示した情報のうち、不要なものは削除され得る。例えば、不要であれば、連番情報313は削除され得る。
図7に戻って説明を続ける。録音処理の後、処理はステップS109に進む。また、ステップS107において、録音操作がされていないと判定されたとき、処理はステップS109に進む。ステップS109において、制御回路110は、終了するか否かを判定する。例えば録音機10の電源が切られたとき、終了すると判定され、処理を終了する。終了しないと判定されたとき、処理はステップS101に戻る。
収音モードにおいては、上述の処理が繰り返される。すなわち、収音された音が例えばイヤホンから出力され、ユーザは収音した音を確認することができる。また、ユーザは、収音した音を、自身が聞きやすいように調整することができる。また、ユーザは、必要なタイミングで録音を開始し終了することができる。録音中も、音質調整が可能である。録音される音声は、音質調整前の音声である。録音時の音質調整の設定値は、音声データとともに記録される。
ステップS101の判定において、収音モードが選択されていないと判定されたとき、処理はステップS110に進む。ステップS110において、制御回路110は、収音を停止させる。ステップS111において、制御回路110は、音声データの再生が選択されたか否かを判定する。音声データの再生が選択されたとき、処理はステップS112に進む。ステップS112において、制御回路110は、再生処理を行う。再生処理について図13に示すフローチャートを参照して説明する。
ステップS601において、制御回路110は、表示制御回路184に、記憶装置124に記録されている音声ファイルの一覧表示を行わせる。ステップS602において、制御回路110は、操作装置162からユーザの入力を取得して、ユーザが選択したファイルを決定する。
ステップS603において、制御回路110は、選択された音声ファイルが調整設定データを有しているか否かを判定する。音声ファイルが調整設定データを有していないとき、処理はステップS604に進む。ステップS604において、制御回路110は、記録されている音声データを再生し、音声出力回路176に、音声出力を行わせる。音声再生が終了したら、再生処理を終了し、処理はメインフローに戻る。
ステップS603において音声ファイルが調整設定データを有していると判定されたとき、処理はステップS605に進む。録音機10は、調整設定データの再生時に、調整設定データに記録された設定値に基づく音質調整を行い、調整後の音声を出力することもできるし、調整を施していない音声を出力することもできる。ステップS605において、制御回路110は、調整設定データに係る音質調整後のデータを再生することが要求されているか否かを判定する。
音質調整後の音声の再生が要求されていないとき、処理はステップS606に進む。ステップS606において、制御回路110は、音声出力回路176に、音質調整をしていない音声の出力を行わせる。例えば録音時に録音機10が収音した音を確認していたユーザ以外の人が音声を聞くとき、その人にとって録音時にユーザのために施された音質調整は好ましくないことがある。このような場合に、調整されていない音声が再生されることは好ましい。音声再生が終了したら、再生処理を終了し、処理はメインフローに戻る。
なお、録音を再生して聞いている人は、録音機10を用いて自身が聞きやすいように音質を調整することができる。この際も音質調整の設定値を決めるにあたって、選択設定処理又は個別設定処理が行われ得る。音質調整の設定は、再生前に行われてもよいし、再生中に行われてもよい。
ステップS605において音質調整後の音声の再生が要求されているとき、処理はステップS607に進む。ステップS607において、制御回路110は、音質調整回路130に、調整設定データとして記録された設定値に基づいて再生音声の音質調整を行わせ、音声出力回路176に、音質調整を施した音声の出力を行わせる。例えば、録音時に録音機10が収音した音を確認していたユーザが再生した音声を聞くとき、録音時に当該ユーザのために音質調整された音は好ましい音であることがある。このような場合に、調整された音声が再生されることは好ましい。音声再生が終了したら、再生処理を終了し、処理はメインフローに戻る。
以上のように、本実施形態では、調整設定データがあるときに、当該データの設定に基づく音質調整後の音声を出力することもできるし、音質調整を施さない音声の出力を行うこともできる。
調整設定データは、前述のように、録音現場で用いるイヤホンの特性などによって、必ずしも後で再生した時と同じ音質では確認できていない可能性があるので、このイヤホンの特性などを考慮して補正してもよい。録音現場で再生した音質と、後で本格的な装置で再生した時の音質は分けて考えた方がよいという本実施形態の考え方を拡張すると、以下も言える。すなわち、録音現場で用いるイヤホンの特性などを考慮すると、録音現場での収音確認、機器の設置場所、機器の向き、収音の指向性を考慮した機器の設定場所及び向き、収音の指向性そのもの等の調整などを行いやすく、また、再生時にその環境下で聞き取りやすい音質での音声記録が可能となる。ここで、録音現場での収音確認用の小型軽量のモバイル性にすぐれたイヤホンの再生能力や性能を予め録音装置が記録しておき、その性能の偏った特性などを補正するような音質調整に関しては、録音現場では記録に基づいて適用するし、録音時は無視する、といった応用も可能である。このためには、例えば、録音機10は以下であってもよい。すなわち、録音機10は、イヤホンやスピーカといった音声出力回路176に接続される音声出力素子の特性を記録する特性記憶装置を備えている。特性記憶装置は、記憶装置124が担ってもよい。音質調整回路130は、前記音声出力素子の特性を考慮した第1の音質調整とその他の音質調整である第2の音質調整との組み合わせからなる音質調整を第3の音質調整として音声信号に対して行うし、前記第2の音質調整からなる音質調整を第4の音質調整として音声信号に対して行う。制御回路110は、録音時に、音質調整回路130に前記第3の音質調整を施した音声信号を音声出力回路176へと送信させ、記憶装置124に前記第4の音質調整を施した音声信号を記録させる。
図7に戻って説明を続ける。ステップS112の再生処理の後、処理はステップS113に進む。また、ステップS111において音声データの再生が選択されていないとき、処理はステップS113に進む。
ステップS113において、制御回路110は、接続処理が選択されたか否かを判定する。接続処理が選択されていないとき、処理はステップS109に進む。接続処理が選択されたとき、処理はステップS114に進む。ステップS114において、制御回路110は、通信回路192を介して外部の機器に接続するように各部を制御する。録音機10は、この接続を介して、例えば記憶装置124に記録された音声ファイルを録音機10の外部の機器に送信する。例えば、録音機10と接続した再生・ディクテーション・記録装置20は、録音機10から取得した音声ファイルを用いて、各種動作を行う。ステップS114の後、処理はステップS109に進む。ステップS109で終了と判断されるまで、上述の処理が繰り返される。
なお、上述の実施形態では、録音機10は、収音時に必ず音声出力を行う場合を例に挙げて説明したが、音声出力を行わずに録音のみを行うモードを備えていてもよいことはもちろんである。
以上、実施形態で説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムを用いて実現され得る。このプログラムは、記録媒体や記録部に収められ得る。この記録媒体又は記録部への記録の方法は様々であり、製品出荷時に記録されてもよく、配布された記録媒体が利用されて記録されてもよく、インターネットを介したダウンロードが利用されて記録されてもよい。また、上述の制御と同様の機能が、例えばディープラーニングによって構築された人工知能によって実現されてもよい。これは、一例として、ディクテーションする人や機械が、聞き取りやすかったときの音質(どんな音質調整で録音されたか)に高得点を付けるような点数付けをすることで可能となる。
録音機10のような構成は、例えばスマートフォンやタブレット端末といった情報携帯端末にも適用され得る。情報携帯端末には、ウェアラブル端末も含まれる。