JP2010074391A - 録音装置およびプログラムならびに録音再生システム - Google Patents

録音装置およびプログラムならびに録音再生システム Download PDF

Info

Publication number
JP2010074391A
JP2010074391A JP2008238098A JP2008238098A JP2010074391A JP 2010074391 A JP2010074391 A JP 2010074391A JP 2008238098 A JP2008238098 A JP 2008238098A JP 2008238098 A JP2008238098 A JP 2008238098A JP 2010074391 A JP2010074391 A JP 2010074391A
Authority
JP
Japan
Prior art keywords
recording
generated
speaker
input
encryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008238098A
Other languages
English (en)
Inventor
Koji Fukuda
厚司 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008238098A priority Critical patent/JP2010074391A/ja
Publication of JP2010074391A publication Critical patent/JP2010074391A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】生体情報を用いることにより第三者による録音や再生を制限した、録音装置ならびに録音再生システムを提供する。
【解決手段】音声録音機能を有する録音装置1を、発話者の入力音声を取り込む音声入力部101と、取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段102と、入力音声データに承諾語が含まれていた場合、録音処理機能の実行と並行して、取得された入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出部103と、生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成部104と、取り込まれた入力音声データを生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化部105と、で構成し、音声録音と承諾語を用いた暗号鍵の生成とを同時並行処理することとした。
【選択図】図2

Description

本発明は、例えば、電話回線、もしくはマイクロフォンにより集音された音声を録音し、再生する、録音装置およびプログラムならびに録音再生システムに関する。
電話回線、もしくはマイクロフォンにより集音された音声を録音し、再生機能により録音した音声を再生することのできる録音装置が知られている。
音声の録音は、通常、テープレコーダ等の録音機器を用い、音波として伝播する直接音を必要な範囲で録音し、後日再生する。また、最近では、ICレコーダ等の録音機器で録音された音声データをUSB(Universal Serial Bus)等によりPC(Personal Computer)等に取り込むことにより、再生は勿論のこと、テキスト化して保存し、編集し、公開する等、多用な使い方がなされるようになった。
一方、データの暗号化/復号化には鍵データが用いられるが、近年の生体認証技術の進歩により、鍵データに生体情報を用いることが頻繁に行われるようになった。
例えば、サーバ等に指紋、声紋、顔、筆跡等の生体情報を残すことなく、個人特有の生体情報を用いてメッセージを暗号化して暗号文を作成し、また、生体情報の入力時に変動があっても影響されずに正しく復号し、メッセージを出力できる暗号化・復号化装置が知られている(例えば、特許文献1参照)。
特開2001−358704号公報(段落「0007」〜「0020」)
ところで、前記した従来の録音装置は、音声の録音、再生を行う際に、本人の承諾を得る必要がなく、一度録音されてしまえばその内容の性質によらず、本人の承諾を得ることなく第三者による再生が可能である。
したがって、例えば、重要な会議における会話等が録音された場合、その内容は秘密にすべきとの要請が強い場合においても記録された内容は容易に再生されてしまう。このため、例えば、ICレコーダで録音された会議録をPC等に取り込み保存した場合、これにより得られる使い勝手とともに、無断再生、流用、公開、改ざん等、新たに生じる問題に対処する必要が出てきた。
本発明は前記した課題を解決するためになされたものであり、前記した生体情報を用いることにより第三者による録音や再生を制限した、録音装置およびプログラムならびに録音再生システムを提供することを目的とする。
前記した課題を解決するために本発明の録音装置は、録音処理機能を有する録音装置であって、発話者の入力音声データを取り込む音声入力手段と、前記取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段と、前記入力音声データに前記承諾語が含まれていた場合、前記録音処理機能を用いた録音処理をすると共に前記取り込まれた入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出手段と、前記生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成手段と、前記取り込まれた入力音声データを前記暗号鍵生成手段で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化手段と、を備えたものである。
また、本発明のプログラムは、録音処理機能を有する録音装置に用いられるプログラムであって、発話者の入力音声データを取り込む音声入力処理と、前記取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定処理と、前記入力音声データに前記承諾語が含まれていた場合、前記録音処理機能を用いた録音処理をすると共に前記取り込まれた入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出処理と、前記特徴抽出処理で生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成処理と、前記取り込まれた入力音声データを前記暗号化鍵生成処理で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化処理と、をコンピュータに実行させるものである。
また、本発明の録音再生システムは、録音再生処理機能を有する録音再生システムであって、発話者の入力音声データを取り込む音声入力手段と、前記音声入力手段により取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段と、前記承諾語判定手段で前記入力音声データに前記承諾語が含まれていると判定された場合、前記録音処理機能を用いた録音処理をすると共に前記入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出手段と、前記特徴抽出手段により生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成手段と、前記音声入力手段で取り込まれた入力音声データを前記暗号鍵生成手段で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化手段と、前記特徴抽出手段により生成された発話者の生体情報に基づき復号鍵を生成する復号鍵生成手段と、前記暗号化手段により生成された暗号化済み音声ファイルを前記復号鍵生成手段により生成された復号化鍵により復号化して音声再生する復号化手段と、を備えたものである。
本発明によれば、生体情報を用いることにより第三者による録音や再生を制限した、録音装置およびプログラムならびに録音再生システムを提供することができる。
(実施の形態1)
図1は、本発明の実施の形態1に係る録音装置の構成を示すブロック図である。図1に示されるように、本発明の実施の形態1に係る録音装置1は、制御部10と、記憶部11と、操作部12と、表示部13と、音声CODEC(Coder Decorder)部14と、を備え、これらはいずれもアドレスデータコントロールのための複数本のラインからなる双方向のシステムバス17に共通接続される。なお、音声CODEC部14には、マイクロフォン15ならびにスピーカ16が接続されている。
制御部10は、ハードウェアとしては、不図示のCPUおよびメモリによって構成され、CPUは、メモリに記録されたプログラムに基づき、(1)発話者の入力音声データを取り込み、(2)取り込まれた入力音声データに、録音に関する承諾語が含まれているか否かを判定し、(3)入力音声データに承諾語が含まれていた場合、録音処理機能を実行して録音処理をすると共に取り込まれた入力音声データの特徴抽出を行って発話者の生体情報を生成し、(4)生成された発話者の生体情報に基づき暗号鍵を生成し、取り込まれた入力音声データを生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する機能を有する。
なお、ここでいう「承諾語」とは、録音あるいは再生承諾時に、発話者本人を含むユーザにより発話される、例えば、「了解しました」という文字列である。
また、上述した録音処理と取り込まれた入力音声データの特徴抽出は並行して行われてもよい。
さらに、上述した録音処理と取り込まれた入力音声データの特徴抽出は同時に開始するようにしてもよい。
以下の実施例では、録音処理と取り込まれた入力音声データの特徴抽出は並行して行われるものとする。
このため、制御部10は、図2に、前記した録音処理機能を実行するプログラムの構造が機能展開され示されているように、音声入力部101と、承諾語判定部102と、特徴抽出部103と、暗号鍵生成部104と、暗号化部105と、を備える。
なお、図2に示した承諾語テーブル106と、暗号化済み音声ファイル107は、記憶部11の所定の領域に割り当てられ格納されるものとする。
音声入力部101(音声入力手段)は、不図示の電話回線、もしくはマイクロフォン15により集音された音声データを取り込み、発話者の発話内容を、承諾語判定部102、特徴抽出部103、暗号化部105のそれぞれに引き渡す。すなわち、音声入力部101は、発話者の入力音声データを取り込む機能を有する。
承諾語判定部102(承諾語判定手段)は、音声入力部101により取り込まれる入力音声データから音声認識に必要な特徴量を抽出し、この特徴量に基づき変換される文字列と、予め承諾語テーブル106に記憶された、録音に関する承諾語を示す文字列とを比較することにより、入力音声データに録音もしくは再生に関する承諾語が含まれているか否かを判定し、特徴抽出部103を制御する。すなわち、承諾語判定部102は、音声入力部101で取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する機能を有する。
なお、記憶部11(図1)に割り当てられる承諾語テーブル106には、予め、「承諾しました」等、発話者が録音を承諾したことを示す音声に該当する文字列が格納されているものとする。
特徴抽出部103(特徴抽出手段)は、例えば、音声入力部101により取り込まれた音声データを窓関数に通し、時間と、周波数と、信号成分の強さとの3次元の情報からなる生体情報としての声紋情報(スペクトログラム)を生成し、暗号鍵生成部104へ出力する。すなわち、特徴抽出部103は、入力音声データに前記承諾語が含まれていた場合、音声入力部101で取得された音声データの特徴抽出を行い、発話者の生体情報を生成する機能を有する。
暗号鍵生成部104(暗号鍵生成手段)は、特徴抽出部103で生成された発話者の生体情報に、例えば、固定長の擬似乱数を生成するハッシュ関数演算を行い、暗号鍵を生成して暗号化部105へ出力する。すなわち、暗号鍵生成部104は、特徴抽出部103で生成された発話者の生体情報に基づき暗号鍵を生成する機能を有する。
暗号化部105(符号化手段)は、例えば、擬似乱数による、あるいはDES(Data Encryptions Standard)暗号化処理を施し、例えば、記憶部11の所定の領域に割り当てられる暗号化済み音声ファイル107を生成し、該当の領域に格納する。すなわち、暗号化部105は、音声入力部101で取り込まれた入力音声データを暗号鍵生成部104で生成された暗号化鍵により暗号化して暗号化済み音声ファイル107を生成する機能を有する。
なお、前記した声紋等の生体情報を用いて暗号鍵を生成し、暗号化する方法は、前記した特許文献の段落「0027」〜「0045」に詳細に開示されている。
説明を図1に戻す。記憶部11には、前記した承諾語テーブル106ならびに暗号化済み音声ファイル107が格納されている。記憶部11には、更に、前記した承諾語判定部102による音声認識のための音響モデル、辞書、言語モデルのそれぞれがデータベースとして格納されている。
ここで、音響モデルとは、音響分析結果である特徴量の音響データと発音記号との確率の対応を示すデータであり、辞書とは、認識対象の単語をデータ化したものであり、言語モデルとは、辞書にある単語についての確率を示すデータである。
すなわち、制御部10(承諾語判定部102)は、入力音声データから音声分析により特徴量を算出し、その特徴量に基づき記憶部11に格納された音響モデルを参照して発音記号の並びを確率付きで得ることができる。そして、承諾語判定部102は、辞書によりその発音記号が認識単語になり得るか否かを判定し、続いて言語モデルによりその単語である確率を求めることにより音声認識を行い、入力音声データに承諾語が含まれているか否かを判定することができる。
操作部12は、例えば、録音、再生他、各種機能が割り当てられたスイッチを有しており、これらのスイッチがユーザによって操作された場合に、その操作内容に対応する信号を発生し、これをユーザの指示として制御部10に出力する。
表示部13は、多数の画素(複数色の発光素子の組合わせ)を縦横に配置して構成される、例えばLCD(Liquid Crystal Display Device)や有機EL(Electro-Luminescence)
を用いて構成される。表示部13は、制御部10により生成され、記憶部11の所定の領域(VRAM領域)に書き込まれた表示データに応じた画像を表示する。ここでは、例えば、録音再生の別、トラック番号、時間等が表示される。
音声CODEC部14は、電話回線経由で到来する、あるいはマイクロフォン15から入力された音声を増幅し、アナログ−デジタル変換を行い、更に符号化等の信号処理を施し、デジタルの音声データに変換して制御部10に出力する。
また、音声CODEC部14は、制御部10により出力される音声データに復号化、デジタル−アナログ変換、増幅等の信号処理を施し、アナログの音声信号に変換してスピーカ16に出力する。
図3は、本発明の実施の形態1に係る録音装置の動作を示すフローチャートである。以下、図3に示すフローチャートを参照しながら、図1、図2に示す本発明の実施の形態1に係る録音装置の動作について詳細に説明する。
図3において、まず、ユーザが操作部12を操作することにより録音、あるいは再生指示がなされ、表示部13にそのことが表示される。録音の場合、まず、発話者により発話された音声は、電話回線経由、あるいはマイクロフォン15により集音され、制御部10の音声入力部101によって音声データとして取り込まれ、承諾語判定部102、特徴抽出部103、暗号化部105のそれぞれに引き渡される(ステップS301)。
音声データを受信した承諾語判定部102は、音声認識を行い、音声認識により生成される単語を含む文字列と、承諾語テーブル106に予め記憶されている承諾語との比較判定を行う(ステップS302)。
ここで、承諾語テーブル106には、「了解いたしました」という単語文字列が記憶されているものとし、ここで行われる音声認識は、前記したように、承諾語判定部102が、記憶部11に格納された、例えば、音響モデルと、辞書と、言語モデルとからなるデータベースを索引して確率演算を行うことにより実現される。
承諾語判定部102は、前記した比較判定の結果により、制御部10が有する録音処理機能の実行開始と並行して特徴抽出部103による生体情報(声紋)の生成を制御する。 すなわち、認識された単語を含む文字列が、承諾語テーブル106に記憶された文字列「了解いたしました」と一致した場合(ステップS302“Yes”)、制御部10は、録音処理の実行を起動し(ステップS303)、同時に、特徴抽出部103を制御し、特徴抽出部103による、発話者が発話した承諾語に基づく声紋情報(スペクトログラム)の生成が行われる(ステップS304)。特徴抽出部103は、例えば、音声入力部101により取得される音声信号を窓関数に通し、時間、周波数、振幅からなる3次元の情報により表現されるスペクトログラムを生成することで声紋情報を表現する。ここでは、窓関数として、STFT(短時間フーリエ変換)を用いる。なお、認識された単語が承諾語テーブル106に記憶された文字列に一致しなかった場合は(ステップS302“No”)、録音が禁止され、録音処理が終了する。
一方、特徴抽出部103で生成されたスペクトログラムは、暗号鍵生成部104へ引き渡される。続いて、暗号鍵生成部104は、特徴抽出部103で生成された発話者のスペクトログラムに所定の演算を施して暗号鍵(例えば、擬似乱数を用いた暗号アルゴリズムを用いる場合、固定長の擬似乱数を生成するハッシュ関数演算を施すことにより暗号鍵)を生成して暗号化部105へ引き渡す(ステップS305)。
すなわち、暗号鍵生成部104は、特徴抽出部103により生成されるスペクトログラムに依存して暗号化部105を構成する擬似乱数発生器に与える初期値(暗号化鍵)を生成する。暗号化部105へは、他に、音声入力部101により取り込まれた入力音声データが供給されており、この入力音声データは、暗号鍵生成部104で生成された暗号化鍵によりスクランブル(暗号化処理)され(ステップS306)、その結果、暗号化済み音声ファイル107が生成され、内部に保存される(ステップS307)。
なお、前記したケースでは、暗号化アルゴリズムの一つとして擬似乱数を用いた場合を説明したが、これに限定されるものでなく、例えば、DESによる暗号化アルゴリズムを用いた場合、入力音声データは64ビット毎に暗号化される。この場合は、暗号鍵生成部104で生成される64ビットの暗号鍵が使用される。
すなわち、64ビットの入力音声データと、64ビットの暗号鍵データを関数Fに入力すると、64ビットの暗号データが得られる。関数Fは、ビット単位での転値処理を含み、所定回数繰り返し実行される。なお、前記したDESアルゴリズムは、それ自体、本発明とは直接関係せず、そのアルゴリズムが公開されているため、詳細説明は省略する。
前記した本発明の実施の形態1に係る録音装置によれば、音声の録音と承諾語を用いた暗号鍵の生成とを同時並行処理することで、音声の録音に発話者の承諾が必要となり、また、承諾されても音声データは発話者の生体情報により暗号化され記憶されるため、発話者、あるいは発話者により許諾されたユーザ以外の第三者による無断再生、流用、公開、改ざん等は不可能となり、このため、録音された音声データにセキュリティ効果が得られる。
なお、図2の本発明の実施の形態1に係る録音装置が有する機能は、すべてをソフトウェアによって実現しても、あるいはその少なくとも一部をハードウェアで実現してもよい。
例えば、(1)発話者の入力音声データを取り込み、(2)取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定し、(3)入力音声データに承諾語が含まれていた場合、録音処理機能の実行開始と並行して、取得された入力音声データの特徴抽出を行い、発話者の生体情報を生成し、(4)生成された発話者の生体情報に基づき暗号鍵を生成し、(5)取り込まれた入力音声データを生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する、それぞれ、(1)音声入力手段(音声入力部101)、(2)承諾語判定手段(承諾語判定部102)、(3)特徴抽出手段(特徴抽出部103)、(4)暗号鍵生成手段(暗号鍵生成部104)、(5)暗号化手段(暗号化部105)におけるデータ処理は、単数または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。
(実施の形態2)
前記した本発明の実施の形態1に係る録音装置によれば、ユーザにより録音が承諾された音声データからなる暗号化済み音声ファイルを作成する機能についてのみ説明したが、後記する実施の形態2では、再生が許諾されたユーザに対してのみ暗号化済み音声ファイルを復号し再生できる再生処理機能を有する録音装置について説明する。
実施の形態2でも前記した実施の形態1と同様、録音装置1は、図1に示す構成と同じハードウェアを有するものとして説明する。但し、制御部10が有するプログラム構造に若干の差異があるため、図4を参照しながらその差異に着目して説明する。
制御部10は、図4に前記した再生処理機能を実行するプログラムの構造が機能展開され示されているように、復号鍵生成部108と、復号化部109と、を含む。図4において、音声入力部101と、承諾語判定部102と、特徴抽出部103と、承諾語テーブル106と、暗号化済み音声ファイル107は、図2に示すそれと同じであるため、重複を回避する意味でここでの説明は省略する。
復号鍵生成部108(復号鍵生成手段)は、特徴抽出部103で生成された発話者の承諾語を示す声紋情報に、例えば、固定長の擬似乱数を生成するハッシュ関数演算を行い、復号鍵を生成して復号化部109へ引き渡す。すなわち、復号鍵生成部108は、特徴抽出部103で生成された発話者の生体情報に基づき復号鍵を生成する機能を有する。
復号化部109(復号手段)は、暗号化部105により暗号化され保存された暗号化済み音声ファイル107を復号鍵生成部108により生成された復号化鍵により復号化し、音声データに変換する。そして、音声CODEC部14ならびにスピーカ16を介して音声再生出力する。すなわち、復号化部109は、暗号化済み音声ファイルを復号鍵生成部108により生成された復号化鍵により音声データに復号化して、音声再生する機能を有する。
図5は、本発明の実施の形態2に係る録音装置の動作を示すフローチャートである。以下、図5のフローチャートを参照しながら、図1、図4に示す本発明の実施の形態2に係る録音装置の動作について詳細に説明する。
図5において、まず、ユーザが操作部12を操作することにより録音、あるいは再生指示がなされ、表示部13にそのことが表示される。再生の場合、まず、発話者により発話された承諾語を示す音声はマイクロフォン15により集音され、制御部10の音声入力部101によって取り込まれ、取り込まれた音声データは、承諾語判定部102、特徴抽出部103のそれぞれに引き渡される(ステップS501)。
ここで、承諾語判定部102は、音声認識を行い、音声認識により生成される単語を含む文字列と、承諾語テーブル106に予め登録されてある承諾語との比較判定を行う(ステップS502)。このとき承諾語テーブル106には、単語文字列である「了解いたしました」が記憶されているものとする。承諾語判定部102で行われる音声認識は、記憶部11に格納された、例えば、音響モデルと、辞書と、言語モデルとからなるデータベースを索引して確率演算を行うことにより行われる。
承諾語判定部102は、前記した比較判定の結果により特徴抽出部103による生体情報(声紋)の生成を制御する。すなわち、認識された単語が承諾語テーブル106に記憶された単語文字列に一致した場合(ステップS502“Yes”)特徴抽出部103は、発話者が発話した承諾語に基づく声紋情報を生成する。
特徴抽出部103は、音声入力部101により取得された音声信号を窓関数に通して時間、周波数、振幅からなる3次元の情報により表現されるスペクトログラムを生成する(ステップS503)。なお、認識された単語が承諾語テーブル106に記憶された単語を含む文字列に一致しなかった場合は(ステップS502“No”)、再生が禁止され、再生処理が終了する。
特徴抽出部103で生成されたスペクトログラムは、復号鍵生成部108へ引き渡される。続いて、復号鍵生成部108は、特徴抽出部103で生成された発話者のスペクトログラムに、固定長の擬似乱数を生成するハッシュ関数演算を施すことにより復号鍵を生成して復号化部109へ引き渡す(ステップS504)。
復号化部109へは、他に、暗号化部105により暗号化され保存された暗号化済み音声ファイル107が読み出され供給されており(ステップS505)、所定量を単位に読み出される暗号化済み音声ファイル107は、復号鍵生成部108で生成された復号化鍵により復号化され、その結果を用いて音声再生が許可される(ステップS506)。
前記した本発明の実施の形態2に係る録音装置によれば、音声の再生に発話者の承諾が必要となり、また、承諾されても音声データは発話者の生体情報により暗号化され記憶されるため、第三者による無断再生、流用、公開、改ざん等は不可能になり、録音された音声データにセキュリティ効果が得られる。
なお、前記した本発明の実施の形態2に係る録音装置によれば、承諾語テーブル106に記憶される録音、再生の承諾語は同じ「了解いたしました」としたが、これに代わる承諾語でもよく、また、録音再生時に異なってもよい。
また、特徴抽出部103により生成される生体情報は、音声入力部101により取り込まれる再生が許可されたユーザの声紋としたが、録音が許可されたユーザの声紋とすることで、暗号化する際に使用したスペクトログラムと、復号化する際に使用したスペクトログラムとが一致しない限り、暗号化済み音声ファイル107が正しく復号化されないため、一層高いセキュリティ効果を得ることができる。
なお、図4に示す本発明の実施の形態2に係る録音装置が有する機能は、すべてをソフトウェアによって実現しても、あるいはその少なくとも一部をハードウェアで実現してもよい。例えば、生成された発話者の生体情報に基づき復号鍵を生成し、生成された暗号化済み音声ファイルを、生成された復号化鍵により復号化して音声再生する、それぞれ、復号鍵生成手段(復号鍵生成部108)、復号化手段(復号化部109)におけるデータ処理は、単数または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。
(実施の形態3)
前記した本発明の実施の形態1、2に係る録音装置1は、スタンドアロン構成のシステム構成を採るものとして説明したが、本発明は、例えば、ネットワーク経由でサーバ等の外部装置から送信される暗号化された音声データを、端末によりリアルタイムに受信して記録し、後日、その内容を検索して再生する、例えば、会議録システム等の音声録音再生システムに適用することも可能である。
この場合、サーバ、端末は、ともに図1に示すハードウェア構成を有し、また、図2に示すプログラム構造はサーバに、図4に示すプログラム構造は端末内にそれぞれ実装されることになる。
図6は、本発明の実施の形態3に係る録音装置がシステム構成を採り、録音再生システムとして動作する場合のサーバならびに端末の処理手順を示すフローチャートである。
以下、図6に示すフローチャートを参照しながら、本発明の実施の形態3に係る録音装置の動作について詳細に説明する。
図6において、録音時(ステップS601“録音”)、まず、サーバ側では、発話者により発話された音声は、不図示の電話回線もしくはマイクロフォン15により集音され、制御部10の音声入力部101によって取り込まれ、音声データは、承諾語判定部102、特徴抽出部103、暗号化部105のそれぞれに引き渡される(ステップS602)。
ここで、承諾語判定部102は、音声認識を行い、音声認識により生成される単語と、承諾語テーブル106に予め登録されてある承諾語との比較判定を行う(ステップS603)。ここで行われる音声認識は、承諾語判定部102が、記憶部11に格納された、例えば、音響モデルと、辞書と、言語モデルとからなるデータベースを索引して確率演算により行われることは前記したとおりである。
承諾語判定部102は、前記した比較判定の結果により、制御部10が有する録音処理機能の実行を起動するとともに、特徴抽出部103による生体情報(声紋)の生成を制御する。すなわち、認識された単語が承諾語テーブル106に記憶された単語を含む文字列に一致した場合(ステップS603“Yes”)、制御部10は、録音処理を開始し(ステップS604)、同時に、制御部10は、特徴抽出部103を制御し、特徴抽出部103による、発話者が発話した承諾語に基づく声紋情報(スペクトログラム)の生成が行われる(ステップS605)。ここで、特徴抽出部103は、音声入力部101により取得される音声信号を窓関数に通して時間、周波数、振幅からなる3次元の情報により表現されるスペクトログラムを生成する。
なお、認識された単語が承諾語テーブル106に記憶された単語に一致しなかった場合は(ステップS603“No”)、録音が禁止され、録音処理が終了する。
特徴抽出部103で生成されたスペクトログラムは、暗号鍵生成部104へ引き渡される。続いて、暗号鍵生成部104は、特徴抽出部103で生成された発話者のスペクトログラムに、例えば、擬似乱数を用いた暗号アルゴリズムを用いる場合、固定長の擬似乱数を生成するハッシュ関数演算を施すことにより暗号鍵を生成して暗号化部105へ引き渡す(ステップS606)。
暗号化部105へは、他に、音声入力部101により取り込まれた入力音声データが供給されており、この入力音声データは、暗号鍵生成部104で生成された暗号化鍵によりスクランブル(暗号化処理)され(ステップS607)、その結果、暗号化済み音声ファイル107が生成され、不図示のネットワーク経由で端末に送信される(ステップS608)。
次に、端末側で再生が指示された場合(ステップS601“再生”)、発話者により発話された承諾語を示す入力音声はマイクロフォン15により集音され、制御部10の音声入力部101によって取り込まれ(ステップS609)、取り込まれた音声データは、承諾語判定部102、特徴抽出部103のそれぞれに引き渡される。
ここで、承諾語判定部102は、音声認識を行い、音声認識により生成される単語を含む文字列と、承諾語テーブル106に予め登録されてある承諾語との比較判定を行う(ステップS610)。
承諾語判定部102は、前記した比較判定の結果により特徴抽出部103による生体情報(声紋)の生成を制御する。すなわち、認識された単語が承諾語テーブル106に記憶された単語文字列に一致した場合(ステップS610“Yes”)特徴抽出部103は、発話者が発話した承諾語に基づく声紋情報を生成する。特徴抽出部103は、音声入力部101により取得される音声信号を窓関数に通して時間、周波数、振幅からなる3次元の情報により表現されるスペクトログラムを生成する(ステップS611)。
なお、認識された単語が承諾語テーブル106に記憶された単語を含む文字列に一致しなかった場合は(ステップS610“No”)、再生が禁止され、再生処理が終了する。
特徴抽出部103で生成されたスペクトログラムは、復号鍵生成部108へ引き渡される。続いて、復号鍵生成部108は、特徴抽出部103で生成された発話者のスペクトログラムに、固定長の擬似乱数を生成するハッシュ関数演算を施すことにより復号鍵を生成して復号化部109へ引き渡す(ステップS612)。
復号化部109へは、他に、サーバから受信した暗号化済み音声ファイル107が供給されており(ステップS613)、所定量を単位に読み出される暗号化済み音声ファイル107は、復号鍵生成部108で生成された復号化鍵により復号化され、その結果を用いて音声再生が許可される(ステップS614)。
前記したように、サーバで暗号化され送信される暗号化済み音声ファイル107は、端末の復号化部109で復号するときに、特徴抽出部103で生成されたスペクトログラムに基づいて復号される。このとき、暗号化する際に使用したスペクトログラムと、復号化する際に使用したスペクトログラムとが一致していれば、暗号化済み音声ファイルが正しく復号化され、不一致の場合、暗号化鍵と復号化鍵が互いに異なることになるため、復号化部109による復号化処理が実行されても正しく復号されることはない。
すなわち、あるユーザの声紋パターンにより、暗号化済み音声ファイル107は、実質的にそのユーザのみが復号再生することができることになり、このため、録音された音声データのセキュリティ効果が得られる。
前記した本発明の実施の形態3に係る録音装置によれば、生体情報を用いることにより録音や再生を制限することで一定の範囲内で音声データの機密性を維持でき、また、スペトクログラム(声紋パターン)が一致しない限り暗号化済み音声ファイル107を正しく復号できないことから、実質的に録音を許諾したユーザのみが再生できることから、保存された音声データの再生、編集、公開等が制限され、セキュリティ効果が得られる。
なお、本発明のプログラムは、録音処理機能を有する録音装置1に用いられるプログラムであって、例えば、図3にその処理手順が示されるように、発話者の入力音声を取り込む音声入力処理(S301)と、前記取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定処理(S302)と、前記入力音声データに前記承諾語が含まれていた場合、前記録音処理機能の実行開始と並行して前記取得された入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出処理(S303、S304)と、前記特徴抽出処理で生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成処理(S305)と、前記取り込まれた入力音声データを前記暗号化鍵生成処理で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化処理(S306、S307)と、をコンピュータに実行させるものである。
また、本発明のプログラムは、例えば、図4に示されるように、前記生成された発話者の生体情報に基づき復号鍵を生成する復号鍵生成処理(S504)と、前記暗号化処理により生成された暗号化済み音声ファイルを前記復号鍵生成処理で生成された復号化鍵により復号化して音声再生する復号化処理(S505、S506)と、を更に含んでもよい。
前記した録音装置1が本発明のプログラムをコンピュータ(制御部10のCPU)に実行させることにより、音声の録音と承諾語を用いた暗号鍵の生成とを同時並行処理することで音声の録音に発話者の承諾が必要となり、また、承諾されても音声データは発話者の生体情報により暗号化され記憶されるため、発話者、あるいは発話者により許諾されたユーザ以外の第三者による無断再生、流用、公開、改ざん等は不可能となり、このため、録音された音声データにセキュリティ効果が得られる。
また、音声の再生に発話者の承諾が必要となり、また、承諾されても音声データは発話者の生体情報により暗号化され記憶されるため、第三者による無断再生、流用、公開、改ざん等は不可能になり、録音された音声データにセキュリティ効果が得られる。
なお、前記した本発明の実施の形態1、2、3では、録音装置、あるいは録音再生システムを、録音、再生にかかわる専用装置として説明したが、これに制限されるものではなく、例えば、PC(Personal Computer)や携帯電話等の汎用装置でも実現が可能である。この場合、PCや携帯電話は、図1に示すハードウェア構成を有し、かつ、図2、図4に示すプログラム構造をアプリケーションプログラム等に実装する必要がある。
本発明の実施の形態1に係る録音装置のハードウェア構成を示すブロック図である。 本発明の実施の形態1に係る録音装置の制御部が有するプログラムの構造を機能展開して示したブロック図である。 本発明の実施の形態1に係る録音装置の動作を示すフローチャートである。 本発明の実施の形態2に係る録音装置の制御部が有するプログラムの構造を機能展開して示したブロック図である。 本発明の実施の形態2に係る録音装置の動作を示すフローチャートである。 本発明の実施の形態3に係る録音装置のシステム構成の動作を示すフローチャートである。
符号の説明
1 録音装置
10 制御部
11 記憶部
12 操作部
13 表示部
14 音声CODEC部
15 マイクロフォン
16 スピーカ
17 システムバス
101 音声入力部(音声入力手段)
102 承諾語判定部(承諾語判定手段)
103 特徴抽出部(特徴抽出手段)
104 暗号鍵生成部(暗号鍵生成手段)
105 暗号化部(暗号化手段)
106 承諾語テーブル
107 暗号化済み音声ファイル
108 復号鍵生成部(復号鍵生成手段)
109 復号化部(復号化手段)

Claims (10)

  1. 録音処理機能を有する録音装置であって、
    発話者の入力音声データを取り込む音声入力手段と、
    前記取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段と、
    前記入力音声データに前記承諾語が含まれていた場合、前記録音処理機能を用いた録音処理をすると共に前記取り込まれた入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出手段と、
    前記生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成手段と、
    前記取り込まれた入力音声データを前記暗号鍵生成手段で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化手段と、
    を備えたことを特徴とする録音装置。
  2. 前記生成された発話者の生体情報に基づき復号鍵を生成する復号鍵生成手段と、
    前記暗号化手段により生成された暗号化済み音声ファイルを前記復号鍵生成手段により生成された復号化鍵により復号化する復号化手段と、
    を備えたことを特徴とする請求項1に記載の録音装置。
  3. 前記発話者の生体情報は、発話者が発した承諾語に基づく声紋情報であることを特徴とする請求項1又は請求項2に記載の録音装置。
  4. 前記承諾語判定手段は、
    前記入力音声データから音声認識に必要な特徴量を抽出し、前記特徴量に基づき変換される文字列と、予めメモリにリストされた、録音もしくは再生に関する承諾語を示す文字列とを比較して前記入力音声データに前記録音もしくは再生に関する承諾語が含まれるか否かを判定することを特徴とする請求項1に記載の録音装置。
  5. 前記特徴抽出手段は、
    前記入力音声データの信号成分を窓関数に通し、時間と、周波数と、信号成分の強さとの3次元の情報からなる前記生体情報としての声紋情報を生成することを特徴とする請求項1に記載の録音装置。
  6. 前記暗号鍵生成手段は、
    前記生成された発話者の生体情報に固定長の擬似乱数を生成するハッシュ関数演算を行い、前記暗号鍵を生成することを特徴とする請求項1に記載の録音装置。
  7. 前記復号鍵生成手段は、
    前記生成された発話者の生体情報に固定長の擬似乱数を生成するハッシュ関数演算を行い、前記復号鍵を生成することを特徴とする請求項2に記載の録音装置。
  8. 録音処理機能を有する録音装置に用いられるプログラムであって、
    発話者の入力音声データを取り込む音声入力処理と、
    前記取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定処理と、
    前記入力音声データに前記承諾語が含まれていた場合、前記録音処理機能用いた録音処理をすると共に前記取り込まれた入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出処理と、
    前記特徴抽出処理で生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成処理と、
    前記取り込まれた入力音声データを前記暗号化鍵生成処理で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化処理と、
    をコンピュータに実行させるプログラム。
  9. 前記生成された発話者の生体情報に基づき復号鍵を生成する復号鍵生成処理と、
    前記暗号化処理により生成された暗号化済み音声ファイルを前記復号鍵生成処理で生成された復号化鍵により復号化して音声再生する復号化処理と、
    を更に含むことを特徴とする請求項8に記載のプログラム。
  10. 録音再生処理機能を有する録音再生システムであって、
    発話者の入力音声データを取り込む音声入力手段と、
    前記音声入力手段により取り込まれた入力音声データに、録音もしくは再生に関する承諾語が含まれているか否かを判定する承諾語判定手段と、
    前記承諾語判定手段で前記入力音声データに前記承諾語が含まれていると判定された場合、前記録音処理機能用いた録音処理をすると共に前記入力音声データの特徴抽出を行い、発話者の生体情報を生成する特徴抽出手段と、
    前記特徴抽出手段により生成された発話者の生体情報に基づき暗号鍵を生成する暗号鍵生成手段と、
    前記音声入力手段で取り込まれた入力音声データを前記暗号鍵生成手段で生成された暗号化鍵により暗号化して暗号化済み音声ファイルを生成する暗号化手段と、
    前記特徴抽出手段により生成された発話者の生体情報に基づき復号鍵を生成する復号鍵生成手段と、
    前記暗号化手段により生成された暗号化済み音声ファイルを前記復号鍵生成手段で生成された復号化鍵により復号化して音声再生する復号化手段と、
    を備えたことを特徴とする録音再生システム。
JP2008238098A 2008-09-17 2008-09-17 録音装置およびプログラムならびに録音再生システム Pending JP2010074391A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008238098A JP2010074391A (ja) 2008-09-17 2008-09-17 録音装置およびプログラムならびに録音再生システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008238098A JP2010074391A (ja) 2008-09-17 2008-09-17 録音装置およびプログラムならびに録音再生システム

Publications (1)

Publication Number Publication Date
JP2010074391A true JP2010074391A (ja) 2010-04-02

Family

ID=42205792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008238098A Pending JP2010074391A (ja) 2008-09-17 2008-09-17 録音装置およびプログラムならびに録音再生システム

Country Status (1)

Country Link
JP (1) JP2010074391A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013128282A (ja) * 2011-12-19 2013-06-27 Fujitsu Ltd 音声メモのセキュアな記録及び共有システム
CN111601310A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 基于声纹识别的通话加密方法、系统及移动终端
US11340863B2 (en) 2019-03-29 2022-05-24 Tata Consultancy Services Limited Systems and methods for muting audio information in multimedia files and retrieval thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013128282A (ja) * 2011-12-19 2013-06-27 Fujitsu Ltd 音声メモのセキュアな記録及び共有システム
US11340863B2 (en) 2019-03-29 2022-05-24 Tata Consultancy Services Limited Systems and methods for muting audio information in multimedia files and retrieval thereof
CN111601310A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 基于声纹识别的通话加密方法、系统及移动终端

Similar Documents

Publication Publication Date Title
KR102180489B1 (ko) 센서 신호들에 기초한 라이브니스 결정
US10650827B2 (en) Communication method, and electronic device therefor
US20110038594A1 (en) Handheld recorder incorporating true raw audio or video certification
RU2616888C2 (ru) Способ выполнения аналого-цифровой подписи в доверенной среде и устройство его реализующее
JP2010074391A (ja) 録音装置およびプログラムならびに録音再生システム
US20070140505A1 (en) Method and apparatus for masking acoustic keyboard emanations
WO2015196642A1 (zh) 数据加密方法、解密方法及装置
JP2009140609A (ja) 偽変造防止のためのデジタル録音装置
JP2008309959A (ja) オーディオ信号記録装置、電子ファイル
WO2020119692A1 (zh) 一种视频流播放方法及装置
CN111954035A (zh) 影音信号流的加密方法与装置
JPWO2014203370A1 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
JP4714410B2 (ja) 対応するプロファイルの合成に対する使用許可テストを有するテキスト・ディスクリプション、ジェスチャ・ディスクリプション、顔の表情ディスクリプション、及び/又は、挙動ディスクリプションを処理する方法
KR100722560B1 (ko) 음원 파일 처리 방법 및 그 장치
CN111625780B (zh) 一种基于区块链的音频作品授权方法、装置及设备
US20220272131A1 (en) Method, electronic device and system for generating record of telemedicine service
US20070140504A1 (en) Method and apparatus for masking acoustic keyboard emanations
CN104994500B (zh) 一种用于移动电话的语音保密传输方法及装置
EP3575994B1 (en) Method and system for real-time-proofing of a recording
Phipps et al. Enhancing cyber security using audio techniques: a public key infrastructure for sound
JP2000306090A (ja) 個人認証装置、方法及び記録媒体
JP2009093256A (ja) 認証装置
JP2007333851A (ja) 音声合成方法、音声合成装置、音声合成プログラム、音声合成配信システム
US20230315815A1 (en) Secure audio playback
WO2023119629A1 (ja) 情報処理システム、情報処理方法、記録媒体、及びデータ構造