JP4146949B2

JP4146949B2 - 音声処理装置

Info

Publication number: JP4146949B2
Application number: JP32723098A
Authority: JP
Inventors: 秀享 ▲高▼橋
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 1998-11-17
Filing date: 1998-11-17
Publication date: 2008-09-10
Anticipated expiration: 2018-11-17
Also published as: JP2000148189A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理装置、詳しくは、話者識別を可能とする音声処理装置に関する。
【０００２】
【従来の技術】
近年、マイクロホン等によって得られた音声信号をデジタル信号に変換して、例えば半導体メモリに記録しておき、再生時において、該半導体メモリからこの音声信号を読み出してアナログ信号に変換し、スピーカ等により音声として出力する、いわゆるデジタルレコーダと呼ばれているデジタル情報記録再生装置が開発されている。特開昭６３−２５９７００号公報には、このようなデジタル音声記録再生装置が開示されている。
【０００３】
また、このようなデジタル音声記録再生装置においては、録音された音声データを再生する際にその操作性や検索性をより向上させることが望まれており、その実現のために種々の提案がなされている。例えば本出願人は、所望の範囲の音声データを再生させるためのインデックスマーク記録用釦を具備したデジタル音声記録再生装置を、特開平１０−３３００号公報において開示している。
【０００４】
また、本出願人は、デジタル録音装置からパーソナルコンピュータに転送された録音データを、パーソナルコンピュータにおいて簡単な操作で扱うことを可能とする音声データの処理制御装置を、特願平９−１４９７２８号において提案している。
【０００５】
さらに近年の音声処理技術の発展により、音声認識技術、話者認識技術等が実用のものとなりつつある。例えば特開平８−１５３１１８号公報は、話者識別技術を応用して音声データを検索し、指定した話者の音声だけを再生することを可能とする音声データ処理装置を開示している。
【０００６】
【発明が解決しようとする課題】
しかしながら、従来の発話内容を限定しない音声を対象とする話者識別技術においては誤識別を含むことが避けられなかった。これにより、話者を指定して再生しようとしても、漏れなく当該話者の音声を再生することができない虞があり問題となっていた。
【０００７】
本発明はかかる問題点に鑑みてなされたものであり、録音音声の検索をより正確に行える音声処理装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記の目的を達成するために本発明の第１の音声処理装置は、音声を入力する音声入力手段と、各話者毎に、登録用音声の特徴パラメータを登録音声モデルとして記録する登録音声モデル記録手段と、上記音声入力手段で入力した音声データを記録する音声記録手段と、上記音声記録手段により記録された音声データから特徴パラメータを抽出し、該特徴パラメータと上記各話者の登録音声モデルとの類似度を求めて話者の識別処理を行う話者識別手段と、上記話者識別手段により識別された話者に対応する話者コードと、かかる話者識別手段の識別処理に対応する音声データの位置情報とを記録する話者識別データ記録手段と、を有する音声処理装置において、上記話者識別データ記録手段は、上記話者識別手段によって音声データの話者識別ができなかった場合に、当該音声データの位置情報と話者が特定できなかったことを示す特別の話者コードとを記録することを特徴とする。
【０００９】
上記の目的を達成するために本発明の第２の音声処理装置は、上記第１の音声処理装置において、上記話者識別手段は、上記音声記録手段により記録された音声データから特徴パラメータを抽出する特徴パラメータ抽出手段と、上記特徴パラメータ抽出手段により抽出された特徴パラメータと上記各話者の登録音声モデルとの類似度を求める類似度演算手段と、上記類似度演算手段により演算された上記類似度と話者認識用しきい値とを比較し、話者の識別を行う話者特定手段と、を有することを特徴とする。
【００１０】
上記の目的を達成するために本発明の第３の音声処理装置は、上記第１または第２の音声処理装置において、上記音声記録手段により記録された音声データのうち有音データを検出する有音検出手段を更に有し、上記話者識別手段は、上記有音検出手段により検出された有音データに対して話者識別処理を行うことを特徴とする。
【００１１】
上記の目的を達成するために本発明の第４の音声処理装置は、上記第３の音声処理装置において、上記有音検出手段は、上記音声記録手段により記録された音声データのヘッダ部に記録された有音／無音情報に基づいて検出することを特徴とする。
【００１２】
上記の目的を達成するために本発明の第５の音声処理装置は、上記第１の音声処理装置において、話者コードを指定されることで、該話者コードに対応する音声データと上記特別の話者コードに対応する音声データを再生する再生手段を有することを特徴とする。
【００１３】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００１４】
図１は、本発明の一実施形態であるデジタル音声処理装置の構成を示したブロック図である。
図１に示すように、本実施形態のデジタル音声処理装置は、当該音声処理装置全体の制御を司るシステム制御部１０を備え、外部音声等を入力するマイクロフォン１と、このマイクロフォン１からの音声信号を増幅するプリアンプ２と、後述する符号化／復号化処理部７で所定処理がなされた出力音声信号を増幅するパワーアンプ６と、増幅された該音声信号を出力するスピーカ５と、これら入出力音声信号に対して不要高域成分を除去するとともにＡ／Ｄ変換あるいはＤ／Ａ変換を施す回路であるＣＯＤＥＣ３と、ＣＯＤＥＣ３でＡ／Ｄ変換された音声データに所定の符号化等の処理を施す符号化／復号化処理部（ＤＳＰ）７と、メモリ制御部８の制御により符号化／復号化処理部７で適宜処理が施された音声データを記録するフラッシュメモリ１３と、ＣＯＤＥＣ３でＡ／Ｄ変換された音声データあるいは復号化された音声信号より所定のパラメータを抽出する特徴パラメータ抽出部１４と、この特徴パラメータ抽出部１４からのデータに基づき音声モデルを作成する音声モデル作成部１５と、特徴パラメータ抽出部１４からのデータに基づき類似度を計算する類似度計算部１６と、類似度計算部１６の計算結果に基づいて話者を特定する処理を行う話者特定部１７と、当該デジタル音声処理装置の所定状況を表示する表示部９と、録音、再生等の操作釦あるいは操作スイッチからなる操作入力部１１と、当該デジタル音声処理装置の電源１２と、を備えている。
【００１５】
上記ＣＯＤＥＣ３は、マイクロフォン１からの音声信号より不要高域成分を除去するローパスフィルタ３Ａ、さらに該アナログ音声信号をＡ／Ｄ変換するＡ／Ｄ変換器３Ｂ、符号化／復号化処理部７からの音声データをＤ／Ａ変換するＤ／Ａ変換器３Ｃ、該Ｄ／Ａ変換された音声信号より不要高域成分を除去するローパスフィルタ３Ｄとを備えている。
【００１６】
また、符号化／復号化処理部７は、例えば、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）方式により音声の符号化／復号化を行い、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）により構成される。
【００１７】
システム制御部１０は、当該デジタル音声処理装置各部の動作制御を司り、本実施形態では、８ビットＣＰＵで構成される。そして、１６ビットＣＰＵで構成されるメモリ制御部８を介して符号化／復号化処理部７およびフラッシュメモリ１３に接続されるとともに、ＣＯＤＥＣ３と、表示部９と、録音、再生等の操作釦あるいは操作スイッチからなる操作入力部１１と、電源１２とにそれぞれ接続されている。
【００１８】
上記フラッシュメモリ１３は、音声データ記録部１３Ａと、音声モデル記録部１３Ｂと、話者コード記録部１３Ｃとの３つの領域に区分けされている。またフラッシュメモリ１３は、音声処理装置に内蔵されていてもよく、着脱自在に構成されていてもよい。
【００１９】
特徴パラメータ抽出部１４は符号化／復号化処理部７に接続されるとともに、音声モデル作成部１５を介してメモリ制御部８に接続されている。さらに特徴パラメータ抽出部１４は類似度計算部１６、話者特定部１７を介してメモリ制御部８に接続されている，
ここで、このように構成される本デジタル音声処理装置の録音、再生に係る主要動作を簡単に説明する。
操作者が操作入力部１１により録音操作を行うと、システム制御部１０の制御下にマイクロフォン１で入力したアナログ音声信号がプリアンプ２で増幅され、ローパスフィルタ３Ａによって音声信号成分のうち不要な高域成分が遮断される。このローパスフィルタ３Ａからの出力信号はＡ／Ｄ変換器３Ｂでデジタル信号に変換される。
【００２０】
この後、符号化／復号化処理部７でＡ／Ｄ変換器３Ｂからのデジタル信号に符号化処理を施す。この符号化処理によって得られた符号化データはメモリ制御部８を介してフラッシュメモリ１３の音声データ記録部１３Ａの領域に格納される。
【００２１】
この一連の動作の際、メモリ制御部８は、フラッシュメモリ１３と符号化／復号化処理部７との間でやりとりされる信号の入出力動作を制御する。また、フラッシュメモリ１３はメモリ制御部８から出力される符号化データの他にヘッダ情報を記録する。このヘッダ情報としては、例えば本出願人による特開平９−２１８６９４号公報に開示されるように有音／無音情報等が挙げられる。
【００２２】
また、操作者が操作入力部１１により再生操作を行うと、システム制御部１０の制御下にメモリ制御部８を介してフラッシュメモリ１３から符号化データが読み出され、メモリ制御部８を介して符号化／復号化処理部７に供給され、復号化データが作成される。
【００２３】
この復号化データはＣＯＤＥＣ３のＤ／Ａ変換器３Ｃにおいてアナログ音声信号に変換され、該アナログ音声信号はローパスフィルタ３Ｄにおいてその周波数成分のうち不要な高域成分が遮断される。そして、パワーアンプ６で増幅されスピーカ５より再生信号として出力される。
【００２４】
次に、当該デジタル音声処理装置における話者識別処理のための話者登録の動作について説明する。なお、この話者登録は上述した録音操作に先だって行うことを想定する。
【００２５】
図２は、話者登録の流れを示すフローチャートである。
操作者が操作入力部１１を介して話者登録操作を行ったとき、話者登録用音声データを特徴パラメータ抽出部１４に入力する（ステップＳ１）。このとき、話者登録用音声データは、マイクロフォン１から話者が入力するようにしても良いし、予め話者登録用音声データを録音しておき、その録音データを入力するようにしても良い。
【００２６】
特徴パラメータ抽出部１４は、入力された登録用音声データを話者識別に適した表現形式、例えばピッチやケプストラム等の特徴パラメータを抽出する（ステップＳ２）。次に、特徴パラメータの時系列データが音声モデル作成部１５に入力され、特徴パラメータの標準パターンが音声モデルとして作成される（ステップＳ３）。そして、作成された音声モデルがメモリ制御部８を介してフラッシュメモリ１３の音声モデル記録部１３Ｂに記録される（ステップＳ４）。
【００２７】
これら上述した話者登録操作を、録音を予定する各話者について行う。
【００２８】
次に、録音データ、すなわち音声データ記録部１３Ａに記録されている音声データについて、話者を識別する処理について説明する。
【００２９】
ここで、音声データ記録部１３Ａに記録されている音声データについて話者を識別することとしたのは、一般に話者識別処理の処理演算量は膨大であり、特に小型・安価の音声処理装置においては、録音時にマイクからの音声の話者識別処理を行うことは困難であるためである。
【００３０】
このように音声データ記録部１３Ａに記録されている音声データについて話者を識別することにより、話者識別処理の実行のタイミングに自由度が生まれる。例えばこの処理は、録音が終了した直後に自動的に行うようにしても良いし、操作者が操作入力部１１を介して話者識別操作を行ったときに行うようにしても良い。
【００３１】
図３は、話者識別の処理を示すフローチャートである。
まず、音声データのフレーム番号を示す変数ｆの値を“０”にセットする（ステップＳ５）。続いてｆの値を“１”加算する（ステップＳ６）。そして、変数ｆの値に対応するフレームの音声が有音であるか否かを判定する（ステップＳ７）。この判定方法は、例えば、本出願人による特開平９−２８１９８７号公報に開示するような方法でも良いし、前出の特開平９−２１８６９４号公報に開示されているように、予めヘッダに記録された有音・無音情報を用いるようにしても良い。
【００３２】
上記ステップＳ７での判定がｙｅｓであれば、現フレームの音声データが記録されている音声データ記録部１３Ａのアドレス情報を話者コード記録部１３Ｃに記録する（ステップＳ８）。次に、現フレームの音声を特徴パラメータ抽出部１４に入力して所定の特徴パラメータを抽出する（ステップＳ９）。
【００３３】
類似度計算部１６は、音声モデル１３Ｂに記録された各話者の音声モデルと、上記特徴パラメータとの類似度を計算する（ステップＳ１０）。次に、類似度が話者識別用しきい値より高い話者を、現フレーム音声の話者と特定する（ステップＳ１１）。
【００３４】
このとき、複数の話者に対して、類似度が話者認識用しきい値より大となったとき、または類似度が話者認識用しきい値より大となることがどの話者に対してもないときは、そのときの話者を特定できず、とする。そして、その話者に対応する話者コードもしくは話者を特定できなかった旨を表すコードを話者コード記録部１３Ｃに、ステップＳ８で記録した情報に対応するように記録する（ステップＳ１２）。
【００３５】
次に、ファイルが終わりかどうかを判定し（ステップＳ１３）、ｎｏであればステップＳ６に戻って次のフレームについて処理を繰り返し、ｙｅｓであれば処理を終了する。また、ステップＳ７の判定がｎｏであれば当該フレームについては何も処理を行わずにステップＳ６に戻って次のフレームについて処理を繰り返す。
【００３６】
このように有音区間についてのみ話者識別処理を行うようにしたのは、無音区間には話者の個人性が存在しないため、類似度の計算には不要であり、有音区間のみを話者識別処理の対象としたほうが、精度よく識別ができるためである。
【００３７】
上述した話者識別処理を経て、操作者は操作入力部１１を介して話者選択操作と再生操作を行うことにより、選択された話者と、特定できなかった部分の音声だけを再生することを可能とする。例えば、インタビューや座談会等の録音データを再生する際、特定の話者だけを再生することができ、内容の把握を格段に速めることができる。
【００３８】
現在の話者識別技術では、常に話者を正確に識別することは困難であり、誤識別することが多い。このような状況では、必ずいずれかの話者に識別するようにするのではなく、上述したように話者を特定できないときは特定しないでおくことにより、話者を指定しても再生されない部分ができてしまうことを防止することができる。
【００３９】
【発明の効果】
以上説明したように本発明によれば、録音音声の検索をより正確に行える音声処理装置を提供できる。
【図面の簡単な説明】
【図１】本発明の一実施形態であるデジタル音声処理装置の構成を示したブロック図である。
【図２】上記実施形態のデジタル音声処理装置における話者登録の流れを示すフローチャートである。
【図３】上記実施形態のデジタル音声処理装置における話者識別の処理を示すフローチャートである。
【符号の説明】
１…マイクロフォン
３…ＣＯＤＥＣ
３Ａ…ローパスフィルタ
３Ｂ…Ａ／Ｄ変換器
３Ｃ…ローパスフィルタ
３Ｄ…Ｄ／Ａ変換器
７…符号化／復号化処理部
８…メモリ制御部
１０…システム制御部
１１…操作入力部
１３…フラッシュメモリ
１３Ａ…音声データ記録部
１３Ｂ…音声モデル記録部
１３Ｃ…話者コード記録部
１４…特徴パラメータ抽出部
１５…音声モデル作成部
１６…類似度計算部
１７…話者特定部

Claims

音声を入力する音声入力手段と、
各話者毎に、登録用音声の特徴パラメータを登録音声モデルとして記録する登録音声モデル記録手段と、
上記音声入力手段で入力した音声データを記録する音声記録手段と、
上記音声記録手段により記録された音声データから特徴パラメータを抽出し、該特徴パラメータと上記各話者の登録音声モデルとの類似度を求めて話者の識別処理を行う話者識別手段と、
上記話者識別手段により識別された話者に対応する話者コードと、かかる話者識別手段の識別処理に対応する音声データの位置情報とを記録する話者識別データ記録手段と、
を有する音声処理装置において、
上記話者識別データ記録手段は、上記話者識別手段によって音声データの話者識別ができなかった場合に、当該音声データの位置情報と話者が特定できなかったことを示す特別の話者コードとを記録することを特徴とする音声処理装置。
上記話者識別手段は、
上記音声記録手段により記録された音声データから特徴パラメータを抽出する特徴パラメータ抽出手段と、
上記特徴パラメータ抽出手段により抽出された特徴パラメータと上記各話者の登録音声モデルとの類似度を求める類似度演算手段と、
上記類似度演算手段により演算された上記類似度と話者認識用しきい値とを比較し、話者の識別を行う話者特定手段と、
を有することを特徴とする請求項１に記載の音声処理装置。
上記音声記録手段により記録された音声データのうち有音データを検出する有音検出手段を更に有し、
上記話者識別手段は、上記有音検出手段により検出された有音データに対して話者識別処理を行うことを特徴とする請求項１または２に記載の音声処理装置。
上記有音検出手段は、上記音声記録手段により記録された音声データのヘッダ部に記録された有音／無音情報に基づいて検出することを特徴とする請求項３に記載の音声処理装置。
話者コードを指定されることで、該話者コードに対応する音声データと上記特別の話者コードに対応する音声データを再生する再生手段を有することを特徴とする請求項１に記載の音声処理装置。