JP4146949B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP4146949B2 JP4146949B2 JP32723098A JP32723098A JP4146949B2 JP 4146949 B2 JP4146949 B2 JP 4146949B2 JP 32723098 A JP32723098 A JP 32723098A JP 32723098 A JP32723098 A JP 32723098A JP 4146949 B2 JP4146949 B2 JP 4146949B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- recording
- sound
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声処理装置、詳しくは、話者識別を可能とする音声処理装置に関する。
【0002】
【従来の技術】
近年、マイクロホン等によって得られた音声信号をデジタル信号に変換して、例えば半導体メモリに記録しておき、再生時において、該半導体メモリからこの音声信号を読み出してアナログ信号に変換し、スピーカ等により音声として出力する、いわゆるデジタルレコーダと呼ばれているデジタル情報記録再生装置が開発されている。特開昭63−259700号公報には、このようなデジタル音声記録再生装置が開示されている。
【0003】
また、このようなデジタル音声記録再生装置においては、録音された音声データを再生する際にその操作性や検索性をより向上させることが望まれており、その実現のために種々の提案がなされている。例えば本出願人は、所望の範囲の音声データを再生させるためのインデックスマーク記録用釦を具備したデジタル音声記録再生装置を、特開平10−3300号公報において開示している。
【0004】
また、本出願人は、デジタル録音装置からパーソナルコンピュータに転送された録音データを、パーソナルコンピュータにおいて簡単な操作で扱うことを可能とする音声データの処理制御装置を、特願平9−149728号において提案している。
【0005】
さらに近年の音声処理技術の発展により、音声認識技術、話者認識技術等が実用のものとなりつつある。例えば特開平8−153118号公報は、話者識別技術を応用して音声データを検索し、指定した話者の音声だけを再生することを可能とする音声データ処理装置を開示している。
【0006】
【発明が解決しようとする課題】
しかしながら、従来の発話内容を限定しない音声を対象とする話者識別技術においては誤識別を含むことが避けられなかった。これにより、話者を指定して再生しようとしても、漏れなく当該話者の音声を再生することができない虞があり問題となっていた。
【0007】
本発明はかかる問題点に鑑みてなされたものであり、録音音声の検索をより正確に行える音声処理装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するために本発明の第1の音声処理装置は、音声を入力する音声入力手段と、各話者毎に、登録用音声の特徴パラメータを登録音声モデルとして記録する登録音声モデル記録手段と、上記音声入力手段で入力した音声データを記録する音声記録手段と、上記音声記録手段により記録された音声データから特徴パラメータを抽出し、該特徴パラメータと上記各話者の登録音声モデルとの類似度を求めて話者の識別処理を行う話者識別手段と、上記話者識別手段により識別された話者に対応する話者コードと、かかる話者識別手段の識別処理に対応する音声データの位置情報とを記録する話者識別データ記録手段と、を有する音声処理装置において、上記話者識別データ記録手段は、上記話者識別手段によって音声データの話者識別ができなかった場合に、当該音声データの位置情報と話者が特定できなかったことを示す特別の話者コードとを記録することを特徴とする。
【0009】
上記の目的を達成するために本発明の第2の音声処理装置は、上記第1の音声処理装置において、上記話者識別手段は、上記音声記録手段により記録された音声データから特徴パラメータを抽出する特徴パラメータ抽出手段と、上記特徴パラメータ抽出手段により抽出された特徴パラメータと上記各話者の登録音声モデルとの類似度を求める類似度演算手段と、上記類似度演算手段により演算された上記類似度と話者認識用しきい値とを比較し、話者の識別を行う話者特定手段と、を有することを特徴とする。
【0010】
上記の目的を達成するために本発明の第3の音声処理装置は、上記第1または第2の音声処理装置において、上記音声記録手段により記録された音声データのうち有音データを検出する有音検出手段を更に有し、上記話者識別手段は、上記有音検出手段により検出された有音データに対して話者識別処理を行うことを特徴とする。
【0011】
上記の目的を達成するために本発明の第4の音声処理装置は、上記第3の音声処理装置において、上記有音検出手段は、上記音声記録手段により記録された音声データのヘッダ部に記録された有音/無音情報に基づいて検出することを特徴とする。
【0012】
上記の目的を達成するために本発明の第5の音声処理装置は、上記第1の音声処理装置において、話者コードを指定されることで、該話者コードに対応する音声データと上記特別の話者コードに対応する音声データを再生する再生手段を有することを特徴とする。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0014】
図1は、本発明の一実施形態であるデジタル音声処理装置の構成を示したブロック図である。
図1に示すように、本実施形態のデジタル音声処理装置は、当該音声処理装置全体の制御を司るシステム制御部10を備え、外部音声等を入力するマイクロフォン1と、このマイクロフォン1からの音声信号を増幅するプリアンプ2と、後述する符号化/復号化処理部7で所定処理がなされた出力音声信号を増幅するパワーアンプ6と、増幅された該音声信号を出力するスピーカ5と、これら入出力音声信号に対して不要高域成分を除去するとともにA/D変換あるいはD/A変換を施す回路であるCODEC3と、CODEC3でA/D変換された音声データに所定の符号化等の処理を施す符号化/復号化処理部(DSP)7と、メモリ制御部8の制御により符号化/復号化処理部7で適宜処理が施された音声データを記録するフラッシュメモリ13と、CODEC3でA/D変換された音声データあるいは復号化された音声信号より所定のパラメータを抽出する特徴パラメータ抽出部14と、この特徴パラメータ抽出部14からのデータに基づき音声モデルを作成する音声モデル作成部15と、特徴パラメータ抽出部14からのデータに基づき類似度を計算する類似度計算部16と、類似度計算部16の計算結果に基づいて話者を特定する処理を行う話者特定部17と、当該デジタル音声処理装置の所定状況を表示する表示部9と、録音、再生等の操作釦あるいは操作スイッチからなる操作入力部11と、当該デジタル音声処理装置の電源12と、を備えている。
【0015】
上記CODEC3は、マイクロフォン1からの音声信号より不要高域成分を除去するローパスフィルタ3A、さらに該アナログ音声信号をA/D変換するA/D変換器3B、符号化/復号化処理部7からの音声データをD/A変換するD/A変換器3C、該D/A変換された音声信号より不要高域成分を除去するローパスフィルタ3Dとを備えている。
【0016】
また、符号化/復号化処理部7は、例えば、CELP(Code Excited Linear Predictive Coding)方式により音声の符号化/復号化を行い、DSP(Digital Signal Processor)により構成される。
【0017】
システム制御部10は、当該デジタル音声処理装置各部の動作制御を司り、本実施形態では、8ビットCPUで構成される。そして、16ビットCPUで構成されるメモリ制御部8を介して符号化/復号化処理部7およびフラッシュメモリ13に接続されるとともに、CODEC3と、表示部9と、録音、再生等の操作釦あるいは操作スイッチからなる操作入力部11と、電源12とにそれぞれ接続されている。
【0018】
上記フラッシュメモリ13は、音声データ記録部13Aと、音声モデル記録部13Bと、話者コード記録部13Cとの3つの領域に区分けされている。またフラッシュメモリ13は、音声処理装置に内蔵されていてもよく、着脱自在に構成されていてもよい。
【0019】
特徴パラメータ抽出部14は符号化/復号化処理部7に接続されるとともに、音声モデル作成部15を介してメモリ制御部8に接続されている。さらに特徴パラメータ抽出部14は類似度計算部16、話者特定部17を介してメモリ制御部8に接続されている,
ここで、このように構成される本デジタル音声処理装置の録音、再生に係る主要動作を簡単に説明する。
操作者が操作入力部11により録音操作を行うと、システム制御部10の制御下にマイクロフォン1で入力したアナログ音声信号がプリアンプ2で増幅され、ローパスフィルタ3Aによって音声信号成分のうち不要な高域成分が遮断される。このローパスフィルタ3Aからの出力信号はA/D変換器3Bでデジタル信号に変換される。
【0020】
この後、符号化/復号化処理部7でA/D変換器3Bからのデジタル信号に符号化処理を施す。この符号化処理によって得られた符号化データはメモリ制御部8を介してフラッシュメモリ13の音声データ記録部13Aの領域に格納される。
【0021】
この一連の動作の際、メモリ制御部8は、フラッシュメモリ13と符号化/復号化処理部7との間でやりとりされる信号の入出力動作を制御する。また、フラッシュメモリ13はメモリ制御部8から出力される符号化データの他にヘッダ情報を記録する。このヘッダ情報としては、例えば本出願人による特開平9−218694号公報に開示されるように有音/無音情報等が挙げられる。
【0022】
また、操作者が操作入力部11により再生操作を行うと、システム制御部10の制御下にメモリ制御部8を介してフラッシュメモリ13から符号化データが読み出され、メモリ制御部8を介して符号化/復号化処理部7に供給され、復号化データが作成される。
【0023】
この復号化データはCODEC3のD/A変換器3Cにおいてアナログ音声信号に変換され、該アナログ音声信号はローパスフィルタ3Dにおいてその周波数成分のうち不要な高域成分が遮断される。そして、パワーアンプ6で増幅されスピーカ5より再生信号として出力される。
【0024】
次に、当該デジタル音声処理装置における話者識別処理のための話者登録の動作について説明する。なお、この話者登録は上述した録音操作に先だって行うことを想定する。
【0025】
図2は、話者登録の流れを示すフローチャートである。
操作者が操作入力部11を介して話者登録操作を行ったとき、話者登録用音声データを特徴パラメータ抽出部14に入力する(ステップS1)。このとき、話者登録用音声データは、マイクロフォン1から話者が入力するようにしても良いし、予め話者登録用音声データを録音しておき、その録音データを入力するようにしても良い。
【0026】
特徴パラメータ抽出部14は、入力された登録用音声データを話者識別に適した表現形式、例えばピッチやケプストラム等の特徴パラメータを抽出する(ステップS2)。次に、特徴パラメータの時系列データが音声モデル作成部15に入力され、特徴パラメータの標準パターンが音声モデルとして作成される(ステップS3)。そして、作成された音声モデルがメモリ制御部8を介してフラッシュメモリ13の音声モデル記録部13Bに記録される(ステップS4)。
【0027】
これら上述した話者登録操作を、録音を予定する各話者について行う。
【0028】
次に、録音データ、すなわち音声データ記録部13Aに記録されている音声データについて、話者を識別する処理について説明する。
【0029】
ここで、音声データ記録部13Aに記録されている音声データについて話者を識別することとしたのは、一般に話者識別処理の処理演算量は膨大であり、特に小型・安価の音声処理装置においては、録音時にマイクからの音声の話者識別処理を行うことは困難であるためである。
【0030】
このように音声データ記録部13Aに記録されている音声データについて話者を識別することにより、話者識別処理の実行のタイミングに自由度が生まれる。例えばこの処理は、録音が終了した直後に自動的に行うようにしても良いし、操作者が操作入力部11を介して話者識別操作を行ったときに行うようにしても良い。
【0031】
図3は、話者識別の処理を示すフローチャートである。
まず、音声データのフレーム番号を示す変数fの値を“0”にセットする(ステップS5)。続いてfの値を“1”加算する(ステップS6)。そして、変数fの値に対応するフレームの音声が有音であるか否かを判定する(ステップS7)。この判定方法は、例えば、本出願人による特開平9−281987号公報に開示するような方法でも良いし、前出の特開平9−218694号公報に開示されているように、予めヘッダに記録された有音・無音情報を用いるようにしても良い。
【0032】
上記ステップS7での判定がyesであれば、現フレームの音声データが記録されている音声データ記録部13Aのアドレス情報を話者コード記録部13Cに記録する(ステップS8)。次に、現フレームの音声を特徴パラメータ抽出部14に入力して所定の特徴パラメータを抽出する(ステップS9)。
【0033】
類似度計算部16は、音声モデル13Bに記録された各話者の音声モデルと、上記特徴パラメータとの類似度を計算する(ステップS10)。次に、類似度が話者識別用しきい値より高い話者を、現フレーム音声の話者と特定する(ステップS11)。
【0034】
このとき、複数の話者に対して、類似度が話者認識用しきい値より大となったとき、または類似度が話者認識用しきい値より大となることがどの話者に対してもないときは、そのときの話者を特定できず、とする。そして、その話者に対応する話者コードもしくは話者を特定できなかった旨を表すコードを話者コード記録部13Cに、ステップS8で記録した情報に対応するように記録する(ステップS12)。
【0035】
次に、ファイルが終わりかどうかを判定し(ステップS13)、noであればステップS6に戻って次のフレームについて処理を繰り返し、yesであれば処理を終了する。また、ステップS7の判定がnoであれば当該フレームについては何も処理を行わずにステップS6に戻って次のフレームについて処理を繰り返す。
【0036】
このように有音区間についてのみ話者識別処理を行うようにしたのは、無音区間には話者の個人性が存在しないため、類似度の計算には不要であり、有音区間のみを話者識別処理の対象としたほうが、精度よく識別ができるためである。
【0037】
上述した話者識別処理を経て、操作者は操作入力部11を介して話者選択操作と再生操作を行うことにより、選択された話者と、特定できなかった部分の音声だけを再生することを可能とする。例えば、インタビューや座談会等の録音データを再生する際、特定の話者だけを再生することができ、内容の把握を格段に速めることができる。
【0038】
現在の話者識別技術では、常に話者を正確に識別することは困難であり、誤識別することが多い。このような状況では、必ずいずれかの話者に識別するようにするのではなく、上述したように話者を特定できないときは特定しないでおくことにより、話者を指定しても再生されない部分ができてしまうことを防止することができる。
【0039】
【発明の効果】
以上説明したように本発明によれば、録音音声の検索をより正確に行える音声処理装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態であるデジタル音声処理装置の構成を示したブロック図である。
【図2】上記実施形態のデジタル音声処理装置における話者登録の流れを示すフローチャートである。
【図3】上記実施形態のデジタル音声処理装置における話者識別の処理を示すフローチャートである。
【符号の説明】
1…マイクロフォン
3…CODEC
3A…ローパスフィルタ
3B…A/D変換器
3C…ローパスフィルタ
3D…D/A変換器
7…符号化/復号化処理部
8…メモリ制御部
10…システム制御部
11…操作入力部
13…フラッシュメモリ
13A…音声データ記録部
13B…音声モデル記録部
13C…話者コード記録部
14…特徴パラメータ抽出部
15…音声モデル作成部
16…類似度計算部
17…話者特定部
Claims (5)
- 音声を入力する音声入力手段と、
各話者毎に、登録用音声の特徴パラメータを登録音声モデルとして記録する登録音声モデル記録手段と、
上記音声入力手段で入力した音声データを記録する音声記録手段と、
上記音声記録手段により記録された音声データから特徴パラメータを抽出し、該特徴パラメータと上記各話者の登録音声モデルとの類似度を求めて話者の識別処理を行う話者識別手段と、
上記話者識別手段により識別された話者に対応する話者コードと、かかる話者識別手段の識別処理に対応する音声データの位置情報とを記録する話者識別データ記録手段と、
を有する音声処理装置において、
上記話者識別データ記録手段は、上記話者識別手段によって音声データの話者識別ができなかった場合に、当該音声データの位置情報と話者が特定できなかったことを示す特別の話者コードとを記録することを特徴とする音声処理装置。 - 上記話者識別手段は、
上記音声記録手段により記録された音声データから特徴パラメータを抽出する特徴パラメータ抽出手段と、
上記特徴パラメータ抽出手段により抽出された特徴パラメータと上記各話者の登録音声モデルとの類似度を求める類似度演算手段と、
上記類似度演算手段により演算された上記類似度と話者認識用しきい値とを比較し、話者の識別を行う話者特定手段と、
を有することを特徴とする請求項1に記載の音声処理装置。 - 上記音声記録手段により記録された音声データのうち有音データを検出する有音検出手段を更に有し、
上記話者識別手段は、上記有音検出手段により検出された有音データに対して話者識別処理を行うことを特徴とする請求項1または2に記載の音声処理装置。 - 上記有音検出手段は、上記音声記録手段により記録された音声データのヘッダ部に記録された有音/無音情報に基づいて検出することを特徴とする請求項3に記載の音声処理装置。
- 話者コードを指定されることで、該話者コードに対応する音声データと上記特別の話者コードに対応する音声データを再生する再生手段を有することを特徴とする請求項1に記載の音声処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32723098A JP4146949B2 (ja) | 1998-11-17 | 1998-11-17 | 音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32723098A JP4146949B2 (ja) | 1998-11-17 | 1998-11-17 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000148189A JP2000148189A (ja) | 2000-05-26 |
JP4146949B2 true JP4146949B2 (ja) | 2008-09-10 |
Family
ID=18196782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP32723098A Expired - Fee Related JP4146949B2 (ja) | 1998-11-17 | 1998-11-17 | 音声処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4146949B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005677B2 (en) | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
JP2008102538A (ja) * | 2007-11-09 | 2008-05-01 | Sony Corp | 記憶再生装置及び記憶再生装置の制御方法 |
-
1998
- 1998-11-17 JP JP32723098A patent/JP4146949B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000148189A (ja) | 2000-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0077194B1 (en) | Speech recognition system | |
CN108257605B (zh) | 多通道录音方法、装置及电子设备 | |
JP2004534326A (ja) | 決済情報を提供する方法並びに口述の筆記のための方法及び装置 | |
JP4146949B2 (ja) | 音声処理装置 | |
JP2000206987A (ja) | 音声認識装置 | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP2006227954A (ja) | 情報処理装置及び情報処理方法等 | |
JP2002229592A (ja) | 音声認識装置 | |
JP2003099094A (ja) | 音声処理装置 | |
JP3588929B2 (ja) | 音声認識装置 | |
JP2008136530A (ja) | 録音データ自動出力システム | |
CN114242120B (zh) | 一种基于dtmf技术的音频剪辑方法及音频标记方法 | |
JPH10133678A (ja) | 音声再生装置 | |
JP2000206988A (ja) | 音声処理装置 | |
JP3346200B2 (ja) | 音声認識装置 | |
JPH11212590A (ja) | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 | |
JP2000075893A (ja) | 音声認識装置 | |
JP4702043B2 (ja) | 電子透かしエンコード装置、電子透かしデコード装置、電子透かしエンコード方法、電子透かしデコード方法及びプログラム | |
KR20040082756A (ko) | 비음성 제거에 의한 음성 추출 방법 | |
JPH0331275B2 (ja) | ||
JP2007079607A (ja) | 時系列情報制御システム | |
JP2000200096A (ja) | ディジタル情報再生装置 | |
JP2000155600A (ja) | 音声認識システムおよび入力音声レベル警告方法 | |
JP2004117724A (ja) | 音声認識装置 | |
JP4702042B2 (ja) | 電子透かしエンコード装置、電子透かしデコード装置、電子透かしエンコード方法、電子透かしデコード方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051011 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080617 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080623 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110627 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120627 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130627 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |