JP4877114B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP4877114B2 JP4877114B2 JP2007184873A JP2007184873A JP4877114B2 JP 4877114 B2 JP4877114 B2 JP 4877114B2 JP 2007184873 A JP2007184873 A JP 2007184873A JP 2007184873 A JP2007184873 A JP 2007184873A JP 4877114 B2 JP4877114 B2 JP 4877114B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- sections
- audio signal
- unit
- sounding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
LN[h]=(1−α)・LN[h]_crt+α・LN[h]_new
第1区分部41は、発音区間PAの始点をフレームFの番号で指定する変数P_STARTをクリアするとともに変数CNT_START1と変数CNT_START2とをゼロに初期化する(ステップSB1)。次いで、第1区分部41は、未選択で最先(最も古い)のフレームFについてSN比Rを算定する(ステップSB2)。SN比Rは、当該フレームFの帯域別レベルLF[1]〜LF[m]と現段階の雑音レベルLN[1]〜LN[m]とに基づいて以下の式(1)で算定される。
第1区分部41は、発音区間PAの終点をフレームFの番号で指定する変数P_STOPをクリアするとともに変数CNT_STOPをゼロに初期化する(ステップSC1)。次いで、第1区分部41は、ステップSA3で始点として検出したフレームFに後続するフレームFのうち未だステップSA4の対象となっていない最先のフレームFのSN比Rを算定する(ステップSC2)。そして、第1区分部41は、ステップSC2で算定したSN比Rが所定の閾値SNR_TH2を下回るか否かを判定する(ステップSC3)。
λ={pi,μi,Σi} (i=1〜M) ……(2)
式(2)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(2)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
次に、本発明の第2実施形態について説明する。第1実施形態においては各区間bの類否指標値として平均尤度Lを例示した。本形態においては、選択区間bにおける音声信号Sの特徴ベクトルxの時系列から生成されたコードブック(符号帳)と対比区間bの各特徴ベクトルxとを対比した結果(VQ(Vector Quantization)歪)を類否指標値として採用する。なお、以下の各形態において機能や作用が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
本発明の第3実施形態について説明する。本形態においては、選択区間bの音声信号Sの特徴量と対比区間bの音声信号Sの特徴量との相互相関値を類否指標値として採用する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
非発音区間PB内の音声信号Sに基づいて区間B(発音区間PA)内の音声信号Sの雑音の成分を抑圧する態様が好適に採用される。例えば、制御装置10は、非発音区間PB内の音声信号Sの周波数スペクトル(例えばパワースペクトル)を区間B内の音声信号Sの周波数スペクトルから減算することで区間B内の雑音を抑圧する雑音抑圧手段として機能する。さらに詳述すると、音声信号Sの先頭の区間(例えば区間P0や最初の非発音区間PB1)における周波数スペクトルを各区間Bの音声信号Sの周波数スペクトルから共通に減算する構成や、各非発音区間PBの周波数スペクトルを当該非発音区間PBの直後にある各区間Bの周波数スペクトルから減算する構成が採用される。なお、第1区分部41が音声信号Sを発音区間PAと非発音区間PBとに区分した後であれば、音声信号Sから雑音を抑圧する処理の時期は任意である。例えば、第2区分部42が各区間bを画定する前後や区間連結部125が各区間Bを画定する前後に雑音の抑圧のための処理が実行される。本変形例によれば、音声信号Sにおける雑音の影響が低減されるから、音声分類部14による各区間Bの分類の精度や音声認識部16による音声認識の精度をさらに高めることができる。
音声区分部121が音声信号Sを区分する方法は以上の例示に限定されない。例えば、音声区分部121が第1区分部41および第2区分部42の一方のみを含む構成も採用される。また、第1区分部41による音声信号Sの区分は、第2区分部42による処理後に実行されてもよい。さらに、音量が閾値を上回る区間と下回る区間とに音声信号Sを区分する構成や、音声信号Sの特性とは無関係に設定された固定または可変の時間長の区間ごとに音声信号Sを区分する構成も採用される。もっとも、以上の各形態のように第1区分部41を採用した構成によれば、音声信号Sを発音区間PAと非発音区間PBとに高精度に区分できるという利点があり、第2区分部42を採用した構成によれば、複数の発声者による発声が時間軸上で連続または重複する場合であっても音声信号Sを発声者ごとに区分できるという利点がある。
第2区分部42が音声信号Sの包絡線Eを特定する方法は適宜に変更される。例えば、図6のステップSD1において、第2区分部42は、ハイパスフィルタ処理および全波整流後の音声信号Sにカットオフ周波数を20Hz程度とするローパスフィルタ処理を実行したうえで、例えば500ms程度の期間ごとのサンプル値の平均値(移動平均)を包絡線Eのレベルとして算定してもよい。また、音声信号Sを所定長ごとに区分した各区間内のサンプル値の平均値を当該区間の代表値とし、各代表値を時系列的に直線で連結した折れ線を包絡線Eとして特定してもよい。
特徴抽出部123が抽出する音響的な特徴量は以上の例示に限定されない。例えば、第1実施形態や第2実施形態においては、各区間bにおける音声信号Sの強度の平均値や最大値や基本周波数が特徴量として抽出される。第3実施形態においては、区間b内の各フレームから抽出されたMFCCの当該区間bにおける平均を平均パワースペクトルの代わりに抽出してもよい。また、特徴抽出部123が音声信号Sの区分のために抽出した特徴量を、音声分類部14による各区間Bの分類や音声認識部16による音声認識に利用してもよい。さらに、特徴抽出部123が各非発音区間PBについても各区間Bと同様に特徴量を抽出する構成によれば、音声分類部14が各非発音区間PBを特徴量に基づいて分類することも可能となる。
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば分類処理部による分類の結果を出力することも可能である。例えば、区分処理部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、区分処理部12が音声信号Sを複数の区間Bに区分した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。以上のように、音声分類部14や音声認識部16は音声処理装置100にとって必須の要素ではない。
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
音声信号Sが表す音響の種類は本発明において任意である。例えば、楽器の演奏音を収録した音声信号Sを音声処理装置100による処理の対象とすれば、複数種の楽器を順次に演奏したときの音声信号Sを時間軸上で楽器の種類ごとに区分することが可能となる。
Claims (5)
- 音声信号の波形の包絡線における谷部を境界として前記音声信号を時間軸上で複数の区間に区分する音声区分手段と、
前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出手段と、
前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段と
を具備する音声処理装置。 - 音声信号を発音区間と非発音区間とに区分する第1区分手段と、
前記音声信号の波形の包絡線における複数の谷部のうち前記発音区間内の谷部を境界として発音区間を複数の区間に区分する第2区分手段と、
前記発音区間を区分した前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出手段と、
前記発音区間を区分した前記複数の区間のうち前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結手段と
を具備する音声処理装置。 - 前記区間連結手段は、前記発音区間を区分した前記複数の区間のうち前記音声信号の特徴量が類似する2個の相前後する区間の間に非発音区間が存在する場合に、当該2個の区間と両者間の非発音区間とを連結する
請求項2の音声処理装置。 - コンピュータに、
音声信号の波形の包絡線における谷部を境界として前記音声信号を時間軸上で複数の区間に区分する音声区分処理と、
前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出処理と、
前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理と
を実行させるプログラム。 - コンピュータに、
音声信号を発音区間と非発音区間とに区分する第1区分処理と、
前記音声信号の波形の包絡線における複数の谷部のうち前記発音区間内の谷部を境界として発音区間を複数の区間に区分する第2区分処理と、
前記発音区間を区分した前記複数の区間の各々について前記音声信号の特徴量を抽出する特徴抽出処理と、
前記発音区間を区分した前記複数の区間のうち前記音声信号の特徴量が類似する複数の相前後する区間を連結する区間連結処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184873A JP4877114B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184873A JP4877114B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020459A JP2009020459A (ja) | 2009-01-29 |
JP4877114B2 true JP4877114B2 (ja) | 2012-02-15 |
Family
ID=40360111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007184873A Expired - Fee Related JP4877114B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877114B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4967928B2 (ja) * | 2007-08-27 | 2012-07-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5958453B2 (ja) * | 2013-12-03 | 2016-08-02 | 日本電気株式会社 | 無線局識別装置、無線局識別方法および無線局識別プログラム |
US10506192B2 (en) * | 2016-08-16 | 2019-12-10 | Google Llc | Gesture-activated remote control |
CN118043886A (zh) * | 2021-09-27 | 2024-05-14 | 松下知识产权经营株式会社 | 认证装置和认证方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61275896A (ja) * | 1985-05-31 | 1986-12-05 | 三菱電機株式会社 | パタン区分装置 |
JPH0646360B2 (ja) * | 1985-10-18 | 1994-06-15 | 松下電器産業株式会社 | 音声認識方法 |
JPH01158499A (ja) * | 1987-12-16 | 1989-06-21 | Hitachi Ltd | 定常雑音除去方式 |
JPH04130499A (ja) * | 1990-09-21 | 1992-05-01 | Oki Electric Ind Co Ltd | 音声のセグメンテーション方法 |
JPH06110494A (ja) * | 1992-09-08 | 1994-04-22 | Osaka Gas Co Ltd | 発音学習装置 |
JP2000285243A (ja) * | 1999-01-29 | 2000-10-13 | Sony Corp | 信号処理方法及び映像音声処理装置 |
JP2000285242A (ja) * | 1999-01-29 | 2000-10-13 | Sony Corp | 信号処理方法及び映像音声処理装置 |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
JP4433594B2 (ja) * | 2000-10-05 | 2010-03-17 | ソニー株式会社 | 楽曲同定装置及び方法 |
-
2007
- 2007-07-13 JP JP2007184873A patent/JP4877114B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009020459A (ja) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP5870476B2 (ja) | 雑音推定装置、雑音推定方法および雑音推定プログラム | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
CN102779526A (zh) | 语音信号中基音提取及修正方法 | |
Archana et al. | Gender identification and performance analysis of speech signals | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
JP5647455B2 (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JP4973352B2 (ja) | 音声処理装置およびプログラム | |
Ponraj | Speech Recognition with Gender Identification and Speaker Diarization | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP2017520016A (ja) | パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法 | |
Chen et al. | An intelligent nocturnal animal vocalization recognition system | |
JP5109050B2 (ja) | 音声処理装置およびプログラム | |
JP2005352151A (ja) | 人間の感情状態に応じた音楽出力装置及び音楽出力方法 | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
JP2011081324A (ja) | ピッチ・クラスター・マップを用いた音声認識方法 | |
CN110033786B (zh) | 性别判断方法、装置、设备及可读存储介质 | |
Morales-Cordovilla et al. | On the use of asymmetric windows for robust speech recognition | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4877114 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |