JP5109050B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5109050B2
JP5109050B2 JP2007184871A JP2007184871A JP5109050B2 JP 5109050 B2 JP5109050 B2 JP 5109050B2 JP 2007184871 A JP2007184871 A JP 2007184871A JP 2007184871 A JP2007184871 A JP 2007184871A JP 5109050 B2 JP5109050 B2 JP 5109050B2
Authority
JP
Japan
Prior art keywords
section
envelope
valley
value
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007184871A
Other languages
English (en)
Other versions
JP2009020457A (ja
Inventor
三樹夫 東山
道子 風間
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Yamaha Corp
Original Assignee
Waseda University
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Yamaha Corp filed Critical Waseda University
Priority to JP2007184871A priority Critical patent/JP5109050B2/ja
Publication of JP2009020457A publication Critical patent/JP2009020457A/ja
Application granted granted Critical
Publication of JP5109050B2 publication Critical patent/JP5109050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。
音声信号を時間軸上で発音区間と非発音区間(音声を収録する環境内の雑音のみが存在する区間)とに区分する技術が従来から提案されている。例えば特許文献1には、音声信号のS/N比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間とに区分する技術が開示されている。
特開昭59−99497号公報
ところで、複数の発声者が随時に発声する環境(例えば会議)で収録された音声信号を発声者ごとに区分して分類できれば、例えば会議の議事録の作成などに利用できて便利である。しかし、特許文献1の技術においては音声信号のS/N比と閾値とが比較されるに過ぎないため、例えばひとりの発声者による発言の最後の部分と他の発声者による発言の最初の部分とが時間軸上において重複すると、実際に使用される閾値によっては、別個の発声者による発声であるにも拘わらず単一の区間の音声と判断される場合がある。以上の事情に鑑みて、本発明は、複数の発声者の音声を含む音声信号を発声者ごとに別個の区間に区分するという課題の解決を目的としている。
以上の課題を解決するために、本発明に係る音声処理装置は、音声信号の波形の包絡線を特定する包絡線特定手段と、包絡線における複数の谷部を検出する谷部検出手段と、各谷部を境界として音声信号を複数の区間に区分する区分手段とを具備し、谷部検出手段は、包絡線のレベルが連続して減少する第1区間(例えば図4の期間T1)と、第1区間に後続する区間であって包絡線のレベルが連続して増加する第2区間(例えば図4の期間T2)との境界の時点を、第1区間の時間長が第1所定値を上回るとともに第2区間の時間長が第2所定値を上回る場合に谷部として検出する一方、第1区間の時間長が第1所定値を下回る場合または第2区間の時間長が第2所定値を下回る場合には谷部として検出しない。本発明によれば、音声信号の包絡線の谷部を境界として音声信号が複数の区分に区分されるから、例えば複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間に区分することが可能である。また、音声信号を区分した各区間が過度に短い時間長となることが抑制される。
本発明の好適な態様に係る音声処理装置は、包絡線の複数の山部についてピーク値を特定するピーク値特定手段と、複数の区間のうちピーク値が閾値を下回る山部を含む区間を非発音区間と判定する区間選別手段とをさらに具備する。本態様によれば、区分手段が区分した複数の区間を非発音区間と発音区間とに選別することが可能である。なお、閾値は、例えば、複数のピーク値のなかの最大値と1未満の係数との乗算値や複数のピーク値の平均値、あるいは所定の固定値である。
本発明の好適な態様において、区間選別手段は、ピーク値特定手段が特定した複数のピーク値のなかの最大値と1未満の正数との乗算値を閾値として、複数の区間のうちピーク値が閾値を下回る山部を含む区間を非発音区間と判定する。また、他の態様において、包絡線特定手段は、カットオフ周波数を1Hz〜2Hzに設定したローパスフィルタ処理で音声信号を平滑化し、平滑化後の音声信号について包絡線を特定する。
包絡線の谷部とは、基本的には、包絡線のレベルが減少する区間と包絡線のレベルが増加する区間との境界の時点を意味する。ただし、谷部において包絡線の勾配の符号が逆転する必要は必ずしもない。例えば、本発明の具体的な態様において、谷部検出手段は、包絡線のレベルが減少する第1区間(例えば図6の期間S1a)と包絡線のレベルが第1区間よりも緩やかに減少する区間(例えば図6の期間S1b)との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第1時点(例えば図6の時点t1)、および、包絡線のレベルが増加する第2区間(例えば図7の期間S2a)と包絡線のレベルが第2区間よりも急峻に増加する区間(例えば図7の期間S2b)との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第2時点(例えば図7の時点t2)の少なくとも一方と、包絡線のレベルが減少する区間と包絡線のレベルが増加する区間との境界とを谷部として検出する。本態様によれば、包絡線のレベルが減少する区間と増加する区間との境界のみを谷部として検出する構成と比較して、音声信号をさらに仔細に区分することが可能となる。なお、本態様の具体例は第3実施形態として後述される。
本発明の好適な態様に係る音声処理装置は、区分手段が区分した各区間の音声信号を、各区間内の特徴量に基づいて発声者ごとに分類する音声分類手段をさらに具備する。本発明によれば、各発声者による発声が精緻に別個の区間に区分されるから、音声分類手段による各区間の分類の精度を高めることができるという利点がある。
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号の波形の包絡線を特定する包絡線特定処理(例えば図3のステップS2からステップS5)と、包絡線における複数の谷部を検出する谷部検出処理(例えば図3のステップS7)と、各谷部を境界として音声信号を複数の区間に区分する区分処理(例えば図3のステップS8)とをコンピュータに実行させるプログラムであって、谷部検出処理では、包絡線のレベルが連続して減少する第1区間と、第1区間に後続する区間であって包絡線のレベルが連続して増加する第2区間との境界の時点を、第1区間の時間長が第1所定値を上回るとともに第2区間の時間長が第2所定値を上回る場合に谷部として検出する一方、第1区間の時間長が第1所定値を下回る場合または第2区間の時間長が第2所定値を下回る場合には谷部として検出しない。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号の波形の包絡線を特定する包絡線特定手順と、包絡線における複数の谷部を検出する谷部検出手順と、各谷部を境界として音声信号を複数の区間に区分する区分手順とを含み、谷部検出手順では、包絡線のレベルが連続して減少する第1区間と、第1区間に後続する区間であって包絡線のレベルが連続して増加する第2区間との境界の時点を、第1区間の時間長が第1所定値を上回るとともに第2区間の時間長が第2所定値を上回る場合に谷部として検出する一方、第1区間の時間長が第1所定値を下回る場合または第2区間の時間長が第2所定値を下回る場合には谷部として検出しない。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、各種の画像を表示する表示機器である。
記憶装置20は、収音機器を利用して採取された音声信号Sを記憶する。図2には音声信号Sの時間軸上の波形が例示されている。音声信号Sは、音声の波形を表すモノラルのアナログ信号を時間軸上の各標本点にてサンプリングしたデジタル信号である。本形態の音声信号Sが表す音声は、複数の参加者が随時に発言する会議にて収録された音声である。
図1の制御装置10は、記憶装置20に格納されたプログラムを実行することで音声信号Sから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者ごとに時系列で配列した会議の記録である。図1に示すように、制御装置10は、音声区分部12と音声分類部14と音声認識部16として機能する。なお、図1の制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
音声区分部12は、音声信号Sを時間軸に沿って複数の区間Bに区分する。ひとつの区間Bは、ひとりの発声者が連続して発言した可能性が高いと推定される期間である。人間による一連の発話(特に会議における発言)には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の音声区分部12は、図2に示すように、音声信号Sの波形の包絡線(エンベロープ)Eの谷部Dを境界として音声信号Sを複数の区間Bに区分する。したがって、複数の発声者が間隔をあけずに順次に発言した場合であっても、各発声者による発言が別個の区間Bに属するように音声信号Sが区分される
図3は、音声区分部12の具体的な動作を示すフローチャートである。同図の処理は、議事録の作成が利用者から指示されることを契機として実行される。図3に示すように、音声区分部12は、記憶装置20から音声信号Sを取得する(ステップS1)。次いで、音声区分部12は、音声信号Sの波形の包絡線Eを特定する(ステップS2からステップS5)。すなわち、制御装置10は包絡線特定手段として機能する。
会議室内で収録した音声信号Sには、空調設備の動作音など比較的に低周波な雑音が含まれる。このような雑音を除去するために、音声区分部12は、ステップS2において、ステップS1にて取得した音声信号Sにハイパスフィルタ処理を実行する。ステップS2における好適なカットオフ周波数は20Hz〜50Hzである。もっとも、カットオフ周波数は、例えば利用者からの指示に応じて可変に制御され得る。
ステップS3において、音声区分部12は、音声信号Sの各標本点におけるサンプル値の絶対値を演算する。すなわち、音声信号Sは全波整流される。次いで、音声区分部12は、音声信号Sに対してローパスフィルタ処理を実行することで音声信号Sを平滑化する(ステップS4)。ステップS4におけるカットオフ周波数は、例えば1Hz〜2Hz程度に設定される。
ステップS5において、音声区分部12は、時間軸上の各標本点について包絡線Eのレベル(強度)を算定する。ひとつの標本点における包絡線Eのレベルは、例えば、ステップS4の処理後の音声信号Sにおける当該標本点でのサンプル値の2乗値である。以上の処理によって図2の包絡線Eが特定される。なお、包絡線Eのレベルは、ステップS4の処理後の音声信号Sのサンプル値自体やサンプル値(またはサンプル値の2乗値)の平方根であってもよい。
音声区分部12は、包絡線Eに現れる複数の山部Pの各々についてピーク値Lpを特定する(ステップS6)。図2に示すように、包絡線Eの各山部Pは、包絡線Eのレベルが増加から減少に変化する時点(包絡線Eの勾配が正数から負数に変化する時点)である。ステップS6において、音声区分部12は、山部Pの頂上部における包絡線Eのレベルをピーク値Lp(極大値)として特定する。
次いで、音声区分部12は、包絡線Eに現れる複数の谷部Dを検出する(ステップS7)。包絡線Eの各谷部Dは、時間軸上で相前後する各山部Pの間隔内にあって包絡線Eのレベルが減少から増加に変化する時点(包絡線Eの勾配が負数から正数に変化する時点)である。
音声区分部12は、図2に示すように、包絡線Eの複数の谷部Dの各々を境界として音声信号Sを複数の区間Bに区分する(ステップS8)。さらに詳述すると、音声区分部12は、各区間Bの始点に相当する谷部Dの時刻と、当該区間Bの終点に相当する谷部Dの時刻と、音声信号Sのうち当該区間B内のサンプル値の系列とを対応させて記憶装置20に格納する。
音声信号Sは会議室内の環境音などの雑音を含む。したがって、音声区分部12が区分した複数の区間Bのなかには、実際に発声者が発声した区間(以下「発音区間」という)だけでなく、発声者が発声していない雑音の区間(以下「非発音区間」という)もある。ステップS9において、音声区分部12は、複数の区間Bのうち包絡線Eのレベルが相対的に低い区間Bを非発音区間として特定する。
さらに詳述すると、音声区分部12は、複数の区間BのうちステップS6にて特定されたピーク値Lpが閾値THを下回る山部Pを含む区間Bを非発音区間として選別する。閾値THは、例えば、複数のピーク値Lpのなかの最大値Lp_maxと所定の係数α(0<α<1)との乗算値である。以上のように閾値THをピーク値Lpに応じて設定する構成によれば、閾値THを包絡線Eのレベルとは無関係の固定値とした場合と比較して、音声信号Sの音量に拘わらず非発音区間を高精度に特定することが可能である。なお、ステップS8の処理は、複数の区間Bのうちピーク値Lpが閾値THを上回る山部Pを含む区間Bを発音区間として選別する処理と等価である。
図1の音声分類部14は、音声区分部12が区分した各区間Bの音声信号Sを発声者(会議の参加者)ごとに分類する。音声区分部12が非発音区間と判定した区間Bについては分類の対象から除外される。各区間Bの音声信号Sの分類には、公知のクラスタリング技術が任意に採用される。
例えば、音声分類部14は、各区間Bの音声信号Sに対してFFT(Fast Fourier Transform)処理を含む周波数分析を実行することで当該区間B内の音響的な特徴量(例えばメルケプストラム係数のベクトル列)を抽出し、特徴量の類似する各区間Bが共通のクラスタ(集合)に所属するように複数の区間Bを分類する。したがって、音声信号Sのうち同じ発声者が発声した区間Bは共通のクラスタに分類される。音声分類部14は、分類の結果を記憶装置20に格納する。すなわち、音声分類部14は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Bの始点および終点の時刻と、当該各区間Bの音声信号Sとを対応させて記憶装置20に格納する。また、図3のステップS9にて非発音区間に選別された区間Bの始点および終点の時刻と当該区間B内の音声信号Sとについても記憶装置20に記憶される。なお、会議の参加者の人数が既知であって利用者が事前に指定する構成においては、音声信号Sの各区間Bを、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。
図1の音声認識部16は、各クラスタに分類された音声信号Sの各区間Bに基づいて発声者ごとの発言の内容を文字として特定する。各区間Bの音声信号Sから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部16は、第1に、ひとつのクラスタに分類された各区間Bの音声信号Sの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各区間Bの音声信号Sから抽出された特徴量とを対比することで、発声者が発言した文字を識別する。
制御装置10は、音声認識部16による処理の結果を出力装置30に出力する。出力装置30は、発言の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部16が特定した文字とが時系列に配列された議事録の画像を表示する。
以上に説明したように本形態においては、音声信号Sの包絡線Eの谷部Dを境界として音声信号Sが複数の区間Bに区分されるから、ひとりの発声者による発言の最後の部分と別の発声者による発言の最初の部分とが重複する場合や複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Bに区分することが可能である。
なお、複数の発声者による発声がひとつの区間B内に混在すると、音声分類部14による分類の精度が低下する(すなわち、音声信号Sの各区間Bを発声者ごとに適切に分類できない)という問題がある。本形態によれば、各発声者による発声が高い精度で別個の区間Bに区分されるから、音声信号Sの各区間を発声者ごとに正確に分類できるという利点がある。したがって、会議の各参加者による発言の内容を忠実に反映した議事録を作成することが可能である。すなわち、各発声者による発声を高い精度で別個の区間Bに区分できるという本形態の効果は、各区間Bの音声信号Sを発声者ごとに分類する場合(さらには分類の結果から議事録を作成する場合)に格別に有効である。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と共通する要素については、図1と同じ符号を付して各々の詳細な説明を適宜に省略する。
本形態の音声区分部12は、図3のステップS7において、図4に示すように、所定値C1を上回る時間長(所定値を上回る個数の標本点)にわたって包絡線Eのレベルが連続して減少する期間T1と、所定値C2を上回る時間長(所定値を上回る個数の標本点)にわたって包絡線Eのレベルが連続して増加する期間T2との境界の時点t0を谷部Dとして検出する。これに対し、図5に示すように、包絡線Eのレベルが減少から増加に変化する時点t0であっても、時点t0の直前に包絡線Eのレベルが連続して減少する期間T1の時間長(標本点の個数)が所定値C1を下回る場合や、時点t0の直後に包絡線Eのレベルが連続して増加する期間T2の時間長(標本点の個数)が所定値C2を下回る場合、音声区分部12は時点t0を谷部Dとして検出しない。以上の構成によっても第1実施形態と同様の効果が奏される。
第1実施形態においては、包絡線Eのレベルが減少から増加に変化する総ての時点を谷部Dとして検出した。しかし、ステップS4のローパスフィルタ処理にて音声信号Sの高域成分が充分に除去されない場合には包絡線Eの増減が短時間で頻繁に反復されるから、第1実施形態の構成のもとでは音声信号Sが過度に短い区間Bに区分される可能性がある。そして、区間Bが短い場合には発声音の本来の特性を忠実に反映した特徴量を音声信号Sから抽出することが困難となるから、音声分類部14による分類の精度や音声認識部16による音声認識の精度が低下する場合がある。
これに対して本形態においては、包絡線Eのレベルが減少から増加に変化する時点であっても、当該時点の前後にて包絡線Eのレベルの減少または増加の連続する回数が所定値(C1,C2)を下回る場合には当該時点は谷部Dと認定されないから、各区間Bについて適度な時間長が確保される。したがって、音声分類部14による分類や音声認識部16による音声認識の精度を第1実施形態と比較して高めることが可能である。
なお、以上においては谷部Dの検出に着目したが、ステップS6における山部Pの検出にも同様の方法が採用される。例えば、ステップS6において、音声区分部12は、所定値を上回る時間長にわたって包絡線Eのレベルが連続して増加する期間と、その直後の期間であって所定値を上回る時間長にわたって包絡線Eのレベルが連続して減少する期間との境界の時点を山部Pとして検出する。すなわち、包絡線Eのレベルが増加から減少に変化する時点であっても、当該時点の前後において包絡線Eのレベルの増加または減少の連続する回数が所定値を下回る場合には、当該時点は山部Pと判定されない。
<C:第3実施形態>
図6および図7は、包絡線Eの部分的な拡大図である。図3のステップS7において、本形態の音声区分部12は、包絡線Eのレベルが減少から増加に変化する時点(第1実施形態における谷部D)に加え、包絡線Eの勾配が所定の閾値を上回る変化量で変化する図6の時点t1や図7の時点t2も谷部Dとして検出する。
図6の時点t1は、包絡線Eのレベルが勾配Aa1で減少する期間S1aと、勾配A1aと比較して緩やかな(すなわち単位時間内の包絡線Eのレベルの変化量が小さい)勾配Aa2で包絡線Eのレベルが減少する期間S1bとの境界の時点であって、かつ、勾配Aa1から勾配Aa2への変化量が所定の閾値を上回る時点である。また、図7の時点t2は、包絡線Eのレベルが勾配Ab1で増加する期間S2aと、勾配Ab1と比較して急峻な(すなわち単位時間内の包絡線Eのレベルの変化量が大きい)勾配Ab2で包絡線Eのレベルが増加する期間S2bとの境界の時点であって、かつ、勾配Ab1から勾配Ab2への変化量が所定の閾値を上回る時点である。
図6の期間S1bや図7の期間S2aのように包絡線Eのレベルが相対的に低い期間は非発音区間である可能性が高い。本形態においては、区間Bの境界となる谷部Dとして時点t1や時点t2も検出されるから、包絡線Eのレベルが減少から増加に変化する時点のみを谷部Dとして検出する(すなわち図6の時点t1や図7の時点t2を谷部Dとして検出しない)第1実施形態と比較して、発音区間(S1a,S2b)と非発音区間(S1b,S2a)とを仔細に選別することが可能となる。したがって、音声信号Sから非発音区間を精緻に除外して、音声分類部14による分類の精度や音声認識部16による音声認識の精度を高めることが可能である。
<D:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
音声区分部12が音声信号Sの包絡線Eを特定する方法は適宜に変更される。例えば、図3のステップS4の処理を2段階に分割してもよい。すなわち、音声区分部12は、第1に、カットオフ周波数を20Hz程度とするローパスフィルタ処理を音声信号Sに対して実行し、第2に、例えば500ms程度の期間ごとのサンプル値の平均値(移動平均)を包絡線Eのレベルとして算定する。以上の構成においては、移動平均の算定の周期が包絡線Eの各標本点の間隔に相当する。
図3のステップS3においては、音声信号Sのうち各標本点におけるサンプル値が負数である部分を除去してもよい(すなわち音声信号Sを半波整流してもよい)。また、図3のステップS2およびステップS3の代わりに音声信号SのSN(Signal-to-Noise)比の算定を実行し、SN比の時系列に対してステップS4のローパスフィルタ処理を実行する構成も採用される。音声信号SのSN比は、例えば、音声信号Sのうち所定の区間での平均レベルと事前に検出された雑音のレベルとの相対比として算定される。
また、音声信号Sを所定長ごとに区分した各区間内のサンプル値の平均値を当該区間の代表値とし、各代表値を時系列的に直線で連結した折れ線を包絡線Eとして特定してもよい。
(2)変形例2
以上の各形態においては、ピーク値Lpの最大値Lp_maxと所定の係数αとの乗算値を閾値THとして非発音区間を選別する構成を例示したが、閾値THを設定する方法は任意である。例えば、所定の期間にわたるピーク値Lpの平均値(または平均値と所定の係数との乗算値)を閾値THとした構成や、利用者からの指示に応じて閾値THを可変に制御する構成、あるいは、閾値THを固定値とした構成も採用される。
(3)変形例3
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば音声分類部14による分類の結果を有効に利用することも可能である。例えば、音声区分部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、音声区分部12が音声信号Sを複数の区間Bに区分した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。以上のように、音声認識部16や音声分類部14は音声処理装置100にとって必須の要素ではない。
(4)変形例4
以上の各形態においては、音声信号Sを区間Bごとに分離する構成を例示したが、音声信号Sの分離までは本発明において必須ではない。例えば、音声区分部12が、各区間Bの始点または終点の時刻を音声信号Sに対応させて記憶装置20に格納する構成も採用される(音声信号Sについては変更しない)。すなわち、「音声信号Sを複数の区間Bに区分する」とは、音声信号Sについて各区間Bが認識され得るように音声信号Sに関する処理を実行することを意味し、音声信号S自体の変更(分離)までは必要ではない。
(5)変形例5
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 音声処理装置による処理の内容を示す概念図である。 音声区分部の動作の内容を示すフローチャートである。 本発明の第2実施形態における音声区分部の動作を説明するための概念図である。 音声区分部の動作を説明するための概念図である。 本発明の第3実施形態における音声区分部の動作を説明するための概念図である。 音声区分部の動作を説明するための概念図である。
符号の説明
100……音声処理装置、10……制御装置、12……音声区分部、14……音声分類部、16……音声認識部、20……記憶装置、30……出力装置、S……音声信号、E……包絡線、B……区間。

Claims (6)

  1. 音声信号の波形の包絡線を特定する包絡線特定手段と、
    前記包絡線における複数の谷部を検出する谷部検出手段と、
    前記各谷部を境界として前記音声信号を複数の区間に区分する区分手段と
    を具備し、
    前記谷部検出手段は、前記包絡線のレベルが連続して減少する第1区間と、前記第1区間に後続する区間であって前記包絡線のレベルが連続して増加する第2区間との境界の時点を、前記第1区間の時間長が第1所定値を上回るとともに前記第2区間の時間長が第2所定値を上回る場合に前記谷部として検出する一方、前記第1区間の時間長が前記第1所定値を下回る場合または前記第2区間の時間長が前記第2所定値を下回る場合には前記谷部として検出しない
    音声処理装置。
  2. 前記包絡線の複数の山部についてピーク値を特定するピーク値特定手段と、
    前記複数の区間のうち前記ピーク値が閾値を下回る山部を含む区間を非発音区間と判定する区間選別手段と
    を具備する請求項1の音声処理装置。
  3. 前記区間選別手段は、前記ピーク値特定手段が特定した複数のピーク値のなかの最大値と1未満の正数との乗算値を閾値として、前記複数の区間のうち前記ピーク値が前記閾値を下回る山部を含む区間を非発音区間と判定する
    請求項2の音声処理装置。
  4. 前記包絡線特定手段は、カットオフ周波数を1Hz〜2Hzに設定したローパスフィルタ処理で前記音声信号を平滑化し、平滑化後の音声信号について包絡線を特定する
    請求項1から請求項3の何れかの音声処理装置。
  5. 前記区分手段が区分した各区間の音声信号を、前記各区間内の特徴量に基づいて発声者ごとに分類する音声分類手段
    を具備する請求項1から請求項4の何れかの音声処理装置。
  6. コンピュータに、
    音声信号の波形の包絡線を特定する包絡線特定処理と、
    前記包絡線における複数の谷部を検出する谷部検出処理と、
    前記各谷部を境界として前記音声信号を複数の区間に区分する区分処理と
    を実行させるプログラムであって、
    前記谷部検出処理では、前記包絡線のレベルが連続して減少する第1区間と、前記第1区間に後続する区間であって前記包絡線のレベルが連続して増加する第2区間との境界の時点を、前記第1区間の時間長が第1所定値を上回るとともに前記第2区間の時間長が第2所定値を上回る場合に前記谷部として検出する一方、前記第1区間の時間長が前記第1所定値を下回る場合または前記第2区間の時間長が前記第2所定値を下回る場合には前記谷部として検出しない
    プログラム。
JP2007184871A 2007-07-13 2007-07-13 音声処理装置およびプログラム Expired - Fee Related JP5109050B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184871A JP5109050B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184871A JP5109050B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020457A JP2009020457A (ja) 2009-01-29
JP5109050B2 true JP5109050B2 (ja) 2012-12-26

Family

ID=40360109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184871A Expired - Fee Related JP5109050B2 (ja) 2007-07-13 2007-07-13 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5109050B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5272141B2 (ja) * 2009-05-26 2013-08-28 学校法人早稲田大学 音声処理装置およびプログラム
JP5373552B2 (ja) * 2009-10-28 2013-12-18 株式会社河合楽器製作所 盛り上がり検出装置及びプログラム
CN111883165B (zh) * 2020-07-02 2024-06-18 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62141595A (ja) * 1985-12-16 1987-06-25 日本電気株式会社 音声検出方式
JPH07225592A (ja) * 1994-02-14 1995-08-22 Matsushita Electric Ind Co Ltd 有音区間検出装置
JP3789503B2 (ja) * 1994-12-22 2006-06-28 ソニー株式会社 音声処理装置
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
JP4543298B2 (ja) * 2001-07-03 2010-09-15 ソニー株式会社 再生装置および方法、記録媒体、並びにプログラム
JP2003280682A (ja) * 2002-03-20 2003-10-02 Toyota Motor Corp 音声認識装置及び方法
JP2003307997A (ja) * 2002-04-15 2003-10-31 Sony Corp 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
JP2005221565A (ja) * 2004-02-03 2005-08-18 Nec Saitama Ltd 音声データファイル格納方法および録音処理装置
JP4599244B2 (ja) * 2005-07-13 2010-12-15 キヤノン株式会社 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体

Also Published As

Publication number Publication date
JP2009020457A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
CN110383375B (zh) 用于检测噪声背景环境中的咳嗽的方法和设备
US11250878B2 (en) Sound classification system for hearing aids
EP1210711B1 (en) Sound source classification
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
JP5668553B2 (ja) 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
EP2083417B1 (en) Sound processing device and program
Pillos et al. A Real-Time Environmental Sound Recognition System for the Android OS.
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
JP5050698B2 (ja) 音声処理装置およびプログラム
WO2006132599A1 (en) Segmenting a humming signal into musical notes
EP2962299A1 (en) Audio signal analysis
Jaafar et al. Automatic syllables segmentation for frog identification system
Zabidi et al. Mel-frequency cepstrum coefficient analysis of infant cry with hypothyroidism
JP4607908B2 (ja) 音声区間検出装置および音声区間検出方法
JP5109050B2 (ja) 音声処理装置およびプログラム
JP5083951B2 (ja) 音声処理装置およびプログラム
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Xie et al. Detection of anuran calling activity in long field recordings for bio-acoustic monitoring
JP4877114B2 (ja) 音声処理装置およびプログラム
CN111755025B (zh) 一种基于音频特征的状态检测方法、装置及设备
Chen et al. An intelligent nocturnal animal vocalization recognition system
JP2002062892A (ja) 音響分類装置
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP5157474B2 (ja) 音処理装置およびプログラム
JP4349415B2 (ja) 音信号処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees