JP5109050B2

JP5109050B2 - 音声処理装置およびプログラム

Info

Publication number: JP5109050B2
Application number: JP2007184871A
Authority: JP
Inventors: 三樹夫東山; 道子風間; 靖雄吉岡
Original assignee: Waseda University; Yamaha Corp
Current assignee: Waseda University; Yamaha Corp
Priority date: 2007-07-13
Filing date: 2007-07-13
Publication date: 2012-12-26
Anticipated expiration: 2027-07-13
Also published as: JP2009020457A

Description

本発明は、音声信号を時間軸上で複数の区間に区分する技術に関する。

音声信号を時間軸上で発音区間と非発音区間（音声を収録する環境内の雑音のみが存在する区間）とに区分する技術が従来から提案されている。例えば特許文献１には、音声信号のＳ/Ｎ比と所定の閾値との比較の結果に応じて音声信号を発音区間と非発音区間とに区分する技術が開示されている。
特開昭５９−９９４９７号公報

ところで、複数の発声者が随時に発声する環境（例えば会議）で収録された音声信号を発声者ごとに区分して分類できれば、例えば会議の議事録の作成などに利用できて便利である。しかし、特許文献１の技術においては音声信号のＳ/Ｎ比と閾値とが比較されるに過ぎないため、例えばひとりの発声者による発言の最後の部分と他の発声者による発言の最初の部分とが時間軸上において重複すると、実際に使用される閾値によっては、別個の発声者による発声であるにも拘わらず単一の区間の音声と判断される場合がある。以上の事情に鑑みて、本発明は、複数の発声者の音声を含む音声信号を発声者ごとに別個の区間に区分するという課題の解決を目的としている。

以上の課題を解決するために、本発明に係る音声処理装置は、音声信号の波形の包絡線を特定する包絡線特定手段と、包絡線における複数の谷部を検出する谷部検出手段と、各谷部を境界として音声信号を複数の区間に区分する区分手段とを具備し、谷部検出手段は、包絡線のレベルが連続して減少する第１区間（例えば図４の期間Ｔ1）と、第１区間に後続する区間であって包絡線のレベルが連続して増加する第２区間（例えば図４の期間Ｔ2）との境界の時点を、第１区間の時間長が第１所定値を上回るとともに第２区間の時間長が第２所定値を上回る場合に谷部として検出する一方、第１区間の時間長が第１所定値を下回る場合または第２区間の時間長が第２所定値を下回る場合には谷部として検出しない。本発明によれば、音声信号の包絡線の谷部を境界として音声信号が複数の区分に区分されるから、例えば複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間に区分することが可能である。また、音声信号を区分した各区間が過度に短い時間長となることが抑制される。

本発明の好適な態様に係る音声処理装置は、包絡線の複数の山部についてピーク値を特定するピーク値特定手段と、複数の区間のうちピーク値が閾値を下回る山部を含む区間を非発音区間と判定する区間選別手段とをさらに具備する。本態様によれば、区分手段が区分した複数の区間を非発音区間と発音区間とに選別することが可能である。なお、閾値は、例えば、複数のピーク値のなかの最大値と１未満の係数との乗算値や複数のピーク値の平均値、あるいは所定の固定値である。

本発明の好適な態様において、区間選別手段は、ピーク値特定手段が特定した複数のピーク値のなかの最大値と１未満の正数との乗算値を閾値として、複数の区間のうちピーク値が閾値を下回る山部を含む区間を非発音区間と判定する。また、他の態様において、包絡線特定手段は、カットオフ周波数を１Ｈｚ〜２Ｈｚに設定したローパスフィルタ処理で音声信号を平滑化し、平滑化後の音声信号について包絡線を特定する。

包絡線の谷部とは、基本的には、包絡線のレベルが減少する区間と包絡線のレベルが増加する区間との境界の時点を意味する。ただし、谷部において包絡線の勾配の符号が逆転する必要は必ずしもない。例えば、本発明の具体的な態様において、谷部検出手段は、包絡線のレベルが減少する第１区間（例えば図６の期間Ｓ1a）と包絡線のレベルが第１区間よりも緩やかに減少する区間（例えば図６の期間Ｓ1b）との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第１時点（例えば図６の時点ｔ1）、および、包絡線のレベルが増加する第２区間（例えば図７の期間Ｓ2a）と包絡線のレベルが第２区間よりも急峻に増加する区間（例えば図７の期間Ｓ2b）との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第２時点（例えば図７の時点ｔ2）の少なくとも一方と、包絡線のレベルが減少する区間と包絡線のレベルが増加する区間との境界とを谷部として検出する。本態様によれば、包絡線のレベルが減少する区間と増加する区間との境界のみを谷部として検出する構成と比較して、音声信号をさらに仔細に区分することが可能となる。なお、本態様の具体例は第３実施形態として後述される。

本発明の好適な態様に係る音声処理装置は、区分手段が区分した各区間の音声信号を、各区間内の特徴量に基づいて発声者ごとに分類する音声分類手段をさらに具備する。本発明によれば、各発声者による発声が精緻に別個の区間に区分されるから、音声分類手段による各区間の分類の精度を高めることができるという利点がある。

本発明に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号の波形の包絡線を特定する包絡線特定処理（例えば図３のステップＳ2からステップＳ5）と、包絡線における複数の谷部を検出する谷部検出処理（例えば図３のステップＳ7）と、各谷部を境界として音声信号を複数の区間に区分する区分処理（例えば図３のステップＳ8）とをコンピュータに実行させるプログラムであって、谷部検出処理では、包絡線のレベルが連続して減少する第１区間と、第１区間に後続する区間であって包絡線のレベルが連続して増加する第２区間との境界の時点を、第１区間の時間長が第１所定値を上回るとともに第２区間の時間長が第２所定値を上回る場合に谷部として検出する一方、第１区間の時間長が第１所定値を下回る場合または第２区間の時間長が第２所定値を下回る場合には谷部として検出しない。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号の波形の包絡線を特定する包絡線特定手順と、包絡線における複数の谷部を検出する谷部検出手順と、各谷部を境界として音声信号を複数の区間に区分する区分手順とを含み、谷部検出手順では、包絡線のレベルが連続して減少する第１区間と、第１区間に後続する区間であって包絡線のレベルが連続して増加する第２区間との境界の時点を、第１区間の時間長が第１所定値を上回るとともに第２区間の時間長が第２所定値を上回る場合に谷部として検出する一方、第１区間の時間長が第１所定値を下回る場合または第２区間の時間長が第２所定値を下回る場合には谷部として検出しない。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置２０とを具備するコンピュータシステムである。制御装置１０は、プログラムを実行する演算処理装置である。記憶装置２０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２０として任意に採用される。制御装置１０には出力装置３０が接続される。本形態の出力装置３０は、各種の画像を表示する表示機器である。

記憶装置２０は、収音機器を利用して採取された音声信号Ｓを記憶する。図２には音声信号Ｓの時間軸上の波形が例示されている。音声信号Ｓは、音声の波形を表すモノラルのアナログ信号を時間軸上の各標本点にてサンプリングしたデジタル信号である。本形態の音声信号Ｓが表す音声は、複数の参加者が随時に発言する会議にて収録された音声である。

図１の制御装置１０は、記憶装置２０に格納されたプログラムを実行することで音声信号Ｓから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者ごとに時系列で配列した会議の記録である。図１に示すように、制御装置１０は、音声区分部１２と音声分類部１４と音声認識部１６として機能する。なお、図１の制御装置１０の各機能は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。

音声区分部１２は、音声信号Ｓを時間軸に沿って複数の区間Ｂに区分する。ひとつの区間Ｂは、ひとりの発声者が連続して発言した可能性が高いと推定される期間である。人間による一連の発話（特に会議における発言）には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の音声区分部１２は、図２に示すように、音声信号Ｓの波形の包絡線（エンベロープ）Ｅの谷部Ｄを境界として音声信号Ｓを複数の区間Ｂに区分する。したがって、複数の発声者が間隔をあけずに順次に発言した場合であっても、各発声者による発言が別個の区間Ｂに属するように音声信号Ｓが区分される

図３は、音声区分部１２の具体的な動作を示すフローチャートである。同図の処理は、議事録の作成が利用者から指示されることを契機として実行される。図３に示すように、音声区分部１２は、記憶装置２０から音声信号Ｓを取得する（ステップＳ1）。次いで、音声区分部１２は、音声信号Ｓの波形の包絡線Ｅを特定する（ステップＳ2からステップＳ5）。すなわち、制御装置１０は包絡線特定手段として機能する。

会議室内で収録した音声信号Ｓには、空調設備の動作音など比較的に低周波な雑音が含まれる。このような雑音を除去するために、音声区分部１２は、ステップＳ2において、ステップＳ1にて取得した音声信号Ｓにハイパスフィルタ処理を実行する。ステップＳ2における好適なカットオフ周波数は20Hz〜50Hzである。もっとも、カットオフ周波数は、例えば利用者からの指示に応じて可変に制御され得る。

ステップＳ3において、音声区分部１２は、音声信号Ｓの各標本点におけるサンプル値の絶対値を演算する。すなわち、音声信号Ｓは全波整流される。次いで、音声区分部１２は、音声信号Ｓに対してローパスフィルタ処理を実行することで音声信号Ｓを平滑化する（ステップＳ4）。ステップＳ4におけるカットオフ周波数は、例えば１Hz〜２Hz程度に設定される。

ステップＳ5において、音声区分部１２は、時間軸上の各標本点について包絡線Ｅのレベル（強度）を算定する。ひとつの標本点における包絡線Ｅのレベルは、例えば、ステップＳ4の処理後の音声信号Ｓにおける当該標本点でのサンプル値の２乗値である。以上の処理によって図２の包絡線Ｅが特定される。なお、包絡線Ｅのレベルは、ステップＳ4の処理後の音声信号Ｓのサンプル値自体やサンプル値（またはサンプル値の２乗値）の平方根であってもよい。

音声区分部１２は、包絡線Ｅに現れる複数の山部Ｐの各々についてピーク値Ｌpを特定する（ステップＳ6）。図２に示すように、包絡線Ｅの各山部Ｐは、包絡線Ｅのレベルが増加から減少に変化する時点（包絡線Ｅの勾配が正数から負数に変化する時点）である。ステップＳ6において、音声区分部１２は、山部Ｐの頂上部における包絡線Ｅのレベルをピーク値Ｌp（極大値）として特定する。

次いで、音声区分部１２は、包絡線Ｅに現れる複数の谷部Ｄを検出する（ステップＳ7）。包絡線Ｅの各谷部Ｄは、時間軸上で相前後する各山部Ｐの間隔内にあって包絡線Ｅのレベルが減少から増加に変化する時点（包絡線Ｅの勾配が負数から正数に変化する時点）である。

音声区分部１２は、図２に示すように、包絡線Ｅの複数の谷部Ｄの各々を境界として音声信号Ｓを複数の区間Ｂに区分する（ステップＳ8）。さらに詳述すると、音声区分部１２は、各区間Ｂの始点に相当する谷部Ｄの時刻と、当該区間Ｂの終点に相当する谷部Ｄの時刻と、音声信号Ｓのうち当該区間Ｂ内のサンプル値の系列とを対応させて記憶装置２０に格納する。

音声信号Ｓは会議室内の環境音などの雑音を含む。したがって、音声区分部１２が区分した複数の区間Ｂのなかには、実際に発声者が発声した区間（以下「発音区間」という）だけでなく、発声者が発声していない雑音の区間（以下「非発音区間」という）もある。ステップＳ9において、音声区分部１２は、複数の区間Ｂのうち包絡線Ｅのレベルが相対的に低い区間Ｂを非発音区間として特定する。

さらに詳述すると、音声区分部１２は、複数の区間ＢのうちステップＳ6にて特定されたピーク値Ｌpが閾値ＴＨを下回る山部Ｐを含む区間Ｂを非発音区間として選別する。閾値ＴＨは、例えば、複数のピーク値Ｌpのなかの最大値Ｌp_maxと所定の係数α（０＜α＜１）との乗算値である。以上のように閾値ＴＨをピーク値Ｌpに応じて設定する構成によれば、閾値ＴＨを包絡線Ｅのレベルとは無関係の固定値とした場合と比較して、音声信号Ｓの音量に拘わらず非発音区間を高精度に特定することが可能である。なお、ステップＳ8の処理は、複数の区間Ｂのうちピーク値Ｌpが閾値ＴＨを上回る山部Ｐを含む区間Ｂを発音区間として選別する処理と等価である。

図１の音声分類部１４は、音声区分部１２が区分した各区間Ｂの音声信号Ｓを発声者（会議の参加者）ごとに分類する。音声区分部１２が非発音区間と判定した区間Ｂについては分類の対象から除外される。各区間Ｂの音声信号Ｓの分類には、公知のクラスタリング技術が任意に採用される。

例えば、音声分類部１４は、各区間Ｂの音声信号Ｓに対してＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を実行することで当該区間Ｂ内の音響的な特徴量（例えばメルケプストラム係数のベクトル列）を抽出し、特徴量の類似する各区間Ｂが共通のクラスタ（集合）に所属するように複数の区間Ｂを分類する。したがって、音声信号Ｓのうち同じ発声者が発声した区間Ｂは共通のクラスタに分類される。音声分類部１４は、分類の結果を記憶装置２０に格納する。すなわち、音声分類部１４は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Ｂの始点および終点の時刻と、当該各区間Ｂの音声信号Ｓとを対応させて記憶装置２０に格納する。また、図３のステップＳ9にて非発音区間に選別された区間Ｂの始点および終点の時刻と当該区間Ｂ内の音声信号Ｓとについても記憶装置２０に記憶される。なお、会議の参加者の人数が既知であって利用者が事前に指定する構成においては、音声信号Ｓの各区間Ｂを、当該人数に相当する個数のクラスタに分類する構成が好適に採用される。

図１の音声認識部１６は、各クラスタに分類された音声信号Ｓの各区間Ｂに基づいて発声者ごとの発言の内容を文字として特定する。各区間Ｂの音声信号Ｓから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部１６は、第１に、ひとつのクラスタに分類された各区間Ｂの音声信号Ｓの音響的な特徴量に応じて初期的な音響モデルを更新（話者適応）することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第２に、話者適応後の音響モデルとクラスタ内の各区間Ｂの音声信号Ｓから抽出された特徴量とを対比することで、発声者が発言した文字を識別する。

制御装置１０は、音声認識部１６による処理の結果を出力装置３０に出力する。出力装置３０は、発言の時刻と、発声者の識別符号（例えば発声者の氏名）と、当該発声の内容について音声認識部１６が特定した文字とが時系列に配列された議事録の画像を表示する。

以上に説明したように本形態においては、音声信号Ｓの包絡線Ｅの谷部Ｄを境界として音声信号Ｓが複数の区間Ｂに区分されるから、ひとりの発声者による発言の最後の部分と別の発声者による発言の最初の部分とが重複する場合や複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Ｂに区分することが可能である。

なお、複数の発声者による発声がひとつの区間Ｂ内に混在すると、音声分類部１４による分類の精度が低下する（すなわち、音声信号Ｓの各区間Ｂを発声者ごとに適切に分類できない）という問題がある。本形態によれば、各発声者による発声が高い精度で別個の区間Ｂに区分されるから、音声信号Ｓの各区間を発声者ごとに正確に分類できるという利点がある。したがって、会議の各参加者による発言の内容を忠実に反映した議事録を作成することが可能である。すなわち、各発声者による発声を高い精度で別個の区間Ｂに区分できるという本形態の効果は、各区間Ｂの音声信号Ｓを発声者ごとに分類する場合（さらには分類の結果から議事録を作成する場合）に格別に有効である。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。なお、以下の各形態において作用や機能が第１実施形態と共通する要素については、図１と同じ符号を付して各々の詳細な説明を適宜に省略する。

本形態の音声区分部１２は、図３のステップＳ7において、図４に示すように、所定値Ｃ1を上回る時間長（所定値を上回る個数の標本点）にわたって包絡線Ｅのレベルが連続して減少する期間Ｔ1と、所定値Ｃ2を上回る時間長（所定値を上回る個数の標本点）にわたって包絡線Ｅのレベルが連続して増加する期間Ｔ2との境界の時点ｔ0を谷部Ｄとして検出する。これに対し、図５に示すように、包絡線Ｅのレベルが減少から増加に変化する時点ｔ0であっても、時点ｔ0の直前に包絡線Ｅのレベルが連続して減少する期間Ｔ1の時間長（標本点の個数）が所定値Ｃ1を下回る場合や、時点ｔ0の直後に包絡線Ｅのレベルが連続して増加する期間Ｔ2の時間長（標本点の個数）が所定値Ｃ2を下回る場合、音声区分部１２は時点ｔ0を谷部Ｄとして検出しない。以上の構成によっても第１実施形態と同様の効果が奏される。

第１実施形態においては、包絡線Ｅのレベルが減少から増加に変化する総ての時点を谷部Ｄとして検出した。しかし、ステップＳ4のローパスフィルタ処理にて音声信号Ｓの高域成分が充分に除去されない場合には包絡線Ｅの増減が短時間で頻繁に反復されるから、第１実施形態の構成のもとでは音声信号Ｓが過度に短い区間Ｂに区分される可能性がある。そして、区間Ｂが短い場合には発声音の本来の特性を忠実に反映した特徴量を音声信号Ｓから抽出することが困難となるから、音声分類部１４による分類の精度や音声認識部１６による音声認識の精度が低下する場合がある。

これに対して本形態においては、包絡線Ｅのレベルが減少から増加に変化する時点であっても、当該時点の前後にて包絡線Ｅのレベルの減少または増加の連続する回数が所定値（Ｃ1，Ｃ2）を下回る場合には当該時点は谷部Ｄと認定されないから、各区間Ｂについて適度な時間長が確保される。したがって、音声分類部１４による分類や音声認識部１６による音声認識の精度を第１実施形態と比較して高めることが可能である。

なお、以上においては谷部Ｄの検出に着目したが、ステップＳ6における山部Ｐの検出にも同様の方法が採用される。例えば、ステップＳ6において、音声区分部１２は、所定値を上回る時間長にわたって包絡線Ｅのレベルが連続して増加する期間と、その直後の期間であって所定値を上回る時間長にわたって包絡線Ｅのレベルが連続して減少する期間との境界の時点を山部Ｐとして検出する。すなわち、包絡線Ｅのレベルが増加から減少に変化する時点であっても、当該時点の前後において包絡線Ｅのレベルの増加または減少の連続する回数が所定値を下回る場合には、当該時点は山部Ｐと判定されない。

＜Ｃ：第３実施形態＞
図６および図７は、包絡線Ｅの部分的な拡大図である。図３のステップＳ7において、本形態の音声区分部１２は、包絡線Ｅのレベルが減少から増加に変化する時点（第１実施形態における谷部Ｄ）に加え、包絡線Ｅの勾配が所定の閾値を上回る変化量で変化する図６の時点ｔ1や図７の時点ｔ2も谷部Ｄとして検出する。

図６の時点ｔ1は、包絡線Ｅのレベルが勾配Ａa1で減少する期間Ｓ1aと、勾配Ａ1aと比較して緩やかな（すなわち単位時間内の包絡線Ｅのレベルの変化量が小さい）勾配Ａa2で包絡線Ｅのレベルが減少する期間Ｓ1bとの境界の時点であって、かつ、勾配Ａa1から勾配Ａa2への変化量が所定の閾値を上回る時点である。また、図７の時点ｔ2は、包絡線Ｅのレベルが勾配Ａb1で増加する期間Ｓ2aと、勾配Ａb1と比較して急峻な（すなわち単位時間内の包絡線Ｅのレベルの変化量が大きい）勾配Ａb2で包絡線Ｅのレベルが増加する期間Ｓ2bとの境界の時点であって、かつ、勾配Ａb1から勾配Ａb2への変化量が所定の閾値を上回る時点である。

図６の期間Ｓ1bや図７の期間Ｓ2aのように包絡線Ｅのレベルが相対的に低い期間は非発音区間である可能性が高い。本形態においては、区間Ｂの境界となる谷部Ｄとして時点ｔ1や時点ｔ2も検出されるから、包絡線Ｅのレベルが減少から増加に変化する時点のみを谷部Ｄとして検出する（すなわち図６の時点ｔ1や図７の時点ｔ2を谷部Ｄとして検出しない）第１実施形態と比較して、発音区間（Ｓ1a，Ｓ2b）と非発音区間（Ｓ1b，Ｓ2a）とを仔細に選別することが可能となる。したがって、音声信号Ｓから非発音区間を精緻に除外して、音声分類部１４による分類の精度や音声認識部１６による音声認識の精度を高めることが可能である。

＜Ｄ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
音声区分部１２が音声信号Ｓの包絡線Ｅを特定する方法は適宜に変更される。例えば、図３のステップＳ4の処理を２段階に分割してもよい。すなわち、音声区分部１２は、第１に、カットオフ周波数を20Hz程度とするローパスフィルタ処理を音声信号Ｓに対して実行し、第２に、例えば500ms程度の期間ごとのサンプル値の平均値（移動平均）を包絡線Ｅのレベルとして算定する。以上の構成においては、移動平均の算定の周期が包絡線Ｅの各標本点の間隔に相当する。

図３のステップＳ3においては、音声信号Ｓのうち各標本点におけるサンプル値が負数である部分を除去してもよい（すなわち音声信号Ｓを半波整流してもよい）。また、図３のステップＳ2およびステップＳ3の代わりに音声信号ＳのＳＮ（Signal-to-Noise）比の算定を実行し、ＳＮ比の時系列に対してステップＳ4のローパスフィルタ処理を実行する構成も採用される。音声信号ＳのＳＮ比は、例えば、音声信号Ｓのうち所定の区間での平均レベルと事前に検出された雑音のレベルとの相対比として算定される。

また、音声信号Ｓを所定長ごとに区分した各区間内のサンプル値の平均値を当該区間の代表値とし、各代表値を時系列的に直線で連結した折れ線を包絡線Ｅとして特定してもよい。

（２）変形例２
以上の各形態においては、ピーク値Ｌpの最大値Ｌp_maxと所定の係数αとの乗算値を閾値ＴＨとして非発音区間を選別する構成を例示したが、閾値ＴＨを設定する方法は任意である。例えば、所定の期間にわたるピーク値Ｌpの平均値（または平均値と所定の係数との乗算値）を閾値ＴＨとした構成や、利用者からの指示に応じて閾値ＴＨを可変に制御する構成、あるいは、閾値ＴＨを固定値とした構成も採用される。

（３）変形例３
音声処理装置１００が作成した議事録を印刷する印刷装置を出力装置３０として採用してもよい。もっとも、音声処理装置１００による処理の結果が議事録（文字）の形式で出力される必要はなく、例えば音声分類部１４による分類の結果を有効に利用することも可能である。例えば、音声区分部１２が区分した複数の区間Ｂのうち利用者が指定した時刻を含む区間Ｂ内の音声信号Ｓを放音装置（例えばスピーカ）から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、音声区分部１２が音声信号Ｓを複数の区間Ｂに区分した結果を音声処理装置１００から外部装置に出力する構成も採用される。外部装置においては、音声処理装置１００からの出力に対して図１の音声分類部１４と同様の処理や他の適切な処理が実行される。以上のように、音声認識部１６や音声分類部１４は音声処理装置１００にとって必須の要素ではない。

（４）変形例４
以上の各形態においては、音声信号Ｓを区間Ｂごとに分離する構成を例示したが、音声信号Ｓの分離までは本発明において必須ではない。例えば、音声区分部１２が、各区間Ｂの始点または終点の時刻を音声信号Ｓに対応させて記憶装置２０に格納する構成も採用される（音声信号Ｓについては変更しない）。すなわち、「音声信号Ｓを複数の区間Ｂに区分する」とは、音声信号Ｓについて各区間Ｂが認識され得るように音声信号Ｓに関する処理を実行することを意味し、音声信号Ｓ自体の変更（分離）までは必要ではない。

（５）変形例５
以上の各形態においては記憶装置２０に予め記憶された音声信号Ｓを処理の対象としたが、収音装置（マイクロホン）から供給される音声信号Ｓや通信網を経由して順次に供給される音声信号Ｓを対象として実時間的に処理を実行してもよい。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。音声処理装置による処理の内容を示す概念図である。音声区分部の動作の内容を示すフローチャートである。本発明の第２実施形態における音声区分部の動作を説明するための概念図である。音声区分部の動作を説明するための概念図である。本発明の第３実施形態における音声区分部の動作を説明するための概念図である。音声区分部の動作を説明するための概念図である。

符号の説明

１００……音声処理装置、１０……制御装置、１２……音声区分部、１４……音声分類部、１６……音声認識部、２０……記憶装置、３０……出力装置、Ｓ……音声信号、Ｅ……包絡線、Ｂ……区間。

Claims

音声信号の波形の包絡線を特定する包絡線特定手段と、
前記包絡線における複数の谷部を検出する谷部検出手段と、
前記各谷部を境界として前記音声信号を複数の区間に区分する区分手段と
を具備し、
前記谷部検出手段は、前記包絡線のレベルが連続して減少する第１区間と、前記第１区間に後続する区間であって前記包絡線のレベルが連続して増加する第２区間との境界の時点を、前記第１区間の時間長が第１所定値を上回るとともに前記第２区間の時間長が第２所定値を上回る場合に前記谷部として検出する一方、前記第１区間の時間長が前記第１所定値を下回る場合または前記第２区間の時間長が前記第２所定値を下回る場合には前記谷部として検出しない
音声処理装置。
前記包絡線の複数の山部についてピーク値を特定するピーク値特定手段と、
前記複数の区間のうち前記ピーク値が閾値を下回る山部を含む区間を非発音区間と判定する区間選別手段と
を具備する請求項１の音声処理装置。
前記区間選別手段は、前記ピーク値特定手段が特定した複数のピーク値のなかの最大値と１未満の正数との乗算値を閾値として、前記複数の区間のうち前記ピーク値が前記閾値を下回る山部を含む区間を非発音区間と判定する
請求項２の音声処理装置。
前記包絡線特定手段は、カットオフ周波数を１Ｈｚ〜２Ｈｚに設定したローパスフィルタ処理で前記音声信号を平滑化し、平滑化後の音声信号について包絡線を特定する
請求項１から請求項３の何れかの音声処理装置。
前記区分手段が区分した各区間の音声信号を、前記各区間内の特徴量に基づいて発声者ごとに分類する音声分類手段
を具備する請求項１から請求項４の何れかの音声処理装置。
コンピュータに、
音声信号の波形の包絡線を特定する包絡線特定処理と、
前記包絡線における複数の谷部を検出する谷部検出処理と、
前記各谷部を境界として前記音声信号を複数の区間に区分する区分処理と
を実行させるプログラムであって、
前記谷部検出処理では、前記包絡線のレベルが連続して減少する第１区間と、前記第１区間に後続する区間であって前記包絡線のレベルが連続して増加する第２区間との境界の時点を、前記第１区間の時間長が第１所定値を上回るとともに前記第２区間の時間長が第２所定値を上回る場合に前記谷部として検出する一方、前記第１区間の時間長が前記第１所定値を下回る場合または前記第２区間の時間長が前記第２所定値を下回る場合には前記谷部として検出しない
プログラム。