JP2009020457A - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP2009020457A JP2009020457A JP2007184871A JP2007184871A JP2009020457A JP 2009020457 A JP2009020457 A JP 2009020457A JP 2007184871 A JP2007184871 A JP 2007184871A JP 2007184871 A JP2007184871 A JP 2007184871A JP 2009020457 A JP2009020457 A JP 2009020457A
- Authority
- JP
- Japan
- Prior art keywords
- envelope
- section
- voice
- valley
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【解決手段】音声区分部12は、複数の発声者の音声を含む音声信号Sの波形の包絡線Eを特定し、包絡線Eにおける複数の谷部Dを検出する。谷部Dは、包絡線Eのレベルが所定の時間長にわたって連続して減少する区間と包絡線Eのレベルが所定の時間長にわたって連続して増加する区間との境界である。音声区分部12は、各谷部Dを境界として音声信号Sを複数の区間Bに区分する。また、音声区分部12は、包絡線Eの複数の山部Pについてピーク値Lpを特定し、複数の区間Bのうちピーク値Lpが閾値THを下回る山部Pを含む区間Bを非発音区間と判定する。
【選択図】図1
Description
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置20として任意に採用される。制御装置10には出力装置30が接続される。本形態の出力装置30は、各種の画像を表示する表示機器である。
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と共通する要素については、図1と同じ符号を付して各々の詳細な説明を適宜に省略する。
図6および図7は、包絡線Eの部分的な拡大図である。図3のステップS7において、本形態の音声区分部12は、包絡線Eのレベルが減少から増加に変化する時点(第1実施形態における谷部D)に加え、包絡線Eの勾配が所定の閾値を上回る変化量で変化する図6の時点t1や図7の時点t2も谷部Dとして検出する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
音声区分部12が音声信号Sの包絡線Eを特定する方法は適宜に変更される。例えば、図3のステップS4の処理を2段階に分割してもよい。すなわち、音声区分部12は、第1に、カットオフ周波数を20Hz程度とするローパスフィルタ処理を音声信号Sに対して実行し、第2に、例えば500ms程度の期間ごとのサンプル値の平均値(移動平均)を包絡線Eのレベルとして算定する。以上の構成においては、移動平均の算定の周期が包絡線Eの各標本点の間隔に相当する。
以上の各形態においては、ピーク値Lpの最大値Lp_maxと所定の係数αとの乗算値を閾値THとして非発音区間を選別する構成を例示したが、閾値THを設定する方法は任意である。例えば、所定の期間にわたるピーク値Lpの平均値(または平均値と所定の係数との乗算値)を閾値THとした構成や、利用者からの指示に応じて閾値THを可変に制御する構成、あるいは、閾値THを固定値とした構成も採用される。
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば音声分類部14による分類の結果を有効に利用することも可能である。例えば、音声区分部12が区分した複数の区間Bのうち利用者が指定した時刻を含む区間B内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、音声区分部12が音声信号Sを複数の区間Bに区分した結果を音声処理装置100から外部装置に出力する構成も採用される。外部装置においては、音声処理装置100からの出力に対して図1の音声分類部14と同様の処理や他の適切な処理が実行される。以上のように、音声認識部16や音声分類部14は音声処理装置100にとって必須の要素ではない。
以上の各形態においては、音声信号Sを区間Bごとに分離する構成を例示したが、音声信号Sの分離までは本発明において必須ではない。例えば、音声区分部12が、各区間Bの始点または終点の時刻を音声信号Sに対応させて記憶装置20に格納する構成も採用される(音声信号Sについては変更しない)。すなわち、「音声信号Sを複数の区間Bに区分する」とは、音声信号Sについて各区間Bが認識され得るように音声信号Sに関する処理を実行することを意味し、音声信号S自体の変更(分離)までは必要ではない。
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
Claims (6)
- 音声信号の波形の包絡線を特定する包絡線特定手段と、
前記包絡線における複数の谷部を検出する谷部検出手段と、
前記各谷部を境界として前記音声信号を複数の区間に区分する区分手段と
を具備する音声処理装置。 - 前記包絡線の複数の山部についてピーク値を特定するピーク値特定手段と、
前記複数の区間のうち前記ピーク値が閾値を下回る山部を含む区間を非発音区間と判定する区間選別手段と
を具備する請求項1の音声処理装置。 - 前記谷部検出手段は、前記包絡線のレベルが所定の時間長にわたって連続して減少する第1区間と、前記包絡線のレベルが所定の時間長にわたって連続して増加する第2区間との境界を前記谷部として検出する
請求項1または請求項2の音声処理装置。 - 前記谷部検出手段は、
前記包絡線のレベルが減少する第1区間と前記包絡線のレベルが前記第1区間よりも緩やかに減少する区間との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第1時点、および、前記包絡線のレベルが増加する第2区間と前記包絡線のレベルが前記第2区間よりも急峻に増加する区間との境界の時点であって当該時点の前後における包絡線のレベルの勾配の変化量が閾値を上回る第2時点の少なくとも一方と、
前記包絡線のレベルが減少する区間と前記包絡線のレベルが増加する区間との境界と
を前記谷部として検出する
請求項1から請求項3の何れかの音声処理装置。 - 前記区分手段が区分した各区間の音声信号を、前記各区間内の特徴量に基づいて発声者ごとに分類する音声分類手段
を具備する請求項1から請求項4の何れかの音声処理装置。 - コンピュータに、
音声信号の波形の包絡線を特定する包絡線特定処理と、
前記包絡線における複数の谷部を検出する谷部検出処理と、
前記各谷部を境界として前記音声信号を複数の区間に区分する区分処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184871A JP5109050B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007184871A JP5109050B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020457A true JP2009020457A (ja) | 2009-01-29 |
JP5109050B2 JP5109050B2 (ja) | 2012-12-26 |
Family
ID=40360109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007184871A Expired - Fee Related JP5109050B2 (ja) | 2007-07-13 | 2007-07-13 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5109050B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010276697A (ja) * | 2009-05-26 | 2010-12-09 | Waseda Univ | 音声処理装置およびプログラム |
JP2011095425A (ja) * | 2009-10-28 | 2011-05-12 | Kawai Musical Instr Mfg Co Ltd | 盛り上がり検出装置及びプログラム |
CN111883165A (zh) * | 2020-07-02 | 2020-11-03 | 中移(杭州)信息技术有限公司 | 说话人语音切分方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62141595A (ja) * | 1985-12-16 | 1987-06-25 | 日本電気株式会社 | 音声検出方式 |
JPH07225592A (ja) * | 1994-02-14 | 1995-08-22 | Matsushita Electric Ind Co Ltd | 有音区間検出装置 |
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
JP2003016765A (ja) * | 2001-07-03 | 2003-01-17 | Sony Corp | 再生装置および方法、記録媒体、並びにプログラム |
JP2003280682A (ja) * | 2002-03-20 | 2003-10-02 | Toyota Motor Corp | 音声認識装置及び方法 |
JP2003307997A (ja) * | 2002-04-15 | 2003-10-31 | Sony Corp | 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体 |
JP2005031632A (ja) * | 2003-06-19 | 2005-02-03 | Advanced Telecommunication Research Institute International | 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ |
JP2005221565A (ja) * | 2004-02-03 | 2005-08-18 | Nec Saitama Ltd | 音声データファイル格納方法および録音処理装置 |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
-
2007
- 2007-07-13 JP JP2007184871A patent/JP5109050B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62141595A (ja) * | 1985-12-16 | 1987-06-25 | 日本電気株式会社 | 音声検出方式 |
JPH07225592A (ja) * | 1994-02-14 | 1995-08-22 | Matsushita Electric Ind Co Ltd | 有音区間検出装置 |
JPH08179792A (ja) * | 1994-12-22 | 1996-07-12 | Sony Corp | 音声処理装置 |
JP2002169592A (ja) * | 2000-11-29 | 2002-06-14 | Sony Corp | 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム |
JP2003016765A (ja) * | 2001-07-03 | 2003-01-17 | Sony Corp | 再生装置および方法、記録媒体、並びにプログラム |
JP2003280682A (ja) * | 2002-03-20 | 2003-10-02 | Toyota Motor Corp | 音声認識装置及び方法 |
JP2003307997A (ja) * | 2002-04-15 | 2003-10-31 | Sony Corp | 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体 |
JP2005031632A (ja) * | 2003-06-19 | 2005-02-03 | Advanced Telecommunication Research Institute International | 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ |
JP2005221565A (ja) * | 2004-02-03 | 2005-08-18 | Nec Saitama Ltd | 音声データファイル格納方法および録音処理装置 |
JP2007027990A (ja) * | 2005-07-13 | 2007-02-01 | Canon Inc | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010276697A (ja) * | 2009-05-26 | 2010-12-09 | Waseda Univ | 音声処理装置およびプログラム |
JP2011095425A (ja) * | 2009-10-28 | 2011-05-12 | Kawai Musical Instr Mfg Co Ltd | 盛り上がり検出装置及びプログラム |
CN111883165A (zh) * | 2020-07-02 | 2020-11-03 | 中移(杭州)信息技术有限公司 | 说话人语音切分方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5109050B2 (ja) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110383375B (zh) | 用于检测噪声背景环境中的咳嗽的方法和设备 | |
US11250878B2 (en) | Sound classification system for hearing aids | |
EP1210711B1 (en) | Sound source classification | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
Pillos et al. | A Real-Time Environmental Sound Recognition System for the Android OS. | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
WO2006132599A1 (en) | Segmenting a humming signal into musical notes | |
Schröder et al. | Classifier architectures for acoustic scenes and events: implications for DNNs, TDNNs, and perceptual features from DCASE 2016 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Zabidi et al. | Mel-frequency cepstrum coefficient analysis of infant cry with hypothyroidism | |
JP4607908B2 (ja) | 音声区間検出装置および音声区間検出方法 | |
JP5109050B2 (ja) | 音声処理装置およびプログラム | |
Hainsworth et al. | Analysis of reassigned spectrograms for musical transcription | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
Valero et al. | Narrow-band autocorrelation function features for the automatic recognition of acoustic environments | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
Xie et al. | Detection of anuran calling activity in long field recordings for bio-acoustic monitoring | |
JP4877114B2 (ja) | 音声処理装置およびプログラム | |
Chen et al. | An intelligent nocturnal animal vocalization recognition system | |
Rao et al. | Singing voice detection in north indian classical music | |
Zeng et al. | Adaptive context recognition based on audio signal | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
Kumar et al. | A wavelet based time-frequency descriptor for automatic classification of acoustic signals of fishes | |
Lin et al. | Avian species identification in noisy environment using scaled time-frequency representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120831 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |