JP2016191788A - 音響処理装置、音響処理方法、及び、プログラム - Google Patents
音響処理装置、音響処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP2016191788A JP2016191788A JP2015071025A JP2015071025A JP2016191788A JP 2016191788 A JP2016191788 A JP 2016191788A JP 2015071025 A JP2015071025 A JP 2015071025A JP 2015071025 A JP2015071025 A JP 2015071025A JP 2016191788 A JP2016191788 A JP 2016191788A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- volume
- section
- voice
- provisional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】仮検出部は、音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する。ノーマライズ部は、仮音声区間の音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、仮非音声区間の第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、音声区間音量、及び、非音声区間音量を用いて、第2の特徴量をノーマライズする。本技術は、例えば、音声区間の検出等の音響処理に適用することができる。
【選択図】図2
Description
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
を備える音響処理装置。
<2>
前記第1の特徴量と、前記第2の特徴量とは、異なる種類の特徴量である
<1>に記載の音響処理装置。
<3>
前記第1の特徴量は、音量に非依存の特徴量である
<2>に記載の音響処理装置。
<4>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
<1>ないし<3>のいずれかに記載の音響処理装置。
<5>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
<1>ないし<3>のいずれかに記載の音響処理装置。
<6>
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
<4>又は<5>に記載の音響処理装置。
<7>
前記ノーマライズ部は、前記仮音声区間の前記第2の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第2の特徴量の平均値を、前記非音声区間音量として推定する
<1>ないし<6>のいずれかに記載の音響処理装置。
<8>
前記第2の特徴量は、複数の次元の特徴量であり、
前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
<1>ないし<7>のいずれかに記載の音響処理装置。
<9>
ノーマライズが行われた前記第2の特徴量を用いて、音声区間を検出する検出部をさらに備える
<1>ないし<8>のいずれかに記載の音響処理装置。
<10>
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズすることと
を含む音響処理方法。
<11>
音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
<12>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
を備える音響処理装置。
<13>
前記特徴量は、音量に非依存の特徴量である
<12>に記載の音響処理装置。
<14>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
<12>又は<13>に記載の音響処理装置。
<15>
前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
<12>又は<13>に記載の音響処理装置。
<16>
前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
<14>又は<15>に記載の音響処理装置。
<17>
前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
<12>ないし<16>のいずれかに記載の音響処理装置。
<18>
ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
<12>ないし<17>のいずれかに記載の音響処理装置。
<19>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
を含む音響処理方法。
<20>
音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
Claims (20)
- 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
を備える音響処理装置。 - 前記第1の特徴量と、前記第2の特徴量とは、異なる種類の特徴量である
請求項1に記載の音響処理装置。 - 前記第1の特徴量は、音量に非依存の特徴量である
請求項2に記載の音響処理装置。 - 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
請求項1に記載の音響処理装置。 - 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
請求項4に記載の音響処理装置。 - 前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
請求項4に記載の音響処理装置。 - 前記ノーマライズ部は、前記仮音声区間の前記第2の特徴量の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記第2の特徴量の平均値を、前記非音声区間音量として推定する
請求項1に記載の音響処理装置。 - 前記第2の特徴量は、複数の次元の特徴量であり、
前記ノーマライズ部は、前記複数の次元の特徴量のすべてを、前記音声区間音量、及び、前記非音声区間音量を用いてノーマライズする
請求項1に記載の音響処理装置。 - ノーマライズが行われた前記第2の特徴量を用いて、音声区間を検出する検出部をさらに備える
請求項1に記載の音響処理装置。 - 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズすることと
を含む音響処理方法。 - 音響信号の第1の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号の、音量に依存する第2の特徴量を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記第2の特徴量を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記第2の特徴量をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。 - 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
を備える音響処理装置。 - 前記特徴量は、音量に非依存の特徴量である
請求項12に記載の音響処理装置。 - 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値によって更新する
請求項12に記載の音響処理装置。 - 前記ノーマライズ部は、前記音声区間音量、及び、前記非音声区間音量を、最新の推定値と直前の推定値のうちの大きい方に更新する
請求項14に記載の音響処理装置。 - 前記ノーマライズ部は、前記仮音声区間でない区間において、前記音声区間音量を、所定値だけ小さい値に更新する
請求項14に記載の音響処理装置。 - 前記ノーマライズ部は、前記仮音声区間の前記音響信号の平均値を、前記音声区間音量として推定するとともに、前記仮非音声区間の前記音響信号の平均値を、前記非音声区間音量として推定する
請求項12に記載の音響処理装置。 - ノーマライズが行われた前記音響信号を用いて、音声区間を検出する検出部をさらに備える
請求項12に記載の音響処理装置。 - 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出することと、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズすることと
を含む音響処理方法。 - 音響信号の特徴量を用いて、仮の音声区間である仮音声区間と、仮の非音声区間である仮非音声区間とを検出する仮検出部と、
前記仮音声区間の前記音響信号を用いて、音声区間の音量を表す音声区間音量を推定するとともに、前記仮非音声区間の前記音響信号を用いて、非音声区間の音量を表す非音声区間音量を推定し、前記音声区間音量、及び、前記非音声区間音量を用いて、前記音響信号をノーマライズするノーマライズ部と
して、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015071025A JP6724290B2 (ja) | 2015-03-31 | 2015-03-31 | 音響処理装置、音響処理方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015071025A JP6724290B2 (ja) | 2015-03-31 | 2015-03-31 | 音響処理装置、音響処理方法、及び、プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016191788A true JP2016191788A (ja) | 2016-11-10 |
JP2016191788A5 JP2016191788A5 (ja) | 2018-05-17 |
JP6724290B2 JP6724290B2 (ja) | 2020-07-15 |
Family
ID=57245541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015071025A Active JP6724290B2 (ja) | 2015-03-31 | 2015-03-31 | 音響処理装置、音響処理方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6724290B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028300A (ja) * | 2017-07-31 | 2019-02-21 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
WO2021014649A1 (ja) * | 2019-07-25 | 2021-01-28 | 日本電信電話株式会社 | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム |
CN112954122A (zh) * | 2021-01-22 | 2021-06-11 | 成都天奥信息科技有限公司 | 甚高频话音通信系统话音比选方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04295895A (ja) * | 1991-03-26 | 1992-10-20 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2000250565A (ja) * | 1999-02-25 | 2000-09-14 | Ricoh Co Ltd | 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体 |
JP2000330598A (ja) * | 1999-05-18 | 2000-11-30 | Mitsubishi Electric Corp | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
JP2005031632A (ja) * | 2003-06-19 | 2005-02-03 | Advanced Telecommunication Research Institute International | 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ |
US20050182620A1 (en) * | 2003-09-30 | 2005-08-18 | Stmicroelectronics Asia Pacific Pte Ltd | Voice activity detector |
JP2014112190A (ja) * | 2012-11-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間分類装置、信号区間分類方法、およびプログラム |
-
2015
- 2015-03-31 JP JP2015071025A patent/JP6724290B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04295895A (ja) * | 1991-03-26 | 1992-10-20 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2000250565A (ja) * | 1999-02-25 | 2000-09-14 | Ricoh Co Ltd | 音声区間検出装置、音声区間検出方法、音声認識方法およびその方法を記録した記録媒体 |
JP2000330598A (ja) * | 1999-05-18 | 2000-11-30 | Mitsubishi Electric Corp | 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法 |
JP2005031632A (ja) * | 2003-06-19 | 2005-02-03 | Advanced Telecommunication Research Institute International | 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ |
US20050182620A1 (en) * | 2003-09-30 | 2005-08-18 | Stmicroelectronics Asia Pacific Pte Ltd | Voice activity detector |
JP2014112190A (ja) * | 2012-11-05 | 2014-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間分類装置、信号区間分類方法、およびプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028300A (ja) * | 2017-07-31 | 2019-02-21 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
WO2021014649A1 (ja) * | 2019-07-25 | 2021-01-28 | 日本電信電話株式会社 | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム |
JPWO2021014649A1 (ja) * | 2019-07-25 | 2021-01-28 | ||
JP7218810B2 (ja) | 2019-07-25 | 2023-02-07 | 日本電信電話株式会社 | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム |
CN112954122A (zh) * | 2021-01-22 | 2021-06-11 | 成都天奥信息科技有限公司 | 甚高频话音通信系统话音比选方法 |
CN112954122B (zh) * | 2021-01-22 | 2022-10-11 | 成都天奥信息科技有限公司 | 甚高频话音通信系统话音比选方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6724290B2 (ja) | 2020-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663446B (zh) | 知晓用户环境的声学降噪 | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
JP4950930B2 (ja) | 音声/非音声を判定する装置、方法およびプログラム | |
EP4235647A3 (en) | Determining dialog states for language models | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
KR20120080409A (ko) | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 | |
US10269375B2 (en) | Methods and systems for classifying audio segments of an audio signal | |
WO2017045429A1 (zh) | 一种音频数据的检测方法、系统及存储介质 | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
JP2018534618A (ja) | ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 | |
JP2019045576A (ja) | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US11250860B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JPWO2019244298A1 (ja) | 属性識別装置、属性識別方法、およびプログラム | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
Zouhir et al. | Power Normalized Gammachirp Cepstral (PNGC) coefficients-based approach for robust speaker recognition | |
Girirajan et al. | Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment | |
Tu et al. | Computational auditory scene analysis based voice activity detection | |
JP2015022357A (ja) | 情報処理システム、情報処理方法および情報処理装置 | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
JP2007010822A (ja) | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム | |
JP2015064602A (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200608 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6724290 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |