JP2019060942A - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents
音声処理プログラム、音声処理方法および音声処理装置 Download PDFInfo
- Publication number
- JP2019060942A JP2019060942A JP2017183588A JP2017183588A JP2019060942A JP 2019060942 A JP2019060942 A JP 2019060942A JP 2017183588 A JP2017183588 A JP 2017183588A JP 2017183588 A JP2017183588 A JP 2017183588A JP 2019060942 A JP2019060942 A JP 2019060942A
- Authority
- JP
- Japan
- Prior art keywords
- band
- input spectrum
- input
- speech
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 193
- 238000000034 method Methods 0.000 claims description 66
- 238000001514 detection method Methods 0.000 claims description 52
- 238000006243 chemical reaction Methods 0.000 abstract description 35
- 238000010586 diagram Methods 0.000 description 32
- 230000014509 gene expression Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- OIGNJSKKLXVSLS-VWUMJDOOSA-N prednisolone Chemical compound O=C1C=C[C@]2(C)[C@H]3[C@@H](O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 OIGNJSKKLXVSLS-VWUMJDOOSA-N 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 4
- 229940035637 spectrum-4 Drugs 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 102100036464 Activated RNA polymerase II transcriptional coactivator p15 Human genes 0.000 description 2
- 101000713904 Homo sapiens Activated RNA polymerase II transcriptional coactivator p15 Proteins 0.000 description 2
- 229910004444 SUB1 Inorganic materials 0.000 description 2
- 229910004438 SUB2 Inorganic materials 0.000 description 2
- 101150080287 SUB3 gene Proteins 0.000 description 2
- 101150086029 SUB5 gene Proteins 0.000 description 2
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 101150018444 sub2 gene Proteins 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 101150023658 SUB4 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
Abstract
Description
FH’(m)=(1−α)×FH’(m−1)+α×FH(m)・・・(5)
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行させることを特徴とする音声処理プログラム。
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行することを特徴とする音声処理方法。
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
を有することを特徴とする音声処理装置。
120,220 周波数変換部
130,230 算出部
140、240、330 選択部
150,250,320 検出部
Claims (9)
- コンピュータに、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行させることを特徴とする音声処理プログラム。 - 前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはSNR(Signal Noise Ratio)を基に前記特徴量を算出することを特徴とする請求項1に記載の音声処理プログラム。
- 前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする請求項1または2に記載の音声処理プログラム。
- 前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする請求項1に記載の音声処理プログラム。
- 前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第1フレームの入力スペクトルと、前記第1フレームの後の第2フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする請求項4に記載の音声処理プログラム。
- 前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第1フレームの入力スペクトルおよび前記第2フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする請求項5に記載の音声処理プログラム。
- 前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする請求項1に記載の音声処理プログラム。
- コンピュータが実行する音声処理方法であって、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行することを特徴とする音声処理方法。 - 入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する周波数変換部と、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
を有することを特徴とする音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017183588A JP6907859B2 (ja) | 2017-09-25 | 2017-09-25 | 音声処理プログラム、音声処理方法および音声処理装置 |
US16/136,487 US11069373B2 (en) | 2017-09-25 | 2018-09-20 | Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017183588A JP6907859B2 (ja) | 2017-09-25 | 2017-09-25 | 音声処理プログラム、音声処理方法および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019060942A true JP2019060942A (ja) | 2019-04-18 |
JP6907859B2 JP6907859B2 (ja) | 2021-07-21 |
Family
ID=65808468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017183588A Active JP6907859B2 (ja) | 2017-09-25 | 2017-09-25 | 音声処理プログラム、音声処理方法および音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11069373B2 (ja) |
JP (1) | JP6907859B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005037617A (ja) * | 2003-07-18 | 2005-02-10 | Fujitsu Ltd | 音声信号の雑音低減装置 |
WO2005124739A1 (ja) * | 2004-06-18 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | 雑音抑圧装置および雑音抑圧方法 |
WO2006006366A1 (ja) * | 2004-07-13 | 2006-01-19 | Matsushita Electric Industrial Co., Ltd. | ピッチ周波数推定装置およびピッチ周波数推定方法 |
JP2008209546A (ja) * | 2007-02-26 | 2008-09-11 | National Institute Of Advanced Industrial & Technology | 音高推定装置、音高推定方法およびプログラム |
JP2009086476A (ja) * | 2007-10-02 | 2009-04-23 | Sony Corp | 音声処理装置、音声処理方法、およびプログラム |
JP2013140234A (ja) * | 2011-12-29 | 2013-07-18 | Yamaha Corp | 音響処理装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
WO2006120829A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 混合音分離装置 |
KR101248353B1 (ko) | 2005-06-09 | 2013-04-02 | 가부시키가이샤 에이.지.아이 | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 |
JP4961565B2 (ja) | 2005-08-01 | 2012-06-27 | 国立大学法人九州工業大学 | 音声検索装置及び音声検索方法 |
US8184676B2 (en) * | 2008-06-27 | 2012-05-22 | Csr Technology Inc. | Method and apparatus for mitigating the effects of CW interference via post correlation processing in a GPS receiver |
CN101430882B (zh) * | 2008-12-22 | 2012-11-28 | 无锡中星微电子有限公司 | 一种抑制风噪声的方法及装置 |
BRPI1008915A2 (pt) | 2009-02-27 | 2018-01-16 | Panasonic Corp | dispositivo de determinação de tom e método de determinação de tom |
KR101606598B1 (ko) * | 2009-09-30 | 2016-03-25 | 한국전자통신연구원 | 특이값 분해를 이용한 백색가우시안 잡음대역 결정 시스템 및 그 방법 |
JP5746974B2 (ja) * | 2009-11-13 | 2015-07-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置およびこれらの方法 |
WO2013125257A1 (ja) * | 2012-02-20 | 2013-08-29 | 株式会社Jvcケンウッド | 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法 |
US20130282372A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9183849B2 (en) * | 2012-12-21 | 2015-11-10 | The Nielsen Company (Us), Llc | Audio matching with semantic audio recognition and report generation |
MX352099B (es) * | 2013-06-21 | 2017-11-08 | Fraunhofer Ges Forschung | Método y aparato para obtener coeficientes de espectro para un cuadro de reemplazo de una señal de audio, decodificador de audio, receptor de audio y sistema para transmitir señales de audio. |
CN106409300B (zh) * | 2014-03-19 | 2019-12-24 | 华为技术有限公司 | 用于信号处理的方法和装置 |
CN105530565B (zh) * | 2014-10-20 | 2021-02-19 | 哈曼国际工业有限公司 | 自动声音均衡装置 |
-
2017
- 2017-09-25 JP JP2017183588A patent/JP6907859B2/ja active Active
-
2018
- 2018-09-20 US US16/136,487 patent/US11069373B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005037617A (ja) * | 2003-07-18 | 2005-02-10 | Fujitsu Ltd | 音声信号の雑音低減装置 |
WO2005124739A1 (ja) * | 2004-06-18 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | 雑音抑圧装置および雑音抑圧方法 |
WO2006006366A1 (ja) * | 2004-07-13 | 2006-01-19 | Matsushita Electric Industrial Co., Ltd. | ピッチ周波数推定装置およびピッチ周波数推定方法 |
JP2008209546A (ja) * | 2007-02-26 | 2008-09-11 | National Institute Of Advanced Industrial & Technology | 音高推定装置、音高推定方法およびプログラム |
JP2009086476A (ja) * | 2007-10-02 | 2009-04-23 | Sony Corp | 音声処理装置、音声処理方法、およびプログラム |
JP2013140234A (ja) * | 2011-12-29 | 2013-07-18 | Yamaha Corp | 音響処理装置 |
Non-Patent Citations (1)
Title |
---|
茂木 沙織 他: "基本周波数抽出のための帯域制限の効果について", 日本音響学会 2010年 春季研究発表会講演論文集CD−ROM, JPN6021020416, 10 March 2010 (2010-03-10), pages 307 - 308, ISSN: 0004519632 * |
Also Published As
Publication number | Publication date |
---|---|
US20190096431A1 (en) | 2019-03-28 |
US11069373B2 (en) | 2021-07-20 |
JP6907859B2 (ja) | 2021-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3723080B1 (en) | Music classification method and beat point detection method, storage device and computer device | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
RU2376722C2 (ru) | Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство | |
CN110164467A (zh) | 语音降噪的方法和装置、计算设备和计算机可读存储介质 | |
CN104485117B (zh) | 一种录音设备检测的方法及其系统 | |
US20140337021A1 (en) | Systems and methods for noise characteristic dependent speech enhancement | |
WO2016008311A1 (zh) | 一种根据频域能量对音频信号进行检测的方法和装置 | |
CN104685903A (zh) | 用于音频干扰估计的方法和设备 | |
JP2013222113A (ja) | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム | |
JP2012155339A (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
WO2013142652A2 (en) | Harmonicity estimation, audio classification, pitch determination and noise estimation | |
KR20080018163A (ko) | 깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상 | |
WO2013022918A1 (en) | System and method for tracking sound pitch across an audio signal | |
JP6182895B2 (ja) | 処理装置、処理方法、プログラム及び処理システム | |
CN113314147A (zh) | 音频处理模型的训练方法及装置、音频处理方法及装置 | |
JP2010097084A (ja) | 携帯端末、拍位置推定方法および拍位置推定プログラム | |
JP5077847B2 (ja) | 残響時間推定装置及び残響時間推定方法 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
JP2019060942A (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
US11004463B2 (en) | Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value | |
JP2019146965A (ja) | 生体情報測定装置、生体情報測定方法及びプログラム | |
JP6891736B2 (ja) | 音声処理プログラム、音声処理方法および音声処理装置 | |
US10825469B2 (en) | System and method for voice activity detection and generation of characteristics respective thereof | |
Meissner | The discrete Hilbert transform and its application to the analysis of reverberant decay of modal vibrations in enclosures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6907859 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |