JP5326533B2 - 音声加工装置及び音声加工方法 - Google Patents
音声加工装置及び音声加工方法 Download PDFInfo
- Publication number
- JP5326533B2 JP5326533B2 JP2008313607A JP2008313607A JP5326533B2 JP 5326533 B2 JP5326533 B2 JP 5326533B2 JP 2008313607 A JP2008313607 A JP 2008313607A JP 2008313607 A JP2008313607 A JP 2008313607A JP 5326533 B2 JP5326533 B2 JP 5326533B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- speech
- processing
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Image Processing (AREA)
Description
図7において、受信信号の話速と送話音声がマイク702にて変換されて得られる送信信号の話速が、それぞれ話速算出部701及び703にて算出される。
そして、話速変換部705が、速度差算出部704にて算出された速度差に対応する制御信号に基づいて、受信信号の話速を変換し、その結果得られる信号を増幅器を含むスピーカ706から受話音声として出力する。
図8は、通信網801に対して、通信インタフェース部802を介して送受信される音声信号を、送話部805及び受話部806にて入出力する音声通信システムの構成例である。このシステムが例えば携帯電話装置であった場合、電話番号等を入力するためのキー入力部803から入力されたキー入力情報に基づいて全体制御部804が、発呼等の制御を行う。
受話音声レベル管理部808は、全体制御部804の制御下で、送話音声レベル検知部807が検知した送話音声レベルに基づいて、受話音声レベルを制御するための制御信号を生成する。
以下に示される態様は、受話音声等の第一の音声信号を加工する音声加工装置又はそれと等価な処理を実現する音声加工方法を前提とする。
音声加工部は、比較部での比較結果に基づいて、入力される第1の音声信号を加工し出力する。この音声加工部は例えば、第1の音声信号のパワー、発話速度、ピッチ周波数、発音の間の長さ、又はパワースペクトルの傾きの何れか1つ以上を変更する。
また、個々のユーザごとの話速の違いを考慮して求めた基準範囲に基づいて話速変換を行うため、あらゆるユーザに対する受聴環境や好みを反映して受話音声等を聞きやすくすることが可能となる。
図1は、第1の実施形態の構成図である。
音響分析部101は、入力される送話音声の信号の特徴量を分析する。より具体的には、音響分析部101は、送話音声を時間分割し、その時間分割された送話音声に対して音響分析を行って発話速度やピッチ周波数などの特徴量を算出する。
比較部103は、音響分析部101にて算出される特徴量と、基準範囲算出部102にて算出される基準範囲とを比較して、比較結果を出力する。
図2において、101、102、103、及び104の各部は、図1の同じ番号の各部に対応している。
図2に示される音声加工装置の動作について、図3の動作フローチャートに基づいて説明する。
比較部103は、音響分析部101から出力された発話速度と、基準範囲算出部102で算出された基準範囲とを比較して、比較結果を出力する(図3のステップS304)。
図5及び図6において、まず、判定部102−1が、音響分析部101から現フレームの発話速度を入力する(図6のステップS601)。そして、判定部102−1は、その発話速度が基準範囲に含まれるかどうかを判定する(図6のステップS602)。
sri :現フレームから過去iフレーム目の発話速度
N:基準値算出に用いるフレーム数
m:発話速度の平均値
k:信頼度、標本数で決まる定数(信頼度95%で標本数が∞の場合、1.96)
SE:平均の標準誤差
SD:標準偏差
x:送話音声の信号
M:相関係数を算出する区間の長さ(サンプル)
a:相関係数を算出する信号の開始位置
pitch :ピッチ周波数(Hz)
corr(a) :ずらし位置がaの場合の相関係数
a_max :最大相関係数に対応するa
i:信号のインデックス(サンプル)
freq :サンプリング周波数(Hz)
(1)送話音声のパワースペクトルがフレーム毎に、フーリエ変換等の時間周波数変換によって算出される。
(2)送話音声のパワースペクトルの傾きaが算出される。具体的には、(1)で算出されたi番目のパワースペクトルの周波数[Hz]をxi、i番目のパワースペクトルの大きさ[dB]をyiとして、各周波数のパワースペクトルを(xi ,yi )で表せば、最小2乗法により、所定の高域周波数範囲で、xi とyi によって定まる2次元座標上で、1次関数を当てはめた際の傾きとして、送話音声のパワースペクトルの傾きaが算出される。
(1)送話音声の音声区間が検出される。具体的には、フレームパワーを、フレームパワーの長期平均として算出される閾値と比較することで、音声区間が判定される。
(2)間の長さが、無音区間の連続長として算出される。
そして、音声加工部104は、比較部103での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。
具体的には、まず、受話音声波形の時間軸を圧縮して発話速度を早くする処理は、以下の構成により実現される。
第1の処理:現在ポインタからnT分の入力音声波形が第1音声波形として切り出される。
第2の処理:現在ポインタがT進められる。
第3の処理:現在ポインタからnT分の入力音声波形が第2音声波形として切り出される。
第4の処理:第1音声波形と第2音声波形に重み付け加算されて圧縮音声波形として出力される。
第5の処理:第2音声波形の終点から(Lc−nT)進んだ点までの入力音声波形が圧縮音声波形として出力される。
第6の処理:現在ポインタがLc進められて、第1の処理に戻る。
但し、Lc=rT/(1−r)、Lc≧nT、n≧2(n:整数)、Lc:ポインタ移動量、r :圧縮率、T :ピッチ周期である。
第1の処理:現在ポインタからT戻った点からnT分の入力音声波形が第1音声波形として切り出される。
第2の処理:現在ポインタからnT分の入力音声波形が第2音声波形として切り出される。
第3の処理:第1音声波形と第2音声波形に重み付け加算されて伸長音声波形として出力される。
第4の処理:第2音声波形の終点から(Ls−T)戻った点までの入力音声波形が伸長音声波形として出力される。
第5の処理:現在ポインタがLs進められて、第1の処理に戻る。
但し、Ls=T/(r−1)、Ls≧T、n≧2(n:整数)、Ls:ポインタ移動量、r :伸長率、T :ピッチ周期である。
具体的には、第1のピッチ変換部が、受話音声である音声波形から音素波形を切り出し、この音素波形を第1の制御信号に対応した周期で繰り返し出力する。
そして、制御部が、比較部103の出力に基づいて、所望のピッチ変換比S0、所望のフォルマント周波数の変換比F0を決定し、第2の制御信号としてF0を第2のピッチ変換部に与え、第1の制御信号としてS0/F0に対応した周期での出力を指示する信号を第1のピッチ変換部に与える。
即ち、受話音声の間の長さの変更は、受話音声の間が終了した後にさらに間を追加することで行われる。これにより次の受話音声の出力に時間遅れが生じるが、息継ぎなどによる一定時間以上長い間を短縮することで、その時間遅れを回復することができる。
工部104が受話音声の信号のパワースペクトルの傾きを変更する。以下、第9の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
(1)受話音声のパワースペクトルが、フーリエ変換などの時間周波数変換処理によって算出される。
(2)受話音声のパワースペクトルの傾きが、次式によって変更させられる。
pri ′:変更後の受話音声のi番目の帯域のパワースペクトル
pri :受話音声のi番目の帯域のパワースペクトル
i:パワースペクトルの帯域のインデックス
Δa:傾きの変更量(dB/帯域)
(3)上記(2)にて修正された受話音声のパワースペクトルが、逆フーリエ変換等の周波数時間変換処理によって、時間領域信号に変換される。
101−1 時間分割部
101−2 母音検出部
101−3 母音標準パターン辞書部
101−4 無声化母音検出部
101−5 発話速度算出部
102 基準範囲算出部
102−1 判定部
102−2 更新部
102−3 格納部
103 比較部
104 音声加工部
104−1 増幅率決定部
104−2 振幅変更部
701、703 話速算出部
702 マイク
704 速度差算出部
705 話速変換部
706 スピーカ
801 通信網
802 通信インタフェース部
803 キー入力部
804 全体制御部
805 送話部
806 受話部
807 送話音声レベル検知部
808 受話音声レベル管理部
809 受話音声増幅部
Claims (5)
- 受話音声を加工する音声加工装置であって、
入力される送話音声の第1の特徴量を分析する音響分析部と、
前記送話音声の第1の特徴量から少なくとも前記第1の特徴量の平均値である基準値を算出する基準範囲算出部と、
前記送話音声の第1の特徴量と前記基準値とを比較して比較結果を出力する比較部と、
前記比較結果に基づいて、入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか1つ以上の第2の特徴量を、前記第1の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工部と、
を含むことを特徴とする音声加工装置。 - 前記基準範囲算出部は、前記基準値として、更に前記送話音声の第1の特徴量の分散を表す統計量を算出する、
ことを特徴とする請求項1に記載の音声加工装置。 - 前記基準範囲算出部は、前記送話音声の第1の特徴量が前記基準値に含まれているかを判定し、含まれている場合のみ前記基準値を更新する、
ことを特徴とする請求項1乃至2の何れか1項に記載の音声加工装置。 - 前記音響分析部は、前記送話音声の第1の特徴量として、パワー、発話速度、ピッチ周波数、パワースペクトル、発話の間の長さのうちの何れかを算出する、
ことを特徴とする請求項1乃至3の何れか1項に記載の音声加工装置。 - 受話音声を加工する音声加工方法であって、
入力される送話音声の第1の特徴量を分析する音響分析ステップと、
前記送話音声の第1の特徴量から少なくとも前記第1の特徴量の平均値である基準値を算出する基準範囲算出ステップと、
前記送話音声の第1の特徴量と前記基準値とを比較して比較結果を出力する比較ステップと、
前記比較結果に基づいて、入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか1つ以上の第2の特徴量を、前記第1の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工ステップと、
を含むことを特徴とする音声加工方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008313607A JP5326533B2 (ja) | 2008-12-09 | 2008-12-09 | 音声加工装置及び音声加工方法 |
US12/631,050 US8364475B2 (en) | 2008-12-09 | 2009-12-04 | Voice processing apparatus and voice processing method for changing accoustic feature quantity of received voice signal |
EP09178172.4A EP2196990A3 (en) | 2008-12-09 | 2009-12-07 | Voice processing apparatus and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008313607A JP5326533B2 (ja) | 2008-12-09 | 2008-12-09 | 音声加工装置及び音声加工方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010139571A JP2010139571A (ja) | 2010-06-24 |
JP5326533B2 true JP5326533B2 (ja) | 2013-10-30 |
Family
ID=42058386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008313607A Expired - Fee Related JP5326533B2 (ja) | 2008-12-09 | 2008-12-09 | 音声加工装置及び音声加工方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8364475B2 (ja) |
EP (1) | EP2196990A3 (ja) |
JP (1) | JP5326533B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US20120078625A1 (en) * | 2010-09-23 | 2012-03-29 | Waveform Communications, Llc | Waveform analysis of speech |
US9177570B2 (en) * | 2011-04-15 | 2015-11-03 | St-Ericsson Sa | Time scaling of audio frames to adapt audio processing to communications network timing |
CN105830152B (zh) * | 2014-01-28 | 2019-09-06 | 三菱电机株式会社 | 集音装置、集音装置的输入信号校正方法以及移动设备信息系统 |
JP6405653B2 (ja) * | 2014-03-11 | 2018-10-17 | 日本電気株式会社 | 音声出力装置および音声出力方法 |
JP6394103B2 (ja) * | 2014-06-20 | 2018-09-26 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP6555909B2 (ja) * | 2015-03-20 | 2019-08-07 | キヤノン株式会社 | 放射線撮像装置及び放射線撮像システム |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US11205056B2 (en) * | 2019-09-22 | 2021-12-21 | Soundhound, Inc. | System and method for voice morphing |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721759B2 (ja) | 1983-05-25 | 1995-03-08 | 株式会社東芝 | 音声認識応答装置 |
JPH06252987A (ja) | 1993-02-26 | 1994-09-09 | Matsushita Electric Ind Co Ltd | 音声通信装置 |
KR100372208B1 (ko) * | 1993-09-09 | 2003-04-07 | 산요 덴키 가부시키가이샤 | 음성신호의시간축압축/신장방법 |
JP2951181B2 (ja) | 1993-12-24 | 1999-09-20 | 三洋電機株式会社 | 音声時間軸圧縮装置及び音声時間軸伸長装置、並びに音声時間軸圧縮伸長装置 |
JP3263546B2 (ja) * | 1994-10-14 | 2002-03-04 | 三洋電機株式会社 | 音響再生装置 |
FI102337B1 (fi) * | 1995-09-13 | 1998-11-13 | Nokia Mobile Phones Ltd | Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi |
JPH09152890A (ja) | 1995-11-28 | 1997-06-10 | Sanyo Electric Co Ltd | 音響機器 |
JP3379348B2 (ja) | 1996-09-03 | 2003-02-24 | ヤマハ株式会社 | ピッチ変換器 |
DE60113985T2 (de) * | 2000-05-18 | 2006-06-29 | Ericsson Inc., Plano | Gerausch-adaptive kommunikationsignalpegelregelung |
JP2004219506A (ja) | 2003-01-10 | 2004-08-05 | Toshiba Corp | コードブック作成方法、コードブック作成装置及び通信端末装置 |
WO2004068467A1 (en) * | 2003-01-31 | 2004-08-12 | Oticon A/S | Sound system improving speech intelligibility |
JP2004252085A (ja) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | 音声変換システム及び音声変換プログラム |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
JP2007086592A (ja) * | 2005-09-26 | 2007-04-05 | Fuji Xerox Co Ltd | 音声出力装置および音声出力方法 |
JP2008197200A (ja) * | 2007-02-09 | 2008-08-28 | Ari Associates:Kk | 了解度自動調整装置及び了解度自動調整方法 |
-
2008
- 2008-12-09 JP JP2008313607A patent/JP5326533B2/ja not_active Expired - Fee Related
-
2009
- 2009-12-04 US US12/631,050 patent/US8364475B2/en not_active Expired - Fee Related
- 2009-12-07 EP EP09178172.4A patent/EP2196990A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2196990A2 (en) | 2010-06-16 |
JP2010139571A (ja) | 2010-06-24 |
EP2196990A3 (en) | 2013-08-21 |
US8364475B2 (en) | 2013-01-29 |
US20100082338A1 (en) | 2010-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5326533B2 (ja) | 音声加工装置及び音声加工方法 | |
US7035797B2 (en) | Data-driven filtering of cepstral time trajectories for robust speech recognition | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US8751221B2 (en) | Communication apparatus for adjusting a voice signal | |
US20040138876A1 (en) | Method and apparatus for artificial bandwidth expansion in speech processing | |
EP2816558B1 (en) | Speech processing device and method | |
JP2006085176A (ja) | 帯域制限オーディオ信号の帯域拡大 | |
KR20010014352A (ko) | 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 | |
WO2006113029A1 (en) | Bandwidth efficient digital voice communication system and method | |
KR20080064557A (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
JP6073456B2 (ja) | 音声強調装置 | |
US9905250B2 (en) | Voice detection method | |
JPS60107700A (ja) | エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 | |
KR20060122854A (ko) | 오디오 신호 처리를 위한 시스템 및 방법 | |
US9620149B2 (en) | Communication device | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
JPWO2011077924A1 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
US20060106603A1 (en) | Method and apparatus to improve speaker intelligibility in competitive talking conditions | |
JP7404664B2 (ja) | 音声処理装置及び音声処理方法 | |
EP1619665A1 (en) | Voice coding apparatus and method using PLP in mobile communications terminal | |
KR101151746B1 (ko) | 오디오 신호용 잡음제거 방법 및 장치 | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JPH10224898A (ja) | 補聴器 | |
JP2004139049A (ja) | 話者正規化方法及びそれを用いた音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130708 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |