JP5326533B2 - 音声加工装置及び音声加工方法 - Google Patents

音声加工装置及び音声加工方法 Download PDF

Info

Publication number
JP5326533B2
JP5326533B2 JP2008313607A JP2008313607A JP5326533B2 JP 5326533 B2 JP5326533 B2 JP 5326533B2 JP 2008313607 A JP2008313607 A JP 2008313607A JP 2008313607 A JP2008313607 A JP 2008313607A JP 5326533 B2 JP5326533 B2 JP 5326533B2
Authority
JP
Japan
Prior art keywords
voice
unit
speech
processing
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008313607A
Other languages
English (en)
Other versions
JP2010139571A (ja
Inventor
太郎 外川
猛 大谷
香緒里 遠藤
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008313607A priority Critical patent/JP5326533B2/ja
Priority to US12/631,050 priority patent/US8364475B2/en
Priority to EP09178172.4A priority patent/EP2196990A3/en
Publication of JP2010139571A publication Critical patent/JP2010139571A/ja
Application granted granted Critical
Publication of JP5326533B2 publication Critical patent/JP5326533B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Processing (AREA)

Description

音声通信システムにおいて、受話音声の音響特徴量を変更して受話音声を聞きとりやすくする音声加工技術に関する。
音声通信システムにおいて、ユーザがゆっくりとした会話を望んだ場合に、受話音声と送話音声との両方の話速(話す速度)差に応じて受話音声の話速をゆっくりさせることで受話音声を聞き取りやすくする方式が、例えば下記特許文献1として開示されている。
図7は、上記方式を実現するための第1の従来技術の構成図である。
図7において、受信信号の話速と送話音声がマイク702にて変換されて得られる送信信号の話速が、それぞれ話速算出部701及び703にて算出される。
速度差算出部704が、話速算出部701及び703にて算出された各話速の速度差を検出する。
そして、話速変換部705が、速度差算出部704にて算出された速度差に対応する制御信号に基づいて、受信信号の話速を変換し、その結果得られる信号を増幅器を含むスピーカ706から受話音声として出力する。
また、既定の受話音量では周囲騒音に受話音声が埋もれて聞き取りにくくなる場合があり、受話音声を聞きとりやすくするためには話し手側に大きな声で話してもらうか聞き手側でボリューム等により人為的に受話音量を調節しなければならなかった。そこで、人は一般的に受話音声が聞き取りにくいときに声が大きくなる傾向があること(ロンバード効果)を利用して、送話音声レベルが所定の基準値以上になった場合に受話音量を大きくすることで自動的に聞き取りやすくする方式が、例えば下記特許文献2として開示されている。
図8は、上記方式を実現するための第2の従来技術の構成図である。
図8は、通信網801に対して、通信インタフェース部802を介して送受信される音声信号を、送話部805及び受話部806にて入出力する音声通信システムの構成例である。このシステムが例えば携帯電話装置であった場合、電話番号等を入力するためのキー入力部803から入力されたキー入力情報に基づいて全体制御部804が、発呼等の制御を行う。
図8において、送話音声レベル検知部807が送話部805から出力される送信信号の送話音声レベルを検知する。
受話音声レベル管理部808は、全体制御部804の制御下で、送話音声レベル検知部807が検知した送話音声レベルに基づいて、受話音声レベルを制御するための制御信号を生成する。
受話音声増幅部809は、受話音声レベル管理部808が出力する受話音声レベルの制御信号に基づいて、通信網801から通信インタフェース部802を介して受信される受信信号の増幅度を制御する。
そして、受話部806は、受話音声増幅部809からの受話音声レベルが制御された受信信号に基づいて、特には図示しないスピーカから受話音声を出力する。
特開平9−152890号公報 特開平6−252987号公報
しかし、図7に示される第1の従来技術では、受話音声の話速は、受話音声と送話音声との両方の話速の関係に基づいて制御される。このため、送話音声を聞きやすくするためにユーザが意識的にゆっくり発話しても、受話音声によっては話速差が小さいため元の話速よりもゆっくり発話させることができない場合があるという問題点を有していた。更に、ユーザが意識的にゆっくり発話する際に、個々のユーザごとの話速の変更基準が異なるため、画一的な話速変換処理では、あらゆるユーザに対して受話音声を十分に聞きやすくすることができないという問題点を有していた。
一方、図8に示される第2の従来技術では、レストランなどの静かな場所では大きな声を出しにくいため、受話音量を大きくすることができないという問題点を有していた。
本発明の課題は、あらゆるユーザの受聴環境や好みを反映させるように受話音声を聞きやすく加工可能とすることにある。
以下に示される態様は、受話音声等の第一の音声信号を加工する音声加工装置又はそれと等価な処理を実現する音声加工方法を前提とする。
音響分析部(101)は、入力される送話音声等の第2の音声信号の特徴量を分析する。この音響分析部は例えば、第2の音声信号の特徴量として、発話速度、ピッチ周波数、パワースペクトル、発音の間の長さのうちの何れかを算出する。
基準範囲算出部(102)は、特徴量から基準範囲を算出する。この基準範囲算出部は例えば、基準範囲として、特徴量の平均値を算出し、又はそれに更に加えて、特徴量の分散を表す統計量を算出する。また、基準範囲算出部は例えば、特徴量が基準範囲に含まれているかを判定し、含まれている場合のみ基準範囲を更新する。
比較部(103)は、音響分析部から出力される特徴量と基準範囲算出部から出力される基準範囲とを比較して比較結果を出力する。
音声加工部は、比較部での比較結果に基づいて、入力される第1の音声信号を加工し出力する。この音声加工部は例えば、第1の音声信号のパワー、発話速度、ピッチ周波数、発音の間の長さ、又はパワースペクトルの傾きの何れか1つ以上を変更する。
受話音声等の第1の音声信号の元の話速によらず、ユーザが通常よりもゆっくり話すことで受話音声等を聞きやすくすることが可能となる。
また、個々のユーザごとの話速の違いを考慮して求めた基準範囲に基づいて話速変換を行うため、あらゆるユーザに対する受聴環境や好みを反映して受話音声等を聞きやすくすることが可能となる。
更に、例えば送話音声のピッチ周波数を用いて受話音量を大きくするようにあらかじめ設定しておくことにより、レストランなどの静かな場所で大きな声を出しにくい状況でも受話音量を変更して聞きやすくすることが可能となる。
以下、図面を参照しながら、最良の実施形態について詳細に説明する。
図1は、第1の実施形態の構成図である。
音響分析部101は、入力される送話音声の信号の特徴量を分析する。より具体的には、音響分析部101は、送話音声を時間分割し、その時間分割された送話音声に対して音響分析を行って発話速度やピッチ周波数などの特徴量を算出する。
基準範囲算出部102は、音響分析部101にて算出された特徴量について、平均値や分散等に関する統計処理を行うことにより、基準範囲を算出する。
比較部103は、音響分析部101にて算出される特徴量と、基準範囲算出部102にて算出される基準範囲とを比較して、比較結果を出力する。
音声加工部104は、比較部103での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。
図2は、図1の第2の実施形態の構成図であり、送話音声の発話速度に応じて受話音声の音量を変更することができる音声加工装置として構成される。
図2において、101、102、103、及び104の各部は、図1の同じ番号の各部に対応している。
図2において、音響分析部101は、時間分割部101−1、母音検出部101−2、母音標準パターン辞書部101−3、無声化母音検出部101−4、及び発話速度算出部101−5から構成される。
また、音声加工部104は、増幅率決定部104−1及び振幅変更部104−2から構成される。
図2に示される音声加工装置の動作について、図3の動作フローチャートに基づいて説明する。
まず、音響分析部101において、送話音声の信号が入力すると(図3のステップS301)、時間分割部101−1が、所定のフレーム単位に時間分割する。図2の時間分割部は、送話音声の信号を入力すると、所定のフレーム単位に時間分割する。
次に、母音検出部101−2が、母音標準パターン辞書部101−3に記憶された母音標準パターンを用いながら、時間分割部101−1から出力されるフレーム単位に時分割された入力送話音声から、母音部分を検出する。より具体的には、母音検出部101−2は、時間分割部101−1にて分割された各フレームについて、LPC(線形予測:Linear Prediction Coding)ケプストラム係数を算出する。そして、母音検出部101−2は、各フレーム毎に、上記LPCケプストラム係数と、各母音のLPCケプストラム係数から事前に算出され母音標準パターン辞書部101−3に記憶された各母音標準パターンとのユークリッド距離を計算する。そして、母音検出部101−2は、このユークリッド距離の最小値が所定の閾値より小さい場合に、そのフレームに母音が存在すると判定する。
母音検出部101−2の処理と並行して、無声化母音検出部101−4が、時間分割部101−1から出力されるフレーム単位に時分割された入力送話音声から、無声化母音部分を検出する。無声化母音検出部101−4は、零交差数分析により摩擦性子音(/s/, /sh/, /ts/ など)を検出し、そのあとに破裂性子音(/p/, /t/, /k/ など)が続く場合は無声化母音が存在すると判定する。
そして、発話速度算出部101−5は、母音検出部101−2及び無声化母音検出部101−4の各出力に基づいて、所定時間あたりの母音及び無声化母音の数をカウントすることにより、発話速度を算出する(図3のステップS302)。
基準範囲算出部102は、音響分析部101で算出された発話速度に対して、基準範囲を出力する(図3のステップS303)。
比較部103は、音響分析部101から出力された発話速度と、基準範囲算出部102で算出された基準範囲とを比較して、比較結果を出力する(図3のステップS304)。
音声加工部104は、比較部103から出力された比較結果に基づいて、受話音声を入力し(図3のステップS305)、その振幅を変更する(図3のステップS306)。音声加工部104における受話音量変更動作の一例を図4に示す。時間分割部101−1にて時分割された現在のフレームの発話速度が基準範囲に含まれる場合は、受話音量の変更が行われず、基準範囲よりも遅くなる場合に、受話音量が増幅させられるように制御される。更に、基準範囲よりも所定の閾値Th以上の差がある場合には、増幅率が大きくなるように制御されることによって、送話音声の発話速度が遅くされた場合に、受話音量が段階的に大きくされるようにして、自然性を損なわない制御が可能となる。加えて、増幅率が変更される場合には、フレームを更に分割した細かい時間単位で増幅率を徐々に変化させるように構成されてもよい。
図5は、図1又は図2の基準範囲算出部102の構成図であり、図6は、基準範囲算出部102の動作を示す動作フローチャートである。
図5及び図6において、まず、判定部102−1が、音響分析部101から現フレームの発話速度を入力する(図6のステップS601)。そして、判定部102−1は、その発話速度が基準範囲に含まれるかどうかを判定する(図6のステップS602)。
発話速度が基準範囲に含まれている場合には、更新部102−2が、現フレームの発話速度を用いて、下記の数1式から数4式に従って、基準範囲(平均値からの95%信頼区間)を更新する(図6のステップS603)。
上記数1式から数4式における各記号の意味は、下記の通りである。
sri :現フレームから過去iフレーム目の発話速度
N:基準値算出に用いるフレーム数
m:発話速度の平均値
k:信頼度、標本数で決まる定数(信頼度95%で標本数が∞の場合、1.96)
SE:平均の標準誤差
SD:標準偏差
なお、図6の動作例では、基準範囲に95%信頼区間が用いられているが、99%信頼区間やその他の分散に関する統計量が用いられても良い。
前述した第2の実施形態では、音響分析部101は、送話音声の発話速度を算出したが、以下に説明する第3の実施形態では、図1の第1の実施形態の構成において、音響分析部101がピッチ周波数を算出する。以下、第3の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
高騒音環境で声を大きくしようと肺から多くの呼気を出すと声帯の振動数が上がり自然と声が高くなる。そこで、第3の実施形態では、ピッチ周波数が大きくなった場合に受話音量を大きくすることで、受話音声を聞きやすくする効果が実現できる。
音響分析部101にて送話音声のピッチ周波数を算出する処理を以下に示す。
上記数5式及び数6式における各記号の意味は、下記の通りである。
x:送話音声の信号
M:相関係数を算出する区間の長さ(サンプル)
a:相関係数を算出する信号の開始位置
pitch :ピッチ周波数(Hz)
corr(a) :ずらし位置がaの場合の相関係数
a_max :最大相関係数に対応するa
i:信号のインデックス(サンプル)
freq :サンプリング周波数(Hz)
このように、音響分析部101は、送話音声の信号に対して相関係数を計算し、その値が最大となる相関係数に対応するずらし位置aを、サンプリング周波数から除算することにより、ピッチ周波数を算出する。
図1の基準範囲算出部102は音響分析部101にて算出されたピッチ周波数について、第2の実施形態の説明において前述した数1式から数4式と同様の統計処理を行うことにより、基準範囲を算出する。
続いて、比較部103は、音響分析部101にて算出されるピッチ周波数と、基準範囲算出部102にて算出されるピッチ周波数の基準範囲とを比較して、比較結果を出力する。
そして、音声加工部104は、比較部103での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。
以下に説明する第4の実施形態では、図1の第1の実施形態の構成において、音響分析部101がパワースペクトルの傾きを算出する。以下、第4の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
受話音声の音量を下げたいときには、例えばこもった音を発音することにより、高域成分が小さくなってパワースペクトルの傾きが大きくなり、これにより受話音量を下げるような制御が可能となる。
音響分析部101にて送話音声のパワースペクトルの傾きを算出する処理を以下に示す。
(1)送話音声のパワースペクトルがフレーム毎に、フーリエ変換等の時間周波数変換によって算出される。
(2)送話音声のパワースペクトルの傾きaが算出される。具体的には、(1)で算出されたi番目のパワースペクトルの周波数[Hz]をxi、i番目のパワースペクトルの大きさ[dB]をyiとして、各周波数のパワースペクトルを(xi ,yi )で表せば、最小2乗法により、所定の高域周波数範囲で、xi とyi によって定まる2次元座標上で、1次関数を当てはめた際の傾きとして、送話音声のパワースペクトルの傾きaが算出される。
図1の基準範囲算出部102は音響分析部101にて算出されたパワースペクトルの傾きについて、第2の実施形態の説明において前述した数1式から数4式と同様の統計処理を行うことにより、基準範囲を算出する。
続いて、比較部103は、音響分析部101にて算出されるパワースペクトルの傾きと、基準範囲算出部102にて算出されるパワースペクトルの傾きの基準範囲とを比較して、比較結果を出力する。
そして、音声加工部104は、比較部103での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。
以下に説明する第5の実施形態では、図1の第1の実施形態の構成において、音響分析部101が送話の間を算出する。以下、第5の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
受話音声の音量を下げたいときには、例えば間を空けながら発音することにより、この間を検出して受話音量を上げるような制御が可能となる。
音響分析部101にて送話音声の間を算出する処理を以下に示す。
(1)送話音声の音声区間が検出される。具体的には、フレームパワーを、フレームパワーの長期平均として算出される閾値と比較することで、音声区間が判定される。
(2)間の長さが、無音区間の連続長として算出される。
図1の基準範囲算出部102は音響分析部101にて算出された間の長さについて、第2の実施形態の説明において前述した数1式から数4式と同様の統計処理を行うことにより、基準範囲を算出する。
続いて、比較部103は、音響分析部101にて算出される間の長さと、基準範囲算出部102にて算出される間の長さの基準範囲とを比較して、比較結果を出力する。
そして、音声加工部104は、比較部103での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。
前述した第2の実施形態では、音声加工部104は、受話音声の音量を変更したが、以下に説明する第6の実施形態では、図1の第1の実施形態の構成において、音声加工部104が発話速度を変更する。以下、第6の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
音声加工部104での受話音声の信号の発話速度の変更は、例えば特開平7−181998に開示されている構成により実現することができる。
具体的には、まず、受話音声波形の時間軸を圧縮して発話速度を早くする処理は、以下の構成により実現される。
即ち、ピッチ抽出部が、受話音声である入力音声波形よりピッチ周期Tを抽出し、時間軸圧縮部が、以下の第1から第6の処理に基づいて、入力音声波形から圧縮音声波形を作成出力する。
第1の処理:現在ポインタからnT分の入力音声波形が第1音声波形として切り出される。
第2の処理:現在ポインタがT進められる。
第3の処理:現在ポインタからnT分の入力音声波形が第2音声波形として切り出される。
第4の処理:第1音声波形と第2音声波形に重み付け加算されて圧縮音声波形として出力される。
第5の処理:第2音声波形の終点から(Lc−nT)進んだ点までの入力音声波形が圧縮音声波形として出力される。
第6の処理:現在ポインタがLc進められて、第1の処理に戻る。
但し、Lc=rT/(1−r)、Lc≧nT、n≧2(n:整数)、Lc:ポインタ移動量、r :圧縮率、T :ピッチ周期である。
次に、受話音声波形の時間軸を伸張して発話速度を遅くする処理は、以下の構成により実行される。
即ち、ピッチ抽出部が、受話音声である入力音声波形よりピッチ周期Tを抽出する。そして、時間軸伸長部が、以下の第1から第5の処理に基づいて、入力音声波形から伸長音声波形を作成出力する。
第1の処理:現在ポインタからT戻った点からnT分の入力音声波形が第1音声波形として切り出される。
第2の処理:現在ポインタからnT分の入力音声波形が第2音声波形として切り出される。
第3の処理:第1音声波形と第2音声波形に重み付け加算されて伸長音声波形として出力される。
第4の処理:第2音声波形の終点から(Ls−T)戻った点までの入力音声波形が伸長音声波形として出力される。
第5の処理:現在ポインタがLs進められて、第1の処理に戻る。
但し、Ls=T/(r−1)、Ls≧T、n≧2(n:整数)、Ls:ポインタ移動量、r :伸長率、T :ピッチ周期である。
前述した第2の実施形態では、音声加工部104は、受話音声の音量を変更し、前述した第6の実施形態では、音声加工部104は、受話音声の発話速度を変更したが、以下に説明する第7の実施形態では、図1の第1の実施形態の構成において、音声加工部104がピッチ周波数を変更する。以下、第7の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
音声加工部104での受話音声の信号のピッチ周波数の変更は、例えば特開平10−78791号公報に開示されている構成により実現することができる。
具体的には、第1のピッチ変換部が、受話音声である音声波形から音素波形を切り出し、この音素波形を第1の制御信号に対応した周期で繰り返し出力する。
また、第2のピッチ変換部が、第1のピッチ変換部の入力側または出力側に接続され、音声波形を第2の制御信号に対応した比率で時間軸方向に伸縮して出力する。
そして、制御部が、比較部103の出力に基づいて、所望のピッチ変換比S0、所望のフォルマント周波数の変換比F0を決定し、第2の制御信号としてF0を第2のピッチ変換部に与え、第1の制御信号としてS0/F0に対応した周期での出力を指示する信号を第1のピッチ変換部に与える。
前述した第2の実施形態では、音声加工部104は、受話音声の音量を変更し、前述した第6の実施形態では、音声加工部104は、受話音声の発話速度を変更したが、前述した第7の実施形態では、音声加工部104は、受話音声のピッチ周波数を変更したが、以下に説明する第8の実施形態では、図1の第1の実施形態の構成において、音声加工部104が受話音声の信号の間の長さを変更する。以下、第8の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
音声加工部104での受話音声の信号の間の長さの変更は、例えば以下のようにして実現される。
即ち、受話音声の間の長さの変更は、受話音声の間が終了した後にさらに間を追加することで行われる。これにより次の受話音声の出力に時間遅れが生じるが、息継ぎなどによる一定時間以上長い間を短縮することで、その時間遅れを回復することができる。
前述した第2の実施形態では、音声加工部104は、受話音声の音量を変更し、前述した第6の実施形態では、音声加工部104は、受話音声の発話速度を変更したが、前述した第7の実施形態では、音声加工部104は、受話音声のピッチ周波数を変更したが、前述した第8の実施形態では、音声加工部104は、受話音声の信号の間の長さを変更したが、以下に説明する第9の実施形態では、図1の第1の実施形態の構成において、音声加
工部104が受話音声の信号のパワースペクトルの傾きを変更する。以下、第9の実施形態の全体構成は、第1の実施例の場合における図1と同様である。
音声加工部104での受話音声の信号のパワースペクトルの傾きの変更は、例えば以下のようにして実現される。
(1)受話音声のパワースペクトルが、フーリエ変換などの時間周波数変換処理によって算出される。
(2)受話音声のパワースペクトルの傾きが、次式によって変更させられる。
上記数7式における各記号の意味は、下記の通りである。
pri ′:変更後の受話音声のi番目の帯域のパワースペクトル
pri :受話音声のi番目の帯域のパワースペクトル
i:パワースペクトルの帯域のインデックス
Δa:傾きの変更量(dB/帯域)
(3)上記(2)にて修正された受話音声のパワースペクトルが、逆フーリエ変換等の周波数時間変換処理によって、時間領域信号に変換される。
なお、前記第1乃至第9の実施形態では入力される送話音声の特徴量に応じて受話音声を聞きやすく加工しているが、別の実施形態ではユーザの発話音声の特徴量に応じてあらかじめ記録された蓄積音声を加工する構成とすることで、蓄積音声を再生する際に聞きやすくすることも可能である。
第1の実施形態の構成図である。 第2の実施形態の構成図である。 第2の実施形態の動作を示す動作フローチャートである。 音声加工部104における受話音量変更動作の一例を示す説明図である。 基準範囲算出部102の構成図である。 基準範囲算出部102の動作を示す動作フローチャートである。 第1の従来技術の構成図である。 第2の従来技術の構成図である。
符号の説明
101 音響分析部
101−1 時間分割部
101−2 母音検出部
101−3 母音標準パターン辞書部
101−4 無声化母音検出部
101−5 発話速度算出部
102 基準範囲算出部
102−1 判定部
102−2 更新部
102−3 格納部
103 比較部
104 音声加工部
104−1 増幅率決定部
104−2 振幅変更部
701、703 話速算出部
702 マイク
704 速度差算出部
705 話速変換部
706 スピーカ
801 通信網
802 通信インタフェース部
803 キー入力部
804 全体制御部
805 送話部
806 受話部
807 送話音声レベル検知部
808 受話音声レベル管理部
809 受話音声増幅部

Claims (5)

  1. 受話音声加工する音声加工装置であって、
    入力される送話音声の第1の特徴量を分析する音響分析部と、
    前記送話音声の第1の特徴量から少なくとも前記第1の特徴量の平均値である基準を算出する基準範囲算出部と、
    前記送話音声の第1の特徴量と前記基準とを比較して比較結果を出力する比較部と、
    前記比較結果に基づいて入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか1つ以上の第2の特徴量を、前記第1の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工部と、
    を含むことを特徴とする音声加工装置。
  2. 前記基準範囲算出部は、前記基準として、更に前記送話音声の第1の特徴量の分散を表す統計量を算出する、
    ことを特徴とする請求項に記載の音声加工装置。
  3. 前記基準範囲算出部は、前記送話音声の第1の特徴量が前記基準に含まれているかを判定し、含まれている場合のみ前記基準を更新する、
    ことを特徴とする請求項1乃至の何れか1項に記載の音声加工装置。
  4. 前記音響分析部は、前記送話音声の第1の特徴量として、パワー、発話速度、ピッチ周波数、パワースペクトル、発話の間の長さのうちの何れかを算出する、
    ことを特徴とする請求項1乃至の何れか1項に記載の音声加工装置。
  5. 受話音声加工する音声加工方法であって、
    入力される送話音声の第1の特徴量を分析する音響分析ステップと、
    前記送話音声の第1の特徴量から少なくとも前記第1の特徴量の平均値である基準を算出する基準範囲算出ステップと、
    前記送話音声の第1の特徴量と前記基準とを比較して比較結果を出力する比較ステップと、
    前記比較結果に基づいて入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか1つ以上の第2の特徴量を、前記第1の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工ステップと、
    を含むことを特徴とする音声加工方法。
JP2008313607A 2008-12-09 2008-12-09 音声加工装置及び音声加工方法 Expired - Fee Related JP5326533B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008313607A JP5326533B2 (ja) 2008-12-09 2008-12-09 音声加工装置及び音声加工方法
US12/631,050 US8364475B2 (en) 2008-12-09 2009-12-04 Voice processing apparatus and voice processing method for changing accoustic feature quantity of received voice signal
EP09178172.4A EP2196990A3 (en) 2008-12-09 2009-12-07 Voice processing apparatus and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008313607A JP5326533B2 (ja) 2008-12-09 2008-12-09 音声加工装置及び音声加工方法

Publications (2)

Publication Number Publication Date
JP2010139571A JP2010139571A (ja) 2010-06-24
JP5326533B2 true JP5326533B2 (ja) 2013-10-30

Family

ID=42058386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008313607A Expired - Fee Related JP5326533B2 (ja) 2008-12-09 2008-12-09 音声加工装置及び音声加工方法

Country Status (3)

Country Link
US (1) US8364475B2 (ja)
EP (1) EP2196990A3 (ja)
JP (1) JP5326533B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
US9177570B2 (en) * 2011-04-15 2015-11-03 St-Ericsson Sa Time scaling of audio frames to adapt audio processing to communications network timing
CN105830152B (zh) * 2014-01-28 2019-09-06 三菱电机株式会社 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
JP6405653B2 (ja) * 2014-03-11 2018-10-17 日本電気株式会社 音声出力装置および音声出力方法
JP6394103B2 (ja) * 2014-06-20 2018-09-26 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6555909B2 (ja) * 2015-03-20 2019-08-07 キヤノン株式会社 放射線撮像装置及び放射線撮像システム
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US11205056B2 (en) * 2019-09-22 2021-12-21 Soundhound, Inc. System and method for voice morphing

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721759B2 (ja) 1983-05-25 1995-03-08 株式会社東芝 音声認識応答装置
JPH06252987A (ja) 1993-02-26 1994-09-09 Matsushita Electric Ind Co Ltd 音声通信装置
KR100372208B1 (ko) * 1993-09-09 2003-04-07 산요 덴키 가부시키가이샤 음성신호의시간축압축/신장방법
JP2951181B2 (ja) 1993-12-24 1999-09-20 三洋電機株式会社 音声時間軸圧縮装置及び音声時間軸伸長装置、並びに音声時間軸圧縮伸長装置
JP3263546B2 (ja) * 1994-10-14 2002-03-04 三洋電機株式会社 音響再生装置
FI102337B1 (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
JPH09152890A (ja) 1995-11-28 1997-06-10 Sanyo Electric Co Ltd 音響機器
JP3379348B2 (ja) 1996-09-03 2003-02-24 ヤマハ株式会社 ピッチ変換器
DE60113985T2 (de) * 2000-05-18 2006-06-29 Ericsson Inc., Plano Gerausch-adaptive kommunikationsignalpegelregelung
JP2004219506A (ja) 2003-01-10 2004-08-05 Toshiba Corp コードブック作成方法、コードブック作成装置及び通信端末装置
WO2004068467A1 (en) * 2003-01-31 2004-08-12 Oticon A/S Sound system improving speech intelligibility
JP2004252085A (ja) * 2003-02-19 2004-09-09 Fujitsu Ltd 音声変換システム及び音声変換プログラム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2007086592A (ja) * 2005-09-26 2007-04-05 Fuji Xerox Co Ltd 音声出力装置および音声出力方法
JP2008197200A (ja) * 2007-02-09 2008-08-28 Ari Associates:Kk 了解度自動調整装置及び了解度自動調整方法

Also Published As

Publication number Publication date
EP2196990A2 (en) 2010-06-16
JP2010139571A (ja) 2010-06-24
EP2196990A3 (en) 2013-08-21
US8364475B2 (en) 2013-01-29
US20100082338A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
JP5326533B2 (ja) 音声加工装置及び音声加工方法
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US8751221B2 (en) Communication apparatus for adjusting a voice signal
US20040138876A1 (en) Method and apparatus for artificial bandwidth expansion in speech processing
EP2816558B1 (en) Speech processing device and method
JP2006085176A (ja) 帯域制限オーディオ信号の帯域拡大
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
WO2006113029A1 (en) Bandwidth efficient digital voice communication system and method
KR20080064557A (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
JP6073456B2 (ja) 音声強調装置
US9905250B2 (en) Voice detection method
JPS60107700A (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
KR20060122854A (ko) 오디오 신호 처리를 위한 시스템 및 방법
US9620149B2 (en) Communication device
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
JPWO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
US20060106603A1 (en) Method and apparatus to improve speaker intelligibility in competitive talking conditions
JP7404664B2 (ja) 音声処理装置及び音声処理方法
EP1619665A1 (en) Voice coding apparatus and method using PLP in mobile communications terminal
KR101151746B1 (ko) 오디오 신호용 잡음제거 방법 및 장치
JP4632831B2 (ja) 音声認識方法および音声認識装置
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JPH10224898A (ja) 補聴器
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees