JP2010239542A - Voice processor - Google Patents
Voice processor Download PDFInfo
- Publication number
- JP2010239542A JP2010239542A JP2009087197A JP2009087197A JP2010239542A JP 2010239542 A JP2010239542 A JP 2010239542A JP 2009087197 A JP2009087197 A JP 2009087197A JP 2009087197 A JP2009087197 A JP 2009087197A JP 2010239542 A JP2010239542 A JP 2010239542A
- Authority
- JP
- Japan
- Prior art keywords
- age
- sound
- unit
- user
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は音声処理装置に関する。 The present invention relates to a voice processing apparatus.
従来、使用者の年齢情報を操作部から入力して、音声の周波数特性やレベルを使用者の年齢層による聴力の劣化に合わせて補正する音声補正装置が知られている(特許文献1参照)。 2. Description of the Related Art Conventionally, a voice correction device is known that inputs user's age information from an operation unit and corrects the frequency characteristics and level of the voice in accordance with the deterioration of hearing ability of the user's age group (see Patent Document 1). .
しかしながら、上記の従来の音声補正装置では、使用者自らが操作部を用いて自分の年齢情報を入力する必要があった。そのため、使用者が異なった場合に、自動的に最適な音声の補正を行うことが不可能であった。 However, in the above-described conventional audio correction device, the user himself / herself has to input his / her age information using the operation unit. For this reason, it has been impossible to automatically perform optimum sound correction when users are different.
本発明は上記の点に鑑みてなされたものであり、その目的は、使用者に応じて自動的に最適な音声の補正を行うことが可能な音声処理装置を提供することにある。 The present invention has been made in view of the above points, and an object of the present invention is to provide an audio processing apparatus capable of automatically correcting an optimal audio in accordance with a user.
本発明は上記の課題を解決するためになされたものであり、本発明に係る音声処理装置は、撮影手段によって撮影された人物の画像に基づいて該人物の年齢、又は、年齢及び性別に関する属性を推定する属性推定手段と、前記属性推定手段によって推定された属性に応じた聴覚補償処理を音声信号に施す音声補正手段と、を備えることを特徴とする。 The present invention has been made to solve the above-described problems, and the sound processing device according to the present invention is based on an image of a person photographed by photographing means, or an attribute relating to the age or sex of the person. Attribute estimation means for estimating the sound signal, and sound correction means for performing auditory compensation processing on the sound signal according to the attribute estimated by the attribute estimation means.
この構成によれば、人物を撮影して得られた画像からその人物の年齢や性別を推定し聴覚補償処理を行うので、使用者自らが年齢情報等を入力することなく、その人物の属性に合った適切な音声の補正を実施することができる。 According to this configuration, since the age and sex of the person is estimated from the image obtained by photographing the person and the hearing compensation process is performed, the user himself / herself does not input age information and the like to the attribute of the person. Appropriate sound correction can be performed.
また、本発明は、上記の音声処理装置において、前記聴覚補償処理は、前記属性推定手段によって推定された属性に応じて前記音声信号の音量を周波数毎に補正する処理、又は、前記属性推定手段によって推定された属性に応じて前記音声信号のフォルマントを整形する処理、又は、前記属性推定手段によって推定された属性に応じて前記音声信号の話速を変換する処理、を含むことを特徴とする。 Further, according to the present invention, in the audio processing device, the auditory compensation processing is a process of correcting the volume of the audio signal for each frequency according to the attribute estimated by the attribute estimation means, or the attribute estimation means A process of shaping the formant of the speech signal according to the attribute estimated by the method, or a process of converting the speech speed of the speech signal according to the attribute estimated by the attribute estimation means. .
この構成によれば、周波数毎に音量を変更するので、使用者にとって聴き取りやすい音声を作り出すことができる。例えば高音の音量をより大きくすることで、高齢者が聴き取りにくい高音を聴き取りやすい音声とすることができる。また、この構成によれば、音声信号のフォルマントを整形することによって音質が改善されるので、使用者にとって聴き取りやすい音声を作り出すことができる。また、この構成によれば、話速変換をするので、音声を使用者にとって聴き取りやすいスピードにすることができる。 According to this configuration, since the volume is changed for each frequency, it is possible to create a voice that can be easily heard by the user. For example, by increasing the volume of the high sound, it is possible to make the sound easy to hear a high sound that is difficult for an elderly person to hear. Further, according to this configuration, since the sound quality is improved by shaping the formant of the audio signal, it is possible to create an audio that is easy for the user to hear. Further, according to this configuration, since the speech speed is converted, it is possible to achieve a speed at which the user can easily hear the voice.
また、本発明は、上記の音声処理装置において、前記人物までの距離を算出する距離算出手段を備え、前記音声補正手段は、前記距離算出手段によって算出された距離に応じて前記音声信号の音量を補正する処理を行うことを特徴とする。 Further, the present invention is the above sound processing apparatus, further comprising distance calculating means for calculating a distance to the person, wherein the sound correcting means is a volume of the sound signal according to the distance calculated by the distance calculating means. It is characterized in that a process for correcting is performed.
この構成によれば、人物との距離を考慮して音量を補正するので、使用者が近くにいるか遠くにいるかに応じてより適切な音声の補正を実施することができる。 According to this configuration, since the sound volume is corrected in consideration of the distance to the person, more appropriate sound correction can be performed depending on whether the user is near or far away.
また、本発明は、上記の音声処理装置において、前記音声補正手段は、処理前の音声信号の音量が大きいほどゲインを小さく設定して、前記音声信号の音量を前記ゲインに従って補正する処理を行うことを特徴とする。 Further, according to the present invention, in the audio processing apparatus, the audio correction unit performs a process of setting the gain to be smaller as the volume of the audio signal before processing is larger and correcting the volume of the audio signal according to the gain. It is characterized by that.
この構成によれば、処理前の音声信号の音量が大きい場合には小さいゲインで音量を増大させる処理を行うので、過大な音量で音声が出力されてしまうことを防ぐことができ、補正後の音声を快適なものとすることができる。 According to this configuration, when the volume of the sound signal before processing is high, the volume is increased with a small gain, so that it is possible to prevent the sound from being output with an excessive volume, and after the correction, The voice can be made comfortable.
本発明によれば、使用者に応じて自動的に最適な音声の補正を行うことが可能である。 According to the present invention, it is possible to automatically correct an optimum sound according to a user.
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態による音声処理装置の構成を示す機能ブロック図である。同図において、音声処理装置は、属性推定部10と音声補正部20を含んで構成される。属性推定部10は、年齢推定部101及び性別推定部102から構成され、音声補正部20は、フーリエ変換部201、スペクトル補正部202、補正量決定部203、補正量記憶部204、及び逆フーリエ変換部205から構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(First embodiment)
FIG. 1 is a functional block diagram showing the configuration of the speech processing apparatus according to the first embodiment of the present invention. In the figure, the speech processing apparatus includes an
この音声処理装置は、例えば、利用者の操作に応じ利用者に音声で各種の案内を行う公共施設等の音声案内装置や、対話型ロボットなどに搭載される。これら音声案内装置及びロボットには、撮像部50が設けられている。
This voice processing device is mounted on, for example, a voice guidance device in a public facility or the like that performs various types of guidance to the user in response to a user's operation, an interactive robot, or the like. These voice guidance devices and robots are provided with an
撮像部50は、撮像部50の前にいる利用者の顔を撮影して、撮影により得られた利用者の顔の画像データを音声処理装置の属性推定部10へ出力する。撮影は、静止画撮影、動画撮影のいずれでもよい。静止画撮影の場合、例えば、所定の時間間隔(例えば1秒おき)で自動で撮影を行って、得られた画像に人物の顔が含まれるか否かを画像処理により判定する方法や、利用者が能動的に所定のボタン(例えば、音声案内装置の利用開始ボタン)を操作することにより撮影を行うといった方法を用いることで、利用者の顔の画像データを得ることができる。また、動画撮影の場合、得られた動画像から同様に画像処理によって人物の顔が含まれるフレームを切り出すようにすればよい。
The
属性推定部10は、撮像部50から入力された利用者の顔の画像データから、その利用者の年齢及び性別についての属性を推定する。具体的には、属性推定部10は、上記の画像データに基づいて、年齢推定部101により当該利用者の年齢を推定するとともに、性別推定部102により当該利用者の性別を推定する。人の聴力は年齢や性別によって差があるので、これら推定された年齢及び性別の属性は、画像データの人物の聴力を示す指標として利用することが可能である。
The
年齢推定部101は、図示しない所定のデータベースを参照することにより、入力された利用者の顔の画像データに基づいて当該画像データの人物の年齢、或いはある年齢の幅をもった年代(例えば、60歳代や60歳代後半等)を推定する。また、性別推定部102は、同様に、図示しない所定のデータベースを参照することにより、入力された利用者の顔の画像データに基づいて当該画像データの人物の性別を推定する。年齢推定部101と性別推定部102の機能を明確に分けず、入力された利用者の画像データに基づきデータベースを参照して年齢と性別とを同時に推定する構成としてもよい。
The
上記所定のデータベースには、性別毎及び年齢毎(或いは年代毎)の平均的な顔の画像データが記憶されている。例えば、60歳代の男性の平均的な顔の画像データD1、60歳代の女性の平均的な顔の画像データD2、70歳代の男性の平均的な顔の画像データD3、70歳代の女性の平均的な顔の画像データD4、…といった具合である。このデータベースは、予め多数の顔画像のサンプルを例えば平均化するなどの方法を用いて構築されたものである。年齢推定部101及び性別推定部102は、データベースに記憶されているこれら複数の画像データと、入力された利用者の画像データとを照合して、データベースの複数の画像データから入力画像データと最も類似した画像データを選択し、選択した画像データが示す年齢(年代)と性別を、年齢(年代)と性別の推定結果とする。例えば、上記の画像データD1が選択されたとすると、推定結果は「年齢=60歳代、性別=男性」となる。
The predetermined database stores average face image data for each gender and each age (or every age). For example, average face image data D1 of men in their 60s, average face image data D2 of women in their 60s, average face image data D3 of men in their 70s, 70s The average face image data D4 of the females, and so on. This database is constructed in advance using a method such as averaging a large number of face image samples in advance. The
なお、年齢推定部101と性別推定部102による年齢及び性別の推定において、上記のように性別毎及び年齢毎の平均的な顔の画像データと照合する方法に代えて、例えば、顔のシワの数や密度といった年齢と性別に特有な顔の特徴パラメータを年齢及び性別毎に数値化してデータベース化しておき、入力画像データから同じ様にして抽出した特徴パラメータの値をそのデータベースと比較することにより、年齢と性別を決定する方法を用いてもよい。また、顔ではなく、髪の色や量、あるいは容姿全体(姿勢など)などを画像データから割り出して、これらに基づいて年齢や性別を推定するようにしてもよい。
In the estimation of age and gender by the age estimating
属性推定部10は、こうして得られた利用者の年齢と性別の推定結果を音声補正部20へ出力する。このように、画像データによって利用者の年齢と性別の属性を推定しているので、これらの属性を利用者が入力する手間を省略することができる。
The
音声補正部20は、属性推定部10から入力された利用者の年齢と性別の推定結果に従って、入力音声信号に利用者に応じた聴覚補償処理を施す。入力音声信号は、例えば、本音声処理装置が搭載された音声案内装置(や対話型ロボット)によって当該利用者に案内すべき音声であり、音声案内装置(や対話型ロボット)の所定のブロックから音声補正部20へ供給される。音声補正部20による聴覚補償処理は、入力音声の音量を周波数毎に補正する処理であり、その補正量は、利用者の年齢と性別に応じた補正量とする(後述の図2を参照)。上述したように、年齢及び性別は利用者の聴力を表す指標であるため、この聴覚補償処理によって、入力音声信号を利用者に応じた最適な音声に補正することができる。
The
補正量記憶部204は、入力音声の音量を補正する際の補正量(ゲイン)を利用者の年齢毎(或いは年代毎)及び性別毎に記憶している。補正量は、入力音声信号の代表周波数f1,f2,f3,…における音圧レベルをそれぞれどれだけ増加させるかを指定する値G(f1),G(f2),G(f3),…である。図2に、補正量記憶部204が記憶している補正量のデータの一例を示す。補正量の単位はデシベルである。
The correction
図2は、例えば、利用者が60歳代の男性であった場合、入力音声の音量を補正する処理として、f1=125Hzの音圧レベルをG(f1)=5デシベル増加させ、f2=250Hzの音圧レベルをG(f2)=5デシベル増加させ、f3=500Hzの音圧レベルをG(f3)=6デシベル増加させ、f4=1000Hzの音圧レベルをG(f4)=7デシベル増加させ、f5=1500Hzの音圧レベルをG(f5)=10デシベル増加させ、f6=2000Hzの音圧レベルをG(f6)=12デシベル増加させ、f7=3000Hzの音圧レベルをG(f7)=20デシベル増加させ、f8=4000Hzの音圧レベルをG(f8)=28デシベル増加させ、f9=6000Hzの音圧レベルをG(f9)=32デシベル増加させ、f10=8000Hzの音圧レベルをG(f10)=39デシベル増加させる処理を行うことを表している。 FIG. 2 shows that, for example, when the user is a man in his 60s, the sound pressure level of f1 = 125 Hz is increased by G (f1) = 5 decibels and f2 = 250 Hz as processing for correcting the volume of the input voice. Is increased by G (f2) = 5 decibels, the sound pressure level at f3 = 500 Hz is increased by G (f3) = 6 decibels, and the sound pressure level at f4 = 1000 Hz is increased by G (f4) = 7 decibels. , F5 = 1500 Hz sound pressure level is increased by G (f5) = 10 dB, f6 = 2000 Hz sound pressure level is increased by G (f6) = 12 dB, and f7 = 3000 Hz sound pressure level is G (f7) = Increase the sound pressure level of f8 = 4000 Hz by G (f8) = 28 dB and increase the sound pressure level of f9 = 6000 Hz by G (f9) = 32 dB. The sound pressure level of f10 = 8000 Hz represents performing the process of increasing G (f10) = 39 decibels.
なお、図2の補正量のデータは、例えば、予め多くの人の聴力を測定して、その測定結果を基に作成しておくものとする。具体的には、年代毎、性別毎に聴力測定をして最小可聴閾値(被験者が聴き取れる最小の音圧レベル)の統計をとり、最小可聴閾値が大きい周波数の補正量は大きく、最小可聴閾値が小さい周波数の補正量は小さく設定する。最小可聴閾値は加齢によって変化し、性別でも異なるので、図2のように年代及び性別毎の補正量のデータを得ることができる。また、図2の補正量の値は、年代が高く且つ周波数が高いほど大きな値となっているが、これは、高齢者は低音に比べて高音が聴き取りにくく、高音ほど最小可聴閾値が大きいからである。このため、高い年代では、高い周波数の音圧レベルを低い周波数よりも大きく増加させるような聴覚補償処理を行うことが必要となる。 Note that the correction amount data in FIG. 2 is created based on the measurement results obtained by measuring the hearing ability of many people in advance, for example. Specifically, the hearing ability is measured for each age group and gender, and the minimum audible threshold (minimum sound pressure level that the subject can hear) is taken. The minimum audible threshold is large and the minimum audible threshold is large. The correction amount for a frequency with a small is set small. Since the minimum audible threshold varies with aging and varies with gender, correction amount data for each age and gender can be obtained as shown in FIG. In addition, the value of the correction amount in FIG. 2 is larger as the age is higher and the frequency is higher, but this is because older people are less likely to hear high sounds than low sounds, and the minimum audible threshold is higher as the sound is higher. Because. For this reason, in a high age, it is necessary to perform auditory compensation processing that increases the sound pressure level of a high frequency more than a low frequency.
補正量決定部203は、属性推定部10から利用者の年齢及び性別の推定結果を取得し、その推定結果の年齢と性別に対応する補正量のデータG(f1),G(f2),G(f3),…(即ち、図2の1列分のデータ)を補正量記憶部204から取得する。更に、補正量決定部203は、得られた補正量のデータを補間して、音声の周波数帯域内における任意の周波数fについての補正量G(f)を求め、求めた補正量G(f)をスペクトル補正部202へ指示する。
The correction
一方、聴覚補償処理の対象である音声信号は、フーリエ変換部201に入力される。フーリエ変換部201は、入力された時間領域の音声信号をフーリエ変換することにより周波数領域の音声信号S(f)を求め、この周波数領域の音声信号S(f)をスペクトル補正部202へ出力する。
On the other hand, the audio signal that is the target of the auditory compensation process is input to the
スペクトル補正部202は、フーリエ変換部201から入力された周波数領域の音声信号S(f)に対して、補正量決定部203により指示された補正量G(f)に従ってスペクトルの補正を行い、スペクトル補正後の音声信号S’(f)を逆フーリエ変換部205へ出力する。スペクトルの補正は、例えば、任意の周波数fにおける入力音声信号の音圧レベルS(f)を補正量G(f)の分だけ増加させる(補正量G(f)のゲインを与える)処理とする。この場合、入力音声信号のスペクトルは、S(f)からS(f)+G(f)へ変化し、スペクトル補正後の音声信号は、S’(f)=S(f)+G(f)となる(但し、S,S’,Gはいずれも対数表示とする)。このように、年齢毎及び性別毎の補正量G(f)を用いることにより、利用者の年齢と性別に応じて、入力音声の音量(音圧レベル)が周波数毎に補正される。
The
逆フーリエ変換部205は、スペクトル補正部202によってスペクトルが補正された周波数領域の音声信号S’(f)を逆フーリエ変換することにより時間領域の音声信号を求め、求めた時間領域の音声信号を音声補正部20の出力音声信号として出力する。
The inverse
以上説明したように、本実施形態の音声処理装置によれば、撮像部50の前に利用者がいる場合に、撮像部50によって撮影された利用者の画像データに基づいて当該利用者の年齢と性別が推定され、求められた年齢及び性別に応じて、音声の音量が周波数毎に補正される。したがって、利用者が年齢等の情報を入力する操作を行うことなく、自動的に、利用者に応じた聴覚補償処理を音声に施すことができる。
As described above, according to the audio processing device of the present embodiment, when there is a user in front of the
(第2の実施形態)
図3は、本発明の第2の実施形態による音声処理装置の構成を示す機能ブロック図である。同図において、音声処理装置は、あらたに距離算出部30を備えている。本実施形態は、補正量決定部203が距離算出部30の出力をも考慮して補正量を決定するという内容を第1の実施形態に追加したものである。
(Second Embodiment)
FIG. 3 is a functional block diagram showing the configuration of the speech processing apparatus according to the second embodiment of the present invention. In the figure, the speech processing apparatus is newly provided with a
距離算出部30は、撮像部50から利用者の顔が含まれた画像データを取得し、その画像内における顔の大きさに基づき撮像部50と当該利用者の距離を算出して、得られた距離の値dを補正量決定部203へ出力する。撮像部50と利用者の距離dは、画像内における顔の大きさから撮像部50が利用者の顔を見込む見込み角φを求め、この見込み角φと人の顔の実際の大きさとして想定される値hとから、d=h/tanφ≒h/φの関係により求めることができる。なお、距離算出部30は、これ以外の方法を用いて利用者との距離を算出するものであってもよい。例えば、超音波を照射して利用者からの反射波を受信するまでの時間を計測することで、利用者との距離を算出することができる。
The
補正量決定部203は、第1の実施形態において求めた補正量G(f)を、距離算出部30が算出した距離dに応じて変化させ、変化後の補正量G’(f)をスペクトル補正部202へ指示する。なお、補正量G(f)をG’(f)に変化させる際の変化量は、周波数によらない一定値でよい。スペクトル補正部202は、この補正量G’(f)に従って、第1の実施形態と同様に音声信号S(f)に対するスペクトルの補正を行う。
The correction
補正量G’(f)は、利用者と撮像部50の距離が離れている場合にその値が大きくなるようにし、利用者と撮像部50の距離が近い場合はその値が小さくなるようにする。こうすることで、利用者が遠くにいるときは音声の音量がより大きくなる補正が行われ、反対に利用者が近くにいるときは音声の音量がより小さくなる補正が行われることになる。
The correction amount G ′ (f) is such that the value increases when the distance between the user and the
例えば、音源から発せられた音が利用者の耳に届いたとき、利用者の位置における音の音圧レベルは音源と利用者との距離の2乗に反比例する(距離が2倍になると音圧レベルは6デシベル下がる)ので、補正量G’(f)を
G’(f)=G(f)+6・log2(d/d0)
とする。但し、d0はある所定の基準値である。この場合、利用者と撮像部50の距離がd=2・d0のときG’(f)=G(f)+6、d=4・d0のときG’(f)=G(f)+12、d=8・d0のときG’(f)=G(f)+18、d=d0/2のときG’(f)=G(f)−6、…のようになるので、距離の2乗に反比例して変化する音圧レベルがちょうど補償されて、利用者と撮像部50の距離によらず、利用者の位置での音圧レベルを常に一定にすることができる。
For example, when sound emitted from a sound source reaches the user's ear, the sound pressure level of the sound at the user's position is inversely proportional to the square of the distance between the sound source and the user (when the distance is doubled, the sound Since the pressure level is reduced by 6 dB), the correction amount G ′ (f) is changed to G ′ (f) = G (f) + 6 · log 2 (d / d0)
And However, d0 is a certain predetermined reference value. In this case, G ′ (f) = G (f) +6 when the distance between the user and the
このように、本実施形態の音声処理装置によれば、距離算出部30によって算出された利用者との距離に応じて、自動的に、音声の音量を適切に補正することができる。
As described above, according to the sound processing apparatus of the present embodiment, the sound volume can be automatically corrected appropriately according to the distance from the user calculated by the
(第3の実施形態)
本実施形態では、出力音声の音量が過大になってしまうことを防止するために、入力音声の音量が大きいほど補正量G(f)を小さくする。図4を参照して、補正量G(f)の決定方法を説明する。
(Third embodiment)
In this embodiment, in order to prevent the volume of the output sound from becoming excessive, the correction amount G (f) is decreased as the volume of the input sound is increased. A method for determining the correction amount G (f) will be described with reference to FIG.
補正量決定部203は、まず、第1の実施形態と同様に、補正量記憶部204から利用者の年齢と性別に対応する補正量のデータG(f1)を取得する。また、補正量決定部203は、入力音声信号の周波数f1における音圧レベルの値S(f1)をフーリエ変換部201から取得する。補正量決定部203は、取得した補正量のデータG(f1)と音圧レベルの値S(f1)から、次式
G’(f1)=G(f1)
(0≦S(f1)<Lminのとき)
G’(f1)=G(f1)・α(S(f1))
(Lmin≦S(f1)<Lthのとき)
G’(f1)=Lth−S(f1)
(S(f1)≧Lthのとき)
を用いて修正した補正量G’(f1)を計算する。但し、α(L)は単調減少する入力音圧レベルLの関数であって、0≦α(L)≦1及びα(Lmin)=1及びα(Lth)=0であるとする。また、Lthは、音が大きすぎることによる不快感を聴者が覚えることのない、最大の音圧レベルを表す。また、Lminは、Lthより小さい任意の値であり、例えば、最小可聴閾値(被験者が聴き取れる最小の音圧レベル)である。
The correction
(When 0 ≦ S (f1) <L min )
G ′ (f1) = G (f1) · α (S (f1))
(When L min ≦ S (f1) <L th )
G ′ (f1) = L th −S (f1)
(When S (f1) ≧ L th )
The correction amount G ′ (f1) corrected using is calculated. However, α (L) is a function of the input sound pressure level L that monotonously decreases, and it is assumed that 0 ≦ α (L) ≦ 1, α (L min ) = 1, and α (L th ) = 0. L th represents the maximum sound pressure level at which the listener does not feel discomfort due to the sound being too loud. L min is an arbitrary value smaller than L th , and is, for example, a minimum audible threshold value (minimum sound pressure level at which the subject can listen).
このような修正補正量G’(f1)のゲインを入力音声に与えた場合、周波数f1の音圧レベルは、図4(A)に示すように、入力音圧レベルS(f1)が大きくなるにつれて小さなゲイン(G’(f1))でその値が増加していき、入力音圧レベルS(f1)が最大音圧レベルLthを超えると一定値Lthをとることとなる。そのため、出力音圧レベルが最大音圧レベルLthより大きくなることはなく、過大音による不快感を聴者に感じさせてしまうことを避けることができる。 When such a correction correction amount G ′ (f1) is gained to the input voice, the sound pressure level of the frequency f1 is increased as shown in FIG. 4A. It brought the value with a small gain (G '(f1)) and is gradually increased to the input sound pressure level S (f1) is to take a constant value L th exceeds the maximum sound pressure level L th. Therefore, it is possible to avoid that the output sound pressure level is not be greater than the maximum sound pressure level L th, it will feel discomfort due to excessive sound to the listener.
なお、第1の実施形態における補正量G(f1)は、入力音声の音量によらない一定値であるため、この補正量G(f1)のゲインを入力音声に与えると、図4(B)に示すように、大きな入力音圧レベルに対して出力音圧レベルが最大音圧レベルLthを超えることになる。このように、本(第3の)実施形態は、音の聴き取りやすさの点で第1の実施形態より優れている。 Since the correction amount G (f1) in the first embodiment is a constant value that does not depend on the volume of the input sound, if the gain of this correction amount G (f1) is given to the input sound, FIG. as shown, the output sound pressure levels for large input sound pressure level will exceed the maximum sound pressure level L th. Thus, the present (third) embodiment is superior to the first embodiment in terms of ease of listening to sound.
補正量決定部203は、続いて、他の周波数に対応する修正補正量G’(f2),G’(f3),…を同様にして計算する。このとき、関数α(L)は各周波数で異なっていてもよい。補正量決定部203は、こうして得られた修正補正量のデータG’(f1),G’(f2),G’(f3),…を第1の実施形態と同様に補間して、音声の周波数帯域内における任意の周波数fについての修正補正量G’(f)を求める。以上により求められた修正補正量G’(f)に従って、第1の実施形態と同様、スペクトル補正部202による音声信号S(f)のスペクトル補正が行われる。
Subsequently, the correction
このように、本実施形態の音声処理装置によれば、出力音声の音量が過大になってしまうことを防止することができる。 Thus, according to the audio processing device of this embodiment, it is possible to prevent the volume of the output audio from becoming excessive.
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the scope of the present invention. It is possible to
例えば、上述したスペクトル補正部202に代えて、フーリエ変換部201から入力された音声信号S(f)のフォルマントを整形するフォルマント整形部を設けた構成としてもよい。ここで、フォルマントの整形とは、図5に示すように、入力音声信号S(f)の第1フォルマント,第2フォルマント,第3フォルマント,…の各周波数(F1,F2,F3,…)における音圧レベルを増加させるとともに、第1フォルマントと第2フォルマントの間,第2フォルマントと第3フォルマントの間,…の音圧レベルが落ち込んでいる各周波数における音圧レベルを減少させる処理のことである。この処理により、各フォルマントが強調されるため、音声を明瞭にすることができる。例えば、利用者の年齢が高い場合にフォルマント整形処理を行い、年齢が低い場合はフォルマント整形処理を行わないようにしたり、利用者の年齢が高いほどフォルマント整形の度合い(音圧レベルの増減量)を大きくしたりする。こうすることで、利用者に応じた聴覚補償処理を音声に施すことができる。
For example, instead of the
また、スペクトル補正部202の代わりに、入力音声の話速変換をする話速変換部を設けた構成としてもよい。例えば、利用者の年齢に応じて、変換後の話速を変えたり、話速変換処理の実施と停止を切り替えたりする。これにより、利用者に応じた聴覚補償処理を音声に施すことができる。
Moreover, it is good also as a structure which provided the speech rate conversion part which converts the speech rate of input speech instead of the spectrum correction |
また、フーリエ変換部201に代えて、フィルタバンクを用いてもよい。フィルタバンクは、入力音声信号から所定の周波数帯域毎の音声信号を生成する。この場合、スペクトル補正部202は、この周波数帯域毎の音声信号に、補正量決定部203により指示された補正量でスペクトルの補正を行えばよい。
また、フーリエ変換に代えて、コサイン変換やウェーブレット変換を用いてもよい。
また、音声補正部20は、年齢推定部101によって推定された利用者の年齢のみに応じて聴覚補償処理を行ってもよい。
また、第2の実施形態と第3の実施形態を組み合わせてもよい。
Further, a filter bank may be used instead of the
Further, instead of Fourier transform, cosine transform or wavelet transform may be used.
In addition, the
Further, the second embodiment and the third embodiment may be combined.
10…属性推定部 101…年齢推定部 102…性別推定部 20…音声補正部 201…フーリエ変換部 202…スペクトル補正部 203…補正量決定部 204…補正量記憶部 205…逆フーリエ変換部 30…距離算出部 50…撮像部
DESCRIPTION OF
Claims (4)
前記属性推定手段によって推定された属性に応じた聴覚補償処理を音声信号に施す音声補正手段と、
を備えることを特徴とする音声処理装置。 Attribute estimating means for estimating the age of the person based on the image of the person photographed by the photographing means, or an attribute relating to age and sex;
Audio correction means for performing audio compensation processing on the audio signal according to the attribute estimated by the attribute estimation means;
An audio processing apparatus comprising:
前記音声補正手段は、前記距離算出手段によって算出された距離に応じて前記音声信号の音量を補正する処理を行う
ことを特徴とする請求項1又は請求項2に記載の音声処理装置。 A distance calculating means for calculating a distance to the person;
The audio processing apparatus according to claim 1, wherein the audio correction unit performs a process of correcting a volume of the audio signal according to the distance calculated by the distance calculation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009087197A JP2010239542A (en) | 2009-03-31 | 2009-03-31 | Voice processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009087197A JP2010239542A (en) | 2009-03-31 | 2009-03-31 | Voice processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010239542A true JP2010239542A (en) | 2010-10-21 |
Family
ID=43093460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009087197A Pending JP2010239542A (en) | 2009-03-31 | 2009-03-31 | Voice processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010239542A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012105253A1 (en) * | 2011-02-01 | 2012-08-09 | Necカシオモバイルコミュニケーションズ株式会社 | Electronic device |
JP2013109051A (en) * | 2011-11-18 | 2013-06-06 | Glory Ltd | Electronic information providing system and electronic information providing method |
JP5626366B2 (en) * | 2011-01-04 | 2014-11-19 | 富士通株式会社 | Voice control device, voice control method, and voice control program |
-
2009
- 2009-03-31 JP JP2009087197A patent/JP2010239542A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5626366B2 (en) * | 2011-01-04 | 2014-11-19 | 富士通株式会社 | Voice control device, voice control method, and voice control program |
WO2012105253A1 (en) * | 2011-02-01 | 2012-08-09 | Necカシオモバイルコミュニケーションズ株式会社 | Electronic device |
JP2012160962A (en) * | 2011-02-01 | 2012-08-23 | Nec Casio Mobile Communications Ltd | Electronic device |
US9369796B2 (en) | 2011-02-01 | 2016-06-14 | Nec Corporation | Electronic device |
JP2013109051A (en) * | 2011-11-18 | 2013-06-06 | Glory Ltd | Electronic information providing system and electronic information providing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5665134B2 (en) | Hearing assistance device | |
JP5256119B2 (en) | Hearing aid, hearing aid processing method and integrated circuit used for hearing aid | |
Moller et al. | Hearing at low and infrasonic frequencies | |
US10652674B2 (en) | Hearing enhancement and augmentation via a mobile compute device | |
US20130243209A1 (en) | Method for Fitting a Hearing Aid Device With Active Occlusion Control to a User | |
US9973861B2 (en) | Method for operating a hearing aid and hearing aid | |
EP3826012B1 (en) | Method and device for evaluating performance of speech enhancement algorithm, electronic device and computer-readable storage medium | |
KR101837331B1 (en) | Method of operating a hearing aid system and a hearing aid system | |
US11871187B2 (en) | Method for configuring a hearing-assistance device with a hearing profile | |
JPWO2011152056A1 (en) | Hearing measurement apparatus and method | |
US7319770B2 (en) | Method of processing an acoustic signal, and a hearing instrument | |
KR101694225B1 (en) | Method for determining a stereo signal | |
WO2022206049A1 (en) | Audio signal processing method and apparatus, and device and storage medium | |
JP2010239542A (en) | Voice processor | |
US20100014695A1 (en) | Method for bias compensation for cepstro-temporal smoothing of spectral filter gains | |
JP2532007B2 (en) | Hearing aid fitting device | |
DK2584795T3 (en) | Method for determining a compression characteristic | |
JP2018174521A5 (en) | ||
CN115714948A (en) | Audio signal processing method and device and storage medium | |
US8107660B2 (en) | Hearing aid | |
Bispo et al. | A cepstral method to estimate the stable optimal solution for feedforward occlusion cancellation in hearing aids | |
WO2016096568A1 (en) | Hearing test system and a computer readable medium | |
KR100632236B1 (en) | gain fitting method for a hearing aid | |
Patel | Acoustic Feedback Cancellation and Dynamic Range Compression for Hearing Aids and Its Real-Time Implementation | |
WO2023286299A1 (en) | Audio processing device and audio processing method, and hearing aid appratus |