JP2005203981A - Device and method for processing acoustic signal - Google Patents

Device and method for processing acoustic signal Download PDF

Info

Publication number
JP2005203981A
JP2005203981A JP2004007206A JP2004007206A JP2005203981A JP 2005203981 A JP2005203981 A JP 2005203981A JP 2004007206 A JP2004007206 A JP 2004007206A JP 2004007206 A JP2004007206 A JP 2004007206A JP 2005203981 A JP2005203981 A JP 2005203981A
Authority
JP
Japan
Prior art keywords
signal processing
unit
acoustic signal
som
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004007206A
Other languages
Japanese (ja)
Other versions
JP4185866B2 (en
Inventor
Mutsumi Saito
睦巳 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004007206A priority Critical patent/JP4185866B2/en
Publication of JP2005203981A publication Critical patent/JP2005203981A/en
Application granted granted Critical
Publication of JP4185866B2 publication Critical patent/JP4185866B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reproduce clear sound without depending on any sound environments by improving audibility of speech, or the like, according to the distinction between voice and non-speech, surrounding noise, noise, or the degree of reverberation in an acoustic signal processor, such as a hearing aid and a television. <P>SOLUTION: In the acoustic signal processor 20 provided in the hearing aid, or the like, various acoustic signals are sorted out at a learning phase processor 27 (a learning step). In a signal processing execution phase processor 28, the acoustic signal sorted out in the learning phase is used for signal processing to allow a user to listen to the amplification, or the like of an input acoustic signal (a signal processing execution step). <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、例えば、補聴器のように音声を聞き取りやすくして聴覚を補助する音響信号処理装置に関し、特に、音の環境に応じて適切な信号処理に用いて好適な、音響信号処理装置および音響信号処理方法に関する。   The present invention relates to an acoustic signal processing device that facilitates hearing and assists hearing, such as a hearing aid, for example, and in particular, an acoustic signal processing device and an acoustic device that are suitable for appropriate signal processing depending on the sound environment. The present invention relates to a signal processing method.

一般に、音響信号処理装置は、様々な音の受信および再生に用いられ、ユーザの周囲の音環境あるいは音響信号処理システムに入力される音の種類に応じて、適切な信号処理の方式又は信号処理のパラメータ(増幅度等)が異なることが多い。例えば補聴器の音響信号処理装置は、音声又は非音声の種別,周囲の騒音又は残響等(以下、音環境と称する。)の程度に応じて適切な増幅特性が異なる。このため、最大の音声明瞭度を実現するためには、環境毎にモード切り替えとパラメータの調整とが必要である。   In general, an acoustic signal processing apparatus is used for receiving and reproducing various sounds, and an appropriate signal processing method or signal processing depending on the sound environment around the user or the type of sound input to the acoustic signal processing system. Often have different parameters (amplification, etc.). For example, an acoustic signal processing device for a hearing aid has different amplification characteristics depending on the type of voice or non-voice, ambient noise or reverberation (hereinafter referred to as a sound environment). For this reason, in order to achieve the maximum speech intelligibility, mode switching and parameter adjustment are required for each environment.

従来、これらのモード切り替えおよびパラメータ調整の各動作は、ユーザが音環境に応じて手動で行なっていた。また、最近の補聴器は、増幅パラメータが異なる複数のモード切り替え機能が設けられている一方、ユーザが聞こえにくい場合は、ユーザ自身がボタン等を用いてモード切り替えできる仕様になっている。
また、従来から、環境毎にモードを切り替え又は制御する方法が種々提案されている。
Conventionally, each of these mode switching and parameter adjustment operations is manually performed by the user in accordance with the sound environment. In addition, recent hearing aids are provided with a plurality of mode switching functions with different amplification parameters. On the other hand, when it is difficult for the user to hear, the user himself can switch the mode using a button or the like.
Conventionally, various methods for switching or controlling the mode for each environment have been proposed.

例えば音声の自動利得制御装置における利得制御が提案されている(特許文献1参照)。特許文献1記載の自動利得制御装置は、算出した入力音響信号レベルと閾値との大小を比較して利得制御を行なうか否かを決定する。これにより、音声の語尾部分や背景ノイズに対する不要な利得制御を抑えるとともに、より大きな最大利得が得られる。
また、環境騒音の質を考慮して音声の明瞭な聞き取りを行なう補聴装置が提案されている(特許文献2参照)。この聞き取り方法は、入力音響信号のレベル分布を検出し環境騒音の定常/非定常を判別し、それに応じた補聴処理を行なうものである。これにより、環境騒音の質のいかんにかかわらず聴き取り対象となる音声を明瞭に聴き取れる。
For example, gain control in a voice automatic gain control apparatus has been proposed (see Patent Document 1). The automatic gain control device described in Patent Document 1 determines whether or not to perform gain control by comparing the calculated input acoustic signal level with a threshold value. As a result, unnecessary gain control with respect to the end portion of speech and background noise can be suppressed, and a larger maximum gain can be obtained.
In addition, a hearing aid device has been proposed in which the sound is clearly heard in consideration of the quality of environmental noise (see Patent Document 2). In this listening method, the level distribution of the input acoustic signal is detected to determine whether the environmental noise is stationary or non-stationary, and a hearing aid process is performed accordingly. As a result, it is possible to clearly hear the sound to be listened to regardless of the quality of the environmental noise.

さらに、補聴器における補正方法が特許文献3に開示されている。特許文献3記載の補聴器は、聞き取り対象となる音声を入力するマイク(マイクロホン)とは別に、周囲雑音と必要な音声とを識別するための音響センサーを設け、音響センサーから得た雑音センサーに基づいて、スペクトル特性を変化させ、スペクトル補正や利得補正をリアルタイムに調整するものである。これにより、補聴器が周囲の雑音と目的の音声とを識別して、補聴器を使用する人の音響環境に精度良く適応して動作する。   Furthermore, Patent Literature 3 discloses a correction method for a hearing aid. The hearing aid described in Patent Document 3 is provided with an acoustic sensor for identifying ambient noise and necessary speech separately from a microphone (microphone) that inputs speech to be heard, and is based on a noise sensor obtained from the acoustic sensor. Thus, spectral characteristics are changed, and spectral correction and gain correction are adjusted in real time. As a result, the hearing aid recognizes ambient noise and the target voice, and operates with high accuracy and adapts to the acoustic environment of the person using the hearing aid.

また、入力音響信号から抽出した音響パラメータにしたがって補聴信号処理部の特性を決定する方法が提案されている(特許文献4参照)。特許文献4記載の補聴器は、入力音響信号の音響パラメータを、補聴特性を示すフィッティングパラメータに変換して写像関係を記述して、入力音の音響パラメータからフィッティングパラメータを自動調整するものである。これにより、補聴処理特性を環境音に適応して決定する適応特性補聴器が得られる。   In addition, a method for determining the characteristics of a hearing aid signal processing unit according to an acoustic parameter extracted from an input acoustic signal has been proposed (see Patent Document 4). The hearing aid described in Patent Document 4 converts an acoustic parameter of an input acoustic signal into a fitting parameter indicating a hearing aid characteristic, describes a mapping relationship, and automatically adjusts the fitting parameter from the acoustic parameter of the input sound. As a result, an adaptive characteristic hearing aid can be obtained in which the hearing aid processing characteristic is determined adaptively to the environmental sound.

さらに、ダイナミックレンジ圧縮型の聴覚補償処理方法が提案されている(特許文献5参照)。この特許文献5記載の聴覚補償処理方法は、健聴者と利用者のラウドネス曲線を用い、予め設定された音圧以下の入力音に対するゲインを入力音の音圧に応じて徐々に小さくするものである。そして、微小なノイズの増幅率を小さくすることで、入力音声の前後の無音部分のノイズによる時間方向のマスキングを改善できる。   Furthermore, a dynamic range compression type auditory compensation processing method has been proposed (see Patent Document 5). The hearing compensation processing method described in Patent Document 5 uses a loudness curve of a normal hearing person and a user, and gradually reduces the gain for an input sound below a preset sound pressure in accordance with the sound pressure of the input sound. is there. By reducing the amplification factor of minute noise, masking in the time direction due to noise in the silent part before and after the input speech can be improved.

加えて、音声認識等において基本的な処理であるクラスタリングとラベリングとをアナログ回路で一括して実現する回路も提案されている(特許文献6参照)。特許文献6記載の音声認識回路は、自己組織化アルゴリズムに基づいた特徴を出力する類似度回路と、類似度回路の出力信号の行列演算を行なうマトリクス回路とをそなえ、マトリクス回路が、類似度に対応した電圧信号を受けて、その行列演算出力の中から予め用意されたパターンに最も近いものを認識結果として出力させるものである。これにより、半導体集積回路に好適な小規模回路な音声認識回路が実現できる。
特開平11−220345号公報 特開2001−128296号公報 特開2000−13895号公報 特開2002−369292号公報 特開平10−94095号公報 特開2002−279393号公報
In addition, a circuit that collectively implements clustering and labeling, which are basic processes in speech recognition and the like, with an analog circuit has been proposed (see Patent Document 6). The speech recognition circuit described in Patent Document 6 includes a similarity circuit that outputs a feature based on a self-organization algorithm, and a matrix circuit that performs a matrix operation on an output signal of the similarity circuit. A corresponding voltage signal is received, and a matrix calculation output that is closest to a previously prepared pattern is output as a recognition result. Thereby, a small-scale circuit voice recognition circuit suitable for a semiconductor integrated circuit can be realized.
JP-A-11-220345 JP 2001-128296 A JP 2000-13895 A JP 2002-369292 A JP-A-10-94095 JP 2002-279393 A

しかしながら、ユーザが、家から外に出る場合等は、周囲の音環境が急激に変わると、補聴器等の音響信号処理装置は、モード切り替え動作を頻繁に行なう必要がある。従って、ユーザは手動切り替え等の煩雑な操作を行なうか、又は聞こえにくい状況を強いられるという課題がある。
一方、従来の技術は、音環境に応じて適切にモード切り替え可能ではない。例えば、特許文献1記載の自動利得制御装置と特許文献2記載の補聴装置とは、いずれも、入力音響信号レベルだけを監視するものであり、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視するものではない。このため、各装置は、周囲騒音のレベルに応じて利得等を制御することはできるが、音声又は非音声の種別,残響の有無等、周囲の音環境の状態については記載されておらず、きめ細かい制御はできない。また、特許文献2記載の補聴装置は、検出されたレベル分布の各レベル値が散在し音質が劣化する。
However, when the user goes out of the house, the acoustic signal processing device such as a hearing aid needs to frequently perform a mode switching operation when the surrounding sound environment changes abruptly. Therefore, there is a problem that the user performs a complicated operation such as manual switching or is forced to be difficult to hear.
On the other hand, the conventional technique is not capable of switching modes appropriately according to the sound environment. For example, both the automatic gain control device described in Patent Document 1 and the hearing aid device described in Patent Document 2 monitor only the input sound signal level, and the spectral characteristics other than the input sound signal level or the input sound signal It does not monitor the type. For this reason, each device can control the gain etc. according to the level of ambient noise, but it does not describe the state of the surrounding sound environment, such as the type of voice or non-voice, the presence or absence of reverberation, Fine control is not possible. Further, in the hearing aid device described in Patent Document 2, the level values of the detected level distribution are scattered and the sound quality is deteriorated.

さらに、特許文献3記載の補聴器は、音声入力マイクの他に音響センサーを設ける必要があるので、補聴器のコストが高くなる。また、特許文献3記載の補正方法は、音響センサー入力のスペクトル情報を用いて雑音をパターン化し、音声の増幅特性を制御するものだが、そのパターン化の方法の詳細は開示されていない。従って、補聴器は、サイレン音等の極端な音をパターン化できても周囲環境の分類は困難である。   Furthermore, since the hearing aid described in Patent Document 3 needs to be provided with an acoustic sensor in addition to the voice input microphone, the cost of the hearing aid increases. Moreover, although the correction method described in Patent Document 3 patterns noise using spectral information of an acoustic sensor input and controls the amplification characteristics of speech, details of the patterning method are not disclosed. Therefore, even if the hearing aid can pattern extreme sounds such as siren sounds, it is difficult to classify the surrounding environment.

そして、特許文献4には、音響パラメータと補聴信号処理部の特性とを、どのような手順を用いて写像させるかについては記載されておらず、必ずしもその効果が得られるとは限らない。また、特許文献4記載の補聴器は、音を特徴付けるパラメータを用いたものではない。さらに、写像処理が動作しない場合、適切な増幅特性とは全く別個の増幅特性となる可能性も大きく、必ずしも安定した音声処理が行なわれるわけではない。   Patent Document 4 does not describe what procedure is used to map the acoustic parameters and the characteristics of the hearing aid signal processing unit, and the effect is not always obtained. Further, the hearing aid described in Patent Document 4 does not use parameters that characterize sound. Further, when the mapping process does not operate, there is a high possibility that the amplification characteristic is completely different from the appropriate amplification characteristic, and stable audio processing is not necessarily performed.

また、特許文献5,6においても、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視する技術は開示されていない。
本発明は、このような課題に鑑み創案されたもので、例えば補聴器の音響信号処理において、入力音響信号を識別し、適切に音響信号を特徴解析し、その解析によって得られた特徴量により周囲の音環境を識別し、識別された情報に基づいて増幅特性等の音響信号を処理することにより、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生可能な、音響信号処理装置および音響信号処理方法を提供することを目的とする。
Also, Patent Documents 5 and 6 do not disclose a technique for monitoring spectral characteristics other than the input sound signal level or the type of the input sound signal.
The present invention has been devised in view of such problems. For example, in the acoustic signal processing of a hearing aid, the input acoustic signal is identified, the acoustic signal is appropriately analyzed, and the surroundings are obtained based on the characteristic amount obtained by the analysis. By identifying the sound environment and processing acoustic signals such as amplification characteristics based on the identified information, stable and appropriate acoustic signal processing can be performed in any sound environment, making it easy to hear and stable. Another object of the present invention is to provide an acoustic signal processing apparatus and acoustic signal processing method capable of reproducing highly clear voice.

このため、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、複数の学習音響信号が2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ(Self-Organizing Map:SOM)情報データ(以下、SOM情報データと称する。)を保持する自己組織化マップ保持部と、特徴量出力部からの第1の特徴量データと、自己組織化マップ保持部に保持されたSOM情報データとに基づいて、第1の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている(請求項1)。   For this reason, the acoustic signal processing device of the present invention includes a feature amount output unit that outputs first feature amount data representing a feature amount of an input acoustic signal, two-dimensional plane coordinates, and a second assigned to the coordinates. Self-Organizing Map (SOM) information data in which feature quantity data and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in a two-dimensional plane are associated with each other. (Hereinafter referred to as SOM information data)) based on the first feature quantity data from the feature quantity output section, and the SOM information data held in the self organization map holding section. The group identification information searched by the search unit for searching for the group identification information corresponding to the first feature quantity data and the search unit of the plurality of signal processing type information representing the processing type of the acoustic signal A signal processing type information output unit that outputs signal processing type information corresponding to the information, and a signal processing unit that processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit (Claim 1).

また、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、多次元空間における座標と、座標に割り当てられた第2の特徴量データと、複数の学習音響信号が多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、特徴量出力部から出力された第1の特徴量データと、自己組織化マップ保持部に保持されたSOM情報データとに基づいて、第1の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている(請求項2)。   The acoustic signal processing device according to the present invention includes a feature amount output unit that outputs first feature amount data representing a feature amount of an input acoustic signal, coordinates in a multidimensional space, and second features assigned to the coordinates. A self-organizing map holding unit for holding SOM information data in which quantity data is associated with group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in a multidimensional space; and a feature quantity output unit A search unit for searching for group identification information corresponding to the first feature amount data based on the first feature amount data output from the SOM information data stored in the self-organizing map holding unit; A signal processing type information output unit for outputting signal processing type information corresponding to the group identification information searched by the searching unit among the plurality of signal processing type information representing the signal processing type, and a signal processing Based on the signal processing type information output from the component type information output unit and a signal processing unit for processing an input sound signal is characterized in that it is configured (claim 2).

そして、この信号処理種別情報出力部は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するパラメータ調整部として構成することができる(請求項3)。
また、本発明の音響信号処理装置は、学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、特徴量出力部からの第1の特徴量データに基づいて学習音響信号を2次元平面においてグループ化する学習部と、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴としている(請求項4)。
The signal processing type information output unit may be configured as a parameter adjustment unit that adjusts and outputs a parameter related to a set value necessary for processing the acoustic signal based on the group identification information searched by the search unit. (Claim 3).
In addition, the acoustic signal processing device of the present invention learns based on the feature amount output unit that outputs the first feature amount data representing the feature amount of the learning acoustic signal, and the first feature amount data from the feature amount output unit. A learning unit that groups acoustic signals in a two-dimensional plane, coordinates of the two-dimensional plane, second feature amount data assigned to the coordinates, and group identification that identifies a plurality of groups grouped in the learning unit It is characterized by comprising a self-organizing map holding unit for holding SOM information data in which each information is associated (claim 4).

さらに、本発明の音響信号処理方法は、学習音響信号の特徴量を表す第1の特徴量データに基づいて学習音響信号について、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、学習ステップにおける第1の特徴量データについて、学習ステップにて生成されたSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴としている(請求項5)。   Furthermore, in the acoustic signal processing method of the present invention, the learning acoustic signal is based on the first feature amount data representing the feature amount of the learning acoustic signal, and the second feature amount assigned to the coordinates on the two-dimensional plane. A learning step for generating SOM information data in which data and group identification information for identifying a plurality of groups grouped by the learning unit are associated with each other, and a learning step for the first feature data in the learning step A search step for searching for neighboring coordinates located in the vicinity of the first feature value data from the feature value output unit among a plurality of coordinates in the two-dimensional plane held in the SOM information data generated in step S; The signal processing type information corresponding to the group identification information of the neighboring coordinates searched in the search step among the plurality of signal processing type information representing the processing type of And a sound signal processing step for performing sound signal processing based on the signal processing type information output in the signal processing type information output step (Claim 5). .

本発明の音響信号処理装置によれば、どのような音環境においても、安定して明瞭性の高い音声が再生される。
また、本発明の音響信号処理装置によれば、明瞭な音声が得られ、ユーザの聴感の向上に多大に寄与する。
さらに、音声又は非音声の種別にかかわらず、どのような音響信号であっても、学習フェーズを経てその音響信号の特徴量が保持されるので、一層、カスタマイズした機能を発揮することができる。
According to the acoustic signal processing device of the present invention, sound with high clarity is reproduced stably in any sound environment.
In addition, according to the acoustic signal processing device of the present invention, clear sound can be obtained, which greatly contributes to improvement of the user's audibility.
Furthermore, regardless of the type of speech or non-speech, any acoustic signal can retain its feature value through the learning phase, so that a customized function can be further exhibited.

また、SOM機能を有するメモリ(SOMメモリ)を用いることにより、本来、識別できないメモリデータが2次元平面上に表されるので、設計者は、メモリデータを視覚的に把握でき、音響信号処理に関する操作性が格段に向上し、この操作性の向上により音響信号の特徴量が効率的に分類整理できる。そして、この分類整理により、音響信号処理装置は、周囲の音環境を精度よくかつ確実に識別でき、入力された音響信号について増幅特性等の音響信号処理を安定して行なえる。これにより、明瞭な音声等が得られる。   In addition, by using a memory having an SOM function (SOM memory), memory data that cannot be uniquely identified is represented on a two-dimensional plane. Therefore, a designer can visually grasp the memory data and relates to acoustic signal processing. The operability is remarkably improved, and the feature amount of the acoustic signal can be efficiently classified and arranged by improving the operability. With this classification and arrangement, the acoustic signal processing apparatus can accurately and reliably identify the surrounding sound environment, and can stably perform acoustic signal processing such as amplification characteristics on the input acoustic signal. Thereby, clear voice or the like can be obtained.

以下、図面を参照して本発明の実施の形態を説明する。
(a)本発明の一実施形態の説明
図1は本発明の第1実施形態に係る音響信号処理装置のブロック図である。この図1に示す音響信号処理装置20は、例えば補聴器,ラジオ又はテレビの音声回路等に用いられるものであって、音声又は非音声の種別,周囲の雑音,騒音又は残響等の程度に応じて音声等が聞き取りやすくなるように適切な処理(音響信号処理)を行なうものである。この音響信号処理は、入力された音響信号のレベルについての増減,音響信号の一部のスペクトル帯域の強調又は低減等の音響信号について増幅特性を変更し、音声明瞭度を確保するようになっている。
Embodiments of the present invention will be described below with reference to the drawings.
(A) Description of One Embodiment of the Present Invention FIG. 1 is a block diagram of an acoustic signal processing apparatus according to a first embodiment of the present invention. The acoustic signal processing device 20 shown in FIG. 1 is used, for example, in a hearing aid, a radio circuit or a television audio circuit, etc., depending on the type of voice or non-voice, ambient noise, noise or reverberation, etc. Appropriate processing (acoustic signal processing) is performed so that voices and the like can be easily heard. In this acoustic signal processing, the amplification characteristic is changed for the acoustic signal such as increase / decrease in the level of the input acoustic signal, enhancement or reduction of a part of the spectrum band of the acoustic signal, and voice intelligibility is ensured. Yes.

(1)学習フェーズと信号処理実行フェーズ
本発明の音響信号処理装置20における音響信号処理方法は、主に2種類の処理フェーズを設け、様々な音響信号の分類整理を行なう学習フェーズ(学習ステップ)と、この学習フェーズにて分類整理された音響信号を用いて、入力された音響信号をユーザが聴取するために、その入力音響信号の増幅等の信号処理を行なう信号処理実行フェーズ(信号処理実行ステップ)とからなる。
(1) Learning Phase and Signal Processing Execution Phase The acoustic signal processing method in the acoustic signal processing device 20 of the present invention is mainly provided with two types of processing phases, and a learning phase (learning step) in which various acoustic signals are classified and arranged. And a signal processing execution phase (signal processing execution phase) for performing signal processing such as amplification of the input acoustic signal in order for the user to listen to the input acoustic signal using the acoustic signals classified and arranged in this learning phase. Step).

音響信号処理装置20は、補聴器,ラジオおよびテレビ等の生産時に、学習フェーズが行なわれ、多数の学習用音響信号がグループ化され、そのグループ化されたデータが記録される。すなわち、学習フェーズは、ユーザが製品を使用する以前に行なわれるものである。以下の説明において、ユーザは、学習フェーズを実行せず、常時、信号処理実行フェーズにて製品を使用する。   The acoustic signal processing device 20 performs a learning phase during production of hearing aids, radios, televisions, and the like, and groups a large number of learning acoustic signals and records the grouped data. That is, the learning phase is performed before the user uses the product. In the following description, the user does not execute the learning phase but always uses the product in the signal processing execution phase.

すなわち、本発明の音響信号処理方法は、補聴器等に設けられた音響信号処理装置20において、学習フェーズ処理部27において様々な音響信号を分類整理し(学習ステップ)、信号処理実行フェーズ処理部28において学習フェーズにて分類整理された音響信号を用いて上記入力音響信号の増幅等をユーザが聴取するために信号処理する(信号処理実行ステップ)。   That is, according to the acoustic signal processing method of the present invention, in the acoustic signal processing device 20 provided in a hearing aid or the like, various acoustic signals are classified and organized in the learning phase processing unit 27 (learning step), and the signal processing execution phase processing unit 28 is processed. The signal processing is performed for the user to listen to the amplification of the input sound signal using the sound signals classified and arranged in the learning phase (signal processing execution step).

(2)音響信号処理装置20の構成
この音響信号処理装置20は、音声入力部50と、特徴解析部(特徴量出力部)21と、SOM学習部(自己組織化学習部)26と、SOM座標検索部22と、SOM情報格納メモリ(自己組織化マップ保持部)23と、信号処理種別情報出力部24と、音響信号処理部25と、アンプ51と、イヤホン52とをそなえて構成されている。そして、これらの各ブロック(回路ブロック)が協働することにより、学習フェーズと信号処理実行フェーズとが行なわれる。以下、各ブロックについて詳述する。
(2) Configuration of Acoustic Signal Processing Device 20 This acoustic signal processing device 20 includes an audio input unit 50, a feature analysis unit (feature amount output unit) 21, an SOM learning unit (self-organizing learning unit) 26, and an SOM. A coordinate search unit 22, an SOM information storage memory (self-organizing map holding unit) 23, a signal processing type information output unit 24, an acoustic signal processing unit 25, an amplifier 51, and an earphone 52 are provided. Yes. These blocks (circuit blocks) cooperate to perform a learning phase and a signal processing execution phase. Hereinafter, each block will be described in detail.

(2−1)音声入力部50
音声入力部50は、音声および周囲の音を取得して音響信号に変換しこの音響信号を特徴解析部21に入力するものであって、例えばマイク,アンプ等が設けられている。
(2−2)特徴解析部21
特徴解析部21は、入力音響信号の特徴量を表す特徴量ベクトル(特徴量ベクトルデータ:第1の特徴量データ)を出力するものであって、特徴量出力部21として機能している。
(2-1) Voice input unit 50
The voice input unit 50 acquires voice and ambient sounds, converts them into acoustic signals, and inputs the acoustic signals to the feature analysis unit 21. For example, a microphone and an amplifier are provided.
(2-2) Feature analysis unit 21
The feature analysis unit 21 outputs a feature amount vector (feature amount vector data: first feature amount data) representing the feature amount of the input acoustic signal, and functions as the feature amount output unit 21.

(2−3)音響信号の特徴量および特徴量ベクトル
ここで、音響信号の特徴量とは、例えば、音響信号の波形,音響信号のレベル,繰り返し波形を有する音響信号の繰り返し周期又は音響信号のスペクトル成分(パワースペクトル)等、音響信号自身が有する特性又は性質である。
また、特徴量ベクトルとは、例えば「ア」等の特徴量を複数の要素で表したものであって、{1.1,1.3,…,1.2}等の集合である。例えば時間幅TWの音響信号の特徴量ベクトルとは、時間幅TWの波形が特徴解析され時間幅TWをn分割(nは自然数を表す。)した時刻t0,t1,…,t(n-1)において、それぞれ、音響信号の波形を量子化(サンプリング)し、量子化した要素FINPUT(1,1,0),FINPUT(1,1,1),…,FINPUT(1,1,n−1)を特徴量ベクトルとして出力する。
(2-3) Acoustic signal feature quantity and feature quantity vector Here, the acoustic signal feature quantity is, for example, the waveform of the acoustic signal, the level of the acoustic signal, the repetition period of the acoustic signal having a repetitive waveform, or the acoustic signal. A characteristic or property of the acoustic signal itself, such as a spectral component (power spectrum).
The feature quantity vector is a set of {1.1, 1.3,..., 1.2}, etc., which represents a feature quantity such as “A” by a plurality of elements. For example, the feature vector of the acoustic signal having the time width TW is the time t 0 , t 1 ,..., T (n in -1), respectively, quantizing the waveform of the audio signal (sampling), and quantized components F INPUT (1,1,0), F INPUT (1,1,1), ..., F INPUT (1, 1, n-1) is output as a feature vector.

なお、以下の説明において、「FINPUT」を特徴量又は特徴量ベクトルと称することがある。
また、特徴解析部21は、学習フェーズと信号処理実行フェーズとの両フェーズにおいて動作する。学習フェーズにおいて、特徴解析部21は、多数の学習音響信号を入力され、各音響信号の特徴量FINPUT(x,y,k)を抽出する(kは0〜n−1の自然数を表す)。この抽出された特徴量FINPUT(x,y,k)は、後述するSOM情報格納メモリ23に特徴量FSOM(x,y,k)(第2の特徴量データ)として格納される。そして、信号処理実行フェーズにおいて、特徴解析部21が抽出した入力音響信号の特徴量FINPUT(x,y,k)は、SOM情報格納メモリ23に格納された特徴量FSOM(x,y,k)と比較される。従って、特徴解析部21は、信号処理実行フェーズにおいて入力音響信号を特徴解析するとともに、前処理としての学習フェーズにおいても学習音響信号の特徴解析を行なう。
In the following description, “F INPUT ” may be referred to as a feature quantity or a feature quantity vector.
The feature analysis unit 21 operates in both the learning phase and the signal processing execution phase. In the learning phase, the feature analysis unit 21 receives a large number of learning acoustic signals and extracts feature amounts F INPUT (x, y, k) of the respective acoustic signals (k represents a natural number from 0 to n−1). . The extracted feature value F INPUT (x, y, k) is stored as a feature value F SOM (x, y, k) (second feature value data) in the SOM information storage memory 23 described later. Then, in the signal processing execution phase, the feature amount F INPUT of input acoustic signal characteristic analysis section 21 is extracted (x, y, k), the feature amount F SOM (x stored in the SOM information storage memory 23, y, k). Therefore, the feature analysis unit 21 performs feature analysis of the input acoustic signal in the signal processing execution phase, and also performs feature analysis of the learning acoustic signal in the learning phase as preprocessing.

なお、ディジタル信号処理によって、音声信号の雑音成分を抑制し、明瞭な音声信号とする。
(2−4)特徴量ベクトルと座標との違いについて
一般に、「ベクトル」と「座標」との両概念は等価であることが多いが、以下の説明において、特徴量ベクトルと座標とは異なる。上記のように、特徴量ベクトルは要素FINPUT(x,y,0)〜FINPUT(x,y,n−1)の集合を意味し、また、座標はSOM情報格納メモリ23のアドレスを意味する。換言すれば、n個の要素がSOM情報格納メモリ23のアドレスに対応付けられて保持される。
Note that the noise component of the audio signal is suppressed by digital signal processing, and a clear audio signal is obtained.
(2-4) Difference between Feature Quantity Vector and Coordinate In general, the concepts of “vector” and “coordinate” are often equivalent, but in the following description, the feature quantity vector and the coordinate are different. As described above, the feature vector means a set of elements F INPUT (x, y, 0) to F INPUT (x, y, n−1), and the coordinate means an address of the SOM information storage memory 23. To do. In other words, n elements are held in association with the addresses of the SOM information storage memory 23.

(2−5)SOM情報格納メモリ23
また、SOM情報格納メモリ23は、2次元平面の座標と、座標に割り当てられた特徴量ベクトルFSOM(x,y,k)と、複数の学習音響信号が2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持するものである。
(2-5) SOM information storage memory 23
In addition, the SOM information storage memory 23 has a plurality of two-dimensional plane coordinates, a feature vector F SOM (x, y, k) assigned to the coordinates, and a plurality of learning acoustic signals grouped in the two-dimensional plane. SOM information data in which the group identification information for identifying each group is associated with each other is held.

このSOM情報格納メモリ23は、音響信号データが入力される入力レイヤと、2次元平面により表される属性マップの競合レイヤとを有する2層のネットワークからなるものであって、この機能はRAM(Random Access Memory)等により実現される。これにより、類似した特徴量を有する音響信号がグループ化されて属性マップが得られる。なお、よく知られているように、SOMは、自己組織化ニューラルネットワーク技術に用いられるものである。   The SOM information storage memory 23 comprises a two-layer network having an input layer to which acoustic signal data is input and a competing layer of an attribute map represented by a two-dimensional plane. Random Access Memory) etc. Thereby, acoustic signals having similar feature amounts are grouped to obtain an attribute map. As is well known, SOM is used for self-organizing neural network technology.

(2−6)SOM座標検索部22
そして、SOM座標検索部22は、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)と、SOM情報格納メモリ23に保持されたSOM情報データ(座標,特徴量ベクトルFSOM(x,y,k)およびグループ識別情報)とに基づいて、特徴量ベクトルFINPUT(x,y,k)に対応するグループ識別情報を検索するものである。
(2-6) SOM coordinate search unit 22
Then, the SOM coordinate search unit 22 and the feature amount vector F INPUT (x, y, k) from the feature analysis unit 21 and the SOM information data (coordinate, feature amount vector F SOM ( x, y, k) and group identification information), the group identification information corresponding to the feature vector F INPUT (x, y, k) is retrieved.

また、SOM学習部26に入力される特徴量ベクトルFINPUT(x,y,k)と、2次元平面上の各座標に関連付けられて保持された特徴量ベクトルFSOM(x,y,k)とは、ともに、同一フォーマットを用いており、両特徴量ベクトルの要素数(データ数)は一致している。従って、学習フェーズと信号処理実行フェーズとにおいて、それぞれ、同一の処理ブロックを共用できる。これにより、SOM座標検索部22は、特徴量ベクトルFINPUT(x,y,k)と特徴量ベクトルFSOM(x,y,k)とに基づいて、入力音響信号について、音声又は非音声と残響の有無とを識別する。 The feature quantity vector F INPUT (x, y, k) input to the SOM learning unit 26 and the feature quantity vector F SOM (x, y, k) held in association with each coordinate on the two-dimensional plane. Both use the same format, and the number of elements (number of data) of both feature vectors match. Accordingly, the same processing block can be shared in the learning phase and the signal processing execution phase. As a result, the SOM coordinate search unit 22 performs speech or non-speech on the input acoustic signal based on the feature vector F INPUT (x, y, k) and the feature vector F SOM (x, y, k). Identify the presence or absence of reverberation.

(2−7)信号処理種別情報出力部24
さらに、信号処理種別情報出力部24は、音響信号の処理種別を表す例えば3種類の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報を出力するものである。ここで、信号処理種別情報とは、例えば表1に示すように、圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等の3種類の信号処理の識別情報と、入力された音響信号の増幅度等の信号処理に必要なパラメータ情報とを意味する。この信号処理種別情報出力部の機能は、具体的には、分類決定部24(後述する図3参照)又はパラメータ調整部(後述する図9参照)によって発揮される。なお、フォルマント強調とは、音声スペクトル波形の極大になる部分の振幅を増幅することを意味する。
(2-7) Signal processing type information output unit 24
Further, the signal processing type information output unit 24 displays the signal processing type information corresponding to the group identification information searched by the SOM coordinate search unit 22 among the three types of signal processing type information representing the processing type of the acoustic signal. Output. Here, the signal processing type information is, for example, as shown in Table 1, identification information of three types of signal processing such as compression amplification processing, formant emphasis processing, noise suppression processing, etc., amplification degree of the input acoustic signal, etc. Parameter information necessary for signal processing. Specifically, the function of the signal processing type information output unit is exhibited by the classification determination unit 24 (see FIG. 3 described later) or the parameter adjustment unit (see FIG. 9 described later). Formant emphasis means amplifying the amplitude of the maximum portion of the speech spectrum waveform.

(2−8)音響信号処理部25
そして、音響信号処理部25は、信号処理種別情報出力部(分類決定部又はパラメータ調整部)24から出力された信号処理種別情報に基づいて入力音響信号を処理するものである。
(2−9)アンプ51
また、アンプ51は、音響信号処理部25にて処理された音響信号を増幅して増幅信号を出力するものである。このアンプ51の増幅度の大きさは、例えば増幅度A,B,Cの3種類の増幅度において信号を増幅可能になっている。外部からイヤホン52はアンプ51からの増幅信号を聞くためのものである。これにより、入力された音響信号は、音響信号処理部25において明瞭な音になるように音声信号処理され、ユーザは、イヤホン52を通じて処理された音声等を得ることができる。
(2-8) Acoustic signal processing unit 25
The acoustic signal processing unit 25 processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit (classification determination unit or parameter adjustment unit) 24.
(2-9) Amplifier 51
The amplifier 51 amplifies the acoustic signal processed by the acoustic signal processing unit 25 and outputs an amplified signal. The amplification degree of the amplifier 51 can amplify a signal at three types of amplification degrees A, B, and C, for example. The earphone 52 is for listening to the amplified signal from the amplifier 51 from the outside. Thus, the input acoustic signal is processed by the acoustic signal processing unit 25 so as to obtain a clear sound, and the user can obtain the processed speech through the earphone 52.

(2−10)SOM学習部26
また、SOM学習部26は、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)に基づいて学習音響信号を2次元平面においてグループ化(2次元平面にマッピングしてグループ化)するものである。このSOM学習部26は、音響信号が特徴解析部21に入力される前に、予め、多数の環境音信号を学習用信号として入力され、各学習用信号を特徴解析してSOM情報格納メモリ23にマッピングするために用いられる。ここで、環境音とは、様々な場所および種々の時刻等の各種の環境下における音を意味する。
(2-10) SOM learning unit 26
Further, the SOM learning unit 26 groups the learning acoustic signals in the two-dimensional plane based on the feature vector F INPUT (x, y, k) from the feature analysis unit 21 (groups by mapping to the two-dimensional plane). To do. The SOM learning unit 26 inputs a number of environmental sound signals as learning signals in advance before the acoustic signal is input to the feature analysis unit 21. The SOM information storage memory 23 analyzes the characteristics of each learning signal. Used to map to Here, environmental sound means sound in various environments such as various places and various times.

(3)学習フェーズ処理部27
次に、図2を参照して、学習フェーズ処理部27について説明する。
図2は本発明の第1実施形態に係る学習フェーズ処理部27のブロック図である。この図2に示すもので図1に示す符号と同一の符号を有するものは、図1に示す符号と同一のものである。
(3) Learning phase processing unit 27
Next, the learning phase processing unit 27 will be described with reference to FIG.
FIG. 2 is a block diagram of the learning phase processing unit 27 according to the first embodiment of the present invention. 2 having the same reference numerals as those shown in FIG. 1 are the same as those shown in FIG.

特徴解析部21は、学習音響信号の特徴量を表す特徴量ベクトル(学習音響信号を量子化して得た学習音響信号波形を特徴解析して学習音響信号の特徴量データ)を出力するものであって、特徴量出力部として機能している。この特徴解析部21は、信号処理種別としてFFT(Fast Fourier Transform:高速フーリエ変換)を用いて入力音響信号をスペクトル領域に変換し、変換して得たスペクトル波形を解析しパワースペクトル(電力スペクトル密度)のレベル又は波形に関する情報を特徴量ベクトルFINPUT(x,y,k)として出力する。 The feature analysis unit 21 outputs a feature quantity vector (feature analysis data obtained by quantizing the learning acoustic signal and feature analysis of the learning acoustic signal) representing the feature quantity of the learning acoustic signal. It functions as a feature quantity output unit. The feature analysis unit 21 converts an input acoustic signal into a spectrum region using FFT (Fast Fourier Transform) as a signal processing type, analyzes a spectrum waveform obtained by the conversion, and analyzes a power spectrum (power spectrum density). ) Level or waveform information is output as a feature vector F INPUT (x, y, k).

さらに、特徴解析処理の種別は、FFT処理のほかに、フィルタバンク処理,線形予測分析処理およびメルケプストラム処理等の各種の分析アルゴリズムを用いることができる。ここで、フィルタバンク処理とは、フィルタバンク出力を特徴量とするものである。フィルタバンク処理とは、入力音響信号をスペクトル変換し入力音響信号の占めるスペクトル帯域を複数のサブ帯域に分割するものである。線形予測分析処理とは線形予測係数を特徴量とするものであって自己相関演算を用いて線形予測係数を得るものである。そして、メルケプストラム処理とは、MFCC(Mel Filtered Cepstrum Coefficient)を特徴量とするものであって、入力音声のパワースペクトルの対数を演算しメル変換およびコサイン変換を用いてMFCCを生成するものである。   Furthermore, as the type of feature analysis processing, various analysis algorithms such as filter bank processing, linear prediction analysis processing, and mel cepstrum processing can be used in addition to FFT processing. Here, the filter bank processing uses the filter bank output as a feature amount. The filter bank processing is to perform spectrum conversion on the input acoustic signal and divide the spectrum band occupied by the input acoustic signal into a plurality of sub-bands. The linear prediction analysis process uses a linear prediction coefficient as a feature quantity and obtains a linear prediction coefficient using autocorrelation calculation. The mel cepstrum processing uses MFCC (Mel Filtered Cepstrum Coefficient) as a feature quantity, and calculates the logarithm of the power spectrum of the input speech and generates MFCC using Mel transformation and cosine transformation. .

また、入力音響信号は、例えばマイクから入力されたアナログ音響信号であり、このアナログ音響信号はアナログ・ディジタル変換される。なお、携帯電話等の音声復号化部等から出力されるディジタル音響信号を用いることができる。入力音響信号データは、いったん、バッファに保持され、保持された入力音響信号データは、一定時間毎に、特徴解析部21によって読み込まれ、特徴解析又は特徴抽出されるようになっている。この処理に要する時間は、フレーム(単位フレーム)と呼ばれる。具体的には、入力音響信号データが、次々に、バッファに保持され、保持数が例えば100になると、特徴解析部21が100個の入力音響信号データを読み込み、特徴解析が行なわれるのである。従って、フレームとは、音響信号の波形データが一定の時間間隔毎に分割されて得られる波形データの集合であり、また、フレーム単位に特徴抽出が行なわれるのである。   The input sound signal is an analog sound signal input from, for example, a microphone, and the analog sound signal is converted from analog to digital. A digital acoustic signal output from a speech decoding unit such as a mobile phone can be used. The input sound signal data is once held in a buffer, and the held input sound signal data is read by the feature analysis unit 21 at a certain time interval and subjected to feature analysis or feature extraction. The time required for this processing is called a frame (unit frame). Specifically, the input sound signal data is successively held in the buffer, and when the number of holds becomes, for example, 100, the feature analysis unit 21 reads 100 pieces of input sound signal data, and the feature analysis is performed. Therefore, a frame is a set of waveform data obtained by dividing waveform data of an acoustic signal at regular time intervals, and feature extraction is performed in units of frames.

さらに、特徴解析部21は、フレーム処理に要する波形の時間幅を、入力音響信号の種別に応じて調整できるようにもなっている。例えば、波形の時間幅が約1msec(ミリ秒)〜約0.1msecの比較的短い時間幅を有する音響信号は、量子化数が少なく、短時間フレーム(短フレーム)と呼ばれ、フレーム数は1個程度で足りる。この一方、時間幅が例えば1sec〜2sec程度の比較的長い音響信号は、短時間フレームが複数個数結合されて、特徴解析部21に読み込まれる。   Furthermore, the feature analysis unit 21 can adjust the time width of the waveform required for frame processing according to the type of the input acoustic signal. For example, an acoustic signal having a relatively short time width of about 1 msec (milliseconds) to about 0.1 msec of a waveform has a small number of quantizations and is called a short time frame (short frame). About one is enough. On the other hand, a relatively long acoustic signal having a time width of, for example, about 1 sec to 2 sec is read into the feature analysis unit 21 by combining a plurality of short-time frames.

そして、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)についても、入力音響信号の種別に応じて、1個の短時間フレーム又は複数の短時間フレームとしてSOM学習部26に入力される。すなわち、SOM学習部26に入力される特徴量ベクトルは、1個のフレームのベクトルデータ又はスカラー値で表すこともでき、複数個のフレームのパラメータを結合したベクトルデータで表すこともでき、これらが入出力される。 The feature vector F INPUT (x, y, k) from the feature analysis unit 21 is also sent to the SOM learning unit 26 as one short frame or a plurality of short frames according to the type of the input acoustic signal. Entered. That is, the feature vector input to the SOM learning unit 26 can be expressed by vector data or a scalar value of one frame, or can be expressed by vector data obtained by combining parameters of a plurality of frames. Input / output.

このパラメータとは、スペクトル特性、音圧レベル、時間波形等をいう。
さらに詳述すると、1個の短時間フレームにおいて、分割数nを例えば16とすると、特徴量ベクトルFINPUT(x,y,k)は、その16分割した時刻t0〜t15毎に得られる各要素FINPUT(x,y,0),FINPUT(x,y,2),…,FINPUT(x,y,15)を取得することにより生成される。また、この時間幅TWの値は事例によって種々変更して実施でき、時間幅TWは数msec〜数secにもできる。
This parameter refers to spectral characteristics, sound pressure level, time waveform, and the like.
More specifically, assuming that the number of divisions n is 16, for example, in one short frame, the feature vector F INPUT (x, y, k) is obtained for each of the 16 divided times t 0 to t 15. It is generated by acquiring each element F INPUT (x, y, 0), F INPUT (x, y, 2),..., F INPUT (x, y, 15). Further, the value of the time width TW can be variously changed depending on the case, and the time width TW can be several msec to several sec.

これにより、学習フェーズにおいて、音声入力部50に入力された音響信号は、特徴解析部21において短時間フレーム毎の特徴解析により特徴量ベクトルFINPUT(x,y,k)が生成され、生成された特徴量ベクトルFINPUT(x,y,k)が、入力バッファ(図示省略)に取り込まれる。また、特徴量ベクトルFINPUT(x,y,k)は、フレーム長に応じた大きさで表されてSOM情報格納メモリ23に格納される。 Thus, in the learning phase, the feature signal F INPUT (x, y, k) is generated and generated from the acoustic signal input to the speech input unit 50 by the feature analysis for each short time frame in the feature analysis unit 21. The feature vector F INPUT (x, y, k) is taken into an input buffer (not shown). The feature quantity vector F INPUT (x, y, k) is expressed in a size corresponding to the frame length and stored in the SOM information storage memory 23.

(4)座標,グループ化およびSOM情報格納メモリ23について
続いて、図4(a)および図4(b)を参照して、座標およびグループ化について説明し、図5(a),図5(b)を参照してSOM情報格納メモリ23の実現例について説明する。
図4(a)は本発明の第1実施形態に係るSOMネットワークの一例を示す図である。SOM学習部26は、この図4(a)に示すSOMネットワークをSOM情報格納メモリ23のアドレスに設けている。また、SOMネットワークには、縦横がそれぞれ10個の10×10=100個の座標(丸,円で表されたもの)が設けられている。SOM情報格納メモリ23は、各グループのうちの各座標が属するグループと、各座標間にて相異なる固有の特徴量ベクトルFSOM(x,y,k)とを対応付けて保持する。
(4) Coordinate, Grouping and SOM Information Storage Memory 23 Next, with reference to FIG. 4A and FIG. 4B, coordinates and grouping will be described, and FIG. 5A and FIG. An implementation example of the SOM information storage memory 23 will be described with reference to b).
FIG. 4A is a diagram illustrating an example of the SOM network according to the first embodiment of the present invention. The SOM learning unit 26 provides the SOM network shown in FIG. 4A at the address of the SOM information storage memory 23. In addition, the SOM network is provided with 10 × 10 = 100 coordinates (represented by circles and circles) each having 10 vertical and horizontal dimensions. The SOM information storage memory 23 holds a group to which each coordinate of each group belongs and a unique feature vector F SOM (x, y, k) that is different between each coordinate in association with each other.

図4(b)は本発明の第1実施形態に係るSOM情報格納メモリにおける2次元平面のグループ分けの一例を示す図である。この図4(b)に示すSOMネットワークは、例えば3種類のグループA〜Cが生成されている。SOM学習部26は、この2次元平面上の各座標(丸で表したもの)が属する音響信号グループを識別するための識別情報についても特徴量ベクトルFSOM(x,y,k)とともに保持する。このため、SOM学習部26は、座標毎にグループ属性情報を保持する。従って、特定の座標値と2次元平面にて近傍の座標は特定の座標のもつグループ属性情報と近いグループ属性情報を保持する。従って、2次元平面を全体として観察すると、特徴量ベクトルFINPUT(x,y,k)が近接している座標同士が、2次元平面上において、近いところに保持され、これにより、物理的な特徴量に基づいて、特徴量ベクトルFINPUT(x,y,k)が保持される。 FIG. 4B is a diagram showing an example of two-dimensional plane grouping in the SOM information storage memory according to the first embodiment of the present invention. In the SOM network shown in FIG. 4B, for example, three types of groups A to C are generated. The SOM learning unit 26 also holds identification information for identifying the acoustic signal group to which each coordinate (represented by a circle) on the two-dimensional plane belongs together with the feature vector F SOM (x, y, k). . For this reason, the SOM learning unit 26 holds group attribute information for each coordinate. Accordingly, the specific coordinate value and the coordinates near the two-dimensional plane hold group attribute information close to the group attribute information of the specific coordinate. Accordingly, when the two-dimensional plane is observed as a whole, the coordinates where the feature amount vectors F INPUT (x, y, k) are close to each other are held close to each other on the two-dimensional plane. Based on the feature quantity, a feature quantity vector F INPUT (x, y, k) is held.

また、図5(a)は本発明の第1実施形態に係るSOM情報格納メモリ23のメモリ領域の一例を示す図である。この図5(a)に示すSOM情報格納メモリ23のアドレス0x0000には、図5(b)に示す座標(1,1)に対応付けて保持されるFINPUT(x,y,0)等の特徴量ベクトルが格納されているポインタが格納されている。なお、0xは16進数を表し、アドレス値は例示である。同様に、SOM情報格納メモリ23のアドレス0x0001〜0x0073には、座標(1,2)〜座標(10,10)にそれぞれ対応付けて保持される特徴量ベクトルFINPUT(x,y,k)のポインタ(ベクトルポインタ)が格納されている。 FIG. 5A is a diagram showing an example of a memory area of the SOM information storage memory 23 according to the first embodiment of the present invention. The address 0x0000 of the SOM information storage memory 23 shown in FIG. 5A includes F INPUT (x, y, 0) and the like held in association with the coordinates (1, 1) shown in FIG. Stores a pointer in which a feature vector is stored. Note that 0x represents a hexadecimal number, and the address value is an example. Similarly, at the addresses 0x0001 to 0x0073 in the SOM information storage memory 23, feature quantity vectors F INPUT (x, y, k) held in association with the coordinates (1, 2) to the coordinates (10, 10), respectively. A pointer (vector pointer) is stored.

従って、SOM情報格納メモリ23は、例えば0x0001〜0x0073等のメモリ空間のアドレスと、アドレスに割り当てられた特徴量ベクトルFSOM(x,y,k)と、複数の学習音響信号がメモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持している。
(5)特徴量ベクトルの保持領域
図6は本発明の第1実施形態に係る特徴量ベクトルFINPUT(x,y,k)の保持領域を説明するための示す図である。この図6に示すSOM情報格納メモリ23の座標(1,1)に格納されたポインタが示すメモリ領域に、16個のデータ(例えばスペクトル値)と座標(1,1)が属するグループ識別情報とが格納されている。具体的には、16個の要素FINPUT(x,y+1,0),FINPUT(x,y+1,1),…,FINPUT(x,y+1,15)がスペクトル値として保持されるのである。同様に、座標(1,2)〜座標(10,10)に格納されたポインタが示すメモリ領域に、それぞれ、16個のデータとグループ識別情報とが格納され、例えば座標(10,10)には、16個の要素FINPUT(x+10,y+10,0),FINPUT(x+10,y+10,1),…,FINPUT(x,y+1,15)がスペクトル値として保持される。
Accordingly, the SOM information storage memory 23 is a group of memory space addresses such as 0x0001 to 0x0073, the feature quantity vector F SOM (x, y, k) assigned to the addresses, and a plurality of learning acoustic signals in the memory space. SOM information data in which the group identification information for identifying the plurality of groups is associated with each other is held.
(5) Feature Quantity Vector Holding Area FIG. 6 is a view for explaining a feature quantity vector F INPUT (x, y, k) holding area according to the first embodiment of the present invention. In the memory area indicated by the pointer stored in the coordinates (1, 1) of the SOM information storage memory 23 shown in FIG. 6, group identification information to which 16 data (for example, spectrum values) and coordinates (1, 1) belong Is stored. Specifically, 16 elements F INPUT (x, y + 1, 0), F INPUT (x, y + 1, 1),..., F INPUT (x, y + 1, 15) are held as spectral values. Similarly, 16 data and group identification information are respectively stored in the memory areas indicated by the pointers stored at coordinates (1, 2) to (10, 10). For example, the coordinates (10, 10) are stored at coordinates (10, 10). , 16 elements F INPUT (x + 10, y + 10, 0), F INPUT (x + 10, y + 10, 1),..., F INPUT (x, y + 1, 15) are held as spectral values.

このように、本発明の音響信号処理装置20は、学習フェーズにおいて、2次元平面上の座標(1,1)〜座標(10,10)と、特徴量ベクトルFINPUT(x,y,k)と、グループ種別とが相互に関連付けて保持される。そして、学習フェーズが終了すると、図4(b)に示すように、SOM情報格納メモリの各アドレスに座標(1,1)〜座標(10,10)に関連付けられた特徴量ベクトルFSOM(x,y,k)が割り当てられ、かつ各アドレにグループ属性情報とが保持される。すなわち、各座標は、それぞれ、ポインタ(図6参照)によって、相異なる固有の特徴量ベクトルデータと関連付けられて保持されている。なお、学習フェーズにおける初期過程においては、特徴量ベクトルはランダムな値が設定される。 As described above, the acoustic signal processing device 20 according to the present invention has the coordinates (1, 1) to the coordinates (10, 10) on the two-dimensional plane and the feature vector F INPUT (x, y, k) in the learning phase. And the group type are held in association with each other. When the learning phase is completed, as shown in FIG. 4B, the feature quantity vector F SOM (x) associated with the coordinates (1, 1) to the coordinates (10, 10) at each address of the SOM information storage memory. , Y, k) and group attribute information is held in each address. That is, each coordinate is held in association with different unique feature vector data by a pointer (see FIG. 6). In the initial process in the learning phase, random values are set for the feature vectors.

(6)SOMを用いた座標検索
次に、SOMネットワークにおける座標検索について図7を参照して説明する。
SOM学習部26は、特徴解析部21から入力された特徴量ベクトルFINPUT(x,y,k)と、各座標に関連付けて保持された特徴量ベクトルFSOM(x,y,k)との各要素間のユークリッド距離を計算し、入力された特徴量ベクトルFINPUT(x,y,k)に最も近い(ユークリッド距離が小さい)近傍座標を検索するようになっている。
(6) Coordinate Search Using SOM Next, coordinate search in the SOM network will be described with reference to FIG.
The SOM learning unit 26 includes the feature vector F INPUT (x, y, k) input from the feature analysis unit 21 and the feature vector F SOM (x, y, k) held in association with each coordinate. The Euclidean distance between each element is calculated, and the nearest coordinates closest to the input feature vector F INPUT (x, y, k) (small Euclidean distance) are searched.

図7は本発明の第1実施形態に係る近傍座標の検索を説明するための図である。この図7に示す2次元平面は、SOM情報格納メモリ23に実現された座標平面である。ここで、所望の時刻tに入力された特徴量ベクトルをw(t)とし、各座標の現在の特徴量ベクトルをmi(t)とすると(iは座標を示すインデックスを表す。)、w(t)とmi(t)とのユークリッド距離は、|w(t) −mi(t)|により表される(ここで、「||」は絶対値を表す。)。このため、SOM学習部26は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|w(t) −mi(t)|が最小となるiを検索する。 FIG. 7 is a diagram for explaining a search for neighboring coordinates according to the first embodiment of the present invention. The two-dimensional plane shown in FIG. 7 is a coordinate plane realized in the SOM information storage memory 23. Here, if the feature vector input at a desired time t is w (t) and the current feature vector at each coordinate is m i (t) (i represents an index indicating the coordinate), w. The Euclidean distance between (t) and m i (t) is represented by | w (t) −m i (t) | (where “||” represents an absolute value). Therefore, the SOM learning unit 26 searches for i that minimizes the Euclidean distance | w (t) −m i (t) | in order to obtain the nearest coordinates closest to the input feature vector.

具体的には、図7に示す2次元平面の中央部(白い円で表されたもの)に位置する座標(x,y)は、時間幅TWの入力音響信号の波形について、時間幅TWを16分割した時刻t0,t1,…,t15においてそれぞれ量子化された要素FINPUT(x,y,0),…,FINPUT(x,y,15)のうちの一要素FINPUT(x,y,0)である。最初に、SOM座標検索部22は、例えば(x−1,y,0)を検索開始座標とし、FINPUT(x,y,0)と座標(x−1,y,0)との間のユークリッド距離を計算し計算したユークリッド距離を、バッファ(図示省略)に保持する。この後、SOM座標検索部22は、(x,y−1,0),(x+1,y,0),(x,y+1,0)の順に計算および保持を繰り返し、さらに、(x−1,y+1,0),(x−2,y),(x−1,y−1,0),(x,y−2),(x+1,y−1,0),(x+2,y),(x+1,y+1)の順に計算および保持を繰り返す。そして、保持された各ユークリッド距離のうちの最小のユークリッド距離が得られた座標を、座標(x,y,0)に最も近い近傍座標として取得する。 Specifically, the coordinates (x, y) located at the center (represented by a white circle) of the two-dimensional plane shown in FIG. 7 are the time width TW for the waveform of the input acoustic signal having the time width TW. 16 divided time t 0, t 1, ..., each quantized component F INPUT in t 15 (x, y, 0 ), ..., F INPUT (x, y, 15) an element F INPUT of ( x, y, 0). First, the SOM coordinate search unit 22 uses, for example, (x-1, y, 0) as a search start coordinate, and is between F INPUT (x, y, 0) and a coordinate (x-1, y, 0). The Euclidean distance is calculated and the calculated Euclidean distance is held in a buffer (not shown). Thereafter, the SOM coordinate search unit 22 repeats calculation and holding in the order of (x, y-1, 0), (x + 1, y, 0), (x, y + 1, 0), and further (x-1, y y + 1,0), (x-2, y), (x-1, y-1,0), (x, y-2), (x + 1, y-1,0), (x + 2, y), ( Repeat calculation and holding in the order of x + 1, y + 1). Then, the coordinate at which the minimum Euclidean distance among the stored Euclidean distances is obtained is acquired as the nearest coordinate closest to the coordinates (x, y, 0).

次に、SOM学習部26は、ユークリッド距離が最小となる座標ic(i=ic)の取得後、以下に示す式(1)〜(3)を用いて、座標icの近くの座標における特徴量ベクトルmi(t)を更新する。ここで、tは時間を表し、α(t)は後述する学習率係数を表す。
i(t+1) = mi(t) + hci(t)[w(t)−mi(t)] …(1)
ci = α(t) (iがicの近傍のとき) …(2)
ci = 0 (iがicの近傍でないとき) …(3)
ここで、iがicの近傍であるか否かは、式(4)を用いて判定される。
Next, the SOM learning unit 26 obtains the coordinates i c (i = i c ) at which the Euclidean distance is minimum, and then uses the following equations (1) to (3) to obtain coordinates near the coordinates i c. The feature vector m i (t) at is updated. Here, t represents time, and α (t) represents a learning rate coefficient described later.
m i (t + 1) = m i (t) + h ci (t) [w (t) −m i (t)] (1)
h ci = α (t) (when i is in the vicinity of ic ) (2)
h ci = 0 (when i is not in the vicinity of i c ) (3)
Here, whether or not i is in the vicinity of ic is determined using Expression (4).

|a − ac| < 4 かつ |b − bc| < 4 …(4)
そして、SOM学習部26は、式(4)を満足させる座標iを近傍座標としている。なお、座標iを(a,b)とし、icの座標を(ac,bc)としている。また、式(4)のiは2次元平面上の座標であり、aはx軸の値を表し、bはy軸の値を表している。
また、式(2)に示す学習率係数α(t)は、0<α(t)<1の条件を満足させるものである。さらに、学習率係数α(t)は、時間とともに減少する関数を用いて、例えば式(5)に示すように設定される。
| a − a c | <4 and | b − b c | <4 (4)
Then, the SOM learning unit 26 uses the coordinates i that satisfy Equation (4) as the neighborhood coordinates. Note that the coordinates i are (a, b), and the coordinates of i c are ( ac , b c ). Further, i in the formula (4) is a coordinate on a two-dimensional plane, a represents an x-axis value, and b represents a y-axis value.
Further, the learning rate coefficient α (t) shown in Expression (2) satisfies the condition of 0 <α (t) <1. Further, the learning rate coefficient α (t) is set as shown in, for example, Expression (5) using a function that decreases with time.

α(t) = α0(1 − t/TL) …(5)
なお、α0は適切に選択された定係数であり、例えば約0.3に設定される。tは学習開始からの時間又は時刻t0〜t15を表し、TLは学習に要する時間を表す。
これにより、SOM学習部26は、多数の音響信号を用いて、式(1)に示す学習計算を行なう。例えば合計k個の音響信号がSOM学習部26に入力された場合、SOM学習部26は、各時刻t0〜t15において、k個のうちの1個の音響信号の特徴パラメータを用いて、SOM情報格納メモリの保持値を更新する。また、学習は各時刻t0〜t15において行なわれるので、学習は時間TLを要することになる。
α (t) = α 0 (1−t / TL) (5)
Α 0 is an appropriately selected constant coefficient, and is set to about 0.3, for example. t represents the time from the start of learning or times t 0 to t 15 , and TL represents the time required for learning.
Thereby, the SOM learning part 26 performs learning calculation shown in Formula (1) using many acoustic signals. For example, when a total of k acoustic signals are input to the SOM learning unit 26, the SOM learning unit 26 uses the feature parameters of one of the k acoustic signals at each time t 0 to t 15 , The value held in the SOM information storage memory is updated. Since learning is performed at each time t 0 to t 15 , learning requires time TL.

さらに、学習の終了後、SOM学習部26は、SOMネットワークの情報(各座標における特徴量ベクトル値)をSOM情報格納メモリに保持する。従って、入力音響信号は、SOM情報格納メモリにおいて、仮想的な2次元平面上の座標にマッピングされ、2次元平面上の座標は、各々固有な特徴量ベクトルを割り当てられた状態で保持される。この保持されている特徴量ベクトルは、具体的には、特定の音に関するものであり、所望の座標に「ア」という音の特徴量ベクトルが格納され、また、他の座標に「イ」という音の特徴量ベクトルが格納されている。   Further, after the learning is completed, the SOM learning unit 26 holds the SOM network information (feature value vector values at each coordinate) in the SOM information storage memory. Therefore, the input acoustic signal is mapped to the coordinates on the virtual two-dimensional plane in the SOM information storage memory, and the coordinates on the two-dimensional plane are held in a state where each unique feature vector is assigned. This retained feature vector is specifically related to a specific sound, the feature vector of the sound “a” is stored in the desired coordinates, and “a” is stored in the other coordinates. The feature vector of sound is stored.

そして、入力バッファに保持された音響信号波形データw(t)は、短時間フレーム長を例えばn分割(nは自然数を表す。)したサブフレーム長時間毎に特徴解析部21にて特徴解析され、n個の音響信号波形データw(t0),w(t1),…,w(tn-1)が生成出力される。ここで、t0〜tn-1はそれぞれ時刻を表し、また、以下の説明においては、w(t0),w(t1),…,w(tn-1)をw(tj)と表記する(jは0〜n−1の整数を表す。)。すなわち、サブフレーム長の音響信号の特徴量が、複数の要素(スカラー値w(tj))として出力される。従って、以下の説明において、これらの要素w(tj)を特徴量ベクトルw(t)と称する。換言すれば、特徴解析部21は、n個の要素w(tj)からなる特徴量ベクトルw(t)を出力する。 The acoustic signal waveform data w (t) held in the input buffer is subjected to feature analysis by the feature analysis unit 21 every subframe long time obtained by dividing the short time frame length into, for example, n (n represents a natural number). , N acoustic signal waveform data w (t 0 ), w (t 1 ),..., W (t n−1 ) are generated and output. Here, t 0 to t n-1 represent time, respectively, and in the following description, w (t 0 ), w (t 1 ),..., W (t n-1 ) are expressed as w (t j (J represents an integer of 0 to n−1). That is, the feature amount of the acoustic signal having the subframe length is output as a plurality of elements (scalar value w (t j )). Accordingly, in the following description, these elements w (t j ) are referred to as feature quantity vectors w (t). In other words, the feature analysis unit 21 outputs a feature quantity vector w (t) composed of n elements w (t j ).

そして、特徴解析により生成された特徴量ベクトルは、図2に示すSOM学習部26に入力され、自己組織化マップ(SOM)を用いて学習される。この学習は、様々な環境音を入力して処理し、処理した環境音を仮想的な2次元平面にマッピングすることにより行なわれる。加えて、SOM学習部26は、2次元平面上の各座標に固有の特徴量ベクトルを割り当てるようにしている。また、SOM学習部26は、多数の各種の環境音を、信号処理実行フェーズに移行する前に、グループ化(グルーピング)しておくことが望ましい。   Then, the feature vector generated by the feature analysis is input to the SOM learning unit 26 shown in FIG. 2 and learned using a self-organizing map (SOM). This learning is performed by inputting and processing various environmental sounds, and mapping the processed environmental sounds on a virtual two-dimensional plane. In addition, the SOM learning unit 26 assigns a unique feature vector to each coordinate on the two-dimensional plane. In addition, the SOM learning unit 26 desirably groups a large number of various environmental sounds before shifting to the signal processing execution phase.

これにより、学習終了後は、入力された各環境音が、仮想的な2次元平面上の所望の座標にマッピングされた属性マップが得られ、また、固有の特徴量ベクトルが2次元平面上の各座標に割り当てられる。
さらに、SOM学習部26は、各々の音響信号が2次元平面において適切にグループ化されるように、2次元平面を領域分割することが好ましい。この領域分割は、信号処理実行フェーズに移行する前に各環境音のグループ化に基づいて行なわれる。具体的には、SOM学習部26は、2次元平面をグループに基づいて領域分割し、領域分割された平面に複数の音響信号をグループすることにより分類整理し、分類整理された各グループに音響信号処理モードを割り当てる。
As a result, after learning, an attribute map in which each input environmental sound is mapped to desired coordinates on the virtual two-dimensional plane is obtained, and a unique feature vector is displayed on the two-dimensional plane. Assigned to each coordinate.
Furthermore, the SOM learning unit 26 preferably divides the two-dimensional plane into regions so that each acoustic signal is appropriately grouped in the two-dimensional plane. This area division is performed based on the grouping of each environmental sound before moving to the signal processing execution phase. Specifically, the SOM learning unit 26 divides a two-dimensional plane into regions based on groups, and sorts and arranges a plurality of acoustic signals on the divided planes. Assign a signal processing mode.

また、グループ化されたグループ毎に、適切な音響信号処理モードが、予め聴取実験等を行なうことにより決定されるようになっている。これにより、2次元平面上の各座標は、第2の特徴量ベクトルおよびグループ化情報が割り当てられる。
続いて、分類決定部(決定部)24は、音響信号の処理種別を表す複数の信号処理モードのうちの検索部にて検索されたグループ識別情報に対応する信号処理モードを決定するものであって、信号処理種別情報出力部として機能している。分類決定部24は、検索された近傍座標に対応するグループを決定する。すなわち、近傍座標がどのグループに含まれているかが判断される。また、分類決定部24は、決定したグループに基づいて、複数の信号処理モードのうちの適切な信号処理モードを選択する。そして、音響信号処理部25は、分類決定部24にて選択された信号処理モードに基づいて音響信号を処理する。
An appropriate acoustic signal processing mode is determined for each grouped group by conducting a listening experiment or the like in advance. Thus, the second feature vector and grouping information are assigned to each coordinate on the two-dimensional plane.
Subsequently, the classification determination unit (determination unit) 24 determines a signal processing mode corresponding to the group identification information searched by the search unit among a plurality of signal processing modes representing the processing type of the acoustic signal. Thus, it functions as a signal processing type information output unit. The classification determination unit 24 determines a group corresponding to the searched neighboring coordinates. That is, it is determined to which group the neighboring coordinates are included. Further, the classification determination unit 24 selects an appropriate signal processing mode from among the plurality of signal processing modes based on the determined group. Then, the acoustic signal processing unit 25 processes the acoustic signal based on the signal processing mode selected by the classification determination unit 24.

(7)本発明の音響信号処理方法
これにより、本発明の音響信号処理方法は、入力された音響信号波形の特徴が解析され、その特徴量からSOMを用いて現在の音響信号が識別(音声/非音声、残響の有無等)され、識別された情報に基づいて信号の増幅等の音響信号処理モードが切り替えられる。
従って、本発明の音響信号処理方法は、SOM学習部26が、学習音響信号の特徴量を表す特徴量ベクトルに基づいて学習音響信号について、2次元平面の座標と、座標に割り当てられた特徴量ベクトルと、SOM学習部26にてグループ化された例えば3種類のグループA〜Cを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する(学習ステップ)。また、この学習ステップは、複数のグループのそれぞれに対応する複数のパラメータを取得する。
(7) Acoustic signal processing method of the present invention With this, the acoustic signal processing method of the present invention analyzes the characteristics of the input acoustic signal waveform and identifies the current acoustic signal using the SOM from the feature amount (voice The sound signal processing mode such as signal amplification is switched based on the identified information.
Therefore, in the acoustic signal processing method of the present invention, the SOM learning unit 26 uses the feature amount vector representing the feature amount of the learned acoustic signal for the learning acoustic signal, and the feature amount assigned to the coordinates. SOM information data in which each vector is associated with group identification information for identifying, for example, three types of groups A to C grouped by the SOM learning unit 26 is generated (learning step). In this learning step, a plurality of parameters corresponding to each of the plurality of groups are acquired.

次に、SOM座標検索部22が、学習ステップにおける特徴量ベクトルについて、学習ステップにて生成されたSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標を検索する(検索ステップ)。具体的には、入力された音響信号(音響信号の波形)は、特徴解析部21にて短時間フレーム毎に特徴解析され、特徴解析された特徴量ベクトルは、SOM情報格納メモリ23上の各座標に割り当てられた特徴量ベクトルと比較され、2次元平面上に保持された多数の座標のうちの入力された特徴量ベクトルと最も近い近傍座標が検索される。ここで、特徴量ベクトルの種類は、学習フェーズにおける特徴量ベクトルと同一のものが用いられる。   Next, the SOM coordinate search unit 22 uses the feature amount from the feature amount output unit among the plurality of coordinates in the two-dimensional plane held in the SOM information data generated in the learning step for the feature amount vector in the learning step. Search for nearby coordinates located in the vicinity of the vector (search step). Specifically, the input acoustic signal (acoustic signal waveform) is subjected to feature analysis for each short time frame by the feature analysis unit 21, and the feature quantity vector subjected to the feature analysis is stored in each SOM information storage memory 23. Compared with the feature quantity vector assigned to the coordinates, the nearest coordinates closest to the inputted feature quantity vector among the many coordinates held on the two-dimensional plane are searched. Here, the same type of feature vector as that in the learning phase is used.

また、分類決定部24は、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する(信号処理種別情報出力ステップ)。
そして、音響信号処理部25は、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう(音響信号処理ステップ)。また、音響信号処理ステップは、検索ステップにて検索された近傍座標に割り当てられたグループ識別情報に基づいて学習ステップにて取得された1又は複数のパラメータを変更する(変更ステップ)。さらに、変更ステップにて変更された上記の1又は複数のパラメータを用いて音響信号処理を行なう。
Further, the classification determination unit 24 outputs signal processing type information corresponding to the group identification information of the neighboring coordinates searched in the search step among the plurality of signal processing type information indicating the processing type of the acoustic signal (signal processing). Type information output step).
The acoustic signal processing unit 25 performs acoustic signal processing based on the signal processing type information output in the signal processing type information output step (acoustic signal processing step). In the acoustic signal processing step, one or more parameters acquired in the learning step are changed based on the group identification information assigned to the neighboring coordinates searched in the search step (change step). Furthermore, acoustic signal processing is performed using the one or more parameters changed in the changing step.

(8)学習フェーズの処理動作
このような構成により、学習フェーズの処理フローについて図8を参照して説明する。
図8は本発明の第1実施形態に係る学習フェーズの処理を説明するためのフローチャートである。音声入力部50は、環境音の音響信号を特徴解析部21に対して入力すると(ステップA1)、この特徴解析部21において、上記の種々の方法の特徴解析処理が行なわれる(ステップA2)。そして、SOM座標検索部22は、特徴量パラメータと最も近いSOM上の座標を検索する(ステップA3)。この後、各座標の特徴量パラメータによる更新が例えば、式(1)に示す方法で行なわれたかどうかが判定される(ステップA4)。
(8) Learning Phase Processing Operation With this configuration, the learning phase processing flow will be described with reference to FIG.
FIG. 8 is a flowchart for explaining the learning phase processing according to the first embodiment of the present invention. When the sound input unit 50 inputs the acoustic signal of the environmental sound to the feature analysis unit 21 (step A1), the feature analysis unit 21 performs feature analysis processing of the various methods described above (step A2). Then, the SOM coordinate search unit 22 searches for a coordinate on the SOM closest to the feature amount parameter (step A3). Thereafter, it is determined whether or not the update by the feature amount parameter of each coordinate has been performed, for example, by the method shown in Expression (1) (step A4).

ここで、SOM座標検索部22は、すべての環境音について処理を行なったか否かを検索し(ステップA5)、処理が終了の場合は、YESルートを通り、SOM情報をSOM情報格納メモリ23に格納する(ステップA6)。また、ステップA5において、処理が残っている場合は、NOルートを通り、ステップA1以降の処理が行なわれる。
このようにして、学習フェーズが終了すると、SOM情報格納メモリ23に、信号処理実行フェーズの比較に用いられる特徴量ベクトルが格納される。
Here, the SOM coordinate search unit 22 searches whether or not all environmental sounds have been processed (step A5). If the processing is completed, the SOM information is stored in the SOM information storage memory 23 through the YES route. Store (step A6). If the process remains in step A5, the process after step A1 is performed through the NO route.
In this way, when the learning phase is completed, the feature quantity vector used for comparison in the signal processing execution phase is stored in the SOM information storage memory 23.

(9)信号処理実行フェーズ処理部28
次に、図3を参照して、信号処理実行フェーズ処理部28について説明する。
図3は本発明の第1実施形態に係る信号処理実行フェーズ処理部28を説明するための図である。この図3に示す分類決定部24は、音響信号の処理種別を表す複数の信号処理モードのうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理モードを決定するものである。また、この音響信号処理モードの一例は、後述する表1に示すように、圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等である。さらに、信号処理モードの決定は、分類決定部24に設けられた信号処理モード保持メモリに保持されたグループ識別情報と信号処理モードとに基づいて行なわれる。
(9) Signal processing execution phase processing unit 28
Next, the signal processing execution phase processing unit 28 will be described with reference to FIG.
FIG. 3 is a diagram for explaining the signal processing execution phase processing unit 28 according to the first embodiment of the present invention. The classification determination unit 24 shown in FIG. 3 determines a signal processing mode corresponding to the group identification information searched by the SOM coordinate search unit 22 among a plurality of signal processing modes representing the processing type of the acoustic signal. is there. An example of this acoustic signal processing mode is compression amplification processing, formant enhancement processing, noise suppression processing, etc., as shown in Table 1 described later. Further, the determination of the signal processing mode is performed based on the group identification information and the signal processing mode held in the signal processing mode holding memory provided in the classification determination unit 24.

なお、図3に示すもので上述したものと同一符号を有するものはそれらと同一のものを表す。また、信号処理モード信号は、表1に示す変換テーブルに保持するようにもできる。
これにより、特徴解析部21において、マイクから入力された音響信号波形の特徴解析が行なわれる。この特徴解析部21における信号処理の種別は、学習フェーズにおける信号処理の種別と同一にされている。その主な理由は、例えば音響信号のサブバンド幅,音響信号のパワースペクトルの分割幅等を共通に設定するためである。従って、信号処理実行フェーズにおける特徴解析処理は、学習フェーズにおいて用いられたFFT処理,フィルタバンク処理,線形予測分析処理およびメルケプストラム処理等を用いて行なわれる。
In addition, what has the same code | symbol as what was shown in FIG. 3 and mentioned above represents the same thing as them. Further, the signal processing mode signal can be held in the conversion table shown in Table 1.
Thereby, the feature analysis unit 21 performs feature analysis of the acoustic signal waveform input from the microphone. The type of signal processing in the feature analysis unit 21 is the same as the type of signal processing in the learning phase. The main reason is that, for example, the subband width of the acoustic signal, the division width of the power spectrum of the acoustic signal, and the like are set in common. Therefore, the feature analysis processing in the signal processing execution phase is performed using the FFT processing, filter bank processing, linear prediction analysis processing, mel cepstrum processing, and the like used in the learning phase.

次に、SOM座標検索部22においてSOM座標が検索される。具体的には、SOM座標検索部22は、入力音響信号の特徴量ベクトルw(t)が、SOM情報格納メモリ23の2次元平面(図5参照)においてどの座標に最も近いかを検索する。すなわち、SOM座標検索部22は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|w(t) − mi(t)|が最小となるiを検索する。ここで、w(t),mi(t)および|w(t) − mi(t)|はそれぞれ、所望の時刻tに入力された特徴量ベクトルFINPUT(x,y,k),学習フェーズにて保持された特徴量ベクトルFSOM(x,y,k)およびw(t)とmi(t)とのユークリッド距離を表している。 Next, the SOM coordinate search unit 22 searches for the SOM coordinates. Specifically, the SOM coordinate search unit 22 searches for a coordinate closest to the feature vector w (t) of the input acoustic signal in the two-dimensional plane (see FIG. 5) of the SOM information storage memory 23. That is, the SOM coordinate search unit 22 searches for i that minimizes the Euclidean distance | w (t) −m i (t) | in order to obtain the nearest coordinates closest to the input feature vector. Here, w (t), m i (t) and | w (t) −m i (t) | are respectively feature quantity vectors F INPUT (x, y, k), held in the learning phase feature vector F SOM represents the Euclidean distance (x, y, k) and w and (t) m i and (t).

そして、音響信号の処理種別を表す複数の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報が出力される。すなわち、分類整理されて保持された特徴量ベクトルに基づいて、信号処理が選択される。
次に、分類決定部24において、ユークリッド距離|w(t) − mi(t)|が最小となる座標icのグループ(グループ属性)に基づいて、音響信号処理に用いる音響信号の種別が決定され、音響信号処理部25に対して音響信号処理モードが出力される。音響信号処理モードは、例えば表1に示すモードを用いることができる。
And the signal processing classification information corresponding to the group identification information searched in the SOM coordinate search part 22 among the several signal processing classification information showing the processing classification of an acoustic signal is output. That is, the signal processing is selected based on the feature vector that is classified and held.
Next, the classification determination unit 24 determines the type of the acoustic signal used for the acoustic signal processing based on the group (group attribute) of the coordinate ic that minimizes the Euclidean distance | w (t) −m i (t) |. Then, the acoustic signal processing mode is output to the acoustic signal processing unit 25. As the acoustic signal processing mode, for example, the modes shown in Table 1 can be used.

Figure 2005203981
Figure 2005203981



そして、音響信号処理部25は、分類決定部24から指示(又は通知)された音響信号処理モードを用いて入力音響信号の信号処理を行ない、また、アンプ51を介してイヤホン等に出力する。
これにより、信号処理実行フェーズは、類似した特徴量を有する音響信号がグループ化された属性マップに基づいて信号処理が実行される。
The acoustic signal processing unit 25 performs signal processing of the input acoustic signal using the acoustic signal processing mode instructed (or notified) from the classification determination unit 24, and outputs the signal to an earphone or the like via the amplifier 51.
Thereby, in the signal processing execution phase, signal processing is executed based on an attribute map in which acoustic signals having similar feature amounts are grouped.

また、信号処理実行フェーズは、音響信号処理は常時実行されるが、音響信号処理モードを決定するための特徴解析,SOM座標検索および分類決定処理は、適切な周期毎(例えば1秒〜2秒)に行なわれる。
(10)信号処理実行フェーズ処理部28の処理動作
このような構成により、本発明の第1実施形態に係る信号処理実行フェーズについて図9を参照して説明する。
In the signal processing execution phase, acoustic signal processing is always performed, but feature analysis, SOM coordinate search, and classification determination processing for determining the acoustic signal processing mode are performed at appropriate intervals (for example, 1 to 2 seconds). ).
(10) Processing Operation of Signal Processing Execution Phase Processing Unit 28 With such a configuration, the signal processing execution phase according to the first embodiment of the present invention will be described with reference to FIG.

図9は本発明の第1実施形態に係る音響信号処理方法を説明するためのフローチャートである。分類決定部24は、ステップB1において、音響信号処理装置20の起動時又は起動後に音響信号処理モードが変更されたときに音響信号処理モード(信号処理モード)を確認する必要の有無を判定し、その確認が必要と判定した場合はYESルートを通り、特徴解析部21によって特徴解析処理が行なわれる(ステップB2)。分類決定部24は、ステップB1において、音響信号処理モードの確認が不要と判定すると、NOルートを通り、現在の信号処理モードを表1に示すテーブルに保持し(ステップB6)、音響信号処理部25は音響信号処理を実行する(ステップB5)。   FIG. 9 is a flowchart for explaining the acoustic signal processing method according to the first embodiment of the present invention. In step B1, the classification determination unit 24 determines whether or not the acoustic signal processing mode (signal processing mode) needs to be confirmed when the acoustic signal processing mode is changed when the acoustic signal processing device 20 is activated or after the activation. If it is determined that the confirmation is necessary, the route is YES and the feature analysis unit 21 performs feature analysis processing (step B2). If the classification determining unit 24 determines in step B1 that the acoustic signal processing mode need not be confirmed, the classification determining unit 24 passes the NO route, holds the current signal processing mode in the table shown in Table 1 (step B6), and the acoustic signal processing unit. 25 executes acoustic signal processing (step B5).

また、特徴解析が行なわれると(ステップB2)、SOM座標検索部22は、特徴量パラメータと最も近いSOM平面上の座標を検索し(ステップB3)、検索された座標に基づいて分類決定部24は、音響信号処理部25に対して音響信号処理モードを入力し(ステップB4)、音響信号処理が行なわれる(ステップB5)。
このステップB5の後、分類決定部24は、ステップB7において、処理が終了したか否かを判定し、処理終了時はYESルートを通り処理が終了し、また、処理が終了していない場合はNOルートを通り、再度、ステップB1以降の処理が繰り返される。
When the feature analysis is performed (step B2), the SOM coordinate search unit 22 searches for the coordinates on the SOM plane closest to the feature parameter (step B3), and the classification determination unit 24 based on the searched coordinates. Inputs an acoustic signal processing mode to the acoustic signal processing unit 25 (step B4), and acoustic signal processing is performed (step B5).
After step B5, the classification determining unit 24 determines in step B7 whether or not the process has ended. When the process ends, the process passes through the YES route, and if the process has not ended. The process after step B1 is repeated again through the NO route.

このように、本発明の音響信号処理方法によれば、入力された音響信号に応じて適切に信号処理が行なわれるので、安定しかつ明瞭性の高い音声又は音響信号が取得され、ユーザの不快感が取り除かれ、高品質の音を聴取できる。
また、このように、スペクトル特性に応じて、雑音レベルが低いスペクトル領域のレベルを強調でき、雑音レベルが高いスペクトル領域のレベルを強調するので聴感が向上する。例えば、ユーザが家の外に出たときに、雑音成分を抑圧して音声レベルが上昇するようになり、雑音がある環境において、ユーザは明瞭度の高い音を聞くことができる。
As described above, according to the acoustic signal processing method of the present invention, signal processing is appropriately performed in accordance with the input acoustic signal, so that a stable and highly clear voice or acoustic signal is acquired, and the user's trouble is Pleasure is removed and high quality sound can be heard.
Further, in this manner, the level of the spectral region with a low noise level can be emphasized according to the spectral characteristics, and the level of the spectral region with a high noise level is emphasized, so the audibility is improved. For example, when the user goes out of the house, the noise level is suppressed to increase the voice level, and in a noisy environment, the user can hear a sound with high clarity.

(11)領域分割方法を用いた検索方法
次に、領域分割方法について詳述する。学習フェーズにおいて、学習計算後、最後の段階において、グループ数と音とを選択して領域分割する。その選択は、システムの設計者(又はSOM学習部26)が、予め、各グループについて代表的な複数の音を決定する。この音は、学習計算に用いた音又は学習計算とは別個に用意した音から選択される。
(11) Search Method Using Region Division Method Next, the region division method will be described in detail. In the learning phase, after the learning calculation, in the last stage, the number of groups and the sound are selected and divided into regions. For the selection, the system designer (or SOM learning unit 26) determines a plurality of representative sounds for each group in advance. This sound is selected from the sound used for the learning calculation or the sound prepared separately from the learning calculation.

次に、音響信号処理装置20は、これら複数の環境音を順に入力され、信号処理実行フェーズと同一の処理を行ない、その入力音が2次元平面上でどの座標にマッピングされるかが計算される。そして、その座標のグループ識別情報として、グループ種別を表す数値を書き込み、これを繰り返し実行する。ここで、既に何らかの数値が書き込まれた座標にマッピングされた場合は、今回入力された音のグループの種類を示す数値を、その座標のグループ識別情報として上書きする。   Next, the acoustic signal processing device 20 inputs the plurality of environmental sounds in order, performs the same processing as in the signal processing execution phase, and calculates to which coordinates the input sound is mapped on the two-dimensional plane. The Then, a numerical value representing the group type is written as the group identification information of the coordinates, and this is repeatedly executed. Here, in the case where mapping is made to a coordinate where some numerical value has already been written, the numerical value indicating the type of sound group input this time is overwritten as the group identification information of that coordinate.

具体例として、音響信号処理装置20が、学習フェーズにおいて、音声と、ノイズ(掃除機の音等)と、サイレン音(救急車等)との3種類のグループのグループ識別情報を、それぞれ、「1」,「2」,「3」に割り当てる。そして、学習用に入力された音響信号が、特徴解析により音声と解析されると、その特徴量ベクトルが、例えば座標(2,3)にマッピングされる。この場合、特徴解析部21は、座標(2,3)のグループ識別情報として「1」をSOM座標検索部22に対して入力する。   As a specific example, in the learning phase, the acoustic signal processing device 20 sets the group identification information of three types of groups of sound, noise (such as a cleaner), and siren sound (such as an ambulance) to “1”. ”,“ 2 ”, and“ 3 ”. Then, when the acoustic signal input for learning is analyzed as speech by feature analysis, the feature quantity vector is mapped to, for example, coordinates (2, 3). In this case, the feature analysis unit 21 inputs “1” as the group identification information of the coordinates (2, 3) to the SOM coordinate search unit 22.

また、学習用として用意された全ての音が入力された後に、未だ、グループ識別情報が設定されていない未設定座標は、その未設定座標に最も近い座標であってグループ識別情報が設定されている設定済み座標のグループ識別情報が割り当てられる。この未設定座標(x,y,k)の検索方法は、SOM座標検索部22が、(x−1,y,k),(x,y−1,k),(x+1,y,k),(x,y+1,k),(x−1,y−1,k),(x−1,y+1,k),(x+1,y−1,k),(x+1,y+1,k)の順に、各座標にグループ識別情報が設定されているか否かを探索する。この検索範囲のすべての座標がグループ識別情報を設定されていない場合、SOM座標検索部22は、さらに、(x−2,y,k),(x,y−2,k),(x+2,y,k),(x,y+2,k)の順に、各座標のグループ識別情報を探索する。   In addition, after all sounds prepared for learning are input, unset coordinates for which group identification information has not been set are coordinates closest to the unset coordinates and group identification information is set. Group identification information of assigned coordinates is assigned. The search method for the unset coordinates (x, y, k) is such that the SOM coordinate search unit 22 uses (x-1, y, k), (x, y-1, k), (x + 1, y, k). , (X, y + 1, k), (x-1, y-1, k), (x-1, y + 1, k), (x + 1, y-1, k), (x + 1, y + 1, k) in this order. Then, it is searched whether group identification information is set for each coordinate. When the group identification information is not set for all coordinates in this search range, the SOM coordinate search unit 22 further performs (x−2, y, k), (x, y−2, k), (x + 2, The group identification information of each coordinate is searched in the order of y, k), (x, y + 2, k).

従って、SOM座標検索部22は、SOM情報格納メモリ23のSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標に対応するグループ識別情報を出力する。
このように、各座標についてのグループ識別情報が検索されて処理されるので、明瞭な音響信号が得られる。
Therefore, the SOM coordinate search unit 22 corresponds to neighboring coordinates located in the vicinity of the feature quantity vector from the feature quantity output unit among the plurality of coordinates in the two-dimensional plane held in the SOM information data of the SOM information storage memory 23. Output group identification information.
Thus, since the group identification information for each coordinate is retrieved and processed, a clear acoustic signal can be obtained.

このようにして、本発明の音響信号処理装置20および音響信号処理方法によれば、学習フェーズにおいて各種の音響の特徴量ベクトルがSOM情報格納メモリ23にデータベース化され、また、信号処理実行フェーズにおいて入力された現時点の音響信号が特徴解析される。そして、この現時点における音響信号の特徴量ベクトルと、SOM情報格納メモリ23に保持された特徴量ベクトルとに基づいて周囲の音環境が識別され、識別された環境に応じて増幅特性等が調整されるので、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生できる。   As described above, according to the acoustic signal processing device 20 and the acoustic signal processing method of the present invention, various acoustic feature vectors are databased in the SOM information storage memory 23 in the learning phase, and in the signal processing execution phase. The inputted current acoustic signal is subjected to feature analysis. Then, the surrounding sound environment is identified based on the current feature vector of the acoustic signal and the feature vector stored in the SOM information storage memory 23, and the amplification characteristics and the like are adjusted according to the identified environment. Therefore, in any sound environment, stable and appropriate sound signal processing can be performed, and it is easy to hear and stable and highly clear sound can be reproduced.

(a1)第1変形例の説明
第1実施形態における音響信号処理部25は、分類決定部24から入力される音響信号処理モードに基づいて処理種別を変更していた。本変形例の音響信号処理方法は、その音響信号処理モードを切り替える代わりに、増幅度又は増幅特性等の信号処理に関するパラメータを用いて音響信号についての処理種別を変更調整する。
(A1) Description of First Modification The acoustic signal processing unit 25 in the first embodiment has changed the processing type based on the acoustic signal processing mode input from the classification determination unit 24. In the acoustic signal processing method of this modification, instead of switching the acoustic signal processing mode, the processing type for the acoustic signal is changed and adjusted using a parameter related to signal processing such as the degree of amplification or amplification characteristics.

図10は本発明の第1実施形態の第1変形例に係る信号処理実行フェーズ処理部28aのブロック図であり、この図10に示すSOM座標検索部22の出力側に、メモリ31とパラメータ調整部30とが設けられている。このメモリ31は、グループ識別情報とパラメータとを対応付けて保持するものである。このパラメータは、音響信号の例えば増幅処理に必要なアンプ51の増幅度等を識別するための値である。   FIG. 10 is a block diagram of a signal processing execution phase processing unit 28a according to a first modification of the first embodiment of the present invention. On the output side of the SOM coordinate search unit 22 shown in FIG. Part 30 is provided. The memory 31 stores group identification information and parameters in association with each other. This parameter is a value for identifying, for example, the amplification degree of the amplifier 51 necessary for the amplification process of the acoustic signal.

また、パラメータ調整部30は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するものであって、信号処理種別情報出力部として機能している。そして、パラメータ調整部30は、その音響信号の例えば増幅処理に必要な設定値に関するパラメータを、SOM座標検索部22にて検索されたグループ識別情報に基づいて調整して出力する。   The parameter adjustment unit 30 adjusts and outputs a parameter related to the setting value necessary for processing the acoustic signal based on the group identification information searched by the search unit, and includes a signal processing type information output unit. Is functioning as Then, the parameter adjustment unit 30 adjusts and outputs a parameter related to a setting value necessary for the amplification process of the acoustic signal based on the group identification information searched by the SOM coordinate search unit 22.

換言すれば、信号処理種別情報出力部としてのパラメータ調整部30は、音響信号の処理種別を表す圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報を出力している。
これにより、パラメータ調整部30において、グループ識別情報に基づいて音響信号処理に適用するためのパラメータが適切に変更される。
In other words, the parameter adjustment unit 30 serving as the signal processing type information output unit includes the SOM coordinate search unit 22 in the signal processing type information such as compression amplification processing, formant emphasis processing, or noise suppression processing that represents the processing type of the acoustic signal. The signal processing type information corresponding to the group identification information retrieved in is output.
Thereby, in the parameter adjustment part 30, the parameter for applying to an acoustic signal process is changed appropriately based on group identification information.

なお、メモリ31は、パラメータ調整部30の内部,パラメータ調整部30以外の他のブロック又は他のブロック内部のメモリ(バッファ)等に設けることもできる。
そして、このような構成によって、第1変形例における音響信号処理方法は、学習フェーズにおいて、パラメータ調整部30が、分類されたグループ毎に適切なパラメータを、学習,外部機器からの入力又は手動設定等を用いて事前にメモリ等に保持しておく。そして、この状態において、第1変形例の学習フェーズは、第1実施形態における音響信号処理と基本的に同一処理を行なう。
The memory 31 can also be provided in the parameter adjustment unit 30, in a block other than the parameter adjustment unit 30, or in a memory (buffer) in another block.
With such a configuration, in the acoustic signal processing method according to the first modification, in the learning phase, the parameter adjustment unit 30 learns appropriate parameters for each classified group, inputs from an external device, or is manually set. Or the like is previously stored in a memory or the like. In this state, the learning phase of the first modification basically performs the same processing as the acoustic signal processing in the first embodiment.

また、信号処理実行フェーズにおいて、SOM座標検索部22が、入力音響信号から得られたSOM情報格納メモリ23上の座標が、どのグループに属するかについて判断する。
次に、第1実施形態における処理と異なり、パラメータ調整部30は、得られたグループ情報を基に音響信号処理のパラメータを変更する。そして、音響信号処理は、変更されたパラメータを用いて実行される。
In the signal processing execution phase, the SOM coordinate search unit 22 determines to which group the coordinates on the SOM information storage memory 23 obtained from the input acoustic signal belong.
Next, unlike the processing in the first embodiment, the parameter adjustment unit 30 changes the parameters of the acoustic signal processing based on the obtained group information. Then, the acoustic signal processing is executed using the changed parameter.

このようにして、第1変形例においては、第1実施形態における効果を得られるほかに、パラメータ調整部30を用いることによる処理の簡素化が図れる。
(a2)第2変形例の説明
第2変形例の音響信号処理装置20は、音響信号処理装置20自身の自動処理に加えて、ユーザの手動操作による手動処理を利用できるようにしている。
In this way, in the first modified example, in addition to obtaining the effects of the first embodiment, the process can be simplified by using the parameter adjustment unit 30.
(A2) Description of Second Modification The acoustic signal processing device 20 of the second modification can use manual processing by a user's manual operation in addition to automatic processing of the acoustic signal processing device 20 itself.

図11は本発明の第1実施形態の第2変形例に係る信号処理実行フェーズ処理部のブロック図であり、この図11に示す信号処理実行フェーズ処理部28bは、分類情報修正部29と、分類決定/パラメータ調整部(分類決定およびパラメータ調整部)30aと、モード/パラメータ強制変更部32とをそなえて構成されている。ここで、分類情報修正部29は、SOM情報格納メモリ23に保持されたSOM情報データを書き替え可能なものである。また、モード/パラメータ強制変更部32は、ユーザからの入力データに基づいて適切な修正信号を分類情報修正部29に対して入力するものである。   FIG. 11 is a block diagram of a signal processing execution phase processing unit according to a second modification of the first embodiment of the present invention. The signal processing execution phase processing unit 28b shown in FIG. A classification determination / parameter adjustment unit (classification determination and parameter adjustment unit) 30a and a mode / parameter forced change unit 32 are provided. Here, the classification information correction unit 29 can rewrite the SOM information data held in the SOM information storage memory 23. Further, the mode / parameter forced change unit 32 inputs an appropriate correction signal to the classification information correction unit 29 based on input data from the user.

さらに、分類決定/パラメータ調整部(分類決定およびパラメータ調整部)30aは、SOM座標検索部22からの座標データに基づいて、適切なグループ化の決定(分類決定)および適切な例えば増幅器の増幅度等のパラメータを音響信号処理部25に対して入力するものである。この機能は、例えばユーザ自身がモード又はパラメータに用いる情報データを直接入力する方法又は無線回線,有線回線を介して入力された情報データを入力する方法あるいは、予め各種のモード,パラメータに関する情報データを記憶しておくROM等を用いることにより実現される。   Further, the classification determination / parameter adjustment unit (classification determination and parameter adjustment unit) 30a determines an appropriate grouping (classification determination) and an appropriate amplification degree of the amplifier based on the coordinate data from the SOM coordinate search unit 22, for example. Are input to the acoustic signal processing unit 25. This function is, for example, a method of directly inputting information data used by a user for a mode or parameter, a method of inputting information data input via a wireless line or a wired line, or information data relating to various modes and parameters in advance. This is realized by using a ROM or the like to be stored.

ここで、SOM情報データの修正の流れについてさらに詳述する。ユーザが手動操作により入力した情報データは、モード/パラメータ強制変更部32において読み込まれ、このモード/パラメータ強制変更部32から、モード又はパラメータの修正内容を含むデータが(修正指示データ)が、分類情報修正部29を介して、SOM情報格納メモリ23に保持されるようになっている。なお、モード/パラメータ強制変更部32にて変更されたモード又はパラメータは、音声信号処理部25に入力される。従って、信号処理実行フェーズにおいて、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード/パラメータが変更できる。   Here, the flow of correction of SOM information data will be described in further detail. Information data manually input by the user is read by the mode / parameter forced change unit 32, and data including the mode or parameter correction content (correction instruction data) is classified from the mode / parameter forced change unit 32. The information is stored in the SOM information storage memory 23 via the information correction unit 29. The mode or parameter changed by the mode / parameter forced change unit 32 is input to the audio signal processing unit 25. Therefore, in the signal processing execution phase, the processing mode / parameter can be forcibly changed based on an instruction using a user input operation or the like.

これにより、ユーザが本音響信号処理装置20を使用又は聴取した場合に、適切なモード又はパラメータでないと判断してボタンの押下等を行なうと、分類決定/パラメータ調整部30aは、そのボタン操作による入力に基づいて、適切な音質でないことを検知し、音響信号のグループ識別情報を修正する。また、分類属性情報修正部は、入力の停止の検知により修正を開始するようになっている。さらに、分類属性情報修正部は、特徴量ベクトル,入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、SOM情報格納メモリ23に保持するようになっている。   As a result, when the user uses or listens to the acoustic signal processing device 20 and determines that the mode or parameter is not appropriate and performs a button press or the like, the classification determination / parameter adjustment unit 30a performs the button operation. Based on the input, it detects that the sound quality is not appropriate, and corrects the group identification information of the acoustic signal. Further, the classification attribute information correction unit starts correction upon detection of an input stop. Further, the classification attribute information correction unit holds the feature quantity vector, the signal processing type information at the time of the input operation, or the parameter associated with each group in the SOM information storage memory 23.

このような構成によって、本発明の第1実施形態の第2変形例における音響信号処理方法は、学習フェーズにおける処理は、第1実施形態および第1変形例における各学習フェーズの処理と同一である。
第2変形例における信号処理実行フェーズは、以下に述べる処理ステップが追加されている。
With such a configuration, in the acoustic signal processing method in the second modification of the first embodiment of the present invention, the processing in the learning phase is the same as the processing in each learning phase in the first embodiment and the first modification. .
In the signal processing execution phase in the second modified example, processing steps described below are added.

次に、追加信号処理実行フェーズにおいては、信号処理の実行時にユーザが聴取している音が明瞭に聞き取れない場合、ユーザ自身が適切なモード/パラメータになるようにボタン操作等を切り替える。ここで、分類決定/パラメータ調整部30aは、適切な音質でないことを検知すると、即座にユーザが指示するモード/パラメータに切り替える。続いて、分類決定/パラメータ調整部30aは、その時点におけるSOM座標のグループと、そのSOM座標の周辺座標におけるグループとの両方のグループを、ユーザが選択したモード/パラメータが対応するグループに修正する。また、分類決定/パラメータ調整部30aは、この修正時において入力されていた音響信号の特徴量情報を一時保持し、また、ユーザが変更した変更後のモード/パラメータについても一時保持する。   Next, in the additional signal processing execution phase, when the sound being heard by the user at the time of executing the signal processing cannot be clearly heard, the button operation or the like is switched so that the user himself / herself becomes an appropriate mode / parameter. Here, when the classification determination / parameter adjustment unit 30a detects that the sound quality is not appropriate, the classification determination / parameter adjustment unit 30a immediately switches to the mode / parameter designated by the user. Subsequently, the classification determination / parameter adjustment unit 30a corrects both the group of the SOM coordinates at that time and the group of the peripheral coordinates of the SOM coordinates to a group corresponding to the mode / parameter selected by the user. . Further, the classification determination / parameter adjustment unit 30a temporarily holds the feature amount information of the acoustic signal input at the time of the correction, and temporarily holds the changed mode / parameter changed by the user.

さらに、修正フェーズにおいて、ユーザが音響信号処理装置20を停止させる等したときは、本音響信号処理装置20は、修正フェーズに移行し、また、修正フェーズの移行が開始されると、分類決定/パラメータ調整部30aは、グループ情報を修正する。
そして、分類決定/パラメータ調整部30aとSOM座標検索部22とが協働することにより、一時保持されていた特徴量が2次元平面においてどの座標に最も近いかを検索する。そして、分類決定/パラメータ調整部30aは、検索された座標およびその周辺のグループ情報を、ユーザが選択したモード/パラメータに対応するグループに修正する。
Further, when the user stops the acoustic signal processing device 20 in the correction phase, the acoustic signal processing device 20 shifts to the correction phase, and when the shift to the correction phase is started, the classification determination / The parameter adjustment unit 30a corrects the group information.
Then, the classification determination / parameter adjustment unit 30a and the SOM coordinate search unit 22 cooperate to search for the closest coordinates in the two-dimensional plane that the temporarily stored feature amount is. Then, the classification determination / parameter adjustment unit 30a corrects the retrieved coordinates and surrounding group information to a group corresponding to the mode / parameter selected by the user.

このように、信号処理実行フェーズにおいては、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード/パラメータが変更される。
また、信号処理を停止している間に、音響信号処理装置20は、修正フェーズに移行する。修正フェーズにおいては、ユーザの応答に従ってSOM情報を修正する。
このように、第2変形例においては、ユーザからのフィードバックによって、SOM情報格納メモリ23における音響信号のグループ識別情報が修正され、そして、音響信号処理のモード/パラメータ切り替え情報から自己組織化マップ上におけるグループ識別情報が修正される。
Thus, in the signal processing execution phase, the processing mode / parameter is forcibly changed based on an instruction using a user input operation or the like.
Further, while the signal processing is stopped, the acoustic signal processing device 20 proceeds to the correction phase. In the correction phase, the SOM information is corrected according to the user response.
As described above, in the second modified example, the group identification information of the acoustic signal in the SOM information storage memory 23 is corrected by feedback from the user, and the mode / parameter switching information of the acoustic signal processing is used on the self organizing map. The group identification information in is corrected.

(a3)第3変形例
第3変形例においては、第1実施形態の特徴解析部21の代わりに、既存の音声符号化処理部が設けられている。
図12は本発明の第1実施形態の第3変形例に係る学習フェーズ処理部のブロック図である。この図12に示す学習フェーズ処理部27aにおいて、特徴量出力部21aが、音声符号化処理により得られた音声符号化パラメータを入力され音声符号化パラメータを特徴量ベクトルとしてSOM情報格納メモリ23に入力する音声符号化処理部(既存の音声符号化処理部)21aとして構成されている。SOM学習部26が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力されるようになっている。
(A3) Third Modification In the third modification, an existing speech encoding processing unit is provided instead of the feature analysis unit 21 of the first embodiment.
FIG. 12 is a block diagram of a learning phase processing unit according to a third modification of the first embodiment of the present invention. In the learning phase processing unit 27a shown in FIG. 12, the feature quantity output unit 21a receives the speech coding parameters obtained by the speech coding process and inputs the speech coding parameters to the SOM information storage memory 23 as feature quantity vectors. Is configured as a speech encoding processing unit (existing speech encoding processing unit) 21a. The SOM learning unit 26 is input with encoding parameters relating to encoding of an acoustic signal and generated by the acoustic signal processing device 20 itself or the transmission side device.

なお、図12および以下に説明する図13にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
次に、図13は本発明の第1実施形態の第3変形例に係る信号処理実行フェーズ処理部のブロック図である。この図13に示す信号処理実行フェーズ処理部28cは、既存の音声符号化処理により得られた音声符号化パラメータを用いて信号処理をするものであって、音声符号化処理部21aと、復号化処理部35と、音響信号処理部25aと、スピーカ52aとをそなえて構成されている。ここで、音声符号化処理部21aは、復調された情報データを出力するとともに、既存の音声符号化処理で得られた符号化パラメータを出力するものである。この符号化パラメータは、特徴量としてSOM座標検索部22に入力される。また、復号化処理部35は、音声符号化処理部21aから出力された情報データについて復号処理をし、受話音声を出力するものであって、この受話音声は音響信号処理部25aに入力される。さらに、音響信号処理部25aは、信号処理種別情報出力部(音声符号化処理部)21aから出力された信号処理種別情報に基づいて入力音響信号を処理するものであり、音声強調処理および雑音抑圧処理等を行なうものである。スピーカ52aは、アンプ51からの増幅信号を鳴動させるものである。
In addition, it is the code | symbol respectively displayed in FIG. 12 and FIG. 13 demonstrated below, Comprising: The thing which has the same code | symbol as mentioned above represents the same thing as them.
Next, FIG. 13 is a block diagram of a signal processing execution phase processing unit according to a third modification of the first embodiment of the present invention. The signal processing execution phase processing unit 28c shown in FIG. 13 performs signal processing using the speech coding parameters obtained by the existing speech coding processing, and includes the speech coding processing unit 21a and the decoding A processing unit 35, an acoustic signal processing unit 25a, and a speaker 52a are provided. Here, the speech encoding processing unit 21a outputs demodulated information data and outputs encoding parameters obtained by the existing speech encoding processing. This encoding parameter is input to the SOM coordinate search unit 22 as a feature amount. The decoding processing unit 35 performs decoding processing on the information data output from the voice encoding processing unit 21a and outputs a received voice. The received voice is input to the acoustic signal processing unit 25a. . Furthermore, the acoustic signal processing unit 25a processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit (speech encoding processing unit) 21a, and performs speech enhancement processing and noise suppression. Processing is performed. The speaker 52a is used to sound the amplified signal from the amplifier 51.

従って、SOM座標検索部22が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力される。さらに、音声入力部50および音声符号化処理部21aが符号化情報入力部(50,21a)とし、予め生成された符号化パラメータがSOM座標検索部22に入力されるのである。   Therefore, the SOM coordinate search unit 22 is input with the encoding parameters related to the encoding of the acoustic signal and generated in the acoustic signal processing device 20 itself or the transmission side device. Furthermore, the speech input unit 50 and the speech encoding processing unit 21a serve as the encoded information input unit (50, 21a), and the encoding parameters generated in advance are input to the SOM coordinate search unit 22.

従って、特徴量出力部21aが、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを、特徴量ベクトルとしてSOM情報格納メモリ23に入力するとともに、信号処理種別情報出力部が、グループ識別情報に基づいて、信号処理種別情報と符号化パラメータとのうちの少なくとも一方を出力し、音響信号処理部(信号処理部)25aが、信号処理種別情報出力部から出力された信号処理種別情報と符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されている。   Therefore, the feature quantity output unit 21a uses the encoding parameters related to the encoding of the acoustic signal and generated in the acoustic signal processing apparatus 20 itself or the transmission side apparatus as the feature quantity vector in the SOM information storage memory 23. The signal processing type information output unit outputs at least one of the signal processing type information and the encoding parameter based on the group identification information, and the acoustic signal processing unit (signal processing unit) 25a The signal processing type information output from the processing type information output unit is configured to execute different signal processing in accordance with each set value of the encoding parameter.

このような構成により、学習フェーズにおいて、図12に示す受信データから音声符号化パラメータが出力され、SOM学習部26において、この符号化パラメータが自己組織化マップを用いて音響信号が分類整理されて保持される。
そして、信号処理実行フェーズにおいて、図13に示す音声符号化処理部21aからの符号化パラメータは、SOM座標検索部22においてSOM情報格納メモリ23を用いて入力された音響信号がどのグループに属するかが識別される。さらに、分類決定部24において得られた識別情報は、音響信号処理部25aにおいて信号処理モード又はパラメータが切り替えられる。そして、指定された信号処理モード又は設定されたパラメータにより異なる音響信号処理が行なわれる。
With such a configuration, in the learning phase, speech encoding parameters are output from the received data shown in FIG. 12, and in the SOM learning unit 26, the acoustic signals are classified and organized using the self-organizing map. Retained.
In the signal processing execution phase, the encoding parameters from the speech encoding processing unit 21a shown in FIG. 13 indicate which group the acoustic signal input using the SOM information storage memory 23 in the SOM coordinate search unit 22 belongs to. Is identified. Further, the identification information obtained in the classification determining unit 24 is switched in the signal processing mode or parameter in the acoustic signal processing unit 25a. Then, different acoustic signal processing is performed depending on the designated signal processing mode or set parameters.

このように、本音響信号処理装置20を既存の音声符号化装置と連携して実装しかつ動作させるので、本音響信号処理装置20を汎用化が促進される。
このようにして、入力された音響信号に応じて適切な信号処理を行なうことができ、安定して明瞭性の高い音声を聴取することができる。
(b)本発明の第2実施形態の説明
第2実施形態においては、音響信号処理装置20が、携帯電話等に設けられた既存の音声符号化装置と連携させるようにしている。
As described above, since the acoustic signal processing device 20 is mounted and operated in cooperation with the existing speech encoding device, the generalization of the acoustic signal processing device 20 is promoted.
In this way, appropriate signal processing can be performed according to the input acoustic signal, and a sound with high clarity can be heard stably.
(B) Description of Second Embodiment of the Invention In the second embodiment, the acoustic signal processing device 20 is linked to an existing speech encoding device provided in a mobile phone or the like.

図14は本発明の第2実施形態に係る学習フェーズ処理部のブロック図である。この図14に示す学習フェーズ処理部42は、送信側において生成された符号化パラメータを無線復調処理してSOM学習部26に入力するものであって、例えば携帯電話等の受信部に設けられた音響信号処理装置20である。この学習フェーズ処理部42は、RF(Radio Frequency:無線スペクトル)信号を受信するアンテナ40aと、アンテナ40aからの無線信号をダウンコンバートして復調しその復調信号を出力するRF受信部40bと、RF受信部40bからの復調信号をベースバンド処理して音声符号化パラメータを含む情報データを抽出するベースバンド信号処理部40cとをそなえるとともに、SOM学習部26と、SOM情報格納メモリ23とをそなえて構成されている。   FIG. 14 is a block diagram of a learning phase processing unit according to the second embodiment of the present invention. The learning phase processing unit 42 shown in FIG. 14 performs radio demodulation processing on the encoding parameter generated on the transmission side and inputs it to the SOM learning unit 26. For example, the learning phase processing unit 42 is provided in a receiving unit such as a mobile phone. This is an acoustic signal processing device 20. The learning phase processing unit 42 includes an antenna 40a that receives an RF (Radio Frequency) signal, an RF reception unit 40b that down-converts and demodulates the radio signal from the antenna 40a, and outputs the demodulated signal. A baseband signal processing unit 40c for extracting information data including speech coding parameters by performing baseband processing on the demodulated signal from the receiving unit 40b, and an SOM learning unit 26 and an SOM information storage memory 23 are provided. It is configured.

ここで、音声符号化パラメータを出力するベースバンド信号処理部40cと、アンテナ40a,RF受信部40bとが特徴量出力部および符号化情報入力部として機能している。すなわち、学習フェーズ処理部42は、第1実施形態の特徴解析部21の代わりに、遠隔地から無線送信された音響信号データを復調し、復調したデータを用いて学習されるようになっている。従って、第2実施形態においては、SOM学習部26が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力される。   Here, the baseband signal processing unit 40c that outputs speech coding parameters, the antenna 40a, and the RF receiving unit 40b function as a feature amount output unit and an encoded information input unit. That is, the learning phase processing unit 42 demodulates acoustic signal data wirelessly transmitted from a remote place instead of the feature analysis unit 21 of the first embodiment, and learns using the demodulated data. . Therefore, in the second embodiment, the SOM learning unit 26 is input with the encoding parameters related to the encoding of the acoustic signal and generated by the acoustic signal processing device 20 itself or the transmission side device.

なお、図14および以下に説明する図15にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
図15は本発明の第2実施形態に係る信号処理実行フェーズ処理部のブロック図である。この図15に示す信号処理実行フェーズ処理部43は、携帯電話等の受信部に設けられたものである。
14 and FIG. 15 described below, and those having the same reference numerals as described above represent the same elements.
FIG. 15 is a block diagram of a signal processing execution phase processing unit according to the second embodiment of the present invention. The signal processing execution phase processing unit 43 shown in FIG. 15 is provided in a receiving unit such as a mobile phone.

このような構成により、無線信号が復調されて、既存の音声符号化処理で得られた符号化パラメータがSOM座標検索部22に入力され、SOM座標検索部22は、この符号化パラメータに基づいて自己組織化マップ(SOM情報格納メモリ)23を用いて音響信号を分類整理して記憶する。さらに、分類決定部24において、符号化パラメータに基づいてSOM情報格納メモリ23を用いて入力された音響信号がどのグループに属するかが識別され、得られたグループ識別情報に基づいて信号処理のモード又はパラメータが切り替えられ、そして、モード指定/パラメータ設定により異なる音響信号処理が行なわれる。   With such a configuration, a radio signal is demodulated, and an encoding parameter obtained by an existing speech encoding process is input to the SOM coordinate search unit 22, and the SOM coordinate search unit 22 is based on the encoding parameter. Sound signals are classified and stored using a self-organizing map (SOM information storage memory) 23. Further, the classification determining unit 24 identifies which group the acoustic signal input using the SOM information storage memory 23 belongs to based on the encoding parameter, and the signal processing mode based on the obtained group identification information. Alternatively, the parameters are switched, and different acoustic signal processing is performed depending on the mode designation / parameter setting.

このように、音響信号処理装置20を携帯電話等に設けられた音声符号化装置に組み込むこともでき、各種の音響信号処理に実装できる。
(c)その他
本発明は上述した実施態様およびその変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
As described above, the acoustic signal processing device 20 can be incorporated in a speech encoding device provided in a mobile phone or the like, and can be implemented in various acoustic signal processing.
(C) Others The present invention is not limited to the above-described embodiments and modifications thereof, and various modifications can be made without departing from the spirit of the present invention.

学習フェーズは、製品の生産時に行なわれるのみならず、ユーザが学習フェーズを行なえるようにもできる。この場合、学習フェーズおよび信号処理実行フェーズの切り替えが所定のタイミングで行なわれる。
第2実施形態における符号化入力部の機能は、携帯電話等のほかに、光ファイバ通信における受光処理装置等に設けることができる。
The learning phase is not only performed at the time of product production, but also allows the user to perform the learning phase. In this case, the learning phase and the signal processing execution phase are switched at a predetermined timing.
The function of the encoding input unit in the second embodiment can be provided in a light receiving processing device or the like in optical fiber communication in addition to a mobile phone or the like.

また、SOM情報格納メモリ23は、多次元空間における座標を生成するようにもできる。
(d)付記
(付記1) 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
該特徴量出力部からの該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
The SOM information storage memory 23 can also generate coordinates in a multidimensional space.
(D) Supplementary Note (Supplementary Note 1) A feature value output unit that outputs first feature value data representing a feature value of an input acoustic signal;
Corresponding to the coordinates of the two-dimensional plane, the second feature amount data assigned to the coordinates, and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in the two-dimensional plane A self-organizing map holding unit for holding the attached SOM information data;
The group identification information corresponding to the first feature quantity data based on the first feature quantity data from the feature quantity output unit and the SOM information data held in the self-organizing map holding unit A search section for searching for,
A signal processing type information output unit that outputs signal processing type information corresponding to the group identification information searched by the search unit among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing apparatus comprising: a signal processing unit that processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit.

(付記2) 該検索部が、
該自己組織化マップ保持部の該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標に対応する該グループ識別情報を出力するように構成されたことを特徴とする、付記1記載の音響信号処理装置。
(Appendix 2) The search unit
Corresponds to neighboring coordinates located in the vicinity of the first feature value data from the feature value output unit among a plurality of coordinates in the two-dimensional plane held in the SOM information data of the self-organizing map holding unit The acoustic signal processing device according to appendix 1, wherein the group identification information is output.

(付記3) 該検索部が、
該第1の特徴量データと該第2の特徴量データとに基づいて、該入力音響信号について、音声又は非音声と残響の有無とを識別するように構成されたことを特徴とする、付記1又は付記2記載の音響信号処理装置。
(付記4) 該自己組織化マップ保持部が、
該複数のグループのうちの各座標が属するグループと、各座標間にて相異なる固有の第2の特徴量データとを対応付けて保持するように構成されたことを特徴とする、付記1〜付記3のいずれか一に記載の音響信号処理装置。
(Appendix 3) The search unit
Note that, based on the first feature value data and the second feature value data, the input acoustic signal is configured to discriminate between speech or non-speech and the presence or absence of reverberation. The acoustic signal processing apparatus according to 1 or 2
(Appendix 4) The self-organizing map holding unit
Supplementary notes 1 to 3, wherein the group to which each coordinate of the plurality of groups belongs and the second characteristic amount data unique to each coordinate are stored in association with each other. The acoustic signal processing device according to any one of appendix 3.

(付記5) 該自己組織化マップ保持部が、
メモリ空間のアドレスと、該アドレスに割り当てられた第2の特徴量データと、複数の学習音響信号が該メモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持するように構成されたことを特徴とする、付記1〜付記4のいずれか一に記載音響信号処理装置。
(Appendix 5) The self-organizing map holding unit
The memory space address, the second feature amount data assigned to the address, and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in the memory space are associated with each other. The acoustic signal processing device according to any one of Supplementary Note 1 to Supplementary Note 4, wherein the acoustic signal processing device is configured to hold SOM information data.

(付記6) 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
多次元空間における座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
該特徴量出力部から出力された該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(Additional remark 6) The feature-value output part which outputs the 1st feature-value data showing the feature-value of an input acoustic signal,
Corresponding coordinates in the multidimensional space, second feature amount data assigned to the coordinates, and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in the multidimensional space A self-organizing map holding unit for holding SOM information data;
The group corresponding to the first feature quantity data based on the first feature quantity data output from the feature quantity output unit and the SOM information data held in the self-organizing map holding unit A search unit for searching for identification information;
A signal processing type information output unit that outputs signal processing type information corresponding to the group identification information searched by the search unit among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing apparatus comprising: a signal processing unit that processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit.

(付記7) 該信号処理種別情報出力部が、
音響信号の処理種別を表す複数の信号処理モードのうちの該検索部にて検索された該グループ識別情報に対応する信号処理モードを決定する決定部として構成されたことを特徴とする、付記1〜付記6のいずれか一に記載の音響信号処理装置。
(付記8) 該信号処理種別情報出力部が、
音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、付記1〜付記7のいずれか一に記載の音響信号処理装置。
(Supplementary note 7) The signal processing type information output unit
Appendix 1 characterized by being configured as a determination unit that determines a signal processing mode corresponding to the group identification information searched by the search unit among a plurality of signal processing modes representing a processing type of an acoustic signal. The acoustic signal processing device according to any one of?
(Appendix 8) The signal processing type information output unit
Appendix 1 to Appendix, wherein the parameter adjustment unit is configured to adjust and output a parameter related to a set value necessary for processing an acoustic signal based on the group identification information searched by the search unit. The acoustic signal processing device according to any one of 7.

(付記9) 該信号処理種別情報出力部が、
グループ識別情報と信号処理種別情報とを対応付けたテーブルを用いて取得した該信号処理種別情報を出力するように構成されたことを特徴とする、付記1〜付記8のいずれか一に記載の音響信号処理装置。
(付記10) 学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該第1の特徴量データに基づいて該学習音響信号を2次元平面においてグループ化する学習部と、
該2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(Supplementary note 9) The signal processing type information output unit
It is configured to output the signal processing type information acquired using a table in which group identification information and signal processing type information are associated with each other. Acoustic signal processing device.
(Additional remark 10) The feature-value output part which outputs the 1st feature-value data showing the feature-value of a learning acoustic signal,
A learning unit that groups the learning acoustic signals in a two-dimensional plane based on the first feature value data from the feature value output unit;
SOM information data in which the coordinates of the two-dimensional plane, the second feature value data assigned to the coordinates, and group identification information for identifying a plurality of groups grouped by the learning unit are associated with each other. An acoustic signal processing apparatus comprising a self-organizing map holding unit for holding

(付記11) 学習音響信号をサンプリングして得た学習音響信号波形を特徴解析して該学習音響信号の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該特徴量データに基づいて該学習音響信号を2次元平面にマッピングしてグループ化する学習部と、
該2次元平面の座標と、各座標に固有に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(Additional remark 11) The feature-value output part which analyzes the learning acoustic signal waveform obtained by sampling a learning acoustic signal, and outputs the feature-value data of this learning acoustic signal,
A learning unit that maps and groups the learning acoustic signals on a two-dimensional plane based on the feature amount data from the feature amount output unit;
SOM in which the coordinates of the two-dimensional plane, the second feature value data uniquely assigned to each coordinate, and group identification information for identifying a plurality of groups grouped by the learning unit are associated with each other. An acoustic signal processing apparatus comprising a self-organizing map holding unit for holding information data.

(付記12) 該特徴量出力部が、
音声符号化処理により得られた音声符号化パラメータを入力され該音声符号化パラメータを該第1の特徴量データとして該自己組織化マップ保持部に入力する符号化処理部として構成されたことを特徴とする、付記1〜付記11のいずれか一に記載の音響信号処理装置。
(Supplementary Note 12) The feature output unit
A speech coding parameter obtained by speech coding processing is input, and the speech coding parameter is input to the self-organizing map holding unit as the first feature value data. The acoustic signal processing device according to any one of Appendix 1 to Appendix 11.

(付記13) 該特徴量出力部が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置自身又は送信側装置において生成された符号化パラメータを、該第1の特徴量データとして該自己組織化マップ保持部に入力するとともに、
該信号処理種別情報出力部が、該グループ識別情報に基づいて、該信号処理種別情報と該符号化パラメータとのうちの少なくとも一方を出力し、
該信号処理部が、該信号処理種別情報出力部から出力された該信号処理種別情報と該符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されたことを特徴とする、付記1〜付記11のいずれか一に記載の音響信号処理装置。
(Supplementary note 13) The feature quantity output unit uses an encoding parameter related to encoding of an acoustic signal, which is generated by the acoustic signal processing apparatus itself or the transmission side apparatus, as the first feature quantity data. While inputting into the self-organizing map holding unit,
The signal processing type information output unit outputs at least one of the signal processing type information and the encoding parameter based on the group identification information,
The signal processing unit is configured to execute different signal processing according to each set value of the signal processing type information output from the signal processing type information output unit and the encoding parameter. The acoustic signal processing device according to any one of appendix 1 to appendix 11.

(付記14) 入力操作に応じて該自己組織化マップ保持部に保持されたSOM情報データを修正する分類属性情報修正部がさらに設けられたことを特徴とする、付記1〜付記13のいずれか一に記載の音響信号処理装置。
(付記15) 該分類属性情報修正部が、
該第1の特徴量データ,該入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、該自己組織化マップ保持部に保持するように構成されたことを特徴とする、付記14記載の音響信号処理装置。
(Supplementary note 14) Any one of Supplementary notes 1 to 13, further comprising a classification attribute information correction unit that corrects the SOM information data held in the self-organizing map holding unit according to an input operation. The acoustic signal processing device according to one.
(Supplementary Note 15) The classification attribute information correction unit
Appendix 14 characterized in that the first feature amount data, the signal processing type information at the time of the input operation, or a parameter associated with each group is held in the self-organizing map holding unit. The acoustic signal processing device described.

(付記16) 該分類属性情報修正部が、
入力の停止の検知により修正を開始するように構成されたことを特徴とする、付記15記載の音響信号処理装置。
(付記17) 学習音響信号の特徴量を表す第1の特徴量データに基づいて該学習音響信号について、2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、
該学習ステップにおける該第1の特徴量データについて、該学習ステップにて生成された該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。
(Supplementary Note 16) The classification attribute information correction unit
The acoustic signal processing device according to appendix 15, wherein the acoustic signal processing device is configured to start correction upon detection of an input stop.
(Additional remark 17) About the learning acoustic signal based on the 1st feature-value data showing the feature-value of a learning acoustic signal, the 2nd feature-value data allocated to this coordinate, and this learning A learning step for generating SOM information data in association with each of group identification information for identifying a plurality of groups grouped in a section;
For the first feature value data in the learning step, the first feature value output unit from among the plurality of coordinates in the two-dimensional plane held in the SOM information data generated in the learning step. A search step for searching for neighboring coordinates located in the vicinity of the feature amount data of
A signal processing type information output step for outputting signal processing type information corresponding to the group identification information of the neighboring coordinates searched in the searching step among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing method comprising: an acoustic signal processing step for performing the acoustic signal processing based on the signal processing type information output in the signal processing type information output step.

(付記18) 該学習ステップが、該複数のグループのそれぞれに対応する複数のパラメータを取得し、
該音響信号処理ステップが、該検索ステップにて検索された該近傍座標に割り当てられたグループ識別情報に基づいて該学習ステップにて取得された1又は複数のパラメータを変更する変更ステップと、
該変更ステップにて変更された上記の1又は複数のパラメータを用いて該音響信号処理を行なうことを特徴とする、付記17記載の音響信号処理方法。
(Supplementary Note 18) The learning step acquires a plurality of parameters corresponding to each of the plurality of groups,
The acoustic signal processing step includes a changing step of changing one or a plurality of parameters acquired in the learning step based on group identification information assigned to the neighboring coordinates searched in the searching step;
18. The acoustic signal processing method according to appendix 17, wherein the acoustic signal processing is performed using the one or more parameters changed in the changing step.

本発明の音響信号処理装置および音響信号処理方法によれば、様々な音環境下において、適切な音声処理が可能となる。従って、音声又は非音声の種別によらない明瞭な音声等が得られ、また、周囲の雑音,騒音又は残響等のレベルに応じて音声等が聞き取りやすくなる。例えば補聴器が再生する音声が明瞭となり、ユーザは、各種の音響信号について、一層、聞き取りやすくなり、聴覚の補助が効果的に行なえる。また、ラジオ又はテレビの音声処理にも用いることができ、ユーザは、クリアな音声および非音声を聞くことができる。   According to the acoustic signal processing device and the acoustic signal processing method of the present invention, appropriate sound processing can be performed under various sound environments. Therefore, clear voice or the like regardless of the type of voice or non-voice can be obtained, and voice or the like can be easily heard according to the level of ambient noise, noise or reverberation. For example, the sound reproduced by the hearing aid becomes clear, and the user can more easily listen to various acoustic signals, thereby effectively assisting hearing. It can also be used for radio or television audio processing, allowing the user to hear clear and non-audio.

さらに、環境音の質およびレベルにかかわらず、ユーザは、各環境における音響の変化に対応してクリアな音声を聞くことができる。例えば、ユーザは、不快な異常音等を除去した音響を聞くことができる。
加えて、本発明の音響信号処理装置および音響信号処理方法によれば、例えば携帯電話等に設けることもでき、各種の電話機,端末機器又は装置について汎用的に用いることができる。
Furthermore, regardless of the quality and level of the environmental sound, the user can hear a clear sound corresponding to the change in the sound in each environment. For example, the user can hear the sound from which unpleasant abnormal sounds are removed.
In addition, according to the acoustic signal processing device and the acoustic signal processing method of the present invention, the acoustic signal processing device and the acoustic signal processing method can be provided in, for example, a mobile phone and the like, and can be used for various telephones, terminal devices, or apparatuses in general.

本発明の第1実施形態に係る音響信号処理装置のブロック図である。1 is a block diagram of an acoustic signal processing device according to a first embodiment of the present invention. 本発明の第1実施形態に係る学習フェーズ処理部のブロック図である。It is a block diagram of the learning phase process part which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る信号処理実行フェーズの処理部を説明するための図である。It is a figure for demonstrating the process part of the signal processing execution phase which concerns on 1st Embodiment of this invention. (a)は本発明の第1実施形態に係るSOMネットワークの一例を示す図であり、(b)は本発明の第1実施形態に係るSOM情報格納メモリにおける2次元平面のグループ分けの一例を示す図である。(A) is a figure which shows an example of the SOM network which concerns on 1st Embodiment of this invention, (b) is an example of the grouping of the two-dimensional plane in the SOM information storage memory which concerns on 1st Embodiment of this invention. FIG. (a)は本発明の第1実施形態に係るSOM情報格納メモリのメモリ領域の一例を示す図であり、(b)は本発明の第1実施形態に係るSOM座標を説明するための図である。(A) is a figure which shows an example of the memory area of the SOM information storage memory which concerns on 1st Embodiment of this invention, (b) is a figure for demonstrating the SOM coordinate which concerns on 1st Embodiment of this invention. is there. 本発明の第1実施形態に係る特徴量ベクトルの保持領域を説明するための示す図である。It is a figure shown for demonstrating the holding | maintenance area | region of the feature-value vector which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る近傍座標の検索を説明するための図である。It is a figure for demonstrating the search of the near coordinate which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る学習フェーズの処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process of the learning phase which concerns on 1st Embodiment of this invention. 本発明の第1実施形態に係る音響信号処理方法を説明するためのフローチャートである。It is a flowchart for demonstrating the acoustic signal processing method which concerns on 1st Embodiment of this invention. 本発明の第1実施形態の第1変形例に係る信号処理実行フェーズ処理部のブロック図である。It is a block diagram of a signal processing execution phase processing part concerning the 1st modification of a 1st embodiment of the present invention. 本発明の第1実施形態の第2変形例に係る信号処理実行フェーズ処理部のブロック図である。It is a block diagram of the signal processing execution phase process part which concerns on the 2nd modification of 1st Embodiment of this invention. 本発明の第1実施形態の第3変形例に係る学習フェーズ処理部のブロック図である。It is a block diagram of the learning phase process part which concerns on the 3rd modification of 1st Embodiment of this invention. 本発明の第1実施形態の第3変形例に係る信号処理実行フェーズ処理部のブロック図である。It is a block diagram of the signal processing execution phase process part which concerns on the 3rd modification of 1st Embodiment of this invention. 本発明の第2実施形態に係る学習フェーズ処理部のブロック図である。It is a block diagram of the learning phase process part which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る信号処理実行フェーズ処理部のブロック図である。It is a block diagram of the signal processing execution phase processing unit according to the second embodiment of the present invention.

符号の説明Explanation of symbols

20 音響信号処理装置
21 特徴解析部(特徴量出力部)
21a 音声符号化処理部(音声符号化処理部)
22 SOM座標検索部
23 SOM情報格納メモリ(自己組織化マップ保持部)
24 信号処理種別情報出力部(決定部,分類決定部)
25,25a 音響信号処理部
26 SOM学習部(自己組織化学習部)
27,27a,40 学習フェーズ処理部
28,28a,28b,28c,43 信号処理実行フェーズ処理部
29 分類情報修正部
30 パラメータ調整部
30a 分類決定/パラメータ調整部
31 メモリ
32 モード/パラメータ強制変更部
35 復号化処理部
40a アンテナ
40b RF受信部
40c ベースバンド信号処理部
50 音声入力部
51 アンプ
52 イヤホン
52a スピーカ
20 acoustic signal processing device 21 feature analysis unit (feature amount output unit)
21a Speech encoding processing unit (speech encoding processing unit)
22 SOM coordinate search unit 23 SOM information storage memory (self-organizing map holding unit)
24 Signal processing type information output unit (determination unit, classification determination unit)
25, 25a Acoustic signal processing unit 26 SOM learning unit (self-organizing learning unit)
27, 27a, 40 Learning phase processing unit 28, 28a, 28b, 28c, 43 Signal processing execution phase processing unit 29 Classification information correction unit 30 Parameter adjustment unit 30a Classification determination / parameter adjustment unit 31 Memory 32 Mode / parameter forced change unit 35 Decoding processing unit 40a Antenna 40b RF receiving unit 40c Baseband signal processing unit 50 Audio input unit 51 Amplifier 52 Earphone 52a Speaker

Claims (5)

入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ(Self-Organizing Map:SOM)情報データ(以下、SOM情報データと称する。)を保持する自己組織化マップ保持部と、
該特徴量出力部からの該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
A feature quantity output unit that outputs first feature quantity data representing a feature quantity of the input acoustic signal;
Corresponding to the coordinates of the two-dimensional plane, the second feature amount data assigned to the coordinates, and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in the two-dimensional plane A self-organizing map holding unit for holding attached self-organizing map (SOM) information data (hereinafter referred to as SOM information data);
The group identification information corresponding to the first feature quantity data based on the first feature quantity data from the feature quantity output unit and the SOM information data held in the self-organizing map holding unit A search section for searching for,
A signal processing type information output unit that outputs signal processing type information corresponding to the group identification information searched by the search unit among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing apparatus comprising: a signal processing unit that processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit.
入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
多次元空間における座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
該特徴量出力部から出力された該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
A feature quantity output unit that outputs first feature quantity data representing a feature quantity of the input acoustic signal;
Corresponding coordinates in the multidimensional space, second feature amount data assigned to the coordinates, and group identification information for identifying a plurality of groups in which a plurality of learning acoustic signals are grouped in the multidimensional space A self-organizing map holding unit for holding SOM information data;
The group corresponding to the first feature quantity data based on the first feature quantity data output from the feature quantity output unit and the SOM information data held in the self-organizing map holding unit A search unit for searching for identification information;
A signal processing type information output unit that outputs signal processing type information corresponding to the group identification information searched by the search unit among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing apparatus comprising: a signal processing unit that processes the input acoustic signal based on the signal processing type information output from the signal processing type information output unit.
該信号処理種別情報出力部が、
音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、請求項1又は請求項2記載の音響信号処理装置。
The signal processing type information output unit
The parameter adjustment unit configured to adjust and output a parameter related to a set value necessary for processing an acoustic signal based on the group identification information searched by the search unit, The acoustic signal processing device according to claim 2.
学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該第1の特徴量データに基づいて該学習音響信号を2次元平面においてグループ化する学習部と、
該2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
A feature amount output unit that outputs first feature amount data representing the feature amount of the learning acoustic signal;
A learning unit that groups the learning acoustic signals in a two-dimensional plane based on the first feature value data from the feature value output unit;
SOM information data in which the coordinates of the two-dimensional plane, the second feature value data assigned to the coordinates, and group identification information for identifying a plurality of groups grouped by the learning unit are associated with each other. An acoustic signal processing apparatus comprising a self-organizing map holding unit for holding
学習音響信号の特徴量を表す第1の特徴量データに基づいて該学習音響信号について、2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、
該学習ステップにおける該第1の特徴量データについて、該学習ステップにて生成された該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。
Based on the first feature value data representing the feature value of the learning acoustic signal, the learning acoustic signal is grouped in the two-dimensional plane coordinates, the second feature value data assigned to the coordinates, and the learning unit. A learning step for generating SOM information data in association with each of group identification information for identifying a plurality of groups,
For the first feature value data in the learning step, the first feature value output unit from among the plurality of coordinates in the two-dimensional plane held in the SOM information data generated in the learning step. A search step for searching for neighboring coordinates located in the vicinity of the feature amount data of
A signal processing type information output step for outputting signal processing type information corresponding to the group identification information of the neighboring coordinates searched in the searching step among a plurality of signal processing type information representing a processing type of an acoustic signal;
An acoustic signal processing method comprising: an acoustic signal processing step for performing the acoustic signal processing based on the signal processing type information output in the signal processing type information output step.
JP2004007206A 2004-01-14 2004-01-14 Acoustic signal processing apparatus and acoustic signal processing method Expired - Fee Related JP4185866B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004007206A JP4185866B2 (en) 2004-01-14 2004-01-14 Acoustic signal processing apparatus and acoustic signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004007206A JP4185866B2 (en) 2004-01-14 2004-01-14 Acoustic signal processing apparatus and acoustic signal processing method

Publications (2)

Publication Number Publication Date
JP2005203981A true JP2005203981A (en) 2005-07-28
JP4185866B2 JP4185866B2 (en) 2008-11-26

Family

ID=34820932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004007206A Expired - Fee Related JP4185866B2 (en) 2004-01-14 2004-01-14 Acoustic signal processing apparatus and acoustic signal processing method

Country Status (1)

Country Link
JP (1) JP4185866B2 (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514286A (en) * 2006-12-21 2010-04-30 ジーエヌ リザウンド エー/エス Hearing aid with user interface
JP2010212887A (en) * 2009-03-09 2010-09-24 Toshiba Corp Signal characteristic adjustment device
US7864967B2 (en) 2008-12-24 2011-01-04 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and program for sound quality correction
JP2011512768A (en) * 2008-02-20 2011-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio apparatus and operation method thereof
US8041063B2 (en) 2008-08-20 2011-10-18 Panasonic Corporation Hearing aid and hearing aid system
US8045620B2 (en) 2008-12-22 2011-10-25 Kabushiki Kaisha Toshiba Image processing apparatus, image processing method and computer readable medium
JP2012208406A (en) * 2011-03-30 2012-10-25 Nikon Corp Signal processor, imaging apparatus and signal processing program
US8457335B2 (en) 2007-06-28 2013-06-04 Panasonic Corporation Environment adaptive type hearing aid
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal
JP2015228002A (en) * 2014-06-03 2015-12-17 株式会社システック Voice sound input processing device avoiding interference voice sound noise among a plurality of users
JP2016510198A (en) * 2013-03-13 2016-04-04 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Apparatus and method for improving audibility of specific sound to user
JP2016519784A (en) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション Apparatus and method for audio classification and processing
JP2016533101A (en) * 2013-08-20 2016-10-20 ヴェーデクス・アクティーセルスカプ Hearing aid with classifier
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
JP2019507992A (en) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド Method of operating listening device, and listening device
CN112929775A (en) * 2019-12-06 2021-06-08 西万拓私人有限公司 Method for the environment-dependent operation of a hearing system
EP3833053A1 (en) * 2019-12-06 2021-06-09 Sivantos Pte. Ltd. Procedure for environmentally dependent operation of a hearing aid

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514286A (en) * 2006-12-21 2010-04-30 ジーエヌ リザウンド エー/エス Hearing aid with user interface
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal
US8457335B2 (en) 2007-06-28 2013-06-04 Panasonic Corporation Environment adaptive type hearing aid
JP5252738B2 (en) * 2007-06-28 2013-07-31 パナソニック株式会社 Environmentally adaptive hearing aid
JP2011512768A (en) * 2008-02-20 2011-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio apparatus and operation method thereof
US8041063B2 (en) 2008-08-20 2011-10-18 Panasonic Corporation Hearing aid and hearing aid system
US8488825B2 (en) 2008-08-20 2013-07-16 Panasonic Corporation Hearing aid and hearing aid system
US8045620B2 (en) 2008-12-22 2011-10-25 Kabushiki Kaisha Toshiba Image processing apparatus, image processing method and computer readable medium
US7864967B2 (en) 2008-12-24 2011-01-04 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and program for sound quality correction
US8571233B2 (en) 2009-03-09 2013-10-29 Kabushiki Kaisha Toshiba Signal characteristic adjustment apparatus and signal characteristic adjustment method
JP2010212887A (en) * 2009-03-09 2010-09-24 Toshiba Corp Signal characteristic adjustment device
JP2012208406A (en) * 2011-03-30 2012-10-25 Nikon Corp Signal processor, imaging apparatus and signal processing program
US9734840B2 (en) 2011-03-30 2017-08-15 Nikon Corporation Signal processing device, imaging apparatus, and signal-processing program
JP2016510198A (en) * 2013-03-13 2016-04-04 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Apparatus and method for improving audibility of specific sound to user
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
JP2016519784A (en) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション Apparatus and method for audio classification and processing
JP2016533101A (en) * 2013-08-20 2016-10-20 ヴェーデクス・アクティーセルスカプ Hearing aid with classifier
JP2015228002A (en) * 2014-06-03 2015-12-17 株式会社システック Voice sound input processing device avoiding interference voice sound noise among a plurality of users
JP2019507992A (en) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド Method of operating listening device, and listening device
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
CN112929775A (en) * 2019-12-06 2021-06-08 西万拓私人有限公司 Method for the environment-dependent operation of a hearing system
EP3833053A1 (en) * 2019-12-06 2021-06-09 Sivantos Pte. Ltd. Procedure for environmentally dependent operation of a hearing aid
US11368798B2 (en) 2019-12-06 2022-06-21 Sivantos Pte. Ltd. Method for the environment-dependent operation of a hearing system and hearing system
DE102020208720B4 (en) 2019-12-06 2023-10-05 Sivantos Pte. Ltd. Method for operating a hearing system depending on the environment

Also Published As

Publication number Publication date
JP4185866B2 (en) 2008-11-26

Similar Documents

Publication Publication Date Title
JP4185866B2 (en) Acoustic signal processing apparatus and acoustic signal processing method
US10657945B2 (en) Noise control method and device
US10733970B2 (en) Noise control method and device
US10121492B2 (en) Voice converting apparatus and method for converting user voice thereof
US9923535B2 (en) Noise control method and device
WO2012053629A1 (en) Voice processor and voice processing method
CN107948869B (en) Audio processing method, audio processing device, audio system, and storage medium
US11558699B2 (en) Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
JP2010020133A (en) Playback apparatus, display method, and display program
JP2016535305A (en) A device for improving language processing in autism
US10978040B2 (en) Spectrum matching in noise masking systems
JP2009178783A (en) Communication robot and its control method
WO2011122522A1 (en) Ambient expression selection system, ambient expression selection method, and program
WO2019228329A1 (en) Personal hearing device, external sound processing device, and related computer program product
JP2007034238A (en) On-site operation support system
KR102239673B1 (en) Artificial intelligence-based active smart hearing aid fitting method and system
CN113709291A (en) Audio processing method and device, electronic equipment and readable storage medium
CN116132875B (en) Multi-mode intelligent control method, system and storage medium for hearing-aid earphone
US11501758B2 (en) Environment aware voice-assistant devices, and related systems and methods
CN110782887A (en) Voice signal processing method, system, device, equipment and computer storage medium
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
KR102239675B1 (en) Artificial intelligence-based active smart hearing aid noise canceling method and system
CN112581935A (en) Context-aware speech assistance apparatus and related systems and methods
KR102239676B1 (en) Artificial intelligence-based active smart hearing aid feedback canceling method and system
KR102350890B1 (en) Portable hearing test device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080908

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees