JP6819426B2 - Speech processing program, speech processing method and speech processor - Google Patents
Speech processing program, speech processing method and speech processor Download PDFInfo
- Publication number
- JP6819426B2 JP6819426B2 JP2017074704A JP2017074704A JP6819426B2 JP 6819426 B2 JP6819426 B2 JP 6819426B2 JP 2017074704 A JP2017074704 A JP 2017074704A JP 2017074704 A JP2017074704 A JP 2017074704A JP 6819426 B2 JP6819426 B2 JP 6819426B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- threshold value
- value
- voice processing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声処理プログラム等に関する。 The present invention relates to a voice processing program and the like.
近年、企業内の社員は、自席PC(Personal Computer)のアプリケーションソフトウェアと、ヘッドセットとを用いて通話や電話会議等を行っている。以下の説明では、企業内の社員および他の利用者をまとめて、利用者と表記する。 In recent years, employees in a company have been making telephone calls and conference calls using application software of their own personal computer (Personal Computer) and a headset. In the following explanation, employees and other users in the company are collectively referred to as users.
利用者がヘッドセットの取り扱いに慣れていない場合には、利用者の口とヘッドセットのマイクとの距離が適切でない場合が多い。例えば、利用者の口とマイクとの距離が近いと、音量が適切な大きさを超えやすく、相手側に不快感を与える場合がある。一方、利用者の口とマイクとの距離が遠いと、音量が適切な大きさに足りず、相手側が音声を聞き取りづらくなる。 If the user is not accustomed to handling the headset, the distance between the user's mouth and the headset microphone is often inadequate. For example, if the distance between the user's mouth and the microphone is short, the volume tends to exceed an appropriate level, which may cause discomfort to the other party. On the other hand, if the distance between the user's mouth and the microphone is long, the volume is not sufficient and it becomes difficult for the other party to hear the voice.
音質の評価を行い、利用者に通知する技術として、例えば、従来技術1がある。従来技術1では、マイクに紙がこすれる音、エコー、周囲雑音、残留雑音等の外的要因に基づいて音質を評価し、評価結果を利用者に表示している。 As a technique for evaluating sound quality and notifying the user, for example, there is a conventional technique 1. In the prior art 1, the sound quality is evaluated based on external factors such as the sound of paper rubbing against the microphone, echo, ambient noise, and residual noise, and the evaluation result is displayed to the user.
しかしながら、上述した従来技術では、入力音声の発声状態を適切に推定することができないという問題がある。 However, in the above-mentioned conventional technique, there is a problem that the utterance state of the input voice cannot be estimated appropriately.
例えば、利用者からマイクに入力される入力音声の音量は、常に一定というわけではなく、ストレス等の利用者の心理状況の影響によって、変動するため、適切な利用者の口とマイクとの距離も一定ではない。従って、入力音声の発話状態を適切に推定して、利用者の口とマイクとの距離が適切になるように、利用者に通知することが望ましい。 For example, the volume of the input voice input from the user to the microphone is not always constant and fluctuates due to the influence of the user's psychological condition such as stress, so the appropriate distance between the user's mouth and the microphone. Is not constant. Therefore, it is desirable to appropriately estimate the utterance state of the input voice and notify the user so that the distance between the user's mouth and the microphone is appropriate.
これに対して、従来技術1による音質の評価では、雑音等の外的要因を考慮して、音質を評価しているに過ぎず、入力音声の発話状態を評価するものではない。また、会話開始時の音量に基づき、口とマイクとの距離が適切であるか否かを通知する技術も存在するが、上記のように、入力音声の音量は心理状況の影響により変動するため、開始時の音量に基づく口とマイクとの距離が必ずしも継続して、最適な距離であるとは言えない。 On the other hand, in the evaluation of sound quality by the prior art 1, the sound quality is only evaluated in consideration of external factors such as noise, and the utterance state of the input voice is not evaluated. There is also a technology to notify whether the distance between the mouth and the microphone is appropriate based on the volume at the start of conversation, but as mentioned above, the volume of the input voice fluctuates due to the influence of the psychological situation. , The distance between the mouth and the microphone based on the volume at the start does not always continue and cannot be said to be the optimum distance.
1つの側面では、本発明は、入力音声の発声状態を適切に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a speech processing program, a speech processing method, and a speech processing device capable of appropriately estimating the vocalization state of an input speech.
第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、入力音声からピッチ周波数と周波数パワーとを抽出する。コンピュータは、ピッチ周波数および周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を出力する。コンピュータは、判定結果と、周波数パワーの平均パワーとの関係に基づいて、入力音声の発声状態を推定する。 In the first plan, the computer is made to perform the following processing. The computer extracts the pitch frequency and frequency power from the input voice. The computer outputs a determination result as to whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied. The computer estimates the utterance state of the input voice based on the relationship between the determination result and the average power of the frequency power.
入力音声の発声状態を適切に推定することができる。 The vocalization state of the input voice can be estimated appropriately.
以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Hereinafter, examples of the voice processing program, voice processing method, and voice processing apparatus disclosed in the present application will be described in detail with reference to the drawings. The present invention is not limited to this embodiment.
図1は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図1に示すように、この音声処理装置100は、マイク10に接続される。音声処理装置100は、AD(Analog/Digital)変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、推定部150、情報提示部160を有する。ピッチ抽出部120a、パワー抽出部120bは、抽出部の一例である。
FIG. 1 is a functional block diagram showing a configuration of a voice processing device according to the first embodiment. As shown in FIG. 1, the
マイク10は、利用者が装着するヘッドセット(図示略)に備え付けられたマイクであり、利用者の音声を集音する。マイク10は、集音した利用者の音声データを、音声処理装置100のAD変換部110に出力する。以下の説明では、マイク10がAD変換部110に出力する音声データを、入力音声と表記する。
The
AD変換部110は、マイク10から入力音声を受け付け、受け付けた入力音声に対してAD変換を実行する。AD変換部110は、AD変換した入力音声を、ピッチ抽出部120aおよびパワー抽出部120bに出力する。AD変換は、アナログ信号をデジタル信号に変換する処理である。すなわち、AD変換部110は、アナログ信号の入力音声を、デジタル信号の入力音声に変換する。以下の説明では、AD変換部110により変換されたデジタル信号の入力音声を、単に、「入力音声」と表記する。
The
ピッチ抽出部120aは、入力音声を基にして、入力音声の基本周波数となるピッチを抽出する処理部である。ピッチ抽出部120aは、抽出したピッチの情報をストレス検出部130に出力する。
The
ピッチ抽出部120aは、フレーム処理、ピッチ算出処理を実行する。まず、フレーム処理について説明する。ピッチ抽出部120aは、入力音声の信号系列を、予め決められたサンプル数毎に「フレーム」として取り出し、フレームにハニング窓等の分析窓を乗算することで、後述する時間周波数変換を行った際の高周波成分による歪を抑える。
The
例えば、ピッチ抽出部120aは、サンプリング周波数8kHzで32msの区間のサンプルNをフレームとして取り出す。例えば、N=256とする。フレームに含まれる各サンプルを「s(0)、s(1)、s(2)、・・・、s(N−1)」とする。ピッチ抽出部120aは、上記の各サンプルに対しハミング窓を乗算する。例えば、ハミング窓は、式(1)により示される。
For example, the
各サンプルに対しハミング窓を乗算したサンプルを「x(0)、x(1)、x(2)、・・・、x(N−1)」とする。以下の説明では、ハミング窓を乗算した結果得られるサンプル「x(0)、x(1)、x(2)、・・・、x(N−1)」をサンプル値と表記する。 The sample obtained by multiplying each sample by the humming window is defined as "x (0), x (1), x (2), ..., X (N-1)". In the following description, the sample "x (0), x (1), x (2), ..., X (N-1)" obtained by multiplying the humming window is referred to as a sample value.
ピッチ算出処理について説明する。ピッチ抽出部120aは、フレームに含まれる各サンプル値を用いて、自己相関関数を計算する。例えば、ピッチ抽出部120aは、式(2)に基づいて、自己相関関数φ(m)を計算する。式(2)に示すmは、遅延時間を示す。
The pitch calculation process will be described. The
ピッチ抽出部120aは、式(2)について、遅延時間m=0以外において、自己相関関数が極大値となる遅延時間mの値を特定する。自己相関関数が極大となる遅延時間mを「遅延時間m’」と表記する。ピッチ抽出部120aは、遅延時間m’を算出した後に、式(3)に基づいて、ピッチを算出する。
Regarding the equation (2), the
ピッチ=1/遅延時間m’・・・(3) Pitch = 1 / delay time m'... (3)
ピッチ抽出部120aは、入力音声に対してフレーム処理を繰り返し実行することで、入力音声から複数のフレームを抽出し、各フレームからピッチをそれぞれ算出する。ピッチ抽出部120aは、フレーム毎のピッチの情報を、ストレス検出部130に出力する。
The
また、ピッチ抽出部120aは、フレームが有音区間であるか否かを自己相関関数の極大値φ(m’)を基にして判定し、判定結果をストレス検出部130に出力する。例えば、ピッチ抽出部120aは、フレームの自己相関関数の極大値φ(m’)が所定値以上である場合には、該当するフレームが有音区間であると判定する。
Further, the
パワー抽出部120bは、入力音声を基にして、入力音声のパワーを抽出する処理部である。パワー抽出部120bは、抽出したパワーの情報をストレス検出部130に出力する。
The
パワー抽出部120bは、ピッチ抽出部120aと同様にして、フレーム処理を実行することで、入力音声からフレームを抽出する。パワー抽出部120bは、フレームの各サンプル値「「x(0)、x(1)、x(2)、・・・、x(N−1)」の入力音声を時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そして、パワー抽出部120bは、各周波数帯域のスペクトル信号P(n)を2乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの総和を求め対数化した値を算出する。これを以降“パワー”と呼ぶ。例えば、パワー抽出部120bは、式(4)に基づいて、フレームのスペクトル信号を用いてパワーを算出する。
The
パワー抽出部120bは、入力音声に対してフレーム処理を繰り返し実行することで、入力音声から複数のフレームを抽出し、各フレームからパワーをそれぞれ算出する。パワー抽出部120bは、フレーム毎のパワーの情報をストレス検出部130に出力する。
The
ストレス検出部130は、入力音声のピッチおよびパワーに基づいて、利用者のストレス値を検出する処理部である。例えば、ストレス検出部130は、利用者の平常時のピッチおよびパワーの統計値と比較して、現在のピッチおよびパワーの統計値が離れるほど、ストレス値を大きくし、近づくほどストレス値を小さくする。ストレス検出部130は、検出したストレス値の情報と、パワーの情報を、推定部150に出力する。
The
ここで、ストレス検出部130の処理の一例について説明する。ストレス検出部130は、予め、平常時の利用者の入力音声に基づくピッチおよびパワーから、平常時のピッチの標準偏差および平常時のパワーの標準偏差を算出して、保持しておく。例えば、平常時のピッチの標準偏差を「標準偏差σA1」とし、平常時のパワーの標準偏差を「標準偏差σB1」と表記する。
Here, an example of processing of the
ストレス検出フェーズにおいて、ストレス検出部130は、各フレームのピッチの「標準偏差σA2」を算出し、各フレームのパワーの「標準偏差σB2」を算出する。例えば、ストレス検出部130は、式(5)に基づいて、ストレス値を算出する。式(5)において、α、βは、利用者に予め設定される係数である。
In the stress detection phase, the
ストレス値=α×|標準偏差σA1−標準偏差σA2|+β×|標準偏差σB1−標準偏差σB2|・・・(5) Stress value = α × | standard deviation σA1-standard deviation σA2 | + β × | standard deviation σB1-standard deviation σB2 | ... (5)
ストレス検出部130は、フレームのピッチおよびパワーの情報をピッチ抽出部120aおよびパワー抽出部120bから取得する度に、上記処理を繰り返し実行することで、フレーム毎のストレス値を算出する。ストレス検出部130は、フレーム毎のストレス値と、パワーとを対応付けて、推定部150に出力する。
The
記憶部140は、判定基準データ140aを有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
The
判定基準データ140aは、後述する推定部150が入力音声の発声状態を推定する場合に利用する複数の閾値データを含む。具体的に、判定基準データ140aは、第1閾値、第2閾値、第3閾値を含む。第1閾値および第2閾値は、パワーと比較される閾値である。第1閾値と第2閾値との大小関係は、第1閾値>第2閾値とする。第3閾値は、ストレス値と比較される閾値である。例えば、パワーが、第2閾値以上、第1閾値未満である場合には、会話の音声が良好であると言える。
The
推定部150は、入力音声のストレス値と、パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部150は、入力音声の発声状態を推定した後に、発声状態に応じたメッセージを生成し、メッセージを情報提示部160に出力することで、メッセージを表示させる。後述するように、推定部150は、ストレス値により、利用者のストレスの大小を推定する。推定部150は、パワーにより、利用者の口がマイク10に近いか否かを推定する。
The
推定部150は、ストレス値が第3閾値以上となる場合には、利用者のストレスが「大」であると推定し、ストレス値が第3閾値未満となる場合には、利用者のストレスが「小」であると推定する。
The
推定部150は、有音区間のフレームのパワーの平均値を算出する。以下の説明では、有音区間のフレームのパワーの平均値を「平均パワー」と表記する。推定部150は、平均パワーが第1閾値以上となる場合には、「利用者の口とマイク10との距離が近い」と推定する。推定部150は、平均パワーが第2閾値未満となる場合には、「利用者の口とマイク10との距離が遠い」と推定する。
The
利用者は、会話を続けていく過程において、ストレス小からストレス大に推移すると、入力音声のパワーが現在のパワーよりも大きくなる傾向がある。このため、現在のストレスが「小」であり、かつ、「利用者の口とマイク10との距離が近い」場合には、今後、ストレスが「大」に推移すると、入力音声のパワーが適切なパワーを超える恐れがある。すなわち、推定部150は、「ストレスが小」かつ「利用者の口とマイク10との距離が近い」場合に、第1メッセージ「マイクを口から少し離してください」を生成する。
When the stress changes from low stress to high stress in the process of continuing the conversation, the power of the input voice tends to be larger than the current power of the user. Therefore, if the current stress is "small" and "the distance between the user's mouth and the
利用者は、会話を続けていく過程において、ストレス大からストレス小に推移すると、入力音声のパワーが現在のパワーよりも小さくなる傾向がある。このため、現在のストレスが「大」であり、かつ、「利用者の口とマイク10との距離が遠い」場合には、今後、ストレスが「小」に推移すると、入力音声のパワーが適切なパワーを下回る恐れがある。すなわち、推定部150は、「ストレスが大」かつ「利用者の口とマイク10との距離が遠い」場合に、第2メッセージ「マイクを口に少し近づけてください」を生成する。
When the stress changes from high stress to low stress in the process of continuing the conversation, the power of the input voice tends to be smaller than the current power of the user. Therefore, if the current stress is "large" and "the distance between the user's mouth and the
情報提示部160は、推定部150により生成されるメッセージを利用者に提示する処理部である。例えば、情報提示部160は、液晶ディスプレイ等の表示装置またはスピーカ等の出力装置に接続される。ここでは一例として、情報提示部160は、液晶ディスプレイに接続され、推定部150により生成されるメッセージを表示する。
The
ところで、図1に示したAD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、推定部150、情報提示部160の各処理は、図示しない所定の制御部が実行しても良い。この制御部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
By the way, each process of the
次に、本実施例1に係る音声処理装置100の処理手順について説明する。図2は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図2に示すように、音声処理装置100のAD変換部110は、入力音声の受け付けを開始する(ステップS101)。AD変換部110は、AD変換を行う(ステップS102)。音声処理装置100のピッチ抽出部120aは、ピッチを抽出し、音声処理装置100のパワー抽出部120bは、パワーを抽出する(ステップS103)。
Next, the processing procedure of the
ピッチ抽出部120aは、有音区間を検出する(ステップS104)。音声処理装置100のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS105)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS106,Yes)、ステップS107に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS106,No)、ステップS101に移行する。
The
ストレス検出部130は、ストレス値を算出する(ステップS107)。音声処理装置100の推定部150は、有音区間の平均パワーを算出する(ステップS108)。推定部150は、平均パワーが第1閾値以上である場合には(ステップS109,Yes)、ステップS110に移行する。一方、推定部150は、平均パワーが第1閾値未満である場合には(ステップS109,No)、ステップS112に移行する。
The
推定部150は、ストレス値が第3閾値以上であるか否かを判定する(ステップS110)。推定部150は、ストレス値が第3閾値以上である場合には(ステップS110,Yes)、ステップS101に移行する。推定部150は、ストレス値が第3閾値未満である場合には(ステップS110,No)、情報提示部160に第1メッセージを表示させ(ステップS111)、ステップS101に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。
The
ステップS112の説明に移行する。推定部150は、平均パワーが第2閾値未満であるか否かを判定する(ステップS112)。推定部150は、平均パワーが第2閾値未満でない場合には(ステップS112,No)、ステップS101に移行する。一方、推定部150は、平均パワーが第2閾値未満である場合には(ステップS112,Yes)、ステップS113に移行する。
The process proceeds to the description of step S112. The
推定部150は、ストレス値が第3閾値以上であるか否かを判定する(ステップS113)。推定部150は、ストレス値が第3閾値以上でない場合には(ステップS113,No)、ステップS101に移行する。一方、推定部150は、ストレス値が第3閾値以上である場合には(ステップS113,Yes)、情報提示部160に第2メッセージを表示させ(ステップS114)、ステップS101に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。
The
次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、入力音声のピッチおよびパワーに基づいて利用者のストレス値を算出し、算出したストレス値の大小関係とパワーの大小関係との双方に基づいて、発声状態を推定する。これにより、例えば、入力音声のパワーだけでなく、利用者のストレス度合を考慮した今後の発声状態を推定することができる。また、現在だけでなく、今後の発声状態の推移を適切に推定できるので、かかる推定結果に応じたメッセージを生成して、利用者に提示することで、利用者の口とマイクとの距離を適切な距離に保つことができ、各利用者の通話を快適に保つことができる。
Next, the effect of the
図3は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。この音声処理装置200は、図3に示すように、マイク10に接続される。音声処理装置200は、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。このうち、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。
FIG. 3 is a functional block diagram showing the configuration of the voice processing device according to the second embodiment. The
推定部210は、入力音声のストレス値と、平均パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部210は、実施例1で説明した推定部150の処理に加えて、推定結果を更新部220に出力する。
The
図4は、推定結果のデータ構造の一例を示す図である。図4に示すように、推定結果には、提示フラグ、メッセージ種別、ストレス値Sn、平均パワーPn、ストレス値Sp1、平均パワーPp1、ストレス値Sp2、平均パワーPp2を含む。 FIG. 4 is a diagram showing an example of the data structure of the estimation result. As shown in FIG. 4, the estimation result includes a presentation flag, a message type, a stress value Sn, an average power Pn, a stress value Sp1, an average power Pp1, a stress value Sp2, and an average power Pp2.
提示フラグは、前回の推定時にメッセージを表示したか否かを示す情報である。前回メッセージを提示した場合には、提示フラグは「オン」となり、前回メッセージを提示していない場合には、提示フラグは「オフ」となる。メッセージ種別は、前回提示したメッセージが、第1メッセージであるか、第2メッセージであるかを示す情報である。なお、提示フラグが「オフ」である場合には、メッセージ種別には情報が格納されない。 The presentation flag is information indicating whether or not a message was displayed at the time of the previous estimation. If the previous message was presented, the presentation flag is "on", and if the previous message was not presented, the presentation flag is "off". The message type is information indicating whether the previously presented message is the first message or the second message. If the presentation flag is "off", no information is stored in the message type.
ストレス値Snは、現在の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPnは、現在の入力音声の平均パワーを示す。ストレス値Sp1は、前回メッセージを提示した際の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPp1は、前回メッセージを提示した際の入力音声の平均パワーを示す。 The stress value Sn indicates whether the stress value of the current input voice is “large” or “small”. The average power Pn indicates the average power of the current input voice. The stress value Sp1 indicates whether the stress value of the input voice when the previous message is presented is “large” or “small”. The average power Pp1 indicates the average power of the input voice when the previous message is presented.
ストレス値Sp2は、一定時間前の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPp2は、一定時間前の入力音声の平均パワーを示す。 The stress value Sp2 indicates whether the stress value of the input voice before a certain period of time is “large” or “small”. The average power Pp2 indicates the average power of the input voice before a certain time.
更新部220は、推定部210から取得する推定結果を基にして、判定基準データ140aの第1閾値、第2閾値、第3閾値を更新する処理部である。判定基準データ140aは学習データの一例である。なお、上記のように、平均パワーが第2閾値以上、第1閾値未満であれは、会話は良好である。また、第3閾値は、ストレスの大小を区別する際に用いる閾値である。
The
第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値に変化がなく、平均パワーPnが、第1閾値未満となった場合には、パワーが良好な状態まで減少しており、発声状態が改善されていると言える。この場合には、更新部220は、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。
If there is no change in the stress value and the average power Pn is less than the first threshold value before and after displaying the first message "Please move the microphone a little away from your mouth", the power decreases to a good state. It can be said that the vocalization state is improved. In this case, the
第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値に変化がなく、平均パワー(Pn、Pp1との比較)に変化が見られない場合には、発声状態が改善されていない。この場合には、更新部220は、第1閾値が不正解の値であるとして、第1閾値を上げる。
If there is no change in the stress value and no change in the average power (compared with Pn and Pp1) before and after the first message "Please move the microphone away from your mouth" is displayed, the vocalization state is improved. It has not been. In this case, the
第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値が小から大に変化し、平均パワー(Pn、Pp1との比較)が増加した場合には、ストレスの大小を適切に判断できておらず、適切なメッセージを提示できていない。この場合には、更新部220は、第3閾値が不正解の値であるとして、第3閾値を下げる。
If the stress value changes from small to large and the average power (comparison with Pn and Pp1) increases before and after the first message "Please move the microphone away from your mouth" is displayed, the stress level is changed. I haven't been able to make a proper decision and present an appropriate message. In this case, the
第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値に変化がなく、平均パワーPnが、第2閾値以上となった場合には、パワーが良好な状態まで増加していると言える。この場合には、更新部220は、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。
Before and after displaying the second message "Please bring the microphone a little closer to your mouth", if there is no change in the stress value and the average power Pn becomes equal to or higher than the second threshold value, the power increases to a good state. It can be said that it is. In this case, the
第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値に変化がなく、平均パワー(Pn、Pp1との比較)に変化が見られない場合には、発声状態が改善されていない。この場合には、更新部220は、第2閾値が不正解の値であるとして、第2閾値を下げる。
If there is no change in the stress value and no change in the average power (comparison with Pn and Pp1) before and after the second message "Please bring the microphone a little closer to your mouth" is displayed, the vocalization state is improved. It has not been. In this case, the
第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値が大から小に変化し、平均パワー(Pn、Pp1との比較)が減少した場合には、ストレスの大小を適切に判断できておらず、適切なメッセージを提示できていない。この場合には、更新部220は、第3閾値が不正解の値であるとして、第3閾値を上げる。
If the stress value changes from large to small and the average power (comparison with Pn and Pp1) decreases before and after the second message "Please bring the microphone a little closer to your mouth" is displayed, the magnitude of the stress is changed. I haven't been able to make a proper decision and present an appropriate message. In this case, the
更新部220は、前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワーに変化が見られない場合には、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。
If the
前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワー(Pn、Pp2との比較)が増加した場合には、第2メッセージ「マイクを口に少し近づけてください」の提示もれであり、第2閾値が不正解であるとして、第2閾値を上げる。 If the previous message was not presented, the stress value did not change, and the average power (comparison with Pn and Pp2) increased, the second message "Please bring the microphone closer to your mouth" is not presented. Therefore, assuming that the second threshold value is incorrect, the second threshold value is raised.
前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワー(Pn、Pp2との比較)が減少した場合には、第1メッセージ「マイクを口から少し離してください」の提示もれであり、第1閾値が不正解であるとして、第1閾値を下げる。 If the previous message was not presented, the stress value did not change, and the average power (comparison with Pn and Pp2) decreased, the first message "Please move the microphone away from your mouth" is not presented. Therefore, assuming that the first threshold value is incorrect, the first threshold value is lowered.
更新部220は、上記処理を繰り返し実行することで、第1閾値、第2閾値、第3閾値が正しい値となるように、第1閾値、第2閾値、第3閾値を更新していく。
By repeatedly executing the above processing, the
図5、図6、図7は、本実施例2に係る更新部の更新処理の一例を示すフローチャートである。図5に示すように、更新部220は、推定結果を取得し(ステップS10)、前回メッセージを提示したか否かを判定する(ステップS11)。更新部220は、前回メッセージを提示していない場合には(ステップS11,No)、図7のステップS21に移行する。一方、更新部220は、前回メッセージを提示している場合には(ステップS11,Yes)、ステップS12に移行する。
5, FIG. 6 and FIG. 7 are flowcharts showing an example of the update process of the update unit according to the second embodiment. As shown in FIG. 5, the
更新部220は、提示したメッセージが「第1メッセージ」であるか否かを判定する(ステップS12)。更新部220は、提示したメッセージが「第1メッセージ」でない場合には(ステップS12,No)、図6のステップS17に移行する。更新部220は、提示したメッセージが「第1メッセージ」である場合には(ステップS12,Yes)、ステップS13に移行する。
The
更新部220は、ストレス値SnおよびSp1がストレス小であり、かつ、平均パワーPnとPp1とが変化なしである場合には(ステップS13,Yes)、第1閾値を上げる(ステップS14)。例えば、ステップ14において、更新部220は、式(6)に基づいて、第1閾値を更新する。
When the stress values Sn and Sp1 are low stress and the average power Pn and Pp1 are unchanged (steps S13, Yes), the
第1閾値=1.05×第1閾値・・・(6) First threshold = 1.05 x first threshold ... (6)
一方、更新部220は、ストレス値SnおよびSp1がストレス小でない、または、平均パワーPnとPp1とが変化ありの場合には(ステップS13,No)、ステップS15に移行する。
On the other hand, when the stress values Sn and Sp1 are not small stress or the average power Pn and Pp1 are changed (steps S13 and No), the
更新部220は、ストレス値Snがストレス大、かつ、ストレス値Sp1がストレス小である場合には(ステップS15,Yes)、第3閾値を下げる(ステップS16)。例えば、ステップS16において、更新部220は、式(7)に基づいて、第3閾値を更新する。
When the stress value Sn is high stress and the stress value Sp1 is low stress (steps S15, Yes), the
第3閾値=0.9×第3閾値+0.1×(Sp1−Sn)・・・(7) Third threshold = 0.9 x third threshold + 0.1 x (Sp1-Sn) ... (7)
一方、更新部220は、ストレス値Snがストレス大、かつ、ストレス値Sp1がストレス小でない場合には(ステップS15,No)、処理を終了する。
On the other hand, when the stress value Sn is high stress and the stress value Sp1 is not low stress (steps S15, No), the
図6の説明に移行する。更新部220は、ストレス値SnおよびSp1がストレス大であり、かつ、平均パワーPnとPp1とが変化なしである場合には(ステップS17,Yes)、第2閾値を下げる(ステップS18)。例えば、ステップS18において、更新部220は、式(8)に基づいて、第2閾値を更新する。
The description shifts to FIG. When the stress values Sn and Sp1 are stressful and the average powers Pn and Pp1 are unchanged (steps S17, Yes), the
第2閾値=0.95×第2閾値・・・(8) Second threshold = 0.95 x second threshold ... (8)
一方、更新部220は、ストレス値SnおよびSp1がストレス大でない、または、平均パワーPnとPp1とが変化ありである場合には(ステップS17,No)、ステップS19に移行する。
On the other hand, when the stress values Sn and Sp1 are not stressful or the average power Pn and Pp1 are changed (steps S17 and No), the
更新部220は、ストレス値Snがストレス小かつストレス値Sp1がストレス大である場合には(ステップS19,Yes)、第3閾値を上げる(ステップS20)。例えば、ステップS20において、更新部220は、式(7)に基づいて、第3閾値を更新する。なお、ステップS19において、更新部220は、ストレス値Snがストレス小かつストレス値Sp1がストレス大でない場合には(ステップS19,No)、処理を終了する。
When the stress value Sn is low stress and the stress value Sp1 is high stress (step S19, Yes), the
図7の説明に移行する。更新部220は、ストレス値SnおよびSp2がストレス大、かつ、平均パワーPnがPp2と比較して増加した場合には(ステップS21,Yes)、第2閾値を上げる(ステップS22)。例えば、更新部220は、ステップS22において、式(9)に基づいて、第2閾値を更新する。
The description shifts to FIG. When the stress values Sn and Sp2 are high in stress and the average power Pn is increased as compared with Pp2 (steps S21, Yes), the
第2閾値=0.9×第2閾値+0.1×(Pn−Pp2)・・・(9) Second threshold = 0.9 × second threshold + 0.1 × (Pn-Pp2) ... (9)
一方、更新部220は、ストレス値SnおよびSp2がストレス大ではない、または、平均パワーPnがPp2と比較して増加していない場合には(ステップS21,No)、ステップS23に移行する。
On the other hand, when the stress values Sn and Sp2 are not stressful or the average power Pn is not increased as compared with Pp2 (steps S21, No), the
更新部220は、ストレス値SnおよびSp2がストレス小かつ平均パワーPnがPp2と比較して減少している場合には(ステップS23,Yes)、第1閾値を下げる(ステップS24)。例えば、ステップS24にいて、更新部220は、式(10)に基づいて、第1閾値を更新する。更新部220は、ストレス値SnおよびSp2がストレス小でない、または、平均パワーPnがPp2と比較して減少していない場合には(ステップS23,No)、処理を終了する。
When the stress values Sn and Sp2 are small and the average power Pn is reduced as compared with Pp2 (steps S23, Yes), the
第1閾値=0.95×第1閾値・・・(10) First threshold = 0.95 x first threshold ... (10)
次に、本実施例2に係る音声処理装置200の処理手順について説明する。図8は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図8に示すように、音声処理装置200のAD変換部110は、入力音声の受け付けを開始する(ステップS201)。AD変換部110は、AD変換を行う(ステップS202)。音声処理装置200のピッチ抽出部120aは、ピッチを抽出し、音声処理装置200のパワー抽出部120bは、パワーを抽出する(ステップS203)。
Next, the processing procedure of the
ピッチ抽出部120aは、有音区間を検出する(ステップS204)。音声処理装置200のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS205)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS206,Yes)、ステップS207に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS206,No)、ステップS201に移行する。
The
ストレス検出部130は、ストレス値を算出する(ステップS207)。音声処理装置200の推定部210は、有音区間の平均パワーを算出する(ステップS208)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS209,Yes)、ステップS210に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS209,No)、ステップS212に移行する。
The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS210)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS210,Yes)、ステップS215に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS210,No)、情報提示部160に第1メッセージを表示させ(ステップS211)、ステップS215に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。
The
ステップS212の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS212)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS212,No)、ステップS215に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS212,Yes)、ステップS213に移行する。
The process proceeds to the description of step S212. The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS213)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS213,No)、ステップS215に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS213,Yes)、情報提示部160に第2メッセージを表示させ(ステップS214)、ステップS215に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。
The
音声処理装置200の更新部220は、更新処理を実行する(ステップS215)。ステップS215に示す更新処理は、図5、図6、図7に示した処理に対応する。推定部150は、ストレス値および平均パワーを記憶部140に記憶し(ステップS216)、ステップS201に移行する。
The
次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、更新処理を繰り返し実行することで、第1閾値、第2閾値、第3閾値が正しい値となるように、第1閾値、第2閾値、第3閾値を更新していく。これにより、ストレス値の大小、パワーが良好であるか否かを適切に判定でき、現在の発声状態に対する適切なメッセージを表示することができる。
Next, the effect of the
図9は、本実施例3に係るシステムの一例を示す図である。図9に示すように、このシステムは、音声処理装置300a、300b、300cと、サーバ400とを有する。音声処理装置300a〜300cと、サーバ400とはネットワーク50を介して相互に接続される。ここでは一例として、音声処理装置300a〜300cを示すが、その他の音声処理装置を含んでいても良い。以下の説明では、音声処理装置300a〜300cをまとめて、音声処理装置300と表記する。
FIG. 9 is a diagram showing an example of the system according to the third embodiment. As shown in FIG. 9, this system has
音声処理装置300は、実施例2で説明した音声処理装置200と同様にして、更新処理を繰り返し実行し、更新後の判定基準データ140aを、サーバ400に送信する。実施例1、2で説明したように、判定基準データは、第1閾値、第2閾値、第3閾値を有する。
The voice processing device 300 repeatedly executes the update process in the same manner as the
サーバ400は、音声処理装置300から判定基準データ140aを取得し、取得した判定基準データを基にして、第1閾値、第2閾値、第3閾値の初期値を算出する。サーバ400は、算出した第1閾値、第2閾値、第3閾値の初期値のデータを、音声処理装置300に送信する。以下の説明では、サーバ400が算出した第1閾値、第2閾値、第3閾値の初期値のデータを、「初期値データ」と表記する。
The
音声処理装置300は、サーバ400から初期データを受信すると、受信した初期データにより、判定基準データを更新する。
When the voice processing device 300 receives the initial data from the
図10は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。音声処理装置300aは、図10に示すように、マイク10に接続される。音声処理装置300aは、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。また、音声処理装置300aは、アップロード部310およびダウンロード部320を有する。ここでは一例として、音声処理装置300aの構成について説明するが、音声処理装置300b、300cの構成は、音声処理装置300aの構成と同様である。
FIG. 10 is a functional block diagram showing the configuration of the voice processing device according to the third embodiment. The
図10において、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。推定部210および更新部220に関する説明は、実施例2で説明したものと同様であるため、説明を省略する。
In FIG. 10, the description of the
アップロード部310は、更新部220により更新された判定基準データ140aを、サーバ400に送信(アップロード)する処理部である。例えば、アップロード部310は、音声処理装置300aと他の音声処理装置との間の通話回数Nをカウントし、通話回数Nが、第4閾値を超えた場合に、判定基準データ140aを、サーバ400に送信する。
The upload unit 310 is a processing unit that transmits (uploads) the
ダウンロード部320は、サーバ400から初期値データを受信(ダウンロード)する処理部である。ダウンロード部320は、受信した初期値データにより、判定基準データ140aを更新する。推定部210は、初期値データにより更新された判定基準データ140aを初期値として、処理を行う。
The
上記のアップロード部310およびダウンロード部320は、図示しない通信装置を用いて、ネットワーク50を介して、サーバ400とデータ通信を実行するものとする。
It is assumed that the upload unit 310 and the
図11Aは、本実施例3に係るサーバの構成を示す機能ブロック図である。図11Aに示すように、サーバ400は、通信部410と、記憶部420と、制御部430とを有する。
FIG. 11A is a functional block diagram showing a server configuration according to the third embodiment. As shown in FIG. 11A, the
通信部410は、ネットワーク50を介して、音声処理装置300とデータ通信を実行する処理部である。後述する制御部430は、通信部410を介して、音声処理装置300とデータをやり取りする。通信部410は、通信装置に対応する。
The communication unit 410 is a processing unit that executes data communication with the voice processing device 300 via the
記憶部420は、閾値テーブル420aを有する。記憶部420は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
The
閾値テーブル420aは、音声処理装置300から送信される判定基準データ140aを保持するテーブルである。図11Bは、本実施例3に係る閾値テーブルのデータ構造の一例を示す図である。図11Bに示すように、この閾値テーブル420aは、識別情報と、判定基準データとを対応付ける。識別情報は、音声処理装置300を一意に識別する情報である。判定基準データは、音声処理装置から受信する判定基準データである。実施例1、2で説明したように、判定基準データ140aには、第1閾値、第2閾値、第3閾値が含まれる。
The threshold value table 420a is a table that holds the
制御部430は、受信部430a、算出部430b、配信部430cを有する。制御部430は、CPUやMPUなどによって実現できる。また、制御部430は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
The control unit 430 includes a
受信部430aは、音声処理装置300から判定基準データ140aを受信する処理部である。例えば、判定基準データ140aには、この判定基準データ140aの送信元となる音声処理装置300を識別する識別情報が付与されているものとする。受付部430aは、判定基準データ140aを、識別情報と対応付けて、閾値テーブル420aに登録する。
The receiving
算出部430bは、閾値テーブル420aを基にして、初期値データを算出する処理部である。算出部430bは、算出した初期値データを、配信部430cに出力する。以下において、算出部430bの処理の一例について説明する。
The
算出部430bは、閾値テーブル420aを参照し、閾値テーブル420aに登録されたレコードの数が第5閾値以上である場合に、算出処理を開始する。例えば、第5閾値を「3」とする。図11Bに示す閾値テーブル420aでは、音声処理装置300a〜300cから受信した判断基準データ140aを有する(レコードの数が3以上である)ので、算出部430bは、算出処理を実行する。
The
算出部430bが実行する算出処理の一例について説明する。算出部430bは、各判定基準データ140aの第1閾値の平均値を算出することで、第1閾値の初期値μ1を算出する。算出部430bは、各判定基準データ140aの第2閾値の平均値を算出することで、第2閾値の初期値μ2を算出する。算出部430bは、各判定基準データ140aの第3閾値の平均値を算出することで、第3閾値の初期値μ3を算出する。
An example of the calculation process executed by the
算出部430bは、上記の初期値μ1〜μ3を初期値データとして、配信部430cに出力する。
The
配信部430cは、初期値データを算出部430bから取得した場合に、取得した初期値データを、音声処理装置300に送信する処理部である。
The
次に、本実施例3に係る音声処理装置300の処理手順について説明する。図12及び図13は、本実施例3に係る音声処理装置の処理手順を示すフローチャートである。図12に示すように、音声処理装置300のAD変換部110は、入力音声の受け付けを開始する(ステップS301)。AD変換部110は、AD変換を行う(ステップS302)。音声処理装置300のピッチ抽出部120aは、ピッチを抽出し、音声処理装置300のパワー抽出部120bは、パワーを抽出する(ステップS303)。
Next, the processing procedure of the voice processing device 300 according to the third embodiment will be described. 12 and 13 are flowcharts showing a processing procedure of the voice processing apparatus according to the third embodiment. As shown in FIG. 12, the
ピッチ抽出部120aは、有音区間を検出する(ステップS304)。音声処理装置300のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS305)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS306,Yes)、ステップS307に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS306,No)、ステップS301に移行する。
The
ストレス検出部130は、ストレス値を算出する(ステップS307)。音声処理装置300の推定部210は、有音区間の平均パワーを算出する(ステップS308)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS309,Yes)、ステップS310に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS309,No)、ステップS312に移行する。
The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS310)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS310,Yes)、ステップS315に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS310,No)、情報提示部160に第1メッセージを表示させ(ステップS311)、ステップS315に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。
The
ステップS312の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS312)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS312,No)、ステップS315に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS312,Yes)、ステップS313に移行する。
The process proceeds to the description of step S312. The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS313)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS313,No)、ステップS315に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS313,Yes)、情報提示部160に第2メッセージを表示させ(ステップS314)、ステップS315に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。
The
音声処理装置300の更新部220は、更新処理を実行する(ステップS315)。ステップS315に示す更新処理は、実施例2の図5、図6、図7に示した処理に対応する。推定部210は、ストレス値および平均パワーを記憶部140に記憶し(ステップS316)、図13のステップS317に移行する。
The
図13について説明する。音声処理装置300は、通話が終了したか否かを判定する(ステップS317)。音声処理部300は、通話が終了していない場合には(ステップS317,No)、図12のステップS301に移行する。 FIG. 13 will be described. The voice processing device 300 determines whether or not the call has ended (step S317). If the call is not completed (step S317, No), the voice processing unit 300 proceeds to step S301 in FIG.
音声処理装置300のアップロード部310は、通話が終了した場合には(ステップS317,Yes)、通話回数Nに1を加算する(ステップS318)。アップロード部310は、通話回数Nが第4閾値以上でない場合には(ステップS319,No)、処理を終了する。 When the call is completed (step S317, Yes), the upload unit 310 of the voice processing device 300 adds 1 to the number of calls N (step S318). When the number of calls N is not equal to or greater than the fourth threshold value (step S319, No), the upload unit 310 ends the process.
一方、アップロード部310は、通話回数Nが第4閾値以上である場合には(ステップS319,Yes)、判定基準データ140aを、サーバ400に送信する(ステップS320)。
On the other hand, when the number of calls N is equal to or greater than the fourth threshold value (step S319, Yes), the upload unit 310 transmits the
次に、実施例3に係るサーバ400の処理手順について説明する。図14は、本実施例3に係るサーバの処理手順を示すフローチャートである。図14に示すように、サーバ400の受信部430aは、判定基準データ140aを受信する(ステップS401)。受信部430aは、判定基準データ140aを閾値テーブル420aに登録する(ステップS402)。
Next, the processing procedure of the
サーバ400の算出部430bは、閾値テーブル420aに基づいて、判定基準データのレコード数が第5閾値以上であるか否かを判定する(ステップS403)。算出部430bは、判定基準データのレコード数が第5閾値以上でない場合には(ステップS403,No)、処理を終了する。
The
一方、算出部430bは、判定基準データのレコード数が第5閾値以上である場合には(ステップS403,Yes)、第1閾値〜第3閾値について、それぞれ平均値を算出し、初期値μ1〜μ3を特定する(ステップS404)。
On the other hand, when the number of records of the determination reference data is equal to or greater than the fifth threshold value (step S403, Yes), the
算出部430bは、初期値データを生成する(ステップS405)。サーバ400の配信部430cは、音声処理装置300に初期値データを送信する(ステップS406)。ここで、初期値データを送信する音声処理装置300は、一回も使われていない新規に導入した音声処理装置であってもよい。
The
次に、本実施例3に係るシステムの効果について説明する。音声処理装置300は、更新処理を繰り返し実行した後に、判定基準データ140aをサーバ400に通知し、サーバ400は、各判定基準データ140aを基にして、初期値データを生成し、音声処理装置300に通知する。音声処理装置300は、係る初期値データを利用することで、より正しい第1閾値、第2閾値、第3閾値を初期値の判定基準データ140aとして用いることができる。
Next, the effect of the system according to the third embodiment will be described. The voice processing device 300 notifies the
なお、本実施例3では、次の処理も可能である。例えば、サーバ400は、音声処理装置300b、300c、その他の音声処理装置の判定基準データ140aを基にして、初期値データを生成しておき、音声処理装置300aの起動時に、生成しておいた初期値データを音声処理装置300aに送信する。音声処理装置300aは、サーバ400から受信した初期値データを起動時から用いることで、上記の更新処理を繰り返し実行しなくても、より正しいメッセージを利用者に通知することができる。また、一回も使われていない新規に導入した音声処理装置に初期値をダウンロードすることで、1回目の使用時から既に更新された判定基準データを用いることができるので、初回からより正しいメッセージを利用者に通知することができる。
In addition, in this Example 3, the following processing is also possible. For example, the
図15は、本実施例4に係るシステムの一例を示す図である。図15に示すように、このシステムは、音声処理装置500a〜500lと、サーバ600とを有する。音声処理装置500a〜500lと、サーバ600とはネットワーク50を介して相互に接続される。ここでは一例として、音声処理装置500a〜500lを示すが、その他の音声処理装置を含んでいても良い。以下の説明では、音声処理装置500a〜500lをまとめて、適宜、音声処理装置500と表記する。
FIG. 15 is a diagram showing an example of the system according to the fourth embodiment. As shown in FIG. 15, this system has
なお、本実施例4では一例として、音声処理装置500a〜500cは、部屋10Aに配置される。このため、音声処理装置500a〜500cは、使用環境が類似する。音声処理装置500d〜500fは、部屋10Bに配置される。このため、音声処理装置500d〜500fは、使用環境が類似する。音声処理装置500g〜500iは、部屋10Cに配置される。このため、音声処理装置500g〜500iは、使用環境が類似する。音声処理装置500j〜500lは、部屋10Dに配置される。このため、音声処理装置500j〜500lは、使用環境が類似する。
As an example in the fourth embodiment, the
音声処理装置500は、実施例2で説明した音声処理装置200と同様にして、更新処理を繰り返し実行し、更新後の判定基準データ140aを、サーバ600に送信する。実施例1〜3で説明したように、判定基準データ140aは、第1閾値、第2閾値、第3閾値を有する。
The voice processing device 500 repeatedly executes the update process in the same manner as the
サーバ600は、音声処理装置500から判定基準データ140aを取得し、取得した判定基準データの各第1閾値を基にして、他の音声処理装置500と比較して、声の大きい利用者が使用する音声処理装置500を特定する。サーバ600は、特定した音声処理装置500に第3メッセージ「少し声を小さくしてください」を送信する。係る第3メッセージを受信した音声処理装置500は、第3メッセージを利用者に提示する。
The
サーバ600は、音声処理装置500から判定基準データ140aを取得し、取得した判定基準データの各第2閾値を基にして、他の音声処理装置500と比較して、声の小さい利用者が使用する音声処理装置500を特定する。サーバ600は、特定した音声処理装置500に第4メッセージ「少し声を大きくしてください」を送信する。係る第4メッセージを受信した音声処理装置500は、第4メッセージを利用者に提示する。
The
図16は、本実施例4に係る音声処理装置の構成を示す機能ブロック図である。図16に示すように、音声処理装置500aは、図16に示すように、マイク10に接続される。音声処理装置500aは、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。また、音声処理装置500aは、メッセージ受信部510を有する。ここでは一例として、音声処理装置500aの構成について説明するが、音声処理装置500b〜500lの構成は、音声処理装置500aの構成と同様である。
FIG. 16 is a functional block diagram showing the configuration of the voice processing device according to the fourth embodiment. As shown in FIG. 16, the
図16において、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。推定部210および更新部220に関する説明は、実施例2で説明したものと同様であるため、説明を省略する。
In FIG. 16, the description of the
メッセージ受信部510は、通信装置を介して、サーバ600からメッセージを受信した場合に、受信したメッセージを情報提示部160に提示させる。例えば、サーバ600から受信するメッセージは、上記のように、第3メッセージまたは第4メッセージとなる。
When the
なお、更新部220は、判定基準データ140aの更新を行う度に、更新回数をカウントする。更新部220は、判定基準データ140aの更新回数が所定回数以上となった場合に、通信装置を用いて、判定基準データ140aをサーバ600に送信する。
The
図17は、本実施例4に係るサーバの構成を示す機能ブロック図である。図17に示すように、このサーバ600は、通信部610と、記憶部620と、制御部630とを有する。
FIG. 17 is a functional block diagram showing a server configuration according to the fourth embodiment. As shown in FIG. 17, the
通信部610は、ネットワーク50を介して、音声処理装置500とデータ通信を実行する処理部である。後述する制御部630は、通信部610を介して、音声処理装置500とデータをやり取りする。通信部610は、通信装置に対応する。
The communication unit 610 is a processing unit that executes data communication with the voice processing device 500 via the
記憶部620は、閾値テーブル620aを有する。記憶部620は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
The
閾値テーブル620aは、音声処理装置500から送信される判定基準データ140aを保持するテーブルである。閾値テーブル620aのデータ構造は、図11Bで説明した閾値テーブル420aに対応するため説明を省略する。
The threshold table 620a is a table that holds the
分類テーブル620bは、音声処理装置500が属するグループのデータを保持するテーブルである。図18は、本実施例4に係る分類テーブルのデータ構造の一例を示す図である。図18に示すように、この分類テーブル620bは、グループ識別情報と、識別情報とを対応づける。グループ識別情報は、グループを一意に識別する情報である。識別情報は、音声処理装置500を一意に識別する情報である。 The classification table 620b is a table that holds data of the group to which the voice processing device 500 belongs. FIG. 18 is a diagram showing an example of the data structure of the classification table according to the fourth embodiment. As shown in FIG. 18, the classification table 620b associates the group identification information with the identification information. The group identification information is information that uniquely identifies a group. The identification information is information that uniquely identifies the voice processing device 500.
同一のグループに分類される音声処理装置500は、使用環境が類似する。例えば、音声処理装置500a〜500cは、同一のグループに分類される。音声処理装置500d〜500fは、同一のグループに分類される。音声処理装置500g〜500iは、同一のグループに分類される。音声処理装置500j〜500lは、同一のグループに分類される。
The voice processing devices 500 classified into the same group have similar usage environments. For example, the
制御部630は、受信部630a、統計量算出部630b、外れ値抽出部630c、メッセージ送信部630dを有する。制御部630は、CPUやMPUなどによって実現できる。また、制御部630は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
The control unit 630 includes a
受信部630aは、音声処理装置500から判定基準データ140aを受信する処理部である。例えば、判定基準データ140aには、この判定基準データ140aの送信元となる音声処理装置500を識別する識別情報が付与されているものとする。受信部630aは、判定基準データ140aを、識別情報と対応付けて、閾値テーブル620aに登録する。
The receiving
統計量算出部630bは、閾値テーブル620aを基にして、同一のグループ毎に、統計量を算出する処理部である。統計量算出部630bは、統計量として、第1閾値の平均値μ1と、第1閾値の標準偏差σ1を算出する。また、統計量算出部630bは、第2閾値の平均値μ2と、第2閾値の標準偏差σ2を算出する。統計量算出部630bは、グループ毎の統計量の情報を、外れ値抽出部630cに出力する。
The statistic calculation unit 630b is a processing unit that calculates statistics for the same group based on the threshold table 620a. The statistic calculation unit 630b calculates the average value μ1 of the first threshold value and the standard deviation σ1 of the first threshold value as statistics. Further, the statistic calculation unit 630b calculates the average value μ2 of the second threshold value and the standard deviation σ2 of the second threshold value. The statistic calculation unit 630b outputs the statistic information for each group to the
統計量算出部630bは、分類テーブル620bを参照することで、同一のグループに属する音声処理装置500の識別情報を特定する。統計量算出部630bは、特定した識別情報と、閾値テーブル620aとを比較することで、同一のグループに属する音声処理装置500の判定基準データ140a(第1閾値、第2閾値)を取得する。統計値算出部630bは、同一のグループに属する音声処理装置500の各第1閾値、第2閾値を用いて、上記の統計量を算出する。
The statistic calculation unit 630b identifies the identification information of the voice processing device 500 belonging to the same group by referring to the classification table 620b. The statistic calculation unit 630b acquires the
図19は、統計量のデータ構造の一例を示す図である。図19に示すように、この統計量は、グループ識別情報と、第1平均値と、第1標準偏差と、第2平均値と、第2標準偏差とを対応づける。グループ識別情報は、グループを一意に識別する情報である。第1平均値は、同一のグループの各第1閾値の平均値を示す。第1標準偏差は、同一のグループの各第1閾値の標準偏差を示す。第2平均値は、同一のグループの各第2閾値の平均値を示す。第2標準偏差は、同一のグループの各第2閾値の標準偏差を示す。 FIG. 19 is a diagram showing an example of a statistical data structure. As shown in FIG. 19, this statistic associates the group identification information with the first mean, the first standard deviation, the second mean, and the second standard deviation. The group identification information is information that uniquely identifies a group. The first mean value indicates the mean value of each first threshold value of the same group. The first standard deviation indicates the standard deviation of each first threshold in the same group. The second mean value indicates the mean value of each second threshold value of the same group. The second standard deviation indicates the standard deviation of each second threshold in the same group.
外れ値抽出部630cは、統計量と、閾値テーブル620aと、分類テーブル620bとを基にして、外れ値の第1閾値または第2閾値(判定基準データ140a)を送信した音声処理装置500を、グループ毎に抽出する処理部である。
The
外れ値抽出部630cは、同一のグループに含まれる音声処理装置500の第1閾値と、該当するグループの「第1平均値μ1+3×第1標準偏差σ1」とを比較する。外れ値抽出部630cは、第1閾値が「第1平均値μ1+3×第1標準偏差σ1」を超える音声処理装置500を、「第1外れ装置」として抽出する。本実施の形態では平均値から標準偏差の3倍離れた値を閾値としたが、3倍に限定されず、2倍や1倍に設定してもよい。
The
外れ値抽出部630cは、同一のグループに含まれる音声処理装置500の第2閾値と、該当するグループの「第2平均値μ2−3×第2標準偏差σ2」とを比較する。外れ値抽出部630cは、第2閾値が「第2平均値μ2−3×第2標準偏差σ2」を下回る音声処理装置500を、「第2外れ装置」として抽出する。外れ値抽出部630cは、第1外れ装置の識別情報および第2外れ値の識別情報を、メッセージ送信部630dに出力する。本実施の形態では平均値から標準偏差の3倍離れた値を閾値としたが、3倍に限定されず、2倍や1倍に設定してもよい。
The
外れ値抽出部630cは、上記処理を、グループ毎に繰り返し実行することで、グループ毎の第1外れ装置の識別情報および第2外れ値の識別情報を、メッセージ送信部630dに出力する。
The
第1外れ装置の識別情報に対応する音声処理装置500を用いて通話している利用者は、使用環境が類似する他の利用者と比較して、「声が大きい」と言える。第2外れ装置の識別情報に対応する音声処理装置500を用いて通話している利用者は、使用環境が類似する他の利用者と比較して、「声が小さい」と言える。 It can be said that a user who is talking using the voice processing device 500 corresponding to the identification information of the first detached device is "loud" as compared with other users who have similar usage environments. It can be said that a user who is making a call using the voice processing device 500 corresponding to the identification information of the second detached device has a "low voice" as compared with other users having a similar usage environment.
メッセージ送信部630dは、外れ値抽出部630cから取得する情報を基にして、メッセージを音声処理装置500に送信する処理部である。例えば、メッセージ送信部630dは、第1外れ装置の識別情報に対応する音声処理装置500に、第3メッセージ「少し声を小さくしてください」を送信する。例えば、メッセージ送信部630dは、第2外れ装置の識別情報に対応する音声処理装置500に、第4メッセージ「少し声を大きくしてください」を送信する。
The message transmission unit 630d is a processing unit that transmits a message to the voice processing device 500 based on the information acquired from the
次に、本実施例4に係る音声処理装置500の処理手順について説明する。図20は、本実施例4に係る音声処理装置の処理手順を示すフローチャートである。図20に示すように、音声処理装置500のAD変換部110は、入力音声の受け付けを開始する(ステップS501)。AD変換部110は、AD変換を行う(ステップS502)。音声処理装置500のピッチ抽出部120aは、ピッチを抽出し、音声処理装置500のパワー抽出部120bは、パワーを抽出する(ステップS503)。
Next, the processing procedure of the voice processing device 500 according to the fourth embodiment will be described. FIG. 20 is a flowchart showing a processing procedure of the voice processing device according to the fourth embodiment. As shown in FIG. 20, the
ピッチ抽出部120aは、有音区間を検出する(ステップS504)。音声処理装置500のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS505)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS506,Yes)、ステップS507に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS506,No)、ステップS501に移行する。
The
ストレス検出部130は、ストレス値を算出する(ステップS507)。音声処理装置500の推定部210は、有音区間の平均パワーを算出する(ステップS508)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS509,Yes)、ステップS510に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS509,No)、ステップS512に移行する。
The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS510)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS510,Yes)、ステップS515に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS510,No)、情報提示部160に第1メッセージを表示させ(ステップS511)、ステップS515に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。
The
ステップS512の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS512)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS512,No)、ステップS515に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS512,Yes)、ステップS513に移行する。
The process proceeds to the description of step S512. The
推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS513)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS513,No)、ステップS515に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS513,Yes)、情報提示部160に第2メッセージを表示させ(ステップS514)、ステップS515に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。
The
音声処理装置500の更新部220は、更新処理を実行する(ステップS515)。ステップS515に示す更新処理は、実施例2の図5、図6、図7に示した処理に対応する。推定部160は、ストレス値および平均パワーを記憶部140に記憶する(ステップS516)。
The
更新部220は、更新回数が所定回数以上となった場合に、判定基準データ140aを、サーバ600に送信する(ステップS517)。更新部220は、更新回数に1を加算し(ステップS518)、ステップS501に移行する。
When the number of updates exceeds a predetermined number, the
次に、実施例4に係るサーバ600の処理手順について説明する。図21は、本実施例4に係るサーバの処理手順を示すフローチャートである。図21に示すように、サーバ600の受信部630aは、判定基準データ140aを受信する(ステップS601)。受信部630aは、判定基準データ140aを閾値テーブル620aに登録する(ステップS602)。
Next, the processing procedure of the
サーバ600の統計量算出部630bは、閾値データ620aに基づいて、判定基準データのレコード数が第5閾値以上であるか否かを判定する(ステップS603)。統計量算出部630bは、判定基準データのレコード数が第5閾値以上でない場合には(ステップS603,No)、処理を終了する。
The statistic calculation unit 630b of the
一方、統計量算出部630bは、判定基準データのレコード数が第5閾値以上である場合には(ステップS603,Yes)、第1閾値、第2閾値について、それぞれ平均値μを算出する(ステップS604)。統計量算出部630bは、第1閾値、第2閾値について、それぞれ標準偏差σを算出する(ステップS605)。 On the other hand, when the number of records of the determination reference data is equal to or greater than the fifth threshold value (step S603, Yes), the statistic calculation unit 630b calculates an average value μ for each of the first threshold value and the second threshold value (step). S604). The statistic calculation unit 630b calculates the standard deviation σ for each of the first threshold value and the second threshold value (step S605).
サーバ600の外れ値抽出部630cは、判断基準データ140aにおいて、第1閾値が第1平均値μ1+3×第1標準偏差σ1を超えるものがない場合には(ステップS606,No)、ステップS608に移行する。
The
外れ値抽出部630cは、判断基準データ140aにおいて、第1閾値が第1平均値μ1+3×第1標準偏差σ1を超えるものがある場合には(ステップS606,Yes)、ステップS607に移行する。サーバ600のメッセージ送信部630dは、該当する音声処理装置500に第3メッセージ「少し声を小さくしてください」を送信する(ステップS607)。
The
外れ値抽出部630cは、判断基準データ140aにおいて、第2閾値が第2平均値μ2−3×第2標準偏差σ2を下回るものがない場合には(ステップS608,No)、処理を終了する。
The
外れ値抽出部630cは、判断基準データ140aにおいて、第2閾値が第2平均値μ2−3×第2標準偏差σ2を下回るものがある場合には(ステップS608,Yes)、ステップS609に移行する。サーバ600のメッセージ送信部630dは、該当する音声処理装置500に第4メッセージ「少し声を大きくしてください」を送信する(ステップS609)。
The
次に、本実施例4に係るシステムの効果について説明する。音声処理装置500は、更新処理を繰り返し実行した後に、判定基準データ140aをサーバ600に通知する。サーバ600は、各判定基準データ140aを基にして、統計量を算出し、外れ値の第1閾値を送信した音声処理装置500、外れ値の第2閾値を送信した音声処理装置500にメッセージを送信する。例えば、サーバ600は、外れ値の第1閾値を送信した音声処理装置500に第3メッセージを送信するため、使用環境が類似する音声処理装置の中で、相対的に話し声の大きい利用者の音声処理装置に対して注意発起を行うことができる。サーバ600は、外れ値の第2閾値を送信した音声処理装置500に第4メッセージを送信するため、使用環境が類似する音声処理装置の中で、相対的に話し声の小さい利用者の音声処理装置500に対して注意発起を行うことができる。
Next, the effect of the system according to the fourth embodiment will be described. The voice processing device 500 notifies the
なお、本実施例4に係るシステムでは、音声処理装置500を使用環境が類似するグループに分けて、グループ毎に、第3メッセージ、第4メッセージを送信していたが、これに限定されるものではない。本実施例4に係るシステムでは、音声処理装置500a〜500lを一つのグループにまとめて、同一の処理を実行しても良い。
In the system according to the fourth embodiment, the voice processing device 500 is divided into groups having similar usage environments, and the third message and the fourth message are transmitted for each group, but the system is limited to this. is not it. In the system according to the fourth embodiment, the
図22は、本実施例5に係る音声処理装置の構成を示す機能ブロック図である。図22に示すように、この音声処理装置700は、マイク10に接続される。音声処理装置700は、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、推定部710、ゲイン調整部720を有する。このうち、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。
FIG. 22 is a functional block diagram showing a configuration of the voice processing device according to the fifth embodiment. As shown in FIG. 22, the voice processing device 700 is connected to the
推定部710は、入力音声のストレス値と、平均パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部710は、推定結果を、ゲイン調整部720に出力する。
The
例えば、推定部710は、「ストレスが小」かつ「平均パワーが第1閾値以上」場合に、第1推定結果を、ゲイン調整部720に出力する。推定部710は、「ストレスが大」かつ「平均パワーが第2閾値未満」場合に、第2推定結果を、ゲイン調整部720に出力する。推定部710が、ストレスの大、小、平均パワーを第1閾値および第2閾値と比較する処理は、実施例1に示した推定部150の処理と同様である。
For example, the
ゲイン調整部720は、推定部710の推定結果を基にして、マイク10のゲインを調整する処理部である。ゲイン調整部720は、推定部710から第1推定結果を受信した場合には、ゲイン調整部720は、マイク10のゲインを下げる。例えば、ゲイン調整部720は、マイク10の録音レベルを3dB下げる。第1推定結果は、現在のストレスが「小」であり、かつ、「平均パワーが第1閾値以上である」ことを示し、今後、ストレスが「大」に推移すると、入力音声のパワーが適切なパワーを超える恐れがある。
The
ゲイン調整部720は、推定部710から第2推定結果を受信した場合には、ゲイン調整部720は、マイク10のゲインを上げる。例えば、ゲイン調整部720は、マイク10の録音レベルを3dB上げる。第2推定結果は、現在のストレスが「大」であり、かつ、「平均パワーが第2閾値未満である」ことを示し、今後、ストレスが「小」に推移すると、入力音声のパワーが適切なパワーを下回る恐れがある。
When the
次に、本実施例5に係る音声処理装置700の処理手順について説明する。図23は、本実施例5に係る音声処理装置の処理手順を示すフローチャートである。図23に示すように、音声処理装置700のAD変換部110は、入力音声の受け付けを開始する(ステップS701)。AD変換部110は、AD変換を行う(ステップS702)。音声処理装置700のピッチ抽出部120aは、ピッチを抽出し、音声処理装置700のパワー抽出部120bは、パワーを抽出する(ステップS703)。
Next, the processing procedure of the voice processing device 700 according to the fifth embodiment will be described. FIG. 23 is a flowchart showing a processing procedure of the voice processing device according to the fifth embodiment. As shown in FIG. 23, the
ピッチ抽出部120aは、有音区間を検出する(ステップS704)。音声処理装置700のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS705)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS706,Yes)、ステップS707に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS706,No)、ステップS701に移行する。
The
ストレス検出部130は、ストレス値を算出する(ステップS707)。音声処理装置700の推定部710は、有音区間の平均パワーを算出する(ステップS708)。推定部710は、平均パワーが第1閾値以上である場合には(ステップS709,Yes)、ステップS710に移行する。一方、推定部710は、平均パワーが第1閾値未満である場合には(ステップS709,No)、ステップS712に移行する。
The
推定部710は、ストレス値が第3閾値以上であるか否かを判定する(ステップS710)。推定部710は、ストレス値が第3閾値以上である場合には(ステップS710,Yes)、ステップS701に移行する。推定部710は、ストレス値が第3閾値未満である場合には(ステップS710,No)、ステップS711に移行する。音声処理装置700のゲイン調整部720は、マイク10の音声レベルを3dB下げ(ステップS711)、ステップS701に移行する。
The
ステップS712の説明に移行する。推定部710は、平均パワーが第2閾値未満であるか否かを判定する(ステップS712)。推定部710は、平均パワーが第2閾値未満でない場合には(ステップS712,No)、ステップS701に移行する。一方、推定部710は、平均パワーが第2閾値未満である場合には(ステップS712,Yes)、ステップS713に移行する。
The process proceeds to the description of step S712. The
推定部710は、ストレス値が第3閾値以上であるか否かを判定する(ステップS713)。推定部710は、ストレス値が第3閾値以上でない場合には(ステップS713,No)、ステップS701に移行する。一方、推定部710は、ストレス値が第3閾値以上である場合には(ステップS713,Yes)、ステップS714に移行する。ゲイン調整部720は、マイク10の音声レベルを3dB上げ(ステップS714)、ステップS701に移行する。
The
次に、本実施例5に係る音声処理装置700の効果について説明する。音声処理装置700は、発声状態を推定し、推移結果に基づいて、マイク10のゲインを調整する。これにより、利用者の心理状況も考慮して、利用者の入力音声の音量を適切な音量に保つことができ、各利用者の通話を快適に保つことができる。
Next, the effect of the voice processing device 700 according to the fifth embodiment will be described. The voice processing device 700 estimates the utterance state and adjusts the gain of the
次に、上記実施例に示した音声処理装置100,200,300,500,700と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図24は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
Next, an example of a computer hardware configuration that realizes the same functions as the
図24に示すように、コンピュータ800は、各種演算処理を実行するCPU801と、ユーザからのデータの入力を受け付ける入力装置802と、ディスプレイ803とを有する。また、コンピュータ800は、記憶媒体からプログラム等を読み取る読み取り装置804と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置805とを有する。例えば、インターフェース装置805は、通信装置等に接続される。コンピュータ800は、マイク806に接続される。また、コンピュータ800は、各種情報を一時記憶するRAM807と、ハードディスク装置808とを有する。そして、各装置801〜808は、バス809に接続される。
As shown in FIG. 24, the
ハードディスク装置808は、抽出プログラム808a、ストレス検出プログラム808b、推定プログラム808c、更新プログラム808dを有する。また、ハードディスク装置808は、アップロード・ダウンロードプログラム808e、受信プログラム808f、提示プログラム808g、ゲイン調整プログラム808hを有する。CPU801は、抽出プログラム808a、ストレス検出プログラム808b、推定プログラム808c、更新プログラム808dを読み出してRAM807に展開する。CPU801は、アップロード・ダウンロードプログラム808e、受信プログラム808f、提示プログラム808g、ゲイン調整プログラム808hを読み出してRAM807に展開する。
The
抽出プログラム808aは、抽出プロセス807aとして機能する。ストレス検出プログラム808bは、ストレス検出プロセス807bとして機能する。推定プログラム808cは、推定プロセス807cとして機能する。更新プログラム808dは、更新プロセス807dとして機能する。アップロード・ダウンロードプログラム808eは、アップロード・ダウンロードプロセス807eとして機能する。受信プログラム808fは、受信プロセス807fとして機能する。提示プログラム808gは、提示プロセス807gとして機能する。ゲイン調整プログラム808hは、ゲイン調整プロセス807hとして機能する。
The
抽出プロセス807aの処理は、ピッチ抽出部120a、パワー抽出部120bの処理に対応する。ストレス検出プロセス807bの処理は、ストレス検出部130の処理に対応する。推定プロセス807cの処理は、推定部150、210、710の処理に対応する。更新プロセス807dの処理は、更新部220の処理に対応する。アップロード・ダウンロードプロセス807eの処理は、アップロード部310、ダウンロード部320の処理に対応する。受信プロセス807fの処理は、メッセージ受信部510の処理に対応する。提示プロセス807gの処理は、情報提示部160の処理に対応する。ゲイン調整プロセス807hの処理は、ゲイン調整部720の処理に対応する。
The processing of the
なお、各プログラム808a〜808hについては、必ずしも最初からハードディスク装置808に記憶させておかなくても良い。例えば、コンピュータ800に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ800が各プログラム808a〜808hを読み出して実行するようにしても良い。
The
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including each of the above embodiments.
(付記1)コンピュータに、
入力音声からピッチ周波数と周波数パワーとを抽出し、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を出力し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行させることを特徴とする音声処理プログラム。
(Appendix 1) To the computer
Extract the pitch frequency and frequency power from the input voice,
A determination result is output as to whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied.
A voice processing program characterized in that a process of estimating the utterance state of the input voice is executed based on the relationship between the determination result and the average power of the frequency power.
(付記2)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する処理を更にコンピュータに実行させることを特徴とする付記1に記載の音声処理プログラム。 (Appendix 2) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the judgment standard or the threshold value used by the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as training data. The voice processing program according to Appendix 1, wherein the computer further executes a process of updating the determination criterion or the threshold value.
(付記3)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定する処理を更にコンピュータに実行させることを特徴とする付記2に記載の音声処理プログラム。 (Appendix 3) The determination criteria are collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. The voice processing program according to Appendix 2, wherein the computer further executes the process of setting the initial value of the threshold value.
(付記4)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力する処理を更にコンピュータに実行させることを特徴とする付記3に記載の音声処理プログラム。
(Appendix 4) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing program according to Appendix 3, wherein when the alarm is received, the computer further executes a process of outputting the alarm.
(付記5)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記4に記載の音声処理プログラム。 (Appendix 5) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of thresholds acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing program according to Appendix 4, which is characterized by identifying a large user.
(付記6)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加える処理を更にコンピュータに実行させることを特徴とする付記1〜5のいずれか一つに記載の音声処理プログラム。 (Appendix 6) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Supplementary notes 1 to 5 is characterized in that the computer is further executed to add a correction gain to the input voice. The voice processing program described in one.
(付記7)コンピュータが実行する音声処理方法であって、
入力音声からピッチ周波数と周波数パワーとを抽出し、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行することを特徴とする音声処理方法。
(Appendix 7) A voice processing method executed by a computer.
Extract the pitch frequency and frequency power from the input voice,
The determination result is determined whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied.
A voice processing method characterized by executing a process of estimating a vocalization state of the input voice based on the relationship between the determination result and the average power of the frequency power.
(付記8)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する処理を更に実行することを特徴とする付記7に記載の音声処理方法。 (Appendix 8) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the determination criterion or the threshold value used in the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as learning data. The voice processing method according to Appendix 7, wherein the process of updating the determination criterion or the threshold value is further executed.
(付記9)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定する処理を更に実行することを特徴とする付記8に記載の音声処理方法。 (Appendix 9) The determination criterion is collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. 8. The voice processing method according to Appendix 8, wherein the process of setting the initial value of the threshold value is further executed.
(付記10)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力する処理を更に実行することを特徴とする付記9に記載の音声処理方法。
(Appendix 10) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing method according to Appendix 9, wherein when the alarm is received, a process of outputting the alarm is further executed.
(付記11)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記10に記載の音声処理方法。
(Appendix 11) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of threshold values acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing method according to
(付記12)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加える処理を更にコンピュータに実行させることを特徴とする付記7〜11のいずれか一つに記載の音声処理方法。 (Appendix 12) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Supplementary notes 7 to 11 is characterized in that the computer is further executed to add a correction gain to the input voice. The voice processing method described in one.
(付記13)入力音声からピッチ周波数と周波数パワーとを抽出する抽出部と、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する推定部と、
を有することを特徴とする音声処理装置。
(Appendix 13) An extraction unit that extracts the pitch frequency and frequency power from the input voice,
The determination result is determined whether or not the condition that the pitch frequency and the value based on the frequency power satisfy the predetermined threshold value or more is satisfied, and the input voice is based on the relationship between the determination result and the average power of the frequency power. The estimation unit that estimates the vocalization state of
A voice processing device characterized by having.
(付記14)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する更新部を更に有することを特徴とする付記13に記載の音声処理装置。 (Appendix 14) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the determination criterion or the threshold value used in the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as learning data. The voice processing apparatus according to Appendix 13, further comprising an update unit for updating the determination criterion or the threshold value.
(付記15)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定するダウンロード部を更に有することを特徴とする付記14に記載の音声処理装置。 (Appendix 15) The determination criterion is collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. The voice processing apparatus according to Appendix 14, further comprising a download unit for setting the initial value of the threshold value of the above.
(付記16)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力するメッセージ受信部を更に有することを特徴とする付記15に記載の音声処理装置。
(Appendix 16) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing device according to Appendix 15, further comprising a message receiving unit that outputs an alarm when the alarm is received.
(付記17)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記16に記載の音声処理装置。
(Appendix 17) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of threshold values acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing device according to
(付記18)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加えるゲイン調整部を更に有することを特徴とする付記13〜17のいずれか一つに記載の音声処理装置。 (Appendix 18) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Appendix 13 to 17, further comprising a gain adjusting unit for adding a correction gain to the input sound. The voice processing device described in 1.
10 マイク
100,200,300a,300b,300c,500a,500b,500c,500d,500e,500f,500g,500h,500i,500j,500k,500l,700 音声処理装置
110 AD変換部
120a ピッチ抽出部
120b パワー抽出部
130 ストレス検出部
140 記憶部
140a 判定基準データ
160 情報提示部
220 更新部
310 アップロード部
320 ダウンロード部
400,600 サーバ
510 メッセージ受信部
720 ゲイン調整部
10
Claims (8)
入力音声から周波数パワーとピッチ周波数とを抽出し、
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行させることを特徴とする音声処理プログラム。 On the computer
Extracts the frequency power and the pitch frequency from the input speech,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value,
A voice processing program characterized in that a process of estimating the utterance state of the input voice is executed based on the relationship between the determination result and the average power of the frequency power.
前記アラームを受け付けた場合に、アラームを出力する処理を更にコンピュータに実行させることを特徴とする請求項3に記載の音声処理プログラム。 The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify and identify a user with a loud voice. Notifies the terminal used by the person of the alarm and
The voice processing program according to claim 3, wherein when the alarm is received, a computer further executes a process of outputting the alarm.
入力音声から周波数パワーとピッチ周波数とを抽出し、
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行することを特徴とする音声処理方法。 A computer-executed voice processing method
Extracts the frequency power and the pitch frequency from the input speech,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value,
A voice processing method characterized by executing a process of estimating a vocalization state of the input voice based on the relationship between the determination result and the average power of the frequency power.
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する推定部と、
を有することを特徴とする音声処理装置。 An extractor that extracts frequency power and pitch frequency from input audio,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value, the determination An estimation unit that estimates the vocalization state of the input voice based on the relationship between the result and the average power of the frequency power.
A voice processing device characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017074704A JP6819426B2 (en) | 2017-04-04 | 2017-04-04 | Speech processing program, speech processing method and speech processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017074704A JP6819426B2 (en) | 2017-04-04 | 2017-04-04 | Speech processing program, speech processing method and speech processor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180061A JP2018180061A (en) | 2018-11-15 |
JP6819426B2 true JP6819426B2 (en) | 2021-01-27 |
Family
ID=64276144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017074704A Active JP6819426B2 (en) | 2017-04-04 | 2017-04-04 | Speech processing program, speech processing method and speech processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6819426B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010259691A (en) * | 2009-05-11 | 2010-11-18 | Panasonic Corp | Stress measuring device |
JP6268717B2 (en) * | 2013-03-04 | 2018-01-31 | 富士通株式会社 | State estimation device, state estimation method, and computer program for state estimation |
JP2015031913A (en) * | 2013-08-06 | 2015-02-16 | カシオ計算機株式会社 | Speech processing unit, speech processing method and program |
-
2017
- 2017-04-04 JP JP2017074704A patent/JP6819426B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018180061A (en) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016184119A1 (en) | Volume adjustment method, system and equipment, and computer storage medium | |
JP5716595B2 (en) | Audio correction apparatus, audio correction method, and audio correction program | |
US10582313B2 (en) | Method of operating a hearing aid system and a hearing aid system | |
CN112397078A (en) | System and method for providing personalized audio playback on multiple consumer devices | |
KR20160145730A (en) | Volume adjusting method, apparatus and terminal of user terminal | |
CN110312146B (en) | Audio processing method and device, electronic equipment and storage medium | |
US10251000B2 (en) | Hearing assistant device for informing about state of wearer | |
US20240098433A1 (en) | Method for configuring a hearing-assistance device with a hearing profile | |
WO2018014673A1 (en) | Method and device for howling detection | |
US11595766B2 (en) | Remotely updating a hearing aid profile | |
CA2869884C (en) | A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal | |
JP6819426B2 (en) | Speech processing program, speech processing method and speech processor | |
CN114731478A (en) | Device and method for hearing device parameter configuration | |
CN107431868B (en) | Method for determining useful hearing device characteristics based on recorded sound classification data | |
JP7000757B2 (en) | Speech processing program, speech processing method and speech processing device | |
CN115696110A (en) | Audio device and audio signal processing method | |
EP3614379B1 (en) | Systems and methods for adaption of a telephonic audio signal | |
EP3664470B1 (en) | Providing feedback of an own voice loudness of a user of a hearing device | |
CN113362839A (en) | Audio data processing method and device, computer equipment and storage medium | |
CN112309418A (en) | Method and device for inhibiting wind noise | |
US20180366136A1 (en) | Nuisance Notification | |
EP4312214A1 (en) | Determining spatial audio parameters | |
CN112673648B (en) | Processing device, processing method, reproduction method, and storage medium | |
US20230036155A1 (en) | A method of estimating a hearing loss, a hearing loss estimation system and a computer readable medium | |
TWI566240B (en) | Audio signal processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200923 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6819426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |