JP6819426B2 - Speech processing program, speech processing method and speech processor - Google Patents

Speech processing program, speech processing method and speech processor Download PDF

Info

Publication number
JP6819426B2
JP6819426B2 JP2017074704A JP2017074704A JP6819426B2 JP 6819426 B2 JP6819426 B2 JP 6819426B2 JP 2017074704 A JP2017074704 A JP 2017074704A JP 2017074704 A JP2017074704 A JP 2017074704A JP 6819426 B2 JP6819426 B2 JP 6819426B2
Authority
JP
Japan
Prior art keywords
unit
threshold value
value
voice processing
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017074704A
Other languages
Japanese (ja)
Other versions
JP2018180061A (en
Inventor
昭二 早川
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017074704A priority Critical patent/JP6819426B2/en
Publication of JP2018180061A publication Critical patent/JP2018180061A/en
Application granted granted Critical
Publication of JP6819426B2 publication Critical patent/JP6819426B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声処理プログラム等に関する。 The present invention relates to a voice processing program and the like.

近年、企業内の社員は、自席PC(Personal Computer)のアプリケーションソフトウェアと、ヘッドセットとを用いて通話や電話会議等を行っている。以下の説明では、企業内の社員および他の利用者をまとめて、利用者と表記する。 In recent years, employees in a company have been making telephone calls and conference calls using application software of their own personal computer (Personal Computer) and a headset. In the following explanation, employees and other users in the company are collectively referred to as users.

利用者がヘッドセットの取り扱いに慣れていない場合には、利用者の口とヘッドセットのマイクとの距離が適切でない場合が多い。例えば、利用者の口とマイクとの距離が近いと、音量が適切な大きさを超えやすく、相手側に不快感を与える場合がある。一方、利用者の口とマイクとの距離が遠いと、音量が適切な大きさに足りず、相手側が音声を聞き取りづらくなる。 If the user is not accustomed to handling the headset, the distance between the user's mouth and the headset microphone is often inadequate. For example, if the distance between the user's mouth and the microphone is short, the volume tends to exceed an appropriate level, which may cause discomfort to the other party. On the other hand, if the distance between the user's mouth and the microphone is long, the volume is not sufficient and it becomes difficult for the other party to hear the voice.

音質の評価を行い、利用者に通知する技術として、例えば、従来技術1がある。従来技術1では、マイクに紙がこすれる音、エコー、周囲雑音、残留雑音等の外的要因に基づいて音質を評価し、評価結果を利用者に表示している。 As a technique for evaluating sound quality and notifying the user, for example, there is a conventional technique 1. In the prior art 1, the sound quality is evaluated based on external factors such as the sound of paper rubbing against the microphone, echo, ambient noise, and residual noise, and the evaluation result is displayed to the user.

特開平1−155430号公報Japanese Unexamined Patent Publication No. 1-155430 特開2010−259691号公報JP-A-2010-259691

しかしながら、上述した従来技術では、入力音声の発声状態を適切に推定することができないという問題がある。 However, in the above-mentioned conventional technique, there is a problem that the utterance state of the input voice cannot be estimated appropriately.

例えば、利用者からマイクに入力される入力音声の音量は、常に一定というわけではなく、ストレス等の利用者の心理状況の影響によって、変動するため、適切な利用者の口とマイクとの距離も一定ではない。従って、入力音声の発話状態を適切に推定して、利用者の口とマイクとの距離が適切になるように、利用者に通知することが望ましい。 For example, the volume of the input voice input from the user to the microphone is not always constant and fluctuates due to the influence of the user's psychological condition such as stress, so the appropriate distance between the user's mouth and the microphone. Is not constant. Therefore, it is desirable to appropriately estimate the utterance state of the input voice and notify the user so that the distance between the user's mouth and the microphone is appropriate.

これに対して、従来技術1による音質の評価では、雑音等の外的要因を考慮して、音質を評価しているに過ぎず、入力音声の発話状態を評価するものではない。また、会話開始時の音量に基づき、口とマイクとの距離が適切であるか否かを通知する技術も存在するが、上記のように、入力音声の音量は心理状況の影響により変動するため、開始時の音量に基づく口とマイクとの距離が必ずしも継続して、最適な距離であるとは言えない。 On the other hand, in the evaluation of sound quality by the prior art 1, the sound quality is only evaluated in consideration of external factors such as noise, and the utterance state of the input voice is not evaluated. There is also a technology to notify whether the distance between the mouth and the microphone is appropriate based on the volume at the start of conversation, but as mentioned above, the volume of the input voice fluctuates due to the influence of the psychological situation. , The distance between the mouth and the microphone based on the volume at the start does not always continue and cannot be said to be the optimum distance.

1つの側面では、本発明は、入力音声の発声状態を適切に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide a speech processing program, a speech processing method, and a speech processing device capable of appropriately estimating the vocalization state of an input speech.

第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、入力音声からピッチ周波数と周波数パワーとを抽出する。コンピュータは、ピッチ周波数および周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を出力する。コンピュータは、判定結果と、周波数パワーの平均パワーとの関係に基づいて、入力音声の発声状態を推定する。 In the first plan, the computer is made to perform the following processing. The computer extracts the pitch frequency and frequency power from the input voice. The computer outputs a determination result as to whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied. The computer estimates the utterance state of the input voice based on the relationship between the determination result and the average power of the frequency power.

入力音声の発声状態を適切に推定することができる。 The vocalization state of the input voice can be estimated appropriately.

図1は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。FIG. 1 is a functional block diagram showing a configuration of a voice processing device according to the first embodiment. 図2は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。FIG. 2 is a flowchart showing a processing procedure of the voice processing device according to the first embodiment. 図3は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。FIG. 3 is a functional block diagram showing the configuration of the voice processing device according to the second embodiment. 図4は、推定結果のデータ構造の一例を示す図である。FIG. 4 is a diagram showing an example of the data structure of the estimation result. 図5は、本実施例2に係る更新部の更新処理の一例を示すフローチャート(1)である。FIG. 5 is a flowchart (1) showing an example of the update process of the update unit according to the second embodiment. 図6は、本実施例2に係る更新部の更新処理の一例を示すフローチャート(2)である。FIG. 6 is a flowchart (2) showing an example of the update process of the update unit according to the second embodiment. 図7は、本実施例2に係る更新部の更新処理の一例を示すフローチャート(3)である。FIG. 7 is a flowchart (3) showing an example of the update process of the update unit according to the second embodiment. 図8は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。FIG. 8 is a flowchart showing a processing procedure of the voice processing device according to the second embodiment. 図9は、本実施例3に係るシステムの一例を示す図である。FIG. 9 is a diagram showing an example of the system according to the third embodiment. 図10は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。FIG. 10 is a functional block diagram showing the configuration of the voice processing device according to the third embodiment. 図11Aは、本実施例3に係るサーバの構成を示す機能ブロック図である。FIG. 11A is a functional block diagram showing a server configuration according to the third embodiment. 図11Bは、本実施例3に係る閾値テーブルのデータ構造の一例を示す図である。FIG. 11B is a diagram showing an example of the data structure of the threshold table according to the third embodiment. 図12は、本実施例3に係る音声処理装置の処理手順を示すフローチャート(1)である。FIG. 12 is a flowchart (1) showing a processing procedure of the voice processing device according to the third embodiment. 図13は、本実施例3に係る音声処理装置の処理手順を示すフローチャート(2)である。FIG. 13 is a flowchart (2) showing a processing procedure of the voice processing device according to the third embodiment. 図14は、本実施例3に係る音声処理装置の処理手順を示すフローチャート(3)である。FIG. 14 is a flowchart (3) showing a processing procedure of the voice processing device according to the third embodiment. 図15は、本実施例4に係るシステムの一例を示す図である。FIG. 15 is a diagram showing an example of the system according to the fourth embodiment. 図16は、本実施例4に係る音声処理装置の構成を示す機能ブロック図である。FIG. 16 is a functional block diagram showing the configuration of the voice processing device according to the fourth embodiment. 図17は、本実施例4に係るサーバの構成を示す機能ブロック図である。FIG. 17 is a functional block diagram showing a server configuration according to the fourth embodiment. 図18は、本実施例4に係る分類テーブルのデータ構造の一例を示す図である。FIG. 18 is a diagram showing an example of the data structure of the classification table according to the fourth embodiment. 図19は、統計量のデータ構造の一例を示す図である。FIG. 19 is a diagram showing an example of a statistical data structure. 図20は、本実施例4に係る音声処理装置の処理手順を示すフローチャートである。FIG. 20 is a flowchart showing a processing procedure of the voice processing device according to the fourth embodiment. 図21は、本実施例4に係るサーバの処理手順を示すフローチャートである。FIG. 21 is a flowchart showing a processing procedure of the server according to the fourth embodiment. 図22は、本実施例5に係る音声処理装置の構成を示す機能ブロック図である。FIG. 22 is a functional block diagram showing a configuration of the voice processing device according to the fifth embodiment. 図23は、本実施例5に係る音声処理装置の処理手順を示すフローチャートである。FIG. 23 is a flowchart showing a processing procedure of the voice processing device according to the fifth embodiment. 図24は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。FIG. 24 is a diagram showing an example of a computer hardware configuration that realizes a function similar to that of a voice processing device.

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Hereinafter, examples of the voice processing program, voice processing method, and voice processing apparatus disclosed in the present application will be described in detail with reference to the drawings. The present invention is not limited to this embodiment.

図1は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図1に示すように、この音声処理装置100は、マイク10に接続される。音声処理装置100は、AD(Analog/Digital)変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、推定部150、情報提示部160を有する。ピッチ抽出部120a、パワー抽出部120bは、抽出部の一例である。 FIG. 1 is a functional block diagram showing a configuration of a voice processing device according to the first embodiment. As shown in FIG. 1, the voice processing device 100 is connected to the microphone 10. The voice processing device 100 includes an AD (Analog / Digital) conversion unit 110, a pitch extraction unit 120a, a power extraction unit 120b, a stress detection unit 130, a storage unit 140, an estimation unit 150, and an information presentation unit 160. The pitch extraction unit 120a and the power extraction unit 120b are examples of the extraction unit.

マイク10は、利用者が装着するヘッドセット(図示略)に備え付けられたマイクであり、利用者の音声を集音する。マイク10は、集音した利用者の音声データを、音声処理装置100のAD変換部110に出力する。以下の説明では、マイク10がAD変換部110に出力する音声データを、入力音声と表記する。 The microphone 10 is a microphone attached to a headset (not shown) worn by the user, and collects the user's voice. The microphone 10 outputs the collected voice data of the user to the AD conversion unit 110 of the voice processing device 100. In the following description, the voice data output by the microphone 10 to the AD conversion unit 110 is referred to as an input voice.

AD変換部110は、マイク10から入力音声を受け付け、受け付けた入力音声に対してAD変換を実行する。AD変換部110は、AD変換した入力音声を、ピッチ抽出部120aおよびパワー抽出部120bに出力する。AD変換は、アナログ信号をデジタル信号に変換する処理である。すなわち、AD変換部110は、アナログ信号の入力音声を、デジタル信号の入力音声に変換する。以下の説明では、AD変換部110により変換されたデジタル信号の入力音声を、単に、「入力音声」と表記する。 The AD conversion unit 110 receives the input voice from the microphone 10 and executes AD conversion on the received input voice. The AD conversion unit 110 outputs the AD-converted input voice to the pitch extraction unit 120a and the power extraction unit 120b. AD conversion is a process of converting an analog signal into a digital signal. That is, the AD conversion unit 110 converts the input voice of the analog signal into the input voice of the digital signal. In the following description, the input voice of the digital signal converted by the AD conversion unit 110 is simply referred to as “input voice”.

ピッチ抽出部120aは、入力音声を基にして、入力音声の基本周波数となるピッチを抽出する処理部である。ピッチ抽出部120aは、抽出したピッチの情報をストレス検出部130に出力する。 The pitch extraction unit 120a is a processing unit that extracts a pitch that is the fundamental frequency of the input voice based on the input voice. The pitch extraction unit 120a outputs the extracted pitch information to the stress detection unit 130.

ピッチ抽出部120aは、フレーム処理、ピッチ算出処理を実行する。まず、フレーム処理について説明する。ピッチ抽出部120aは、入力音声の信号系列を、予め決められたサンプル数毎に「フレーム」として取り出し、フレームにハニング窓等の分析窓を乗算することで、後述する時間周波数変換を行った際の高周波成分による歪を抑える。 The pitch extraction unit 120a executes frame processing and pitch calculation processing. First, frame processing will be described. When the pitch extraction unit 120a takes out the signal sequence of the input voice as a "frame" for each predetermined number of samples and multiplies the frame by an analysis window such as a Hanning window to perform time-frequency conversion described later. Suppresses distortion caused by high frequency components.

例えば、ピッチ抽出部120aは、サンプリング周波数8kHzで32msの区間のサンプルNをフレームとして取り出す。例えば、N=256とする。フレームに含まれる各サンプルを「s(0)、s(1)、s(2)、・・・、s(N−1)」とする。ピッチ抽出部120aは、上記の各サンプルに対しハミング窓を乗算する。例えば、ハミング窓は、式(1)により示される。 For example, the pitch extraction unit 120a extracts a sample N in a section of 32 ms at a sampling frequency of 8 kHz as a frame. For example, N = 256. Let each sample included in the frame be "s (0), s (1), s (2), ..., S (N-1)". The pitch extraction unit 120a multiplies each of the above samples by a humming window. For example, the humming window is represented by equation (1).

Figure 0006819426
Figure 0006819426

各サンプルに対しハミング窓を乗算したサンプルを「x(0)、x(1)、x(2)、・・・、x(N−1)」とする。以下の説明では、ハミング窓を乗算した結果得られるサンプル「x(0)、x(1)、x(2)、・・・、x(N−1)」をサンプル値と表記する。 The sample obtained by multiplying each sample by the humming window is defined as "x (0), x (1), x (2), ..., X (N-1)". In the following description, the sample "x (0), x (1), x (2), ..., X (N-1)" obtained by multiplying the humming window is referred to as a sample value.

ピッチ算出処理について説明する。ピッチ抽出部120aは、フレームに含まれる各サンプル値を用いて、自己相関関数を計算する。例えば、ピッチ抽出部120aは、式(2)に基づいて、自己相関関数φ(m)を計算する。式(2)に示すmは、遅延時間を示す。 The pitch calculation process will be described. The pitch extraction unit 120a calculates the autocorrelation function using each sample value included in the frame. For example, the pitch extraction unit 120a calculates the autocorrelation function φ (m) based on the equation (2). The m shown in the formula (2) indicates the delay time.

Figure 0006819426
Figure 0006819426

ピッチ抽出部120aは、式(2)について、遅延時間m=0以外において、自己相関関数が極大値となる遅延時間mの値を特定する。自己相関関数が極大となる遅延時間mを「遅延時間m’」と表記する。ピッチ抽出部120aは、遅延時間m’を算出した後に、式(3)に基づいて、ピッチを算出する。 Regarding the equation (2), the pitch extraction unit 120a specifies the value of the delay time m at which the autocorrelation function becomes the maximum value, except for the delay time m = 0. The delay time m at which the autocorrelation function is maximized is expressed as "delay time m'". The pitch extraction unit 120a calculates the pitch based on the equation (3) after calculating the delay time m'.

ピッチ=1/遅延時間m’・・・(3) Pitch = 1 / delay time m'... (3)

ピッチ抽出部120aは、入力音声に対してフレーム処理を繰り返し実行することで、入力音声から複数のフレームを抽出し、各フレームからピッチをそれぞれ算出する。ピッチ抽出部120aは、フレーム毎のピッチの情報を、ストレス検出部130に出力する。 The pitch extraction unit 120a extracts a plurality of frames from the input voice by repeatedly executing the frame process for the input voice, and calculates the pitch from each frame. The pitch extraction unit 120a outputs pitch information for each frame to the stress detection unit 130.

また、ピッチ抽出部120aは、フレームが有音区間であるか否かを自己相関関数の極大値φ(m’)を基にして判定し、判定結果をストレス検出部130に出力する。例えば、ピッチ抽出部120aは、フレームの自己相関関数の極大値φ(m’)が所定値以上である場合には、該当するフレームが有音区間であると判定する。 Further, the pitch extraction unit 120a determines whether or not the frame is a sound section based on the maximum value φ (m') of the autocorrelation function, and outputs the determination result to the stress detection unit 130. For example, when the maximum value φ (m') of the autocorrelation function of the frame is equal to or more than a predetermined value, the pitch extraction unit 120a determines that the corresponding frame is a sound section.

パワー抽出部120bは、入力音声を基にして、入力音声のパワーを抽出する処理部である。パワー抽出部120bは、抽出したパワーの情報をストレス検出部130に出力する。 The power extraction unit 120b is a processing unit that extracts the power of the input voice based on the input voice. The power extraction unit 120b outputs the extracted power information to the stress detection unit 130.

パワー抽出部120bは、ピッチ抽出部120aと同様にして、フレーム処理を実行することで、入力音声からフレームを抽出する。パワー抽出部120bは、フレームの各サンプル値「「x(0)、x(1)、x(2)、・・・、x(N−1)」の入力音声を時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)を用いることができる。そして、パワー抽出部120bは、各周波数帯域のスペクトル信号P(n)を2乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの総和を求め対数化した値を算出する。これを以降“パワー”と呼ぶ。例えば、パワー抽出部120bは、式(4)に基づいて、フレームのスペクトル信号を用いてパワーを算出する。 The power extraction unit 120b extracts a frame from the input voice by executing the frame processing in the same manner as the pitch extraction unit 120a. The power extraction unit 120b uses time-frequency conversion to time the input voice of each sample value “x (0), x (1), x (2), ..., X (N-1)” of the frame. Converts a region to a spectral signal in the frequency domain. As the time-frequency transform, for example, a Fast Fourier Transform (FFT) can be used. Then, the power extraction unit 120b obtains the power for each frequency band by squaring the spectral signal P (n) of each frequency band, obtains the total power over the entire frequency band, and calculates a logarithmic value. This is hereafter referred to as "power". For example, the power extraction unit 120b calculates the power using the spectral signal of the frame based on the equation (4).

Figure 0006819426
Figure 0006819426

パワー抽出部120bは、入力音声に対してフレーム処理を繰り返し実行することで、入力音声から複数のフレームを抽出し、各フレームからパワーをそれぞれ算出する。パワー抽出部120bは、フレーム毎のパワーの情報をストレス検出部130に出力する。 The power extraction unit 120b extracts a plurality of frames from the input voice by repeatedly executing the frame processing for the input voice, and calculates the power from each frame. The power extraction unit 120b outputs power information for each frame to the stress detection unit 130.

ストレス検出部130は、入力音声のピッチおよびパワーに基づいて、利用者のストレス値を検出する処理部である。例えば、ストレス検出部130は、利用者の平常時のピッチおよびパワーの統計値と比較して、現在のピッチおよびパワーの統計値が離れるほど、ストレス値を大きくし、近づくほどストレス値を小さくする。ストレス検出部130は、検出したストレス値の情報と、パワーの情報を、推定部150に出力する。 The stress detection unit 130 is a processing unit that detects the stress value of the user based on the pitch and power of the input voice. For example, the stress detection unit 130 increases the stress value as the current pitch and power statistics are farther from the user's normal pitch and power statistics, and decreases the stress value as the current pitch and power statistics are closer. .. The stress detection unit 130 outputs the detected stress value information and the power information to the estimation unit 150.

ここで、ストレス検出部130の処理の一例について説明する。ストレス検出部130は、予め、平常時の利用者の入力音声に基づくピッチおよびパワーから、平常時のピッチの標準偏差および平常時のパワーの標準偏差を算出して、保持しておく。例えば、平常時のピッチの標準偏差を「標準偏差σA1」とし、平常時のパワーの標準偏差を「標準偏差σB1」と表記する。 Here, an example of processing of the stress detection unit 130 will be described. The stress detection unit 130 calculates and holds in advance the standard deviation of the pitch in normal times and the standard deviation of power in normal times from the pitch and power based on the input voice of the user in normal times. For example, the standard deviation of the pitch in normal times is referred to as "standard deviation σA1", and the standard deviation of power in normal times is referred to as "standard deviation σB1".

ストレス検出フェーズにおいて、ストレス検出部130は、各フレームのピッチの「標準偏差σA2」を算出し、各フレームのパワーの「標準偏差σB2」を算出する。例えば、ストレス検出部130は、式(5)に基づいて、ストレス値を算出する。式(5)において、α、βは、利用者に予め設定される係数である。 In the stress detection phase, the stress detection unit 130 calculates the "standard deviation σA2" of the pitch of each frame and calculates the "standard deviation σB2" of the power of each frame. For example, the stress detection unit 130 calculates the stress value based on the equation (5). In the formula (5), α and β are coefficients preset by the user.

ストレス値=α×|標準偏差σA1−標準偏差σA2|+β×|標準偏差σB1−標準偏差σB2|・・・(5) Stress value = α × | standard deviation σA1-standard deviation σA2 | + β × | standard deviation σB1-standard deviation σB2 | ... (5)

ストレス検出部130は、フレームのピッチおよびパワーの情報をピッチ抽出部120aおよびパワー抽出部120bから取得する度に、上記処理を繰り返し実行することで、フレーム毎のストレス値を算出する。ストレス検出部130は、フレーム毎のストレス値と、パワーとを対応付けて、推定部150に出力する。 The stress detection unit 130 calculates the stress value for each frame by repeatedly executing the above processing each time information on the pitch and power of the frame is acquired from the pitch extraction unit 120a and the power extraction unit 120b. The stress detection unit 130 associates the stress value for each frame with the power and outputs the stress value to the estimation unit 150.

記憶部140は、判定基準データ140aを有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。 The storage unit 140 has determination reference data 140a. The storage unit 140 corresponds to semiconductor memory elements such as RAM (Random Access Memory), ROM (Read Only Memory), and flash memory (Flash Memory), and storage devices such as HDD (Hard Disk Drive).

判定基準データ140aは、後述する推定部150が入力音声の発声状態を推定する場合に利用する複数の閾値データを含む。具体的に、判定基準データ140aは、第1閾値、第2閾値、第3閾値を含む。第1閾値および第2閾値は、パワーと比較される閾値である。第1閾値と第2閾値との大小関係は、第1閾値>第2閾値とする。第3閾値は、ストレス値と比較される閾値である。例えば、パワーが、第2閾値以上、第1閾値未満である場合には、会話の音声が良好であると言える。 The determination reference data 140a includes a plurality of threshold data used when the estimation unit 150, which will be described later, estimates the utterance state of the input voice. Specifically, the determination reference data 140a includes a first threshold value, a second threshold value, and a third threshold value. The first threshold and the second threshold are thresholds to be compared with power. The magnitude relationship between the first threshold value and the second threshold value is such that the first threshold value> the second threshold value. The third threshold is a threshold to be compared with the stress value. For example, when the power is equal to or more than the second threshold value and less than the first threshold value, it can be said that the voice of the conversation is good.

推定部150は、入力音声のストレス値と、パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部150は、入力音声の発声状態を推定した後に、発声状態に応じたメッセージを生成し、メッセージを情報提示部160に出力することで、メッセージを表示させる。後述するように、推定部150は、ストレス値により、利用者のストレスの大小を推定する。推定部150は、パワーにより、利用者の口がマイク10に近いか否かを推定する。 The estimation unit 150 is a processing unit that estimates the utterance state of the input voice based on the stress value of the input voice, the power, and the determination reference data 140a. After estimating the vocalization state of the input voice, the estimation unit 150 generates a message according to the vocalization state and outputs the message to the information presentation unit 160 to display the message. As will be described later, the estimation unit 150 estimates the magnitude of the stress of the user from the stress value. The estimation unit 150 estimates whether or not the user's mouth is close to the microphone 10 by the power.

推定部150は、ストレス値が第3閾値以上となる場合には、利用者のストレスが「大」であると推定し、ストレス値が第3閾値未満となる場合には、利用者のストレスが「小」であると推定する。 The estimation unit 150 estimates that the user's stress is "large" when the stress value is equal to or higher than the third threshold value, and when the stress value is less than the third threshold value, the user's stress is high. Estimated to be "small".

推定部150は、有音区間のフレームのパワーの平均値を算出する。以下の説明では、有音区間のフレームのパワーの平均値を「平均パワー」と表記する。推定部150は、平均パワーが第1閾値以上となる場合には、「利用者の口とマイク10との距離が近い」と推定する。推定部150は、平均パワーが第2閾値未満となる場合には、「利用者の口とマイク10との距離が遠い」と推定する。 The estimation unit 150 calculates the average value of the power of the frame in the sounded section. In the following description, the average value of the power of the frame in the sound section is referred to as "average power". When the average power is equal to or higher than the first threshold value, the estimation unit 150 estimates that "the distance between the user's mouth and the microphone 10 is short". When the average power is less than the second threshold value, the estimation unit 150 estimates that "the distance between the user's mouth and the microphone 10 is long".

利用者は、会話を続けていく過程において、ストレス小からストレス大に推移すると、入力音声のパワーが現在のパワーよりも大きくなる傾向がある。このため、現在のストレスが「小」であり、かつ、「利用者の口とマイク10との距離が近い」場合には、今後、ストレスが「大」に推移すると、入力音声のパワーが適切なパワーを超える恐れがある。すなわち、推定部150は、「ストレスが小」かつ「利用者の口とマイク10との距離が近い」場合に、第1メッセージ「マイクを口から少し離してください」を生成する。 When the stress changes from low stress to high stress in the process of continuing the conversation, the power of the input voice tends to be larger than the current power of the user. Therefore, if the current stress is "small" and "the distance between the user's mouth and the microphone 10 is short", the power of the input voice will be appropriate when the stress changes to "large" in the future. There is a risk of exceeding the power. That is, the estimation unit 150 generates the first message "Please move the microphone a little away from the mouth" when "the stress is small" and "the distance between the user's mouth and the microphone 10 is short".

利用者は、会話を続けていく過程において、ストレス大からストレス小に推移すると、入力音声のパワーが現在のパワーよりも小さくなる傾向がある。このため、現在のストレスが「大」であり、かつ、「利用者の口とマイク10との距離が遠い」場合には、今後、ストレスが「小」に推移すると、入力音声のパワーが適切なパワーを下回る恐れがある。すなわち、推定部150は、「ストレスが大」かつ「利用者の口とマイク10との距離が遠い」場合に、第2メッセージ「マイクを口に少し近づけてください」を生成する。 When the stress changes from high stress to low stress in the process of continuing the conversation, the power of the input voice tends to be smaller than the current power of the user. Therefore, if the current stress is "large" and "the distance between the user's mouth and the microphone 10 is long", the power of the input voice will be appropriate when the stress changes to "small" in the future. There is a risk of falling below the power. That is, the estimation unit 150 generates the second message "Please bring the microphone a little closer to the mouth" when "the stress is great" and "the distance between the user's mouth and the microphone 10 is long".

情報提示部160は、推定部150により生成されるメッセージを利用者に提示する処理部である。例えば、情報提示部160は、液晶ディスプレイ等の表示装置またはスピーカ等の出力装置に接続される。ここでは一例として、情報提示部160は、液晶ディスプレイに接続され、推定部150により生成されるメッセージを表示する。 The information presentation unit 160 is a processing unit that presents a message generated by the estimation unit 150 to the user. For example, the information presentation unit 160 is connected to a display device such as a liquid crystal display or an output device such as a speaker. Here, as an example, the information presentation unit 160 is connected to a liquid crystal display and displays a message generated by the estimation unit 150.

ところで、図1に示したAD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、推定部150、情報提示部160の各処理は、図示しない所定の制御部が実行しても良い。この制御部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。 By the way, each process of the AD conversion unit 110, the pitch extraction unit 120a, the power extraction unit 120b, the stress detection unit 130, the estimation unit 150, and the information presentation unit 160 shown in FIG. 1 is executed by a predetermined control unit (not shown). Is also good. This control unit can be realized by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like. The control unit can also be realized by hard-wired logic such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).

次に、本実施例1に係る音声処理装置100の処理手順について説明する。図2は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図2に示すように、音声処理装置100のAD変換部110は、入力音声の受け付けを開始する(ステップS101)。AD変換部110は、AD変換を行う(ステップS102)。音声処理装置100のピッチ抽出部120aは、ピッチを抽出し、音声処理装置100のパワー抽出部120bは、パワーを抽出する(ステップS103)。 Next, the processing procedure of the voice processing device 100 according to the first embodiment will be described. FIG. 2 is a flowchart showing a processing procedure of the voice processing device according to the first embodiment. As shown in FIG. 2, the AD conversion unit 110 of the voice processing device 100 starts accepting input voice (step S101). The AD conversion unit 110 performs AD conversion (step S102). The pitch extraction unit 120a of the voice processing device 100 extracts the pitch, and the power extraction unit 120b of the voice processing device 100 extracts the power (step S103).

ピッチ抽出部120aは、有音区間を検出する(ステップS104)。音声処理装置100のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS105)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS106,Yes)、ステップS107に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS106,No)、ステップS101に移行する。 The pitch extraction unit 120a detects a sound section (step S104). The stress detection unit 130 of the voice processing device 100 accumulates pitch power (step S105). When the pitch power corresponding to the specified number of frames is accumulated (steps S106, Yes), the stress detection unit 130 proceeds to step S107. On the other hand, the stress detection unit 130 proceeds to step S101 when the pitch power corresponding to the specified number of frames is not accumulated (steps S106, No).

ストレス検出部130は、ストレス値を算出する(ステップS107)。音声処理装置100の推定部150は、有音区間の平均パワーを算出する(ステップS108)。推定部150は、平均パワーが第1閾値以上である場合には(ステップS109,Yes)、ステップS110に移行する。一方、推定部150は、平均パワーが第1閾値未満である場合には(ステップS109,No)、ステップS112に移行する。 The stress detection unit 130 calculates the stress value (step S107). The estimation unit 150 of the voice processing device 100 calculates the average power of the sounded section (step S108). When the average power is equal to or higher than the first threshold value (step S109, Yes), the estimation unit 150 shifts to step S110. On the other hand, when the average power is less than the first threshold value (steps S109, No), the estimation unit 150 shifts to step S112.

推定部150は、ストレス値が第3閾値以上であるか否かを判定する(ステップS110)。推定部150は、ストレス値が第3閾値以上である場合には(ステップS110,Yes)、ステップS101に移行する。推定部150は、ストレス値が第3閾値未満である場合には(ステップS110,No)、情報提示部160に第1メッセージを表示させ(ステップS111)、ステップS101に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。 The estimation unit 150 determines whether or not the stress value is equal to or higher than the third threshold value (step S110). When the stress value is equal to or higher than the third threshold value (step S110, Yes), the estimation unit 150 proceeds to step S101. When the stress value is less than the third threshold value (step S110, No), the estimation unit 150 causes the information presentation unit 160 to display the first message (step S111), and proceeds to step S101. For example, the first message is "Please move the microphone away from your mouth."

ステップS112の説明に移行する。推定部150は、平均パワーが第2閾値未満であるか否かを判定する(ステップS112)。推定部150は、平均パワーが第2閾値未満でない場合には(ステップS112,No)、ステップS101に移行する。一方、推定部150は、平均パワーが第2閾値未満である場合には(ステップS112,Yes)、ステップS113に移行する。 The process proceeds to the description of step S112. The estimation unit 150 determines whether or not the average power is less than the second threshold value (step S112). When the average power is not less than the second threshold value (step S112, No), the estimation unit 150 shifts to step S101. On the other hand, when the average power is less than the second threshold value (step S112, Yes), the estimation unit 150 shifts to step S113.

推定部150は、ストレス値が第3閾値以上であるか否かを判定する(ステップS113)。推定部150は、ストレス値が第3閾値以上でない場合には(ステップS113,No)、ステップS101に移行する。一方、推定部150は、ストレス値が第3閾値以上である場合には(ステップS113,Yes)、情報提示部160に第2メッセージを表示させ(ステップS114)、ステップS101に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。 The estimation unit 150 determines whether or not the stress value is equal to or higher than the third threshold value (step S113). When the stress value is not equal to or higher than the third threshold value (steps S113, No), the estimation unit 150 proceeds to step S101. On the other hand, when the stress value is equal to or higher than the third threshold value (step S113, Yes), the estimation unit 150 causes the information presentation unit 160 to display the second message (step S114), and proceeds to step S101. For example, the second message is "Please bring the microphone a little closer to your mouth."

次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、入力音声のピッチおよびパワーに基づいて利用者のストレス値を算出し、算出したストレス値の大小関係とパワーの大小関係との双方に基づいて、発声状態を推定する。これにより、例えば、入力音声のパワーだけでなく、利用者のストレス度合を考慮した今後の発声状態を推定することができる。また、現在だけでなく、今後の発声状態の推移を適切に推定できるので、かかる推定結果に応じたメッセージを生成して、利用者に提示することで、利用者の口とマイクとの距離を適切な距離に保つことができ、各利用者の通話を快適に保つことができる。 Next, the effect of the voice processing device 100 according to the first embodiment will be described. The voice processing device 100 calculates the stress value of the user based on the pitch and power of the input voice, and estimates the utterance state based on both the magnitude relation of the calculated stress value and the magnitude relation of the power. Thereby, for example, it is possible to estimate the future utterance state in consideration of not only the power of the input voice but also the degree of stress of the user. In addition, since it is possible to appropriately estimate the transition of the vocalization state not only at present but also in the future, by generating a message according to the estimation result and presenting it to the user, the distance between the user's mouth and the microphone can be estimated. It can be kept at an appropriate distance, and each user's call can be kept comfortable.

図3は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。この音声処理装置200は、図3に示すように、マイク10に接続される。音声処理装置200は、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。このうち、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。 FIG. 3 is a functional block diagram showing the configuration of the voice processing device according to the second embodiment. The voice processing device 200 is connected to the microphone 10 as shown in FIG. The voice processing device 200 includes an AD conversion unit 110, a pitch extraction unit 120a, a power extraction unit 120b, a stress detection unit 130, a storage unit 140, an information presentation unit 160, an estimation unit 210, and an update unit 220. Of these, the description of the microphone 10, the AD conversion unit 110, the pitch extraction unit 120a, the power extraction unit 120b, the stress detection unit 130, the storage unit 140, and the information presentation unit 160 is the same as that described in the first embodiment. , The description is omitted.

推定部210は、入力音声のストレス値と、平均パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部210は、実施例1で説明した推定部150の処理に加えて、推定結果を更新部220に出力する。 The estimation unit 210 is a processing unit that estimates the utterance state of the input voice based on the stress value of the input voice, the average power, and the determination reference data 140a. The estimation unit 210 outputs the estimation result to the update unit 220 in addition to the processing of the estimation unit 150 described in the first embodiment.

図4は、推定結果のデータ構造の一例を示す図である。図4に示すように、推定結果には、提示フラグ、メッセージ種別、ストレス値Sn、平均パワーPn、ストレス値Sp1、平均パワーPp1、ストレス値Sp2、平均パワーPp2を含む。 FIG. 4 is a diagram showing an example of the data structure of the estimation result. As shown in FIG. 4, the estimation result includes a presentation flag, a message type, a stress value Sn, an average power Pn, a stress value Sp1, an average power Pp1, a stress value Sp2, and an average power Pp2.

提示フラグは、前回の推定時にメッセージを表示したか否かを示す情報である。前回メッセージを提示した場合には、提示フラグは「オン」となり、前回メッセージを提示していない場合には、提示フラグは「オフ」となる。メッセージ種別は、前回提示したメッセージが、第1メッセージであるか、第2メッセージであるかを示す情報である。なお、提示フラグが「オフ」である場合には、メッセージ種別には情報が格納されない。 The presentation flag is information indicating whether or not a message was displayed at the time of the previous estimation. If the previous message was presented, the presentation flag is "on", and if the previous message was not presented, the presentation flag is "off". The message type is information indicating whether the previously presented message is the first message or the second message. If the presentation flag is "off", no information is stored in the message type.

ストレス値Snは、現在の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPnは、現在の入力音声の平均パワーを示す。ストレス値Sp1は、前回メッセージを提示した際の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPp1は、前回メッセージを提示した際の入力音声の平均パワーを示す。 The stress value Sn indicates whether the stress value of the current input voice is “large” or “small”. The average power Pn indicates the average power of the current input voice. The stress value Sp1 indicates whether the stress value of the input voice when the previous message is presented is “large” or “small”. The average power Pp1 indicates the average power of the input voice when the previous message is presented.

ストレス値Sp2は、一定時間前の入力音声のストレス値が「大」であるか「小」であるかを示す。平均パワーPp2は、一定時間前の入力音声の平均パワーを示す。 The stress value Sp2 indicates whether the stress value of the input voice before a certain period of time is “large” or “small”. The average power Pp2 indicates the average power of the input voice before a certain time.

更新部220は、推定部210から取得する推定結果を基にして、判定基準データ140aの第1閾値、第2閾値、第3閾値を更新する処理部である。判定基準データ140aは学習データの一例である。なお、上記のように、平均パワーが第2閾値以上、第1閾値未満であれは、会話は良好である。また、第3閾値は、ストレスの大小を区別する際に用いる閾値である。 The update unit 220 is a processing unit that updates the first threshold value, the second threshold value, and the third threshold value of the determination reference data 140a based on the estimation result acquired from the estimation unit 210. The determination standard data 140a is an example of learning data. As described above, if the average power is equal to or more than the second threshold value and less than the first threshold value, the conversation is good. Further, the third threshold value is a threshold value used when distinguishing the magnitude of stress.

第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値に変化がなく、平均パワーPnが、第1閾値未満となった場合には、パワーが良好な状態まで減少しており、発声状態が改善されていると言える。この場合には、更新部220は、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。 If there is no change in the stress value and the average power Pn is less than the first threshold value before and after displaying the first message "Please move the microphone a little away from your mouth", the power decreases to a good state. It can be said that the vocalization state is improved. In this case, the update unit 220 skips the update process assuming that the first threshold value, the second threshold value, and the third threshold value are correct values.

第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値に変化がなく、平均パワー(Pn、Pp1との比較)に変化が見られない場合には、発声状態が改善されていない。この場合には、更新部220は、第1閾値が不正解の値であるとして、第1閾値を上げる。 If there is no change in the stress value and no change in the average power (compared with Pn and Pp1) before and after the first message "Please move the microphone away from your mouth" is displayed, the vocalization state is improved. It has not been. In this case, the update unit 220 raises the first threshold value, assuming that the first threshold value is an incorrect value.

第1メッセージ「マイクを口から少し離してください」を表示した前後で、ストレス値が小から大に変化し、平均パワー(Pn、Pp1との比較)が増加した場合には、ストレスの大小を適切に判断できておらず、適切なメッセージを提示できていない。この場合には、更新部220は、第3閾値が不正解の値であるとして、第3閾値を下げる。 If the stress value changes from small to large and the average power (comparison with Pn and Pp1) increases before and after the first message "Please move the microphone away from your mouth" is displayed, the stress level is changed. I haven't been able to make a proper decision and present an appropriate message. In this case, the update unit 220 lowers the third threshold value, assuming that the third threshold value is an incorrect value.

第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値に変化がなく、平均パワーPnが、第2閾値以上となった場合には、パワーが良好な状態まで増加していると言える。この場合には、更新部220は、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。 Before and after displaying the second message "Please bring the microphone a little closer to your mouth", if there is no change in the stress value and the average power Pn becomes equal to or higher than the second threshold value, the power increases to a good state. It can be said that it is. In this case, the update unit 220 skips the update process assuming that the first threshold value, the second threshold value, and the third threshold value are correct values.

第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値に変化がなく、平均パワー(Pn、Pp1との比較)に変化が見られない場合には、発声状態が改善されていない。この場合には、更新部220は、第2閾値が不正解の値であるとして、第2閾値を下げる。 If there is no change in the stress value and no change in the average power (comparison with Pn and Pp1) before and after the second message "Please bring the microphone a little closer to your mouth" is displayed, the vocalization state is improved. It has not been. In this case, the update unit 220 lowers the second threshold value, assuming that the second threshold value is an incorrect value.

第2メッセージ「マイクを口に少し近づけてください」を表示した前後で、ストレス値が大から小に変化し、平均パワー(Pn、Pp1との比較)が減少した場合には、ストレスの大小を適切に判断できておらず、適切なメッセージを提示できていない。この場合には、更新部220は、第3閾値が不正解の値であるとして、第3閾値を上げる。 If the stress value changes from large to small and the average power (comparison with Pn and Pp1) decreases before and after the second message "Please bring the microphone a little closer to your mouth" is displayed, the magnitude of the stress is changed. I haven't been able to make a proper decision and present an appropriate message. In this case, the update unit 220 raises the third threshold value, assuming that the third threshold value is an incorrect value.

更新部220は、前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワーに変化が見られない場合には、第1閾値、第2閾値、第3閾値が正しい値であるとして更新処理をスキップする。 If the update unit 220 has not presented the previous message, there is no change in the stress value, and there is no change in the average power, it is assumed that the first threshold value, the second threshold value, and the third threshold value are correct values. Skip the update process.

前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワー(Pn、Pp2との比較)が増加した場合には、第2メッセージ「マイクを口に少し近づけてください」の提示もれであり、第2閾値が不正解であるとして、第2閾値を上げる。 If the previous message was not presented, the stress value did not change, and the average power (comparison with Pn and Pp2) increased, the second message "Please bring the microphone closer to your mouth" is not presented. Therefore, assuming that the second threshold value is incorrect, the second threshold value is raised.

前回メッセージを提示しておらず、ストレス値に変化が無く、平均パワー(Pn、Pp2との比較)が減少した場合には、第1メッセージ「マイクを口から少し離してください」の提示もれであり、第1閾値が不正解であるとして、第1閾値を下げる。 If the previous message was not presented, the stress value did not change, and the average power (comparison with Pn and Pp2) decreased, the first message "Please move the microphone away from your mouth" is not presented. Therefore, assuming that the first threshold value is incorrect, the first threshold value is lowered.

更新部220は、上記処理を繰り返し実行することで、第1閾値、第2閾値、第3閾値が正しい値となるように、第1閾値、第2閾値、第3閾値を更新していく。 By repeatedly executing the above processing, the update unit 220 updates the first threshold value, the second threshold value, and the third threshold value so that the first threshold value, the second threshold value, and the third threshold value become correct values.

図5、図6、図7は、本実施例2に係る更新部の更新処理の一例を示すフローチャートである。図5に示すように、更新部220は、推定結果を取得し(ステップS10)、前回メッセージを提示したか否かを判定する(ステップS11)。更新部220は、前回メッセージを提示していない場合には(ステップS11,No)、図7のステップS21に移行する。一方、更新部220は、前回メッセージを提示している場合には(ステップS11,Yes)、ステップS12に移行する。 5, FIG. 6 and FIG. 7 are flowcharts showing an example of the update process of the update unit according to the second embodiment. As shown in FIG. 5, the update unit 220 acquires the estimation result (step S10) and determines whether or not the previous message was presented (step S11). If the update unit 220 has not presented the previous message (steps S11, No), the update unit 220 proceeds to step S21 in FIG. On the other hand, if the update unit 220 has presented the previous message (steps S11, Yes), the update unit 220 proceeds to step S12.

更新部220は、提示したメッセージが「第1メッセージ」であるか否かを判定する(ステップS12)。更新部220は、提示したメッセージが「第1メッセージ」でない場合には(ステップS12,No)、図6のステップS17に移行する。更新部220は、提示したメッセージが「第1メッセージ」である場合には(ステップS12,Yes)、ステップS13に移行する。 The update unit 220 determines whether or not the presented message is the "first message" (step S12). If the presented message is not the "first message" (steps S12, No), the update unit 220 proceeds to step S17 of FIG. If the presented message is the "first message" (steps S12, Yes), the update unit 220 proceeds to step S13.

更新部220は、ストレス値SnおよびSp1がストレス小であり、かつ、平均パワーPnとPp1とが変化なしである場合には(ステップS13,Yes)、第1閾値を上げる(ステップS14)。例えば、ステップ14において、更新部220は、式(6)に基づいて、第1閾値を更新する。 When the stress values Sn and Sp1 are low stress and the average power Pn and Pp1 are unchanged (steps S13, Yes), the update unit 220 raises the first threshold value (step S14). For example, in step 14, the update unit 220 updates the first threshold value based on the equation (6).

第1閾値=1.05×第1閾値・・・(6) First threshold = 1.05 x first threshold ... (6)

一方、更新部220は、ストレス値SnおよびSp1がストレス小でない、または、平均パワーPnとPp1とが変化ありの場合には(ステップS13,No)、ステップS15に移行する。 On the other hand, when the stress values Sn and Sp1 are not small stress or the average power Pn and Pp1 are changed (steps S13 and No), the update unit 220 shifts to step S15.

更新部220は、ストレス値Snがストレス大、かつ、ストレス値Sp1がストレス小である場合には(ステップS15,Yes)、第3閾値を下げる(ステップS16)。例えば、ステップS16において、更新部220は、式(7)に基づいて、第3閾値を更新する。 When the stress value Sn is high stress and the stress value Sp1 is low stress (steps S15, Yes), the update unit 220 lowers the third threshold value (step S16). For example, in step S16, the update unit 220 updates the third threshold value based on the equation (7).

第3閾値=0.9×第3閾値+0.1×(Sp1−Sn)・・・(7) Third threshold = 0.9 x third threshold + 0.1 x (Sp1-Sn) ... (7)

一方、更新部220は、ストレス値Snがストレス大、かつ、ストレス値Sp1がストレス小でない場合には(ステップS15,No)、処理を終了する。 On the other hand, when the stress value Sn is high stress and the stress value Sp1 is not low stress (steps S15, No), the update unit 220 ends the process.

図6の説明に移行する。更新部220は、ストレス値SnおよびSp1がストレス大であり、かつ、平均パワーPnとPp1とが変化なしである場合には(ステップS17,Yes)、第2閾値を下げる(ステップS18)。例えば、ステップS18において、更新部220は、式(8)に基づいて、第2閾値を更新する。 The description shifts to FIG. When the stress values Sn and Sp1 are stressful and the average powers Pn and Pp1 are unchanged (steps S17, Yes), the update unit 220 lowers the second threshold value (step S18). For example, in step S18, the update unit 220 updates the second threshold value based on the equation (8).

第2閾値=0.95×第2閾値・・・(8) Second threshold = 0.95 x second threshold ... (8)

一方、更新部220は、ストレス値SnおよびSp1がストレス大でない、または、平均パワーPnとPp1とが変化ありである場合には(ステップS17,No)、ステップS19に移行する。 On the other hand, when the stress values Sn and Sp1 are not stressful or the average power Pn and Pp1 are changed (steps S17 and No), the update unit 220 proceeds to step S19.

更新部220は、ストレス値Snがストレス小かつストレス値Sp1がストレス大である場合には(ステップS19,Yes)、第3閾値を上げる(ステップS20)。例えば、ステップS20において、更新部220は、式(7)に基づいて、第3閾値を更新する。なお、ステップS19において、更新部220は、ストレス値Snがストレス小かつストレス値Sp1がストレス大でない場合には(ステップS19,No)、処理を終了する。 When the stress value Sn is low stress and the stress value Sp1 is high stress (step S19, Yes), the update unit 220 raises the third threshold value (step S20). For example, in step S20, the update unit 220 updates the third threshold value based on the equation (7). In step S19, when the stress value Sn is low stress and the stress value Sp1 is not high stress (steps S19, No), the update unit 220 ends the process.

図7の説明に移行する。更新部220は、ストレス値SnおよびSp2がストレス大、かつ、平均パワーPnがPp2と比較して増加した場合には(ステップS21,Yes)、第2閾値を上げる(ステップS22)。例えば、更新部220は、ステップS22において、式(9)に基づいて、第2閾値を更新する。 The description shifts to FIG. When the stress values Sn and Sp2 are high in stress and the average power Pn is increased as compared with Pp2 (steps S21, Yes), the update unit 220 raises the second threshold value (step S22). For example, the update unit 220 updates the second threshold value in step S22 based on the equation (9).

第2閾値=0.9×第2閾値+0.1×(Pn−Pp2)・・・(9) Second threshold = 0.9 × second threshold + 0.1 × (Pn-Pp2) ... (9)

一方、更新部220は、ストレス値SnおよびSp2がストレス大ではない、または、平均パワーPnがPp2と比較して増加していない場合には(ステップS21,No)、ステップS23に移行する。 On the other hand, when the stress values Sn and Sp2 are not stressful or the average power Pn is not increased as compared with Pp2 (steps S21, No), the update unit 220 shifts to step S23.

更新部220は、ストレス値SnおよびSp2がストレス小かつ平均パワーPnがPp2と比較して減少している場合には(ステップS23,Yes)、第1閾値を下げる(ステップS24)。例えば、ステップS24にいて、更新部220は、式(10)に基づいて、第1閾値を更新する。更新部220は、ストレス値SnおよびSp2がストレス小でない、または、平均パワーPnがPp2と比較して減少していない場合には(ステップS23,No)、処理を終了する。 When the stress values Sn and Sp2 are small and the average power Pn is reduced as compared with Pp2 (steps S23, Yes), the update unit 220 lowers the first threshold value (step S24). For example, in step S24, the update unit 220 updates the first threshold value based on the equation (10). When the stress values Sn and Sp2 are not low in stress or the average power Pn is not decreased as compared with Pp2 (steps S23, No), the update unit 220 ends the process.

第1閾値=0.95×第1閾値・・・(10) First threshold = 0.95 x first threshold ... (10)

次に、本実施例2に係る音声処理装置200の処理手順について説明する。図8は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図8に示すように、音声処理装置200のAD変換部110は、入力音声の受け付けを開始する(ステップS201)。AD変換部110は、AD変換を行う(ステップS202)。音声処理装置200のピッチ抽出部120aは、ピッチを抽出し、音声処理装置200のパワー抽出部120bは、パワーを抽出する(ステップS203)。 Next, the processing procedure of the voice processing device 200 according to the second embodiment will be described. FIG. 8 is a flowchart showing a processing procedure of the voice processing device according to the second embodiment. As shown in FIG. 8, the AD conversion unit 110 of the voice processing device 200 starts accepting the input voice (step S201). The AD conversion unit 110 performs AD conversion (step S202). The pitch extraction unit 120a of the voice processing device 200 extracts the pitch, and the power extraction unit 120b of the voice processing device 200 extracts the power (step S203).

ピッチ抽出部120aは、有音区間を検出する(ステップS204)。音声処理装置200のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS205)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS206,Yes)、ステップS207に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS206,No)、ステップS201に移行する。 The pitch extraction unit 120a detects a sound section (step S204). The stress detection unit 130 of the voice processing device 200 accumulates pitch power (step S205). When the pitch power corresponding to the specified number of frames is accumulated (step S206, Yes), the stress detection unit 130 proceeds to step S207. On the other hand, the stress detection unit 130 proceeds to step S201 when the pitch power corresponding to the specified number of frames is not accumulated (steps S206, No).

ストレス検出部130は、ストレス値を算出する(ステップS207)。音声処理装置200の推定部210は、有音区間の平均パワーを算出する(ステップS208)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS209,Yes)、ステップS210に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS209,No)、ステップS212に移行する。 The stress detection unit 130 calculates the stress value (step S207). The estimation unit 210 of the voice processing device 200 calculates the average power of the sounded section (step S208). When the average power is equal to or higher than the first threshold value (step S209, Yes), the estimation unit 210 shifts to step S210. On the other hand, when the average power is less than the first threshold value (step S209, No), the estimation unit 210 shifts to step S212.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS210)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS210,Yes)、ステップS215に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS210,No)、情報提示部160に第1メッセージを表示させ(ステップS211)、ステップS215に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S210). When the stress value is equal to or higher than the third threshold value (step S210, Yes), the estimation unit 210 shifts to step S215. When the stress value is less than the third threshold value (step S210, No), the estimation unit 210 causes the information presentation unit 160 to display the first message (step S211), and proceeds to step S215. For example, the first message is "Please move the microphone away from your mouth."

ステップS212の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS212)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS212,No)、ステップS215に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS212,Yes)、ステップS213に移行する。 The process proceeds to the description of step S212. The estimation unit 210 determines whether or not the average power is less than the second threshold value (step S212). When the average power is not less than the second threshold value (step S212, No), the estimation unit 210 shifts to step S215. On the other hand, when the average power is less than the second threshold value (step S212, Yes), the estimation unit 210 shifts to step S213.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS213)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS213,No)、ステップS215に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS213,Yes)、情報提示部160に第2メッセージを表示させ(ステップS214)、ステップS215に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S213). When the stress value is not equal to or higher than the third threshold value (steps S213 and No), the estimation unit 210 proceeds to step S215. On the other hand, when the stress value is equal to or higher than the third threshold value (step S213, Yes), the estimation unit 210 causes the information presentation unit 160 to display the second message (step S214), and proceeds to step S215. For example, the second message is "Please bring the microphone a little closer to your mouth."

音声処理装置200の更新部220は、更新処理を実行する(ステップS215)。ステップS215に示す更新処理は、図5、図6、図7に示した処理に対応する。推定部150は、ストレス値および平均パワーを記憶部140に記憶し(ステップS216)、ステップS201に移行する。 The update unit 220 of the voice processing device 200 executes the update process (step S215). The update process shown in step S215 corresponds to the process shown in FIGS. 5, 6, and 7. The estimation unit 150 stores the stress value and the average power in the storage unit 140 (step S216), and proceeds to step S201.

次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、更新処理を繰り返し実行することで、第1閾値、第2閾値、第3閾値が正しい値となるように、第1閾値、第2閾値、第3閾値を更新していく。これにより、ストレス値の大小、パワーが良好であるか否かを適切に判定でき、現在の発声状態に対する適切なメッセージを表示することができる。 Next, the effect of the voice processing device 200 according to the second embodiment will be described. The voice processing device 200 updates the first threshold value, the second threshold value, and the third threshold value by repeatedly executing the update process so that the first threshold value, the second threshold value, and the third threshold value become correct values. .. As a result, it is possible to appropriately determine whether or not the stress value is high or low and the power is good, and it is possible to display an appropriate message for the current vocalization state.

図9は、本実施例3に係るシステムの一例を示す図である。図9に示すように、このシステムは、音声処理装置300a、300b、300cと、サーバ400とを有する。音声処理装置300a〜300cと、サーバ400とはネットワーク50を介して相互に接続される。ここでは一例として、音声処理装置300a〜300cを示すが、その他の音声処理装置を含んでいても良い。以下の説明では、音声処理装置300a〜300cをまとめて、音声処理装置300と表記する。 FIG. 9 is a diagram showing an example of the system according to the third embodiment. As shown in FIG. 9, this system has voice processing devices 300a, 300b, 300c and a server 400. The voice processing devices 300a to 300c and the server 400 are connected to each other via the network 50. Here, as an example, the voice processing devices 300a to 300c are shown, but other voice processing devices may be included. In the following description, the voice processing devices 300a to 300c are collectively referred to as the voice processing device 300.

音声処理装置300は、実施例2で説明した音声処理装置200と同様にして、更新処理を繰り返し実行し、更新後の判定基準データ140aを、サーバ400に送信する。実施例1、2で説明したように、判定基準データは、第1閾値、第2閾値、第3閾値を有する。 The voice processing device 300 repeatedly executes the update process in the same manner as the voice processing device 200 described in the second embodiment, and transmits the updated determination reference data 140a to the server 400. As described in Examples 1 and 2, the determination criterion data has a first threshold value, a second threshold value, and a third threshold value.

サーバ400は、音声処理装置300から判定基準データ140aを取得し、取得した判定基準データを基にして、第1閾値、第2閾値、第3閾値の初期値を算出する。サーバ400は、算出した第1閾値、第2閾値、第3閾値の初期値のデータを、音声処理装置300に送信する。以下の説明では、サーバ400が算出した第1閾値、第2閾値、第3閾値の初期値のデータを、「初期値データ」と表記する。 The server 400 acquires the determination reference data 140a from the voice processing device 300, and calculates the initial values of the first threshold value, the second threshold value, and the third threshold value based on the acquired determination reference data. The server 400 transmits the calculated initial value data of the first threshold value, the second threshold value, and the third threshold value to the voice processing device 300. In the following description, the data of the initial values of the first threshold value, the second threshold value, and the third threshold value calculated by the server 400 is referred to as "initial value data".

音声処理装置300は、サーバ400から初期データを受信すると、受信した初期データにより、判定基準データを更新する。 When the voice processing device 300 receives the initial data from the server 400, the voice processing device 300 updates the determination reference data with the received initial data.

図10は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。音声処理装置300aは、図10に示すように、マイク10に接続される。音声処理装置300aは、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。また、音声処理装置300aは、アップロード部310およびダウンロード部320を有する。ここでは一例として、音声処理装置300aの構成について説明するが、音声処理装置300b、300cの構成は、音声処理装置300aの構成と同様である。 FIG. 10 is a functional block diagram showing the configuration of the voice processing device according to the third embodiment. The voice processing device 300a is connected to the microphone 10 as shown in FIG. The voice processing device 300a includes an AD conversion unit 110, a pitch extraction unit 120a, a power extraction unit 120b, a stress detection unit 130, a storage unit 140, an information presentation unit 160, an estimation unit 210, and an update unit 220. Further, the voice processing device 300a has an upload unit 310 and a download unit 320. Here, the configuration of the voice processing device 300a will be described as an example, but the configurations of the voice processing devices 300b and 300c are the same as the configurations of the voice processing device 300a.

図10において、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。推定部210および更新部220に関する説明は、実施例2で説明したものと同様であるため、説明を省略する。 In FIG. 10, the description of the microphone 10, the AD conversion unit 110, the pitch extraction unit 120a, the power extraction unit 120b, the stress detection unit 130, the storage unit 140, and the information presentation unit 160 is the same as that described in the first embodiment. Therefore, the description thereof will be omitted. Since the description of the estimation unit 210 and the update unit 220 is the same as that described in the second embodiment, the description thereof will be omitted.

アップロード部310は、更新部220により更新された判定基準データ140aを、サーバ400に送信(アップロード)する処理部である。例えば、アップロード部310は、音声処理装置300aと他の音声処理装置との間の通話回数Nをカウントし、通話回数Nが、第4閾値を超えた場合に、判定基準データ140aを、サーバ400に送信する。 The upload unit 310 is a processing unit that transmits (uploads) the determination reference data 140a updated by the update unit 220 to the server 400. For example, the upload unit 310 counts the number of calls N between the voice processing device 300a and another voice processing device, and when the number of calls N exceeds the fourth threshold value, the determination reference data 140a is transmitted to the server 400. Send to.

ダウンロード部320は、サーバ400から初期値データを受信(ダウンロード)する処理部である。ダウンロード部320は、受信した初期値データにより、判定基準データ140aを更新する。推定部210は、初期値データにより更新された判定基準データ140aを初期値として、処理を行う。 The download unit 320 is a processing unit that receives (downloads) initial value data from the server 400. The download unit 320 updates the determination reference data 140a with the received initial value data. The estimation unit 210 performs processing using the determination reference data 140a updated by the initial value data as the initial value.

上記のアップロード部310およびダウンロード部320は、図示しない通信装置を用いて、ネットワーク50を介して、サーバ400とデータ通信を実行するものとする。 It is assumed that the upload unit 310 and the download unit 320 execute data communication with the server 400 via the network 50 by using a communication device (not shown).

図11Aは、本実施例3に係るサーバの構成を示す機能ブロック図である。図11Aに示すように、サーバ400は、通信部410と、記憶部420と、制御部430とを有する。 FIG. 11A is a functional block diagram showing a server configuration according to the third embodiment. As shown in FIG. 11A, the server 400 has a communication unit 410, a storage unit 420, and a control unit 430.

通信部410は、ネットワーク50を介して、音声処理装置300とデータ通信を実行する処理部である。後述する制御部430は、通信部410を介して、音声処理装置300とデータをやり取りする。通信部410は、通信装置に対応する。 The communication unit 410 is a processing unit that executes data communication with the voice processing device 300 via the network 50. The control unit 430, which will be described later, exchanges data with the voice processing device 300 via the communication unit 410. The communication unit 410 corresponds to the communication device.

記憶部420は、閾値テーブル420aを有する。記憶部420は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。 The storage unit 420 has a threshold table 420a. The storage unit 420 corresponds to semiconductor memory elements such as RAM, ROM, and flash memory, and storage devices such as HDD.

閾値テーブル420aは、音声処理装置300から送信される判定基準データ140aを保持するテーブルである。図11Bは、本実施例3に係る閾値テーブルのデータ構造の一例を示す図である。図11Bに示すように、この閾値テーブル420aは、識別情報と、判定基準データとを対応付ける。識別情報は、音声処理装置300を一意に識別する情報である。判定基準データは、音声処理装置から受信する判定基準データである。実施例1、2で説明したように、判定基準データ140aには、第1閾値、第2閾値、第3閾値が含まれる。 The threshold value table 420a is a table that holds the determination reference data 140a transmitted from the voice processing device 300. FIG. 11B is a diagram showing an example of the data structure of the threshold table according to the third embodiment. As shown in FIG. 11B, the threshold table 420a associates the identification information with the determination reference data. The identification information is information that uniquely identifies the voice processing device 300. The judgment standard data is the judgment standard data received from the voice processing device. As described in Examples 1 and 2, the determination reference data 140a includes a first threshold value, a second threshold value, and a third threshold value.

制御部430は、受信部430a、算出部430b、配信部430cを有する。制御部430は、CPUやMPUなどによって実現できる。また、制御部430は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。 The control unit 430 includes a reception unit 430a, a calculation unit 430b, and a distribution unit 430c. The control unit 430 can be realized by a CPU, an MPU, or the like. The control unit 430 can also be realized by hard-wired logic such as ASIC or FPGA.

受信部430aは、音声処理装置300から判定基準データ140aを受信する処理部である。例えば、判定基準データ140aには、この判定基準データ140aの送信元となる音声処理装置300を識別する識別情報が付与されているものとする。受付部430aは、判定基準データ140aを、識別情報と対応付けて、閾値テーブル420aに登録する。 The receiving unit 430a is a processing unit that receives the determination reference data 140a from the voice processing device 300. For example, it is assumed that the determination reference data 140a is provided with identification information that identifies the voice processing device 300 that is the source of the determination reference data 140a. The reception unit 430a registers the determination reference data 140a in the threshold table 420a in association with the identification information.

算出部430bは、閾値テーブル420aを基にして、初期値データを算出する処理部である。算出部430bは、算出した初期値データを、配信部430cに出力する。以下において、算出部430bの処理の一例について説明する。 The calculation unit 430b is a processing unit that calculates initial value data based on the threshold table 420a. The calculation unit 430b outputs the calculated initial value data to the distribution unit 430c. An example of the processing of the calculation unit 430b will be described below.

算出部430bは、閾値テーブル420aを参照し、閾値テーブル420aに登録されたレコードの数が第5閾値以上である場合に、算出処理を開始する。例えば、第5閾値を「3」とする。図11Bに示す閾値テーブル420aでは、音声処理装置300a〜300cから受信した判断基準データ140aを有する(レコードの数が3以上である)ので、算出部430bは、算出処理を実行する。 The calculation unit 430b refers to the threshold table 420a and starts the calculation process when the number of records registered in the threshold table 420a is equal to or greater than the fifth threshold. For example, the fifth threshold is set to "3". Since the threshold table 420a shown in FIG. 11B has the determination reference data 140a received from the voice processing devices 300a to 300c (the number of records is 3 or more), the calculation unit 430b executes the calculation process.

算出部430bが実行する算出処理の一例について説明する。算出部430bは、各判定基準データ140aの第1閾値の平均値を算出することで、第1閾値の初期値μ1を算出する。算出部430bは、各判定基準データ140aの第2閾値の平均値を算出することで、第2閾値の初期値μ2を算出する。算出部430bは、各判定基準データ140aの第3閾値の平均値を算出することで、第3閾値の初期値μ3を算出する。 An example of the calculation process executed by the calculation unit 430b will be described. The calculation unit 430b calculates the initial value μ1 of the first threshold value by calculating the average value of the first threshold values of each determination reference data 140a. The calculation unit 430b calculates the initial value μ2 of the second threshold value by calculating the average value of the second threshold value of each determination reference data 140a. The calculation unit 430b calculates the initial value μ3 of the third threshold value by calculating the average value of the third threshold value of each determination reference data 140a.

算出部430bは、上記の初期値μ1〜μ3を初期値データとして、配信部430cに出力する。 The calculation unit 430b outputs the above initial values μ1 to μ3 as initial value data to the distribution unit 430c.

配信部430cは、初期値データを算出部430bから取得した場合に、取得した初期値データを、音声処理装置300に送信する処理部である。 The distribution unit 430c is a processing unit that transmits the acquired initial value data to the voice processing device 300 when the initial value data is acquired from the calculation unit 430b.

次に、本実施例3に係る音声処理装置300の処理手順について説明する。図12及び図13は、本実施例3に係る音声処理装置の処理手順を示すフローチャートである。図12に示すように、音声処理装置300のAD変換部110は、入力音声の受け付けを開始する(ステップS301)。AD変換部110は、AD変換を行う(ステップS302)。音声処理装置300のピッチ抽出部120aは、ピッチを抽出し、音声処理装置300のパワー抽出部120bは、パワーを抽出する(ステップS303)。 Next, the processing procedure of the voice processing device 300 according to the third embodiment will be described. 12 and 13 are flowcharts showing a processing procedure of the voice processing apparatus according to the third embodiment. As shown in FIG. 12, the AD conversion unit 110 of the voice processing device 300 starts accepting the input voice (step S301). The AD conversion unit 110 performs AD conversion (step S302). The pitch extraction unit 120a of the voice processing device 300 extracts the pitch, and the power extraction unit 120b of the voice processing device 300 extracts the power (step S303).

ピッチ抽出部120aは、有音区間を検出する(ステップS304)。音声処理装置300のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS305)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS306,Yes)、ステップS307に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS306,No)、ステップS301に移行する。 The pitch extraction unit 120a detects a sound section (step S304). The stress detection unit 130 of the voice processing device 300 accumulates pitch power (step S305). When the pitch power corresponding to the specified number of frames is accumulated (step S306, Yes), the stress detection unit 130 proceeds to step S307. On the other hand, the stress detection unit 130 proceeds to step S301 when the pitch power corresponding to the specified number of frames is not accumulated (steps S306, No).

ストレス検出部130は、ストレス値を算出する(ステップS307)。音声処理装置300の推定部210は、有音区間の平均パワーを算出する(ステップS308)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS309,Yes)、ステップS310に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS309,No)、ステップS312に移行する。 The stress detection unit 130 calculates the stress value (step S307). The estimation unit 210 of the voice processing device 300 calculates the average power of the sounded section (step S308). When the average power is equal to or higher than the first threshold value (step S309, Yes), the estimation unit 210 shifts to step S310. On the other hand, when the average power is less than the first threshold value (step S309, No), the estimation unit 210 shifts to step S312.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS310)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS310,Yes)、ステップS315に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS310,No)、情報提示部160に第1メッセージを表示させ(ステップS311)、ステップS315に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S310). When the stress value is equal to or higher than the third threshold value (step S310, Yes), the estimation unit 210 shifts to step S315. When the stress value is less than the third threshold value (step S310, No), the estimation unit 210 causes the information presentation unit 160 to display the first message (step S311), and proceeds to step S315. For example, the first message is "Please move the microphone away from your mouth."

ステップS312の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS312)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS312,No)、ステップS315に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS312,Yes)、ステップS313に移行する。 The process proceeds to the description of step S312. The estimation unit 210 determines whether or not the average power is less than the second threshold value (step S312). When the average power is not less than the second threshold value (step S312, No), the estimation unit 210 shifts to step S315. On the other hand, when the average power is less than the second threshold value (step S312, Yes), the estimation unit 210 shifts to step S313.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS313)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS313,No)、ステップS315に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS313,Yes)、情報提示部160に第2メッセージを表示させ(ステップS314)、ステップS315に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S313). If the stress value is not equal to or higher than the third threshold value (steps S313, No), the estimation unit 210 proceeds to step S315. On the other hand, when the stress value is equal to or higher than the third threshold value (step S313, Yes), the estimation unit 210 causes the information presentation unit 160 to display the second message (step S314), and proceeds to step S315. For example, the second message is "Please bring the microphone a little closer to your mouth."

音声処理装置300の更新部220は、更新処理を実行する(ステップS315)。ステップS315に示す更新処理は、実施例2の図5、図6、図7に示した処理に対応する。推定部210は、ストレス値および平均パワーを記憶部140に記憶し(ステップS316)、図13のステップS317に移行する。 The update unit 220 of the voice processing device 300 executes the update process (step S315). The update process shown in step S315 corresponds to the process shown in FIGS. 5, 6 and 7 of the second embodiment. The estimation unit 210 stores the stress value and the average power in the storage unit 140 (step S316), and proceeds to step S317 of FIG.

図13について説明する。音声処理装置300は、通話が終了したか否かを判定する(ステップS317)。音声処理部300は、通話が終了していない場合には(ステップS317,No)、図12のステップS301に移行する。 FIG. 13 will be described. The voice processing device 300 determines whether or not the call has ended (step S317). If the call is not completed (step S317, No), the voice processing unit 300 proceeds to step S301 in FIG.

音声処理装置300のアップロード部310は、通話が終了した場合には(ステップS317,Yes)、通話回数Nに1を加算する(ステップS318)。アップロード部310は、通話回数Nが第4閾値以上でない場合には(ステップS319,No)、処理を終了する。 When the call is completed (step S317, Yes), the upload unit 310 of the voice processing device 300 adds 1 to the number of calls N (step S318). When the number of calls N is not equal to or greater than the fourth threshold value (step S319, No), the upload unit 310 ends the process.

一方、アップロード部310は、通話回数Nが第4閾値以上である場合には(ステップS319,Yes)、判定基準データ140aを、サーバ400に送信する(ステップS320)。 On the other hand, when the number of calls N is equal to or greater than the fourth threshold value (step S319, Yes), the upload unit 310 transmits the determination reference data 140a to the server 400 (step S320).

次に、実施例3に係るサーバ400の処理手順について説明する。図14は、本実施例3に係るサーバの処理手順を示すフローチャートである。図14に示すように、サーバ400の受信部430aは、判定基準データ140aを受信する(ステップS401)。受信部430aは、判定基準データ140aを閾値テーブル420aに登録する(ステップS402)。 Next, the processing procedure of the server 400 according to the third embodiment will be described. FIG. 14 is a flowchart showing a processing procedure of the server according to the third embodiment. As shown in FIG. 14, the receiving unit 430a of the server 400 receives the determination reference data 140a (step S401). The receiving unit 430a registers the determination reference data 140a in the threshold table 420a (step S402).

サーバ400の算出部430bは、閾値テーブル420aに基づいて、判定基準データのレコード数が第5閾値以上であるか否かを判定する(ステップS403)。算出部430bは、判定基準データのレコード数が第5閾値以上でない場合には(ステップS403,No)、処理を終了する。 The calculation unit 430b of the server 400 determines whether or not the number of records of the determination reference data is equal to or greater than the fifth threshold value based on the threshold value table 420a (step S403). If the number of records of the determination reference data is not equal to or greater than the fifth threshold value (steps S403, No), the calculation unit 430b ends the process.

一方、算出部430bは、判定基準データのレコード数が第5閾値以上である場合には(ステップS403,Yes)、第1閾値〜第3閾値について、それぞれ平均値を算出し、初期値μ1〜μ3を特定する(ステップS404)。 On the other hand, when the number of records of the determination reference data is equal to or greater than the fifth threshold value (step S403, Yes), the calculation unit 430b calculates the average value for each of the first threshold value to the third threshold value, and the initial values μ1 to μ1 to Specify μ3 (step S404).

算出部430bは、初期値データを生成する(ステップS405)。サーバ400の配信部430cは、音声処理装置300に初期値データを送信する(ステップS406)。ここで、初期値データを送信する音声処理装置300は、一回も使われていない新規に導入した音声処理装置であってもよい。 The calculation unit 430b generates initial value data (step S405). The distribution unit 430c of the server 400 transmits the initial value data to the voice processing device 300 (step S406). Here, the voice processing device 300 that transmits the initial value data may be a newly introduced voice processing device that has never been used.

次に、本実施例3に係るシステムの効果について説明する。音声処理装置300は、更新処理を繰り返し実行した後に、判定基準データ140aをサーバ400に通知し、サーバ400は、各判定基準データ140aを基にして、初期値データを生成し、音声処理装置300に通知する。音声処理装置300は、係る初期値データを利用することで、より正しい第1閾値、第2閾値、第3閾値を初期値の判定基準データ140aとして用いることができる。 Next, the effect of the system according to the third embodiment will be described. The voice processing device 300 notifies the server 400 of the determination reference data 140a after repeatedly executing the update process, and the server 400 generates initial value data based on each determination reference data 140a, and the voice processing device 300 generates initial value data. Notify to. By using the initial value data, the voice processing device 300 can use the more correct first threshold value, second threshold value, and third threshold value as the initial value determination reference data 140a.

なお、本実施例3では、次の処理も可能である。例えば、サーバ400は、音声処理装置300b、300c、その他の音声処理装置の判定基準データ140aを基にして、初期値データを生成しておき、音声処理装置300aの起動時に、生成しておいた初期値データを音声処理装置300aに送信する。音声処理装置300aは、サーバ400から受信した初期値データを起動時から用いることで、上記の更新処理を繰り返し実行しなくても、より正しいメッセージを利用者に通知することができる。また、一回も使われていない新規に導入した音声処理装置に初期値をダウンロードすることで、1回目の使用時から既に更新された判定基準データを用いることができるので、初回からより正しいメッセージを利用者に通知することができる。 In addition, in this Example 3, the following processing is also possible. For example, the server 400 generates initial value data based on the determination reference data 140a of the voice processing devices 300b, 300c, and other voice processing devices, and generates the initial value data when the voice processing device 300a is started. The initial value data is transmitted to the voice processing device 300a. By using the initial value data received from the server 400 from the time of startup, the voice processing device 300a can notify the user of a more correct message without repeatedly executing the above-mentioned update process. In addition, by downloading the initial value to a newly introduced voice processing device that has never been used, the judgment criteria data that has already been updated from the first use can be used, so a more correct message from the first time. Can be notified to the user.

図15は、本実施例4に係るシステムの一例を示す図である。図15に示すように、このシステムは、音声処理装置500a〜500lと、サーバ600とを有する。音声処理装置500a〜500lと、サーバ600とはネットワーク50を介して相互に接続される。ここでは一例として、音声処理装置500a〜500lを示すが、その他の音声処理装置を含んでいても良い。以下の説明では、音声処理装置500a〜500lをまとめて、適宜、音声処理装置500と表記する。 FIG. 15 is a diagram showing an example of the system according to the fourth embodiment. As shown in FIG. 15, this system has voice processing devices 500a to 500l and a server 600. The voice processing devices 500a to 500l and the server 600 are connected to each other via the network 50. Here, as an example, the voice processing devices 500a to 500l are shown, but other voice processing devices may be included. In the following description, the voice processing devices 500a to 500l are collectively referred to as the voice processing device 500 as appropriate.

なお、本実施例4では一例として、音声処理装置500a〜500cは、部屋10Aに配置される。このため、音声処理装置500a〜500cは、使用環境が類似する。音声処理装置500d〜500fは、部屋10Bに配置される。このため、音声処理装置500d〜500fは、使用環境が類似する。音声処理装置500g〜500iは、部屋10Cに配置される。このため、音声処理装置500g〜500iは、使用環境が類似する。音声処理装置500j〜500lは、部屋10Dに配置される。このため、音声処理装置500j〜500lは、使用環境が類似する。 As an example in the fourth embodiment, the voice processing devices 500a to 500c are arranged in the room 10A. Therefore, the voice processing devices 500a to 500c have similar usage environments. The voice processing devices 500d to 500f are arranged in the room 10B. Therefore, the voice processing devices 500d to 500f have similar usage environments. The voice processing devices 500g to 500i are arranged in the room 10C. Therefore, the voice processing devices 500g to 500i have similar usage environments. The voice processing devices 500j to 500l are arranged in the room 10D. Therefore, the voice processing devices 500j to 500l have similar usage environments.

音声処理装置500は、実施例2で説明した音声処理装置200と同様にして、更新処理を繰り返し実行し、更新後の判定基準データ140aを、サーバ600に送信する。実施例1〜3で説明したように、判定基準データ140aは、第1閾値、第2閾値、第3閾値を有する。 The voice processing device 500 repeatedly executes the update process in the same manner as the voice processing device 200 described in the second embodiment, and transmits the updated determination reference data 140a to the server 600. As described in Examples 1 to 3, the determination reference data 140a has a first threshold value, a second threshold value, and a third threshold value.

サーバ600は、音声処理装置500から判定基準データ140aを取得し、取得した判定基準データの各第1閾値を基にして、他の音声処理装置500と比較して、声の大きい利用者が使用する音声処理装置500を特定する。サーバ600は、特定した音声処理装置500に第3メッセージ「少し声を小さくしてください」を送信する。係る第3メッセージを受信した音声処理装置500は、第3メッセージを利用者に提示する。 The server 600 acquires the determination reference data 140a from the voice processing device 500, and based on each first threshold value of the acquired determination reference data, is used by a user who has a loud voice as compared with other voice processing devices 500. The voice processing device 500 to be used is specified. The server 600 sends a third message "Please make your voice a little quieter" to the specified voice processing device 500. The voice processing device 500 that has received the third message presents the third message to the user.

サーバ600は、音声処理装置500から判定基準データ140aを取得し、取得した判定基準データの各第2閾値を基にして、他の音声処理装置500と比較して、声の小さい利用者が使用する音声処理装置500を特定する。サーバ600は、特定した音声処理装置500に第4メッセージ「少し声を大きくしてください」を送信する。係る第4メッセージを受信した音声処理装置500は、第4メッセージを利用者に提示する。 The server 600 acquires the determination reference data 140a from the voice processing device 500, and based on each second threshold value of the acquired determination reference data, the server 600 is used by a user having a lower voice than the other voice processing device 500. The voice processing device 500 to be used is specified. The server 600 sends a fourth message "Please make your voice a little louder" to the specified voice processing device 500. The voice processing device 500 that has received the fourth message presents the fourth message to the user.

図16は、本実施例4に係る音声処理装置の構成を示す機能ブロック図である。図16に示すように、音声処理装置500aは、図16に示すように、マイク10に接続される。音声処理装置500aは、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160、推定部210、更新部220を有する。また、音声処理装置500aは、メッセージ受信部510を有する。ここでは一例として、音声処理装置500aの構成について説明するが、音声処理装置500b〜500lの構成は、音声処理装置500aの構成と同様である。 FIG. 16 is a functional block diagram showing the configuration of the voice processing device according to the fourth embodiment. As shown in FIG. 16, the voice processing device 500a is connected to the microphone 10 as shown in FIG. The voice processing device 500a includes an AD conversion unit 110, a pitch extraction unit 120a, a power extraction unit 120b, a stress detection unit 130, a storage unit 140, an information presentation unit 160, an estimation unit 210, and an update unit 220. Further, the voice processing device 500a has a message receiving unit 510. Here, the configuration of the voice processing device 500a will be described as an example, but the configuration of the voice processing devices 500b to 500l is the same as the configuration of the voice processing device 500a.

図16において、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、情報提示部160に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。推定部210および更新部220に関する説明は、実施例2で説明したものと同様であるため、説明を省略する。 In FIG. 16, the description of the microphone 10, the AD conversion unit 110, the pitch extraction unit 120a, the power extraction unit 120b, the stress detection unit 130, the storage unit 140, and the information presentation unit 160 is the same as that described in the first embodiment. Therefore, the description thereof will be omitted. Since the description of the estimation unit 210 and the update unit 220 is the same as that described in the second embodiment, the description thereof will be omitted.

メッセージ受信部510は、通信装置を介して、サーバ600からメッセージを受信した場合に、受信したメッセージを情報提示部160に提示させる。例えば、サーバ600から受信するメッセージは、上記のように、第3メッセージまたは第4メッセージとなる。 When the message receiving unit 510 receives a message from the server 600 via the communication device, the message receiving unit 510 causes the information presenting unit 160 to present the received message. For example, the message received from the server 600 is the third message or the fourth message as described above.

なお、更新部220は、判定基準データ140aの更新を行う度に、更新回数をカウントする。更新部220は、判定基準データ140aの更新回数が所定回数以上となった場合に、通信装置を用いて、判定基準データ140aをサーバ600に送信する。 The update unit 220 counts the number of updates each time the determination reference data 140a is updated. When the number of updates of the determination reference data 140a exceeds a predetermined number of times, the update unit 220 transmits the determination reference data 140a to the server 600 by using the communication device.

図17は、本実施例4に係るサーバの構成を示す機能ブロック図である。図17に示すように、このサーバ600は、通信部610と、記憶部620と、制御部630とを有する。 FIG. 17 is a functional block diagram showing a server configuration according to the fourth embodiment. As shown in FIG. 17, the server 600 has a communication unit 610, a storage unit 620, and a control unit 630.

通信部610は、ネットワーク50を介して、音声処理装置500とデータ通信を実行する処理部である。後述する制御部630は、通信部610を介して、音声処理装置500とデータをやり取りする。通信部610は、通信装置に対応する。 The communication unit 610 is a processing unit that executes data communication with the voice processing device 500 via the network 50. The control unit 630, which will be described later, exchanges data with the voice processing device 500 via the communication unit 610. The communication unit 610 corresponds to the communication device.

記憶部620は、閾値テーブル620aを有する。記憶部620は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。 The storage unit 620 has a threshold table 620a. The storage unit 620 corresponds to semiconductor memory elements such as RAM, ROM, and flash memory, and storage devices such as HDD.

閾値テーブル620aは、音声処理装置500から送信される判定基準データ140aを保持するテーブルである。閾値テーブル620aのデータ構造は、図11Bで説明した閾値テーブル420aに対応するため説明を省略する。 The threshold table 620a is a table that holds the determination reference data 140a transmitted from the voice processing device 500. Since the data structure of the threshold table 620a corresponds to the threshold table 420a described with reference to FIG. 11B, the description thereof will be omitted.

分類テーブル620bは、音声処理装置500が属するグループのデータを保持するテーブルである。図18は、本実施例4に係る分類テーブルのデータ構造の一例を示す図である。図18に示すように、この分類テーブル620bは、グループ識別情報と、識別情報とを対応づける。グループ識別情報は、グループを一意に識別する情報である。識別情報は、音声処理装置500を一意に識別する情報である。 The classification table 620b is a table that holds data of the group to which the voice processing device 500 belongs. FIG. 18 is a diagram showing an example of the data structure of the classification table according to the fourth embodiment. As shown in FIG. 18, the classification table 620b associates the group identification information with the identification information. The group identification information is information that uniquely identifies a group. The identification information is information that uniquely identifies the voice processing device 500.

同一のグループに分類される音声処理装置500は、使用環境が類似する。例えば、音声処理装置500a〜500cは、同一のグループに分類される。音声処理装置500d〜500fは、同一のグループに分類される。音声処理装置500g〜500iは、同一のグループに分類される。音声処理装置500j〜500lは、同一のグループに分類される。 The voice processing devices 500 classified into the same group have similar usage environments. For example, the voice processing devices 500a to 500c are classified into the same group. The voice processing devices 500d to 500f are classified into the same group. The voice processing devices 500g to 500i are classified into the same group. The voice processing devices 500j to 500l are classified into the same group.

制御部630は、受信部630a、統計量算出部630b、外れ値抽出部630c、メッセージ送信部630dを有する。制御部630は、CPUやMPUなどによって実現できる。また、制御部630は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。 The control unit 630 includes a reception unit 630a, a statistic calculation unit 630b, an outlier extraction unit 630c, and a message transmission unit 630d. The control unit 630 can be realized by a CPU, an MPU, or the like. The control unit 630 can also be realized by hard-wired logic such as ASIC or FPGA.

受信部630aは、音声処理装置500から判定基準データ140aを受信する処理部である。例えば、判定基準データ140aには、この判定基準データ140aの送信元となる音声処理装置500を識別する識別情報が付与されているものとする。受信部630aは、判定基準データ140aを、識別情報と対応付けて、閾値テーブル620aに登録する。 The receiving unit 630a is a processing unit that receives the determination reference data 140a from the voice processing device 500. For example, it is assumed that the determination reference data 140a is provided with identification information that identifies the voice processing device 500 that is the source of the determination reference data 140a. The receiving unit 630a registers the determination reference data 140a in the threshold table 620a in association with the identification information.

統計量算出部630bは、閾値テーブル620aを基にして、同一のグループ毎に、統計量を算出する処理部である。統計量算出部630bは、統計量として、第1閾値の平均値μ1と、第1閾値の標準偏差σ1を算出する。また、統計量算出部630bは、第2閾値の平均値μ2と、第2閾値の標準偏差σ2を算出する。統計量算出部630bは、グループ毎の統計量の情報を、外れ値抽出部630cに出力する。 The statistic calculation unit 630b is a processing unit that calculates statistics for the same group based on the threshold table 620a. The statistic calculation unit 630b calculates the average value μ1 of the first threshold value and the standard deviation σ1 of the first threshold value as statistics. Further, the statistic calculation unit 630b calculates the average value μ2 of the second threshold value and the standard deviation σ2 of the second threshold value. The statistic calculation unit 630b outputs the statistic information for each group to the outlier extraction unit 630c.

統計量算出部630bは、分類テーブル620bを参照することで、同一のグループに属する音声処理装置500の識別情報を特定する。統計量算出部630bは、特定した識別情報と、閾値テーブル620aとを比較することで、同一のグループに属する音声処理装置500の判定基準データ140a(第1閾値、第2閾値)を取得する。統計値算出部630bは、同一のグループに属する音声処理装置500の各第1閾値、第2閾値を用いて、上記の統計量を算出する。 The statistic calculation unit 630b identifies the identification information of the voice processing device 500 belonging to the same group by referring to the classification table 620b. The statistic calculation unit 630b acquires the determination reference data 140a (first threshold value, second threshold value) of the voice processing device 500 belonging to the same group by comparing the specified identification information with the threshold value table 620a. The statistical value calculation unit 630b calculates the above-mentioned statistic by using the first threshold value and the second threshold value of the voice processing device 500 belonging to the same group.

図19は、統計量のデータ構造の一例を示す図である。図19に示すように、この統計量は、グループ識別情報と、第1平均値と、第1標準偏差と、第2平均値と、第2標準偏差とを対応づける。グループ識別情報は、グループを一意に識別する情報である。第1平均値は、同一のグループの各第1閾値の平均値を示す。第1標準偏差は、同一のグループの各第1閾値の標準偏差を示す。第2平均値は、同一のグループの各第2閾値の平均値を示す。第2標準偏差は、同一のグループの各第2閾値の標準偏差を示す。 FIG. 19 is a diagram showing an example of a statistical data structure. As shown in FIG. 19, this statistic associates the group identification information with the first mean, the first standard deviation, the second mean, and the second standard deviation. The group identification information is information that uniquely identifies a group. The first mean value indicates the mean value of each first threshold value of the same group. The first standard deviation indicates the standard deviation of each first threshold in the same group. The second mean value indicates the mean value of each second threshold value of the same group. The second standard deviation indicates the standard deviation of each second threshold in the same group.

外れ値抽出部630cは、統計量と、閾値テーブル620aと、分類テーブル620bとを基にして、外れ値の第1閾値または第2閾値(判定基準データ140a)を送信した音声処理装置500を、グループ毎に抽出する処理部である。 The outlier extraction unit 630c uses the statistic, the threshold value table 620a, and the classification table 620b to transmit the first threshold value or the second threshold value (determination reference data 140a) of the outliers to the voice processing device 500. It is a processing unit that extracts each group.

外れ値抽出部630cは、同一のグループに含まれる音声処理装置500の第1閾値と、該当するグループの「第1平均値μ1+3×第1標準偏差σ1」とを比較する。外れ値抽出部630cは、第1閾値が「第1平均値μ1+3×第1標準偏差σ1」を超える音声処理装置500を、「第1外れ装置」として抽出する。本実施の形態では平均値から標準偏差の3倍離れた値を閾値としたが、3倍に限定されず、2倍や1倍に設定してもよい。 The outlier extraction unit 630c compares the first threshold value of the voice processing device 500 included in the same group with the “first mean value μ1 + 3 × first standard deviation σ1” of the corresponding group. The outlier extraction unit 630c extracts the voice processing device 500 whose first threshold value exceeds “first average value μ1 + 3 × first standard deviation σ1” as the “first outlier”. In the present embodiment, a value 3 times the standard deviation from the average value is set as the threshold value, but the threshold value is not limited to 3 times, and may be set to 2 times or 1 time.

外れ値抽出部630cは、同一のグループに含まれる音声処理装置500の第2閾値と、該当するグループの「第2平均値μ2−3×第2標準偏差σ2」とを比較する。外れ値抽出部630cは、第2閾値が「第2平均値μ2−3×第2標準偏差σ2」を下回る音声処理装置500を、「第2外れ装置」として抽出する。外れ値抽出部630cは、第1外れ装置の識別情報および第2外れ値の識別情報を、メッセージ送信部630dに出力する。本実施の形態では平均値から標準偏差の3倍離れた値を閾値としたが、3倍に限定されず、2倍や1倍に設定してもよい。 The outlier extraction unit 630c compares the second threshold value of the voice processing device 500 included in the same group with the “second mean value μ2-3 × second standard deviation σ2” of the corresponding group. The outlier extraction unit 630c extracts the voice processing device 500 whose second threshold value is less than the “second mean value μ2-3 × second standard deviation σ2” as the “second outlier”. The outlier extraction unit 630c outputs the identification information of the first outlier and the identification information of the second outlier to the message transmission unit 630d. In the present embodiment, a value 3 times the standard deviation from the average value is set as the threshold value, but the threshold value is not limited to 3 times, and may be set to 2 times or 1 time.

外れ値抽出部630cは、上記処理を、グループ毎に繰り返し実行することで、グループ毎の第1外れ装置の識別情報および第2外れ値の識別情報を、メッセージ送信部630dに出力する。 The outlier extraction unit 630c repeatedly executes the above processing for each group, and outputs the identification information of the first outlier and the identification information of the second outlier for each group to the message transmission unit 630d.

第1外れ装置の識別情報に対応する音声処理装置500を用いて通話している利用者は、使用環境が類似する他の利用者と比較して、「声が大きい」と言える。第2外れ装置の識別情報に対応する音声処理装置500を用いて通話している利用者は、使用環境が類似する他の利用者と比較して、「声が小さい」と言える。 It can be said that a user who is talking using the voice processing device 500 corresponding to the identification information of the first detached device is "loud" as compared with other users who have similar usage environments. It can be said that a user who is making a call using the voice processing device 500 corresponding to the identification information of the second detached device has a "low voice" as compared with other users having a similar usage environment.

メッセージ送信部630dは、外れ値抽出部630cから取得する情報を基にして、メッセージを音声処理装置500に送信する処理部である。例えば、メッセージ送信部630dは、第1外れ装置の識別情報に対応する音声処理装置500に、第3メッセージ「少し声を小さくしてください」を送信する。例えば、メッセージ送信部630dは、第2外れ装置の識別情報に対応する音声処理装置500に、第4メッセージ「少し声を大きくしてください」を送信する。 The message transmission unit 630d is a processing unit that transmits a message to the voice processing device 500 based on the information acquired from the outlier extraction unit 630c. For example, the message transmission unit 630d transmits the third message "Please make your voice a little quieter" to the voice processing device 500 corresponding to the identification information of the first detached device. For example, the message transmission unit 630d transmits the fourth message "Please make your voice a little louder" to the voice processing device 500 corresponding to the identification information of the second detached device.

次に、本実施例4に係る音声処理装置500の処理手順について説明する。図20は、本実施例4に係る音声処理装置の処理手順を示すフローチャートである。図20に示すように、音声処理装置500のAD変換部110は、入力音声の受け付けを開始する(ステップS501)。AD変換部110は、AD変換を行う(ステップS502)。音声処理装置500のピッチ抽出部120aは、ピッチを抽出し、音声処理装置500のパワー抽出部120bは、パワーを抽出する(ステップS503)。 Next, the processing procedure of the voice processing device 500 according to the fourth embodiment will be described. FIG. 20 is a flowchart showing a processing procedure of the voice processing device according to the fourth embodiment. As shown in FIG. 20, the AD conversion unit 110 of the voice processing device 500 starts accepting the input voice (step S501). The AD conversion unit 110 performs AD conversion (step S502). The pitch extraction unit 120a of the voice processing device 500 extracts the pitch, and the power extraction unit 120b of the voice processing device 500 extracts the power (step S503).

ピッチ抽出部120aは、有音区間を検出する(ステップS504)。音声処理装置500のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS505)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS506,Yes)、ステップS507に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS506,No)、ステップS501に移行する。 The pitch extraction unit 120a detects a sounded section (step S504). The stress detection unit 130 of the voice processing device 500 accumulates pitch power (step S505). When the pitch power corresponding to the specified number of frames is accumulated (steps S506 and Yes), the stress detection unit 130 shifts to step S507. On the other hand, when the pitch power corresponding to the specified number of frames is not accumulated (step S506, No), the stress detection unit 130 shifts to step S501.

ストレス検出部130は、ストレス値を算出する(ステップS507)。音声処理装置500の推定部210は、有音区間の平均パワーを算出する(ステップS508)。推定部210は、平均パワーが第1閾値以上である場合には(ステップS509,Yes)、ステップS510に移行する。一方、推定部210は、平均パワーが第1閾値未満である場合には(ステップS509,No)、ステップS512に移行する。 The stress detection unit 130 calculates the stress value (step S507). The estimation unit 210 of the voice processing device 500 calculates the average power of the sounded section (step S508). When the average power is equal to or higher than the first threshold value (step S509, Yes), the estimation unit 210 shifts to step S510. On the other hand, when the average power is less than the first threshold value (step S509, No), the estimation unit 210 shifts to step S512.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS510)。推定部210は、ストレス値が第3閾値以上である場合には(ステップS510,Yes)、ステップS515に移行する。推定部210は、ストレス値が第3閾値未満である場合には(ステップS510,No)、情報提示部160に第1メッセージを表示させ(ステップS511)、ステップS515に移行する。例えば、第1メッセージは、「マイクを口から少し離してください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S510). When the stress value is equal to or higher than the third threshold value (step S510, Yes), the estimation unit 210 shifts to step S515. When the stress value is less than the third threshold value (step S510, No), the estimation unit 210 causes the information presentation unit 160 to display the first message (step S511), and proceeds to step S515. For example, the first message is "Please move the microphone away from your mouth."

ステップS512の説明に移行する。推定部210は、平均パワーが第2閾値未満であるか否かを判定する(ステップS512)。推定部210は、平均パワーが第2閾値未満でない場合には(ステップS512,No)、ステップS515に移行する。一方、推定部210は、平均パワーが第2閾値未満である場合には(ステップS512,Yes)、ステップS513に移行する。 The process proceeds to the description of step S512. The estimation unit 210 determines whether or not the average power is less than the second threshold value (step S512). When the average power is not less than the second threshold value (step S512, No), the estimation unit 210 shifts to step S515. On the other hand, when the average power is less than the second threshold value (step S512, Yes), the estimation unit 210 shifts to step S513.

推定部210は、ストレス値が第3閾値以上であるか否かを判定する(ステップS513)。推定部210は、ストレス値が第3閾値以上でない場合には(ステップS513,No)、ステップS515に移行する。一方、推定部210は、ストレス値が第3閾値以上である場合には(ステップS513,Yes)、情報提示部160に第2メッセージを表示させ(ステップS514)、ステップS515に移行する。例えば、第2メッセージは、「マイクを口に少し近づけてください」である。 The estimation unit 210 determines whether or not the stress value is equal to or higher than the third threshold value (step S513). When the stress value is not equal to or higher than the third threshold value (step S513, No), the estimation unit 210 proceeds to step S515. On the other hand, when the stress value is equal to or higher than the third threshold value (step S513, Yes), the estimation unit 210 causes the information presentation unit 160 to display the second message (step S514), and proceeds to step S515. For example, the second message is "Please bring the microphone a little closer to your mouth."

音声処理装置500の更新部220は、更新処理を実行する(ステップS515)。ステップS515に示す更新処理は、実施例2の図5、図6、図7に示した処理に対応する。推定部160は、ストレス値および平均パワーを記憶部140に記憶する(ステップS516)。 The update unit 220 of the voice processing device 500 executes the update process (step S515). The update process shown in step S515 corresponds to the process shown in FIGS. 5, 6 and 7 of the second embodiment. The estimation unit 160 stores the stress value and the average power in the storage unit 140 (step S516).

更新部220は、更新回数が所定回数以上となった場合に、判定基準データ140aを、サーバ600に送信する(ステップS517)。更新部220は、更新回数に1を加算し(ステップS518)、ステップS501に移行する。 When the number of updates exceeds a predetermined number, the update unit 220 transmits the determination reference data 140a to the server 600 (step S517). The update unit 220 adds 1 to the number of updates (step S518), and proceeds to step S501.

次に、実施例4に係るサーバ600の処理手順について説明する。図21は、本実施例4に係るサーバの処理手順を示すフローチャートである。図21に示すように、サーバ600の受信部630aは、判定基準データ140aを受信する(ステップS601)。受信部630aは、判定基準データ140aを閾値テーブル620aに登録する(ステップS602)。 Next, the processing procedure of the server 600 according to the fourth embodiment will be described. FIG. 21 is a flowchart showing a processing procedure of the server according to the fourth embodiment. As shown in FIG. 21, the receiving unit 630a of the server 600 receives the determination reference data 140a (step S601). The receiving unit 630a registers the determination reference data 140a in the threshold table 620a (step S602).

サーバ600の統計量算出部630bは、閾値データ620aに基づいて、判定基準データのレコード数が第5閾値以上であるか否かを判定する(ステップS603)。統計量算出部630bは、判定基準データのレコード数が第5閾値以上でない場合には(ステップS603,No)、処理を終了する。 The statistic calculation unit 630b of the server 600 determines whether or not the number of records of the determination reference data is equal to or greater than the fifth threshold value based on the threshold value data 620a (step S603). When the number of records of the determination reference data is not equal to or greater than the fifth threshold value (step S603, No), the statistic calculation unit 630b ends the process.

一方、統計量算出部630bは、判定基準データのレコード数が第5閾値以上である場合には(ステップS603,Yes)、第1閾値、第2閾値について、それぞれ平均値μを算出する(ステップS604)。統計量算出部630bは、第1閾値、第2閾値について、それぞれ標準偏差σを算出する(ステップS605)。 On the other hand, when the number of records of the determination reference data is equal to or greater than the fifth threshold value (step S603, Yes), the statistic calculation unit 630b calculates an average value μ for each of the first threshold value and the second threshold value (step). S604). The statistic calculation unit 630b calculates the standard deviation σ for each of the first threshold value and the second threshold value (step S605).

サーバ600の外れ値抽出部630cは、判断基準データ140aにおいて、第1閾値が第1平均値μ1+3×第1標準偏差σ1を超えるものがない場合には(ステップS606,No)、ステップS608に移行する。 The outlier extraction unit 630c of the server 600 proceeds to step S608 when the first threshold value does not exceed the first mean value μ1 + 3 × first standard deviation σ1 in the judgment reference data 140a (step S606, No). To do.

外れ値抽出部630cは、判断基準データ140aにおいて、第1閾値が第1平均値μ1+3×第1標準偏差σ1を超えるものがある場合には(ステップS606,Yes)、ステップS607に移行する。サーバ600のメッセージ送信部630dは、該当する音声処理装置500に第3メッセージ「少し声を小さくしてください」を送信する(ステップS607)。 The outlier extraction unit 630c proceeds to step S607 when the first threshold value exceeds the first mean value μ1 + 3 × first standard deviation σ1 in the determination reference data 140a (step S606, Yes). The message transmission unit 630d of the server 600 transmits a third message "Please make your voice a little quieter" to the corresponding voice processing device 500 (step S607).

外れ値抽出部630cは、判断基準データ140aにおいて、第2閾値が第2平均値μ2−3×第2標準偏差σ2を下回るものがない場合には(ステップS608,No)、処理を終了する。 The outlier extraction unit 630c ends the process when there is no second threshold value less than the second mean value μ2-3 × second standard deviation σ2 in the determination reference data 140a (step S608, No).

外れ値抽出部630cは、判断基準データ140aにおいて、第2閾値が第2平均値μ2−3×第2標準偏差σ2を下回るものがある場合には(ステップS608,Yes)、ステップS609に移行する。サーバ600のメッセージ送信部630dは、該当する音声処理装置500に第4メッセージ「少し声を大きくしてください」を送信する(ステップS609)。 The outlier extraction unit 630c shifts to step S609 when the second threshold value is less than the second mean value μ2-3 × second standard deviation σ2 in the judgment reference data 140a (step S608, Yes). .. The message transmission unit 630d of the server 600 transmits the fourth message “Please make your voice a little louder” to the corresponding voice processing device 500 (step S609).

次に、本実施例4に係るシステムの効果について説明する。音声処理装置500は、更新処理を繰り返し実行した後に、判定基準データ140aをサーバ600に通知する。サーバ600は、各判定基準データ140aを基にして、統計量を算出し、外れ値の第1閾値を送信した音声処理装置500、外れ値の第2閾値を送信した音声処理装置500にメッセージを送信する。例えば、サーバ600は、外れ値の第1閾値を送信した音声処理装置500に第3メッセージを送信するため、使用環境が類似する音声処理装置の中で、相対的に話し声の大きい利用者の音声処理装置に対して注意発起を行うことができる。サーバ600は、外れ値の第2閾値を送信した音声処理装置500に第4メッセージを送信するため、使用環境が類似する音声処理装置の中で、相対的に話し声の小さい利用者の音声処理装置500に対して注意発起を行うことができる。 Next, the effect of the system according to the fourth embodiment will be described. The voice processing device 500 notifies the server 600 of the determination reference data 140a after repeatedly executing the update process. The server 600 calculates a statistic based on each determination reference data 140a, and sends a message to the voice processing device 500 that transmits the first threshold value of the outliers and the voice processing device 500 that transmits the second threshold value of the outliers. Send. For example, since the server 600 transmits a third message to the voice processing device 500 that has transmitted the first threshold value of the outlier, the voice of a user who speaks relatively loudly among the voice processing devices having similar usage environments. It is possible to issue attention to the processing device. Since the server 600 transmits the fourth message to the voice processing device 500 that has transmitted the second threshold value of the outlier, the voice processing device of the user who speaks relatively quietly among the voice processing devices having similar usage environments. Attention can be issued to 500.

なお、本実施例4に係るシステムでは、音声処理装置500を使用環境が類似するグループに分けて、グループ毎に、第3メッセージ、第4メッセージを送信していたが、これに限定されるものではない。本実施例4に係るシステムでは、音声処理装置500a〜500lを一つのグループにまとめて、同一の処理を実行しても良い。 In the system according to the fourth embodiment, the voice processing device 500 is divided into groups having similar usage environments, and the third message and the fourth message are transmitted for each group, but the system is limited to this. is not it. In the system according to the fourth embodiment, the voice processing devices 500a to 500l may be grouped into one group and the same processing may be executed.

図22は、本実施例5に係る音声処理装置の構成を示す機能ブロック図である。図22に示すように、この音声処理装置700は、マイク10に接続される。音声処理装置700は、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140、推定部710、ゲイン調整部720を有する。このうち、マイク10、AD変換部110、ピッチ抽出部120a、パワー抽出部120b、ストレス検出部130、記憶部140に関する説明は、実施例1で説明したものと同様であるため、説明を省略する。 FIG. 22 is a functional block diagram showing a configuration of the voice processing device according to the fifth embodiment. As shown in FIG. 22, the voice processing device 700 is connected to the microphone 10. The voice processing device 700 includes an AD conversion unit 110, a pitch extraction unit 120a, a power extraction unit 120b, a stress detection unit 130, a storage unit 140, an estimation unit 710, and a gain adjustment unit 720. Of these, the description of the microphone 10, the AD conversion unit 110, the pitch extraction unit 120a, the power extraction unit 120b, the stress detection unit 130, and the storage unit 140 is the same as that described in the first embodiment, and thus the description thereof will be omitted. ..

推定部710は、入力音声のストレス値と、平均パワーと、判定基準データ140aとを基にして、入力音声の発声状態を推定する処理部である。推定部710は、推定結果を、ゲイン調整部720に出力する。 The estimation unit 710 is a processing unit that estimates the utterance state of the input voice based on the stress value of the input voice, the average power, and the determination reference data 140a. The estimation unit 710 outputs the estimation result to the gain adjustment unit 720.

例えば、推定部710は、「ストレスが小」かつ「平均パワーが第1閾値以上」場合に、第1推定結果を、ゲイン調整部720に出力する。推定部710は、「ストレスが大」かつ「平均パワーが第2閾値未満」場合に、第2推定結果を、ゲイン調整部720に出力する。推定部710が、ストレスの大、小、平均パワーを第1閾値および第2閾値と比較する処理は、実施例1に示した推定部150の処理と同様である。 For example, the estimation unit 710 outputs the first estimation result to the gain adjustment unit 720 when the stress is small and the average power is equal to or higher than the first threshold value. The estimation unit 710 outputs the second estimation result to the gain adjustment unit 720 when “the stress is large” and “the average power is less than the second threshold value”. The process in which the estimation unit 710 compares the high, low, and average power of stress with the first threshold value and the second threshold value is the same as the process of the estimation unit 150 shown in Example 1.

ゲイン調整部720は、推定部710の推定結果を基にして、マイク10のゲインを調整する処理部である。ゲイン調整部720は、推定部710から第1推定結果を受信した場合には、ゲイン調整部720は、マイク10のゲインを下げる。例えば、ゲイン調整部720は、マイク10の録音レベルを3dB下げる。第1推定結果は、現在のストレスが「小」であり、かつ、「平均パワーが第1閾値以上である」ことを示し、今後、ストレスが「大」に推移すると、入力音声のパワーが適切なパワーを超える恐れがある。 The gain adjusting unit 720 is a processing unit that adjusts the gain of the microphone 10 based on the estimation result of the estimation unit 710. When the gain adjusting unit 720 receives the first estimation result from the estimation unit 710, the gain adjusting unit 720 lowers the gain of the microphone 10. For example, the gain adjusting unit 720 lowers the recording level of the microphone 10 by 3 dB. The first estimation result shows that the current stress is "small" and "the average power is equal to or higher than the first threshold value", and when the stress changes to "large" in the future, the power of the input voice is appropriate. There is a risk of exceeding the power.

ゲイン調整部720は、推定部710から第2推定結果を受信した場合には、ゲイン調整部720は、マイク10のゲインを上げる。例えば、ゲイン調整部720は、マイク10の録音レベルを3dB上げる。第2推定結果は、現在のストレスが「大」であり、かつ、「平均パワーが第2閾値未満である」ことを示し、今後、ストレスが「小」に推移すると、入力音声のパワーが適切なパワーを下回る恐れがある。 When the gain adjusting unit 720 receives the second estimation result from the estimation unit 710, the gain adjusting unit 720 raises the gain of the microphone 10. For example, the gain adjusting unit 720 raises the recording level of the microphone 10 by 3 dB. The second estimation result indicates that the current stress is "large" and "the average power is less than the second threshold", and when the stress changes to "small" in the future, the power of the input voice is appropriate. There is a risk of falling below the power.

次に、本実施例5に係る音声処理装置700の処理手順について説明する。図23は、本実施例5に係る音声処理装置の処理手順を示すフローチャートである。図23に示すように、音声処理装置700のAD変換部110は、入力音声の受け付けを開始する(ステップS701)。AD変換部110は、AD変換を行う(ステップS702)。音声処理装置700のピッチ抽出部120aは、ピッチを抽出し、音声処理装置700のパワー抽出部120bは、パワーを抽出する(ステップS703)。 Next, the processing procedure of the voice processing device 700 according to the fifth embodiment will be described. FIG. 23 is a flowchart showing a processing procedure of the voice processing device according to the fifth embodiment. As shown in FIG. 23, the AD conversion unit 110 of the voice processing device 700 starts accepting the input voice (step S701). The AD conversion unit 110 performs AD conversion (step S702). The pitch extraction unit 120a of the voice processing device 700 extracts the pitch, and the power extraction unit 120b of the voice processing device 700 extracts the power (step S703).

ピッチ抽出部120aは、有音区間を検出する(ステップS704)。音声処理装置700のストレス検出部130は、ピッチ・パワーを蓄積する(ステップS705)。ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積された場合には(ステップS706,Yes)、ステップS707に移行する。一方、ストレス検出部130は、指定されたフレーム数に対応するピッチ・パワーが蓄積されていない場合には(ステップS706,No)、ステップS701に移行する。 The pitch extraction unit 120a detects a sounded section (step S704). The stress detection unit 130 of the voice processing device 700 accumulates pitch power (step S705). When the pitch power corresponding to the specified number of frames is accumulated (step S706, Yes), the stress detection unit 130 shifts to step S707. On the other hand, when the pitch power corresponding to the specified number of frames is not accumulated (step S706, No), the stress detection unit 130 shifts to step S701.

ストレス検出部130は、ストレス値を算出する(ステップS707)。音声処理装置700の推定部710は、有音区間の平均パワーを算出する(ステップS708)。推定部710は、平均パワーが第1閾値以上である場合には(ステップS709,Yes)、ステップS710に移行する。一方、推定部710は、平均パワーが第1閾値未満である場合には(ステップS709,No)、ステップS712に移行する。 The stress detection unit 130 calculates the stress value (step S707). The estimation unit 710 of the voice processing device 700 calculates the average power of the sounded section (step S708). When the average power is equal to or higher than the first threshold value (step S709, Yes), the estimation unit 710 shifts to step S710. On the other hand, when the average power is less than the first threshold value (step S709, No), the estimation unit 710 shifts to step S712.

推定部710は、ストレス値が第3閾値以上であるか否かを判定する(ステップS710)。推定部710は、ストレス値が第3閾値以上である場合には(ステップS710,Yes)、ステップS701に移行する。推定部710は、ストレス値が第3閾値未満である場合には(ステップS710,No)、ステップS711に移行する。音声処理装置700のゲイン調整部720は、マイク10の音声レベルを3dB下げ(ステップS711)、ステップS701に移行する。 The estimation unit 710 determines whether or not the stress value is equal to or higher than the third threshold value (step S710). When the stress value is equal to or higher than the third threshold value (step S710, Yes), the estimation unit 710 shifts to step S701. When the stress value is less than the third threshold value (step S710, No), the estimation unit 710 shifts to step S711. The gain adjusting unit 720 of the voice processing device 700 lowers the voice level of the microphone 10 by 3 dB (step S711), and shifts to step S701.

ステップS712の説明に移行する。推定部710は、平均パワーが第2閾値未満であるか否かを判定する(ステップS712)。推定部710は、平均パワーが第2閾値未満でない場合には(ステップS712,No)、ステップS701に移行する。一方、推定部710は、平均パワーが第2閾値未満である場合には(ステップS712,Yes)、ステップS713に移行する。 The process proceeds to the description of step S712. The estimation unit 710 determines whether or not the average power is less than the second threshold value (step S712). When the average power is not less than the second threshold value (step S712, No), the estimation unit 710 shifts to step S701. On the other hand, when the average power is less than the second threshold value (step S712, Yes), the estimation unit 710 shifts to step S713.

推定部710は、ストレス値が第3閾値以上であるか否かを判定する(ステップS713)。推定部710は、ストレス値が第3閾値以上でない場合には(ステップS713,No)、ステップS701に移行する。一方、推定部710は、ストレス値が第3閾値以上である場合には(ステップS713,Yes)、ステップS714に移行する。ゲイン調整部720は、マイク10の音声レベルを3dB上げ(ステップS714)、ステップS701に移行する。 The estimation unit 710 determines whether or not the stress value is equal to or higher than the third threshold value (step S713). When the stress value is not equal to or higher than the third threshold value (step S713, No), the estimation unit 710 proceeds to step S701. On the other hand, when the stress value is equal to or higher than the third threshold value (step S713, Yes), the estimation unit 710 shifts to step S714. The gain adjusting unit 720 raises the sound level of the microphone 10 by 3 dB (step S714), and shifts to step S701.

次に、本実施例5に係る音声処理装置700の効果について説明する。音声処理装置700は、発声状態を推定し、推移結果に基づいて、マイク10のゲインを調整する。これにより、利用者の心理状況も考慮して、利用者の入力音声の音量を適切な音量に保つことができ、各利用者の通話を快適に保つことができる。 Next, the effect of the voice processing device 700 according to the fifth embodiment will be described. The voice processing device 700 estimates the utterance state and adjusts the gain of the microphone 10 based on the transition result. As a result, the volume of the input voice of the user can be kept at an appropriate volume in consideration of the psychological situation of the user, and the call of each user can be kept comfortable.

次に、上記実施例に示した音声処理装置100,200,300,500,700と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図24は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of a computer hardware configuration that realizes the same functions as the voice processing devices 100, 200, 300, 500, and 700 shown in the above embodiment will be described. FIG. 24 is a diagram showing an example of a computer hardware configuration that realizes a function similar to that of a voice processing device.

図24に示すように、コンピュータ800は、各種演算処理を実行するCPU801と、ユーザからのデータの入力を受け付ける入力装置802と、ディスプレイ803とを有する。また、コンピュータ800は、記憶媒体からプログラム等を読み取る読み取り装置804と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置805とを有する。例えば、インターフェース装置805は、通信装置等に接続される。コンピュータ800は、マイク806に接続される。また、コンピュータ800は、各種情報を一時記憶するRAM807と、ハードディスク装置808とを有する。そして、各装置801〜808は、バス809に接続される。 As shown in FIG. 24, the computer 800 includes a CPU 801 that executes various arithmetic processes, an input device 802 that receives data input from a user, and a display 803. Further, the computer 800 has a reading device 804 that reads a program or the like from a storage medium, and an interface device 805 that exchanges data with another computer via a wired or wireless network. For example, the interface device 805 is connected to a communication device or the like. The computer 800 is connected to the microphone 806. Further, the computer 800 has a RAM 807 that temporarily stores various information and a hard disk device 808. Then, each of the devices 801-808 is connected to the bus 809.

ハードディスク装置808は、抽出プログラム808a、ストレス検出プログラム808b、推定プログラム808c、更新プログラム808dを有する。また、ハードディスク装置808は、アップロード・ダウンロードプログラム808e、受信プログラム808f、提示プログラム808g、ゲイン調整プログラム808hを有する。CPU801は、抽出プログラム808a、ストレス検出プログラム808b、推定プログラム808c、更新プログラム808dを読み出してRAM807に展開する。CPU801は、アップロード・ダウンロードプログラム808e、受信プログラム808f、提示プログラム808g、ゲイン調整プログラム808hを読み出してRAM807に展開する。 The hard disk device 808 has an extraction program 808a, a stress detection program 808b, an estimation program 808c, and an update program 808d. Further, the hard disk device 808 has an upload / download program 808e, a reception program 808f, a presentation program 808g, and a gain adjustment program 808h. The CPU 801 reads out the extraction program 808a, the stress detection program 808b, the estimation program 808c, and the update program 808d and deploys them in the RAM 807. The CPU 801 reads the upload / download program 808e, the reception program 808f, the presentation program 808g, and the gain adjustment program 808h and deploys them in the RAM 807.

抽出プログラム808aは、抽出プロセス807aとして機能する。ストレス検出プログラム808bは、ストレス検出プロセス807bとして機能する。推定プログラム808cは、推定プロセス807cとして機能する。更新プログラム808dは、更新プロセス807dとして機能する。アップロード・ダウンロードプログラム808eは、アップロード・ダウンロードプロセス807eとして機能する。受信プログラム808fは、受信プロセス807fとして機能する。提示プログラム808gは、提示プロセス807gとして機能する。ゲイン調整プログラム808hは、ゲイン調整プロセス807hとして機能する。 The extraction program 808a functions as an extraction process 807a. The stress detection program 808b functions as the stress detection process 807b. The estimation program 808c functions as an estimation process 807c. Update 808d functions as update process 807d. The upload / download program 808e functions as an upload / download process 807e. The receiving program 808f functions as a receiving process 807f. The presentation program 808g functions as a presentation process 807g. The gain adjustment program 808h functions as a gain adjustment process 807h.

抽出プロセス807aの処理は、ピッチ抽出部120a、パワー抽出部120bの処理に対応する。ストレス検出プロセス807bの処理は、ストレス検出部130の処理に対応する。推定プロセス807cの処理は、推定部150、210、710の処理に対応する。更新プロセス807dの処理は、更新部220の処理に対応する。アップロード・ダウンロードプロセス807eの処理は、アップロード部310、ダウンロード部320の処理に対応する。受信プロセス807fの処理は、メッセージ受信部510の処理に対応する。提示プロセス807gの処理は、情報提示部160の処理に対応する。ゲイン調整プロセス807hの処理は、ゲイン調整部720の処理に対応する。 The processing of the extraction process 807a corresponds to the processing of the pitch extraction unit 120a and the power extraction unit 120b. The process of the stress detection process 807b corresponds to the process of the stress detection unit 130. The processing of the estimation process 807c corresponds to the processing of the estimation units 150, 210, and 710. The process of the update process 807d corresponds to the process of the update unit 220. The processing of the upload / download process 807e corresponds to the processing of the upload unit 310 and the download unit 320. The processing of the receiving process 807f corresponds to the processing of the message receiving unit 510. The processing of the presentation process 807g corresponds to the processing of the information presentation unit 160. The processing of the gain adjusting process 807h corresponds to the processing of the gain adjusting unit 720.

なお、各プログラム808a〜808hについては、必ずしも最初からハードディスク装置808に記憶させておかなくても良い。例えば、コンピュータ800に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ800が各プログラム808a〜808hを読み出して実行するようにしても良い。 The programs 808a to 808h do not necessarily have to be stored in the hard disk device 808 from the beginning. For example, each program is stored in a "portable physical medium" such as a flexible disk (FD), a CD-ROM, a DVD disk, a magneto-optical disk, or an IC card inserted into the computer 800. Then, the computer 800 may read and execute each program 808a to 808h.

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional notes will be further disclosed with respect to the embodiments including each of the above embodiments.

(付記1)コンピュータに、
入力音声からピッチ周波数と周波数パワーとを抽出し、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を出力し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行させることを特徴とする音声処理プログラム。
(Appendix 1) To the computer
Extract the pitch frequency and frequency power from the input voice,
A determination result is output as to whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied.
A voice processing program characterized in that a process of estimating the utterance state of the input voice is executed based on the relationship between the determination result and the average power of the frequency power.

(付記2)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する処理を更にコンピュータに実行させることを特徴とする付記1に記載の音声処理プログラム。 (Appendix 2) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the judgment standard or the threshold value used by the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as training data. The voice processing program according to Appendix 1, wherein the computer further executes a process of updating the determination criterion or the threshold value.

(付記3)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定する処理を更にコンピュータに実行させることを特徴とする付記2に記載の音声処理プログラム。 (Appendix 3) The determination criteria are collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. The voice processing program according to Appendix 2, wherein the computer further executes the process of setting the initial value of the threshold value.

(付記4)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力する処理を更にコンピュータに実行させることを特徴とする付記3に記載の音声処理プログラム。
(Appendix 4) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing program according to Appendix 3, wherein when the alarm is received, the computer further executes a process of outputting the alarm.

(付記5)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記4に記載の音声処理プログラム。 (Appendix 5) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of thresholds acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing program according to Appendix 4, which is characterized by identifying a large user.

(付記6)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加える処理を更にコンピュータに実行させることを特徴とする付記1〜5のいずれか一つに記載の音声処理プログラム。 (Appendix 6) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Supplementary notes 1 to 5 is characterized in that the computer is further executed to add a correction gain to the input voice. The voice processing program described in one.

(付記7)コンピュータが実行する音声処理方法であって、
入力音声からピッチ周波数と周波数パワーとを抽出し、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行することを特徴とする音声処理方法。
(Appendix 7) A voice processing method executed by a computer.
Extract the pitch frequency and frequency power from the input voice,
The determination result is determined whether or not the condition that the value based on the pitch frequency and the frequency power is equal to or higher than a predetermined threshold value is satisfied.
A voice processing method characterized by executing a process of estimating a vocalization state of the input voice based on the relationship between the determination result and the average power of the frequency power.

(付記8)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する処理を更に実行することを特徴とする付記7に記載の音声処理方法。 (Appendix 8) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the determination criterion or the threshold value used in the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as learning data. The voice processing method according to Appendix 7, wherein the process of updating the determination criterion or the threshold value is further executed.

(付記9)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定する処理を更に実行することを特徴とする付記8に記載の音声処理方法。 (Appendix 9) The determination criterion is collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. 8. The voice processing method according to Appendix 8, wherein the process of setting the initial value of the threshold value is further executed.

(付記10)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力する処理を更に実行することを特徴とする付記9に記載の音声処理方法。
(Appendix 10) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing method according to Appendix 9, wherein when the alarm is received, a process of outputting the alarm is further executed.

(付記11)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記10に記載の音声処理方法。 (Appendix 11) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of threshold values acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing method according to Appendix 10, wherein a large user is specified.

(付記12)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加える処理を更にコンピュータに実行させることを特徴とする付記7〜11のいずれか一つに記載の音声処理方法。 (Appendix 12) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Supplementary notes 7 to 11 is characterized in that the computer is further executed to add a correction gain to the input voice. The voice processing method described in one.

(付記13)入力音声からピッチ周波数と周波数パワーとを抽出する抽出部と、
前記ピッチ周波数および前記周波数パワーに基づく値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する推定部と、
を有することを特徴とする音声処理装置。
(Appendix 13) An extraction unit that extracts the pitch frequency and frequency power from the input voice,
The determination result is determined whether or not the condition that the pitch frequency and the value based on the frequency power satisfy the predetermined threshold value or more is satisfied, and the input voice is based on the relationship between the determination result and the average power of the frequency power. The estimation unit that estimates the vocalization state of
A voice processing device characterized by having.

(付記14)前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する更新部を更に有することを特徴とする付記13に記載の音声処理装置。 (Appendix 14) The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the determination criterion or the threshold value used in the process of estimating the vocalization state is correctly answered. If the data is not improved or if there is no change, the incorrect answer data is reduced by using the judgment criterion or the threshold value as incorrect answer data and using the correct answer data and the incorrect answer data as learning data. The voice processing apparatus according to Appendix 13, further comprising an update unit for updating the determination criterion or the threshold value.

(付記15)ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定するダウンロード部を更に有することを特徴とする付記14に記載の音声処理装置。 (Appendix 15) The determination criterion is collected from a server that collects the learning data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data. The initial value of the above threshold value and the initial value of the threshold value are received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is the determination process. The voice processing apparatus according to Appendix 14, further comprising a download unit for setting the initial value of the threshold value of the above.

(付記16)前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力するメッセージ受信部を更に有することを特徴とする付記15に記載の音声処理装置。
(Appendix 16) The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify a user with a loud voice. , Notify the terminal used by the specified user of the alarm,
The voice processing device according to Appendix 15, further comprising a message receiving unit that outputs an alarm when the alarm is received.

(付記17)前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする付記16に記載の音声処理装置。 (Appendix 17) The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of threshold values acquired from a plurality of terminals classified into groups having similar usage environments to make a voice voice. The voice processing device according to Appendix 16, wherein a large user is identified.

(付記18)前記ピッチ周波数および前記周波数パワーに基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記ピッチ周波数および前記周波数パワーに基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加えるゲイン調整部を更に有することを特徴とする付記13〜17のいずれか一つに記載の音声処理装置。 (Appendix 18) When the value based on the pitch frequency and the frequency power is less than the third threshold value and the average power of the frequency power is equal to or more than the first threshold value, or the value based on the pitch frequency and the frequency power is the first. When the average power of the frequency power is less than or equal to the second threshold value of 3 threshold values or more, any one of Appendix 13 to 17, further comprising a gain adjusting unit for adding a correction gain to the input sound. The voice processing device described in 1.

10 マイク
100,200,300a,300b,300c,500a,500b,500c,500d,500e,500f,500g,500h,500i,500j,500k,500l,700 音声処理装置
110 AD変換部
120a ピッチ抽出部
120b パワー抽出部
130 ストレス検出部
140 記憶部
140a 判定基準データ
160 情報提示部
220 更新部
310 アップロード部
320 ダウンロード部
400,600 サーバ
510 メッセージ受信部
720 ゲイン調整部
10 Microphone 100, 200, 300a, 300b, 300c, 500a, 500b, 500c, 500d, 500e, 500f, 500g, 500h, 500i, 500j, 500k, 500l, 700 Audio processing device 110 AD conversion unit 120a Pitch extraction unit 120b Power Extraction unit 130 Stress detection unit 140 Storage unit 140a Judgment standard data 160 Information presentation unit 220 Update unit 310 Upload unit 320 Download unit 400,600 Server 510 Message reception unit 720 Gain adjustment unit

Claims (8)

コンピュータに、
入力音声から周波数パワーとピッチ周波数とを抽出し、
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行させることを特徴とする音声処理プログラム。
On the computer
Extracts the frequency power and the pitch frequency from the input speech,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value,
A voice processing program characterized in that a process of estimating the utterance state of the input voice is executed based on the relationship between the determination result and the average power of the frequency power.
前記発声状態の推定結果を通知し、前記発声状態が改善されたか否かを判定し、改善された場合には、前記発声状態を推定する処理が用いる判定基準または前記閾値を正解データとし、改善されていない場合または変化が無い場合には、前記判定基準または前記閾値を不正解データとし、前記正解データおよび前記不正解データを学習データとして用いることで、前記不正解データが減るように、前記判定基準または前記閾値を更新する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の音声処理プログラム。 The estimation result of the vocalization state is notified, it is determined whether or not the vocalization state is improved, and if it is improved, the judgment standard or the threshold value used in the process of estimating the vocalization state is used as correct answer data, and the improvement is made. If it is not done or there is no change, the judgment criterion or the threshold value is used as incorrect answer data, and the correct answer data and the incorrect answer data are used as training data so that the incorrect answer data is reduced. The voice processing program according to claim 1, wherein the computer further executes a process of updating the determination standard or the threshold value. ネットワークに接続された複数の端末から前記学習データを収集し、収集した前記学習データを基にして前記判定基準の初期値および前記閾値の初期値を生成するサーバから、前記判定基準の初期値および前記閾値の初期値を受信し、前記判定基準の初期値を、前記発声状態を推定する処理が用いる判定基準の初期値に設定し、前記閾値の初期値を、前記判定する処理の前記閾値の初期値に設定する処理を更にコンピュータに実行させることを特徴とする請求項2に記載の音声処理プログラム。 From a server that collects the training data from a plurality of terminals connected to the network and generates an initial value of the determination criterion and an initial value of the threshold value based on the collected learning data, the initial value of the determination criterion and The initial value of the threshold value is received, the initial value of the determination criterion is set to the initial value of the determination criterion used in the process of estimating the vocalization state, and the initial value of the threshold value is set to the threshold value of the determination process. The voice processing program according to claim 2, wherein the computer further executes the process of setting the initial value. 前記サーバは、前記学習データに基づいて更新された複数の閾値を前記複数の端末から収集し、収集した前記複数の閾値をそれぞれ比較することで、声の大きい利用者を特定し、特定した利用者が使用する端末にアラームを通知し、
前記アラームを受け付けた場合に、アラームを出力する処理を更にコンピュータに実行させることを特徴とする請求項3に記載の音声処理プログラム。
The server collects a plurality of threshold values updated based on the learning data from the plurality of terminals, and compares the collected plurality of threshold values with each other to identify and identify a user with a loud voice. Notifies the terminal used by the person of the alarm and
The voice processing program according to claim 3, wherein when the alarm is received, a computer further executes a process of outputting the alarm.
前記サーバは、前記複数の端末を使用環境に応じてグループに分類し、使用環境の類似するグループに分類された複数の端末から取得する複数の閾値を比較することで、声の大きい利用者を特定することを特徴とする請求項4に記載の音声処理プログラム。 The server classifies the plurality of terminals into groups according to the usage environment, and compares a plurality of thresholds acquired from the plurality of terminals classified into groups having similar usage environments to obtain a loud user. The voice processing program according to claim 4, wherein the voice processing program is specified. 前記周波数パワーおよび前記ピッチ周波数に基づく値が第3閾値未満かつ前記周波数パワーの平均パワーが第1閾値以上である場合、または、前記周波数パワーおよび前記ピッチ周波数に基づく値が前記第3閾値以上かつ前記周波数パワーの平均パワーが第2閾値未満である場合には、前記入力音声に対して補正ゲインを加える処理を更にコンピュータに実行させることを特徴とする請求項1〜5のいずれか一つに記載の音声処理プログラム。 Wherein when the frequency power and a value based on the pitch frequency is the average power of the third threshold value less than and the frequency power is equal to or larger than the first threshold, or a value based on the frequency power and the pitch frequency is more than the third threshold value Further, when the average power of the frequency power is less than the second threshold value, any one of claims 1 to 5, wherein the computer further executes a process of adding a correction gain to the input voice. The voice processing program described in. コンピュータが実行する音声処理方法であって、
入力音声から周波数パワーとピッチ周波数とを抽出し、
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、
前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する
処理を実行することを特徴とする音声処理方法。
A computer-executed voice processing method
Extracts the frequency power and the pitch frequency from the input speech,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value,
A voice processing method characterized by executing a process of estimating a vocalization state of the input voice based on the relationship between the determination result and the average power of the frequency power.
入力音声から周波数パワーとピッチ周波数とを抽出する抽出部と、
前記周波数パワーおよび前記ピッチ周波数に基づく値であって、前記入力音声を発した利用者のストレスを示す前記値が所定の閾値以上となる条件を満たすか否か判定結果を判定し、前記判定結果と、前記周波数パワーの平均パワーとの関係に基づいて、前記入力音声の発声状態を推定する推定部と、
を有することを特徴とする音声処理装置。
An extractor that extracts frequency power and pitch frequency from input audio,
Wherein a frequency power and a value based on the pitch frequency, the value indicating the user's stress having issued the input speech is determined satisfying whether the determination result equal to or greater than a predetermined threshold value, the determination An estimation unit that estimates the vocalization state of the input voice based on the relationship between the result and the average power of the frequency power.
A voice processing device characterized by having.
JP2017074704A 2017-04-04 2017-04-04 Speech processing program, speech processing method and speech processor Active JP6819426B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017074704A JP6819426B2 (en) 2017-04-04 2017-04-04 Speech processing program, speech processing method and speech processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017074704A JP6819426B2 (en) 2017-04-04 2017-04-04 Speech processing program, speech processing method and speech processor

Publications (2)

Publication Number Publication Date
JP2018180061A JP2018180061A (en) 2018-11-15
JP6819426B2 true JP6819426B2 (en) 2021-01-27

Family

ID=64276144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017074704A Active JP6819426B2 (en) 2017-04-04 2017-04-04 Speech processing program, speech processing method and speech processor

Country Status (1)

Country Link
JP (1) JP6819426B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010259691A (en) * 2009-05-11 2010-11-18 Panasonic Corp Stress measuring device
JP6268717B2 (en) * 2013-03-04 2018-01-31 富士通株式会社 State estimation device, state estimation method, and computer program for state estimation
JP2015031913A (en) * 2013-08-06 2015-02-16 カシオ計算機株式会社 Speech processing unit, speech processing method and program

Also Published As

Publication number Publication date
JP2018180061A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
WO2016184119A1 (en) Volume adjustment method, system and equipment, and computer storage medium
JP5716595B2 (en) Audio correction apparatus, audio correction method, and audio correction program
US10582313B2 (en) Method of operating a hearing aid system and a hearing aid system
CN112397078A (en) System and method for providing personalized audio playback on multiple consumer devices
KR20160145730A (en) Volume adjusting method, apparatus and terminal of user terminal
CN110312146B (en) Audio processing method and device, electronic equipment and storage medium
US10251000B2 (en) Hearing assistant device for informing about state of wearer
US20240098433A1 (en) Method for configuring a hearing-assistance device with a hearing profile
WO2018014673A1 (en) Method and device for howling detection
US11595766B2 (en) Remotely updating a hearing aid profile
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
JP6819426B2 (en) Speech processing program, speech processing method and speech processor
CN114731478A (en) Device and method for hearing device parameter configuration
CN107431868B (en) Method for determining useful hearing device characteristics based on recorded sound classification data
JP7000757B2 (en) Speech processing program, speech processing method and speech processing device
CN115696110A (en) Audio device and audio signal processing method
EP3614379B1 (en) Systems and methods for adaption of a telephonic audio signal
EP3664470B1 (en) Providing feedback of an own voice loudness of a user of a hearing device
CN113362839A (en) Audio data processing method and device, computer equipment and storage medium
CN112309418A (en) Method and device for inhibiting wind noise
US20180366136A1 (en) Nuisance Notification
EP4312214A1 (en) Determining spatial audio parameters
CN112673648B (en) Processing device, processing method, reproduction method, and storage medium
US20230036155A1 (en) A method of estimating a hearing loss, a hearing loss estimation system and a computer readable medium
TWI566240B (en) Audio signal processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201214

R150 Certificate of patent or registration of utility model

Ref document number: 6819426

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150