JP2014228753A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP2014228753A JP2014228753A JP2013109273A JP2013109273A JP2014228753A JP 2014228753 A JP2014228753 A JP 2014228753A JP 2013109273 A JP2013109273 A JP 2013109273A JP 2013109273 A JP2013109273 A JP 2013109273A JP 2014228753 A JP2014228753 A JP 2014228753A
- Authority
- JP
- Japan
- Prior art keywords
- section
- unit
- sound
- words
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 109
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000035484 reaction time Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供する。
【解決手段】
音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる有音区間と、有音区間の後端に連接する無音区間を検出する検出部を備える。更に当該音声処理装置は、有音区間に含まれる情報量を算出する算出部と、情報量に基づいて無音区間の長さを制御する制御部を備える。
【選択図】図1
Description
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、抽出部4、算出部5、制御部6を有する。
(数1)
ここで、fは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(fは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部10は、フレームfにおける雑音の大きさ(電力)N(f)を、フレームfにおける音量S(f)、前フレーム(f−1)における音量S(f−1)ならびに、雑音の大きさN(f−1)に基づいて、次式を用いて推定することが出来る。
(数2)
ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(f−1)も、実験的に決定されれば良い。上述の(数2)において、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化しない場合には、フレームfの雑音電力N(f)が更新される。一方、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化する場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。なお、雑音電力N(f)を上述の雑音推定結果と称しても良い。
雑音推定部10は、雑音の大きさの更新を、次式の(数3)を用いて、フレームfの音量S(f)と、1つ前のフレームf−1の雑音電力N(f−1)との比に基づいて実施しても良い。
(数3)
ここで、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(f−1)も、実験的に決定されれば良い。上述の(数3)において、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以下である場合には、フレームfの雑音電力N(f)を更新する。一方、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以上である場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。
(数4)
ここで、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
(数5)
tb=f×M
(if f_breath=有音区間ではない、かつ、SNR(f)>THSNR)
(数6)
te=f×M−1
(if f_breath=有音区間、かつ、SNR(f)<THSNR)
ここで、THSNRは、区間決定部12による処理フレームfが雑音ではないと看做すための閾値(当該閾値を第1閾値と称しても良い)であり、実験的に規定されれば良い。また、区間決定部12は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。区間決定部12は、上述の(数5)と(数6)を用いて検出した有音区間と無音区間を、検出部3を介して抽出部4、ならびに制御部6へ出力する。
・例文1「Since there isn’t much time till delivery.」(単語数=7個)
・例文2「Those who fit our client profile of someone looking for something nicer than mass−produced factory−made products.」(単語数=16個)
・例文3「The digital camera market has expanded tremendously over the past decade.」(単語数=11個)
ここで、上記の例文において、実際に理解に必要となった平均時間は以下の通りとなった。
・例文1=0.8秒
・例文2=2.5秒
・例文3=1.1秒
となった。上記の3つの例文は、有音区間の長さが同じであるが単語数が異なる。また、有音区間の長さが同じにも係らず、入力音声の理解に必要な無音区間の長さに差が出ている状態である。この為、有音区間の長さに応じて無音区間を増減させた場合は、過剰な無音区間が付与されることで音声処理の遅延を招いたり、付与される無音区間が短い為に、入力音声を理解出来ない場合が発生することが明らかになった。
(数7)
f(x)=ax+b
上述の(数7)において、係数aとbは次式で表現されるerrが最小となる値である。
(数8)
上述の(数8)において、X(i)は、i番目の単語数の観測値xであり、Y(i)は、i番目の理解に必要な無音区間の長さの観測値yである。なお、制御部6は、f(x)を、制御部6が有する図示しないキャッシュまたはメモリに予め保持することが出来る。
(実施例2)
(数9)
上述の(数9)において、fは一定時間dt毎に付加される番号であり、(st/dt)≦f≦(et/dt)を満たす全整数である。ここで、s(t)は入力音声、stは有音区間の始点、etは有音区間の終点である。なお、stとetは上述の第1閾値に基づいて適宜設定されれば良い。また、一定時間dtは、例えば、10msに相当するサンプル数である。
(数10)
なお、上述の(数10)において、p’(f)をパワーの急変存在フラグと称しても良い。次に、抽出部4は、次式により、パワーpの変化量が一定値以上となる箇所数をパワーの急変回数Npとして求める。
(数11)
抽出部4は、上述の(数11)により抽出したパワーの急変回数を音響特徴量として算出部5へ出力する。図7は、入力音声のパワーと抽出したパワーの急変回数の関係図である。図7に示すとおり、パワーpの変化量が一定値以上の箇所でパワーの急変が抽出されていることが確認出来る。
(数12)
Nw=Np×α+β
ここで、αとβは、入力音声の1単語に含まれる平均のパワーの急変回数に応じて適宜設定することが出来る定数である。入力音声が英語の場合は、例えば、α=0.63、β=1.6と設定することが出来る。算出部5は、上述の(数12)に基づいて算出した単語数を制御部6に出力する。
図9は、第2の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、抽出部4、算出部5、制御部6、記憶部7を有する。取得部2、検出部3、抽出部4、算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
(数13)
(x、y、s)=(単語数、時間差、語学力試験点数)
(数14)
fn(x)=anx+bn
上述の(数14)において、anとbnは次式のerrが最小となる値である。
(数15)
なお、上述の(数15)において、Y(n、i)は、ランクnのi番目のサンプルのyの値であり、X(n、i)は、ランクnのi番目のサンプルのxの値である。また、Rnは、ランクnのサンプル数である。上述の(数15)により、ランク1〜Nrに対応するfn(x)がそれぞれ記憶部7に予め記憶されることになる。例えば、ユーザが音声処理装置1を使用する際に、ユーザの語学力試験点数が、ユーザにより入力される。制御部6は、ユーザの語学力試験点数を検索キーとして、記憶部7に記憶されている、fn(x)から対応するnのfn(x)を選択する。制御部6は、選択したfn(x)と、単語数に基づいて有音区間の後端に連接する無音区間を増減する。
図10は、第3の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、認識部8、算出部5、制御部6を有する。取得部2、検出部3、算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
図11は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図11に示すように、音声処理装置1は、制御部21、主記憶部22、補助記憶部23、ドライブ装置24、ネットワークI/F部26、入力部27、表示部28を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。
図12は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インターフェース部34、マイク35、スピーカー36、主記憶部22、補助記憶部23を有する。
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
助記憶部23などに記憶されている信号処理プログラムを実行し、例えば、実施例1における音声処理を行う。
タ端末とのインターフェース処理を行う。
(付記1)
入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
を備えることを特徴とする音声処理装置。
(付記2)
ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
前記取得部は、更に前記属性情報を取得し、
前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする付記1に記載の音声処理装置。
(付記3)
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする付記2に記載の音声処理装置。
(付記4)
前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記3に記載の音声処理装置。
(付記5)
前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記1ないし付記4の何れか1つに記載の音声処理装置。
(付記6)
前記音響特徴量は、前記有音区間に含まれるモーラ数又は前記有音区間に含まれるパワーの急変回数であることを特徴とする付記5に記載の音声処理装置。
(付記7)
前記検出部は、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを前記有音区間として検出し、前記第1閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記1ないし付記6の何れか1つに記載の音声処理装置。
(付記8)
前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記1ないし付記7の何れか1つに記載の音声処理装置。
(付記9)
前記取得部は、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記1記載の音声処理装置。
(付記10)
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記算出部は、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記1記載の音声処理装置。
(付記11)
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を含むことを特徴とする音声処理方法。
(付記12)
ユーザの特性に応じた属性情報を記憶することを更に含み、
前記取得することは、前記属性情報を取得し、
前記制御することは、前記属性情報と前記単語数に基づいて前記無音区間の長さを制御することを特徴とする付記11に記載の音声処理方法。
(付記13)
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする付記12に記載の音声処理方法。
(付記14)
前記取得することは、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記13に記載の音声処理方法。
(付記15)
前記有音区間に含まれる音響特徴量を抽出することを更に含み、
前記算出することは、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記14に記載の音声処理方法。
(付記16)
前記音響特徴量は、前記有音区間に含まれるモーラ数または前記有音区間に含まれるパワーの急変回数であることを特徴とする付記11ないし付記15の何れかに記載の音声処理方法。
(付記17)
前記検出することは、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを前記有音区間として検出し、前記第1閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記11ないし付記16の何れか1つに記載の音声処理方法。
(付記18)
前記制御することは、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記11ないし付記17の何れか1つに記載の音声処理方法。
(付記19)
前記取得することは、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記11に記載の音声処理方法。
(付記20)
前記入力音声をテキスト情報として認識することを更に含み、
前記算出することは、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記11に記載の音声処理方法。
(付記21)
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を実行させることを特徴とする音声処理プログラム。
(付記22)
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
前記入力音声を制御した出力信号を出力するスピーカー
を備えることを特徴とする携帯端末装置。
2 取得部
3 検出部
4 抽出部
5 算出部
6 制御部
Claims (10)
- 入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる、単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
を備えることを特徴とする音声処理装置。 - ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
前記取得部は、更に前記属性情報を取得し、
前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする請求項1に記載の音声処理装置。 - 前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする請求項2に記載の音声処理装置。
- 前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする請求項3に記載の音声処理装置。
- 前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする請求項1ないし請求項4の何れか1項に記載の音声処理装置。 - 前記音響特徴量は、前記有音区間に含まれるパワーの時間的な変化量が所定以上となる回数または、前記有音区間に含まれるモーラ数、であることを特徴とする請求項5に記載の音声処理装置。
- 前記検出部は、前記入力音声に含まれるフレームから信号電力対雑音比を算出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを有音フレームとして検出し、前記第1閾値未満の前記フレームを無音フレームとして検出し、前記無音フレームに挟まれる一連の前記有音フレームを前記有音区間として検出し、前記有音フレームに挟まれる一連の前記無音フレームを前記無音区間として検出することを特徴とする請求項1ないし請求項6の何れか1項に記載の音声処理装置。
- 前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする請求項1ないし請求項7の何れか1項に記載の音声処理装置。
- 入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を含むことを特徴とする音声処理方法。 - コンピュータに、
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記に基づいて前記無音区間の長さを制御すること、
を実行させることを特徴とする音声処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013109273A JP6244658B2 (ja) | 2013-05-23 | 2013-05-23 | 音声処理装置、音声処理方法および音声処理プログラム |
US14/269,389 US9443537B2 (en) | 2013-05-23 | 2014-05-05 | Voice processing device and voice processing method for controlling silent period between sound periods |
EP14167181.8A EP2806415B1 (en) | 2013-05-23 | 2014-05-06 | Voice processing device and voice processing method |
CN201410211542.3A CN104183246A (zh) | 2013-05-23 | 2014-05-19 | 语音处理装置及语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013109273A JP6244658B2 (ja) | 2013-05-23 | 2013-05-23 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014228753A true JP2014228753A (ja) | 2014-12-08 |
JP6244658B2 JP6244658B2 (ja) | 2017-12-13 |
Family
ID=50628713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013109273A Expired - Fee Related JP6244658B2 (ja) | 2013-05-23 | 2013-05-23 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9443537B2 (ja) |
EP (1) | EP2806415B1 (ja) |
JP (1) | JP6244658B2 (ja) |
CN (1) | CN104183246A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3091337A1 (en) | 2015-04-23 | 2016-11-09 | Fujitsu Limited | Content reproduction device, content reproduction program, and content reproduction method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313649B (zh) * | 2017-03-24 | 2022-05-31 | 微软技术许可有限责任公司 | 用于聊天机器人的基于语音的知识共享的方法和装置 |
CN107808655B (zh) * | 2017-10-27 | 2021-02-12 | 广州酷狗计算机科技有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN110223711B (zh) * | 2019-06-03 | 2021-06-01 | 清华大学 | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 |
CN110675861B (zh) * | 2019-09-26 | 2022-11-01 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN113436610B (zh) * | 2020-03-23 | 2024-08-20 | 阿里巴巴集团控股有限公司 | 测试方法、装置及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS49130707A (ja) * | 1973-04-16 | 1974-12-14 | ||
JPH03248398A (ja) * | 1990-12-13 | 1991-11-06 | Sharp Corp | デイジタル録音再生機の録音再生方式 |
JPH0876796A (ja) * | 1994-09-06 | 1996-03-22 | Fujitsu Ten Ltd | 音声合成装置 |
JP2000172162A (ja) * | 1998-12-04 | 2000-06-23 | Oki Hokuriku System Kaihatsu:Kk | 語学練習システム |
JP2000194386A (ja) * | 1998-12-24 | 2000-07-14 | Omron Corp | 音声認識応答装置及び方法 |
JP2003323104A (ja) * | 2002-05-02 | 2003-11-14 | Uchida Yoko Co Ltd | 語学学習システム |
WO2010061505A1 (ja) * | 2008-11-27 | 2010-06-03 | 日本電気株式会社 | 発話音声検出装置 |
US20120035922A1 (en) * | 2010-08-05 | 2012-02-09 | Carroll Martin D | Method and apparatus for controlling word-separation during audio playout |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2575125B2 (ja) | 1987-03-02 | 1997-01-22 | キヤノン株式会社 | 言語処理装置 |
JP3327936B2 (ja) | 1991-09-25 | 2002-09-24 | 日本放送協会 | 話速制御型補聴装置 |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5487671A (en) * | 1993-01-21 | 1996-01-30 | Dsp Solutions (International) | Computerized system for teaching speech |
JP3171775B2 (ja) | 1995-11-08 | 2001-06-04 | 富士通テン株式会社 | 音声合成装置 |
JPH10133678A (ja) | 1996-10-30 | 1998-05-22 | Matsushita Electric Ind Co Ltd | 音声再生装置 |
FR2818479B1 (fr) | 2000-12-14 | 2003-03-07 | France Telecom | Procede et systeme de traitement vocal d'une suite de phonemes |
US6885987B2 (en) * | 2001-02-09 | 2005-04-26 | Fastmobile, Inc. | Method and apparatus for encoding and decoding pause information |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP2005258849A (ja) | 2004-03-12 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 談話理解性能評価方法、談話理解性能評価装置、談話理解性能評価プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US20050288923A1 (en) * | 2004-06-25 | 2005-12-29 | The Hong Kong University Of Science And Technology | Speech enhancement by noise masking |
US7689423B2 (en) | 2005-04-13 | 2010-03-30 | General Motors Llc | System and method of providing telematically user-optimized configurable audio |
JP2007213176A (ja) * | 2006-02-08 | 2007-08-23 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP5160594B2 (ja) | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
US8554558B2 (en) * | 2010-07-12 | 2013-10-08 | Nuance Communications, Inc. | Visualizing automatic speech recognition and machine translation output |
JP5149941B2 (ja) | 2010-07-13 | 2013-02-20 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
-
2013
- 2013-05-23 JP JP2013109273A patent/JP6244658B2/ja not_active Expired - Fee Related
-
2014
- 2014-05-05 US US14/269,389 patent/US9443537B2/en not_active Expired - Fee Related
- 2014-05-06 EP EP14167181.8A patent/EP2806415B1/en not_active Not-in-force
- 2014-05-19 CN CN201410211542.3A patent/CN104183246A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS49130707A (ja) * | 1973-04-16 | 1974-12-14 | ||
JPH03248398A (ja) * | 1990-12-13 | 1991-11-06 | Sharp Corp | デイジタル録音再生機の録音再生方式 |
JPH0876796A (ja) * | 1994-09-06 | 1996-03-22 | Fujitsu Ten Ltd | 音声合成装置 |
JP2000172162A (ja) * | 1998-12-04 | 2000-06-23 | Oki Hokuriku System Kaihatsu:Kk | 語学練習システム |
JP2000194386A (ja) * | 1998-12-24 | 2000-07-14 | Omron Corp | 音声認識応答装置及び方法 |
JP2003323104A (ja) * | 2002-05-02 | 2003-11-14 | Uchida Yoko Co Ltd | 語学学習システム |
WO2010061505A1 (ja) * | 2008-11-27 | 2010-06-03 | 日本電気株式会社 | 発話音声検出装置 |
US20120035922A1 (en) * | 2010-08-05 | 2012-02-09 | Carroll Martin D | Method and apparatus for controlling word-separation during audio playout |
Non-Patent Citations (1)
Title |
---|
小柴 侑一 、外2名: "ユーザの発話を利用した聞き取りやすい英語への音声変換手法", 電子情報通信学会技術研究報告, vol. 109, no. 356, JPN6017007712, 14 December 2009 (2009-12-14), JP, pages 147 - 152, ISSN: 0003661978 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3091337A1 (en) | 2015-04-23 | 2016-11-09 | Fujitsu Limited | Content reproduction device, content reproduction program, and content reproduction method |
Also Published As
Publication number | Publication date |
---|---|
US9443537B2 (en) | 2016-09-13 |
EP2806415A1 (en) | 2014-11-26 |
JP6244658B2 (ja) | 2017-12-13 |
EP2806415B1 (en) | 2016-11-02 |
US20140350937A1 (en) | 2014-11-27 |
CN104183246A (zh) | 2014-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6244658B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP6263868B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
US9466291B2 (en) | Voice retrieval device and voice retrieval method for detecting retrieval word from voice data | |
JP5664480B2 (ja) | 異常状態検出装置、電話機、異常状態検出方法、及びプログラム | |
US11587547B2 (en) | Electronic apparatus and method for controlling thereof | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
CN111369976A (zh) | 测试语音识别设备的方法及测试装置 | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
US20170076718A1 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP2015187684A (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US10403289B2 (en) | Voice processing device and voice processing method for impression evaluation | |
JP2015082093A (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
JP6394103B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2014106247A (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2006259641A (ja) | 音声認識装置及び音声認識用プログラム | |
WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
KR20180085654A (ko) | 대화기반 지능형 발표연습 코치 시스템 및 동작 방법 | |
US20190180751A1 (en) | Information processing apparatus, method for processing information, and program | |
JP2015132777A (ja) | 音声処理装置、音声処理方法および音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160226 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20160401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6244658 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |