JP2014228753A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP2014228753A
JP2014228753A JP2013109273A JP2013109273A JP2014228753A JP 2014228753 A JP2014228753 A JP 2014228753A JP 2013109273 A JP2013109273 A JP 2013109273A JP 2013109273 A JP2013109273 A JP 2013109273A JP 2014228753 A JP2014228753 A JP 2014228753A
Authority
JP
Japan
Prior art keywords
section
unit
sound
words
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013109273A
Other languages
English (en)
Other versions
JP6244658B2 (ja
Inventor
千里 石川
Chisato Ishikawa
千里 石川
太郎 外川
Taro Togawa
太郎 外川
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013109273A priority Critical patent/JP6244658B2/ja
Priority to US14/269,389 priority patent/US9443537B2/en
Priority to EP14167181.8A priority patent/EP2806415B1/en
Priority to CN201410211542.3A priority patent/CN104183246A/zh
Publication of JP2014228753A publication Critical patent/JP2014228753A/ja
Application granted granted Critical
Publication of JP6244658B2 publication Critical patent/JP6244658B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】
音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供する。
【解決手段】
音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる有音区間と、有音区間の後端に連接する無音区間を検出する検出部を備える。更に当該音声処理装置は、有音区間に含まれる情報量を算出する算出部と、情報量に基づいて無音区間の長さを制御する制御部を備える。
【選択図】図1

Description

本発明は、例えば、入力信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。
近年、情報処理機器の発達や国際化の進展に伴い、他国語言語のコンテンツを視聴する機会や、パーソナルコンピュータにインストールされる通話アプリケーションを介して他国語言語で通話を行う場面が増加している。この様な状況下において、入力信号の一例となる他国語言語の音声信号を聞き易く制御する方法が開示されている。例えば、音声信号から有音区間を抽出し、有音区間の後ろに無音区間を単純に付加することで、入力音声を理解し易くする技術が開示されている。一般的に、理解が困難な他国語言語においては、ユーザは聞き取った単語を頭の中で復唱する内語反復を実施することが知られている。この為、他国語言語の理解においては、内語反復の為の無音区間の確保が重要となる。
特開平10−133678号公報
篠塚 勝正、「第二言語のリスニング力とワーキングメモリ」、星城大学大学院文学研究科英文学専攻紀要、No.40、2008年
入力音声の理解の為に無音区間を付加する場合、音声処理の遅延が生じることになる。例えば、コンテンツを視聴する場合は、視聴時間が長くなる問題が生じる。また、通話する場合は、音声処理の遅延が生じることにより自然な速度の会話が困難となる問題が生じる。この為、内語反復の為に無音区間を確保する場合においては、音声処理の遅延を抑制することが必要となるが、無音区間の長さと音声処理の遅延量は比例関係にある為、この様な音声処理装置は提唱されていない。本発明においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供することを目的とする。
本発明が開示する音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる有音区間と、有音区間の後端に連接する無音区間を検出する検出部を備える。更に当該音声処理装置は、有音区間に含まれる単語数を算出する算出部と、単語数に基づいて無音区間の長さを制御する制御部を備える。
なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される音声処理装置では、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
第1の実施形態による音声処理装置1の機能ブロック図である。 一つの実施形態による検出部3の機能ブロック図である。 検出部3による有音区間と無音区間の検出結果を示す図である。 音響特徴量の一例となるモーラ数と単語数の関係図である。 有音区間に含まれる単語数と理解に必要な無音区間の長さの関係図である。 音声処理装置1における音声処理のフローチャートである。 入力音声のパワーと抽出したパワーの急変回数の関係図である。 音響特徴量の一例となるパワーの急変回数と単語数の関係図である。 第2の実施形態による音声処理装置1の機能ブロック図である。 第3の実施形態による音声処理装置1の機能ブロック図である。 一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。 一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。
以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、抽出部4、算出部5、制御部6を有する。
取得部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部2は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する。また、取得部2は、例えば、音声処理装置1に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。上述の通り、他国語言語には、内語反復の為に必要な無音区間の確保が重要となるが、母国語言語においても、内語反復の為の無音区間の確保は、(特に高齢者や幼年者のユーザにとって)有効であると想定される為である。実施例1においては、説明の便宜上、ユーザの母国語は日本語であり、入力音声を英語として説明する。取得部2は取得した入力音声を検出部3、抽出部4と制御部6に出力する。
検出部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部3は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部3は、入力音声を取得部2から受け取る。検出部3は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、発話者が発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間(換言すると第1の呼吸と第2呼吸の間の区間、または発話を続けている区間)となる。検出部3は、例えば、入力音声に含まれる複数のフレームから信号電力対雑音比となる平均SNRを検出し、当該平均SNRが所定の条件を満たしている区間を有音区間(換言すると呼気区間)として検出することが出来る。また、検出部3は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。検出部3は、例えば、上述の当該平均SNRが所定の条件を満たさない区間を無音区間(換言すると吸気区間)として検出することが出来る。検出部3は検出した有音区間を抽出部4へ出力し、有音区間と無音区間を制御部6へ出力する。
ここで、検出部3による有音区間と無音区間の検出処理の詳細について説明する。図2は、一つの実施形態による検出部3の機能ブロック図である。検出部3は、音量算出部9、雑音推定部10、平均SNR算出部11、区間決定部12を有する。なお、検出部3は、音量算出部9、雑音推定部10、平均SNR算出部11、区間決定部12を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部3に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。
図2において、入力音声が検出部3を介して音量算出部9に入力される。なお、音量算出部9は、図示しない長さmのバッファまたはキャッシュを有する。音量算出部9は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部10と平均SNR算出部11へ出力する。なお、入力音声に含まれる各フレーム長は、例えば0.2msecである。各フレームの音量Sは、次式の通り、算出することが出来る。
(数1)

Figure 2014228753

ここで、fは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(fは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部10は、各フレームの音量S(f)を音量算出部9から受け取る。雑音推定部10は、各フレームにおける雑音を推定して、雑音推定結果を平均SNR算出部11へ出力する。ここで、雑音推定部10による各フレームの雑音推定は、例えば、以下の(雑音推定方法1)または、(雑音推定方法2)を用いることが出来る。
(雑音推定方法1)
雑音推定部10は、フレームfにおける雑音の大きさ(電力)N(f)を、フレームfにおける音量S(f)、前フレーム(f−1)における音量S(f−1)ならびに、雑音の大きさN(f−1)に基づいて、次式を用いて推定することが出来る。
(数2)

Figure 2014228753

ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(f−1)も、実験的に決定されれば良い。上述の(数2)において、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化しない場合には、フレームfの雑音電力N(f)が更新される。一方、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化する場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。なお、雑音電力N(f)を上述の雑音推定結果と称しても良い。
(雑音推定方法2)
雑音推定部10は、雑音の大きさの更新を、次式の(数3)を用いて、フレームfの音量S(f)と、1つ前のフレームf−1の雑音電力N(f−1)との比に基づいて実施しても良い。
(数3)

Figure 2014228753

ここで、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(f−1)も、実験的に決定されれば良い。上述の(数3)において、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以下である場合には、フレームfの雑音電力N(f)を更新する。一方、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以上である場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。
図2において、平均SNR算出部11は、音量算出部9から各フレームの音量S(f)を受け取り、雑音推定部10から雑音推定結果となる各フレームの雑音電力N(f)を受け取る。なお、平均SNR算出部11は、図示しないキャッシュまたはメモリを有しており、過去Lフレーム分の音量S(f)、雑音電力N(f)を保持する。平均SNR算出部11は、次式を用いて、分析対象時間(フレーム)内の平均SNRを算出し、当該平均SNRを区間決定部12へ出力する。
(数4)

Figure 2014228753

ここで、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
区間決定部12は、平均SNRを平均SNR算出部11から受け取る。区間決定部12は、図示しないバッファまたはキャッシュを有しており、区間決定部12による前処理フレームが、有音区間内(換言すると呼気区間内)であるか否かを示すフラグf_breathを保持する。区間決定部12は、平均SNRとf_breathに基づいて、次式の(数5)を用いて有音区間の始端tbを検出し、次式の(数6)に用いて有音区間の終端teを検出する。
(数5)
tb=f×M
(if f_breath=有音区間ではない、かつ、SNR(f)>THSNR)
(数6)
te=f×M−1
(if f_breath=有音区間、かつ、SNR(f)<THSNR)
ここで、THSNRは、区間決定部12による処理フレームfが雑音ではないと看做すための閾値(当該閾値を第1閾値と称しても良い)であり、実験的に規定されれば良い。また、区間決定部12は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。区間決定部12は、上述の(数5)と(数6)を用いて検出した有音区間と無音区間を、検出部3を介して抽出部4、ならびに制御部6へ出力する。
図3は、検出部3による有音区間と無音区間の検出結果を示す図である。図3の横軸は時間を示し、縦軸は入力音声の音量(振幅)を示している。なお、有音区間は、「Thank you for calling Leather Luxury」、「Tim speaking」、「How can I help you?」と発話された各区間から検出される。また、各有音区間の後端に連接する区間が無音区間として検出される。図3に示される通り、実施例1に開示する検出部3による有音区間の検出においては、背景騒音に合わせて雑音を学習し、SNRに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均SNRを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。
図1において、抽出部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、抽出部4は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。抽出部4は、入力音声を取得部2から受け取り、有音区間を検出部3から受け取る。抽出部4は、有音区間に含まれる入力音声の音響特徴量を抽出する。ここで、音響特徴量とは、例えば、モーラ(母音)数や、パワーの時間的な変化量が所定以上となる回数が挙げられる。なお、パワーの時間的な変化量が所定以上となる回数を以降パワーの急変回数と称す。
モーラ数の認識は、様々な公知技術を用いることが可能である。例えば、“牧野ほか、「母音間の相対位置関係に着目した連続音声中の母音部の認識」、電子情報通信学会論文誌、D Vol.J72-D2 No.6、pp.837−845”ならびに、“シンガーほか、「ピッチとスペクトルの相関を用いたHMM音素認識、テレビジョン学会技術報告、15(54)、15−20、1991−09−27」”などに開示される手法等を用いることが出来る。抽出部4は、有音区間に含まれるモーラ数を音響特徴量として算出部5へ出力する。
算出部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部5は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部5は、検出部3にて検出された有音区間に含まれる音響特徴量を抽出部4から受け取る。算出部5は、有音区間に含まれる、単語数を音響特徴量に基づいて算出する。図4は、音響特徴量の一例となるモーラ数と単語数の関係図である。図4においては、複数の例文から単語数と、各単語に対応付けられるモーラ数を手動で抽出した関係図を示している。図4に示す通り、単語数とモーラ数の相関係数Rの値は、0.8以上で強い相関関係であることが本発明者らの検証によって明らかになった。算出部5は、例えば、算出部5が有する図示しないキャッシュ、またはメモリに単語数とモーラ数の対応テーブルを保持し、当該対応テーブルを参照することで、有音区間に含まれる単語数を算出することが出来る。算出部5は、算出した単語数を制御部6へ出力する。
図1の制御部6は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部6は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部6は、入力音声を取得部2から受け取り、有音区間と無音区間を検出部3から受け取る。また、制御部6は、単語数を算出部5から受け取る。制御部6は、単語数に基づいて無音区間を制御する。具体的には、制御部6は、単語数が多いほど無音区間を長くし、単語数が少ないほど無音区間を短くする。
ここで、実施例1における単語数に基づいて無音区間を制御する技術的意義について説明する。本発明者らは、入力音声を理解する為に必要となる無音区間の長さについて検証する為に、以下の実証実験を行った。先ず、複数の被験者に対して、有音区間の長さ(発話時間)がほぼ同等(8秒程度)であり、単語数が異なる以下の3つの例文をヒアリングさせた。
・例文1「Since there isn’t much time till delivery.」(単語数=7個)
・例文2「Those who fit our client profile of someone looking for something nicer than mass−produced factory−made products.」(単語数=16個)
・例文3「The digital camera market has expanded tremendously over the past decade.」(単語数=11個)
ここで、上記の例文において、実際に理解に必要となった平均時間は以下の通りとなった。
・例文1=0.8秒
・例文2=2.5秒
・例文3=1.1秒
となった。上記の3つの例文は、有音区間の長さが同じであるが単語数が異なる。また、有音区間の長さが同じにも係らず、入力音声の理解に必要な無音区間の長さに差が出ている状態である。この為、有音区間の長さに応じて無音区間を増減させた場合は、過剰な無音区間が付与されることで音声処理の遅延を招いたり、付与される無音区間が短い為に、入力音声を理解出来ない場合が発生することが明らかになった。
また、本発明者らの鋭意検証により以下の知見も明らかとなった。図5は、有音区間に含まれる単語数と理解に必要な無音区間の長さの関係図である。図5においては、様々な例文、または、例文の節、句における単語数と、実際に被験者の理解に必要となった無音区間の長さの関係図を示している。また、話速の影響についても考察する為に、同一の例文で話速を変化させた場合の、有音区間に含まれる単語数と理解に必要な無音区間の長さの関係を示している。図5に示す通り、理解に必要な無音区間の長さは、話速には依存せずに単語数に比例する関係にあることが本発明者らの検証により明らかになった。この為、単語数に応じた無音区間の長さの制御を行うことで、冗長な無音区間を削減でき、必要となる無音区間を適切に付与することが出来る。例えば、図4に示す各サンプルをパラメータとし、最小二乗法を用いる次式の係数a、bを算出することが出来る。
(数7)
f(x)=ax+b
上述の(数7)において、係数aとbは次式で表現されるerrが最小となる値である。
(数8)

Figure 2014228753

上述の(数8)において、X(i)は、i番目の単語数の観測値xであり、Y(i)は、i番目の理解に必要な無音区間の長さの観測値yである。なお、制御部6は、f(x)を、制御部6が有する図示しないキャッシュまたはメモリに予め保持することが出来る。
制御部6は、有音区間に含まれる単語数であるx’を用いて、有音区間の後端に連接する無音区間がf(x’)となるように制御する。この為、音声処理の遅延を抑制しつつ、ユーザの入力音声に理解度を向上させることが可能となる音声処理装置を提供することが可能となる。制御部6は、制御した無音区間を含む制御信号を出力信号として外部へ出力する。制御部6は、出力信号を、例えば、音声処理装置1に接続または配置される、図示しないスピーカーへ出力することが可能である。
図6は、音声処理装置1における音声処理のフローチャートである。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する(ステップS601)。また、取得部2は、例えば、音声処理装置1に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。取得部2は取得した入力音声を検出部3、抽出部4と制御部6に出力する。
検出部3は、入力音声を取得部2から受け取る。検出部3は、入力音声に含まれる有音区間を示す呼気区間を上述の方法を用いて検出する(ステップS602)。検出部3は検出した有音区間を抽出部4へ出力し、有音区間と無音区間を制御部6へ出力する。
抽出部4は、入力音声を取得部2から受け取り、有音区間を検出部3から受け取る。抽出部4は、有音区間に含まれる入力音声の音響特徴量を上述の方法を用いて抽出する(ステップS603)。ここで、音響特徴量とは、例えば、モーラ数やパワーの急変回数が挙げられる。抽出部4は、有音区間に含まれる音響特徴量として算出部5へ出力する。
算出部5は、検出部3にて検出された有音区間に含まれる音韻特徴量を抽出部4から受け取る。算出部5は、有音区間に含まれる単語数を音響特徴量に基づいて上述の方法を用いて算出する(ステップS604)。算出部5は、算出した単語数を制御部6へ出力する。
制御部6は、入力音声を取得部2から受け取り、有音区間と無音区間を検出部3から受け取る。また、制御部6は、単語数を算出部5から受け取る。制御部6は、単語数に基づいて無音区間を制御する(ステップS605)。具体的には、制御部6は、単語数x’と無音区間の長さの関係式であるf(x)に基づいて、無音区間の長さを制御する。ステップS605の処理が完了した時点で取得部2が入力音声を取得している場合は、音声処理装置1は、ステップS601〜S605の処理を繰り返す。ステップS605の処理が完了した時点で取得部2が入力音声を取得していない場合は、音声処理装置1は、図6のフローチャートに示す音声処理を終了する。
実施例1における音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
(実施例2)
実施例1においては、モーラ数を音響特徴量とした音声処理装置、音声処理方法及び音声処理プログラムについて説明したが、実施例2においては、パワーの急変回数を音響特徴量とした音声処理装置、音声処理方法及び音声処理プログラムについて説明する。実施例2における音声処理装置1の機能ブロック図は図1と同様である為、実施例1と異なる処理についてのみ説明する。抽出部4は、有音区間において一定時間内に、入力音声のパワーが一定以上上昇する箇所をパワーの急変箇所として抽出し、有音区間内のパワーの急変回数を求める。抽出部4は、検出部3から受け取る有音区間の一定時間dtごとのパワーpを次式に基づいて算出する。
(数9)

Figure 2014228753

上述の(数9)において、fは一定時間dt毎に付加される番号であり、(st/dt)≦f≦(et/dt)を満たす全整数である。ここで、s(t)は入力音声、stは有音区間の始点、etは有音区間の終点である。なお、stとetは上述の第1閾値に基づいて適宜設定されれば良い。また、一定時間dtは、例えば、10msに相当するサンプル数である。
次に、抽出部4は、次式により、パワーpの変化量が一定値以上であるか否かを求める。
(数10)

Figure 2014228753

なお、上述の(数10)において、p’(f)をパワーの急変存在フラグと称しても良い。次に、抽出部4は、次式により、パワーpの変化量が一定値以上となる箇所数をパワーの急変回数Npとして求める。
(数11)

Figure 2014228753

抽出部4は、上述の(数11)により抽出したパワーの急変回数を音響特徴量として算出部5へ出力する。図7は、入力音声のパワーと抽出したパワーの急変回数の関係図である。図7に示すとおり、パワーpの変化量が一定値以上の箇所でパワーの急変が抽出されていることが確認出来る。
図8は、音響特徴量の一例となるパワーの急変回数と単語数の関係図である。図8においては、複数の例文から単語数と、各単語に対応付けられるパワーの急変回数を手動で抽出した関係図を示している。図8に示す通り、単語数とパワーの急変回数の相関係数Rの値は、0.8以上で強い相関関係であることが本発明者らの検証によって明らかになった。この相関関係を用いて算出部5は単語数を算出することが出来る。例えば、算出部5は、抽出部4から受け取ったパワーの急変回数(Np)と次式を用いて推定単語数Nwを算出することが出来る。
(数12)
Nw=Np×α+β
ここで、αとβは、入力音声の1単語に含まれる平均のパワーの急変回数に応じて適宜設定することが出来る定数である。入力音声が英語の場合は、例えば、α=0.63、β=1.6と設定することが出来る。算出部5は、上述の(数12)に基づいて算出した単語数を制御部6に出力する。
実施例2による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
(実施例3)
図9は、第2の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、抽出部4、算出部5、制御部6、記憶部7を有する。取得部2、検出部3、抽出部4、算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
記憶部7は、例えば、フラッシュメモリ(flash memory)などの半導体メモリ素子、または、HDD(hard disk drive)、光ディスクなどの記憶装置である。なお、記憶部7は、上記の種類の記憶装置に限定されるものではなく、RAM(random access memory)、ROM(read only memory)であってもよい。記憶部7には、例えば、ユーザの特性に応じた属性情報や、既定の単語数を含んだ音声等の各種データが、必要に応じて記憶される。なお、記憶部7は、必ずしも音声処理装置1に含まれる必要はない。例えば、当該各種データは、音声処理装置1に含まれる各機能部の図示しないキャッシュやメモリ等に、分散または統合した状態で記憶しても良い。また、音声処理装置1に設けられる図示しない通信ユニットを用いて通信回線を介することによって、記憶部7を音声処理装置1以外の外部装置に設けることも可能である。
ユーザの特性に応じた属性情報の第1の例は、例えば、ユーザの他国語言語に対する理解力である。理解力を示す値として、語学力試験点数を用いた例を示すが、語学力試験点数の代わりに語学学習期間長や年齢を用いても良い点を留意されたい。音声処理装置1は、以下の処理を事前に実施する。先ず、任意の語学力試験点数が異なる多数の被験者に、単語数が異なる複数の例文を聴かせて、理解に要した無音時間を計測する。そして単語数と無音時間と語学力試験点数をセットで次式に示す1サンプルとする。
(数13)
(x、y、s)=(単語数、時間差、語学力試験点数)
次に、語学力試験点数sに基づいてサンプルをNr段階のランクに分ける。そして、ランクnの全サンプルを用いて、最小二乗法で次式の係数a、b(但し、n=1、2、…、Nr)を算出する。
(数14)
(x)=ax+b
上述の(数14)において、aとbは次式のerrが最小となる値である。
(数15)

Figure 2014228753

なお、上述の(数15)において、Y(n、i)は、ランクnのi番目のサンプルのyの値であり、X(n、i)は、ランクnのi番目のサンプルのxの値である。また、Rnは、ランクnのサンプル数である。上述の(数15)により、ランク1〜Nrに対応するf(x)がそれぞれ記憶部7に予め記憶されることになる。例えば、ユーザが音声処理装置1を使用する際に、ユーザの語学力試験点数が、ユーザにより入力される。制御部6は、ユーザの語学力試験点数を検索キーとして、記憶部7に記憶されている、f(x)から対応するnのf(x)を選択する。制御部6は、選択したf(x)と、単語数に基づいて有音区間の後端に連接する無音区間を増減する。
ユーザの特性に応じた属性情報の第2の例は、例えば、ユーザの他国語言語に対する理解力である。ユーザが音声処理装置1を使用中において、他のユーザやコンテンツの入力音声が理解出来ない場合は、取得部2に接続される、図示しないボタンなどによる操作部を押下する。ユーザは入力音声を理解出来た時点で再度操作部を押下する。当該押下の時間差を理解に必要な無音区間の長さとし、上述の(数7)を補正しても良い。また、入力音声は、記憶部7に記憶される既定の単語数を含んだ音声でも良い。この場合、単語数は既に既知の為、抽出部4による音響特徴量の抽出処理や、算出部5による単語数の算出処理が不要となる為、音声処理装置1の処理負荷を更に低減させることが可能となる。
実施例3による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、実施例2による音声処理装置においては、ユーザの特性に応じた音声処理を実行したり、処理負荷を低減させることが可能となる。
(実施例4)
図10は、第3の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、認識部8、算出部5、制御部6を有する。取得部2、検出部3、算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
認識部8は、例えば、ワイヤードロジックによるハードウェア回路である。また、認識部8は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。認識部8は、入力音声を取得部2から受け取り、有音区間を検出部3から受け取る。認識部8は、入力音声の有音区間をテキスト情報として認識する。具体的には、認識部8は、入力音声の音声認識方法として、例えば、特許第5160594号記載の音声認識方法を適用することが可能である。また、認識部8は、有音区間に含まれる単語ごとに音声認識を行う特許第5149941号に開示される音声認識を適用し、認識過程である単語集合の単語数を得ても良い。また、認識部8は、上述の音声認識方法において、テキスト情報を得た場合、例えば特許第2575125号記載の言語処理方法を利用し、テキスト情報に含まれる単語数を認識することが出来る。認識部8は、認識した単語数を制御部6へ出力する。
実施例4による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、実施例4による音声処理装置においては、テキスト情報に含まれる単語数を認識している為、単語数の算出精度を向上させることが可能となり、より適切に無音区間の長さを制御することが可能となる。
(実施例5)
図11は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図11に示すように、音声処理装置1は、制御部21、主記憶部22、補助記憶部23、ドライブ装置24、ネットワークI/F部26、入力部27、表示部28を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。
制御部21は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部21は、主記憶部22や補助記憶部23に記憶されたプログラムを実行する演算装置であり、入力部27や記憶装置からデータを受け取り、演算、加工した上で、表示部28記憶装置などに出力する。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。
補助記憶部23は、HDDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置24は、記録媒体25、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部23にインストールする。
また、記録媒体25に、所定のプログラムを格納し、この記録媒体25に格納されたプログラムはドライブ装置24を介して音声処理装置1にインストールされる。インストールされた所定のプログラムは、音声処理装置1により実行可能となる。
ネットワークI/F部26は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器と音声処理装置1とのインターフェースである。
入力部27は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部28の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部27は、ユーザが制御部21に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部28は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等により構成され、制御部21から入力される表示データに応じた表示が行われる。
なお、上述した音声処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した音声処理方法を実現することができる。
また、このプログラムを記録媒体25に記録し、このプログラムが記録された記録媒体25をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体25は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
(実施例6)
図12は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インターフェース部34、マイク35、スピーカー36、主記憶部22、補助記憶部23を有する。
アンテナ31は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
ベースバンド処理部33は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
制御部21は、制御信号の送受信などの無線制御を行う。また、制御部21は、補
助記憶部23などに記憶されている信号処理プログラムを実行し、例えば、実施例1における音声処理を行う。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部23は、HDDやSSDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
端末インターフェース部34は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインターフェース処理を行う。
マイク35は、発話者の音声を含む周囲の音を入力し、マイク信号として制御部21に出力する。スピーカー36は、出力信号として制御部21から出力された信号を出力する。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
を備えることを特徴とする音声処理装置。
(付記2)
ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
前記取得部は、更に前記属性情報を取得し、
前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする付記1に記載の音声処理装置。
(付記3)
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする付記2に記載の音声処理装置。
(付記4)
前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記3に記載の音声処理装置。
(付記5)
前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記1ないし付記4の何れか1つに記載の音声処理装置。
(付記6)
前記音響特徴量は、前記有音区間に含まれるモーラ数又は前記有音区間に含まれるパワーの急変回数であることを特徴とする付記5に記載の音声処理装置。
(付記7)
前記検出部は、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを前記有音区間として検出し、前記第1閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記1ないし付記6の何れか1つに記載の音声処理装置。
(付記8)
前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記1ないし付記7の何れか1つに記載の音声処理装置。
(付記9)
前記取得部は、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記1記載の音声処理装置。
(付記10)
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記算出部は、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記1記載の音声処理装置。
(付記11)
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を含むことを特徴とする音声処理方法。
(付記12)
ユーザの特性に応じた属性情報を記憶することを更に含み、
前記取得することは、前記属性情報を取得し、
前記制御することは、前記属性情報と前記単語数に基づいて前記無音区間の長さを制御することを特徴とする付記11に記載の音声処理方法。
(付記13)
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする付記12に記載の音声処理方法。
(付記14)
前記取得することは、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記13に記載の音声処理方法。
(付記15)
前記有音区間に含まれる音響特徴量を抽出することを更に含み、
前記算出することは、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記14に記載の音声処理方法。
(付記16)
前記音響特徴量は、前記有音区間に含まれるモーラ数または前記有音区間に含まれるパワーの急変回数であることを特徴とする付記11ないし付記15の何れかに記載の音声処理方法。
(付記17)
前記検出することは、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを前記有音区間として検出し、前記第1閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記11ないし付記16の何れか1つに記載の音声処理方法。
(付記18)
前記制御することは、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記11ないし付記17の何れか1つに記載の音声処理方法。
(付記19)
前記取得することは、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記11に記載の音声処理方法。
(付記20)
前記入力音声をテキスト情報として認識することを更に含み、
前記算出することは、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記11に記載の音声処理方法。
(付記21)
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を実行させることを特徴とする音声処理プログラム。
(付記22)
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
前記入力音声を制御した出力信号を出力するスピーカー
を備えることを特徴とする携帯端末装置。
1 音声処理装置
2 取得部
3 検出部
4 抽出部
5 算出部
6 制御部

Claims (10)

  1. 入力音声を取得する取得部と、
    前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
    前記有音区間に含まれる、単語数を算出する算出部と、
    前記単語数に基づいて前記無音区間の長さを制御する制御部と、
    を備えることを特徴とする音声処理装置。
  2. ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
    前記取得部は、更に前記属性情報を取得し、
    前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする請求項1に記載の音声処理装置。
  3. 前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか1つであることを特徴とする請求項2に記載の音声処理装置。
  4. 前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする請求項3に記載の音声処理装置。
  5. 前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
    前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする請求項1ないし請求項4の何れか1項に記載の音声処理装置。
  6. 前記音響特徴量は、前記有音区間に含まれるパワーの時間的な変化量が所定以上となる回数または、前記有音区間に含まれるモーラ数、であることを特徴とする請求項5に記載の音声処理装置。
  7. 前記検出部は、前記入力音声に含まれるフレームから信号電力対雑音比を算出し、前記信号電力対雑音比が所定の第1閾値以上の前記フレームを有音フレームとして検出し、前記第1閾値未満の前記フレームを無音フレームとして検出し、前記無音フレームに挟まれる一連の前記有音フレームを前記有音区間として検出し、前記有音フレームに挟まれる一連の前記無音フレームを前記無音区間として検出することを特徴とする請求項1ないし請求項6の何れか1項に記載の音声処理装置。
  8. 前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする請求項1ないし請求項7の何れか1項に記載の音声処理装置。
  9. 入力音声を取得し、
    前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
    前記有音区間に含まれる単語数を算出し、
    前記単語数に基づいて前記無音区間の長さを制御すること、
    を含むことを特徴とする音声処理方法。
  10. コンピュータに、
    入力音声を取得し、
    前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
    前記有音区間に含まれる単語数を算出し、
    前記に基づいて前記無音区間の長さを制御すること、
    を実行させることを特徴とする音声処理プログラム。
JP2013109273A 2013-05-23 2013-05-23 音声処理装置、音声処理方法および音声処理プログラム Expired - Fee Related JP6244658B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013109273A JP6244658B2 (ja) 2013-05-23 2013-05-23 音声処理装置、音声処理方法および音声処理プログラム
US14/269,389 US9443537B2 (en) 2013-05-23 2014-05-05 Voice processing device and voice processing method for controlling silent period between sound periods
EP14167181.8A EP2806415B1 (en) 2013-05-23 2014-05-06 Voice processing device and voice processing method
CN201410211542.3A CN104183246A (zh) 2013-05-23 2014-05-19 语音处理装置及语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013109273A JP6244658B2 (ja) 2013-05-23 2013-05-23 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2014228753A true JP2014228753A (ja) 2014-12-08
JP6244658B2 JP6244658B2 (ja) 2017-12-13

Family

ID=50628713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013109273A Expired - Fee Related JP6244658B2 (ja) 2013-05-23 2013-05-23 音声処理装置、音声処理方法および音声処理プログラム

Country Status (4)

Country Link
US (1) US9443537B2 (ja)
EP (1) EP2806415B1 (ja)
JP (1) JP6244658B2 (ja)
CN (1) CN104183246A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3091337A1 (en) 2015-04-23 2016-11-09 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109313649B (zh) * 2017-03-24 2022-05-31 微软技术许可有限责任公司 用于聊天机器人的基于语音的知识共享的方法和装置
CN107808655B (zh) * 2017-10-27 2021-02-12 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110223711B (zh) * 2019-06-03 2021-06-01 清华大学 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN110675861B (zh) * 2019-09-26 2022-11-01 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质
CN113436610B (zh) * 2020-03-23 2024-08-20 阿里巴巴集团控股有限公司 测试方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS49130707A (ja) * 1973-04-16 1974-12-14
JPH03248398A (ja) * 1990-12-13 1991-11-06 Sharp Corp デイジタル録音再生機の録音再生方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JP2000172162A (ja) * 1998-12-04 2000-06-23 Oki Hokuriku System Kaihatsu:Kk 語学練習システム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2003323104A (ja) * 2002-05-02 2003-11-14 Uchida Yoko Co Ltd 語学学習システム
WO2010061505A1 (ja) * 2008-11-27 2010-06-03 日本電気株式会社 発話音声検出装置
US20120035922A1 (en) * 2010-08-05 2012-02-09 Carroll Martin D Method and apparatus for controlling word-separation during audio playout

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2575125B2 (ja) 1987-03-02 1997-01-22 キヤノン株式会社 言語処理装置
JP3327936B2 (ja) 1991-09-25 2002-09-24 日本放送協会 話速制御型補聴装置
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
US5487671A (en) * 1993-01-21 1996-01-30 Dsp Solutions (International) Computerized system for teaching speech
JP3171775B2 (ja) 1995-11-08 2001-06-04 富士通テン株式会社 音声合成装置
JPH10133678A (ja) 1996-10-30 1998-05-22 Matsushita Electric Ind Co Ltd 音声再生装置
FR2818479B1 (fr) 2000-12-14 2003-03-07 France Telecom Procede et systeme de traitement vocal d'une suite de phonemes
US6885987B2 (en) * 2001-02-09 2005-04-26 Fastmobile, Inc. Method and apparatus for encoding and decoding pause information
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP2005258849A (ja) 2004-03-12 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 談話理解性能評価方法、談話理解性能評価装置、談話理解性能評価プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US7689423B2 (en) 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
JP5160594B2 (ja) 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置および音声認識方法
US8554558B2 (en) * 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
JP5149941B2 (ja) 2010-07-13 2013-02-20 日本電信電話株式会社 音声認識方法とその装置とプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS49130707A (ja) * 1973-04-16 1974-12-14
JPH03248398A (ja) * 1990-12-13 1991-11-06 Sharp Corp デイジタル録音再生機の録音再生方式
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JP2000172162A (ja) * 1998-12-04 2000-06-23 Oki Hokuriku System Kaihatsu:Kk 語学練習システム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2003323104A (ja) * 2002-05-02 2003-11-14 Uchida Yoko Co Ltd 語学学習システム
WO2010061505A1 (ja) * 2008-11-27 2010-06-03 日本電気株式会社 発話音声検出装置
US20120035922A1 (en) * 2010-08-05 2012-02-09 Carroll Martin D Method and apparatus for controlling word-separation during audio playout

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小柴 侑一 、外2名: "ユーザの発話を利用した聞き取りやすい英語への音声変換手法", 電子情報通信学会技術研究報告, vol. 109, no. 356, JPN6017007712, 14 December 2009 (2009-12-14), JP, pages 147 - 152, ISSN: 0003661978 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3091337A1 (en) 2015-04-23 2016-11-09 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Also Published As

Publication number Publication date
US9443537B2 (en) 2016-09-13
EP2806415A1 (en) 2014-11-26
JP6244658B2 (ja) 2017-12-13
EP2806415B1 (en) 2016-11-02
US20140350937A1 (en) 2014-11-27
CN104183246A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
JP6244658B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6263868B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US9466291B2 (en) Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US11587547B2 (en) Electronic apparatus and method for controlling thereof
US20140337024A1 (en) Method and system for speech command detection, and information processing system
CN111369976A (zh) 测试语音识别设备的方法及测试装置
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US20170076718A1 (en) Methods and apparatus for speech recognition using a garbage model
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
JP2015082093A (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2014106247A (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
KR20180085654A (ko) 대화기반 지능형 발표연습 코치 시스템 및 동작 방법
US20190180751A1 (en) Information processing apparatus, method for processing information, and program
JP2015132777A (ja) 音声処理装置、音声処理方法および音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171030

R150 Certificate of patent or registration of utility model

Ref document number: 6244658

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees