JP2014228753A

JP2014228753A - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP2014228753A
Application number: JP2013109273A
Authority: JP
Inventors: 千里石川; Chisato Ishikawa; 太郎外川; Taro Togawa; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2014-12-08
Anticipated expiration: 2033-05-23
Also published as: EP2806415A1; CN104183246A; JP6244658B2; EP2806415B1; US20140350937A1; US9443537B2

Abstract

【課題】音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供する。【解決手段】音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる有音区間と、有音区間の後端に連接する無音区間を検出する検出部を備える。更に当該音声処理装置は、有音区間に含まれる情報量を算出する算出部と、情報量に基づいて無音区間の長さを制御する制御部を備える。【選択図】図１

Description

本発明は、例えば、入力信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。

近年、情報処理機器の発達や国際化の進展に伴い、他国語言語のコンテンツを視聴する機会や、パーソナルコンピュータにインストールされる通話アプリケーションを介して他国語言語で通話を行う場面が増加している。この様な状況下において、入力信号の一例となる他国語言語の音声信号を聞き易く制御する方法が開示されている。例えば、音声信号から有音区間を抽出し、有音区間の後ろに無音区間を単純に付加することで、入力音声を理解し易くする技術が開示されている。一般的に、理解が困難な他国語言語においては、ユーザは聞き取った単語を頭の中で復唱する内語反復を実施することが知られている。この為、他国語言語の理解においては、内語反復の為の無音区間の確保が重要となる。

特開平１０−１３３６７８号公報

篠塚勝正、「第二言語のリスニング力とワーキングメモリ」、星城大学大学院文学研究科英文学専攻紀要、Ｎｏ.４０、２００８年

入力音声の理解の為に無音区間を付加する場合、音声処理の遅延が生じることになる。例えば、コンテンツを視聴する場合は、視聴時間が長くなる問題が生じる。また、通話する場合は、音声処理の遅延が生じることにより自然な速度の会話が困難となる問題が生じる。この為、内語反復の為に無音区間を確保する場合においては、音声処理の遅延を抑制することが必要となるが、無音区間の長さと音声処理の遅延量は比例関係にある為、この様な音声処理装置は提唱されていない。本発明においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供することを目的とする。

本発明が開示する音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる有音区間と、有音区間の後端に連接する無音区間を検出する検出部を備える。更に当該音声処理装置は、有音区間に含まれる単語数を算出する算出部と、単語数に基づいて無音区間の長さを制御する制御部を備える。

なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示される音声処理装置では、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。

第１の実施形態による音声処理装置１の機能ブロック図である。一つの実施形態による検出部３の機能ブロック図である。検出部３による有音区間と無音区間の検出結果を示す図である。音響特徴量の一例となるモーラ数と単語数の関係図である。有音区間に含まれる単語数と理解に必要な無音区間の長さの関係図である。音声処理装置１における音声処理のフローチャートである。入力音声のパワーと抽出したパワーの急変回数の関係図である。音響特徴量の一例となるパワーの急変回数と単語数の関係図である。第２の実施形態による音声処理装置１の機能ブロック図である。第３の実施形態による音声処理装置１の機能ブロック図である。一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。一つの実施形態による携帯端末装置３０として機能するハードウェア構成図である。

以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。

（実施例１）
図１は、第１の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、抽出部４、算出部５、制御部６を有する。

取得部２は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部２は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部２は、入力音声を、例えば、有線回路または無線回路を介して取得する。また、取得部２は、例えば、音声処理装置１に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。上述の通り、他国語言語には、内語反復の為に必要な無音区間の確保が重要となるが、母国語言語においても、内語反復の為の無音区間の確保は、（特に高齢者や幼年者のユーザにとって）有効であると想定される為である。実施例１においては、説明の便宜上、ユーザの母国語は日本語であり、入力音声を英語として説明する。取得部２は取得した入力音声を検出部３、抽出部４と制御部６に出力する。

検出部３は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部３は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部３は、入力音声を取得部２から受け取る。検出部３は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、発話者が発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間（換言すると第１の呼吸と第２呼吸の間の区間、または発話を続けている区間）となる。検出部３は、例えば、入力音声に含まれる複数のフレームから信号電力対雑音比となる平均ＳＮＲを検出し、当該平均ＳＮＲが所定の条件を満たしている区間を有音区間（換言すると呼気区間）として検出することが出来る。また、検出部３は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。検出部３は、例えば、上述の当該平均ＳＮＲが所定の条件を満たさない区間を無音区間（換言すると吸気区間）として検出することが出来る。検出部３は検出した有音区間を抽出部４へ出力し、有音区間と無音区間を制御部６へ出力する。

ここで、検出部３による有音区間と無音区間の検出処理の詳細について説明する。図２は、一つの実施形態による検出部３の機能ブロック図である。検出部３は、音量算出部９、雑音推定部１０、平均ＳＮＲ算出部１１、区間決定部１２を有する。なお、検出部３は、音量算出部９、雑音推定部１０、平均ＳＮＲ算出部１１、区間決定部１２を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部３に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。

図２において、入力音声が検出部３を介して音量算出部９に入力される。なお、音量算出部９は、図示しない長さｍのバッファまたはキャッシュを有する。音量算出部９は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部１０と平均ＳＮＲ算出部１１へ出力する。なお、入力音声に含まれる各フレーム長は、例えば０．２ｍｓｅｃである。各フレームの音量Ｓは、次式の通り、算出することが出来る。
（数１）

ここで、ｆは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号（ｆは０以上の整数）、Ｍは１フレームの時間長、ｔは時間、ｃ（ｔ）は、入力音声の振幅（電力）を示す。

雑音推定部１０は、各フレームの音量Ｓ（ｆ）を音量算出部９から受け取る。雑音推定部１０は、各フレームにおける雑音を推定して、雑音推定結果を平均ＳＮＲ算出部１１へ出力する。ここで、雑音推定部１０による各フレームの雑音推定は、例えば、以下の（雑音推定方法１）または、（雑音推定方法２）を用いることが出来る。

（雑音推定方法１）
雑音推定部１０は、フレームｆにおける雑音の大きさ（電力）Ｎ(ｆ)を、フレームｆにおける音量Ｓ（ｆ）、前フレーム(ｆ−１）における音量Ｓ（ｆ−１）ならびに、雑音の大きさＮ（ｆ−１）に基づいて、次式を用いて推定することが出来る。
（数２）

ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α＝０．９、β＝２．０であれば良い。また、雑音電力の初期値Ｎ（ｆ−１）も、実験的に決定されれば良い。上述の（数２）において、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の音量Ｓ（ｆ−１）に対して一定値β以上変化しない場合には、フレームｆの雑音電力Ｎ（ｆ）が更新される。一方、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の音量Ｓ（ｆ−１）に対して一定値β以上変化する場合には、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）をフレームｆの雑音電力Ｎ（ｆ）とする。なお、雑音電力Ｎ（ｆ）を上述の雑音推定結果と称しても良い。

（雑音推定方法２）
雑音推定部１０は、雑音の大きさの更新を、次式の（数３）を用いて、フレームｆの音量Ｓ（ｆ）と、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）との比に基づいて実施しても良い。
（数３）

ここで、γは定数であり、実験的に決定されれば良い。例えば、γ＝２．０であれば良い。また、雑音電力の初期値Ｎ（ｆ−１）も、実験的に決定されれば良い。上述の（数３）において、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）に対して一定値γ倍以下である場合には、フレームｆの雑音電力Ｎ（ｆ）を更新する。一方、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）に対して一定値γ倍以上である場合には、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）をフレームｆの雑音電力Ｎ（ｆ）とする。

図２において、平均ＳＮＲ算出部１１は、音量算出部９から各フレームの音量Ｓ（ｆ）を受け取り、雑音推定部１０から雑音推定結果となる各フレームの雑音電力Ｎ（ｆ）を受け取る。なお、平均ＳＮＲ算出部１１は、図示しないキャッシュまたはメモリを有しており、過去Ｌフレーム分の音量Ｓ（ｆ）、雑音電力Ｎ（ｆ）を保持する。平均ＳＮＲ算出部１１は、次式を用いて、分析対象時間（フレーム）内の平均ＳＮＲを算出し、当該平均ＳＮＲを区間決定部１２へ出力する。
（数４）

ここで、Ｌは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、０．５ｍｓｅｃに相当するフレーム数を規定すれば良い。

区間決定部１２は、平均ＳＮＲを平均ＳＮＲ算出部１１から受け取る。区間決定部１２は、図示しないバッファまたはキャッシュを有しており、区間決定部１２による前処理フレームが、有音区間内（換言すると呼気区間内）であるか否かを示すフラグｆ＿ｂｒｅａｔｈを保持する。区間決定部１２は、平均ＳＮＲとｆ＿ｂｒｅａｔｈに基づいて、次式の（数５）を用いて有音区間の始端ｔｂを検出し、次式の（数６）に用いて有音区間の終端ｔｅを検出する。
（数５）
ｔｂ=ｆ×Ｍ
(ｉｆｆ＿ｂｒｅａｔｈ＝有音区間ではない、かつ、ＳＮＲ（ｆ）＞ＴＨ_ＳＮＲ)
（数６）
ｔｅ=ｆ×Ｍ−１
(ｉｆｆ＿ｂｒｅａｔｈ＝有音区間、かつ、ＳＮＲ（ｆ）＜ＴＨ_ＳＮＲ)
ここで、ＴＨ_ＳＮＲは、区間決定部１２による処理フレームｆが雑音ではないと看做すための閾値（当該閾値を第１閾値と称しても良い）であり、実験的に規定されれば良い。また、区間決定部１２は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。区間決定部１２は、上述の（数５）と（数６）を用いて検出した有音区間と無音区間を、検出部３を介して抽出部４、ならびに制御部６へ出力する。

図３は、検出部３による有音区間と無音区間の検出結果を示す図である。図３の横軸は時間を示し、縦軸は入力音声の音量（振幅）を示している。なお、有音区間は、「ＴｈａｎｋｙｏｕｆｏｒｃａｌｌｉｎｇＬｅａｔｈｅｒＬｕｘｕｒｙ」、「Ｔｉｍｓｐｅａｋｉｎｇ」、「ＨｏｗｃａｎＩｈｅｌｐｙｏｕ？」と発話された各区間から検出される。また、各有音区間の後端に連接する区間が無音区間として検出される。図３に示される通り、実施例１に開示する検出部３による有音区間の検出においては、背景騒音に合わせて雑音を学習し、ＳＮＲに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均ＳＮＲを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。

図１において、抽出部４は、例えば、ワイヤードロジックによるハードウェア回路である。また、抽出部４は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。抽出部４は、入力音声を取得部２から受け取り、有音区間を検出部３から受け取る。抽出部４は、有音区間に含まれる入力音声の音響特徴量を抽出する。ここで、音響特徴量とは、例えば、モーラ（母音）数や、パワーの時間的な変化量が所定以上となる回数が挙げられる。なお、パワーの時間的な変化量が所定以上となる回数を以降パワーの急変回数と称す。

モーラ数の認識は、様々な公知技術を用いることが可能である。例えば、“牧野ほか、「母音間の相対位置関係に着目した連続音声中の母音部の認識」、電子情報通信学会論文誌、ＤＶｏｌ．Ｊ７２-Ｄ２Ｎｏ．６、ｐｐ．８３７−８４５”ならびに、“シンガーほか、「ピッチとスペクトルの相関を用いたＨＭＭ音素認識、テレビジョン学会技術報告、１５（５４）、１５−２０、１９９１−０９−２７」”などに開示される手法等を用いることが出来る。抽出部４は、有音区間に含まれるモーラ数を音響特徴量として算出部５へ出力する。

算出部５は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部５は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部５は、検出部３にて検出された有音区間に含まれる音響特徴量を抽出部４から受け取る。算出部５は、有音区間に含まれる、単語数を音響特徴量に基づいて算出する。図４は、音響特徴量の一例となるモーラ数と単語数の関係図である。図４においては、複数の例文から単語数と、各単語に対応付けられるモーラ数を手動で抽出した関係図を示している。図４に示す通り、単語数とモーラ数の相関係数Ｒ^２の値は、０．８以上で強い相関関係であることが本発明者らの検証によって明らかになった。算出部５は、例えば、算出部５が有する図示しないキャッシュ、またはメモリに単語数とモーラ数の対応テーブルを保持し、当該対応テーブルを参照することで、有音区間に含まれる単語数を算出することが出来る。算出部５は、算出した単語数を制御部６へ出力する。

図１の制御部６は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部６は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部６は、入力音声を取得部２から受け取り、有音区間と無音区間を検出部３から受け取る。また、制御部６は、単語数を算出部５から受け取る。制御部６は、単語数に基づいて無音区間を制御する。具体的には、制御部６は、単語数が多いほど無音区間を長くし、単語数が少ないほど無音区間を短くする。

ここで、実施例１における単語数に基づいて無音区間を制御する技術的意義について説明する。本発明者らは、入力音声を理解する為に必要となる無音区間の長さについて検証する為に、以下の実証実験を行った。先ず、複数の被験者に対して、有音区間の長さ（発話時間）がほぼ同等（８秒程度）であり、単語数が異なる以下の３つの例文をヒアリングさせた。
・例文１「Ｓｉｎｃｅｔｈｅｒｅｉｓｎ’ｔｍｕｃｈｔｉｍｅｔｉｌｌｄｅｌｉｖｅｒｙ．」（単語数＝７個）
・例文２「Ｔｈｏｓｅｗｈｏｆｉｔｏｕｒｃｌｉｅｎｔｐｒｏｆｉｌｅｏｆｓｏｍｅｏｎｅｌｏｏｋｉｎｇｆｏｒｓｏｍｅｔｈｉｎｇｎｉｃｅｒｔｈａｎｍａｓｓ−ｐｒｏｄｕｃｅｄｆａｃｔｏｒｙ−ｍａｄｅｐｒｏｄｕｃｔｓ.」（単語数＝１６個）
・例文３「Ｔｈｅｄｉｇｉｔａｌｃａｍｅｒａｍａｒｋｅｔｈａｓｅｘｐａｎｄｅｄｔｒｅｍｅｎｄｏｕｓｌｙｏｖｅｒｔｈｅｐａｓｔｄｅｃａｄｅ．」（単語数＝１１個）
ここで、上記の例文において、実際に理解に必要となった平均時間は以下の通りとなった。
・例文１＝０．８秒
・例文２＝２．５秒
・例文３＝１．１秒
となった。上記の３つの例文は、有音区間の長さが同じであるが単語数が異なる。また、有音区間の長さが同じにも係らず、入力音声の理解に必要な無音区間の長さに差が出ている状態である。この為、有音区間の長さに応じて無音区間を増減させた場合は、過剰な無音区間が付与されることで音声処理の遅延を招いたり、付与される無音区間が短い為に、入力音声を理解出来ない場合が発生することが明らかになった。

また、本発明者らの鋭意検証により以下の知見も明らかとなった。図５は、有音区間に含まれる単語数と理解に必要な無音区間の長さの関係図である。図５においては、様々な例文、または、例文の節、句における単語数と、実際に被験者の理解に必要となった無音区間の長さの関係図を示している。また、話速の影響についても考察する為に、同一の例文で話速を変化させた場合の、有音区間に含まれる単語数と理解に必要な無音区間の長さの関係を示している。図５に示す通り、理解に必要な無音区間の長さは、話速には依存せずに単語数に比例する関係にあることが本発明者らの検証により明らかになった。この為、単語数に応じた無音区間の長さの制御を行うことで、冗長な無音区間を削減でき、必要となる無音区間を適切に付与することが出来る。例えば、図４に示す各サンプルをパラメータとし、最小二乗法を用いる次式の係数ａ、ｂを算出することが出来る。
（数７）
ｆ（ｘ）＝ａｘ＋ｂ
上述の（数７）において、係数ａとｂは次式で表現されるｅｒｒが最小となる値である。
（数８）

上述の（数８）において、Ｘ（ｉ）は、ｉ番目の単語数の観測値ｘであり、Ｙ（ｉ）は、ｉ番目の理解に必要な無音区間の長さの観測値ｙである。なお、制御部６は、ｆ（ｘ）を、制御部６が有する図示しないキャッシュまたはメモリに予め保持することが出来る。

制御部６は、有音区間に含まれる単語数であるｘ’を用いて、有音区間の後端に連接する無音区間がｆ（ｘ’）となるように制御する。この為、音声処理の遅延を抑制しつつ、ユーザの入力音声に理解度を向上させることが可能となる音声処理装置を提供することが可能となる。制御部６は、制御した無音区間を含む制御信号を出力信号として外部へ出力する。制御部６は、出力信号を、例えば、音声処理装置１に接続または配置される、図示しないスピーカーへ出力することが可能である。

図６は、音声処理装置１における音声処理のフローチャートである。取得部２は、入力音声を、例えば、有線回路または無線回路を介して取得する（ステップＳ６０１）。また、取得部２は、例えば、音声処理装置１に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。取得部２は取得した入力音声を検出部３、抽出部４と制御部６に出力する。

検出部３は、入力音声を取得部２から受け取る。検出部３は、入力音声に含まれる有音区間を示す呼気区間を上述の方法を用いて検出する（ステップＳ６０２）。検出部３は検出した有音区間を抽出部４へ出力し、有音区間と無音区間を制御部６へ出力する。

抽出部４は、入力音声を取得部２から受け取り、有音区間を検出部３から受け取る。抽出部４は、有音区間に含まれる入力音声の音響特徴量を上述の方法を用いて抽出する（ステップＳ６０３）。ここで、音響特徴量とは、例えば、モーラ数やパワーの急変回数が挙げられる。抽出部４は、有音区間に含まれる音響特徴量として算出部５へ出力する。

算出部５は、検出部３にて検出された有音区間に含まれる音韻特徴量を抽出部４から受け取る。算出部５は、有音区間に含まれる単語数を音響特徴量に基づいて上述の方法を用いて算出する（ステップＳ６０４）。算出部５は、算出した単語数を制御部６へ出力する。

制御部６は、入力音声を取得部２から受け取り、有音区間と無音区間を検出部３から受け取る。また、制御部６は、単語数を算出部５から受け取る。制御部６は、単語数に基づいて無音区間を制御する（ステップＳ６０５）。具体的には、制御部６は、単語数ｘ’と無音区間の長さの関係式であるｆ（ｘ）に基づいて、無音区間の長さを制御する。ステップＳ６０５の処理が完了した時点で取得部２が入力音声を取得している場合は、音声処理装置１は、ステップＳ６０１〜Ｓ６０５の処理を繰り返す。ステップＳ６０５の処理が完了した時点で取得部２が入力音声を取得していない場合は、音声処理装置１は、図６のフローチャートに示す音声処理を終了する。

実施例１における音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
（実施例２）

実施例１においては、モーラ数を音響特徴量とした音声処理装置、音声処理方法及び音声処理プログラムについて説明したが、実施例２においては、パワーの急変回数を音響特徴量とした音声処理装置、音声処理方法及び音声処理プログラムについて説明する。実施例２における音声処理装置１の機能ブロック図は図１と同様である為、実施例１と異なる処理についてのみ説明する。抽出部４は、有音区間において一定時間内に、入力音声のパワーが一定以上上昇する箇所をパワーの急変箇所として抽出し、有音区間内のパワーの急変回数を求める。抽出部４は、検出部３から受け取る有音区間の一定時間ｄｔごとのパワーｐを次式に基づいて算出する。
（数９）

上述の（数９）において、ｆは一定時間ｄｔ毎に付加される番号であり、（ｓｔ／ｄｔ）≦ｆ≦（ｅｔ／ｄｔ）を満たす全整数である。ここで、ｓ（ｔ）は入力音声、ｓｔは有音区間の始点、ｅｔは有音区間の終点である。なお、ｓｔとｅｔは上述の第１閾値に基づいて適宜設定されれば良い。また、一定時間ｄｔは、例えば、１０ｍｓに相当するサンプル数である。

次に、抽出部４は、次式により、パワーｐの変化量が一定値以上であるか否かを求める。
（数１０）

なお、上述の（数１０）において、ｐ’（ｆ）をパワーの急変存在フラグと称しても良い。次に、抽出部４は、次式により、パワーｐの変化量が一定値以上となる箇所数をパワーの急変回数Ｎｐとして求める。
（数１１）

抽出部４は、上述の（数１１）により抽出したパワーの急変回数を音響特徴量として算出部５へ出力する。図７は、入力音声のパワーと抽出したパワーの急変回数の関係図である。図７に示すとおり、パワーｐの変化量が一定値以上の箇所でパワーの急変が抽出されていることが確認出来る。

図８は、音響特徴量の一例となるパワーの急変回数と単語数の関係図である。図８においては、複数の例文から単語数と、各単語に対応付けられるパワーの急変回数を手動で抽出した関係図を示している。図８に示す通り、単語数とパワーの急変回数の相関係数Ｒ^２の値は、０．８以上で強い相関関係であることが本発明者らの検証によって明らかになった。この相関関係を用いて算出部５は単語数を算出することが出来る。例えば、算出部５は、抽出部４から受け取ったパワーの急変回数（Ｎｐ）と次式を用いて推定単語数Ｎｗを算出することが出来る。
（数１２）
Ｎｗ＝Ｎｐ×α＋β
ここで、αとβは、入力音声の１単語に含まれる平均のパワーの急変回数に応じて適宜設定することが出来る定数である。入力音声が英語の場合は、例えば、α＝０．６３、β＝１．６と設定することが出来る。算出部５は、上述の（数１２）に基づいて算出した単語数を制御部６に出力する。

実施例２による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。

（実施例３）
図９は、第２の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、抽出部４、算出部５、制御部６、記憶部７を有する。取得部２、検出部３、抽出部４、算出部５、制御部６は実施例１と同様の機能を有する為、詳細な説明は省略する。

記憶部７は、例えば、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの半導体メモリ素子、または、ＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ）、光ディスクなどの記憶装置である。なお、記憶部７は、上記の種類の記憶装置に限定されるものではなく、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）であってもよい。記憶部７には、例えば、ユーザの特性に応じた属性情報や、既定の単語数を含んだ音声等の各種データが、必要に応じて記憶される。なお、記憶部７は、必ずしも音声処理装置１に含まれる必要はない。例えば、当該各種データは、音声処理装置１に含まれる各機能部の図示しないキャッシュやメモリ等に、分散または統合した状態で記憶しても良い。また、音声処理装置１に設けられる図示しない通信ユニットを用いて通信回線を介することによって、記憶部７を音声処理装置１以外の外部装置に設けることも可能である。

ユーザの特性に応じた属性情報の第１の例は、例えば、ユーザの他国語言語に対する理解力である。理解力を示す値として、語学力試験点数を用いた例を示すが、語学力試験点数の代わりに語学学習期間長や年齢を用いても良い点を留意されたい。音声処理装置１は、以下の処理を事前に実施する。先ず、任意の語学力試験点数が異なる多数の被験者に、単語数が異なる複数の例文を聴かせて、理解に要した無音時間を計測する。そして単語数と無音時間と語学力試験点数をセットで次式に示す１サンプルとする。
（数１３）
（ｘ、ｙ、ｓ）＝（単語数、時間差、語学力試験点数）

次に、語学力試験点数ｓに基づいてサンプルをＮｒ段階のランクに分ける。そして、ランクｎの全サンプルを用いて、最小二乗法で次式の係数ａ_ｎ、ｂ_ｎ（但し、ｎ＝１、２、…、Ｎｒ）を算出する。
（数１４）
ｆ_ｎ（ｘ）＝ａ_ｎｘ＋ｂ_ｎ
上述の（数１４）において、ａ_ｎとｂ_ｎは次式のｅｒｒが最小となる値である。
（数１５）

なお、上述の（数１５）において、Ｙ（ｎ、ｉ）は、ランクｎのｉ番目のサンプルのｙの値であり、Ｘ（ｎ、ｉ）は、ランクｎのｉ番目のサンプルのｘの値である。また、Ｒｎは、ランクｎのサンプル数である。上述の（数１５）により、ランク１〜Ｎｒに対応するｆ_ｎ（ｘ）がそれぞれ記憶部７に予め記憶されることになる。例えば、ユーザが音声処理装置１を使用する際に、ユーザの語学力試験点数が、ユーザにより入力される。制御部６は、ユーザの語学力試験点数を検索キーとして、記憶部７に記憶されている、ｆ_ｎ（ｘ）から対応するｎのｆ_ｎ（ｘ）を選択する。制御部６は、選択したｆ_ｎ（ｘ）と、単語数に基づいて有音区間の後端に連接する無音区間を増減する。

ユーザの特性に応じた属性情報の第２の例は、例えば、ユーザの他国語言語に対する理解力である。ユーザが音声処理装置１を使用中において、他のユーザやコンテンツの入力音声が理解出来ない場合は、取得部２に接続される、図示しないボタンなどによる操作部を押下する。ユーザは入力音声を理解出来た時点で再度操作部を押下する。当該押下の時間差を理解に必要な無音区間の長さとし、上述の（数７）を補正しても良い。また、入力音声は、記憶部７に記憶される既定の単語数を含んだ音声でも良い。この場合、単語数は既に既知の為、抽出部４による音響特徴量の抽出処理や、算出部５による単語数の算出処理が不要となる為、音声処理装置１の処理負荷を更に低減させることが可能となる。

実施例３による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、実施例２による音声処理装置においては、ユーザの特性に応じた音声処理を実行したり、処理負荷を低減させることが可能となる。

（実施例４）
図１０は、第３の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、認識部８、算出部５、制御部６を有する。取得部２、検出部３、算出部５、制御部６は実施例１と同様の機能を有する為、詳細な説明は省略する。

認識部８は、例えば、ワイヤードロジックによるハードウェア回路である。また、認識部８は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。認識部８は、入力音声を取得部２から受け取り、有音区間を検出部３から受け取る。認識部８は、入力音声の有音区間をテキスト情報として認識する。具体的には、認識部８は、入力音声の音声認識方法として、例えば、特許第５１６０５９４号記載の音声認識方法を適用することが可能である。また、認識部８は、有音区間に含まれる単語ごとに音声認識を行う特許第５１４９９４１号に開示される音声認識を適用し、認識過程である単語集合の単語数を得ても良い。また、認識部８は、上述の音声認識方法において、テキスト情報を得た場合、例えば特許第２５７５１２５号記載の言語処理方法を利用し、テキスト情報に含まれる単語数を認識することが出来る。認識部８は、認識した単語数を制御部６へ出力する。

実施例４による音声処理装置においては、音声処理の遅延を抑制しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、実施例４による音声処理装置においては、テキスト情報に含まれる単語数を認識している為、単語数の算出精度を向上させることが可能となり、より適切に無音区間の長さを制御することが可能となる。

（実施例５）
図１１は、一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。図１１に示すように、音声処理装置１は、制御部２１、主記憶部２２、補助記憶部２３、ドライブ装置２４、ネットワークＩ／Ｆ部２６、入力部２７、表示部２８を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。

制御部２１は、コンピュータの中で、各装置の制御やデータの演算、加工を行うＣＰＵである。また、制御部２１は、主記憶部２２や補助記憶部２３に記憶されたプログラムを実行する演算装置であり、入力部２７や記憶装置からデータを受け取り、演算、加工した上で、表示部２８記憶装置などに出力する。

主記憶部２２は、ＲＯＭやＲＡＭなどであり、制御部２１が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。

補助記憶部２３は、ＨＤＤなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置２４は、記録媒体２５、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部２３にインストールする。

また、記録媒体２５に、所定のプログラムを格納し、この記録媒体２５に格納されたプログラムはドライブ装置２４を介して音声処理装置１にインストールされる。インストールされた所定のプログラムは、音声処理装置１により実行可能となる。

ネットワークＩ／Ｆ部２６は、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワークを介して接続された通信機能を有する周辺機器と音声処理装置１とのインターフェースである。

入力部２７は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部２８の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部２７は、ユーザが制御部２１に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。

表示部２８は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等により構成され、制御部２１から入力される表示データに応じた表示が行われる。

なお、上述した音声処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した音声処理方法を実現することができる。

また、このプログラムを記録媒体２５に記録し、このプログラムが記録された記録媒体２５をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体２５は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

（実施例６）
図１２は、一つの実施形態による携帯端末装置３０として機能するハードウェア構成図である。携帯端末装置３０は、アンテナ３１、無線部３２、ベースバンド処理部３３、制御部２１、端末インターフェース部３４、マイク３５、スピーカー３６、主記憶部２２、補助記憶部２３を有する。

アンテナ３１は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部３２は、ベースバンド処理部３３で拡散された送信信号をＤ／Ａ変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部３２は、受信した無線信号を増幅し、その信号をＡ／Ｄ変換してベースバンド処理部３３に伝送する。

ベースバンド処理部３３は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。

制御部２１は、制御信号の送受信などの無線制御を行う。また、制御部２１は、補
助記憶部２３などに記憶されている信号処理プログラムを実行し、例えば、実施例１における音声処理を行う。

主記憶部２２は、ＲＯＭやＲＡＭなどであり、制御部２１が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

補助記憶部２３は、ＨＤＤやＳＳＤなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

端末インターフェース部３４は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインターフェース処理を行う。

マイク３５は、発話者の音声を含む周囲の音を入力し、マイク信号として制御部２１に出力する。スピーカー３６は、出力信号として制御部２１から出力された信号を出力する。

以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

以上、説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
を備えることを特徴とする音声処理装置。
（付記２）
ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
前記取得部は、更に前記属性情報を取得し、
前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする付記１に記載の音声処理装置。
（付記３）
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか１つであることを特徴とする付記２に記載の音声処理装置。
（付記４）
前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記３に記載の音声処理装置。
（付記５）
前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記１ないし付記４の何れか１つに記載の音声処理装置。
（付記６）
前記音響特徴量は、前記有音区間に含まれるモーラ数又は前記有音区間に含まれるパワーの急変回数であることを特徴とする付記５に記載の音声処理装置。
（付記７）
前記検出部は、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第１閾値以上の前記フレームを前記有音区間として検出し、前記第１閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記１ないし付記６の何れか１つに記載の音声処理装置。
（付記８）
前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記１ないし付記７の何れか１つに記載の音声処理装置。
（付記９）
前記取得部は、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記１記載の音声処理装置。
（付記１０）
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記算出部は、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記１記載の音声処理装置。
（付記１１）
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を含むことを特徴とする音声処理方法。
（付記１２）
ユーザの特性に応じた属性情報を記憶することを更に含み、
前記取得することは、前記属性情報を取得し、
前記制御することは、前記属性情報と前記単語数に基づいて前記無音区間の長さを制御することを特徴とする付記１１に記載の音声処理方法。
（付記１３）
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか１つであることを特徴とする付記１２に記載の音声処理方法。
（付記１４）
前記取得することは、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする付記１３に記載の音声処理方法。
（付記１５）
前記有音区間に含まれる音響特徴量を抽出することを更に含み、
前記算出することは、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする付記１４に記載の音声処理方法。
（付記１６）
前記音響特徴量は、前記有音区間に含まれるモーラ数または前記有音区間に含まれるパワーの急変回数であることを特徴とする付記１１ないし付記１５の何れかに記載の音声処理方法。
（付記１７）
前記検出することは、前記入力音声に含まれる複数のフレームから信号電力対雑音比を検出し、前記信号電力対雑音比が所定の第１閾値以上の前記フレームを前記有音区間として検出し、前記第１閾値未満の前記フレームを前記無音区間として検出することを特徴とする付記１１ないし付記１６の何れか１つに記載の音声処理方法。
（付記１８）
前記制御することは、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする付記１１ないし付記１７の何れか１つに記載の音声処理方法。
（付記１９）
前記取得することは、既定の単語数を含んだ音声を前記入力音声として取得することを特徴とする付記１１に記載の音声処理方法。
（付記２０）
前記入力音声をテキスト情報として認識することを更に含み、
前記算出することは、前記テキスト情報に基づいて前記単語数を算出することを特徴とする付記１１に記載の音声処理方法。
（付記２１）
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を実行させることを特徴とする音声処理プログラム。
（付記２２）
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
前記入力音声を制御した出力信号を出力するスピーカー
を備えることを特徴とする携帯端末装置。

１音声処理装置
２取得部
３検出部
４抽出部
５算出部
６制御部

Claims

入力音声を取得する取得部と、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出する検出部と、
前記有音区間に含まれる、単語数を算出する算出部と、
前記単語数に基づいて前記無音区間の長さを制御する制御部と、
を備えることを特徴とする音声処理装置。
ユーザの特性に応じた属性情報を記憶する記憶部を更に有し、
前記取得部は、更に前記属性情報を取得し、
前記制御部は、前記単語数と前記属性情報に基づいて前記無音区間の長さを制御することを特徴とする請求項１に記載の音声処理装置。
前記属性情報は、ユーザの語学力試験点数、語学学習期間長、年齢、音声に対する反応時間の少なくとも何れか１つであることを特徴とする請求項２に記載の音声処理装置。
前記取得部は、更にユーザからの応答入力を取得し、前記音声に対する応答時間は、前記有音区間終了から前記ユーザの応答入力までの時間であることを特徴とする請求項３に記載の音声処理装置。
前記有音区間に含まれる音響特徴量を抽出する抽出部を更に備え、
前記算出部は、前記音響特徴量に基づいて前記有音区間に含まれる単語数を算出することを特徴とする請求項１ないし請求項４の何れか１項に記載の音声処理装置。
前記音響特徴量は、前記有音区間に含まれるパワーの時間的な変化量が所定以上となる回数または、前記有音区間に含まれるモーラ数、であることを特徴とする請求項５に記載の音声処理装置。
前記検出部は、前記入力音声に含まれるフレームから信号電力対雑音比を算出し、前記信号電力対雑音比が所定の第１閾値以上の前記フレームを有音フレームとして検出し、前記第１閾値未満の前記フレームを無音フレームとして検出し、前記無音フレームに挟まれる一連の前記有音フレームを前記有音区間として検出し、前記有音フレームに挟まれる一連の前記無音フレームを前記無音区間として検出することを特徴とする請求項１ないし請求項６の何れか１項に記載の音声処理装置。
前記制御部は、前記単語数が多いほど前記無音区間を長くし、前記単語数が少ないほど前記無音区間を短くすることを特徴とする請求項１ないし請求項７の何れか１項に記載の音声処理装置。
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記単語数に基づいて前記無音区間の長さを制御すること、
を含むことを特徴とする音声処理方法。
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる有音区間と、前記有音区間の後端に連接する無音区間を検出し、
前記有音区間に含まれる単語数を算出し、
前記に基づいて前記無音区間の長さを制御すること、
を実行させることを特徴とする音声処理プログラム。