JP2016006440A

JP2016006440A - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP2016006440A
Application number: JP2014126828A
Authority: JP
Inventors: 太郎外川; Taro Togawa; 千里塩田; Chisato Shioda; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2016-01-14
Anticipated expiration: 2034-06-20
Also published as: JP6394103B2; US20150371662A1

Abstract

【課題】
周囲雑音に依存せずに受話音声の発話区間を推定することが可能となる音声処理装置を提供する。
【解決手段】
音声処理装置は、送話音声を取得する取得部と、送話音声の第１発話区間を検出する検出部と、第１発話区間の区間長、または、第１発話区間の母音数を含む第１特徴量を算出する算出部を備える。更に当該音声処理装置は、第１特徴量が第１閾値未満となる第２特徴量が送話音声に出現する頻度を判定する判定部と、頻度に基づいて、受話音声の発話時間を推定する推定部を備える。
【選択図】図１

Description

本発明は、例えば、発話時間を推定する音声処理装置、音声処理方法および音声処理プログラムに関する。

近年、情報処理機器の発達に伴い、例えば、携帯端末やパーソナルコンピュータにインストールされる通話アプリケーションを介して会話が行われる場面が増加している。相手と自分が会話する場合、お互いの考えを理解し合いながら対話を進めることで円滑なコミュニケーションが実現できる。この場合、相手の考えを理解する為には、自分が一方的に発話を続けることなく、相手の発話を十分に聞くことが重要とされている。円滑なコミュニケーションを実現出来ているか否かを把握する上で、入力音声から自分と相手の発話時間を高い精度で検出する技術が求められている。例えば、自分と相手の発話時間を検出することにより、双方で議論が活発に行われているか否かを判断することが出来る。また、外国語学習において、受講者が外国語を理解し、積極的に発言しているか否かを判定することが出来る。この様な状況下において、入力音声の信号品質を評価し、当該評価結果に基づいて発話区間を推定する技術が開示されている。

国際公開第２００９／１４５１９２号パンフレット

上述の発話区間を検出する技術において、周囲雑音レベルが音声レベルよりも大きい場合においては発話区間を推定することは難しい。例えば、第１ユーザ（自分と称しても良い）と第２ユーザ（相手と称しても良い）の対面での会話において、第１ユーザがウェアラブルマイクを着用し、第２ユーザの発話区間を検出する場合、第２ユーザとウェアラブルマイクとの距離が離れている為、第２ユーザの音声は周囲雑音に埋もれ易くなる傾向がある。また、第１ユーザと第２ユーザの通信網を介した会話においても、第２ユーザが屋外に存在する場合、第２ユーザの音声レベルは周囲雑音に埋もれ易くなる傾向がある。換言すると、周囲雑音に依存せずに受話音声の発話区間を推定することが出来る音声処理装置は実現されていない状況にある。本発明においては、周囲雑音に依存せずに受話音声の発話区間を推定することが出来る音声処理装置を提供することを目的とする。

本発明が開示する音声処理装置は、送話音声を取得する取得部と、送話音声の第１発話区間を検出する検出部と、第１発話区間の区間長、または、第１発話区間の母音数を含む第１特徴量を算出する算出部を備える。更に当該音声処理装置は、第１特徴量が第１閾値未満となる第２特徴量が送話音声に出現する頻度を判定する判定部と、頻度に基づいて、受話音声の発話時間を推定する推定部を備える。

なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示される音声処理装置では、周囲雑音に依存せずに受話音声の発話区間を推定することが可能となる。

第１の実施形態による音声処理装置の機能ブロック図である。音声処理装置による音声処理方法のフローチャートである。一つの実施形態による検出部の機能ブロック図である。検出部による発話区間と無音区間の検出結果を示す図である。判定部の第２特徴量の出現の判定結果を示す図である第１ユーザ相槌の頻度と第２ユーザの発話時間の関係図である（ａ）は、頻度と推定される受話音声の発話時間の第１関係図である。（ｂ）は、頻度と推定される受話音声の発話時間の第２関係図である。頻度と推定される受話音声の発話時間の第３関係図である。第２の実施形態による音声処理装置の機能ブロック図である。受話音声の発話区間における重複区間の概念図である。一つの実施形態による携帯端末装置として機能するハードウェア構成図である。一つの実施形態による音声処理装置として機能するコンピュータのハードウェア構成図である。

以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、当該実施例は、開示の技術を限定するものではない。

（実施例１）
図１は、第１の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、算出部４、判定部５、推定部６を有する。図２は、音声処理装置１の音声処理のフローチャートである。実施例１においては、図２に示す音声処理装置１による音声処理のフローを、図１に示す音声処理装置１の機能ブロック図の各機能の説明に対応付けて説明する。

取得部２は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部２は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部２は、入力音声の一例となる送話音声を、例えば、外部装置を介して取得する。なお、当該処理は、図２に示すフローチャートのステップＳ２０１に対応する。また、送話音声は、音声処理装置１を使用する第１ユーザ（自分と称しても良い）の会話相手となる第２ユーザ（相手と称しても良い）に対して発話する音声を指す。また、取得部２は、例えば、音声処理装置１に接続または配置される、図示しないマイクロフォン（上述の外部装置に相当）から送話音声を取得することが可能である。送話音声は、例えば、日本語であるが、英語等の他の言語であっても良い。換言すると、実施例１における音声処理においては、言語依存は存在しない。取得部２は取得した送話音声を検出部３に出力する。

検出部３は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部３は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部３は、送話音声を取得部２から受け取る。検出部３は、送話音声に含まれる発話区間（第１発話区間、または、有音区間と称しても良い）を示す呼気区間を検出する。なお、当該処理は、図２に示すフローチャートのステップＳ２０２に対応する。また、呼気区間は、例えば、第１ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間（換言すると第１の呼吸と第２呼吸の間の区間、または発話を続けている区間）となる。検出部３は、例えば、送話音声に含まれる複数のフレームから信号品質（第１信号対雑音比と称しても良い）の一例となる信号電力対雑音比となる平均ＳＮＲを検出し、当該平均ＳＮＲが所定の条件を満たしている区間を発話区間（上述の通り、第１発話区間と称しても良い）として検出することが出来る。また、検出部３は、送話音声に含まれる発話区間の後端に連接する無音区間を示す吸気区間を検出する。検出部３は、例えば、上述の当該平均ＳＮＲが所定の条件を満たさない区間を無音区間（換言すると吸気区間）として検出することが出来る。

ここで、検出部３による発話区間と無音区間の検出処理の詳細について説明する。図３は、一つの実施形態による検出部３の機能ブロック図である。検出部３は、音量算出部９、雑音推定部１０、平均ＳＮＲ算出部１１、区間決定部１２を有する。なお、検出部３は、音量算出部９、雑音推定部１０、平均ＳＮＲ算出部１１、区間決定部１２を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部３に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。

図３において、送話音声が検出部３を介して音量算出部９に入力される。なお、音量算出部９は、図示しない長さＭのバッファまたはキャッシュを有する。音量算出部９は、送話音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部１０と平均ＳＮＲ算出部１１へ出力する。なお、送話音声に含まれる各フレーム長は、例えば０．２ｍｓｅｃである。各フレームの音量Ｓ（ｎ）は、次式の通り、算出することが出来る。
（数１）

ここで、ｎは、送話音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号（ｎは０以上の整数）、Ｍは１フレームの時間長、ｔは時間、ｃ（ｔ）は、送話音声の振幅（電力）を示す。

雑音推定部１０は、各フレームの音量Ｓ（ｎ）を音量算出部９から受け取る。雑音推定部１０は、各フレームにおける雑音を推定して、雑音推定結果を平均ＳＮＲ算出部１１へ出力する。ここで、雑音推定部１０による各フレームの雑音推定は、例えば、以下の（雑音推定方法１）または、（雑音推定方法２）を用いることが出来る。

（雑音推定方法１）
雑音推定部１０は、フレームｎにおける雑音の大きさ（電力）Ｎ(ｎ)を、フレームｎにおける音量Ｓ（ｎ）、前フレーム(ｎ−１)における音量Ｓ（ｎ−１）ならびに、雑音の大きさＮ（ｎ−１）に基づいて、次式を用いて推定することが出来る。
（数２）

ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α＝０．９、β＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数２）において、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の音量Ｓ（ｎ−１）に対して一定値β以上変化しない場合には、フレームｎの雑音電力Ｎ（ｎ）が更新される。一方、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の音量Ｓ（ｎ−１）に対して一定値β以上変化する場合には、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）をフレームｎの雑音電力Ｎ（ｎ）とする。なお、雑音電力Ｎ（ｎ）を上述の雑音推定結果と称しても良い。

（雑音推定方法２）
雑音推定部１０は、雑音の大きさの更新を、次式の（数３）を用いて、フレームｎの音量Ｓ（ｎ）と、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）との比に基づいて実施しても良い。
（数３）

ここで、γは定数であり、実験的に決定されれば良い。例えば、γ＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数３）において、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）に対して一定値γ倍未満である場合には、フレームｎの雑音電力Ｎ（ｎ）を更新する。一方、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）に対して一定値γ倍以上である場合には、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）をフレームｎの雑音電力Ｎ（ｎ）とする。

図３において、平均ＳＮＲ算出部１１は、音量算出部９から各フレームの音量Ｓ（ｎ）を受け取り、雑音推定部１０から雑音推定結果となる各フレームの雑音電力Ｎ（ｎ）を受け取る。なお、平均ＳＮＲ算出部１１は、図示しないキャッシュまたはメモリを有しており、過去Ｌフレーム分の音量Ｓ（ｎ）、雑音電力Ｎ（ｎ）を保持する。平均ＳＮＲ算出部１１は、次式を用いて、分析対象時間（フレーム）内の平均ＳＮＲを算出し、当該平均ＳＮＲを区間決定部１２へ出力する。
（数４）

ここで、Ｌは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、０．５ｍｓｅｃに相当するフレーム数を規定すれば良い。

区間決定部１２は、平均ＳＮＲを平均ＳＮＲ算出部１１から受け取る。区間決定部１２は、図示しないバッファまたはキャッシュを有しており、区間決定部１２による前処理フレームが、発話区間内（換言すると呼気区間内）であるか否かを示すフラグｎ＿ｂｒｅａｔｈを保持する。区間決定部１２は、平均ＳＮＲとｎ＿ｂｒｅａｔｈに基づいて、次式の（数５）を用いて発話区間の始点Ｔｓ（ｎ）を検出し、次式の（数６）に用いて発話区間の終点Ｔｅ（ｎ）を検出する。
（数５）
Ｔｓ（ｎ）=ｎ×Ｍ
(ｉｆｎ＿ｂｒｅａｔｈ＝発話区間ではない、かつ、ＳＮＲ（ｎ）＞ＴＨ_ＳＮＲ)
（数６）
Ｔｅ（ｎ）=ｎ×Ｍ−１
(ｉｆｎ＿ｂｒｅａｔｈ＝発話区間、かつ、ＳＮＲ（ｎ）＜ＴＨ_ＳＮＲ)
ここで、ＴＨ_ＳＮＲは、区間決定部１２による処理フレームｎが雑音ではないと看做すための任意の閾値（当該閾値を第５閾値（例えば、第５閾値＝１２ｄＢ）と称しても良い）であり、実験的に規定されれば良い。なお、発話区間の始点Ｔｓ（ｎ）は、発話区間の始点におけるサンプル数であり、終点Ｔｅ（ｎ）は、発話区間の終点Ｔｅ（ｎ）のサンプル数であるものと考えることが出来る。また、区間決定部１２は、送話音声において発話区間以外の区間を無音区間として検出することが出来る。

図４は、検出部３による発話区間と無音区間の検出結果を示す図である。図４の横軸は時間を示し、縦軸は送話音声の音量（振幅）を示している。図４に示される通り、各発話区間の後端に連接する区間が無音区間として検出される。また、図４に示される通り、実施例１に開示する検出部３による発話区間の検出においては、周囲雑音に合わせて雑音を学習し、ＳＮＲに基づいて発話区間を判別している。この為、周囲雑音による発話区間の誤検出を防ぐことができる。また、平均ＳＮＲを複数フレームから求めることで、発話区間内で瞬間的に無音となる時間があっても、連続した発話区間として抽出することができる利点を有している。なお、検出部３は、国際公開第２００９／１４５１９２号パンフレットに記載の方法を用いることも可能である。検出部３は検出した発話区間を算出部４に出力する。

図１において、算出部４は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部４は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部４は、検出部３が検出した発話区間を検出部３から受け取る。算出部４は、発話区間の第１特徴量を算出する。なお、当該処理は、図２に示すフローチャートのステップＳ２０３に対応する。また、第１特徴量は、例えば、発話区間の区間長、または、発話区間に含まれる母音数である。

算出部４は、発話区間の始点と終点から第１特徴量の一例となる発話区間の区間長Ｌ（ｎ）を次式に基づいて算出する。
（数７）
Ｌ（ｎ）＝Ｔｅ（ｎ）−Ｔｓ（ｎ）
但し、上述の（数７）において、Ｔｓ（ｎ）は発話区間の始点におけるサンプル数であり、Ｔｅ（ｎ）は、発話区間の終点におけるサンプル数である。なお、Ｔｓ（ｎ）とＴｅ（ｎ）は、例えば、上述の（数５）または（数６）に基づいて算出することが出来る。また、算出部４は、例えば、フォルマント分布により、第１特徴量の一例となる発話区間における母音数を検出する。算出部４は、フォルマント分布に基づく母音数の検出方法として、例えば特開２００９−２５８３６６号公報に記載の方法を用いることが出来る。算出部４は算出した第１特徴量を判定部５に出力する。

判定部５は、例えば、ワイヤードロジックによるハードウェア回路である。また、判定部５は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。判定部５は、第１特徴量を算出部４から受け取る。判定部５は第１特徴量が所定の第１閾値未満となる第２特徴量が送話音声に出現する頻度を判定する。換言すると、第２特徴量を受話音声の発話への反応（相槌）として、第２特徴量が送話音声に出現する頻度を判定する。更に換言すると、第１特徴量に基づいて、受話音声の発話区間（第２発話区間と称しても良い）において、受話音声の理解に対する応答として送話音声に出現する第２特徴量が送話音声に出現する頻度を判定する。なお、当該処理は、図２に示すフローチャートのステップＳ２０４に対応する。また、第１閾値は、発話区間の区間長に関する任意の第２閾値（例えば、第２閾値＝２秒）、または、発話区間の母音数に関する任意の第３閾値（例えば、第３閾値＝４個）である。例えば、判定部５は、第２閾値か第３閾値の何れか一方の条件を満たす場合に、第１閾値の条件を満たすと判定することが出来る。また、判定部５は、第２閾値と第３閾値の双方の条件を満たす場合に、第１閾値の条件を満たすと判定することも出来る。判定部５は、１つの発話区間の区間長が任意の第２閾値未満または、１つの発話区間の母音数が任意の第３閾値未満の場合に、第２特徴量が出現するものとして判定する。換言すると、第２特徴量の頻度は相槌の回数として取扱う特徴量である。相槌は、例えば、「はい」、「いいえ」、「うんうん」、「本当？」、「そうです」等の会話において出現する間投詞である為、区間長が通常の発話の区間長に比較して短く、また、母音数も少ない特徴を有する。この為、判定部５は、上述の第２閾値と第３閾値を用いることで相槌に対応する第２特徴量が出現する頻度を判定することが出来る。

また、判定部５は、送話音声を文字列として認識し、当該文字列から第２特徴量に対応する所定の単語が出現する出現回数を第２特徴量が出現する頻度と判定しても良い。判定部５は、送話音声を文字列として認識する方法として、例えば、特開平４−２５５９００号公報に開示される方法を適用することが出来る。また、所定の単語は、判定部５が有する図示しないキャッシュまたはメモリに保存される単語リスト（テーブル）に格納される、相槌に相当する単語である。所定の単語は、例えば、「はい」、「いいえ」、「うんうん」、「本当？」、「そうです」等の一般的に相槌に該当する単語であれば良い。

図５は、判定部５の第２特徴量の出現の判定結果を示す図である。発話区間と無音区間の検出結果を示す図である。図５の横軸は図４と同様に時間を示し、縦軸は送話音声の音量（振幅）を示している。図５に示される通り、発話区間の中から第２閾値と第３閾値を満たす区間が、第２特徴量が出現する区間として判定される。

次に、判定部５は、単位時間あたりの第２特徴量の出現回数を頻度として判定する。判定部５は、例えば、１分間あたりの相槌に対応する第２特徴量の出現回数を、頻度ｆｒｅｑ（ｔ）として次式の通り算出することが出来る。
（数８）

但し、上述の（数８）において、Ｌ（ｎ）は発話区間の区間長、Ｔｓ（ｎ）は発話区間の始点におけるサンプル数、ＴＨ２は第２閾値、ＴＨ３は第３閾値である。

判定部５は、上述した送話音声を文字列として認識し、当該文字列から第２特徴量に対応する所定の単語が出現する出現回数を判定する場合、単位時間あたりの第２特徴量の出現間隔を頻度として判定しても良い。判定部５は、例えば、１分間あたりの相槌に対応する第２特徴量が出現する平均的な時間間隔を、頻度ｆｒｅｑ’（ｔ）として次式の通り算出することが出来る。
（数９）

但し、上述の（数９）において、Ｔｓ’（ｎ）は第２特徴量区間の始点におけるサンプル数であり、Ｔｅ’（ｎ）は、第２特徴量区間の終点におけるサンプル数である。

更に、判定部５は、発話区間の区間数に対する第２特徴量の出現回数の比率を頻度として判定しても良い。換言すると、判定部５は、例えば、１分間あたりの発話区間の出現回数と相槌に対応する第２特徴量の出現回数を用いて、次式の通り、第２特徴量が出現する頻度ｆｒｅｑ’’（ｔ）を次式に基づいて算出することが出来る。
（数１０）

但し、上述の（数１０）において、Ｌ（ｎ）は発話区間の区間長、Ｔｓ（ｎ）は発話区間の始点におけるサンプル数、ＮＶ（ｎ）は第２特徴量、ＴＨ２は第２閾値、ＴＨ３は第３閾値である。判定部５は、判定した頻度を推定部６に出力する。

推定部６は、例えば、ワイヤードロジックによるハードウェア回路である。また、推定部６は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。推定部６は、頻度を判定部５から受け取る。推定部６は、当該頻度に基づいて、受話音声（第２ユーザ）の発話時間を推定する。なお、当該処理は、図２に示すフローチャートのステップＳ２０５に対応する。

ここで、実施例１における頻度に基づいて受話音声の発話時間を推定する技術的意義について説明する。本発明者らの鋭意検証により、以下の事項が明らかになった。本発明者らは、第２ユーザ（相手）が発話している間は、第１ユーザ（自分）は相槌を打つ性質が存在する点に着目し、第１ユーザの相槌の頻度を利用して相手の発話時間（受話音声の発話時間と称しても良い）を推定できる可能性について新たに鋭意検証を行った。図６は第１ユーザ相槌の頻度と第２ユーザの発話時間の関係図である。図６においては、複数の被験者（１１名）同士で２分間会話させ、第１ユーザ（自分）の音声に含まれる単位時間（１分間）あたりの相槌の頻度と、第２ユーザ（相手）の発話時間の相関関係を示している。なお、第１ユーザに対する受話音声となる第２音声の発話音声には、バブル性騒音（ＳＮＲ＝０ｄＢ）を重畳させている。これにより、周囲雑音の存在を再現させている。

図６に示す通り、第１ユーザ（自分）の音声に含まれる単位時間（１分間）あたりの相槌の頻度と、第２ユーザ（相手）の発話時間の相関係数ｒ^２は、０．７７であり強相関関係を有することが明らかになった。なお、比較例として、第１ユーザ（自分）が会話していない無音区間と、第２ユーザ（相手）の発話区間の相関関係についても調査したが、十分な相関関係は有していないことも明らかになった。これは、自分が発話していない場合は、相手が必ず発話しているという保証は無く、双方が発話していない場合も存在することに依るものと推察される。例えば、双方が互いに文書の内容を確認している場合などが例として挙げられる。一方、相槌は、相手の発話内容を理解していることを表現する間投詞であり、相手が発話しない場合には、出現することがない性質を有するからこそ、相手の発話時間と強相関関係を有するものと推察される。この為、相槌に対応する第２特徴量が出現する頻度に基づいて、受話音声を推定すれば、相手の受話音声の信号品質に依存しない為、周囲雑音に依存せずに受話音声の発話時間を推定することが可能となることが、本発明者らの鋭意検証により明らかになった。また、検出部３は、自分が発話している発話区間も検出する為、自分が一方的に発話を行っている状況と、自分が発話しながら相手の発話を聞いている状況を区別して検出することも可能となる。

推定部６は、予め規定される、頻度と発話時間の第１相関に基づいて受話音声の発話時間を推定する。なお、第１相関は、例えば、図６に示される相関関係に基づいて実験的に適宜規定することが出来る。図７（ａ）は、頻度と推定される受話音声の発話時間の第１関係図である。図７（ａ）においては、横軸は上述の（数８）で算出される頻度ｆｒｅｑ（ｔ）であり、縦軸は推定される受話音声の発話時間となる。図７（ｂ）は、頻度と推定される受話音声の発話時間の第２関係図である。図７（ｂ）においては、横軸は上述の（数９）で算出される頻度ｆｒｅｑ’（ｔ）であり、縦軸は推定される受話音声の発話時間となる。推定部６は、第１関係図または第２関係図を第１相関とし、頻度に対応する受話音声の発話時間を推定する。

また、推定部６は、発話区間の区間長の合計値が第４閾値（例えば、第４閾値＝１５ｓｅｃ）未満の場合、上述の第１相関よりも受話音声の発話時間が短く規定される第２相関と頻度に基づいて、受話音声の発話時間を推定しても良い。推定部６は、単位時間（例えば１分間）あたりの発話区間の区間長の合計値ＴＬ１（ｔ）を算出する。
（数１１）

但し、上述の（数１１）において、Ｌ（ｎ）は発話区間の区間長、Ｔｓ（ｎ）は発話区間の始点におけるサンプル数である。

図８は、頻度と推定される受話音声の発話時間の第３関係図である。図８においては、横軸は上述の（数８）で算出される頻度ｆｒｅｑ（ｔ）であり、縦軸は推定される受話音声の発話時間となる。推定部６は、第３関係図を第２相関とし、頻度に対応する受話音声の発話時間を推定する。推定部６が上述の（数１１）を用いて算出した合計値ＴＬ１（ｔ）は、第４閾値（例えば、第４閾値＝１５ｓｅｃ）未満は、第３関係図に示される第２相関を用いて受話音声の発話時間を推定する。推定部６は、第２相関に基づいて受話音声の発話時間を推定するとで、第１ユーザ（自分）と第２ユーザ（相手）の双方が発話していない場合（黙っている場合）、相槌の頻度が低くなる影響を低減させることが可能となる。

推定部６は、推定した受話音声の発話時間を外部装置に出力する。なお、当該処理は、図２に示すフローチャートのステップＳ２０６に対応する。また、外部装置は、例えば、受話音声の発話時間を音声に変換させた上で再生するスピーカや、発話時間を文字情報として表示するディスプレイであれば良い。また、推定部６は、受話音声の発話時間（第２発話区間と称しても良い）と、送話音声の発話区間（第１発話区間と称しても良い）の合計値の比率に基づいて、所定の制御信号を外部装置に発信しても良い。なお、当該処理を行う場合は、図２に示すフローチャートのステップＳ２０６と合わせて実施すれば良い。また、制御信号は、例えば、アラーム音であれば良い。推定部６は、単位時間（例えば１分間）あたりの、受話音声の発話時間ＴＬ２（ｔ）と、送話音声の発話時間ＴＬ１（ｔ）の比率Ｒ（ｔ）を、次式に基づいて算出する。
（数１２）
Ｒ（ｔ）＝ＴＬ２（ｔ）／ＴＬ１（ｔ）
なお、上述の（数１２）において、なお、ＴＬ１（ｔ）は、上述の（数１１）を用いて算出することが可能であり、ＴＬ２（ｔ）においては、ＴＬ１（ｔ）と同様の方法を用いて算出することが可能である為、詳細な説明は省略する。

推定部６は、上述の（数１２）に基づいて算出した比率Ｒ（ｔ）と、所定の第６閾値（例えば、第６閾値＝０．５）との次式で表現される比較に基づいて制御信号を発信する。
（数１３）
ｉｆＲ（ｔ）＜ＴＨ５ＣＳ（ｔ）＝１（制御信号発信有り）
ｅｌｓｅＣＳ（ｔ）＝０（制御信号発信無し）

実施例１における音声処理装置によれば、周囲雑音に依存せずに受話音声の発話時間を推定することが可能となる。

（実施例２）
図９は、第２の実施形態による音声処理装置２０の機能ブロック図である。音声処理装置２０は、取得部２、検出部３、算出部４、判定部５、推定部６、受信部７、評価部８を有する。取得部２、検出部３、算出部４、判定部５、推定部６は、少なくとも実施例１で開示した機能と同様の機能を有する為、詳細な説明は省略する。

受信部７は、例えば、ワイヤードロジックによるハードウェア回路である。また、受信部７は、音声処理装置２０で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。受信部７は、入力音声の一例となる受話音声を、例えば、有線回路または無線回路を介して受信する。受信部７は、受信した受話音声を評価部８に出力する。

評価部８は、受話音声を受信部７から受け取る。評価部８は、受話音声の第２信号対雑音比を評価する。評価部８は、第２信号対雑音比の評価方法として、実施例１の検出部３が検出する第１信号対雑音比と同様の手法を適用することが出来る。評価部８は、例えば、上述の（数４）に基づいて第２信号対雑音比の一例となる平均ＳＮＲを評価する。評価部８は、第２信号対雑音比の一例となる平均ＳＮＲが所定の第７閾値（例えば、第７閾値＝１０ｄＢ）未満の場合は、実施例１に基づく音声処理方法を実施することを取得部２に指示をする。換言すると、取得部２は第２信号対雑音比に基づいて送話音声の取得の要否を判断する。また、評価部８は、第２信号対雑音比の一例となる平均ＳＮＲが第７閾値以上の場合、受話音声を検出部３に出力し、検出部３に受話音声の発話区間（第２発話区間と称しても良い）を検出させる。なお、受話音声の発話区間の検出方法は、実施例１に開示した第１発話区間の検出方法を同様に用いることが出来る為、詳細な説明は省略する。検出部３は、検出した受話音声の発話区間（第２発話区間）を推定部６に出力する。

推定部６は、実施例１に開示した方法で推定した受話音声の発話時間Ｌを用いて、単位時間あたりの第２特徴量が出現する区間の［Ｔｓ１、Ｔｅ１］の中央区間［Ｔｓ２、Ｔｅ２］を、受話音声の発話区間として推定する。なお、中央区間［Ｔｓ２、Ｔｅ２］は次式に基づいて算出することが出来る。
（数１４）
Ｔｓ２＝（Ｔｓ１＋Ｔｅ１）／２−Ｌ／２
Ｔｅ２＝（Ｔｓ１＋Ｔｅ１）／２＋Ｌ／２

図１０は、受話音声の発話区間における重複区間の概念図である。図１０には、検出部３が検出した受話音声の発話区間（発話区間１、発話区間２）と、推定部６が上述の（数１４）に基づいて推定した受話音声の発話区間（発話区間１’、発話区間２’）が示されている。推定部６は、発話区間１と発話区間１’が重畳する区間、発話区間２と発話区間２’が重畳する区間を、重複区間（発話区間１’’、発話区間２’’）として推定する。検出部３が検出した受話音声の発話区間が、実際に第２ユーザが発話していた否かを示す一致度を評価者が評価した結果、一致度は４０％程度であった。一方、重複区間の一致度は４９％であり、受話音声の発話区間の推定精度が向上していることが確認出来た。

実施例２における音声処理装置によれば、受話音声の信号品質に応じて、周囲雑音に依存せずに受話音声の発話時間を推定することが可能となる。更に、実施例２における音声処理装置によれば、受話音声の発話区間を推定することが可能となる。

（実施例３）
図１１は、一つの実施形態による携帯端末装置３０として機能するハードウェア構成図である。携帯端末装置３０は、アンテナ３１、無線部３２、ベースバンド処理部３３、端末インタフェース部３４、マイク３５、スピーカ３６、制御部３７、主記憶部３８、補助記憶部３９を有する。

アンテナ３１は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部３２は、ベースバンド処理部３３で拡散された送信信号をＤ／Ａ変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部３２は、受信した無線信号を増幅し、その信号をＡ／Ｄ変換してベースバンド処理部３３に伝送する。

ベースバンド処理部３３は、送信データの誤り訂正符号、データ変調、受信信号、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。

制御部３７は、例えば、ＣＰＵ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）である。制御部３７は、制御信号の送受信などの無線制御を行う。また、制御部３７は、補助記憶部３９などに記憶されている音声処理プログラムを実行し、例えば、実施例１または実施例２における音声処理を行う。換言すると、制御部３７は、例えば、図１または図９に記載の取得部２、検出部３、算出部４、判定部５、推定部６、受信部７、評価部８等の機能ブロックの処理を実行することが出来る。

主記憶部３８は、ＲＯＭやＲＡＭなどであり、制御部３７が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

補助記憶部３９は、ＨＤＤやＳＳＤなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

端末インタフェース部３４は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインタフェース処理を行う。

マイク３５は、発話者（例えば、第１ユーザ）の音声を入力し、マイク信号として制御部３７に出力する。スピーカ３６は、出力音声または制御信号として制御部３７から出力された信号を出力する。

（実施例４）
図１２は、一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。図１２に示す通り、音声処理装置１は、コンピュータ１００、およびコンピュータ１００に接続する入出力装置（周辺機器）を含んで構成される。

コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２と複数の周辺機器が接続されている。なお、プロセッサ１０１は、マルチプロセッサであってもよい。また、プロセッサ１０１は、例えば、ＣＰＵ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）である。更に、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ１０１は、図１または図９に記載の取得部２、検出部３、算出部４、判定部５、推定部６、受信部７、評価部８等の機能ブロックの処理を実行することが出来る。

ＲＡＭ１０２は、コンピュータ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。バス１０９に接続されている周辺機器としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、例えば、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。

グラフィック処理装置１０４には、モニタ１１０が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令にしたがって、各種画像をモニタ１１０の画面に表示させる。モニタ１１０としては、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード１１１とマウス１１２とが接続されている。入力インタフェース１０５は、キーボード１１１やマウス１１２から送られてくる信号をプロセッサ１０１に送信する。なお、マウス１１２は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１１３に記録されたデータの読み取りを行う。光ディスク１１３は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１１３には、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。可搬型の記録媒体となる光ディスク１１３に格納されたプログラムは光学ドライブ装置１０６を介して音声処理装置１にインストールされる。インストールされた所定のプログラムは、音声処理装置１より実行可能となる。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１０７には、メモリ装置１１４やメモリリーダライタ１１５を接続することが出来る。メモリ装置１１４は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ１１５は、メモリカード１１６へのデータの書き込み、またはメモリカード１１６からのデータの読み出しを行う装置である。メモリカード１１６は、カード型の記録媒体である。また、機器接続インタフェース１０７には、マイク３５やスピーカ３６を接続することが出来る。

ネットワークインタフェース１０８は、ネットワーク１１７に接続されている。ネットワークインタフェース１０８は、ネットワーク１１７を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

コンピュータ１００は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した音声処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、１つのまたは複数の機能モジュールから構成することが出来る。例えば、図１または図９に記載の取得部２、検出部３、算出部４、判定部５、推定部６、受信部７、評価部８等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、コンピュータ１００に実行させるプログラムを、光ディスク１１３、メモリ装置１１４、メモリカード１１６などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。

以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

以上、説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
送話音声を取得する取得部と、
前記送話音声の第１発話区間を検出する検出部と、
前記第１発話区間の第１特徴量を算出する算出部と、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定する判定部と、
前記頻度に基づいて、受話音声の発話時間を推定する推定部
を備えることを特徴とする音声処理装置。
（付記２）
前記第１閾値は、前記区間長に関する第２閾値、または、前記母音数に関する第３閾値であり、
前記判定部は、前記区間長が前記第２閾値未満または、前記母音数が前記第３閾値未満の場合に、前記第２特徴量として判定することを特徴とする付記１記載の音声処理装置。
（付記３）
前記判定部は、前記第２特徴量を前記受話音声の発話への反応として、前記頻度を判定することを特徴とする付記１または付記２記載の音声処理装置。
（付記４）
前記判定部は、単位時間あたりの前記第２特徴量の出現回数、または、前記単位時間あたりの前記第２特徴量の出現間隔を前記頻度として判定することを特徴とする付記１ないし付記３の何れか一つに記載の音声処理装置。
（付記５）
前記判定部は、前記第１発話区間の区間数に対する前記第２特徴量の出現回数の比率を前記頻度として判定することを特徴とする付記１ないし付記４の何れか一つに記載の音声処理装置。
（付記６）
前記判定部は、前記送話音声を文字列として認識し、前記文字列から前記第２特徴量に対応する所定の単語が出現する出現回数を前記頻度として算出することを特徴とする付記１記載の音声処理装置。
（付記７）
前記推定部は、予め規定される、前記頻度と前記発話時間の第１相関に基づいて前記発話時間を推定し、
前記第１発話区間の区間長の合計値が第４閾値未満の場合、前記第１相関よりも前記発話時間が短く規定される第２相関に基づいて前記発話時間を推定することを特徴とする付記１ないし付記６の何れか一つに記載の音声処理装置。
（付記８）
前記推定部は、前記受話音声の前記発話時間と、前記第１発話区間の前記合計値の比率に基づいて、所定の制御信号を発信することを特徴とする付記１ないし付記７の何れか一項に記載の音声処理装置。
（付記９）
前記検出部は、前記送話音声に含まれる複数のフレームの第１信号対雑音比を検出し、前記第１信号対雑音比が第５閾値以上の前記フレームを前記第１発話区間として検出することを特徴とする付記１ないし付記８の何れか一項に記載の音声処理装置。
（付記１０）
前記受話音声を受信する受信部と、
前記受話音声の第２信号対雑音比を評価する評価部を更に有し、
前記取得部は、前記第２信号対雑音比に基づいて前記送話音声の取得の要否を判断する
ことを特徴とする付記１ないし付記９の何れか一つに記載の音声処理装置。
（付記１１）
前記検出部は、前記受話音声の第２発話区間を更に検出し、
前記推定部は、前記第２特徴量と前記第２発話区間に基づいて、前記受話音声の発話区間を推定することを特徴とする付記１０記載の音声処理装置。
（付記１２）
前記第２特徴量は前記受話音声の発話に対する相槌であることを特徴とする付記１ないし付記１１の何れか一つに記載の音声処理装置。
（付記１３）
送話音声を取得し、
前記送話音声の第１発話区間を検出し、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出し、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定し、
前記頻度に基づいて、受話音声の発話時間を推定すること
を含むことを特徴とする音声処理方法。
（付記１４）
前記第１閾値は、前記区間長に関する第２閾値、または、前記母音数に関する第３閾値であり、
前記判定部は、前記区間長が前記第２閾値未満または、前記母音数が前記第３閾値未満の場合に、前記第２特徴量として判定することを特徴とする付記１３記載の音声処理方法。
（付記１５）
前記判定部は、前記第２特徴量を前記受話音声の発話への反応として、前記頻度を判定することを特徴とする付記１３または付記１４記載の音声処理方法。
（付記１６）
前記判定することは、単位時間あたりの前記第２特徴量の出現回数、または、前記単位時間あたりの前記第２特徴量の出現間隔を前記頻度として判定することを特徴とする付記１３ないし付記１５の何れか一つに記載の音声処理方法。
（付記１７）
前記判定することは、前記第１発話区間の区間数に対する前記第２特徴量の出現回数の比率を前記頻度として判定することを特徴とする付記１３ないし付記１６の何れか一つに記載の音声処理方法。
（付記１８）
前記判定することは、前記送話音声を文字列として認識し、前記文字列から前記第２特徴量に対応する所定の単語が出現する出現回数を前記頻度として算出することを特徴とする付記１３記載の音声処理方法。
（付記１９）
前記推定することは、予め規定される、前記頻度と前記発話時間の第１相関に基づいて前記発話時間を推定し、
前記第１発話区間の区間長の合計値が第４閾値未満の場合、前記第１相関よりも前記発話時間が短く規定される第２相関に基づいて前記発話時間を推定することを特徴とする付記１３ないし付記１８の何れか一つに記載の音声処理方法。
（付記２０）
前記推定することは、前記受話音声の前記発話時間と、前記第１発話区間の前記合計値の比率に基づいて、所定の制御信号を発信することを特徴とする付記１３ないし付記１９の何れか一つに記載の音声処理方法。
（付記２１）
前記受話音声を受信し、
前記受話音声の第２信号対雑音比を評価することを更に含み、
前記取得することは、前記第２信号対雑音比に基づいて前記送話音声の取得の要否を判断することを特徴とする付記１３ないし付記１９の何れか一つに記載の音声処理方法。
（付記２２）
前記検出することは、前記受話音声の第２発話区間を更に検出し、
前記推定することは、前記第２特徴量と前記第２発話区間に基づいて、前記受話音声の発話区間を推定することを特徴とする付記２１記載の音声処理方法。
（付記２３）
前記検出することは、前記送話音声に含まれる複数のフレームの第１信号対雑音比を検出し、前記第１信号対雑音比が第５閾値以上の前記フレームを前記第１発話区間として検出することを特徴とする付記１３の音声処理方法。
（付記２４）
前記第２特徴量は前記受話音声の発話に対する相槌であることを特徴とする付記１３ないし付記２３の何れか一つに記載の音声処理方法。
（付記２５）
コンピュータに
送話音声を取得し、
前記送話音声の第１発話区間を検出し、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出し、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定し、
前記頻度に基づいて、受話音声の発話時間を推定すること
を実行させることを特徴とする音声処理プログラム。
（付記２６）
発話者の音声を送話音声として入力するマイクと、
送話音声を取得する取得部と、
前記送話音声の第１発話区間を検出する検出部と、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出する算出部と、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定する判定部と、
前記頻度に基づいて、前記受話音声の発話時間を推定する推定部
前記発話時間を出力するスピーカ
を備えることを特徴とする携帯端末装置。

１音声処理装置
２取得部
３検出部
４算出部
５判定部
６推定部

Claims

送話音声を取得する取得部と、
前記送話音声の第１発話区間を検出する検出部と、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出する算出部と、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定する判定部と、
前記頻度に基づいて、受話音声の発話時間を推定する推定部
を備えることを特徴とする音声処理装置。
前記第１閾値は、前記区間長に関する第２閾値、または、前記母音数に関する第３閾値であり、
前記判定部は、前記区間長が前記第２閾値未満または、前記母音数が前記第３閾値未満の場合に、前記第２特徴量として判定することを特徴とする請求項１記載の音声処理装置。
前記判定部は、前記第２特徴量を前記受話音声の発話への反応として、前記頻度を判定することを特徴とする請求項１または請求項２記載の音声処理装置。
前記判定部は、単位時間あたりの前記第２特徴量の出現回数、または、前記単位時間あたりの前記第２特徴量の出現間隔を前記頻度として判定することを特徴とする請求項１ないし請求項３の何れか一項に記載の音声処理装置。
前記判定部は、前記第１発話区間の区間数に対する前記第２特徴量の出現回数の比率を前記頻度として判定することを特徴とする請求項１ないし請求項４の何れか一項に記載の音声処理装置。
前記判定部は、前記送話音声を文字列として認識し、前記文字列から前記第２特徴量に対応する所定の単語が出現する出現回数を前記頻度として算出することを特徴とする請求項１記載の音声処理装置。
前記推定部は、予め規定される、前記頻度と前記発話時間の第１相関に基づいて前記発話時間を推定し、
前記第１発話区間の区間長の合計値が第４閾値未満の場合、前記第１相関よりも前記発話時間が短く規定される第２相関に基づいて前記発話時間を推定することを特徴とする請求項１ないし請求項６の何れか一項に記載の音声処理装置。
前記推定部は、前記受話音声の前記発話時間と、前記第１発話区間の前記合計値の比率に基づいて、所定の制御信号を発信することを特徴とする請求項１ないし請求項７の何れか一項に記載の音声処理装置。
前記検出部は、前記送話音声に含まれる複数のフレームの第１信号対雑音比を検出し、前記第１信号対雑音比が第５閾値以上の前記フレームを前記第１発話区間として検出することを特徴とする請求項１ないし請求項８の何れか一項に記載の音声処理装置。
前記受話音声を受信する受信部と、
前記受話音声の第２信号対雑音比を評価する評価部を更に有し、
前記取得部は、前記第２信号対雑音比に基づいて前記送話音声の取得の要否を判断する
ことを特徴とする請求項１ないし請求項９の何れか一項に記載の音声処理装置。
前記検出部は、前記受話音声の第２発話区間を更に検出し、
前記推定部は、前記第２特徴量と前記第２発話区間に基づいて、前記受話音声の発話区間を推定することを特徴とする請求項１０記載の音声処理装置。
送話音声を取得し、
前記送話音声の第１発話区間を検出し、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出し、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定し、
前記頻度に基づいて、受話音声の発話時間を推定すること
を含むことを特徴とする音声処理方法。
コンピュータに
送話音声を取得し、
前記送話音声の第１発話区間を検出し、
前記第１発話区間の区間長、または、前記第１発話区間の母音数を含む第１特徴量を算出し、
前記第１特徴量が第１閾値未満となる第２特徴量が前記送話音声に出現する頻度を判定し、
前記頻度に基づいて、受話音声の発話時間を推定すること
を実行させることを特徴とする音声処理プログラム。