JP6263868B2

JP6263868B2 - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP6263868B2
Application number: JP2013126303A
Authority: JP
Inventors: 太郎外川; 千里石川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-06-17
Filing date: 2013-06-17
Publication date: 2018-01-24
Anticipated expiration: 2033-06-17
Also published as: US20140372121A1; EP2816558A1; CN104240696B; JP2015001632A; EP2816558B1; CN104240696A; US9672809B2

Description

本発明は、例えば、入力信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。

近年、情報処理機器の発達や国際化の進展に伴い、例えば、パーソナルコンピュータにインストールされる通話アプリケーションを介して他国語言語で通話を行う場面が増加している。この様な状況下において、他国語言語を母国語とするネイティブユーザに対して、ノンネイティブユーザが発話する音声信号を聞き易く制御する方法が開示されている。例えば、音響モデルを用いた音声認識処理により入力音声に対応する音素ラベルを生成し、当該音声ラベルを所定の変換テーブルによって変換し、変換後の音素ラベルから合成音声を生成する技術が開示されている。

特許第４９４２８６０号

上述の合成音声を生成する技術においては、音響モデルを用いた音声認識処理、音素ラベルの生成処理、および合成音声生成処理等の処理負荷が高い処理を実行する必要があり、音声処理の遅延の発生が懸念される。本発明においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供することを目的とする。

本発明が開示する音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる
母音区間を検出する検出部を備える。更に当該音声処理装置は、入力音声の単位時間あたりのパワーの変化率に基づいて、入力音声に含まれる単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定するアクセント区間推定部と、アクセント区間に含まれる第１母音区間長またはアクセント区間以外の第２母音区間長を算出する母音区間長算出部と、第１母音区間長または第２母音区間長を制御する制御部を備える。

なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示される音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。

第１の実施形態による音声処理装置１の機能ブロック図である。一つの実施形態による検出部３の機能ブロック図である。検出部３による有音区間と無音区間の検出結果を示す図である。（ａ）は、有音区間とピッチ周波数の関係図である。（ｂ）は、有音区間とピッチ変化率の関係図である。（ａ）は、有音区間とパワーの関係図である。（ｂ）は、有音区間とパワー変化率の関係図である。母音区間長比と目標伸縮率の関係図である。（ａ）は、ネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。（ｂ）は、ノンネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。ネイティブユーザが発声する単語の第１母音区間長と第２母音区間長の関係図である。音声処理装置１による音声処理方法のフローチャートである。母音区間長と目標伸縮率の関係図である。第２の実施形態による音声処理装置１の機能ブロック図である。第３の実施形態による音声処理装置１の機能ブロック図である。一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。一つの実施形態による携帯端末装置３０として機能するハードウェア構成図である。

以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。

（実施例１）
図１は、第１の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、アクセント区間推定部４、母音区間長算出部５、制御部６を有する。

取得部２は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部２は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部２は、入力音声を、例えば、有線回路または無線回路を介して取得する。また、取得部２は、例えば、音声処理装置１に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。実施例１においては、説明の便宜上、入力音声を発声するユーザの母国語は日本語であり、入力音声と出力音声を英語として説明する。また、出力音声を聴くユーザは母国語を英語とするネイティブユーザとする。取得部２は取得した入力音声を検出部３、アクセント区間推定部４と制御部６に出力する。

検出部３は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部３は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部３は、入力音声を取得部２から受け取る。検出部３は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間（換言すると第１の呼吸と第２呼吸の間の区間、または発話を続けている区間）となる。検出部３は、例えば、入力音声に含まれる複数のフレームから信号品質の一例となる信号電力対雑音比となる平均ＳＮＲを検出し、当該平均ＳＮＲが所定の条件を満たしている区間を有音区間（換言すると呼気区間）として検出することが出来る。また、検出部３は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。検出部３は、例えば、上述の当該平均ＳＮＲが所定の条件を満たさない区間を無音区間（換言すると吸気区間）として検出することが出来る。

ここで、検出部３による有音区間と無音区間の検出処理の詳細について説明する。図２は、一つの実施形態による検出部３の機能ブロック図である。検出部３は、音量算出部１０、雑音推定部１１、平均ＳＮＲ算出部１２、区間決定部１３を有する。なお、検出部３は、音量算出部１０、雑音推定部１１、平均ＳＮＲ算出部１２、区間決定部１３を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部３に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。

図２において、入力音声が検出部３を介して音量算出部１０に入力される。なお、音量算出部１０は、図示しない長さｍのバッファまたはキャッシュを有する。音量算出部１０は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部１１と平均ＳＮＲ算出部１２へ出力する。なお、入力音声に含まれる各フレーム長は、例えば０．２ｍｓｅｃである。各フレームの音量Ｓは、次式の通り、算出することが出来る。
（数１）

ここで、ｆは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号（ｆは０以上の整数）、Ｍは１フレームの時間長、ｔは時間、ｃ（ｔ）は、入力音声の振幅（電力）を示す。

雑音推定部１１は、各フレームの音量Ｓ（ｆ）を音量算出部１０から受け取る。雑音推定部１１は、各フレームにおける雑音を推定して、雑音推定結果を平均ＳＮＲ算出部１２へ出力する。ここで、雑音推定部１１による各フレームの雑音推定は、例えば、以下の（雑音推定方法１）または、（雑音推定方法２）を用いることが出来る。

（雑音推定方法１）
雑音推定部１１は、フレームｆにおける雑音の大きさ（電力）Ｎ(ｆ)を、フレームｆにおける音量Ｓ（ｆ）、前フレーム(ｆ−1)における音量Ｓ（ｆ−１）ならびに、雑音の大きさＮ（ｆ−１）に基づいて、次式を用いて推定することが出来る。
（数２）

ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α＝０．９、β＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数２）において、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の音量Ｓ（ｆ−１）に対して一定値β以上変化しない場合には、フレームｆの雑音電力Ｎ（ｆ）が更新される。一方、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の音量Ｓ（ｆ−１）に対して一定値β以上変化する場合には、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）をフレームｆの雑音電力Ｎ（ｆ）とする。なお、雑音電力Ｎ（ｆ）を上述の雑音推定結果と称しても良い。

（雑音推定方法２）
雑音推定部１１は、雑音の大きさの更新を、次式の（数３）を用いて、フレームｆの音量Ｓ（ｆ）と、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）との比に基づいて実施しても良い。
（数３）

ここで、γは定数であり、実験的に決定されれば良い。例えば、γ＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数３）において、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）に対して一定値γ倍以下である場合には、フレームｆの雑音電力Ｎ（ｆ）を更新する。一方、フレームｆの音量Ｓ（ｆ）が、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）に対して一定値γ倍以上である場合には、１つ前のフレームｆ−１の雑音電力Ｎ（ｆ−１）をフレームｆの雑音電力Ｎ（ｆ）とする。

図２において、平均ＳＮＲ算出部１２は、音量算出部１０から各フレームの音量Ｓ（ｆ）を受け取り、雑音推定部１１から雑音推定結果となる各フレームの雑音電力Ｎ（ｆ）を受け取る。なお、平均ＳＮＲ算出部１２は、図示しないキャッシュまたはメモリを有しており、過去Ｌフレーム分の音量Ｓ（ｆ）、雑音電力Ｎ（ｆ）を保持する。平均ＳＮＲ算出部１２は、次式を用いて、分析対象時間（フレーム）内の平均ＳＮＲを算出し、当該平均ＳＮＲを区間決定部１３へ出力する。
（数４）

ここで、Ｌは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、０．５ｍｓｅｃに相当するフレーム数を規定すれば良い。

区間決定部１３は、平均ＳＮＲを平均ＳＮＲ算出部１２から受け取る。区間決定部１３は、図示しないバッファまたはキャッシュを有しており、区間決定部１３による前処理フレームが、有音区間内（換言すると呼気区間内）であるか否かを示すフラグｆ＿ｂｒｅａｔｈを保持する。区間決定部１３は、平均ＳＮＲとｆ＿ｂｒｅａｔｈに基づいて、次式の（数５）を用いて有音区間の始端ｔｂを検出し、次式の（数６）に用いて有音区間の終端ｔｅを検出する。
（数５）
ｔｂ=ｆ×Ｍ
(ｉｆｆ＿ｂｒｅａｔｈ＝有音区間ではない、かつ、ＳＮＲ（ｆ）＞ＴＨ_ＳＮＲ)
（数６）
ｔｅ=ｆ×Ｍ−１
(ｉｆｆ＿ｂｒｅａｔｈ＝有音区間、かつ、ＳＮＲ（ｆ）＜ＴＨ_ＳＮＲ)
ここで、ＴＨ_ＳＮＲは、区間決定部１３による処理フレームｆが雑音ではないと看做すための閾値（当該閾値を第１閾値と称しても良い）であり、実験的に規定されれば良い。また、区間決定部１３は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。

図３は、検出部３による有音区間と無音区間の検出結果を示す図である。図３の横軸は時間を示し、縦軸は入力音声の音量（振幅）を示している。図３に示される通り、各有音区間の後端に連接する区間が無音区間として検出される。また、図３に示される通り、実施例１に開示する検出部３による有音区間の検出においては、背景騒音に合わせて雑音を学習し、ＳＮＲに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均ＳＮＲを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。なお、検出部３は、国際公開第２００９／１４５１９２号パンフレットに記載の方法を用いることも可能である。また、検出部３は、必ずしも有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。実施例１においては、説明の便宜上、検出部３は有音区間と無音区間を検出するものとして説明する。

検出部３は、例えば、入力音声のフォルマント分布により、有音区間における母音区間を検出する。検出部３は、母音区間の検出方法として、例えば特開２００９−２５８３６６号公報に記載の方法を用いることが出来る。検出部３は、当該方法を用いることで母音区間の持続長となる母音区間長を検出することも可能となる。検出部３は、検出した母音区間を母音区間長算出部５と制御部６へ出力する。

図１において、アクセント区間推定部４は、例えば、ワイヤードロジックによるハードウェア回路である。また、アクセント区間推定部４は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。アクセント区間推定部４は、入力音声を取得部２から受け取り、母音区間を検出部３から受け取る。アクセント区間推定部４は、入力音声に含まれるアクセント区間を推定する。具体的には、アクセント区間推定部４は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を推定する。アクセント区間推定部４のアクセント区間の推定処理の詳細について、以下に説明する。

（アクセント区間推定方法１）
アクセント区間推定部４は、入力音声のフレーム毎のピッチ周波数を算出する。アクセント区間推定部４は、例えば、特開昭６３−１５５２００号公報に開示される、入力音声の音声波形の自己相関を用いてピッチ周波数を算出することが可能である。次に、アクセント区間推定部４は、フレーム毎（単位時間毎）のピッチ変化量の平均値を示す、ピッチ変化率ｒａｔｉｏを次式に従って算出する。
（数７）

但し、上述の（数７）において、Ｐｉｔ（ｎ）は、ｎフレームのピッチ周波数（Ｈｚ）であり、Ｌは、平均化フレーム数（例えば、１０フレーム（２００ｍｓ相当））である。次に、アクセント区間推定部４は、ピッチ変化率の下降傾向が大きい区間（任意の閾値未満の区間）をアクセント区間と推定する。

図４（ａ）は、有音区間とピッチ周波数の関係図である。図４（ｂ）は、有音区間とピッチ変化率の関係図である。図４（ａ）、（ｂ）において、有音区間は、「ｅｘｃｈａｎｇｅ」の単語で構成されている。図４（ｂ）に示すピッチ変化率は、例えば、図４（ａ）に示すピッチ周波数と上述の（数７）に基づいて算出される。また、図４（ｂ）において、ピッチ変化率の下降傾向が大きい区間を満たす閾値は、例えば−５（Ｈｚ／フレーム）である。図４（ｂ）に示す通り、ピッチ変化率の下降傾向が大きい区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、アクセント区間推定部４が、入力音声の単位時間あたりのピッチ周波数の変化量に基づいてアクセント区間を推定することが可能であることを示している。

（アクセント区間推定方法２）
アクセント区間推定部４は、入力音声のフレーム毎のパワーを算出する。次に、アクセント区間推定部４は、次式に従って、フレーム毎（単位時間毎）のパワー変化量の平均値を示す、パワー変化率ｒａｔｉｏ（ｎ）を次式に従って算出する。
（数８）

但し、上述の（数８）において、Ｐｏｗ（ｎ）は、ｎフレームのパワー（単位はｄＢ）であり、Ｌは、平均化フレーム数（例えば、２５フレーム（５００ｍｓ相当））である。次に、アクセント区間推定部４は、パワー変化率の下降傾向が大きい区間（任意の閾値未満の区間）をアクセント区間と推定する。

図５（ａ）は、有音区間とパワーの関係図である。図５（ｂ）は、有音区間とパワー変化率の関係図である。図５（ａ）、（ｂ）において、有音区間は、「ｅｘｃｈａｎｇｅ」の単語で構成されている。図５（ｂ）に示すパワー変化率は、例えば、図５（ａ）に示すパワーと上述の（数８）に基づいて算出される。また、図５（ｂ）において、パワー変化率の下降傾向が大きい区間を満たす閾値は、例えば−２（ｄＢ／フレーム）である。図５（ｂ）に示す通り、パワー変化率の下降傾向が大きい区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、アクセント区間推定部４が、入力音声の単位時間あたりのパワーの変化量に基づいてアクセント区間を推定することが可能であることを示している。

母音区間長算出部５は、アクセント区間推定部４で推定したアクセント区間と、検出部３から受け取った母音区間に基づいて、第１母音区間長と第２母音区間長を算出する。具体的には、母音区間長算出部５は、アクセント区間が含まれる母音区間の長さを第１母音区間長と規定し、アクセント区間が含まれない母音区間の長さを第２母音区間長と規定する。アクセント区間推定部４は、第１母音区間長と第２母音区間長を制御部６へ出力する。

図１の制御部６は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部６は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部６は、母音区間を検出部３から受け取り、第１母音区間長と第２母音区間長を母音区間長算出部５から受け取る。また、制御部６は、入力音声を取得部２から受け取る。制御部６は、第１母音区間長を伸長、または、第２母音区間長を短縮させる制御を行う。また、制御部６は、第１母音区間長と、第２母音区間長の比率または差分に基づいて第１母音区間長または第２母音区間長を制御する。また、制御部６は、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長を伸縮する制御を行う。制御部６による第１母音区間長と第２母音区間長の制御処理の詳細について以下に説明する。

制御部６は、第１母音区間長と、第２母音区間長の比率を示す母音区間長比ｒａｔｅを次式に従って算出する。
（数９）

但し、上述の（数９）において、Ｌｓは第１母音区間長を示し、Ｌｅは第２母音区間長を示す。制御部６は、母音区間長比と所定の目標伸縮率（制御量と称しても良い）に基づいて、第１母音区間長または第２母音区間長を制御する。制御部６は、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長の何れか、または、双方を伸縮する制御を実施すれば良い。実施例１においては、説明の便宜上、第２母音区間長を制御する方法について説明する。

図６は、母音区間長比と目標伸縮率の関係図である。図６において、ｒ＿ｈｉｇｈは、目標伸縮率の上限値を示し、ｒ＿ｌｏｗは、目標伸縮率の下限値を示す。なお、目標伸縮率は、例えば、上限値を１．０、下限値を０．５とした第２母音区間長に乗算される値であれば良い。下限値を０．５程度に設定することによって、過度な波形伸縮による音質劣化を防止することが出来る。なお、目標伸縮率は、第１母音区間長と、第２母音区間長の差分を用いても適宜規定することも出来る。なお、図６の関係図において、目標伸縮率がｒ＿ｌｏｗより大きくｒ＿ｈｉｇｈ未満の区間においては、直線の代わりにｒ＿ｌｏｗ及び、ｒ＿ｈｉｇｈの前後付近で曲率を有して変化する２次曲線やシグモイド曲線を規定しても良い。

制御部６は、第２母音区間長の区間において任意のサンプルを削除し、次式で表現される実績伸縮率（ｒａｔｅ＿ｒｅｓｕｌｔ（ｎ））が、上述の目標伸縮率（ｒａｔｅ＿ｔａｒｇｅｔ（ｎ））以上となる様に制御する。
（数１０）

但し、上述の（数１０）において、ｓは第１母音区間長または第２母音区間長の区間の開始フレームを示し、ｎは現フレーム（ｎ＞ｓ）を示す。また、ｄｉｆｆ（ｉ）は、ｉ番目のフレームで増減したサンプル数を示し、Ｍは１フレームのサンプル数（例えば、８０サンプル）を示す。また、上述の（数１０）において、分母は伸縮前の過去フレームの合計サンプル数を表し、分子は伸縮後の過去フレームの合計サンプル数を表す。

制御部６は、入力音声に含まれる第２母音区間長を制御した制御信号を出力音声として外部へ出力する。制御部６は、出力音声を、例えば、音声処理装置１に接続または配置される、図示しないスピーカーへ出力することが可能である。

ここで、実施例１における、第１母音区間長と、第２母音区間長の比率または差分に基づいて、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長を伸縮する制御を行う技術的意義について説明する。本発明者らは、ノンネイティブユーザの発声状態を、他国語言語を母国語とするネイティブユーザの発声状態に近づく様に制御することで、ノンネイティブユーザに対する入力音声の理解度が向上されることに新たに着目した。この為、本発明者らは、ネイティブユーザとノンネイティブユーザの発声状態の差異について鋭意検証を行った。

図７（ａ）は、ネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。図７（ｂ）は、ノンネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。図７（ａ）、（ｂ）において、有音区間は、「ｅｘｃｈａｎｇｅ」の単語で構成されている。図７（ａ）に示される通り、ネイティブユーザの発声は、アクセント区間が含まれる第１母音区間長が、第２母音区間長よりも長いことが確認された。一方、図７（ｂ）に示される通り、ノンネイティブユーザの発声は、第１母音区間長と第２母音区間長が同等程度であることが確認された。また、アクセント区間以外（すなわち第２母音区間）で、不要な母音が発声されていることも明らかになった。これは、例えば、日本語を発声する場合、１文字が子音と母音の組合せにより構成されている為、日本語を母国語とするユーザが英語を発声すると、日本語の発声の影響を受ける為であるものと推察される。この為、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長を伸縮する制御を行うことで、入力音声の理解度が向上させることが可能となる。

図８は、ネイティブユーザが発声する単語の第１母音区間長と第２母音区間長の関係図である。図８においては、男女各３名のネイティブユーザが、異なる１７個の単語を発声した場合の第１母音区間長と第２母音区間長の比較を示している。図８に示される通り、第１母音区間長の方が第２母音区間長よりも長いことが立証された。この為、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長を伸縮する制御を行うことで、入力音声の理解度が向上することが可能となる。また、母音区間のみについて音声処理を行えば良く、子音区間については音声処理を行う必要がない為、音声処理の処理負荷は軽微なものとなる利点も有する。

図９は、音声処理装置１による音声処理方法のフローチャートである。取得部２は、入力音声を、例えば、有線回路または無線回路を介して取得する（ステップＳ９０１）。取得部２は取得した入力音声を検出部３、アクセント区間推定部４と制御部６に出力する。検出部３は、入力音声を取得部２から受け取る。検出部３は、入力音声に含まれる有音区間と無音区間を検出する（ステップＳ９０２）。検出部３は、必ずしもステップＳ９０２における有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。

検出部３は、例えば、入力音声のフォルマント分布により、有音区間における母音区間を検出する（ステップＳ９０３）。検出部３は、母音区間の検出方法として、例えば特開２００９−２５８３６６号公報に記載の方法を用いることが出来る。検出部３は、当該方法を用いることで母音区間の持続長となる母音区間長を検出することも可能となる。検出部３は、検出した母音区間を母音区間長算出部５と制御部６へ出力する。

アクセント区間推定部４は、入力音声を取得部２から受け取り、母音区間を検出部３から受け取る。アクセント区間推定部４は、入力音声に含まれるアクセント区間に含まれる第１母音区間長またはアクセント区間以外の第２母音区間長を推定する。具体的には、アクセント区間推定部４は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を上述の方法を用いて推定する（ステップＳ９０４）。

母音区間長算出部５は、アクセント区間推定部４で推定したアクセント区間と、検出部３から受け取った母音区間に基づいて、第１母音区間長と第２母音区間長を推定する（ステップＳ９０５）。具体的には、母音区間長算出部５は、アクセント区間が含まれる母音区間の長さを第１母音区間長と規定し、アクセント区間が含まれない母音区間の長さを第２母音区間長と規定する。アクセント区間推定部４は、第１母音区間長と第２母音区間長を制御部６へ出力する。

制御部６は、母音区間を検出部３から受け取り、第１母音区間長と第２母音区間長を母音区間長算出部５から受け取る。また、制御部６は、入力音声を取得部２から受け取る。制御部６は、第１母音区間長を伸長、または、第２母音区間長を短縮させる制御を行う（ステップＳ９０６）。また、制御部６は、ステップＳ９０６において、第１母音区間長と、第２母音区間長の比率または差分に基づいて第１母音区間長または第２母音区間長を制御する。また、制御部６は、ステップＳ９０６において、第１母音区間長が第２母音区間長よりも長くなる様に、第１母音区間長または第２母音区間長を伸縮する制御を行う。ステップＳ９０６の処理が完了した時点で取得部２が入力音声を取得している場合は、音声処理装置１は、ステップＳ９０１〜Ｓ９０６の処理を繰り返す。ステップＳ９０６の処理が完了した時点で取得部２が入力音声を取得していない場合は、音声処理装置１は、図９のフローチャートに示す音声処理を終了する。

実施例１における音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、従来技術の様に、合成音声を生成する必要がなく、ユーザの発声状態のユニーク性を保つことが可能である。当該ユニーク性を保つことで、例えば、通話アプリケーションを介して、通話を行う際に、発話者を容易に特定できる利点も有する。

（実施例２）
実施例１においては、制御部６が、第１母音区間長と、第２母音区間長の比率または差分に基づいて第１母音区間長または第２母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明した。実施例２においては、母音区間長に基づいて第１母音区間長と第２母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明する。実施例２における音声処理装置１の機能ブロック図は図１と同様である為、実施例１と異なる処理についてのみ説明する。

制御部６は、第１母音区間長を伸長、または、第２母音区間長を短縮させる制御を行う。図１０は、母音区間長と目標伸縮率の関係図である。ｒ’＿ｈｉｇｈは、目標伸縮率の上限値を示し、ｒ’＿ｌｏｗは、目標伸縮率の下限値を示す。なお、目標伸縮率は、例えば、上限値を１．５、下限値を０．５とした第１母音区間長または、第２母音区間長に乗算される値であれば良い。上限値を１．５、下限値を０．５程度に設定することによって、過度な波形伸縮による音質劣化を防止することが出来る。制御部６は、第１母音区間または第２母音区間において任意のサンプルを増減し、上述の（数１０）で表現される実績伸縮率（ｒａｔｅ＿ｒｅｓｕｌｔ（ｎ））が、上述の目標伸縮率（ｒａｔｅ＿ｔａｒｇｅｔ（ｎ））以上となる様に制御する。

実施例２による音声処理装置においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。

（実施例３）
図１１は、第２の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、検出部３、アクセント区間推定部４、母音区間長算出部５、制御部６、特徴量算出部７を有する。取得部２、検出部３、アクセント区間推定部４、母音区間長算出部５、制御部６は実施例１と同様の機能を有する為、詳細な説明は省略する。

特徴量算出部７は、例えば、ワイヤードロジックによるハードウェア回路である。また、特徴量算出部７は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。特徴量算出部７は、入力音声を取得部２から受け取り、第１母音区間長と第２母音区間長を母音区間長算出部５から受け取る。特徴量算出部７は、第１母音区間長または第２母音区間長の基本周期を算出する。また、特徴量算出部７は、第１母音区間長または第２母音区間長の音響特徴量を算出する。なお、音響特徴量は、例えば、ピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つである。実施例３における特徴量算出部７の算出処理と制御部６の制御処理の詳細について、以下に説明する。

特徴量算出部７は、自己相関を用いて、第１母音区間長または第２母音区間長を伸縮する際の音声波形の間引き（または繰り返し）の間隔である基本周期を算出する。なお、自己相関とは、入力信号（入力音声）がそれ自身を時間シフトした信号とどれだけ良く整合するかを測る尺度であり、サンプリングした入力信号の自己相関係数が最大値となる周期を求めることで、第１母音区間長または第２母音区間長の区間の基本周期を算出することができる。なお、自己相関Ｒ（ｔ）は次式を用いて算出することが出来る。
（数１１）

但し、上述の（数１１）において、ｘ（ｎ）は入力音声をサンプリングした信号、Ｌは自己相関を算出する長さ（例えば１００サンプル）、τは時間シフトのサンプル数である。

次に、特徴量算出部７は、次式に従って、自己相関Ｒ（ｔ）から基本周期ｆｐ（ｎ）を算出する。
（数１２）

但し、上述の（数１２）において、ｎはフレーム番号を表す。

特徴量算出部７は、上述の（数１２）を用いて算出した基本周期に基づいてピッチ周波数の時間変化を表すピッチ変化率を算出する。先ず、特徴量算出部７は、次式に基づいて基本周期ｆｐ（ｎ）からピッチ周波数Ｐｉｔ（ｎ）を算出する。
（数１３）
Pit(n) = Fs / fp(n)
但し、上述の（数１３）において、Ｆｓはサンプリング周波数（例えば８０００Ｈｚ）を表す。次に、ピッチ周波数の時間変化を表すピッチ変化率ｒａｔｉｏ（ｎ）を次式により算出する。
（数１４）

但し、上述の（数１４）において、Ｌは平均化フレーム数（例えば４フレーム。８０ｍｓに相当）を表す。特徴量算出部７は、算出した基本周期とピッチ変化率を制御部６へ出力する。

ここで、特徴量算出部７は、ピッチ変化率の代わりにフォルマント変化率を算出しても良い。入力音声のフォルマント周波数は、例えば、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）分析や、特開昭６２−５４２９７号公報に開示の方法を用いることで適宜算出することが出来る。特徴量算出部７は、次式に従って、フォルマント変化率ｒａｔｉｏ（ｎ）を算出することが出来る。
（数１５）

但し、上述の（数１５）において、Ｌは平均化フレーム数（例えば４フレーム。８０ｍｓに相当）を表し、Ｆ（ｎ、ｊ）は、ｎフレームにおけるｊ番目のフォルマント周波数（Ｈｚ）を表す。

特徴量算出部７は基本周期とフォルマント変化率を制御部６へ出力する。なお、実施例１においては、説明の便宜上、基本周期とピッチ変化率を制御部６へ出力するものとして説明するが、フォルマント変化率を用いても後述の処理をピッチ変化率と同様に実施出来る為、詳細な説明は省略する。

更に、特徴量算出部７は、ピッチ変化率またはフォルマント変化率の代わりに自己相関の時間変化率を算出しても良い。なお、自己相関とは、入力音声自身を時間シフトした信号とどれだけ良く整合するかを測る尺度であり、自己相関値が高い場合は入力音声の周期波形の変化が小さいことを示す。そのため、自己相関値が所定閾値ＴＨ＿ａｃ（例えば０．７）以上の区間で周期波形の繰り返し／間引きを行うことで、波形の挿入／削除に伴う歪みを低減できるため、音質を劣化させずに第１母音区間長または第２母音区間長を制御することができる。例えば、後述する制御部６は、自己相関の時間変化率ａｃ（ｎ）がＴＨ_ａｃ以上の場合は、周期波形の変化が小さい区間として第１母音区間長または第２母音区間長を短縮する。また、制御部６は、自己相関の時間変化率ａｃ（ｎ）がＴＨ＿ａｃ未満の場合は、周期波形の変化が大きい区間として第１母音区間長または第２母音区間長を短縮しない。特徴量算出部７は、次式に従って、入力音声の自己相関の時間変化率ａｃ（ｎ）を算出する。
（数１６）

但し、上述の（数１６）において、ｘ（ｎ）は入力信号、Ｍは相関算出範囲長（例えば４００サンプル）、Ｓｍａｘは、シフト量の最大値（例えば、１６０サンプル）を示す。

特徴量算出部７は基本周期と自己相関の時間変化率を制御部６へ出力する。なお、実施例１においては、説明の便宜上、基本周期とピッチ変化率を制御部６へ出力するものとして説明するが、自己相関の時間変化率を用いても後述の処理をピッチ変化率と同様に実施出来る為、詳細な説明は省略する。

制御部６は、第１母音区間長と第２母音区間長を母音区間長算出部５から受け取る。また、制御部６は、入力音声を取得部２から受け取り、基本周期とピッチ変化率を特徴量算出部７から受け取る。制御部６は、基本周期の長さ単位で第１母音区間長または第２母音区間長を制御する。また、制御部６は、ピッチ変化率を含む音響特徴量の単位時間あたりの変化量が所定の第１閾値未満の区間内で第１母音区間長または第２母音区間長を制御する。

制御部６は、音質変化が小さい区間で母音区間長を伸縮するため、ピッチ変化率が所定の閾値ＴＨ＿ｐｉｔ（第１閾値と称しても良く、ＴＨ＿ｐｉｔの値は、例えば５．０（Ｈｚ／フレーム）であれば良い）未満の区間のみ音声波形の短縮（または伸長）を実施する様に、制御信号ＣＳ（ｎ）を、以下の条件式に従って生成する。
・ratio(n)＜TH_pitの場合 CS(n) = 1 ：伸縮する（ピッチ変化が小さい箇所）
・ratio(n)≧TH_pitの場合 CS(n) = 0 ：伸縮しない（ピッチ変化が大きい箇所）

制御部６は、例えば、上述の（数９）を用いて母音区間長比を算出し、母音区間長比と図６に示す目標伸縮率に基づいて第１母音区間または第２母音区間のサンプル数を、ピッチ周波数の時間変化が小さい区間で増減する。制御部６が短縮（または伸長）するサンプル数は基本周期に依存するため、個々のフレームによって異なる。そこで、第１母音区間または第２母音区間全体の伸縮率が、上述の目標伸縮率に近づくように制御する必要がある。そのため、制御部６は、母音区間の過去フレームの実績伸縮率を上述の（数１０）を用いて算出し、実績伸縮率（ｒａｔｅ＿ｒｅｓｕｌｔ（ｎ））と目標伸縮率（ｒａｔｅ＿ｔａｒｇｅｔ（ｎ））の差が大きい場合に、波形を伸長または短縮する制御を行う。

制御部６は、実績伸縮率と目標伸縮率の差分が所定の閾値ＴＨ＿ｄｉｆｆ（例えば０．１）未満の場合に、音声波形の短縮（または伸長）を実施する様に、例えば、以下の条件式に従って制御信号ＣＳ（ｎ）を生成する。
・| rate_result(n) - rate_target(n)| <TH_diffの場合 CS(n) = 1 ：伸縮する
・上記以外 CS(n) = 0 ：伸縮しない

制御部６は、制御信号と基本周期に基づいて、第１母音区間または、第２母音区間の音声波形を削除（または挿入）することで母音区間長を制御する。まず、母音区間長を短縮する場合（目標伸縮率＜１の場合）の処理について説明する。ピッチが滑らかに変化している音声波形に対して、単純に１周期分の音声波形を削除すると、その前後の波形の間に不連続性の歪みが生じて、音質が劣化することも想定され得る。この為、制御部６は、削除する周期波形に前後する波形も加工して、結果的に滑らかにピッチが変化する様に制御する。換言すると、制御部６は、削除対象の周期波形の前にある周期波形の後半の波形を削除対象の周期波形の後半の波形に近似し、一方で、削除対象の周期波形の後ろに続く周期波形を削除対象の周期波形の前半の波形に近似する。換言すると、制御部６は、第１母音区間長または第２母音区間の長さを、制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、第１母音区間長または第２母音区間長を伸長または短縮させる。これにより、波形削除に伴う音質劣化を軽減することができる。制御部６による具体的な処理として、次式に示す様に、入力音声の重み付け加算を行うことで実現できる。
（数１７）

但し、上述の（数１７）において、Ｌは基本周期、ｗ_１（ｔ）とｗ_２（ｔ）は、次式で表現される重み関数を表す。
（数１８）

但し、上述の（数１８）において、ｔ_１は波形削除箇所のサンプル数、Ｎは重み付けを行う区間のサンプル数であり、例えばｎフレーム目の先頭サンプル数とする。

また、制御部６は、複数の基本周期を纏めて削除すると、削除対象の前後の波形の歪が大きくなるため、音質劣化が発生することも想定され得る。この為、制御部６は、基本周期ごとに削除したか否かを示すフラグを、制御部６が有する図示しないバッファまたはメモリに記録しても良い。制御部６は、当該バッファを参照して、直前の基本周期が削除された場合は、次の基本周期は削除しないように制御することで、音質劣化を軽減することが可能となる。以上の処理により、制御部６は、第１母音区間長または、第２母音区間長を短縮させることが可能となる。

次に、母音区間長を伸長する場合（目標伸縮率≧１の場合）の処理について説明する。ピッチが滑らかに変化している音声波形に対して、単純に１周期分の音声波形を挿入すると、その前後の波形の間に不連続性の歪みが生じて、音質が劣化することも想定され得る。この為、制御部６は、新規に挿入する周期波形を時間的に前後する基本周期を加味して求めることで、結果的に滑らかにピッチが変化する様に制御する。換言すると、制御部６は、新規に挿入される周期波形の前半の波形を時間的に先行する基本周期に近似し、一方で、周期波形の後半の波形を時間的に後行する基本周期に近似する。これにより、波形挿入に伴う音質劣化を軽減することができる。制御部６による具体的な処理として、次式に示す様に、入力音声の重み付け加算を行うことで実現できる。
（数１９）

上述の（数１９）において、Ｌは基本周期、ｗ_１（ｔ）とｗ_２（ｔ）は、次式で表現される重み関数を表す。
（数２０）

但し、上述の（数２０）において、ｔ_１は波形挿入箇所のサンプル数、Ｎは重み付けを行う区間のサンプル数であり、例えばｎフレーム目の先頭サンプル数とする。

また、制御部６は、複数の基本周期を纏めて挿入すると、挿入により新たな周期性が生じる為、音質劣化が発生することも想定され得る。この為、制御部６は、基本周期ごとに挿入が行われたか否かを示すフラグを、制御部６が有する図示しないバッファまたはメモリに記録しても良い。制御部６は、当該バッファを参照して、直前の基本周期に対して挿入が行われた場合は、次の基本周期に対して挿入しないように制御することで、音質劣化を軽減することが可能となる。以上の処理により、制御部６は、第１母音区間長または、第２母音区間長を伸長することが可能となる。

制御部６は、入力音声に含まれる第１母音区間長または第２母音区間長を基本周期と音響特徴量の一例となるピッチ変化率等に基づいて制御した制御信号を出力音声として外部へ出力する。制御部６は、出力音声を、例えば、音声処理装置１に接続または配置される、図示しないスピーカーへ出力することが可能である。

実施例３における音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。更に、基本周期と音響特徴量に基づいて入力音声の波形の変化量を最低限に抑制していることで高音質状態を保持することが可能となる。

（実施例４）
図１２は、第３の実施形態による音声処理装置１の機能ブロック図である。音声処理装置１は、取得部２、制御部６、記憶部８、認識部９を有する。取得部２と制御部６は、例えば、実施例１と同様の機能を有する為、詳細な説明は省略する。

記憶部８は、例えば、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの半導体メモリ素子、または、ＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ）、光ディスクなどの記憶装置である。なお、記憶部８は、上記の種類の記憶装置に限定されるものではなく、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）であってもよい。記憶部８には、例えば、テキスト情報に対応する母音区間やアクセント区間等を含む単語辞書が必要に応じて記憶される。なお、記憶部８は、必ずしも音声処理装置１に含まれる必要はない。例えば、当該各種データは、音声処理装置１に含まれる各機能部の図示しないキャッシュやメモリ等に、分散または統合した状態で記憶しても良い。また、音声処理装置１に設けられる図示しない通信ユニットを用いて通信回線を介することによって、記憶部８を音声処理装置１以外の外部装置に設けることも可能である。

認識部９は、例えば、ワイヤードロジックによるハードウェア回路である。また、認識部９は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。認識部９は、入力音声を取得部２から受け取る。認識部９は、入力音声をテキスト情報として認識する。具体的には、認識部９は、入力音声の特徴ベクトルを求め、予め認識部９の図示しないキャッシュやメモリに登録された音素の標準パターンと照合することで、入力音声をテキスト情報に変換する。入力音声の音声認識方法として、例えば、特開平４−２５５９００に記載の方法を用いることが可能である。また、特許第５１６０５９４号記載の音声認識方法を適用することも可能である。

認識部９は、記憶部８に記憶される単語辞書を参照し、認識したテキスト情報に対応する母音区間やアクセント区間を認識する。これにより、認識部９は、第１母音区間長と第２母音区間長を認識することが可能となる。認識部９は、第１母音区間長と第２母音区間長を制御部６へ出力する。また、実施例４における音声処理装置においては、図１または図１１の検出部３、アクセント区間推定部４、母音区間長算出部５、特徴量算出部７を適宜組合せることも可能である。

実施例４による音声処理装置においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。更に、実施例４による音声処理装置においては、音声認識に基づいた第１母音区間長と第２母音区間長を規定している為、より正確に第１母音区間長または第２母音区間長を制御することが可能となる。

（実施例５）
図１３は、一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。図１３に示すように、音声処理装置１は、制御部２１、主記憶部２２、補助記憶部２３、ドライブ装置２４、ネットワークＩ／Ｆ部２６、入力部２７、表示部２８を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。

制御部２１は、コンピュータの中で、各装置の制御やデータの演算、加工を行うＣＰＵである。また、制御部２１は、主記憶部２２や補助記憶部２３に記憶されたプログラムを実行する演算装置であり、入力部２７や記憶装置からデータを受け取り、演算、加工した上で、表示部２８や記憶装置などに出力する。

主記憶部２２は、ＲＯＭやＲＡＭなどであり、制御部２１が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。

補助記憶部２３は、ＨＤＤなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置２４は、記録媒体２５、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部２３にインストールする。

また、記録媒体２５に、所定のプログラムを格納し、この記録媒体２５に格納されたプログラムはドライブ装置２４を介して音声処理装置１にインストールされる。インストールされた所定のプログラムは、音声処理装置１により実行可能となる。

ネットワークＩ／Ｆ部２６は、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワークを介して接続された通信機能を有する周辺機器と音声処理装置１とのインタフェースである。

入力部２７は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部２８の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部２７は、ユーザが制御部２１に操作指示を与えたり、データを入力したりするためのユーザインタフェースである。

表示部２８は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等により構成され、制御部２１から入力される表示データに応じた表示が行われる。

なお、上述した音声処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した音声処理方法を実現することができる。

また、このプログラムを記録媒体２５に記録し、このプログラムが記録された記録媒体２５をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体１５は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

（実施例６）
図１４は、一つの実施形態による携帯端末装置３０として機能するハードウェア構成図である。携帯端末装置３０は、アンテナ３１、無線部３２、ベースバンド処理部３３、制御部２１、端末インタフェース部３４、マイク３５、スピーカ３６、主記憶部２２、補助記憶部２３を有する。

アンテナ３１は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部３２は、ベースバンド処理部３３で拡散された送信信号をＤ／Ａ変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部３２は、受信した無線信号を増幅し、その信号をＡ／Ｄ変換してベースバンド処理部３３に伝送する。

ベースバンド処理部３３は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。

制御部２１は、制御信号の送受信などの無線制御を行う。また、制御部２１は、補
助記憶部２３などに記憶されている信号処理プログラムを実行し、例えば、実施例１における音声処理を行う。

主記憶部２２は、ＲＯＭやＲＡＭなどであり、制御部２１が実行する基本ソフトウェアであるＯＳやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

補助記憶部２３は、ＨＤＤやＳＳＤなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

端末インタフェース部３４は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインタフェース処理を行う。

マイク３５は、発話者の音声を含む周囲の音を入力し、マイク信号として制御部２１に出力する。スピーカ３６は、出力音声として制御部２１から出力された信号を出力する。

以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

以上、説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間以外の第２母音区間長を算出する母音区間長算出部と、
前記第１母音区間長または前記第２母音区間長を制御する制御部と、
を備えることを特徴とする音声処理装置。
（付記２）
前記制御部は、前記第１母音区間長を伸長、または、前記第２母音区間長を短縮させることを特徴とする付記１記載の音声処理装置。
（付記３）
前記制御部は、前記第１母音区間長と、前記第２母音区間長の比率または差分に基づいて前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１または付記２記載の音声処理装置。
（付記４）
前記制御部は、前記第１母音区間長が前記第２母音区間長よりも長くなる様に、前記第１母音区間長または前記第２母音区間長を伸縮する制御を行うことを特徴とする付記１ないし付記３の何れか１つに記載の音声処理装置。
（付記５）
前記アクセント区間推定部は、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記１ないし付記４の何れか１つに記載の音声処理装置。
（付記６）
前記母音区間における基本周期を算出する特徴量算出部を更に備え、
前記制御部は、前記基本周期単位で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１ないし付記５の何れか１つに記載の音声処理装置。
（付記７）
前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第１閾値未満の区間内で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記６記載の音声処理装置。
（付記８）
前記制御部は、第１母音区間長または前記第２母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１記載の音声処理装置。
（付記９）
前記制御部は、第１母音区間長または前記第２母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第１母音区間長または前記第２母音区間長を伸長または短縮させることを特徴とする付記１記載の音声処理装置。
（付記１０）
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記認識部は、前記テキスト情報に基づいて前記第１母音区間長または前記第２母音区間長を認識することを特徴とする付記１記載の音声処理装置。
（付記１１）
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間以外の第２母音区間長を算出し、
前記第１母音区間長または前記第２母音区間長を制御すること、
を含むことを特徴とする音声処理方法。
（付記１２）
前記制御するは、前記第１母音区間長を伸長、または、前記第２母音区間長を短縮させることを特徴とする付記１１記載の音声処理方法。
（付記１３）
前記制御することは、前記第１母音区間長と、前記第２母音区間長の比率または差分に基づいて前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１１または付記１２記載の音声処理方法。
（付記１４）
前記制御することは、前記第１母音区間長が前記第２母音区間長よりも長くなる様に、前記第１母音区間長または前記第２母音区間長を伸縮する制御を行うことを特徴とする付記１１ないし付記１３の何れか１つに記載の音声処理方法。
（付記１５）
前記推定することは、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記１１ないし付記１４の何れか１つに記載の音声処理方法。
（付記１６）
前記母音区間における基本周期を算出することを更に含み、
前記制御することは、前記基本周期単位で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１１ないし付記１５の何れか１つに記載の音声処理方法。
（付記１７）
前記算出することは、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御することは、前記音響特徴量の単位時間あたりの変化量が所定の第１閾値未満の区間内で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１６記載の音声処理方法。
（付記１８）
前記制御することは、第１母音区間長または前記第２母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第１母音区間長または前記第２母音区間長を制御することを特徴とする付記１１記載の音声処理方法。
（付記１９）
前記制御することは、第１母音区間長または前記第２母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第１母音区間長または前記第２母音区間長を伸長または短縮させることを特徴とする付記１１記載の音声処理方法。
（付記２０）
前記入力音声をテキスト情報として認識することを更に含み、
前記認識することは、前記テキスト情報に基づいて前記第１母音区間長または前記第２母音区間長を認識することを特徴とする付記１１記載の音声処理方法。
（付記２１）
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間以外の第２母音区間長を算出し、
前記第１母音区間長または前記第２母音区間長を制御すること
を実行させることを特徴とする音声処理プログラム。
（付記２２）
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間以外の第２母音区間長を推定する算出部と、
前記第１母音区間長または前記第２母音区間長を制御する制御部と、
前記入力音声を制御した出力音声を出力するスピーカー
を備えることを特徴とする携帯端末装置。

１音声処理装置
２取得部
３検出部
４アクセント区間推定部
５母音区間長算出部
６制御部

Claims

入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する母音区間検出部と、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定するアクセント区間推定部と、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間に含まれない第２母音区間長を算出する母音区間長算出部と、
前記第１母音区間長と前記第２母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第１母音区間長を伸長または前記第２母音区間長を短縮させる制御部と、
を備えることを特徴とする音声処理装置。
前記制御部は、前記第１母音区間長が前記第２母音区間長よりも長くなる様に、前記第１母音区間長または前記第２母音区間長を伸縮する制御を行うことを特徴とする請求項１に記載の音声処理装置。
前記母音区間における基本周期を算出する特徴量算出部を更に備え、
前記制御部は、前記基本周期単位で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする請求項１または請求項２に記載の音声処理装置。
前記制御部は、前記母音区間の音声波形に対して前記基本周期単位の音声波形を追加または削除することで前記第１母音区間長または前記第２母音区間長を制御することを特徴とする請求項３に記載の音声処理装置。
前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第１閾値未満の区間内で前記第１母音区間長または前記第２母音区間長を制御することを特徴とする請求項４に記載の音声処理装置。
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間に含まれない第２母音区間長を算出し、
前記第１母音区間長と前記第２母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第１母音区間長を伸長または前記第２母音区間長を短縮させること、
を含むことを特徴とする音声処理方法。
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
前記アクセント区間に含まれる第１母音区間長または前記アクセント区間に含まれない第２母音区間長を算出し、
前記第１母音区間長と前記第２母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第１母音区間長を伸長または前記第２母音区間長を短縮させること
を実行させることを特徴とする音声処理プログラム。