JP6263868B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP6263868B2
JP6263868B2 JP2013126303A JP2013126303A JP6263868B2 JP 6263868 B2 JP6263868 B2 JP 6263868B2 JP 2013126303 A JP2013126303 A JP 2013126303A JP 2013126303 A JP2013126303 A JP 2013126303A JP 6263868 B2 JP6263868 B2 JP 6263868B2
Authority
JP
Japan
Prior art keywords
vowel
section
length
section length
vowel section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013126303A
Other languages
English (en)
Other versions
JP2015001632A (ja
Inventor
太郎 外川
太郎 外川
千里 石川
千里 石川
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013126303A priority Critical patent/JP6263868B2/ja
Priority to US14/260,449 priority patent/US9672809B2/en
Priority to EP14166346.8A priority patent/EP2816558B1/en
Priority to CN201410213321.XA priority patent/CN104240696B/zh
Publication of JP2015001632A publication Critical patent/JP2015001632A/ja
Application granted granted Critical
Publication of JP6263868B2 publication Critical patent/JP6263868B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Description

本発明は、例えば、入力信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。
近年、情報処理機器の発達や国際化の進展に伴い、例えば、パーソナルコンピュータにインストールされる通話アプリケーションを介して他国語言語で通話を行う場面が増加している。この様な状況下において、他国語言語を母国語とするネイティブユーザに対して、ノンネイティブユーザが発話する音声信号を聞き易く制御する方法が開示されている。例えば、音響モデルを用いた音声認識処理により入力音声に対応する音素ラベルを生成し、当該音声ラベルを所定の変換テーブルによって変換し、変換後の音素ラベルから合成音声を生成する技術が開示されている。
特許第4942860号
上述の合成音声を生成する技術においては、音響モデルを用いた音声認識処理、音素ラベルの生成処理、および合成音声生成処理等の処理負荷が高い処理を実行する必要があり、音声処理の遅延の発生が懸念される。本発明においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる音声処理装置を提供することを目的とする。
本発明が開示する音声処理装置は、入力音声を取得する取得部と、入力音声に含まれる
母音区間を検出する検出部を備える。更に当該音声処理装置は、入力音声の単位時間あたりのパワーの変化率に基づいて、入力音声に含まれる単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間推定するアクセント区間推定部と、アクセント区間に含まれる第1母音区間長またはアクセント区間以外の第2母音区間長を算出する母音区間長算出部と、第1母音区間長または第2母音区間長を制御する制御部を備える。
なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
第1の実施形態による音声処理装置1の機能ブロック図である。 一つの実施形態による検出部3の機能ブロック図である。 検出部3による有音区間と無音区間の検出結果を示す図である。 (a)は、有音区間とピッチ周波数の関係図である。(b)は、有音区間とピッチ変化率の関係図である。 (a)は、有音区間とパワーの関係図である。(b)は、有音区間とパワー変化率の関係図である。 母音区間長比と目標伸縮率の関係図である。 (a)は、ネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。(b)は、ノンネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。 ネイティブユーザが発声する単語の第1母音区間長と第2母音区間長の関係図である。 音声処理装置1による音声処理方法のフローチャートである。 母音区間長と目標伸縮率の関係図である。 第2の実施形態による音声処理装置1の機能ブロック図である。 第3の実施形態による音声処理装置1の機能ブロック図である。 一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。 一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。
以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6を有する。
取得部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部2は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する。また、取得部2は、例えば、音声処理装置1に接続または配置される、図示しないマイクロフォンから入力音声を取得することが可能である。入力音声は、例えば、英語であるが、他の言語であっても良い。また、入力音声は、例えば、ユーザに対する他国語言語であるが、母国語言語であっても良い。実施例1においては、説明の便宜上、入力音声を発声するユーザの母国語は日本語であり、入力音声と出力音声を英語として説明する。また、出力音声を聴くユーザは母国語を英語とするネイティブユーザとする。取得部2は取得した入力音声を検出部3、アクセント区間推定部4と制御部6に出力する。
検出部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、検出部3は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。検出部3は、入力音声を取得部2から受け取る。検出部3は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間(換言すると第1の呼吸と第2呼吸の間の区間、または発話を続けている区間)となる。検出部3は、例えば、入力音声に含まれる複数のフレームから信号品質の一例となる信号電力対雑音比となる平均SNRを検出し、当該平均SNRが所定の条件を満たしている区間を有音区間(換言すると呼気区間)として検出することが出来る。また、検出部3は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。検出部3は、例えば、上述の当該平均SNRが所定の条件を満たさない区間を無音区間(換言すると吸気区間)として検出することが出来る。
ここで、検出部3による有音区間と無音区間の検出処理の詳細について説明する。図2は、一つの実施形態による検出部3の機能ブロック図である。検出部3は、音量算出部10、雑音推定部11、平均SNR算出部12、区間決定部13を有する。なお、検出部3は、音量算出部10、雑音推定部11、平均SNR算出部12、区間決定部13を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、検出部3に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。
図2において、入力音声が検出部3を介して音量算出部10に入力される。なお、音量算出部10は、図示しない長さmのバッファまたはキャッシュを有する。音量算出部10は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部11と平均SNR算出部12へ出力する。なお、入力音声に含まれる各フレーム長は、例えば0.2msecである。各フレームの音量Sは、次式の通り、算出することが出来る。
(数1)

Figure 0006263868

ここで、fは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(fは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部11は、各フレームの音量S(f)を音量算出部10から受け取る。雑音推定部11は、各フレームにおける雑音を推定して、雑音推定結果を平均SNR算出部12へ出力する。ここで、雑音推定部11による各フレームの雑音推定は、例えば、以下の(雑音推定方法1)または、(雑音推定方法2)を用いることが出来る。
(雑音推定方法1)
雑音推定部11は、フレームfにおける雑音の大きさ(電力)N(f)を、フレームfにおける音量S(f)、前フレーム(f−1)における音量S(f−1)ならびに、雑音の大きさN(f−1)に基づいて、次式を用いて推定することが出来る。
(数2)

Figure 0006263868

ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数2)において、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化しない場合には、フレームfの雑音電力N(f)が更新される。一方、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化する場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。なお、雑音電力N(f)を上述の雑音推定結果と称しても良い。
(雑音推定方法2)
雑音推定部11は、雑音の大きさの更新を、次式の(数3)を用いて、フレームfの音量S(f)と、1つ前のフレームf−1の雑音電力N(f−1)との比に基づいて実施しても良い。
(数3)

Figure 0006263868

ここで、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数3)において、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以下である場合には、フレームfの雑音電力N(f)を更新する。一方、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以上である場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。
図2において、平均SNR算出部12は、音量算出部10から各フレームの音量S(f)を受け取り、雑音推定部11から雑音推定結果となる各フレームの雑音電力N(f)を受け取る。なお、平均SNR算出部12は、図示しないキャッシュまたはメモリを有しており、過去Lフレーム分の音量S(f)、雑音電力N(f)を保持する。平均SNR算出部12は、次式を用いて、分析対象時間(フレーム)内の平均SNRを算出し、当該平均SNRを区間決定部13へ出力する。
(数4)

Figure 0006263868

ここで、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
区間決定部13は、平均SNRを平均SNR算出部12から受け取る。区間決定部13は、図示しないバッファまたはキャッシュを有しており、区間決定部13による前処理フレームが、有音区間内(換言すると呼気区間内)であるか否かを示すフラグf_breathを保持する。区間決定部13は、平均SNRとf_breathに基づいて、次式の(数5)を用いて有音区間の始端tbを検出し、次式の(数6)に用いて有音区間の終端teを検出する。
(数5)
tb=f×M
(if f_breath=有音区間ではない、かつ、SNR(f)>THSNR)
(数6)
te=f×M−1
(if f_breath=有音区間、かつ、SNR(f)<THSNR)
ここで、THSNRは、区間決定部13による処理フレームfが雑音ではないと看做すための閾値(当該閾値を第1閾値と称しても良い)であり、実験的に規定されれば良い。また、区間決定部13は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。
図3は、検出部3による有音区間と無音区間の検出結果を示す図である。図3の横軸は時間を示し、縦軸は入力音声の音量(振幅)を示している。図3に示される通り、各有音区間の後端に連接する区間が無音区間として検出される。また、図3に示される通り、実施例1に開示する検出部3による有音区間の検出においては、背景騒音に合わせて雑音を学習し、SNRに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均SNRを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。なお、検出部3は、国際公開第2009/145192号パンフレットに記載の方法を用いることも可能である。また、検出部3は、必ずしも有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。実施例1においては、説明の便宜上、検出部3は有音区間と無音区間を検出するものとして説明する。
検出部3は、例えば、入力音声のフォルマント分布により、有音区間における母音区間を検出する。検出部3は、母音区間の検出方法として、例えば特開2009−258366号公報に記載の方法を用いることが出来る。検出部3は、当該方法を用いることで母音区間の持続長となる母音区間長を検出することも可能となる。検出部3は、検出した母音区間を母音区間長算出部5と制御部6へ出力する。
図1において、アクセント区間推定部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、アクセント区間推定部4は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。アクセント区間推定部4は、入力音声を取得部2から受け取り、母音区間を検出部3から受け取る。アクセント区間推定部4は、入力音声に含まれるアクセント区間を推定する。具体的には、アクセント区間推定部4は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を推定する。アクセント区間推定部4のアクセント区間の推定処理の詳細について、以下に説明する。
(アクセント区間推定方法1)
アクセント区間推定部4は、入力音声のフレーム毎のピッチ周波数を算出する。アクセント区間推定部4は、例えば、特開昭63−155200号公報に開示される、入力音声の音声波形の自己相関を用いてピッチ周波数を算出することが可能である。次に、アクセント区間推定部4は、フレーム毎(単位時間毎)のピッチ変化量の平均値を示す、ピッチ変化率ratioを次式に従って算出する。
(数7)

Figure 0006263868

但し、上述の(数7)において、Pit(n)は、nフレームのピッチ周波数(Hz)であり、Lは、平均化フレーム数(例えば、10フレーム(200ms相当))である。次に、アクセント区間推定部4は、ピッチ変化率の下降傾向が大きい区間(任意の閾値未満の区間)をアクセント区間と推定する。
図4(a)は、有音区間とピッチ周波数の関係図である。図4(b)は、有音区間とピッチ変化率の関係図である。図4(a)、(b)において、有音区間は、「exchange」の単語で構成されている。図4(b)に示すピッチ変化率は、例えば、図4(a)に示すピッチ周波数と上述の(数7)に基づいて算出される。また、図4(b)において、ピッチ変化率の下降傾向が大きい区間を満たす閾値は、例えば−5(Hz/フレーム)である。図4(b)に示す通り、ピッチ変化率の下降傾向が大きい区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、アクセント区間推定部4が、入力音声の単位時間あたりのピッチ周波数の変化量に基づいてアクセント区間を推定することが可能であることを示している。
(アクセント区間推定方法2)
アクセント区間推定部4は、入力音声のフレーム毎のパワーを算出する。次に、アクセント区間推定部4は、次式に従って、フレーム毎(単位時間毎)のパワー変化量の平均値を示す、パワー変化率ratio(n)を次式に従って算出する。
(数8)

Figure 0006263868

但し、上述の(数8)において、Pow(n)は、nフレームのパワー(単位はdB)であり、Lは、平均化フレーム数(例えば、25フレーム(500ms相当))である。次に、アクセント区間推定部4は、パワー変化率の下降傾向が大きい区間(任意の閾値未満の区間)をアクセント区間と推定する。
図5(a)は、有音区間とパワーの関係図である。図5(b)は、有音区間とパワー変化率の関係図である。図5(a)、(b)において、有音区間は、「exchange」の単語で構成されている。図5(b)に示すパワー変化率は、例えば、図5(a)に示すパワーと上述の(数8)に基づいて算出される。また、図5(b)において、パワー変化率の下降傾向が大きい区間を満たす閾値は、例えば−2(dB/フレーム)である。図5(b)に示す通り、パワー変化率の下降傾向が大きい区間と、実際のアクセント区間が一致していることが本発明者らの検証で明らかになった。これは、アクセント区間推定部4が、入力音声の単位時間あたりのパワーの変化量に基づいてアクセント区間を推定することが可能であることを示している。
母音区間長算出部5は、アクセント区間推定部4で推定したアクセント区間と、検出部3から受け取った母音区間に基づいて、第1母音区間長と第2母音区間長を算出する。具体的には、母音区間長算出部5は、アクセント区間が含まれる母音区間の長さを第1母音区間長と規定し、アクセント区間が含まれない母音区間の長さを第2母音区間長と規定する。アクセント区間推定部4は、第1母音区間長と第2母音区間長を制御部6へ出力する。
図1の制御部6は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部6は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部6は、母音区間を検出部3から受け取り、第1母音区間長と第2母音区間長を母音区間長算出部5から受け取る。また、制御部6は、入力音声を取得部2から受け取る。制御部6は、第1母音区間長を伸長、または、第2母音区間長を短縮させる制御を行う。また、制御部6は、第1母音区間長と、第2母音区間長の比率または差分に基づいて第1母音区間長または第2母音区間長を制御する。また、制御部6は、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長を伸縮する制御を行う。制御部6による第1母音区間長と第2母音区間長の制御処理の詳細について以下に説明する。
制御部6は、第1母音区間長と、第2母音区間長の比率を示す母音区間長比rateを次式に従って算出する。
(数9)

Figure 0006263868

但し、上述の(数9)において、Lsは第1母音区間長を示し、Leは第2母音区間長を示す。制御部6は、母音区間長比と所定の目標伸縮率(制御量と称しても良い)に基づいて、第1母音区間長または第2母音区間長を制御する。制御部6は、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長の何れか、または、双方を伸縮する制御を実施すれば良い。実施例1においては、説明の便宜上、第2母音区間長を制御する方法について説明する。
図6は、母音区間長比と目標伸縮率の関係図である。図6において、r_highは、目標伸縮率の上限値を示し、r_lowは、目標伸縮率の下限値を示す。なお、目標伸縮率は、例えば、上限値を1.0、下限値を0.5とした第2母音区間長に乗算される値であれば良い。下限値を0.5程度に設定することによって、過度な波形伸縮による音質劣化を防止することが出来る。なお、目標伸縮率は、第1母音区間長と、第2母音区間長の差分を用いても適宜規定することも出来る。なお、図6の関係図において、目標伸縮率がr_lowより大きくr_high未満の区間においては、直線の代わりにr_low及び、r_highの前後付近で曲率を有して変化する2次曲線やシグモイド曲線を規定しても良い。
制御部6は、第2母音区間長の区間において任意のサンプルを削除し、次式で表現される実績伸縮率(rate_result(n))が、上述の目標伸縮率(rate_target(n))以上となる様に制御する。
(数10)

Figure 0006263868

但し、上述の(数10)において、sは第1母音区間長または第2母音区間長の区間の開始フレームを示し、nは現フレーム(n>s)を示す。また、diff(i)は、i番目のフレームで増減したサンプル数を示し、Mは1フレームのサンプル数(例えば、80サンプル)を示す。また、上述の(数10)において、分母は伸縮前の過去フレームの合計サンプル数を表し、分子は伸縮後の過去フレームの合計サンプル数を表す。
制御部6は、入力音声に含まれる第2母音区間長を制御した制御信号を出力音声として外部へ出力する。制御部6は、出力音声を、例えば、音声処理装置1に接続または配置される、図示しないスピーカーへ出力することが可能である。
ここで、実施例1における、第1母音区間長と、第2母音区間長の比率または差分に基づいて、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長を伸縮する制御を行う技術的意義について説明する。本発明者らは、ノンネイティブユーザの発声状態を、他国語言語を母国語とするネイティブユーザの発声状態に近づく様に制御することで、ノンネイティブユーザに対する入力音声の理解度が向上されることに新たに着目した。この為、本発明者らは、ネイティブユーザとノンネイティブユーザの発声状態の差異について鋭意検証を行った。
図7(a)は、ネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。図7(b)は、ノンネイティブユーザの発声による有音区間と周波数帯域のパワースペクトルの関係図である。図7(a)、(b)において、有音区間は、「exchange」の単語で構成されている。図7(a)に示される通り、ネイティブユーザの発声は、アクセント区間が含まれる第1母音区間長が、第2母音区間長よりも長いことが確認された。一方、図7(b)に示される通り、ノンネイティブユーザの発声は、第1母音区間長と第2母音区間長が同等程度であることが確認された。また、アクセント区間以外(すなわち第2母音区間)で、不要な母音が発声されていることも明らかになった。これは、例えば、日本語を発声する場合、1文字が子音と母音の組合せにより構成されている為、日本語を母国語とするユーザが英語を発声すると、日本語の発声の影響を受ける為であるものと推察される。この為、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長を伸縮する制御を行うことで、入力音声の理解度が向上させることが可能となる。
図8は、ネイティブユーザが発声する単語の第1母音区間長と第2母音区間長の関係図である。図8においては、男女各3名のネイティブユーザが、異なる17個の単語を発声した場合の第1母音区間長と第2母音区間長の比較を示している。図8に示される通り、第1母音区間長の方が第2母音区間長よりも長いことが立証された。この為、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長を伸縮する制御を行うことで、入力音声の理解度が向上することが可能となる。また、母音区間のみについて音声処理を行えば良く、子音区間については音声処理を行う必要がない為、音声処理の処理負荷は軽微なものとなる利点も有する。
図9は、音声処理装置1による音声処理方法のフローチャートである。取得部2は、入力音声を、例えば、有線回路または無線回路を介して取得する(ステップS901)。取得部2は取得した入力音声を検出部3、アクセント区間推定部4と制御部6に出力する。検出部3は、入力音声を取得部2から受け取る。検出部3は、入力音声に含まれる有音区間と無音区間を検出する(ステップS902)。検出部3は、必ずしもステップS902における有音区間と無音区間の検出処理は必要としないが、有音区間と無音区間を検出し、後述の各種処理を有音区間のみに対して実行することで処理負荷を大幅に軽減することが可能となる。
検出部3は、例えば、入力音声のフォルマント分布により、有音区間における母音区間を検出する(ステップS903)。検出部3は、母音区間の検出方法として、例えば特開2009−258366号公報に記載の方法を用いることが出来る。検出部3は、当該方法を用いることで母音区間の持続長となる母音区間長を検出することも可能となる。検出部3は、検出した母音区間を母音区間長算出部5と制御部6へ出力する。
アクセント区間推定部4は、入力音声を取得部2から受け取り、母音区間を検出部3から受け取る。アクセント区間推定部4は、入力音声に含まれるアクセント区間に含まれる第1母音区間長またはアクセント区間以外の第2母音区間長を推定する。具体的には、アクセント区間推定部4は、例えば、入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいてアクセント区間を上述の方法を用いて推定する(ステップS904)。
母音区間長算出部5は、アクセント区間推定部4で推定したアクセント区間と、検出部3から受け取った母音区間に基づいて、第1母音区間長と第2母音区間長を推定する(ステップS905)。具体的には、母音区間長算出部5は、アクセント区間が含まれる母音区間の長さを第1母音区間長と規定し、アクセント区間が含まれない母音区間の長さを第2母音区間長と規定する。アクセント区間推定部4は、第1母音区間長と第2母音区間長を制御部6へ出力する。
制御部6は、母音区間を検出部3から受け取り、第1母音区間長と第2母音区間長を母音区間長算出部5から受け取る。また、制御部6は、入力音声を取得部2から受け取る。制御部6は、第1母音区間長を伸長、または、第2母音区間長を短縮させる制御を行う(ステップS906)。また、制御部6は、ステップS906において、第1母音区間長と、第2母音区間長の比率または差分に基づいて第1母音区間長または第2母音区間長を制御する。また、制御部6は、ステップS906において、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長を伸縮する制御を行う。ステップS906の処理が完了した時点で取得部2が入力音声を取得している場合は、音声処理装置1は、ステップS901〜S906の処理を繰り返す。ステップS906の処理が完了した時点で取得部2が入力音声を取得していない場合は、音声処理装置1は、図9のフローチャートに示す音声処理を終了する。
実施例1における音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。また、従来技術の様に、合成音声を生成する必要がなく、ユーザの発声状態のユニーク性を保つことが可能である。当該ユニーク性を保つことで、例えば、通話アプリケーションを介して、通話を行う際に、発話者を容易に特定できる利点も有する。
(実施例2)
実施例1においては、制御部6が、第1母音区間長と、第2母音区間長の比率または差分に基づいて第1母音区間長または第2母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明した。実施例2においては、母音区間長に基づいて第1母音区間長と第2母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明する。実施例2における音声処理装置1の機能ブロック図は図1と同様である為、実施例1と異なる処理についてのみ説明する。
制御部6は、第1母音区間長を伸長、または、第2母音区間長を短縮させる制御を行う。図10は、母音区間長と目標伸縮率の関係図である。r’_highは、目標伸縮率の上限値を示し、r’_lowは、目標伸縮率の下限値を示す。なお、目標伸縮率は、例えば、上限値を1.5、下限値を0.5とした第1母音区間長または、第2母音区間長に乗算される値であれば良い。上限値を1.5、下限値を0.5程度に設定することによって、過度な波形伸縮による音質劣化を防止することが出来る。制御部6は、第1母音区間または第2母音区間において任意のサンプルを増減し、上述の(数10)で表現される実績伸縮率(rate_result(n))が、上述の目標伸縮率(rate_target(n))以上となる様に制御する。
実施例2による音声処理装置においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。
(実施例3)
図11は、第2の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6、特徴量算出部7を有する。取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
特徴量算出部7は、例えば、ワイヤードロジックによるハードウェア回路である。また、特徴量算出部7は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。特徴量算出部7は、入力音声を取得部2から受け取り、第1母音区間長と第2母音区間長を母音区間長算出部5から受け取る。特徴量算出部7は、第1母音区間長または第2母音区間長の基本周期を算出する。また、特徴量算出部7は、第1母音区間長または第2母音区間長の音響特徴量を算出する。なお、音響特徴量は、例えば、ピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つである。実施例3における特徴量算出部7の算出処理と制御部6の制御処理の詳細について、以下に説明する。
特徴量算出部7は、自己相関を用いて、第1母音区間長または第2母音区間長を伸縮する際の音声波形の間引き(または繰り返し)の間隔である基本周期を算出する。なお、自己相関とは、入力信号(入力音声)がそれ自身を時間シフトした信号とどれだけ良く整合するかを測る尺度であり、サンプリングした入力信号の自己相関係数が最大値となる周期を求めることで、第1母音区間長または第2母音区間長の区間の基本周期を算出することができる。なお、自己相関R(t)は次式を用いて算出することが出来る。
(数11)

Figure 0006263868

但し、上述の(数11)において、x(n)は入力音声をサンプリングした信号、Lは自己相関を算出する長さ(例えば100サンプル)、τは時間シフトのサンプル数である。
次に、特徴量算出部7は、次式に従って、自己相関R(t)から基本周期fp(n)を算出する。
(数12)

Figure 0006263868

但し、上述の(数12)において、nはフレーム番号を表す。
特徴量算出部7は、上述の(数12)を用いて算出した基本周期に基づいてピッチ周波数の時間変化を表すピッチ変化率を算出する。先ず、特徴量算出部7は、次式に基づいて基本周期fp(n)からピッチ周波数Pit(n)を算出する。
(数13)
Pit(n) = Fs / fp(n)
但し、上述の(数13)において、Fsはサンプリング周波数(例えば8000Hz)を表す。次に、ピッチ周波数の時間変化を表すピッチ変化率ratio(n)を次式により算出する。
(数14)

Figure 0006263868

但し、上述の(数14)において、Lは平均化フレーム数(例えば4フレーム。80msに相当)を表す。特徴量算出部7は、算出した基本周期とピッチ変化率を制御部6へ出力する。
ここで、特徴量算出部7は、ピッチ変化率の代わりにフォルマント変化率を算出しても良い。入力音声のフォルマント周波数は、例えば、LPC(Linear Prediction Coding)分析や、特開昭62−54297号公報に開示の方法を用いることで適宜算出することが出来る。特徴量算出部7は、次式に従って、フォルマント変化率ratio(n)を算出することが出来る。
(数15)

Figure 0006263868

但し、上述の(数15)において、Lは平均化フレーム数(例えば4フレーム。80msに相当)を表し、F(n、j)は、nフレームにおけるj番目のフォルマント周波数(Hz)を表す。
特徴量算出部7は基本周期とフォルマント変化率を制御部6へ出力する。なお、実施例1においては、説明の便宜上、基本周期とピッチ変化率を制御部6へ出力するものとして説明するが、フォルマント変化率を用いても後述の処理をピッチ変化率と同様に実施出来る為、詳細な説明は省略する。
更に、特徴量算出部7は、ピッチ変化率またはフォルマント変化率の代わりに自己相関の時間変化率を算出しても良い。なお、自己相関とは、入力音声自身を時間シフトした信号とどれだけ良く整合するかを測る尺度であり、自己相関値が高い場合は入力音声の周期波形の変化が小さいことを示す。そのため、自己相関値が所定閾値TH_ac(例えば0.7)以上の区間で周期波形の繰り返し/間引きを行うことで、波形の挿入/削除に伴う歪みを低減できるため、音質を劣化させずに第1母音区間長または第2母音区間長を制御することができる。例えば、後述する制御部6は、自己相関の時間変化率ac(n)がTH_ac以上の場合は、周期波形の変化が小さい区間として第1母音区間長または第2母音区間長を短縮する。また、制御部6は、自己相関の時間変化率ac(n)がTH_ac未満の場合は、周期波形の変化が大きい区間として第1母音区間長または第2母音区間長を短縮しない。特徴量算出部7は、次式に従って、入力音声の自己相関の時間変化率ac(n)を算出する。
(数16)

Figure 0006263868

但し、上述の(数16)において、x(n)は入力信号、Mは相関算出範囲長(例えば400サンプル)、Smaxは、シフト量の最大値(例えば、160サンプル)を示す。
特徴量算出部7は基本周期と自己相関の時間変化率を制御部6へ出力する。なお、実施例1においては、説明の便宜上、基本周期とピッチ変化率を制御部6へ出力するものとして説明するが、自己相関の時間変化率を用いても後述の処理をピッチ変化率と同様に実施出来る為、詳細な説明は省略する。
制御部6は、第1母音区間長と第2母音区間長を母音区間長算出部5から受け取る。また、制御部6は、入力音声を取得部2から受け取り、基本周期とピッチ変化率を特徴量算出部7から受け取る。制御部6は、基本周期の長さ単位で第1母音区間長または第2母音区間長を制御する。また、制御部6は、ピッチ変化率を含む音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で第1母音区間長または第2母音区間長を制御する。
制御部6は、音質変化が小さい区間で母音区間長を伸縮するため、ピッチ変化率が所定の閾値TH_pit(第1閾値と称しても良く、TH_pitの値は、例えば5.0(Hz/フレーム)であれば良い)未満の区間のみ音声波形の短縮(または伸長)を実施する様に、制御信号CS(n)を、以下の条件式に従って生成する。
・ratio(n)<TH_pitの場合 CS(n) = 1 :伸縮する (ピッチ変化が小さい箇所)
・ratio(n)≧TH_pitの場合 CS(n) = 0 :伸縮しない(ピッチ変化が大きい箇所)
制御部6は、例えば、上述の(数9)を用いて母音区間長比を算出し、母音区間長比と図6に示す目標伸縮率に基づいて第1母音区間または第2母音区間のサンプル数を、ピッチ周波数の時間変化が小さい区間で増減する。制御部6が短縮(または伸長)するサンプル数は基本周期に依存するため、個々のフレームによって異なる。そこで、第1母音区間または第2母音区間全体の伸縮率が、上述の目標伸縮率に近づくように制御する必要がある。そのため、制御部6は、母音区間の過去フレームの実績伸縮率を上述の(数10)を用いて算出し、実績伸縮率(rate_result(n))と目標伸縮率(rate_target(n))の差が大きい場合に、波形を伸長または短縮する制御を行う。
制御部6は、実績伸縮率と目標伸縮率の差分が所定の閾値TH_diff(例えば0.1)未満の場合に、音声波形の短縮(または伸長)を実施する様に、例えば、以下の条件式に従って制御信号CS(n)を生成する。
・| rate_result(n) - rate_target(n)| <TH_diffの場合 CS(n) = 1 :伸縮する
・上記以外 CS(n) = 0 :伸縮しない
制御部6は、制御信号と基本周期に基づいて、第1母音区間または、第2母音区間の音声波形を削除(または挿入)することで母音区間長を制御する。まず、母音区間長を短縮する場合(目標伸縮率<1の場合)の処理について説明する。ピッチが滑らかに変化している音声波形に対して、単純に1周期分の音声波形を削除すると、その前後の波形の間に不連続性の歪みが生じて、音質が劣化することも想定され得る。この為、制御部6は、削除する周期波形に前後する波形も加工して、結果的に滑らかにピッチが変化する様に制御する。換言すると、制御部6は、削除対象の周期波形の前にある周期波形の後半の波形を削除対象の周期波形の後半の波形に近似し、一方で、削除対象の周期波形の後ろに続く周期波形を削除対象の周期波形の前半の波形に近似する。換言すると、制御部6は、第1母音区間長または第2母音区間の長さを、制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、第1母音区間長または第2母音区間長を伸長または短縮させる。これにより、波形削除に伴う音質劣化を軽減することができる。制御部6による具体的な処理として、次式に示す様に、入力音声の重み付け加算を行うことで実現できる。
(数17)
Figure 0006263868

但し、上述の(数17)において、Lは基本周期、w(t)とw(t)は、次式で表現される重み関数を表す。
(数18)

Figure 0006263868


但し、上述の(数18)において、tは波形削除箇所のサンプル数、Nは重み付けを行う区間のサンプル数であり、例えばnフレーム目の先頭サンプル数とする。
また、制御部6は、複数の基本周期を纏めて削除すると、削除対象の前後の波形の歪が大きくなるため、音質劣化が発生することも想定され得る。この為、制御部6は、基本周期ごとに削除したか否かを示すフラグを、制御部6が有する図示しないバッファまたはメモリに記録しても良い。制御部6は、当該バッファを参照して、直前の基本周期が削除された場合は、次の基本周期は削除しないように制御することで、音質劣化を軽減することが可能となる。以上の処理により、制御部6は、第1母音区間長または、第2母音区間長を短縮させることが可能となる。
次に、母音区間長を伸長する場合(目標伸縮率≧1の場合)の処理について説明する。ピッチが滑らかに変化している音声波形に対して、単純に1周期分の音声波形を挿入すると、その前後の波形の間に不連続性の歪みが生じて、音質が劣化することも想定され得る。この為、制御部6は、新規に挿入する周期波形を時間的に前後する基本周期を加味して求めることで、結果的に滑らかにピッチが変化する様に制御する。換言すると、制御部6は、新規に挿入される周期波形の前半の波形を時間的に先行する基本周期に近似し、一方で、周期波形の後半の波形を時間的に後行する基本周期に近似する。これにより、波形挿入に伴う音質劣化を軽減することができる。制御部6による具体的な処理として、次式に示す様に、入力音声の重み付け加算を行うことで実現できる。
(数19)
Figure 0006263868

上述の(数19)において、Lは基本周期、w(t)とw(t)は、次式で表現される重み関数を表す。
(数20)

Figure 0006263868


但し、上述の(数20)において、tは波形挿入箇所のサンプル数、Nは重み付けを行う区間のサンプル数であり、例えばnフレーム目の先頭サンプル数とする。
また、制御部6は、複数の基本周期を纏めて挿入すると、挿入により新たな周期性が生じる為、音質劣化が発生することも想定され得る。この為、制御部6は、基本周期ごとに挿入が行われたか否かを示すフラグを、制御部6が有する図示しないバッファまたはメモリに記録しても良い。制御部6は、当該バッファを参照して、直前の基本周期に対して挿入が行われた場合は、次の基本周期に対して挿入しないように制御することで、音質劣化を軽減することが可能となる。以上の処理により、制御部6は、第1母音区間長または、第2母音区間長を伸長することが可能となる。
制御部6は、入力音声に含まれる第1母音区間長または第2母音区間長を基本周期と音響特徴量の一例となるピッチ変化率等に基づいて制御した制御信号を出力音声として外部へ出力する。制御部6は、出力音声を、例えば、音声処理装置1に接続または配置される、図示しないスピーカーへ出力することが可能である。
実施例3における音声処理装置では、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。更に、基本周期と音響特徴量に基づいて入力音声の波形の変化量を最低限に抑制していることで高音質状態を保持することが可能となる。
(実施例4)
図12は、第3の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、制御部6、記憶部8、認識部9を有する。取得部2と制御部6は、例えば、実施例1と同様の機能を有する為、詳細な説明は省略する。
記憶部8は、例えば、フラッシュメモリ(flash memory)などの半導体メモリ素子、または、HDD(hard disk drive)、光ディスクなどの記憶装置である。なお、記憶部8は、上記の種類の記憶装置に限定されるものではなく、RAM(random access memory)、ROM(read only memory)であってもよい。記憶部8には、例えば、テキスト情報に対応する母音区間やアクセント区間等を含む単語辞書が必要に応じて記憶される。なお、記憶部8は、必ずしも音声処理装置1に含まれる必要はない。例えば、当該各種データは、音声処理装置1に含まれる各機能部の図示しないキャッシュやメモリ等に、分散または統合した状態で記憶しても良い。また、音声処理装置1に設けられる図示しない通信ユニットを用いて通信回線を介することによって、記憶部8を音声処理装置1以外の外部装置に設けることも可能である。
認識部9は、例えば、ワイヤードロジックによるハードウェア回路である。また、認識部9は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。認識部9は、入力音声を取得部2から受け取る。認識部9は、入力音声をテキスト情報として認識する。具体的には、認識部9は、入力音声の特徴ベクトルを求め、予め認識部9の図示しないキャッシュやメモリに登録された音素の標準パターンと照合することで、入力音声をテキスト情報に変換する。入力音声の音声認識方法として、例えば、特開平4−255900に記載の方法を用いることが可能である。また、特許第5160594号記載の音声認識方法を適用することも可能である。
認識部9は、記憶部8に記憶される単語辞書を参照し、認識したテキスト情報に対応する母音区間やアクセント区間を認識する。これにより、認識部9は、第1母音区間長と第2母音区間長を認識することが可能となる。認識部9は、第1母音区間長と第2母音区間長を制御部6へ出力する。また、実施例4における音声処理装置においては、図1または図11の検出部3、アクセント区間推定部4、母音区間長算出部5、特徴量算出部7を適宜組合せることも可能である。
実施例4による音声処理装置においては、音声処理の処理負荷を軽減しつつ、ユーザの入力音声に対する理解度を向上させることが可能となる。更に、実施例4による音声処理装置においては、音声認識に基づいた第1母音区間長と第2母音区間長を規定している為、より正確に第1母音区間長または第2母音区間長を制御することが可能となる。
(実施例5)
図13は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図13に示すように、音声処理装置1は、制御部21、主記憶部22、補助記憶部23、ドライブ装置24、ネットワークI/F部26、入力部27、表示部28を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。
制御部21は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部21は、主記憶部22や補助記憶部23に記憶されたプログラムを実行する演算装置であり、入力部27や記憶装置からデータを受け取り、演算、加工した上で、表示部28や記憶装置などに出力する。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。
補助記憶部23は、HDDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置24は、記録媒体25、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部23にインストールする。
また、記録媒体25に、所定のプログラムを格納し、この記録媒体25に格納されたプログラムはドライブ装置24を介して音声処理装置1にインストールされる。インストールされた所定のプログラムは、音声処理装置1により実行可能となる。
ネットワークI/F部26は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器と音声処理装置1とのインタフェースである。
入力部27は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部28の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部27は、ユーザが制御部21に操作指示を与えたり、データを入力したりするためのユーザインタフェースである。
表示部28は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等により構成され、制御部21から入力される表示データに応じた表示が行われる。
なお、上述した音声処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した音声処理方法を実現することができる。
また、このプログラムを記録媒体25に記録し、このプログラムが記録された記録媒体25をコンピュータや携帯端末に読み取らせて、前述した音声処理を実現させることも可能である。なお、記録媒体15は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
(実施例6)
図14は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インタフェース部34、マイク35、スピーカ36、主記憶部22、補助記憶部23を有する。
アンテナ31は、送信アンプで増幅された無線信号を送信し、また、基地局から無線
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
ベースバンド処理部33は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
制御部21は、制御信号の送受信などの無線制御を行う。また、制御部21は、補
助記憶部23などに記憶されている信号処理プログラムを実行し、例えば、実施例1における音声処理を行う。
主記憶部22は、ROMやRAMなどであり、制御部21が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部23は、HDDやSSDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
端末インタフェース部34は、データ用アダプタ処理、ハンドセットおよび外部デー
タ端末とのインタフェース処理を行う。
マイク35は、発話者の音声を含む周囲の音を入力し、マイク信号として制御部21に出力する。スピーカ36は、出力音声として制御部21から出力された信号を出力する。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出する母音区間長算出部と、
前記第1母音区間長または前記第2母音区間長を制御する制御部と、
を備えることを特徴とする音声処理装置。
(付記2)
前記制御部は、前記第1母音区間長を伸長、または、前記第2母音区間長を短縮させることを特徴とする付記1記載の音声処理装置。
(付記3)
前記制御部は、前記第1母音区間長と、前記第2母音区間長の比率または差分に基づいて前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1または付記2記載の音声処理装置。
(付記4)
前記制御部は、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする付記1ないし付記3の何れか1つに記載の音声処理装置。
(付記5)
前記アクセント区間推定部は、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記1ないし付記4の何れか1つに記載の音声処理装置。
(付記6)
前記母音区間における基本周期を算出する特徴量算出部を更に備え、
前記制御部は、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1ないし付記5の何れか1つに記載の音声処理装置。
(付記7)
前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記6記載の音声処理装置。
(付記8)
前記制御部は、第1母音区間長または前記第2母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1記載の音声処理装置。
(付記9)
前記制御部は、第1母音区間長または前記第2母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第1母音区間長または前記第2母音区間長を伸長または短縮させることを特徴とする付記1記載の音声処理装置。
(付記10)
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記認識部は、前記テキスト情報に基づいて前記第1母音区間長または前記第2母音区間長を認識することを特徴とする付記1記載の音声処理装置。
(付記11)
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出し、
前記第1母音区間長または前記第2母音区間長を制御すること、
を含むことを特徴とする音声処理方法。
(付記12)
前記制御するは、前記第1母音区間長を伸長、または、前記第2母音区間長を短縮させることを特徴とする付記11記載の音声処理方法。
(付記13)
前記制御することは、前記第1母音区間長と、前記第2母音区間長の比率または差分に基づいて前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11または付記12記載の音声処理方法。
(付記14)
前記制御することは、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする付記11ないし付記13の何れか1つに記載の音声処理方法。
(付記15)
前記推定することは、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記11ないし付記14の何れか1つに記載の音声処理方法。
(付記16)
前記母音区間における基本周期を算出することを更に含み、
前記制御することは、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11ないし付記15の何れか1つに記載の音声処理方法。
(付記17)
前記算出することは、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御することは、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記16記載の音声処理方法。
(付記18)
前記制御することは、第1母音区間長または前記第2母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11記載の音声処理方法。
(付記19)
前記制御することは、第1母音区間長または前記第2母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第1母音区間長または前記第2母音区間長を伸長または短縮させることを特徴とする付記11記載の音声処理方法。
(付記20)
前記入力音声をテキスト情報として認識することを更に含み、
前記認識することは、前記テキスト情報に基づいて前記第1母音区間長または前記第2母音区間長を認識することを特徴とする付記11記載の音声処理方法。
(付記21)
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出し、
前記第1母音区間長または前記第2母音区間長を制御すること
を実行させることを特徴とする音声処理プログラム。
(付記22)
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を推定する算出部と、
前記第1母音区間長または前記第2母音区間長を制御する制御部と、
前記入力音声を制御した出力音声を出力するスピーカー
を備えることを特徴とする携帯端末装置。
1 音声処理装置
2 取得部
3 検出部
4 アクセント区間推定部
5 母音区間長算出部
6 制御部

Claims (7)

  1. 入力音声を取得する取得部と、
    前記入力音声に含まれる母音区間を検出する母音区間検出部と、
    前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定するアクセント区間推定部と、
    前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出する母音区間長算出部と、
    前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させる制御部と、
    を備えることを特徴とする音声処理装置。
  2. 前記制御部は、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする請求項1に記載の音声処理装置。
  3. 前記母音区間における基本周期を算出する特徴量算出部を更に備え、
    前記制御部は、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項1または請求項に記載の音声処理装置。
  4. 前記制御部は、前記母音区間の音声波形に対して前記基本周期単位の音声波形を追加または削除することで前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項3に記載の音声処理装置。
  5. 前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
    前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項4に記載の音声処理装置。
  6. 入力音声を取得し、
    前記入力音声に含まれる母音区間を検出し、
    前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
    前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出し、
    前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させること、
    を含むことを特徴とする音声処理方法。
  7. コンピュータに、
    入力音声を取得し、
    前記入力音声に含まれる母音区間を検出し、
    前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
    前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出し、
    前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させること
    を実行させることを特徴とする音声処理プログラム。
JP2013126303A 2013-06-17 2013-06-17 音声処理装置、音声処理方法および音声処理プログラム Active JP6263868B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013126303A JP6263868B2 (ja) 2013-06-17 2013-06-17 音声処理装置、音声処理方法および音声処理プログラム
US14/260,449 US9672809B2 (en) 2013-06-17 2014-04-24 Speech processing device and method
EP14166346.8A EP2816558B1 (en) 2013-06-17 2014-04-29 Speech processing device and method
CN201410213321.XA CN104240696B (zh) 2013-06-17 2014-05-20 语音处理设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013126303A JP6263868B2 (ja) 2013-06-17 2013-06-17 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2015001632A JP2015001632A (ja) 2015-01-05
JP6263868B2 true JP6263868B2 (ja) 2018-01-24

Family

ID=50628634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013126303A Active JP6263868B2 (ja) 2013-06-17 2013-06-17 音声処理装置、音声処理方法および音声処理プログラム

Country Status (4)

Country Link
US (1) US9672809B2 (ja)
EP (1) EP2816558B1 (ja)
JP (1) JP6263868B2 (ja)
CN (1) CN104240696B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111771A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9916844B2 (en) 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN104485116B (zh) * 2014-12-04 2019-05-14 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
CN115719592A (zh) * 2016-08-15 2023-02-28 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN108364660B (zh) * 2018-02-09 2020-10-09 腾讯音乐娱乐科技(深圳)有限公司 重音识别方法、装置及计算机可读存储介质
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4920568A (en) * 1985-07-16 1990-04-24 Sharp Kabushiki Kaisha Method of distinguishing voice from noise
JPH0638199B2 (ja) 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
JPS63155200A (ja) 1986-12-19 1988-06-28 富士通株式会社 ピツチ検出法
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP2844817B2 (ja) 1990-03-22 1999-01-13 日本電気株式会社 発声練習用音声合成方式
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP3264998B2 (ja) 1992-09-30 2002-03-11 日本電気株式会社 音声合成器
JPH09152889A (ja) * 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JP2001350500A (ja) * 2000-06-07 2001-12-21 Mitsubishi Electric Corp 話速変更装置
US7065485B1 (en) 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
JP2003241644A (ja) * 2002-02-15 2003-08-29 Teiichi Kasahara 外国語会話学習法及び外国語会話学習装置
JP2005037423A (ja) 2003-07-15 2005-02-10 Alpine Electronics Inc 音声出力装置
CN1956057B (zh) * 2005-10-28 2011-01-26 富士通株式会社 一种基于决策树的语音时长预测装置及方法
JP4856560B2 (ja) * 2007-01-31 2012-01-18 株式会社アルカディア 音声合成装置
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
US8484035B2 (en) * 2007-09-06 2013-07-09 Massachusetts Institute Of Technology Modification of voice waveforms to change social signaling
JP4906776B2 (ja) 2008-04-16 2012-03-28 株式会社アルカディア 音声制御装置
WO2009145192A1 (ja) 2008-05-28 2009-12-03 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
CN101751919B (zh) * 2008-12-03 2012-05-23 中国科学院自动化研究所 一种汉语口语重音自动检测方法
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
CN102687197B (zh) 2010-01-22 2014-07-23 三菱电机株式会社 声音识别用词典制作装置、声音识别装置及声音合成装置
JP5160594B2 (ja) 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置および音声認識方法
CN102436807A (zh) 2011-09-14 2012-05-02 苏州思必驰信息科技有限公司 自动生成重读音节语音的方法和系统

Also Published As

Publication number Publication date
US20140372121A1 (en) 2014-12-18
EP2816558A1 (en) 2014-12-24
CN104240696B (zh) 2018-06-12
JP2015001632A (ja) 2015-01-05
EP2816558B1 (en) 2019-06-12
CN104240696A (zh) 2014-12-24
US9672809B2 (en) 2017-06-06

Similar Documents

Publication Publication Date Title
JP6263868B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
KR20180087942A (ko) 음성 인식 방법 및 장치
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US9466291B2 (en) Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
US20230206897A1 (en) Electronic apparatus and method for controlling thereof
JP6244658B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN112580340A (zh) 逐字歌词生成方法及装置、存储介质和电子设备
US10446173B2 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
US20230252971A1 (en) System and method for speech processing
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
US20150371662A1 (en) Voice processing device and voice processing method
JPWO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP2014106247A (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP2015087557A (ja) 発話様式検出装置および発話様式検出方法
JP7222265B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JP2015132777A (ja) 音声処理装置、音声処理方法および音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171204

R150 Certificate of patent or registration of utility model

Ref document number: 6263868

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150