JP2009053522A

JP2009053522A - 音声出力装置

Info

Publication number: JP2009053522A
Application number: JP2007221259A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2007-08-28
Filing date: 2007-08-28
Publication date: 2009-03-12

Abstract

【課題】ユーザの音声によって簡単にアクセント位置を修正することができる音声出力装置を提供する。
【解決手段】音声を出力したことに対してユーザによる所定の操作をアクセント修正トリガースイッチ３によって検出した後に、ピッチ抽出部１０によってマイク１により入力した音声のピッチパターンを判断すると共に、テキスト入力インターフェース２によって入力したテキストデータからアクセント位置の候補を生成する。ピッチパターン照合部１１は、ピッチ抽出部１０により判断したピッチパターンと、ピッチパターンの候補とを照合して、合致する度合いの高い音声のピッチパターンによって、ピッチパターンを補正する。
【選択図】図１

Description

本発明は、音声によって各種情報をユーザに提示する音声出力装置に関する。

従来より、コンピュータによって音声を合成した合成音声のアクセント位置が、ユーザの意図するアクセントとは異なる場合において、ユーザが意図するアクセントに修正するための技術としては、下記の特許文献１−３に記載された技術が知られている。

特許文献１には、例えば音声認識技術によって認識した音声のテキストデータを手作業によって修正することによってアクセントを修正している。具体的には、「アクセント」という単語にアクセントを設定する場合には、当該テキストデータを「ア’クセント」といったように修正させることによって、「ア」の位置がアクセント位置であることを設定させている。そして、「アクセント」という単語を合成音声として出力する場合には、テキストデータ中の「’」の位置にアクセントを持たせることを実現している。

また、特許文献２，３には、アクセントを修正するための修正インターフェースを工夫した構成が記載されている。具体的には、特許文献２には、表示内容の色などによって、アクセント位置を簡単に修正させるインターフェースを実現している。
特開平７−３０６８５１号公報特開平６−２８８９８号公報特開平５−１１７９７号公報

しかしながら、従来の技術では、手入力によってアクセント位置を設定しており、ユーザの音声によって正確なアクセント位置を設定することはなされていなかった。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、ユーザの音声によって簡単にアクセント位置を修正することができる音声出力装置を提供することを目的とする。

本発明は、テキストデータを入力するテキストデータ入力手段と、音声を出力する音声出力手段と、ユーザの音声を入力する音声入力手段と、音声出力手段から音声を出力したことに対してユーザによる所定の操作を検出するトリガースイッチと、トリガースイッチが操作された後に音声入力手段により入力した音声のピッチパターンを判断する音声解析手段と、音声のピッチパターンの候補を、テキストデータ入力手段により入力されるテキストデータごとに記憶した記憶手段と、音声解析手段により判断したピッチパターンと、記憶手段に記憶されたテキストデータによって表される音声のピッチパターンの候補とを照合して、合致する度合いの高い音声のピッチパターンを設定するピッチパターン補正手段とを備える。この音声出力装置は、上述の課題を解決するために、音声出力手段によって、ピッチパターン補正手段によって補正されたピッチパターンの音声を出力することを特徴とする。

本発明に係る音声出力装置よれば、予め設定されたピッチパターンの音声を出力してユーザにピッチパターンを補正させる場合でも、トリガースイッチを操作させてユーザに発声させて、ユーザが発声した音声のピッチパターンに補正できる。これにより、ユーザの音声によって簡単にピッチパターンを修正することができる。

以下、本発明の実施の形態について図面を参照して説明する。

本発明を適用した音声出力装置は、例えば図１に示すように、ユーザインターフェースとして、マイク１，テキスト入力インターフェース２，アクセント修正トリガースイッチ３，ガイド内容提示部４，スピーカ５を備えている。また、音声出力装置は、記憶デバイスから構成される音声合成データ格納部６とアクセント情報格納部７とテキスト格納部８とを備え、更に、ＣＰＵ（Central Processing Unit）等によって実行される機能であるアクセント候補生成処理部９とピッチ抽出部１０とピッチパターン照合部１１とテキスト音声合成部１２とを備える。

この音声出力装置は、各種の案内を音声によってユーザに提供するものである。なお、この音声出力装置の用途は、特に限定するものではなく、あらゆるシーンにて利用可能なものである。

マイク１は、音声入力手段であり、ユーザが発声した音声を入力し、音声信号をピッチ抽出部１０に出力する。特に、このマイク１は、アクセント修正トリガースイッチ３が操作された時に、ユーザから発せられた音声を入力して音声信号を生成する。

ピッチ抽出部１０は、マイク１から供給された音声信号を解析して、音声のピッチパターンを判断する音声解析手段として機能する。この音声のピッチパターンにおけるアクセント位置は、音声を文節に分割し、当該文節中において最も音声が高い位置からの下降が検知された位置（モーラ（カナ））が抽出されることによって、決定される。このピッチパターン情報は、アクセント情報格納部７に格納される。なお、ピッチ抽出部１０は、文節における音の高さの変化（ピッチパターン）をアクセント位置情報として抽出しても良い。このアクセント情報は、一時的にアクセント情報格納部７に格納され、ピッチパターン照合部１１によって読み込まれる。

テキスト入力インターフェース２は、例えば、タッチパネルなどのユーザが押圧操作することができるキーボード状の操作入力手段によって構成されている。テキスト入力インターフェース２は、入力されたテキストデータをテキスト格納部８に供給する。テキスト格納部８は、テキスト入力インターフェース２から供給されたテキストデータを一時的に格納しておく。この格納されたテキストデータは、アクセント候補生成処理部９によって読み込まれる。

このようなマイク１及びテキスト入力インターフェース２は、別個となっている場合について説明するが、音声を入力して音声信号を生成し、当該音声信号に対して音声認識処理をしてテキストデータを生成する音声認識装置であっても良い。このような音声認識装置は、生成した音声信号をピッチ抽出部１０に出力すると共に、生成したテキストデータをテキスト格納部８に出力する。

ガイド内容提示部４は、ピッチパターンを修正する手順のガイド情報、ピッチパターンを修正する前と修正した後のピッチパターン情報などを提示する。このガイド内容提示部４は、タッチパネル機構からなり、上述のテキスト入力インターフェース２やアクセント修正トリガースイッチ３などと一体化されていても良い。

アクセント修正トリガースイッチ３は、ピッチパターンを修正するトリガ信号を生成する。このアクセント修正トリガースイッチ３は、ピッチパターンの修正時にユーザに操作されるスイッチ機構からなる。このアクセント修正トリガースイッチ３によって生成されたトリガ信号は、アクセント候補生成処理部９によって読み取られる。なお、このアクセント修正トリガースイッチ３は、タッチパネル機構からなり、ガイド内容提示部４やテキスト入力インターフェース２などと一体化されていても良い。

アクセント候補生成処理部９は、アクセント修正トリガースイッチ３からトリガ信号が供給された場合に、当該トリガ信号の供給後にテキスト格納部８に格納されたテキストデータを読み込む。そして、アクセント候補生成処理部９は、読み込んだテキストデータのピッチパターンの候補を複数個生成する。例えば、３文字のテキストからなる単語をテキストデータとして読み込んだ場合、先頭のテキスト位置、真ん中のテキスト位置、末尾のテキスト位置、又はアクセント無しのそれぞれを当該テキストデータのピッチパターンの候補として生成する。なお、テキスト格納部８は、テキストデータからなる単語を辞書として記憶しておき、当該単語を表すテキストデータごとにピッチパターンの候補を記憶していても良い。

ピッチパターン照合部１１は、アクセント情報格納部７に格納されたピッチパターンと、アクセント候補生成処理部９によって生成されたピッチパターンの候補とを照合する。このとき、ピッチパターン照合部１１は、ＤＰ（動的計画法：Dynamic Time Warping）マッチング手法などの処理を行って、抽出したピッチパターンとピッチパターンの候補との類似度を計算する。抽出したピッチパターンとピッチパターンの候補とを照合した結果、ピッチパターン照合部１１は、抽出したピッチパターンに最も類似したピッチパターンの候補を求めて、テキスト音声合成部１２に供給する。

テキスト音声合成部１２は、予め記憶した音素データと、アクセント候補生成処理部９から供給されたピッチパターンの候補とを用いて、当該ピッチパターンにアクセントが置かれた音声信号を生成する。このようにテキスト音声合成部１２によって生成された音声信号は、音声合成データ格納部６に格納されて、以後における音声信号として蓄積される。

このように、音声出力装置は、スピーカ５から出力する音声を、実際にマイク１に対して発したユーザの音声から抽出されたピッチパターンに近いピッチパターンの音声に補正することができる。

つぎに、上述したように構成された音声出力装置の具体的な動作手順について図２等を参照して説明する。

この音声出力装置は、先ずステップＳ１において、テキスト入力インターフェース２に対してテキストデータの入力が行われる。なお、このテキストデータの入力処理は、タッチパネル機構に対するユーザの押圧操作に基づいてテキストデータを生成する処理であっても良く、マイク１によって入力した音声信号に対して音声認識処理を行ってテキストデータを生成する処理であっても良い。このテキストデータは、テキスト格納部８に格納される。

その後、音声出力装置は、ステップＳ１においてテキスト格納部８に格納されたテキストデータを表す音声をスピーカ５から出力する場合、アクセント候補生成処理部９によって当該音声のピッチパターンが決定される。このとき、アクセント候補生成処理部９は、図３（ａ）に示すような単語の先頭にアクセントがあるピッチパターン、図３（ｂ）に示すような単語の中間にアクセントがあるピッチパターン、図３（ｃ）に示すような単語の末尾にアクセントがあるピッチパターン、図３（ｄ）に示すようなアクセントがない平坦なピッチパターン、といった参照パターンのうちから、何れかのピッチパターンを選択する。

ステップＳ１において入力されたテキストデータが単語でテキスト格納部８に蓄積されている場合には、アクセント候補生成処理部９によって、当該単語に付加されているピッチパターンをテキスト音声合成部１２に出力して（ステップＳ２）、テキスト音声合成部１２によって音声信号を出力させる（ステップＳ３）。一方、ステップＳ１において入力されたテキストデータが単語で蓄積されているテキストデータが単語としてテキスト格納部８に蓄積されていない場合には、アクセント候補生成処理部９によってアクセントがないピッチパターンの音声信号をテキスト音声合成部１２に出力し（ステップＳ２）、テキスト音声合成部１２によって音声信号を出力させる（ステップＳ３）。

なお、アクセント修正トリガースイッチ３が操作される前に発声されてマイク１により入力された音声のピッチパターンを判断して、当該判断されたピッチパターンの音声を、ユーザに参照させる音声として出力しても良い。これによって、音声出力装置が判断したピッチパターンが正しいものかをユーザに判断させて、アクセント修正トリガースイッチ３を操作させることができる。

ステップＳ３において音声信号をスピーカ５から出力させることによって、当該音声は、ユーザに提示される。この音声を出力した後、ガイド内容提示部４は、出力した音声のピッチパターンを補正するか否かを選択させるアイコン等を提示することによって、アクセント修正トリガースイッチ３の操作をさせる。

スピーカ５から出力された音声のピッチパターンがユーザにとって違和感がある場合、ユーザによって、アクセント修正トリガースイッチ３が操作される。ステップＳ４において、音声出力装置は、アクセント修正トリガースイッチ３が操作された操作入力信号をアクセント候補生成処理部９によって受信したか否かを判定し、受信した場合には、音声のピッチパターンを補正するために、ステップＳ５に処理を進める。

ステップＳ５においては、ガイド内容提示部４によって、アクセント修正トリガースイッチ３が操作されてトリガ信号を入力したことに対して、例えば、タッチパネル上に「所定期間以内に、音声を発声してください」とのメッセージを表示（提示）する。これにより、音声出力装置は、ユーザがマイク１に向かって補正すべき音声を発声させる。そして、音声出力装置は、マイク１によって音声を入力した場合には、ステップＳ６において、当該音声信号をピッチ抽出部１０に供給して、ピッチ抽出部１０によって音声信号からピッチパターンを抽出させる。

このとき、ピッチ抽出部１０は、予めテキスト格納部８に格納しておく単語ごとのピッチパターンに対して、音声信号から抽出したピッチパターンの平均（音の高さの平均値）を統一する正規化処理を行うことが望ましい。この正規化処理は、音声信号からピッチパターンを抽出した後に、当該ピッチパターンの全体を上下にシフトすることによって、ピッチパターンの平均値を所定値とする。この所定値は、例えば、音声合成データ格納部６に格納された音声のデータベースの作成に利用したアナウンサーの平均ピッチ（声の高さ）とする。これによって、例えば、音声出力装置からは女性の声で音声を合成して出力するのに対して、マイク１からは男性の声が入力された場合であっても、双方のピッチパターンが類似している否かの精度を高くすることができる。

また、ピッチ抽出部１０は、ピッチパターンのレンジ幅を、予めテキスト格納部８に格納しておく単語ごとのピッチパターンに対して、音声信号から抽出したピッチパターンのレンジ幅（音の高さのダイナミックレンジ）を所定値に統一する正規化処理を行うことが望ましい。この所定値は、例えば、音声合成データ格納部６に格納された音声のデータベースの作成に利用したアナウンサーのダイナミックレンジとする。この正規化処理は、音声信号からピッチパターンを抽出した後に、当該ピッチパターンの全体のダイナミックレンジを伸縮することによって、ピッチパターンのダイナミックレンジを所定値とする。これによって、双方のピッチパターンが類似している否かの精度を高くすることができる。

このピッチパターンは、アクセント情報格納部７に蓄積され、ステップＳ７において、ピッチパターン照合部１１によって読み取られる。このステップＳ７においては、ピッチパターン照合部１１によって、ステップＳ６において抽出されたピッチパターンと、テキスト格納部８に記憶された音声のピッチパターンの候補とを照合して、類似度を判断する。

次のステップＳ８においては、ピッチパターン照合部１１によって、ステップＳ７において類似度が高いピッチパターンを、以降において音声を出力するピッチパターンとして音声合成データ格納部６に記憶する。そして、ガイド内容提示部４は、ピッチパターンを照合した結果として設定された音声のピッチパターンを画像や音声によって提示しても良い。例えば、
また、ピッチパターン照合部１１は、ステップＳ６において抽出されたピッチパターンと、テキスト格納部８に記憶された音声のピッチパターンの候補とを照合した結果、類似しない場合には、何れのピッチパターンも記憶しないこととなる。

以上説明したように、本発明を適用した音声出力装置によれば、予め設定されたピッチパターンの音声を出力してユーザにピッチパターンを補正させる場合でも、アクセント修正トリガースイッチ３を操作させてユーザに発声させて、ユーザが発声した音声のピッチパターンに補正できる。これにより、ユーザの音声によって簡単にピッチパターンを修正することができる。

つぎに、本発明を適用した他の実施の形態としては、図４に示すように、センターサーバ部２１と、クライアント端末部２２とからなる構成のものがある。

クライアント端末部２２は、上述した音声出力装置のうちのマイク１、テキスト入力インターフェース２、アクセント修正トリガースイッチ３、ガイド内容提示部４及びスピーカ５を備える。センターサーバ部２１は、処理負担及びメモリ負担が大きい、上述した音声出力装置のうちのピッチ抽出部１０、音声合成データ格納部６，アクセント情報格納部７，テキスト格納部８，アクセント候補生成処理部９，ピッチパターン照合部１１及びテキスト音声合成部１２を備える。

このようなクライアント端末部２２は、例えば、各住宅内に設置される管理用パネルなどが挙げられ、センターサーバ部２１は、複数の住宅に設置されたクライアント端末部２２と接続されている。複数のクライアント端末部２２とセンターサーバ部２１とは、図示しないインターネット等の公衆回線で接続されて、情報の授受が可能となっている。なお、クライアント端末部２２がマイク１によって取得した音声信号をセンターサーバ部２１に送信する場合、クライアント端末部２２は、音声信号に対して適応的差分パルス符号変調処理（ＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation））等の圧縮処理によって通信量を低減させても良い。

このようなシステムは、センターサーバ部２１に、話者正規化処理部３１を備えている。この話者正規化処理部３１は、各住宅の話者からマイク１及びピッチ抽出部１０を介して供給された音声の差異を補間する。例えば、話者正規化処理部３１は、ピッチ抽出部１０によって抽出されたピッチパターンを所定の平均値とする正規化処理や、ピッチ抽出部１０によって抽出されたピッチパターンを所定のダイナミックレンジにする正規化処理を行う。これによって、上述した音声出力装置と同様に、話者間でピッチパターンが類似している場合でも、ピッチパターン照合部１１によって高い精度で正確なピッチパターンを設定することができる。

このようなシステムによれば、センターサーバ部２１側の負荷を軽減して、音声によって各種のサービスを提供するシステムの導入負荷を低減することができる。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。

本発明を適用した音声出力装置のブロック図である。本発明を適用した音声出力装置の処理手順を示すフローチャートである。各種のピッチパターンを示す図である。本発明を適用した他の構成を示すブロック図である。

符号の説明

１マイク
２テキスト入力インターフェース
３アクセント修正トリガースイッチ
４ガイド内容提示部
５スピーカ
６音声合成データ格納部
７アクセント情報格納部
８テキスト格納部
９アクセント候補生成処理部
１０ピッチ抽出部
１１ピッチパターン照合部
１２テキスト音声合成部
２１センターサーバ部
２２クライアント端末部
３１話者正規化処理部

Claims

テキストデータを入力するテキストデータ入力手段と、
音声を出力する音声出力手段と、
ユーザの音声を入力する音声入力手段と、
前記音声出力手段から音声を出力したことに対してユーザによる所定の操作を検出するトリガースイッチと、
前記トリガースイッチが操作された後に前記音声入力手段により入力した音声のピッチパターンを判断する音声解析手段と、
前記テキストデータ入力手段により入力したテキストデータから音声のピッチパターンの候補を生成するピッチパターン生成手段と、
前記ピッチパターン生成手段により生成された音声のピッチパターンの候補を、前記テキストデータ入力手段により入力されるテキストデータごとに記憶した記憶手段と、
前記音声解析手段により判断したピッチパターンと、前記記憶手段に記憶されたテキストデータによって表される音声のピッチパターンの候補とを照合して、合致する度合いの高い音声のピッチパターンを設定するピッチパターン補正手段とを備え、
前記音声出力手段は、前記ピッチパターン補正手段によって補正されたピッチパターンの音声を出力することを特徴とする音声出力装置。
前記テキストデータ入力手段により入力されたテキストデータが単語として前記記憶手段に記憶されている場合には、当該単語に付加されているピッチパターンの音声を前記音声出力手段から出力させ、前記テキストデータ入力手段により入力されたテキストデータが単語として前記記憶手段に記憶されていない場合には、平坦なピッチパターンの音声を前記音声出力手段から出力させることを特徴とする請求項１に記載の音声出力装置。
前記音声出力手段から音声を出力させた後に、当該出力した音声のピッチパターンを補正するか否かを選択させるために前記トリガースイッチを操作するか否かの情報を提示するガイド提示手段を更に備えることを特徴とする請求項１又は請求項２に記載の音声出力装置。
前記ガイド提示手段は、前記トリガースイッチが操作された後に、所定期間内に音声を発声させる情報を提示することを特徴とする請求項３に記載の音声出力装置。
前記音声解析手段は、前記音声入力手段により入力した音声のピッチパターンの平均値を所定値にする正規化処理を行うことを特徴とする請求項１乃至請求項４の何れか一項に記載の音声出力装置。
前記音声解析手段は、前記音声入力手段により入力した音声のピッチパターンのダイナミックレンジを所定幅にする正規化処理を行うことを特徴とする請求項１乃至請求項４の何れか一項に記載の音声出力装置。
前記テキストデータ入力手段は、前記音声入力手段により入力した音声に対して音声認識処理を行ってテキストデータを生成することを特徴とする請求項１乃至請求項６の何れか一項に記載の音声出力装置。
前記音声解析手段は、前記トリガースイッチが操作される前に発声されて前記音声入力手段により入力された音声のピッチパターンを判断し、
前記音声出力手段は、前記音声解析手段により判断されたピッチパターンの音声を、ユーザに参照させる音声として出力すること
を特徴とする請求項７に記載の音声出力装置。