JP5097007B2

JP5097007B2 - 音声処理装置及び方法

Info

Publication number: JP5097007B2
Application number: JP2008134655A
Authority: JP
Inventors: 道雄相澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-07-11
Filing date: 2008-05-22
Publication date: 2012-12-12
Anticipated expiration: 2028-05-22
Also published as: JP2009037214A

Description

本発明は、音声処理装置及び方法に関する。

音声合成方式には、録音再生方式と規則合成方式がある。録音再生方式は音質が高いが、定型文にしか使えない。規則合成方式はあらゆる文に使えるが、録音再生方式よりも音質は劣り、読み間違いも起こる。

従来、音声合成によりガイダンス音声を出力する音声処理装置において、録音再生方式と規則合成方式を併用する方法が存在する（特許文献１）。

特開平９−９７０９４号公報

しかしながら、上記の従来技術では、１つのガイダンス音声の中で録音再生方式と規則合成方式の切り替えを頻繁に行うと、両者の音質の差のため、ガイダンスが聞きにくくなるという課題があった。

そこで、本発明は、録音再生方式と規則合成方式とを切り替えながら音声合成を行う音声処理装置において、合成音声の聴覚的な自然性の向上させることを目的とする。

上記目的を達成するため、本発明の一側面によれば、複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であって、再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定手段と、前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて第１の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数に基づいて、前記複数の語または句のそれぞれを前記第１の配置順序で再生するか、該第１の配置順序とは異なる配置順序で再生するかを選択する選択手段と、前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて、前記選択手段により選択された配置順序で再生する再生手段とを備えることを特徴とする音声処理装置が提供される。

本発明によれば、録音再生方式と規則合成方式とを切り替えながら音声合成を行う音声処理装置において、合成音声の聴覚的な自然性を向上させることができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。

以下の実施形態では、ＦＡＸ機能を有する画像形成装置に本発明を適用した例を用いて説明する。

図１Ａは、本発明の音声処理装置が適用される画像形成装置のハードウェア構成の概略を示すブロック図である。

２０１はＣＰＵ（中央処理装置）であり、システム制御部として装置全体の動作を制御している。２０２はＲＯＭであり、制御プログラムを格納する。具体的には、後述する音声処理を行うための音声処理プログラム、画像の符号処理等を行うための画像処理プログラムを格納している。２０３はＲＡＭであり、ＣＰＵ２０１のワークエリアを提供し、各種データ等を格納するために用いられる。

２０４Ａはマイクロホン等の音声入力装置、２０４Ｂはスピーカ等の音声出力装置である。

２０５はスキャナ部であり、画像データを読み取り、バイナリデータに変換する機能を有するデバイスである。２０６はプリンタ部であり、画像データを、記録紙に出力するプリンタ機能を有するものである。

２０７はファクシミリ通信制御部であり、電話回線等の外部回線を介して遠隔的に設置されたファクシミリ装置とファクシミリ通信を行うためのインタフェースである。２０８は操作部であり、オペレータによる操作を行うためのものである。具体的にはテンキー等の操作ボタン、タッチパネル等が含まれる。

２０９は画像／音声処理部である。具体的には、ＤＳＰ等のハードウエアチップから構成され、画像処理、音声処理における積和演算等を高速に実行する。

２１０はネットワーク通信制御部であり、ネットワーク回線へのインタフェースとしての機能を有し、プリントジョブの受信やインターネットＦＡＸ送受信を実行するために用いられる。２１１はハードディスク装置（ＨＤＤ）であり、後述するアドレス帳や音声データ等を保持する。

図１Ｂは、上述の画像形成装置において実現される音声処理装置の機能構成を示すブロック図である。

エントリ取得部101は、少なくとも表記とその読みとその音声を登録可能なエントリを取得する。エントリ（語または句など）は、HDD211に構成されるエントリ保持部106によって保持される。

エントリ保持部106は、例えば、図4に示すようなデータ構造のアドレス帳を構成するエントリの集合を保持している。各エントリには、ユーザの操作に関連付けられる、表記、その表記の読み、その読みの音声、電話番号、FAX番号、E-mailアドレスが登録可能となっている。

エントリに登録する音声は、音声入力装置204Aを介してエントリの内容を発声し録音したものである。図4で音声の欄にあるw2001、w2002などの記号は、音声を取り出すための音声インデックスである。

登録情報判断部102は、エントリ取得部101が取得したエントリに音声が登録されているか否かを判断する。

ガイダンス選択部103は、エントリ取得部101が取得したエントリに合わせて、HDD211に構成されるガイダンス保持部107が保持するガイダンスを選択する。エントリに音声が登録されている場合は後述のガイダンス1を選択する。エントリに音声が登録されていない場合は後述のガイダンス2を選択する。ガイダンス保持部107は、IDを用いてガイダンスを管理している。各IDに対してガイダンス1（第１ガイダンス）とガイダンス2（第２ガイダンス）を保持する。また、各ガイダンスは、メッセージの内容が固定されている固定部分の他に、ユーザの操作に応じたメッセージが挿入されることを示す可変部分を含む。

ガイダンス保持部107が保持するガイダンスの一例を図5に示す。ガイダンス中の＜$name＞の部分が可変部分であり、その他の部分が固定部分である。IDが1のガイダンスは、FAX機能が選択されてFAXの送り先を確認するときに用いる。IDが2のガイダンスは、メール機能が選択されてメールの送り先を確認するときに用いる。

図5に示されるように、ガイダンス1とガイダンス2は同義の内容を表すが、異なった表現を用いている。即ち、２つのガイダンスは語または句の配列順序が異なる。具体的には、ガイダンス1は、「FAXを」、「へ送ります。」という固定部分を有し、その中間に可変部分が位置する。一方、ガイダンス2は、ガイダンス1の可変部分を固定部分の末尾に位置させている。この場合、可変部分の直前には当該可変部分を説明する語または句が配置されることになる。図５の例では「送り先は、」の句が可変部分の直前に位置している。

ガイダンス作成部104は、ガイダンス選択部103が選択したガイダンスに、エントリ取得部101が取得したエントリの情報を挿入し、最終的に出力するガイダンスを作成する。

音声合成部105は、録音再生方式と規則合成方式とを選択的に切り替えながら音声合成を行うことが可能であり、ガイダンス作成部104が作成したガイダンスの合成音声を音声出力装置２０４Ｂを介して発生する。具体的には、ガイダンス中の固定部分、音声が登録されたエントリの部分には録音再生方式を用いる。音声が登録されていないエントリ（語または句）の部分には規則合成方式を用いる。

HDD211に構成される基本合成単位辞書108は、ガイダンスの固定部に含まれる語または句に関する情報を保持する。また、少なくとも表記とその音声を取り出すための音声インデックスを保持する。図6に例を示す。ここで、読点「、」の音声インデックスw1006は、300ミリ秒の無音を指しているとする。また、区点「。」の音声インデックスw1007は、400ミリ秒の無音を指しているとする。

HDD211に構成される低水準合成単位辞書109は、規則合成に必要な音声インデックスを保持する。音声の単位は、音素、ダイフォン、モーラなどである。図7にモーラを単位とした場合の低水準合成単位辞書109の例を示す。

HDD211に構成される音声データベース110は、エントリ保持部106、基本合成単位辞書108、低水準合成単位辞書109が保持する音声インデックスに対応する音声をまとめて保持する。

図2は、本実施形態における音声処理装置の動作を説明するフローチャートである。このフローチャートに対応するプログラムは例えば音声処理プログラムに含まれ、ＣＰＵ２０１によって実行される。ここでは、FAX機能を持つ画像形成装置に上記構成の音声処理装置を適用した例を用いて説明する。さらに、FAXの送り先を確認するためのガイダンスを出力する場合について説明する。

まずステップS201で、ユーザが操作部208を介してFAX送信の準備をする。例えば、FAX送信のメニューを選択し、原稿を画像形成装置にセットする。

次に、ステップS202で、ユーザはアドレス帳を開き、所望の送り先を選択する。アドレス帳の例は図4に示すようなものである。

ステップS203で、エントリ取得部101は、ユーザが選択した送り先のエントリを取得する。

ステップS204で、登録情報判断部102が、ステップS203で取得されたエントリに音声が登録されているか否かを判断する。例えば、図4のアドレス帳で、「佐藤」のエントリには音声が登録されているが、「田中」のエントリには音声が登録されていない。エントリに音声が登録されている場合はステップS205へ進み、登録されていない場合はステップS207へ進む。

ステップS205で、ガイダンス選択部103が、ガイダンス保持部107からガイダンス1を選択する。ところで、出力するガイダンスは、FAXの送り先を確認するためのガイダンスである。これは図5でIDが1のガイダンスである。よって選択されるガイダンスは「FAXを＜$name＞へ送ります。」となる。

ステップS206で、ガイダンス作成部104が、ステップS205で選択されたガイダンス1の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには音声インデックスを登録する。

例えば、ステップS203で取得されたエントリが図4の「佐藤」であるとする。すると、作成されるガイダンスは「FAXを＜音声=w2001;＞へ送ります。」となる。ここで、＜音声=w2001;＞の部分がタグである。タグは＜＞で囲み、"項目名=値;"の形で情報を登録するものとする。

一方ステップS207では、ガイダンス選択部103が、ガイダンス保持部107からガイダンス2を選択する。ステップS205と同様、図5でIDが1のガイダンスを選択する。よって、選択されるガイダンスは、「FAXを送ります。送り先は、＜$name＞。」となる。

ステップS208で、登録情報判断部102が、S203で取得されたエントリに読みが登録されているか否かを判断する。例えば、図4のアドレス帳で、「田中」のエントリには読みが登録されているが、「鈴木」のエントリには読みが登録されていない。エントリに読みが登録されている場合はステップS209へ進み、登録されていない場合はステップS210へ進む。

ステップS209では、ガイダンス作成部104が、ステップS207で選択されたガイダンス2の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには読みを登録する。例えば、ステップS203で取得されたエントリを図4の「田中」とする。すると、作成されるガイダンスは「FAXを送ります。送り先は、＜読み=タナカ;＞。」となる。

一方ステップS210では、ガイダンス作成部104が、ステップS207で選択されたガイダンス2の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには表記を登録する。例えば、ステップS203で取得されたエントリを図4の「鈴木」とする。すると、作成されるガイダンスは「FAXを送ります。送り先は、＜表記=鈴木;＞。」となる。

ステップS211で、音声合成部105が、ステップS206またはS209またはS210で作成されたガイダンスを音声出力する。

ステップS212で、ユーザがステップS211で出力された音声ガイダンスを聞き、FAXの送り先が正しいか否かを判断する。正しい場合はステップS213へ進む。正しくない場合はステップS202へ戻り、送り先を選択しなおす。

ステップS213で、画像形成装置がFAXを送信して処理を終了する。

図3は、本実施形態における音声合成部105の処理手順を説明するフローチャートである。

ステップS301で、音声出力するガイダンスを取得する。このガイダンスは、ガイダンス作成部104がステップS206またはS209またはS210で作成したものである。

次にステップS302で、基本合成単位辞書108を用いて、ガイダンスを基本合成単位に分割する。また、元々ガイダンスに挿入されていたタグはそのまま基本合成単位とする。この分割は公知の形態素解析技術を利用可能である。例えば、基本合成単位辞書の表記とガイダンスとのマッチングを行い、左最長一致の基準に従って分割する。

図6の基本合成単位辞書を用いて、ガイダンス「FAXを送ります。送り先は、＜読み=タナカ;＞。」を分割した結果を図8に示す。ガイダンスは7個の基本合成単位に分割される。また、元々ガイダンスに挿入されていたタグ＜読み=タナカ;＞は、そのまま基本合成単位となる。

ステップS303で、分割された基本合成単位をタグへ置換する。タグには表記と音声インデックスを登録する。また、元々ガイダンスに挿入されていたタグはそのまま残す。例えば、基本合成単位「FAXを」をタグ＜表記=FAXを;音声=w1001;＞へ置換する。図8の基本合成単位をタグへ置換した結果を図9に示す。

ステップS304で、変数iに1を設定する。また、変数nにタグの数を設定する。図9の例で、タグの数は7である。

ステップS305で、iがn以下か否かを判断する。iがn以下の場合はステップS306へ進む。iがnより大きい場合は処理を終了する。

ステップS306で、i番目のタグに音声インデックスが登録されているか否かを判断する。音声インデックスが登録されている場合はステップS307へ進む。音声インデックスが登録されていない場合はステップS308へ進む。図9の例では、6番目のタグには音声インデックスが登録されていないが、その他のタグには音声インデックスが登録されている。

ステップS307で、i番目のタグに登録されている音声インデックスを用いて音声を取り出す。取り出した音声を再生する。これは、録音再生方式の音声合成である（第１音声合成）。

一方のS308では、i番目のタグに読みが登録されているか否かを判断する。読みが登録されている場合はステップS310へ進む。読みが登録されていない場合はステップS309へ進む。

ステップS309で、i番目のタグに読み付けを行う。まず、i番目のタグに登録されている表記を取り出す。次に、取り出した表記の読みを推定する。この処理には未知語の読み付け技術が利用可能である。最後に、推定した読みをi番目のタグに登録する。例えば、タグ＜表記=鈴木;＞の表記「鈴木」から読み「スズキ」を推定したとする。すると、タグは＜表記=鈴木;読み=スズキ;＞となる。もっとも、未知語の読み付け技術は誤りを含みうる。例えば、表記「鈴木」から、誤った読み「リンボク」を推定する可能性もある。

ステップS310で、i番目のタグに登録されている読みを取り出す。次に、規則合成を用いて、取り出した読みから音声合成を行い出力する（第２音声合成）。

ステップS311で、変数iの値を1増やして、ステップS305に戻る。

以上説明したように、音声が登録されていないエントリを取得するとガイダンス2を選択する。そして、固定部分を録音再生方式を用いて出力し、可変部分を規則合成方式を用いて出力する。ところで、ガイダンス2は可変部分がガイダンスの最後にある。これにより、録音再生の部分と規則合成の部分を分離した出力が可能となる。上述したように、音声が録音されていないエントリ（語または句）をガイダンス１（第１の文法）で再生する場合より、ガイダンス２（第２の文法）で再生するほうが、録音再生方式で再生される語または句と規則合成方式で再生される語または句との切替わりの回数が減少する場合がある。即ち、本実施の形態の効果として、上記切替わりの回数を減少させることができると言えるだろう。以上により、録音再生方式による出力音と規則合成方式による出力音の品質の差によるガイダンスの聞きにくさを低減することが可能となる。

また、上述したガイダンス２の文法においては、可変部分の前に可変部分を説明する語がある。ユーザはこの可変部分を説明する語を前もって聞くことにより、可変部分の内容（情報の種類）が推測しやすくなる。これは規則合成で出力される可変部分の聞きやすさにつながる。

なお、エントリに登録される読みにはアクセント情報が付与されていてもよい。この場合、ステップS309でアクセント情報付きの読みを推定する。また、ステップS310で規則合成の入力は、アクセント情報付きの読みとなる。

また、ステップS310で、読みを低水準合成単位に分割し、低水準合成単位の音声をそのまま再生してもよい。例えば、読み「スズキ」を分割した結果は、＜モーラ=ス;音声=w0165;＞＜モーラ=ズ;音声=w0160;＞＜モーラ=キ;音声=w0210;＞となる。この結果をステップS307の録音再生で出力する。ただし、「鈴木」に対して音声が登録されている場合に比べ、出力される音質は悪くなる。

また、ガイダンス2の可変部分に、「さん」「です」などの短い付属語を加えてもよい。具体的には、「FAXを送ります。送り先は、＜$name＞さん。」、「FAXを送ります。送り先は、＜$name＞です。」、「FAXを送ります。送り先は、＜$name＞さんです。」などとしてもよい。つまり、可変部分をガイダンスの最後の文節または句または語に置く。

上述の実施形態では、FAX機能を有する画像形成装置に本発明の音声処理装置を適用した例を説明したが、本発明はこれに限られない。音声合成機能を有する情報処理装置であれば、同様に適用できることは言うまでもない。

以上で説明している音声処理装置は、複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であり、次の処理を行うものである。まず、再生する文を構成する複数の語または句の夫々が、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する。次に、上記複数の語または句のそれぞれを、特定された再生方式を用いて第１の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数（反転回数）に基づいて、上記複数の語または句のそれぞれを第１の配置順序（第１の文法）で再生するか、第１の配置順序とは異なる配置順序（第１の文法とは異なる文法）で再生するかを選択する。上記の処理においては、同義の文を異なる文法で表現する場合に、必ずしも全ての語句を一致させることを主眼には置いてはいない。

上記音声処理装置の特徴は、録音再生方式を用いた再生と規則合成方式を用いた再生とが頻繁に切り替わることによる、聴覚的な聞き難さを解消しようとするものである。そのために文法（別の表現をするならば、文を構成する語または句の配置順序）を異ならせるものである。

以上では、解りやすくするために、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数（反転回数）が最大で２回になるような短文を用いた簡単な例を説明した。この場合、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数が２回の場合（録音再生方式から規則合成方式に変わり、規則合成方式から録音再生方式に変わる場合）に、この切替わり回数を１回に減少させるという単純な制御になる。

しかしながら、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数（反転回数）が最大で２回を超えるような長文においては、上述したような２種類のガイダンスの切り替えでは十分とは言えない。

このような長文を想定した場合には、上記切り替わる回数が許容範囲を超えるかどうかを基準として、ガイダンス１（第１の文法（第１の配置順序））と他のガイダンス（第１とは異なる１つ以上の文法（第２の配置順序）を選択することが有効である。

以下の説明は、上記音声処理装置が長文にも対応可能であることを追加的に説明するものである。

以下では、図１０、図１１を用いて、１つのガイダンス中に、上述した可変部分（録音再生方式と規則合成方式が選択的に適用される部分）が２箇所含まれる例について説明する。

図１１は、ガイダンス保持部１０７が保持するガイダンスの一例である。ガイダンス１からガイダンス４までの「文の構成（単語の配列順）としての聞き易さ」の関係は、ガイダンス１＞ガイダンス２＝ガイダンス３＞ガイダンス４の関係であるとする。即ち、もし、再生される文の全ての語句が録音再生方式である場合には、ガイダンス１を用いて再生される音声が一番聞き取り易く、ガイダンス４を用いて再生される音声が一番聞き取り難い。また、ガイダンス２とガイダンス３の聞き取り易さは同様である。また、ガイダンス中の＜$title＞と＜$name＞の部分が可変部分である。ＩＤが１のガイダンスは、原稿をスキャンして電子メールで送信する機能が選択されて、送り先と原稿のタイトルを確認するときに用いる。

図１０は、本実施形態における音声処理装置の動作を説明するフローチャートである。

まずステップＳ１００１で、ユーザが操作部２０８を介して電子メール送信の準備をする。例えば、電子メール送信のメニューを選択し、原稿を画像形成装置にセットする。

次に、ステップＳ１００２で、ユーザはアドレス帳を開き、所望の送り先を選択する。これはステップＳ２０２と同じ処理である。

ステップＳ１００３で、エントリ取得部１０１は、ユーザが選択した送り先のエントリを取得する。これはステップＳ２０３と同じ処理である。

ステップＳ１００４で、ユーザがセットした原稿のタイトルを取得する。例えば、スキャナ部２０５が、原稿を読み込み、その結果にＯＣＲを行い、タイトルを取得する。

ステップＳ１００５で、ガイダンス１を基本合成単位に分割し、その後、タグへ変換する。ガイダンス１の＜$name＞には、ステップＳ１００３で取得したエントリをタグにして挿入する。例えば図４の「佐藤」を取得したとする。ガイダンス１の＜$title＞には、ステップＳ１００４で取得したタイトルを挿入する。例えば「週報」を取得したとする。以上の例によると、ガイダンス１は「スキャン原稿、週報を電子メールで＜音声=w2001;＞へ送ります。」となる。

基本合成単位への分割はステップＳ３０２と同じ処理である。ただし、ガイダンス１に、基本合成単位辞書１０８に含まれない文字列がある場合は、＜表記=;＞のタグを用いる。例えば「週報を」が基本合成単位辞書１０８に含まれていない場合、＜表記=週報を;＞とする。タグへの変換はステップＳ３０３と同じ処理である。タグへ変換した結果の例を図１２に示す。基本合成単位辞書１０８として図６を用いる。また、「スキャン原稿」の音声インデックスがw1010であるとする。

ステップＳ１００６で、音声合成部１０５がガイダンス１を音声出力するときに、再生が録音再生方式を用いた再生と規則合成方式を用いた再生との間で切り替わる回数（反転回数）を計算する。この回数は、録音再生方式を用いた再生から規則合成方式を用いた再生へ切り替わる回数と、規則合成方式を用いた再生から録音再生方式を用いた再生へ切り替わる回数との和に相当する。タグに音声インデックスが登録されている場合、録音再生方式を用いる。タグに音声インデックスが登録されていない場合、規則合成方式を用いる。

図１２の例を用いて具体的に説明する。ＩＤが３のタグは、音声インデックスが登録されていないので、規則合成方式を用いる。その他のタグは、音声インデックスが登録されているので、録音再生方式を用いる。ＩＤが３のタグの前で、録音再生方式から規則合成方式へ切り替わる。ＩＤが３のタグの後ろで、規則合成方式から録音再生方式へ切り替わる。よって、切り替わる回数は２回である。

ステップＳ１００７で、録音再生方式と規則合成方式とが切り替わる回数が、所定数（Ｎ回）より小さいか否かを判定する。Ｎは予め定めた定数である。所定数未満の場合（ＹＥＳ）は、ステップＳ１０１５へ進み、所定数以上の場合（ＮＯ）はステップＳ１００８へ進む。例えばＮ＝２である場合、図１２の例では、ステップＳ１００８へ進む。

ステップＳ１００８からステップＳ１０１０の処理は、ガイダンス１の代わりにガイダンス２を用いることを除いて、ステップＳ１００５からステップＳ１００７の処理と同じである。

ステップＳ１０１１からステップＳ１０１３の処理は、ガイダンス１の代わりにガイダンス３を用いることを除いて、ステップＳ１００５からステップＳ１００７の処理と同じである。

ステップＳ１０１４の処理は、ガイダンス１の代わりにガイダンス４を用いることを除いて、ステップＳ１００５の処理と同じである。

ステップＳ１０１５で、ステップＳ１００５、ステップＳ１００８、ステップＳ１０１１、またはステップＳ１０１４で置換されたタグを基に音声出力を行う。具体的な処理は、図３のステップＳ３０４からステップＳ３１１の処理と同じである。

ステップＳ１００３では、エントリとして「佐藤」を取得し、ステップＳ１００４でタイトルとして「週報」を取得した例について、ステップＳ１００８以降の処理を説明する。

ステップＳ１００８では、ガイダンス２が「スキャン原稿、週報を電子メールで送ります。送り先は、＜音声=w2001;＞。」となる。タグに変換した結果の例を図１３に示す。ＩＤが３のタグの前後で、録音再生方式と規則合成方式の切り替えが起こり、切り替わる回数は２回となる。よって、ステップＳ１０１０において、切り替わり回数（２）はＮ（２）よりも小さくないので（ＮＯ）、ステップＳ１０１１へ進む。

ステップＳ１０１１で、ガイダンス２が「スキャン原稿を電子メールで＜音声=w2001;＞へ送ります。タイトルは、週報。」となる。タグに変換した結果の例を図１４に示す。「タイトルは」の音声インデックスがw1011であるとする。ＩＤが９のタグの前後で、録音再生方式と規則合成方式の切り替えが起こる。ただし、ＩＤが１０のタグは、400ミリ秒の無音であり、そのあとにもタグはない。つまり、ＩＤが９のタグの後には音声がない。このように、後ろに音声がない場合は切り替え回数として数えないことにする。よって、この場合の切り替わり回数は１回となる。そして、ステップＳ１０１３の判定において、切り替わり回数が２回よりも小さくなっているので（ＹＥＳ）、ステップＳ１０１５へ進む。ステップＳ１０１５で、ガイダンス３を音声出力する。

上述したＮ＝２の場合は、例えば「ユーザとしては、２回以上の切り替わりを許容できない」という意図が有る。よって、図１０の工程においては、文の構成（語句の配列順）として自然なガイダンス１からガイダンス３まで順番に、ガイダンス２回以上の切り替わりが発生しないガイダンスが見つかるまで判定を続けることになる。しかしながら、もし、各判定（S1007,S1010,S1013）で所望の切り替わり回数未満のガイダンスが見つからなければ、最終的にガイダンス４を選ぶことになる。このガイダンス４は、各可変部の最後に無音部分を配置することにより、「＜$name＞と＜$title＞の両方ともに規則合成方式で再生されるような場合などに最も切り替わり回数（反転回数）が少なくなる」という性質を備える。

以上の実施の形態によれば、できるだけ文の構成（単語の配列順）としての聞き易く、かつ、ユーザの許容範囲の切り替わり回数（反転回数）において再生できるガイダンスを、ユーザーに提供できる。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。

従って、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するためのコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などもある。

また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明の構成要件となる場合がある。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。

実施形態に係る画像形成装置のハードウェア構成例を示すブロック図である。実施形態における音声処理装置の機能構成を示すブロック図である。実施形態における音声処理装置の動作例を説明するフローチャートである。実施形態における音声合成部の処理手順を説明するフローチャートである。実施形態におけるエントリ保持部が保持するアドレス帳の構造例を示す図である。実施形態におけるガイダンス保持部が保持するガイダンスの例を示す図である。実施形態における基本合成単位辞書の例を示す図である。実施形態における低水準合成単位辞書の例を示す図である。実施形態におけるガイダンスの基本合成単位への分割例を示す図である。実施形態における分割した基本合成単位のタグへの置換例を示す図である。実施形態における音声処理装置の動作例を説明するフローチャートである。実施形態におけるガイダンス保持部が保持するガイダンスの例を示す図である。実施形態における分割した基本合成単位のタグへの置換例を示す図である。実施形態における分割した基本合成単位のタグへの置換例を示す図である。実施形態における分割した基本合成単位のタグへの置換例を示す図である。

符号の説明

101 エントリ取得部
102 登録情報判断部
103 ガイダンス選択部
104 ガイダンス作成部
105 音声合成部
106 エントリ保持部
107 ガイダンス保持部
108 基本合成単位辞書
109 低水準合成単位辞書
110 音声データベース

Claims

複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であって、
再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定手段と、
前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて第１の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数が所定数回未満であれば前記第１の配置順序による再生を選択し、前記反転回数が前記所定数回以上であれば、前記第１の配置順序に対して文構成として自然さを低下させた複数の配置順序のうち、前記反転回数が前記所定数回未満となる配置順序による再生を選択する選択手段と、
前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて、前記選択手段により選択された配置順序で再生する再生手段と
を備えることを特徴とする音声処理装置。
前記反転回数は、録音再生方式を用いた再生から規則合成方式を用いた再生へ切り替わる回数と、規則合成方式を用いた再生から録音再生方式を用いた再生へ切り替わる回数との和に相当することを特徴とする請求項１に記載の音声処理装置。
複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置によって実行される音声処理方法であって、
特定手段が、再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定工程と、
選択手段が、前記複数の語または句のそれぞれを、前記特定工程で特定された再生方式を用いて第１の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数が所定数回未満であれば前記第１の配置順序による再生を選択し、前記反転回数が前記所定数回以上であれば、前記第１の配置順序に対して文構成として自然さを低下させた複数の配置順序のうち、前記反転回数が前記所定数回未満となる配置順序による再生を選択する選択工程と、
再生手段が、前記複数の語または句のそれぞれを、前記特定工程で特定された再生方式を用いて、前記選択工程で選択された配置順序で再生する再生工程と
を有することを特徴とする音声処理方法。
請求項３に記載の音声処理方法の各工程をコンピュータに実行させるためのプログラム。
請求項４に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。