JP5097007B2 - 音声処理装置及び方法 - Google Patents

音声処理装置及び方法 Download PDF

Info

Publication number
JP5097007B2
JP5097007B2 JP2008134655A JP2008134655A JP5097007B2 JP 5097007 B2 JP5097007 B2 JP 5097007B2 JP 2008134655 A JP2008134655 A JP 2008134655A JP 2008134655 A JP2008134655 A JP 2008134655A JP 5097007 B2 JP5097007 B2 JP 5097007B2
Authority
JP
Japan
Prior art keywords
guidance
reproduction
playback
recording
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008134655A
Other languages
English (en)
Other versions
JP2009037214A5 (ja
JP2009037214A (ja
Inventor
道雄 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008134655A priority Critical patent/JP5097007B2/ja
Priority to US12/170,124 priority patent/US8027835B2/en
Publication of JP2009037214A publication Critical patent/JP2009037214A/ja
Publication of JP2009037214A5 publication Critical patent/JP2009037214A5/ja
Application granted granted Critical
Publication of JP5097007B2 publication Critical patent/JP5097007B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声処理装置及び方法に関する。
音声合成方式には、録音再生方式と規則合成方式がある。録音再生方式は音質が高いが、定型文にしか使えない。規則合成方式はあらゆる文に使えるが、録音再生方式よりも音質は劣り、読み間違いも起こる。
従来、音声合成によりガイダンス音声を出力する音声処理装置において、録音再生方式と規則合成方式を併用する方法が存在する(特許文献1)。
特開平9−97094号公報
しかしながら、上記の従来技術では、1つのガイダンス音声の中で録音再生方式と規則合成方式の切り替えを頻繁に行うと、両者の音質の差のため、ガイダンスが聞きにくくなるという課題があった。
そこで、本発明は、録音再生方式と規則合成方式とを切り替えながら音声合成を行う音声処理装置において、合成音声の聴覚的な自然性の向上させることを目的とする。
上記目的を達成するため、本発明の一側面によれば、複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であって、再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定手段と、前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて第1の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数に基づいて、前記複数の語または句のそれぞれを前記第1の配置順序で再生するか、該第1の配置順序とは異なる配置順序で再生するかを選択する選択手段と、前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて、前記選択手段により選択された配置順序で再生する再生手段とを備えることを特徴とする音声処理装置が提供される。
本発明によれば、録音再生方式と規則合成方式とを切り替えながら音声合成を行う音声処理装置において、合成音声の聴覚的な自然性を向上させることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決手段として必須のものであるとは限らない。
以下の実施形態では、FAX機能を有する画像形成装置に本発明を適用した例を用いて説明する。
図1Aは、本発明の音声処理装置が適用される画像形成装置のハードウェア構成の概略を示すブロック図である。
201はCPU(中央処理装置)であり、システム制御部として装置全体の動作を制御している。202はROMであり、制御プログラムを格納する。具体的には、後述する音声処理を行うための音声処理プログラム、画像の符号処理等を行うための画像処理プログラムを格納している。203はRAMであり、CPU201のワークエリアを提供し、各種データ等を格納するために用いられる。
204Aはマイクロホン等の音声入力装置、204Bはスピーカ等の音声出力装置である。
205はスキャナ部であり、画像データを読み取り、バイナリデータに変換する機能を有するデバイスである。206はプリンタ部であり、画像データを、記録紙に出力するプリンタ機能を有するものである。
207はファクシミリ通信制御部であり、電話回線等の外部回線を介して遠隔的に設置されたファクシミリ装置とファクシミリ通信を行うためのインタフェースである。208は操作部であり、オペレータによる操作を行うためのものである。具体的にはテンキー等の操作ボタン、タッチパネル等が含まれる。
209は画像/音声処理部である。具体的には、DSP等のハードウエアチップから構成され、画像処理、音声処理における積和演算等を高速に実行する。
210はネットワーク通信制御部であり、ネットワーク回線へのインタフェースとしての機能を有し、プリントジョブの受信やインターネットFAX送受信を実行するために用いられる。211はハードディスク装置(HDD)であり、後述するアドレス帳や音声データ等を保持する。
図1Bは、上述の画像形成装置において実現される音声処理装置の機能構成を示すブロック図である。
エントリ取得部101は、少なくとも表記とその読みとその音声を登録可能なエントリを取得する。エントリ(語または句など)は、HDD211に構成されるエントリ保持部106によって保持される。
エントリ保持部106は、例えば、図4に示すようなデータ構造のアドレス帳を構成するエントリの集合を保持している。各エントリには、ユーザの操作に関連付けられる、表記、その表記の読み、その読みの音声、電話番号、FAX番号、E-mailアドレスが登録可能となっている。
エントリに登録する音声は、音声入力装置204Aを介してエントリの内容を発声し録音したものである。図4で音声の欄にあるw2001、w2002などの記号は、音声を取り出すための音声インデックスである。
登録情報判断部102は、エントリ取得部101が取得したエントリに音声が登録されているか否かを判断する。
ガイダンス選択部103は、エントリ取得部101が取得したエントリに合わせて、HDD211に構成されるガイダンス保持部107が保持するガイダンスを選択する。エントリに音声が登録されている場合は後述のガイダンス1を選択する。エントリに音声が登録されていない場合は後述のガイダンス2を選択する。ガイダンス保持部107は、IDを用いてガイダンスを管理している。各IDに対してガイダンス1(第1ガイダンス)とガイダンス2(第2ガイダンス)を保持する。また、各ガイダンスは、メッセージの内容が固定されている固定部分の他に、ユーザの操作に応じたメッセージが挿入されることを示す可変部分を含む。
ガイダンス保持部107が保持するガイダンスの一例を図5に示す。ガイダンス中の<$name>の部分が可変部分であり、その他の部分が固定部分である。IDが1のガイダンスは、FAX機能が選択されてFAXの送り先を確認するときに用いる。IDが2のガイダンスは、メール機能が選択されてメールの送り先を確認するときに用いる。
図5に示されるように、ガイダンス1とガイダンス2は同義の内容を表すが、異なった表現を用いている。即ち、2つのガイダンスは語または句の配列順序が異なる。具体的には、ガイダンス1は、「FAXを」、「へ送ります。」という固定部分を有し、その中間に可変部分が位置する。一方、ガイダンス2は、ガイダンス1の可変部分を固定部分の末尾に位置させている。この場合、可変部分の直前には当該可変部分を説明する語または句が配置されることになる。図5の例では「送り先は、」の句が可変部分の直前に位置している。
ガイダンス作成部104は、ガイダンス選択部103が選択したガイダンスに、エントリ取得部101が取得したエントリの情報を挿入し、最終的に出力するガイダンスを作成する。
音声合成部105は、録音再生方式と規則合成方式とを選択的に切り替えながら音声合成を行うことが可能であり、ガイダンス作成部104が作成したガイダンスの合成音声を音声出力装置204Bを介して発生する。具体的には、ガイダンス中の固定部分、音声が登録されたエントリの部分には録音再生方式を用いる。音声が登録されていないエントリ(語または句)の部分には規則合成方式を用いる。
HDD211に構成される基本合成単位辞書108は、ガイダンスの固定部に含まれる語または句に関する情報を保持する。また、少なくとも表記とその音声を取り出すための音声インデックスを保持する。図6に例を示す。ここで、読点「、」の音声インデックスw1006は、300ミリ秒の無音を指しているとする。また、区点「。」の音声インデックスw1007は、400ミリ秒の無音を指しているとする。
HDD211に構成される低水準合成単位辞書109は、規則合成に必要な音声インデックスを保持する。音声の単位は、音素、ダイフォン、モーラなどである。図7にモーラを単位とした場合の低水準合成単位辞書109の例を示す。
HDD211に構成される音声データベース110は、エントリ保持部106、基本合成単位辞書108、低水準合成単位辞書109が保持する音声インデックスに対応する音声をまとめて保持する。
図2は、本実施形態における音声処理装置の動作を説明するフローチャートである。このフローチャートに対応するプログラムは例えば音声処理プログラムに含まれ、CPU201によって実行される。ここでは、FAX機能を持つ画像形成装置に上記構成の音声処理装置を適用した例を用いて説明する。さらに、FAXの送り先を確認するためのガイダンスを出力する場合について説明する。
まずステップS201で、ユーザが操作部208を介してFAX送信の準備をする。例えば、FAX送信のメニューを選択し、原稿を画像形成装置にセットする。
次に、ステップS202で、ユーザはアドレス帳を開き、所望の送り先を選択する。アドレス帳の例は図4に示すようなものである。
ステップS203で、エントリ取得部101は、ユーザが選択した送り先のエントリを取得する。
ステップS204で、登録情報判断部102が、ステップS203で取得されたエントリに音声が登録されているか否かを判断する。例えば、図4のアドレス帳で、「佐藤」のエントリには音声が登録されているが、「田中」のエントリには音声が登録されていない。エントリに音声が登録されている場合はステップS205へ進み、登録されていない場合はステップS207へ進む。
ステップS205で、ガイダンス選択部103が、ガイダンス保持部107からガイダンス1を選択する。ところで、出力するガイダンスは、FAXの送り先を確認するためのガイダンスである。これは図5でIDが1のガイダンスである。よって選択されるガイダンスは「FAXを<$name>へ送ります。」となる。
ステップS206で、ガイダンス作成部104が、ステップS205で選択されたガイダンス1の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには音声インデックスを登録する。
例えば、ステップS203で取得されたエントリが図4の「佐藤」であるとする。すると、作成されるガイダンスは「FAXを<音声=w2001;>へ送ります。」となる。ここで、<音声=w2001;>の部分がタグである。タグは<>で囲み、"項目名=値;"の形で情報を登録するものとする。
一方ステップS207では、ガイダンス選択部103が、ガイダンス保持部107からガイダンス2を選択する。ステップS205と同様、図5でIDが1のガイダンスを選択する。よって、選択されるガイダンスは、「FAXを送ります。送り先は、<$name>。」となる。
ステップS208で、登録情報判断部102が、S203で取得されたエントリに読みが登録されているか否かを判断する。例えば、図4のアドレス帳で、「田中」のエントリには読みが登録されているが、「鈴木」のエントリには読みが登録されていない。エントリに読みが登録されている場合はステップS209へ進み、登録されていない場合はステップS210へ進む。
ステップS209では、ガイダンス作成部104が、ステップS207で選択されたガイダンス2の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには読みを登録する。例えば、ステップS203で取得されたエントリを図4の「田中」とする。すると、作成されるガイダンスは「FAXを送ります。送り先は、<読み=タナカ;>。」となる。
一方ステップS210では、ガイダンス作成部104が、ステップS207で選択されたガイダンス2の可変部分に、ステップS203で取得されたエントリの情報をタグにして挿入する。タグには表記を登録する。例えば、ステップS203で取得されたエントリを図4の「鈴木」とする。すると、作成されるガイダンスは「FAXを送ります。送り先は、<表記=鈴木;>。」となる。
ステップS211で、音声合成部105が、ステップS206またはS209またはS210で作成されたガイダンスを音声出力する。
ステップS212で、ユーザがステップS211で出力された音声ガイダンスを聞き、FAXの送り先が正しいか否かを判断する。正しい場合はステップS213へ進む。正しくない場合はステップS202へ戻り、送り先を選択しなおす。
ステップS213で、画像形成装置がFAXを送信して処理を終了する。
図3は、本実施形態における音声合成部105の処理手順を説明するフローチャートである。
ステップS301で、音声出力するガイダンスを取得する。このガイダンスは、ガイダンス作成部104がステップS206またはS209またはS210で作成したものである。
次にステップS302で、基本合成単位辞書108を用いて、ガイダンスを基本合成単位に分割する。また、元々ガイダンスに挿入されていたタグはそのまま基本合成単位とする。この分割は公知の形態素解析技術を利用可能である。例えば、基本合成単位辞書の表記とガイダンスとのマッチングを行い、左最長一致の基準に従って分割する。
図6の基本合成単位辞書を用いて、ガイダンス「FAXを送ります。送り先は、<読み=タナカ;>。」を分割した結果を図8に示す。ガイダンスは7個の基本合成単位に分割される。また、元々ガイダンスに挿入されていたタグ<読み=タナカ;>は、そのまま基本合成単位となる。
ステップS303で、分割された基本合成単位をタグへ置換する。タグには表記と音声インデックスを登録する。また、元々ガイダンスに挿入されていたタグはそのまま残す。例えば、基本合成単位「FAXを」をタグ<表記=FAXを;音声=w1001;>へ置換する。図8の基本合成単位をタグへ置換した結果を図9に示す。
ステップS304で、変数iに1を設定する。また、変数nにタグの数を設定する。図9の例で、タグの数は7である。
ステップS305で、iがn以下か否かを判断する。iがn以下の場合はステップS306へ進む。iがnより大きい場合は処理を終了する。
ステップS306で、i番目のタグに音声インデックスが登録されているか否かを判断する。音声インデックスが登録されている場合はステップS307へ進む。音声インデックスが登録されていない場合はステップS308へ進む。図9の例では、6番目のタグには音声インデックスが登録されていないが、その他のタグには音声インデックスが登録されている。
ステップS307で、i番目のタグに登録されている音声インデックスを用いて音声を取り出す。取り出した音声を再生する。これは、録音再生方式の音声合成である(第1音声合成)。
一方のS308では、i番目のタグに読みが登録されているか否かを判断する。読みが登録されている場合はステップS310へ進む。読みが登録されていない場合はステップS309へ進む。
ステップS309で、i番目のタグに読み付けを行う。まず、i番目のタグに登録されている表記を取り出す。次に、取り出した表記の読みを推定する。この処理には未知語の読み付け技術が利用可能である。最後に、推定した読みをi番目のタグに登録する。例えば、タグ<表記=鈴木;>の表記「鈴木」から読み「スズキ」を推定したとする。すると、タグは<表記=鈴木;読み=スズキ;>となる。もっとも、未知語の読み付け技術は誤りを含みうる。例えば、表記「鈴木」から、誤った読み「リンボク」を推定する可能性もある。
ステップS310で、i番目のタグに登録されている読みを取り出す。次に、規則合成を用いて、取り出した読みから音声合成を行い出力する(第2音声合成)。
ステップS311で、変数iの値を1増やして、ステップS305に戻る。
以上説明したように、音声が登録されていないエントリを取得するとガイダンス2を選択する。そして、固定部分を録音再生方式を用いて出力し、可変部分を規則合成方式を用いて出力する。ところで、ガイダンス2は可変部分がガイダンスの最後にある。これにより、録音再生の部分と規則合成の部分を分離した出力が可能となる。上述したように、音声が録音されていないエントリ(語または句)をガイダンス1(第1の文法)で再生する場合より、ガイダンス2(第2の文法)で再生するほうが、録音再生方式で再生される語または句と規則合成方式で再生される語または句との切替わりの回数が減少する場合がある。即ち、本実施の形態の効果として、上記切替わりの回数を減少させることができると言えるだろう。以上により、録音再生方式による出力音と規則合成方式による出力音の品質の差によるガイダンスの聞きにくさを低減することが可能となる。
また、上述したガイダンス2の文法においては、可変部分の前に可変部分を説明する語がある。ユーザはこの可変部分を説明する語を前もって聞くことにより、可変部分の内容(情報の種類)が推測しやすくなる。これは規則合成で出力される可変部分の聞きやすさにつながる。
なお、エントリに登録される読みにはアクセント情報が付与されていてもよい。この場合、ステップS309でアクセント情報付きの読みを推定する。また、ステップS310で規則合成の入力は、アクセント情報付きの読みとなる。
また、ステップS310で、読みを低水準合成単位に分割し、低水準合成単位の音声をそのまま再生してもよい。例えば、読み「スズキ」を分割した結果は、<モーラ=ス;音声=w0165;><モーラ=ズ;音声=w0160;><モーラ=キ;音声=w0210;>となる。この結果をステップS307の録音再生で出力する。ただし、「鈴木」に対して音声が登録されている場合に比べ、出力される音質は悪くなる。
また、ガイダンス2の可変部分に、「さん」「です」などの短い付属語を加えてもよい。具体的には、「FAXを送ります。送り先は、<$name>さん。」、「FAXを送ります。送り先は、<$name>です。」、「FAXを送ります。送り先は、<$name>さんです。」などとしてもよい。つまり、可変部分をガイダンスの最後の文節または句または語に置く。
上述の実施形態では、FAX機能を有する画像形成装置に本発明の音声処理装置を適用した例を説明したが、本発明はこれに限られない。音声合成機能を有する情報処理装置であれば、同様に適用できることは言うまでもない。
以上で説明している音声処理装置は、複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であり、次の処理を行うものである。まず、再生する文を構成する複数の語または句の夫々が、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する。次に、上記複数の語または句のそれぞれを、特定された再生方式を用いて第1の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数(反転回数)に基づいて、上記複数の語または句のそれぞれを第1の配置順序(第1の文法)で再生するか、第1の配置順序とは異なる配置順序(第1の文法とは異なる文法)で再生するかを選択する。上記の処理においては、同義の文を異なる文法で表現する場合に、必ずしも全ての語句を一致させることを主眼には置いてはいない。
上記音声処理装置の特徴は、録音再生方式を用いた再生と規則合成方式を用いた再生とが頻繁に切り替わることによる、聴覚的な聞き難さを解消しようとするものである。そのために文法(別の表現をするならば、文を構成する語または句の配置順序)を異ならせるものである。
以上では、解りやすくするために、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数(反転回数)が最大で2回になるような短文を用いた簡単な例を説明した。この場合、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数が2回の場合(録音再生方式から規則合成方式に変わり、規則合成方式から録音再生方式に変わる場合)に、この切替わり回数を1回に減少させるという単純な制御になる。
しかしながら、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる回数(反転回数)が最大で2回を超えるような長文においては、上述したような2種類のガイダンスの切り替えでは十分とは言えない。
このような長文を想定した場合には、上記切り替わる回数が許容範囲を超えるかどうかを基準として、ガイダンス1(第1の文法(第1の配置順序))と他のガイダンス(第1とは異なる1つ以上の文法(第2の配置順序)を選択することが有効である。
以下の説明は、上記音声処理装置が長文にも対応可能であることを追加的に説明するものである。
以下では、図10、図11を用いて、1つのガイダンス中に、上述した可変部分(録音再生方式と規則合成方式が選択的に適用される部分)が2箇所含まれる例について説明する。
図11は、ガイダンス保持部107が保持するガイダンスの一例である。ガイダンス1からガイダンス4までの「文の構成(単語の配列順)としての聞き易さ」の関係は、ガイダンス1>ガイダンス2=ガイダンス3>ガイダンス4の関係であるとする。即ち、もし、再生される文の全ての語句が録音再生方式である場合には、ガイダンス1を用いて再生される音声が一番聞き取り易く、ガイダンス4を用いて再生される音声が一番聞き取り難い。また、ガイダンス2とガイダンス3の聞き取り易さは同様である。また、ガイダンス中の<$title>と<$name>の部分が可変部分である。IDが1のガイダンスは、原稿をスキャンして電子メールで送信する機能が選択されて、送り先と原稿のタイトルを確認するときに用いる。
図10は、本実施形態における音声処理装置の動作を説明するフローチャートである。
まずステップS1001で、ユーザが操作部208を介して電子メール送信の準備をする。例えば、電子メール送信のメニューを選択し、原稿を画像形成装置にセットする。
次に、ステップS1002で、ユーザはアドレス帳を開き、所望の送り先を選択する。これはステップS202と同じ処理である。
ステップS1003で、エントリ取得部101は、ユーザが選択した送り先のエントリを取得する。これはステップS203と同じ処理である。
ステップS1004で、ユーザがセットした原稿のタイトルを取得する。例えば、スキャナ部205が、原稿を読み込み、その結果にOCRを行い、タイトルを取得する。
ステップS1005で、ガイダンス1を基本合成単位に分割し、その後、タグへ変換する。ガイダンス1の<$name>には、ステップS1003で取得したエントリをタグにして挿入する。例えば図4の「佐藤」を取得したとする。ガイダンス1の<$title>には、ステップS1004で取得したタイトルを挿入する。例えば「週報」を取得したとする。以上の例によると、ガイダンス1は「スキャン原稿、週報を電子メールで<音声=w2001;>へ送ります。」となる。
基本合成単位への分割はステップS302と同じ処理である。ただし、ガイダンス1に、基本合成単位辞書108に含まれない文字列がある場合は、<表記=;>のタグを用いる。例えば「週報を」が基本合成単位辞書108に含まれていない場合、<表記=週報を;>とする。タグへの変換はステップS303と同じ処理である。タグへ変換した結果の例を図12に示す。基本合成単位辞書108として図6を用いる。また、「スキャン原稿」の音声インデックスがw1010であるとする。
ステップS1006で、音声合成部105がガイダンス1を音声出力するときに、再生が録音再生方式を用いた再生と規則合成方式を用いた再生との間で切り替わる回数(反転回数)を計算する。この回数は、録音再生方式を用いた再生から規則合成方式を用いた再生へ切り替わる回数と、規則合成方式を用いた再生から録音再生方式を用いた再生へ切り替わる回数との和に相当する。タグに音声インデックスが登録されている場合、録音再生方式を用いる。タグに音声インデックスが登録されていない場合、規則合成方式を用いる。
図12の例を用いて具体的に説明する。IDが3のタグは、音声インデックスが登録されていないので、規則合成方式を用いる。その他のタグは、音声インデックスが登録されているので、録音再生方式を用いる。IDが3のタグの前で、録音再生方式から規則合成方式へ切り替わる。IDが3のタグの後ろで、規則合成方式から録音再生方式へ切り替わる。よって、切り替わる回数は2回である。
ステップS1007で、録音再生方式と規則合成方式とが切り替わる回数が、所定数(N回)より小さいか否かを判定する。Nは予め定めた定数である。所定数未満の場合(YES)は、ステップS1015へ進み、所定数以上の場合(NO)はステップS1008へ進む。例えばN=2である場合、図12の例では、ステップS1008へ進む。
ステップS1008からステップS1010の処理は、ガイダンス1の代わりにガイダンス2を用いることを除いて、ステップS1005からステップS1007の処理と同じである。
ステップS1011からステップS1013の処理は、ガイダンス1の代わりにガイダンス3を用いることを除いて、ステップS1005からステップS1007の処理と同じである。
ステップS1014の処理は、ガイダンス1の代わりにガイダンス4を用いることを除いて、ステップS1005の処理と同じである。
ステップS1015で、ステップS1005、ステップS1008、ステップS1011、またはステップS1014で置換されたタグを基に音声出力を行う。具体的な処理は、図3のステップS304からステップS311の処理と同じである。
ステップS1003では、エントリとして「佐藤」を取得し、ステップS1004でタイトルとして「週報」を取得した例について、ステップS1008以降の処理を説明する。
ステップS1008では、ガイダンス2が「スキャン原稿、週報を電子メールで送ります。送り先は、<音声=w2001;>。」となる。タグに変換した結果の例を図13に示す。IDが3のタグの前後で、録音再生方式と規則合成方式の切り替えが起こり、切り替わる回数は2回となる。よって、ステップS1010において、切り替わり回数(2)はN(2)よりも小さくないので(NO)、ステップS1011へ進む。
ステップS1011で、ガイダンス2が「スキャン原稿を電子メールで<音声=w2001;>へ送ります。タイトルは、週報。」となる。タグに変換した結果の例を図14に示す。「タイトルは」の音声インデックスがw1011であるとする。IDが9のタグの前後で、録音再生方式と規則合成方式の切り替えが起こる。ただし、IDが10のタグは、400ミリ秒の無音であり、そのあとにもタグはない。つまり、IDが9のタグの後には音声がない。このように、後ろに音声がない場合は切り替え回数として数えないことにする。よって、この場合の切り替わり回数は1回となる。そして、ステップS1013の判定において、切り替わり回数が2回よりも小さくなっているので(YES)、ステップS1015へ進む。ステップS1015で、ガイダンス3を音声出力する。
上述したN=2の場合は、例えば「ユーザとしては、2回以上の切り替わりを許容できない」という意図が有る。よって、図10の工程においては、文の構成(語句の配列順)として自然なガイダンス1からガイダンス3まで順番に、ガイダンス2回以上の切り替わりが発生しないガイダンスが見つかるまで判定を続けることになる。しかしながら、もし、各判定(S1007,S1010,S1013)で所望の切り替わり回数未満のガイダンスが見つからなければ、最終的にガイダンス4を選ぶことになる。このガイダンス4は、各可変部の最後に無音部分を配置することにより、「<$name>と<$title>の両方ともに規則合成方式で再生されるような場合などに最も切り替わり回数(反転回数)が少なくなる」という性質を備える。
以上の実施の形態によれば、できるだけ文の構成(単語の配列順)としての聞き易く、かつ、ユーザの許容範囲の切り替わり回数(反転回数)において再生できるガイダンスを、ユーザーに提供できる。
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の各機能を実現するプログラムを、システム又は装置に直接又は遠隔から供給し、そのシステム又は装置に含まれるコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。
従って、本発明の機能・処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するためのコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RWなどがある。また、記録媒体としては、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などもある。
また、プログラムは、クライアントコンピュータのブラウザを用いてインターネットのホームページからダウンロードしてもよい。すなわち、ホームページから本発明のコンピュータプログラムそのもの、若しくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードしてもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードする形態も考えられる。つまり、本発明の機能・処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。
また、本発明のプログラムを暗号化してCD−ROM等のコンピュータ読み取り可能な記憶媒体に格納してユーザに配布してもよい。この場合、所定条件をクリアしたユーザにのみ、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報で暗号化されたプログラムを復号して実行し、プログラムをコンピュータにインストールしてもよい。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現されてもよい。なお、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部又は全部を行ってもよい。もちろん、この場合も、前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行ってもよい。このようにして、前述した実施形態の機能が実現されることもある。
実施形態に係る画像形成装置のハードウェア構成例を示すブロック図である。 実施形態における音声処理装置の機能構成を示すブロック図である。 実施形態における音声処理装置の動作例を説明するフローチャートである。 実施形態における音声合成部の処理手順を説明するフローチャートである。 実施形態におけるエントリ保持部が保持するアドレス帳の構造例を示す図である。 実施形態におけるガイダンス保持部が保持するガイダンスの例を示す図である。 実施形態における基本合成単位辞書の例を示す図である。 実施形態における低水準合成単位辞書の例を示す図である。 実施形態におけるガイダンスの基本合成単位への分割例を示す図である。 実施形態における分割した基本合成単位のタグへの置換例を示す図である。 実施形態における音声処理装置の動作例を説明するフローチャートである。 実施形態におけるガイダンス保持部が保持するガイダンスの例を示す図である。 実施形態における分割した基本合成単位のタグへの置換例を示す図である。 実施形態における分割した基本合成単位のタグへの置換例を示す図である。 実施形態における分割した基本合成単位のタグへの置換例を示す図である。
符号の説明
101 エントリ取得部
102 登録情報判断部
103 ガイダンス選択部
104 ガイダンス作成部
105 音声合成部
106 エントリ保持部
107 ガイダンス保持部
108 基本合成単位辞書
109 低水準合成単位辞書
110 音声データベース

Claims (5)

  1. 複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置であって、
    再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定手段と、
    前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて第1の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数が所定数回未満であれば前記第1の配置順序による再生を選択し、前記反転回数が前記所定数回以上であれば、前記第1の配置順序に対して文構成として自然さを低下させた複数の配置順序のうち、前記反転回数が前記所定数回未満となる配置順序による再生を選択する選択手段と、
    前記複数の語または句のそれぞれを、前記特定手段により特定された再生方式を用いて、前記選択手段により選択された配置順序で再生する再生手段と
    を備えることを特徴とする音声処理装置。
  2. 前記反転回数は、録音再生方式を用いた再生から規則合成方式を用いた再生へ切り替わる回数と、規則合成方式を用いた再生から録音再生方式を用いた再生へ切り替わる回数との和に相当することを特徴とする請求項1に記載の音声処理装置。
  3. 複数の語または句で構成される文を、録音再生方式または規則合成方式を用いて再生可能な音声処理装置によって実行される音声処理方法であって、
    特定手段が、再生する文を構成する複数の語または句のそれぞれが、録音再生方式で再生される語または句か、規則合成方式で再生される語または句かを特定する特定工程と、
    選択手段が、前記複数の語または句のそれぞれを、前記特定工程で特定された再生方式を用いて第1の配置順序で再生する場合に、録音再生方式を用いた再生と規則合成方式を用いた再生とが切り替わる反転回数が所定数回未満であれば前記第1の配置順序による再生を選択し、前記反転回数が前記所定数回以上であれば、前記第1の配置順序に対して文構成として自然さを低下させた複数の配置順序のうち、前記反転回数が前記所定数回未満となる配置順序による再生を選択する選択工程と、
    再生手段が、前記複数の語または句のそれぞれを、前記特定工程で特定された再生方式を用いて、前記選択工程で選択された配置順序で再生する再生工程と
    を有することを特徴とする音声処理方法。
  4. 請求項3に記載の音声処理方法の各工程をコンピュータに実行させるためのプログラム。
  5. 請求項4に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2008134655A 2007-07-11 2008-05-22 音声処理装置及び方法 Expired - Fee Related JP5097007B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008134655A JP5097007B2 (ja) 2007-07-11 2008-05-22 音声処理装置及び方法
US12/170,124 US8027835B2 (en) 2007-07-11 2008-07-09 Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007182555 2007-07-11
JP2007182555 2007-07-11
JP2008134655A JP5097007B2 (ja) 2007-07-11 2008-05-22 音声処理装置及び方法

Publications (3)

Publication Number Publication Date
JP2009037214A JP2009037214A (ja) 2009-02-19
JP2009037214A5 JP2009037214A5 (ja) 2011-05-26
JP5097007B2 true JP5097007B2 (ja) 2012-12-12

Family

ID=40439123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008134655A Expired - Fee Related JP5097007B2 (ja) 2007-07-11 2008-05-22 音声処理装置及び方法

Country Status (1)

Country Link
JP (1) JP5097007B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5269668B2 (ja) 2009-03-25 2013-08-21 株式会社東芝 音声合成装置、プログラム、及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210194A (ja) * 1994-01-18 1995-08-11 Hitachi Ltd 音声出力装置
JPH0934490A (ja) * 1995-07-20 1997-02-07 Sony Corp 音声合成装置および音声合成方法、ナビゲーションシステム、並びに記録媒体

Also Published As

Publication number Publication date
JP2009037214A (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
EP2207165B1 (en) Information processing apparatus and text-to-speech method
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
US8027835B2 (en) Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method
JP5097007B2 (ja) 音声処理装置及び方法
JPH10274999A (ja) 文書読み上げ装置
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
US20050131674A1 (en) Information processing apparatus and its control method, and program
JP4620517B2 (ja) 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JPH11344997A (ja) 音声合成方法
JP2007108450A (ja) 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2001228897A (ja) 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2008039826A (ja) 音声案内装置
JP2003150185A (ja) 音声合成システムとその方法及びそれを実現するためのプログラム
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP4184157B2 (ja) 音声データ管理装置、音声データ管理方法及びプログラム
KR100363876B1 (ko) 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
KR100382827B1 (ko) 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법
JP2000293187A (ja) データ音声合成装置及びデータ音声合成方法
JP4816067B2 (ja) 音声データベース製造装置、音声データベース、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム
JP2001282291A (ja) 音声データ処理装置
JP2008191292A (ja) 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JPH10274998A (ja) 文書読み上げ方法および文書読み上げ装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120921

R151 Written notification of patent or utility model registration

Ref document number: 5097007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees