JP2007079351A - 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム - Google Patents

音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム Download PDF

Info

Publication number
JP2007079351A
JP2007079351A JP2005269624A JP2005269624A JP2007079351A JP 2007079351 A JP2007079351 A JP 2007079351A JP 2005269624 A JP2005269624 A JP 2005269624A JP 2005269624 A JP2005269624 A JP 2005269624A JP 2007079351 A JP2007079351 A JP 2007079351A
Authority
JP
Japan
Prior art keywords
information
boundary
probability
pose
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005269624A
Other languages
English (en)
Other versions
JP4621936B2 (ja
Inventor
Junichi Yamagishi
順一 山岸
Hisashi Kawai
恒 河井
Toshio Hirai
俊男 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005269624A priority Critical patent/JP4621936B2/ja
Publication of JP2007079351A publication Critical patent/JP2007079351A/ja
Application granted granted Critical
Publication of JP4621936B2 publication Critical patent/JP4621936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】従来の音声合成装置においては、単純に境界毎にポーズの位置、および種類を予測しているため、発話全体で最適になっていない、という課題があった。という課題があった。
【解決手段】音声の境界を検出し、当該境界を識別する情報である境界情報を取得し、取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得し、ポーズ情報を境界ごとに取得し、ポーズ情報において、1種以上の属性情報が示す確率についての情報である属性情報確率情報を算出し、取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出する学習データ生成装置が作成した学習データを利用した音声合成により、自然な音声合成出力が可能となる。
【選択図】図1

Description

本発明は、音声合成出力を行う音声合成装置等に関するものである。
テキストデータから音声合成し、音声出力する音声合成装置において、入力テキストの構文情報を合成音声の聞き手に的確に伝えるため、音声のポーズを入力テキストの適切な境界に挿入する処理が必要である。また、音声合成装置において、ポーズ挿入の頻度は過剰もしくは過少のどちらであっても合成音声の聞き手の理解を妨げる要因となるため、ポーズ挿入は、一文もしくは連続する複数文内にどの程度の個数や種類のポーズを挿入するかを適切に判断しながら決定する必要がある。
しかし、従来のテキストデータから音声合成し、従来のポーズ予測アルゴリズムは単純に境界毎に与えられた説明変数(後述する属性情報と同意義である)を基にポーズの種類を予測する局所的な予測モデルである(例えば、非特許文献1参照)。
なお、単純に境界毎に与えられた説明変数に基づいて、ポーズの種類を予測することは、パターン認識における単純な「多クラス」の予測問題である。したがって、多クラスの予測モデルである、k−NN、決定木、NaiveBayes、SVMの従来技術が適用可能である。
また、関連する先行技術として、文を言語解析し、句境界の係り受け距離や、先行境界の係り受け距離や、着目する句が並列句であるか否か、着目する句が同格句であるか否か、着目する句のモーラ数を取得する言語解析技術が存在する(非特許文献2参照)。
海木、他1名、「局所的構造によるポーズ挿入規則化の検討」、1996、信学論、J79−D−II、(9)、pp.1455−1463 工藤、他1名、「チャンキングの段階適用による日本語係り受け解析」、2002、情処論、43、(6)、1834−1842
しかしながら、従来の音声合成装置等の音声処理システムにおいては、単純に境界毎にポーズの位置、および種類を予測しているため、発話全体(例えば、一文章)で最適になっていない、という課題があった。
本第一の発明の学習データ生成装置は、情報が記憶される学習データ記憶部と、1以上の文の音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する境界決定部と、前記境界決定部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第一属性情報取得部と、前記音声受付部が受け付けた音声から無音区間を検知し、前記無音区間の長さに基づいて、前記境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得するポーズ情報取得部と、前記ポーズ情報において、前記1種以上の属性情報が現われる確率についての情報である属性情報確率情報を算出し、前記学習データ記憶部に記録する属性情報確率情報算出部と、前記ポーズ情報取得部が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、前記学習データ記憶部に記録するポーズ情報確率情報算出部と、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、前記学習データ記憶部に記録する最後境界ポーズ情報確率情報算出部を具備する学習データ生成装置である。
かかる構成により、的確にポーズの位置や種類を予測するための学習データが自動的に生成できる。また、受け付けた文に含まれる境界について、ポーズの種類別に、属性情報を取得し、ポーズの種類別および属性情報別に数を数える処理が、学習データを生成するための主たる処理であるので、非常に少ない計算量で、高速に学習データを得ることができる。
また、本第二の発明の音声合成装置は、属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を有する学習データを格納している学習データ格納部と、文を受け付ける文受付部と、前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、前記ポーズ情報系列決定部が決定したポーズ情報に対応した無音区間を構成し、前記文受付部が受け付けた文を音声合成出力する音声合成出力部を具備する音声合成装置である。
かかる構成により、発話全体(例えば、一文章)で最適なポーズが挿入された音声合成が実現できる。その結果、極めて自然な音声での音声合成出力が可能となる。また、少ない計算量でポーズ予測が可能となるため、例えば、リアルタイムの音声合成処理の前処理として極めて有効である。
また、本第三の発明の音声合成装置は、第二の発明に対して、前記属性情報は、着目する境界の係り受け距離、前記着目する境界の直前の境界である先行境界の係り受け距離、読点の有無を示す情報、前記着目する境界の直前の句が並列句であるか否かを示す情報、前記着目する境界の直前の句が同格句であるか否かを示す情報、前記着目する境界の直前の句のモーラ数、前記着目する境界の直後の句のモーラ数のうち、1以上の情報である音声合成装置であることは好適である。
また、本第四の発明の音声合成装置は、第二、第三いずれかの発明に対して、前記ポーズ情報は、ポーズであることを示すポーズ有り情報、またはポーズでないことを示すポーズ無し情報のいずれかである音声合成装置であることは好適である。
また、本第五の発明のポーズ予測装置は、属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を有する学習データを格納している学習データ格納部と、文を受け付ける文受付部と、前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、前記ポーズ情報系列決定部が決定したポーズ情報を出力する出力部を具備するポーズ予測装置である。
かかる構成により、的確にポーズの位置と種類が予測できる。かかるポーズ予測装置は、上述した音声合成装置の他、特に外国人の日本語等の音読の訓練などに利用できる。
また、本第六の発明の音声処理システムは、音声合成を行うための学習データを生成する学習データ生成装置と、前記学習データ生成装置が生成した学習データを使用して音声合成を行う音声合成装置を具備する音声処理システムであって、前記学習データ生成装置は、情報が記憶される学習データ記憶部と、1以上の文の音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する境界決定部と、前記境界決定部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第一属性情報取得部と、前記音声受付部が受け付けた音声から無音区間を検知し、前記無音区間の長さに基づいて、前記境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得するポーズ情報取得部と、前記ポーズ情報において、前記1種以上の属性情報が現われる確率についての情報である属性情報確率情報を算出し、前記学習データ記憶部に記録する属性情報確率情報算出部と、前記ポーズ情報取得部が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、前記学習データ記憶部に記録するポーズ情報確率情報算出部と、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、前記学習データ記憶部に記録する最後境界ポーズ情報確率情報算出部を具備し、前記音声合成装置は、前記学習データ生成装置から属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を受け付ける学習データ受付部と、前記学習データ受付部が受け付けた学習データを格納する学習データ格納部と、文を受け付ける文受付部と、前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、前記ポーズ情報系列決定部が決定したポーズ情報に対応した無音区間を構成し、前記文受付部が受け付けた文を音声合成出力する音声合成出力部を具備する音声処理システムである。
かかる構成により、学習データを生成し、かつ当該学習データを利用して、的確なポーズの位置や種類の予測が可能となる。そのために、極めて自然な音声合成出力ができる。
本発明による音声処理システムによれば、発話全体で最適なポーズの位置や種類が決定でき、そのためにより自然な音声合成出力が可能となる。
以下、音声処理システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における音声処理システムのブロック図である。
音声処理システムは、学習データ生成装置11、音声合成装置12を具備する。
学習データ生成装置11は、音声合成装置12が音声合成処理するための学習データを生成する。
学習データ生成装置11は、学習データ記憶部1101、音声受付部1102、境界決定部1103、第一属性情報取得部1104、ポーズ情報取得部1105、属性情報確率情報算出部1106、ポーズ情報確率情報算出部1107、最後境界ポーズ情報確率情報算出部1108を具備する。
音声合成装置12は、学習データ受付部1201、学習データ格納部1202、文受付部1203、境界情報取得部1204、第二属性情報取得部1205、属性情報確率情報取得部1206、ポーズ情報確率情報取得部1207、最後境界ポーズ情報確率情報取得部1208、ポーズ情報系列決定部1209、音声合成出力部1210を具備する。
学習データ記憶部1101には、情報が記憶される。情報とは、デジタルデータであれば何でも良いが、ここでは後述する学習データが記憶される。学習データ記憶部1101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。なお、学習データ記憶部1101が揮発性の記録媒体である場合、通常、学習データは、学習データ生成装置11の外部に存在する装置(学習データ生成装置11とは別の装置)の記録媒体に蓄積される。つまり、かかる場合、学習データ生成装置11は、生成した学習データを外部の装置に送信する。
音声受付部1102は、文の音声を受け付ける。音声受付部1102は、通常、複数文、文ごとに音声を受け付ける。文の音声とは、例えば、アナウンサーなどの人が、1文ずつ文を朗読した場合に発声される音声である。音声の入力手段は、マイク165やDVDやハードディスクや磁気テープ等の記録媒体からの読み出し手段等、何でも良い。音声受付部1102は、マイク165等の入力手段のデバイスドライバーや等で実現され得る。
境界決定部1103は、音声受付部1102が受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する。詳細には、境界決定部1103は、文の情報(文字のコード列であり、例えば、アナウンサーなどの人が読む文の情報)を保持している。そして、境界決定部1103は、保持している文を読み出し、文中の境界を決定する。そして、境界決定部1103は、境界を識別する境界情報を、文ごとに取得する。なお、境界は、文節、または句、または2以上の所定長の句などである。文を句や文節等に区切る技術は公知技術であるので、詳細な説明は省略する。また、「音声の境界の検出」とは、音声に対応する文の境界の検出でも良い。また、境界決定部1103は、受け付けた音声を音声認識し、文字コード列に変換してから、境界を検出しても良い。境界決定部1103は、通常、MPUやメモリ等から実現され得る。なお、音声認識処理は公知技術であるので詳細な説明を省略する。境界決定部1103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、境界決定部1103は、音声認識処理のために、音響モデルや言語モデルを有する場合がある。
第一属性情報取得部1104は、境界決定部1103が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する。第一属性情報取得部1104は、通常、境界決定部1103が保持している文の情報(文字コード列)を利用して、属性情報を取得する。属性情報は、例えば、着目する境界の係り受け距離である。また、属性情報は、例えば、前記着目する境界の直前の境界である先行境界の係り受け距離である。また、属性情報は、例えば、読点の有無を示す情報である。また、属性情報は、例えば、前記着目する境界の直前の句が並列句であるか否かを示す情報である。また、属性情報は、例えば、前記着目する境界の直前の句が同格句であるか否かを示す情報である。また、属性情報は、例えば、前記着目する境界の直前の句のモーラ数である。また、属性情報は、例えば、前記着目する境界の直後の句のモーラ数のうち、1以上の情報である。なお、境界の係り受け距離とは、境界の直前の句や文節等が直接修飾する句や文節等までの句数や文節数等である。先行境界の係り受け距離とは、境界の一つ前の境界の直前の句や文節等が直接修飾する句や文節等までの句数や文節数等である。また、「・・・例えば、A市、B市、C市などでは、・・・」という文中の「A市」、「B市」、「C市」は、並列句である。また、「隣のラーメン屋の店長さん、山田さんは明朗で、・・・」の「店長さん」、「山田さん」は同格句である。モーラ数は、拍数のことである。なお、境界の係り受け距離を取得する技術、並列句であるか否かを示す情報を取得する技術、同格句であるか否かを示す情報を取得する技術は、従来技術(非特許文献2)であるので、詳細な説明は省略する。また、読点の有無を示す情報とは、境界が読点を有するか否かを示す情報であり、かかる情報の取得は、簡単な文字のパターンマッチング(従来技術)で可能である。さらに、モーラ数の取得も、従来技術により可能であるので、詳細な説明は省略する。第一属性情報取得部1104は、通常、MPUやメモリ等から実現され得る。第一属性情報取得部1104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ポーズ情報取得部1105は、音声受付部1102が受け付けた音声から無音区間を検知し、無音区間の長さに基づいて、境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得する。ポーズ情報は、例えば、ポーズであることを示すポーズ有り情報(例えば「1」)、またはポーズでないことを示すポーズ無し情報(例えば、「0」)のいずれかである。また、ポーズ情報は、例えば、無音区間の長さに応じて、ロングポーズ、ショートポーズ、ポーズ無しの3種類の情報を採りえる、としても良い。なお、ポーズ情報取得部1105は、受け付けた音声と文(テキストコード)との整合をとる。この整合をとった結果を、ポーズ情報取得部1105が利用し、文の境界のうちのポーズの位置を決定する。また、受け付けた音声から無音区間を検出し、無音区間の長さを取得することは、例えば、HMMの音響モデルを用いて可能であり、公知の技術であるので、詳細な説明を省略する。さらに、音声と文(テキストコード)との整合をとる技術も公知技術である。ポーズ情報取得部1105は、音声を音素に分割し、音素の集合が示す文字とテキストコードを比較し、対応付け、かつ取得した無音区間長により境界のポーズの種類を決定する。ポーズ情報取得部1105は、通常、MPUやメモリ等から実現され得る。ポーズ情報取得部1105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
属性情報確率情報算出部1106は、ポーズ情報(ポーズ情報の種類ごとに)において、1種以上の属性情報が現われる確率についての情報である属性情報確率情報を、属性情報の採りえる値ごとに算出し、学習データ記憶部1101に記録する。以下、ポーズ情報がポーズ有り情報、ポーズ無し情報の2種類の値のみとり得る場合について説明する。また、属性情報を「読点の有無についての情報」である、とする。かかる場合、属性情報確率情報算出部1106は、P(読点有り|ポーズ有り)、P(読点無し|ポーズ有り)、P(読点有り|ポーズ無し)、P(読点無し|ポーズ無し)の4つの確率値を算出する。具体的には、属性情報確率情報算出部1106は、境界決定部1103が取得した全境界情報が示す全境界の中で、ポーズ情報取得部1105が取得したポーズ情報が「ポーズ有り」の個数(PX)を算出する。次に、属性情報確率情報算出部1106は、「ポーズ有り」の境界の属性値が「読点有り」の個数(SX)を算出する。そして、属性情報確率情報算出部1106は、「SX/PX」を算出し、「P(読点有り|ポーズ有り)」を得る。なお、「P(読点有り|ポーズ有り)」は、境界がポーズである場合に、読点が有る確率値である。属性情報確率情報算出部1106は、ポーズ情報が「ポーズ有り」の個数、ポーズ情報が「ポーズ無し」の個数、「読点有り」の個数、「読点無し」の個数を算出することにより、P(読点無し|ポーズ有り)、P(読点有り|ポーズ無し)、P(読点無し|ポーズ無し)も取得できる。なお、属性情報確率情報は、通常、確率値(0から1までの値)であるが、その他の情報でも良い。その他の情報とは、例えば、確率値をN倍した値である。
なお、属性情報確率情報算出部1106は、属性情報の値が四則演算の対象とならない場合(この場合の属性情報を「質的データ」、属性情報の値を「質的な値」ということとする。)、例えば、最尤推定(ML推定)を用いて、属性情報確率情報を算出する。具体的には、下記の数式1により属性情報確率情報(PML)を算出する。なお、質的な値を、適宜「離散値」ともいうこととする。また、質的な値とは、読点の有無(例えば、読点有りの場合は「1」、読点なしの場合は「0」)、並列句であるか否か(例えば、並列句である場合「1」、並列句で無い場合「0」)、文のスタイル(例えば、肯定文の場合「1」、否定文の場合「2」、疑問文の場合「3」)などの属性情報の値である。
数式1において、受け付ける文がN個の文で構成され,xkiが離散値であるとする。そして、n番目の文でx(n) ki=v、かつo(n) =cとなる回数をγnvkc、o(n) i?1=c'かつo(n) =cとなる回数をγnc'c,o(n) In=cとなる回数をγncとすると最尤推定量(PML)は、数式1により算出できる。
なお、数式1において、Vはk番目の属性情報(適宜「説明変数」とも言う)の種類の総数、Cはポーズの種類の総数(ポーズの有無の予測ならばC=2)を示す。例えば、k番目の属性情報が読点の有無の情報ならば、V=2(読点あり/なしの2種類)であり、最尤推定量は文の中の読点のある境界の個数もしくは読点の無い境界の個数をポーズの有無別に数え上げれば得られることを示している。
ただし、属性情報確率情報算出部1106は、MAP推定により属性情報確率情報を算出しても良い。少量の学習データに該当サンプルが無い場合、最尤推定では確率が零となるため、よりロバストなMAP推定を導入することは好適である。事前分布はディリクレ分布であると仮定すると、モデルパラメータのMAP定量は、数式2により算出できる。
数式2において、αは正の定数のハイパーパラメータであり、例えば、α=2(ラプラススムージング)である。
また、属性情報確率情報算出部1106は、属性情報の値が、四則演算が可能な値の場合(この場合の属性情報を「量的データ」、属性情報の値を「量的な値」ということとする。)、例えば、密度推定を行う。属性情報確率情報算出部1106は、正規分布を用いることも可能であるが、xが正規分布の条件を満たしていない場合も存在する。そこで、属性情報確率情報算出部1106は、好ましくは、カーネル密度推定(「核密度推定」とも言う。)を利用する。なお、カーネル密度推定は公知技術であるので、詳細な説明は省略する。属性情報確率情報算出部1106は、カーネル密度推定を用いて、数式3のように属性情報確率情報を算出する。なお、量的な値を、適宜「連続値」ともいうこととする。また、量的な値とは、係り受け距離(例えば、「1」「2」「3」・・・(自然数))、話速(例えば、5mora/sec(実数))などの属性情報の値である。
数式3において、hはbandwidthパラメータである。また、カーネル関数(「核密度関数」とも言う。)には、例えば、標準正規分布「K(x)=N(x;0,1)」を利用する。
属性情報確率情報算出部1106は、通常、MPUやメモリ等から実現され得る。属性情報確率情報算出部1106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ポーズ情報確率情報算出部1107は、ポーズ情報取得部1105が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、学習データ記憶部1101に記録する。ポーズ情報確率情報算出部1107は、P(Oi−1|O)を算出する。P(Oi−1|O)は、ポーズ情報確率情報である。ポーズ情報確率情報は、例えば、i番目の境界のポーズ情報(2種類または3種類)の場合の、(i−1)番目の境界のポーズ情報(2種類または3種類)の確率値である。ポーズ情報が「ポーズ有り」と「ポーズ無し」の2種類の場合、ポーズ情報確率情報は、P((i−1)番目の境界がポーズ有り|i番目の境界がポーズ有り)、P((i−1)番目の境界がポーズ無し|i番目の境界がポーズ有り)、P((i−1)番目の境界がポーズ有り|i番目の境界がポーズ無し)、P((i−1)番目の境界がポーズ無し|i番目の境界がポーズ無し)の4種類である。「P((i−1)番目の境界がポーズ有り|i番目の境界がポーズ有り)」は、i番目の境界がポーズ有りの場合の、(i−1)番目の境界がポーズ有りの確率値である。なお、ポーズ情報確率情報は、必ずしも「0から1」の値であるとは限らず、いわゆる確率値(0から1の値)をN倍して情報等でも良い。また、ポーズ情報確率情報算出部1107は、例えば、ポーズ情報取得部1105が取得した各境界についてのポーズ情報が「ポーズ有り」か「ポーズ無し」かをチェックし、P((i−1)番目の境界がポーズ有り|i番目の境界がポーズ有り)等を算出する。ポーズ情報確率情報算出部1107は、通常、1以上の文の全境界についてのポーズ情報を、処理対象とする。ポーズ情報確率情報算出部1107は、通常、MPUやメモリ等から実現され得る。ポーズ情報確率情報算出部1107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
最後境界ポーズ情報確率情報算出部1108は、文中の境界のうち、文の最後に存在する境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、学習データ記憶部1101に記録する。ポーズ情報が「ポーズ有り」、「ポーズ無し」の2種類の情報である場合、最後境界ポーズ情報確率情報算出部1108は、1以上の文の最後尾の境界のポーズ情報が「ポーズ有り」の数を算出する。また、最後境界ポーズ情報確率情報算出部1108は、1以上の文の最後尾の境界のポーズ情報が「ポーズ無し」の数を算出する。そして、P(最後尾がポーズ有り)、P(最後尾がポーズ無し)を算出する。P(最後尾がポーズ有り)は、最後の境界が「ポーズ有り」の確率値である。最後境界ポーズ情報確率情報算出部1108は、通常、MPUやメモリ等から実現され得る。最後境界ポーズ情報確率情報算出部1108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
学習データ受付部1201は、学習データ生成装置11が生成した属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を受け付ける。属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を、ここでは、学習データという。ここで、「受け付け」とは、受信でも良いし、記録媒体を介して取得することも含む。学習データ受付部1201は、無線または有線の通信手段等で実現され得る。
学習データ格納部1202は、学習データ受付部1201が受け付けた学習データを格納している。学習データ格納部1202が学習データを格納する処理を行うと考えても良いし、学習データ受付部1201が学習データを格納する処理を行うと考えても良い。学習データ格納部1202は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
文受付部1203は、文を受け付ける。文とは、通常、文を構成する文字コード列である。文の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。文受付部1203は、テンキーやキーボード等の入力手段のデバイスドライバー等で実現され得る。
境界情報取得部1204は、文受付部1203が受け付けた文(文字コード列)を分割し、当該文の境界を識別する情報である境界情報を1以上取得する。文字コード列である文を、文節や句などに分割し、境界情報を取得する技術は公知技術(形態素解析技術)であるので、詳細な説明を省略する。境界情報取得部1204は、通常、MPUやメモリ等から実現され得る。境界情報取得部1204の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二属性情報取得部1205は、境界情報取得部1204が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する。属性情報の例は、上述した通りである。第二属性情報取得部1205の処理は、第一属性情報取得部1104の処理と同様である。第二属性情報取得部1205は、通常、MPUやメモリ等から実現され得る。第二属性情報取得部1205の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
属性情報確率情報取得部1206は、境界ごとに第二属性情報取得部1205が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を学習データ格納部1202から検索し、取得する。例えば、着目する境界が「読点有り」の場合、属性情報確率情報取得部1206は、P(読点有り|ポーズ有り)、およびP(読点有り|ポーズ無し)を取得する。また、例えば、着目する境界が「読点無し」の場合、属性情報確率情報取得部1206は、P(読点無し|ポーズ有り)、およびP(読点無し|ポーズ無し)を取得する。
属性情報確率情報取得部1206は、通常、MPUやメモリ等から実現され得る。属性情報確率情報取得部1206の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ポーズ情報確率情報取得部1207は、各境界についてのポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を学習データ格納部1202から取得する。例えば、i番目の境界が「ポーズ有り」の場合、ポーズ情報確率情報取得部1207は、P((i−1)番目の境界がポーズ有り|i番目の境界がポーズ有り)、P((i−1)番目の境界がポーズ無し|i番目の境界がポーズ有り)を、「i番目の境界が「ポーズ有り」」をキーとして、検索し、取得する。ポーズ情報確率情報取得1207部は、通常、MPUやメモリ等から実現され得る。ポーズ情報確率情報取得部1207の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
最後境界ポーズ情報確率情報取得部1208は、最後境界ポーズ情報確率情報を学習データ格納部1202から取得する。最後境界ポーズ情報確率情報取得部1208は、通常、MPUやメモリ等から実現され得る。最後境界ポーズ情報確率情報取得部1208の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ポーズ情報系列決定部1209は、属性情報確率情報取得部1206が取得した境界ごとの1以上の属性情報確率情報、ポーズ情報確率情報取得部1207が取得したポーズ情報確率情報、および最後境界ポーズ情報確率情報取得部1208が取得した最後境界ポーズ情報確率情報を用いて、所定の演算を行い、演算結果が最も良好なポーズ情報の系列を決定する。ここで演算とは、1以上の属性情報確率情報、ポーズ情報確率情報、最後境界ポーズ情報確率情報をパラメータとする演算処理(例えば、「f(1以上の属性情報確率情報,ポーズ情報確率情報,最後境界ポーズ情報確率情報)」)である。この演算処理は、上記確率情報の積が最大となるポーズ情報の系列を決定する処理である。この決定する処理は、動的計画法(DP)により行う。なお、ポーズ情報が「ポーズ有り」、「ポーズ無し」の2種類の場合、ポーズ情報の系列とは、各境界が「ポーズ有り」または「ポーズ無し」のいずれかであるかを示す情報列である。
なお、ポーズ情報系列決定部1209は、具体的には、例えば、数式4によりポーズ情報の系列を算出する。
数式4において、一文の総境界数をI、各境界の説明変数の系列をX=(x,・・・,x)とし,Xが所与のもとでの一文のポーズ系列O=(o,・・・,o)の確率P(O|X)を最大にするOを求めることによりポーズの位置(個数)を決定することを示している。
ただし,各境界の説明変数の集合xはK個の説明変数x=(x1i,・・・,xKi)から構成されるとする.数式4を厳密に解くことは困難であるため、ここでは以下のようなモデル化により、効率的なポーズ予測を実現する。まず、説明変数および各境界には一次マルコフ過程(図18参照)があるとする。ここでoは文頭のサイレンスを表す。これを図19のモデルによりモデル化する。xとoi?1が独立と仮定されていることを考慮すると数式4は、数式5のように変形できる。
数式5において、Oと独立な項は省略している。このモデル化では境界i?1におけるポーズの確率は後続の境界oに依存するためするため、ポーズ情報系列決定部1209は、動的計画法(DP)を用いて確率最大となるポーズの系列を決定する。
また、数式5において、「P(xki|o)」は、属性情報確率情報を示す。また、「P(oi−1|o)」は、ポーズ情報確率情報を示す。「P(o)」は、最後境界ポーズ情報確率情報を示す。
なお、ポーズ情報系列決定部1209は、通常、MPUやメモリ等から実現され得る。ポーズ情報系列決定部1209の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、DPを用いた演算処理は、公知技術であるので、詳細な説明を省略する。
音声合成出力部1210は、ポーズ情報系列決定部1209が決定したポーズ情報に対応した無音区間を構成し、文受付部1203が受け付けた文を音声合成出力する。文(文字コード列)を音声合成し、音声出力する技術は公知技術である。また、ポーズの有無についての情報であるポーズ情報を参照し、「ポーズ有り」の場合はポーズを挿入(無音を挿入)し、音声合成する技術も公知技術であるので、詳細な説明を省略する。また、「無音区間を構成する」とは、例えば、文(文字コード列)に、無音を識別するコード(情報)を挿入することである。また、「無音区間を構成する」とは、音声出力の際に、無音の音声を示す情報を挿入することでも良い。音声合成出力部1210は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。音声合成出力部1210は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声処理システムの動作について説明する。まず、学習データ生成装置11の動作について、図2から図5のフローチャートを用いて説明する。
(ステップS201)音声受付部1102は、文の音声を受け付けたか否かを判断する。文の音声を受け付ければステップS202に行き、文の音声を受け付けなければステップS211に行く。
(ステップS202)境界決定部1103は、受け付けた文の音声に対応する文(文字コード列)を読み出す。
(ステップS203)境界決定部1103は、ステップS202で読み出した文を言語解析し、文節等の境界を得る。具体的には、例えば、境界決定部1103は、境界を識別する境界情報(例えば、文節の先頭のオフセットや、文節の先頭の文頭からの文字数等)を得る。また、ここで、境界決定部1103は、境界の数も取得する、とする。
(ステップS204)ポーズ情報取得部1105は、ステップS201で受け付けた音声に対して、音声処理し、音声と文(ステップS202で読み出した文)とのアライアメントをとる。
(ステップS205)ポーズ情報取得部1105は、カウンタiに1を代入する。
(ステップS206)ポーズ情報取得部1105は、変数Iに、ステップS203で得た境界の数を代入する。
(ステップS207)ポーズ情報取得部1105は、「i>I」を満たすか否かを判断する。「i>I」を満たせばステップS201に戻り、「i>I」を満たさなければステップS208に行く。
(ステップS208)ポーズ情報取得部1105は、i番目の境界のポーズ情報を取得する。ポーズ情報取得部1105は、例えば、i番目の境界に対応する音声が、所定長以上の無音区間を有すればポーズ有りと判断し、i番目の境界に対応する音声が無音区間を有さない、または所定長未満の無音区間しか有さなければポーズ無しと判断する。また、ポーズ情報取得部1105は、無音区間の長さにより、ロングポーズ、ショートポーズ、ポーズ無しの3段階に区分して、ポーズ情報を取得(決定)しても良い。
(ステップS209)第一属性情報取得部1104は、i番目の境界の1種類以上の属性情報を取得する。
(ステップS210)第一属性情報取得部1104は、カウンタiを1、インクリメントする。そして、ステップS207に戻る。
(ステップS211)音声受付部1102は、音声の受付を終了するか否かを判断する。例えば、ユーザの指示(例えば、所定のボタンが押下されるなど)により、音声の受付が終了した、と決定される。また、音声の受付の終了は、例えば、所定時間以上、音声を受け付けなかった場合に、音声の受付が終了した、と決定される。
(ステップS212)属性情報確率情報算出部1106は、ポーズ情報において、1種以上の属性情報が示す確率についての情報である属性情報確率情報を算出する。属性情報確率情報を算出する処理の詳細については、図3のフローチャートを用いて説明する。
(ステップS213)ポーズ情報確率情報算出部1107は、ポーズ情報取得部1105が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出する。ポーズ情報確率情報を算出する処理の詳細については、図4のフローチャートを用いて説明する。
(ステップS214)最後境界ポーズ情報確率情報算出部1108は、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出する。最後境界ポーズ情報確率情報を算出する処理の詳細については、図5のフローチャートを用いて説明する。
(ステップS215)ステップS212、ステップS213、ステップS214で算出した学習データ(属性情報確率情報、ポーズ情報確率情報、最後境界ポーズ情報確率情報)を、学習データ記憶部1101に記録する。そして、処理を終了する。
なお、図2のフローチャートにおいて、ステップS212、ステップS213、ステップS214の処理順序は問わない。
次に、ステップS212における属性情報確率情報を算出する処理の詳細について、図3のフローチャートを用いて説明する。
(ステップS301)属性情報確率情報算出部1106は、カウンタiに1を代入する。
(ステップS302)属性情報確率情報算出部1106は、i番目の種類の属性情報が存在するか否かを判断する。i番目の種類の属性情報が存在すればステップS303に行き、i番目の種類の属性情報が存在しなければ上位関数にリターンする。属性情報の種類は、例えば、以下の7種類である。つまり、1)着目する境界の係り受け距離、2)着目する境界の直前の境界である先行境界の係り受け距離、3)読点の有無を示す情報、4)着目する境界の直前の句が並列句であるか否かを示す情報、5)着目する境界の直前の句が同格句であるか否かを示す情報、6)着目する境界の直前の句のモーラ数、7)着目する境界の直後の句のモーラ数、である。
(ステップS303)属性情報確率情報算出部1106は、カウンタjに1を代入する。
(ステップS304)属性情報確率情報算出部1106は、j番目のポーズ情報(ポーズ情報の候補値)が存在するか否かを判断する。ポーズ情報が「ポーズ有り」「ポーズ無し」しか取り得ない場合、jは「2」までインクリメントされる。j番目のポーズ情報の候補値が存在すればステップS305に行き、j番目のポーズ情報の候補値が存在しなければステップS310に行く。なお、ポーズ情報の候補値または/およびポーズ情報の候補値の数は、予め属性情報確率情報算出部1106が保持している、とする。
(ステップS305)属性情報確率情報算出部1106は、カウンタkに1を代入する。
(ステップS306)属性情報確率情報算出部1106は、i番目の種類の属性情報のk番目の属性値(k番目の属性情報の値の候補値)が存在するか否かを判断する。存在すればステップS307に行き、存在しなければステップS309に行く。
(ステップS307)属性情報確率情報算出部1106は、P(k番目の属性情報の値|j番目のポーズ情報の値)を算出する。好ましくは、属性情報確率情報算出部1106は、属性情報が質的データである場合、上述したML推定やMAP推定によりP(k番目の属性情報の値|j番目のポーズ情報の値)を算出する。また、属性情報確率情報算出部1106は、属性情報が量的データである場合、上述した密度推定によりP(k番目の属性情報の値|j番目のポーズ情報の値)を算出する。密度推定は、例えば、上述したカーネル密度推定である。なお、属性情報確率情報算出部1106は、属性情報ごとに、質的データであるか、量的データであるかを識別する情報を保持している、とする。
(ステップS308)属性情報確率情報算出部1106は、カウンタkを1、インクリメントする。そして、ステップS306に戻る。
(ステップS309)属性情報確率情報算出部1106は、カウンタjを1、インクリメントする。そして、ステップS304に戻る。
(ステップS310)属性情報確率情報算出部1106は、カウンタiを1、インクリメントする。そして、ステップS302に戻る。
次に、ステップS213における、ポーズ情報確率情報を算出する処理の詳細について、図4のフローチャートを用いて説明する。
(ステップS401)ポーズ情報確率情報算出部1107は、カウンタiに1を代入する。
(ステップS402)ポーズ情報確率情報算出部1107は、i番目の種類のポーズ情報(ポーズ情報の候補値)が存在するか否かを判断する。i番目の種類のポーズ情報が存在すればステップS403に行き、存在しなければ上位関数にリターンする。なお、ポーズ情報の候補値の例として、「ポーズ有り」および「ポーズ無し」がある。
(ステップS403)ポーズ情報確率情報算出部1107は、カウンタjに1を代入する。
(ステップS404)ポーズ情報確率情報算出部1107は、j番目の種類のポーズ情報(ポーズ情報の候補値)が存在するか否かを判断する。j番目の種類のポーズ情報が存在すればステップS405に行き、存在しなければステップS407に行く。
(ステップS405)ポーズ情報確率情報算出部1107は、P(直前の境界がj番目のポーズ情報の値|一の境界がi番目のポーズ情報の値)を算出する。ここで、「直前の境界」とは、一の境界の直前の境界である。つまり、ポーズ情報確率情報算出部1107は、一の境界がi番目のポーズ情報の境界の数(x1とする)を算出する。そして、ポーズ情報確率情報算出部1107は、一の境界がi番目のポーズ情報であり、その直前の境界がj番目のポーズ情報である境界の数(x2とする)を算出する。そして、ポーズ情報確率情報算出部1107は、(x2/x1)を算出する。この(x2/x1)が、P(直前の境界がj番目のポーズ情報|一の境界がi番目のポーズ情報)である。
(ステップS406)ポーズ情報確率情報算出部1107は、カウンタjを1、インクリメントする。そして、ステップS404に戻る。
(ステップS407)ポーズ情報確率情報算出部1107は、カウンタiを1、インクリメントする。そして、ステップS402に戻る。
次に、ステップS214における最後境界ポーズ情報確率情報を算出する処理の詳細について、図5のフローチャートを用いて説明する。
(ステップS501)最後境界ポーズ情報確率情報算出部1108は、初期化の処理を行う。初期化とは、カウンタiに1を代入し、変数Nに文の数を代入することである。ここで、文の数とは、音声受付部1102が受け付けた文の数である。文の数は、音声受付部1102が取得しても良いし、境界決定部1103が読み出した文の数から取得しても良い。
(ステップS502)最後境界ポーズ情報確率情報算出部1108は、i番目の種類のポーズ情報(ポーズ情報の候補値)が存在するか否かを判断する。i番目の種類のポーズ情報(候補値)が存在すればステップS503に行き、i番目の種類のポーズ情報(候補値)が存在しなければ上位関数にリターンする。
(ステップS503)最後境界ポーズ情報確率情報算出部1108は、文の最後の境界のポーズ情報がj番目の種類のポーズ情報である数(xとする)を算出する。
(ステップS504)最後境界ポーズ情報確率情報算出部1108は、「x/N」を算出する。「x/N」が、i番目の種類のポーズ情報(候補値)に対応する最後境界ポーズ情報確率情報である。
(ステップS505)最後境界ポーズ情報確率情報算出部1108は、カウンタiを1、インクリメントし、ステップS502に戻る。
次に、音声合成装置12の動作について、図6、図7のフローチャートを用いて説明する。なお、図6のフローチャートにおいて、音声合成装置12の学習データ受付部1201は、学習データ生成装置11から属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を受け付け、学習データ格納部1202に学習データが格納されている、とする。音声合成装置12は、例えば、記録媒体を経由して、学習データ生成装置11が生成した学習データを受け付けても良い。
(ステップS601)文受付部1203は、文を受け付けたか否かを判断する。文を受け付ければステップS602に行き、文を受け付けなければステップS601に戻る。
(ステップS602)境界情報取得部1204は、ステップS601で受け付けた文を分割し(境界を取得し)、当該文の境界を識別する情報である境界情報を1以上取得する。
(ステップS603)第二属性情報取得部1205は、カウンタiに1を代入する。
(ステップS604)第二属性情報取得部1205は、受け付けた文中に、i番目の境界が存在するか否かを判断する。i番目の境界が存在するか否かは、例えば、ステップS602で取得した境界情報のうち、i番目の境界情報が存在するか否かにより判断する。i番目の境界が存在すればステップS605に行き、i番目の境界が存在しなければステップS608に行く。
(ステップS605)第二属性情報取得部1205は、i番目の境界に対応する全属性情報を取得する。全属性情報とは、例えば、上述した7種類の属性情報である。
(ステップS606)第二属性情報取得部1205は、ステップS605で取得した全属性情報を、メモリ等に一時格納する。
(ステップS607)第二属性情報取得部1205は、カウンタiを1、インクリメントする。そして、ステップS604に戻る。
(ステップS608)属性情報確率情報取得部1206は、属性情報確率情報を取得する。属性情報確率情報を取得する処理の詳細は、図7のフローチャートを用いて説明する。
(ステップS609)ポーズ情報確率情報取得部1207は、各境界についてのポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を学習データ格納部1202から読み出す。ポーズ情報が「ポーズ有り」「ポーズ無し」の場合、ポーズ情報確率情報取得部1207が取得するポーズ情報確率情報は、4種類である。4種類とは、P(直前の境界がポーズ有り|一の境界がポーズ有り)、P(直前の境界がポーズ無し|一の境界がポーズ有り)、P(直前の境界がポーズ有り|一の境界がポーズ無し)、P(直前の境界がポーズ無し|一の境界がポーズ無し)の4種類である。
(ステップS610)最後境界ポーズ情報確率情報取得部1208は、最後境界ポーズ情報確率情報を学習データ格納部1202から読み出す。ポーズ情報が「ポーズ有り」「ポーズ無し」の場合、最後境界ポーズ情報確率情報は、P(最後の境界のポーズ情報がポーズ有り)、およびP(最後の境界のポーズ情報がポーズ無し)の2種類である。
(ステップS611)ポーズ情報系列決定部1209は、属性情報確率情報取得部1206が取得した境界ごとの1以上の属性情報確率情報、ポーズ情報確率情報取得部1207が取得したポーズ情報確率情報、および最後境界ポーズ情報確率情報取得部1208が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定する。ポーズ情報の系列のデータ構造は問わない。ポーズ情報の系列は、例えば、ポーズ有りの境界を識別する1以上の境界情報でも良い。
(ステップS612)音声合成出力部1210は、ポーズ情報系列決定部1209が決定したポーズ情報に対応した無音区間を構成し、文受付部1203が受け付けた文を音声合成出力する。そして、処理を終了する。
なお、図6のフローチャートにおいて、受け付けた文中に、境界が1以上あるものとする。
次に、ステップS608の属性情報確率情報を取得する処理の詳細について、図7のフローチャートを用いて説明する。
(ステップS701)属性情報確率情報取得部1206は、カウンタiに1を代入する。
(ステップS702)属性情報確率情報取得部1206は、i番目の境界が存在するか否かを判断する。i番目の境界が存在すればステップS703に行き、i番目の境界が存在しなければ上位関数にリターンする。
(ステップS703)属性情報確率情報取得部1206は、カウンタjに1を代入する。
(ステップS704)属性情報確率情報取得部1206は、j番目の種類の属性情報が存在するか否かを判断する。j番目の種類の属性情報が存在すればステップS705に行き、j番目の種類の属性情報が存在しなければステップS712に行く。
(ステップS705)属性情報確率情報取得部1206は、カウンタkに1を代入する。
(ステップS706)属性情報確率情報取得部1206は、k番目のポーズ情報の候補値が存在するか否かを判断する。k番目のポーズ情報の候補値が存在すればステップS707に行き、k番目のポーズ情報の候補値が存在しなければステップS711に行く。
(ステップS707)属性情報確率情報取得部1206は、i番目の境界のj番目の種類の属性情報の値を取得する。かかる値は、ステップS605で取得されている。
(ステップS708)属性情報確率情報取得部1206は、P(属性情報の値|k番目のポーズ情報の値)を、学習データ格納部1202から検索し、取得する。
(ステップS709)属性情報確率情報取得部1206は、ステップS708で取得した確率情報(P(属性情報の値|k番目のポーズ情報の値))を、メモリ等に一時格納する。
(ステップS710)属性情報確率情報取得部1206は、カウンタkを1、インクリメントし、ステップS706に戻る。
(ステップS711)属性情報確率情報取得部1206は、カウンタjを1、インクリメントし、ステップS704に戻る。
(ステップS712)属性情報確率情報取得部1206は、カウンタiを1、インクリメントし、ステップS702に戻る。
以下、本実施の形態における音声処理システムの具体的な動作について説明する。
まず、学習データ生成装置11の動作について説明する。
今、図8に示す(A)から(D)の4つの文を、人が読み上げる、とする。文の区切りは、読み上げる人が、例えば、学習データ生成装置11が有するボタン(図示しない)を押下することにより指示しても良いし、複数の文を、連続して読み上げた後、人手により、文の区切りの情報を挿入しても良いし、所定時間長以上の無音区間を挿入することにより、学習データ生成装置11が文の区切りであると、自動判定しても良い。なお、本自動判定は、無音区間長を取得できれば良いので、公知技術により可能である。
また、本具体例において、ポーズ情報は、「ポーズ有り」「ポーズ無し」の2種類の情報が採りえる、とする。また、文の境界は、文節である、とする。そして、属性情報は、「読点の有無を示す情報」(適宜「読点の有無」という。)、および「並列句であるか否かを示す情報」(適宜「並列句であるか否か」という。)の2種類である、とする。
そして、学習データ生成装置11の音声受付部1102は、人が読み上げた音声を、文ごとに受け付ける。
次に、境界決定部1103は、図8に示す4つの文の情報(文字コード列)を読み出す。なお、4つの文の情報は、予め学習データ生成装置11の記録媒体に格納されている。そして、境界決定部1103は、各文を文節に区切り、各文節を示す境界情報を取得する。境界情報は、例えば、文の先頭からのバイト数である。このバイト数の情報は、文の先頭から文節の先頭のオフセットである。
そして、境界決定部1103は、図9に示すような境界を得る。図9において(1)から(16)が境界である。
次に、ポーズ情報取得部1105は、人が読み上げて、受け付けた音声を音声処理し、無音区間長を検知し、所定時間以上の無音区間の箇所をポーズがあった境界であると判断する。そして、ポーズ情報取得部1105は、図10に示す「○」の境界をポーズ有りの境界であると判断する。そして、ポーズ情報取得部1105は、各境界に対して、「ポーズ有り」の場合には「1」、ポーズ無しの場合には「0」を書き込む。そして、ポーズ情報取得部1105は、図11に示す第一境界情報管理表を得る。第一境界情報管理表は、「ID」「ポーズ情報」を有するレコードを複数有する。「ID」は、境界(レコード)を識別する情報であり、表におけるレコード管理のために存在する。「ポーズ情報」は、境界がポーズ有りか、ポーズ無しかを示す情報である。
次に、第一属性情報取得部1104は、各境界の属性情報を取得する。属性情報は、ここでは、「読点の有無を示す情報」、および「並列句であるか否かを示す情報」の2種類である。そして、第一属性情報取得部1104は、図12の第二境界情報管理表を得る。第二境界情報管理表は、「ID」「ポーズ情報」「読点の有無」「並列句であるか否か」の属性値を有するレコードを複数有する。「読点の有無」の属性値は、境界に読点がある場合に「1」、境界に読点がない場合に「0」となる。「並列句であるか否か」の属性値は、境界の前後の句が並列句である場合に「1」、境界の前後の句が並列句でない場合に「0」となる。なお、本音声合成装置12において、第一境界情報管理表と第二境界情報管理表は、一の表であることは好適である。
次に、属性情報確率情報算出部1106は、まず、各ポーズ情報において、属性情報「読点の有無」が示す確率についての情報である属性情報確率情報を算出する。つまり、属性情報確率情報算出部1106は、図12の表の情報から、(1)P(現在の境界に読点あり|現在の境界にポーズあり)、(2)P(現在の境界に読点なし|現在の境界にポーズあり)、(3)P(現在の境界に読点あり|現在の境界にポーズなし)、(4)P(現在の境界に読点なし|現在の境界にポーズなし)を算出する。なお、「P(現在の境界に読点あり|現在の境界にポーズあり)」とは、現在の境界(着目している境界)が「ポーズ有り」である場合の、現在の境界が「読点有り」である確率である。図12において、「ポーズ有り」(ポーズ情報が「1」)の境界は、(1)(4)(7)(8)(11)(13)(15)の7つである。また、上記7つの境界の中で、属性「読点の有無」の属性値が「1」(つまり、「読点有り」)のものは、(1)(7)(11)(15)の4つである。したがって、属性情報確率情報算出部1106は、「P(現在の境界に読点あり|現在の境界にポーズあり)=4/7」と算出する。同様に、図12の表の情報から、属性情報確率情報算出部1106は、「P(現在の境界に読点なし|現在の境界にポーズあり)=3/7」、「P(現在の境界に読点あり|現在の境界にポーズなし)=1/9」、「P(現在の境界に読点なし|現在の境界にポーズなし)=8/9」と算出する。
次に、属性情報確率情報算出部1106は、各ポーズ情報において、属性情報「並列句であるか否か」が示す確率についての情報である属性情報確率情報を算出する。つまり、属性情報確率情報算出部1106は、図12の表の情報から、(1)P(現在の境界は並列句である|現在の境界にポーズあり)、(2)P(現在の境界は並列句でない|現在の境界にポーズあり)、(3)P(現在の境界は並列句である|現在の境界にポーズなし)、(4)P(現在の境界は並列句でない|現在の境界にポーズなし)を算出する。図12において、「ポーズ有り」(ポーズ情報が「1」)の境界(IDが(1)(4)(7)(8)(11)(13)(15))の中で、属性「並列句であるか否か」の属性値が「1」(つまり、「並列句である」)のものは、(13)のみの1つであるので、属性情報確率情報算出部1106は、「P(現在の境界は並列句である|現在の境界にポーズあり)=1/7」と算出する。同様に、属性情報確率情報算出部1106は、「P(現在の境界は並列句でない|現在の境界にポーズあり)=6/7」、「P(現在の境界は並列句である|現在の境界にポーズなし)=2/9」、「P(現在の境界は並列句でない|現在の境界にポーズなし)=7/9」と算出する。
次に、ポーズ情報確率情報算出部1107は、ポーズ情報取得部1105が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出する。具体的には、ポーズ情報確率情報算出部1107は、図12の「ポーズ情報」の属性値を読み込み、現在の境界の「ポーズ情報」の属性値が「1」である「ポーズ有り」を(1)(4)(7)(8)(11)(13)(15)の7つであることを取得する。そして、ポーズ情報確率情報算出部1107は、7つの境界のうち、直前の境界が「ポーズ有り」である数を「3」(「ID」が(1)(8)(13))と取得する。なお、文の先頭は、サイレンスであり、常にポーズと見なす、とする。そして、ポーズ情報確率情報算出部1107は、「P(一つ前の境界にポーズあり|現在の境界にポーズあり)=3/7」を得る。同様に、ポーズ情報確率情報算出部1107は、「P(一つ前の境界にポーズなし|現在の境界にポーズあり)=4/7」、「P(一つ前の境界にポーズあり|現在の境界にポーズなし)=7/9」、「P(一つ前の境界にポーズなし|現在の境界にポーズなし)=2/9」を得る。
次に、最後境界ポーズ情報確率情報算出部1108は、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出する。具体的には、最後境界ポーズ情報確率情報算出部1108は、「P(文の最後の境界がポーズである)=1/4」、「P(文の最後の境界がポーズでない)=3/4」を得る。つまり、最後境界ポーズ情報確率情報算出部1108は、4つの文の最後の境界(「ID」が(2)(8)(12)(16))の属性値「ポーズ情報」を読み出し、「ID=8」の境界のみポーズ情報が「1」であることを取得する。最後境界ポーズ情報確率情報算出部1108は、「ID=2、12、16」の境界のポーズ情報が「0」であることを取得する。そして、最後境界ポーズ情報確率情報算出部1108は、「P(文の最後の境界がポーズである)=1/4」を得る。また、最後境界ポーズ情報確率情報算出部1108は、「P(文の最後の境界がポーズでない)=3/4」を得る。
そして、学習データ生成装置11は、学習データ記憶部1101に学習データを記録する。記録された学習データの例を図13に示す。
次に、音声合成装置12の具体的な動作について説明する。
まず、ユーザは、文「14日、中日と阪神の試合が行われた。」を入力する。
次に、文受付部1203は、文「14日、中日と阪神の試合が行われた。」を受け付ける。
次に、境界情報取得部1204は、受け付けた文「14日、中日と阪神の試合が行われた。」を文節に分割し、当該文の境界を識別する情報である境界情報を1以上取得する。その結果、境界情報取得部1204は、「14日、|中日と|阪神の|試合が|行われた。」を得る。なお、ここで、「|」は、文節の境界を示す。文「14日、中日と阪神の試合が行われた。」における4つの境界に対して(1)から(4)のIDを付与する、とする(図14参照)。
次に、第二属性情報取得部1205は、図14の4つの境界の読点の有無、並列句であるか否かを検出し、図15に示す属性情報管理表を得る。本属性情報管理表は、「ID」「読点の有無」「並列句であるか否か」の属性値を有するレコードを1以上保持している。なお、「読点の有無」「並列句であるか否か」の属性値を得る方法は、学習データ生成装置11と同様であり、従来技術(非特許文献2参照)により可能である。なお、「中日と」「阪神の」は、並列句である。
次に、属性情報確率情報取得部1206は、属性情報確率情報を取得する。具体的には、「ID=1」の境界は、「読点有り」「並列句でない」であるので、属性情報確率情報取得部1206は、「ID=1」の境界に対して、ポーズ情報が「ポーズ有り」の場合は、「P(現在の境界に読点あり|現在の境界にポーズあり)=4/7」および「P(現在の境界は並列句でない|現在の境界にポーズあり)=6/7」を学習データ(図13参照)から検索する。そして、属性情報確率情報取得部1206は、「(4/7)×(6/7)」を得る。また、属性情報確率情報取得部1206は、「ID=1」の境界に対して、ポーズ情報が「ポーズ無し」の場合は、「P(現在の境界に読点あり|現在の境界にポーズなし)=1/9」および「P(現在の境界は並列句でない|現在の境界にポーズなし)=7/9」を学習データから検索する。そして、属性情報確率情報取得部1206は、「(1/9)×(7/9)」を得る。
同様に、「ID=2」の境界は、「読点無し」「並列句である」であるので、属性情報確率情報取得部1206は、ポーズ情報が「ポーズ有り」の場合は、「P(現在の境界に読点なし|現在の境界にポーズあり)=3/7」および「P(現在の境界は並列句である|現在の境界にポーズなし)=1/7」を学習データ(図13参照)から検索する。そして、属性情報確率情報取得部1206は、「(3/7)×(1/7)」を得る。また、属性情報確率情報取得部1206は、「ID=2」の境界に対して、ポーズ情報が「ポーズ無し」の場合は、「P(現在の境界に読点なし|現在の境界にポーズなし)=8/9」および「P(現在の境界は並列句でない|現在の境界にポーズなし)=2/9」を学習データから検索する。そして、属性情報確率情報取得部1206は、「(8/9)×(2/9)」を得る。同様に、属性情報確率情報取得部1206は、「ID=3」の境界、「ID=4」の境界に対応する属性情報確率情報を算出する。そして、属性情報確率情報取得部1206は、図16に示す属性情報確率情報管理表を得る。
次に、ポーズ情報確率情報取得部1207は、各境界についてのポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を学習データ格納部1202から読み出す。読み出したポーズ情報確率情報は、「P(一つ前の境界にポーズあり|現在の境界にポーズあり)=3/7」「P(一つ前の境界にポーズなし|現在の境界にポーズあり)=4/7」「P(一つ前の境界にポーズあり|現在の境界にポーズなし)=7/9」「P(一つ前の境界にポーズなし|現在の境界にポーズなし)=2/9」である。なお、ポーズ情報確率情報は、状態の遷移確率とも言える。
次に、最後境界ポーズ情報確率情報取得部1208は、最後境界ポーズ情報確率情報を学習データ格納部1202から読み出す。読み出した最後境界ポーズ情報確率情報は、「P(文の最後の境界がポーズである)=1/4」「P(文の最後の境界がポーズでない)=3/4」である。なお、最後境界ポーズ情報確率情報は、DPでバックトラックする場合の初期確率と言える。
次に、ポーズ情報系列決定部1209は、属性情報確率情報取得部1206が取得した境界ごとの1以上の属性情報確率情報、ポーズ情報確率情報取得部1207が取得したポーズ情報確率情報、および最後境界ポーズ情報確率情報取得部1208が取得した最後境界ポーズ情報確率情報を用いて、確率が最大(積が最大)となるポーズ情報の系列を動的計画法により決定する。具体的には、図17に示すように、動的計画法(DP)を用いて、DP累積スコアをもとに、文章の前からバックトラックする事で、最適な系列を決定する。ここでは、太線の矢印がポーズ情報の系列である。つまり、本発明にかかる音声合成装置において、「o(ポーズ有り)、o(ポーズ有り)、o(ポーズ無し)、o(ポーズ有り)、o(ポーズ無し)」であった。なお、上述した従来技術(k−NN、決定木、NaiveBayes、SVMなどを利用した技術)では、「o(ポーズ有り)、o(ポーズ有り)、o(ポーズ無し)、o(ポーズ無し)、o(ポーズ無し)」となる。つまり、本発明において、前の状態(前の境界がポーズ有りか無しか)を考慮することにより、より好適なポーズ挿入が行えた。
そして、ポーズ情報系列決定部1209は、文節「14日、」と「中日と」の間、および文節「阪神の」と「試合が」の間にポーズを挿入することを得る。ここで、ポーズ情報の系列は、ポーズの位置を示す情報(例えば、「中日と」の「中」の先頭からのバイト数、および「試合が」の先頭からのバイト数など)だけでも良いし、図17に示す状態遷移図を表現するための情報でも良い。
そして、音声合成出力部1210は、ポーズ情報系列決定部1209が決定したポーズ情報に対応した無音区間を構成し、文受付部1203が受け付けた文を音声合成出力する。
なお、以下、本音声処理システムが有するポーズ予測装置を用いて、ポーズの位置を予測した場合の評価について述べる。本ポーズ予測装置は、属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を有する学習データを格納している学習データ格納部と、文を受け付ける文受付部と、前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、前記ポーズ情報系列決定部が決定したポーズ情報を出力する出力部を具備する。
また、本ポーズ予測装置の評価において、単純に境界毎に与えられた説明変数に基づいて、ポーズの位置を予測する従来技術との比較を行った。
本評価実験では文中の各境界におけるポーズの有無を一文単位で予測した。これらのポーズは文節境界に入ると仮定し、文節境界の属性情報(説明変数)xには,1)当該境界の係り受け距離(量的データ)、2)先行境界の係り受け距離(量的データ)、3)読点の有無(質的データ)、4)並列句であるか否か(質的データ)、5)同格句であるか否か(質的データ)、6)前の句のモーラ数(量的データ)、7)次の句のモーラ数(量的データ)を使用した。係り受け解析は、非特許文献2の従来技術を用いた。また、学習に用いた音声コーパスは男女2名(以下のF009(男性)、M007(女性))のナレータで構成され、各話者のそれぞれ51896文,28083文の音声データにラベリングしたものを入力の文として用いた。ポーズのラベリングは音声ファイルに対しHMMを用いて行った。学習に用いた音声コーパスに含まれるポーズの長さを平均モーラ長で規格化し、頻度分布として表したものを図20に示す。図20より、双峰分布となっていることが確認できる。
比較対象の従来技術は、NaiveBayes(正規分布)、NaiveBayes(カーネル密度推定)、決定木の3種類である。本ポーズ予測装置の評価結果を図21に示す。図21は、両話者の全データに対し「10−fold cross validation(「交差分割法」とも言う。)」で評価を行った結果で,表中の"ポーズあり"はポーズの予測精度を示している。また、図21中の(a)−(d)はそれぞれ正規分布を利用したNaiveBayes、カーネル密度推定を利用したNaiveBayes、本ポーズ予測装置、決定木による識別結果の再現率・適合率・F値を示している.この結果より,カーネル密度推定の利用,および文全体の確率をマルコフ過程により考慮することはポーズ挿入の予測精度を高めることがわかる。
以上、本実施の形態によれば、発話全体で最適なポーズの位置や種類が決定でき、そのためにより自然な音声合成出力が可能となる。
また、本実施の形態の学習データ生成装置によれば、受け付けた文に含まれる境界について、ポーズの有無別に、属性情報を取得し、ポーズの種類別および属性情報別に数を数える処理が、学習データを生成するための主たる処理であるので、非常に少ない計算量で、高速に学習データを得ることができる。
また、本実施の形態の音声合成装置によれば、少ない計算量でポーズ予測が可能となるため、例えば、リアルタイムの音声合成処理の前処理として極めて有効である。
なお、本実施の形態によれば、音声合成装置が有する上述のポーズ予測装置は、音声合成以外の処理にも適用可能である。音声合成以外の処理とは、例えば、入力した文の発音練習や、発音評価などである。
また、本実施の形態によれば、主として、7つの属性情報を説明したが、7つ以外の属性情報を用いても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における学習データ生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、1以上の文の音声を受け付ける音声受付ステップと、前記音声受付ステップで受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する境界決定ステップと、前記境界決定ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第一属性情報取得ステップと、前記音声受付ステップで受け付けた音声から無音区間を検知し、前記無音区間の長さに基づいて、前記境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得するポーズ情報取得ステップと、前記ポーズ情報において、前記1種以上の属性情報が示す確率についての情報である属性情報確率情報を算出し、記憶部に記録する属性情報確率情報算出ステップと、前記ポーズ情報取得ステップで取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、記憶部に記録するポーズ情報確率情報算出ステップと、最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、記憶部に記録する最後境界ポーズ情報確率情報算出ステップを実行させるためのプログラム、である。
また、音声合成装置を実現するプログラムは、コンピュータに、文を受け付ける文受付ステップと、前記文受付ステップで受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得ステップと、前記境界情報取得ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得ステップと、前記境界ごとに前記第二属性情報取得ステップで取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を、格納している学習データから取得する属性情報確率情報取得ステップと、前記境界情報取得ステップで取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を、前記学習データから取得するポーズ情報確率情報取得ステップと、前記最後境界ポーズ情報確率情報を前記学習データから取得する最後境界ポーズ情報確率情報取得ステップと、前記属性情報確率情報取得ステップで取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得ステップで取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得ステップで取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定ステップと、前記ポーズ情報系列決定ステップで決定したポーズ情報に対応した無音区間を構成し、前記文受付ステップが受け付けた文を音声合成出力する音声合成出力ステップを実行させるためのプログラム、である。
また、ポーズ予測装置を実現するプログラムは、コンピュータに、文を受け付ける文受付ステップと、前記文受付ステップで受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得ステップと、前記境界情報取得ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得ステップと、前記境界ごとに前記第二属性情報取得ステップで取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を、格納している学習データから取得する属性情報確率情報取得ステップと、前記境界情報取得ステップで取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データから取得するポーズ情報確率情報取得ステップと、前記最後境界ポーズ情報確率情報を前記学習データから取得する最後境界ポーズ情報確率情報取得ステップと、前記属性情報確率情報取得ステップで取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得ステップで取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得ステップで取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定ステップと、前記ポーズ情報系列決定ステップで決定したポーズ情報を出力する出力ステップを実行させるためのプログラム、である。なお、出力ステップにおける出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、図22は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図22は、このコンピュータシステム160の概観図であり、図23は、システム160のブロック図である。
図11において、コンピュータシステム160は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ161と、キーボード162と、マウス163と、モニタ164と、マイク165と、スピーカー166とを含む。
図12において、コンピュータ161は、FDドライブ1611、CD−ROMドライブ1612に加えて、CPU(Central Processing Unit)1613と、CPU1613、CD−ROMドライブ1612及びFDドライブ1611に接続されたバス1614と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)1615と、CPU1613に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)1616と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク1617とを含む。ここでは、図示しないが、コンピュータ161は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム160に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM1701、またはFD1702に記憶されて、CD−ROMドライブ1612またはFDドライブ1611に挿入され、さらにハードディスク1617に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ161に送信され、ハードディスク1617に記憶されても良い。プログラムは実行の際にRAM1616にロードされる。プログラムは、CD−ROM1701、FD1702またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ161に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム160がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音声処理システムは、自然な音声合成出力が可能となる、という効果を有し、音声合成システム等として有用である。
実施の形態1における音声処理システムのブロック図 同学習データ生成装置の動作について説明するフローチャート 同属性情報確率情報算出処理について説明するフローチャート 同ポーズ情報確率情報算出処理について説明するフローチャート 同最後境界ポーズ情報確率情報算出処理について説明するフローチャート 同音声合成装置の動作について説明するフローチャート 同属性情報確率情報取得処理について説明するフローチャート 同受け付ける文を示す図 同文を境界に区切った場合の例を示す図 同ポーズ情報取得部が取得したポーズの位置を説明する図 同第一境界情報管理表を示す図 同第二境界情報管理表を示す図 同記録された学習データの例を示す図 同入力された文と境界に区分された例を示す図 同属性情報管理表を示す図 同属性情報確率情報管理表を示す図 同動的計画法(DP)を用いて最適な系列を決定する処理を説明する図 同一次マルコフ過程のモデルを示す図 同本音声処理システムで用いるモデルを説明する図 同ポーズ長の頻度分布を示す図 同本ポーズ予測装置の処理の評価結果を示す図 同音声装置システムを構成する装置を示す図 同装置のブロック図
符号の説明
11 学習データ生成装置
12 音声合成装置
1101 学習データ記憶部
1102 音声受付部
1103 境界決定部
1104 第一属性情報取得部
1105 ポーズ情報取得部
1106 属性情報確率情報算出部
1107 ポーズ情報確率情報算出部
1108 最後境界ポーズ情報確率情報算出部
1201 学習データ受付部
1202 学習データ格納部
1203 文受付部
1204 境界情報取得部
1205 第二属性情報取得部
1206 属性情報確率情報取得部
1207 ポーズ情報確率情報取得部
1208 最後境界ポーズ情報確率情報取得部
1209 ポーズ情報系列決定部
1210 音声合成出力部

Claims (6)

  1. 情報が記憶される学習データ記憶部と、
    1以上の文の音声を受け付ける音声受付部と、
    前記音声受付部が受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する境界決定部と、
    前記境界決定部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第一属性情報取得部と、
    前記音声受付部が受け付けた音声から無音区間を検知し、前記無音区間の長さに基づいて、前記境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得するポーズ情報取得部と、
    前記ポーズ情報において、前記1種以上の属性情報が現われる確率についての情報である属性情報確率情報を算出し、前記学習データ記憶部に記録する属性情報確率情報算出部と、
    前記ポーズ情報取得部が取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、前記学習データ記憶部に記録するポーズ情報確率情報算出部と、
    最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、前記学習データ記憶部に記録する最後境界ポーズ情報確率情報算出部を具備する学習データ生成装置。
  2. 属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を有する学習データを格納している学習データ格納部と、
    文を受け付ける文受付部と、
    前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、
    前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、
    前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、
    前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、
    前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、
    前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、
    前記ポーズ情報系列決定部が決定したポーズ情報に対応した無音区間を構成し、前記文受付部が受け付けた文を音声合成出力する音声合成出力部を具備する音声合成装置。
  3. 属性情報確率情報とポーズ情報確率情報と最後境界ポーズ情報確率情報を有する学習データを格納している学習データ格納部と、
    文を受け付ける文受付部と、
    前記文受付部が受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得部と、
    前記境界情報取得部が取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得部と、
    前記境界ごとに前記第二属性情報取得部が取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を前記学習データ格納部から取得する属性情報確率情報取得部と、
    前記境界情報取得部が取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データ格納部から取得するポーズ情報確率情報取得部と、
    前記最後境界ポーズ情報確率情報を前記学習データ格納部から取得する最後境界ポーズ情報確率情報取得部と、
    前記属性情報確率情報取得部が取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得部が取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得部が取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定部と、
    前記ポーズ情報系列決定部が決定したポーズ情報を出力する出力部を具備するポーズ予測装置。
  4. コンピュータに、
    1以上の文の音声を受け付ける音声受付ステップと、
    前記音声受付ステップで受け付けた音声の境界を検出し、当該境界を識別する情報である境界情報を、文ごとに取得する境界決定ステップと、
    前記境界決定ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第一属性情報取得ステップと、
    前記音声受付ステップで受け付けた音声から無音区間を検知し、前記無音区間の長さに基づいて、前記境界のポーズの種類についての情報であるポーズ情報を境界ごとに取得するポーズ情報取得ステップと、
    前記ポーズ情報において、前記1種以上の属性情報が現われる確率についての情報である属性情報確率情報を算出し、記憶部に記録する属性情報確率情報算出ステップと、
    前記ポーズ情報取得ステップで取得した各境界についてのポーズ情報に基づいて、隣り合う2つの境界についての2つのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を算出し、記憶部に記録するポーズ情報確率情報算出ステップと、
    最後の境界における各ポーズ情報の確率についての情報である最後境界ポーズ情報確率情報を算出し、記憶部に記録する最後境界ポーズ情報確率情報算出ステップを実行させるためのプログラム。
  5. コンピュータに、
    文を受け付ける文受付ステップと、
    前記文受付ステップで受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得ステップと、
    前記境界情報取得ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得ステップと、
    前記境界ごとに前記第二属性情報取得ステップで取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を、格納している学習データから取得する属性情報確率情報取得ステップと、
    前記境界情報取得ステップで取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を、前記学習データから取得するポーズ情報確率情報取得ステップと、
    前記最後境界ポーズ情報確率情報を前記学習データから取得する最後境界ポーズ情報確率情報取得ステップと、
    前記属性情報確率情報取得ステップで取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得ステップで取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得ステップで取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定ステップと、
    前記ポーズ情報系列決定ステップで決定したポーズ情報に対応した無音区間を構成し、前記文受付ステップが受け付けた文を音声合成出力する音声合成出力ステップを実行させるためのプログラム。
  6. コンピュータに、
    文を受け付ける文受付ステップと、
    前記文受付ステップで受け付けた文を分割し、当該文の境界を識別する情報である境界情報を1以上取得する境界情報取得ステップと、
    前記境界情報取得ステップで取得した1以上の境界情報が示す各境界の1種以上の属性情報を取得する第二属性情報取得ステップと、
    前記境界ごとに前記第二属性情報取得ステップで取得した1種以上の各属性情報に対応する1以上の属性情報確率情報を、格納している学習データから取得する属性情報確率情報取得ステップと、
    前記境界情報取得ステップで取得した1以上の境界情報が示す各境界について、ポーズ情報と当該各境界の前の境界についてのポーズ情報が連続する確率についての情報であるポーズ情報確率情報を前記学習データから取得するポーズ情報確率情報取得ステップと、
    前記最後境界ポーズ情報確率情報を前記学習データから取得する最後境界ポーズ情報確率情報取得ステップと、
    前記属性情報確率情報取得ステップで取得した前記境界ごとの1以上の属性情報確率情報、前記ポーズ情報確率情報取得ステップで取得したポーズ情報確率情報、および前記最後境界ポーズ情報確率情報取得ステップで取得した最後境界ポーズ情報確率情報を用いて、確率が最大となるポーズ情報の系列を動的計画法により決定するポーズ情報系列決定ステップと、
    前記ポーズ情報系列決定ステップで決定したポーズ情報を出力する出力ステップを実行させるためのプログラム。
JP2005269624A 2005-09-16 2005-09-16 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム Active JP4621936B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005269624A JP4621936B2 (ja) 2005-09-16 2005-09-16 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005269624A JP4621936B2 (ja) 2005-09-16 2005-09-16 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2007079351A true JP2007079351A (ja) 2007-03-29
JP4621936B2 JP4621936B2 (ja) 2011-02-02

Family

ID=37939697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005269624A Active JP4621936B2 (ja) 2005-09-16 2005-09-16 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4621936B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014219635A (ja) * 2013-05-10 2014-11-20 日本電信電話株式会社 ポーズ付与装置とその方法とプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075584A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
JP2002287785A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP2002311982A (ja) * 2001-04-19 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2003015680A (ja) * 2001-07-03 2003-01-17 Nec Corp 音声合成システム、音声合成方法および音声合成用プログラム
JP2003084787A (ja) * 2001-09-10 2003-03-19 Oki Electric Ind Co Ltd 規則音声合成装置
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075584A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
JP2002287785A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP2002311982A (ja) * 2001-04-19 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2003015680A (ja) * 2001-07-03 2003-01-17 Nec Corp 音声合成システム、音声合成方法および音声合成用プログラム
JP2003084787A (ja) * 2001-09-10 2003-03-19 Oki Electric Ind Co Ltd 規則音声合成装置
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014219635A (ja) * 2013-05-10 2014-11-20 日本電信電話株式会社 ポーズ付与装置とその方法とプログラム

Also Published As

Publication number Publication date
JP4621936B2 (ja) 2011-02-02

Similar Documents

Publication Publication Date Title
JP4114888B2 (ja) 声質変化箇所特定装置
US8595004B2 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
KR100305455B1 (ko) 연속 음성 인식시에 구두점들을 자동으로 발생시키기 위한 장치및 방법
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US20080059190A1 (en) Speech unit selection using HMM acoustic models
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN107610693B (zh) 文本语料库的构建方法和装置
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Shafran et al. A comparison of classifiers for detecting emotion from speech
JP4859125B2 (ja) 発音評定装置、およびプログラム
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4716125B2 (ja) 発音評定装置、およびプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP2007017911A (ja) 音声認識装置及び音声認識プログラム
JP2006201491A (ja) 発音評定装置、およびプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP2009282330A (ja) 音声認識及び合成システム、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101012

R150 Certificate of patent or registration of utility model

Ref document number: 4621936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250