JP2018169434A

JP2018169434A - 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム

Info

Publication number: JP2018169434A
Application number: JP2017064652A
Authority: JP
Inventors: 高橋　潤; Jun Takahashi; 潤高橋; 村瀬　健太郎; Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2018-11-01
Anticipated expiration: 2037-03-29
Also published as: JP6790959B2

Abstract

【課題】ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与できる音声合成装置を提供する。【解決手段】音声合成装置は、ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、そのテキストデータを形態素の組み合わせに分割するテキスト解析部１１と、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する抽出部１２と、ルビが振られた語句に含まれる形態素について、その形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部１３と、ルビが振られた語句に含まれる形態素が複合語を形成する場合、複合語全体としてアクセントを付与するアクセント付与部１４とを有する。【選択図】図２

Description

本発明は、例えば、テキストデータから合成音声信号を生成するために用いられる表音文字列を生成する音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラムに関する。

入力されたテキストデータを読み込んで、そのテキストデータに対応する音声波形を表す合成音声信号を自動合成する音声合成技術が研究されている。この音声合成技術は、例えば、ウェブサイトなどに載せられたニュース記事などのテキストデータを、合成された音声（以下、単に合成音声と呼ぶ）として出力する、いわゆる、読み上げアプリケーションなどで利用される。

テキストデータの読み上げにおいて、ユーザにとって違和感のない合成音声が再生されるようにするためには、テキストデータを正確に読めること、及び、合成音声に適切なアクセントが付与されることが重要となる。そこで、ルビが振られたテキストデータが入力された場合に、ルビ相当文字列の読みと直前の文字列の読みが一致しない場合、直前の文字列とルビ相当文字列を含むテキストデータ合成音を生成する技術が提案されている（例えば、特許文献１を参照）。

特開２００５−３０９３２７号公報

日本語では、複数の形態素から形成される複合語におけるアクセントの位置が、それら形態素のそれぞれのアクセントの位置から変化することがある。このようなアクセントの位置の変化はアクセント結合と呼ばれる。従来技術では、このようなアクセント結合が想定されていないため、ルビが振られた文字列が複合語に含まれる場合において、合成音声信号に付与されるアクセントの位置が不適切となることがある。

一つの側面として、本発明は、ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与できる音声合成装置を提供することを目的とする。

一つの実施形態によれば、音声合成装置が提供される。この音声合成装置は、ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、そのテキストデータを形態素の組み合わせに分割するテキスト解析部と、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する抽出部と、ルビが振られた語句に含まれる形態素について、その形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部と、ルビが振られた語句に含まれる形態素が複合語を形成する場合、複合語全体としてアクセントを付与するアクセント付与部とを有する。

ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与することができる。

音声合成装置の概略構成図である。音声合成装置が有する処理部の機能ブロック図である。形態素解析の一例を示す図である。言語辞書に登録されている複合語の一例を示す図である。言語辞書に複合語を登録するために利用される参照テーブルの一例を示す図である。アクセント付与処理の動作フローチャートである。音声合成処理の動作フローチャートである。本実施形態による処理結果の一例を示す図である。変形例による、音声合成装置が実装されるクライアントサーバシステムの概略構成図である。

以下、図を参照しつつ、音声合成装置について説明する。
この音声合成装置は、入力された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、ルビが振られた形態素を抽出する。そしてこの音声合成装置は、抽出した、ルビが振られた形態素と、その前後の形態素とで複合語が形成されるか否かを判定し、複合語が形成される場合、言語辞書から、その複合語のアクセントを検索して利用する。また、この音声合成装置は、ルビが振られた形態素を含む複合語が形成されない場合には、そのルビが振られた形態素に対応するアクセントを、言語辞書から検索する。これにより、この音声合成装置は、ルビが振られた語句を含むテキストデータについて生成される合成音声信号に適切なアクセントを付与することができる。

図１は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置１は、操作部２と、表示部３と、通信インターフェース部４と、記憶部５と、処理部６と、音声出力部７とを有する。音声合成装置１は、例えば、携帯電話機あるいはいわゆるタブレットコンピュータといった携帯機器、デスクトップコンピュータ、あるいはウェブサーバなどとすることができる。

操作部２は、例えば、キーボードと、マウスといったポインティングデバイスとを有する。そして操作部２は、例えば、ユーザによる操作に従って、記憶部５に保存されているテキストデータの中から、音声合成の対象となるテキストデータを指定し、その指定されたテキストデータを指定する信号を処理部６へ渡す。本実施形態では、音声合成の対象となるテキストデータは、ルビが振られた語句を含む。ただし、音声合成の対象となるテキストデータが、ルビが振られた語句を含まない場合も、この音声合成装置は、そのテキストデータについての合成音声信号を生成できる。

表示部３は、液晶ディスプレイといった表示装置を有する。そして表示部３は、検出された同義語などを表示する。なお、操作部２と表示部３とは、タッチパネルディスプレイとして一体的に形成されてもよい。

通信インターフェース部４は、音声合成装置１を通信ネットワークに接続するためのインターフェース回路を有し、通信ネットワークを介して様々な情報を取得する。例えば、通信インターフェース部４は、音声合成対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワークを介して音声合成装置１と接続された他の機器から取得する。

また、通信インターフェース部４は、処理部６から受け取った、音声合成対象となるテキストデータについて生成された合成音声信号を、通信ネットワークを介して音声合成装置１と接続された他の機器へ出力してもよい。あるいは、通信インターフェース部４は、そのテキストデータに対する読み及びアクセントの位置など、合成音声信号を生成するための情報が付与された表音文字列を、通信ネットワークを介して音声合成装置１と接続された他の機器へ出力してもよい。

記憶部５は、例えば、不揮発性の読み出し専用の半導体メモリ、及び、揮発性の読み書き可能な半導体メモリといった半導体メモリ回路を有する。記憶部５は、磁気記憶装置または光記憶装置をさらに有してもよい。そして記憶部５は、処理部６で用いられる各種コンピュータプログラム、音声合成処理に用いられる各種のデータを記憶する。
記憶部５は、音声合成処理に用いられるデータとして、例えば、各形態素及び各複合語の読み、アクセント及び品詞情報を表す言語辞書、形態素間の接続コストを表す接続規則、及び、複合語の生成規則などを記憶する。

処理部６は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部６は、操作部２を介して指定されたテキストデータに対して音声合成処理を実行する。なお、音声合成処理の詳細については後述する。

音声出力部７は、例えば、スピーカを有し、テキストデータに対して生成された合成音声信号を音声（すなわち、合成音声）として出力する。

図２は、処理部６の機能ブロック図である。処理部６は、テキスト解析部１１と、抽出部１２と、結合判定部１３と、アクセント付与部１４と、音声合成部１５とを有する。
処理部６が有するこれらの各部は、例えば、処理部６が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部６が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路として、処理部６が有するプロセッサとは別個に、音声合成装置１に実装されてもよい。

テキスト解析部１１は、操作部２を介して指定された、音声合成対象となる、ルビが振られた語句を含むテキストデータに対して形態素解析を実行して、そのテキストデータを形態素の組み合わせに分割する。なお、音声合成対象となるテキストデータは、例えば、ルビを含む文字列を記述することが可能な様々なフォーマットの何れかに従ったデータとすることができる。

本実施形態では、テキスト解析部１１は、テキストデータに対して、例えば、言語辞書を参照して形態素解析を実行することにより、そのテキストデータを形態素ごとに分割したときの取り得る全ての形態素の組み合わせを求める。そしてテキスト解析部１１は、形態素の組み合わせのそれぞれに対して、その組み合わせの確からしさを表す評価値を算出する。その際、テキスト解析部１１は、着目する形態素の組み合わせについて、その組み合わせに含まれる連続する形態素のそれぞれについて、その連続する形態素間に適用される接続規則を参照して、その連続する形態素間のコストを求める。そしてテキスト解析部１１は、着目する形態素の組み合わせに含まれる連続する形態素のそれぞれについて求められたコストの合計を、その着目する形態素の組み合わせに対する評価値とする。そしてテキスト解析部１１は、得られた形態素の組み合わせのうち、評価値が最小となる組み合わせを、そのテキストデータに対する形態素解析結果として選択する。なお、テキスト解析部１１は、評価値が最小となる形態素の組み合わせを特定するために、ビタビアルゴリズムといった動的計画法による手法を利用することで、評価値の算出に要する演算量を削減してもよい。

図３は、形態素解析の一例を示す図である。この例では、「今日は晴れ」とのテキストデータ３００が入力される。テキストデータ３００に対して、言語辞書３０１を参照した形態素解析が行われることにより、取り得る形態素の組み合わせを表すラティス構造３０２が得られる。このラティス構造３０２において、個々のブロック３０３は、一つの形態素を表し、個々の矢印３０４は、形態素間で可能な接続を表す。そして形態素の組み合わせごとに評価値が算出され、その評価値が最小となる形態素の組み合わせとして、「今日」（名詞）、は（助詞）、「晴れ」（名詞）の組が得られる。

なお、テキスト解析部１１は、上記以外の様々な形態素解析手法の何れかにしたがって、音声合成の対象となるテキストデータを形態素の組み合わせに分割してもよい。

テキスト解析部１１は、特定した形態素の組み合わせに含まれる各形態素の読み及び品詞と各形態素の並び順とを、抽出部１２、結合判定部１３及びアクセント付与部１４へ通知する。

抽出部１２は、テキストデータについて特定された形態素の組み合わせにおいて、ルビに対応する形態素を抽出する。例えば、抽出部１２は、特定された形態素の組み合わせに含まれる形態素のそれぞれについて、その形態素を含む、元のテキストデータの語句にルビが振られているか否かを判定する。そして抽出部１２は、形態素を含む語句にルビが振られていれば、その形態素を、ルビに対応する形態素とし、一方、形態素を含む語句にルビが振られていなければ、その形態素を、ルビに対応しない形態素とする。
抽出部１２は、ルビに対応する形態素のそれぞれを、結合判定部１３へ通知する。

結合判定部１３は、ルビに対応する形態素のそれぞれについて、複合語に含まれるか否かを判定する。そのために、結合判定部１３は、ルビに対応する形態素の品詞と、その形態素の前または後ろの形態素の品詞との関係が、複合語の生成規則に表される、複合語となる品詞の関係を満たすか否かを判定する。そして結合判定部１３は、ルビに対応する形態素の品詞と、その前または後ろの形態素の品詞との関係が、複合語となる品詞の関係を満たす場合、ルビに対応する形態素と、その前または後ろの形態素とを、一つの複合語とする。一方、ルビに対応する形態素の品詞と、その前及び後ろの何れの形態素の品詞との関係も、複合語となる品詞の関係を満たさない場合、結合判定部１３は、ルビに対応する形態素は複合語を形成しないと判定する。

なお、複合語の生成規則に表される、複合語となる品詞の関係は、例えば、接頭語＋名詞、名詞＋接尾語、名詞＋名詞の何れかとすることができる。

結合判定部１３は、ルビに対応する形態素のそれぞれについて、複合語を形成するか否かの判定結果と、複合語を形成する形態素について、その形態素を含む複合語とを、アクセント付与部１４へ通知する。

アクセント付与部１４は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとにアクセントを付与する。その際、アクセント付与部１４は、ルビに対応する形態素について、その形態素が複合語を形成し、かつ、その複合語が言語辞書に登録されている場合には、複合語全体について、言語辞書に登録されているその複合語のアクセントを付与する。例えば、アクセント付与部１４は、着目する複合語の表記及びルビを参照して特定される読みと一致する表記及び読みを持つ複合語を言語辞書から検索し、その一致する表記及び読みに対応するアクセントを、その着目する複合語に付与すればよい。

図４は、言語辞書に登録されている複合語の一例を示す図である。言語辞書４００は、複合語の表記ごとに、その表記に対応する読みとアクセントの位置を表す表音文字列と、複合語の品詞とを含む。例えば、複合語「日本橋駅」に対して、二つの表音文字列「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が対応付けられており、何れの読みの場合も、「シ」の音にアクセントがあることが示されている。なお、アクセントの位置は、記号「‘」で示されている。また、複合語「日本橋駅」の品詞が名詞であることが示されている。したがって、例えば、テキストデータについて特定された形態素の組み合わせに、複合語「日本橋駅」が含まれており、かつ、その読みが「ニッポンバシエキ」であるとする。この場合、アクセント付与部１４は、言語辞書４００を参照することで、その複合語「日本橋駅」に対して、「シ」の音にアクセントを付与することができる。

なお、複合語の読み及びアクセントは、複合語を形成可能な形態素ごとに、その形態素に適用されるアクセント結合規則を表した参照テーブルを利用して予め決定され、言語辞書に登録される。なお、複合語以外の形態素が登録される言語辞書に複合語が追加的に登録されてもよく、あるいは、複合語以外の形態素が登録される言語辞書とは別個に、複合語が登録される言語辞書が用意され、記憶部５に保存されてもよい。

図５は、言語辞書に複合語を登録するために利用される参照テーブルの一例を示す図である。参照テーブル５００は、複合語を形成可能な形態素ごとに、その形態素の表記と、読みと、アクセントの位置と、品詞と、アクセント結合の様式とを表す。例えば、形態素「手続」に関して、読みが「テツヅキ」であり、アクセントが「ツ」にあり、品詞が名詞であり、結合様式がC1であることが示されている。

なお、この例では、結合様式として、非特許文献１（匂坂芳典、佐藤大和、「日本語単語連鎖のアクセント規則」、電子情報通信学会論文誌 D、Vol.J66-D、No.7、pp.849-856, July 1983）を参考にして、C1〜C5の５種類の結合様式が示されている。以下、結合において前の形態素を「先行語」、後ろの形態素を「後続語」として説明する。
結合様式C1は、先行語のアクセントが無くなることを表す。例えば、形態素「転居（テ‘ンキョ）」と形態素「手続（テツ‘ヅキ）」を結合することにより複合語「転居手続」が形成される場合、その複合語の読み及びアクセントは「テンキョテツ‘ヅキ」となる。

結合様式C2は、先行語のアクセントが無くなり、後続語の先頭にアクセントが位置することを表す。例えば、形態素「天気（テ‘ンキ）」と形態素「予報（ヨホー）」を結合することにより複合語「天気予報」が形成される場合、その複合語の読み及びアクセントは「テンキヨ‘ホー」となる。

結合様式C3は、先行語の末尾にアクセントが位置することを表す。例えば、形態素「品川（シナガワ）」と形態素「駅（エキ）」を結合することにより複合語「品川駅」が形成される場合、その複合語の読み及びアクセントは「シナガワ‘エキ」となる。

結合様式C4は、アクセントが無くなることを表す。例えば、形態素「利尻（リ‘シリ）」と形態素「島（トー）」を結合することにより複合語「利尻島」が形成される場合、その複合語の読み及びアクセントは「リシリトー」となる。

結合様式C5は、後続語のアクセントが無くなることを表す。例えば、形態素「佐藤（サ‘トー）」と形態素「殿（ド‘ノ）」を結合することにより複合語「佐藤殿」が形成される場合、その複合語の読み及びアクセントは「サ‘トードノ」となる。

図６は、アクセント付与部１４により実行されるアクセント付与処理の動作フローチャートである。アクセント付与部１４は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとに、下記の動作フローチャートに従ってアクセントを付与する。

アクセント付与部１４は、着目する形態素がルビが振られた語句に含まれる形態素か否か判定する（ステップＳ１０１）。着目する形態素がルビが振られた語句に含まれなければ（ステップＳ１０１−Ｎｏ）、アクセント付与部１４は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する（ステップＳ１０２）。

一方、着目する形態素がルビが振られた語句に含まれていれば（ステップＳ１０１−Ｙｅｓ）、アクセント付与部１４は、着目する形態素が複合語に含まれる形態素か否か判定する（ステップＳ１０３）。着目する形態素が複合語に含まれれば（ステップＳ１０３−Ｙｅｓ）、アクセント付与部１４は、着目する形態素を含む複合語が言語辞書に登録されているか否か判定する（ステップＳ１０４）。

着目する形態素を含む複合語が言語辞書に登録されていれば（ステップＳ１０４−Ｙｅｓ）、アクセント付与部１４は、言語辞書を参照して、その複合語に、言語辞書に登録されているその複合語のアクセントを付与する（ステップＳ１０５）。一方、着目する形態素を含む複合語が言語辞書に登録されていなければ（ステップＳ１０４−Ｎｏ）、アクセント付与部１４は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されているか否か判定する（ステップＳ１０６）。その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されている場合（ステップＳ１０６−Ｙｅｓ）、アクセント付与部１４は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを特定する。そしてアクセント付与部１４は、その特定したアクセントをその複合語に付与する（ステップＳ１０７）。なお、そのような他の語が言語辞書に複数登録されている場合、アクセント付与部１４は、それら複数の他の語のアクセントのうち、最頻出となるアクセントを、その複合語に付与してもよい。

一方、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されていない場合（ステップＳ１０６−Ｎｏ）、アクセント付与部１４は、着目する形態素が言語辞書に登録されているか否か判定する（ステップＳ１０８）。また、ステップＳ１０３にて、着目する形態素が複合語に含まれない場合（ステップＳ１０３−Ｎｏ）も、アクセント付与部１４は、着目する形態素が言語辞書に登録されているか否か判定する（ステップＳ１０８）。

着目する形態素が言語辞書に登録されていれば（ステップＳ１０８−Ｙｅｓ）、アクセント付与部１４は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する（ステップＳ１０９）。一方、着目する形態素が言語辞書に登録されていなければ（ステップＳ１０８−Ｎｏ）、アクセント付与部１４は、着目する形態素にデフォルトのアクセントを付与する（ステップＳ１１０）。なお、デフォルトのアクセントは、例えば、アクセント無しとすることができる。

ステップＳ１０２、Ｓ１０５、Ｓ１０７、Ｓ１０９またはＳ１１０の後、アクセント付与部１４は、アクセント付与処理を終了する。なお、変形例によれば、ステップＳ１０６及びＳ１０７の処理は省略されてもよい。この場合には、ステップＳ１０４にて複合語が言語辞書に登録されていない場合、アクセント付与部１４は、ステップＳ１０８以降の処理を実行すればよい。

アクセント付与部１４は、テキストデータについて特定された形態素の組み合わせに含まれる各形態素にアクセントを付与する。そしてアクセント付与部１４は、形態素の並び順に従って、各形態素の読み及びアクセントの位置を表す表音文字列を並べることで、テキストデータ全体の読み及びアクセントの位置を表す表音文字列を作成する。そしてアクセント付与部１４は、そのテキストデータの表音文字列を音声合成部１５へ出力する。

音声合成部１５は、テキストデータの表音文字列に基づいて、テキストデータの音声波形を表す合成音声信号を生成する。
音声合成部１５は、様々な音声合成方式の何れに従ってテキストデータの合成音声信号を生成してもよい。例えば、音声合成部１５は、表音文字列に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部１５は、記憶部５から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部１５は、複数の韻律モデルのうち、表音文字列に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部１５は、選択した韻律モデル及び合成音声信号を生成するために参照される各種のパラメータに従って、表音文字列に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。

音声合成部１５は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部１５は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部１５は、記憶部５から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、音素単位の波形信号である。
さらに、音声合成部１５は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部１５は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。

音声合成部１５は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部５から読み込む。そして音声合成部１５は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部１５は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成してもよい。

音声合成部１５は、生成した合成音声信号を音声出力部７へ出力する。あるいは、音声合成部１５は、生成した合成音声信号を記憶部５に保存したり、通信インターフェース部４を介して他の機器へ出力してもよい。

図７は、音声合成処理の動作フローチャートである。
テキスト解析部１１は、操作部２を介して指定された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、そのテキストデータを形態素の組み合わせに分割する（ステップＳ２０１）。そして抽出部１２は、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する（ステップＳ２０２）。

結合判定部１３は、ルビが振られた語句に含まれる形態素のうち、複合語に含まれる形態素を特定する（ステップＳ２０３）。アクセント付与部１４は、各形態素にアクセントを付与することで、テキストデータの表音文字列を作成する（ステップＳ２０４）。そして音声合成部１５は、その表音文字列に基づいて、テキストデータの合成音声信号を生成する（ステップＳ２０５）。そして処理部６は、音声合成処理を終了する。

図８は、本実施形態による処理結果の一例を示す図である。この例では、入力されたテキストデータ８００に、ルビが振られた語句「プロ野球（ヤキュウ）は」及び「日本橋（ニッポンバシ）駅の」が含まれている。なお、括弧内に示された読みは、ルビを表す。これらの語句は、形態素解析により、それぞれ、「プロ／野球／は」、「日本橋／駅／の」と分割される。このうち、形態素「野球」及び「日本橋」が、ルビに対応する形態素として抽出され、そしてこれらの形態素は、それぞれ、複合語「プロ野球」、「日本橋駅」を形成すると結合判定される。そして言語辞書８０１に登録されている、複合語「プロ野球」のアクセント「プロヤ‘キュー」が、テキストデータ８００中のルビが振られた語句に対応する形態素を含む複合語「プロ野球」に付与される。同様に、言語辞書８０１に登録されている、複合語「日本橋駅」のアクセント「ニッポンバシ‘エキ」が、テキストデータ８００中のルビが振られた語句に対応する形態素を含む複合語「日本橋駅」に付与される。なお、この例では、言語辞書８０１には、複合語「日本橋駅」に対して、二通りの読み及びアクセント「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が登録されている。しかし、テキストデータ８００では、語句「日本橋駅の」に対してルビ（ニッポンバシ）が振られているので、そのルビに対応する読み及びアクセント「ニッポンバシ‘エキ」が選択される。

以上に説明したように、この音声合成装置は、ルビが振られた語句に含まれる形態素について、その前後の形態素とともに複合語を形成するか否か判定し、複合語を形成する場合、その複合語単位でアクセントを付与する。そのため、この音声合成装置は、ルビが振られた語句に含まれる形態素について、複合語の形成によるアクセント結合が生じても、適切なアクセントを付与することができる。その結果として、この音声合成装置は、ユーザにとって自然に聞こえる合成音声信号を生成できる。

変形例によれば、音声合成装置は、音声合成の対象となるテキストデータの表音文字列を、通信インターフェース部４を介して他の機器へ出力してもよい。そして他の機器において、その表音文字列に基づいて、そのテキストデータの合成音声信号が生成されてもよいこの場合には、音声合成部１５は省略されてもよい。

また他の変形例によれば、結合判定部１３は、ルビが振られていない形態素についても、その前後の形態素とともに複合語を形成するか否か判定してもよい。そしてアクセント付与部１４は、ルビが振られていない形態素を含む複合語についても、その複合語が言語辞書に登録されている場合、その複合語に対して、言語辞書に登録されているその複合語のアクセントを付与してもよい。

さらに他の変形例によれば、この音声合成装置は、クライアントサーバシステムにおいて実装されてもよい。

図９は、この変形例による、音声合成装置が実装されるクライアントサーバシステムの概略構成図である。クライアントサーバシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、クライアントサーバシステム１００が有する端末１１０は複数存在してもよい。同様に、クライアントサーバシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４と、音声出力部１１５とを有する。入力部１１１、記憶部１１２、通信部１１３及び音声出力部１１５は、制御部１１４とバスを介して接続されている。

入力部１１１は、例えば、キーボードといった、テキストデータを入力するための入力装置を有し、音声合成の対象となる、ルビが振られた語句を含むテキストデータを取得する。
記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報などを記憶する。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取ったテキストデータを通信ネットワーク１３０を介してサーバ１２０へ送信する。また通信部１１３は、入力部の他の一例であり、音声合成の対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワーク１３０に接続された他の機器１４０、例えば、Webサーバから受信し、制御部１１４に渡してもよい。
さらに、通信部１１３は、サーバ１２０からテキストデータに対応する合成音声信号を受信して、制御部１１４に渡す。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと、端末１１０の識別情報を含む送信信号を生成する。そして制御部１１４は、その送信信号を、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。
また制御部１１４は、サーバ１２０から通信ネットワーク１３０及び通信部１１３を介して受信した合成音声信号を、音声出力部１１５を介して合成音声として出力する。

音声出力部１１５は、例えば、スピーカを有し、制御部１１４から受け取った合成音声信号を合成音声として出力する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと端末１１０の識別情報とを含む送信信号を端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。また通信部１２１は、端末１１０の識別情報に基づいて、処理部１２３から受け取った合成音声信号を通信ネットワーク１３０を介して端末１１０へ送信する。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラム、音声合成用コンピュータプログラム、及び音声合成処理で使用される各種のデータなどを記憶する。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を実現する。すなわち、処理部１２３は、端末１１０から受信した、ルビが振られたテキストデータを形態素の組み合わせに分割する。処理部１２３は、その形態素の組み合わせに含まれる各形態素のうち、ルビが振られた語句に含まれる形態素を抽出し、その抽出した形態素について、複合語を形成するか否か判定する。そして処理部１２３は、ルビに対応する形態素が複合語を形成する場合、言語辞書に登録されているその複合語のアクセントをその複合語に付与する。また処理部１２３は、他の各形態素についても、言語辞書を参照してアクセントを付与することで、テキストデータ全体についての表音文字列を作成する。そして処理部１２３は、その表音文字列に基づいて合成音声信号を生成する。そして処理部１２３は、生成した合成音声信号を、通信部１２１及び通信ネットワーク１３０を介して端末１１０へ送信する。

この実施形態によれば、個々の端末１１０は、音声合成の対象となるテキストデータをサーバ１２０へ送信するだけで、そのテキストデータの合成音声信号を得ることができる。そのため、個々の端末１１０は、言語辞書などを記憶する必要が無い。また個々の端末１１０は、合成音声信号の生成にサーバ１２０を利用することで、リアルタイムに音声合成の対象となるテキストデータの合成音声信号を得ることができる。

また変形例によれば、複数のサーバ１２０が協働して、一つのテキストデータに対する音声合成処理を実行してもよい。この場合、複数のサーバ１２０のそれぞれが、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を分担して実行すればよい。例えば、複数のサーバ１２０のうちの一つのサーバの処理部１２３が、音声合成装置の処理部の機能のうち、テキスト解析部１１、抽出部１２、結合判定部１３及びアクセント付与部１４の処理を実行して、対象となるテキストデータの表音文字列を生成する。そしてそのサーバが、複数のサーバ１２０のうちの他のサーバへその表音文字列を送信する。他のサーバの処理部１２３は、音声合成装置の処理部の機能のうち、音声合成部１５の処理を実行して、受け取った表音文字列に基づいて合成音声信号を生成する。そして他のサーバは、生成した合成音声信号をその一つのサーバへ返信する。そしてその一つのサーバが、その合成音声信号を端末１１０へ送信する。あるいは、他のサーバ自体が、生成した合成音声信号を端末１１０へ送信してもよい。

上記の各実施形態または変形例による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な記録媒体に記録された形で提供されてもよい。そのような記録媒体は、例えば、磁気記録媒体、光記録媒体または半導体メモリとすることができる。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

１音声合成装置
２操作部
３表示部
４通信インターフェース部
５記憶部
６処理部
７音声出力部
１１テキスト解析部
１２抽出部
１３結合判定部
１４アクセント付与部
１５音声合成部
１００クライアントサーバシステム
１１０端末
１２０サーバ
１３０通信ネットワーク
１１１入力部
１１２記憶部
１１３通信部
１１４制御部
１１５音声出力部
１２１通信部
１２２記憶部
１２３処理部

Claims

ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割するテキスト解析部と、
前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出する抽出部と、
前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部と、
前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与するアクセント付与部と、
を有する音声合成装置。
前記アクセント付与部は、前記形態素の組み合わせに含まれる各形態素にアクセントを付与することで前記テキストデータ全体の読み及びアクセントの位置を表す表音文字列を生成し、
前記表音文字列に基づいて前記テキストデータの音声波形を表す合成音声信号を生成する音声合成部をさらに有する、請求項１に記載の音声合成装置。
形態素ごと、及び、複合語ごとの読み及びアクセントを表す言語辞書を記憶する記憶部をさらに有し、
前記アクセント付与部は、前記ルビが振られた語句に含まれる形態素が前記複合語を形成し、かつ、当該複合語が前記言語辞書に登録されている場合、当該複合語に前記言語辞書に登録されている当該複合語のアクセントを付与し、一方、前記ルビが振られた語句に含まれる形態素が前記複合語を形成せず、かつ、当該形態素が前記言語辞書に登録されている場合、当該形態素に前記言語辞書に登録されている当該形態素のアクセントを付与する、請求項１または２に記載の音声合成装置。
前記アクセント付与部は、前記ルビが振られた語句に含まれる形態素が前記複合語を形成し、かつ、当該複合語が前記言語辞書に登録されていない場合、前記言語辞書に登録されている、当該複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを当該複合語に付与する、請求項３に記載の音声合成装置。
端末とサーバとを有する音声合成システムであって、
前記端末は、
ルビが振られた語句を含むテキストデータを取得する入力部と、
前記テキストデータを前記サーバへ送信し、かつ、前記サーバから前記テキストデータの音声波形を表す合成音声信号を受信する通信部と、
前記合成音声信号を音声として出力する音声出力部と、
を有し、
前記サーバは、
前記テキストデータを前記端末から受信し、かつ、前記合成音声信号を前記端末へ送信する通信部と、
前記テキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与することで、前記テキストデータ全体の読み及びアクセントの位置を表す表音文字列を生成し、
前記表音文字列に基づいて前記合成音声信号を生成する処理部と、
を有する音声合成システム。
ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与する、
ことを含む音声合成方法。
ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与する、
ことをコンピュータに実行させるための音声合成用コンピュータプログラム。