JP2018169434A - 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム - Google Patents

音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム Download PDF

Info

Publication number
JP2018169434A
JP2018169434A JP2017064652A JP2017064652A JP2018169434A JP 2018169434 A JP2018169434 A JP 2018169434A JP 2017064652 A JP2017064652 A JP 2017064652A JP 2017064652 A JP2017064652 A JP 2017064652A JP 2018169434 A JP2018169434 A JP 2018169434A
Authority
JP
Japan
Prior art keywords
morpheme
ruby
accent
compound word
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017064652A
Other languages
English (en)
Other versions
JP6790959B2 (ja
Inventor
高橋 潤
Jun Takahashi
潤 高橋
村瀬 健太郎
Kentaro Murase
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017064652A priority Critical patent/JP6790959B2/ja
Publication of JP2018169434A publication Critical patent/JP2018169434A/ja
Application granted granted Critical
Publication of JP6790959B2 publication Critical patent/JP6790959B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与できる音声合成装置を提供する。【解決手段】音声合成装置は、ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、そのテキストデータを形態素の組み合わせに分割するテキスト解析部11と、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する抽出部12と、ルビが振られた語句に含まれる形態素について、その形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部13と、ルビが振られた語句に含まれる形態素が複合語を形成する場合、複合語全体としてアクセントを付与するアクセント付与部14とを有する。【選択図】図2

Description

本発明は、例えば、テキストデータから合成音声信号を生成するために用いられる表音文字列を生成する音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラムに関する。
入力されたテキストデータを読み込んで、そのテキストデータに対応する音声波形を表す合成音声信号を自動合成する音声合成技術が研究されている。この音声合成技術は、例えば、ウェブサイトなどに載せられたニュース記事などのテキストデータを、合成された音声(以下、単に合成音声と呼ぶ)として出力する、いわゆる、読み上げアプリケーションなどで利用される。
テキストデータの読み上げにおいて、ユーザにとって違和感のない合成音声が再生されるようにするためには、テキストデータを正確に読めること、及び、合成音声に適切なアクセントが付与されることが重要となる。そこで、ルビが振られたテキストデータが入力された場合に、ルビ相当文字列の読みと直前の文字列の読みが一致しない場合、直前の文字列とルビ相当文字列を含むテキストデータ合成音を生成する技術が提案されている(例えば、特許文献1を参照)。
特開2005−309327号公報
日本語では、複数の形態素から形成される複合語におけるアクセントの位置が、それら形態素のそれぞれのアクセントの位置から変化することがある。このようなアクセントの位置の変化はアクセント結合と呼ばれる。従来技術では、このようなアクセント結合が想定されていないため、ルビが振られた文字列が複合語に含まれる場合において、合成音声信号に付与されるアクセントの位置が不適切となることがある。
一つの側面として、本発明は、ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与できる音声合成装置を提供することを目的とする。
一つの実施形態によれば、音声合成装置が提供される。この音声合成装置は、ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、そのテキストデータを形態素の組み合わせに分割するテキスト解析部と、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する抽出部と、ルビが振られた語句に含まれる形態素について、その形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部と、ルビが振られた語句に含まれる形態素が複合語を形成する場合、複合語全体としてアクセントを付与するアクセント付与部とを有する。
ルビが振られた語句を含むテキストデータについて生成される合成音声に適切なアクセントを付与することができる。
音声合成装置の概略構成図である。 音声合成装置が有する処理部の機能ブロック図である。 形態素解析の一例を示す図である。 言語辞書に登録されている複合語の一例を示す図である。 言語辞書に複合語を登録するために利用される参照テーブルの一例を示す図である。 アクセント付与処理の動作フローチャートである。 音声合成処理の動作フローチャートである。 本実施形態による処理結果の一例を示す図である。 変形例による、音声合成装置が実装されるクライアントサーバシステムの概略構成図である。
以下、図を参照しつつ、音声合成装置について説明する。
この音声合成装置は、入力された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、ルビが振られた形態素を抽出する。そしてこの音声合成装置は、抽出した、ルビが振られた形態素と、その前後の形態素とで複合語が形成されるか否かを判定し、複合語が形成される場合、言語辞書から、その複合語のアクセントを検索して利用する。また、この音声合成装置は、ルビが振られた形態素を含む複合語が形成されない場合には、そのルビが振られた形態素に対応するアクセントを、言語辞書から検索する。これにより、この音声合成装置は、ルビが振られた語句を含むテキストデータについて生成される合成音声信号に適切なアクセントを付与することができる。
図1は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、操作部2と、表示部3と、通信インターフェース部4と、記憶部5と、処理部6と、音声出力部7とを有する。音声合成装置1は、例えば、携帯電話機あるいはいわゆるタブレットコンピュータといった携帯機器、デスクトップコンピュータ、あるいはウェブサーバなどとすることができる。
操作部2は、例えば、キーボードと、マウスといったポインティングデバイスとを有する。そして操作部2は、例えば、ユーザによる操作に従って、記憶部5に保存されているテキストデータの中から、音声合成の対象となるテキストデータを指定し、その指定されたテキストデータを指定する信号を処理部6へ渡す。本実施形態では、音声合成の対象となるテキストデータは、ルビが振られた語句を含む。ただし、音声合成の対象となるテキストデータが、ルビが振られた語句を含まない場合も、この音声合成装置は、そのテキストデータについての合成音声信号を生成できる。
表示部3は、液晶ディスプレイといった表示装置を有する。そして表示部3は、検出された同義語などを表示する。なお、操作部2と表示部3とは、タッチパネルディスプレイとして一体的に形成されてもよい。
通信インターフェース部4は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有し、通信ネットワークを介して様々な情報を取得する。例えば、通信インターフェース部4は、音声合成対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワークを介して音声合成装置1と接続された他の機器から取得する。
また、通信インターフェース部4は、処理部6から受け取った、音声合成対象となるテキストデータについて生成された合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の機器へ出力してもよい。あるいは、通信インターフェース部4は、そのテキストデータに対する読み及びアクセントの位置など、合成音声信号を生成するための情報が付与された表音文字列を、通信ネットワークを介して音声合成装置1と接続された他の機器へ出力してもよい。
記憶部5は、例えば、不揮発性の読み出し専用の半導体メモリ、及び、揮発性の読み書き可能な半導体メモリといった半導体メモリ回路を有する。記憶部5は、磁気記憶装置または光記憶装置をさらに有してもよい。そして記憶部5は、処理部6で用いられる各種コンピュータプログラム、音声合成処理に用いられる各種のデータを記憶する。
記憶部5は、音声合成処理に用いられるデータとして、例えば、各形態素及び各複合語の読み、アクセント及び品詞情報を表す言語辞書、形態素間の接続コストを表す接続規則、及び、複合語の生成規則などを記憶する。
処理部6は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部6は、操作部2を介して指定されたテキストデータに対して音声合成処理を実行する。なお、音声合成処理の詳細については後述する。
音声出力部7は、例えば、スピーカを有し、テキストデータに対して生成された合成音声信号を音声(すなわち、合成音声)として出力する。
図2は、処理部6の機能ブロック図である。処理部6は、テキスト解析部11と、抽出部12と、結合判定部13と、アクセント付与部14と、音声合成部15とを有する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路として、処理部6が有するプロセッサとは別個に、音声合成装置1に実装されてもよい。
テキスト解析部11は、操作部2を介して指定された、音声合成対象となる、ルビが振られた語句を含むテキストデータに対して形態素解析を実行して、そのテキストデータを形態素の組み合わせに分割する。なお、音声合成対象となるテキストデータは、例えば、ルビを含む文字列を記述することが可能な様々なフォーマットの何れかに従ったデータとすることができる。
本実施形態では、テキスト解析部11は、テキストデータに対して、例えば、言語辞書を参照して形態素解析を実行することにより、そのテキストデータを形態素ごとに分割したときの取り得る全ての形態素の組み合わせを求める。そしてテキスト解析部11は、形態素の組み合わせのそれぞれに対して、その組み合わせの確からしさを表す評価値を算出する。その際、テキスト解析部11は、着目する形態素の組み合わせについて、その組み合わせに含まれる連続する形態素のそれぞれについて、その連続する形態素間に適用される接続規則を参照して、その連続する形態素間のコストを求める。そしてテキスト解析部11は、着目する形態素の組み合わせに含まれる連続する形態素のそれぞれについて求められたコストの合計を、その着目する形態素の組み合わせに対する評価値とする。そしてテキスト解析部11は、得られた形態素の組み合わせのうち、評価値が最小となる組み合わせを、そのテキストデータに対する形態素解析結果として選択する。なお、テキスト解析部11は、評価値が最小となる形態素の組み合わせを特定するために、ビタビアルゴリズムといった動的計画法による手法を利用することで、評価値の算出に要する演算量を削減してもよい。
図3は、形態素解析の一例を示す図である。この例では、「今日は晴れ」とのテキストデータ300が入力される。テキストデータ300に対して、言語辞書301を参照した形態素解析が行われることにより、取り得る形態素の組み合わせを表すラティス構造302が得られる。このラティス構造302において、個々のブロック303は、一つの形態素を表し、個々の矢印304は、形態素間で可能な接続を表す。そして形態素の組み合わせごとに評価値が算出され、その評価値が最小となる形態素の組み合わせとして、「今日」(名詞)、は(助詞)、「晴れ」(名詞)の組が得られる。
なお、テキスト解析部11は、上記以外の様々な形態素解析手法の何れかにしたがって、音声合成の対象となるテキストデータを形態素の組み合わせに分割してもよい。
テキスト解析部11は、特定した形態素の組み合わせに含まれる各形態素の読み及び品詞と各形態素の並び順とを、抽出部12、結合判定部13及びアクセント付与部14へ通知する。
抽出部12は、テキストデータについて特定された形態素の組み合わせにおいて、ルビに対応する形態素を抽出する。例えば、抽出部12は、特定された形態素の組み合わせに含まれる形態素のそれぞれについて、その形態素を含む、元のテキストデータの語句にルビが振られているか否かを判定する。そして抽出部12は、形態素を含む語句にルビが振られていれば、その形態素を、ルビに対応する形態素とし、一方、形態素を含む語句にルビが振られていなければ、その形態素を、ルビに対応しない形態素とする。
抽出部12は、ルビに対応する形態素のそれぞれを、結合判定部13へ通知する。
結合判定部13は、ルビに対応する形態素のそれぞれについて、複合語に含まれるか否かを判定する。そのために、結合判定部13は、ルビに対応する形態素の品詞と、その形態素の前または後ろの形態素の品詞との関係が、複合語の生成規則に表される、複合語となる品詞の関係を満たすか否かを判定する。そして結合判定部13は、ルビに対応する形態素の品詞と、その前または後ろの形態素の品詞との関係が、複合語となる品詞の関係を満たす場合、ルビに対応する形態素と、その前または後ろの形態素とを、一つの複合語とする。一方、ルビに対応する形態素の品詞と、その前及び後ろの何れの形態素の品詞との関係も、複合語となる品詞の関係を満たさない場合、結合判定部13は、ルビに対応する形態素は複合語を形成しないと判定する。
なお、複合語の生成規則に表される、複合語となる品詞の関係は、例えば、接頭語+名詞、名詞+接尾語、名詞+名詞の何れかとすることができる。
結合判定部13は、ルビに対応する形態素のそれぞれについて、複合語を形成するか否かの判定結果と、複合語を形成する形態素について、その形態素を含む複合語とを、アクセント付与部14へ通知する。
アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとにアクセントを付与する。その際、アクセント付与部14は、ルビに対応する形態素について、その形態素が複合語を形成し、かつ、その複合語が言語辞書に登録されている場合には、複合語全体について、言語辞書に登録されているその複合語のアクセントを付与する。例えば、アクセント付与部14は、着目する複合語の表記及びルビを参照して特定される読みと一致する表記及び読みを持つ複合語を言語辞書から検索し、その一致する表記及び読みに対応するアクセントを、その着目する複合語に付与すればよい。
図4は、言語辞書に登録されている複合語の一例を示す図である。言語辞書400は、複合語の表記ごとに、その表記に対応する読みとアクセントの位置を表す表音文字列と、複合語の品詞とを含む。例えば、複合語「日本橋駅」に対して、二つの表音文字列「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が対応付けられており、何れの読みの場合も、「シ」の音にアクセントがあることが示されている。なお、アクセントの位置は、記号「‘」で示されている。また、複合語「日本橋駅」の品詞が名詞であることが示されている。したがって、例えば、テキストデータについて特定された形態素の組み合わせに、複合語「日本橋駅」が含まれており、かつ、その読みが「ニッポンバシエキ」であるとする。この場合、アクセント付与部14は、言語辞書400を参照することで、その複合語「日本橋駅」に対して、「シ」の音にアクセントを付与することができる。
なお、複合語の読み及びアクセントは、複合語を形成可能な形態素ごとに、その形態素に適用されるアクセント結合規則を表した参照テーブルを利用して予め決定され、言語辞書に登録される。なお、複合語以外の形態素が登録される言語辞書に複合語が追加的に登録されてもよく、あるいは、複合語以外の形態素が登録される言語辞書とは別個に、複合語が登録される言語辞書が用意され、記憶部5に保存されてもよい。
図5は、言語辞書に複合語を登録するために利用される参照テーブルの一例を示す図である。参照テーブル500は、複合語を形成可能な形態素ごとに、その形態素の表記と、読みと、アクセントの位置と、品詞と、アクセント結合の様式とを表す。例えば、形態素「手続」に関して、読みが「テツヅキ」であり、アクセントが「ツ」にあり、品詞が名詞であり、結合様式がC1であることが示されている。
なお、この例では、結合様式として、非特許文献1(匂坂 芳典、佐藤 大和、「日本語単語連鎖のアクセント規則」、電子情報通信学会論文誌 D、Vol.J66-D、No.7、pp.849-856, July 1983)を参考にして、C1〜C5の5種類の結合様式が示されている。以下、結合において前の形態素を「先行語」、後ろの形態素を「後続語」として説明する。
結合様式C1は、先行語のアクセントが無くなることを表す。例えば、形態素「転居(テ‘ンキョ)」と形態素「手続(テツ‘ヅキ)」を結合することにより複合語「転居手続」が形成される場合、その複合語の読み及びアクセントは「テンキョテツ‘ヅキ」となる。
結合様式C2は、先行語のアクセントが無くなり、後続語の先頭にアクセントが位置することを表す。例えば、形態素「天気(テ‘ンキ)」と形態素「予報(ヨホー)」を結合することにより複合語「天気予報」が形成される場合、その複合語の読み及びアクセントは「テンキヨ‘ホー」となる。
結合様式C3は、先行語の末尾にアクセントが位置することを表す。例えば、形態素「品川(シナガワ)」と形態素「駅(エキ)」を結合することにより複合語「品川駅」が形成される場合、その複合語の読み及びアクセントは「シナガワ‘エキ」となる。
結合様式C4は、アクセントが無くなることを表す。例えば、形態素「利尻(リ‘シリ)」と形態素「島(トー)」を結合することにより複合語「利尻島」が形成される場合、その複合語の読み及びアクセントは「リシリトー」となる。
結合様式C5は、後続語のアクセントが無くなることを表す。例えば、形態素「佐藤(サ‘トー)」と形態素「殿(ド‘ノ)」を結合することにより複合語「佐藤殿」が形成される場合、その複合語の読み及びアクセントは「サ‘トードノ」となる。
図6は、アクセント付与部14により実行されるアクセント付与処理の動作フローチャートである。アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとに、下記の動作フローチャートに従ってアクセントを付与する。
アクセント付与部14は、着目する形態素がルビが振られた語句に含まれる形態素か否か判定する(ステップS101)。着目する形態素がルビが振られた語句に含まれなければ(ステップS101−No)、アクセント付与部14は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する(ステップS102)。
一方、着目する形態素がルビが振られた語句に含まれていれば(ステップS101−Yes)、アクセント付与部14は、着目する形態素が複合語に含まれる形態素か否か判定する(ステップS103)。着目する形態素が複合語に含まれれば(ステップS103−Yes)、アクセント付与部14は、着目する形態素を含む複合語が言語辞書に登録されているか否か判定する(ステップS104)。
着目する形態素を含む複合語が言語辞書に登録されていれば(ステップS104−Yes)、アクセント付与部14は、言語辞書を参照して、その複合語に、言語辞書に登録されているその複合語のアクセントを付与する(ステップS105)。一方、着目する形態素を含む複合語が言語辞書に登録されていなければ(ステップS104−No)、アクセント付与部14は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されているか否か判定する(ステップS106)。その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されている場合(ステップS106−Yes)、アクセント付与部14は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを特定する。そしてアクセント付与部14は、その特定したアクセントをその複合語に付与する(ステップS107)。なお、そのような他の語が言語辞書に複数登録されている場合、アクセント付与部14は、それら複数の他の語のアクセントのうち、最頻出となるアクセントを、その複合語に付与してもよい。
一方、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されていない場合(ステップS106−No)、アクセント付与部14は、着目する形態素が言語辞書に登録されているか否か判定する(ステップS108)。また、ステップS103にて、着目する形態素が複合語に含まれない場合(ステップS103−No)も、アクセント付与部14は、着目する形態素が言語辞書に登録されているか否か判定する(ステップS108)。
着目する形態素が言語辞書に登録されていれば(ステップS108−Yes)、アクセント付与部14は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する(ステップS109)。一方、着目する形態素が言語辞書に登録されていなければ(ステップS108−No)、アクセント付与部14は、着目する形態素にデフォルトのアクセントを付与する(ステップS110)。なお、デフォルトのアクセントは、例えば、アクセント無しとすることができる。
ステップS102、S105、S107、S109またはS110の後、アクセント付与部14は、アクセント付与処理を終了する。なお、変形例によれば、ステップS106及びS107の処理は省略されてもよい。この場合には、ステップS104にて複合語が言語辞書に登録されていない場合、アクセント付与部14は、ステップS108以降の処理を実行すればよい。
アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる各形態素にアクセントを付与する。そしてアクセント付与部14は、形態素の並び順に従って、各形態素の読み及びアクセントの位置を表す表音文字列を並べることで、テキストデータ全体の読み及びアクセントの位置を表す表音文字列を作成する。そしてアクセント付与部14は、そのテキストデータの表音文字列を音声合成部15へ出力する。
音声合成部15は、テキストデータの表音文字列に基づいて、テキストデータの音声波形を表す合成音声信号を生成する。
音声合成部15は、様々な音声合成方式の何れに従ってテキストデータの合成音声信号を生成してもよい。例えば、音声合成部15は、表音文字列に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部15は、記憶部5から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部15は、複数の韻律モデルのうち、表音文字列に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部15は、選択した韻律モデル及び合成音声信号を生成するために参照される各種のパラメータに従って、表音文字列に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
音声合成部15は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部15は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部15は、記憶部5から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、音素単位の波形信号である。
さらに、音声合成部15は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部15は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
音声合成部15は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部5から読み込む。そして音声合成部15は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部15は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成してもよい。
音声合成部15は、生成した合成音声信号を音声出力部7へ出力する。あるいは、音声合成部15は、生成した合成音声信号を記憶部5に保存したり、通信インターフェース部4を介して他の機器へ出力してもよい。
図7は、音声合成処理の動作フローチャートである。
テキスト解析部11は、操作部2を介して指定された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、そのテキストデータを形態素の組み合わせに分割する(ステップS201)。そして抽出部12は、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する(ステップS202)。
結合判定部13は、ルビが振られた語句に含まれる形態素のうち、複合語に含まれる形態素を特定する(ステップS203)。アクセント付与部14は、各形態素にアクセントを付与することで、テキストデータの表音文字列を作成する(ステップS204)。そして音声合成部15は、その表音文字列に基づいて、テキストデータの合成音声信号を生成する(ステップS205)。そして処理部6は、音声合成処理を終了する。
図8は、本実施形態による処理結果の一例を示す図である。この例では、入力されたテキストデータ800に、ルビが振られた語句「プロ野球(ヤキュウ)は」及び「日本橋(ニッポンバシ)駅の」が含まれている。なお、括弧内に示された読みは、ルビを表す。これらの語句は、形態素解析により、それぞれ、「プロ/野球/は」、「日本橋/駅/の」と分割される。このうち、形態素「野球」及び「日本橋」が、ルビに対応する形態素として抽出され、そしてこれらの形態素は、それぞれ、複合語「プロ野球」、「日本橋駅」を形成すると結合判定される。そして言語辞書801に登録されている、複合語「プロ野球」のアクセント「プロヤ‘キュー」が、テキストデータ800中のルビが振られた語句に対応する形態素を含む複合語「プロ野球」に付与される。同様に、言語辞書801に登録されている、複合語「日本橋駅」のアクセント「ニッポンバシ‘エキ」が、テキストデータ800中のルビが振られた語句に対応する形態素を含む複合語「日本橋駅」に付与される。なお、この例では、言語辞書801には、複合語「日本橋駅」に対して、二通りの読み及びアクセント「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が登録されている。しかし、テキストデータ800では、語句「日本橋駅の」に対してルビ(ニッポンバシ)が振られているので、そのルビに対応する読み及びアクセント「ニッポンバシ‘エキ」が選択される。
以上に説明したように、この音声合成装置は、ルビが振られた語句に含まれる形態素について、その前後の形態素とともに複合語を形成するか否か判定し、複合語を形成する場合、その複合語単位でアクセントを付与する。そのため、この音声合成装置は、ルビが振られた語句に含まれる形態素について、複合語の形成によるアクセント結合が生じても、適切なアクセントを付与することができる。その結果として、この音声合成装置は、ユーザにとって自然に聞こえる合成音声信号を生成できる。
変形例によれば、音声合成装置は、音声合成の対象となるテキストデータの表音文字列を、通信インターフェース部4を介して他の機器へ出力してもよい。そして他の機器において、その表音文字列に基づいて、そのテキストデータの合成音声信号が生成されてもよいこの場合には、音声合成部15は省略されてもよい。
また他の変形例によれば、結合判定部13は、ルビが振られていない形態素についても、その前後の形態素とともに複合語を形成するか否か判定してもよい。そしてアクセント付与部14は、ルビが振られていない形態素を含む複合語についても、その複合語が言語辞書に登録されている場合、その複合語に対して、言語辞書に登録されているその複合語のアクセントを付与してもよい。
さらに他の変形例によれば、この音声合成装置は、クライアントサーバシステムにおいて実装されてもよい。
図9は、この変形例による、音声合成装置が実装されるクライアントサーバシステムの概略構成図である。クライアントサーバシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、クライアントサーバシステム100が有する端末110は複数存在してもよい。同様に、クライアントサーバシステム100が有するサーバ120は複数存在してもよい。
端末110は、入力部111と、記憶部112と、通信部113と、制御部114と、音声出力部115とを有する。入力部111、記憶部112、通信部113及び音声出力部115は、制御部114とバスを介して接続されている。
入力部111は、例えば、キーボードといった、テキストデータを入力するための入力装置を有し、音声合成の対象となる、ルビが振られた語句を含むテキストデータを取得する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報などを記憶する。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取ったテキストデータを通信ネットワーク130を介してサーバ120へ送信する。また通信部113は、入力部の他の一例であり、音声合成の対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワーク130に接続された他の機器140、例えば、Webサーバから受信し、制御部114に渡してもよい。
さらに、通信部113は、サーバ120からテキストデータに対応する合成音声信号を受信して、制御部114に渡す。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと、端末110の識別情報を含む送信信号を生成する。そして制御部114は、その送信信号を、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して受信した合成音声信号を、音声出力部115を介して合成音声として出力する。
音声出力部115は、例えば、スピーカを有し、制御部114から受け取った合成音声信号を合成音声として出力する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと端末110の識別情報とを含む送信信号を端末110から通信ネットワーク130を介して受信して処理部123に渡す。また通信部121は、端末110の識別情報に基づいて、処理部123から受け取った合成音声信号を通信ネットワーク130を介して端末110へ送信する。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラム、音声合成用コンピュータプログラム、及び音声合成処理で使用される各種のデータなどを記憶する。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を実現する。すなわち、処理部123は、端末110から受信した、ルビが振られたテキストデータを形態素の組み合わせに分割する。処理部123は、その形態素の組み合わせに含まれる各形態素のうち、ルビが振られた語句に含まれる形態素を抽出し、その抽出した形態素について、複合語を形成するか否か判定する。そして処理部123は、ルビに対応する形態素が複合語を形成する場合、言語辞書に登録されているその複合語のアクセントをその複合語に付与する。また処理部123は、他の各形態素についても、言語辞書を参照してアクセントを付与することで、テキストデータ全体についての表音文字列を作成する。そして処理部123は、その表音文字列に基づいて合成音声信号を生成する。そして処理部123は、生成した合成音声信号を、通信部121及び通信ネットワーク130を介して端末110へ送信する。
この実施形態によれば、個々の端末110は、音声合成の対象となるテキストデータをサーバ120へ送信するだけで、そのテキストデータの合成音声信号を得ることができる。そのため、個々の端末110は、言語辞書などを記憶する必要が無い。また個々の端末110は、合成音声信号の生成にサーバ120を利用することで、リアルタイムに音声合成の対象となるテキストデータの合成音声信号を得ることができる。
また変形例によれば、複数のサーバ120が協働して、一つのテキストデータに対する音声合成処理を実行してもよい。この場合、複数のサーバ120のそれぞれが、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を分担して実行すればよい。例えば、複数のサーバ120のうちの一つのサーバの処理部123が、音声合成装置の処理部の機能のうち、テキスト解析部11、抽出部12、結合判定部13及びアクセント付与部14の処理を実行して、対象となるテキストデータの表音文字列を生成する。そしてそのサーバが、複数のサーバ120のうちの他のサーバへその表音文字列を送信する。他のサーバの処理部123は、音声合成装置の処理部の機能のうち、音声合成部15の処理を実行して、受け取った表音文字列に基づいて合成音声信号を生成する。そして他のサーバは、生成した合成音声信号をその一つのサーバへ返信する。そしてその一つのサーバが、その合成音声信号を端末110へ送信する。あるいは、他のサーバ自体が、生成した合成音声信号を端末110へ送信してもよい。
上記の各実施形態または変形例による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な記録媒体に記録された形で提供されてもよい。そのような記録媒体は、例えば、磁気記録媒体、光記録媒体または半導体メモリとすることができる。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1 音声合成装置
2 操作部
3 表示部
4 通信インターフェース部
5 記憶部
6 処理部
7 音声出力部
11 テキスト解析部
12 抽出部
13 結合判定部
14 アクセント付与部
15 音声合成部
100 クライアントサーバシステム
110 端末
120 サーバ
130 通信ネットワーク
111 入力部
112 記憶部
113 通信部
114 制御部
115 音声出力部
121 通信部
122 記憶部
123 処理部

Claims (7)

  1. ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割するテキスト解析部と、
    前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出する抽出部と、
    前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定する結合判定部と、
    前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与するアクセント付与部と、
    を有する音声合成装置。
  2. 前記アクセント付与部は、前記形態素の組み合わせに含まれる各形態素にアクセントを付与することで前記テキストデータ全体の読み及びアクセントの位置を表す表音文字列を生成し、
    前記表音文字列に基づいて前記テキストデータの音声波形を表す合成音声信号を生成する音声合成部をさらに有する、請求項1に記載の音声合成装置。
  3. 形態素ごと、及び、複合語ごとの読み及びアクセントを表す言語辞書を記憶する記憶部をさらに有し、
    前記アクセント付与部は、前記ルビが振られた語句に含まれる形態素が前記複合語を形成し、かつ、当該複合語が前記言語辞書に登録されている場合、当該複合語に前記言語辞書に登録されている当該複合語のアクセントを付与し、一方、前記ルビが振られた語句に含まれる形態素が前記複合語を形成せず、かつ、当該形態素が前記言語辞書に登録されている場合、当該形態素に前記言語辞書に登録されている当該形態素のアクセントを付与する、請求項1または2に記載の音声合成装置。
  4. 前記アクセント付与部は、前記ルビが振られた語句に含まれる形態素が前記複合語を形成し、かつ、当該複合語が前記言語辞書に登録されていない場合、前記言語辞書に登録されている、当該複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを当該複合語に付与する、請求項3に記載の音声合成装置。
  5. 端末とサーバとを有する音声合成システムであって、
    前記端末は、
    ルビが振られた語句を含むテキストデータを取得する入力部と、
    前記テキストデータを前記サーバへ送信し、かつ、前記サーバから前記テキストデータの音声波形を表す合成音声信号を受信する通信部と、
    前記合成音声信号を音声として出力する音声出力部と、
    を有し、
    前記サーバは、
    前記テキストデータを前記端末から受信し、かつ、前記合成音声信号を前記端末へ送信する通信部と、
    前記テキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
    前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
    前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
    前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与することで、前記テキストデータ全体の読み及びアクセントの位置を表す表音文字列を生成し、
    前記表音文字列に基づいて前記合成音声信号を生成する処理部と、
    を有する音声合成システム。
  6. ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
    前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
    前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
    前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与する、
    ことを含む音声合成方法。
  7. ルビが振られた語句を含むテキストデータに対して形態素解析を実行することで、当該テキストデータを形態素の組み合わせに分割し、
    前記形態素の組み合わせに含まれる形態素のうち、前記ルビが振られた語句に含まれる形態素を抽出し、
    前記ルビが振られた語句に含まれる形態素について、当該形態素の前側または後ろ側に連続する形態素とともに複合語を形成するか否かを判定し、
    前記ルビが振られた語句に含まれる形態素が前記複合語を形成する場合、当該複合語全体としてアクセントを付与する、
    ことをコンピュータに実行させるための音声合成用コンピュータプログラム。
JP2017064652A 2017-03-29 2017-03-29 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム Active JP6790959B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017064652A JP6790959B2 (ja) 2017-03-29 2017-03-29 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017064652A JP6790959B2 (ja) 2017-03-29 2017-03-29 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018169434A true JP2018169434A (ja) 2018-11-01
JP6790959B2 JP6790959B2 (ja) 2020-11-25

Family

ID=64018700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017064652A Active JP6790959B2 (ja) 2017-03-29 2017-03-29 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6790959B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564153A (zh) * 2020-04-02 2020-08-21 湖南声广信息科技有限公司 广播电台智能主播音乐节目系统
CN112233382A (zh) * 2020-10-27 2021-01-15 成都市美幻科技有限公司 地震预警播报方法、装置、存储介质以及电子设备
CN113345409A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质
WO2022095754A1 (zh) * 2020-11-03 2022-05-12 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258884A (ja) * 2001-02-27 2002-09-11 Mitsubishi Electric Corp 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005309327A (ja) * 2004-04-26 2005-11-04 Mitsubishi Electric Corp 音声合成装置
JP2015060038A (ja) * 2013-09-18 2015-03-30 富士通株式会社 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258884A (ja) * 2001-02-27 2002-09-11 Mitsubishi Electric Corp 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005309327A (ja) * 2004-04-26 2005-11-04 Mitsubishi Electric Corp 音声合成装置
JP2015060038A (ja) * 2013-09-18 2015-03-30 富士通株式会社 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564153A (zh) * 2020-04-02 2020-08-21 湖南声广信息科技有限公司 广播电台智能主播音乐节目系统
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目系统
CN112233382A (zh) * 2020-10-27 2021-01-15 成都市美幻科技有限公司 地震预警播报方法、装置、存储介质以及电子设备
WO2022095754A1 (zh) * 2020-11-03 2022-05-12 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN113345409A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP6790959B2 (ja) 2020-11-25

Similar Documents

Publication Publication Date Title
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
CN106920547B (zh) 语音转换方法和装置
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN108831437B (zh) 一种歌声生成方法、装置、终端和存储介质
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
JP2008185805A (ja) 高品質の合成音声を生成する技術
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
CN104899192B (zh) 用于自动通译的设备和方法
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JP2006018133A (ja) 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP2014197117A (ja) 音声合成装置及び言語辞書登録方法
JP2001296878A (ja) 音声合成用辞書作成装置及び方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JP2023006055A (ja) プログラム、情報処理装置、方法
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP6197362B2 (ja) 音声合成方法、プログラム、及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6790959

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150