JP2003345372A - 音声合成装置及び音声合成方法 - Google Patents

音声合成装置及び音声合成方法

Info

Publication number
JP2003345372A
JP2003345372A JP2002149766A JP2002149766A JP2003345372A JP 2003345372 A JP2003345372 A JP 2003345372A JP 2002149766 A JP2002149766 A JP 2002149766A JP 2002149766 A JP2002149766 A JP 2002149766A JP 2003345372 A JP2003345372 A JP 2003345372A
Authority
JP
Japan
Prior art keywords
word
input text
linguistic
candidate
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002149766A
Other languages
English (en)
Inventor
Ichiro Maruyama
一郎 丸山
Yoichi Fujii
洋一 藤井
Yasushi Ishikawa
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002149766A priority Critical patent/JP2003345372A/ja
Publication of JP2003345372A publication Critical patent/JP2003345372A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 聞き取りやすい合成音声を作成する。 【解決手段】 言語処理部2が入力テキスト101の言
語解析を行ない、音響的類似度判定部5が入力テキスト
101中の単語と被聞き誤り単語104との音響的類似
度を判定し、アクセント位置判定部6が入力テキスト1
01中の単語を対応する被聞き誤り単語候補に置換した
場合のアクセント位置を判定し、言語的妥当性判定部8
が入力テキスト101中の単語を被聞き誤り単語候補と
置換した場合の言語的妥当性を判定し、音声合成部12
が韻律制御パラメータ112と音韻パラメータ111か
ら合成音声113を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は入力したテキスト
を音声に変換して出力する音声合成装置及び音声合成方
法に関するものである。
【0002】
【従来の技術】入力したテキストを音声に変換して出力
する従来の音声合成装置では、テキストによっては発音
的に聞き取りにくい単語が存在するために、合成された
音声の了解性に問題がある場合があった。この問題を解
決するために、例えば、特開平10−171485号公
報(従来例1)のように、聞き取りにくい単語を登録
し、その単語と対応する語義のテーブルを作成してお
き、入力テキスト中に聞き取りにくい単語が存在する場
合には、このテーブルを参照して、その単語を語義で置
換することや、その部分の韻律制御パラメータを変化さ
せることで、了解性を向上させる方法がある。
【0003】図6は従来例1の音声合成装置の構成を示
すブロック図である。図において、21は形態素情報2
02を記憶している言語解析用辞書、22は言語解析用
辞書21からの形態素情報202を参照して、入力テキ
スト201に対して形態素解析及び構文解析を行ない言
語処理結果203を出力する言語処理部、23は聞き取
りにくい単語とその語義文との対応を示す語義情報20
4を記憶している語義テーブル、24は言語処理結果2
03と語義テーブル23から得た語義情報204との照
合を行ない、照合が成功した場合には、言語処理結果2
03の該当する単語を語義文に置換し、変更済み言語処
理結果205を出力する言語処理結果変更部である。
【0004】また、図6において、25は音声合成単位
206を記憶している音声合成単位記憶部、26は変更
済み言語処理結果205に対応する音声合成単位206
を音声合成単位記憶部25から取り出し、取り出した音
声合成単位206に基づいて音韻パラメータ207を生
成する音韻パラメータ生成部、27は変更済み言語処理
結果205に基づいて韻律制御パラメータ208を生成
する韻律制御パラメータ生成部、28は音韻パラメータ
207と韻律制御パラメータ208から合成音声209
を作成して出力する音声合成部である。
【0005】図7は語義テーブル23に登録されている
単語と語義文の例を示す図であり、例えば、「添削」と
発音が類似しているために聞き取りにくい単語である
「検索」が語義文と共に登録されている。
【0006】次に従来例1の動作について説明する。入
力テキスト201が「検索を頼む」である場合の処理を
考える。言語処理部22は、言語解析用辞書21からの
形態素情報202を参照して、入力テキスト201であ
る「検索を頼む」に対して形態素解析及び構文解析を行
ない、言語処理結果203である「{(検索)(を)}
{(頼む)}」を出力する。ここで、{ }はアクセン
ト句、( )は単語を意味している。
【0007】言語処理結果変更部24は、言語処理結果
203である「{(検索)(を)}{(頼む)}」と語
義テーブル23に登録されている単語の照合を行なう。
図7の例の場合は、「(検索)」が語義テーブル23に
登録されているため、対応する語義文により置換を行な
い、変更済み言語処理結果205である「{(探し)
(出す)(こと)(を)}{(頼む)}」を生成する。
【0008】音韻パラメータ生成部26は変更済み言語
処理結果205である「{(探し)(出す)(こと)
(を)}{(頼む)}」に対応する音声合成単位206
を音声合成単位記憶部25から取り出し、取り出した音
声合成単位206に基づいて音韻パラメータ207を生
成する。韻律制御パラメータ生成部27は、変更済み済
み言語処理結果205である「{(探し)(出す)(こ
と)(を)}{(頼む)}」に基づいて、対応する韻律
制御パラメータ208を生成する。音声合成部28は、
音韻パラメータ207と韻律制御パラメータ208か
ら、「検索」を「探し出すこと」に置換した、合成音声
209である「探し出すことを頼む」を作成して出力す
る。
【0009】また、例えば、特開2000−20698
2公報(従来例2)のように、入力テキスト中に発音的
に類似した単語が存在する場合には、その単語を聞き誤
りやすい単語と判定し、その単語の合成音声を作成する
際に、明瞭度の高い音声素片辞書から音声素片を選択す
ることで了解性を向上させる方法がある。
【0010】図8は従来例2の音声合成装置の構成を示
すブロック図である。図において、31は解析用情報3
02を記憶している言語解析用辞書、32は言語解析用
辞書31からの解析用情報302を参照して、入力テキ
スト301に対して形態素解析及び構文解析を行ない言
語処理結果303を出力する言語処理部、33は言語処
理結果303と言語解析用辞書31からの解析用情報3
02に基づいて、入力テキスト301の各単語に対し
て、発音が類似している単語が存在するか否か判定し、
類似している単語が存在する場合には発音が類似する単
語の組み合わせを表わす類似読み語情報と言語処理結果
303を、テキスト解析結果304として出力する類似
読み語検出部である。言語処理部32と類似読み語検出
部33によりテキスト解析部を構成している。
【0011】また、図8において、34は自然性を優先
した音声素片である自然性優先有声素片305を記憶し
ている自然性優先音声素片辞書、35は明瞭度の高い音
声素片である高明瞭度有声素片306を記憶している高
明瞭度音声素片辞書である。
【0012】さらに、図8において、36はテキスト解
析結果304に基づいて、自然性優先音声素片辞書34
と高明瞭度音声素片辞書35から、該当する自然性優先
音声素片305と高明瞭度音声素片306を選択して音
声素片307として出力する音声素片選択部、37は音
声素片307に基づいて音韻パラメータ308を生成す
る音声素片接続部、38はテキスト解析結果304に基
づいてピッチパターン309を生成するピッチパターン
生成処理部、39は音韻パラメータ308とピッチパタ
ーン309から合成音声310を作成する合成フィルタ
処理部である。音声素片選択部36、音声素片接続部3
7、ピッチパターン生成処理部38及び合成フィルタ処
理部39により音声合成部を構成している。
【0013】次に従来例2の動作について説明する。入
力テキスト301として「平成と訂正は似ている」が入
力されたとする。言語処理部32は、「平成と訂正は似
ている」が入力されると、言語解析用辞書31からの解
析用情報302を参照して形態素解析及び構文解析を行
ない、以下のデータ形式で示される言語処理結果例を言
語処理結果303として出力する。 {(平成 heisei 名詞)(と to 助詞)} {(訂正 teisei 名詞)(は wa 助詞)} {(似 ni 動詞)(て te 助詞)(い i 動
詞)(る ru 助詞)} ここで、{ }はアクセント句、( )は単語を示し、
単語に関しては(表記読み 品詞名)の順に表記してい
る。
【0014】類似読み語検出部33は、言語処理結果例
に対して、品詞名が名詞である単語同士の読みを比較
し、子音が一つだけ異なる単語かどうか判定する。その
結果、「平成」と「訂正」が類似読み語であるという類
似読み語情報と言語処理結果例をテキスト解析結果例と
して出力する。
【0015】音声素片選択部36は、テキスト解析結果
例に基づいて、「平成」と「訂正」の部分に関しては、
高明瞭度音声素片辞書35からこれらの読みに対応する
高明瞭度音声素片306を選択し、残りの部分に関して
は、自然性優先音声素片辞書34からこれらの読みに対
応する自然性優先音声素片305を選択し、音声素片3
07として音声素片接続部37に出力する。音声素片接
続部37は音声素片307を接続し音韻パラメータ30
8を生成する。
【0016】一方、ピッチパターン生成処理部38は、
テキスト解析結果例に基づいて、対応するピッチパター
ン309を生成し出力する。合成フィルタ処理部39
は、音韻パラメータ308とピッチパターン309に基
づいて、「平成」と「訂正」に対して明瞭度を向上させ
た合成音声310を作成して出力する。
【0017】
【発明が解決しようとする課題】従来例1の音声合成装
置は、以上のように構成されているので、聞き取りにく
い単語を語義で置換する場合に、同じ単語でもコンテキ
ストに依存してアクセント位置が変化するために、聞き
取りにくくなるものや逆にそうでなくなる場合がある
が、アクセント句内における単語のアクセント位置変化
を考慮せずに、聞き取りにくい単語と扱うために、不適
切な単語の置換が行われる場合や、置換されるべきもの
が置換されない場合があるという課題があった。また、
聞き取りにくい単語を語義で置換する場合に、言語的妥
当性を考慮せずに置換しているため、聞き取りにくい単
語を語義で置換すると冗長になる場合や、聞き取りにく
い単語同士からなる複合語を置換する場合に、意味が通
らなくなる場合があるという課題があった。
【0018】また、従来例2の音声合成装置は以上のよ
うに構成され、入力テキスト内に発音が類似する単語が
存在するか否かを判定基準として、聞き誤りやすい単語
の判定を行なうため、入力テキスト中のある単語に対し
て、発音が類似した、より一般的な単語が存在しても、
入力テキストに出現しない場合には聞き誤りとなる可能
性がないと判定されてしまい、聞き誤りやすい単語がテ
キスト中に存在するにも関わらず、明瞭度が高い音声素
片が選択されず聞き誤りを防ぐための効果が十分でない
という課題があった。また、単語間の音響的な類似度だ
けで聞き誤りやすさの判定を行っているため、音響的類
似度が大きければアクセント位置が異なっていても聞き
誤りやすいと判定してしまい、本来アクセント位置が異
なるために聞き誤りを起こしにくいものまで明瞭化が行
われ、必要以上に自然性が損なわれるという課題があっ
た。
【0019】この発明は上記のような課題を解決するた
めになされたもので、入力テキストの単語に対して、聞
き誤りやすい単語が一般的に存在するかを確認し、入力
テキストの単語を聞き誤りやすい単語に置換した場合の
アクセント位置を考慮して聞き誤りやすい単語を絞り、
絞られた聞き誤りやすい単語を考慮して、入力テキスト
に対応する音韻パラメータを生成することにより、聞き
取りやすい合成音声を作成することができる音声合成装
置及び音声合成方法を得ることを目的とする。
【0020】また、入力テキストの単語を聞き誤りやす
い単語に置換した場合の言語的妥当性を考慮して聞き誤
りやすい単語を絞り込むことで、音響的には類似した単
語であってもコンテキストの妥当性から聞き誤ることの
ない単語の自然性を保持しながら、聞き取りやすい合成
音声を作成することができる音声合成装置及び音声合成
方法を得ることを目的とする。
【0021】
【課題を解決するための手段】この発明に係る音声合成
装置は、言語処理部と、音響的類似度判定部と、アクセ
ント位置判定部と、韻律制御パラメータ生成部と、音韻
パラメータ生成部と、音声合成部とを備えたものであ
る。
【0022】この発明に係る音声合成装置は、言語処理
部と、音響的類似度判定部と、アクセント位置判定部
と、言語的妥当性判定部と、韻律制御パラメータ生成部
と、音韻パラメータ生成部と、音声合成部とを備えたも
のである。
【0023】この発明に係る音声合成装置は、韻律制御
パラメータ生成部が、発話速度、音量又はポーズに関す
る韻律制御パラメータを生成するものである。
【0024】この発明に係る音声合成装置は、音韻パラ
メータ生成部が、単語と被聞き誤り単語との音響的距離
に基づいて、音韻パラメータを生成するものである。
【0025】この発明に係る音声合成装置は、言語的妥
当性判定部が、単語共起確率に基づいて、入力テキスト
中の単語を被聞き誤り単語候補と置換した場合の言語的
妥当性の判定を行なうものである。
【0026】この発明に係る音声合成装置は、言語的妥
当性判定部が、同一文内に存在する単語に関する単語共
起確率に基づいて、入力テキスト中の単語を被聞き誤り
単語候補と置換した場合の言語的妥当性の判定を行なう
ものである。
【0027】この発明に係る音声合成装置は、言語的妥
当性判定部が、特定の品詞の単語のみに関する単語共起
確率に基づいて、入力テキスト中の単語を被聞き誤り単
語候補と置換した場合の言語的妥当性の判定を行なうも
のである。
【0028】この発明に係る音声合成装置は、言語的妥
当性判定部が、単語の出現順序に関する制約のない単語
共起確率に基づいて、入力テキスト中の単語を被聞き誤
り単語候補と置換した場合の言語的妥当性の判定を行な
うものである。
【0029】この発明に係る音声合成装置は、言語的妥
当性判定部が、単語N−gram確率である単語共起確
率に基づいて、入力テキスト中の単語を被聞き誤り単語
候補と置換した場合の言語的妥当性の判定を行なうもの
である。
【0030】この発明に係る音声合成装置は、言語的妥
当性判定部が、入力テキスト中の単語に関する単語共起
確率と、単語を被聞き誤り単語候補と置換した場合の単
語共起確率との大小関係に基いて、入力テキスト中の単
語を被聞き誤り単語候補と置換した場合の言語的妥当性
の判定を行なうものである。
【0031】この発明に係る音声合成装置は、言語的妥
当性判定部が、単語を被聞き誤り単語候補と置換した場
合の単語共起確率と所定の閾値との大小関係に基づい
て、入力テキスト中の単語を被聞き誤り単語候補と置換
した場合の言語的妥当性の判定を行なうものである。
【0032】この発明に係る音声合成方法は、入力テキ
ストの言語解析を行なう第1のステップと、入力テキス
ト中の単語と被聞き誤り単語との音響的類似度を判定す
る第2のステップと、入力テキスト中の単語を対応する
被聞き誤り単語候補に置換した場合の被聞き誤り単語候
補を含むアクセント句のアクセント位置を判定する第3
のステップと、韻律制御パラメータを生成する第4のス
テップと、音韻パラメータを生成する第5のステップ
と、合成音声を作成する第6のステップとを備えたもの
である。
【0033】この発明に係る音声合成方法は、入力テキ
ストの言語解析を行なう第1のステップと、入力テキス
ト中の単語と被聞き誤り単語との音響的類似度を判定す
る第2のステップと、入力テキスト中の単語を対応する
被聞き誤り単語候補に置換した場合の被聞き誤り単語候
補を含むアクセント句のアクセント位置を判定する第3
のステップと、入力テキスト中の単語を被聞き誤り単語
候補と置換した場合の言語的妥当性を判定する第4のス
テップと、韻律制御パラメータを生成する第5のステッ
プと、音韻パラメータを生成する第6のステップと、合
成音声を作成する第7のステップとを備えたものであ
る。
【0034】
【発明の実施の形態】以下、この発明の実施の一形態に
ついて説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声合成装置の構成を示すブロック図である。図におい
て、1は形態素(単語)の表記、読み、品詞、基本アク
セント型等を含む形態素情報102を記憶している言語
解析用辞書、2は言語解析用辞書1の形態素情報102
を参照して、入力テキスト101に対して言語解析し、
入力テキスト101に対する単語境界、単語の表記、読
み、品詞、アクセント境界位置、アクセント位置を含む
言語処理結果103を出力する言語処理部である。
【0035】また、図1において、3は聞き誤られやす
い単語である被聞き誤り単語の表記とその読み、品詞、
基本アクセント型から構成される被聞き誤り単語104
を保持している被聞き誤り単語リストである。被聞き誤
り単語リスト3は、例えば、テキスト・コーパス中に高
頻度で出現する単語から構成されている。4は例えば、
音素、音節、単語等の音声学上又は言語学上の単位にお
ける、要素同士の聞き誤りやすさを示す要素間音響的類
似度105を保持している音響的類似度テーブルであ
る。
【0036】さらに、図1において、5は言語処理結果
103と被聞き誤り単語リスト3の被聞き誤り単語10
4と音響的類似度テーブル4の要素間音響的類似度10
5に基づいて、入力テキスト101中の単語と被聞き誤
り単語104との音響的類似度を判定して被聞き誤り単
語候補を求め、言語処理結果103と被聞き誤り単語候
補とを単語候補付き言語処理結果106として出力する
音響的類似度判定部である。
【0037】さらに、図1において、6は単語候補付き
言語処理結果106に基づいて、入力テキスト101中
の単語を対応する被聞き誤り単語候補と置換した場合の
被聞き誤り単語候補を含むアクセント句のアクセント位
置を判定する共に、被聞き誤り単語候補の絞り込みを行
ない、絞り込まれた被聞き誤り単語候補と言語処理結果
103とをアクセント位置判定済み単語候補付き言語処
理結果107として出力するアクセント位置判定部であ
る。
【0038】さらに、図1において、7は単語共起確率
の一例としてN単語の共起確率を表わすN単語共起確率
108を保持している単語共起確率テーブル、8はアク
セント位置判定済み単語候補付き言語処理結果107と
単語共起確率テーブル7のN単語共起確率108に基づ
いて、入力テキスト101中の単語を被聞き誤り単語候
補と置換した場合の言語的妥当性を判定して、被聞き誤
り単語候補の絞り込みを行ない、絞り込まれた被聞き誤
り単語候補と言語処理結果103とを言語的妥当性判定
済み単語候補付き言語処理結果109として出力する言
語的妥当性判定部である。
【0039】さらに、図1において、9は音声合成単位
110をあらかじめ記憶している音声合成単位記憶部、
10は言語的妥当性判定済み単語候補付き言語処理結果
109に基づいて、聞き誤り単語候補が存在する単語に
対して聞き取りやすい合成音声を作成するよう制御を行
なう音韻パラメータ111を生成する音韻パラメータ生
成部である。
【0040】さらに、図1において、11は言語的妥当
性判定済み単語候補付き言語処理結果109に基づい
て、被聞き誤り単語候補が存在する単語に対して聞き取
りやすい合成音声を作成するよう制御を行なう韻律制御
パラメータ112を作成する韻律制御パラメータ生成
部、12は音韻パラメータ111と韻律制御パラメータ
112から入力テキスト101に対する合成音声113
を作成して出力する音声合成部である。
【0041】図2は音響的類似度テーブル4の一例を示
す図であり、音素間の混同確率(%)を表わすconf
usion matrixである。
【0042】図3は単語共起確率テーブル7の一例を示
す図であり、単語共起確率として単語N−gram確率
を使用した場合のテーブルを示している。図において、
P(w3 |w2 /w1 )は、w1 2 の後にw3 が出現
する確率(%)を表わす。
【0043】図4はこの実施の形態1による音声合成装
置の動作例を示す図である。図において、101aは入
力テキスト例であり、103aは入力テキスト例101
aに対して言語処理部2が出力する言語処理結果例であ
る。なお、言語処理結果例103aにおいて、{ }が
アクセント句、( )が単語情報を示しており、単語毎
に(単語表記 読み 品詞名)を示し、アクセント句毎
にアクセント位置を示している。図4では、アクセント
位置は「0」となっており、基本アクセント型は「0
型」である。
【0044】また、図4において、106aは言語処理
結果例103aに対して音響的類似度判定部5が出力す
る単語候補付き言語処理結果例である。単語候補付き言
語処理結果例106aは、言語処理結果例103aに被
聞き誤り単語候補が付加された形になっている。図にお
いて、〈 〉が被聞き誤り単語候補の情報を示してお
り、入力テキスト例101aの単語の位置番号に続い
て、被聞き誤り単語候補(《 》で囲まれた部分)に関
する記述を行なう。さらに、《 》内では順に、単語表
記、読み、品詞名、基本アクセント型、異なり音素位置
の情報を記述する。異なり音素位置の情報は、[ ]の
中で括られ、当該単語と、対応する被聞き誤り単語候補
間における、異なり音素の位置番号の組み合わせを示し
ている。なお、異なり音素の組み合わせが複数存在する
場合は、異なり音素の組み合わせごとに[ ]で括り、
その位置番号の組を表記する。
【0045】さらに、図4において、107aは単語候
補付き言語処理結果例106aに対してアクセント位置
判定部6が出力するアクセント位置判定済み単語候補付
き言語処理結果例である。109aはアクセント位置判
定済み単語候補付き言語処理結果例107aに対して言
語的妥当性判定部8が出力する言語的妥当性判定済み単
語候補付き言語処理結果例である。
【0046】次に動作について説明する。ここでは、例
えば、図4に示す入力テキスト例101aを音声合成装
置に入力した場合を考える。言語処理部2は、言語解析
用辞書1の形態素情報102を参照して、入力テキスト
例101aを言語解析し、図4に示す言語処理結果例1
03aを出力する。
【0047】音響的類似度判定部5は、言語処理結果例
103aと図2に示す音響的類似度テーブル4と被聞き
誤り単語リスト3に基づいて、言語処理結果例103a
中の単語毎に、被聞き誤り単語リスト3中の被聞き誤り
単語104に対して音響的類似度の計算を行なう。具体
的には、言語処理結果例103a中の自立語である各単
語に対して、被聞き誤り単語リスト3から品詞名が同一
である被聞き誤り単語104を選択し、被聞き誤り単語
104との音響的類似度を計算して、所定の閾値(例え
ば−1.0)を越えた被聞き誤り単語104を被聞き誤
り単語候補とする。
【0048】音響的類似度の計算は、図2に示す、音素
認識における音素間の混同確率に加え音素の脱落や付加
が起こる確率を考慮したconfusion matr
ixを利用して、動的計画法を用いて2つの音素系列の
比較することによって実現できる。この方法は、例え
ば、三輪譲二、新津善弘、牧野省三、坂戸健一著、「音
声スペクトルの概略形とその動特性を利用した単語音声
認識システム」、日本音響学会誌、vol.34,N
o.3,1978に記載されている。
【0049】被聞き誤り単語104の読みの音素系列D
と単語の読みの音素系列Wの音響的類似度s(D,W)
は、例えば音素系列に脱落と付加がそれぞれ3音素以上
連続しないこと、脱落と付加が連続しないことを仮定
し、動的計画法を用いて次の漸化式(1)で計算する。
また、この計算を行なう際に、最適パスを求めておき、
すなわち、音素系列Dと音素系列Wとの対応情報を求め
ておき、後で音素系列Dと音素系列W間における異なり
音素の位置情報として利用することにする。
【0050】 s(D,W)=g(I+1,J+1)/(I+J) g(i,j)=2l(i,j)+max{L,La ,Laa,Lo ,Loo} L=g(i−1,j−1) La =g(i−1,j−2)+la (i−1) Laa=g(i−1,j−3)+laa(j−2)+laa(j−1) Lo =g(i−2,j−1)+lo (i−1) Loo=g(i−3,j−1)+loo(i−2)+loo(i−1) g(0,0)=l(I+1,J+1)=0 g(i,0)=g(0、j)=−∞ ただし、i≠0,j≠0 g(i,J+1)=g(I+1、j)=−∞ ただし、i≠I+1,j≠J+1 (1)
【0051】上記漸化式(1)において、IはDの音素
数、JはWの音素数を示す。l(i,j)はconfu
sion matrixから得られるDのi番目の音素
とWのj番目の音素との対数確率を示し、同様にl
a (j),lo (i)は1音素の付加と脱落の対数確
率、laa(j),loo(i)は2音素連続の付加と脱落
の対数確率を示す。ここでは、簡単のため、Dのi番目
の音素とWのj番目の音素が同一の場合には、l(i,
j)=0と近似を行なって音響的類似度の計算を行な
う。また、図2のconfusion matrixに
おいて、音素/x/を音素/y/に混同する確率をC
(/x/,/y/)と表記することにする。
【0052】言語処理結果例103aでは、自立語であ
る「検索」「仕事」「行な」に対してそれぞれ、被聞き
誤り単語候補を求める。まず、「検索」と各被聞き誤り
単語104との音響的類似度を計算すると、以下のよう
になる。 s(teNsaku,keNsaku)=(2×l
(1,1))/(7+7)=(2×C(/t/,/k
/))/14=(2×log(10/100))/14
=−0.1428 ・・・ ・・・ s(geNsaku,teNsaku)=−∞ s(kyo−,teNsaku)=−∞
【0053】音響的類似度の値が一定の閾値を越えた
「teNsaku(添削)」が被聞き誤り単語候補とし
て求まる。同様にして、「仕事」に対して「日毎」が被
聞き誤り単語候補として求まり、「行な」に対して被聞
き誤り単語候補無しという結果が求まる。従って、音響
的類似度判定部5は、被聞き誤り単語候補として、例え
ば以下の形式のデータ 〈1,《添削 teNsaku 名詞 0 [1,
1]》〉 〈3,《日毎 higoto 名詞 0 [1,
1]》〉 を言語処理結果例103aに付加し、単語候補付き言語
処理結果例106aとしてアクセント位置判定部6に出
力する。
【0054】アクセント位置判定部6は、単語候補付き
言語処理結果結果例106aに基づいて、各被聞き誤り
単語候補と置換した場合のアクセント位置を求め、アク
セント位置が共通する各被聞き誤り単語候補のみに絞り
込む。入力テキスト例101aでは、1番目と3番目の
単語に対して、それぞれ独立に被聞き誤り単語候補と置
換し、当該のアクセント句においてアクセント位置を求
める。
【0055】アクセント位置を求めた結果、1番目の単
語「検索」を「添削」に置換した場合のアクセント句
「検索を」のアクセント位置は0型で置換前と同一であ
り、3番目の単語「仕事」を「日毎」に置換した場合の
アクセント句「日毎として」のアクセント位置は0型で
置換前と同一である。従って、アクセント位置判定部6
は、被聞き誤り単語候補を絞り込むことなく、単語候補
付き言語処理結果例106aを、アクセント位置判定済
み単語候補付き言語処理結果例107aとして言語的妥
当性判定部8に出力する。
【0056】言語的妥当性判定部8は、アクセント位置
判定済み単語候補付き言語処理結果例107aと単語共
起確率テーブル7のN単語共起確率108に基づいて、
入力テキスト例101aの1番目の単語「検索」を「添
削」に置換した場合の言語的妥当性と、3番目の単語
「仕事」を「日毎」に置換した場合の言語的妥当性の判
定を行なう。
【0057】例えば、単語共起確率テーブル7として図
3に示す単語N−gram確率(例えば、北研二著、
「確率的言語モデル」、pp.57−pp.72,東京
大学出版会)のテーブルを用いて、入力テキスト例10
1aの単語の言語的妥当性を表わす確率である言語的妥
当度と、当該単語を被聞き誤り単語候補と置換した場合
の言語的妥当度との大小関係を比較し、前者の言語的妥
当度の方が大きい場合には被聞き誤り単語候補の絞り込
みを行ない、小さい場合には被聞き誤り単語候補として
残す。
【0058】例えば、N=3として言語的妥当性を計算
する場合、単語列 ・・・wi-2 i-1 i i+1 i+2 ・・・ に対して、wi-2 i-1 の後にwi が出現する確率を P(wi |wi-1 /wi-2 ) とすると、単語wi の言語的妥当度V(wi )はwi
関連する3つの単語3−gram確率の積 P(wi |wi-1 /wi-2 )×P(wi+1 |wi /w
i-1 )×P(wi+2 |w i+1 /wi ) により求まる。ただし、文頭や文末に関しては定義でき
ない3−gram確率が存在するので、その3−gra
m確率は2−gram確率で代用する。
【0059】まず、入力テキスト例101aでは、1番
目の単語「検索」に対する処理として、入力テキスト例
101a中における単語「検索」の言語的妥当度V(検
索)、及び「添削」の言語的妥当度V(添削)を計算す
ると、 V(検索)=P(検索|<文頭>)×P(を|検索/<
文頭>)×P(仕事|を/検索) =0.001×0.05×0.04 =2.0×10-6 V(添削)=P(添削|<文頭>)×P(を|添削/<
文頭>)×P(仕事|を/添削) =0.001×0.05×0.07 =3.5×10-6 となる。V(添削)>V(検索)であるため、入力テキ
スト例101aにおいて、「添削」は「検索」より言語
的妥当性が高いと判定する。
【0060】同様にして、入力テキスト101aの3番
目の単語に対する処理として、「仕事」の言語的妥当度
V(仕事)及び「日毎」の言語的妥当度V(日毎)は、 V(仕事)=P(仕事|を/検索)×P(として|仕事
/を)×P(行な|として/仕事) =0.04×0.06×0.03 =7.2×10-5 V(日毎)=P(日毎|を/検索)×P(として|日毎
/を)×P(行な|として/日毎) =0 となり、V(日毎)<V(仕事)であるため、入力テキ
スト例101aにおいて、「仕事」は「日毎」より言語
的妥当性が高いと判定する。ただし、P(日毎|を/検
索)、P(として|日毎/を)及びP(行な|として/
日毎)は、単語共起テーブル7に存在しないため0とす
る。
【0061】以上の処理により、言語的妥当性判定部8
は、入力テキスト例101aの3番目の単語に対する被
聞き誤り単語候補である「日毎」を削除し、言語的妥当
性判定済み単語候補付き言語処理結果例109aを韻律
制御パラメータ生成部11と音韻パラメータ生成部10
に出力する。
【0062】韻律制御パラメータ生成部11は、言語的
妥当性判定済み単語候補付き言語処理結果例109aに
基づいて、入力テキスト例101aの単語「検索」の部
分の発話速度が他の部分と比較して遅くなるように、入
力テキスト例101aに対して韻律制御パラメータ11
2を生成し音声合成部12に出力を行なう。
【0063】一方、音韻パラメータ生成部10は、言語
的妥当性判定済み言語処理結果例109a中の被聞き誤
り単語候補のデータ 〈1,《添削 teNsaku 名詞 0 [1,
1]》〉 の[1,1]を参照して、「添削」の1番目の音素tの
音声合成単位110との音響的距離(例えば、ケプスト
ラム距離)が最大である音素kの音声合成単位110を
選択すると共に、入力テキスト例101aの読みに対応
する音声合成単位110を音声合成単位記憶部9から読
み出し、音韻パラメータ111として出力する。音素k
のi番目の音声合成単位をci (k)、音素tのj番目
の音声合成単位をcj (t),ci (k)とcj (t)
との正規化された音響的距離をd(ci (k),c
j (t))としたとき、音素kの音声合成単位は、
【数1】 を最大にするi、すなわち、次の(2)式のIによって
表わされるcI (k)を選択すれば良い。
【数2】
【0064】音声合成部12は、入力テキスト例101
aの単語「検索」の部分の発話速度を遅くした韻律制御
パラメータ112と、「添削」の1番目の音素tと聞き
誤りにくい「検索」の1番目の音素kを選択した音韻パ
ラメータ111に基づいて、聞き誤りにくい合成音声1
13を作成して出力する。
【0065】この実施の形態1では、韻律制御パラメー
タ生成部11において、入力テキスト101中の聞き誤
りやすい単語に対して、発話速度に関する韻律制御パラ
メータ112を変化させているが、変化させる韻律制御
パラメータ112は、音量又はポーズに関するもの等、
他の韻律制御パラメータでも良い。
【0066】また、この実施の形態1では、言語的妥当
性判定部8における言語的妥当性の判定において、判定
基準として入力テキスト101の単語に関する単語共起
確率と、当該単語を被聞き誤り単語候補と置換した場合
の単語共起確率との大小関係を用いているが、当該の単
語共起確率間の大小関係の代わりに、当該単語を被聞き
誤り単語候補と置換した場合の単語共起確率と所定の閾
値との大小関係を用いても良い。
【0067】さらに、この実施の形態1では、言語的妥
当性判定部8が、アクセント位置判定済み単語候補付き
言語処理結果107と単語共起確率テーブル7のN単語
共起確率108に基づいて、入力テキスト101中の単
語を被聞き誤り単語候補と置換した場合の言語的妥当性
を判定しているが、単語共起確率テーブル7と言語的妥
当性判定部8を削除し、アクセント位置判定済み単語候
補付き言語処理結果107を直接、音韻パラメータ生成
部10と韻律制御パラメータ11に出力するようにして
も良い。
【0068】以上のように、この実施の形態1によれ
ば、入力テキスト101の単語に対して、音響的類似度
判定部5が聞き誤りやすい単語が一般的に存在するかを
確認し、アクセント位置判定部6が入力テキスト101
の単語を聞き誤りやすい単語に置換した場合のアクセン
ト位置を考慮して聞き誤りやすい単語を絞り、音韻パラ
メータ生成部10が、絞られた聞き誤りやすい単語を考
慮して、すなわち、聞き誤りやすい単語の音素の音声合
成単位110との音響的距離が最大である音素の音声合
成単位を選択して音韻パラメータ111を生成すること
により、聞き取りやすい合成音声113を作成すること
ができるという効果が得られる。
【0069】また、この実施の形態1によれば、言語的
妥当性判定部8が入力テキスト101の単語を聞き誤り
やすい単語に置換した場合の言語的妥当性を考慮して聞
き誤りやすい単語を絞り込むことで、音響的には類似し
た単語であってもコンテキストの妥当性から聞き誤るこ
とのない単語の自然性を保持しながら、聞き取りやすい
合成音声を作成することができるという効果が得られ
る。
【0070】実施の形態2.この実施の形態2では、上
記実施の形態1の言語的妥当性判定部8と単語共起確率
テーブル7において用いた単語共起確率(単語N−gr
am確率)の代わりに別の単語共起確率を用いる。この
単語共起確率の単語共起を算定する条件は、次の条件を
全て満たすものとする。 (1)単語の出現順序の制約が無い。 (2)算定対象とする単語は自立語である。 (3)算定対象とする単語は同一文内に存在する単語の
みとする。 (4)N=2とする。 この単語共起確率は、Nの値が同じ単語N−gram確
率と比較して制約が少ないので、単語共起確率を学習す
る際のデータ量が少なくて済み、単語共起確率としての
信頼性を向上させることができる。
【0071】図5は実施の形態2における単語共起確率
テーブル7の一例を示す図であり、図において、P(w
i ,wj )(ただし、i≠j)は、同一文中で自立語で
ある単語wi とwj が、出現順序の制約がなく共起する
確率を表わしている。
【0072】次に動作について説明する。言語的妥当性
判定部8以外の動作は実施の形態1と同様なので省略す
る。言語的妥当性判定部8は、n個の自立語(w1 ,w
2 ,w3 ,・・・,wn )から構成される文のwi の言
語的妥当性V(wi )を次の(3)式から求める。
【数3】
【0073】そこで、図5に示す単語共起確率テーブル
7の一例に基づいて、図4に示す入力テキスト例101
aにおける単語「検索」の言語的妥当度V(検索)、及
び「添削」の言語的妥当度V(添削)を計算すると、 V(検索)=P(検索,仕事)×P(検索,行な) =0.02×0.01 =2.0×10-4 V(添削)=P(添削,仕事)×P(添削,行な) =0.04×0.01 =4.0×10-4 となる。以下は実施の形態1と同様なので省略する。
【0074】なお、この実施の形態2では、言語的妥当
性判定部8における言語的妥当性の判定に単語共起確率
として、同一文内に存在する自立語である単語のみを対
象とした、単語の出現順序に関する制約のない単語共起
確率を用いたが、単語共起確率の代わりに、単語の出現
順序や単語の品詞種類や単語の算定範囲やNの値等の単
語共起を算定する条件が異なる単語共起確率を用いても
良い。
【0075】また、この実施の形態2では、単語共起確
率の単語共起を算定する条件として、上記(1)〜
(4)の全ての条件を満たす単語共起確率を用いている
が、いずれかの条件を満たす単語共起確率を用いても良
い。
【0076】以上のように、この実施の形態2によれ
ば、言語的妥当性判定部8が、単語の言語的妥当性と、
単語を一般的な単語で置換した場合の言語的妥当性を判
定する際に、同一文内に存在する自立語である単語のみ
を対象とすると共に、自立語が出現する順序に関する制
約がない単語共起確率を用いたので、共起情報を学習す
るコーパスのデータ量を少なくしても、実施の形態1と
同様に、適切に聞き誤りやすい単語を検出でき、聞き取
りやすい合成音声113を作成することができるという
効果が得られる。
【0077】
【発明の効果】以上のように、この発明によれば、言語
処理部と、音響的類似度判定部と、アクセント位置判定
部と、韻律制御パラメータ生成部と、音韻パラメータ生
成部と、音声合成部とを備えたことにより、聞き取りや
すい合成音声を作成することができるという効果があ
る。
【0078】この発明によれば、言語処理部と、音響的
類似度判定部と、アクセント位置判定部と、言語的妥当
性判定部と、韻律制御パラメータ生成部と、音韻パラメ
ータ生成部と、音声合成部とを備えたことにより、音響
的には類似した単語であってもコンテキストの妥当性か
ら聞き誤ることのない単語の自然性を保持しながら、聞
き取りやすい合成音声を作成することができるという効
果がある。
【0079】この発明によれば、韻律制御パラメータ生
成部が、発話速度、音量又はポーズに関する韻律制御パ
ラメータを生成することにより、聞き取りやすい合成音
声を作成することができるという効果がある。
【0080】この発明によれば、音韻パラメータ生成部
が、単語と被聞き誤り単語との音響的距離に基づいて、
音韻パラメータを生成することにより、聞き取りやすい
合成音声を作成することができるという効果がある。
【0081】この発明によれば、言語的妥当性判定部
が、単語共起確率に基づいて、入力テキスト中の単語を
被聞き誤り単語候補と置換した場合の言語的妥当性の判
定を行なうことにより、聞き取りやすい合成音声を作成
することができるという効果がある。
【0082】この発明によれば、言語的妥当性判定部
が、同一文内に存在する単語に関する単語共起確率に基
づいて、入力テキスト中の単語を被聞き誤り単語候補と
置換した場合の言語的妥当性の判定を行なうことによ
り、共起情報を学習するコーパスのデータ量を少なくし
ても、聞き取りやすい合成音声を作成することができる
という効果がある。
【0083】この発明によれば、言語的妥当性判定部
が、特定の品詞の単語のみに関する単語共起確率に基づ
いて、入力テキスト中の単語を被聞き誤り単語候補と置
換した場合の言語的妥当性の判定を行なうことにより、
共起情報を学習するコーパスのデータ量を少なくして
も、聞き取りやすい合成音声を作成することができると
いう効果がある。
【0084】この発明によれば、言語的妥当性判定部
が、単語の出現順序に関する制約のない単語共起確率に
基づいて、入力テキスト中の単語を被聞き誤り単語候補
と置換した場合の言語的妥当性の判定を行なうことによ
り、共起情報を学習するコーパスのデータ量を少なくし
ても、聞き取りやすい合成音声を作成することができる
という効果がある。
【0085】この発明によれば、言語的妥当性判定部
が、単語N−gram確率である単語共起確率に基づい
て、入力テキスト中の単語を被聞き誤り単語候補と置換
した場合の言語的妥当性の判定を行なうことにより、聞
き取りやすい合成音声を作成することができるという効
果がある。
【0086】この発明によれば、言語的妥当性判定部
が、入力テキスト中の単語に関する単語共起確率と、単
語を被聞き誤り単語候補と置換した場合の単語共起確率
との大小関係に基いて、入力テキスト中の単語を被聞き
誤り単語候補と置換した場合の言語的妥当性の判定を行
なうことにより、聞き取りやすい合成音声を作成するこ
とができるという効果がある。
【0087】この発明によれば、言語的妥当性判定部
が、単語を被聞き誤り単語候補と置換した場合の単語共
起確率と所定の閾値との大小関係に基づいて、入力テキ
スト中の単語を被聞き誤り単語候補と置換した場合の言
語的妥当性の判定を行なうことにより、聞き取りやすい
合成音声を作成することができるという効果がある。
【0088】この発明によれば、入力テキストの言語解
析を行なう第1のステップと、入力テキスト中の単語と
被聞き誤り単語との音響的類似度を判定する第2のステ
ップと、入力テキスト中の単語を対応する被聞き誤り単
語候補に置換した場合の被聞き誤り単語候補を含むアク
セント句のアクセント位置を判定する第3のステップ
と、韻律制御パラメータを生成する第4のステップと、
音韻パラメータを生成する第5のステップと、合成音声
を作成する第6のステップとを備えたことにより、聞き
取りやすい合成音声を作成することができるという効果
がある。
【0089】この発明によれば、入力テキストの言語解
析を行なう第1のステップと、入力テキスト中の単語と
被聞き誤り単語との音響的類似度を判定する第2のステ
ップと、入力テキスト中の単語を対応する被聞き誤り単
語候補に置換した場合の被聞き誤り単語候補を含むアク
セント句のアクセント位置を判定する第3のステップ
と、入力テキスト中の単語を被聞き誤り単語候補と置換
した場合の言語的妥当性を判定する第4のステップと、
韻律制御パラメータを生成する第5のステップと、音韻
パラメータを生成する第6のステップと、合成音声を作
成する第7のステップとを備えたことにより、音響的に
は類似した単語であってもコンテキストの妥当性から聞
き誤ることのない単語の自然性を保持しながら、聞き取
りやすい合成音声を作成することができるという効果が
ある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声合成装置
の構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声合成装置
の音響的類似度テーブルの一例を示す図である。
【図3】 この発明の実施の形態1による音声合成装置
の単語共起確率テーブルの一例を示す図である。
【図4】 この発明の実施の形態1による音声合成装置
の動作例を示す図である。
【図5】 この発明の実施の形態2による音声合成装置
の単語共起確率テーブルの一例を示す図である。
【図6】 従来例1の音声合成装置の構成を示すブロッ
ク図である。
【図7】 従来例1の音声合成装置の語義テーブルに登
録されている単語と語義文の例を示す図である。
【図8】 従来例2の音声合成装置の構成を示すブロッ
ク図である。
【符号の説明】
1 言語解析用辞書、2 言語処理部、3 被聞き誤り
単語リスト、4 音響的類似度テーブル、5 音響的類
似度判定部、6 アクセント位置判定部、7単語共起確
率テーブル、8 言語的妥当性判定部、9 音声合成単
位記憶部、10 音韻パラメータ生成部、11 韻律制
御パラメータ生成部、12 音声合成部、101 入力
テキスト、101a 入力テキスト例、102 形態素
情報、103 言語処理結果、103a 言語処理結果
例、104 被聞き誤り単語、105 要素間音響的類
似度、106 単語候補付き言語処理結果、106a単
語候補付き言語処理結果例、107 アクセント位置判
定済み単語候補付き言語処理結果、107a アクセン
ト位置判定済み単語候補付き言語処理結果例、108
N単語共起確率、109 言語的妥当性判定済み単語候
補付き言語処理結果、109a 言語的妥当性判定済み
単語候補付き言語処理結果例、110音声合成単位、1
11 音韻パラメータ、112 韻律制御パラメータ、
113合成音声。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石川 泰 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5D045 AA09 AB01

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力テキストの言語解析を行ない言語処
    理結果を出力する言語処理部と、 上記言語処理結果に基づいて、上記入力テキスト中の単
    語と、この単語と聞き誤られやすい単語である被聞き誤
    り単語との音響的類似度を判定して、上記言語処理結果
    と上記被聞き誤り単語候補を単語候補付き言語処理結果
    として出力する音響的類似度判定部と、 上記単語候補付き言語処理結果に基づいて、上記入力テ
    キスト中の単語を対応する上記被聞き誤り単語候補に置
    換した場合の上記被聞き誤り単語候補を含むアクセント
    句のアクセント位置を判定して、絞り込まれた被聞き誤
    り単語候補と上記言語処理結果とをアクセント位置判定
    済み単語候補付き言語処理結果として出力するアクセン
    ト位置判定部と、 上記アクセント位置判定済み単語候補付き言語処理結果
    に基づいて、上記被聞き誤り単語候補が存在する単語に
    対して聞き取りやすい合成音声を作成するよう制御を行
    なう韻律制御パラメータを生成する韻律制御パラメータ
    生成部と、 上記アクセント位置判定済み単語候補付き言語処理結果
    に基づいて、上記被聞き誤り単語候補が存在する単語に
    対して聞き取りやすい合成音声を作成するよう制御を行
    なう音韻パラメータを生成する音韻パラメータ生成部
    と、 上記韻律制御パラメータと上記音韻パラメータから合成
    音声を作成する音声合成部とを備えた音声合成装置。
  2. 【請求項2】 入力テキストの言語解析を行ない言語処
    理結果を出力する言語処理部と、 上記言語処理結果に基づいて、上記入力テキスト中の単
    語と、この単語と聞き誤られやすい単語である被聞き誤
    り単語との音響的類似度を判定して、上記言語処理結果
    と上記被聞き誤り単語候補を単語候補付き言語処理結果
    として出力する音響的類似度判定部と、 上記単語候補付き言語処理結果に基づいて、上記入力テ
    キスト中の単語を対応する上記被聞き誤り単語候補に置
    換した場合の上記被聞き誤り単語候補を含むアクセント
    句のアクセント位置を判定して、絞り込まれた被聞き誤
    り単語候補と上記言語処理結果とをアクセント位置判定
    済み単語候補付き言語処理結果として出力するアクセン
    ト位置判定部と、 上記アクセント位置判定済み単語候補付き言語処理結果
    に基づいて、上記入力テキスト中の単語を被聞き誤り単
    語候補と置換した場合の言語的妥当性を判定して、言語
    的妥当性判定済み単語候補付き言語処理結果を出力する
    言語的妥当性判定部と、 上記言語的妥当性判定済み単語候補付き言語処理結果に
    基づいて、上記被聞き誤り単語候補が存在する単語に対
    して聞き取りやすい合成音声を作成するよう制御を行な
    う韻律制御パラメータを生成する韻律制御パラメータ生
    成部と、 上記言語的妥当性判定済み単語候補付き言語処理結果に
    基づいて、上記被聞き誤り単語候補が存在する単語に対
    して聞き取りやすい合成音声を作成するよう制御を行な
    う音韻パラメータを生成する音韻パラメータ生成部と、 上記韻律制御パラメータと上記音韻パラメータから合成
    音声を作成する音声合成部とを備えた音声合成装置。
  3. 【請求項3】 韻律制御パラメータ生成部が、発話速
    度、音量又はポーズに関する韻律制御パラメータを生成
    することを特徴とする請求項1又は請求項2記載の音声
    合成装置。
  4. 【請求項4】 音韻パラメータ生成部が、単語と被聞き
    誤り単語との音響的距離に基づいて、音韻パラメータを
    生成することを特徴とする請求項1又は請求項2記載の
    音声合成装置。
  5. 【請求項5】 言語的妥当性判定部が、単語共起確率に
    基づいて、入力テキスト中の単語を被聞き誤り単語候補
    と置換した場合の言語的妥当性の判定を行なうことを特
    徴とする請求項2記載の音声合成装置。
  6. 【請求項6】 言語的妥当性判定部が、同一文内に存在
    する単語に関する単語共起確率に基づいて、入力テキス
    ト中の単語を被聞き誤り単語候補と置換した場合の言語
    的妥当性の判定を行なうことを特徴とする請求項5記載
    の音声合成装置。
  7. 【請求項7】 言語的妥当性判定部が、特定の品詞の単
    語のみに関する単語共起確率に基づいて、入力テキスト
    中の単語を被聞き誤り単語候補と置換した場合の言語的
    妥当性の判定を行なうことを特徴とする請求項5記載の
    音声合成装置。
  8. 【請求項8】 言語的妥当性判定部が、単語の出現順序
    に関する制約のない単語共起確率に基づいて、入力テキ
    スト中の単語を被聞き誤り単語候補と置換した場合の言
    語的妥当性の判定を行なうことを特徴とする請求項5記
    載の音声合成装置。
  9. 【請求項9】 言語的妥当性判定部が、単語N−gra
    m確率である単語共起確率に基づいて、入力テキスト中
    の単語を被聞き誤り単語候補と置換した場合の言語的妥
    当性の判定を行なうことを特徴とする請求項5記載の音
    声合成装置。
  10. 【請求項10】 言語的妥当性判定部が、入力テキスト
    中の単語に関する単語共起確率と、上記単語を被聞き誤
    り単語候補と置換した場合の単語共起確率との大小関係
    に基いて、入力テキスト中の単語を上記被聞き誤り単語
    候補と置換した場合の言語的妥当性の判定を行なうこと
    を特徴とする請求項5記載の音声合成装置。
  11. 【請求項11】 言語的妥当性判定部が、単語を被聞き
    誤り単語候補と置換した場合の単語共起確率と所定の閾
    値との大小関係に基づいて、入力テキスト中の単語を被
    聞き誤り単語候補と置換した場合の言語的妥当性の判定
    を行なうことを特徴とする請求項5記載の音声合成装
    置。
  12. 【請求項12】 入力テキストの言語解析を行なう第1
    のステップと、 上記第1のステップの結果に基づいて、上記入力テキス
    ト中の単語と、この単語と聞き誤られやすい単語である
    被聞き誤り単語との音響的類似度を判定する第2のステ
    ップと、 上記第2のステップの結果に基づいて、上記入力テキス
    ト中の単語を対応する上記被聞き誤り単語候補に置換し
    た場合の上記被聞き誤り単語候補を含むアクセント句の
    アクセント位置を判定する第3のステップと、 上記第3のステップの結果に基づいて、上記被聞き誤り
    単語候補が存在する単語に対して聞き取りやすい合成音
    声を作成するよう制御を行なう韻律制御パラメータを生
    成する第4のステップと、 上記第3のステップの結果に基づいて、上記被聞き誤り
    単語候補が存在する単語に対して聞き取りやすい合成音
    声を作成するよう制御を行なう音韻パラメータを生成す
    る第5のステップと、 上記韻律制御パラメータと上記音韻パラメータから合成
    音声を作成する第6のステップとを備えた音声合成方
    法。
  13. 【請求項13】 入力テキストの言語解析を行なう第1
    のステップと、 上記第1のステップの結果に基づいて、上記入力テキス
    ト中の単語と、この単語と聞き誤られやすい単語である
    被聞き誤り単語との音響的類似度を判定する第2のステ
    ップと、 上記第2のステップの結果に基づいて、上記入力テキス
    ト中の単語を対応する上記被聞き誤り単語候補に置換し
    た場合の上記被聞き誤り単語候補を含むアクセント句の
    アクセント位置を判定する第3のステップと、 上記第3のステップの結果に基づいて、上記入力テキス
    ト中の単語を被聞き誤り単語候補と置換した場合の言語
    的妥当性を判定する第4のステップと、 上記第4のステップの結果に基づいて、上記被聞き誤り
    単語候補が存在する単語に対して聞き取りやすい合成音
    声を作成するよう制御を行なう韻律制御パラメータを生
    成する第5のステップと、 上記第4のステップの結果に基づいて、上記被聞き誤り
    単語候補が存在する単語に対して聞き取りやすい合成音
    声を作成するよう制御を行なう音韻パラメータを生成す
    る第6のステップと、 上記韻律制御パラメータと上記音韻パラメータから合成
    音声を作成する第7のステップとを備えた音声合成方
    法。
JP2002149766A 2002-05-23 2002-05-23 音声合成装置及び音声合成方法 Pending JP2003345372A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002149766A JP2003345372A (ja) 2002-05-23 2002-05-23 音声合成装置及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002149766A JP2003345372A (ja) 2002-05-23 2002-05-23 音声合成装置及び音声合成方法

Publications (1)

Publication Number Publication Date
JP2003345372A true JP2003345372A (ja) 2003-12-03

Family

ID=29767829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002149766A Pending JP2003345372A (ja) 2002-05-23 2002-05-23 音声合成装置及び音声合成方法

Country Status (1)

Country Link
JP (1) JP2003345372A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013517540A (ja) * 2010-03-31 2013-05-16 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法
KR20210038673A (ko) * 2016-08-12 2021-04-07 매직 립, 인코포레이티드 단어 흐름 주석

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013517540A (ja) * 2010-03-31 2013-05-16 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法
KR20210038673A (ko) * 2016-08-12 2021-04-07 매직 립, 인코포레이티드 단어 흐름 주석
KR102610021B1 (ko) * 2016-08-12 2023-12-04 매직 립, 인코포레이티드 단어 흐름 주석

Similar Documents

Publication Publication Date Title
US20230012984A1 (en) Generation of automated message responses
US11735162B2 (en) Text-to-speech (TTS) processing
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US20230317074A1 (en) Contextual voice user interface
EP3387646B1 (en) Text-to-speech processing system and method
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
JP3994368B2 (ja) 情報処理装置および情報処理方法、並びに記録媒体
US10163436B1 (en) Training a speech processing system using spoken utterances
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
EP1643486A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US11837225B1 (en) Multi-portion spoken command framework
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
US10699695B1 (en) Text-to-speech (TTS) processing
WO2007148493A1 (ja) 感情認識装置
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
EP1933302A1 (en) Speech recognition method
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Lobanov et al. Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis
JP3576066B2 (ja) 音声合成システム、および音声合成方法
US11393451B1 (en) Linked content in voice user interface
JP2003345372A (ja) 音声合成装置及び音声合成方法
JPH0962286A (ja) 音声合成装置および音声合成方法