JP4811557B2

JP4811557B2 - 音声再生装置及び発話支援装置

Info

Publication number: JP4811557B2
Application number: JP2005042916A
Authority: JP
Inventors: 真樹村田; 均井佐原
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-02-18
Filing date: 2005-02-18
Publication date: 2011-11-09
Anticipated expiration: 2025-02-18
Also published as: JP2006227425A

Description

本発明は、言語処理技術に関するものであって、特に音声合成処理により聞き取りやすい語句を用いるように、あるいは外国語で発話する際に発話者が発音しやすい語句を用いるように原文を変換する方法に係るものである。

近年生活の多くの場面で人工的に音声合成処理された音声を耳にする機会が増えている。音質的にもかなり改善が進んでおり、特定の文言を出力する場合にはイントネーションなどを細かく定義することで聞き取りやすい音声出力が実現できる。

しかしながら、Webコンテンツの読み上げなど任意のテキストを入力して音声合成を行うと、依然として聞き取りにくく、正確に内容が伝わらない恐れがある。一方で、テキストに対して適切な抑揚をつけることなどによって聞き取りやすくするための研究も進んでいるが、音声合成処理に関しての処理負荷が大きく、高速で再生する場合などに不向きな問題がある。

聞き手が聞き取りにくい別のケースとしては、外国語での発話時に、母国語との発音方法の違いから正確な発音が困難で、意思が伝わりにくい場合がある。特に国際会議などにおける発表時には予め原稿を用意しているため、文法的な誤りが少なく、用語の選択も正確であるにも関わらず、発話者の発音が不適当な結果、発話内容が聴衆に伝わらないことは多い。
外国語学習において周知のように、たとえば日本人が英語のＬとＲを適切に区別して発音することは困難である。これは日本語においてＬとＲに対応する発音の区別がなく、いずれも「ラリルレロ」で発音していることに起因していると考えられる。

発音は訓練によって大きく是正することが可能であるものの、ＬとＲの区別のようにいくつかの発音に関してはかなりの訓練を積まなければ適切に区別することはできない。通訳等、専門家でない者にとってこの負担は大きいものである。意思を明確に伝える観点からすると、必ずしも伝わりにくい単語を無理に用いて正確な発音を行うように訓練をせず、単にその単語を用いないようにすれば回避できる場合もある。

本件発明者らによる非特許文献１においては、入力された文章に対して変形部で変形の候補をあげ、評価部において変形の妥当性をチェックし、もっとも妥当であると判断されたものに変形し、それを出力するシステムを提案している。
評価部で用いられる尺度として、言い換え語句間での類似度や長さ、頻度等様々な尺度があることが紹介されている。

村田真樹、井佐原均「言い換えの統一的モデル尺度に基づく変形の利用」言語処理学会第７回年次大会ワークショップ論文集２００１年

例えば、長さを評価部の尺度として、より短い言い換えに高い評価を与えれば、文章の圧縮を行うことができる。
また、頻度を尺度にして、より頻度の高い単語に言い換えるようにすると、難解な文章を平易な単語で表現するように言い換えることができる。

本件発明者らは、上記文献において発音しにくい単語をあまり使わない尺度というものを当該文献において示唆したが、いかなる尺度であるのか具体的な研究が進んでいなかった。そのため、該文献の時点では発音しにくい単語を原文から除去するのか、あるいはいずれかの単語に言い換えるのか、その場合どのように言い換えるのか、技術的な考察が行われておらず、願望を記載したものにとどまっていた。

上記技術は下記の特許文献１などによっても開示されている。該開示では、複数種類の言い換えが必要な文または文章を、目的とする文または文章に簡単に変換することができるシステムを提供している。
具体的には、変形処理部が、変換対象文を入力すると変形規則記憶部中の変形規則を用いて多くの変換の候補を生成する。評価処理部は、生成された変換の候補について、文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価するための複数の評価尺度を用いて評価し、評価結果のよい表現の文字列を選択する。その評価の高い文字列を変換結果文として出力する。
評価尺度は、評価尺度選択部によって選択することができ、また選択した評価尺度の重要度は評価重要度設定部によって設定することができる。

特開2003-76687号公報

本件出願人以外による開示としては、下記特許文献２が挙げられる。該開示の技術は、単語・複合語を問わず、聞き取りにくい表現を音声による読み上げに適した表現に変換し得る自然言語処理方法を提供することを目的とした技術である。
具体的には、テキスト変換部の発音パターン抽出部が、発音規則テーブル内に該当する発音パターンが存在するかをサーチし、読み上げた際に聞きづらいと推定される部分を抽出する。次に、テキスト変換処理部が、テキスト変換規則テーブルを用いて、抽出された部分を、読み上げを前提としたテキストに変換する。文書を音読する際の音の組み合わせという、新規な観点から広く聞きづらい表現をサーチするので、複合語単位の表現でも適切な表現に置換できる、としている。

特開2000-172289号公報

しかし、上記非特許文献１及び特許文献１は一般的な言い換え技術を開示したものであって、これらによって発音しにくい単語を簡便に置き換える手法が提供されたとは言えない。すなわち如何なる尺度を用いて、如何なる言い換えに対し、如何なる評価を行うのかが一切開示されていないため、単にＬとＲを含まない単語に置き換えることはできても、その置き換えの有効性や正確性を評価できない。
このような従来の方法では、機械的な用語の置き換え作業を行ったのと変わりがなく、好適な言い換えによる発話支援を実現できない問題がある。

また、特許文献２は、本技術は音声読み上げに関連した技術であるが、置換に際して主に助詞やポーズを挿入することで聞き取りやすくする技術を開示しており、音声の正確な再現自体が困難な場合に適用できるものではない。もちろん、外国語に適用しても大きな効果を得ることはできない。

上述した従来技術のように、従来公知の技術では外国語発話時において発音が困難な語句を言い換える技術は提供されておらず、とくに国際会議におけるプレゼンテーションや、その原稿作成時に置き換え候補となる語句をユーザに呈示できるようなシステムは実現することができなかった。
本発明は、発話者にとって発音が困難な語句を、好適な言い換えによって表現し、聴衆への意思疎通を促すための発話支援方法及び装置を提供することを目的とする。

本発明は、上記の課題を解決するために、次のような発話支援装置を提供する。すなわち、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援装置を提供する。
該装置には、原稿テキストデータを装置内に取得する入力手段と、該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出手段を備える。
さらに、単語列に対する同義語句を備えた同義語データベースを記憶媒体に格納し、単語列抽出手段により抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段を有する。
また、予め各単語列中の所定の文字又は発音記号の数に応じて困難度を記録した発音困難度データベースを記憶媒体に格納し、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換手段と、上記手段により単語列が置換された口述用テキストを出力する出力手段とを備える。

本発明は、上記の発音困難度データベースが、２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第１アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義する構成でもよい。
本構成において、単語列置換手段が、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換することができる。

上記の発話支援装置が、前記原稿テキストと同一言語のコーパスデータベースを備え、単語列置換手段が、置換候補単語列及び、その前後k-gram（kは前後で同一又は異なる任意の数）の単語列との配列がコーパスデータベース中で出現する頻度を計数する頻度計数部と、該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する発音困難度比較置換部とを備える構成を提供する構成でもよい。

本発明によると、次のような発話支援方法を提供することもできる。該方法は、コンピュータ上で実行するプログラムにより提要してもよい。
すなわち、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援方法であって、入力手段が、原稿テキストデータを装置内に取得する入力ステップ、単語列抽出手段が、該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出ステップを有する。
そして、単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、予め各単語列中の所定の文字又は発音記号の数に応じて困難度を記録した発音困難度データベースを用いて単語列置換手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換ステップ、出力手段が、上記各ステップにより単語列が置換された口述用テキストを出力する出力ステップを少なくとも含んだ発話支援方法を提供する。

本発明は、上記の発音困難度データベースが、２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第１アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義する構成でもよい。
そして、単語列置換ステップにおいて、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換することができる。

上記の発話支援方法の単語列置換ステップにおいて、原稿テキストと同一言語のコーパスデータベースを用い、単語列置換手段が、該置換候補単語列及び、その前後k-gram（kは前後で同一又は異なる任意の数）の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する技術を提供してもよい。

本発明は、上記の技術を特にワードプロセッサプログラム上の機能として付加することもできる。
すなわち、コンピュータ上で、ワードプロセッサプログラムと共に用いられ、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力するようにコンピュータを機能させる発話支援プログラムを提供する。
そして、ワードプロセッサ処理手段において編集状態の原稿テキストデータを取得する原稿テキストデータ読み出しステップ、単語列抽出手段が、該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出ステップを有し、作成中の文書から単語列を抽出する。

さらに、単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、予め各単語列中の所定の文字又は発音記号の数に応じて困難度を記録した発音困難度データベースを用いて単語列選択手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択する単語列選択ステップを有する。
その上で、置換単語列呈示手段が、ワードプロセッサ処理手段において編集状態の原稿テキストデータと共に、単語列選択ステップで選択された置換する単語列を呈示し、ユーザに置換の有無の入力を促す置換単語列呈示ステップ、単語列置換手段が、ユーザの入力に応じて、単語列の置換を行う単語列置換ステップを含み、以上の各ステップをコンピュータに機能させることを特徴とする、ワードプロセッサプログラムと共に用いられる発話支援プログラムを提供するものである。

本発明は、上記の発音困難度データベースが、２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第１アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義する構成でもよい。
そして、置換単語列呈示ステップにおいて、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出する構成でもよい。

請求項９に記載の発明は、発話支援プログラムの置換単語列呈示ステップにおいて、原稿テキストと同一言語のコーパスデータベースを用い、置換単語列呈示手段が、置換候補単語列及び、その前後k-gram（kは前後で同一又は異なる任意の数）の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列を呈示することを特徴とする。

以上の発明により次の効果を奏する。すなわち、同義語データベースから多くの置換候補を得ると共に、発音の困難性を定量的に定めた発音困難性データベースを参照することにより、置換の重要性を数値化して評価し、最も適切な置換候補を選択することができる。
特に、前後の単語列との配列がコーパス中に出現するか否かを調べることによって、不自然な置換を行わないようにすることができる。

また、請求項７ないし９に記載の発明のようにワードプロセッサプログラムと組み合わせて使用することにより、口述用の原稿を作成しながら、随時に発音のしにくい単語列の言い換え候補を呈示される構成を提供することができるので、効率的な発話支援に寄与する。

以下、本発明の実施形態を図面に示しながら説述する。なお、本発明の実施においては、以下に限定されることなく、任意に変形、応用等を行うことが可能である。
図１は本発明における発話支援装置（１）の構成図である。本装置（１）は周知のパーソナルコンピュータ等によって構成することが望ましい。これらには、演算処理やテキスト処理を司るＣＰＵ（１０）と共に、処理中のデータや、処理に用いるデータベースを格納するハードディスク（１１）や、表示を行うディスプレイ、ＣＰＵ（１０）と協働するメモリ（１３）などが備えられている。

まず、本装置（１）に対して原稿テキスト（２０）を入力する。原稿テキストは、プレゼンテーションなどで読み上げる為の原稿であり、資料や論文などに基づいて作成される。これら原稿テキストは文法的、語句の用法などは誤っていないが、発音のしやすさなどは考慮せずに作成されたものである。

そして、原稿テキスト取得部（２１）が該テキストデータをＣＰＵ（１０）内に入力する。この処理は通常はハードディスク（１１）からのデータ読み出しなど一般的な処理である。
入力された原稿テキストは、次の単語列抽出部（２２）で抽出処理される。
本実施例では原稿テキストとして英文の発表用原稿を例に挙げて以下説述する。

英語やフランス語、韓国語などは、一般に分かち書きと呼ばれる単語毎に空白を空ける方法で記載される。実際の発音は隣接する単語間で融合した発音となる場合も多いが、原則的には空白で区切られた単語毎に発音が途切れる。
したがって、本発明のように発音に着目する場合、空白で区切られた単語を抽出するのが簡便であり合理的である。
単語列抽出部（２２）は空白コードを参照しながらテキストデータから単語を抽出していく。その際、ハードディスクに辞書データなどを備えるか、後述する同義語データベースやコーパスに含まれる情報を用いて、複数の単語で１つの意味を持つ熟語などの単語列を抽出してもよい。

もっとも本発明は、英語等の発話支援に限らず日本語を対象としてもよく、その場合には公知の形態素解析処理を用いて、日本語テキストデータから単語列を抽出してもよい。
形態素解析処理は周知のさまざまな手法を用いることができるが、例えば形態素解析プログラムであるＪＵＭＡＮを用いて形態素解析して、形態素列に分解することができる。なお、本発明の実施においては文法的に厳密な形態素解析は特に必要ではない。発音の単位毎に分割することが主な目的であるから、単に辞書データを参照して、記載される文字数の多い単語毎に抽出するといった方法でもよい。

単語列抽出部（２２）で抽出された単語列毎に、言い換えを行う必要があるか、必要がある場合には如何なる語句に言い換えるか、次の処理により決定する。
すなわち、置換候補単語列検索部（２３）はハードディスク内（１１）に格納された同義語データベース（２４）を参照して、抽出単語列に同義語（置換候補単語列）があるか否か検索する。

同義語データベース（２４）として、本実施例では英語の同義語データベースであるWordNet2.0（非特許文献２）を用いた。
http://wordnet.princeton.edu/ ,Princeton University, Wordnet 2.0.２００３年

なお、英語の場合には動詞の活用形や名詞の複数形などについても同義語表現として抽出する必要があるため、上記同義語データベースにはこれらの情報も付加して用いている。

そして検索の結果、置換候補単語列が存在する単語列は該候補と共に次の単語列置換部（２５）に、それ以外の単語列はそのまま置換候補単語列検索部（２３）から出力される。
単語列置換部（２５）では置換候補単語列に言い換えを行うのが良いか、発音困難度データベース（２６）を参照して演算により決定する。

発音困難度データベース（２６）には、図２に示すようなデータテーブルを備えている。すなわち、本データベースは発音の困難度を定量的に設定したものであって、単語列の有する特性に対して困難度を与える。
困難度は例えば欄（３０）のようにrightという単語の困難度１３と各単語に対して個別に設定しても良い。しかし、全ての発音困難な単語を抽出するのは膨大な作業を必要とするため、欄（３１）〜（３３）のように単語の特性から単語列置換部（２５）で算出するのが望ましい。

すなわち、単語列置換部（２５）は抽出された単語列における所定の文字か、発音記号の数等を計数して、発音困難度データベース（２６）に格納された計算式に基づいて単語列の発音困難度を算出する。
計算式は任意に設定することができるが、本実施例では文字・発音記号の数と、重み付け値を乗算する簡便な手法を用いている。

具体的に説述すると、第１段（３１）では単語列中にＬ又はＲの文字がいくつ含まれているかに着目したものであり、当該単語に対する困難度はその個数×１と定義する。例えばleftであれば困難度１と算出される。
次に、第２段（３２）では、単語列中の第１アクセントの音にＬ又はＲが含まれる個数に着目している。一般的に第１アクセントの発音は重要であり、母国語として聞き取る者はこの音及び全体の韻律で単語を判断することも多い。そこで、第１アクセントにＬ又はＲが含まれた場合の困難度はその個数×５と定義する。上記の困難度に加算する方法をとると、leftの困難度は１＋５＝６となる。

第３段（３３）の定義は、単語列中のＬとＲを入れ替えたときに別な有意な単語列を構成するか否かに着目している。例えばrightという単語ではＲとＬとを入れ替えてもlightとなり、正確な発音を行わなければ両者を混同する可能性は高い。
そこで、この個数×７を困難度として定義する。以上によると、rightの困難度は、いずれの条件にも１個ずつ合致するため、１＋５＋７＝１３として定義される。

該発音困難度データベース（２６）の構成は母国語及び外国語の関係によって定義されるものであるから、例えば中国人向けの日本語発話用データベースというように、組み合わせに応じて用意するのが望ましい。このように装置（１）に対して「母国語」「発話言語」の２個の情報を与えると、複数の発音困難度データベースから、２個の情報に合致するデータベースを選択して用いることにより、多言語に対応する装置構成を提供してもよい。
また、発話者が特に発音が苦手な単語列を手動で追加して言い換えるように構成してもよい。

単語列置換部（２５）では、以上により原文から抽出された単語列と、その置換候補単語列の発音困難度を比較して、最も困難度が小さい単語列を選択する。置換候補単語列の１つが最小である場合には、抽出された単語列を置き換えし、口述用テキスト（２７）として出力する。出力にはディスプレイ１２でも良いし、ハードディスク（１１）上に結果を格納してもよい。
なお、同義語データベース中に置換候補とならない単語列（置換するとかえってＬとＲが増える場合など）を予め含まないように除去してある場合には、置換候補単語列は必ず抽出された単語列よりも発音困難度が小さいので、発音困難度の比較は置換候補単語列間のみで行えばよい。

本発明の最小限の構成は以上の通りであるが、第２実施例として言い換えの正確さを高める技術を次に説述する。
図３は上記単語列置換部（２５）の追加実施形態を説明する説明図である。該単語列置換部（２５）以外の構成は上記と同様である。
本実施例では、言い換えにより単語列を置換しても自然な文となっているか否かを判定することを可能にする。

本処理には図４のようなフローを用いる。
まず抽出された単語列（５０）に対して、置換候補単語列検索部（２３）で置換候補単語列が抽出（５１）されると、元の原稿テキストデータからその前後ｋ-ｇｒａｍの単語列を抽出（５２）する。これには前後ｋ-ｇｒａｍ抽出部（４０）が作用する。
なお抽出するのは形態素が原則であるが、本実施例では空白で区切られた単語でよい。
ｋは定数であって、前後独立して任意に設定できるが、本実施例では前後とも２-ｇｒａｍ（ｋ＝２）としている。

さらに単語配列生成部（４１）において、前節ｋ-ｇｒａｍ、置換候補単語列、後節ｋ-ｇｒａｍと連続して並んだ配列を生成（５３）する。
これにより、前後ｋ-ｇｒａｍは同一で置換対象の単語列のみを入れ替えた配列が生成される。

生成された配列について、出現頻度計数部（４２）によりコーパス（４３）中から同一の配列の出現頻度ｆｂ２を計数（５４）する。
コーパスは周知のように文章とともにその品詞情報、構文情報などを付したものである。出現頻度の計数を目的とするだけであれば、コーパスに限らず一定の文章量を有するテキストデータベースを用いてもよい。

自然な文章となっているか否かを判定するために、計数された出現頻度ｆｂ２が１以上であるか確認（５５）する。１つもない場合には不自然な言い回しになっていると判定して、次の単語列に進む。

１以上の場合には、発音困難度算出比較部（４４）において、発音困難度を算出する。これには前述と同様の方法を用いるが、本実施例では発音困難度データベース（２６）に備えた情報の１つとして「母音が後に隣接して続くＲ又はＬの個数」を情報として用いる。英語の母音としてはa,i,u,e,o,yがある。
これによると、「Ｒ＋母音」「Ｌ＋母音」が抽出された単語列及び該置換候補単語列に含まれる頻度ｆｂ１を求め（５６）、その値が最小の置換候補単語列を選べばよい。これはすなわち、発音困難度が最小の単語列を選択したことに他ならない。

もしｆｂ１が最小の単語列が複数存在した場合、そのなかでコーパス中における配列の出現頻度ｆｂ２が最大のものを選択（５７）すればよい。
この選択方法によれば、「Ｒ＋母音」等の発音困難度が高い要素を含む単語列を極力置き換えることができると同時に、正しい外国語文中において出現頻度の大きな配列を抽出することができるので、自然な言い回しに寄与する。

以上により置換する単語列を決定したら、次の抽出された単語列の処理に進む。そして、原稿テキストデータから抽出されたすべての単語列について処理を行った後に、口述用テキスト（２７）を出力する。

本実施例ではｋ＝２と固定した場合で説明したがｋを動的に変化させることで、より有意義な前後節との組み合わせを抽出して出現頻度を比較することもできる。すなわち、対象となる単語列から前節又は後節に向けて内容語（文章を特徴づける有意な単語）が１個出現するまでの各文節を抽出する。
これは、機能語だけの文脈から言い換えした表現がコーパス等に出現したとしても、必ずしもその言い換えが正しいと判断するのは困難であるが、内容語まで含めて比較することで、その判断をより正しく行えるからである。

具体的にはハードディスク等に機能語辞書を備えておき、機能語辞書と一致しない単語（内容語）がｍ個（ｍは任意の数）現れるまでの単語ｋ-ｇｒａｍを抽出する。このとき、ｍを例えば１、ｋの上限を例えば７と規定しておき、１〜７の間で動的に変化するようにしてもよい。
本構成によると、言い換えたものが自然な文になっているかの検証において、言い換えた表現の周りの表現として効果的に内容語を使用できるので、確実な言い換えに寄与することができる。

また上記では、ＬとＲなど特定の文字やその位置を条件としたが、本発明は発音を対象としているので、発音記号に基づいて置換を行ってもよい。
発音記号は表１に示すように母音及び子音が規定されており、さらにアクセントが表示される。これらの記号は辞書データにより簡単に単語から発音記号への置き換えが可能であり、原稿テキストを一旦発音記号の表記にＣＰＵ（１０）の発音記号変換部（図示しない）で変換することができる。

そして、発音記号を参照して、[r][l]や、[r]に母音が続く場合の個数を計数することができる。このように発音記号を用いると、文字列だけでは発音が困難か区別の難しい語句であっても、明確に発音困難として抽出することができる。
発音記号を用いる場合にも、発音困難度データベースには発音記号に対する困難度をそれぞれ設定した情報を備えておけばよい。

本発明は、別の実施例３として、ワードプロセッサプログラム（ワープロソフトと呼ぶ）上に本発明技術を搭載する構成で提供することもできる。
図５はそのブロック図であり、ＣＰＵ（６０）にはワープロを動作させる処理部であるワードプロセッサ処理部（６１）を有している。ここでは公知のワープロソフトが動作し、テキストの編集、読み込み、書き出しなどを行うことができる。

そして、ワープロソフト上で編集中の原稿テキスト（６２）に対して、本発明による以下の処理部が発話支援動作を行う。すなわち、読出部（６３）が原稿テキストを読み出し、単語列抽出部（６４）が単語列を抽出する。上記と同様の動作である。
各単語列に対して置換候補単語列検索部（６５）が同義語データベース（６６）を用いて置換候補単語列の検索を行う。

このとき、原稿テキストは必ずしも全文が完成している必要はなく、入力しながら随時以上の動作を行ってもよい。例えば、１文が入力される（ピリオドが打たれる）と、各処理が行われるようにしてもよい。

そして、単語列選択部（６７）では発音困難度データベース（６８）を参照しながら置換するのに最適な単語列を選択する。本実施例では、選択した後に、置換単語列提示部（６９）がユーザに対して置換を勧める単語列を呈示する。
呈示にはディスプレイ（７０）を用いるのが簡便であり、例えばワープロソフト上の当該単語列上に重複して置換を勧める単語列を表示する。呈示と同時に、置換をするか否かをユーザに促す表示を行う。

ユーザがキーボード（７１）などによって承諾すると、単語列置換部（７２）の作用により、ワープロソフト上で当該単語列が置換単語列に置換される。
以上の方法によると、ユーザがワープロソフト上で口述用のテキストをタイピングしながら随時に発音しにくい単語を呈示し、承諾動作だけで言い換えを行うことができる。
本発明のシステムを実施する際には情報量の豊富な同義語データベース・コーパス等を用いることが好ましいが、情報量が少なくともユーザに呈示して、ユーザがその都度判断する本実施例のシステムであれば、十分に利用性が高い。

以上の装置による実施結果を図６に示す。
"approach"を"way"に書き換えたり、"length"を"size"に書き換えるなど、発音しやすい単語に書き換えられることがわかる。一方で、現在のシステムでは微妙なニュアンスの違いを言い換えられない場合もある。これには同義語データベースの内容の見直しなどにより精度を高めることが考えられる。
また、第３実施例と同じように他の実施例でも候補をユーザに対して呈示し、ユーザが言い換えを行うかいなか判断するようにしてもよい。

本発明は、上記技術を用いて音声再生装置を提供することもできる。
従来、音声合成処理技術が周知であり、音声合成手段により、テキストデータから音声波形を生成し、スピーカ等から音声再生する技術が知られている。この際、一部の発音について完全に再生することが難しく、聞き取りにくい場合がある。上記した特許文献２はこの点を解消することを目的としたものであり、助詞やポーズを補ったり、機械的に言い換えすることで解決を図っている。

しかし、このような方法では画一的な言い換えだけが可能であり、言語特有の曖昧な規則に柔軟に対応して言い換えを行うことはできない。特に予め聞き取りにくいと想定されるすべての語句を登録しなければならないので、新規な語句は聞き取りにくいものであっても対応できない。
これに対して本発明の技術は、上述したように規則に基づいて発音しにくい（聞き取りにくい）か否かを判定しながら新しい語句にも対応できる。

図７は本発明に係る音声再生装置（８０）の構成図である。
原稿テキストデータ（８１）をＣＰＵ（８２）にテキストデータ入力手段（８３）によって入力する。該テキストデータ入力部（８３）はＣＰＵにテキストを入力する様々な手段を総称したものであり、例えばキーボードなどの直接入力する手段や、磁気ディスクなどの読み出し手段、ネットワークからの情報取得手段などを含む。

そして、単語列抽出部（８４）で上記と同様に単語列を抽出し、置換候補単語列検索部（８５）で同義語データベース（８６）から置換候補単語列を検索する。
さらに、抽出された単語列と、置換候補の単語列との間で音声再現困難度データベース（８７）を参照して、単語列置換部（８８）で音声再現困難度を算出する。

該音声再現困難度は、上記発音困難度と同様の構成であるが、データベースに含まれる内容は次の音声合成部（８９）で音声合成を行う際に正確な合成が困難な音に係る情報である。
すなわち、日本語では５０音における特定の音や、促音などを定義する。例えば、音声合成部（８９）で促音が不得意として、促音「っ」に音声再現困難度が５と定義されていたとする。やや不得意な場合としてすべての濁音には音声再現困難度が１と定義されていたとする。
このとき、「さっそく」の語句について、同義語データベース（８６）から「すぐに」が抽出される。「すぐに」の困難度は１つの濁音を含んで１と算出されるから、困難度が５の「さっそく」は「すぐに」に置き換えられる。

音声合成部（８９）では公知の音声合成技術によりテキストデータから音声波形情報を生成する。任意の文字列を出力する方法として規則合成・テキスト音声合成の方式が知られている。
一例として原稿テキストデータが日本語テキストの場合を説明すると、単語列抽出部（８４）において、公知の形態素解析技術や辞書との照合によって単語列を抽出し、さらにハードディスク（９１）に蓄積した表音文字対応データベースに基づいて単語の読み及びアクセント（韻律情報）を定義する。

これによって入力された日本語テキストは表音文字列に変換される。単語列置換部（８８）ではここで定義されたアクセントを参考に、第１アクセントの場合に重み付けを行うなど、上記実施例と同様の演算を行うことができる。
そして、音声合成部（８９）において表音文字列を音声波形に変換する。ハードディスク（９１）内の波形辞書データベースから各音素の波形を読み出し、音声波形を生成する。

各音素の波形は、その音素の両側にどのような音素が来るか(音素コンテキスト) によって著しく異なる。そのため一般的に、同じ音素でも音素コンテキストが異なるものは異なる波形を用意している。どれだけ細かく音素コンテキストに対処するかは、合成音声の明瞭度・滑らかさに大きくかかわる。なお、明瞭度とは、人間による音の聞き取り率(認識率)であり、本実施例における音声再現困難度データベースに相対する概念である。

音声合成技術では、このような音素コンテキストに対して複雑な処理により対応する研究が進められていたが、音声合成部（８９）における処理を軽快にするために、本発明ではあらかじめ単語列を置換するものである。
従って、音声合成部（８９）にはすでに上記明瞭度が高まるようなテキストが与えられ、生成された音声波形は音声出力部（９０）に入力される。

音声出力部（９０）では公知のサウンドカードなどで構成され音声波形から音響（アナログデータ）生成し出力する。出力にはＣＰＵ（８０）と接続したスピーカ（９２）を用いる。

もちろん本装置では、英語等の外国語を再生する場合に、上記実施例と同様に聴衆が聴き分けにくい音を回避して出力することができる。たとえば、ＬとＲが含まれる単語を減らすことで日本人にとって聴き取りにくい語句の使用を減少させることができる。
より一般的に発音記号で比較を行い、類似した発音を持つ発音記号を多く含む単語を言い換えることもできる。例えば類似した発音を持つ発音記号を予め音声再現困難度データベースに備えて困難度を設定することで、紛らわしい発音を多く含む単語列は言い換えるようにする。これによって、外国語に堪能でない聞き手に聴き取りやすい音声再生装置を提供することもできる。

以上の音声再生装置によると、音声合成部（８９）における処理を軽減することができると同時に、音素コンテキストに対する様々な波形を用意する必要がなくなる。特に、音声合成部で複数の言語を再生する場合に、あらかじめ各言語の各音声コンテキストと波形をすべて備えるのは情報量が莫大になる問題がある。
しかし、本発明では音声合成部（８９）における発音の不得意な音についての情報（発音記号が望ましい）を与えておけば、複数の言語においても各言語の同義語データベースから単語列の置換を行うことで、明瞭度の高い音声再生を実現することができる。

本発明の第１の実施形態に係る発話支援装置の構成図である。発音困難度データベースの一例である。本発明の第２の実施形態に係る単語列置換部の構成図である。同、フローチャートである。本発明の第３の実施形態に係るブロック図である。本発明による支援結果を示す図である。本発明の第３の実施形態に係る音声再生装置の構成図である。

符号の説明

１発話支援装置
１０ＣＰＵ
１１ハードディスク
１２ディスプレイ
１３メモリ
２０原稿テキスト
２１原稿テキスト取得部
２２単語列抽出部
２３置換候補単語列検索部
２４同義語データベース
２５単語列置換部
２６発音困難度データベース
２７口述用テキスト

Claims

原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援装置であって、
原稿テキストデータを装置内に取得する入力手段と、
該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出手段と、
単語列に対する同義語句を備えた同義語データベースと、
単語列抽出手段により抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段と、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を記録した発音困難度データベースと、
置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換手段と、
上記手段により単語列が置換された口述用テキストを出力する出力手段と
を備えたことを特徴とする発話支援装置。
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援装置であって、
原稿テキストデータを装置内に取得する入力手段と、
該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出手段と、
単語列に対する同義語句を備えた同義語データベースと、
単語列抽出手段により抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索手段と、
２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第１アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースと、
置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換する単語列置換手段と、
上記手段により単語列が置換された口述用テキストを出力する出力手段と
を備えたことを特徴とする発話支援装置。
前記発話支援装置が、前記原稿テキストと同一言語のコーパスデータベースを備え、
前記単語列置換手段が、
該置換候補単語列及び、その前後k-gram（kは前後で同一又は異なる任意の数）の単語列との配列が、該コーパスデータベース中で出現する頻度を計数する頻度計数部と、
該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する発音困難度比較置換部と
を備えたことを特徴とする
請求項１又は２に記載の発話支援装置。
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援方法であって、
入力手段が、原稿テキストデータを装置内に取得する入力ステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を定めた発音困難度データベースを用い、単語列置換手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択し置換する単語列置換ステップ、
出力手段が、上記各ステップにより単語列が置換された口述用テキストを出力する出力ステップ
を少なくとも含むことを特徴とする発話支援方法。
原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力する発話支援方法であって、
入力手段が、原稿テキストデータを装置内に取得する入力ステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列（以下、単語列と呼ぶ）を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第１アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースを用い、単語列置換手段が、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択し置換する単語列置換ステップ、
出力手段が、上記各ステップにより単語列が置換された口述用テキストを出力する出力ステップ
を少なくとも含むことを特徴とする発話支援方法。
前記発話支援方法の単語列置換ステップにおいて、
前記原稿テキストと同一言語のコーパスデータベースを用い、単語列置換手段が、
該置換候補単語列及び、その前後k-gram（kは前後で同一又は異なる任意の数）の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、
該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列に置換する
請求項４又は５に記載の発話支援方法。
コンピュータ上で、ワードプロセッサプログラムと共に用いられ、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力するようにコンピュータを機能させる発話支援プログラムであって、
ワードプロセッサ処理手段において編集状態の原稿テキストデータを取得する原稿テキストデータ読み出しステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め単語列中の所定の文字又は発音記号の数に応じて困難度を定めた発音困難度データベースを用い、単語列選択手段が、置換前の単語列と置換候補の単語列とについて、各単語列における該所定の文字又は発音記号の数を計数し、発音困難度データベースに定められた発音困難度の計算式に基づいて当該単語列の発音困難度を算出して、該発音困難度が最小の単語列を選択する単語列選択ステップ、
置換単語列呈示手段が、ワードプロセッサ処理手段において編集状態の原稿テキストデータと共に、単語列選択ステップで選択された置換する単語列を呈示し、ユーザに置換の有無の入力を促す置換単語列呈示ステップ、
単語列置換手段が、ユーザの入力に応じて、単語列の置換を行う単語列置換ステップ、
の各ステップをコンピュータに機能させることを特徴とするワードプロセッサプログラムと共に用いられる発話支援プログラム。
コンピュータ上で、ワードプロセッサプログラムと共に用いられ、原稿テキスト中の発音困難な語句を置き換えて発話しやすい口述用テキストを出力するようにコンピュータを機能させる発話支援プログラムであって、
ワードプロセッサ処理手段において編集状態の原稿テキストデータを取得する原稿テキストデータ読み出しステップ、
単語列抽出手段が、該原稿テキストデータから単語又は単語列(以下、単語列と呼ぶ)を抽出する単語列抽出ステップ、
単語列に対する同義語句を備えた同義語データベースを用いて置換候補単語列検索手段が、単語列抽出ステップで抽出された単語列を、該同義語データベースと照合し、置き換え可能な置換候補単語列を検索する置換候補単語列検索ステップ、
予め２つ以上の発音の区別の困難な文字又は発音記号に関して、いずれかの所定の文字又は発音記号が単語列中に含まれる数、又はいずれかの所定の文字又は発音記号が単語列中の第1アクセントの音を構成する数、単語列中のいずれかの所定の文字又は発音記号を他方の文字又は発音記号に入れ替えたときに有意な単語列を構成する数、の少なくともいずれかの情報を備えると共に、それらの数に対して所定の重み付け値を定義した発音困難度データベースを用い、単語列選択手段が、置換前の単語列と置換候補の単語列とについて、該いずれかの構成する数に対して重み付け値を乗じ、その総和をとる計算を行って該発音困難度を算出し、該発音困難度が最小の単語列を選択する単語列選択ステップ、
置換単語列呈示手段が、ワードプロセッサ処理手段において編集状態の原稿テキストデータと共に、単語列選択ステップで選択された置換する単語列を呈示し、ユーザに置換の有無の入力を促す置換単語列呈示ステップ、
単語列置換手段が、ユーザの入力に応じて、単語列の置換を行う単語列置換ステップ、
の各ステップをコンピュータに機能させることを特徴とするワードプロセッサプログラムと共に用いられる発話支援プログラム。
前記発話支援プログラムがコンピュータに機能させる置換単語列呈示ステップにおいて、
前記原稿テキストと同一言語のコーパスデータベースを用い、
置換単語列呈示手段が、該置換候補単語列及び、その前後k-gram(kは前後で同一又は異なる任意の数)の単語列との配列が、該コーパスデータベース中で出現する頻度を計数し、該頻度が所定値以上の時に、前記置換候補単語列の発音困難度が最小でかつ、該頻度が最多の置換候補単語列を呈示する
請求項7又は8のいずれかに記載のワードプロセッサプログラムと共に用いられる発話支援プログラム。