JP2003131679A

JP2003131679A - 話し言葉による音声出力装置及びソフトウェア

Info

Publication number: JP2003131679A
Application number: JP2001324097A
Authority: JP
Inventors: Maki Murata; 真樹村田; Hitoshi Isahara; 均井佐原
Original assignee: Communications Research Laboratory
Current assignee: Communications Research Laboratory
Priority date: 2001-10-22
Filing date: 2001-10-22
Publication date: 2003-05-09
Anticipated expiration: 2021-10-22
Also published as: JP3593563B2

Abstract

(57)【要約】【課題】主要言語間のみならず主要言語・非主要言語
間における機械翻訳に用いることができる第３言語テキ
ストの生成技術を創出すること。同時に、従来よりも高
精度にテキストを生成することのできる生成技術を提供
する。【解決手段】複数の対訳関係を有する言語テキストを
入力し、両言語の対訳コーパスを用いることで、従来の
単言語入力よりも高精度な第３言語テキストを生成する
技術を実現する。入力後、解析過程、変換過程、生成過
程の各過程を経て、目標言語文書を出力する。目標言語
文書は、固有情報を自動獲得可能なため、大規模なコー
パス等を必要としないことに特徴を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、書き言葉で構成さ
れたテキストを話し言葉で音声出力する音声出力装置及
びそのソフトウェアに関する。より詳しくは、特に変換
手法に特徴を有する出力装置及びソフトウェアの提供を
図る技術に係るものである。

【０００２】

【従来の技術】近時のコンピュータによる音声合成技術
の進歩にともなって、音声によって聴覚的に情報を伝達
出力する技術は、日常生活においても様々な場面で使わ
れている。例えば、カーナビゲーションシステムにおい
ては、運転中の運転者に対して音声で進路、渋滞情報等
の各種情報を伝えるために、運転に支障を及ぼさない、
音声で伝達するようになっている。また、文字を読みと
ることができない、盲人・弱視者向けのテキスト音読シ
ステムもある。該システムでは、テキストを入力するこ
とによって、文字を読みの辞書に従って読み上げるよう
になっており、より聞き取りやすい読み方で読み上げる
手法等が研究されている。

【０００３】ところで、現在の音声合成技術は、主に与
えられたテキストをそのまま音読するため、聞き取りや
すい話し言葉で出力するためには、あらかじめ話し言葉
で構成されるテキストを用意しているのが一般的であ
る。このような方法では、上述のテキスト音読システム
で書籍や新聞等を入力しても、そのまま読み上げるだけ
のため、書き言葉特有の表現がそのまま音読され、不自
然な印象を与えるばかりでなく、非常に聞き取りにくい
問題がある。

【０００４】これらの問題点を解消するため、従来の技
術としては、例えば特開２００１−１６６７８７号公報
は、書き言葉のテキストを話し言葉の表現に置き換えて
話し言葉らしい韻律で読み上げ、かつ、話し言葉韻律に
あわせて規則韻律を調整することで、話し言葉として自
然にテキストを読み上げることができる音声合成装置を
開示している。該手法によると、確かにスムーズな韻律
によって聞き取りやすい音声合成を行うことはできるの
で、上記問題点に関する一定の解決方法にはなりうる。

【０００５】しかし、上記発明では主に読み上げる文全
体の韻律等に重きをおいており、話し言葉の表現に置き
換える手法は、あらかじめ備えられたテキスト変換テー
ブルによって機械的に置き換えるのみであって、しかも
そのテキスト変換テーブルの作成については特徴的な手
法は提案されていない。

【０００６】

【発明が解決しようとする課題】本発明は上記従来技術
において課題として残されていた書き言葉から話し言葉
への効果的な変換手法を開発し、該手法を備えた音声出
力装置やソフトウェアを提供することで、より自然な話
し言葉の実現に寄与することを目的としている。

【０００７】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、書き言葉によって構成されたテキスト
を話し言葉で読み上げる、次のような音声出力装置を提
供する。すなわち、音楽出力装置が、テキストをコンピ
ュータ処理用の書き言葉データとして装置内に入力する
テキスト入力手段と、該書き言葉データを話し言葉デー
タに変換する言葉変換手段と、該話し言葉データから音
声データを作成する音声データ作成手段と、該音声デー
タに基づき、音声を出力する音声出力手段とを有する。

【０００８】そして、該言葉変換手段が、少なくともそ
の一部において同一意味内容を含む、書き言葉学習用デ
ータ及び話し言葉学習用データを用い、各言葉学習用デ
ータを所定の文字単位に分解した上、各言葉学習用デー
タ間の不一致部分における各言葉間の書き換え可能確率
が所定の値よりも高いものをパラフレーズとする。該パ
ラフレーズをあらかじめ記載したパラフレーズテーブル
を備えると共に、該パラフレーズテーブルを参照して書
き言葉データを話し言葉データに変換する変換エンジン
を備える。

【０００９】本発明の音声出力装置のパラフレーズテー
ブルにおいて、１個又は複数個の文字単位から構成され
る文字単位群に着目し、該着目文字単位群を前記不一致
部分として捉えるとき、該着目文字単位群の前後に連接
した前文字単位又は後文字単位の少なくともいずれか
の、当該言葉学習用データ中における出現頻度に係る値
又は、該値からの計算式によって算出された値に基づ
き、該着目文字単位群をパラフレーズテーブルに記載す
るか否か、或いはパラフレーズテーブルへの記載の態様
を決定する構成でもよい。

【００１０】また、前記パラフレーズテーブルにおい
て、ある着目文字単位群を前記不一致部分として捉える
とき、該着目文字単位群が、当該言葉学習用データ中に
おける出現頻度に係る値又は、該値から所定の計算式に
よって算出された値に基づき、該着目文字単位群をパラ
フレーズテーブルに記載するか否か、或いはパラフレー
ズテーブルへの記載の態様を決定する構成でもよい。

【００１１】１個又は複数個の文字単位から構成される
文字単位群が前記パラフレーズテーブルに記載されてい
るか、或いはその記載の態様を判別する。そして、該文
字単位群が、書き言葉から話し言葉に変換可能な１個以
上の変換後候補群を有すると判断される場合には次の構
成としてもよい。

【００１２】すなわち、該文字単位群の前後に近接する
少なくとも１個の文字単位から成る前文字単位群及び後
文字単位群が直前直後に出現する場合の該文字単位群と
変換後候補群の当該言葉学習用データ中における出現頻
度及び／又は出現確率に係る値を算出し、その値が最も
大きい１個の変換後候補を特定した上で、該文字単位群
と、変換後候補との、出現頻度及び／又は出現確率に係
る値が後者の方が大きいときに該文字単位群を書き言葉
から話し言葉に変換する。

【００１３】本発明では、さらに上記と同様の構成を有
する音声出力ソフトウェアを提供することもできる。該
ソフトウェアは、上述の装置で実現したものと同一な手
法を用いて、ソフトウェアとして実現するものである。

【００１４】

【発明の実施の形態】以下、本発明の実施形態を図面に
示しながら説述する。なお、本発明の実施においては、
以下に限定されることなく、任意に変形、応用等を行う
ことが可能である。図１に本発明における音声出力装置
（１０）の概略図を示す。まず本装置（１０）に書き言
葉テキスト（１１）を入力する。該書き言葉テキスト
（１１）は、例えば書籍や新聞等に記載された文章、文
字放送やインターネット等で頒布送信される通信デー
タ、ＣＤＲＯＭ等の媒体を介して提供される媒体データ
といった形態が一般的である。

【００１５】上記のうち、通信データや媒体データは、
コンピュータによる処理が可能な書き言葉データ（１
３）にそのまま用いることが可能であり、テキスト入力
手段（１２）としてはテキストフォーマット、例えば文
字コードや改行コード、ＨＴＭＬなどの特殊タグの除去
等を行う機能を備えていればよい。そして、テキスト入
力手段（１２）によって、頒布送信されたデータを受信
して必要に応じて変換する、或いは媒体から媒体データ
を読み出して必要に応じて変換することにより、本装置
（１０）で処理が可能な形態とする。

【００１６】一方、上記のうち、書籍や新聞等に記載さ
れた文章は、実体的に印刷等をされたものであるため、
書き言葉データ（１３）にそのまま用いることはできな
い。そこで、画像としてコンピュータに取り込むスキャ
ナ、スキャンされた画像から文字認識を行うＯＣＲ装置
或いはＯＣＲソフトウェアを備え、ＯＣＲ技術によって
本装置（１０）で処理可能な形態にする。これらＯＣＲ
に係る技術は多様な方法が既知となっており、それらを
随意利用することができる。

【００１７】このように本発明では、テキスト入力手段
（１０）にスキャナやＯＣＲ装置を配設し、例えば文字
を読めない物が所望の書籍をスキャナに読みとらせるこ
とで、自然な話し言葉による音声出力を得ることもでき
る。従来の点字翻訳等に比して、格段に低コストかつあ
らゆる書籍・新聞にも対応できるため、バリアフリー化
にも寄与する。また、従来の同様の装置と比べても、自
然な話し言葉による出力は、聞き取りやすく、疲労感を
感じさせない読み聞かせが可能であり、その効果は極め
て高い。

【００１８】テキスト入力手段（１０）によって書き言
葉データ（１３）を作成した後、該書き言葉データ（１
３）は本発明の中核をなす言葉変換手段（１４）に送ら
れる。言葉変換手段（１４）では、該手段に備えられた
パラフレーズテーブル（１５）を参照しながら、書き言
葉から話し言葉への変換が行われる。該変換についての
詳細は後述する。

【００１９】言葉変換手段（１４）によって書き言葉デ
ータ（１３）は話し言葉データ（１６）に変換される。
そして、音声として出力するためにその該話し言葉デー
タ（１６）の読み方についての情報を付与し、電気的に
発声が行えるよう、例えば音声波形のデータが作成され
る。該作成を司るのが、音声データ作成手段（１７）で
ある。

【００２０】音声データ（１８）の作成においては、す
でに多くの既知技術があるが、本発明においてもそれら
の技術を用いることができる。特に、本発明では自然な
話し言葉の出力を目的としており、イントネーションな
ど、韻律の制御を行うと好適である。すなわち、話し言
葉データ（１６）について、音声データ作成手段（１
７）が単語、形態素等の文字単位毎に読みだけでなく、
それらの韻律、文字単位が組み合わさったときの韻律等
の情報も含めた音声情報テーブルを備えてもよい。

【００２１】音声データ作成手段（１７）によって作成
された音声データ（１８）は、音声出力手段（１９）か
ら出力される。音声出力手段（１９）は例えばデジタル
・アナログ変換を行い、スピーカーを介して音声出力を
行う装置であり、これによって、本装置に入力された書
き言葉のテキストは、音声として出力されることにな
る。

【００２２】本発明における音声出力装置は、上記のよ
うな構成を備えるが、次に本発明の核心ともいうべき、
言葉変換手段につき、詳述する。本実施例においては、
言葉変換手段（１４）で変換する際に書き言葉と話し言
葉の対応関係を規定するパラフレーズテーブル（１５）
の作成にあたって、日本語の講演発表の音声を書き起こ
しし、形態素情報を付与した日本語話し言葉コーパスを
話し言葉データ（１６）として、講演発表の元となる論
文(予稿)の電子化データを書き言葉データ（１３）とし
て、それぞれ用いている。

【００２３】そして、話し言葉データ（１６）と書き言
葉データ（１３）の一致部分や不一致部分を調べ、書き
言葉データ（１３）から話し言葉データ（１６）への変
換規則を自動的に獲得している。さらに、獲得された変
換規則を基に、話し言葉データ（１６）から書き言葉デ
ータ（１３）への自動変換を行うことを実現している。

【００２４】はじめに、書き言葉データ（１３）と話し
言葉データ（１６）について、不一致部分のとりかたに
ついて説述する。まず、不一致部分をとる書き言葉と話
し言葉のデータの形態素解析を行なって図２のように各
形態素が各行にわかれた形にデータを変形する。なお、
言葉データの分解に、形態素による区切りをおこなった
が、本発明の実施においては必ずしも形態素による分解
ではなく、辞書情報に基づく単語区切りなど、任意の分
解方法によりいかなる文字単位にも分解することができ
る。

【００２５】次に、これらのデータを照合し書き言葉と
話し言葉のデータの不一致部分と一致部分の検出を行な
う。この照合は、本実施例では簡単のため、ＵＮＩＸ
（登録商標）コマンドのｄｉｆｆを用いて行なってい
る。ｄｉｆｆコマンドは、２つのファイル間の違いを探
すコマンドであり、本発明では、書き言葉学習用データ
ファイルと、話し言葉学習用データファイルを入力する
ことで用いることができる。本コマンドは、空白の数の
違いを無視したり、大文字小文字の違いを無視するほ
か、多様な比較項目の設定が可能であるため、本発明の
実施において極めて好適である。もっとも、本発明の不
一致部分と一致部分の検出には、該コマンドの使用に限
定されることなく、専用の検出エンジンを備える構成で
もよい。

【００２６】さきほどのデータでこれを行なうと、図３
に示したような結果が得られる。表のセミコロンで始ま
る行は一致部分、不一致部分を示すためのもので、「;
▲▲▲▲▲▲」から「;●●●」までの部分は、書き言
葉データ（１３）でのみ出現したもの、「;●●●」か
ら「;▼▼▼▼▼▼」までの部分は,話し言葉データ（１
６）でのみ出現したもの、「;▼▼▼▼▼▼」から「;▲
▲▲▲▲▲」までの部分は、書き言葉データ（１３）と
話し言葉データ（１６）でともに出現したものを意味す
る。ここで取り出したいものは、書き言葉と話し言葉の
違いであるので、「;▲▲▲▲▲▲」から「;▼▼▼▼▼
▼」までの部分となり、先ほどのデータの場合、不一致
部分は図４のようになる。

【００２７】図４の１行目の「本論文では単語の羅列
を」「え今日は」は、書き言葉では「本論文では単語の
羅列を」とあったが、話し言葉では「え今日は」となっ
たということを意味する。しかし、このように対応付け
を行っただけでは、書き換え規則となるような不一致は
抽出できない。そこで、上記結果からさらに、確からし
い書き言葉と語し言葉の不一致部分を抽出する。そのた
めの条件として、本発明では次の２つの着想を得て、確
からしい不一致部分の抽出を行う。

【００２８】その１つは、珍しい(出現頻度の低い)文字
列に囲まれた不一致部分ほど、パラフレーズとしては確
からしいという着想である。ここでは文字列は形態素と
置き換えて考える。この着想における「確からしい」に
つき、実際にコンピュータで処理を行うため、本発明で
は次のような確率値の算出方法を創出した。

【００２９】不一致部分が図５のように、一致部分であ
る文字列Ｓ１，Ｓ２にはさまれていて、Ｓ１とＳ２の間
がｄ文字だけ離れているとする。このとき、Ｓ１および
Ｓ２からみて、ｄ文字以内に図の方向にＳ２およびＳ１
が現れる確率を、Ｐ（Ｓ１），Ｐ（Ｓ２）とすると、Ｐ
（Ｓ１），Ｐ（Ｓ２）は近似的に以下のように表され
る。

【式１】

【式２】

【００３０】このときの不一致部分が確からしい確率、
すなわちＰ（不一致、Ｓ１，Ｓ２）とすると、Ｐ（不一
致、Ｓ１，Ｓ２）はＳ１，Ｓ２がともに図のような形で
あらわれにくい確率であると仮定すると、以下のように
なる。（Ｓ１とＳ２が独立であることを仮定してい
る。）

【式３】

【００３１】このように求められた式２に明らかなよう
に、上記Ｐ（Ｓ１）、Ｐ（Ｓ２）等が小さい、すなわち
出現頻度が低いほど、不一致部分が確からしい確率は高
まり、Ｐ（不一致、Ｓ１，Ｓ２）は大きな値となる。

【００３２】本発明では、上記のような不一致部分の侯
補の取り出しについて、さらに以下のような改良を加え
ている。図６のように一致部分と不一致部分が出現して
いるときに、“「不一致部分１」「一致部分１」「不一
致部分２」"、“「不一致部分１」「一致部分１」「不
一致部分２」「一致部分２」「不一致部分３」"といっ
たものも不一致部分の侯補とする。このため、上記の着
想における「不一致部分」については、一致部分や不一
致部分を含む文字列（文字単位やその集合）と考え、本
発明ではこれを一致部分・不一致部分と表記している。

【００３３】この改良は、単に「不一致部分１」だけで
は、「一致部分０」「一致部分１」から求まるＰ（不一
致）の値が小さくて取り出せないようなときも、“「不
一致部分１」「一致部分１」「不一致部分２」"を不一
致部分と考えることで、「一致部分０」「一致部分２」
から求まるＰ（不一致）の値が大きくなって取り出しう
るという効果を持つ。

【００３４】本実施例では、この連結によって生成する
不一致部分は、元の不一致部分を３個以下しか含まない
ものに限った。これは書き換えの規則を決定する際に、
過剰に長い文字列とすると、一般的に適応しうるパラフ
レーズが抽出できなくなるためであり、本実施例では３
個以下とすることで、概ね好適な抽出を行うことができ
た。同時に、これによって組み合わせの数を抑制し、演
算量を減らし高速化を図ることができる。

【００３５】さらに１つの着想は、複数箇所に出現した
不一致部分ほど、パラフレーズとしては確からしいとい
うものである。これは、複数箇所での確率を組み合わせ
ることによって本装置に導入することができる。複数箇
所のうち一か所でも正しければ、その不一致部分は正し
いものとして抽出できると考える。

【００３６】つまり、不一致部分が正しい事象は、任意
のＳ１，Ｓ２に対してＳ１，Ｓ２に囲まれる不一致部分
がすべて確からしくない場合の余事象なので、不一致部
分が確からしい確率をＰ（不一致）とすると、それは以
下の式で表される。（各不一致部分が独立であることを
仮定している。）

【式４】不一致部分の取り出しは、ｄｉｆｆの結果を上記の式３
の値でソートし、その確率値の大きいものから取り出す
ことによって行なわれる。

【００３７】次に、上記の手法による書き言葉データ
（１３）と話し言葉データ（１６）の不一致部分の抽出
について、実際の例を挙げて説述する。書き言葉、話し
言葉のデータとしては、８２編の学術講演の部分を利用
する。書き言葉データは、論文であって、手作業による
打ち込みがされたもの、８２編、８２編、３５２，６６
０文字を含む。語し言葉データとしては、上の論文に対
応するもので口頭の講演を手作業によってデータ化した
ものである。話し言葉データは、３３０，６７９文字を
含む。

【００３８】書き言葉データとして用いる論文データに
は、表題や著者名、所属なども含まれているが、これら
は消したりせずにそのまま残して利用した。話し言葉デ
ータの方には、図７にあげるようなタグが埋め込まれて
いた。このタグの対処として、次の処理を行う。すなわ
ち、基本的に各タグのリストの第二要素をタグのかわり
に本文に埋め込む。例えば、“（Ｆあの）"の場合、
「あの」を本文の該当箇所にいれる。ただし、セミコロ
ンで区切られているものについては一番最後のものを、
カンマで区切られているものについては、一番最初のも
のを用いる。フイラーや言い直しなどは省いた方がよい
とも考えられるが、本実施例ではそういった表現も不一
致部分として抽出することを目的として残すことにし
た。

【００３９】上記の条件で書き言葉データ（１３）と話
し言葉データ（１６）の不一致部分を、前記手法により
抽出することを試みた。この結果抽出総数は図８のよう
になった。表の確率値は式４の値を意味する。また、不
一致部分を式４の値でソートした結果の上位５０個を図
９に示す。図９の頻度は不一致部分の出現回数を意味す
る。

【００４０】図９における「データ」「データー」の食
い違いは、コーパスの定義によるもので、書き言葉では
「データ」と書くが話し言葉で「データー」と伸ばして
発音しやすいということを意味しているものではない。
また、話し言葉で“＜Ｃ＞”が得られているが、これは
コーパスにおいて単語の途中を意味するタグでこれが得
られてもあまり意味はない。その他目立つものとして
は、「え」「えー」などのフィラーが検出できていた
り、「＝」は「は」と読むということがわかったり、話
し言葉では「という」をいれてやわらかくいう場合があ
ることがわかる。

【００４１】抽出された不一致結果を分析したところ主
に以下のものがあった。１．表記の揺れ表記の揺れの例を表７に示す。これはコーパスの定義に
も関係するところであるが、脚注７にも書いたようなこ
とを行なって、極力話し言葉コーパスと書き言葉コーパ
スで揺れが生じないようにした方が望ましいことがわか
る。

【００４２】実際上、この表記の揺れについてはパラフ
レーズテーブルに記載されても支障は少ないと考えられ
るが、書き言葉コーパス側の典型的な表記の揺れ、例え
ば「データ」「データー」や「コンピュータ」「コンピ
ューター」のような外来語における長音の表記などを、
予め統一する変換を施すか、或いはパラフレーズテーブ
ル（１５）作成時に、両表記を同一と見なすこともでき
る。

【００４３】同一と見なす方法としては、例えば、新聞
の記事を書き言葉コーパスとして用いると、「データ
ー」との表記が３３個のとき、「データ」との表記は２
０４４２個という調査例がある。この場合、明らかに
「データ」が書き言葉コーパスにおいては自然な表記で
あるので、残りの「データー」についても「データ」と
して見なすことができる。また、予め変換してもよい。
これにより、学習用データとなる書き言葉コーパスの作
成時に多少の揺れがあっても、典型的な表記の揺れにつ
いては補正することが可能であって、長音の有無による
出現頻度の誤解を生じさせないようにすることもでき
る。

【００４４】また、話し言葉学習用データとなる話し言
葉コーパスについては、より自然な音声出力を得るため
に、作為的に自然な読み方ができるように修正を施して
もよい。例えば、音声データ作成手段（１７）の特性に
よっては、話し言葉データ（１６）における「データ
ー」を特に、「デェタァ」と表記する等によって、好適
な話し言葉の出力が得られることもある。

【００４５】２．表記・読みを与えるもの書き言葉コーパス上で、例えば記号や単位など、表記と
読みの異なるものが抽出される。この例を図１１にあげ
る。この図により「＝」は「は」と読めばよいとか、
「Ｓ」は「秒」を意味するときと記号「S」を意味する
ときがあるなどがわかる。本結果は、本発明による効果
が強く表出しており、従来人手によって与えていたこれ
らの対応関係を、自動的に獲得し、さらに、前後の文字
単位やその集合との関係から確率を算出して正確な書き
換えを行うことができる。

【００４６】３．同義関係のもの略同一な意味を有する同義関係にあるパラフレーズの抽
出例を図１２にあげる。論文に書いていたことをちょっ
と違えて言ったり、書き言葉特有の表記を、話し言葉で
自然な言い回しにするために、同義な意味を示す書き換
え表現を獲得することができる。本態様についても、本
発明の効果が強く現れる例である。なお、本実施例で対
象としたデータが研究を述べた予稿と講演であったの
で、研究がらみの同義表現、例えば「論文」「研究」な
どが得られているように見受けられる。

【００４７】ここで、本発明で特徴的なのは、「論文」
と「研究」がそれが使われる場面によっては必ずしも書
き言葉と話し言葉のパラフレーズには成りにくいことで
ある。従って、従来の手法では、このような対応付け
は、特に学術講演の書き換え用に作成しない限り、パラ
フレーズとして搭載されにくい。しかし、本発明では、
これらを自動的に獲得するため、論文とその講演とのコ
ーパスを用いて学習することで、容易に自然な話し言葉
を出力できるようになる。

【００４８】４．口語調のもの書き言葉を丁寧な表現に改めるなど、口語においてしば
しば見られる形への変換がパラフレーズテーブル（１
５）に抽出された。図１３はこの例である。「分かっ
た」を「分かりました」にするなど、話し言葉で丁寧語
にするものから、「。」と書いているところを「訳です
が」と文をつなげるものなど、非常に自然な書き換えが
期待される結果である。これらも従来の手法ではなかな
か見付けにくい規則であり、本発明の有効性が示され
る。また、最後の行に「これ」が得られているが、これ
は「明瞭に発声したもの(これ)を」という形で使われて
いた。話し言葉において、「これ」などで指し示す表現
が多い証である。

【００４９】５．省略をしているものこの例を図１４にあげる。話し言葉の方では「処理」を
省いて言ってみたり、データの値を「１１．２５」を
「１１．３」に丸めて言ってみたりして、語数を少なく
することがある。これは、書き言葉においては繰り返し
正確な表記を行っても不自然でないのに対し、話し言葉
でそれを行うと、不自然で冗長な印象を与える。本発明
では、これを効果的に抑止し、自然な省略、言い換えを
行うことが可能となる。

【００５０】６．補完をしているもの５．省略しているものと逆の例であり、例えば書き言葉
では短縮して表記しているものをより理解しやすいよう
に補完する例である。図１５に本例を示す。書き言葉で
は「損失の平均」となっていたが、「損失の値の平均」
と「値」をいれてわかりやすいようにいいかえている。
また、値も正確に「七十五五デシベル」といっている場
合もある。

【００５１】７．コーパスの誤り検出に関わるもの本例を図１６にあげる。もともと、書き言葉データ（１
３）、話し言葉データ（１６）自体に誤りがあった場合
その部分が不一致として得られる場合がある。１行日の
データは、「速報」を「速記」と誤ったものと思われ
る。この誤りは論文を手作業でデータ化したときに生じ
たものと思われる。また、語し言葉データの方にも誤り
が見受けられる。最後の行のデータは、「死活」と「生
活」どちらでも正しそうな感じもする。実際の講演者自
身どちらの気持ちで言っていたのかわからない場合もあ
るのではないかと思われる。

【００５２】本発明による手法を用いることで、上記の
ように興味深いパラフレーズテーブル（１５）の作成を
行うことができた。これらは従来の技術によっては、抽
出が困難なものも多く、また用途に分けて膨大なテーブ
ルを手作業で作ることはコスト的にも不可能に近い。そ
の点、本手法は、コーパスを用意することで自動的にパ
ラフレーズテーブル（１５）を形成するため、低コスト
で、より自然な音声出力を可能にする画期的技術であ
る。

【００５３】また、音声認識技術と融合させ、新聞記事
の内容を話し言葉で話す話者の声を自動認識し、当該新
聞記事との一致部分・不一致部分を抽出してパラフレー
ズテーブル（１５）を形成すれば、話者の話し方の特徴
を捉え、かつ新聞記事特有の書き言葉表現も自然な話し
言葉表現に書き換え可能なパラフレーズテーブル（１
５）が極めて容易に作成できる。

【００５４】本発明は、このように形成されたパラフレ
ーズテーブル（１５）を有する言葉変換手段（１４）を
備えているが、さらに変換エンジンによって、実際の変
換処理を行う。次にこの方法について詳述する。上記
で、多くの書き言葉と話し言葉の不一致部分のデータを
収集することができたが、この不一致部分のデータは書
き言葉から話し言葉への変形規則とみることもできる。

【００５５】ここで用いる変形規則は、前節で獲得した
不一致部分のうち、式４の値でソートを行なったデータ
において頻度１の事例が現れる直前のものまでとした。
これは頻度１の事例はサンプルとして小さいため、信頼
性が低いためである。これによって得られる規則の数は
２４０個であった。書き言葉から話し言葉への変換エン
ジンが備えるアルゴリズムは以下のものとした。本アル
ゴリズムを図１７に示す。

【００５６】１．入力として与えられる書き言葉のデー
タを文字単位に分解（例えば、形態素解析。以下、形態
素を例に挙げる）して、文字単位列（形態素列）に分解
する。２．文頭の形態素から順に、形態素ごとに以下の処理を
行なう。（ａ）現在の形態素で始まる形態素列Ｓ（形態素を一つ
も持たない場合、つまり空文字列も含む）と、２４０個
の不一致データの書き言葉の文字列Ａ_iが一致した場
合、その不一致部分のデータＲ_iが規則として用いら
れ、その不一致データの話し言葉の部分（文字列Ｂ_i）
が、書き換え後表現の侯補となる。また、Ｓの前接ｋ−
ｇｒａｍの形態素列をＳ１_i，Ｓの後節ｋ−ｇｒａｍの
形態素列をＳ２_iとする。（ｂ）各書き換え後表現の侯補Ｂ_iに対して、話し言葉
コーパスでのＳ１_iＢ_iＳ２_iの文字列の頻度を求め、こ
の頻度が最も大きかったときのｉをｍとする。（ｃ）話し言葉コーパスでのＳ１_mＳ２_mの文字列の頻度
を求め、この値よりも、Ｓ１_mＢ_mＳ２_mの文字列の頻度
の方が大きいとき、Ａ_mをＢ_mに書き換え、処理を次の形
態素に移す。ただし、ｋは定数である。

【００５７】本アルゴリズムは、話し言葉コーパスでの
頻度が大きくなるように書き換える、つまり、話し言葉
コーパスで出てきやすい表現に書き換えることをしてい
る。ある文章を入カテキストとして、実際に上記のアル
ゴリズムで書き言葉から話し言葉に変形を試みた。ｋ＝
１のとき（前後の形態素の環境が１ｇｒａｍの場合）の
結果を図１８に、ｋ＝２のとき（同、２ｇｒａｍの場
合）の結果を図１９に示す。ｋ＝１では頻度を求める環
境が短く精度が悪いがそれでも、「え」をいれたり「本
稿」を「本研究」と言い換えたりという話し言葉らしい
結果が得られている。

【００５８】ｋ＝２では精度はよくほとんど誤りがなか
った。「という」や「ま」や「あー」をいれていて、い
かにも話し言葉にふさわしい表現になっている。本実施
例では行っていないが、上記アルゴリズムについては、
さらに次のような改良も可能である。

【００５９】すなわち、各文字列の頻度の部分を、その
文字列をｘとするとき、与えられた入カデータを環境に
もつときのｘが話し言葉コーパスに出現する事象の確率
としてもよい。また、上記アルゴリズムは環境としては
前後ｋ形態素（文字単位）のものを固定で用いるものと
なっているが、該形態素数（文字単位数）を可変した
り、構文的な素性など広範な情報を用いて確率を求める
構成でもよい。

【００６０】本発明は、上記のような言葉変換手段（１
４）を有し、その結果書き換えられた話し言葉データ
（１６）から音声出力を行うものである。書き言葉デー
タ（１３）を出力するだけでは上記で得られたパラフレ
ーズテーブル（１５）を効果的に用いることはできず、
音声として出力することで初めて効果的に上記手法を利
用することができる。

【００６１】例えば、新聞の音読を行う装置として利用
すると、新聞特有の言い回しであっても自然な話し言葉
に変換出来る上、話者の特徴をそれに反映することもで
きる。すなわち、話し方には人それぞれに特徴があり、
用いる用語や言い換えの好みによって、その人なりの個
性がでる。本発明では、話し言葉と書き言葉の一致部分
・不一致部分を自動的に獲得することができるため、そ
のような個性をあえて分析しなくとも、必然的に話者の
個性が反映されるのである。このような書き換えが可能
な装置は従来にはないものであり、本発明が最も効果を
奏する点でもある。

【００６２】本発明の実施形態としては、ソフトウェア
による提供も可能である。上記装置における各手段はい
ずれも一般に流通するパーソナルコンピュータ等によっ
てハードウェア的には実現が可能なものであり、本発明
をソフトウェアで提供し、それをインストールすること
で、上記装置と同様の効果を有することができる。

【００６３】

【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。すなわち、本発明に係る音声出力装置
によれば、書き言葉学習用データと話し言葉学習用デー
タから、各言葉間の書き換え可能確率に基づいて作成さ
れたパラフレーズテーブルを備えるので、自然な話し言
葉による音声出力が可能となる。特にパラフレーズテー
ブルを自動的に獲得することもできるため、用途に合わ
せた、又は話者の特徴を反映させたパラフレーズテーブ
ルが容易に作成でき、従来の変換では成し得なかった興
趣のある書き換えも可能になった。

【００６４】このパラフレーズテーブルの作成に当たっ
ては、着目する文字単位群をパラフレーズテーブルに記
載するか否かを書き言葉学習データ中の出現頻度やそれ
から算出した値によって決定することもできるので、コ
ンピュータ処理に適した方法で作成することができ、好
適である。

【００６５】さらに本発明はソフトウェアの形態として
の提供も可能であり、市販のパーソナルコンピュータ等
に装備することで容易に本発明の効果を享受しうる。こ
れにより、低コストで高性能な話し言葉による音声出力
が可能となり、同時に書き言葉の入力方法も選択肢が広
がり有効である。

【図面の簡単な説明】

【図１】本発明による音声出力装置の概念図である。

【図２】書き言葉データと話し言葉データの形態素への
分割を示す表である。

【図３】書き言葉データと話し言葉データのｄｉｆｆコ
マンドによる結果を示す表である。

【図４】不一致部分の抽出結果を示す表である。

【図５】不一致部分の出現模式図である。

【図６】不一致部分の拡張を説明する説明図である。

【図７】話し言葉データに使用されているタグを示す表
である。

【図８】不一致部分の抽出数を示す表である。

【図９】書き言葉データと話し言葉データの照合結果の
例を示す表である。

【図１０】表記の揺れの例を示す表である。

【図１１】表記・読みを与えるものの例を示す表であ
る。

【図１２】同義関係のものの例を示す表である。

【図１３】口語調のものの例を示す表である。

【図１４】省略をしているものの例を示す表である。

【図１５】補完をしているものの例を示す表である。

【図１６】誤り検出の例を示す表である。

【図１７】変換エンジンのアルゴリズムの説明図であ
る。

【図１８】書き言葉データから話し言葉データヘの変形
例（１ｇｒａｍの場合）を示す表である。

【図１９】書き言葉データから話し言葉データヘの変形
例（２ｇｒａｍの場合）を示す表である。

【符号の説明】

１０音声出力装置１１書き言葉テキスト１２テキスト入力手段１３書き言葉データ１４言葉変換手段１５パラフレーズテーブル１６話し言葉データ１７音声データ作成手段１８音声データ１９話し言葉音声

Claims

【特許請求の範囲】

【請求項１】書き言葉によって構成されたテキストを、
話し言葉で読み上げる音声出力装置であって、該音声出
力装置が、テキストをコンピュータ処理用の書き言葉データとして
装置内に入力するテキスト入力手段と、該書き言葉データを、話し言葉データに変換する言葉変
換手段と、該話し言葉データから音声データを作成する音声データ
作成手段と、該音声データに基づき、音声を出力する音声出力手段と
を有する構成において、該言葉変換手段が、少なくともその一部において同一意味内容を含む、書き
言葉学習用データ及び話し言葉学習用データを用い、各
言葉学習用データを所定の文字単位に分解した上、各言
葉学習用データ間の不一致部分における各言葉間の書き
換え可能確率が所定の値よりも高いものをパラフレーズ
とし、それをあらかじめ記載したパラフレーズテーブル
を備えると共に、該パラフレーズテーブルを参照して書き言葉データを話
し言葉データに変換する変換エンジンを備えたことを特
徴とする音声出力装置。
【請求項２】前記パラフレーズテーブルにおいて、１個又は複数個の文字単位から構成される文字単位群に
着目し、該着目文字単位群を前記不一致部分として捉え
るとき、該着目文字単位群の前後に連接した前文字単位又は後文
字単位の少なくともいずれかの、当該言葉学習用データ
中における出現頻度に係る値又は、該値から所定の計算
式によって算出された値に基づき、該着目文字単位群をパラフレーズテーブルに記載するか
否か、或いはパラフレーズテーブルへの記載の態様を決
定する請求項１に記載の音声出力装置。
【請求項３】前記パラフレーズテーブルにおいて、１個又は複数個の文字単位から構成される文字単位群に
着目し、該着目文字単位群を前記不一致部分として捉え
るとき、該着目文字単位群が、当該言葉学習用データ中における
出現頻度に係る値、或いは該値から所定の計算式によっ
て算出された値に基づき、該着目文字単位群をパラフレーズテーブルに記載するか
否か、或いはパラフレーズテーブルへの記載の態様を決
定する請求項１又は２に記載の音声出力装置。
【請求項４】前記言葉変換手段が、１個又は複数個の文字単位から構成される文字単位群が
前記パラフレーズテーブルに記載されているか、或いは
その記載の態様を判別し、その結果、該文字単位群が、書き言葉から話し言葉に変
換可能な１個以上の変換後候補群を有すると判断される
場合に、該文字単位群の前後に近接する少なくとも１個の文字単
位から成る前文字単位群及び後文字単位群が直前直後に
出現する場合の該文字単位群と変換後候補群の当該言葉
学習用データ中における出現頻度及び／又は出現確率に
係る値を算出し、その値が最も大きい１個の変換後候補
を特定した上で、該文字単位群と、変換後候補との、出現頻度及び／又は
出現確率に係る値が後者の方が大きいときに該文字単位
群を書き言葉から話し言葉に変換する請求項１ないし３
に記載の音声出力装置。
【請求項５】書き言葉によって構成されたテキストを、
話し言葉で読み上げる音声出力ソフトウェアであって、
該音声出力ソフトウェアが、テキストをコンピュータ処理用の書き言葉データとして
装置内に入力するテキスト入力部と、該書き言葉データを、話し言葉データに変換する言葉変
換部と、該話し言葉データから音声データを作成する音声データ
作成部と、該音声データに基づき、音声を出力する音声出力部とを
有する構成において、該言葉変換部が、少なくともその一部において同一意味内容を含む、書き
言葉学習用データ及び話し言葉学習用データを用い、各
言葉学習用データを所定の文字単位に分解した上、各言
葉学習用データ間の不一致部分における各言葉間の書き
換え可能確率が所定の値よりも高いものをパラフレーズ
とし、それをあらかじめ記載したパラフレーズテーブル
を有すると共に、該パラフレーズテーブルを参照して書き言葉データを話
し言葉データに変換する変換ルーチンを有することを特
徴とする音声出力ソフトウェア。
【請求項６】前記パラフレーズテーブルにおいて、１個又は複数個の文字単位から構成される文字単位群に
着目し、該着目文字単位群を前記不一致部分として捉え
るとき、該着目文字単位群の前後に連接した前文字単位又は後文
字単位の少なくともいずれかの、当該言葉学習用データ
中における出現頻度に係る値又は、該値から所定の計算
式によって算出された値に基づき、該着目文字単位群をパラフレーズテーブルに記載するか
否か、或いはパラフレーズテーブルへの記載の態様を決
定する請求項５に記載の音声出力ソフトウェア。
【請求項７】前記パラフレーズテーブルにおいて、１個又は複数個の文字単位から構成される文字単位群に
着目し、該着目文字単位群を前記不一致部分として捉え
るとき、該着目文字単位群が、当該言葉学習用データ中における
出現頻度に係る値又は、該値から所定の計算式によって
算出された値に基づき、該着目文字単位群をパラフレーズテーブルに記載するか
否か、或いはパラフレーズテーブルへの記載の態様を決
定する請求項５又は６に記載の音声出力ソフトウェア。
【請求項８】前記言葉変換手段が、１個又は複数個の文字単位から構成される文字単位群が
前記パラフレーズテーブルに記載されているか、或いは
その記載の態様を判別し、その結果、該文字単位群が、書き言葉から話し言葉に変
換可能な１個以上の変換後候補群を有すると判断される
場合に、該文字単位群の前後に近接する少なくとも１個の文字単
位から成る前文字単位群及び後文字単位群が直前直後に
出現する場合の該文字単位群と変換後候補群の当該言葉
学習用データ中における出現頻度及び／又は出現確率に
係る値を算出し、その値が最も大きい１個の変換後候補
を特定した上で、該文字単位群と、変換後候補との、出現頻度及び／又は
出現確率に係る値が後者の方が大きいときに該文字単位
群を書き言葉から話し言葉に変換する請求項５ないし７
に記載の音声出力ソフトウェア。