JP2003131679A - 話し言葉による音声出力装置及びソフトウェア - Google Patents

話し言葉による音声出力装置及びソフトウェア

Info

Publication number
JP2003131679A
JP2003131679A JP2001324097A JP2001324097A JP2003131679A JP 2003131679 A JP2003131679 A JP 2003131679A JP 2001324097 A JP2001324097 A JP 2001324097A JP 2001324097 A JP2001324097 A JP 2001324097A JP 2003131679 A JP2003131679 A JP 2003131679A
Authority
JP
Japan
Prior art keywords
word
data
character unit
unit group
written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001324097A
Other languages
English (en)
Other versions
JP3593563B2 (ja
Inventor
Maki Murata
真樹 村田
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2001324097A priority Critical patent/JP3593563B2/ja
Publication of JP2003131679A publication Critical patent/JP2003131679A/ja
Application granted granted Critical
Publication of JP3593563B2 publication Critical patent/JP3593563B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 主要言語間のみならず主要言語・非主要言語
間における機械翻訳に用いることができる第3言語テキ
ストの生成技術を創出すること。同時に、従来よりも高
精度にテキストを生成することのできる生成技術を提供
する。 【解決手段】 複数の対訳関係を有する言語テキストを
入力し、両言語の対訳コーパスを用いることで、従来の
単言語入力よりも高精度な第3言語テキストを生成する
技術を実現する。入力後、解析過程、変換過程、生成過
程の各過程を経て、目標言語文書を出力する。目標言語
文書は、固有情報を自動獲得可能なため、大規模なコー
パス等を必要としないことに特徴を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、書き言葉で構成さ
れたテキストを話し言葉で音声出力する音声出力装置及
びそのソフトウェアに関する。より詳しくは、特に変換
手法に特徴を有する出力装置及びソフトウェアの提供を
図る技術に係るものである。
【0002】
【従来の技術】近時のコンピュータによる音声合成技術
の進歩にともなって、音声によって聴覚的に情報を伝達
出力する技術は、日常生活においても様々な場面で使わ
れている。例えば、カーナビゲーションシステムにおい
ては、運転中の運転者に対して音声で進路、渋滞情報等
の各種情報を伝えるために、運転に支障を及ぼさない、
音声で伝達するようになっている。また、文字を読みと
ることができない、盲人・弱視者向けのテキスト音読シ
ステムもある。該システムでは、テキストを入力するこ
とによって、文字を読みの辞書に従って読み上げるよう
になっており、より聞き取りやすい読み方で読み上げる
手法等が研究されている。
【0003】ところで、現在の音声合成技術は、主に与
えられたテキストをそのまま音読するため、聞き取りや
すい話し言葉で出力するためには、あらかじめ話し言葉
で構成されるテキストを用意しているのが一般的であ
る。このような方法では、上述のテキスト音読システム
で書籍や新聞等を入力しても、そのまま読み上げるだけ
のため、書き言葉特有の表現がそのまま音読され、不自
然な印象を与えるばかりでなく、非常に聞き取りにくい
問題がある。
【0004】これらの問題点を解消するため、従来の技
術としては、例えば特開2001−166787号公報
は、書き言葉のテキストを話し言葉の表現に置き換えて
話し言葉らしい韻律で読み上げ、かつ、話し言葉韻律に
あわせて規則韻律を調整することで、話し言葉として自
然にテキストを読み上げることができる音声合成装置を
開示している。該手法によると、確かにスムーズな韻律
によって聞き取りやすい音声合成を行うことはできるの
で、上記問題点に関する一定の解決方法にはなりうる。
【0005】しかし、上記発明では主に読み上げる文全
体の韻律等に重きをおいており、話し言葉の表現に置き
換える手法は、あらかじめ備えられたテキスト変換テー
ブルによって機械的に置き換えるのみであって、しかも
そのテキスト変換テーブルの作成については特徴的な手
法は提案されていない。
【0006】
【発明が解決しようとする課題】本発明は上記従来技術
において課題として残されていた書き言葉から話し言葉
への効果的な変換手法を開発し、該手法を備えた音声出
力装置やソフトウェアを提供することで、より自然な話
し言葉の実現に寄与することを目的としている。
【0007】
【課題を解決するための手段】本発明は、上記の課題を
解決するために、書き言葉によって構成されたテキスト
を話し言葉で読み上げる、次のような音声出力装置を提
供する。すなわち、音楽出力装置が、テキストをコンピ
ュータ処理用の書き言葉データとして装置内に入力する
テキスト入力手段と、該書き言葉データを話し言葉デー
タに変換する言葉変換手段と、該話し言葉データから音
声データを作成する音声データ作成手段と、該音声デー
タに基づき、音声を出力する音声出力手段とを有する。
【0008】そして、該言葉変換手段が、少なくともそ
の一部において同一意味内容を含む、書き言葉学習用デ
ータ及び話し言葉学習用データを用い、各言葉学習用デ
ータを所定の文字単位に分解した上、各言葉学習用デー
タ間の不一致部分における各言葉間の書き換え可能確率
が所定の値よりも高いものをパラフレーズとする。該パ
ラフレーズをあらかじめ記載したパラフレーズテーブル
を備えると共に、該パラフレーズテーブルを参照して書
き言葉データを話し言葉データに変換する変換エンジン
を備える。
【0009】本発明の音声出力装置のパラフレーズテー
ブルにおいて、1個又は複数個の文字単位から構成され
る文字単位群に着目し、該着目文字単位群を前記不一致
部分として捉えるとき、該着目文字単位群の前後に連接
した前文字単位又は後文字単位の少なくともいずれか
の、当該言葉学習用データ中における出現頻度に係る値
又は、該値からの計算式によって算出された値に基づ
き、該着目文字単位群をパラフレーズテーブルに記載す
るか否か、或いはパラフレーズテーブルへの記載の態様
を決定する構成でもよい。
【0010】また、前記パラフレーズテーブルにおい
て、ある着目文字単位群を前記不一致部分として捉える
とき、該着目文字単位群が、当該言葉学習用データ中に
おける出現頻度に係る値又は、該値から所定の計算式に
よって算出された値に基づき、該着目文字単位群をパラ
フレーズテーブルに記載するか否か、或いはパラフレー
ズテーブルへの記載の態様を決定する構成でもよい。
【0011】1個又は複数個の文字単位から構成される
文字単位群が前記パラフレーズテーブルに記載されてい
るか、或いはその記載の態様を判別する。そして、該文
字単位群が、書き言葉から話し言葉に変換可能な1個以
上の変換後候補群を有すると判断される場合には次の構
成としてもよい。
【0012】すなわち、該文字単位群の前後に近接する
少なくとも1個の文字単位から成る前文字単位群及び後
文字単位群が直前直後に出現する場合の該文字単位群と
変換後候補群の当該言葉学習用データ中における出現頻
度及び/又は出現確率に係る値を算出し、その値が最も
大きい1個の変換後候補を特定した上で、該文字単位群
と、変換後候補との、出現頻度及び/又は出現確率に係
る値が後者の方が大きいときに該文字単位群を書き言葉
から話し言葉に変換する。
【0013】本発明では、さらに上記と同様の構成を有
する音声出力ソフトウェアを提供することもできる。該
ソフトウェアは、上述の装置で実現したものと同一な手
法を用いて、ソフトウェアとして実現するものである。
【0014】
【発明の実施の形態】以下、本発明の実施形態を図面に
示しながら説述する。なお、本発明の実施においては、
以下に限定されることなく、任意に変形、応用等を行う
ことが可能である。図1に本発明における音声出力装置
(10)の概略図を示す。まず本装置(10)に書き言
葉テキスト(11)を入力する。該書き言葉テキスト
(11)は、例えば書籍や新聞等に記載された文章、文
字放送やインターネット等で頒布送信される通信デー
タ、CDROM等の媒体を介して提供される媒体データ
といった形態が一般的である。
【0015】上記のうち、通信データや媒体データは、
コンピュータによる処理が可能な書き言葉データ(1
3)にそのまま用いることが可能であり、テキスト入力
手段(12)としてはテキストフォーマット、例えば文
字コードや改行コード、HTMLなどの特殊タグの除去
等を行う機能を備えていればよい。そして、テキスト入
力手段(12)によって、頒布送信されたデータを受信
して必要に応じて変換する、或いは媒体から媒体データ
を読み出して必要に応じて変換することにより、本装置
(10)で処理が可能な形態とする。
【0016】一方、上記のうち、書籍や新聞等に記載さ
れた文章は、実体的に印刷等をされたものであるため、
書き言葉データ(13)にそのまま用いることはできな
い。そこで、画像としてコンピュータに取り込むスキャ
ナ、スキャンされた画像から文字認識を行うOCR装置
或いはOCRソフトウェアを備え、OCR技術によって
本装置(10)で処理可能な形態にする。これらOCR
に係る技術は多様な方法が既知となっており、それらを
随意利用することができる。
【0017】このように本発明では、テキスト入力手段
(10)にスキャナやOCR装置を配設し、例えば文字
を読めない物が所望の書籍をスキャナに読みとらせるこ
とで、自然な話し言葉による音声出力を得ることもでき
る。従来の点字翻訳等に比して、格段に低コストかつあ
らゆる書籍・新聞にも対応できるため、バリアフリー化
にも寄与する。また、従来の同様の装置と比べても、自
然な話し言葉による出力は、聞き取りやすく、疲労感を
感じさせない読み聞かせが可能であり、その効果は極め
て高い。
【0018】テキスト入力手段(10)によって書き言
葉データ(13)を作成した後、該書き言葉データ(1
3)は本発明の中核をなす言葉変換手段(14)に送ら
れる。言葉変換手段(14)では、該手段に備えられた
パラフレーズテーブル(15)を参照しながら、書き言
葉から話し言葉への変換が行われる。該変換についての
詳細は後述する。
【0019】言葉変換手段(14)によって書き言葉デ
ータ(13)は話し言葉データ(16)に変換される。
そして、音声として出力するためにその該話し言葉デー
タ(16)の読み方についての情報を付与し、電気的に
発声が行えるよう、例えば音声波形のデータが作成され
る。該作成を司るのが、音声データ作成手段(17)で
ある。
【0020】音声データ(18)の作成においては、す
でに多くの既知技術があるが、本発明においてもそれら
の技術を用いることができる。特に、本発明では自然な
話し言葉の出力を目的としており、イントネーションな
ど、韻律の制御を行うと好適である。すなわち、話し言
葉データ(16)について、音声データ作成手段(1
7)が単語、形態素等の文字単位毎に読みだけでなく、
それらの韻律、文字単位が組み合わさったときの韻律等
の情報も含めた音声情報テーブルを備えてもよい。
【0021】音声データ作成手段(17)によって作成
された音声データ(18)は、音声出力手段(19)か
ら出力される。音声出力手段(19)は例えばデジタル
・アナログ変換を行い、スピーカーを介して音声出力を
行う装置であり、これによって、本装置に入力された書
き言葉のテキストは、音声として出力されることにな
る。
【0022】本発明における音声出力装置は、上記のよ
うな構成を備えるが、次に本発明の核心ともいうべき、
言葉変換手段につき、詳述する。本実施例においては、
言葉変換手段(14)で変換する際に書き言葉と話し言
葉の対応関係を規定するパラフレーズテーブル(15)
の作成にあたって、日本語の講演発表の音声を書き起こ
しし、形態素情報を付与した日本語話し言葉コーパスを
話し言葉データ(16)として、講演発表の元となる論
文(予稿)の電子化データを書き言葉データ(13)とし
て、それぞれ用いている。
【0023】そして、話し言葉データ(16)と書き言
葉データ(13)の一致部分や不一致部分を調べ、書き
言葉データ(13)から話し言葉データ(16)への変
換規則を自動的に獲得している。さらに、獲得された変
換規則を基に、話し言葉データ(16)から書き言葉デ
ータ(13)への自動変換を行うことを実現している。
【0024】はじめに、書き言葉データ(13)と話し
言葉データ(16)について、不一致部分のとりかたに
ついて説述する。まず、不一致部分をとる書き言葉と話
し言葉のデータの形態素解析を行なって図2のように各
形態素が各行にわかれた形にデータを変形する。なお、
言葉データの分解に、形態素による区切りをおこなった
が、本発明の実施においては必ずしも形態素による分解
ではなく、辞書情報に基づく単語区切りなど、任意の分
解方法によりいかなる文字単位にも分解することができ
る。
【0025】次に、これらのデータを照合し書き言葉と
話し言葉のデータの不一致部分と一致部分の検出を行な
う。この照合は、本実施例では簡単のため、UNIX
(登録商標)コマンドのdiffを用いて行なってい
る。diffコマンドは、2つのファイル間の違いを探
すコマンドであり、本発明では、書き言葉学習用データ
ファイルと、話し言葉学習用データファイルを入力する
ことで用いることができる。本コマンドは、空白の数の
違いを無視したり、大文字小文字の違いを無視するほ
か、多様な比較項目の設定が可能であるため、本発明の
実施において極めて好適である。もっとも、本発明の不
一致部分と一致部分の検出には、該コマンドの使用に限
定されることなく、専用の検出エンジンを備える構成で
もよい。
【0026】さきほどのデータでこれを行なうと、図3
に示したような結果が得られる。表のセミコロンで始ま
る行は一致部分、不一致部分を示すためのもので、「;
▲▲▲▲▲▲」から「;●●●」までの部分は、書き言
葉データ(13)でのみ出現したもの、「;●●●」か
ら「;▼▼▼▼▼▼」までの部分は,話し言葉データ(1
6)でのみ出現したもの、「;▼▼▼▼▼▼」から「;▲
▲▲▲▲▲」までの部分は、書き言葉データ(13)と
話し言葉データ(16)でともに出現したものを意味す
る。ここで取り出したいものは、書き言葉と話し言葉の
違いであるので、「;▲▲▲▲▲▲」から「;▼▼▼▼▼
▼」までの部分となり、先ほどのデータの場合、不一致
部分は図4のようになる。
【0027】図4の1行目の「本論文では単語の羅列
を」「え今日は」は、書き言葉では「本論文では単語の
羅列を」とあったが、話し言葉では「え今日は」となっ
たということを意味する。しかし、このように対応付け
を行っただけでは、書き換え規則となるような不一致は
抽出できない。そこで、上記結果からさらに、確からし
い書き言葉と語し言葉の不一致部分を抽出する。そのた
めの条件として、本発明では次の2つの着想を得て、確
からしい不一致部分の抽出を行う。
【0028】その1つは、珍しい(出現頻度の低い)文字
列に囲まれた不一致部分ほど、パラフレーズとしては確
からしいという着想である。ここでは文字列は形態素と
置き換えて考える。この着想における「確からしい」に
つき、実際にコンピュータで処理を行うため、本発明で
は次のような確率値の算出方法を創出した。
【0029】不一致部分が図5のように、一致部分であ
る文字列S1,S2にはさまれていて、S1とS2の間
がd文字だけ離れているとする。このとき、S1および
S2からみて、d文字以内に図の方向にS2およびS1
が現れる確率を、P(S1),P(S2)とすると、P
(S1),P(S2)は近似的に以下のように表され
る。
【式1】
【式2】
【0030】このときの不一致部分が確からしい確率、
すなわちP(不一致、S1,S2)とすると、P(不一
致、S1,S2)はS1,S2がともに図のような形で
あらわれにくい確率であると仮定すると、以下のように
なる。(S1とS2が独立であることを仮定してい
る。)
【式3】
【0031】このように求められた式2に明らかなよう
に、上記P(S1)、P(S2)等が小さい、すなわち
出現頻度が低いほど、不一致部分が確からしい確率は高
まり、P(不一致、S1,S2)は大きな値となる。
【0032】本発明では、上記のような不一致部分の侯
補の取り出しについて、さらに以下のような改良を加え
ている。図6のように一致部分と不一致部分が出現して
いるときに、“「不一致部分1」「一致部分1」「不一
致部分2」"、“「不一致部分1」「一致部分1」「不
一致部分2」「一致部分2」「不一致部分3」"といっ
たものも不一致部分の侯補とする。このため、上記の着
想における「不一致部分」については、一致部分や不一
致部分を含む文字列(文字単位やその集合)と考え、本
発明ではこれを一致部分・不一致部分と表記している。
【0033】この改良は、単に「不一致部分1」だけで
は、「一致部分0」「一致部分1」から求まるP(不一
致)の値が小さくて取り出せないようなときも、“「不
一致部分1」「一致部分1」「不一致部分2」"を不一
致部分と考えることで、「一致部分0」「一致部分2」
から求まるP(不一致)の値が大きくなって取り出しう
るという効果を持つ。
【0034】本実施例では、この連結によって生成する
不一致部分は、元の不一致部分を3個以下しか含まない
ものに限った。これは書き換えの規則を決定する際に、
過剰に長い文字列とすると、一般的に適応しうるパラフ
レーズが抽出できなくなるためであり、本実施例では3
個以下とすることで、概ね好適な抽出を行うことができ
た。同時に、これによって組み合わせの数を抑制し、演
算量を減らし高速化を図ることができる。
【0035】さらに1つの着想は、複数箇所に出現した
不一致部分ほど、パラフレーズとしては確からしいとい
うものである。これは、複数箇所での確率を組み合わせ
ることによって本装置に導入することができる。複数箇
所のうち一か所でも正しければ、その不一致部分は正し
いものとして抽出できると考える。
【0036】つまり、不一致部分が正しい事象は、任意
のS1,S2に対してS1,S2に囲まれる不一致部分
がすべて確からしくない場合の余事象なので、不一致部
分が確からしい確率をP(不一致)とすると、それは以
下の式で表される。(各不一致部分が独立であることを
仮定している。)
【式4】 不一致部分の取り出しは、diffの結果を上記の式3
の値でソートし、その確率値の大きいものから取り出す
ことによって行なわれる。
【0037】次に、上記の手法による書き言葉データ
(13)と話し言葉データ(16)の不一致部分の抽出
について、実際の例を挙げて説述する。書き言葉、話し
言葉のデータとしては、82編の学術講演の部分を利用
する。書き言葉データは、論文であって、手作業による
打ち込みがされたもの、82編、82編、352,66
0文字を含む。語し言葉データとしては、上の論文に対
応するもので口頭の講演を手作業によってデータ化した
ものである。話し言葉データは、330,679文字を
含む。
【0038】書き言葉データとして用いる論文データに
は、表題や著者名、所属なども含まれているが、これら
は消したりせずにそのまま残して利用した。話し言葉デ
ータの方には、図7にあげるようなタグが埋め込まれて
いた。このタグの対処として、次の処理を行う。すなわ
ち、基本的に各タグのリストの第二要素をタグのかわり
に本文に埋め込む。例えば、“(Fあの)"の場合、
「あの」を本文の該当箇所にいれる。ただし、セミコロ
ンで区切られているものについては一番最後のものを、
カンマで区切られているものについては、一番最初のも
のを用いる。フイラーや言い直しなどは省いた方がよい
とも考えられるが、本実施例ではそういった表現も不一
致部分として抽出することを目的として残すことにし
た。
【0039】上記の条件で書き言葉データ(13)と話
し言葉データ(16)の不一致部分を、前記手法により
抽出することを試みた。この結果抽出総数は図8のよう
になった。表の確率値は式4の値を意味する。また、不
一致部分を式4の値でソートした結果の上位50個を図
9に示す。図9の頻度は不一致部分の出現回数を意味す
る。
【0040】図9における「データ」「データー」の食
い違いは、コーパスの定義によるもので、書き言葉では
「データ」と書くが話し言葉で「データー」と伸ばして
発音しやすいということを意味しているものではない。
また、話し言葉で“<C>”が得られているが、これは
コーパスにおいて単語の途中を意味するタグでこれが得
られてもあまり意味はない。その他目立つものとして
は、「え」「えー」などのフィラーが検出できていた
り、「=」は「は」と読むということがわかったり、話
し言葉では「という」をいれてやわらかくいう場合があ
ることがわかる。
【0041】抽出された不一致結果を分析したところ主
に以下のものがあった。 1.表記の揺れ 表記の揺れの例を表7に示す。これはコーパスの定義に
も関係するところであるが、脚注7にも書いたようなこ
とを行なって、極力話し言葉コーパスと書き言葉コーパ
スで揺れが生じないようにした方が望ましいことがわか
る。
【0042】実際上、この表記の揺れについてはパラフ
レーズテーブルに記載されても支障は少ないと考えられ
るが、書き言葉コーパス側の典型的な表記の揺れ、例え
ば「データ」「データー」や「コンピュータ」「コンピ
ューター」のような外来語における長音の表記などを、
予め統一する変換を施すか、或いはパラフレーズテーブ
ル(15)作成時に、両表記を同一と見なすこともでき
る。
【0043】同一と見なす方法としては、例えば、新聞
の記事を書き言葉コーパスとして用いると、「データ
ー」との表記が33個のとき、「データ」との表記は2
0442個という調査例がある。この場合、明らかに
「データ」が書き言葉コーパスにおいては自然な表記で
あるので、残りの「データー」についても「データ」と
して見なすことができる。また、予め変換してもよい。
これにより、学習用データとなる書き言葉コーパスの作
成時に多少の揺れがあっても、典型的な表記の揺れにつ
いては補正することが可能であって、長音の有無による
出現頻度の誤解を生じさせないようにすることもでき
る。
【0044】また、話し言葉学習用データとなる話し言
葉コーパスについては、より自然な音声出力を得るため
に、作為的に自然な読み方ができるように修正を施して
もよい。例えば、音声データ作成手段(17)の特性に
よっては、話し言葉データ(16)における「データ
ー」を特に、「デェタァ」と表記する等によって、好適
な話し言葉の出力が得られることもある。
【0045】2.表記・読みを与えるもの 書き言葉コーパス上で、例えば記号や単位など、表記と
読みの異なるものが抽出される。この例を図11にあげ
る。この図により「=」は「は」と読めばよいとか、
「S」は「秒」を意味するときと記号「S」を意味する
ときがあるなどがわかる。本結果は、本発明による効果
が強く表出しており、従来人手によって与えていたこれ
らの対応関係を、自動的に獲得し、さらに、前後の文字
単位やその集合との関係から確率を算出して正確な書き
換えを行うことができる。
【0046】3.同義関係のもの 略同一な意味を有する同義関係にあるパラフレーズの抽
出例を図12にあげる。論文に書いていたことをちょっ
と違えて言ったり、書き言葉特有の表記を、話し言葉で
自然な言い回しにするために、同義な意味を示す書き換
え表現を獲得することができる。本態様についても、本
発明の効果が強く現れる例である。なお、本実施例で対
象としたデータが研究を述べた予稿と講演であったの
で、研究がらみの同義表現、例えば「論文」「研究」な
どが得られているように見受けられる。
【0047】ここで、本発明で特徴的なのは、「論文」
と「研究」がそれが使われる場面によっては必ずしも書
き言葉と話し言葉のパラフレーズには成りにくいことで
ある。従って、従来の手法では、このような対応付け
は、特に学術講演の書き換え用に作成しない限り、パラ
フレーズとして搭載されにくい。しかし、本発明では、
これらを自動的に獲得するため、論文とその講演とのコ
ーパスを用いて学習することで、容易に自然な話し言葉
を出力できるようになる。
【0048】4.口語調のもの 書き言葉を丁寧な表現に改めるなど、口語においてしば
しば見られる形への変換がパラフレーズテーブル(1
5)に抽出された。図13はこの例である。「分かっ
た」を「分かりました」にするなど、話し言葉で丁寧語
にするものから、「。」と書いているところを「訳です
が」と文をつなげるものなど、非常に自然な書き換えが
期待される結果である。これらも従来の手法ではなかな
か見付けにくい規則であり、本発明の有効性が示され
る。また、最後の行に「これ」が得られているが、これ
は「明瞭に発声したもの(これ)を」という形で使われて
いた。話し言葉において、「これ」などで指し示す表現
が多い証である。
【0049】5.省略をしているもの この例を図14にあげる。話し言葉の方では「処理」を
省いて言ってみたり、データの値を「11.25」を
「11.3」に丸めて言ってみたりして、語数を少なく
することがある。これは、書き言葉においては繰り返し
正確な表記を行っても不自然でないのに対し、話し言葉
でそれを行うと、不自然で冗長な印象を与える。本発明
では、これを効果的に抑止し、自然な省略、言い換えを
行うことが可能となる。
【0050】6.補完をしているもの 5.省略しているものと逆の例であり、例えば書き言葉
では短縮して表記しているものをより理解しやすいよう
に補完する例である。図15に本例を示す。書き言葉で
は「損失の平均」となっていたが、「損失の値の平均」
と「値」をいれてわかりやすいようにいいかえている。
また、値も正確に「七十五五デシベル」といっている場
合もある。
【0051】7.コーパスの誤り検出に関わるもの 本例を図16にあげる。もともと、書き言葉データ(1
3)、話し言葉データ(16)自体に誤りがあった場合
その部分が不一致として得られる場合がある。1行日の
データは、「速報」を「速記」と誤ったものと思われ
る。この誤りは論文を手作業でデータ化したときに生じ
たものと思われる。また、語し言葉データの方にも誤り
が見受けられる。最後の行のデータは、「死活」と「生
活」どちらでも正しそうな感じもする。実際の講演者自
身どちらの気持ちで言っていたのかわからない場合もあ
るのではないかと思われる。
【0052】本発明による手法を用いることで、上記の
ように興味深いパラフレーズテーブル(15)の作成を
行うことができた。これらは従来の技術によっては、抽
出が困難なものも多く、また用途に分けて膨大なテーブ
ルを手作業で作ることはコスト的にも不可能に近い。そ
の点、本手法は、コーパスを用意することで自動的にパ
ラフレーズテーブル(15)を形成するため、低コスト
で、より自然な音声出力を可能にする画期的技術であ
る。
【0053】また、音声認識技術と融合させ、新聞記事
の内容を話し言葉で話す話者の声を自動認識し、当該新
聞記事との一致部分・不一致部分を抽出してパラフレー
ズテーブル(15)を形成すれば、話者の話し方の特徴
を捉え、かつ新聞記事特有の書き言葉表現も自然な話し
言葉表現に書き換え可能なパラフレーズテーブル(1
5)が極めて容易に作成できる。
【0054】本発明は、このように形成されたパラフレ
ーズテーブル(15)を有する言葉変換手段(14)を
備えているが、さらに変換エンジンによって、実際の変
換処理を行う。次にこの方法について詳述する。上記
で、多くの書き言葉と話し言葉の不一致部分のデータを
収集することができたが、この不一致部分のデータは書
き言葉から話し言葉への変形規則とみることもできる。
【0055】ここで用いる変形規則は、前節で獲得した
不一致部分のうち、式4の値でソートを行なったデータ
において頻度1の事例が現れる直前のものまでとした。
これは頻度1の事例はサンプルとして小さいため、信頼
性が低いためである。これによって得られる規則の数は
240個であった。書き言葉から話し言葉への変換エン
ジンが備えるアルゴリズムは以下のものとした。本アル
ゴリズムを図17に示す。
【0056】1.入力として与えられる書き言葉のデー
タを文字単位に分解(例えば、形態素解析。以下、形態
素を例に挙げる)して、文字単位列(形態素列)に分解
する。 2.文頭の形態素から順に、形態素ごとに以下の処理を
行なう。 (a)現在の形態素で始まる形態素列S(形態素を一つ
も持たない場合、つまり空文字列も含む)と、240個
の不一致データの書き言葉の文字列Aiが一致した場
合、その不一致部分のデータRiが規則として用いら
れ、その不一致データの話し言葉の部分(文字列Bi
が、書き換え後表現の侯補となる。また、Sの前接k−
gramの形態素列をS1i,Sの後節k−gramの
形態素列をS2iとする。 (b)各書き換え後表現の侯補Biに対して、話し言葉
コーパスでのS1iiS2iの文字列の頻度を求め、こ
の頻度が最も大きかったときのiをmとする。 (c)話し言葉コーパスでのS1mS2mの文字列の頻度
を求め、この値よりも、S1mmS2mの文字列の頻度
の方が大きいとき、AmをBmに書き換え、処理を次の形
態素に移す。 ただし、kは定数である。
【0057】本アルゴリズムは、話し言葉コーパスでの
頻度が大きくなるように書き換える、つまり、話し言葉
コーパスで出てきやすい表現に書き換えることをしてい
る。ある文章を入カテキストとして、実際に上記のアル
ゴリズムで書き言葉から話し言葉に変形を試みた。k=
1のとき(前後の形態素の環境が1gramの場合)の
結果を図18に、k=2のとき(同、2gramの場
合)の結果を図19に示す。k=1では頻度を求める環
境が短く精度が悪いがそれでも、「え」をいれたり「本
稿」を「本研究」と言い換えたりという話し言葉らしい
結果が得られている。
【0058】k=2では精度はよくほとんど誤りがなか
った。「という」や「ま」や「あー」をいれていて、い
かにも話し言葉にふさわしい表現になっている。本実施
例では行っていないが、上記アルゴリズムについては、
さらに次のような改良も可能である。
【0059】すなわち、各文字列の頻度の部分を、その
文字列をxとするとき、与えられた入カデータを環境に
もつときのxが話し言葉コーパスに出現する事象の確率
としてもよい。また、上記アルゴリズムは環境としては
前後k形態素(文字単位)のものを固定で用いるものと
なっているが、該形態素数(文字単位数)を可変した
り、構文的な素性など広範な情報を用いて確率を求める
構成でもよい。
【0060】本発明は、上記のような言葉変換手段(1
4)を有し、その結果書き換えられた話し言葉データ
(16)から音声出力を行うものである。書き言葉デー
タ(13)を出力するだけでは上記で得られたパラフレ
ーズテーブル(15)を効果的に用いることはできず、
音声として出力することで初めて効果的に上記手法を利
用することができる。
【0061】例えば、新聞の音読を行う装置として利用
すると、新聞特有の言い回しであっても自然な話し言葉
に変換出来る上、話者の特徴をそれに反映することもで
きる。すなわち、話し方には人それぞれに特徴があり、
用いる用語や言い換えの好みによって、その人なりの個
性がでる。本発明では、話し言葉と書き言葉の一致部分
・不一致部分を自動的に獲得することができるため、そ
のような個性をあえて分析しなくとも、必然的に話者の
個性が反映されるのである。このような書き換えが可能
な装置は従来にはないものであり、本発明が最も効果を
奏する点でもある。
【0062】本発明の実施形態としては、ソフトウェア
による提供も可能である。上記装置における各手段はい
ずれも一般に流通するパーソナルコンピュータ等によっ
てハードウェア的には実現が可能なものであり、本発明
をソフトウェアで提供し、それをインストールすること
で、上記装置と同様の効果を有することができる。
【0063】
【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。すなわち、本発明に係る音声出力装置
によれば、書き言葉学習用データと話し言葉学習用デー
タから、各言葉間の書き換え可能確率に基づいて作成さ
れたパラフレーズテーブルを備えるので、自然な話し言
葉による音声出力が可能となる。特にパラフレーズテー
ブルを自動的に獲得することもできるため、用途に合わ
せた、又は話者の特徴を反映させたパラフレーズテーブ
ルが容易に作成でき、従来の変換では成し得なかった興
趣のある書き換えも可能になった。
【0064】このパラフレーズテーブルの作成に当たっ
ては、着目する文字単位群をパラフレーズテーブルに記
載するか否かを書き言葉学習データ中の出現頻度やそれ
から算出した値によって決定することもできるので、コ
ンピュータ処理に適した方法で作成することができ、好
適である。
【0065】さらに本発明はソフトウェアの形態として
の提供も可能であり、市販のパーソナルコンピュータ等
に装備することで容易に本発明の効果を享受しうる。こ
れにより、低コストで高性能な話し言葉による音声出力
が可能となり、同時に書き言葉の入力方法も選択肢が広
がり有効である。
【図面の簡単な説明】
【図1】本発明による音声出力装置の概念図である。
【図2】書き言葉データと話し言葉データの形態素への
分割を示す表である。
【図3】書き言葉データと話し言葉データのdiffコ
マンドによる結果を示す表である。
【図4】不一致部分の抽出結果を示す表である。
【図5】不一致部分の出現模式図である。
【図6】不一致部分の拡張を説明する説明図である。
【図7】話し言葉データに使用されているタグを示す表
である。
【図8】不一致部分の抽出数を示す表である。
【図9】書き言葉データと話し言葉データの照合結果の
例を示す表である。
【図10】表記の揺れの例を示す表である。
【図11】表記・読みを与えるものの例を示す表であ
る。
【図12】同義関係のものの例を示す表である。
【図13】口語調のものの例を示す表である。
【図14】省略をしているものの例を示す表である。
【図15】補完をしているものの例を示す表である。
【図16】誤り検出の例を示す表である。
【図17】変換エンジンのアルゴリズムの説明図であ
る。
【図18】書き言葉データから話し言葉データヘの変形
例(1gramの場合)を示す表である。
【図19】書き言葉データから話し言葉データヘの変形
例(2gramの場合)を示す表である。
【符号の説明】
10 音声出力装置 11 書き言葉テキスト 12 テキスト入力手段 13 書き言葉データ 14 言葉変換手段 15 パラフレーズテーブル 16 話し言葉データ 17 音声データ作成手段 18 音声データ 19 話し言葉音声

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】書き言葉によって構成されたテキストを、
    話し言葉で読み上げる音声出力装置であって、該音声出
    力装置が、 テキストをコンピュータ処理用の書き言葉データとして
    装置内に入力するテキスト入力手段と、 該書き言葉データを、話し言葉データに変換する言葉変
    換手段と、 該話し言葉データから音声データを作成する音声データ
    作成手段と、 該音声データに基づき、音声を出力する音声出力手段と
    を有する構成において、 該言葉変換手段が、 少なくともその一部において同一意味内容を含む、書き
    言葉学習用データ及び話し言葉学習用データを用い、各
    言葉学習用データを所定の文字単位に分解した上、各言
    葉学習用データ間の不一致部分における各言葉間の書き
    換え可能確率が所定の値よりも高いものをパラフレーズ
    とし、それをあらかじめ記載したパラフレーズテーブル
    を備えると共に、 該パラフレーズテーブルを参照して書き言葉データを話
    し言葉データに変換する変換エンジンを備えたことを特
    徴とする音声出力装置。
  2. 【請求項2】前記パラフレーズテーブルにおいて、 1個又は複数個の文字単位から構成される文字単位群に
    着目し、該着目文字単位群を前記不一致部分として捉え
    るとき、 該着目文字単位群の前後に連接した前文字単位又は後文
    字単位の少なくともいずれかの、当該言葉学習用データ
    中における出現頻度に係る値又は、該値から所定の計算
    式によって算出された値に基づき、 該着目文字単位群をパラフレーズテーブルに記載するか
    否か、或いはパラフレーズテーブルへの記載の態様を決
    定する請求項1に記載の音声出力装置。
  3. 【請求項3】前記パラフレーズテーブルにおいて、 1個又は複数個の文字単位から構成される文字単位群に
    着目し、該着目文字単位群を前記不一致部分として捉え
    るとき、 該着目文字単位群が、当該言葉学習用データ中における
    出現頻度に係る値、或いは該値から所定の計算式によっ
    て算出された値に基づき、 該着目文字単位群をパラフレーズテーブルに記載するか
    否か、或いはパラフレーズテーブルへの記載の態様を決
    定する請求項1又は2に記載の音声出力装置。
  4. 【請求項4】前記言葉変換手段が、 1個又は複数個の文字単位から構成される文字単位群が
    前記パラフレーズテーブルに記載されているか、或いは
    その記載の態様を判別し、 その結果、該文字単位群が、書き言葉から話し言葉に変
    換可能な1個以上の変換後候補群を有すると判断される
    場合に、 該文字単位群の前後に近接する少なくとも1個の文字単
    位から成る前文字単位群及び後文字単位群が直前直後に
    出現する場合の該文字単位群と変換後候補群の当該言葉
    学習用データ中における出現頻度及び/又は出現確率に
    係る値を算出し、その値が最も大きい1個の変換後候補
    を特定した上で、 該文字単位群と、変換後候補との、出現頻度及び/又は
    出現確率に係る値が後者の方が大きいときに該文字単位
    群を書き言葉から話し言葉に変換する請求項1ないし3
    に記載の音声出力装置。
  5. 【請求項5】書き言葉によって構成されたテキストを、
    話し言葉で読み上げる音声出力ソフトウェアであって、
    該音声出力ソフトウェアが、 テキストをコンピュータ処理用の書き言葉データとして
    装置内に入力するテキスト入力部と、 該書き言葉データを、話し言葉データに変換する言葉変
    換部と、 該話し言葉データから音声データを作成する音声データ
    作成部と、 該音声データに基づき、音声を出力する音声出力部とを
    有する構成において、 該言葉変換部が、 少なくともその一部において同一意味内容を含む、書き
    言葉学習用データ及び話し言葉学習用データを用い、各
    言葉学習用データを所定の文字単位に分解した上、各言
    葉学習用データ間の不一致部分における各言葉間の書き
    換え可能確率が所定の値よりも高いものをパラフレーズ
    とし、それをあらかじめ記載したパラフレーズテーブル
    を有すると共に、 該パラフレーズテーブルを参照して書き言葉データを話
    し言葉データに変換する変換ルーチンを有することを特
    徴とする音声出力ソフトウェア。
  6. 【請求項6】前記パラフレーズテーブルにおいて、 1個又は複数個の文字単位から構成される文字単位群に
    着目し、該着目文字単位群を前記不一致部分として捉え
    るとき、 該着目文字単位群の前後に連接した前文字単位又は後文
    字単位の少なくともいずれかの、当該言葉学習用データ
    中における出現頻度に係る値又は、該値から所定の計算
    式によって算出された値に基づき、 該着目文字単位群をパラフレーズテーブルに記載するか
    否か、或いはパラフレーズテーブルへの記載の態様を決
    定する請求項5に記載の音声出力ソフトウェア。
  7. 【請求項7】前記パラフレーズテーブルにおいて、 1個又は複数個の文字単位から構成される文字単位群に
    着目し、該着目文字単位群を前記不一致部分として捉え
    るとき、 該着目文字単位群が、当該言葉学習用データ中における
    出現頻度に係る値又は、該値から所定の計算式によって
    算出された値に基づき、 該着目文字単位群をパラフレーズテーブルに記載するか
    否か、或いはパラフレーズテーブルへの記載の態様を決
    定する請求項5又は6に記載の音声出力ソフトウェア。
  8. 【請求項8】前記言葉変換手段が、 1個又は複数個の文字単位から構成される文字単位群が
    前記パラフレーズテーブルに記載されているか、或いは
    その記載の態様を判別し、 その結果、該文字単位群が、書き言葉から話し言葉に変
    換可能な1個以上の変換後候補群を有すると判断される
    場合に、 該文字単位群の前後に近接する少なくとも1個の文字単
    位から成る前文字単位群及び後文字単位群が直前直後に
    出現する場合の該文字単位群と変換後候補群の当該言葉
    学習用データ中における出現頻度及び/又は出現確率に
    係る値を算出し、その値が最も大きい1個の変換後候補
    を特定した上で、 該文字単位群と、変換後候補との、出現頻度及び/又は
    出現確率に係る値が後者の方が大きいときに該文字単位
    群を書き言葉から話し言葉に変換する請求項5ないし7
    に記載の音声出力ソフトウェア。
JP2001324097A 2001-10-22 2001-10-22 話し言葉による音声出力装置及びソフトウェア Expired - Lifetime JP3593563B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001324097A JP3593563B2 (ja) 2001-10-22 2001-10-22 話し言葉による音声出力装置及びソフトウェア

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001324097A JP3593563B2 (ja) 2001-10-22 2001-10-22 話し言葉による音声出力装置及びソフトウェア

Publications (2)

Publication Number Publication Date
JP2003131679A true JP2003131679A (ja) 2003-05-09
JP3593563B2 JP3593563B2 (ja) 2004-11-24

Family

ID=19140889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001324097A Expired - Lifetime JP3593563B2 (ja) 2001-10-22 2001-10-22 話し言葉による音声出力装置及びソフトウェア

Country Status (1)

Country Link
JP (1) JP3593563B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015011B2 (en) 2007-01-30 2011-09-06 Nuance Communications, Inc. Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法
CN104239363A (zh) * 2013-06-24 2014-12-24 上海能感物联网有限公司 非特定人外语语音现场实时查询指路机信息的方法
CN104252450A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 外语文本现场实时查询指路机信息的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015011B2 (en) 2007-01-30 2011-09-06 Nuance Communications, Inc. Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法
CN104239363A (zh) * 2013-06-24 2014-12-24 上海能感物联网有限公司 非特定人外语语音现场实时查询指路机信息的方法
CN104252450A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 外语文本现场实时查询指路机信息的方法

Also Published As

Publication number Publication date
JP3593563B2 (ja) 2004-11-24

Similar Documents

Publication Publication Date Title
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US6249763B1 (en) Speech recognition apparatus and method
El-Imam Phonetization of Arabic: rules and algorithms
US20020120451A1 (en) Apparatus and method for providing information by speech
Narasimhan et al. Schwa-deletion in Hindi text-to-speech synthesis
JP2006243673A (ja) データ検索装置および方法
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
RU2386178C2 (ru) Способ предварительной обработки текста
JP3593563B2 (ja) 話し言葉による音声出力装置及びソフトウェア
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
Akmuradov et al. A novel algorithm for dividing Uzbek language words into syllables for concatenative text-to-speech synthesizer
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
Brixey et al. ChoCo: a multimodal corpus of the Choctaw language
JP3589972B2 (ja) 音声合成装置
Marcadet et al. A transformation-based learning approach to language identification for mixed-lingual text-to-speech synthesis.
Xydas et al. Text normalization for the pronunciation of non-standard words in an inflected language
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
JP3029403B2 (ja) 文章データ音声変換システム
Hussain To-sound conversion for Urdu text-to-speech system
JPH11344998A (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JP2000352990A (ja) 外国語音声合成装置
US8249869B2 (en) Lexical correction of erroneous text by transformation into a voice message
JP2003132047A (ja) 話し言葉の書き言葉への変換装置
Alghamdi et al. Arabic language resources and tools for speech and natural language

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040122

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040702

R150 Certificate of patent or registration of utility model

Ref document number: 3593563

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term