JP2006039461A - 音声合成支援システム、音声合成支援方法および音声合成支援プログラム - Google Patents

音声合成支援システム、音声合成支援方法および音声合成支援プログラム

Info

Publication number
JP2006039461A
JP2006039461A JP2004223136A JP2004223136A JP2006039461A JP 2006039461 A JP2006039461 A JP 2006039461A JP 2004223136 A JP2004223136 A JP 2004223136A JP 2004223136 A JP2004223136 A JP 2004223136A JP 2006039461 A JP2006039461 A JP 2006039461A
Authority
JP
Japan
Prior art keywords
morpheme
text
unit
sequence
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004223136A
Other languages
English (en)
Inventor
Yuuji Shimizu
勇詞 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004223136A priority Critical patent/JP2006039461A/ja
Publication of JP2006039461A publication Critical patent/JP2006039461A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 合成音声の読み誤りの箇所を容易かつ正確に特定することを可能にする音声合成支援システムを提供する。
【解決手段】 操作者は、合成音声出力部102から出力される合成音声を聞き、テキスト選択部103において、読み誤りが含まれているテキストを選択する。テキスト選択部103で選択されたテキストは、形態素解析部104で形態素解析される。形態素列記憶部105には、合成音声において読み誤りを生じない形態素列が記憶されており、未登録形態素列検出部106は、形態素解析部104で得られた形態素列のうち、形態素列記憶部105に記憶されていない形態素列を検出する。検出された形態素列は、未登録形態素列提示部107から操作者に提示される。
【選択図】 図1

Description

本発明は、音声合成支援システム、音声合成支援方法および音声合成支援プログラムに係わり、特に合成音声において読み誤りが生じている箇所の特定を容易にできるようにした音声合成支援システム、音声合成支援方法および音声合成支援プログラムに関する。
従来から、次世代インターフェースの中核技術として、入力されたテキストから合成音声を作成して出力する音声合成の技術が提案されている(例えば、特許文献1を参照。)。このような音声合成技術では、まずテキストを形態素と呼ばれる、意味を有する最小の言語単位に分解する。次に、形態素間の接続を考慮して読みやアクセントなどの韻律情報を生成する。そして、この韻律情報に基づき、合成音の単位となる音声素片を各音素の継続時間長を考慮して接続することによって、合成音声が作成される。
このような音声合成技術では、形態素ごとの読みやアクセントあるいは形態素が接続した場合の読みやアクセントの変化のルールは、あらかじめ多数のテキストデータと音声データを用いて作成しておく必要がある。しかし、言語は常に変化しているため、音声合成しようとするテキストには、新しい単語や新しい言い回しなど、あらかじめ作成したルールには登録されていない新しい形態素や新しい形態素間の接続が現れる場合がある。このような新しい形態素や形態素間の接続については、あらかじめ登録された形態素の読みやアクセント、あるいは形態素間の接続に基づく読みやアクセントの変化とは異なる韻律情報の生成を行わなければならない場合もある(例えば、「株式(かぶしき)」と「会社(かいしゃ)」が接続することによって「株式会社(かぶしきがいしゃ)」となるような場合など)。そのため、このような新しい形態素の読みやアクセント、あるいは形態素間の接続による読みやアクセント変化などのルールは、新しい単語や言い回しが表れるたびに、これを検出して、逐次登録する必要がある。
従来、このような新しいルールの登録は、まずルールの登録を行う作業者が、合成音声を実際に聞き、単語を読み誤っていたり、アクセント位置が不適切に付加されていたりするなど、読み誤りが生じている箇所を検出し、検出された箇所を解析して新たなルールを作成することによって行っていた。
しかし、例えば、複数の単語が接続することによってアクセント位置が変化し、読み誤りが生じる場合などは、読み上げられた文章全体から合成音声に違和感があると認められても、その違和感の原因を単語や文字レベル、あるいは単語間の接続レベルで的確に把握することはきわめて難しいという問題があった。そのため、このような読み誤りを検出する作業は熟練した作業者でなければ行うことが難しかった。
また、近年、インターネット上でWebのページを合成音声で読み上げるサービスや、Web上でユーザから入力されたテキストに対して音声合成を作成して提供するサービスなどが広まっている。このようなサービスでは、配信された合成音声をユーザに評価してもらい、この評価を音声合成の品質向上に反映していくことが極めて重要となる。
しかしながら、ユーザは必ずしも合成音声の読み誤りの検出に習熟しているわけではないため、配信された合成音声に違和感を覚えたとしても、その原因がどこにあるのかを正確に指摘することは困難である。そのため、従来の技術では、ユーザに合成音声を配信しても、ユーザから読み誤りの情報についてのフィードバックを得ることは極めて難しいという問題があった。
特開平5−189194号公報(2頁)
上述したように、従来の技術では、読み上げられた合成音声から読み誤りが生じている箇所を正確に把握することは極めて難しいという問題があった。また、そのため、このような読み上げられた合成音声から読み誤りを検出する作業は、熟練した作業者によらなければ行うことが難しい、という問題があった。
また上述したように、従来のインターネットなどを通じた合成音声の提供においては、提供を受けたユーザが合成音声に違和感を感じたとしても、読み誤りが生じている箇所を正確に把握することが極めて難しいため、ユーザから合成音声の読み誤りに関する有効な情報を得ることができないという問題があった。
本発明は、上記従来技術の問題点を解決するためになされたものであって、あらかじめ読み誤りが生じない形態素列を形態素列記憶部に記憶しておき、新たに読み誤りを含むテキストが選択された場合に、そのテキストに含まれる形態素列のうち、前記形態素列記憶部に記憶されていない形態素列を読み誤りの箇所として提示することにより、読み誤りが生じている箇所の特定を容易にすることを可能とする音声合成支援システム、音声合成支援方法および音声合成支援プログラムを提供することを目的とする。
本発明はまた、読み上げられた合成音声のうち読み誤りが含まれていると考えられるテキストをユーザに選択、送信させ、これを合成音声の配信側で受信して解析することにより、誤り箇所の特定を容易に行うことを可能とする音声合成支援システム、音声合成支援方法および音声合成支援プログラムを提供することを目的とする。
上記目的を達成するために、本発明の音声合成支援システムは、入力されたテキストから合成音声を作成して出力する音声合成手段と、前記音声合成手段で読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択手段と、前記テキスト選択手段で選択されたテキストを形態素解析して形態素列を求める形態素解析手段と、複数の形態素列を記憶する記憶手段と、前記形態素解析手段で求められた形態素列のうち、前記記憶手段に記憶されていない形態素列を検出する形態素列検出手段と、前記形態素列検出手段で検出された形態素列を提示する形態素列提示手段とを備えることを特徴とする。
また、本発明の音声合成支援方法は、入力されたテキストから合成音声を作成して出力する音声合成ステップと、前記音声合成ステップで読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択ステップと、前記テキスト選択ステップで選択されたテキストを形態素解析して形態素列を求める形態素解析ステップと、前記形態素解析ステップで求められた形態素列のうち、あらかじめ作成した複数の形態素列を記憶する記憶部に記憶されていない形態素列を検出する形態素列検出ステップと、前記形態素列検出ステップで検出された形態素列を提示する形態素列提示ステップとを有することを特徴とする。
また、本発明の音声合成支援プログラムは、コンピュータに、合成音声において読み誤りが生じているテキストに対応した形態素列を提示させるプログラムであって、入力されたテキストから合成音声を作成して出力させる音声合成機能と、前記音声合成機能で読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択機能と、前記テキスト選択機能によって選択されたテキストを形態素解析して形態素列を求める形態素解析機能と、前記形態素解析機能によって求められた形態素列のうち、あらかじめ作成した複数の形態素列を記憶する記憶部に記憶されていない形態素列を検出する形態素列検出機能と、前記形態素列検出機能によって検出された形態素列を提示する形態素列提示機能とを備えることを特徴とする。
本発明によれば、音声合成されたテキストから読み誤りが含まれていると考えられる箇所を選択し、選択されたテキストに含まれる形態素列のうち、読み誤りを生じない形態素列が記憶されている記憶部に記憶されていないものを検出して、これを表示するので、合成音声の読み誤りの箇所を容易かつ正確に特定することが可能となる。
以下、本発明の実施形態について説明する。
図1は、本発明の第1の実施形態に係わる音声合成支援システムを示すブロック図である。
この第1の実施形態に係わる音声合成支援システムは、入力されたテキストから合成音声を生成する音声合成部101と、合成音声部101で生成された合成音声を出力する合成音声出力部102と、ユーザである操作者からの指示により、入力されたテキストの一部または全部が選択されるテキスト選択部103と、テキスト選択部103で選択されたテキストを形態素解析して形態素列に分割する形態素解析部104と、複数の形態素列を記憶した形態素列記憶部105と、形態素解析部104で得られる形態素列のうち、形態素列記憶部105に記憶されていない形態素列を検出する未登録形態素列検出部106と、未登録形態素列検出部106で検出された形態素列を提示する未登録形態素列提示部107とを備えている。
次に図1および図2を用いて、本発明の第1の実施形態に係わる音声合成支援システムの動作について説明する。図2は、本発明の第1の実施形態に係わる音声合成支援システムの動作を示すフローチャートである。
まず、音声合成支援システムにテキストが入力されると音声合成部101に送られる(ステップS101)。このテキストの入力は、操作者がキーボードなどを用いて入力してもよく、あらかじめテキストが記憶されているファイルを選択して読み出すことによって行ってもよい。
次に、音声合成部101において、入力されたテキストから合成音声が生成される(ステップS102)。入力されたテキストから合成音声を作成する方法には、例えば、特許文献1において開示されている方法等を用いることができる。
音声合成部101で生成された合成音声は、合成音声出力部102において出力される(ステップS103)。操作者は、合成音声出力部102から出力される合成音声を聞き、単語の読みの誤りやアクセント位置の誤りなどの読み誤りを知覚することができる。なお、合成音声出力部102としては、例えば、スピーカやヘッドホンなどを用いることができる。
次に、操作者は、合成音声出力部102から出力された合成音声をもとに、テキスト選択部103において、読み上げられたテキストから、読み誤りを含んでいると考えられる部分を選択する(ステップS104)。
読み誤りを含んでいると考えられる部分の選択は、例えば、図3に示すように読み上げられたテキストをCRTディスプレイや液晶ディスプレイに表示し、マウスやキーボードなどを用いて、操作者が表示されたディスプレイ上で誤りを含んでいると考えられる部分を指定することによって行うことができる。あるいは、図4に示すように、読み上げられたテキストをセンテンスごとにディスプレイに表示し、マウスやキーボードなどを用いて、操作者が誤りを含んでいると考えられるセンテンスを選択することによって行ってもよい。あるいは、合成音声が読み上げられている際に、読み誤りが生じていると感じられた部分で操作者がマウスやボタンなどを操作することで、操作された際に読み上げられているセンテンスを読み誤りを含んでいるテキストとして選択できるようにしてもよい。あるいは、操作者によってマウスやボタンなどが操作された時刻から、あらかじめ定めた一定時間だけ過去の合成音声に対応するテキストを、読み誤りを含んでいる部分として選択できるようにしてもよい。
なお、テキスト選択部103では、読み誤りが生じている部分を正確に特定する必要はなく、読み誤りが生じていると考えられる部分が含まれるように、広い範囲でテキストを選択すればよい。
テキスト選択部103で選択された読み誤りを含んでいるテキストは、形態素解析部104おいて形態素列に分割される(ステップS105)。ここで形態素列とは、意味を有する最小の言語単位であり、形態素解析を行ってテキストを形態素列に分割する方法としては、例えば、文献「著者:妙木、松本、長尾、“汎用日本語辞書および形態素解析システム”、情報処理学会第42回全国大会予稿集、1991」に開示されている方法等を用いることができる。
図5は、テキストを形態素解析して形態素列に分割した例を表したものである。この例では、テキストは、図5(a)に示す「日本海側では・・・」であり、このテキストを形態素解析したものが図5(b)である。ここで、図5(b)において「//」で囲まれた文字列が一つの形態素である。このように形態素解析部104で得られた形態素列は、次に未登録形態素列検出部106に送られる。
未登録形態素列検出部106は、あらかじめ複数の形態素列が記憶されている形態素列記憶部105と形態素解析部104で得られた形態素列とを照合し、形態素解析部104で得られた形態素列のうち、形態素列記憶部105に記憶されていない形態素列を検出する(ステップS106)。
図6は、形態素列記憶部105に記憶されている形態素列の一例を示す。図6に示す形態素列記憶部105の一例は、上述した図5に示す形態素列を記憶した場合の例であり、ここでは最大で3つの形態素によって構成される形態素列が記憶されている。なお、形態素列記憶部105には、半導体メモリ、ハードディスク、CD−R、CD−RW、DVD−R、DVD−RAM、DVD−RWなどの記憶媒体を用いることができる。
また、図6の形態素列記憶部105に記憶される形態素列の一例は、最大で3つの形態素によって構成される形態素の列であるとしたが、形態素列を構成する形態素の数は、1つあるいは2つであってもよく、また4つ以上であってもよい。
さらに、図6の形態素列記憶部105に記憶されている形態素列の一例は、形態素解析した結果で得られる形態素列をそのまま記憶したものとしているが、図7に示すように、特定の品詞に属する形態素については同一の形態素として扱って形態素列記憶部105に記憶するようにしてもよい。また、同様に特定の意味を有する形態素(例えば、数字など)をまとめてひとつの形態素として扱うことも可能である。このようにすることで、形態素列記憶部105に記憶される形態素列の数を減らし、形態素列記憶部105のサイズを小さくすることが可能になる。
ここで、形態素列記憶部105には、合成音声を作成した場合に読み誤りが生じない形態素列のみがあらかじめ記憶されている。このような形態素列記憶部105は、あらかじめ、大量のテキストデータから合成音声を作成し、そのうち読み誤りを生じていないテキストを選択して、これを形態素解析して得られる形態素列を記憶媒体に記憶することによって得ることができる。
このようにして得られた形態素列を記憶した形態素列記憶部105を用いれば、前記形態素解析部104で得られた形態素列のうち、形態素列記憶部105に記憶されている形態素列からは読み誤りを生じないと判定することができる。一方、形態素列記憶部105に記憶されていない形態素列は、新しい単語や新しい言い回しに由来するものと考えられるので、読み誤りの原因となっている可能性があると判定することができる。そこで未登録形態素列検出部106において、形態素解析部104で得られた読み誤りを含む形態素列から、形態素列記憶部105に記憶されていない形態素列を検出すれば、読み誤りを生じている箇所を正確に特定することが可能となる。
以下、図8に示すテキストを用いて、未登録形態素列検出部106において検出される形態素列の一例を説明する。ここでは、形態素列記憶部105には、図6に示す形態素列記憶部105を用いるものとする。なお、図8(a)に示すテキストがテキスト選択部103で選択されたテキストであり、このテキストを形態素解析部104で形態素列に分割したものが図8(b)である。
そして、未登録形態素列検出部106は、この例では、「で/は/雹」「は/雹」「は/雹/の」「雹」「雹/の」「雹/の/降る」のいずれもが、図6に示す形態素列記憶部105に記憶されていないことから、これらの形態素列を未登録形態素列として検出する。
なお、上述した例では、未登録形態素列検出部106は、形態素列記憶部105に記憶されていないすべての形態素列を検出しているが、上述した例のように複数の連続する形態素列が検出された場合には、例えば、最も形態素数の少ない形態素列(上述した例では「雹」)のみを検出して、未登録形態素列提示部107に送るようにすることも可能である。
このように未登録形態素列検出部106で検出された、形態素列記憶部105に記憶されていない形態素列(「で/は/雹」「は/雹」「は/雹/の」「雹」「雹/の」「雹/の/降る」)は、未登録形態素列提示部107から操作者に提示される(ステップS107)。表示は、例えば、図9に示すように、テキスト選択部103で選択されたテキストのうち、未登録形態素列検出部106で検出された形態素列に相当するテキスト部分をハイライトして表示することによって行えばよい。
上述したように、形態素列記憶部105に読み誤りが生じない形態素列を記憶しておけば、未登録形態素列検出部106において、読み誤りの原因となっている可能性のある形態素列を検出することができ、これを未登録形態素列提示部107において確認することが可能になる。したがって、操作者は、未登録形態素列提示部107で提示された形態素列(「で/は/雹」「は/雹」「は/雹/の」「雹」「雹/の」「雹/の/降る」)によって、テキスト選択部103で選択したテキストのうち、どの部分で読み誤りが生じているかを容易に把握することが可能になる。
操作者は、このように提示された形態素列(「で/は/雹」「は/雹」「は/雹/の」「雹」「雹/の」「雹/の/降る」)に対応する合成音声を再度出力したり、合成音声のスペクトルを表示させたりすることによって、さらに詳細な誤りの原因を特定することができ、新しい形態素の読みやアクセント変化などのルールを音声合成に反映させることができるようになる。
このように、第1の実施形態に係わる音声合成支援システムによれば、読み上げられた合成音声から読み誤りが生じているテキスト部分を選択し、選択されたテキスト部分に含まれる形態素列のうち、読み誤りが生じない形態素列を記憶した形態素列記憶部に記憶されていない形態素列を提示することにより、読み誤りの生じている箇所を容易に把握することが可能になる。
実施例1の音声合成支援システムでは、あらかじめ大量のテキストデータから合成音声を作成し、これを実際に聞いて、読み誤りが生じていないテキストに対応する形態素列を形態素列記憶部105に記憶していた。しかし、言語は変化するものであるから、形態素列記憶部105にも常に新しい単語や言い回しに対応する形態素列を記憶していかなければならない。
ここで、実施例1の音声合成支援システムでは、入力されたテキストのうち、合成音声において読み誤りが生じている部分は、操作者によってテキスト選択部103から選択されるようにしている。したがって、実施例1の音声合成支援システムにおいて、テキスト選択部103で選択されなかったテキストは読み誤りを含んでいないものと判断できる。そこで、テキスト選択部103で選択されなかったテキストに含まれる形態素列のうち、形態素列記憶部105に記憶されていない形態素列については、これを新たに形態素列記憶部105に記憶すれば、逐次、形態素列記憶部105に読み誤りを生じない形態素列を追加していくことが可能になる。
図10は、本発明の第2の実施形態に係わる音声合成支援システムの構成を示すブロック図である。
この第2の実施形態に係わる音声合成支援システムは、音声合成部201と、合成音声出力部202と、テキスト選択部203と、形態素解析部204と、形態素列記憶部205と、未登録形態素列検出部206と、未登録形態素列提示部207、形態素列登録部208とを備えている。つまり、第1の実施形態とは、形態素列解析部204からテキスト選択部203で選択されなかったテキストに対応する形態素列を受け取り、これを形態素列記憶部205に記憶する機能を有する形態素列登録部208を備える点が異なるのみである。したがって、以下では、第1の実施形態と共通の動作を行う部分(音声合成部201、合成音声出力部202、未登録形態素列検出部206、未登録形態素列提示部207)については、説明を省略する。
次に、図10を用いて、本発明の第2の実施形態に係わる音声合成支援システムの動作について説明する。
形態素解析部204は、テキスト選択部203において選択されたテキストを形態素解析して形態素列に分割するとともに、テキスト選択部203において選択されなかった残りのテキストについても形態素解析して形態素列に分割する。次に、形態素解析部204は、テキスト選択部203において選択されたテキストに対応する形態素列については、未登録形態素列検出部206に送り、テキスト選択部203において選択されなかったテキストに対応する形態素列については、形態素列登録部208に送る。
形態素列登録部208は、形態素列解析部204から送られる形態素列のうち、形態素列記憶部205に記憶されていない形態素列を検出し、これを形態素列記憶部205に記憶する。
図11(a)に示すように、例えば、「これはペンです。」というテキストに対応する形態素列が形態素列記憶部205に記憶されている場合に、「あれはペンです。」というテキストに対応する形態素列が送られてきたとする。すると、形態素列登録部208は、形態素列記憶部205に記憶されていない「あれ」「あれ/は」「あれ/は/ペン」という形態素列を検出する。その結果、図11(b)に示すように、形態素列登録部208によって、形態素列記憶部205に新たに形態素列(「あれ」「あれ/は」「あれ/は/ペン」)が記憶されることになる。
このように、第2の実施形態に係わる音声合成支援システムによれば、テキスト選択部において選択されなかったテキストに含まれる形態素列を形態素列記憶部に新たに記憶することにより、逐次、読み誤りが生じない形態素列を形態素列記憶部に追加していくことが可能になる。
実施例2の音声合成支援システムでは、テキスト選択部203で選択されたテキストを形態素解析して得られる形態素列のうち、形態素列記憶部205に記憶されていないものを検出して、これを読み誤りの箇所として提示していた。しかし、読み誤りが生じないとして形態素列記憶部205に記憶されている形態素列によって構成される文章でも、例えば、音声合成部201において「東京都の都知事(とうきょうとのとちじ)」を「東京/都/の/都知事(とうきょうとのとちじ)」と形態素解析すべきところを、「東/京都/の/都知事(ひがしきょうとのとちじ)」と誤って形態素解析することによって、読み誤りが生じる場合もある。ここで、「東京都」というテキストは、例えば、「銀閣寺は東京都にある」という文章では「東/京都」と形態素解析し、「ひがしきょうと」と読むことが正しいため、「東/京都(ひがしきょうと)」という形態素列としても、形態素列記憶部205に記憶されている場合がある。
そこで、このような形態素解析の誤りに由来する読み誤り箇所を検出するため、形態素列記憶部205には、形態素列とともに、その形態素列が正しく読み上げられた回数も合わせて記憶しておく。すなわち、正しく読み上げられた回数が多い形態素列は、正しく読み上げられた回数の少ない形態素列に比べて、読み誤りの可能性が低いと考えられるため、形態素解析部204で得られた形態素列のうち、形態素列記憶部205に記憶されている正しく読み上げられた回数が少ない形態素列を操作者に提示すれば、上述したような形態素解析の誤りに由来する読み誤りを検出することが可能になる。
図12は、本発明の第3の実施形態に係わる音声合成支援システムの構成を示すブロック図である。
この第3の実施形態に係わる音声合成支援システムは、音声合成部301と、合成音声出力部302と、テキスト選択部303と、形態素解析部304と、複数の形態素列とその形態素列が正しく読み上げられた回数(以下、正解回数と呼ぶ)とが関連付けられて記憶されている形態素列記憶部305と、形態素解析部304から送られる形態素列を、形態素列記憶部305に記憶された形態素列とその形態素列の正解回数に基づいて順位づける形態素列順位づけ部306と、形態素列順位づけ部306で順位づけられた形態素列を提示する形態素列提示部307と、形態素列登録部308とを備えている。つまり、第2の実施形態とは、未登録形態素列検出部206および未登録形態素列提示部207の代わりに形態素列順位づけ部306および形態素列提示部307を備える点が異なるのみである。したがって、以下では、第2の実施形態と共通する部分(音声合成部301、合成音声出力部302、テキスト選択部303)については、説明を省略する。
次に、図12を用いて、本発明の第3の実施形態に係わる音声合成支援システムの動作について説明する。
形態素解析部304では、テキスト選択部303において選択されたテキストを形態素解析して形態素列に分割するとともに、テキスト選択部303において選択されなかった残りのテキストについても形態素解析して形態素列に分割する。次に、形態素解析部304は、テキスト選択部303において選択されたテキストに対応する形態素列については、形態素列順位づけ部306に送り、テキスト選択部303において選択されなかったテキストに対応する形態素列については、形態素列登録部308に送る。
形態素列順位づけ部306は、あらかじめ複数の形態素列およびその正解回数が記憶されている形態素列記憶部305と形態素解析部304で得られた形態素列を照合し、各形態素列の正解回数に基づいて形態素解析部303で得られた形態素列を順位づけする。
図13に形態素列記憶部305に記憶されている形態素列の一例を示す。図13に示す形態素列記憶部305は、上述した図5(b)に示す形態素列を記憶した場合の例である。図5(b)に示される形態素列では、「側」と「は」という形態素が、それぞれ2回出現しているため、これらの形態素が正しく読み上げられた場合には、図13に示される形態素列記憶部305には、これらの形態素の正解回数が「2」と記憶される。それ以外の形態素列については、それぞれ出現回数は1回であるため、正解回数は「1」と記憶される。
形態素列順位づけ部306における形態素列の順位づけは、例えば、形態素解析部304から送られる形態素列を、形態素列記憶部305に記憶されている正解回数の低い順番に整列して順位づけをすればよい。このようにすることで、正解回数、すなわち、その形態素列が正しく読み上げられた回数に基づいて、読み誤りが生じている可能性の高い形態素列から順番に整列することが可能になる。
図14は、正解回数によって形態素列を順位づけることで、読み誤りの可能性が高い箇所を提示することが可能な例である。図9(a)に示すように、例えば、「背に負うたこ」というテキストが、合成音声出力部302において、「背/に/負う/た/こ(子)」と読み上げられるべきところを、合成音声部301における形態素解析の誤りによって、図9(b)に示すように「背/に/負う/たこ(蛸)」と形態素解析され、読み上げられたとする。ここで「負う/たこ(蛸)」という形態素解析は、例えば、「海で釣った背に負うたこ(蛸)」という文章では正しいため、「負う/たこ(蛸)」という形態素列は、形態素列記憶部305に読み誤りを生じない形態素列として記憶されうる。しかし、「負うたこ(蛸)」という表現は、日本語の表現では稀であるため、このような「負う/たこ(蛸)」といった形態素列は、形態素列記憶部305に記憶されていたとしても、「背/に」や「背/に/負う」といった形態素列と比較すると、その正解回数は少ないと考えられる。そこで、形態素解析部304で「背/に/負う/たこ(蛸)」と形態素解析された各形態素列を、形態素列記憶部305に記憶された正解回数の少ない順に順位づけすれば、「負う/たこ(蛸)」という形態素列は上位に順位づけされることになり、形態素列提示部307において表示されることになる。
このように形態素列順位づけ部306で順位づけられた形態素列は、次に、形態素列提示部307に送られる。
形態素列提示部307では、形態素列順位づけ部306から送られる順位づけられた形態素列をCRTディスプレイや液晶ディスプレイに表示し、操作者に提示する。形態素列の提示は、図15に示すように、順位の早いものから一定数だけ整列して表示させればよい。
また、形態素列登録部308は、形態素列解析部304から送られる、テキスト選択部303で選択されなかったテキストに対応する形態素列を、形態素列記憶部305に記憶する。このとき、すでに形態素列記憶部305に記憶されている形態素列については、その正解回数を更新し、未だ形態素列記憶部305に記憶されていない形態素列については、形態素列記憶部305に新たに記憶して、その正解回数を「1」とする。
このように、第3の実施形態に係わる音声合成支援システムによれば、形態素解析の誤りに由来して読み誤りが生じる場合でも、形態素列記憶部305に記憶されている形態素列が正しく読み上げられた回数に基づき、正しく読み上げられた回数が少ない形態素列ほど読み誤りの可能性が高い箇所として操作者に提示することが可能になる。
なお、上述した例では、各形態素列に含まれる形態素の数によらず、正解回数に基づいて形態素解析部304で得られる形態素列の順位づけを行うこととした。しかし、対比する形態素列の正解回数が同じである場合、形態素列に含まれる形態素の数が多いほど、読み誤りの可能性が少ないと考えられることから、(1)式に示すように、形態素列に含まれる形態素の数によって重み付けを行ったスコアSを求めて、スコアSが小さい順番に整列して順位づけすることも可能である。
Figure 2006039461
ここで、αは適切に定めた重み係数である。
さらに、形態素解析部304で得られた形態素ごとに、形態素列記憶部305に記憶された、その形態素を含む形態素列のスコアSの和SSUMを求めて、このスコアの和SSUMが小さい順番に、各形態素を順位づけすることも可能である。図16には、図8(b)に示した形態素列のうち、「雹」という形態素に対してスコアSの和SSUMを求めた例を示す。
なお、上述した(1)式では、形態素の数を累乗とすることで重み付けしていたが、(2)式のように、形態素の数を積とすることも可能である。
Figure 2006039461
このようにすることで、形態素列に含まれる形態素の数を考慮して、読み誤りの可能性のある箇所を順位づけすることが可能になる。
実施例1の音声合成支援システムでは、読み上げられた合成音声を聞き、読み誤りを含むテキストを選択した操作者に対して、未登録形態素列検出部106で検出した読み誤りの原因となる形態素列を提示していた。
しかし、合成音声がネットワークを通じて配信され、インターネットなどのユーザが、個人の端末装置を用いてこれを利用するような場合には、合成音声を聞くユーザと、合成音声を管理し、読み誤りの原因などを解析する操作者が異なる。このような場合には、端末装置のユーザに、読み誤りを含むテキストを選択して、ネットワークを通じて送信してもらい、合成音声を管理する側でこれを受信して、読み誤りの箇所を解析できることが望ましい。
そこで、実施例4では、ユーザが端末装置で合成音声を聞き、読み誤りを含むテキストを選択して、これをネットワークを通じて送信し、読み誤りの解析を行う側において、送信されたテキストを受信して、読み誤りの箇所を検出する実施の形態について説明する。
図17は、本発明の第4の実施形態に係わる音声合成支援システムを含むネットワークシステムの構成を示すブロック図である。
このネットワークシステムは、本発明の第4の実施形態に係わる音声合成支援システム401と、ネットワークに接続されテキストおよび合成音声を受信し、ユーザによって選択されたテキストをテキスト情報として送信する端末装置402と、ネットワークに接続されテキストおよび合成音声を配信する情報配信システム403とを備える。
ここで、音声合成支援システム401は、端末装置から送信されたテキスト情報を受信するテキスト情報受信部404と、テキスト情報受信部404で受信されたテキスト情報に基づいて操作者が選択したテキストを形態素解析する形態素解析部405と、複数の形態素列を記憶した形態素列記憶部406と、形態素解析部405で得られた形態素列のうち、形態素列記憶部406に記憶されていない形態素列を検出する未登録形態素列検出部407と、未登録形態素列検出部407で検出された形態素列を提示する未登録形態素列提示部408とを備えている。
また、端末装置402は、合成音声およびテキストを受信するとともに、ユーザによって選択されたテキストに基づいてテキスト情報を送信する送受信部409と、送受信部409で受信した合成音声を出力する合成音声出力部410と、送受信部409で受信したテキストから読み誤りを含む箇所を選択するテキスト選択部411とを備えている。なお、端末装置402としては、例えば、パーソナルコンピュータや携帯電話を用いることができる。
また、情報配信システム403は、テキストおよび合成音声を配信する情報配信部412を備えている。
なお、上述した音声合成支援システム401、端末装置402および情報配信システム403は、インターネットなどのネットワーク413を介して接続されており、その間の情報の伝送は有線や無線の伝送路を用いて行われる。
次に、図17を用いて、本発明の第4の実施形態に係わる音声合成支援システムを含むネットワークシステムの動作について説明する。
まず、情報配信システム403は、情報配信部412において、テキストと、そのテキストから作成された合成音声をネットワーク413上へ配信する。情報の配信は、例えば、ネットワーク413に接続された複数の端末装置からアクセスが可能なサーバへ、テキストおよび合成音声をアップロードすることによって行ってもよく、特定の端末装置へ向けて電子メール等によって送信することによって行ってもよい。
端末装置402は、まず送受信部409において、情報配信システム403から配信されたテキストおよび合成音声を受信する。
受信された合成音声は、次に端末装置402に設けられた合成音声出力部410から出力される。合成音声出力部410には、例えば、スピーカやヘッドホンなどを用いることができる。
端末装置402のユーザは、合成音声出力部410において読み上げられた合成音声を聞き、送受信部409において受信したテキストから、読み誤りが含まれている部分をテキスト選択部411において選択する。テキストの選択は、例えば、CRTディスプレイなどの表示装置にテキストを表示させ、キーボードやマウスなどでテキストの範囲を指定することによって行えばよい。
テキスト選択部411で選択されたテキストはテキスト情報として、送受信部409から、ネットワーク413を通じて音声合成支援システム401に送信される。送信されるテキスト情報は、テキストそのものであってもよいが、例えば、テキストがセンテンスごとに番号が付与されたものであり、音声合成支援システム401において、その番号からテキストを参照できる場合には、その番号であってもよい。
端末装置402から送信されたテキスト情報は、音声合成支援システム401のテキスト情報受信部404において受信される。
次に、テキスト情報受信部404は、受信したテキスト情報に基づいて、端末装置402のユーザが選択したテキストを形態素解析部405に送る。ここで、テキスト情報が、上述したようにセンテンスごとに付与された番号などである場合には、テキスト情報受信部404は、その番号からテキスト情報に変換して形態素解析部405に送る。
形態素解析部405は、テキスト情報受信部404から送られたテキストを形態素解析して形態素列に分割する。
次に、未登録形態素列検出部407において、形態素列解析部405で得られた形態素列と形態素列記憶部406に記憶されている複数の形態素列とが照合され、形態素列解析部405で得られた形態素列のうち、形態素列記憶部406に記憶されていない形態素列が検出される。ここで、形態素列記憶部406には、あらかじめ合成音声において読み誤りを生じない形態素列のみを記憶しておく。
次に、未登録形態素列検出部407で検出された形態素列が、未登録形態素列提示部408から提示される。合成音声の読み誤りの原因などを解析する操作者は、このようにして未登録形態素列提示部408から提示された形態素列を確認することで、配信した合成音声において読み誤りが生じている可能性のある箇所を正確に把握することができる。
このように、本発明の第4の実施形態に係わる音声合成支援システムによれば、端末装置のユーザから送信される読み誤りが生じているテキストの情報を受信して、受信したテキストから読み誤りが生じている可能性のある箇所を提示できるようにすることで、読み誤りの原因などを解析する操作者が、自ら合成音声を聞くことなく、ネットワーク上へ配信した合成音声の読み誤りの箇所を容易に把握することが可能になる。
なお、上述した例では、情報配信システム403から配信される情報は、テキストと合成音声であるとしたが、合成音声の代わりにテキストの読み情報、アクセント情報、ポーズ情報などによって構成される中間言語を配信し、端末装置402において、受信した中間言語から合成音声を生成できるようにしてもよい。
本発明の第1の実施形態に係わる音声合成支援システムの構成を示すブロック図。 本発明の第1の実施形態の動作を示すフローチャート。 第1の実施形態のテキスト選択方法の一例を示す図。 第1の実施形態のテキスト選択方法の一例を示す図。 第1の実施形態の形態素解析の一例を示す図。 第1の実施形態の形態素列記憶部に記憶された形態素列の一例を示す図。 第1の実施形態の形態素列記憶部に記憶された形態素列の一例を示す図。 第1の実施形態の形態素解析の一例を示す図。 第1の実施形態の未登録形態素列の表示方法の一例を示す図。 本発明の第2の実施形態に係わる音声合成支援システムの構成を示すブロック図。 第2の実施形態の形態素列記憶部に記憶された形態素列の一例を示す図。 本発明の第3の実施形態に係わる音声合成支援システムの構成を示すブロック図。 第3の実施形態の形態素列記憶部に記憶された形態素列およびその出現頻度の一例を示す図。 第3の実施形態における形態素解析を誤った形態素列の一例を示す図。 第3の実施形態の形態素列の提示方法の一例を示す図。 第3の実施形態における形態素ごとのスコアの計算方法の一例を示す図。 本発明の第4の実施形態に係わる音声合成支援システムを含むネットワークシステムの構成を示すブロック図。
符号の説明
101、201、301・・・音声合成部
102、202、302、410・・・合成音声出力部
103、203、303、411・・・テキスト選択部
104、204、304、405・・・形態素解析部
105、205、305、406・・・形態素列記憶部
106、206,407・・・未登録形態素列検出部
107、207,408・・・未登録形態素列提示部
208、308・・・形態素列登録部
306・・・形態素列順位づけ部
307・・・形態素列提示部
401・・・音声合成支援システム
402・・・端末装置
403・・・情報配信システム
404・・・テキスト情報受信部
409・・・送受信部
413・・・ネットワーク

Claims (8)

  1. 入力されたテキストから合成音声を作成して出力する音声合成手段と、
    前記音声合成手段で読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択手段と、
    前記テキスト選択手段で選択されたテキストを形態素解析して形態素列を求める形態素解析手段と、
    複数の形態素列を記憶する記憶手段と、
    前記形態素解析手段で求められた形態素列のうち、前記記憶手段に記憶されていない形態素列を検出する形態素列検出手段と、
    前記形態素列検出手段で検出された形態素列を提示する形態素列提示手段と、
    を備えることを特徴とする音声合成支援システム。
  2. 入力されたテキストから合成音声を作成して出力する音声合成手段と、
    前記音声合成手段で読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択手段と、
    前記テキスト選択手段で選択されたテキストを形態素解析して形態素列を求める形態素解析手段と、
    複数の形態素列とその形態素列が正しく読み上げられた回数とを関連付けて記憶する記憶手段と、
    前記形態素解析手段で求められた形態素列と前記記憶手段に記憶された形態素列およびその形態素列が正しく読み上げられた回数に基づいて、前記形態素解析手段で求められた形態素または形態素列に順位づけを行う順位づけ手段と、
    前記順位づけ手段によって得られた順位に基づいて前記形態素解析手段で求められた形態素列を提示する形態素列提示手段と、
    を備えることを特徴とする音声合成支援システム。
  3. 端末装置で出力された合成音声に基づいて、前記端末装置のユーザが選択したテキストに関連したテキスト情報を受信する受信手段と、
    前記受信手段で受信されたテキスト情報に基づいて、前記端末装置のユーザが選択したテキストを形態素解析して形態素列を求める形態素解析手段と、
    複数の形態素列を記憶する記憶手段と、
    前記形態素解析手段で求められた形態素列のうち、前記記憶手段に記憶されていない形態素列を検出する形態素列検出手段と、
    前記形態素列検出手段で検出された形態素列を提示する形態素列提示手段と、
    を備えることを特徴とする音声合成支援システム。
  4. 端末装置で出力された合成音声に基づいて、前記端末装置のユーザが選択したテキストに関連したテキスト情報を受信する受信手段と、
    前記受信手段で受信されたテキスト情報に基づいて、前記端末装置のユーザが選択したテキストを形態素解析して形態素列を求める形態素解析手段と、
    複数の形態素列とその形態素列が正しく読み上げられた回数とを関連付けて記憶する記憶手段と、
    前記形態素解析手段で求められた形態素列と前記記憶手段に記憶された形態素列およびその形態素列が正しく読み上げられた回数に基づいて、前記形態素解析手段で求められた形態素列に順位づけを行う順位づけ手段と、
    前記順位づけ手段によって得られた順位に基づいて前記形態素解析手段で求められた形態素列を提示する形態素列提示手段と、
    を備えることを特徴とする音声合成支援システム。
  5. 前記形態素解析手段は、さらに前記テキスト選択手段で選択されなかった部分のテキストを形態素解析し、
    前記形態素解析手段で求められた、前記テキスト選択手段で選択されなかった部分のテキストの形態素列を前記記憶手段に記憶する登録手段と、
    をさらに備えることを特徴とする請求項1または請求項2に記載の音声合成支援システム。
  6. 前記形態素列提示手段は、形態素列をテキストとして提示することを特徴とする請求項1乃至請求項4のいずれか1項に記載の音声合成支援システム。
  7. 入力されたテキストから合成音声を作成して出力する音声合成ステップと、
    前記音声合成ステップで読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択ステップと、
    前記テキスト選択ステップで選択されたテキストを形態素解析して形態素列を求める形態素解析ステップと、
    前記形態素解析ステップで求められた形態素列のうち、あらかじめ作成した複数の形態素列を記憶する記憶部に記憶されていない形態素列を検出する形態素列検出ステップと、
    前記形態素列検出ステップで検出された形態素列を提示する形態素列提示ステップと、
    を有することを特徴とする音声合成支援方法。
  8. コンピュータに、合成音声において読み誤りが生じているテキストに対応した形態素列を提示させるプログラムであって、
    入力されたテキストから合成音声を作成して出力させる音声合成機能と、
    前記音声合成機能で読み上げられたテキストの少なくとも一部をユーザに選択させるテキスト選択機能と、
    前記テキスト選択機能によって選択されたテキストを形態素解析して形態素列を求める形態素解析機能と、
    前記形態素解析機能によって求められた形態素列のうち、あらかじめ作成した複数の形態素列を記憶する記憶部に記憶されていない形態素列を検出する形態素列検出機能と、
    前記形態素列検出機能によって検出された形態素列を提示する形態素列提示機能と、
    を備えることを特徴とする音声合成支援プログラム。



JP2004223136A 2004-07-30 2004-07-30 音声合成支援システム、音声合成支援方法および音声合成支援プログラム Withdrawn JP2006039461A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004223136A JP2006039461A (ja) 2004-07-30 2004-07-30 音声合成支援システム、音声合成支援方法および音声合成支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004223136A JP2006039461A (ja) 2004-07-30 2004-07-30 音声合成支援システム、音声合成支援方法および音声合成支援プログラム

Publications (1)

Publication Number Publication Date
JP2006039461A true JP2006039461A (ja) 2006-02-09

Family

ID=35904489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004223136A Withdrawn JP2006039461A (ja) 2004-07-30 2004-07-30 音声合成支援システム、音声合成支援方法および音声合成支援プログラム

Country Status (1)

Country Link
JP (1) JP2006039461A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217299A (ja) * 2008-03-06 2009-09-24 Internatl Business Mach Corp <Ibm> コンテンツ中のアクセシビリティに関する問題箇所を他人へ効果的に伝達するためのコンピュータ、方法、プログラム
JP2011247941A (ja) * 2010-05-24 2011-12-08 Nakayo Telecommun Inc 文書校正支援装置
JP2014038265A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 音声合成装置、方法およびプログラム
KR20210128255A (ko) * 2020-04-16 2021-10-26 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217299A (ja) * 2008-03-06 2009-09-24 Internatl Business Mach Corp <Ibm> コンテンツ中のアクセシビリティに関する問題箇所を他人へ効果的に伝達するためのコンピュータ、方法、プログラム
US9792834B2 (en) 2008-03-06 2017-10-17 International Business Machines Corporation Computer, method and program for effectively notifying others of problems concerning accessibility in content
JP2011247941A (ja) * 2010-05-24 2011-12-08 Nakayo Telecommun Inc 文書校正支援装置
JP2014038265A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 音声合成装置、方法およびプログラム
KR20210128255A (ko) * 2020-04-16 2021-10-26 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치
KR102386635B1 (ko) * 2020-04-16 2022-04-14 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US10102859B2 (en) Conference support apparatus, conference support method, and computer program product
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US8515764B2 (en) Question and answer database expansion based on speech recognition using a specialized and a general language model
Kafle et al. Evaluating the usability of automatically generated captions for people who are deaf or hard of hearing
JP6172769B2 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びプログラム
KR20130128716A (ko) 어학 학습 시스템 및 학습 방법
CN101276245A (zh) 一种输入过程中编码纠错的提示方法和系统
Wassink et al. Uneven success: automatic speech recognition and ethnicity-related dialects
CN1279805A (zh) 通过听觉表示html数据页的系统和方法
Tamminga Matched guise effects can be robust to speech style
Gibbon et al. Spoken language system and corpus design
US9009051B2 (en) Apparatus, method, and program for reading aloud documents based upon a calculated word presentation order
JP2009187349A (ja) 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム
JP2018128869A (ja) 検索結果表示装置、検索結果表示方法、及びプログラム
US7383171B2 (en) Semantic stenography using short note input data
Graham et al. Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits
JPWO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2006039461A (ja) 音声合成支援システム、音声合成支援方法および音声合成支援プログラム
Campbell Evaluation of speech synthesis: from reading machines to talking machines
JP2006011641A (ja) 情報入力方法及びその装置
JP2004240859A (ja) 言い換えシステム
Abbott et al. Identifying an aurally distinct phrase set for text entry techniques
JP2003099089A (ja) 音声認識・合成装置および方法
JP2012103668A (ja) 使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070628