JP2006284645A - 音声再生装置およびその再生プログラムならびにその再生方法 - Google Patents

音声再生装置およびその再生プログラムならびにその再生方法 Download PDF

Info

Publication number
JP2006284645A
JP2006284645A JP2005100853A JP2005100853A JP2006284645A JP 2006284645 A JP2006284645 A JP 2006284645A JP 2005100853 A JP2005100853 A JP 2005100853A JP 2005100853 A JP2005100853 A JP 2005100853A JP 2006284645 A JP2006284645 A JP 2006284645A
Authority
JP
Japan
Prior art keywords
audio
information
voice
unit
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005100853A
Other languages
English (en)
Inventor
Kiyomi Yatabe
清美 矢田部
Kiyoshi Yamahata
潔 山端
Yasuhiro Koike
康弘 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Embedded Products Ltd
Original Assignee
NEC Corp
NEC Embedded Products Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Embedded Products Ltd filed Critical NEC Corp
Priority to JP2005100853A priority Critical patent/JP2006284645A/ja
Publication of JP2006284645A publication Critical patent/JP2006284645A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 ユーザが聞き取りにくかった箇所のみを聞き取りやすい音声で読み上げの対象とする音声再生装置を提供する。
【解決手段】 第1の音声データベースA11と、第2の音声データベースA12と、音声再生部A21と、音声出力部A22と、音声切替位置情報を出力する音声切替位置判定部A23と、読み上げ位置情報を出力する読み上げ位置判定部A24と、読み上げ要求指示を受付ける指示入力部A26と、指示入力部A26に対して読み上げ要求指示が入力された場合、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については音声再生部A21に第1、第2の音声データによる音声再生情報を作成させる制御部A25とを備える音声再生装置および再生プログラムならびにその再生方法である。
【選択図】 図1

Description

本発明は、音声再生装置および音声再生処理をコンピュータに実行させる音声再生プログラムおよび音声再生方法に係り、特にユーザが文書情報の再生内容を聞き取れなかった場合に、音声再生文中の判定位置から読み上げをする音声再生処理に関する。
従来の音声再生装置や音声合成装置における文章読み上げの処理として、以下に示すような方法がある。
(a)音声再生処理装置が、ユーザの読み上げ指定位置からテキスト情報に基づいて区切られた単位で巻き戻しを行い、テキスト情報の再発声の開始位置を決定し、再発声の開始位置から音質を変更して読み上げる(例えば、特許文献1)。
(b)情報記録媒体が、ユーザの読み上げ指定位置から発音の節目またはそれら節目の複数に相当する文法的に区切られた単位で巻き戻しを行い、テキスト情報の再発声の開始位置を決定し、より細かく分割された単位で区切られた音声単位で読み上げる(例えば、特許文献2)。
特許文献1によれば、音声再生処理装置は、文書情報を読み出し、区切り位置を設定し、読み上げの要求指示があると、指示の操作時間幅を計測し、計測された操作時間幅と操作時間幅の基準値とを比較して、読み上げ開始位置となる区切り位置を決定する。加えて、音声再生処理装置は、読み上げの最中に、再度読み上げの要求指示があると、前の区切り位置に戻り、その区切り位置から音量や音声の周波数などを変えることにより音質を変えて再生するように音声出力を制御して、音質を変えた音声により再度読み上げることが可能になっている。
また、特許文献2によれば、情報記録媒体は、発音の節目を境に分割された第1音声情報列と、第1音声情報列と等価な単語列で第1音声情報列よりも遅延した発音で構成された第2音声情報列と、第1音声情報列および第2音声情報列が情報記録媒体のどの位置に記録されているかを示す記録位置識別情報から構成された第3音声情報列とを備え、第1音声情報列を第2音声情報列で言い換えて、再度読み上げることが可能になっている。
特開2001−75583号公報 (第1頁、図1) 特許第2581700号公報 (第13頁、図1)
しかしながら、特許文献1にみられるような従来の方法(a)では、聞き取りにくかった発音の位置を読み上げさせることができないという問題があった。
その理由は、読み上げ位置となる区切り位置が、あらかじめ文書情報によってのみ決定されているためである。
例えば、「The farmers eat fish on Fridays.」といった文の音声を再生する場合を考えてみる。この文を音声再生した場合、英語母国語話者以外の外国語話者に、聞き取りにくいと推測される箇所は、例えば「fish on」の箇所である。
この箇所を個々の単語の発音でみると、
Figure 2006284645
のようになる。各々の単語「fish」、「on」を聞き取れる音声再生処理装置のユーザでも、文中の「fish on」の箇所になると、
Figure 2006284645
「フィシアン」のように聞こえ、聞き取りにくくなると言われている。このように、文字上では離れている2つの単語が文章で読み上げられることによって連結し、単語の切れ目がわからなくなり、全く違う単語のように聞こえることがある。
これは、文における音声の連結の例であるが、ナチュラルスピードの音声再生文中でよくみられる現象である。このような単語の語間の音声連続の影響では、音素の連結のほか、音素の脱落、挿入、同化もしくは、異化などの単語単位での発声と異なる変形の場合が多くある。これらの場合には、何度聞き直しても単語に区切ることができず意味の理解に至らない場合が多々ある。
また、音声連続箇所に限らず、ある母国語話者には、母国語の音声体系から聞き取りにくい外国語の発音箇所が存在することが多い。
一方、特許文献1に示す従来方法では、この文書情報を読み出し、意味・文法的なまとまりを形成する単位を「()と「」」で囲むと、「(((The)(farmers))(eat (fish)) (on(Fridays.)))」となる。このまとまりを形成した結果に基づいて、単語単位より大きいまとまりで、ある区切り位置を「/」スラッシュ記号と数字n(エヌ)で表す。
具体的には、/1,/2,......, /nでそれぞれ1番目のまとまり、2番目のまとまり、......、n番目のまとまりの区切りを表すと、上記の例では「The farmers /1 eat fish /2 on Fridays /3.」となる。もしユーザがFridaysの箇所である「/3」で、読み上げ要求指示をした場合、従来の方法(a)では、一つ前の区切り位置である「/2」に戻り位置を決定し、「eat fish」の再度読み上げを行う。
しかし、音声再生処理装置のユーザが実際に聞き取りにくい箇所は、テキスト解析では区切り位置と認定された箇所の音声連続の影響による音素の連結が原因である「fish on」の箇所であるので、従来方法ではそうした発音上の情報を無視した「eat fish」の読み上げとなり、音声再生処理装置のユーザの聞き取りにくさの解消には到らないと考えられる。
第2の問題点は、特許文献2にみられるような従来の方法(b)では、聞き取りにくかった発音の位置のみを読み上げさせることができない点である。
その理由は、読み上げ位置となる区切り位置が、あらかじめテキスト解析情報によってのみ決定されているためである。
例えば、「The farmers eat fish on Fridays.」といった文の音声を再生する場合を再度考えてみる。この文を音声再生した場合、英語母語話者以外の外国語話者に聞き取りにくいと推測される箇所は、例えば「fish on」の箇所である。
ここで、従来の方法(b)によると、文法的なまとまりや、発音の区切りによってそれぞれ「The farmers /1 eat fish /2 on Fridays /3.」や「The farmers /1 eat fish on Fridays.」のように区切られた第1音声情報列と、第1音声情報列と等価な単語列で第1音声情報列よりも遅延した発音で構成された第2音声情報列があり、第1音声情報列と第2音声情報列の同期を第3音声情報列でとっている。もしユーザがFridaysの箇所で、読み上げ要求指示をした場合、従来の方法(b)では、同期をとった文頭または「/1」に戻り位置を決定し、第1音声情報列よりも遅延した発音で読み上げを行う。
この場合、情報記録媒体のユーザが実際に聞き取りにくい箇所である「fish on」の箇所も第1音声情報列よりも遅延した発音で読み上げの対象となり、ユーザの聞き取りにくさの解消になると考えられるが、文法的なまとまりや、発音の区切りまで必ず戻って読み上げるため、聞き取りにくい対象のみを読み上げることにならない。例えば、文法的なまとまりや、発音の区切りが長い文の場合、聞き取りにくかった箇所以外の他の箇所も全て遅延した発音で読み上げされるため、聞き取りにくかった箇所に行き着くまでに時間がかかり、ユーザにリスニングの負担が余計にかかると考えられていた。
そこで本発明の目的は、上記の問題点に鑑みて考案されたもので、読み上げの際にユーザが聞き取りにくかった箇所のみを聞き取りやすい音声で読み上げの対象とすることを可能にする音声再生装置を提供することである。
上記目的を達成するために、本発明の第1の発明は、音声データに示される音声読み上げをする音声再生装置であって、
発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部と、
前記音声再生情報にしたがって音声を出力する音声出力部と、
前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御部と、
を備える音声再生装置である。
第2の発明は、読み上げ対象となるテキストの情報を音声読み上げをする音声再生装置であって、
単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
前記読み上げ対象となるテキストの情報を記憶しているコーパスと
前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成して、出力する解析部と、
前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し出力する音声再生部と、
前記音声再生情報にしたがって音声を出力する音声出力部と、
前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御部と、
を備えるものである。
第3の発明は、音声データに示される音声読み上げをする音声再生装置であって、
発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記中央演算装置の演算処理を制御する音声再生プログラムと、
前記音声再生プログラムを記憶するメモリーと
を備え、
前記中央演算装置は、
前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し、
前記音声再生情報にしたがって音声を出力し、
音声再生プログラムは、
前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記中央演算装置に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御をする
ものである。
第4の発明は、読み上げ対象となるテキストの情報を音声読み上げをする音声再生装置であって、
単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
前記読み上げ対象となるテキストの情報を記憶しているコーパスと
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記中央演算装置の演算処理を制御する音声再生プログラムと、
前記音声再生プログラムを記憶するメモリーと
を備え、
前記中央演算装置は、
前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成し
前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し、
前記音声再生情報にしたがって音声を出力し、
音声再生プログラムは、
前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御をする
ものである。
第5の発明は、前記記憶装置が、前記読み上げ要求指示が行われて発音が聞き取り困難な箇所の、最近傍の箇所をマークして、マークした箇所を記憶するマーク格納部を備えたものである。
第6の発明は、前記マーク格納部が、マークした箇所のファイルのファイル名と、前記ファイルの位置と、マーキングのマーク種と、前記ファイルの特徴を示す付加情報とからなるテーブルを有するものである。
第7の発明は、前記音声出力部は、前記音声切替位置情報により、再生音声をより細かな単位で区切って再生するものである。
第8の発明は、前記音声出力部は、前記音声切替位置情報により、再生音声の周波数を変えて再生するものである。
第9の発明は、前記音声出力部は、前記音声切替位置情報により、再生音声の速度を前記通常読み上げ音声よりも遅くして再生するものである。
第10の発明は、前記読み上げ要求位置の判定には、読み上げ対象となるテキスト情報をポーズで区切った結果を用いるものである。
第11の発明は、前記音声再生装置が、前記読み上げ要求位置の判定および、前記読み上げ要求位置のうち前記音声切替位置をマーク格納部に記憶し、複数の前記読み上げ要求位置とそのうちの前記音声切替位置を選択して、前記読み上げ要求位置と前記音声切替位置とのみを飛び飛びに連続して再生するものである。
第12の発明は、前記音声再生装置が、前記読み上げ要求指示が、同じ前記読み上げ要求位置で複数回あるときに、前記読み上げ要求位置の表示および同じ前記読み上げ要求位置のうち前記音声切替位置の開始位置および終了位置の両方もしくは一方を表示するものである。
第13の発明は、前記音声再生装置が、前記読み上げ要求位置のうち前記音声切替位置の判定をした後に、同様の前記音声切替位置を持つ別の前記音声切替位置を判定して再生するものである。
第14の発明は、前記音声再生部は、前記第1の音声情報列と前記第2の音声情報列とを用いて音声再生を行う代わりに、前記第1の音声情報列と前記第2の音声情報列とを用いて音声合成を行う音声合成機能を有するものである。
第15の発明は、音声データに示される音声読み上げさせる音声再生プログラムであって、
発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記音声再生プログラムを記憶するメモリーと
を備えた前記音声再生装置に、前記音声再生プログラムが記憶され、
前記音声再生プログラムは、
前記音声再生装置のユーザからの読み上げ要求指示を受け付けるステップと、
前記読み上げ要求指示に基づいて、読み上げ要求指示位置を計算して読み上げ要求位置情報を作成するステップと、
前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成するステップと、
前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成するステップと、
前記第1および第2の音声データを用いて音声を再生するための音声再生情報を作成するステップと、
前記音声再生情報にしたがって音声を出力するステップと、
を有し、
前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声データおよび第2の音声データによる前記音声再生情報を作成させる制御をする
音声再生プログラムである。
第16の発明は、読み上げ対象となるテキストの情報を音声読み上げさせる音声再生プログラムであって、
単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
前記読み上げ対象となるテキストの情報を記憶しているコーパスと
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記音声再生プログラムを記憶するメモリーと
を備えた前記音声再生装置に、前記音声再生プログラムが記憶され、
前記音声再生プログラムは、前記音声再生装置のユーザからの読み上げ要求指示を受け付けるステップと、
前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成するステップと、
前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成するステップと、
前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成するステップと、
前記テキストの情報および第1の音声情報列ならびに第2の音声情報列を用いて、音声を再生するための音声再生情報を作成するステップと、
前記音声再生情報にしたがって音声を出力するステップと、
を有し、
前記音声再生プログラムは、
前記中央演算装置に対して読み上げ要求指示が入力されない場合には、前記中央演算装置に前記第2の音声情報列による音声再生情報を作成させ、前記中央演算装置に対して読み上げ要求指示が入力された場合には、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列による前記音声再生情報を作成させる制御をする
プログラムである。
第17の発明は、音声データに示される音声読み上げをする音声再生方法であって、
発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部と、
前記音声再生情報にしたがって音声を出力する音声出力部と、
前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御部と、
を備え、音声再生する音声再生方法である。
第18の発明は、読み上げ対象となるテキストの情報を音声読み上げをする音声再生方法であって、
単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
前記読み上げ対象となるテキストの情報を記憶しているコーパスと
前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成して、出力する解析部と、
前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し出力する音声再生部と、
前記音声再生情報にしたがって音声を出力する音声出力部と、
前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御部と、
を備え、音声再生する方法である。
第19の発明は、音声データに示される音声読み上げをする音声再生方法であって、
発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記中央演算装置の演算処理を制御する音声再生プログラムと、
前記音声再生プログラムを記憶するメモリーと
を備え、
前記中央演算装置は、
前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し、
前記音声再生情報にしたがって音声を出力し、
音声再生プログラムは、
前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記中央演算装置に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御をする
方法である。
第20の発明は、読み上げ対象となるテキストの情報を音声読み上げをする音声再生方法であって、
単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
前記読み上げ対象となるテキストの情報を記憶しているコーパスと
第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
前記中央演算装置の演算処理を制御する音声再生プログラムと、
前記音声再生プログラムを記憶するメモリーと
を備え、
前記中央演算装置は、
前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成し
前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し、
前記音声再生情報にしたがって音声を出力し、
音声再生プログラムは、
前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御をする
方法である。
第21の発明は、前記記憶装置が、前記読み上げ要求指示が行われて発音が聞き取り困難な箇所の、最近傍の箇所をマークして、マークした箇所を記憶するマーク格納部を備えた方法である。
本発明では、読み上げ区間のための区切りとして、発音が聞き取り困難な箇所の区切りと、意味や文法的なまとまりの区切りとの2種類の区切りを用意して、音声再生装置のユーザが指示した読み上げ要求位置から聞き取りにくかった発音箇所を推定して、発音が聞き取り困難な箇所の区切り区間は音質を変更して読み上げを行なう。その際に、読み上げ全体の戻り位置は、意味や文法的なまとまりの区切りまで巻き戻しを行い、上記の発音が聞き取り困難な箇所以外は元の音質(通常読み上げ音声)での読み上げを行なう。
このように本発明によれば、音声再生装置のユーザが、意味や文法のまとまりでコンテクスト(文脈)を把握しながら、聞き取りにくい箇所のみをわかりやすい音声で効率的に聞くができる。
本発明によれば、読み上げの際にユーザが聞き取りにくかった箇所のみを聞き取りやすい音声で読み上げの対象とする音声再生装置および再生プログラムならびにその再生方法を得られる。
本発明を実施するための形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態である音声再生装置の構成例を示すブロック図である。
図1を参照すると、第1の実施形態の音声再生装置は、音声データを記憶する記憶装置A1と、記憶装置A1に記憶された音声データを用いて音声を再生するデータ処理装置A2とを備えて構成され、記憶装置A1とデータ処理装置A2とは互いに接続されている。この音声再生装置は、音声データに示される音声読み上げをする機能を有する。
記憶装置A1は、発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声の第1の音声データを記憶(格納)している第1の音声データベース(以下、音声データベース1と称する)A11と、第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報や音声の区切りであるポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶(格納)している第2の音声データベース(以下、音声データベース2と称する)A12とを備えて構成されている。
音声データベース1A11と、音声データベース2A12とは、互いに同期のとれており、音声データベース1A11に記憶された第1の音声データの要求があった場合には、音声データベース2A12に記憶されておりかつ要求があった第1の音声データと同じ音声情報を有する第2の音声データも同期して出力される。
また、音声データベース2A12に記憶された第2の音声データの要求があった場合には、音声データベース1A11に記憶されておりかつ要求があった第2の音声データと同じ音声情報を有する第1の音声データも同期して出力される。
また、音声データベース1A11に第1の音声データが記憶される場合には、第1の音声データと同じ音声情報を有する第2の音声データも音声データベース2A12に同期して記憶される。
また、音声データベース2A12に第2の音声データが記憶される場合には、第2の音声データと同じ音声情報を有する第1の音声データも音声データベース1A11に同期して記憶される。
データ処理装置A2は、記憶装置A1に記憶された第1、第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部A21と、音声再生部A21からの音声再生情報にしたがって音声を出力する音声出力部A22と、音声データベース1A11に記憶された第1の音声データを用いて再生する音声の音質を変更・切替する位置(これを、音声切替位置と称する)を判定して音声切替位置情報として出力する音声切替位置判定部A23と、音声データベース2A12に記憶された第2の音声データと音声切替位置判定部A23からの音声切替位置情報とを用いて音声を再生して読み上げをする音声の開始位置(戻り位置)と音声の停止位置とを判定し読み上げ位置情報として出力する読み上げ位置判定部A24と、音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部A26と、指示入力部A26に対して読み上げ要求指示が入力されない場合には、音声再生部A21に第2の音声データによる音声再生情報を作成させ、指示入力部A26に対して読み上げ要求指示が入力された場合には、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については音声再生部A21に第1および第2の音声データによる音声再生情報を作成させる制御部A25とを備えて構成されている。
音声再生部A21は制御部A25および音声出力部A22ならびに記憶装置A1に接続されており、制御部A25は音声切替位置判定部A23および読み上げ位置判定部A24ならびに指示入力部A26に接続されている。音声切替位置判定部A23および読み上げ位置判定部A24は記憶装置A1に接続されており、音声切替位置判定部A23と読み上げ位置判定部A24とは互いに接続されている。
制御部A25は、指示入力部A26から得た読み上げ要求指示と、音声再生部A21から出力された音声再生情報とを、音声切替位置判定部A23と読み上げ位置判定部A24とに送出し、音声切替位置判定部A23から得られた音声切替位置情報と読み上げ位置判定部A24から得られた読み上げ位置情報とを音声再生部A21に送り、再度再生する読み上げ音声の情報を制御する機能を有する。
この制御部A25の制御により、指示入力部A26に対して読み上げ要求指示が入力されない場合には、音声再生部A21に第2の音声データによる音声再生情報を作成させ、指示入力部A26に対して読み上げ要求指示が入力された場合には、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記音声再生部A21に第1および第2の音声データによる音声再生情報を作成させる。
次に、図1に示した第1の実施形態の音声再生装置の動作について、図2を参照して詳細に説明する。
図2は、記憶装置A1内に記憶された音声データベース1A11の第1の音声データと音声データベース2A12の第2の音声データとを用いて、音声再生装置のユーザが聞き取りにくかった箇所の読み上げをする音声再生装置の動作例について示したフローチャートである。
図2を参照すると、まず、音声再生装置のユーザが指示入力部A26に対して聞き取りにくかった箇所の読み上げを要求・指示し、これに応じて指示入力部A26がユーザが聞き取りにくかった箇所の読み上げの要求指示を受け付ける(ステップS11)。
次に、読み上げ要求指示を受け付けた指示入力部A26は、この受け付けを制御部A25に転送し、制御部A25は、指示入力部A26からの読み上げ要求指示と音声再生部A21からの音声再生情報とに基づいて、通常読み上げ音声のテキスト中から読み上げ要求指示位置を計算して判定する読み上げ要求位置の判定を行う(ステップS12)。
ここで、読み上げ要求位置の判定を行うに当たっては、判定処理の方法は適宜定めるとよい。例えば、ユーザの読み上げ要求指示があった箇所から、予め計測された音声再生装置の通常読み上げ音声時の再生音声の平均話速に基づくか、ユーザが読み上げ要求指示を出す際の指示操作所要平均時間などに基づいて、ある一定の時間長やある一定の音節数または音素数分を読み上げ要求位置を予め決めておいて、この決めた一定の時間長やある一定の音節数または音素数分だけ遡った位置を読み上げ要求位置としてもよい。
また、別の例では、音声再生装置に接続された図示しないコンピュータがあり、このコンピュータの表示装置(ディスプレイ)の画面上のテキスト上で位置を示すカーソルというマークが置かれた位置を読み上げ要求位置としてもよい。
また、読み上げ対象となる通常読み上げ音声のテキスト中のテキスト情報(これは、音声データベース2A12に記憶された通常読み上げ音声の第2の音声データ)をポーズで区切った結果を用いることでもよい。
続いて、制御部A25は、判定された読み上げ要求位置の情報を音声切替位置判定部A23に送る。
音声切替位置判定部A23は、制御部A25から受け取った読み上げ要求位置の情報と音声データベース1A11に記憶された発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声の第1の音声データとを用いて、読み上げ要求位置から遡って一番近くかつ発音が聞き取り困難な箇所(区間)を読み上げ中の音声切替位置の開始位置として判定して、読み上げ要求位置を過ぎて聞き取り困難な箇所の終了する箇所を音声切替位置の終了位置として判定して、音声切替位置(音声切替区間)情報として出力する(ステップS13)。
音声切替位置判定部A23は、音声切替位置判定部A23から出力された音声切替位置情報と制御部A25で判定された読み上げ要求位置の情報とを読み上げ位置判定部A24に転送する。
読み上げ位置判定部A24は、これらの転送された情報と、記憶装置A1に要求して得られた音声データベース2A12内の意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データとを用いて、音声切替位置よりも遡って遠い位置にありかつ読み上げ要求位置から一番近く、意味や文法的なまとまりである区切り位置を探して、読み上げ開始の戻り位置として判定する。
さらに、音声切替位置および読み上げ要求位置を過ぎて最も近い意味や文法的なまとまりである区切り位置を読み上げ終了位置と判定して、この読み上げ開始の戻り位置と読み上げ終了位置とで決まる区間を読み上げ区間(位置)として判定し、読み上げ位置情報として音声再生部A21に出力する(ステップS14)。
ここで、読み上げ要求位置から遡って一番近い音声切替位置と、意味や文法的なまとまりである区切り位置とが同じであった場合、読み上げ位置判定部A24は、音声切替位置を読み上げ開始の戻り位置として判定する。
また、音声切替位置および読み上げ要求位置が、音声切替位置および読み上げ要求位置を過ぎてから最も近い意味や文法的なまとまりである区切り位置と同じであった場合、読み上げ位置判定部A24は、音声切替位置および読み上げ要求位置を読み上げの終了位置として判定する。
この読み上げ開始の戻り位置と読み上げ終了位置とで決まる区間を読み上げ区間として判定する。
なお、ステップS13とステップS14は、その判定の順序を前後逆に行っても構わない。
この場合、読み上げ位置判定部A24は、ステップS12において制御部A25で判定された読み上げ要求位置と、記憶装置A1に要求して得られた音声データベース2A12内の意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データとを用いて、読み上げ要求位置から一番近い意味や文法的なまとまりである区切り位置を読み上げ要求位置から遡って探して、読み上げ開始の戻り位置として判定する。
さらに、読み上げ要求位置を過ぎた最も近い意味や文法的なまとまりである区切り位置を読み上げ終了位置と判定して、この読み上げ開始の戻り位置と読み上げ終了位置とで決まる区間を読み上げ区間(位置)として判定し、読み上げ位置情報として音声切替位置判定部A23に出力する。
このステップの後、読み上げ位置判定部A24から読み上げ位置情報を受け取った音声切替位置判定部A23は、この読み上げ位置情報と、音声データベース1A11に記憶された発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声の第1の音声データとを用いて、読み上げ開始の戻り位置から読み上げ要求位置に向かって読み上げ要求位置に一番近くかつ発音が聞き取り困難な箇所(区間)を読み上げ中の音声切替位置の開始位置として判定して、読み上げ要求位置を過ぎて聞き取り困難な箇所の終了する箇所を音声切替位置の終了位置として判定して、音声切替位置(音声切替区間)情報として読み上げ位置情報と共に、制御部A25を介して音声再生部A21に出力する。
この読み上げの要求指示に基づいた判定によって音声再生部A21は、音声データベース2A12内に格納している通常読み上げ音声の第2の音声データを音声再生部A21を経由して受け取り、読み上げ開始の戻り位置からこの通常読み上げ音声で読み上げを開始する(ステップS15)。
さらに、通常読み上げ音声での読み上げ中に、音声切替位置判定部A23で判定された音声切替位置に達すると、音声出力部A22は、音声切替区間を音声データベース1A11に格納している聞き取りしやすい音質の第1の音声データを音声再生部A21を経由して受け取り、この聞き取りしやすい音質の音声に切り替えて読み上げをする(ステップS16)。
記音声出力部A22は、聞き取りしやすい音質の音声に切り替える際しては、音声切替位置情報により、再生音声を通常読み上げ音声よりもより細かな単位で区切って再生してもよいし、再生音声の周波数を変えて再生してもよいし、再生音声の速度を通常読み上げ音声よりも遅くして再生してもよい。
最後に、読み上げ要求位置を過ぎて最も近い意味や文法的なまとまりである区切り位置に達すると、音声出力部A22は、読み上げを停止し(ステップS17)、音声再生装置はユーザの読み上げ要求指示に基づいた音声再生動作を終了する。
ここで、読み上げ要求位置に達する前および読み上げ要求位置において、音声切替終了位置に達した場合は、音声出力部A22は、その音声切替終了位置より後の位置から音声データベース2A12内に格納している通常読み上げ音声の第2の音声データを音声再生部A21を経由して受け取り、この通常読み上げ音声での読み上げを再度開始する。読み上げ要求位置を過ぎて最も近い意味や文法的なまとまりである区切り位置に達すると、音声出力部A22は、読み上げを停止し(ステップS17)、音声再生装置はユーザの読み上げ要求指示に基づいた音声再生動作を終了する。
次に、本発明の第2の実施形態である音声再生装置について説明する。
図3は、本発明の第2の実施形態である音声再生装置の構成例を示すブロック図である。
図3を参照すると、第2の実施形態の音声再生装置は、辞書およびテキスト情報を記憶する記憶装置B1と、記憶装置B1に記憶された辞書およびテキスト情報を用いて音声を再生するデータ処理装置B2とを備えて構成され、記憶装置B1とデータ処理装置B2とは互いに接続されている。この音声再生装置は、読み上げ対象となるテキストの情報を音声読み上げをする機能を有する。
記憶装置B1は、単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶(格納)している発音辞書B11と、意味および文法よりなる第2の辞書情報を記憶(格納)している意味・文法辞書A12と、読み上げ対象となるテキストの情報を記憶(格納)しているコーパスB13とを備えて構成されている。
データ処理装置B2は、図1に示した音声再生装置のデータ処理装置A2と同様の機能を有する各部として、音声を再生するための音声再生情報を作成し出力する音声再生部B21と、音声再生部B21からの音声再生情報にしたがって音声を出力する音声出力部B22と、第1の辞書情報を用いて再生する音声の音質を変更・切替する位置(これを、音声切替位置と称する)を判定して音声切替位置情報として出力する音声切替位置判定部B23と、第2の辞書情報と音声切替位置判定部B23からの音声切替位置情報とを用いて音声を再生して読み上げをする音声の開始位置(戻り位置)と音声の停止位置とを判定し読み上げ位置情報として出力する読み上げ位置判定部B24と、音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部B26と、音声再生部B21と音声切替位置判定部B23と読み上げ位置判定部B24とを制御する制御部B25とを備えていることに加え、発音辞書B11に記憶された第1の辞書情報と意味・文法辞書B12に記憶された第2の辞書情報とよって、コーパスB13に記憶された読み上げ対象となるテキストの情報の内容を解析して、この解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げよりなる第2の音声情報列とを作成し、出力する解析部B27を備えている。
制御部B25は、指示入力部B26に対して読み上げ要求指示が入力されない場合には、音声再生部B21に第2の音声情報列による音声再生情報を作成させ、指示入力部A26に対して読み上げ要求指示が入力された場合には、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記音声再生部B21に第1および第2の音声情報列による音声再生情報を作成させる。
本実施形態においては、図1に示した記憶装置A1を用いる代わりに、図3に示したような記憶装置B1を用い、図1に示したデータ処理装置A2を用いる代わりに、図3に示したようなデータ処理装置B2を用いて、音声再生を行う。
なお、音声再生部B21は、解析部B27からの聞き取りしやすい第1の音声情報列と通常読み上げよりなる第2の音声情報列とを用いて音声再生を行う代わりに、解析部B27からの聞き取りしやすい第1の音声情報列と通常読み上げよりなる第2の音声情報列とを用いて音声合成を行う機能を有する音声合成部であってもよい。
この場合、この音声合成部は、このようにして音声合成された音声を音声出力部B22に出力し、音声出力部B22は、この音声合成された音声により図1の音声出力部A22と同様に読み上げを行う。
尚、本実施の形態において、各ステップの処理を行うための制御をハードウェアの動作として行わせるのみでなく、音声再生装置の各構成部位を制御して処理を行わせる音声再生プログラムによって行ってもよい。
次に、図2、図3および図4を参照して、本実施の形態の動作を詳細に説明する。
第2の実施形態の音声再生装置は、図1および図2に示した第1の実施形態の記憶装置A1内で音声データベース1A11と音声データベース2A12とのような音声データベースを用いる代わりに、図2に示したように、発音辞書B11に記憶された第1の辞書情報および意味・文法辞書B12に記憶された第2の辞書情報とを用いて、コーパスB13のテキスト情報を解析することで、音声データベース1A11に記憶された第1の音声データと同様の発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声よりなる第1の音声情報列および音声データベース2A12に記憶された第2の音声データと同様の意味や文法的なまとまりの情報や音声の区切りであるポーズ単位のまとまり情報が付与された通常読み上げ音声よりなる第2の音声情報列を作成することが可能となり、この第1の音声情報列および第2の音声情報列を利用することによって、図2に示したステップS15以降と同様の読み上げが行われる。この第2の実施形態の音声再生装置の動作について、図4に示すフローチャートにより説明する。
図3および図4を参照すると、音声再生装置のユーザが聞き取りにくかった箇所の読み上げを指示入力部B26に対して要求・指示し、これに応じて指示入力部B26がユーザが聞き取りにくかった箇所の読み上げの要求指示を受け付ける。
この読み上げの要求指示を受け付けた指示入力部B26は、この読み上げの要求指示の受け付けを制御部B25および音声再生部B21を経由して、解析部B27に転送する。
転送された読み上げの要求指示を受けた解析部B27は、読み出し対象のコーパスB13に格納された読み上げ対象となるテキストの情報を記憶装置B1から取り出す(ステップS21)。
次に、解析部B27は、コーパスB13から取り出されたこのテキスト情報を、意味・文法辞書B12に格納された意味および文法よりなる第2の辞書情報によって解析することで、意味や文法的なまとまりの情報や音声の区切りであるポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声情報列が得られる(ステップS22)。
なお、第1の実施の形態と同様、前記読み上げ要求位置の判定の際には、読み上げ対象となるテキスト情報をポーズで区切った結果を用いることができる。
解析部B27は、意味および文法よりなる第2の辞書情報によって解析した結果をさらに、発音辞書B11に格納された単語の発音情報や聞き取りの困難な発音の第1の辞書情報によって解析する。この発音辞書B11には、英語母語話者以外の外国語話者に特に聞き取りにくいと推測されるパターンの第1の辞書情報が格納されている。
これらの解析部B27の解析によって、テキスト情報に例えば音素列や韻律情報、音声波形、音声などの発音の情報や聞き取りの困難な発音の情報を付与することで、発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列が得られ(ステップS23)、解析部B27の解析は終了する。
なお、ステップS22とステップS23は、その解析の順序を前後逆に行っても構わない。
このように解析部B27の解析によって得られた第1の音声情報列は、第1の実施形態の音声データベース1A11における第1の音声データと同様の情報となっており、本実施形態においても図2に示したフローチャートと同様の手順において用いられる。
例えば、音声切替位置判定部A23が音声切替位置の判定を行う際には、第1の音声データの代わりに第1の音声情報列を用いて、図2のステップ13で行った判定処理と同様の音声切替位置の判定を行うことができる。
また、このように解析部B27の解析によって得られた第2の音声情報列は、第1の実施形態の音声データベース2A12における第2の音声データと同様の情報となっており、本実施形態においても図2に示したフローチャートと同様の手順において用いられる。
例えば、読み上げ位置判定部A24が読み上げ位置の判定を行う際には、第2の音声データの代わりに第2の音声情報列を用いて、図2のステップS14で行った判定処理と同様の読み上げ位置の判定を行うことができる。
このようにして、本実施形態の音声再生装置も、図2に示したものと同様の手順により第1の実施形態と同様の処理を行い、音声再生を行うことができる。
尚、本実施の形態において、各ステップの処理を行うための制御をハードウェアの動作として行わせるのみでなく、音声再生装置の各構成部位を制御して処理を行わせる音声再生プログラムによって行ってもよい。
次に、本発明の第3の実施形態である音声再生装置について説明する。
図5は、本発明の第3の実施形態である音声再生装置の構成例を示すブロック図である。
図5を参照すると、第3の実施形態の音声再生装置は、音声データを記憶する記憶装置C1と、記憶装置C1に記憶された音声データを用いて音声を再生するデータ処理装置C2と、データ処理装置C2の動作を制御する音声再生プログラムC3とを備えて構成され、、音声再生装置は音声再生プログラムC3により動作し、記憶装置C1とデータ処理装置C2とは互いに接続されている。
記憶装置C1は、図1に示した記憶装置A1と同様、第2の音声データベースC12と互いの同期がとれており発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声の第1の音声データを記憶(格納)している第1の音声データベース(以下、音声データベース1と称する)C11と、音声データベース1C11と互いの同期がとれており意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶(格納)している第2の音声データベース(以下、音声データベース2と称する)C12とを備えて構成されている。
データ処理装置C2は、図1に示したデータ処理装置A2と同様の機能を有し、記憶装置C1に記憶された第1、第2の音声データに基づいて、音声再生を行うことができ、データ処理装置C2の構成は、図1に示したデータ処理装置A2の制御部A25などの各構成部位の機能を一括して有し、演算処理する中央演算装置C21と、データ処理装置C2の動作を制御する音声再生プログラムC3を記憶するためのメモリーC22とを備えている。
音声再生プログラムC3は、データ処理装置C2のメモリーC22に読み込まれて、データ処理装置C2の中央演算装置C21およびメモリーC22並びに記憶装置C1の動作を制御し、記憶装置C1内の音声データベース1C11や音声データベース2C12の内容を問い合わせたり、受け取ったりして図2に示したフローチャートと同様のデータ処理を行うための制御をする。
中央演算装置C21は音声再生プログラムC3により、音声再生装置のユーザからの読み上げ要求指示を受け付けて(図2のステップS11と同様)、この読み上げ要求指示に基づいて、通常読み上げ音声のテキスト中から読み上げ要求指示位置を計算して読み上げ要求位置情報を作成し(図2のステップS12と同様)、第1の音声データを用いて再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成する(図2のステップS13と同様)。
次に、中央演算装置C21は、第2の音声データと音声切替位置情報とを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成した(図2のステップS14と同様)後、第1および第2の音声データを用いて音声を再生するための音声再生情報を作成して、音声再生情報にしたがって音声を出力する(図2のステップS15〜ステップS17と同様)。
尚、この音声切替位置情報の作成と、読み上げ位置情報の作成とは、その作成の順序を前後逆に行っても構わない。
音声再生プログラムC3は、中央演算装置C21に対して読み上げ要求指示が入力されない場合には、中央演算装置C21に第2の音声データによる音声再生情報を作成させ、中央演算装置C21に対して読み上げ要求指示が入力された場合には、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については中央演算装置C21に第1および第2の音声データによる音声再生情報を作成させる制御をすることで、中央演算装置C21に音声再生を行わせている。
このようなデータ処理装置C2の動作を制御する音声再生プログラムC3により、図2に示した処理と同様の演算処理を中央演算装置C21にて行い、処理結果を音声出力することができる。
尚、この音声再生プログラムC3は、第1の実施形態で言及した音声再生プログラムと同様であり、第1の実施形態の音声再生装置の各構成部位の代わりに中央演算装置C21などの構成部位を制御して処理を行わせる音声再生のための処理を行うプログラムである。
次に、本発明の第4の実施形態である音声再生装置について説明する。
図6は、本発明の第4の実施形態である音声再生装置の構成例を示すブロック図である。
図6を参照すると、第4の実施形態の音声再生装置は、辞書情報およびテキスト情報を記憶する記憶装置D1と、記憶装置D1に記憶された辞書情報およびテキスト情報を用いて音声を再生するデータ処理装置D2と、データ処理装置D2の動作を制御する音声再生プログラムD3とを備えて構成され、記憶装置D1とデータ処理装置D2とは互いに接続されている。
記憶装置D1は、図3に示した記憶装置B1と同様、単語の発音情報や聞き取りの困難な発音の情報である第1の辞書情報を記憶(格納)している発音辞書D11と、意味や文法情報である第2の辞書情報を記憶(格納)している意味・文法辞書D12と、読み上げ対象となるテキストの情報を記憶(格納)しているコーパスD13とを備えて構成されている。
データ処理装置D2は音声再生プログラムD3により、図3に示したデータ処理装置B2と同様の機能を有し、記憶装置D1に記憶された辞書情報およびテキスト情報に基づいて音声再生を行うことができ、データ処理装置D2の構成は、図3に示したデータ処理装置B2の制御部B25などの各構成部位の機能を一括して有し、演算処理する中央演算装置D21と、データ処理装置D2の動作を制御する音声再生プログラムD3を記憶するためのメモリーD22とを備えている。
再生プログラムD3は、データ処理装置D2のメモリーD22に読み込まれて、データ処理装置D2の中央演算装置D21およびメモリーD22並びに記憶装置D1の動作を制御し、記憶装置D1内の発音辞書D11、意味・文法辞書D12およびコーパスD13の内容を問い合わせたり、受け取ったりして図2、図4に示したフローチャートと同様のデータ処理を行うための制御をする。
尚、この音声再生プログラムD3は、第2の実施形態で言及した音声再生プログラムと同様であり、第2の実施形態の音声再生装置の各構成部位の代わりに中央演算装置D21などの構成部位を制御して処理を行わせる音声再生のための処理を行うプログラムである。
中央演算装置D21は音声再生プログラムC3により、音声再生装置のユーザからの読み上げ要求指示を受け付けて、第1の辞書情報と、第2の辞書情報とよって、テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成する。
次に、中央演算装置D21は、第1の音声情報列を用いて再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、第2の音声情報列と前記音声切替位置情報とを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成する。
尚、この音声切替位置情報の作成と、読み上げ位置情報の作成とは、その作成の順序を前後逆に行っても構わない。
中央演算装置D21は、テキストの情報および第1の音声情報列ならびに第2の音声情報列を用いて、音声を再生するための音声再生情報を作成したのち、音声再生情報にしたがって音声を出力する。
音声再生プログラムD3は、中央演算装置D21に対して読み上げ要求指示が入力されない場合には、中央演算装置D21に第2の音声情報列による音声再生情報を作成させ、中央演算装置D21に対して読み上げ要求指示が入力された場合には、読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については中央演算装置D21に前記第1および第2の音声情報列による音声再生情報を作成させる制御をすることで、中央演算装置C21に音声再生を行わせている。
このようなデータ処理装置D2の動作を制御する音声再生プログラムD3により、図2、図4に示した処理と同様の演算処理を中央演算装置D21にて行い、処理結果を音声出力することができる。
次に、第1の実施形態の具体的な動作を実施例を用いて説明する。
ここに示す実施例1では、例えば、「The farmers eat fish on Fridays.」といった文の音声を再生する場合を想定する。
図1および図2で示したように記憶装置A1内に記憶された音声データには、音声データベース1A11に記憶された第1の音声データと、音声データベース2A12に記憶された第2び音声データとの2種類のデータがある。
なお音声データは、発音に関する情報を含んでおり、この発音に関しては、一般的に発音記号によって表現されることが多いので、この本実施例においても英英辞典、英和辞書などでよく用いられている発音記号を使用するとよく、音声再生部A21は、この音声データの発音記号に応じてこの発音記号を読みとり、この発音記号の読み取りに応じて音声出力部A22は音声を出力するようにするとよい。
音声データベース1A11に記憶された第1の音声データは、発音が聞き取り困難な箇所を示す音声データ(情報)が記憶されるとともに、この発音が聞き取り困難な箇所を示す音声データに対応してこの箇所の発音を聞き取りしやすい音質の音声にした音声データが記憶されている。
例えば、音声データベース1A11には、上に示した「The farmers eat fish on Fridays.」の「fish on」の区間(箇所)が音声データとして、発音が聞き取り困難なままの音声で記憶されており、これと共に「fish on」の区間(箇所)を聞き取りやすい音質の音声にした音声データが記憶されている。
ここで、読み上げを行うある区切り開始位置を、「<」カギ括弧開き記号およびアルファベットp(ピー)ならびに数字1〜n(エヌ)で表すものと定義する。すなわち、<p1,<p2,...,<pnで、1番目の区切り開始位置、2番目の区切り開始位置、...、n番目の区切り開始位置をそれぞれ表すものとする。
また同様に、1番目の区切り開始位置、2番目の区切り開始位置、...、n番目の区切り開始位置の各区に対応するそれぞれ区切りの終了位置を、それぞれ「>」カギ括弧閉じ記号で表すものと定義する。
このように定義することで、1番目の読み上げ区切り区間(この読み上げ区切り区間は、通常読み上げ音声で読み上げる区間もしくは発音が聞き取り困難な区間と同じことを意味し、この各区間単位で読み上げを行うことになる)は<p1______>と示すことができ、以下同様に、2番目の読み上げ区切り区間は<p2______>と示し、n番目の読み上げ区切り区間は<pn______>と示すことができる。
上記の「The farmers eat fish on Fridays.」の文に、上で定義したこれらの記号を付与すると、「fish on」は1番目の読み上げを行う区切り区間であるから、「The farmers eat <p1 fish on> Fridays.」となる。
そして、音声データベース1A11には、通常読み上げ音声で読み上げる区間のうちの発音が聞き取り困難な区間として「fish on」が発音が聞き取り困難なままの音声で記憶されており、これと共に「fish on」を聞き取りやすい音質の音声にした音声データが対(組)になって第1の音声データとして記憶されている。
音声データベース2A12には、既に説明したように、意味や文法的なまとまりの情報が付与された通常読み上げ音声を第2の音声データとして記憶している。
音声データベース2A12内に記憶された第2の音声データには、従来方法(a)と同様に、この文章情報を読み出し、意味や文法的なまとまりを形成する単位で表すものとする。
ここで、意味や文法的なまとまりを形成するある区切り位置を「/」スラッシュ記号およびアルファベットs(エス)ならびに数字1〜n(エヌ)で表す。例えば、/s1,/s2,..., /snで、それぞれ1番目の文法・意味のまとまり、2番目の文法・意味のまとまり、...n番目の文法・意味まとまりの区切りを表す。
本実施例の文例では、1番目の文法・意味のまとまりが「The farmers」でありこれを「The farmers/s1」と表し、2番目の文法・意味のまとまりが「eat fish」でありこれを「eat fish/s2」と表し、3番目の文法・意味のまとまりが「on Fridays 」でありこれを「on Fridays/s3」と表した結果、音声データベース2A12には、「The farmers/s1 eat fish/s2 on Fridays/s3.」といった意味や文法のまとまり区切りの付与された通常読み上げ音声の第2の音声データが記憶(格納)されている。
次に、音声再生装置における読み上げ要求位置の判定方法の一例について、図7を用いて説明する。
まず、データ処理装置A2において、通常読み上げの再生音声の速度から再生される発話の平均速度(例えば、音声再生装置の通常読み上げ音声時の再生音声の平均話速は、6音節/秒)を予め計算しておき、この話速の平均計算結果を記憶装置A1もしくはデータ処理装置A2に記憶させておく(ステップS31)。
この話速の平均計算結果は、必要に応じてデータ処理装置A2において使用する。
次に、再生音声を聴いているユーザが、指示入力部A26に接続された後述するリモートコントローラーのキーボタン(図16参照)を押すもしくは、指示入力部A26に接続された後述する集音装置(図16参照)から発声指示をするなどの手段を用いて、聞き取りにくかった箇所「fish on」をその箇所より短時間過ぎた時点、例えば「Fridays」/fraideiz/の「ai」の位置を通過した時に読み上げの要求指示をしたとする。
指示入力部A26は、キーボタンなどを介してこのユーザからの読み上げの要求指示を受け付け(受理す)る(ステップS32)。
このユーザからの読み上げの要求指示を受け付けた指示入力部A26は、この要求指示を受け付けた後、要求指示を制御部A25に転送する。この要求指示の受け付けに基づいて、制御部A25は、ユーザが指示入力部A26に読み上げの要求指示を入力した時刻の判定を行うことで、いつ読み上げ要求指示があったかを判定する(ステップS33)。
制御部A25は、ステップS33で判定した指示入力時の時刻に基づいて、指示入力部A26からの読み上げ要求指示と音声再生部A21からの音声再生情報とを用い、ユーザからの読み上げの要求指示に対応したテキスト中の音声再生位置を計算して判定する(ステップS34)。
この読み上げ要求位置の判定は、ユーザが読み上げ要求指示を行った時点で、音声再生装置が、現在テキスト(文)のどの部分を読み上げているかを音声再生部A21からの音声再生情報を用いて判定していることに他ならない
次に、制御部A25は、予め計算され記憶装置A1に記憶された平均話速と所定の指示操作所要平均時間とから、テキスト中の読み上げ要求位置を計算、判定する(ステップS35)。
ここで、データ処理装置A2における読み上げ要求位置の計算処理は、適宜定めてよい。例えば、ユーザの平均話速が6音節/秒であり、予め決められた所定の指示操作所要平均時間が0.1秒であったとき、読み上げ要求指示があった箇所から1音節遡った位置を読み上げ要求位置としてもよい。
ここで、ユーザの読み上げ要求指示は、「Fridays」/fraideiz/の/ai/の位置であるから、テキスト情報からそれより1音節分遡った位置を推測して、
Figure 2006284645
位置を読み上げ要求位置と判定し、制御部A25に判定結果を送る。
読み上げ要求位置判定方法の他の実現方法の一例としては、再生音声を聴いているユーザが、キーボタンを押したり、集音装置を通して発声指示をするなどの手段を用いて、聞き取りにくかった箇所をその箇所より短時間過ぎた時点である、例えば「Fridays」/fraideiz/の/ai/の位置(箇所)で読み上げの要求指示をしたとしたとき、この読み上げの要求指示を出した時刻より所定の時間、例えば0.5秒遡った箇所を、読み上げ要求位置と判定してもよい。
次に、別の読み上げ要求位置判定方法の一例について、図8を参照して説明する。
図8は、図1、図3などに示した音声再生装置に接続された図示しないコンピュータがあり、このコンピュータの表示装置(ディスプレイ)の表示状態を示したものである。
表示装置には、ユーザが音声再生装置に読み上げをさせようとしているテキスト(文)(図8中では、Every day the man で始まる英文)が表示されており、例えば表示装置の画面上のテキスト(文)中で位置を示す細長い四角のマーク■といったカーソルが置かれた位置を次の読み上げ対象の読み上げ要求位置と判定する。図8中では、Alice.とSheとの間にカーソル■が位置しており、実際の表示装置の画面上ではこのカーソル■が点滅して読み上げ要求位置を示している。
ここで、ユーザが読み上げをさせようとしているテキスト(文)は、コンピュータの表示画面上に表示する代わりに音声テキストにして、何らかの音声の位置を示す音声マークをカーソル■の代わりに利用してもよい。
このようにして、図2のステップS12で示した音声再生装置における読み上げ要求位置の判定が行われる。
次に、読み上げの音声切替位置の判定方法の一例について、図9を参照して説明する。
まず、図7で示したフローチャートの手順によって、制御部A25により判定された読み上げ要求位置「on」の情報は、制御部A25から音声切替位置判定部A23に転送され、音声切替位置判定部A23は、この読み上げ要求位置を受理する(ステップS41)。
音声切替位置判定部A23は、制御部A25から転送された読み上げ要求位置「on」の情報に加え、記憶装置A1の音声データベース1A11に記憶された発音が聞き取り困難な箇所の音声の音声データ(情報)「The farmers eat <p1 fish on> Fridays.」を読み出す(ステップS42)。
音声切替位置判定部A23は、読み上げ要求位置「on」から一番近い発音が聞き取り困難な箇所の1番目の区切り開始位置「<p1」を読み上げ中の音声切替開始位置と計算すると共に、1番目の区切り開始位置「<p1」に対応する区切り終了位置「>」を音声切替終了位置と計算する(ステップS43)。
音声切替位置判定部A23は、これらの計算結果により、音声切替開始位置と音声切り替え終了位置とで決定される区間を音声切替区間(音声切替位置)として判定する(ステップS44)。
音声切替位置判定部A23は、このステップS41〜S44の手順で判定された結果を御御部A25に送る。
このようにして、図2のステップS13で示した音声再生装置における読み上げの音声切替位置の判定が行われる。
続いて、読み上げ区間(位置)の判定方法の一例について、図10を用いて説明する。
まず、読み上げ位置判定部A24は、制御部A25より図7で判定された読み上げ要求位置の情報を受理すると共に、音声切替位置判定部A23より図9で判定された音声切替位置(音声切替区間)の情報を受理する(ステップS51)。
読み上げ位置判定部A24は、受理した読み上げ要求位置「on」の情報および音声切替開始位置「<p1」から音声切替終了位置「>」までの音声切替区間情報に加えて、記憶装置A1の音声データベース2A12内から音声から意味や文法的なまとまりの情報が付与された第2の音声データの情報「The farmers /s1 eat fish /s2 on Fridays /s3.」を読み出す(ステップS52)。
さらに読み上げ位置判定部A24は、読み上げ要求位置「on」から一番近い音声切替開始位置「<p1」から音声切替終了位置「>」までの音声切替区間よりも遠い位置にあり、意味や文法的なまとまりである区切り位置「/s1」を読み上げ開始の戻り位置として計算する。
また読み上げ位置判定部A24は、音声切替開始位置「<p1」から音声切替終了位置「>」までの音声切替区間および読み上げ要求位置「on」を過ぎて最も近い意味や文法的なまとまりである区切り位置「/s3」を読み上げ終了位置として計算する(ステップS53)。
これらの計算結果により、読み上げ位置判定部A24は、読み上げ区間の判定(決定)をする(ステップS54)。
このようにして、図2のステップS14で示した音声再生装置における読み上げ区間の判定が行われる
読み上げ位置判定部A24は、この読み上げ区間の判定結果を制御部A25に送る。
最後に、制御部A25は、読み上げ位置判定部A24から送られた読み上げ区間の判定結果に基づいて、音声再生部A21を経て音声出力部A22に対して読み上げ(音声再生)の指示を出す。
音声再生の指示を制御部A25から受けた音声再生部A21は、判定された戻り位置「/s1」より通常読み上げ音声の第2の音声データを記憶している音声データベース2A12内の音声を音声出力部A22に送り、この通常読み上げ音声で「eat」と読み上げを開始する。
さらに、通常読み上げ音声での読み上げ(音声再生)中に、判定された音声切替開始位置「<p1」に達すると、音声切替開始位置「<p1」から始まる音声切替区間を音声データベース1A11内に記憶されている聞き取りしやすい音質の音声の第2の音声データによって音声切替終了位置「>」まで「fish on」と読み上げをする。
ここで、聞き取りしやすい音質の音声を作成する方法としては、例えば元の音質の音声では音素連続となっており「フィシアン」のように聞こえやすい「fish on」の箇所をより細かな単語ごとの単位、例えば「fish」「on」とそれぞれの単語音声に区切って読むことで、読み上げの際に聞き取りやすいようにする。
また、聞き取りしやすい音質の音声を格納している音声データベース1内の音声で出力する際には、音声切替区間内では、音声出力部A22から出力する音声のボリュームを大きくしたり、通常読み上げ音声よりも音声の速度を緩やかなものにして、音質を変更してあってもよい。
最後に、ユーザが読み上げ要求指示した位置「on」を過ぎて、「Fridays」と読み上げて最も近い意味や文法的なまとまりである区切り位置「/s3」に達すると、音声再生装置は読み上げを停止し、ユーザの読み上げ要求指示による読み上げ動作を終了する。
ここで、本実施例では読み上げ要求位置で音声切替終了位置に達したので、その位置より後「Fridays」から、通常読み上げ音声を格納している音声データベース2A12内の第2の音声データの音声で読み上げを再度開始し、読み上げ要求位置「on」を過ぎて最も近い意味や文法的なまとまりである区切り位置「/s3」に達して、音声再生装置は読み上げを停止し、ユーザの読み上げ要求指示による読み上げ動作を終了している。
次に、第2の実施形態のより詳細かつ具体的な動作を、図3、図4を用いて実施例2により説明する。
例えば、第2の実施形態の場合の動作と同様に、「The farmers eat fish on Fridays.」といった文の音声を再生する場合を想定する。
図3、図4に示したように記憶装置B1内には、図1、図2に示した記憶装置A1内の音声データベース1A11に格納されている第1の音声データおよび音声データベース2A12に格納されている第2の音声データの代わりに、発音辞書B11に格納されている発音情報や聞き取りの困難な発音の第1の辞書情報と、意味・文法辞書B12に格納されている意味や文法情報である第2の辞書情報と、コーパスB13に格納されている読み上げ対象となるテキストの情報とが格納されている。
まず、解析部B27は、コーパスB13に記憶されている読み上げ対象となるテキスト情報を読み出す。ここでは、具体的に「The farmers eat fish on Fridays.」というテキストの情報をコーパスB13から読み出す。
次に解析部B27は、読み出されたテキストの情報を意味・文法辞書B12に記憶された意味や文法の第2の辞書情報を用いてテキスト情報の解析を行い、意味や文法的なまとまりの情報が付与された通常読み上げよりなる第2の音声情報列を作成する。
ここで、テキスト情報の解析方法は適宜定めるとよい。
例えば、自然言語処理技術で用いられている一般的な方法の一つとして、自然言語で書かれた文書を、意味を持つ最小の言語単位(例えば、単語単位)である形態素に分割し、各形態素の品詞を見分ける形態素解析がある。
また、自然言語処理技術で用いられている一般的な別の方法として、意味・文法解析を行い、意味や文法的なまとまりを第2の音声情報列として明示する方法がある。
解析部B27で解析を行う際には、これらの方法を用いるとよい。
次に、意味・文法辞書B12の一例を、図11を用いて説明する。図11は、記憶装置B1の意味・文法辞書B12に記憶された第2の辞書情報の内容を示す説明図である。
図11の上方は、:コロン記号で区切られており、行の左から順に、0001で始まる連番よりなるインデックス、その連番の右側に語彙の単語文字列、その単語文字列の右側に名詞、前置詞などの単語文字列の品詞を示すアルファベット記号(記号Nは名詞、記号Pは前置詞を示す)、そのアルファベット記号の右側に単語文字列の意味素性(動物(animal)や、人(human)、機能語(func)など各語彙の意味や属性)がそれぞれの行に記されることで情報が付与されている。
各語彙1つ1つは、それぞれ最も小さなまとまりを成す最小構成単位である。
このようにして、図から分かるように例えば、インデックス0982の行には、「on」という単語文字列が記載されており、この語彙「on」は、記号Pから前置詞であることが分かり、意味素性「func」から語彙「on」が機能語であることが分かる。
次に、図11の下方は、先頭がアルファベットで始まる行が記されている。
これらの記載された行は、語彙の統合規則を格納している行である。
例えば、品詞Sは、品詞N(記号Nは、名詞であることを示している)と、品詞V(記号Vは、動詞であることを示している)とが、この順に並んだときに一つのまとまりを成している。
これを、第1行目では、S:=N,V のように表記している。同様に第3行目では、PP:=P,Nと表記されており、これは、品詞PPは、品詞P(記号Pは、前置詞であることを示している)と、品詞N(記号Nは、名詞であることを示している)とが、この順に並んだときに一つのまとまりを成していることを示している。
第5行目では、VP:=P,PPと表記されており、これは、品詞VPは、品詞P(記号Vは、前置詞であることを示している)と、品詞PPとが、この順に並んだときに一つのまとまりを成していることを示している。
解析結果の一例として、「The farmers eat fish on Fridays.」というテキストの情報を意味・文法的なまとまりを形成する単位として「()と「」」で囲むと、「(((The) (farmers)) (eat (fish)) (on (Fridays.)))」」となり、このテキスト情報の解析に基づいて、単語単位より大きいまとまりで、ある区切り位置を「/」スラッシュ記号と数字n(エヌ)で表す。例えば、/1,/2,...,/nで、1番目のまとまり、2番目のまとまり、...n番目のまとまりのそれぞれの区切りを表すと、「The farmers /1 eat fish /2 on Fridays /3.」となる。
このテキスト情報を解析した結果を発音辞書B11に記憶された第1の辞書情報を用いてさらに解析し、この解析の結果からテキスト情報に、発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列を発音情報として付与する。
発音辞書B11の一例を、図12を用いて説明する。図12は、記憶装置B1の意味・文法辞書B11に記憶された第1の辞書情報の内容を示す説明図である。
図12は、図の上方の行の左から順に、0001で始まる連番よりなるインデックス、その連番の右側に語彙の単語文字列、その単語文字列の右側に単語文字列の発音を発音記号で示した音素列がそれぞれの行に記されることで情報が付与されている。
このようにして、図の上方から分かるように例えば、インデックス0982の行には、「on」という単語文字列が記載されており、この単語文字列「on」の発音が、その右側の発音記号で示された音素列で分かる。
その他に、発音辞書B11には、必要に応じてイントネーションやアクセントを示す韻律情報、音声波形、発音記号に対応した音声などの発音情報が付与されていてもよい。
次に図中下方に示したように、発音辞書B11内でインデックスがNで始まるものは発音の困難な箇所を表している。
図の下方の行の左から順に、冒頭に記号Nを付し0001で始まる連番よりなるインデックス、そのインデックスの右側に発音の困難な箇所の文字列、その文字列の右側に発音の困難な箇所の発音を発音記号で示した音素列がそれぞれの行に記され、発音情報が付与されている。
ここで、発音の困難な箇所は、全ての文字列が表示されているのではなく、単語内である任意の文字列が任意の数続く場合を含む場合には「*」アスタリスク記号を用いて表現される。例えば、「an*」と表示されている場合、この文字列は「and」でも「angelus」でもありうる。この発音の困難な箇所は、テキストを読み上げる文読みの情報でもあり、単語単位で読んだ場合とテキスト(文)の単位で読んだ場合では、発音の困難な箇所が異なることが多い。
この発音の困難な箇所は、一般的に発音が聞き取りにくい箇所でもある。これらの発音辞書B11の第1の辞書情報に基づいて、コーパスB13のテキスト情報を発音記号で表した音素列に置き換えることができる。
例えば、それぞれの単語の文字列からその発音を音素列に置換したもの
Figure 2006284645
を作成し、文読みの情報、例えば音素連続の情報によりある文字列間の音を変形させた結果、例えば、「fish on」の「*sh on」の箇所が
Figure 2006284645
に連続した音素列
Figure 2006284645
を表示する。さらに、図12に示した発音の困難な箇所の情報N0001「*sh on」の情報を用いて判定する。
このとき例えば、テキスト(文)中のある区切り開始位置を「<」カギ括弧開き記号およびアルファベットp(ピー)ならびに数字n(エヌ)で表す。このようにして、<p1,<p2,...,<pnで、それぞれ1番目の区切り開始位置、2番目の区切り開始位置、...n番目の区切り開始位置を表す。またそれぞれの区切り開始位置に対応する区切り終了位置を「>」カギ括弧閉じ記号で表す。
上記の「The farmers eat fish on Fridays.」の文にこれらの記号を付与すると「The farmers eat <p1 fish on> Fridays.」となり、聞き取りやすい音質の音声が「fish on」の区間発音辞書B11に格納されている。
こうして解析部B27により解析された結果によって第1の音声情報列および第2の音声情報列が作成された後、実施例1の動作と同様に、再生音声を聴いているユーザが、聞き取りにくかった箇所に対して読み上げの要求指示をした際に、音声再生装置は、読み上げ要求位置の判定を行うことで取りにくかった箇所の推定をし(図7参照)、音声を切り替えて読み上げをする音声区間の判定をし(図9参照)、読み上げ音声区間の判定(図10)を行う。
ただし、実施例1と異なる点は、発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声である第1の音声データを格納している音声データベース1A11と、意味や文法的なまとまりの情報が付与された通常読み上げ音声である第2の音声データを格納している音声データベース2A12とを用いる代わりに、上記の解析結果を用いる点である。
次に、第1の実施形態および第2の実施形態の動作を図13〜図16を用いて、実施例3を詳細に説明する。
例えば、英語で書かれた「The farmers eat fish on Fridays.」といった文を、英語を母国語としない話者が聞き取り練習に利用する学習の場合を想定する。
図13を参照すると、音声再生装置は、音声データを記憶する記憶装置E1と、記憶装置E1に記憶された音声データを用いて音声を再生するデータ処理装置E2とを備えて構成され、記憶装置E1とデータ処理装置E2とは互いに接続されている。
記憶装置E1は、互いの同期のとれており発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の音声の第1の音声データを記憶(格納)している第1の音声データベース(以下、音声データベース1と称する)E11と、互いの同期のとれており意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶(格納)している第2の音声データベース(以下、音声データベース2と称する)E12とを備えているほか、ユーザが読み上げ要求指示を行った箇所の最近傍の聞き取りにくい箇所を記憶するマーク格納部E13を備えて構成されている。
データ処理装置E2は、記憶装置E1に記憶された第1、第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部E21と、音声再生部E21からの音声再生情報にしたがって音声を出力する音声出力部E22と、音声データベース1E11に記憶された第1の音声データを用いて再生する音声の音質を変更・切替する位置(これを、音声切替位置と称する)を判定して音声切替位置情報として出力する音声切替位置判定部E23と、音声データベース2E12に記憶された第2の音声データと音声切替位置判定部E23からの音声切替位置情報とを用いて音声を再生して読み上げをする音声の開始位置(戻り位置)と音声の停止位置とを判定し読み上げ位置情報として出力する読み上げ位置判定部E24と、音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部E26と、音声再生部E21と音声切替位置判定部E23と読み上げ位置判定部E24とを制御する制御部E25とを備えて構成されている。
ここで、第1の実施形態の音声再生装置と異なる点は、記憶装置E1にマーク格納部E13が設けられたことであり、その他の構成品は構成・機能・動作などが第1の形態の音声再生装置と同じである。
例えば、音声データベース1E11には、英語母語話者以外の外国語話者に、特に、聞き取りにくいと推測される箇所、例えば「fish on」の箇所が、聞き取りやすい音質の音声で情報と共に格納されており、図1で示した音声データベース1A11と同様の機能・動作となっている。
このような第1の形態の音声再生装置と同じ部分の説明については、説明を省略する。
マーク格納部E13は、ユーザが読み上げ要求指示を行った箇所の最も近い聞き取りにくい箇所をマークして、マークした箇所を記憶する機能を有している。
マーク格納部E13には、各々音声データベース1E11および音声データベース2E12のマークした箇所のファイル名、ファイルもしくはファイル中の位置、重要度を求めるためのマーキングの回数、マーキングのマーク種、ファイルの特徴などを示す付加情報などが格納されている。
このマーク格納部E13の格納テーブルの一例を、図15に示す。
図は、左欄から順に、ファイル名の欄、ファイルの位置の欄、マーキングのマーク種の欄、ファイルの特徴などを示す付加情報の欄を示す。ここでは、ファイル名がABCであり、ファイルの位置は128バイト目であり、マーク種は***(アスタリスク記号3個)であり、付加情報としてTOEIC用といったコメントが格納されていることが読み取れる。
ファイルの位置は音声データベース1E11、音声データベース1E11の場合、バイトの代わりに時間で表示することが一般的である。
また、図14に示したような音声再生装置も実現可能である。
図14は、音声再生装置の構成例を示すブロック図である。
図14を参照すると、音声再生装置は、辞書情報およびテキスト情報を記憶する記憶装置F1と、記憶装置F1に記憶された辞書情報およびテキスト情報を用いて音声を再生するデータ処理装置F2とを備えて構成され、記憶装置F1とデータ処理装置F2とは互いに接続されている。
記憶装置F1は、単語の発音情報や聞き取りの困難な発音の情報を第1の辞書情報として記憶(格納)している発音辞書F11と、意味や文法情報を第2の辞書情報として記憶(格納)している意味・文法辞書F12と、読み上げ対象となるテキストの情報を記憶(格納)しているコーパスF13とを備えているほか、ユーザが読み上げ要求指示を行った箇所の最近傍の聞き取りにくい箇所を記憶するマーク格納部F14を備えて構成されている。
データ処理装置F2は、音声を再生するための音声再生情報を作成し出力する音声再生部F21と、音声再生部F21からの音声再生情報にしたがって音声を出力する音声出力部F22と、第1の辞書情報を用いて再生する音声の音質を変更・切替する位置(これを、音声切替位置と称する)を判定して音声切替位置情報として出力する音声切替位置判定部F23と、第2の辞書情報と音声切替位置判定部F23からの音声切替位置情報とを用いて音声を再生して読み上げをする音声の開始位置(戻り位置)と音声の停止位置とを判定し読み上げ位置情報として出力する読み上げ位置判定部F24と、音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部F26と、音声再生部F21と音声切替位置判定部F23と読み上げ位置判定部F24とを制御する制御部F25と、記憶装置F1内の発音辞書F11に記憶された第1の辞書情報と意味・文法辞書F12に記憶された第2の情報とよって、コーパスF13に記憶された読み上げ対象となるテキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げよりなる第2の音声情報列とを作成し、出力する解析部F27とを備えている。
ここで、第2の実施形態の音声再生装置と異なる点は、記憶装置F1にマーク格納部F13が設けられたことであり、その他の構成品は構成・機能・動作などが第2の形態の音声再生装置と同じであるので、説明については省略する。
マーク格納部F14は、ユーザが読み上げ要求指示を行った箇所の最も近い聞き取りにくい箇所をマーキングして、そのマーキング箇所を記憶する機能を有しており、マーク格納部F14には、図15に示したような、各々発音辞書F11、文法辞書F12やコーパスF13中のファイル名、ファイル中の位置、重要度を求めるためのマーキングの回数など納めるマーク種、付加情報が納められている。ファイルの位置は、コーパスF13の場合には、バイト数などがデータとして納められている。
このような図13、図14で示した音声再生装置を使用する際に一例として音声再生装置の利用者は、聞き取りにくい箇所で読み上げ要求指示を行う場合には、図16に示すような学習装置本体G1もしくはリモートコントローラーG2を用いて、読み上げ要求指示操作を行うとよい。
図示したように、学習装置本体G1には、キーボタンG11、集音装置(マイク)G12などが設けられており、キーボタンG11による手元操作で読み上げ要求指示行ったり、集音装置(マイク)G12による音声指示で読み上げ要求指示行ったりすることを可能にする。
リモートコントローラーG2には、キーボタンG21、集音装置(マイク)G22などが設けられており、キーボタンG21による手元操作で読み上げ要求指示行ったり、集音装置(マイク)G22による音声指示で読み上げ要求指示行ったりすることを可能にする。
ここで、音声再生装置の読み上げ要求位置の判定方法、読み上げの音声切替位置の判定方法、読み上げ区間(位置)の判定方法および読み上げ方法は、図1〜図13で示したものと同様である。
本実施例では、さらに、実施例1に示したような音声データベース1A11、音声データベース2A12に格納されている第1、第2音声データ(一般的には、音声コーパスともいう)や実施例2に示したような記憶装置B1内の記憶内容に関して、利用者が読み上げ要求指示を行うたびに、利用者が聞き取りにくい各箇所にマーキングがつけられる。
このマーキングは、読み上げが終了した後でもその各マーキングが、マーク格納部E13、F14に保持されている。マーク格納部E13、F14に保持された各マーキングは、利用者の削除命令がない限り、削除されることはなく、マーク格納部E13、F14に保持・格納される。
このため、利用者が例えば寸劇やエッセイといった学習用コンテンツとなっている一定の文書単位ごとに、全文を聴かずとも、マーク格納部E13、F14に格納された各マーキングに基づいて、聞き取りにくかった各箇所を飛び飛びに再生し、復習ができるという効果が得られる。
このように、音声再生装置は、音声再生装置が、非母国語話者に聞き取り能力の訓練を行う外国語学習用として利用する際に、読み上げ位置の判定および読み上げ位置のうち音声切替位置をマーク格納部に記憶し、複数の読み上げ位置とそのうちの音声切替位置を選択して、読み上げ位置と音声切替位置とのみを飛び飛びに連続して再生することも可能となる。
また、利用者が聞き取りにくかった箇所を所定の回数以上、例えば三回以上読み上げ要求指示をすることにより、画面に少なくとも聞き取りにくいと判定された音声切替区間の文字列、例えば、「fish on」を表示する。
このとき、表示するのは、読み上げ音声区間の文字列全体で、その読み上げ音声区間に含まれる音声切替区間の文字列、例えば、「fish on」を強調表示してもよい。
また、読み上げ要求位置の表示は、同じ読み上げ要求位置のうち音声切替位置の開始位置および終了位置の両方もしくは一方を表示してもよい。
このように、音声再生装置は、非母国語話者に聞き取り能力の訓練を行う外国語学習用として利用する際に、読み上げ要求指示が同じ読み上げ位置で複数回あるときには、読み上げ位置の表示および同じ読み上げ位置のうち音声切替位置の開始位置および終了位置の両方もしくは一方を表示することも可能となる。
これらにより、発音の聞き取りにくい箇所をユーザが知ることで、発音の聞き取りにくい箇所の繰り返しの学習のための情報として活用することが可能となる。
次に、第2の実施形態の実施例を、図3を用いて詳細に説明する。
例えば、英語で書かれた「The farmers eat fish on Fridays.」といった文を、英語を母国語としない話者が聞き取り練習に利用する場合を想定する。
記憶装置B1内には、実施例2(図3参照)と同様、発音情報や聞き取りの困難な発音の情報である第1の辞書情報を格納している発音辞書B11と、意味や文法情報である第2の辞書情報を格納している意味・文法辞書B12と、読み上げ対象となるテキストの情報を格納しているコーパスB13とが設けられている。発音の解析に用いるための発音辞書B11には、英語母語話者以外の外国語話者に特に聞き取りにくいと推測されるパターンが予め格納されている。
音声再生装置のユーザ(利用者)は、実施例3と同様に図16に示すような学習装置本体G1もしくはリモートコントローラーG2を用いて、読み上げ要求指示操作を行う。
図示したように、学習装置本体G1には、キーボタンG11、集音装置(マイク)G12などが設けられており、キーボタンG11による手元操作で読み上げ要求指示行ったり、集音装置(マイク)G12による音声指示で読み上げ要求指示行ったりすることを可能にする。
ここで、音声再生装置の読み上げ要求位置の判定方法、読み上げの音声切替位置の判定方法、読み上げ区間(位置)の判定方法および読み上げ方法は、実施例2で示したものと同様である。
リモートコントローラーG2には、キーボタンG21、集音装置(マイク)G22などが設けられており、キーボタンG21による手元操作で読み上げ要求指示行ったり、集音装置(マイク)G22による音声指示で読み上げ要求指示行ったりすることを可能にする。
本実施例では、さらに、ユーザの読み上げ要求指示を受けて、データ処理装置B2が音声切替位置の判定をする(図2、図9参照)際に、聞き取りにくいと判定された発音辞書B11中のパターン、例えば発音の困難な箇所の情報インデックスN0001の「*sh on」(図12参照)を用いて、同じようなパターンで別の例をコーパスB13中から検索する。
具体的には、実施例2と同様、発音の困難な箇所「*sh on」が判定されると、その情報を解析部B27に送り、解析部B27は、コーパスB13中で少なくとも「*sh on」と同様なパターンの箇所、例えば「ash on」や「dish on」、もしくは「*sh on」と同様なパタンを含む文例「Don't drop cigarette ash on the carpet.」や「Look at the main dish on the table.」もしくは「*sh on」と同様なパターンを含む意味・文法で区切られた例えば句のような例「cigarette ash on the carpet.」や「the main dish on the table」を解析し、解析部B27は解析結果を音声再生部B21に送り、この解析結果を受け取った音声再生部B21は、この解析結果に基づく音声再生情報を音声出力部B22に出力し、音声出力部B22はインデックスN0001と同じようなパターンで別の例の音声を出力する音声再生を行う。
このように、音声再生装置が、非母国語話者に聞き取り能力の訓練を行う外国語学習用に用いられ、読み上げ位置のうち音声切替位置の判定をした後に、同様の発音が聞き取りにくい位置(音声切替位置)を持つ別の音声切替位置を判定して再生することが可能となり、ユーザは聞き取りにくい発音のパターンを他の例でも繰り返し聴くことで、その聞き取りにくいパターンを集中的に聞き取り練習することが可能となる。
以上説明したように、本発明によれば次に示す優れた効果を得られる。
(1)音声再生装置は、発音の聞き取りにくい箇所で音声連続の影響による音素の連結が原因である部分を、音声が聞き取りやすい第1の音声データによって音声再生することで、従来方法では発音上の情報を無視した「eat fish」のような読み上げを解消し、ユーザの聞き取りにくさを解消している。
(2)音声再生装置は、音声切替位置を判定することで、聞き取りにくかった発音の位置のみを音声を切り替えて読み上げさせることができる。
(3)音声再生装置は、聞き取りにくかった箇所に再度行き着くまでに時間が掛からず、ユーザのリスニングの負担を軽減しつつ、発音の聞き取り困難な箇所を発音の聞き取りやすい音質の音声で再生して、ユーザが再度聞くことができる。
第1の実施形態である音声再生装置の構成例を示すブロック図である。 第1の実施形態である音声再生装置の動作例を示すフローチャートである。 第2の実施形態である音声再生装置の構成例を示すブロック図である。 第2の実施形態である音声再生装置の動作例を示すフローチャートである。 第3の実施形態である音声再生装置の構成例を示すブロック図である。 第4の実施形態である音声再生装置の構成例を示すブロック図である。 音声再生装置における読み上げ要求位置の判定方法の一例を示すフローチャートである。 音声再生装置の別の読み上げ要求位置判定方法の一例を示す説明図である。 音声再生装置の読み上げの音声切替位置の判定方法の一例を示すフローチャートである。 音声再生装置の読み上げ区間(位置)の判定方法の一例を示すフローチャートである。 記憶装置の意味・文法辞書の一例を示す説明図である。 記憶装置の発音辞書の一例を示す説明図である。 第1の実施の形態である音声再生装置がさらにマーク格納部を有する構成例を示すブロック図である。 第2の実施の形態である音声再生装置がさらにマーク格納部を有する構成例を示すブロック図である。 マーク格納部の格納の一例を示す説明図である。 語学学習用の端末の一例を示す概観図である。
符号の説明
A1 記憶装置
A11 音声データベース1
A12 音声データベース2
A2 データ処理装置
A21 音声再生部
A22 音声出力部
A23 音声切替位置判定部
A24 読み上げ位置判定部
A25 制御部
A26 指示入力部
B1 記憶装置
B11 発音辞書
B12 意味・文法辞書
B13 コーパス
B2 データ処理装置
B21 音声再生部
B22 音声出力部
B23 音声切替位置判定部
B24 読み上げ位置判定部
B25 制御部
B26 指示入力部
B27 解析部
C1 記憶装置
C11 音声データベース1
C12 音声データベース2
C2 データ処理装置
C3 音声再生プログラム
D1 記憶装置
D11 発音辞書
D12 意味・文法辞書
D13 コーパス
D2 データ処理装置
D3 音声再生プログラム
E1 記憶装置
E11 音声データベース1
E12 音声データベース2
E13 マーク格納部
E2 データ処理装置
E21 音声再生部
E22 音声出力部
E23 音声切替位置判定部
E24 読み上げ位置判定部
E25 制御部
E26 指示入力部
F1 記憶装置
F11 発音辞書
F12 意味・文法辞書
F13 コーパス
F14 マーク格納部
F2 データ処理装置
F21 音声再生部
F22 音声出力部
F23 音声切替位置判定部
F24 読み上げ位置判定部
F25 制御部
F26 指示入力部
F27 解析部
G1 学習装置本体(語学学習用端末本体)
G2 リモートコントローラー(語学学習用端末リモートコントローラー)
G11 キーボタン
G12 集音装置(マイク)
G21 キーボタン
G22 集音装置(マイク)

Claims (21)

  1. 音声データに示される音声読み上げをする音声再生装置であって、
    発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
    前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
    前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部と、
    前記音声再生情報にしたがって音声を出力する音声出力部と、
    前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
    前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
    前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御部と、
    を備えることを特徴とする音声再生装置。
  2. 読み上げ対象となるテキストの情報を音声読み上げをする音声再生装置であって、
    単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
    意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
    前記読み上げ対象となるテキストの情報を記憶しているコーパスと
    前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成して、出力する解析部と、
    前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し出力する音声再生部と、
    前記音声再生情報にしたがって音声を出力する音声出力部と、
    前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
    前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
    前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御部と、
    を備えることを特徴とする音声再生装置。
  3. 音声データに示される音声読み上げをする音声再生装置であって、
    発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
    前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記中央演算装置の演算処理を制御する音声再生プログラムと、
    前記音声再生プログラムを記憶するメモリーと
    を備え、
    前記中央演算装置は、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
    前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
    前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
    前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し、
    前記音声再生情報にしたがって音声を出力し、
    音声再生プログラムは、
    前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記中央演算装置に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生装置。
  4. 読み上げ対象となるテキストの情報を音声読み上げをする音声再生装置であって、
    単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
    意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
    前記読み上げ対象となるテキストの情報を記憶しているコーパスと
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記中央演算装置の演算処理を制御する音声再生プログラムと、
    前記音声再生プログラムを記憶するメモリーと
    を備え、
    前記中央演算装置は、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
    前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成し
    前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
    前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
    前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し、
    前記音声再生情報にしたがって音声を出力し、
    音声再生プログラムは、
    前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生装置。
  5. 前記記憶装置が、前記読み上げ要求指示が行われて発音が聞き取り困難な箇所の、最近傍の箇所をマークして、マークした箇所を記憶するマーク格納部を備えた請求項1〜4いずれかに記載の音声再生装置。
  6. 前記マーク格納部が、マークした箇所のファイルのファイル名と、前記ファイルの位置と、マーキングのマーク種と、前記ファイルの特徴を示す付加情報とからなるテーブルを有する請求項1〜5記載の音声再生装置。
  7. 前記音声出力部は、前記音声切替位置情報により、再生音声をより細かな単位で区切って再生する請求項1〜6いずれかに記載の音声再生装置。
  8. 前記音声出力部は、前記音声切替位置情報により、再生音声の周波数を変えて再生する請求項1〜7いずれかに記載の音声再生装置。
  9. 前記音声出力部は、前記音声切替位置情報により、再生音声の速度を前記通常読み上げ音声よりも遅くして再生する請求項1〜8いずれかに記載の音声再生装置。
  10. 前記読み上げ要求位置の判定には、前記読み上げ対象となるテキスト情報をポーズで区切った結果を用いる請求項1〜9いずれかに記載の音声再生装置。
  11. 前記音声再生装置が、前記読み上げ要求位置の判定および、前記読み上げ要求位置のうち前記音声切替位置をマーク格納部に記憶し、複数の前記読み上げ要求位置とそのうちの前記音声切替位置を選択して、前記読み上げ要求位置と前記音声切替位置とのみを飛び飛びに連続して再生する請求項1〜10いずれかに記載の音声再生装置。
  12. 前記音声再生装置が、前記読み上げ要求指示が、同じ前記読み上げ要求位置で複数回あるときに、前記読み上げ要求位置の表示および同じ前記読み上げ要求位置のうち前記音声切替位置の開始位置および終了位置の両方もしくは一方を表示する請求項1〜11いずれかに記載の音声再生装置。
  13. 前記音声再生装置が、前記読み上げ要求位置のうち前記音声切替位置の判定をした後に、同様の前記音声切替位置を持つ別の前記音声切替位置を判定して再生する請求項1〜12いずれかに記載の音声再生装置。
  14. 前記音声再生部は、前記第1の音声情報列と前記第2の音声情報列とを用いて音声再生を行う代わりに、前記第1の音声情報列と前記第2の音声情報列とを用いて音声合成を行う音声合成機能を有する請求項1〜13いずれかに記載の音声再生装置。
  15. 音声データに示される音声読み上げさせる音声再生プログラムであって、
    発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
    前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記音声再生プログラムを記憶するメモリーと
    を備えた前記音声再生装置に、前記音声再生プログラムが記憶され、
    前記音声再生プログラムは、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付けるステップと、
    前記読み上げ要求指示に基づいて、読み上げ要求指示位置を計算して読み上げ要求位置情報を作成するステップと、
    前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成するステップと、
    前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成するステップと、
    前記第1および第2の音声データを用いて音声を再生するための音声再生情報を作成するステップと、
    前記音声再生情報にしたがって音声を出力するステップと、
    を有し、
    前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声データおよび第2の音声データによる前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生プログラム。
  16. 読み上げ対象となるテキストの情報を音声読み上げさせる音声再生プログラムであって、
    単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
    意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
    前記読み上げ対象となるテキストの情報を記憶しているコーパスと
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記音声再生プログラムを記憶するメモリーと
    を備えた前記音声再生装置に、前記音声再生プログラムが記憶され、
    前記音声再生プログラムは、前記音声再生装置のユーザからの読み上げ要求指示を受け付けるステップと、
    前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成するステップと、
    前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成するステップと、
    前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成するステップと、
    前記テキストの情報および第1の音声情報列ならびに第2の音声情報列を用いて、音声を再生するための音声再生情報を作成するステップと、
    前記音声再生情報にしたがって音声を出力するステップと、
    を有し、
    前記音声再生プログラムは、
    前記中央演算装置に対して読み上げ要求指示が入力されない場合には、前記中央演算装置に前記第2の音声情報列による音声再生情報を作成させ、前記中央演算装置に対して読み上げ要求指示が入力された場合には、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列による前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生プログラム。
  17. 音声データに示される音声読み上げをする音声再生方法であって、
    発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
    前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
    前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し出力する音声再生部と、
    前記音声再生情報にしたがって音声を出力する音声出力部と、
    前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
    前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
    前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御部と、
    を備え、音声再生することを特徴とする音声再生方法。
  18. 読み上げ対象となるテキストの情報を音声読み上げをする音声再生方法であって、
    単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
    意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
    前記読み上げ対象となるテキストの情報を記憶しているコーパスと
    前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成して、出力する解析部と、
    前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し出力する音声再生部と、
    前記音声再生情報にしたがって音声を出力する音声出力部と、
    前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報として出力する音声切替位置判定部と、
    前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報として出力する読み上げ位置判定部と、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付ける指示入力部と、
    前記指示入力部に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記音声再生部に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御部と、
    を備え、音声再生することを特徴とする音声再生方法。
  19. 音声データに示される音声読み上げをする音声再生方法であって、
    発音が聞き取り困難な箇所の情報が付与された聞き取りのしやすい音質の第1の音声データを記憶している第1の音声データベースと、
    前記第1の音声データと同じ音声を示し、意味や文法的なまとまりの情報やポーズ単位のまとまり情報が付与された通常読み上げ音声の第2の音声データを記憶している第2の音声データベースと、
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記中央演算装置の演算処理を制御する音声再生プログラムと、
    前記音声再生プログラムを記憶するメモリーと
    を備え、
    前記中央演算装置は、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
    前記第1の音声データを用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
    前記第2の音声データを用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
    前記第1の音声データおよび前記第2の音声データを用いて音声を再生するための音声再生情報を作成し、
    前記音声再生情報にしたがって音声を出力し、
    音声再生プログラムは、
    前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については、前記中央演算装置に前記第1の音声データおよび前記第2の音声データにより前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生方法。
  20. 読み上げ対象となるテキストの情報を音声読み上げをする音声再生方法であって、
    単語の発音およびや聞き取りの困難な発音よりなる第1の辞書情報を記憶している発音辞書と、
    意味および文法よりなる第2の辞書情報を記憶している意味・文法辞書と、
    前記読み上げ対象となるテキストの情報を記憶しているコーパスと
    第1の音声データおよび第1の音声データに基づいて、演算処理をする中央演算装置と、
    前記中央演算装置の演算処理を制御する音声再生プログラムと、
    前記音声再生プログラムを記憶するメモリーと
    を備え、
    前記中央演算装置は、
    前記音声再生装置のユーザからの読み上げ要求指示を受け付けて、
    前記第1の辞書情報と、前記第2の辞書情報とよって、前記テキストの情報の内容を解析して、解析の結果から発音が聞き取り困難な箇所の情報が付与された聞き取りしやすい音質の音声よりなる第1の音声情報列と、意味や文法的なまとまりの情報が付与された通常読み上げの音声よりなる第2の音声情報列とを作成し
    前記第1の音声情報列を用いて、再生する音声の音質を切り替える位置を判定して音声切替位置情報を作成し、
    前記第2の音声情報列を用いて、音声を再生して読み上げをする音声の開始位置と音声の停止位置とを判定し、読み上げ位置情報を作成し、
    前記テキストの情報および前記第1の音声情報列ならびに前記第2の音声情報列を用いて、音声を再生するための音声再生情報を作成し、
    前記音声再生情報にしたがって音声を出力し、
    音声再生プログラムは、
    前記中央演算装置に対して読み上げ要求指示が入力された場合に、前記読み上げ位置情報に示される音声の開始位置と音声の停止位置の箇所については前記中央演算装置に前記第1の音声情報列および前記第2の音声情報列により前記音声再生情報を作成させる制御をする
    ことを特徴とする音声再生方法。
  21. 前記記憶装置が、前記読み上げ要求指示が行われて発音が聞き取り困難な箇所の、最近傍の箇所をマークして、マークした箇所を記憶するマーク格納部を備えた請求項17〜20いずれかに記載の音声再生方法。
JP2005100853A 2005-03-31 2005-03-31 音声再生装置およびその再生プログラムならびにその再生方法 Pending JP2006284645A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005100853A JP2006284645A (ja) 2005-03-31 2005-03-31 音声再生装置およびその再生プログラムならびにその再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005100853A JP2006284645A (ja) 2005-03-31 2005-03-31 音声再生装置およびその再生プログラムならびにその再生方法

Publications (1)

Publication Number Publication Date
JP2006284645A true JP2006284645A (ja) 2006-10-19

Family

ID=37406680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005100853A Pending JP2006284645A (ja) 2005-03-31 2005-03-31 音声再生装置およびその再生プログラムならびにその再生方法

Country Status (1)

Country Link
JP (1) JP2006284645A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015079065A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置および音声合成装置
JP2015079064A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置
CN113490025A (zh) * 2021-08-03 2021-10-08 Vidaa美国公司 显示设备及电子节目指南显示方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2581700B2 (ja) * 1986-09-03 1997-02-12 カナース・データー 株式会社 情報記録媒体および情報再生方式
JPH10283358A (ja) * 1997-04-01 1998-10-23 Fuji Xerox Co Ltd 言語情報出力装置
JP2000081897A (ja) * 1998-09-03 2000-03-21 Kanaasu Data Kk 音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2003099080A (ja) * 2001-09-25 2003-04-04 Nissan Motor Co Ltd 音声読み上げ装置、音声読み上げシステム、及び音声読み上げ方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2581700B2 (ja) * 1986-09-03 1997-02-12 カナース・データー 株式会社 情報記録媒体および情報再生方式
JPH10283358A (ja) * 1997-04-01 1998-10-23 Fuji Xerox Co Ltd 言語情報出力装置
JP2000081897A (ja) * 1998-09-03 2000-03-21 Kanaasu Data Kk 音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2003099080A (ja) * 2001-09-25 2003-04-04 Nissan Motor Co Ltd 音声読み上げ装置、音声読み上げシステム、及び音声読み上げ方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015079065A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置および音声合成装置
JP2015079064A (ja) * 2013-10-15 2015-04-23 ヤマハ株式会社 合成情報管理装置
CN113490025A (zh) * 2021-08-03 2021-10-08 Vidaa美国公司 显示设备及电子节目指南显示方法

Similar Documents

Publication Publication Date Title
US20190196666A1 (en) Systems and Methods Document Narration
US5940797A (en) Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
US8793133B2 (en) Systems and methods document narration
US8352269B2 (en) Systems and methods for processing indicia for document narration
CN111739556B (zh) 一种语音分析的系统和方法
US6990451B2 (en) Method and apparatus for recording prosody for fully concatenated speech
JPS6259996A (ja) 辞書操作装置
JP2003186379A (ja) 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP2004138964A (ja) 外国語学習プログラム及び外国語学習装置
JP4744338B2 (ja) 合成音声生成装置
JP2004325905A (ja) 外国語学習装置および外国語学習プログラム
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP2006349787A (ja) 音声合成方法および装置
JP2005181840A (ja) 音声合成装置及び音声合成プログラム
KR102585031B1 (ko) 실시간 외국어 발음 평가시스템 및 방법
Hill et al. Unrestricted text-to-speech revisited: rhythm and intonation.
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
US20230245644A1 (en) End-to-end modular speech synthesis systems and methods
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
JP2010085581A (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
Martin WinPitch Corpus
TWI399710B (zh) 閩南語語音播放之系統及其方法
WO2010083354A1 (en) Systems and methods for multiple voice document narration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110104