JP2004133119A - Portable terminal device - Google Patents
Portable terminal device Download PDFInfo
- Publication number
- JP2004133119A JP2004133119A JP2002296198A JP2002296198A JP2004133119A JP 2004133119 A JP2004133119 A JP 2004133119A JP 2002296198 A JP2002296198 A JP 2002296198A JP 2002296198 A JP2002296198 A JP 2002296198A JP 2004133119 A JP2004133119 A JP 2004133119A
- Authority
- JP
- Japan
- Prior art keywords
- terminal device
- portable terminal
- data
- storage device
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、朗読対象である合成目的データを記憶装置に保存し、その記憶装置から読み出した合成目的データを音声に変換する携帯端末装置に関するものである。
【0002】
【従来の技術】
従来、電子メールやワープロの文章を読み上げる装置としては、記憶容量の豊富さや処理能力の高さ、ネットワーク機能の充実度等からパーソナルコンピュータにて実現していた。加えて、出力される合成音声の声色は男性や女性といった一般的なものであったが、人間の発声に近い合成音声を生成することができる音声合成方法も開示されている。すなわち、辞書の中に読み仮名、アクセント型等の情報をととも、アクセント指令値及び又は音韻継続時間長情報を予め用意しておき、音韻の継続時間長を用いて音素片データのパラメータ列を生成し、それらを基に音声波形を合成することにより、人間の発声に近い合成音声を出力するものである(例えば、特許文献1参照)。
【0003】
しかしながら、パーソナルコンピュータを歩きながら使用することは、大きさ、重量の問題から大変不便であるし、その操作も容易とは言い難い面がある。また、朗読対象の合成目的データを音声変換するのみの機能であれば、コストパフォーマンスに欠けるという問題がある。また、出力される音声も男性や女性といった一般的なものであり、必ずしもユーザが所望する声色での音声出力ではないので、ユーザが聴いていて楽しさを感じにくい面があった。
【0004】
そこで、これらの不具合を是正するための装置として、合成目的データを入力する入力部(メモリカードや光ディスク・磁気ディスク等の記憶装置から入力する入力部、ネットワークから入力する入力部、キーボードから入力する入力部等)と、音声合成された音を出力する出力部(スピーカやヘッドフォン)と、合成目的データから合成音声データを生成する音声合成処理部とを備えた携帯端末装置が提案されており、この携帯端末装置における音声合成処理部は、実際の人物の肉声をサンプリングし、そのサンプリングデータをデータベース化した音素データベースを使用する。また情報処理装置への取り付け取り外しが簡単で、小型の情報処理装置(小型パーソナルコンピユータ等)にも内蔵でき、且つ小型軽量で持ち運びができると共に単体でも文章読み上げ機能を持つICカード形態の文章読み上げシステムが公知である。(例えば、特許文献2参照)
【0005】
【特許文献1】
特開平7−140999号公報
【特許文献2】
特開平6−337774号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上記携帯端末装置では、合成目的データの作成年月日や筆者の経歴等の付帯情報を含む場合があり、これらも朗読されることになるが、ユーザにとっては必ずしも、その情報の朗読は必要なものではないという問題点を有していた。また、携帯端末装置から出力される合成音声は音素データベースの提供者である実際の人物の肉声に近い為、この装置の使用者が音素提供者になりすまし、音声認証等で不正使用を行う恐れがあった。
【0007】
この記憶装置付き携帯端末装置では、不必要な情報の朗読を防止し、また合成音声の不正な使用を防止することが要求されている。
【0008】
本発明は、この要求を満たすため、不必要な情報の朗読を防止することができ、また合成音声の不正な使用を防止することができる記憶装置付き携帯端末装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために本発明の記憶装置付き携帯端末装置は、携帯端末装置と、携帯端末装置に対して着脱可能な記憶装置とを備えた記憶装置付き携帯端末装置であって、記憶装置は、音素データをデータベース化した音素データベースを保存する音素データベース保存部と、朗読対象となる合成目的データを保存する合成目的データ保存部と、携帯端末装置とデータの授受を行う端末装置インタフェース部とを有し、携帯端末装置は、記憶装置とデータの授受を行う記憶装置インタフェース部と、全体を制御するシステム制御部と、合成目的データの範囲を選択する朗読選択処理部と、記憶装置インタフェース部と端末装置インタフェース部を介して音素データベース保存部から読み出した音素データベースおよび選択した範囲に基づいて合成目的データ保存部から読み出した合成目的データから合成音声データを生成する音声合成処理部と、生成した合成音声データを入力して合成音声信号として出力する音声出力処理部とを有する構成を備えている。
【0010】
これにより、不必要な情報の朗読を防止することができる記憶装置付き携帯端末装置が得られる。
【0011】
【発明の実施の形態】
本発明の請求項1に記載の記憶装置付き携帯端末装置は、携帯端末装置と、携帯端末装置に対して着脱可能な記憶装置とを備えた記憶装置付き携帯端末装置であって、記憶装置は、音素データをデータベース化した音素データベースを保存する音素データベース保存部と、朗読対象となる合成目的データを保存する合成目的データ保存部と、携帯端末装置とデータの授受を行う端末装置インタフェース部とを有し、携帯端末装置は、記憶装置とデータの授受を行う記憶装置インタフェース部と、全体を制御するシステム制御部と、合成目的データの範囲を選択する朗読選択処理部と、記憶装置インタフェース部と端末装置インタフェース部を介して音素データベース保存部から読み出した音素データベースおよび選択した範囲に基づいて合成目的データ保存部から読み出した合成目的データから合成音声データを生成する音声合成処理部と、生成した合成音声データを入力して合成音声信号として出力する音声出力処理部とを有することとしたものである。
【0012】
この構成により、ユーザーは朗読対象情報としての合成目的データの範囲を選択して自分に不要な部分の朗読を省く事ができるので、時間の無駄なく効率的に自分が所望する小説等の朗読を聴くことができるという作用を有する。
【0013】
請求項2に記載の記憶装置付き携帯端末装置は、請求項1に記載の記憶装置付き携帯端末装置において、朗読選択処理部に代えて識別音合成処理部を備え、識別音合成処理部は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号に含めることとしたものである。
【0014】
この構成により、携帯端末装置からは音声合成の出力音声であることを示す可聴範囲外の識別音を含んだ合成音声が出力されるので、仮に出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、合成音声の不正な使用を防止することができるという作用を有する。
【0015】
請求項3に記載の記憶装置付き携帯端末装置は、請求項1に記載の記憶装置付き携帯端末装置朗読選択処理部に代えて識別音合成処理部を備え、識別音合成処理部は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号のすべてに渡り出力するのではなく、合成目的データ中にある識別符号をトリガとして合成音声信号に含めることとしたものである。
【0016】
この構成により、仮に携帯端末装置の出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、識別符号のある合成音声信号の周波数解析のみを行うだけで、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、より少ない信号の周波数解析により、合成音声の不正な使用を防止することができるという作用を有する。
【0017】
以下、本発明の実施の形態について、図1〜図6を用いて説明する。
【0018】
(実施の形態1)
図1は、携帯端末装置、サーバ装置、パソコン等を有する通信システムを示す構成図である。
【0019】
図1において、1は表示部や操作部、ヘッドフォン・スピーカ等の音声出力部等を備えた携帯端末装置、2は合成目的データ及び音素データベースを記憶するメモリカード等の記憶装置である。記憶装置2は、携帯端末装置1とは脱着可能である。記憶装置2には、小説等の合成目的データを保存する合成目的データ保存部(後述)と音素データから成る音素データベースを保存する音素データベース保存部がある。音素データベースは、すでに前述しているが、実際の人物の肉声をサンプリングしたもので、音素毎に音の継続時間長や基本周波数、パワー等の音に関する情報や、その音素が属するデータファイル名およびファイル中におけるその音素の開始位置や終了位置の情報等を、ラベル付けして、任意のフォーマットに沿った形でデータベース化されているものである。この音素データベースは、この携帯端末装置1から出力される合成音声の声色や抑揚を決定する重要な要素となる。3は合成目的データaや音素データベースbを提供するインターネット5上のサーバ装置である。ここでは一つのサーバ装置しか記載してないが、複数のサーバ装置で合成目的データと音素データベースを分けて提供する場合もある。4は合成目的データaと音素データベースbをインターネット5上のサーバ装置から公衆回線6を介してダウンロードし、記憶装置2に記憶させる為のパソコンである。
【0020】
図1において、ユーザはまずパソコン4を通じ、自分が所望する小説等の合成目的データや音声キャラクタの音素データベースをインターネット5上のサーバ装置3からダウンロードし、パソコン4を通じてそのデータをメモリカード等の記憶装置2に記録する。次に、記憶装置2を携帯端末装置1に挿入し、携帯端末装置1上で朗読させる合成目的の部分を選択して再生の操作を行うと、携帯端末装置1上からユーザが所望するキャラクタの音声で選択した合成目的範囲のデータの音声合成音が出力される。
【0021】
図2は、本発明の実施の形態1による記憶装置付き携帯端末装置を示すブロック図であり、図1の携帯端末装置1と記憶装置2を詳細に示す。
【0022】
図2において、1は図1と同様の携帯端末装置、2は図1と同様の記憶装置、101は携帯端末装置1内の各処理部とデータのやり取りを行い、装置全体の制御を行うシステム制御部である。102は合成目的データの解析を行って、各文字データに最適な音素データを抽出および連結して合成音声データを生成し、そのデータを後述の音声出力処理部103に渡せるようにデータ変換する音声合成処理部、103はシステム制御部101から指示を受け、記憶装置2へのデータを読み書きする記憶装置インタフェース部(記憶装置I/F部)である。104は音声合成処理部102からデータを受け、データのフォーマット変換を行い、スピーカ108またはヘッドフォン(図示せず)に出力する音声出力処理部である。105は携帯端末装置1を制御するプログラムの保存領域やデータ処理の際の作業領域として用いられる記憶部、106はユーザが携帯端末装置1に自分の指示を与える操作部、107は携帯端末装置1の動作状態等をユーザに表示する表示部、109は携帯端末装置1に電源を供給する為の電源部、110はユーザが操作部106から選択した合成目的データの範囲選択情報に基づき、合成目的データの構成分析を行い、選択範囲の合成目的データの抽出を行う朗読選択処理部、120は記憶装置インタフェース部103と共に携帯端末装置1とデータのやり取りを行う端末装置インタフェース部(端末装置I/F部)、121は音素データベースを保存する音素データベース保存部、122は合成目的データを保存する合成目的データ保存部である。
【0023】
このように構成された記憶装置付き携帯端末装置について、その動作を図3を用いて行う。図3は、図2の記憶装置付き携帯端末装置の動作(システム制御部101の動作)を示すフローチャートである。
【0024】
ユーザが操作部106にて装置1の電源をオンすると、システム制御部101は、記憶装置インタフェース部103に指令を出し、記憶装置2が携帯端末装置1に接続しているか否かを調べさせる(S1)。接続していないと判定した場合は記憶部105からフォントデータを取り出し、表示部107に「メモリカードを挿入してください。」等のようなメッセージを表示し(S2)、ユーザに対して携帯端末装置1に記憶装置2の接続を行うように促す。接続していると判定した場合、システム制御部101は、操作部106から再生の操作が行われるのを待つ(S3)。再生の操作が行われると、「朗読する対象データを選択してください。1.全文(付帯情報付き) 2.本文のみ(付帯情報を除く)..」等のメッセージを表示部に表示し(S4)、ユーザに合成目的データの朗読対象部分を選択させる(S5)。選択されたら、合成目的データの範囲選択情報を記憶部105に記憶する。次に、システム制御部101は、記憶装置インタフェース部103に対して、記憶装置2内にある合成目的データを読み出すように指令を出す。記憶装置インタフェース部103は、記憶装置2内にある端末装置インタフェース部120とやり取りをしながら合成目的データを読み出し、携帯端末装置1内の記憶部105に記録する(S6)。
【0025】
次に、システム制御部101は、朗読選択処理部110に処理を開始させる。朗読選択処理部110は、記憶部105から合成目的データを読み出してデータの構成解析を行い、データをユーザの選択部分のみに最適化して記憶部105に記録する(S7)。例えば、ユーザからの選択情報が本文のみの場合であった場合は、その合成目的データの作者や作成年月日等の付帯情報等を省き、処理した合成目的データを改めて記憶部105に記憶する。次に、システム制御部101は、音声合成処理部102に指令を出し、処理を開始させる。音声合成処理部102は、記憶部105から朗読選択処理部110が処理した合成目的データを順次読み出しながら解析を行い、各文字データに最も適する音素データを記憶部105または記憶装置2から読み出して、繋ぎ合わせ、そのデータを音声出力処理部104が処理できるデータに変換して合成音声データを作成する(S8)。音声出力処理部104は、音声合成処理部102から合成音声データを受け取り、データをフォーマット変換し、スピーカ108またはヘッドフォンに出力する(S9)。
【0026】
このようにしてユーザは所望するキャラクタ音声にて選択した範囲の合成目的データの朗読を聴くことができる。
【0027】
以上のように本実施の形態によれば、記憶装置2は、音素データをデータベース化した音素データベースを保存する音素データベース保存部121と、朗読対象となる合成目的データを保存する合成目的データ保存部122と、携帯端末装置1とデータの授受を行う端末装置インタフェース部120とを有し、携帯端末装置1は、記憶装置2とデータの授受を行う記憶装置インタフェース部103と、全体を制御するシステム制御部101と、合成目的データの範囲を選択する朗読選択処理部110と、記憶装置インタフェース部103と端末装置インタフェース部120を介して音素データベース保存部121から読み出した音素データベースおよび選択した範囲に基づいて合成目的データ保存部122から読み出した合成目的データから合成音声データを生成する音声合成処理部102と、生成した合成音声データを入力して合成音声信号として出力する音声出力処理部104とを有することにより、ユーザーは朗読対象情報としての合成目的データの範囲を選択して自分に不要な部分の朗読を省く事ができるので、時間の無駄なく効率的に自分が所望する小説等の朗読を聴くことができる。
【0028】
(実施の形態2)
本発明の実施の形態2による記憶装置付き携帯端末装置を有する通信システムの構成は実施の形態1と同様、図1の構成である。
【0029】
図4は、本発明の実施の形態2による記憶装置付き携帯端末装置を示すブロック図であり、図1の携帯端末装置1と記憶装置2を詳細に示す。
【0030】
図4において、システム制御部101、音声合成処理部102、記憶装置インタフェース部103、音声出力処理部104、記憶部105、操作部106、表示部107、スピーカ108、電源部109、端末装置インタフェース部120、音素データベース保存部121、合成目的データ保存部122は、図2と同様のものなので、同一符号を付し、説明は省略する。111は音声出力処理部104から出力される合成音声信号に識別音信号を合成する識別音合成処理部である。
【0031】
このように構成された記憶装置付き携帯端末装置について、その動作を図5を用いて説明する。図5は、図4の記憶装置付き携帯端末装置の動作(システム制御部101の動作)を示すフローチャートである。
【0032】
ユーザが操作部106にて装置1の電源をオンすると、システム制御部101は、記憶装置インタフェース部103に指令を出し、記憶装置2が携帯端末装置1に接続しているか否かを調べる(S11)。接続していないと判定した場合は記憶部105からフォントデータを取り出し、表示部107に「メモリカードを挿入してください。」等のようなメッセージを表示し(S12)、ユーザに対して携帯端末装置1に記憶装置2の接続を行うように促す。接続していると判定した場合、システム制御部101は操作部106から再生の操作が行われるのを待つ(S13)。再生の操作が行われると、システム制御部101は、記憶装置インタフェース部103に対して、記憶装置2内にある合成目的データを読み出すように指令を出す。記憶装置インタフェース部103は、記憶装置2内にある端末装置インタフェース部120とやり取りをしながら合成目的データを読み出し、携帯端末装置1内の記憶部105に記録する(S14)。
【0033】
次に、システム制御部101は、音声合成処理部102に指令を出し、処理を開始させる。音声合成処理部102は、記憶部105から合成目的データを順次読み出しながら解析を行い、各文字データに最も適する音素データを記憶部105または記憶装置2から読み出して、繋ぎ合わせ、音声出力処理部104が処理できるデータに変換を行って、そのデータを記憶部105に記憶する(S15)。続いて、システム制御部101は、ステップS15で処理したデータを記憶部105から読み出し、データを音声出力処理部104に渡す。そして、識別音合成処理部111に指令を出し、処理を開始させる。識別音合成処理部111は、音声出力処理部104より出力される信号(合成音声信号)に可聴範囲外の識別音信号を合成し(S16)、スピーカ108またはヘッドフォンに出力する(S17)。
【0034】
このようにして合成音声信号に可聴範囲外の識別音信号を合成させることにより、実際の人物の肉声には無い周波数成分を含めることができるので、音声認証装置において、この装置1の出力音声を使用不可能とすることができ、不正な使用を防ぐことができる。
【0035】
以上のように本実施の形態によれば、識別音合成処理部111は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号に含めることにより、携帯端末装置1からは音声合成の出力音声であることを示す可聴範囲外の識別音を含んだ合成音声が出力されるので、仮に出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、合成音声の不正な使用を防止することができる。
【0036】
(実施の形態3)
本発明の実施の形態3による記憶装置付き携帯端末装置を有する通信システムの構成は実施の形態1と同様、図1の構成である。また、本発明の実施の形態3による記憶装置付き携帯端末装置の構成は実施の形態2と同様、図4の構成である。
【0037】
このように構成された記憶装置付き携帯端末装置について、その動作を図6を用いて説明する。図6は、図4の記憶装置付き携帯端末装置の動作(システム制御部101の動作)を示すフローチャートである。なお、図6のステップS21〜S24は図5のステップS11〜S14と同様であるので、その説明は省略する。
【0038】
図6において、システム制御部101は、音声合成処理部102に指令を出し、処理を開始させる。音声合成処理部102は、記憶部105から合成目的データを順次読み出しながら解析を行う(S25)。そして、読み出した合成目的データの内容が識別符号(識別符号は、ここではテキストデータを意味する合成目的データの任意の場所に手作業により入力される)か否かを判定する(S26)。合成目的データの内容が識別符号でないと判定した場合、各文字データに最も適する音素データを記憶部105または記憶装置2から読み出し抽出する(S27)。識別符号と判定した場合、この処理はない。抽出されたデータ及び識別符号は次々に繋ぎ合わせられ、記憶部105に保存される(S28)。
【0039】
次に、システム制御部101は、記憶部105からステップS28で処理したデータ(合成音声データ)を読み出す。そして、読み出したデータの内容が識別符号か否かをを判定する(S29)。識別符号でないと判定した場合、データを音声出力処理部104に渡す(S30)。音声出力処理部104は、受け取ったデータをフォーマット変換し、スピーカ108またはヘッドフォンに出力する(S33)。識別符号であると判定した場合、システム制御部101は、識別音合成処理部111をアクティブにする(S31)。識別音合成処理部111は、音声出力処理部104より出力される合成音声信号に可聴範囲外の識別音信号を合成し(S32)、スピーカ108またはヘッドフォンに出力させる(S33)。
【0040】
このようにして合成音声信号に可聴範囲外の識別音信号を合成させることにより、実際の人物の肉声には無い周波数成分を含めることができるので、音声認証装置において、この装置1の出力音声を使用不可能とすることができ、不正な使用を防ぐことができる。
【0041】
以上のように本実施の形態によれば、識別音合成処理部111は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号のすべてに渡り出力するのではなく、合成目的データ中にある識別符号をトリガとして合成音声信号に含めることにより、仮に携帯端末装置1の出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、識別符号のある合成音声信号の周波数解析のみを行うだけで、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、より少ない信号の周波数解析により、合成音声の不正な使用を防止することができる。
【0042】
【発明の効果】
以上説明したように本発明の請求項1に記載の記憶装置付き携帯携帯端末装置によれば、携帯端末装置と、携帯端末装置に対して着脱可能な記憶装置とを備えた記憶装置付き携帯端末装置であって、記憶装置は、音素データをデータベース化した音素データベースを保存する音素データベース保存部と、朗読対象となる合成目的データを保存する合成目的データ保存部と、携帯端末装置とデータの授受を行う端末装置インタフェース部とを有し、携帯端末装置は、記憶装置とデータの授受を行う記憶装置インタフェース部と、全体を制御するシステム制御部と、合成目的データの範囲を選択する朗読選択処理部と、記憶装置インタフェース部と端末装置インタフェース部を介して音素データベース保存部から読み出した音素データベースおよび選択した範囲に基づいて合成目的データ保存部から読み出した合成目的データから合成音声データを生成する音声合成処理部と、生成した合成音声データを入力して合成音声信号として出力する音声出力処理部とを有することにより、ユーザーは朗読対象情報としての合成目的データの範囲を選択して自分に不要な部分の朗読を省く事ができるので、時間の無駄なく効率的に自分が所望する小説等の朗読を聴くことができるという有利な効果が得られる。
【0043】
請求項2に記載の記憶装置付き携帯端末装置によれば、請求項1に記載の記憶装置付き携帯端末装置において、朗読選択処理部に代えて識別音合成処理部を備え、識別音合成処理部は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号に含めることにより、携帯端末装置からは音声合成の出力音声であることを示す可聴範囲外の識別音を含んだ合成音声が出力されるので、仮に出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、合成音声の不正な使用を防止することができるという有利な効果が得られる。
【0044】
請求項3に記載の記憶装置付き携帯端末装置によれば、請求項1に記載の記憶装置付き携帯端末装置朗読選択処理部に代えて識別音合成処理部を備え、識別音合成処理部は、合成音声信号であること示す可聴範囲外の識別音信号を合成音声信号のすべてに渡り出力するのではなく、合成目的データ中にある識別符号をトリガとして合成音声信号に含めることにより、仮に携帯端末装置の出力音声が不正な目的で使用されても、音声認証装置に音声の周波数解析機能を備えることにより、識別符号のある合成音声信号の周波数解析のみを行うだけで、実際の人物の肉声には無い識別音の周波数成分が含まれていることを検知することができるので、より少ない信号の周波数解析により、合成音声の不正な使用を防止することができるという有利な効果が得られる。
【図面の簡単な説明】
【図1】携帯端末装置、サーバ装置、パソコン等を有する通信システムを示す構成図
【図2】本発明の実施の形態1による記憶装置付き携帯端末装置を示すブロック図
【図3】図2の記憶装置付き携帯端末装置の動作を示すフローチャート
【図4】本発明の実施の形態2、3による記憶装置付き携帯端末装置を示すブロック図
【図5】図4の記憶装置付き携帯端末装置の動作を示すフローチャート
【図6】図4の記憶装置付き携帯端末装置の動作を示すフローチャート
【符号の説明】
1 携帯端末装置
2 記録装置
3 サーバ装置
4 パソコン
5 インターネット
6 公衆回線
101 システム制御部
102 音声合成処理部
103 記憶装置インタフェース部
104 音声出力処理部
105 記憶部
106 操作部
107 表示部
108 スピーカ
109 電源部
110 朗読選択処理部
111 識別音合成処理部
120 端末装置インタフェース部
121 音素データベース保存部
122 合成目的データ保存部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a portable terminal device that stores synthesis target data to be read in a storage device and converts the synthesis target data read from the storage device into voice.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, an apparatus for reading out e-mails and texts of a word processor has been realized by a personal computer because of its abundant storage capacity, high processing capability, and ample network functions. In addition, although the voice color of the output synthesized voice is a general voice such as a man or a woman, a voice synthesis method capable of generating a synthesized voice similar to human utterance has also been disclosed. That is, information on the reading kana, accent type, etc. is prepared in the dictionary, and an accent command value and / or phoneme duration time information are prepared in advance, and the parameter sequence of the phoneme segment data is determined using the phoneme duration time. By generating and synthesizing a speech waveform based on the generated speech, a synthesized speech similar to a human utterance is output (for example, see Patent Document 1).
[0003]
However, using a personal computer while walking is very inconvenient due to size and weight problems, and its operation is not easy. In addition, if the function only converts the speech data of the synthesis target data to be read, there is a problem that the cost performance is lacking. Also, the output voice is a general voice such as a male or female voice, and is not necessarily a voice output in a voice tone desired by the user.
[0004]
Therefore, as an apparatus for correcting these inconveniences, an input unit for inputting synthesis target data (an input unit for inputting from a storage device such as a memory card or an optical disk or a magnetic disk, an input unit for inputting from a network, and an input unit for inputting from a keyboard). A mobile terminal device that includes an input unit and the like, an output unit (speaker and headphones) that outputs a synthesized voice, and a voice synthesis processing unit that generates synthesized voice data from synthesis target data. The voice synthesis processing unit in the portable terminal device samples a real voice of an actual person and uses a phoneme database in which the sampled data is converted into a database. In addition, it is easy to attach to and detach from an information processing device, can be built into a small information processing device (small personal computer, etc.), and is a small, lightweight and portable IC card type text-to-speech system with a text-to-speech function. Is known. (For example, see Patent Document 2)
[0005]
[Patent Document 1]
JP-A-7-140999
[Patent Document 2]
JP-A-6-337774
[0006]
[Problems to be solved by the invention]
However, in the above-mentioned portable terminal device, supplementary information such as the creation date of the synthesis purpose data and the writer's career may be included, and these are also read aloud, but for the user, the reading of the information is not necessarily required. There was a problem that it was not necessary. Also, since the synthesized speech output from the mobile terminal device is close to the real voice of the actual person who is the provider of the phoneme database, there is a risk that the user of this device will impersonate the phoneme provider and perform unauthorized use in voice authentication and the like. there were.
[0007]
In the portable terminal device with a storage device, it is required to prevent reading of unnecessary information and prevent unauthorized use of synthesized speech.
[0008]
An object of the present invention is to provide a portable terminal device with a storage device capable of preventing unnecessary reading of information and preventing unauthorized use of synthesized speech in order to satisfy this demand. .
[0009]
[Means for Solving the Problems]
In order to solve the above problem, a portable terminal device with a storage device according to the present invention is a portable terminal device with a storage device, comprising a portable terminal device and a storage device that is detachable from the portable terminal device. A phoneme database storage unit that stores a phoneme database that is a database of phoneme data, a synthesis target data storage unit that stores synthesis target data to be read, and a terminal device interface unit that exchanges data with the portable terminal device. A portable terminal device, a storage device interface unit that exchanges data with the storage device, a system control unit that controls the whole, a reading selection processing unit that selects a range of synthesis target data, and a storage device interface unit And the phoneme database read from the phoneme database storage unit via the terminal device interface unit and the selected range And a speech output processing unit that inputs the generated synthesized speech data and outputs the synthesized speech data as a synthesized speech signal. ing.
[0010]
As a result, a portable terminal device with a storage device that can prevent unnecessary reading of information can be obtained.
[0011]
BEST MODE FOR CARRYING OUT THE INVENTION
A portable terminal device with a storage device according to
[0012]
With this configuration, the user can select the range of the synthesis target data as the reading target information and omit the reading of the unnecessary part, thereby efficiently reading the novel or the like desired without wasting time. It has the effect of being able to listen.
[0013]
The portable terminal device with a storage device according to
[0014]
With this configuration, a synthesized speech including an identification sound outside the audible range indicating that the speech is an output speech of the speech synthesis is output from the portable terminal device. By providing the authentication device with a voice frequency analysis function, it is possible to detect that a frequency component of an identification sound that is not included in the actual voice of a real person is included, thereby preventing unauthorized use of synthesized voice. It has the effect of being able to.
[0015]
According to a third aspect of the present invention, a portable terminal device with a storage device includes an identification sound synthesis processing unit in place of the reading / selection processing unit of the portable terminal device with a storage device according to the first aspect, and the identification sound synthesis processing unit includes a synthetic voice. Instead of outputting an identification sound signal outside the audible range, which indicates that the signal is a signal, over all of the synthesized speech signals, an identification code in the synthesis target data is included as a trigger in the synthesized speech signal.
[0016]
With this configuration, even if the output voice of the portable terminal device is used for an unauthorized purpose, the voice authentication device is provided with a voice frequency analysis function, so that only the frequency analysis of the synthesized voice signal having the identification code is performed. Since it is possible to detect that the frequency component of the discriminating sound that is not included in the actual human voice is included, it is possible to prevent the illegal use of the synthesized voice by analyzing the frequency of a smaller number of signals. Having.
[0017]
Hereinafter, embodiments of the present invention will be described with reference to FIGS. 1 to 6.
[0018]
(Embodiment 1)
FIG. 1 is a configuration diagram illustrating a communication system including a mobile terminal device, a server device, a personal computer, and the like.
[0019]
In FIG. 1,
[0020]
In FIG. 1, a user first downloads a synthesis target data such as a novel or a phoneme database of voice characters from a
[0021]
FIG. 2 is a block diagram showing a portable terminal device with a storage device according to the first embodiment of the present invention, and shows the portable
[0022]
2, 1 is a portable terminal device similar to that of FIG. 1, 2 is a storage device similar to that of FIG. 1, 101 is a system that exchanges data with each processing unit in the portable
[0023]
The operation of the portable terminal device with a storage device configured as described above is performed using FIG. FIG. 3 is a flowchart showing the operation of the portable terminal device with a storage device of FIG. 2 (the operation of the system control unit 101).
[0024]
When the user turns on the power of the
[0025]
Next, the
[0026]
In this way, the user can listen to the reading of the synthesis target data in the selected range with the desired character voice.
[0027]
As described above, according to the present embodiment, the
[0028]
(Embodiment 2)
The configuration of the communication system having the portable terminal device with a storage device according to the second embodiment of the present invention is the configuration of FIG. 1 as in the first embodiment.
[0029]
FIG. 4 is a block diagram showing a portable terminal device with a storage device according to the second embodiment of the present invention, and shows the portable
[0030]
4, a
[0031]
The operation of the portable terminal device with a storage device thus configured will be described with reference to FIG. FIG. 5 is a flowchart illustrating the operation of the portable terminal device with a storage device in FIG. 4 (the operation of the system control unit 101).
[0032]
When the user turns on the power of the
[0033]
Next, the
[0034]
By combining the synthesized voice signal with the discrimination sound signal outside the audible range in this way, it is possible to include a frequency component that is not present in the actual voice of a real person. It can be disabled and unauthorized use can be prevented.
[0035]
As described above, according to the present embodiment, identification sound
[0036]
(Embodiment 3)
The configuration of the communication system having the portable terminal device with a storage device according to the third embodiment of the present invention is the configuration of FIG. 1 as in the first embodiment. The configuration of the portable terminal device with a storage device according to the third embodiment of the present invention is the same as that of the second embodiment shown in FIG.
[0037]
The operation of the portable terminal device with a storage device thus configured will be described with reference to FIG. FIG. 6 is a flowchart illustrating the operation of the portable terminal device with a storage device in FIG. 4 (the operation of the system control unit 101). Steps S21 to S24 in FIG. 6 are the same as steps S11 to S14 in FIG. 5, and a description thereof will be omitted.
[0038]
6, the
[0039]
Next, the
[0040]
By combining the synthesized voice signal with the discrimination sound signal outside the audible range in this way, it is possible to include a frequency component that is not present in the actual voice of a real person. It can be disabled and unauthorized use can be prevented.
[0041]
As described above, according to the present embodiment, the identification sound
[0042]
【The invention's effect】
As described above, according to the portable terminal device with a storage device according to
[0043]
According to the portable terminal device with a storage device according to
[0044]
According to the portable terminal device with a storage device according to
[Brief description of the drawings]
FIG. 1 is a configuration diagram illustrating a communication system including a mobile terminal device, a server device, a personal computer, and the like.
FIG. 2 is a block diagram showing a portable terminal device with a storage device according to the first embodiment of the present invention;
FIG. 3 is a flowchart showing the operation of the portable terminal device with a storage device of FIG. 2;
FIG. 4 is a block diagram showing a portable terminal device with a storage device according to the second and third embodiments of the present invention;
FIG. 5 is a flowchart showing the operation of the portable terminal device with a storage device of FIG. 4;
6 is a flowchart showing the operation of the portable terminal device with a storage device of FIG. 4;
[Explanation of symbols]
1 Mobile terminal device
2 Recording device
3 server device
4 PC
5 Internet
6 Public line
101 System control unit
102 Voice synthesis processing unit
103 Storage device interface unit
104 audio output processing unit
105 storage unit
106 Operation unit
107 Display
108 speaker
109 power supply
110 Reading selection unit
111 identification sound synthesis processing unit
120 Terminal device interface
121 Phoneme Database Storage
122 Synthetic Object Data Storage Unit
Claims (3)
前記記憶装置は、音素データをデータベース化した音素データベースを保存する音素データベース保存部と、朗読対象となる合成目的データを保存する合成目的データ保存部と、前記携帯端末装置とデータの授受を行う端末装置インタフェース部とを有し、
前記携帯端末装置は、前記記憶装置とデータの授受を行う記憶装置インタフェース部と、全体を制御するシステム制御部と、前記合成目的データの範囲を選択する朗読選択処理部と、前記記憶装置インタフェース部と前記端末装置インタフェース部を介して前記音素データベース保存部から読み出した音素データベースおよび前記選択した範囲に基づいて前記合成目的データ保存部から読み出した合成目的データから合成音声データを生成する音声合成処理部と、前記生成した合成音声データを入力して合成音声信号として出力する音声出力処理部とを有することを特徴とする携帯端末装置。A portable terminal device with a storage device including a portable terminal device and a storage device that is detachable from the portable terminal device,
The storage device is a phoneme database storage unit that stores a phoneme database that is a database of phoneme data, a synthesis target data storage unit that stores synthesis target data to be read, and a terminal that exchanges data with the portable terminal device. Device interface unit,
The portable terminal device includes a storage device interface unit that exchanges data with the storage device, a system control unit that controls the whole, a reading selection processing unit that selects a range of the synthesis target data, and the storage device interface unit. And a speech synthesis processing unit that generates synthesized speech data from the synthesis target data read from the synthesis target data storage unit based on the phoneme database read from the phoneme database storage unit and the selected range via the terminal device interface unit. And a voice output processing unit for inputting the generated synthesized voice data and outputting it as a synthesized voice signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002296198A JP2004133119A (en) | 2002-10-09 | 2002-10-09 | Portable terminal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002296198A JP2004133119A (en) | 2002-10-09 | 2002-10-09 | Portable terminal device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004133119A true JP2004133119A (en) | 2004-04-30 |
Family
ID=32286238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002296198A Withdrawn JP2004133119A (en) | 2002-10-09 | 2002-10-09 | Portable terminal device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004133119A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015528969A (en) * | 2012-08-02 | 2015-10-01 | マイクロソフト コーポレーション | Using the ability to read out as human dialogue proof |
-
2002
- 2002-10-09 JP JP2002296198A patent/JP2004133119A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015528969A (en) * | 2012-08-02 | 2015-10-01 | マイクロソフト コーポレーション | Using the ability to read out as human dialogue proof |
US10158633B2 (en) | 2012-08-02 | 2018-12-18 | Microsoft Technology Licensing, Llc | Using the ability to speak as a human interactive proof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100591655B1 (en) | Voice synthesis method, voice synthesis apparatus, and computer readable medium | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US20100082346A1 (en) | Systems and methods for text to speech synthesis | |
US20090012793A1 (en) | Text-to-speech assist for portable communication devices | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
JP2010160316A (en) | Information processor and text read out method | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2004279860A (en) | Minutes retrieval assisting device | |
US20020156630A1 (en) | Reading system and information terminal | |
WO2001073752A1 (en) | Storage medium, distributing method, and speech output device | |
JP2004133119A (en) | Portable terminal device | |
JP2020204683A (en) | Electronic publication audio-visual system, audio-visual electronic publication creation program, and program for user terminal | |
JP4244661B2 (en) | Audio data providing system, audio data generating apparatus, and audio data generating program | |
JP2010048959A (en) | Speech output system and onboard device | |
JP4407119B2 (en) | Instruction code creation device | |
JP2002268664A (en) | Voice converter and program | |
JP2004294577A (en) | Method of converting character information into speech | |
KR20180103273A (en) | Voice synthetic apparatus and voice synthetic method | |
JP2003122384A (en) | Portable terminal device | |
KR20100003574A (en) | Appratus, system and method for generating phonetic sound-source information | |
JP2007127994A (en) | Voice synthesizing method, voice synthesizer, and program | |
JP2003140677A (en) | Read-aloud system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050926 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051013 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070730 |