JP5408133B2 - 音声合成システム - Google Patents

音声合成システム Download PDF

Info

Publication number
JP5408133B2
JP5408133B2 JP2010524655A JP2010524655A JP5408133B2 JP 5408133 B2 JP5408133 B2 JP 5408133B2 JP 2010524655 A JP2010524655 A JP 2010524655A JP 2010524655 A JP2010524655 A JP 2010524655A JP 5408133 B2 JP5408133 B2 JP 5408133B2
Authority
JP
Japan
Prior art keywords
speech
information
speech unit
identification information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010524655A
Other languages
English (en)
Other versions
JPWO2010018648A1 (ja
Inventor
玲史 近藤
正徳 加藤
康行 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010524655A priority Critical patent/JP5408133B2/ja
Publication of JPWO2010018648A1 publication Critical patent/JPWO2010018648A1/ja
Application granted granted Critical
Publication of JP5408133B2 publication Critical patent/JP5408133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システムに関する。
ユーザ(音声登録ユーザ)が発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を記憶するサーバ装置と、文字列を表す文字列情報に基づいてその文字列を音声に変換した音声情報を生成する(即ち、音声合成処理を行う)クライアント装置と、を含む音声合成システムが知られている(特許文献1を参照)。
このクライアント装置は、入力された文字列情報に基づいて音声素片を特定する音声素片特定情報(例えば、音韻及び韻律を表す情報)を生成する。そして、クライアント装置は、生成した音声素片特定情報をサーバ装置へ送信する。
サーバ装置は、音声素片情報と音声素片特定情報とを対応付けて予め記憶している。サーバ装置は、クライアント装置から受信した音声素片特定情報と対応付けて記憶されている音声素片情報を、そのクライアント装置へ送信する。そして、クライアント装置は、サーバ装置から受信した音声素片情報に基づいて音声合成処理を行う。
この音声合成システムによれば、クライアント装置が音声素片情報を記憶しておく必要がないので、クライアント装置において使用可能な記憶領域を増加させることができる。
特開2003−233386号公報
ところで、クライアント装置からサーバ装置へ送信される情報量を減少させるためには、クライアント装置が、音声素片特定情報に代えて、音声素片を識別するための整数を表す音声素片識別情報を送信することが好適であると考えられる。
この場合、例えば、音声合成システムは、クライアント装置が音声素片特定情報と音声素片識別情報とを対応付けて予め記憶するとともに、サーバ装置が音声素片識別情報と音声素片情報とを対応付けて予め記憶するように構成される。
この場合において、サーバ装置が、音声にて各音声素片が並ぶ順に従って1ずつ増加させた整数を、音声素片識別情報が表す整数が有するように、音声素片識別情報と音声素片情報とを対応付けて記憶している場合を想定する。この場合、不正なユーザが使用するクライアント装置が、1ずつ増加させた複数の整数(即ち、連続する整数)を送信すると、サーバ装置は、上記音声のうちの連続する複数の音声素片を含む部分を、その音声にて音声素片が並ぶ順序を維持したまま、クライアント装置へ送信してしまう。
従って、このような場合、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いという問題があった。不正なユーザにより上記音声が取得された場合には、例えば、音声による認証処理(音声認証処理)において、取得された音声が使用されることにより、不正なユーザが音声登録ユーザとして認証されてしまう虞がある。
このため、本発明の目的は、上述した課題である「音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いこと」を解決することが可能な音声合成システムを提供することにある。
かかる目的を達成するため本発明の一形態である音声合成システムは、
互いに通信可能に接続されたサーバ装置及びクライアント装置を含むシステムである。
更に、上記サーバ装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
上記クライアント装置から上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を上記クライアント装置へ送信する音声素片情報送信手段と、
を備える。
加えて、上記クライアント装置は、
音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える。
また、本発明の他の形態である音声素片提供装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を備える。
また、本発明の他の形態である音声素片提供方法は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
上記音声素片識別情報を受信し、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する方法である。
また、本発明の他の形態である音声素片提供プログラムは、
記憶装置を備える音声素片提供装置に、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて上記記憶装置に記憶させる音声素片情報記憶処理手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である音声合成方法は、
互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
上記クライアント装置が、文字列を表す文字列情報を受け付け、
上記クライアント装置が、音声素片を特定する音声素片特定情報を、上記受け付けられた文字列情報に基づいて生成し、
音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって上記クライアント装置が備える記憶装置に、上記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が上記サーバ装置へ送信し、
上記サーバ装置が上記クライアント装置から上記音声素片識別情報を受信し、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって上記サーバ装置が備える記憶装置に、上記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が上記クライアント装置へ送信し、
上記クライアント装置が上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する方法である。
また、本発明の他の形態であるクライアント装置は、サーバ装置と通信可能に接続された装置である。
更に、このクライアント装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える。
また、本発明の他の形態である音声合成プログラムは、
サーバ装置と通信可能に接続されたクライアント装置に、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を実現させるための音声合成プログラムである。
本発明は、以上のように構成されることにより、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
本発明の第1実施形態に係る音声合成システムの機能の概略を表すブロック図である。 図1に示したクライアント装置の記憶装置に記憶されたテーブルであって、音声素片特定情報と音声素片識別情報とが対応付けられたテーブルを示した図である。 図1に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と音声素片情報とが対応付けられたテーブルを示した図である。 音声登録ユーザが発した音声の波形を概念的に示した説明図である。 図1に示したサーバ装置のCPUが実行する音声素片情報記憶処理プログラムを示したフローチャートである。 クライアント装置がサーバ装置から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。 第1実施形態の第1の変形例に係るサーバ装置のCPUが実行する処理であって、図5に示した音声素片情報記憶処理プログラムに追加して実行する処理を示したフローチャートである。 第1実施形態の第2の変形例に係る音声合成システムの機能の概略を表すブロック図である。 第2実施形態に係る音声合成システムの機能の概略を表すブロック図である。 図9に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と低音質音声素片情報と高音質音声素片情報とが対応付けられたテーブルを示した図である。 第2実施形態に係るサーバ装置が音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。 本発明の第3実施形態に係る音声合成システムの機能の概略を表すブロック図である。
以下、本発明に係る、音声合成システム、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、及び、音声合成プログラム、の各実施形態について図1〜図12を参照しながら説明する。
<第1実施形態>
図1に示したように、第1実施形態に係る音声合成システム1は、クライアント装置10と、サーバ装置20と、を含む。クライアント装置10及びサーバ装置(音声素片提供装置)20は、図示しない通信回線(本例では、インターネット)を介して、互いに通信可能に接続されている。
クライアント装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク装置(HDD;Hard Disk Drive))、入力装置(マウス及びキーボード)及び出力装置(ディスプレイ及びスピーカ)を備える。
クライアント装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。また、クライアント装置10は、キーボードを介してユーザによって入力された文字列情報を受け付ける。文字列情報は、文字列を表す情報である。更に、クライアント装置10は、ディスプレイに文字列を含む画像を表示させる。また、クライアント装置10は、スピーカから音声を出力させる。
サーバ装置20は、クライアント装置10と同様に、図示しない中央処理装置、記憶装置、入力装置及び出力装置を備える。サーバ装置20も、クライアント装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
更に、図1に示したように、クライアント装置10の機能は、文字列情報受付部(文字列情報受付手段)11と、音声素片識別情報記憶部(音声素片識別情報記憶手段、音声素片識別情報記憶処理手段)12と、音声素片識別情報送信部(音声素片識別情報送信手段)13と、音声合成部(音声合成手段)14と、を含む。
文字列情報受付部11は、ユーザにより入力された文字列情報を受け付ける。
音声素片識別情報記憶部12は、図2に示したように、音声素片を特定する音声素片特定情報と、音声素片情報を識別する音声素片識別情報と、を対応付けてクライアント装置10の記憶装置に記憶させている。
本例では、音声素片は音節である。なお、音声素片は、ダイフォン(二単音)であってもよい。二単音は、例えば、子音及び母音からなる音(例えば、/ka/(カ))、及び、母音及び母音からなる音(例えば、/ai/(アイ))である。
音声素片特定情報は、音韻(発音記号)を表す音韻情報と、韻律(ピッチパタン(中心ピッチ等)、時間長)を表す韻律情報と、を含む。音声素片識別情報は、後述するように、音声素片情報毎に異なる整数を表す情報である。
音声素片識別情報送信部13は、言語解析部13aと、韻律生成部13bと、音声素片選択部13cと、を含む。
言語解析部13aは、文字列情報受付部11により受け付けられた文字列情報が表す文字列に対して言語解析処理を行うことにより、音韻列及びアクセントを生成する。言語解析処理は、単語間の関係(係り受け)及び品詞等を解析する処理と、文字列におけるアクセントの位置を特定する処理と、を含む。なお、言語解析処理の例は、特許第3379643号公報及び特許第3518340号公報等に開示されている。
韻律生成部13bは、言語解析部13aにより生成された音韻列及びアクセントに基づいて、韻律情報を生成する。韻律情報は、音韻列に含まれる各音韻と対応付けられた情報であって、韻律を表す情報である。韻律は、音の高さ及び長さ(即ち、ピッチパタン(中心ピッチ(平均F0)、F0の傾斜等)及び時間長)等を表す。なお、韻律情報を生成する処理の例は、特許第3240691号公報及び特許第3344487号公報等に開示されている。
音声素片選択部13cは、言語解析部13aにより生成された音韻列に含まれる音韻を音韻列における先頭側から順に音声素片毎に選択する。音声素片選択部13cは、音声素片識別情報記憶部12により記憶装置に記憶させられている音声素片特定情報の中から、選択した音韻を表す音韻情報を含む音声素片特定情報を抽出する。
音声素片選択部13cは、抽出した音声素片特定情報の中から、韻律生成部13bにより生成された韻律情報と最も近い韻律情報を含む音声素片特定情報を決定する。そして、音声素片選択部13cは、決定した音声素片特定情報と対応付けて記憶されている音声素片識別情報を取得する。
音声素片識別情報送信部13は、音声素片選択部13cにより取得された音声素片識別情報をサーバ装置20へ送信する。
音声合成部14は、サーバ装置20から音声素片情報を受信する。音声合成部14は、受信した音声素片情報と、音声素片識別情報送信部13により生成された音韻列及び韻律情報と、に基づいて音声素片情報が表す音声素片の韻律を変換する。
そして、音声合成部14は、変換した音声素片を接続することにより、文字列情報受付部11により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する(即ち、音声合成処理を行う)。
次いで、クライアント装置10は、音声合成部14により生成された音声情報が表す音声をスピーカから出力する。
一方、サーバ装置20の機能は、音声素片識別情報受信部(音声素片識別情報受信手段)21と、音声素片情報記憶部(音声素片情報記憶手段)22と、音声素片情報送信部(音声素片情報送信手段)23と、を含む。
音声素片識別情報受信部21は、クライアント装置10により送信された音声素片識別情報を受信する。
音声素片情報記憶部22は、音声登録ユーザが発した音声を表す音声情報を受け付ける。音声素片情報記憶部22は、受け付けた音声情報が表す音声を音声素片毎に分割することにより、複数の音声素片のそれぞれを表す音声素片情報を生成する。音声素片情報記憶部22は、図3に示したように、生成した音声素片情報と、整数を表す音声素片識別情報と、を1つずつ対応付けてサーバ装置20の記憶装置に記憶させる。
このとき、音声素片情報記憶部22は、図4に示したように、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶させる。
即ち、音声素片情報記憶部22は、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報を並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが所定の規則(本例では、整数が1ずつ増加するという規則)に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶させている、と言うことができる。
音声素片情報送信部23は、音声素片情報記憶部22により記憶装置に記憶されている音声素片情報の中から、音声素片識別情報受信部21により受信された音声素片識別情報と対応付けて記憶されている音声素片情報をクライアント装置10へ送信する。
次に、上述した音声合成システム1の作動について具体的に述べる。
先ず、サーバ装置20が新たに入力された音声情報に基づいて音声素片情報を蓄積(記憶)する際の音声合成システム1の作動について説明する。
サーバ装置20のCPUは、図5にフローチャートにより示した音声素片情報記憶処理プログラムを、サーバ装置20の起動時に1度だけ実行するようになっている。なお、音声素片情報記憶処理プログラムの処理が実行されることは、音声素片情報記憶処理工程に対応している。
具体的に述べると、CPUは、音声素片情報記憶処理プログラムの処理を開始すると、ステップ501にて、音声情報が入力されるまで待機する。
そして、音声情報が入力されると、CPUは、「Yes」と判定してステップ502に進み、入力された音声情報が表す音声(音声登録ユーザが発した音声)を音声素片毎に分割することにより、音声素片情報を生成する。
次いで、CPUは、ステップ503にて、生成した音声素片情報からなるリストを作成する。このリストは、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片を表す音声素片情報を並べたリストである。
そして、CPUは、ステップ504にて、作成したリスト内に音声素片情報が存在しているか否かを判定する。
この状態においては、リスト内に音声素片情報が存在しているので、CPUは、「Yes」と判定してステップ505に進み、リストの先頭の音声素片情報を取得するとともに、取得した音声素片情報をリストから削除する。
そして、CPUは、ステップ506にて、整数の乱数(本例では、擬似乱数)を1つだけ生成する。次いで、CPUは、ステップ507にて、生成した乱数が音声素片識別情報として、サーバ装置20の記憶装置に既に記憶されているか否かを判定する。
生成した乱数が音声素片識別情報として記憶装置に既に記憶されている場合、CPUは、「Yes」と判定してステップ506へ戻り、再び乱数を生成する。即ち、CPUは、音声素片識別情報として記憶装置に未だ記憶されていない乱数が生成されるまで、繰り返し乱数の生成を行う。
生成した乱数が音声素片識別情報として記憶装置に未だ記憶されていない場合、CPUは、ステップ507にて、「No」と判定してステップ508に進む。そして、CPUは、上記ステップ505にて取得した音声素片情報と、音声素片識別情報としての、上記ステップ506にて取得した乱数と、を対応付けて、サーバ装置20の記憶装置に記憶させる。
次いで、CPUは、ステップ504へ戻り、リスト内に音声素片情報が存在しなくなるまで、上述したステップ504〜ステップ508の処理を繰り返し実行する。
そして、リスト内に音声素片情報が存在しなくなると、CPUは、ステップ504にて、「No」と判定してステップ509に進み、上記ステップ508にて新たに記憶装置に記憶された音声素片情報が表す音声素片を特定する音声素片特定情報(音韻情報及び韻律情報等)を生成する。
更に、CPUは、上記ステップ508にて新たに記憶装置に記憶された音声素片識別情報と、その音声素片識別情報と対応付けて記憶されている音声素片情報が表す音声素片を特定する音声素片特定情報と、を対応付けてクライアント装置10へ送信する。
一方、クライアント装置10は、サーバ装置20から、音声素片識別情報及び音声素片特定情報を受信すると、受信した音声素片識別情報と音声素片特定情報とを対応付けてクライアント装置10の記憶装置に記憶させる(図2を参照)。
その後、CPUは、ステップ501へ戻り、上述したステップ501〜ステップ509の処理を繰り返し実行する。
このように、サーバ装置20のCPUが音声素片情報記憶処理プログラムを実行することにより、図4に示した音声を表す音声情報が入力された場合、サーバ装置20は、図3に示したように、音声素片情報と、音声素片識別情報と、を対応付けて記憶装置に記憶させる。
次に、クライアント装置10がサーバ装置20から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システム1の作動について図6を参照しながら説明する。
先ず、クライアント装置10のユーザ(音声合成ユーザ)は、キーボードを用いて文字列情報をクライアント装置10に入力する。
クライアント装置10は、入力された文字列情報を受け付ける(ステップA1)。
次いで、クライアント装置10は、受け付けた文字列情報に基づいて音声素片特定情報(音韻情報及び韻律情報等)を生成する(ステップA2)。
そして、クライアント装置10は、生成した音声素片特定情報と対応付けてクライアント装置10の記憶装置に記憶されている音声素片識別情報を取得する(ステップA3)。
次いで、クライアント装置10は、取得した音声素片識別情報をサーバ装置20へ送信する(ステップA4)。
一方、サーバ装置20は、クライアント装置10により送信された音声素片識別情報を受信する(音声素片識別情報受信工程)。そして、サーバ装置20は、受信した音声素片識別情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片情報を取得する(ステップB1)。次いで、サーバ装置20は、取得した音声素片情報をクライアント装置10へ送信する(ステップB2、音声素片情報送信工程)。
これにより、クライアント装置10は、サーバ装置20から音声素片情報を受信する。そして、クライアント装置10は、受信した音声素片情報に基づいて、受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成(音声合成処理を実行)する(ステップA5)。
その後、クライアント装置10は、生成した音声情報が表す音声をスピーカから出力する。
以上、説明したように、本発明による音声合成システムの第1実施形態によれば、不正なユーザが使用するクライアント装置10が、規則に従って並んだ音声素片識別情報(例えば、1ずつ増加させた複数の整数(即ち、連続する整数))をサーバ装置20へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置20がクライアント装置10へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
<第1変形例>
次に、第1実施形態の第1の変形例に係る音声合成システムについて説明する。この第1の変形例に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、互いに類似する2つの音声素片のそれぞれを表す音声素片情報に対応付けて記憶される音声素片識別情報が表す整数が連続する整数となるように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
この変形例に係るサーバ装置20は、図5に示した音声素片情報記憶処理プログラムに代えて、このプログラムのステップ508の処理の直後に、図7に示したステップ701〜ステップ704の処理を追加したプログラムを実行する。
従って、サーバ装置20のCPUは、ステップ508の処理を実行した後、ステップ701に進み、ステップ505にて取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、上記ステップ503にて作成したリスト内に存在するか否かを判定する。
具体的には、CPUは、取得した音声素片情報が表す音声素片と、リストに含まれる音声素片情報が表す音声素片と、の一致率(両者が一致している程度を表す指標値)を、所定のアルゴリズムに従って算出する。そして、CPUは、算出した一致率が所定の閾値よりも高くなる音声素片情報がリスト内に存在するか否かを判定する。
取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在しない場合、CPUは、ステップ701にて、「No」と判定してステップ504へ進む。
一方、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在する場合、CPUは、ステップ701にて、「Yes」と判定してステップ702へ進む。
そして、CPUは、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報をリストから抽出する。次いで、CPUは、ステップ703にて、抽出した音声素片情報と、音声素片識別情報としての、上記ステップ506にて生成した乱数に1を加えた値と、を対応付けてサーバ装置20の記憶装置に記憶させる。
次いで、CPUは、ステップ704にて、抽出した音声素片情報をリストから削除する。そして、CPUは、ステップ504へ進む。
このように、サーバ装置20は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させる。
以上、説明したように、本発明による音声合成システムの第1実施形態の第1の変形例によれば、不正なユーザが使用するクライアント装置10が、連続する整数をサーバ装置20へ送信した場合、サーバ装置20は、互いに類似する2つの音声素片のそれぞれを表す音声素片情報を送信する。
これにより、サーバ装置20から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置10において、上記音声が再現(復元)される可能性をより一層低減することができる。
<第2変形例>
次に、第1実施形態の第2の変形例に係る音声合成システムについて説明する。この第2の変形例に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、サーバ装置20が、記憶装置に記憶されていない音声素片識別情報を受信した場合にエラー情報を出力し且つその音声素片識別情報を送信してきた装置との間の通信を遮断するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
この第2の変形例に係るサーバ装置20の音声素片情報送信部23は、図8に示したように、エラー情報出力部(エラー情報出力手段)23aと、通信遮断部(通信遮断手段)23bと、を含む。
エラー情報出力部23aは、クライアント装置10から受信した音声素片識別情報が記憶装置に記憶されていない場合、その旨を表すエラー情報を出力する(ディスプレイに表示させる、及び/又は、ログファイルに書き出す)。これによれば、音声素片情報を不正に取得しようとしているクライアント装置10が存在することを、サーバ装置20の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。
通信遮断部23bは、クライアント装置10から受信した音声素片識別情報が記憶装置に記憶されていない場合、そのクライアント装置10との間の通信を遮断する。これによれば、音声素片情報を不正に取得しようとしているクライアント装置10へ、サーバ装置20が音声素片情報を送信することを防止することができる。
なお、この第2の変形例において、音声素片情報送信部23は、エラー情報出力部23a及び通信遮断部23bの両方を含んでいたが、いずれか一方のみを含んでいてもよい。
<第2実施形態>
次に、本発明に係る音声合成システムの第2実施形態について説明する。この第2実施形態に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、サーバ装置20が低音質の音声素片情報と高音質の音声素片情報とを記憶するとともに、サーバ装置20がユーザ(音声合成ユーザ)からの要求に応じて高音質の音声素片情報に基づいて音声合成処理を行い、生成した音声情報をクライアント装置10へ送信するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
図9に示したように、クライアント装置10の機能は、上記第1実施形態に係るクライアント装置10の機能と同様の文字列情報受付部11〜音声合成部14に加えて、文字列情報送信部(文字列情報送信手段)15と、音声情報受信部(音声情報受信手段)16と、を含む。
文字列情報送信部15は、文字列情報受付部11により受け付けられた文字列情報をサーバ装置20へ送信する。
音声情報受信部16は、サーバ装置20が送信した音声情報を受信する。
また、サーバ装置20の機能は、上記第1実施形態に係るサーバ装置20の機能と同様の音声素片識別情報受信部21〜音声素片情報送信部23に加えて、文字列情報受信部(文字列情報受信手段)24と、音声素片情報取得部(音声合成手段の一部)25と、音声合成部(音声合成手段の一部)26と、音声情報送信部(音声情報送信手段)27と、を含む。
更に、サーバ装置20は、音声素片識別情報記憶部12と同様に、音声素片特定情報と音声素片識別情報とを対応付けてサーバ装置20の記憶装置に記憶させている。
また、音声素片情報記憶部22は、図10に示したように、整数を表す音声素片識別情報と、低音質の低音質音声素片情報(第1の音声素片情報)と、低音質音声素片情報よりも高音質の高音質音声素片情報(第2の音声素片情報)と、を対応付けてサーバ装置20の記憶装置に記憶させている。互いに対応付けて記憶されている低音質音声素片情報及び高音質音声素片情報は、同一の音声素片を表す情報である。
なお、本例では、低音質音声素片情報は、サンプリング周波数が8kHzである音声から抽出された音声素片を表す情報であり、高音質音声素片情報は、サンプリング周波数44kHzである音声から抽出された音声素片を表す情報である。即ち、高音質音声素片情報は、低音質音声素片情報よりも高音質の情報である、と言うことができる。また、一般に、低音質音声素片情報は、高音質音声素片情報よりもデータ量(データサイズ)が小さい。
なお、低音質音声素片情報が、圧縮率が高い情報であり、高音質音声素片情報が、低音質音声素片情報よりも圧縮率が低い情報であってもよい。
また、音声素片情報記憶部22は、第1実施形態と同様に、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報(第1の音声素片情報及び第2の音声素片情報)と音声素片識別情報とを対応付けてサーバ装置20の記憶装置に記憶させる。
また、文字列情報受信部24は、クライアント装置10により送信された文字列情報を受信する。
音声素片情報取得部25は、上記第1実施形態に係るクライアント装置10の機能である、言語解析部13a、韻律生成部13b及び音声素片選択部13cと同様の機能を有する。
即ち、音声素片情報取得部25は、文字列情報受信部24により受信された文字列情報が表す文字列に基づいて、音韻情報及び韻律情報を含む音声素片特定情報を生成する。そして、音声素片情報取得部25は、生成した音声素片特定情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片識別情報を取得する。
音声合成部26は、音声合成部14と同様の機能を有する。即ち、音声合成部26は、音声素片情報取得部25により取得された音声素片情報に基づいて音声合成処理を実行する。
音声情報送信部27は、音声合成部26により生成された音声情報をクライアント装置10へ送信する。
次に、この第2実施形態に係る音声合成システム1の作動について説明する。
この音声合成システム1は、クライアント装置10のユーザ(音声合成ユーザ)が低音質の音声合成処理の実行を要求した場合(例えば、音声合成ユーザが低音質の音声合成処理の実行を要求する旨を表す情報を入力した場合)には、上述した第1実施形態と同様に作動する。
即ち、クライアント装置10は、音声合成ユーザにより入力された文字列情報に基づいて音声素片識別情報を取得し、取得した音声素片識別情報をサーバ装置20へ送信する。一方、サーバ装置20は、クライアント装置10から音声素片識別情報を受信し、受信した音声素片識別情報と対応付けて記憶されている低音質の音声素片情報をクライアント装置10へ送信する。
そして、クライアント装置10は、サーバ装置20から低音質の音声素片情報を受信し、受信した低音質の音声素片情報に基づいて音声合成処理を実行する。そして、クライアント装置10は、生成した音声情報が表す音声をスピーカから出力する。
一方、クライアント装置10の音声合成ユーザが高音質の音声合成処理の実行を要求した場合、図11に示したように、クライアント装置10は、受け付けた文字列情報をサーバ装置20へ送信する(ステップA12)。
一方、サーバ装置20は、クライアント装置10により送信された文字列情報を受信する。そして、サーバ装置20は、受信した文字列情報に基づいて音声素片特定情報(音韻情報及び韻律情報等)を生成する(ステップB11)。
そして、サーバ装置20は、生成した音声素片特定情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片識別情報を取得する(ステップB12)。次いで、サーバ装置20は、取得した音声素片識別情報と対応付けて記憶装置に記憶されている高音質の音声素片情報を取得する(ステップB13)。
そして、サーバ装置20は、取得した高音質の音声素片情報に基づいて音声合成処理を実行する(ステップB14)。次いで、サーバ装置20は、生成した音声情報をクライアント装置10へ送信する(ステップB15)。
そして、クライアント装置10は、サーバ装置20により送信された音声情報を受信し、受信した音声情報が表す音声をスピーカから出力する。
以上、説明したように、本発明による音声合成システムの第2実施形態によれば、音声合成システム1は、音声素片情報の迅速な伝達、及び/又は、通信負荷の軽減が要求される場合には、低音質音声素片情報(第1の音声素片情報)に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質音声素片情報(第2の音声素片情報)に基づいて音声合成処理を実行することができる。これにより、クライアント装置10を使用する音声合成ユーザの利便性を向上させることができる。
更に、上記第2実施形態によれば、サーバ装置20とクライアント装置10との間の通信経路において情報が傍受された場合であっても、高音質音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質音声素片情報が不正に利用されることを防止することができる。
また、上記第2実施形態によっても、上記第1実施形態と同様の作用及び効果を奏することができる。
<第3実施形態>
次に、本発明の第3実施形態に係る音声合成システムについて図12を参照しながら説明する。
第3実施形態に係る音声合成システム100は、互いに通信可能に接続されたサーバ装置110及びクライアント装置120を含むシステムである。
サーバ装置110の機能は、音声素片情報記憶部(音声素片情報記憶手段)111と、音声素片識別情報受信部(音声素片識別情報受信手段)112と、音声素片情報送信部(音声素片情報送信手段)113と、を含む。
音声素片情報記憶部111は、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する。
音声素片識別情報受信部112は、クライアント装置120から上記音声素片識別情報を受信する。
音声素片情報送信部113は、上記受信された音声素片識別情報に対応付けて、音声素片情報記憶部111に記憶されている音声素片情報をクライアント装置120へ送信する。
また、クライアント装置120の機能は、音声素片識別情報記憶部(音声素片識別情報記憶手段)121と、文字列情報受付部(文字列情報受付手段)122と、音声素片識別情報送信部(音声素片識別情報送信手段)123と、音声合成部(音声合成手段)124と、を含む。
音声素片識別情報記憶部121は、音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する。
文字列情報受付部122は、文字列を表す文字列情報を受け付ける。
音声素片識別情報送信部123は、文字列情報受付部122により受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて音声素片識別情報記憶部121に記憶されている音声素片識別情報をサーバ装置110へ送信する。
音声合成部124は、サーバ装置110から音声素片情報を受信し、当該受信した音声素片情報に基づいて、文字列情報受付部122により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する。
この第3実施形態によれば、不正なユーザが使用するクライアント装置が、規則に従って並んだ音声素片識別情報(例えば、1ずつ増加させた複数の整数(即ち、連続する整数))をサーバ装置110へ送信した場合であっても、ユーザ(音声登録ユーザ)が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置110がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合であっても、ユーザ(音声登録ユーザ)が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
この場合、上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合に、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信する可能性をより一層低減することができる。この結果、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性をより一層低減することができる。
この場合、上記音声素片情報記憶手段は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合、サーバ装置は、互いに類似する2つの音声素片のそれぞれを表す音声素片情報を送信する。これにより、サーバ装置から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置において、上記音声が再現(復元)される可能性をより一層低減することができる。
この場合、上記サーバ装置は、
上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備えることが好適である。
これによれば、音声素片情報を不正に取得しようとしているクライアント装置が存在することを、サーバ装置の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。
この場合、上記サーバ装置は、
上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、上記クライアント装置との間の通信を遮断する通信遮断手段を備えることが好適である。
これによれば、音声素片情報を不正に取得しようとしているクライアント装置へ、サーバ装置が音声素片情報を送信することを防止することができる。
この場合、上記音声素片情報記憶手段は、1つの音声素片を表す上記音声素片情報として、低音質の第1の音声素片情報と、当該第1の音声素片情報よりも高音質の第2の音声素片情報と、のそれぞれを記憶するように構成されることが好適である。
低音質の音声素片情報は、高音質の音声素片情報よりもデータ量(データサイズ)が小さい。従って、上記構成によれば、音声合成システムは、音声素片情報の迅速な伝達、及び/又は、通信負荷の軽減が要求される場合には、低音質の第1の音声素片情報に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質の第2の音声素片情報に基づいて音声合成処理を実行することができる。これにより、クライアント装置を使用するユーザ(音声合成ユーザ)の利便性を向上させることができる。
この場合、上記クライアント装置は、
上記受け付けられた文字列情報を上記サーバ装置へ送信する文字列情報送信手段と、
上記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
を備え、
上記サーバ装置は、
上記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
上記受信された文字列情報と、上記記憶されている第2の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
上記生成された音声情報を上記クライアント装置へ送信する音声情報送信手段と、
を備えることが好適である。
これによれば、サーバ装置とクライアント装置との間の通信経路において情報が傍受された場合であっても、高音質の音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質の音声素片情報が不正に利用されることを防止することができる。
また、本発明の他の形態である音声素片提供装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を備える。
この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
この場合、上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
また、本発明の他の形態である音声素片提供方法は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
上記音声素片識別情報を受信し、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する方法である。
この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片提供方法は、
上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
この場合、上記音声素片提供方法は、
上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
また、本発明の他の形態である音声素片提供プログラムは、
記憶装置を備える音声素片提供装置に、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて上記記憶装置に記憶させる音声素片情報記憶処理手段と、
上記音声素片識別情報を受信する音声素片識別情報受信手段と、
上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
を実現させるためのプログラムである。
この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
この場合、上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
また、本発明の他の形態である音声合成方法は、
互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
上記クライアント装置が、文字列を表す文字列情報を受け付け、
上記クライアント装置が、音声素片を特定する音声素片特定情報を、上記受け付けられた文字列情報に基づいて生成し、
音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって上記クライアント装置が備える記憶装置に、上記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が上記サーバ装置へ送信し、
上記サーバ装置が上記クライアント装置から上記音声素片識別情報を受信し、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって上記サーバ装置が備える記憶装置に、上記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が上記クライアント装置へ送信し、
上記クライアント装置が上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する方法である。
この場合、上記音声素片識別情報は、整数を表す情報であり、
上記音声合成方法は、
上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。
この場合、上記音声合成方法は、
上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。
また、本発明の他の形態であるクライアント装置は、サーバ装置と通信可能に接続された装置である。
更に、このクライアント装置は、
音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を備える。
この場合、上記音声素片識別情報は、整数を表す情報であり、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されることが好適である。
この場合、上記音声素片識別情報は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されることが好適である。
また、本発明の他の形態である音声合成プログラムは、
サーバ装置と通信可能に接続されたクライアント装置に、
文字列を表す文字列情報を受け付ける文字列情報受付手段と、
上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
を実現させるためのプログラムである。
この場合、上記音声素片識別情報は、整数を表す情報であり、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されることが好適である。
この場合、上記音声素片識別情報は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されることが好適である。
上述した構成を有する、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、又は、音声合成プログラム、の発明であっても、上記音声合成システムと同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、上記各実施形態においては、サーバ装置20は、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶していた。
ところで、上記各実施形態の変形例においては、サーバ装置20は、音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、音声素片情報と音声素片識別情報とを対応付けて記憶していてもよい。
これによれば、不正なユーザが使用するクライアント装置10が、連続する整数をサーバ装置20へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置20がクライアント装置10へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
また、上記各実施形態においては、音声素片識別情報は、整数であったが、実数であってもよく、文字列であってもよい。また、上記各実施形態においては、音声素片識別情報が表す整数は、10進数により表される整数であったが、N進数(Nは、10以外の数)により表される整数であってもよい。
更に、上記各実施形態において、音声素片情報は、音声素片を波形により表した情報であってもよく、音声素片をパラメータ(例えば、PARCOR係数(Partial Auto−correlation Coefficient))により表した情報であってもよい。
また、上記各実施形態の変形例においては、音声素片情報は、音声登録ユーザが発した音声を表す音声情報と、その音声における音声素片の開始位置及び終了位置を表す位置情報と、から構成されていてもよい。
更に、上記各実施形態においては、1つの音声素片情報と対応付けて記憶されている音声素片識別情報は、1つのみであったが複数であってもよい。
また、上記各実施形態は、ユーザにより入力された文字列情報を受け付けるように構成されていたが、予め記憶されている文字列情報を受け付けるように構成されていてもよく、他の装置から受信した文字列情報を受け付けるように構成されていてもよい。
なお、本発明は、日本国にて2008年8月13日に出願された特願2008−208289の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システム等に適用可能である。
1 音声合成システム
10 クライアント装置
11 文字列情報受付部
12 音声素片識別情報記憶部
13 音声素片識別情報送信部
13a 言語解析部
13b 韻律生成部
13c 音声素片選択部
14 音声合成部
15 文字列情報送信部
16 音声情報受信部
20 サーバ装置
21 音声素片識別情報受信部
22 音声素片情報記憶部
23 音声素片情報送信部
23a エラー情報出力部
23b 通信遮断部
24 文字列情報受信部
25 音声素片情報取得部
26 音声合成部
27 音声情報送信部
100 音声合成システム
110 サーバ装置
111 音声素片情報記憶部
112 音声素片識別情報受信部
113 音声素片情報送信部
120 クライアント装置
121 音声素片識別情報記憶部
122 文字列情報受付部
123 音声素片識別情報送信部
124 音声合成部

Claims (26)

  1. 互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムであって、
    前記サーバ装置は、
    音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
    前記クライアント装置から前記音声素片識別情報を受信する音声素片識別情報受信手段と、
    前記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を前記クライアント装置へ送信する音声素片情報送信手段と、
    を備え、
    前記クライアント装置は、
    音声素片を特定する音声素片特定情報と、前記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
    文字列を表す文字列情報を受け付ける文字列情報受付手段と、
    前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
    前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
    を備える音声合成システム。
  2. 請求項1に記載の音声合成システムであって、
    前記音声素片識別情報は、整数を表す情報であり、
    前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  3. 請求項2に記載の音声合成システムであって、
    前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  4. 請求項2又は請求項3に記載の音声合成システムであって、
    前記音声素片情報記憶手段は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  5. 請求項1乃至請求項4のいずれか一項に記載の音声合成システムであって、
    前記サーバ装置は、
    前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備える音声合成システム。
  6. 請求項1乃至請求項5のいずれか一項に記載の音声合成システムであって、
    前記サーバ装置は、
    前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、前記クライアント装置との間の通信を遮断する通信遮断手段を備える音声合成システム。
  7. 請求項1乃至請求項6のいずれか一項に記載の音声合成システムであって、
    前記音声素片情報記憶手段は、1つの音声素片を表す前記音声素片情報として、低音質の第1の音声素片情報と、当該第1の音声素片情報よりも高音質の第2の音声素片情報と、のそれぞれを記憶するように構成された音声合成システム。
  8. 請求項7に記載の音声合成システムであって、
    前記クライアント装置は、
    前記受け付けられた文字列情報を前記サーバ装置へ送信する文字列情報送信手段と、
    前記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
    を備え、
    前記サーバ装置は、
    前記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
    前記受信された文字列情報と、前記記憶されている第2の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
    前記生成された音声情報を前記クライアント装置へ送信する音声情報送信手段と、
    を備える音声合成システム。
  9. 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
    前記音声素片識別情報を受信する音声素片識別情報受信手段と、
    前記受信された音声素片識別情報に対応付けて前記音声素片情報記憶手段に記憶されている音声素片情報を送信する音声素片情報送信手段と、
    を備える音声素片提供装置。
  10. 請求項9に記載の音声素片提供装置であって、
    前記音声素片識別情報は、整数を表す情報であり、
    前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
  11. 請求項10に記載の音声素片提供装置であって、
    前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
  12. 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
    前記音声素片識別情報を受信し、
    前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する、音声素片提供方法。
  13. 請求項12に記載の音声素片提供方法であって、
    前記音声素片識別情報は、整数を表す情報であり、
    前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
  14. 請求項13に記載の音声素片提供方法であって、
    前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
  15. 記憶装置を備える音声素片提供装置に、
    音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて前記記憶装置に記憶させる音声素片情報記憶処理手段と、
    前記音声素片識別情報を受信する音声素片識別情報受信手段と、
    前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
    を実現させるための音声素片提供プログラム。
  16. 請求項15に記載の音声素片提供プログラムであって、
    前記音声素片識別情報は、整数を表す情報であり、
    前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
  17. 請求項16に記載の音声素片提供プログラムであって、
    前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
  18. 互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
    前記クライアント装置が、文字列を表す文字列情報を受け付け、
    前記クライアント装置が、音声素片を特定する音声素片特定情報を、前記受け付けられた文字列情報に基づいて生成し、
    音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって前記クライアント装置が備える記憶装置に、前記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が前記サーバ装置へ送信し、
    前記サーバ装置が前記クライアント装置から前記音声素片識別情報を受信し、
    音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって前記サーバ装置が備える記憶装置に、前記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が前記クライアント装置へ送信し、
    前記クライアント装置が前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する、音声合成方法。
  19. 請求項18に記載の音声合成方法であって、
    前記音声素片識別情報は、整数を表す情報であり、
    前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
  20. 請求項19に記載の音声合成方法であって、
    前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
  21. サーバ装置と通信可能に接続されたクライアント装置であって、
    音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
    文字列を表す文字列情報を受け付ける文字列情報受付手段と、
    前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
    前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
    を備えるクライアント装置。
  22. 請求項21に記載のクライアント装置であって、
    前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されたクライアント装置。
  23. 請求項22に記載のクライアント装置であって、
    前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されたクライアント装置。
  24. サーバ装置と通信可能に接続されたクライアント装置に、
    文字列を表す文字列情報を受け付ける文字列情報受付手段と、
    前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
    前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
    を実現させるための音声合成プログラム。
  25. 請求項24に記載の音声合成プログラムであって、
    前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定された音声合成プログラム。
  26. 請求項25に記載の音声合成プログラムであって、
    前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定された音声合成プログラム。
JP2010524655A 2008-08-13 2009-06-22 音声合成システム Active JP5408133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010524655A JP5408133B2 (ja) 2008-08-13 2009-06-22 音声合成システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008208289 2008-08-13
JP2008208289 2008-08-13
JP2010524655A JP5408133B2 (ja) 2008-08-13 2009-06-22 音声合成システム
PCT/JP2009/002814 WO2010018648A1 (ja) 2008-08-13 2009-06-22 音声合成システム

Publications (2)

Publication Number Publication Date
JPWO2010018648A1 JPWO2010018648A1 (ja) 2012-01-26
JP5408133B2 true JP5408133B2 (ja) 2014-02-05

Family

ID=41668802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010524655A Active JP5408133B2 (ja) 2008-08-13 2009-06-22 音声合成システム

Country Status (3)

Country Link
US (1) US8620663B2 (ja)
JP (1) JP5408133B2 (ja)
WO (1) WO2010018648A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2424205B1 (de) * 2010-08-26 2019-03-13 Unify GmbH & Co. KG Verfahren und Anordnung zur automatischen Übertragung einer Zustandsinformation
US11843719B1 (en) * 2018-03-30 2023-12-12 8X8, Inc. Analysis of customer interaction metrics from digital voice data in a data-communication server system
CN113411326A (zh) * 2021-06-17 2021-09-17 上海明略人工智能(集团)有限公司 用于音频加密的方法及装置、电子设备、系统、可读存储介质
US11763803B1 (en) * 2021-07-28 2023-09-19 Asapp, Inc. System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004185074A (ja) * 2002-11-29 2004-07-02 Nec Corp 文字列の暗号受信方法、プログラムおよびシステム
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3344487B2 (ja) 1991-09-30 2002-11-11 日本電信電話株式会社 音声基本周波数パターン生成装置
JP3240691B2 (ja) 1992-07-07 2001-12-17 日本電信電話株式会社 音声認識方法
JP3518340B2 (ja) 1998-06-03 2004-04-12 日本電信電話株式会社 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
GB9929284D0 (en) * 1999-12-11 2000-02-02 Ibm Voice processing apparatus
JP3379643B2 (ja) 2000-03-23 2003-02-24 日本電信電話株式会社 形態素解析方法および形態素解析プログラムを記録した記録媒体
US20020107918A1 (en) * 2000-06-15 2002-08-08 Shaffer James D. System and method for capturing, matching and linking information in a global communications network
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7203648B1 (en) * 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
GB0229860D0 (en) * 2002-12-21 2003-01-29 Ibm Method and apparatus for using computer generated voice
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004185074A (ja) * 2002-11-29 2004-07-02 Nec Corp 文字列の暗号受信方法、プログラムおよびシステム
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Also Published As

Publication number Publication date
US8620663B2 (en) 2013-12-31
JPWO2010018648A1 (ja) 2012-01-26
US20110137655A1 (en) 2011-06-09
WO2010018648A1 (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
JP6671356B2 (ja) 声紋情報管理方法および声紋情報管理装置、ならびに本人認証方法および本人認証システム
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
JP3812848B2 (ja) 音声合成装置
JP5422754B2 (ja) 音声合成装置及び方法
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP2018054790A (ja) 音声対話システムおよび音声対話方法
JP5408133B2 (ja) 音声合成システム
JP2007140200A (ja) 語学学習装置およびプログラム
JP6179971B2 (ja) 情報提供装置及び情報提供方法
WO2014203370A1 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
JP4962416B2 (ja) 音声認識システム
US20090112597A1 (en) Predicting a resultant attribute of a text file before it has been converted into an audio file
KR20190048371A (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP5408134B2 (ja) 音声合成システム
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
CN105890612A (zh) 一种导航过程中的语音提示方法及装置
CN113066472A (zh) 合成语音处理方法及相关装置
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP2014197072A (ja) 音声合成システム、及び音声合成方法
JP6640788B2 (ja) 言語変換プログラム及び言語変換装置
JP2007163875A (ja) 音声合成装置および音声合成プログラム
JP7088645B2 (ja) データ変換装置
JP6551848B2 (ja) データ処理装置、データ構造、データ処理方法、およびプログラム
CN116964623A (zh) 数据生成装置、数据生成方法以及程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120510

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131021

R150 Certificate of patent or registration of utility model

Ref document number: 5408133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150