JP2009294640A - 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 - Google Patents

音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 Download PDF

Info

Publication number
JP2009294640A
JP2009294640A JP2009046338A JP2009046338A JP2009294640A JP 2009294640 A JP2009294640 A JP 2009294640A JP 2009046338 A JP2009046338 A JP 2009046338A JP 2009046338 A JP2009046338 A JP 2009046338A JP 2009294640 A JP2009294640 A JP 2009294640A
Authority
JP
Japan
Prior art keywords
phrase
sentence
information
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009046338A
Other languages
English (en)
Inventor
Atsushi Nakamura
淳 中村
Fumihito Baisho
文仁 倍賞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2009046338A priority Critical patent/JP2009294640A/ja
Priority to US12/431,369 priority patent/US20090281808A1/en
Publication of JP2009294640A publication Critical patent/JP2009294640A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

【課題】電子機器等で出力予定の音声ガイドメッセージの編集からメモリ書き込み情報の作成までを自動化し、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを効率よく生成する。
【解決手段】編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割し、分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないようにメモリへの格納対象フレーズを決定する。
【選択図】図1

Description

本発明の幾つかの態様は、音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法等に関する。
ホストプロセッサ、音声ICを搭載し、ホストプロセッサと音声ICが連動して音声でメッセージを出力する音声再生システムが搭載された電子機器が知られている。
特開2002−023781号
電子機器等にユーザーインターフェースとして予め設定された音声ガイドメッセージを出力する音声機能を持たせる場合、出力予定音声ガイドメッセージに対応した音声データファイルを音声再生装置(音声ガイドIC)の内蔵ROMに格納して、ホストからのコマンドに基づき、内蔵ROMから読み出した音声データを再生出力させる方式の音声再生システムが知られている。
このような音声ガイドIC用の音声データ作成システムにおいて、従来は単一のテキストを入力して、音声合成処理により、単一のテキストに対応する単一の音声ファイルを作成していた。そのため、複数の音声メッセージデータを作成する場合は、「テキストの入力一音声ファイルの作成」の手順を作成するメッセージ数分だけ繰り返す必要があった。また、単一の音声ファイルしか作成できないため、音声ガイドICの内蔵ROM及び外部RAMに格納するROMイメージファイルを作成する場合、ROMに格納する複数の音声メッセージデータをすべて作成し終えないと、ROMイメージファイルを作成できなかった。そのため、「テキスト入力→音声データ作成→ROMイメージファイル作成」が困難であるという問題があった。
また複数の音声ガイドメッセージを発話予定である場合には、複数の音声ガイドメッセージの再生に必要十分な音声ファイルをもれなく確実に格納することが好ましい。
本発明は、以上のような技術的課題に鑑みてなされたものである。本発明の幾つかの態様によれば、電子機器等で出力予定の音声ガイドメッセージの編集からメモリ書き込み情報(ROMイメージファイル)の作成までを自動化し、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを効率よく生成するための音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法を提供できる。
(1)本発明は、
音声データ作成システムであって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部とを含み、前記編集処理部は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部は、複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。
フレーズとは例えば文節や文の一部である。センテンスとは例えば文であり、電子機器などの音声ガイドメッセージとして使用される文でもよい。テキストデータは文字(かな文字やカナ文字や漢字や数字を示すコード)データでもよい。例えばASCIIコードやJISコードで構成されたテキストデータであってもよい。
フレーズ音声データ生成部は、フレーズのテキストデータに対した音声データをTTS方式で生成するものであり、例えば既存のTTSツールを用いて実現してもよい。
フレーズの特定情報とは、フレーズに対応した音声データのファイル情報にアクセス可能な情報であり、フレーズデータの識別IDやフレーズデータへのインデックスでもよい(フレーズデータの識別IDやフレーズデータへのインデックスに関連づけてフレーズの音声データファイルのファイル名称が記憶されていればよい)。
センテンス情報は、センテンスを構成するフレーズのフレーズ特定情報(又はフレーズの音声データのファイル情報(ファイル名称))を、シーケンス情報に従って並べた形式でもよく、センテンスの識別IDに関連づけて記憶されていてもよい。
またリスト情報は、フレーズ特定情報に関連づけてフレーズの音声データファイル情報(例えばファイル名)や再生時間や音声データファイルのサイズ情報等のフレーズ情報を含んでもよい。
フレーズ音声データ生成部は、生成した音声データを圧縮してフレーズ単位でファイル化して保持してもよい。
リスト情報(フレーズ情報)として、例えば当該フレーズがセンテンスに使用される使用回数情報や、メモリ(ROM)への書き込みの有無の情報を含む場合、使用回数情報が1回以上であるフレーズとメモリ(ROM)への書き込むの有無の情報が書き込み有りとなっているフレーズを格納対象フレーズとして決定してもよい。
本発明によればリスト情報に基づきフレーズ単位でメモリ(ROM)への書き込みの有無を決定するので、複数のセンテンスで使用されているフレーズについても同じ音声データが重複して書き込まれないようにメモリ書き込み情報(ROMイメージ)を生成することができる。このため複数のセンテンスで共用されるフレーズや1つのセンテンスで複数回使用されるフレーズについても、フレーズの音声データは1つしか格納されないので、メモリサイズの増大を防ぐことができる。
例えば前記リスト情報生成処理部が、複数のセンテンスで使用されるフレーズ又は1つのセンテンスで複数回使用されるフレーズの使用回数をカウントしてカウント値をフレーズ情報として保持してもよい。なお所定のフレーズについては音質の異なる音声データのファイル(ファイルサイズの異なる音声データファイル)を複数用意し、当該フレーズの使用回数のカウント値に応じて使用する異なる音質の音声データのファイルを使用するようにしてもよい。例えば使用頻度の高いフレーズについては品質のよい音声データのファイルを使用するようにしてもよい。このようにすることで、効率よく音質を向上させることができる。
本発明によれば、音声ガイドメッセージとなる複数のテキストデータの編集からメモリ書き込み情報(ROMイメージファイル)の作成までを1つのツールで実現しており、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを自動的にもれなくかつ効率よく生成することができる。
(2)この音声データ作成システムは、
前記センテンスのテキストデータが、フレーズの区切りを示す区切りデータを含み、前記編集処理部は、前記区切りデータに基づき前記センテンス分割処理を行ってもよい。
区切りデータは例えばスペースデータでもよいし、所定の文字や記号を示すテキストデータでもよい。
例えばセンテンスが”電源を切って下さい”に対して”電源を”、”電源を切って”、”切って下さい”、”下さい”等の文言の一部が重複するフレーズのフレーズデータが存在する場合に、センテンスを”電源を切って下さい”と言うように切りたい場所をスペースで明示する事で意図するフレーズに展開されるようにすることができる。
(3)この音声データ作成システムは、
前記メモリ書き込み情報生成部が、前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。
フレーズ音声データ生成部が、フレーズに対応した音声データを作成する際に音声データのファイルサイズ情報を生成して、音声データファイルやフレーズ特定情報に関連づけて保持し、前記メモリ書き込み情報生成部が、格納対象フレーズの音声データのファイルサイズ情報に基づき前記メモリ書き込み情報の合計サイズを算出してもよい。
なお使用するメモリサイズ情報と前記合計サイズを比較して、比較結果を出力するようにしてもよい。使用するメモリサイズ情報が前記合計サイズより小さいと判断した場合には、警告情報を出力するようにしてもよい。
(4)この音声データ作成システムは、
前記編集処理部が、センテンスを構成するフレーズを表示する表示出力処理を行ってもよい。
このようにすると、センテンスとセンテンスを構成するフレーズの確認を行うことができる。
(5)この音声データ作成システムは、
前記編集処理部が、編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、前記リスト情報生成処理部が、フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行ってもよい。
(6)この音声データ作成システムは、
前記編集処理部が、前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力してもよい。
(7)この音声データ作成システムは、
前記編集処理部が、前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新してもよい。
(8)この音声データ作成システムは、
前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する音声再生出力処理部を含んでもよい。
フレーズ特定情報に関連づけて保持されている音声データ読み出して、シーケンス情報に従って再生出力してもよい。
(9)この音声データ作成システムは、
前記編集処理部が、センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、前記リスト情報生成処理部が、前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。
センテンス情報は、各センテンス毎にセンテンス識別IDに関連づけて、センテンスを構成するフレーズのフレーズ特定情報又はフレーズの音声データのファイル情報(ファイル名称)と、フレーズの前またはフレーズ間に設定する待ち時間情報を、再生順序(シーケンス情報)に従って並べた情報でもよい。
(10)この音声データ作成システムは、
前記音声再生出力処理部が、前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。
(11)この音声データ作成システムは、
前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する音声再生コマンド生成処理部を含んでもよい。
(12)本発明は、
コンピュータを音声データ作成システムとして動作させるためのプログラムであって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部としてコンピュータを機能させ、 前記編集処理部は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部は、複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。
(13)本発明は、
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部を用意する手順と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理手順と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理手順と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成手順と、前記リスト情報に基づき、前記不揮発性記憶部への格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成手順とを含み、前記編集処理手順において、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理手順において、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成手順において、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成手順において、複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。
(14)本発明は、
上記のいずれかに記載の音声データ作成システムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、前記音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出して再生出力する音声合成部と、を含む半導体集積回路装置である。
本発明の半導体集積回路装置は、例えば電子機器等に搭載される音声ICであり、ホストプロセッサ(同じく電子機器に搭載)、ホストプロセッサと連動して音声でメッセージを出力するものである。ホストプロセッサから音声再生コマンドを受け取るようにしてもよい。
本実施の形態の音声データ作成システムの機能ブロック図の一例。 フレーズの音声データとフレーズ情報について説明するための図。フレーズデータとフレーズ編集情報について説明するための図。 センテンス情報について説明するための図。 図4(A)はメモリ書き込み情報(ROMイメージ)の生成過程について説明するための図。図4(B)はメモリ書き込み情報(ROMイメージ)の使用形態について説明するための図。 センテンス編集からROMファイル作成までの流れを示すフローチャート。 センテンス編集画面の一例を示す図。 入力されるセンテンスの一例を示す図。 フレーズ編集画面の一例を示す図。 センテンス/フレーズ関連確認画面の一例を示す図。 ROMファイル作成画面の一例を示す図。 音声データ作成ツールで行われる各処理について説明するための図。 音声データ作成ツールで行われる各処理について説明するための図。
以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。
図1は、本実施の形態の音声データ作成システムの機能ブロック図の一例である。
なお、本実施形態の音声データ作成システム100は、図1の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
操作部160は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。
記憶部170は、処理部110や通信部196などのワーク領域となるもので、その機能はRAMなどのハードウェアにより実現できる。
記憶部170は作成されたフレーズの音声データを保持する(記憶する)フレーズ音声データ記憶部172として機能するようにしてもよい。
また記憶部170は、各センテンスと各センテンスを構成するフレーズに関するリスト情報を保持する(記憶する)リスト情報記憶部として機能するようにしてもよい。
情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウェアにより実現できる。
また情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ(付加データ)が記憶される。例えばテキストデータに対応した合成音声データを生成するための辞書データが記憶された辞書データ記憶部182として機能するようにしてもよい。
処理部100は、この情報記憶媒体180に格納されるプログラム(データ)や情報記憶媒体180から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
表示部190は、本実施形態により生成された画像を出力するものであり、その機能は、CRTディスプレイ、LCD(液晶ディスプレイ)、OELD有機ELディスプレイ、PDP(プラズマディスプレイパネル)、タッチパネル型ディスプレイなどのハードウェアにより実現できる。表示部には本実施の形態の編集画面(図6、図8〜図10)等が表示される。
音出力部192は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。
通信部196は、外部(例えばホスト装置や他の端末機)との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。
なお本実施形態の各部としてコンピュータを機能させるためのプログラム(データ)は、ホスト装置(サーバ装置)が有する情報記憶媒体からネットワーク及び通信部196を介して情報記憶媒体180(あるいは記憶部170)に配信するようにしてもよい。このようなホスト装置(サーバ装置等)の情報記憶媒体の使用も本発明の範囲内に含めることができる。
不揮発性記憶部150は、不揮発性メモリとして機能する記憶媒体で構成され、例えば電子機器に組み込まれる音声合成ICの内蔵ROMとして使用されるROMでもよい。不揮発性記憶部150には、メモリ書き込み情報152が書き込まれるようにしてもよい。また不揮発性記憶部150には、音声再生コマンド154が書き込まれるようにしても良い。
処理部110(プロセッサ)は、操作部160からの操作データやプログラムなどに基づいて、記憶部170をワーク領域として各種処理を行う。処理部110の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。
処理部110は、編集処理部120、リスト情報生成処理部122、メモリ書き込み情報生成部124、音声再生コマンド生成部126、フレーズ音声データ生成部130、音声再生出力処理部140を含んでもよい。
編集処理部120は複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行い、リスト情報生成処理部122は、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行い、フレーズ音声データ生成部130は、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持し、メモリ書き込み情報生成部124は、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含む。前記編集処理部120は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部122は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部130は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部124は、複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定する。
また前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、前記編集処理部120は、前記区切りデータに基づき前記センテンス分割処理を行ってもよい。
また前記メモリ書き込み情報生成部124は、前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。
また前記編集処理部120は、センテンスを構成するフレーズを表示する表示出力処理を行ってもよい。
また前記編集処理部120は、編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、前記リスト情報生成処理部122は、フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行ってもよい。
また前記編集処理部120は、前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力してもよい。
また前記編集処理部120は、 前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新してもよい。
音声再生出力処理部140は、前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する。
また前記編集処理部120は、センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、前記リスト情報生成処理部122は、前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。
また前記音声再生出力処理部140は、前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。
音声再生コマンド生成処理部140は、前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する。
図2は、フレーズの音声データとフレーズ情報(リスト情報の一例)について説明するための図である。
フレーズの音声データ202は、フレーズ音声データ生成部130が、辞書データ記憶部182に記憶されている辞書データに基づき、TTS方式によりフレーズ単位に生成した音声データである。この音声データは、既存の音声再生システムによって再生可能な音データのファイルであり、圧縮された音ファイルでもよい。
フレーズ情報200は、フレーズの音声データ202が格納されている音声データファイル名204(フレーズの音声データのファイル情報、フレーズの音声データ202に対応した音声ログ情報210を含み、フレーズ識別ID206に対応付けて記憶されるようにしてもよい。
音声ログ情報210は、フレーズ読み方に関するテキストデータであるテキスト情報212を含んでもよい。また音声ログ情報210は、フレーズの音声データが格納されたファイルのサイズ情報(バイト数等)214を含んでもよい。また音声ログ情報210は、フレーズの音声ファイルの再生時間情報(ms)216を含んでもよい。また音声ログ情報210は、TTSパラメータやデータフォーマット情報等の図示しないその他の情報を含んでもよい。音声ログ情報210はフレーズの音声データ202生成時に付随して生成されたものでもよい。
フレーズ編集情報220は、本実施の形態の編集処理の結果に基づきフレーズ単位に生成される情報であり、フレーズ識別ID206に関連づけて保持される。フレーズ編集情報220は、センテンスに使用される使用回数情報222を含んでもよい。またフレーズ編集情報220は、ROMへの書き込みの有無を指示するためのROM書き込みの情報224を含んでもよい。またフレーズ編集情報220は、フレーズの読み方をかたかな又はひらがなで表示した読み方情報226を含んでもよい。読み方情報226は、編集入力情報基づき作成、更新されるようにしてもよい。
図3は、センテンス情報(リスト情報の一例)について説明するための図である。
センテンス情報240は、本実施の形態の編集処理の結果に基づき生成される情報であり、センテンス識別ID242に関連づけて記憶されるようにしてもよい。
センテンス情報240は、センテンスを構成するフレーズのテキスト情報244を含んでもよい。
センテンス情報240は、センテンスのサイズ情報246を含んでもよい。センテンスのサイズ情報246はセンテンスを構成するフレーズの音声データファイルの合計バイト数でもよい。また待ち時間を無音の音声データとして有する場合にはこの無音区間データを含む合計のバイト数でもよい。
センテンス情報240は、センテンスの再生時間情報248を含んでもよい。センテンスの再生時間情報248は、センテンスを構成するフレーズの音声ファイルの再生時間の合計時間でもよい。またフレーズの前後やフレーズ間に設定された待ち時間も含んだ合計時間でもよい。
センテンス情報240は、センテンスの読み方をかたかな又はひらがなで表示した読み方情報250を含んでもよい。読み方情報250は、編集入力によって作成、更新されるようにしてもよい。
センテンス情報240は、センテンスを構成するフレーズ特定情報(1)254−1〜フレーズ特定情報(n)254−nを含んでもよい。フレーズ特定情報(1)254−1〜フレーズ特定情報(n)254−nは、フレーズに対応した音声データ(図2の202)のファイル情報にアクセス可能な情報であり、例えば音声データファイルのファイル名称(図2の204)でも良いし、フレーズ識別ID(図3の206)でもよい。フレーズ特定情報254−1〜254−nはフレーズの再生順序に従って並べるようにしてもよい(インデックスnがフレーズの再生順序と一致している)。
センテンス情報240は、センテンスを構成するフレーズの前に設定されている待ち時間情報(1)252−待ち時間情報(n)1〜252−nを含んでもよい。待ち時間情報(1)252−待ち時間情報(n)1〜252−nは待ち時間の再生順序に従って並べるようにしてもよい(インデックスnがフレーズの再生順序と一致している)。
フレーズ特定情報254−1〜254−nや待ち時間情報252−1〜252−nを再生順序に従って並べることで、フレーズの再生順序に関するシーケンス情報として機能させることができる。
図4(A)はメモリ書き込み情報(ROMイメージ)の生成過程について説明するための図であり、図4(B)はメモリ書き込み情報(ROMイメージ)の使用形態について説明するための図である。
100は、本実施の形態の音声データ作成ツール(プログラム又はシステム)である。10は電子機器等に組み込まれユーザーインターフェースとして予め設定されたメッセージを出力する音声機能を有するICである。音声合成IC10は、内蔵ROM20に格納されたROMイメージ152と音声再生コマンド154に基づきセンテンスに対応した音声を再生出力する。
本実施の形態では、音声データ作成ツール100を用いることにより編集入力情報162に基づいて、音声合成IC10の内蔵ROMに格納するROMイメージ(フレーズの音声データの集合)152と音声再生コマンド154を生成することができる。
本音声データ作成ツール100は、例えばパーソナルコンピュータ(PC)等に本実施の形態の音声データ作成プログラムをインストールすることで音声データ作成システムとして動作させることができる。
ユーザーは音声データ作成ツール100を用いて、音声合成IC10に発話させたい音声ガイドメッセージ(センテンス)を編集して、編集した音声ガイドメッセージの音声再生を行うために必要なフレーズの音声データのファイルの集合であるROMイメージ152と、ROMイメージの音声データファイルを読み出して音声ガイドメッセージ(センテンス)の音声再生を行うための音声再生コマンド154を作成することができる。
音声データ作成ツール100は、編集の際にPCの表示部に図6、図8〜図10に示すような編集画面を表示し、PCのキーボード等から編集入力情報162の入力を受け付けるようにしてもよい。そして編集入力情報162やPCの情報記憶媒体に記憶されたTTS用音声合成辞書(辞書データ)182に基づき、センテンスを構成するフレーズの音声データやリスト情報を生成し、生成した音声データやリスト情報に基づき、ROMイメージ(音声データメモリに書き込むメモリ書き込み情報)152と音声再生コマンド154を生成して出力するようにしてもよい。
編集入力情報162として編集画面からセンテンスのテキストデータを入力してもよい。
音声再生コマンド154は、例えばセンテンスを構成するフレーズのファイル特定情報(例えばファイル名称等)を再生順に並べた構成でもよい。
作成されたROMイメージ152は、電子機器等電子機器等に搭載する音声合成IC10の内蔵メモリであるROMに格納してもよい。音声合成IC10は、音声データ作成ツール100によって生成されたROMイメージ(メモリ書き込み情報)152が記憶された内蔵ROM(不揮発性記憶部)20を含み、音声再生コマンド154を受け取り、受け取った音声再生コマンド154に基づき内蔵ROM(不揮発性記憶部)20から音声データを読み出してセンテンスに対応した音声ガイドメッセージを再生出力する音声再生部として機能する。音声再生コマンド154はホストコンピュータ(例えば電子機器等の主制御部)から受け取るようにしてもよい。
本実施の形態では、TTS用音声合成辞書(辞書データ)182に基づきフレーズに対応した音声データをTTS(text-to-speech)方式で生成する。生成した音声データは圧縮された形式で保持してもよい。
TTS方式には、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式があるが、そのいずれにも適用可能である。例えばコンキャティネイティブ方式やコーパスベース方式などの場合には音素辞書を有し、音声合成部は音素辞書に基づき読み表記に対応した合成音声の音声データを生成するようにしてもよい。
TTS用音声合成辞書(辞書データ)182は、例えば語彙辞書や音素辞書を含む。語彙辞書は、テキスト表記に対応した読み表記が記憶されているデータ辞書であり、音素辞書は、声質を高めるのに効果的な多くのケースを網羅した辞書である。語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書でもよい。フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ)等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される構成でもよい。テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われるようにしてもよい。
音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。
本実施の形態では、TTS用音声合成辞書(辞書データ)182に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、センテンスを構成するフレーズのテキスト情報に対応した音声データを生成するようにしてもよい。
図5はセンテンス編集からROMファイル作成までの流れを示すフローチャート図である。
センテンスの登録、編集処理を行うためのセンテンス編集画面が選択されると、センテンス(音声ガイドメッセージ)のテキスト情報の入力をうけつけ、受け付けたセンテンス(音声ガイドメッセージ)のテキスト情報に基づき、リスト情報の生成や更新を行う(ステップS10)。
図6はセンテンス編集画面の一例を示す図である。センテンス編集画面400はセンテンスの新規登録や登録されているセンテンスの更新を行う編集画面である。例えば図6に示すように、登録されているセンテンスの情報(ID412やセンテンスのテキスト情報414)が表示されるようにしてもよい。
ユーザーは、センテンス編集画面400のセンテンス欄410から音声ガイドメッセージとなるセンテンスをテキスト表記で入力して、センテンスの登録を行うことができ、登録されたセンテンスの情報にもとづきリスト情報が生成される。リスト情報は、例えばセンテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報やセンテンスを構成するフレーズの情報を含んでもよい。また例えば図2や図3に示すような情報をふくんでもよい。
図7は、入力されるセンテンスの一例を示す図である。「あたため時間は5分です」というテキストデータであるセンテンス430は、複数のフレーズ440−1、440−2、440−3を含む。本実施の形態では、センテンス430のテキストデータにフレーズ440−1、440−2、440−3の区切りを示す区切りデータ420−1、420−2を含んでもよい。ここでは区切りデータは「/」である場合を示しているが、これに限られず他の文字や記号でもよいし、空白でもよい。
このようにすると編集処理部120は、区切りデータ420−1、420−2に基づきセンテンス450をフレーズ440−1、440−2、440−3に分割するセンテンス分割処理を行うことができる。
フレーズの登録、編集処理を行うためのフレーズ編集画面が選択されると、フレーズ編集画面を表示し、フレーズ編集画面からのフレーズの編集入力を受け付けリスト情報の生成や更新を行う(ステップS20)。
センテンスが登録されると、リスト情報として、センテンスに関するセンテンス情報を生成するようにしてもよい。
センテンスが登録されると、リスト情報として、センテンス情報やフレーズ情報を生成してもよい。センテンス情報は例えば図3に示すような情報を含んでもよい。またフレーズ情報は例えば図2に示すような情報を含んでもよい。
図8はフレーズ編集画面の一例を示す図である。フレーズ編集画面500はフレーズの新規登録や登録されているフレーズの更新を行う編集画面である。例えば図8に示すように、登録されているフレーズの情報(ID512やフレーズのテキスト情報514、フレーズの読み方情報516)が表示されるようにしてもよい。
図6のセンテンス編集画面ではID(センテンス識別ID)が「s-0001」、「s-0002」、「s- 0003」の3つのセンテンスが登録されている様子が示されている。このような場合「あたため時間は5分です(s-0001)」、「解凍時間は5分です(s-0002)」、「生麦生米生卵隣の客はよく柿食う客だ(s-0003)」の3つのセンテンスのセンテンス情報と、3つのセンテンスを構成するフレーズ「あたため時間は」「5分」「です」「解凍時間は」「生麦」「生米」「生卵」「隣の客は」「よく柿食う」「客だ」の情報がフレーズ情報として登録されるようにしてもよい。ここでフレーズ「です」や「5分」は、複数のフレーズで使用されているが、フレーズデータとしては1つのみ登録される。このように本実施の形態では、複数のセンテンスで使用されるフレーズを重複して(別個に)登録せずに、1つのみ登録して、複数のセンテンスで共用するように構成されている。
センテンスとセンテンスを構成するフレーズの確認を行うためのセンテンス/フレーズ関連確認画面が選択されると、センテンス/フレーズ関連確認画面を表示し、センテンス/フレーズ関連確認画面からのフレーズの編集入力を受け付けリスト情報の生成や更新を行う(ステップS30)。
センテンスが登録されると、センテンスを構成するフレーズと、複数のセンテンスを構成する全フレーズ一覧(センテンスに使用されるフレーズ一覧であって、複数のセンテンスで共用されるフレーズ又は1つのセンテンスで複数回使用されるフレーズについては1つのみ登録されるもの)を生成するようにしてもよい。
図9はセンテンス/フレーズ関連確認画面の一例を示す図である。センテンス/フレーズ関連確認画面600はセンテンスとセンテンスを構成するフレーズ、複数のセンテンスで使用する全フレーズの確認、変更を行う編集画面である。
例えば図9示すように、登録されているセンテンス一覧610(ID612,センテンスのテキスト情報614)が表示されるようにしてもよい。またセンテンス一覧で選択されているセンテンス(例えばカーソルが位置づけられているセンテンス)を構成するフレーズの情報を表示する使用する使用フレーズ一覧630(遅延時間632、ID634,フレーズのテキスト情報636)が表示されるようにしてもよい。遅延時間632はセンテンスの音声を再生する際にフレーズの前に設けられる無音区間の長さを示している。フレーズの前に設けられる無音区間の長さは、例えばデフォルトとして所定の値が設定され、変更したい場合には各遅延時間(632)欄に設定したい無音区間の長さを示すms単位の時間を入力し、Delay値変更ボタン660を押すことで変更できるようにしてもよい
また登録されている複数のセンテンスに使用される全フレーズ一覧650(ID652、フレーズのテキストデータ654)が表示されるようにしてもよい。
また音声再生ボタン670を押すと、センテンス一覧で選択されているセンテンス(例えばカーソルが位置づけられているセンテンス)の音声が再生されるようにしてもよい。
音声再生出力処理部が、センテンス情報の待ち時間情報(図9の待ち時間632)に基づき、フレーズの前又はフレーズ間に無音区間を設定してセンテンスを構成するフレーズの音声データの音声を再生出力するようにしてもよい。このようにするとフレーズの前又はフレーズ間に設定した無音区間を反映させたセンテンスを発話させて、その場で音の確認を行うことができる。
なおフレーズに対応した音声データがまだ生成されていない場合にはフレーズに対応した音声データを生成して発話させるようにしてもよい。フレーズに対応した音声データの生成はセンテンスが登録されてセンテンスに対応したフレーズ情報が生成される際に行うようにしてもよいし、ROMファイル作成時に行うようにしてもよい。
センテンスを構成する全フレーズの音声データが格納されたROMファイルを作成するためのROMファイル作成画面が選択されると、リスト情報に基づきROMファイルイ作成画面を表示して、ROMファイルの作成処理を行う(ステップS40)。
図10は、ROMファイル作成画面の一例を示す図である。例えば図10示すように、ROMファイル格納フレーズ一覧710(ID712,フレーズのテキスト情報714)が表示されるようにしてもよい。そしてROMファイル作成ボタン720が押されると、ROMファイル格納フレーズ一覧710の全フレーズに対応して生成されたフレーズの音声データ(ROMイメージ)が、指定されたメモリ媒体の領域(ROM)に書き込まれる。またサイズチェックボタン730が押されると、メモリ(ROM)への書き込みデータサイズを計算して表示してもよい(752参照)。またメモリ(ROM)への書き込みデータに対応したセンテンスの再生時間を計算して表示してもよい(754参照)。
ユーザーは、メモリ(ROM)への書き込みデータサイズ752やセンテンスの再生時間754を参照して、ROMに書き込むフレーズの追加又は削除を行うようにしてもよい。また今後のために現在発話予定のセンテンスにはないフレーズに対応した音声データを生成してROMに格納できるようにしてもよい。例えば追加ボタン740を押すことで、フレーズの追加が行えるようにしてもよい。
図11、図12(A)〜(C)は、本実施の形態の音声データ作成ツールで行われる各処理について説明するための図である。
本実施の形態では図6、8〜10に示すような各編集画面を表示し、各編集画面からフレーズやセンテンスに関する編集入力情報を受け付ける編集画面表示処理(P1)をおこなうようにしてもよい。
また本実施の形態では、編集画面において行われる編集入力による編集結果に基づきフレーズ情報やセンテンス情報等のリスト情報を生成するリスト情報生成処理(P2)を行っても良い。フレーズ情報は、フレーズ単位でデータを管理するためのデータ構造をもつデータの集合であり、例えば図2に示すように各フレーズを特定するための識別IDやインデックスに対応付けてフレーズの音声データファイルや音声の読み方データや再生時間やデータのサイズやフレーズが使用されるカウント値等が記憶されていてもよい。フレーズ情報に基づきフレーズ編集画面を生成して表示部に出力してもよい。
センテンス情報は、例えば図2に示すようにセンテンス単位でデータを管理するためのデータ構造をもつデータの集合であり、各センテンスを特定するための識別IDやインデックスに対応付けてセンテンスのテキストデータやサイズ情報や再生時間情報や読み方情報やセンテンスを構成するフレーズとフレーズの前またはフレーズ間に設定される待ち時間情報をふくんでもよい。センテンス情報に基づきセンテンス編集画面を生成して表示部に出力してもよい。
また編集画面から受け付けた編集入力情報に基づき、フレーズに対応した音声データを作成して保持する音声データ生成処理を(P3)を行うようにしてもよい。生成された音声データはフレーズ単位で圧縮され、フレーズ単位の音声ファイルとして保持されてもよい。
例えばADPCM形式やAAC−LC形式の音声データファイルでもよい。フレーズに対応した音声データを作成する際に、音声データの読み方情報や、フレーズ音声の再生時間等の付随データを生成して、作成した音声データのファイルに関連づけて保持してもよい。
フレーズに対応した音声データを生成するタイミングは、センテンスが登録されてセンテンスに対応したフレーズ情報が生成される際でもよいし、ROMファイル作成時でもよいし、編集画面からセンテンスやフレーズの音声の再生指示が行われた際でもよい。
また本実施の形態では、センテンスのテキスト入力を受け付けフレーズに分割するセンテンス分割処理(P4)を行ってもよい。例えばセンテンス編集画面のセンテンス欄からセンテンスのテキスト入力を受け付け、入力されたセンテンスのテキストをフレーズに分割する処理をおこなうようにしてもよい。例えば図7で説明したように、前記センテンスのテキストデータに含まれたフレーズの区切りを示す区切りデータに基づき前記センテンス分割処理を行ってもよい。
図12(A)(B)は、フレーズ情報作成とフレーズ分割処理の成功例と失敗例を模式的に示した図である。
例えば図12(A)に示すように「AAACCC」なるセンテンスが入力されると、センテンス分割処理が行われ、「AAA」「CCC」という2つのフレーズに分割される。センテンス分割処理は、センテンスの構文解析により行われても良いし、フレーズ区切りデータ等に基づき行われても良い。
センテンス分割処理により抽出されたフレーズ「AAA」、「CCC」に関するフレーズ情報が登録されていない場合には、図12(B)に示すように抽出されたフレーズ「AAA」、「CCC」に関するフレーズ情報(リスト情報の一例)が登録される。
なお抽出されたフレーズがフレーズ情報に登録されているか否かは、抽出されたフレーズのテキストデータと登録されているフレーズに対応するテキストデータを比較照合して判断してもよい。
センテンス分割結果は図9に示すようにセンテンス/フレーズ関連確認画面に表示されるようにしてもよい。
また本実施の形態では、指定されたフレーズに基づきセンテンスを生成するフレーズ結合処理(P5)をおこなってもよい。例えばフレーズデータ「AAA」と「BBB」がこの順序で選択された場合、フレーズデータ「AAA」と「BBB」をつなぎ合わせてセンテンス「AAABBB」を生成してもよい。
また本実施の形態では、生成したセンテンスやフレーズの音声再生を行わせ、再生評価を行う再生評価処理(P6)を行っても良い。センテンスの再生評価処理(P6)は、センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データを記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力する処理を行ってもよい。またセンテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力をおこなってもよい。センテンスの音声の再生はセンテンス編集画面(図6)の音声再生ボタン460や、センテンス/フレーズ関連確認画面(図8)の音声再生ボタン670を押すことにより行うことができる。
またフレーズの音声の再生はフレーズ編集画面(図8)の音声再生ボタン530やROM作成画面(図10)の音声データ確認ボタン760を押すことにより行うことができる。
また本実施の形態では、フレーズの前又はフレーズ間に遅延時間を設定し、フレーズ間隔の調整を行うフレーズ間隔の調整処理(P7)を行ってもよい。フレーズ間隔の調整処理(P7)として、センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、待ち時間情報を含むセンテンス情報の生成を行ってもよい。
また本実施の形態では、作成したセンテンスを発話させるために必要な音声データをメモリに格納する際のROMイメージ(ROMに格納するデータの内容)を生成するROMイメージ生成処理(P9)をおこなってもよい。ROMイメージ生成処理(P9)では、フレーズ情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データを記憶部から読み出して、音声データメモリに書き込むメモリ書き込み情報(ROMイメージ)を生成して、格納対象となるメモリ(ROM)に書き込むようにしてもよい。このようにすると複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報(ROMイメージ)を生成することができる。
また本実施の形態では、センテンス音声を合成するためにROMイメージから読み出す音声データとその再生順序を指示する音声再生コマンドを生成する音声再生コマンド生成処理(P9)をおこなってもよい。音声再生コマンド生成処理(P9)では、センテンス情報のフレーズ特定情報に基づきセンテンスを構成するフレーズに対応した音声データを音声データメモリに格納されたメケンス情報に従って読み出した音声データの音声を再生出力するための指示を行う音声再生コマンドを生成してもよい。
なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。
10 音声合成IC、20 内蔵ROM、100 音声データ作成ツール(プログラム、システム)、110 処理部、120 編集処理部、122 リスト情報精製処理部、124 メモリ書き込み情報(ROMイメージ)生成部、126 音声再生コマンド生成部、130 フレーズ音声データ生成部、140 音声再生出力処理部、150 不揮発性記憶部、152 メモリ書き込み情報、154 音声再生コマンド、160 操作部、170 記憶部、172 フレーズ音声データ記憶部、174 リスト情報記憶部、180 情報記憶媒体、182 辞書データ記憶部(TTS音声合成用辞書)、190 表示部、192 音出力部、196 通信部

Claims (14)

  1. 音声データ作成システムであって、
    テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、
    複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、
    編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、
    前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、
    前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部とを含み、
    前記編集処理部は、
    編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
    前記リスト情報生成処理部は、
    センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
    前記フレーズ音声データ生成部は、
    前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
    前記メモリ書き込み情報生成部は、
    複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする音声データ作成システム。
  2. 請求項1において、
    前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、
    前記編集処理部は、
    前記区切りデータに基づき前記センテンス分割処理を行うことを特徴とする音声データ作成システム。
  3. 請求項1又は2のいずれかにおいて、
    前記メモリ書き込み情報生成部は、
    前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力することを特徴とする音声データ作成システム。
  4. 請求項1乃至3のいずれかにおいて、
    前記編集処理部は、
    センテンスを構成するフレーズを表示する表示出力処理を行うことを特徴とする音声データ作成システム。
  5. 請求項1乃至4のいずれかにおいて、
    前記編集処理部は、
    編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、
    前記リスト情報生成処理部は、
    フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うことを特徴とする音声データ作成システム。
  6. 請求項1乃至5のいずれかにおいて、
    前記編集処理部は、
    前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力することを特徴とする音声データ作成システム。
  7. 請求項6において、
    前記編集処理部は、
    前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新することを特徴とする音声データ作成システム。
  8. 請求項1乃至7のいずれかにおいて、
    前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する音声再生出力処理部を含むことを特徴とする音声データ作成システム。
  9. 請求項1乃至8のいずれかにおいて、
    前記編集処理部は、
    センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、
    前記リスト情報生成処理部は、
    前記待ち時間情報を含むセンテンス情報の生成を行うことを特徴とする音声データ作成システム。
  10. 請求項9において、
    前記音声再生出力処理部は、
    前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力することを特徴とする音声データ作成システム。
  11. 請求項1乃至10のいずれかにおいて、
    前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する音声再生コマンド生成処理部を含むことを特徴とする音声データ作成システム。
  12. コンピュータを音声データ作成システムとして動作させるためのプログラムであって、
    テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、
    複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、
    編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、
    前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、
    前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部としてコンピュータを機能させ、
    前記編集処理部は、
    編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
    前記リスト情報生成処理部は、
    センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
    前記フレーズ音声データ生成部は、
    前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
    前記メモリ書き込み情報生成部は、
    複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とするプログラム。
  13. 不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
    テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部を用意する手順と、
    複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理手順と、
    編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理手順と、
    前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成手順と、
    前記リスト情報に基づき、前記不揮発性記憶部への格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成手順とを含み、
    前記編集処理手順において、
    編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
    前記リスト情報生成処理手順において、
    センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
    前記フレーズ音声データ生成手順において、
    前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
    前記メモリ書き込み情報生成手順において、
    複数のセンテンスで使用されているフレーズまたは1つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする半導体集積回路装置の製造方法。
  14. 請求項1乃至11に記載の音声データ作成システムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、
    前記音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出して再生出力する音声合成部と、
    を含む半導体集積回路装置。
JP2009046338A 2008-05-07 2009-02-27 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 Withdrawn JP2009294640A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009046338A JP2009294640A (ja) 2008-05-07 2009-02-27 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
US12/431,369 US20090281808A1 (en) 2008-05-07 2009-04-28 Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008121523 2008-05-07
JP2009046338A JP2009294640A (ja) 2008-05-07 2009-02-27 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法

Publications (1)

Publication Number Publication Date
JP2009294640A true JP2009294640A (ja) 2009-12-17

Family

ID=41267589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009046338A Withdrawn JP2009294640A (ja) 2008-05-07 2009-02-27 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法

Country Status (2)

Country Link
US (1) US20090281808A1 (ja)
JP (1) JP2009294640A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013231872A (ja) * 2012-04-27 2013-11-14 Yamaha Corp 歌唱合成を行うための装置およびプログラム
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105306420B (zh) * 2014-06-27 2019-08-30 中兴通讯股份有限公司 实现从文本到语音业务循环播放的方法、装置及服务器
EP3073487A1 (en) * 2015-03-27 2016-09-28 Ricoh Company, Ltd. Computer-implemented method, device and system for converting text data into speech data
US10923105B2 (en) * 2018-10-14 2021-02-16 Microsoft Technology Licensing, Llc Conversion of text-to-speech pronunciation outputs to hyperarticulated vowels
CN110211374A (zh) * 2019-05-22 2019-09-06 广东慧讯智慧科技有限公司 交通指挥方法、装置、系统、设备及计算机可读存储介质
CN112216275A (zh) * 2019-07-10 2021-01-12 阿里巴巴集团控股有限公司 一种语音信息的处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07271395A (ja) * 1994-04-01 1995-10-20 Sanyo Electric Works Ltd 放送用基本音声パターン収集方法及びその装置
JP2000047848A (ja) * 1998-07-28 2000-02-18 Matsushita Electric Works Ltd 音声出力制御システム
JP2004170887A (ja) * 2002-11-22 2004-06-17 Canon Inc データ処理システム及びデータ格納方法
JP2004287192A (ja) * 2003-03-24 2004-10-14 Equos Research Co Ltd 合成音声編集装置及び合成音声編集プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4857030A (en) * 1987-02-06 1989-08-15 Coleco Industries, Inc. Conversing dolls
US5991722A (en) * 1993-10-28 1999-11-23 Vectra Corporation Speech synthesizer system for use with navigational equipment
US5832432A (en) * 1996-01-09 1998-11-03 Us West, Inc. Method for converting a text classified ad to a natural sounding audio ad
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6161092A (en) * 1998-09-29 2000-12-12 Etak, Inc. Presenting information using prestored speech
DE69940747D1 (de) * 1998-11-13 2009-05-28 Lernout & Hauspie Speechprod Sprachsynthese mittels Verknüpfung von Sprachwellenformen
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US6801894B2 (en) * 2000-03-23 2004-10-05 Oki Electric Industry Co., Ltd. Speech synthesizer that interrupts audio output to provide pause/silence between words
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US20050144015A1 (en) * 2003-12-08 2005-06-30 International Business Machines Corporation Automatic identification of optimal audio segments for speech applications
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US20070073542A1 (en) * 2005-09-23 2007-03-29 International Business Machines Corporation Method and system for configurable allocation of sound segments for use in concatenative text-to-speech voice synthesis
US20070203706A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Voice analysis tool for creating database used in text to speech synthesis system
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US8086457B2 (en) * 2007-05-30 2011-12-27 Cepstral, LLC System and method for client voice building
US20090171665A1 (en) * 2007-12-28 2009-07-02 Garmin Ltd. Method and apparatus for creating and modifying navigation voice syntax

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07271395A (ja) * 1994-04-01 1995-10-20 Sanyo Electric Works Ltd 放送用基本音声パターン収集方法及びその装置
JP2000047848A (ja) * 1998-07-28 2000-02-18 Matsushita Electric Works Ltd 音声出力制御システム
JP2004170887A (ja) * 2002-11-22 2004-06-17 Canon Inc データ処理システム及びデータ格納方法
JP2004287192A (ja) * 2003-03-24 2004-10-14 Equos Research Co Ltd 合成音声編集装置及び合成音声編集プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013231872A (ja) * 2012-04-27 2013-11-14 Yamaha Corp 歌唱合成を行うための装置およびプログラム
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置

Also Published As

Publication number Publication date
US20090281808A1 (en) 2009-11-12

Similar Documents

Publication Publication Date Title
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US20190196666A1 (en) Systems and Methods Document Narration
US9478219B2 (en) Audio synchronization for document narration with user-selected playback
US8359202B2 (en) Character models for document narration
US8370151B2 (en) Systems and methods for multiple voice document narration
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP2009294640A (ja) 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
EP2779159A1 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
Aylett et al. Combining statistical parameteric speech synthesis and unit-selection for automatic voice cloning
JP2005031150A (ja) 音声処理装置および方法
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2004145015A (ja) テキスト音声合成システム及び方法
JP2009271209A (ja) 音声メッセージ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP2009020264A (ja) 音声合成装置及び音声合成方法並びにプログラム
JP2006349787A (ja) 音声合成方法および装置
JP2014197117A (ja) 音声合成装置及び言語辞書登録方法
JP2009251015A (ja) 音声編集プログラム、音声編集システム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2006091105A (ja) 単語学習装置及びその音声出力方法並びにプログラム
Yamagishi et al. Combining Statistical Parameteric Speech Synthesis and Unit-Selection for Automatic Voice Cloning

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101117

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20110117