JP2009294640A

JP2009294640A - 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法

Info

Publication number: JP2009294640A
Application number: JP2009046338A
Authority: JP
Inventors: Atsushi Nakamura; 淳中村; Fumihito Baisho; 文仁倍賞
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2008-05-07
Filing date: 2009-02-27
Publication date: 2009-12-17
Also published as: US20090281808A1

Abstract

【課題】電子機器等で出力予定の音声ガイドメッセージの編集からメモリ書き込み情報の作成までを自動化し、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを効率よく生成する。
【解決手段】編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割し、分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないようにメモリへの格納対象フレーズを決定する。
【選択図】図１

Description

本発明の幾つかの態様は、音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法等に関する。

ホストプロセッサ、音声ＩＣを搭載し、ホストプロセッサと音声ＩＣが連動して音声でメッセージを出力する音声再生システムが搭載された電子機器が知られている。

特開２００２−０２３７８１号

電子機器等にユーザーインターフェースとして予め設定された音声ガイドメッセージを出力する音声機能を持たせる場合、出力予定音声ガイドメッセージに対応した音声データファイルを音声再生装置（音声ガイドＩＣ）の内蔵ＲＯＭに格納して、ホストからのコマンドに基づき、内蔵ＲＯＭから読み出した音声データを再生出力させる方式の音声再生システムが知られている。

このような音声ガイドＩＣ用の音声データ作成システムにおいて、従来は単一のテキストを入力して、音声合成処理により、単一のテキストに対応する単一の音声ファイルを作成していた。そのため、複数の音声メッセージデータを作成する場合は、「テキストの入力一音声ファイルの作成」の手順を作成するメッセージ数分だけ繰り返す必要があった。また、単一の音声ファイルしか作成できないため、音声ガイドＩＣの内蔵ＲＯＭ及び外部ＲＡＭに格納するＲＯＭイメージファイルを作成する場合、ＲＯＭに格納する複数の音声メッセージデータをすべて作成し終えないと、ＲＯＭイメージファイルを作成できなかった。そのため、「テキスト入力→音声データ作成→ＲＯＭイメージファイル作成」が困難であるという問題があった。

また複数の音声ガイドメッセージを発話予定である場合には、複数の音声ガイドメッセージの再生に必要十分な音声ファイルをもれなく確実に格納することが好ましい。

本発明は、以上のような技術的課題に鑑みてなされたものである。本発明の幾つかの態様によれば、電子機器等で出力予定の音声ガイドメッセージの編集からメモリ書き込み情報（ＲＯＭイメージファイル）の作成までを自動化し、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを効率よく生成するための音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法を提供できる。

（１）本発明は、
音声データ作成システムであって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部とを含み、前記編集処理部は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部は、複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。

フレーズとは例えば文節や文の一部である。センテンスとは例えば文であり、電子機器などの音声ガイドメッセージとして使用される文でもよい。テキストデータは文字（かな文字やカナ文字や漢字や数字を示すコード）データでもよい。例えばＡＳＣＩＩコードやＪＩＳコードで構成されたテキストデータであってもよい。

フレーズ音声データ生成部は、フレーズのテキストデータに対した音声データをＴＴＳ方式で生成するものであり、例えば既存のＴＴＳツールを用いて実現してもよい。

フレーズの特定情報とは、フレーズに対応した音声データのファイル情報にアクセス可能な情報であり、フレーズデータの識別ＩＤやフレーズデータへのインデックスでもよい（フレーズデータの識別ＩＤやフレーズデータへのインデックスに関連づけてフレーズの音声データファイルのファイル名称が記憶されていればよい）。

センテンス情報は、センテンスを構成するフレーズのフレーズ特定情報（又はフレーズの音声データのファイル情報（ファイル名称））を、シーケンス情報に従って並べた形式でもよく、センテンスの識別ＩＤに関連づけて記憶されていてもよい。

またリスト情報は、フレーズ特定情報に関連づけてフレーズの音声データファイル情報（例えばファイル名）や再生時間や音声データファイルのサイズ情報等のフレーズ情報を含んでもよい。

フレーズ音声データ生成部は、生成した音声データを圧縮してフレーズ単位でファイル化して保持してもよい。

リスト情報（フレーズ情報）として、例えば当該フレーズがセンテンスに使用される使用回数情報や、メモリ（ＲＯＭ）への書き込みの有無の情報を含む場合、使用回数情報が1回以上であるフレーズとメモリ（ＲＯＭ）への書き込むの有無の情報が書き込み有りとなっているフレーズを格納対象フレーズとして決定してもよい。

本発明によればリスト情報に基づきフレーズ単位でメモリ（ＲＯＭ）への書き込みの有無を決定するので、複数のセンテンスで使用されているフレーズについても同じ音声データが重複して書き込まれないようにメモリ書き込み情報（ＲＯＭイメージ）を生成することができる。このため複数のセンテンスで共用されるフレーズや１つのセンテンスで複数回使用されるフレーズについても、フレーズの音声データは１つしか格納されないので、メモリサイズの増大を防ぐことができる。

例えば前記リスト情報生成処理部が、複数のセンテンスで使用されるフレーズ又は１つのセンテンスで複数回使用されるフレーズの使用回数をカウントしてカウント値をフレーズ情報として保持してもよい。なお所定のフレーズについては音質の異なる音声データのファイル（ファイルサイズの異なる音声データファイル）を複数用意し、当該フレーズの使用回数のカウント値に応じて使用する異なる音質の音声データのファイルを使用するようにしてもよい。例えば使用頻度の高いフレーズについては品質のよい音声データのファイルを使用するようにしてもよい。このようにすることで、効率よく音質を向上させることができる。

本発明によれば、音声ガイドメッセージとなる複数のテキストデータの編集からメモリ書き込み情報（ＲＯＭイメージファイル）の作成までを１つのツールで実現しており、複数の音声ガイドメッセージの再生に必要十分な音声ファイルを自動的にもれなくかつ効率よく生成することができる。

（２）この音声データ作成システムは、
前記センテンスのテキストデータが、フレーズの区切りを示す区切りデータを含み、前記編集処理部は、前記区切りデータに基づき前記センテンス分割処理を行ってもよい。

区切りデータは例えばスペースデータでもよいし、所定の文字や記号を示すテキストデータでもよい。

例えばセンテンスが”電源を切って下さい”に対して”電源を”、”電源を切って”、”切って下さい”、”下さい”等の文言の一部が重複するフレーズのフレーズデータが存在する場合に、センテンスを”電源を切って下さい”と言うように切りたい場所をスペースで明示する事で意図するフレーズに展開されるようにすることができる。

（３）この音声データ作成システムは、
前記メモリ書き込み情報生成部が、前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。

フレーズ音声データ生成部が、フレーズに対応した音声データを作成する際に音声データのファイルサイズ情報を生成して、音声データファイルやフレーズ特定情報に関連づけて保持し、前記メモリ書き込み情報生成部が、格納対象フレーズの音声データのファイルサイズ情報に基づき前記メモリ書き込み情報の合計サイズを算出してもよい。

なお使用するメモリサイズ情報と前記合計サイズを比較して、比較結果を出力するようにしてもよい。使用するメモリサイズ情報が前記合計サイズより小さいと判断した場合には、警告情報を出力するようにしてもよい。

（４）この音声データ作成システムは、
前記編集処理部が、センテンスを構成するフレーズを表示する表示出力処理を行ってもよい。

このようにすると、センテンスとセンテンスを構成するフレーズの確認を行うことができる。

（５）この音声データ作成システムは、
前記編集処理部が、編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、前記リスト情報生成処理部が、フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行ってもよい。

（６）この音声データ作成システムは、
前記編集処理部が、前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力してもよい。

（７）この音声データ作成システムは、
前記編集処理部が、前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新してもよい。

（８）この音声データ作成システムは、
前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する音声再生出力処理部を含んでもよい。

フレーズ特定情報に関連づけて保持されている音声データ読み出して、シーケンス情報に従って再生出力してもよい。

（９）この音声データ作成システムは、
前記編集処理部が、センテンスを構成するフレーズの前及びフレーズ間の少なくとも１つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、前記リスト情報生成処理部が、前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。

センテンス情報は、各センテンス毎にセンテンス識別ＩＤに関連づけて、センテンスを構成するフレーズのフレーズ特定情報又はフレーズの音声データのファイル情報（ファイル名称）と、フレーズの前またはフレーズ間に設定する待ち時間情報を、再生順序（シーケンス情報）に従って並べた情報でもよい。

（１０）この音声データ作成システムは、
前記音声再生出力処理部が、前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。

（１１）この音声データ作成システムは、
前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する音声再生コマンド生成処理部を含んでもよい。

（１２）本発明は、
コンピュータを音声データ作成システムとして動作させるためのプログラムであって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部としてコンピュータを機能させ、前記編集処理部は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部は、複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。

（１３）本発明は、
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部を用意する手順と、複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理手順と、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理手順と、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成手順と、前記リスト情報に基づき、前記不揮発性記憶部への格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成手順とを含み、前記編集処理手順において、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理手順において、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成手順において、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成手順において、複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする。

（１４）本発明は、
上記のいずれかに記載の音声データ作成システムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、前記音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出して再生出力する音声合成部と、を含む半導体集積回路装置である。

本発明の半導体集積回路装置は、例えば電子機器等に搭載される音声ＩＣであり、ホストプロセッサ（同じく電子機器に搭載）、ホストプロセッサと連動して音声でメッセージを出力するものである。ホストプロセッサから音声再生コマンドを受け取るようにしてもよい。

本実施の形態の音声データ作成システムの機能ブロック図の一例。フレーズの音声データとフレーズ情報について説明するための図。フレーズデータとフレーズ編集情報について説明するための図。センテンス情報について説明するための図。図４（Ａ）はメモリ書き込み情報（ＲＯＭイメージ）の生成過程について説明するための図。図４（Ｂ）はメモリ書き込み情報（ＲＯＭイメージ）の使用形態について説明するための図。センテンス編集からＲＯＭファイル作成までの流れを示すフローチャート。センテンス編集画面の一例を示す図。入力されるセンテンスの一例を示す図。フレーズ編集画面の一例を示す図。センテンス／フレーズ関連確認画面の一例を示す図。ＲＯＭファイル作成画面の一例を示す図。音声データ作成ツールで行われる各処理について説明するための図。音声データ作成ツールで行われる各処理について説明するための図。

以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。

図１は、本実施の形態の音声データ作成システムの機能ブロック図の一例である。
なお、本実施形態の音声データ作成システム１００は、図１の構成要素（各部）を全て含む必要はなく、その一部を省略した構成としてもよい。

操作部１６０は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。

記憶部１７０は、処理部１１０や通信部１９６などのワーク領域となるもので、その機能はＲＡＭなどのハードウェアにより実現できる。

記憶部１７０は作成されたフレーズの音声データを保持する（記憶する）フレーズ音声データ記憶部１７２として機能するようにしてもよい。

また記憶部１７０は、各センテンスと各センテンスを構成するフレーズに関するリスト情報を保持する（記憶する）リスト情報記憶部として機能するようにしてもよい。
情報記憶媒体１８０（コンピュータにより読み取り可能な媒体）は、プログラムやデータなどを格納するものであり、その機能は、光ディスク（ＣＤ、ＤＶＤ等）、光磁気ディスク（ＭＯ）、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ（ＲＯＭ）などのハードウェアにより実現できる。

また情報記憶媒体１８０には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ（付加データ）が記憶される。例えばテキストデータに対応した合成音声データを生成するための辞書データが記憶された辞書データ記憶部１８２として機能するようにしてもよい。

処理部１００は、この情報記憶媒体１８０に格納されるプログラム（データ）や情報記憶媒体１８０から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体１８０には、本実施形態の各部としてコンピュータを機能させるためのプログラム（各部の処理をコンピュータに実行させるためのプログラム）が記憶される。

表示部１９０は、本実施形態により生成された画像を出力するものであり、その機能は、ＣＲＴディスプレイ、ＬＣＤ（液晶ディスプレイ）、ＯＥＬＤ有機ＥＬディスプレイ、ＰＤＰ（プラズマディスプレイパネル）、タッチパネル型ディスプレイなどのハードウェアにより実現できる。表示部には本実施の形態の編集画面（図６、図８〜図１０）等が表示される。

音出力部１９２は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。

通信部１９６は、外部（例えばホスト装置や他の端末機）との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ＡＳＩＣなどのハードウェアや、プログラムなどにより実現できる。

なお本実施形態の各部としてコンピュータを機能させるためのプログラム（データ）は、ホスト装置（サーバ装置）が有する情報記憶媒体からネットワーク及び通信部１９６を介して情報記憶媒体１８０（あるいは記憶部１７０）に配信するようにしてもよい。このようなホスト装置（サーバ装置等）の情報記憶媒体の使用も本発明の範囲内に含めることができる。

不揮発性記憶部１５０は、不揮発性メモリとして機能する記憶媒体で構成され、例えば電子機器に組み込まれる音声合成ＩＣの内蔵ＲＯＭとして使用されるＲＯＭでもよい。不揮発性記憶部１５０には、メモリ書き込み情報１５２が書き込まれるようにしてもよい。また不揮発性記憶部１５０には、音声再生コマンド１５４が書き込まれるようにしても良い。

処理部１１０（プロセッサ）は、操作部１６０からの操作データやプログラムなどに基づいて、記憶部１７０をワーク領域として各種処理を行う。処理部１１０の機能は各種プロセッサ（ＣＰＵ、ＤＳＰ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムにより実現できる。

処理部１１０は、編集処理部１２０、リスト情報生成処理部１２２、メモリ書き込み情報生成部１２４、音声再生コマンド生成部１２６、フレーズ音声データ生成部１３０、音声再生出力処理部１４０を含んでもよい。

編集処理部１２０は複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行い、リスト情報生成処理部１２２は、編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行い、フレーズ音声データ生成部１３０は、前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持し、メモリ書き込み情報生成部１２４は、前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含む。前記編集処理部１２０は、編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、前記リスト情報生成処理部１２２は、センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、前記フレーズ音声データ生成部１３０は、前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、前記メモリ書き込み情報生成部１２４は、複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定する。

また前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、前記編集処理部１２０は、前記区切りデータに基づき前記センテンス分割処理を行ってもよい。

また前記メモリ書き込み情報生成部１２４は、前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。

また前記編集処理部１２０は、センテンスを構成するフレーズを表示する表示出力処理を行ってもよい。

また前記編集処理部１２０は、編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、前記リスト情報生成処理部１２２は、フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行ってもよい。

また前記編集処理部１２０は、前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力してもよい。

また前記編集処理部１２０は、前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新してもよい。

音声再生出力処理部１４０は、前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する。

また前記編集処理部１２０は、センテンスを構成するフレーズの前及びフレーズ間の少なくとも１つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、前記リスト情報生成処理部１２２は、前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。
また前記音声再生出力処理部１４０は、前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。

音声再生コマンド生成処理部１４０は、前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する。

図２は、フレーズの音声データとフレーズ情報（リスト情報の一例）について説明するための図である。

フレーズの音声データ２０２は、フレーズ音声データ生成部１３０が、辞書データ記憶部１８２に記憶されている辞書データに基づき、ＴＴＳ方式によりフレーズ単位に生成した音声データである。この音声データは、既存の音声再生システムによって再生可能な音データのファイルであり、圧縮された音ファイルでもよい。

フレーズ情報２００は、フレーズの音声データ２０２が格納されている音声データファイル名２０４（フレーズの音声データのファイル情報、フレーズの音声データ２０２に対応した音声ログ情報２１０を含み、フレーズ識別ＩＤ２０６に対応付けて記憶されるようにしてもよい。

音声ログ情報２１０は、フレーズ読み方に関するテキストデータであるテキスト情報２１２を含んでもよい。また音声ログ情報２１０は、フレーズの音声データが格納されたファイルのサイズ情報（バイト数等）２１４を含んでもよい。また音声ログ情報２１０は、フレーズの音声ファイルの再生時間情報（ms）２１６を含んでもよい。また音声ログ情報２１０は、ＴＴＳパラメータやデータフォーマット情報等の図示しないその他の情報を含んでもよい。音声ログ情報２１０はフレーズの音声データ２０２生成時に付随して生成されたものでもよい。

フレーズ編集情報２２０は、本実施の形態の編集処理の結果に基づきフレーズ単位に生成される情報であり、フレーズ識別ＩＤ２０６に関連づけて保持される。フレーズ編集情報２２０は、センテンスに使用される使用回数情報２２２を含んでもよい。またフレーズ編集情報２２０は、ＲＯＭへの書き込みの有無を指示するためのＲＯＭ書き込みの情報２２４を含んでもよい。またフレーズ編集情報２２０は、フレーズの読み方をかたかな又はひらがなで表示した読み方情報２２６を含んでもよい。読み方情報２２６は、編集入力情報基づき作成、更新されるようにしてもよい。

図３は、センテンス情報（リスト情報の一例）について説明するための図である。

センテンス情報２４０は、本実施の形態の編集処理の結果に基づき生成される情報であり、センテンス識別ＩＤ２４２に関連づけて記憶されるようにしてもよい。

センテンス情報２４０は、センテンスを構成するフレーズのテキスト情報２４４を含んでもよい。

センテンス情報２４０は、センテンスのサイズ情報２４６を含んでもよい。センテンスのサイズ情報２４６はセンテンスを構成するフレーズの音声データファイルの合計バイト数でもよい。また待ち時間を無音の音声データとして有する場合にはこの無音区間データを含む合計のバイト数でもよい。

センテンス情報２４０は、センテンスの再生時間情報２４８を含んでもよい。センテンスの再生時間情報２４８は、センテンスを構成するフレーズの音声ファイルの再生時間の合計時間でもよい。またフレーズの前後やフレーズ間に設定された待ち時間も含んだ合計時間でもよい。

センテンス情報２４０は、センテンスの読み方をかたかな又はひらがなで表示した読み方情報２５０を含んでもよい。読み方情報２５０は、編集入力によって作成、更新されるようにしてもよい。

センテンス情報２４０は、センテンスを構成するフレーズ特定情報（１）２５４−１〜フレーズ特定情報（ｎ）２５４−ｎを含んでもよい。フレーズ特定情報（１）２５４−１〜フレーズ特定情報（ｎ）２５４−ｎは、フレーズに対応した音声データ（図２の２０２）のファイル情報にアクセス可能な情報であり、例えば音声データファイルのファイル名称（図２の２０４）でも良いし、フレーズ識別ＩＤ（図３の２０６）でもよい。フレーズ特定情報２５４−１〜２５４−ｎはフレーズの再生順序に従って並べるようにしてもよい（インデックスｎがフレーズの再生順序と一致している）。

センテンス情報２４０は、センテンスを構成するフレーズの前に設定されている待ち時間情報（１）２５２−待ち時間情報（ｎ）１〜２５２−ｎを含んでもよい。待ち時間情報（１）２５２−待ち時間情報（ｎ）１〜２５２−ｎは待ち時間の再生順序に従って並べるようにしてもよい（インデックスｎがフレーズの再生順序と一致している）。

フレーズ特定情報２５４−１〜２５４−ｎや待ち時間情報２５２−１〜２５２−ｎを再生順序に従って並べることで、フレーズの再生順序に関するシーケンス情報として機能させることができる。

図４（Ａ）はメモリ書き込み情報（ＲＯＭイメージ）の生成過程について説明するための図であり、図４（Ｂ）はメモリ書き込み情報（ＲＯＭイメージ）の使用形態について説明するための図である。

１００は、本実施の形態の音声データ作成ツール（プログラム又はシステム）である。１０は電子機器等に組み込まれユーザーインターフェースとして予め設定されたメッセージを出力する音声機能を有するＩＣである。音声合成ＩＣ１０は、内蔵ＲＯＭ２０に格納されたＲＯＭイメージ１５２と音声再生コマンド１５４に基づきセンテンスに対応した音声を再生出力する。

本実施の形態では、音声データ作成ツール１００を用いることにより編集入力情報１６２に基づいて、音声合成ＩＣ１０の内蔵ＲＯＭに格納するＲＯＭイメージ（フレーズの音声データの集合）１５２と音声再生コマンド１５４を生成することができる。

本音声データ作成ツール１００は、例えばパーソナルコンピュータ（ＰＣ）等に本実施の形態の音声データ作成プログラムをインストールすることで音声データ作成システムとして動作させることができる。

ユーザーは音声データ作成ツール１００を用いて、音声合成ＩＣ１０に発話させたい音声ガイドメッセージ（センテンス）を編集して、編集した音声ガイドメッセージの音声再生を行うために必要なフレーズの音声データのファイルの集合であるＲＯＭイメージ１５２と、ＲＯＭイメージの音声データファイルを読み出して音声ガイドメッセージ（センテンス）の音声再生を行うための音声再生コマンド１５４を作成することができる。

音声データ作成ツール１００は、編集の際にＰＣの表示部に図６、図８〜図１０に示すような編集画面を表示し、ＰＣのキーボード等から編集入力情報１６２の入力を受け付けるようにしてもよい。そして編集入力情報１６２やＰＣの情報記憶媒体に記憶されたＴＴＳ用音声合成辞書（辞書データ）１８２に基づき、センテンスを構成するフレーズの音声データやリスト情報を生成し、生成した音声データやリスト情報に基づき、ＲＯＭイメージ（音声データメモリに書き込むメモリ書き込み情報）１５２と音声再生コマンド１５４を生成して出力するようにしてもよい。

編集入力情報１６２として編集画面からセンテンスのテキストデータを入力してもよい。

音声再生コマンド１５４は、例えばセンテンスを構成するフレーズのファイル特定情報（例えばファイル名称等）を再生順に並べた構成でもよい。

作成されたＲＯＭイメージ１５２は、電子機器等電子機器等に搭載する音声合成ＩＣ１０の内蔵メモリであるＲＯＭに格納してもよい。音声合成ＩＣ１０は、音声データ作成ツール１００によって生成されたＲＯＭイメージ（メモリ書き込み情報）１５２が記憶された内蔵ＲＯＭ（不揮発性記憶部）２０を含み、音声再生コマンド１５４を受け取り、受け取った音声再生コマンド１５４に基づき内蔵ＲＯＭ（不揮発性記憶部）２０から音声データを読み出してセンテンスに対応した音声ガイドメッセージを再生出力する音声再生部として機能する。音声再生コマンド１５４はホストコンピュータ（例えば電子機器等の主制御部）から受け取るようにしてもよい。

本実施の形態では、ＴＴＳ用音声合成辞書（辞書データ）１８２に基づきフレーズに対応した音声データをＴＴＳ（text-to-speech）方式で生成する。生成した音声データは圧縮された形式で保持してもよい。

ＴＴＳ方式には、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式があるが、そのいずれにも適用可能である。例えばコンキャティネイティブ方式やコーパスベース方式などの場合には音素辞書を有し、音声合成部は音素辞書に基づき読み表記に対応した合成音声の音声データを生成するようにしてもよい。

ＴＴＳ用音声合成辞書（辞書データ）１８２は、例えば語彙辞書や音素辞書を含む。語彙辞書は、テキスト表記に対応した読み表記が記憶されているデータ辞書であり、音素辞書は、声質を高めるのに効果的な多くのケースを網羅した辞書である。語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)（例えばテキスト表記に対応した読みのデータ）が格納された辞書でもよい。フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理（テキストの正規化、プリプロセッシング、トークン化などと呼ばれる）や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理（単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ）等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される構成でもよい。テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われるようにしてもよい。

音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音（音素）の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。

本実施の形態では、ＴＴＳ用音声合成辞書（辞書データ）１８２に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、センテンスを構成するフレーズのテキスト情報に対応した音声データを生成するようにしてもよい。

図５はセンテンス編集からＲＯＭファイル作成までの流れを示すフローチャート図である。

センテンスの登録、編集処理を行うためのセンテンス編集画面が選択されると、センテンス（音声ガイドメッセージ）のテキスト情報の入力をうけつけ、受け付けたセンテンス（音声ガイドメッセージ）のテキスト情報に基づき、リスト情報の生成や更新を行う（ステップＳ１０）。

図６はセンテンス編集画面の一例を示す図である。センテンス編集画面４００はセンテンスの新規登録や登録されているセンテンスの更新を行う編集画面である。例えば図６に示すように、登録されているセンテンスの情報（ＩＤ４１２やセンテンスのテキスト情報４１４）が表示されるようにしてもよい。

ユーザーは、センテンス編集画面４００のセンテンス欄４１０から音声ガイドメッセージとなるセンテンスをテキスト表記で入力して、センテンスの登録を行うことができ、登録されたセンテンスの情報にもとづきリスト情報が生成される。リスト情報は、例えばセンテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報やセンテンスを構成するフレーズの情報を含んでもよい。また例えば図２や図３に示すような情報をふくんでもよい。

図７は、入力されるセンテンスの一例を示す図である。「あたため時間は５分です」というテキストデータであるセンテンス４３０は、複数のフレーズ４４０−１、４４０−２、４４０−３を含む。本実施の形態では、センテンス４３０のテキストデータにフレーズ４４０−１、４４０−２、４４０−３の区切りを示す区切りデータ４２０−１、４２０−２を含んでもよい。ここでは区切りデータは「／」である場合を示しているが、これに限られず他の文字や記号でもよいし、空白でもよい。

このようにすると編集処理部１２０は、区切りデータ４２０−１、４２０−２に基づきセンテンス４５０をフレーズ４４０−１、４４０−２、４４０−３に分割するセンテンス分割処理を行うことができる。

フレーズの登録、編集処理を行うためのフレーズ編集画面が選択されると、フレーズ編集画面を表示し、フレーズ編集画面からのフレーズの編集入力を受け付けリスト情報の生成や更新を行う（ステップＳ２０）。

センテンスが登録されると、リスト情報として、センテンスに関するセンテンス情報を生成するようにしてもよい。

センテンスが登録されると、リスト情報として、センテンス情報やフレーズ情報を生成してもよい。センテンス情報は例えば図３に示すような情報を含んでもよい。またフレーズ情報は例えば図２に示すような情報を含んでもよい。

図８はフレーズ編集画面の一例を示す図である。フレーズ編集画面５００はフレーズの新規登録や登録されているフレーズの更新を行う編集画面である。例えば図８に示すように、登録されているフレーズの情報（ＩＤ５１２やフレーズのテキスト情報５１４、フレーズの読み方情報５１６）が表示されるようにしてもよい。

図６のセンテンス編集画面ではＩＤ（センテンス識別ＩＤ）が「s-0001」、「s-0002」、「s- 0003」の３つのセンテンスが登録されている様子が示されている。このような場合「あたため時間は５分です（s-0001）」、「解凍時間は５分です（s-0002）」、「生麦生米生卵隣の客はよく柿食う客だ（s-0003）」の３つのセンテンスのセンテンス情報と、３つのセンテンスを構成するフレーズ「あたため時間は」「５分」「です」「解凍時間は」「生麦」「生米」「生卵」「隣の客は」「よく柿食う」「客だ」の情報がフレーズ情報として登録されるようにしてもよい。ここでフレーズ「です」や「５分」は、複数のフレーズで使用されているが、フレーズデータとしては１つのみ登録される。このように本実施の形態では、複数のセンテンスで使用されるフレーズを重複して（別個に）登録せずに、１つのみ登録して、複数のセンテンスで共用するように構成されている。

センテンスとセンテンスを構成するフレーズの確認を行うためのセンテンス／フレーズ関連確認画面が選択されると、センテンス／フレーズ関連確認画面を表示し、センテンス／フレーズ関連確認画面からのフレーズの編集入力を受け付けリスト情報の生成や更新を行う（ステップＳ３０）。

センテンスが登録されると、センテンスを構成するフレーズと、複数のセンテンスを構成する全フレーズ一覧（センテンスに使用されるフレーズ一覧であって、複数のセンテンスで共用されるフレーズ又は１つのセンテンスで複数回使用されるフレーズについては１つのみ登録されるもの）を生成するようにしてもよい。

図９はセンテンス／フレーズ関連確認画面の一例を示す図である。センテンス／フレーズ関連確認画面６００はセンテンスとセンテンスを構成するフレーズ、複数のセンテンスで使用する全フレーズの確認、変更を行う編集画面である。

例えば図９示すように、登録されているセンテンス一覧６１０（ＩＤ６１２，センテンスのテキスト情報６１４）が表示されるようにしてもよい。またセンテンス一覧で選択されているセンテンス（例えばカーソルが位置づけられているセンテンス）を構成するフレーズの情報を表示する使用する使用フレーズ一覧６３０（遅延時間６３２、ＩＤ６３４，フレーズのテキスト情報６３６）が表示されるようにしてもよい。遅延時間６３２はセンテンスの音声を再生する際にフレーズの前に設けられる無音区間の長さを示している。フレーズの前に設けられる無音区間の長さは、例えばデフォルトとして所定の値が設定され、変更したい場合には各遅延時間（６３２）欄に設定したい無音区間の長さを示すｍｓ単位の時間を入力し、Delay値変更ボタン６６０を押すことで変更できるようにしてもよい
。

また登録されている複数のセンテンスに使用される全フレーズ一覧６５０（ＩＤ６５２、フレーズのテキストデータ６５４）が表示されるようにしてもよい。

また音声再生ボタン６７０を押すと、センテンス一覧で選択されているセンテンス（例えばカーソルが位置づけられているセンテンス）の音声が再生されるようにしてもよい。

音声再生出力処理部が、センテンス情報の待ち時間情報（図９の待ち時間６３２）に基づき、フレーズの前又はフレーズ間に無音区間を設定してセンテンスを構成するフレーズの音声データの音声を再生出力するようにしてもよい。このようにするとフレーズの前又はフレーズ間に設定した無音区間を反映させたセンテンスを発話させて、その場で音の確認を行うことができる。

なおフレーズに対応した音声データがまだ生成されていない場合にはフレーズに対応した音声データを生成して発話させるようにしてもよい。フレーズに対応した音声データの生成はセンテンスが登録されてセンテンスに対応したフレーズ情報が生成される際に行うようにしてもよいし、ＲＯＭファイル作成時に行うようにしてもよい。

センテンスを構成する全フレーズの音声データが格納されたＲＯＭファイルを作成するためのＲＯＭファイル作成画面が選択されると、リスト情報に基づきＲＯＭファイルイ作成画面を表示して、ＲＯＭファイルの作成処理を行う（ステップＳ４０）。

図１０は、ＲＯＭファイル作成画面の一例を示す図である。例えば図１０示すように、ＲＯＭファイル格納フレーズ一覧７１０（ＩＤ７１２，フレーズのテキスト情報７１４）が表示されるようにしてもよい。そしてＲＯＭファイル作成ボタン７２０が押されると、ＲＯＭファイル格納フレーズ一覧７１０の全フレーズに対応して生成されたフレーズの音声データ（ＲＯＭイメージ）が、指定されたメモリ媒体の領域（ＲＯＭ）に書き込まれる。またサイズチェックボタン７３０が押されると、メモリ（ＲＯＭ）への書き込みデータサイズを計算して表示してもよい（７５２参照）。またメモリ（ＲＯＭ）への書き込みデータに対応したセンテンスの再生時間を計算して表示してもよい（７５４参照）。

ユーザーは、メモリ（ＲＯＭ）への書き込みデータサイズ７５２やセンテンスの再生時間７５４を参照して、ＲＯＭに書き込むフレーズの追加又は削除を行うようにしてもよい。また今後のために現在発話予定のセンテンスにはないフレーズに対応した音声データを生成してＲＯＭに格納できるようにしてもよい。例えば追加ボタン７４０を押すことで、フレーズの追加が行えるようにしてもよい。

図１１、図１２（Ａ）〜（Ｃ）は、本実施の形態の音声データ作成ツールで行われる各処理について説明するための図である。

本実施の形態では図６、８〜１０に示すような各編集画面を表示し、各編集画面からフレーズやセンテンスに関する編集入力情報を受け付ける編集画面表示処理（Ｐ１）をおこなうようにしてもよい。

また本実施の形態では、編集画面において行われる編集入力による編集結果に基づきフレーズ情報やセンテンス情報等のリスト情報を生成するリスト情報生成処理（Ｐ２）を行っても良い。フレーズ情報は、フレーズ単位でデータを管理するためのデータ構造をもつデータの集合であり、例えば図２に示すように各フレーズを特定するための識別ＩＤやインデックスに対応付けてフレーズの音声データファイルや音声の読み方データや再生時間やデータのサイズやフレーズが使用されるカウント値等が記憶されていてもよい。フレーズ情報に基づきフレーズ編集画面を生成して表示部に出力してもよい。

センテンス情報は、例えば図２に示すようにセンテンス単位でデータを管理するためのデータ構造をもつデータの集合であり、各センテンスを特定するための識別ＩＤやインデックスに対応付けてセンテンスのテキストデータやサイズ情報や再生時間情報や読み方情報やセンテンスを構成するフレーズとフレーズの前またはフレーズ間に設定される待ち時間情報をふくんでもよい。センテンス情報に基づきセンテンス編集画面を生成して表示部に出力してもよい。

また編集画面から受け付けた編集入力情報に基づき、フレーズに対応した音声データを作成して保持する音声データ生成処理を（Ｐ３）を行うようにしてもよい。生成された音声データはフレーズ単位で圧縮され、フレーズ単位の音声ファイルとして保持されてもよい。

例えばＡＤＰＣＭ形式やＡＡＣ−ＬＣ形式の音声データファイルでもよい。フレーズに対応した音声データを作成する際に、音声データの読み方情報や、フレーズ音声の再生時間等の付随データを生成して、作成した音声データのファイルに関連づけて保持してもよい。

フレーズに対応した音声データを生成するタイミングは、センテンスが登録されてセンテンスに対応したフレーズ情報が生成される際でもよいし、ＲＯＭファイル作成時でもよいし、編集画面からセンテンスやフレーズの音声の再生指示が行われた際でもよい。

また本実施の形態では、センテンスのテキスト入力を受け付けフレーズに分割するセンテンス分割処理（Ｐ４）を行ってもよい。例えばセンテンス編集画面のセンテンス欄からセンテンスのテキスト入力を受け付け、入力されたセンテンスのテキストをフレーズに分割する処理をおこなうようにしてもよい。例えば図７で説明したように、前記センテンスのテキストデータに含まれたフレーズの区切りを示す区切りデータに基づき前記センテンス分割処理を行ってもよい。

図１２（Ａ）（Ｂ）は、フレーズ情報作成とフレーズ分割処理の成功例と失敗例を模式的に示した図である。

例えば図１２（Ａ）に示すように「ＡＡＡＣＣＣ」なるセンテンスが入力されると、センテンス分割処理が行われ、「ＡＡＡ」「ＣＣＣ」という２つのフレーズに分割される。センテンス分割処理は、センテンスの構文解析により行われても良いし、フレーズ区切りデータ等に基づき行われても良い。

センテンス分割処理により抽出されたフレーズ「ＡＡＡ」、「ＣＣＣ」に関するフレーズ情報が登録されていない場合には、図１２（Ｂ）に示すように抽出されたフレーズ「ＡＡＡ」、「ＣＣＣ」に関するフレーズ情報（リスト情報の一例）が登録される。

なお抽出されたフレーズがフレーズ情報に登録されているか否かは、抽出されたフレーズのテキストデータと登録されているフレーズに対応するテキストデータを比較照合して判断してもよい。

センテンス分割結果は図９に示すようにセンテンス／フレーズ関連確認画面に表示されるようにしてもよい。

また本実施の形態では、指定されたフレーズに基づきセンテンスを生成するフレーズ結合処理（Ｐ５）をおこなってもよい。例えばフレーズデータ「ＡＡＡ」と「ＢＢＢ」がこの順序で選択された場合、フレーズデータ「ＡＡＡ」と「ＢＢＢ」をつなぎ合わせてセンテンス「ＡＡＡＢＢＢ」を生成してもよい。

また本実施の形態では、生成したセンテンスやフレーズの音声再生を行わせ、再生評価を行う再生評価処理（Ｐ６）を行っても良い。センテンスの再生評価処理（Ｐ６）は、センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データを記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力する処理を行ってもよい。またセンテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力をおこなってもよい。センテンスの音声の再生はセンテンス編集画面（図６）の音声再生ボタン４６０や、センテンス／フレーズ関連確認画面（図８）の音声再生ボタン６７０を押すことにより行うことができる。

またフレーズの音声の再生はフレーズ編集画面（図８）の音声再生ボタン５３０やＲＯＭ作成画面（図１０）の音声データ確認ボタン７６０を押すことにより行うことができる。

また本実施の形態では、フレーズの前又はフレーズ間に遅延時間を設定し、フレーズ間隔の調整を行うフレーズ間隔の調整処理（Ｐ７）を行ってもよい。フレーズ間隔の調整処理（Ｐ７）として、センテンスを構成するフレーズの前及びフレーズ間の少なくとも１つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、待ち時間情報を含むセンテンス情報の生成を行ってもよい。

また本実施の形態では、作成したセンテンスを発話させるために必要な音声データをメモリに格納する際のＲＯＭイメージ（ＲＯＭに格納するデータの内容）を生成するＲＯＭイメージ生成処理（Ｐ９）をおこなってもよい。ＲＯＭイメージ生成処理（Ｐ９）では、フレーズ情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データを記憶部から読み出して、音声データメモリに書き込むメモリ書き込み情報（ＲＯＭイメージ）を生成して、格納対象となるメモリ（ＲＯＭ）に書き込むようにしてもよい。このようにすると複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報（ＲＯＭイメージ）を生成することができる。

また本実施の形態では、センテンス音声を合成するためにＲＯＭイメージから読み出す音声データとその再生順序を指示する音声再生コマンドを生成する音声再生コマンド生成処理（Ｐ９）をおこなってもよい。音声再生コマンド生成処理（Ｐ９）では、センテンス情報のフレーズ特定情報に基づきセンテンスを構成するフレーズに対応した音声データを音声データメモリに格納されたメケンス情報に従って読み出した音声データの音声を再生出力するための指示を行う音声再生コマンドを生成してもよい。

なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。

本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

１０音声合成ＩＣ、２０内蔵ＲＯＭ、１００音声データ作成ツール（プログラム、システム）、１１０処理部、１２０編集処理部、１２２リスト情報精製処理部、１２４メモリ書き込み情報（ＲＯＭイメージ）生成部、１２６音声再生コマンド生成部、１３０フレーズ音声データ生成部、１４０音声再生出力処理部、１５０不揮発性記憶部、１５２メモリ書き込み情報、１５４音声再生コマンド、１６０操作部、１７０記憶部、１７２フレーズ音声データ記憶部、１７４リスト情報記憶部、１８０情報記憶媒体、１８２辞書データ記憶部（ＴＴＳ音声合成用辞書）、１９０表示部、１９２音出力部、１９６通信部

Claims

音声データ作成システムであって、
テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、
複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、
編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、
前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、
前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部とを含み、
前記編集処理部は、
編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
前記リスト情報生成処理部は、
センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
前記フレーズ音声データ生成部は、
前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
前記メモリ書き込み情報生成部は、
複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする音声データ作成システム。
請求項１において、
前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、
前記編集処理部は、
前記区切りデータに基づき前記センテンス分割処理を行うことを特徴とする音声データ作成システム。
請求項１又は２のいずれかにおいて、
前記メモリ書き込み情報生成部は、
前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力することを特徴とする音声データ作成システム。
請求項１乃至３のいずれかにおいて、
前記編集処理部は、
センテンスを構成するフレーズを表示する表示出力処理を行うことを特徴とする音声データ作成システム。
請求項１乃至４のいずれかにおいて、
前記編集処理部は、
編集入力情報に基づき、複数のフレーズを結合してセンテンスを作成するフレーズ結合処理を行い、
前記リスト情報生成処理部は、
フレーズ結合処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うことを特徴とする音声データ作成システム。
請求項１乃至５のいずれかにおいて、
前記編集処理部は、
前記センテンス又はフレーズの読み方をかたかな又はひらがなで表示した読み方情報を生成し、生成した読み方情報を保持し、保持されている前記読み方情報に基づき、前記センテンスまたはフレーズの読み方を表示出力することを特徴とする音声データ作成システム。
請求項６において、
前記編集処理部は、
前記センテンスまたはフレーズの読み方情報に関する読み方入力情報を受け付け、受け付けた読み方入力情報に基づき、保持されている読み方情報を更新することを特徴とする音声データ作成システム。
請求項１乃至７のいずれかにおいて、
前記センテンス情報に基づきセンテンスを構成するフレーズとその再生順序を判断し、フレーズの音声データをその再生順序に従って再生出力する音声再生出力処理部を含むことを特徴とする音声データ作成システム。
請求項１乃至８のいずれかにおいて、
前記編集処理部は、
センテンスを構成するフレーズの前及びフレーズ間の少なくとも１つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、
前記リスト情報生成処理部は、
前記待ち時間情報を含むセンテンス情報の生成を行うことを特徴とする音声データ作成システム。
請求項９において、
前記音声再生出力処理部は、
前記待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力することを特徴とする音声データ作成システム。
請求項１乃至１０のいずれかにおいて、
前記センテンス情報に基づき、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを生成する音声再生コマンド生成処理部を含むことを特徴とする音声データ作成システム。
コンピュータを音声データ作成システムとして動作させるためのプログラムであって、
テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部と、
複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理部と、
編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理部と、
前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成部と、
前記リスト情報に基づき、音声データメモリへの格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成部としてコンピュータを機能させ、
前記編集処理部は、
編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
前記リスト情報生成処理部は、
センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
前記フレーズ音声データ生成部は、
前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
前記メモリ書き込み情報生成部は、
複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とするプログラム。
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
テキストデータに対応した合成音声データを生成するための辞書データを記憶する辞書データ記憶部を用意する手順と、
複数のフレーズを含むセンテンスである音声ガイドメッセージの編集画面を表示して編集入力情報を受け付け、編集入力情報に基づき編集処理を行う編集処理手順と、
編集処理結果に基づき各センテンスと各センテンスを構成するフレーズに関するリスト情報の生成を行うリスト情報生成処理手順と、
前記リスト情報に基づき、音声データ作成対象となる音声データ作成対象フレーズを決定して、前記辞書データに基づき決定された音声データ作成対象フレーズに対応した音声データを生成して保持するフレーズ音声データ生成手順と、
前記リスト情報に基づき、前記不揮発性記憶部への格納対象となる格納対象フレーズを決定し、決定した格納対象フレーズの音声データを含むメモリ書き込み情報を生成するメモリ書き込み情報生成手順とを含み、
前記編集処理手順において、
編集画面から入力されたセンテンスのテキストデータに基づき、センテンスを複数のフレーズに分割するセンテンス分割処理を行い、
前記リスト情報生成処理手順において、
センテンス分割処理結果に基づきセンテンスを構成するフレーズとその再生順序を特定し、センテンスを構成するフレーズのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行い、
前記フレーズ音声データ生成手順において、
前記辞書データに基づき、音声データ作成対象フレーズのテキストデータに対応した合成音声データを生成し、
前記メモリ書き込み情報生成手順において、
複数のセンテンスで使用されているフレーズまたは１つのセンテンスで複数回使用されているフレーズについては同じフレーズの音声データが重複して書き込まれないように格納対象フレーズを決定することを特徴とする半導体集積回路装置の製造方法。
請求項１乃至１１に記載の音声データ作成システムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、
前記音声再生コマンドを受け取り、受け取った音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出して再生出力する音声合成部と、
を含む半導体集積回路装置。