JP2004287192A - 合成音声編集装置及び合成音声編集プログラム - Google Patents

合成音声編集装置及び合成音声編集プログラム Download PDF

Info

Publication number
JP2004287192A
JP2004287192A JP2003080665A JP2003080665A JP2004287192A JP 2004287192 A JP2004287192 A JP 2004287192A JP 2003080665 A JP2003080665 A JP 2003080665A JP 2003080665 A JP2003080665 A JP 2003080665A JP 2004287192 A JP2004287192 A JP 2004287192A
Authority
JP
Japan
Prior art keywords
data
word
voice
scenario
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003080665A
Other languages
English (en)
Inventor
Tomoki Kubota
智氣 窪田
Hideaki Morita
英明 森田
Yoichi Nomoto
洋一 野本
Hidefumi Okabe
英文 岡部
Kazuaki Fujii
一彰 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Equos Research Co Ltd
Original Assignee
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Equos Research Co Ltd filed Critical Equos Research Co Ltd
Priority to JP2003080665A priority Critical patent/JP2004287192A/ja
Publication of JP2004287192A publication Critical patent/JP2004287192A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】合成音声の編集に関する表示を分かりやすく表示する。
【解決手段】合成音声の有音部を枠で囲われた単語で表示し、無音部を枠間の線分(無音線分)で表示する。有音部の枠内には有音部に対応する単語の表記がテキスト表示される。これにより、ユーザは、合成された合成音声データ及び編集すべき合成音声データがどのような単位の単位音声データで構成されているか否かを簡単に理解することができる。
また、各枠間には、無音部の長さに応じた長さのラインが表示されるので、無音部の有無、及び長さを間隔的に把握することができる。単位音声データの単語はカテゴリ分け(例えば、品詞毎)されていて、カテゴリごとにそのあとに続く、無音の長さが自動設定される。この無音の長さも、変更、削除等の編集が可能である。
【選択図】 図10

Description

【0001】
【発明の属する技術分野】
本発明は、合成音声編集装置及び合成音声編集プログラムに係り、所定の長さを有する単語に対応する音声データを結合することで、入力された文に対応する合成音声データを作成及び編集する際の表示に関する。
【0002】
【従来の技術】
音声合成技術は、各種機器の取り扱い説明を音声で行ったり、駅における電車の発着を音声で行う場合等において広く利用されている。
音声合成は、合成したい音声に対応する文のテキストを入力し、入力されたテキストに対応して予め所定単位で準備されている単位音声データを結合して合成している。ここで、合成する単位音声データは、規則合成された場合と、録音された場合とがある。
このようにして作成された音声合成データ、又は音声合成するためのデータの編集が必要な場合がある。
現在、合成音声をユーザの思うように編集する装置として特許文献1のような提案がされている。この公報では、大、小のような感覚的言葉で表現された強調レベルで合成音声中の指定した部分を強調することができるようになっている。
【0003】
【特許文献1】
特開平5−224689号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上記のような合成音声に関する様々な編集装置は、合成音声の波形を表示し、その波形を編集するようになっている。
このため、編集になれていないユーザにとっては、思い通りに編集できないという問題があった。
そこで、本発明は、合成音声の編集に関する表示を分かりやすく表示しすることで、合成音声を、より感覚的に簡単に、作成及び編集することが可能な合成音声編集装置及び合成音声編集プログラムを提供することを目的とする。
【0005】
【課題を解決するための手段】
請求項1に記載の発明では、音声データを結合して入力された文を発声する合成音声データを作成及び編集する合成音声編集装置であって、前記音声データに対応する単語を有音表示形式で表示する有音表示手段と、前記音声データの結合部分を無音表示形式で表示する無音表示手段と、を備えることで前記目的を達成する。
請求項2に記載の発明では、請求項1に記載の合成音声編集装置において、前記有音表示形式は、枠内に該音声データの内容を示す単語を表示し、前記無音表示形式は、前記枠間の結合部分を線分により表示することを特徴とする。
請求項3に記載の発明では、請求項1又は請求項2に記載の合成音声編集装置において、合成音声データを作成するための文を入力する入力手段と、単語に対応する音声データが格納された音声データ記憶手段と、前記入力された文を、前記音声データ記憶手段に記憶された音声データの単語に対応づけて区分する区分手段と、を備え、前記有音表示手段は、前記区分された単語を有音表示形式として表示することを特徴とする。
請求項4に記載の発明では、請求項1、請求項2、又は請求項3に記載の合成音声編集装置において、前記無音表示手段は、前記有音表示形式の結合部分における無音表示形式の有無及び長さを、前方の有音表示形式における単語の品詞種別によって決定し表示することを特徴とする。
【0006】
請求項5に記載の発明では、音声データを結合して入力された文を発声する合成音声データを作成及び編集する合成音声編集プログラムであって、前記音声データに対応する単語を有音表示形式で表示する有音表示機能と、前記音声データの結合部分を無音表示形式で表示する無音表示機能と、
をコンピュータに実現させるための合成音声編集プログラムにより前記目的を達成する。
なお、請求項5記載の合成音声編集プログラムにおいて、前記有音表示形式は、枠内に該音声データの内容を示す単語を表示し、前記無音表示形式は、前記枠間の結合部分を線分により表示する、ようにしてもよい。
また、合成音声データを作成するための文を入力する入力機能と、前記入力された文を、単語に対応する音声データが格納された音声データ記憶手段に記憶された音声データの単語に対応づけて区分する区分機能と、を備え、前記有音表示機能は、前記区分された単語を有音表示形式として表示する、ようにしてもよい。
また、前記無音表示機能は、前記有音表示形式の結合部分における無音表示形式の有無及び長さを、前方の有音表示形式における単語の品詞種別によって決定し表示する、ようにしてもよい。
【0007】
【発明の実施の形態】
以下、本願発明の合成音声編集装置及び合成音声編集プログラムが適用される好適な実施形態としてのデータ作成装置について説明する。
本実施形態における合成音声編集装置及び合成音声編集プログラムは、データ作成装置における合成及び編集に適用される。
データ作成装置では、合成及び編集した合成音声データを含むシナリオを作成する装置である。そして、作成されたシナリオは、車両等に搭載されたエージェント装置で使用される。
エージェント装置は、シナリオに従って、擬似人格を持ったエージェントを出現させ、例えば、車両の搭乗者とのコミュニケーションにより会話をしたり機器操作等を自律的に行うエージェント機能を実現する。
本実施形態の合成音声編集装置及び合成音声編集プログラムで作成された合成音声データは、シナリオに組み込まれ、エージェント装置においてエージェントの音声として出力される(合成音声データ出力手段)。
【0008】
(1)実施形態の概要
テキスト入力に対し、台詞DBを検索して、単語ベースの音声データ(単位音声データ)を検索する。なお、本明細書において、単語の語は、単一の単語だけでなく、複数の単語が合成された文節等も含めて単語という。
そして、最終的に合成する合成音声データには、有音データ(有音部)と、無音データ(無音部)があることから、本実施形態では、合成音声を作成する際に、テキストから変換された合成音声の有音部を枠で囲われた単語で表示し、無音部を枠間の線分(無音線分)で表示する。有音部の枠内には有音部に対応する単語の表記がテキスト表示される。
これにより、ユーザは、合成された合成音声データ及び編集すべき合成音声データがどのような単位の単位音声データで構成されているか否かを簡単に理解することができる。
また、各枠間には、無音の長さに応じた長さのラインが表示されるので、無音部の有無、及び長さを間隔的に把握することができる。単位音声データの単語はカテゴリ分け(例えば、品詞毎)されていて、カテゴリごとにそのあとに続く、無音の長さが自動設定される。この無音の長さも、変更、削除等の編集が可能である。
そして、音声の追加、削除、結合、分割等、及び無音部の削除、変更、追加等は、該当する有音部の枠、無音線分を指定することで編集を行う。
このように、単位音声データの発音表記を枠内に表示することで、単位音声データの繋がりを視覚的に表示することができ、ユーザは音声編集を容易に行なうことができる。
単位音声データは、複数の声の種類(例えば、成人女性、成人男性等)を備え、そのいずれかを指定することができる。この場合、声の種類の設定を自動選択にすると、実機(エージェント装置)での声の種類の選択が有効になる。
1つの単語に対応して、感情毎に異なる表現がされた複数の単位音声データを持つことができる。例えば、単語「おはよう」に対して、楽しい感じが表現された単位音声データ、悲しい感じで表現された単位音声データ、等複数存在し、選択された感情に対応する他に音声データを使用して合成音声データが作成される。
【0009】
(2)実施形態の詳細
図1は、本実施形態における合成音声編集機能を備えたシナリオ作成装置の構成を表したものである。
シナリオ作成装置は、制御部10と、入力装置11と、出力装置12と、通信制御装置13と、記憶装置20と、記憶媒体駆動装置15と、入出力I/F16とを備えている。これら各装置は、データバスや制御バス等のバスラインにより接続されている。
【0010】
制御部10は、シナリオ作成装置全体を制御する。
シナリオ作成装置はシナリオ編集プログラムの実行だけでなく、その他プログラム類(例えば仮名漢字変換機能や表計算機能、データベース機能等の各種プログラム)を実行することもできる。制御部10は、CPU101と、メモリ102等から構成されている。
CPU101は、種々の演算処理を実行するプロセッサである。メモリ102は、CPU101が種々の演算処理を実行する際にワーキングメモリとして使用される。CPU101は、メモリ102にプログラムやデータなどを書き込んだり消去したりすることができる。
本実施の形態におけるメモリ102には、CPU101がシナリオエディタ(シナリオ編集プログラム)に従って、シナリオデータを作成、編集、記憶等、及び本実施形態による音声編集等をするための作業エリアの確保が可能になっている。
【0011】
入力手段として機能する入力装置11は、シナリオ作成装置に対して文字や数字その他の情報を入力するための装置であり、例えばキーボードやマウスなどにより構成されている。
キーボードは、主にカナや英文字などを入力するための入力装置である。
キーボートは、例えばユーザがシナリオ作成装置にログインするためのログインIDやパスワードを入力したり、合成音声編集機能における音声合成や編集対象となる文を入力したり、音声認識の対象となる文を入力したりする際などに使用される。
マウスは、ポインティングデバイスである。
GUI(Graphical User Interface)などを用いてシナリオ作成装置を操作する場合、表示装置上に表示されたボタンやアイコンなどをクリックすることにより、所定の情報の入力を行なうこと等に使用される入力装置である。
【0012】
出力装置12は、例えば表示装置や印刷装置などである。表示装置は、例えばCRTディスプレイ、液晶ディスプレイ、プラズマディスプレイなどが使用される。
表示装置には、シナリオを作成するためのメイン画面や、各シーンにおける画面構成を選択するための画面等の各種画面が表示される。また、各画面において選択された情報や入力された情報が表示されるようになっている。
表示装置は、合成音声編集機能において、有音表示手段、無音表示手段の一部として機能する。そして、表示装置には、台詞入力ボックス、前方一致候補リストボックス、単語列情報ボックス及び、各種操作ボタンからなる音声編集メイン画面等が表示される。単語列情報ボックスには、合成された合成音声データに対応する文のテキストが、有音部を表す枠で囲われた単語(有音表示形式)と、無音を表す線分(無音表示形式)で表示されるようになっている。
【0013】
印刷装置は、例えば、インクジェットプリンタ、レーザプリンタ、熱転写プリンタ、ドットプリンタなどの各種プリンタ装置が使用される。
印刷装置で印刷するものは、例えば、作成したシナリオの全体の流れをチャート形式で表す図や、各シーンの設定状態を示すものがある。
【0014】
通信制御装置13は、外部との間で各種データやプログラムを送受信するための装置であって、モデム、ターミナルアダプタその他の装置が使用される。
通信制御装置13は、例えばインターネットやLAN(Local AreaNetwork)などに接続可能に構成されている。通信制御装置13は、これらのネットワークに接続した他の端末装置あるいはサーバ装置などと通信によって信号及びデータのやり取りを行なうことで、装置で作成したシナリオデータを送信したり、第3者が作成したシナリオデータを受信(ダウンロード)したり、更に、シナリオデータの作成に必要なデータを取得したりすることができるようになっている。
通信制御装置13はCPU101によって制御され、例えば、TCP/IPなどの所定のプロトコルに従ってこれら端末装置やサーバ装置との信号及びデータの送受信を行う。
また通信制御装置13を介して、合成音声データを作成するための文を取得することも可能であり、この場合の通信制御装置13は入力手段として機能する。
【0015】
記憶装置20は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータを読み書きするための駆動装置によって構成されている。当該記憶媒体として主にハードディスクが使用されるが、その他に、例えば、光磁気ディスク、磁気ディスク、半導体メモリなどの他の読み書き可能な記憶媒体によって構成することも可能である。
記憶装置20には、シナリオエディタと合成音声編集ダイアログ等から構成されるシナリオ編集プログラム21、シナリオ編集データ22、及びその他のプログラム・データ23が格納されている。
その他のプログラムとして、例えば、通信制御装置13を制御し、シナリオ作成装置とネットワークでつながれた端末装置やサーバ装置との通信を維持する通信プログラムや、メモリ管理や入出力管理などのシナリオ作成装置を動作させるための基本ソフトウェアであるOS(Operating System)、合成音声データを作成するための文を入力する際に使用される仮名漢字変換プログラム、なども記憶装置20に格納されている。
【0016】
記憶媒体駆動装置15は、着脱可能な記憶媒体を駆動してデータの読み書きを行うための駆動装置である。着脱可能な記憶媒体としては、例えば、光磁気ディスク、磁気ディスク、磁気テープ、ICカード類、データをパンチした紙テープ、CD−ROMなどがある。
本実施形態では、シナリオ作成装置で作成・編集した合成音声データを含むシナリオデータ(エージェント装置で使用する形態)は、主としてICカード類に書き込まれるようになっている。
シナリオ作成装置は、記憶媒体駆動装置15によって記憶媒体を駆動することにより、シナリオデータが格納された記憶媒体からシナリオを取得したり、あるいは、作成したシナリオデータを記憶媒体駆動装置から記憶媒体に格納したりすることができる。
【0017】
入出力I/F16は、例えば、シリアルインターフェースやその他の規格のインターフェースにより構成されている。
入出力I/F16に当該インターフェースに対応した外部機器を接続することにより、シナリオ作成装置の機能を拡張することができる。このような外部機器として例えば、ハードディスクなどの記憶装置、通信制御装置、スピーカ、マイクロフォンなどがある。
【0018】
次に、シナリオ編集プログラム21と、シナリオ編集データ22の構成について説明する。
図2(a)は、シナリオ編集プログラムとデータの構成を概念的に表したものである。
シナリオ編集プログラム21は、シナリオエディタ211と、シナリオコンパイラ212と、DB編集ツール213、合成音声編集ダイアログ214を有している。
シナリオ編集データ22は、共通定義DB221と、ローカル定義DB222と、シナリオエディタで作成したSCE形式シナリオデータ223と、シナリオコンパイラで変換されたNAM形式(実機形式)シナリオデータ224が存在する。
シナリオエディタ211は、シナリオデータを作成するアプリケーションプログラムである。
合成音声編集ダイアログ214は、入力されたテキスト文から合成音声データを作成するためのアプリケーションプログラムである。
【0019】
シナリオコンパイラ212は、シナリオエディタ211で作成されたSCE形式シナリオデータ223を、エージェント装置(車載装置)で使用可能なNAV形式(実機形式)シナリオデータ224に変換するアプリケーションプログラムで、変換手段として機能する。
シナリオコンパイラ212は、図2(b)に示されるように、1個以上のSCE形式シナリオデータ223を、1個の実機形式シナリオデータ224に変換する。
【0020】
DB編集ツール213は、共通定義DB221に格納されているデータを編集・更新するためのアプリケーションプログラムである。
共通定義DB221は、シナリオデータを作成する際の定義データが格納される。共通定義DB221には、シナリオをエージェント装置で自動起動するための条件設定を行うための自律起動判断データ、シナリオを構成するシーン展開をするアクション項目及び追加判断項目等が格納される。
また、共通定義DB221には、単位音声データ記憶手段として機能し、合成音声編集機能で使用する台詞DBと音声DBが格納されている。
この共通定義DB221は、シナリオ作成装置の記憶装置ではなく、ローカルエリアネットワーク(LAN)でつながっているサーバ上に存在してもよい。こうすることで、ローカルエリアネットワーク(LAN)でつながっている各シナリオ作成装置は共通の共通定義DB221を使ってシナリオデータの作成ができる。
ローカル定義DB222は、シナリオ作成者がシナリオデータを作成中に定義した画面構成が格納される。
【0021】
図3は、シナリオエディタ211、合成音声編集ダイアログ214、及び共通定義DB221の関係を表したものである。
シナリオエディタ211によるシナリオの作成画面において、音声編集ボタンが選択されると、合成音声編集ダイアログ214が起動するようになっている。この合成音声編集ダイアログ214は、シナリオエディタにおいて、キャラクタ(エージェント)にしゃべらせたい台詞を、音声データに変換するアプリケーションである。
合成音声編集ダイアログ214は合成音声データを、有音が枠で囲われた単語と無音線分により、グラフィカルなユーザI/Fで表示し、実際に音声を聞いて確認しながら編集を行うことができる。また、編集のサポート機能として、文章の登録機能、単語の登録機能を備えている。
【0022】
共通定義DB221は、台詞DB221aと音声DB221bとを備えている。台詞DB221aと音声DB221bとにより、本発明の音声データ記憶手段が形成される。
台詞DB221aは、台詞(文字列)に相当する単語の表記と音声コードその他のデータ、及び無音長テーブルで構成されている。無音長テーブルは、単語に続く無音部の長さを規定したテーブルである。
音声DB211bは、台詞DB221aに格納された単語の音声コードと、その単語を発音するための単位音声データとで構成されている。
【0023】
合成音声編集ダイアログ214は、テキスト入力された台詞(文字列)で、台詞DB221aを検索することで、入力文を単語単位で区分し、区分した単語の音声コードを台詞DB221aから取得する(区分手段)。また、区分した単語の無音部の長さを無音長テーブルで決定し、音声コードと、無音部に対応する無音コードとから合成音声データを作成する。
そして、入力文に対応する合成音声データの、音の繋がりを枠で囲まれた単語(有音表示形式)と無音線分(無音表示形式)によって、視覚的に表示する。ユーザがこの表示を編集すると、その編集に対応して合成音声データも編集される(編集手段)。
合成音声編集ダイアログ214は、再生ボタンが選択された場合に、音声コードから、音声データを検索し、合成音声データを再生する。
音声コードと無音コードから構成した合成音声データはシナリオエディタ211に渡され、エージェント装置で使用可能な形式にコンパイルされる。
【0024】
なお、実際にシナリオデータとして使用されるのは、単位音声データではなく、単位音声データを特定するための音声コードと無音コードとすることで、データサイズを小さくすることができる。
このため、音声DB221bは、ナビゲーション装置が具備する音声DB221bと同一(音声コードと単位音声データとの対応)であることが必要である。また、本実施形態の音声DB221bには、全単位音声データに対して、複数の声の種類(成人女性、成人男性等)が格納されているが、デフォルトの単位音声データ(例えば、成人女性)のみを格納しておき、他の声の種類は、声の確認をするための試聴用データのみを格納しておくようにしてもよい。この場合、作成した合成音声データの再生はデフォルトの音声で再生されるが、ナビゲーション装置では、指定された種類の声(例えば、成人男性)で出力されることになる。
【0025】
図4は、台詞DB221aに格納されているデータを概念的に表したものである。
この図4(a)は台詞DB221aの内容を表したもので、単位音声データに対応する各単語毎に、その表記文字、読み、音声コード、感情、種別、類義語、コメントが格納されている。
台詞DB221aには、例えば、「今日」という同一の表記に対して、異なる読みがある場合には、そのそれぞれに対するデータが格納されている。図示していないが、句読点等も「テン」「マル」と発音する場合があるので単語として格納されている。また、記号も単語として扱われる。
音声コードは、音声DB221bに格納されている音声コードに対応している。
また、音声DB221bには、同じ台詞でも感情(喜怒哀楽)が異なる音声データが複数用意されており、それぞれ異なる音声コードが付けられている。これに対応して台詞DBにも同一表記文字、読みに対して異なる音声コードがふされ、その音声コードで特定される単位音声データの感情が格納されている。これにより、例えば、発音「おはよう」に対して楽しい「おはよう」、悲しい「おはよう」、元気な「おはよう」等の喜怒哀楽を使い分けることが可能になる。
感情の指定は、各文変換ボタンが押される文単位で指定するようになっている。
【0026】
台詞DB221aの種別には、各単語の品詞が格納されている。この種別により、単語に続く無音部の長さが、決定されるようになっている。
種別と無音部分の長さは任意に変更可能であるが、デフォルトの値とが、セリフDB221aの中に含まれる図4(C)の無音長テーブルで規定されている。音声データには、異なる品詞の複数の語で構成されるものが存在する。この場合には、最後尾語の品詞が種別に格納されている。例えば、単語「今日は」は名詞+助詞で構成されているので、種別には最後尾の品詞である助詞が格納される。
【0027】
類義語の欄には、例えば、「です」「ですね」、「だね」、「ございます」等のように、意味が同じで表記及び読みが異なる語の音声コードが格納される。
また、コメント欄には、単語に対する意味等のコメントが格納されている。このコメントは、デフォルトとして設定されているコメントのほか、ユーザが任意に追加、変更することができる。
【0028】
なお、図4(a)は台詞DB221aの例示であり、1つのテーブル形式で格納する場合について説明したが、表記文字と音声コードを格納し、他のデータ(読み、感情、種別、類義語、コメント)の少なくとも1つを、別のテーブルに格納するようにしてもよい。この場合、別にしたデータ、例えば、類義語、類義語とコメント等を、音声コード又は表記文字と対応付けて格納する。
【0029】
図4(b)は、音声DB221bの内容を概念的に表したものである。
この図4(b)に示されるように、単位音声データ毎に、その音声コードと、音声データとが格納されている。図4(b)では音声データとしての波形が表示されているが、実際にはアナログデータをデジタルデータ化したADPCM(Adaptive Differential Pulse Code Mojulation)データが格納されている。なお、PCMデータを格納するようにすることも可能である。
【0030】
図5は、シナリオエディタで作成された、NAV形式(実機形式)のシナリオデータの構成を表したものである。
シナリオデータは、複数のシナリオで構成されており、それらを管理するためのデータと、個々のシナリオの内容を示すデータとで構成されている。
集録シナリオの管理データには、このシナリオデータの有効期限、作成された日や作成者等といった情報と、シナリオデータに収録されている個々のシナリオを全体的に管理するためのデータと、シナリオファイルに収録されているシナリオの自律起動条件データと、シナリオファイルに収録されているシナリオの中で運転者がエージェント装置の入力装置等を使って起動させることができるシナリオ一覧データが記されている。
【0031】
個々のシナリオの内容を示すデータには、それぞれのシナリオを管理するデータと、シナリオを構成する個々のシーンの内容を示すシーンデータとで構成されている。
それぞれのシナリオを管理するデータには、シナリオに関する情報と、このシナリオで使用する音声認識辞書を作成するためのテキスト情報と、シナリオを構成する各シーンデータを全体的に管理するためのデータが記されている。
【0032】
シーンデータは、シーンを管理するデータと、画面構成データと、キャラクタ動作データと、各種処理データと、展開管理データとで構成されている。
シーンを管理するデータには、そのシーンに関する情報とシーンデータに属する各データセクションを管理するデータが記されている。
画面構成データには、このシーンにおいて表示装置に表示する画面構成の各パーツのデータ(大きさや表示位置等)が記されている。
キャラクタ動作データには、このシーンにおいてキャラクタが行なう動作の指示データと、話す内容に関する指示データが記されている。動作の指示データには、シナリオデータで直接各キャラクタの表現手段で指示するものと、キャラクタに表現させたい状態で指示するものの2種類のうちどちらかで指示データが記されている。
各種処理データには、このシーンにおいてワイパー等の外部機器を制御(処理をさせる)する情報や、ナビゲーションを制御する情報や、他のシナリオを実行する指示や、タイマー設定情報等が記されている。
展開管理データには、このシーンで何かイベントが発生した場合に、シナリオを終了するのか、次に進むシーンが何であるか、もしくは何も展開しないのか、といった情報が記述されている。
【0033】
図6は、シナリオ作成装置1で作成したシナリオに基づいて、エージェント装置で実行される各シーンの展開状態を表したものである。
図6に示されるシーン画面は、運転者の趣味嗜好(食事)を運転者情報として取得するために運転者に対して質問をする質問シナリオのシーン画面(シーン番号0x0001)である。
シーン画面は、図6に示されるように、エージェントの画像(静止画、動画)が表示されるエージェント表示画面51、エージェントの音声に対応した文字が表示される吹き出し画面52、タイトル画面53、及び、各シーン固有の画像データ(実画像データの画像や回答選択ボタン等)が表示されるシーン表示画面54から構成されている。
【0034】
エージェント装置は、趣味嗜好(食事)の質問シナリオを起動すると、最初にシーンヘッダで指定されるシーンの画面構成データを読み出してシーン画面を表示装置に表示すると共に、本実施形態の合成音声編集ダイアログ214で作成された合成音声データに従って、質問文に相当する質問音声を音声出力装置から出力するようになっている。
すなわち、エージェント装置では、音声合成データを構成する有音コードと無音コードから、有音コードに対応する単位音声データを音声DBから読み出し、無音コードでしていされる長さの無音部をはさんで順次合成しながら音声を出力する。なお、出力する音声の種類は音声合成データで指定される種類の単位音声データを使用して音声合成される。
【0035】
図6(a)の質問シナリオのシーン画面では、吹き出し画面52に「どのジャンルの食事が好きですか?」と表示される。なお、吹き出し画面52の表示に対応する音声が音声出力装置から出力されるようになっている。
また、図6(a)のシーン画面におけるシーン表示画面54には、4つの回答選択ボタン54aの「和食」、「洋食」、「中華」、「特に無し」が表示されている。
【0036】
この運転者に対する質問のシーンには、運転者の回答に応じた複数のシーンが分岐して続くようになっている。各シーンの分岐および続くシーンの特定については、各シーンの展開管理データに従って、運転者の回答に応じて決定される。すなわち、図6(a)のシーン画面(シーン番号0x0001)で運転者が回答選択ボタン「和食」を選択すると、エージェント装置は、回答に応じたシーン画面図6(b)に分岐して表示される。このシーン画面(b)では、選択された「和食」がタイトル画面53に表示されると共に、吹き出し画面52には「和食がすきなのですね。」と表示され、吹き出し画面52に表示された文と同一の音声(合成音声編集ダイアログ214の作成による)が音声出力装置から出力される。
なお、分岐後の和食のシーン画面では、和食の実画像がシナリオデータから読み出され、シーン表示画面54に表示される。
エージェント装置は、運転者の回答、例えば、「和食」が運転者情報として、趣味嗜好データに格納されるようになっている。
格納されたデータは、以後、シナリオの分岐条件に反映される。これにより、ユーザの嗜好を加味した案内が可能となる。
このようにして、シナリオに規定された各シーン画像と音声が最後のシーンまで連続的に順次表示、出力されることで、1シナリオにおけるエージェントの行為が完了することになる。
【0037】
次に、このように構成されたシナリオ作成装置による合成音声編集の処理動作について説明する。この合成音声編集処理は、シナリオエディタ211、及び、合成音声編集ダイアログ214により処理される。
図7(a)は、シナリオエディタ211を起動した場合に表示装置に表示されるシナリオメイン画面の構成を表したものである。
この図7(a)に示されるように、メインウィンドウは、作成中のシーン画面(エージェント装置の表示装置に表示されるシーン画面(図6参照))が表示されるシーン画面301と、各種設定を行う設定項目が表示された設定画面303と、シーンの展開構成(分岐の状態)が各シーンを表すシーンアイコン307のツリー構造により表示されるシーン展開画面305で構成されている。
【0038】
シナリオエディタ211を起動すると、メインウインドウのシーン展開画面305には、スタートポイント308が表示される。このスタートポイント308を選択するとシナリオプロパティの編集ができる。選択は、例えば、マウスカーソルによるポイント位置をスタートポイント308に合わせて、マウスをダブルクリックすることで選択される。
画面構成の変更ボタン309は、クリックすると表示したい画面構成の選択ができる。
効果音設定ボタン310をクリックすると、後述するように、シナリオの各シーン毎に効果音を設定する画面が表示される。
エージェント表示画面311をマウスでダブルクリックすると、エージェント(キャラクタ)の動作の編集画面が表示される。
台詞編集ボタン313をクリックするとキャラクタの台詞の指示が編集できる。
ボタンパーツ・バックグラウンド音声認識辞書設定315をダブルクリックすると使用する音声認識辞書の編集ができる。シーン画面301の回答選択ボタン315a(図6の54a)のマークで表示されている方を選択すると認識する単語の名称がシーン画面に表示され、バックグラウンドで認識する方315bを選択すると、音声認識の対象となるが認識する単語の名称は表示されない。
【0039】
タイマーの設定317では、シーン表示後にタイマーによる通知を発行するまでの時間を設定する。
外部機器等の制御指示編集319では、外部機器等(車両に搭載されたナビゲーション装置を含む)の制御指示を設定する。
次のシーン作成ボタン321をクリックするとシナリオの流れを編集できる(次のシーンを作成する)。このシーン作成ボタン321でシナリオの流れを分岐させることで、各シーンの展開構成が作成される。例えば、シーンのアイコン1を選択した状態(アクティブ表示されている状態)で、次のシーン作成ボタン321をクリックするとシーン1に続くシーンのアイコンが下層側に表示され、複数回クリックすることでシーン1に続いて展開されるシーン2,3,…が分岐して作成される。
【0040】
シナリオの終了位置作成ボタン323をクリックするとシナリオの終了位置を作成できる。作成した各シナリオの終了位置には、終了番号がエンドIDとして割り振られるようになっている。
シナリオコンパイルボタン325をクリックすると作成したシナリオをナビゲーション装置(エージェント装置)で使うためのNAV形式(実行形式)のフォーマットにコンパイルできる。
【0041】
図7(a)のメインウィンドウにおいて、台詞編集ボタン313が選択(クリック)されると、シナリオエディタ211は、図7(b)に示す音声編集メモウィンドウ600を新たに表示する。
なお、シナリオエディタ211の処理として説明したが、実際に表示するのはシナリオエディタ211(プログラム)とCPU101が協同して表示等の処理を行うが、説明を簡単にするため、両者が協同した動作をシナリオエディタ211の処理、及び動作として説明する。以下の説明、及び合成音声編集ダイアログ214の処理及び動作も同様に説明する。
【0042】
図7(b)の音声編集メモウィンドウ600において、音声編集ボタン601が選択されると、合成音声編集ダイアログ214が起動し、合成音声編集ダイアログ214が図8に示す音声編集メイン画面608を表示する。
この音声編集メイン画面608で合成音声データが作成されると、その合成音声データに対応する文を、シナリオエディタ211は音声編集メモウィンドウ600の吹き出し表示部602にテキスト表示する。
なお、音声編集を行わずに吹き出し表示部602に直接テキスト入力することも可能である。この場合には、合成音声データが作成されないため、このシナリオをエージェント装置で実行しても音声は出力されず、吹き出し表示部602から入力されたテキストが吹き出し52に表示される。
【0043】
図8は、音声編集メイン画面608を表したものである。
音声編集メイン画面508は、音声特定部と、台詞入力部と、前方一致検索部と、結果表示部と、キャンセルボタンを備えている。
音声特定部は、声の種類を選択する声種類選択ボタン607と、感情を選択する感情選択ボタン605で構成される。
台詞入力部は、台詞入力ボックス610と、変換ボタン611とで構成される。
前方一致検索部は、チェックボックス612、前方一致候補がリスト表示される候補リストボックス613、リスト表示されていない候補も含めた全候補の数が表示される候補数ボックス614、リスト表示された候補を選択する候補選択ボタン615で構成される。
結果表示部は、合成音声データによる音の繋がりを、枠で囲われた単語と無音線分により視覚的に表示する単語列情報ボックス619、再生ボタン620、全削除ボタン621、文章登録ボタン622、登録文章一覧ボタン623、選択中単語登録ボタン624、新規単語登録ボタン625、登録単語一覧ボタン626、決定ボタン627で構成されている。
【0044】
この音声編集メイン画面605の台詞入力ボックス610にエージェントに発音させたい会話の内容をなす台詞を入力することで、対応する合成音声データが作成及び編集される。以下、その合成音声作成及び編集の処理動作について説明する。
【0045】
声種類選択ボタン607が選択されると、合成音声編集ダイアログ214は、選択可能な声の種類をドロップダウン表示する。選択可能な声の種類としては、成人女性、成人男性、…、自動選択、のうちの一つを選択可能であり、選択された声の種類は、合成音声データとしてメモリ102に格納される。デフォルトの音の種類は成人女性が規定されている。
種類として、自動選択が選択された場合、合成音声編集ダイアログ214で作成、編集した合成音声データを試聴する場合(再生ボタン620がクリックされた場合)には、デフォルトの種別で再生される。
シナリオを実行するエージェント装置側でも音声を指定する機能があり、自由選択が選択されている場合には、エージェント側で指定した音声、又はエージェント装置ユーザが指定した音声、又は、指定したキャラクタに準拠した音声(声の種類)が出力される。一方、シナリオデータの合成音声データとして、自由選択以外の声の種類が選択されている場合には、エージェント装置による指定に関わりなく、合成音声データに従う声の種類の音声が優先して出力される。
【0046】
感情選択ボタン605が選択されると、合成音声編集ダイアログ214は、楽しい、悲しい、元気、…普通、といった喜怒哀楽を示す各感情のドロップダウンメニューを表示する。
ユーザによっていずれかの感情が選択されると、合成音声編集ダイアログ214は、台詞DB221aから、同一の表記に対して複数存在する単位音声データのうち、選択された感情に対応する音声コードを優先的に検索する。
感情が選択されていない場合には、感情「普通」を選択する。
このように、感情、声の種別の少なくとも一方を指定することにより、本発明の指定手段を形成する。
【0047】
台詞入力ボックス610が指定されて文字が入力されると、合成音声編集ダイアログ214は、入力された文字を順次表示する。
そして、チェックボックス612にチェックがされている場合、台詞DB221aの表記文字部分を前方一致検索し、候補となる表記を候補リストボックス613にリスト表示すると共に、リストした候補数を候補数ボックス614に表示する。
図8に表示されている一例では、台詞入力ボックス610に「今日」が入力されているので、合成音声編集ダイアログ214は、「今日」が前方一致する候補として「今日」「今日は」「今日は晴れです」…等の16の候補が検索され、その内の8個が表示されている。表示されていない候補は、候補リストボックス613右側のスクロールボタンを移動してスクロール表示させることが可能である。
そして、例えば、さらに「は晴れ」が入力された台詞入力ボックス610に「今日は晴れ」と表示されると、前方一致検索の結果、「今日は晴れです」「今日は晴れですね」及び「今日は晴れだね」の3候補がリスト表示される。
このように、前方一致検索は、入力され台詞入力ボックス610に表示されたテキストに応じて、ユーザの操作なしに自動的に実行される。
【0048】
候補リストボックス613に表示された前方一致候補リストの内からいずれか1つが選択されて決定されると、単語列情報ボックス619に表示すると共に、台詞入力ボックス610、候補リストボックス613と候補数ボックス614の表示をクリアする。
選択した候補の決定は、候補のマウスダブルクリック、候補を選択後、候補選択ボタン615のクリック、候補を選択後キーボードの「Enter」キーにより決定される。
【0049】
次に、合成音声データの作成と、単語列情報ボックス619に表示する、入力文を視覚的に表示する単語列表示について説明する。
合成音声編集ダイアログ214は、変換ボタン611が選択されると、台詞入力ボックス610に表示されたテキスト(入力文)を、変換対象文として一括して変換する。
なお、既に吹き出し画面52(図7(a))に表示するテキスト文が入力されている場合(合成音声データが作成されていない場合といる場合がある)、図7(a)の台詞編集ボタン313がクリックされると、入力済みのテキスト文が吹き出し表示部602に表示される。そして、この状態で音声編集ボタン601が選択されると、合成音声編集ダイアログ214は、吹き出し表示部602に表示されているテキスト文を台詞入力ボックス610に表示する。これにより、作成済みの合成音声データも編集対象とすることができる。
【0050】
図9(a)に示されるように、台詞入力ボックス610に表示されたテキスト文の一部を範囲(枠で囲った部分)指定した後に変換ボタン611が選択された場合には、指定範囲が、一括しての変換対象となる。範囲指定せずに、変換ボタン611が選択された場合には、選択時に台詞入力ボックス610に表示されているテキスト文全体が一括変換の対象となる。
【0051】
テキスト文の一括変換する場合、合成音声編集ダイアログ214は、台詞DB221aに格納された表記文字単位で、変換対象文を区分する(区分手段)。
変換対象文の区分は、句読点、区切り線「|」を区切りと判断し、最初にこの区切り単位のテキストに一致する表記文字が台詞DB221aに存在するか検索する。存在する場合には、次の区切り単位のテキストを検索する。
存在しない場合には、順次1字ずつ短くしたテキストに対して台詞DB221aを検索する。存在した場合にはその表記文字を1単語として、変換対象文を区分し、残りの部分に対して再度検索を行う。
なお、記号や句読点は、1単語として扱われる。そのため台詞DB221aには、「読み」のない単語と「読み」のある単語が登録されている。
【0052】
例えば、「和食が、好きなのですね。」を変換対象文とした場合、まず、句読点句点により「和食が、」「好きなのですね。」に区切る。そして、区切った「和食が、」で台詞DB221aを検索し、なければ1字短くした「和食が」で検索する。それでもなければ、更に1字短くした「和食」で検索し、存在すれば「和食」を単語として区分する。そして、残った「が、」に対して同様に検索し、「が」、「、」で区分する。更に、次の区切りである「好きなのですね。」も同様に検索をする。
【0053】
区切りは句読点のほか、図9(b)に示されるように、区切り線「|」も区切りと判断する。従って、「今日は、天気が|いい|ですね」では、「今日は、」「天気が」「いい」「ですね」の4つの部分に区切られる。
このように、句読点や区切り線「|」毎に区切ることで、台詞DB221aの検索回数を減らすことが可能になる。これは、長い単語よりも、短い単語の方が多いことによる。
【0054】
以上の変換対象文の区分処理を行ってる間、合成音声編集ダイアログ214は、変換ボタン611が「中止」ボタンに表示変更し、この「中止」ボタンが選択された場合、変換を中止する。
【0055】
変換対象文の区分が完了すると、合成音声編集ダイアログ214は、区分した各単語に対する音声コードと、種別を台詞DB221aから取得する。そして、各単語の種別により、その単語に続く無音の長さを、無音長テーブルから決定し、対応する無音コードを取得する。
そして、図9(c)に例示するように、取得した音声コードと無音コードから、変換対象文に対応する合成音声データをメモリに格納する。
図9(c)に示されるように、合成音声データは、声の種類、感情、に続き、文字(表記文字)とコードの組の羅列で構成される。コードには、無音コード01,02、…と有音コード21,13…がある。文字部分が空白の部分は無音部でその次のコード01が無音コードである。
このように合成音声データは、実際の音声データ(ADPCMデータ)は含まれていないので、シナリオ全体のデータ量を少なくすることができる。
【0056】
合成音声編集ダイアログ214は、合成音声データの作成と並行して、変換対象文に対する変換結果として、枠内の単語と無音線分等からなる単語列を、単語列情報ボックス619に表示する。
図10は、単語列情報ボックス619に変換結果として表示された、単語列を例示したものである。
この図10に示されるように、単語列は、四角の枠内640に区分された単語が表示され(有音表示形式)、各枠間には無音長に応じた長さの無音線分641が表示される(無音表示形式)。枠間(単語間)に無音部がない場合には、枠同士が接して表示される。
また、最後の枠640の後には、更に終端マーク642が表示される。この終端マーク642は、終端マーク642の前(最後の枠の後)に他の文字を挿入するために表示される。
このように、合成される単位音声データに対応する単語毎に枠で囲まれると共に、各単語間の無音間隔が視覚的に表示されるため、ユーザは、作成された音声合成データによって、エージェント装置において実際に音声出力された場合に各音がどのような繋がりを持って出力されるのかを視覚的に認識することができる。
【0057】
図10の単語列情報ボックス619に表示された単語列はマウスカーソル(矢印)で指定された単語がハイライト表示されているが、変換直後は終端マーク642がハイライト表示される。
ハイライト表示は、該当する単語の枠(枠内)をマウスの左クリック、又は、キーボードの左右矢印キーで移動させることができる。
このハイライト表示された単語の枠、又は終端マークを基準に、単語列(変換結果)の編集と、その編集に応じて合成音声データの編集が行われる。
以下、単語列に対する個別の編集処理について説明する。
【0058】
(1)挿入処理
新たな単語を挿入する場合、挿入位置の後側の単語の枠又は終端マークを選択することでハイライト表示させる。
この状態で、台詞入力ボックス610に挿入する文字列を入力して変換ボタン611を選択すると、合成音声編集ダイアログ214は、入力された文字列に対して変換処理(区分と単位文字列を検索)を行う。入力文字列に対応する枠で囲まれた単語が、ハイライト表示された単語の前に挿入される。挿入の際には、挿入される単語の種別に応じた長さの無音線分も挿入される。
例えば、図10において、単語「いい」をハイライト表示させた状態で、台詞入力ボックス610に「とても」と入力して変換ボタン611を選択すると、図11に示されるように、単語「とても」と無音線分がハイライト表示された単語「いい」の前に挿入される。
この挿入処理に伴い、合成音声データにも、表記文字「とても」とその音声コード、及び、無音部(空白の文字)と無音コードが、表記文字「いい」の前に挿入される。
【0059】
なお、無音線分がハイライト状態で、台詞入力ボックス610に文字を入力して変換ボタン611が押された場合、“合成音声編集ダイアログ214は、画面に「挿入できません。単語または終端マークを選択してください」といったダイアログを表示する。
ハイライト表示がない状態で文字が入力され変換ボタン611が選択された場合には、終端マーク642の前に挿入する。
【0060】
単語の枠又は、無音線分をマウス右クリックされると、合成音声編集ダイアログ214は、フォーカスを移動して、ポップアップメニューを表示する。
以下、ポップアップメニューを説明する。
(2)単語選択時のポップアップメニュー
図12は、単語が右クリックされた場合のポップアップメニューを表したものである。図12に示されるように、ポップアップメニューには、「単語の変更」「単語の2分割」「削除」「字が同じで音が違う候補の選択」「意味が同じで音が違う候補の選択」「単音間の無音の調整」「単語のプロパティ」「無音の挿入」が表示され、これらに対する各編集が可能である。但し、「単音間の無音の調整」については、単語のポップアップメニューでは薄く表示され、選択ができないようになっている。
【0061】
(2−1)単語の変更
「単語の変更」メニューが選択されると、合成音声編集ダイアログ214は、図13(a)に示されるように、単語の変更ウィンドウを表示する。
この単語の変更ウィンドウに、変更後の単語を入力して決定ボタン選択すると、ポップアップ時に右クリックで選択された単語と、変更がされる。
図13(a)に示されるように、文字「明日」が入力され決定ボタンが選択されると、合成音声編集ダイアログ214は、明日に対応する単語を検索し、右クリックされた単語「今日」を「明日」に変更して、単語列情報ボックス619に表示する。そして、変更語の単語「明日」に対応する合成音声データも変更する。その際、単語に続く無音部の有無や長さに変更が有れば併せて変更されることになる。
【0062】
(2−2)単語の2分割
「単語の2分割」メニューが選択されると、合成音声編集ダイアログ214は、図13(b)に示されるように、単語分割ウィンドウを表示する。
単語分割ウィンドウには、ポップアップ時に右クリックで選択された単語(図13(b)では「ですね」)と、縦棒であらわされる分割カーソルを表示する。ユーザは、分割カーソルを移動することで分割位置を指定し、「決定」ボタンで単語列変換をする。単語列の変換は、分割カーソルの前の単語と、後の単語に分割され表示され、両単語の枠間には無音線が表示される。なお、無音部なしとすることも可能である。
【0063】
(2−3)削除
「削除」メニューが選択されると、合成音声編集ダイアログ214は、右クリックで選択された単語を削除して良いかを確認する確認ウィンドウを開く。
「OK」ボタンが選択されたらその単語を削除し、「キャンセル」ボタンが選択されると削除が無効になる。
【0064】
(2−4)字が同じで音の違う候補の選択
「字が同じで音の違う候補の選択」が選択されると、合成音声編集ダイアログ214は、図13(c)に示されるように、同字異音ウィンドウを表示し、台詞DB221aから、右クリックで選択された単語と表記が同一である他の表記文字を検索し、表記文字、読み、コメントを一覧表示する。
同字異音ウィンドウを表示した最初は、現在、単語列情報ボックス619に表示されている単位文字(右クリックで選択された単語)を枠で囲うことで、選択されていることを表示する。
変更する場合には、マウスで他の候補をクリックし、枠の囲いを移動した後、「決定」ボタンを押すか、候補を左ダブルクリックで選択する。
「単語の変更」ボタンを押すと、ウィンドウを終了し、「単語の変更」ウィンドウ(図13(a))を表示する。
なお、単語列情報ウィンドウで単語を左ダブルクリックしたときも、図13(c)の同字異音ウィンドウを開く。
【0065】
(2−5)意味が同じで音の違う候補の選択
「意味が同じで音の違う候補の選択」メニューが選択されると、合成音声編集ダイアログ214は、図14(a)に示されるように、類義語ウィンドウを開く。そして、台詞DB221aを検索して、右クリックで選択された単語の類義語の音声コードを取得し、その音声コードに対応する単語の表示(表記文字)、読み、コメントをリスト表示する。
類義語ウィンドウを表示した最初は、現在、単語列情報ボックス619に表示されている単位文字(右クリックで選択された単語)を枠で囲うことで、選択されていることを表示する。
変更する場合には、マウスで他の候補をクリックし、枠の囲いを移動した後、「決定」ボタンを押すか、候補を左ダブルクリックで選択する。
【0066】
(2−6)単語のプロパティ
「単語のプロパティ」メニューが選択されると、合成音声編集ダイアログ214は、プロパティウィンドウを表示し、台詞DB221aを検索して、右クリックで選択された単語の表示、読み、コメントを表示する。
このプロパティウィンドウで再生ボタンが選択されると、合成音声編集ダイアログ214は、単語に対応する音声コードから、音声DB221bを検索して対応する音声データ(ADPCMデータ)を取得して、その単語を音声再生する。
【0067】
(2−7)無音の挿入
右クリックで選択した単語の前方に無音部が存在しない場合、このメニューが表示され、存在する場合には薄く表示されて選択できないようになる。
無音部が存在しない場合としては、無音線分を削除した場合(後述)及び、前方の単語が名詞である場合のように、セリフDB221aに格納されている無音長テーブルで無音長が0秒に設定されている場合がある。
「無音の挿入」メニューが選択されると、合成音声編集ダイアログ214は、図14(c)に示す無音挿入ウィンドウを開き、設定された無音の長さ(1〜)に応じた長さの無音線分を表示する。
【0068】
(3)無音線文選択時のポップアップメニュー
図15(a)は、無音線分が右クリックされた場合のポップアップメニューを表したものである。図15に示されるように、ポップアップメニューには、「削除」と「間隔の調整」が表示され、これらに対する各編集が可能である。
(3−1)削除
「削除」のメニューが選択されると、合成音声編集ダイアログ214は、右クリックで選択された無音線分の削除を確認する確認ウィンドウを表示する(図示しなし)。
この確認ウィンドウで「OK」ボタンが選択されると無音線分を削除し、「キャンセル」ボタンが選択されると削除が無効になる。
【0069】
(3−2)間隔の調整
「間隔の調整」メニューが選択されると、合成音声編集ダイアログ214は、図15(b)に示される間隔調整ウィンドウを表示する。
このウィンドウで設定された無音の長さ(1〜)に応じた長さの無音線分を表示する。
なお、無音線分の左ダブルクリックでも、この間隔調整ウィンドウを表示する。
【0070】
(4)複数の単語を選択した場合のポップアップメニュー
図16(a)に示されるように、マウス左ボタンを押したままの状態で複数の単語を囲むと、それがハイライト表示される。
続いて枠内でマウス右ボタンをクリックすると図16(b)に示されるように、ポップアップメニューを表示する。
ポップアップメニューには、「単語の変更」「単語の結合」「単語の削除」メニューが表示される。このうち「単語の変更」「単語の削除」が選択された場合には、(2−1)単語の変更、(2−3)削除と同様に処理される。
「単語の結合」メニューが選択された場合、選択された枠内の単語を結合してよいかどうかの確認ウィンドウを開き、「OK」ボタンが選択されると結語後の単語で再変換をし、「キャンセル」ボタンが選択されると元に戻る。
なお、結合が必要な場合としては、(2−2)単語の2分割、をした語を再度基に戻す場合等がある。
結合した後の単語に対しての変換が失敗した場合(該当する単語が台詞DB221aに存在しない場合)は、元に戻る。
【0071】
(5)該当する単語がなかった場合のポップアップメニュー
変換対象文を変換する際に、該当する単語が台詞DB221aに存在しない場合には、台詞入力ボックス610に入力された表記の単語を枠内に表示すると共に、その単語の色等を変更(たとえば赤)して変換できなかった単語であることを明示する。
図17(a)は、該当する単語が無かった単語を右クリックした場合のポップアップメニューを表したものであり、「エラーの修正」「単語の変更」「削除」の各メニューが表示される。このうち「単語の変更」「単語の削除」が選択された場合には、(2−1)単語の変更、(2−3)削除と同様に処理される。
【0072】
(5−1)エラーの修正
「エラーの修正」メニューが選択されると、合成音声編集ダイアログ214は、図17(b)に示されるようにエラー修正ウィンドウを表示する。
ユーザによりその語の読みがカタカナで入力され、「決定」ボタンが押されると、合成音声編集ダイアログ214は、入力された、フリガナを読みとする単語を台詞DB221aから検索し、検索結果を、図17(c)に示す、「同じ読みの候補の選択」ウィンドウにリスト表示する。
候補選択後「決定」ボタンが選択されると、又はダブルクリックされると、選択された単語に決定し、枠内の表記を変更する。「キャンセル」ボタンが選択された場合、エラー修正なしに、終了する。
【0073】
図17(c)において「単音に変換」ボタンが選択された場合、及び、図17(b)で入力された読みに該当する単語が台詞DB221aに存在しない場合、合成音声編集ダイアログ214は、図17(d)に示す「単音に変換」ウィンドウを表示する。
この「単音に変換」ウィンドウにおいて読みを入力後、「決定」ボタンが選択されると、単音に変換し、終了する。「キャンセル」ボタンが選択されるとエラー修正なしに、終了する。
【0074】
(6)エラー修正(単音に変換)した単語の選択時のポップアップメニュー
エラー修正で短音に変換(図17(a)〜(d)の説明参照)した単語が選択された場合、合成音声編集ダイアログ214は、図18(a)に示すように、通常の単語が右クリックされた場合((2)参照)と同一のポップアップメニューを表示する。なお、この場合に選択されるのは、台詞DB221aに存在しないために、台詞入力ボックス610から入力された表記文字である。
但し、エラー修正した単位文字を右クリックで選択した場合、複数の単音に変換していれば「単音間の無音の調整」が濃く表示され(薄く表示されない)、選択が可能になる。変換した単音(ア、イ、ウ…等の1文字)が1文字の場合は選択できない。
【0075】
(6−1)単音間の無音の調整
「単音間の無音の調整」メニューが選択されると、合成音声編集ダイアログ214は、図18(b)に示すように「単音間の無音調整」ウィンドウを表示する。このウィンドウで、無音線分を右クリックで選択すると「削除」、「間隔の調整」メニューを表示し、単語(単音)を右クリックで選択すると「無音の挿入」メニューを表示する。その操作(ユーザによる)と、操作に対する合成音声編集ダイアログ214の処理は上述した操作、処理と同様である。
【0076】
(6−2)単語のプロパティ
図18(a)において「単語のプロパティ」メニューが選択された場合、合成音声編集ダイアログ214は、図14(c)に示すように単語のプロパティウィンドウを表示し、そのコメント欄に、「単音」であることを表示する。
【0077】
(7)数字を選択した場合のポップアップメニュー
図19(c)に示すように、数字が選択された場合には、「単言の変更」「読みの編集」「削除」「無音の挿入」の各メニューが表示される。
(7−1)読みの編集
「読みの編集」メニューが選択されると、合成音声編集ダイアログ214は、読みの編集ウィンドウを表示して、各桁毎の数字の読みを枠で囲って表示する。このウィンドウで、単語を右クリックで選択すると「読みの変更」「無音の挿入」メニューを表示し、無音線分を右クリックで選択すると「削除」、「間隔の調整」メニューを表示する。
また、「棒読みに変更」ボタンを選択すると、数字の読みを桁読みから棒読みに変更する。すなわち、単語「3980」の桁読み「サンゼン」「キュウヒャク」「ハチジュウ」を、棒読み「サン」「キュウ」「ハチ」「ゼロ」に変換する。「棒読みに変更」ボタンを選択されると、合成音声編集ダイアログ214は、数字の読みが棒読みに変更し、ボタンの表記が「桁読みに変更」に変更する。
【0078】
(7−1−1)「読みの変更」
数字の場合、数字が数を表す対象によって読みが異なる場合がある。例えば、数字「900」に対して後に「本」がくると「キュウヒャッ」となり、後に「枚」がくると「キュウヒャク」となる。
図19(b)のウィンドウで単語を右クリックし、「読みの変更」メニューを選択すると、合成音声編集ダイアログ214は、図19(c)に示すように、読み方の候補をリスト表示する。
いずれかの読みを選択して「決定」ボタンで押す、もしくは左ダブルクリックで、「読みの編集」ダイアログが、更新される。
【0079】
以上説明したように、単語列情報ボックス619には、変換対象文を枠で囲った単語と無音線分により、音声出力される内容を視覚的に表示しているので、ユーザは出力される音声内容と出力される様子を容易に理解することができる。
また、枠で囲った単語単位、及び、無音線分単位で、合成音声の内容を編集することができるので、操作が容易である。
このように、区分された有音部(単語)及び無音部を編集することにより、本発明の編集手段が形成される。
【0080】
次に、図8の音声編集メイン画面605の単語列情報ボックス619の右側に配置された各種操作ボタンについて説明する。
(1)再生
「再生」ボタン620が選択されると、合成音声編集ダイアログ214は、単語列情報ボックス619に表示された単語列を再生する。再生中は「再生」ボタンの表示を「中止」に変更し、中止ボタンが選択されると再生を中止する。
なお、単語列情報ボックス619の単語列にエラー単語がある場合には選択できない。
音声を再生(合成して出力)する場合、合成音声編集ダイアログ214は、台詞入力ボックス610に入力されたテキスト文を変換した際、及び、単語列情報ボックス619に表示された単語列(変換結果)を編集した際、に作成及び編集した合成音声データ(図9(c)参照)をメモリ12から読み出し、音声コードと無音コード順に再生して出力する。音声コードの再生は図4(b)の音声DB221bからADPCMデータを読み出し、音声再生手段(音声再生DLL(Dynamic Link Library」))により再生する。
【0081】
(2)全削除
「全削除」ボタン621が選択されると、合成音声編集ダイアログ214は、単語列情報ボックス619に表示している全内容をクリアする。
【0082】
(3)登録文章一覧と文章登録
(3−1)「登録文章一覧」ボタン623が選択されると、合成音声編集ダイアログ214は、図20(a)に示すように、定型文一覧ウィンドウを表示する。このウィンドウ右側に表示されている文章を、左ダブルクリックまたは選択後「挿入」ボタンで、単語列情報ボックス619に選択された文章を追加表示する。
登録済みの定型文はいずれかのカテゴリに分類されており、左側のカテゴリ枠内に表示されているカテゴリを選択すると、選択されたカテゴリの定型文が右側にリスト表示される。
定型文の左に表示されている声質と感情は、音声編集メイン画面605(図8)の声種類選択ボタン607と、感情選択ボタン608による選択内容、又はデフォルト(選択されていない場合)の値である。
【0083】
(3−2)「文章登録」ボタン622が選択されると、合成音声編集ダイアログ214は、図20(b)に示すように、定型文登録ウィンドウを表示し、登録文章の枠内に、単語列情報ボックス619に表示されている単語列の文章を表示する。
カテゴリのドロップダウンリストボックスから、登録するカテゴリを選択し、「登録」ボタンを押すと、選択済みの声の種類、感情と共に定型文として登録される。
登録したいカテゴリが存在しない場合には、「カテゴリの追加」ボタンを選択し、新たなカテゴリを追加することができる。新たに追加したカテゴリは、図20(a)の左側カテゴリ欄に表示される。
登録される定型文は、共通定義DB221に、定型文データとして登録される。
【0084】
(4)登録単語一覧
「単語登録一覧」ボタン626が選択されると、合成音声編集ダイアログ214は、図21(a)に示す、単語一覧ウィンドウを表示する。
表示された単語を左ダブルクリックまたは選択後「挿入」ボタンで、単語列情報ボックス619に選択された単語を追加する。
(5)選択中の単語を登録、新規単語登録
「選択中の単語を登録」ボタン624、「新規単語登録」ボタン625が選択されると、合成音声編集ダイアログ214は、図21(b)に示す、単語登録ウィンドウを表示する。
ボタン624が選択された場合には、選択されている単語(ハイライト表示されている単語)の表示(表記文字)、読み、カテゴリ、コメントが表示される。ボタン625が選択された場合には、全欄空白で、新規に入力をする。
「カテゴリの追加」ボタンでユーザーがカテゴリを作成できる。
「表示」「読み」(「コメント」は必須ではない)を入力し、「カテゴリ」を選択後、「登録」ボタンを選択すると、入力内容を、登録単語として共通定義DB221に登録する。
なお、共通定義DB211に登録されている、定型文及び登録単語も、候補リストボックス613に表示される前方一致検索の検索対象、及び、変換処理の変換対象とされる。
【0085】
(5)決定
「決定」ボタンが選択されると、合成音声編集ダイアログ214は、音声編集メイン画面を閉じて、音声編集処理を終了する。
すると、シナリオエディタ211は、メモリ102に格納されている合成音声データ(図9(c)参照)の文字(表記文字)の部分から、合成後又は編集後の文章を作成する。そして、作成した文章を、音声編集メモウィンドウ600の吹き出し表示部602(図7(b)参照)にテキスト表示する。
以上のように、編集された有音部及び無音部を合成して、入力された文に対応する合成音声データを作成することにより、本発明の合成音声データ作成手段が形成される。
【0086】
以上のようにして作成された合成音声データ(図9(c)参照)は、シナリオエディタ211で作成されるシナリオにおいて展開される各シーンデータの一部として、図5に示す、シーンデータの「キャラクタ動作データ」に格納される。
【0087】
以上のようにして作成された音声合成データを含むシナリオデータは、エージェント装置においてエージェントの動作を規定するデータとして使用される。
図22は、エージェント装置とシナリオ作成装置からなる全体のシステム構成を表したものである。
このシステムでは、エージェント装置2と、指定された規格でシナリオデータを作成するユーザ又は第三者であるシナリオデータ作成者のシナリオ作成装置1と、サーバ3等を使用したインターネット等の通信手段から構成されている。
シナリオ作成装置1では、シナリオエディタにより独自のシナリオデータを作成する。そして、独自のシナリオデータを作成したユーザは、DVD−ROM、ICカード等の半導体記憶装置その他の記憶媒体7にシナリオデータを格納して、エージェント装置2に受け渡すことが可能である。そして、シナリオデータを受け取ったエージェント装置2では、記憶媒体駆動装置により記憶媒体7からシナリオデータを読み込んで、既に記憶しているシナリオデータに組み込むことで、シナリオ作成装置1で作成されたシナリオデータにしたがってエージェント装置2を動作させることが可能になる。なお、シナリオ作成装置1で作成するものは、エージェント装置2のユーザ自身でもよく、また、第三者でもよい。
また、エージェント装置2では、ユーザ自身や第三者が作成したシナリオデータを、インターネット等のネットワークを介して組み込み、また、メールに添付されたシナリオデータを組み込むことができる。
また、エージェント装置2のユーザに対してサービスの提供等を希望する第三者は、所定形式のシナリオデータを、例えば、シナリオエディタを使用してシナリオ作成装置1で作成し、自己のホームページに掲載してダウンロード可能にし、または電子メールの添付ファイルとしてエージェント装置2に送信する。エージェント装置2は、電子メールに添付されたシナリオデータ5を受信し、または、ユーザがサーバ3等の通信手段を介してシナリオデータファイル4をダウンロードするようになっている。また、エージェント装置2は、受信したシナリオデータの実行に従って取得されるユーザの回答(シナリオデータに対する回答メール)を、電子メール6の本文又は添付ファイルで、シナリオ作成者のシナリオ作成装置1に送信する。
このようにデータベース作成装置(シナリオエディタ)で作成された合成音声データ(シナリオ)を外部から取得し、記憶することにより、本発明の外部データ記憶手段が形成される。
【0088】
以上本発明の好適な実施形態について説明したが、本発明はこれに限定されるものではなく、請求項に記載した範囲で種々の変更がかのうである。
例えば、説明した実施形態では、枠間の結合部分を線分(無音線分)により表示したが、枠と枠の間隔(無音間隔)により表示するようにしてもよい。
無音線分、無音間隔を表示する場合、無音の長さに応じた線分の長さ、間隔の広さで表示するようにしてもよい。
【0089】
【発明の効果】
以上説明したように、本発明によれば、合成音声データを、音声データに対応する単語を有音表示形式で表示し、音声データの結合部分を無音表示形式で表示するので、合成音声を、より感覚的に簡単に、作成及び編集することができる。
【図面の簡単な説明】
【図1】本願発明の一実施形態における合成音声編集機能を備えたシナリオ作成装置の構成図である。
【図2】シナリオ編集プログラムとデータの構成を概念的に表した説明図である。
【図3】シナリオエディタ、合成音声ダイアログ、及び共通定義DBの関係を表した説明図である。
【図4】台詞DB、音声DB、無音長テーブルの内容を例示した説明図である。
【図5】シナリオエディタで作成された、実機形式のシナリオデータの構成を表した説明図である。
【図6】シナリオに基づいて、エージェント装置で実行される各シーンの展開状態の説明図である。
【図7】シナリオエディタを起動した場合に表示装置に表示されるシナリオメイン画面の構成を表した説明図である。
【図8】音声編集メイン画面の説明図である。
【図9】台詞入力ボックスの入力状態(a)、(b)と、合成音声データの構成(c)を表した説明図である。
【図10】単語列情報ボックスに変換結果として表示された、単語列を例示した説明図である。
【図11】単語を挿入した後の単語列を表す説明図である。
【図12】単語の枠が右クリックされた場合のポップアップメニューを表した説明図である。
【図13】単語を編集する場合の画面説明図である。
【図14】単語を編集する場合の他の画面説明図である。
【図15】無音線分を編集する場合の画面説明図である。
【図16】複数の単語を編集する場合の画面説明図である。
【図17】該当単語が無かった場合の単語列の表示、及びその修正画面を表した説明図である。
【図18】エラー修正をした後の単語を選択した場合の説明図である。
【図19】数字を選択した場合の画面説明図である。
【図20】定型文一覧と、定型文登録の画面説明図である。
【図21】単語一覧と、単語登録の画面説明図である。
【図22】エージェント装置とシナリオ作成装置からなる全体のシステム構成を表したものである。
【符号の説明】
10 制御部
11 入力装置
12 出力装置
13 通信制御装置
15 記憶媒体駆動装置
16 入出力インターフェース
20 記憶装置
21 シナリオ編集プログラム
211 シナリオエディタ
212 シナリオコンパイラ
213 DB編集ツール
214合成音声編集ダイアログ
22 シナリオ編集データ
221 共通定義DB
221a 台詞DB
221b 音声DB
221c 無音長テーブル
222 ローカル定義DB
23 その他のデータ及びプログラム

Claims (5)

  1. 音声データを結合して入力された文を発声する合成音声データを作成及び編集する合成音声編集装置であって、
    前記音声データに対応する単語を有音表示形式で表示する有音表示手段と、
    前記音声データの結合部分を無音表示形式で表示する無音表示手段と、
    を備えたことを特徴とする合成音声編集装置。
  2. 前記有音表示形式は、枠内に該音声データの内容を示す単語を表示し、
    前記無音表示形式は、前記枠間の結合部分を線分により表示する
    ことを特徴とする請求項1に記載の合成音声編集装置。
  3. 合成音声データを作成するための文を入力する入力手段と、
    単語に対応する音声データが格納された音声データ記憶手段と、
    前記入力された文を、前記音声データ記憶手段に記憶された音声データの単語に対応づけて区分する区分手段と、を備え、
    前記有音表示手段は、前記区分された単語を有音表示形式として表示することを特徴とする請求項1又は請求項2に記載の合成音声編集装置。
  4. 前記無音表示手段は、前記有音表示形式の結合部分における無音表示形式の有無及び長さを、前方の有音表示形式における単語の品詞種別によって決定し表示する
    ことを特徴とする請求項1、請求項2、又は請求項3に記載の合成音声編集装置。
  5. 音声データを結合して入力された文を発声する合成音声データを作成及び編集する合成音声編集プログラムであって、
    前記音声データに対応する単語を有音表示形式で表示する有音表示機能と、
    前記音声データの結合部分を無音表示形式で表示する無音表示機能と、
    を備えたことを特徴とする合成音声編集プログラム。
JP2003080665A 2003-03-24 2003-03-24 合成音声編集装置及び合成音声編集プログラム Pending JP2004287192A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003080665A JP2004287192A (ja) 2003-03-24 2003-03-24 合成音声編集装置及び合成音声編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003080665A JP2004287192A (ja) 2003-03-24 2003-03-24 合成音声編集装置及び合成音声編集プログラム

Publications (1)

Publication Number Publication Date
JP2004287192A true JP2004287192A (ja) 2004-10-14

Family

ID=33294457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003080665A Pending JP2004287192A (ja) 2003-03-24 2003-03-24 合成音声編集装置及び合成音声編集プログラム

Country Status (1)

Country Link
JP (1) JP2004287192A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294640A (ja) * 2008-05-07 2009-12-17 Seiko Epson Corp 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP2017041213A (ja) * 2015-08-21 2017-02-23 ヤマハ株式会社 合成音声編集装置
JP2018032330A (ja) * 2016-08-26 2018-03-01 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、サーバ、情報処理方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294640A (ja) * 2008-05-07 2009-12-17 Seiko Epson Corp 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP2017041213A (ja) * 2015-08-21 2017-02-23 ヤマハ株式会社 合成音声編集装置
JP2018032330A (ja) * 2016-08-26 2018-03-01 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、サーバ、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP3142803B2 (ja) テキストを音声に変換するシンセサイザ
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
US8498867B2 (en) Systems and methods for selection and use of multiple characters for document narration
CA1259410A (en) Apparatus for making and editing dictionary entries in a text-to-speech conversion system
US20160027431A1 (en) Systems and methods for multiple voice document narration
EP1096472A2 (en) Audio playback of a multi-source written document
US8340956B2 (en) Information provision system, information provision method, information provision program, and information provision program recording medium
US20100318362A1 (en) Systems and Methods for Multiple Voice Document Narration
WO1999060474A1 (fr) Dispositif de lecture a haute voix, procede de commande de lecture a haute voix et support d'enregistrement
CN110740275B (zh) 一种非线性编辑系统
JP3795692B2 (ja) 文字処理装置および方法
JP7200533B2 (ja) 情報処理装置およびプログラム
JP6003115B2 (ja) 歌唱合成用シーケンスデータ編集装置および歌唱合成用シーケンスデータ編集方法
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP2004287192A (ja) 合成音声編集装置及び合成音声編集プログラム
JP5082971B2 (ja) 音声合成装置およびそれを用いた読み上げシステム。
JP2004287193A (ja) データ作成装置、データ作成プログラム、及び車載装置
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP3589972B2 (ja) 音声合成装置
JPH09325787A (ja) 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
JP2006349787A (ja) 音声合成方法および装置
JP2002268664A (ja) 音声変換装置及びプログラム
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2003044072A (ja) 音声読み上げ設定装置、音声読み上げ装置、音声読み上げ設定方法、音声読み上げ設定プログラム及び記録媒体
JP2001242881A (ja) 音声合成方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090630