JP7048141B1

JP7048141B1 - プログラム、ファイル生成方法、情報処理装置、及び情報処理システム

Info

Publication number: JP7048141B1
Application number: JP2022000623A
Authority: JP
Inventors: 将一山村
Original assignee: Airobo Co Ltd
Current assignee: Airobo Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-05
Anticipated expiration: 2042-01-05
Also published as: JP2023100149A; WO2023132140A1; US20240046035A1

Abstract

【課題】より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成する。【解決手段】一実施形態に係るプログラムは、コンピュータに、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち１つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを実行させる。【選択図】図６

Description

本発明は、プレゼンテーションファイルから音声付きファイルを生成する技術に関する。

静止画とテキストから動画を生成する技術が知られている。例えば特許文献１は、インターネット動画配信のため、静止画とテキストから自動的に音声付き動画を生成するシステムを開示している。

特開２０１１－８２７８９号公報

特許文献１において生成される動画における音声はテキストから自動的に合成されるものであるが、決められた音声合成しかできず例えば音声の抑揚が無く単調であったり、改善の余地があった。

これに対し本発明は、より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成する技術を提供する。

本開示の一態様は、コンピュータに、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち１つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを実行させるためのプログラムを提供する。

このプログラムは、前記コンピュータに、前記音声データを再生する際の音声の指定を受け付けるステップを実行させてもよい。

このプログラムは、前記コンピュータに、前記ノートを音声合成する音声合成エンジンの指定を受け付けるステップを実行させ、前記音声データを取得するステップにおいて、前記指定された音声合成エンジンから前記音声データが取得されてもよい。

このプログラムは、前記コンピュータに、前記ノートを編集するためのＵＩオブジェクトを表示手段に表示させるステップを実行させてもよい。

前記ＵＩオブジェクトが、ＳＳＭＬのタグを挿入するためのボタンを含んでもよい。

前記ＵＩオブジェクトが、前記音声データをテスト再生するためのボタンを含んでもよい。

前記ＵＩオブジェクトが、前記音声付きファイルをテスト再生するためのボタンを含んでもよい。

このプログラムは、前記コンピュータに、前記ノートの他言語への翻訳を取得するステップを実行させてもよい。

このプログラムは、前記コンピュータに、前記翻訳における翻訳先の言語の指定を受け付けるステップを実行させ、前記翻訳を取得するステップにおいて、前記ノートの前記指定された言語への翻訳が取得されてもよい。

本開示の別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、前記複数のスライドのうち１つのスライドのノートを抽出するステップと、前記ノートの音声合成により得られる音声データを取得するステップと、前記音声データを再生するステップと、前記ノートの編集指示を受け付けるステップと、前記編集されたノートをスライドに書き込むステップと、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換するステップとを有する音声付きファイル生成方法を提供する。

本開示のさらに別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける受け付け手段と、前記複数のスライドのうち１つのスライドのノートを抽出する抽出手段と、前記ノートの音声合成により得られる音声データを取得する取得手段と、前記音声データを再生する再生手段と、前記ノートの編集指示を受け付ける受け付け手段と、前記編集されたノートをスライドに書き込む書き込み手段と、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換する変換手段とを有する情報処理装置を提供する。

本開示のさらに別の一態様は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける受け付け手段と、前記複数のスライドのうち１つのスライドのノートを抽出する抽出手段と、前記ノートの音声合成により得られる音声データを取得する取得手段と、前記音声データを再生する再生手段と、前記ノートの編集指示を受け付ける受け付け手段と、前記編集されたノートをスライドに書き込む書き込み手段と、前記編集されたスライドを含む前記プレゼンテーションファイルを音声付きファイルに変換する変換手段とを有する情報処理システムを提供する。

本発明によれば、より多様な音声が付加された音声付きファイルをプレゼンテーションファイルから生成することができる。

一実施形態に係るファイル生成システム１の概要を示す図。ファイル生成システム１の機能構成を例示する図。ユーザ端末２０のハードウェア構成を例示する図。ファイル生成システム１の動作を例示するフローチャート。設定画面を例示する図。設定処理を例示するフローチャート。発音辞書を例示する図。データベース１１３の構成を例示する図。テストの設定を行うＵＩオブジェクトを例示する図。休止時間を指定するためのダイアログボックスを例示する図。強調の度合いを指定するためのダイアログボックスを例示する図。スピードを指定するためのダイアログボックスを例示する図。声の高さを指定するためのダイアログボックスを例示する図。ボリュームを指定するためのダイアログボックスを例示する図。

１．構成
図１は、一実施形態に係るファイル生成システム１の概要を示す図である。ファイル生成システム１は、プレゼンテーションファイルから音声付きファイルを生成するサービス（以下「音声付きファイル生成サービス」という）を提供する。音声付きファイルとは、ユーザ端末２０において音声を出力させるためのデータと、ユーザ端末２０において映像を表示させるためのデータとが一体となったファイルをいう。音声付きファイルは、例えば、ＭＰＥＧ４など所定の形式で記述された動画ファイルである。ファイル生成システム１は、例えば、企業における社員教育又は教育機関における教育などの教育分野において用いられる。ファイル生成システム１は、サーバ１０、ユーザ端末２０、サーバ３０、及びサーバ４０を有する。サーバ１０は、音声付きファイル生成サービスにおけるサーバとして機能するコンピュータ装置である。ユーザ端末２０は、ファイル生成サービスにおけるクライアントとして機能するコンピュータ装置である。サーバ３０は、テキスト（又は文字列）から音声を合成する（すなわちテキストを音声に変換する）音声合成サービスを提供するサーバである。サーバ４０は、テキストを第１言語から第２言語に翻訳する翻訳サービスを提供するサーバである。

プレゼンテーションファイルは、プレゼンテーションアプリケーション（一例としてはMicrosoft社のPowerPoint(登録商標)）においてプレゼンテーションを行うためのファイルであり、複数のスライドを含む。複数のスライドは、各々がスライド本体及びノートを含む。スライド本体は、プレゼンテーションを実行する際に聴衆向けに表示されるコンテンツであり、画像及び文字の少なくとも一方を含む。ノートは、プレゼンテーションを実行する際に聴衆向けには表示されない（話者向けには表示可能）コンテンツであり、文字列を含む。ファイル生成システム１は、プレゼンテーションファイルに含まれるスライドのうち、スライド本体を映像に、ノートを音声に、それぞれ変換した後に合成し、音声付きファイル（例えば動画ファイル）を生成する。

図２は、ファイル生成システム１の機能構成を例示する図である。ファイル生成システム１は、記憶手段１１、制御手段１９、記憶手段２１、受け付け手段２２、抽出手段２３、取得手段２４、再生手段２５、受け付け手段２６、書き込み手段２７、変換手段２８、制御手段２９、音声合成手段３１、及び翻訳手段４１を有する。このうち、記憶手段１１及び制御手段１９はサーバ１０に実装される。記憶手段２１、受け付け手段２２、抽出手段２３、取得手段２４、再生手段２５、受け付け手段２６、書き込み手段２７、変換手段２８、及び制御手段２９はユーザ端末２０に実装される。音声合成手段３１はサーバ３０に実装される。翻訳手段４１はサーバ４０に実装される。

サーバ１０において、記憶手段１１は、各種のデータ及びプログラムを記憶する。制御手段１９は、各種の制御を行う。

ユーザ端末２０において、記憶手段２１は、各種のデータ及びプログラムを記憶する。受け付け手段２２は、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付ける（ファイル受け付け手段の一例）。抽出手段２３は、複数のスライドのうち１つのスライドのノートを抽出する。取得手段２４は、抽出されたノートの音声合成により得られる音声データを取得する。再生手段２５は、音声データを再生する。受け付け手段２６は、ノートの編集指示を受け付ける（指示受け付け手段の一例）。書き込み手段２７は、編集されたノートをスライドに書き込む。変換手段２８は、編集されたスライドを含むプレゼンテーションファイルを動画に変換する。制御手段２９は、各種の制御を行う。

サーバ３０において、音声合成手段３１は、ユーザ端末２０からの要求に従って、テキストデータを音声データに変換する。サーバ４０において、翻訳手段４１は、ユーザ端末２０からの要求に従って、原文を指定された言語の翻訳文に翻訳する。

図３は、ユーザ端末２０のハードウェア構成を例示する図である。ユーザ端末２０は、ＣＰＵ（Central Processing Unit）２１０、メモリ２２０、ストレージ２３０、通信ＩＦ（Interface）２４０、入力装置２５０、及び出力装置２６０を有するコンピュータ装置又は情報処理装置である。ＣＰＵ２１０は、プログラムに従って処理を実行する装置である。メモリ２２０は、ＣＰＵ１１０が処理を実行する際にワークスペースとして機能する記憶装置であり、例えばＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）を含む。ストレージ２３０はデータ及びプログラムを記憶する記憶装置であり、例えばＳＳＤ（Solid State Drive）又はＨＤＤ（Hard Disk Drive）を含む。通信ＩＦ２４０は所定の通信規格（例えばＬＴＥ（登録商標）、ＷｉＦｉ（登録商標）、又はイーサネット（登録商標））に従って他のコンピュータ装置と通信を行う。入力装置２５０は、ユーザ端末２０に指示又は情報を入力する装置であり、例えば、タッチスクリーン、キーパッド、キーボード、ポインティングデバイス、及びマイクロフォンのうち少なくとも一種を含む。出力装置２６０は、情報を出力する装置であり、例えば、ディスプレイ及びスピーカを含む。

この例において、ストレージ２３０に記憶されるプログラムには、コンピュータ装置をファイル生成システム１のクライアントとして機能させるためのプログラム（以下「ファイル生成プログラム」という）が含まれる。ＣＰＵ２１０がクライアントプログラムを実行することにより、図２に示す機能がコンピュータ装置に実装される。

ＣＰＵ２１０がサーバプログラムを実行している状態において、メモリ２２０及びストレージ２３０の少なくとも一方が記憶手段２１の一例であり、ＣＰＵ２１０が受け付け手段２２、抽出手段２３、取得手段２４、受け付け手段２６、書き込み手段２７、変換手段２８、制御手段２９の一例であり、出力装置２６０が再生手段２５の一例である。

詳細な説明は省略するが、サーバ１０、サーバ３０、及びサーバ４０は、ＣＰＵ、メモリ、ストレージ、及び通信ＩＦを有するコンピュータ装置である。このストレージには、コンピュータ装置をファイル生成システム１のサーバ１０、サーバ３０、又はサーバ４０として機能させるためのプログラムが記憶される。ＣＰＵがこのプログラムを実行することにより、図２に示す機能がコンピュータ装置に実装される。

２．動作
図４は、ファイル生成システム１の動作を例示するシーケンスチャートである。以下において、ファイル生成プログラム等のソフトウェアを処理の主体として記載することがあるが、これは、ファイル生成プログラムを実行しているＣＰＵ２１０等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。

ユーザは、ユーザ端末２０において、ファイル生成プログラムを起動する（ステップＳ１０）。起動されると、ファイル生成プログラムは、プレゼンテーションファイルから音声付きファイル（この例では動画ファイル）を生成するための設定を行う画面（以下「設定画面」という）を表示する（図４：ステップＳ１１）。ファイル生成プログラムは、設定画面を表示する前にＩＤ及びパスワードの入力など、周知のログイン処理を行ってもよい。

図５は、設定画面を例示する図である。設定画面は、オブジェクト９５１～９６０を含む。ファイル生成プログラムは、この設定画面を介して、プレゼンテーションファイルから音声付きファイル（この例では動画ファイル）を生成するための設定処理を、ユーザの指示入力に応じて行う（ステップＳ１２）。

図６は、ステップＳ１２における設定処理を例示するフローチャートである。以下、図５及び図６並びにファイル生成プログラムの画面例を参照しつつ、設定処理を説明する。なお、図６においては設定処理を便宜上フローチャートで記載しているが、各ステップの処理はフローチャートに記載した順序で行われる必要はなく、あるステップの順序が他のステップの順序と入れ替えられてもよいし、一部のステップが省略されてもよい。

図５を参照する。オブジェクト９５１は、音声付きファイルに変換するプレゼンテーションファイルを指定するためのＵＩオブジェクトである。ユーザがオブジェクト９５１右側のボタンを押すと、ファイル生成プログラムは、ファイルを選択するためのダイアログを表示する。このダイアログでファイルを選択すると、オブジェクト９５１左側のテキストボックスにそのファイル名が表示される。ファイル生成プログラムは、オブジェクト９５１において、処理の対象となるプレゼンテーションファイルの指定を受け付ける（図６：ステップＳ１２０）。

オブジェクト９５２は、出力ファイルすなわち変換後の音声付きファイルを指定するためのＵＩオブジェクトである。ユーザがオブジェクト９５２右側のボタンを押すと、ファイル生成プログラムは、フォルダを選択するためのダイアログを表示する。ユーザはこのダイアログでフォルダを選択する。ユーザはさらに、オブジェクト９５２左側のテキストボックスにおいてその音声付きファイルを保存するためのファイル名を入力する。既に保存済のファイルを上書き保存する場合は、既存のファイルが上書きされる。ユーザはテキストボックスにおいてファイル名を編集することができる。生成された動画はこのファイル名で保存される。ファイル生成プログラムは、オブジェクト９５２において、変換後の音声付きファイルの指定を受け付ける。

オブジェクト９５３は、発音辞書の使用の有無を指定するＵＩオブジェクトである。オブジェクト９５３左のチェックボックスにチェックが入れられると、ファイル生成プログラムは、発音辞書を使用するよう設定する。チェックが外されると、ファイル生成プログラムは、発音辞書を使用しないよう設定する。オブジェクト９５３右のボタンが押されると、ファイル生成プログラムは発音辞書を表示する。この例において、発音辞書はサーバ１０においてデータベース１１２に記憶されている。ファイル生成プログラムは、サーバ１０にアクセスして発音辞書を読み出す。

図７は、発音辞書を例示する図である。発音辞書は複数のレコードを含む。各レコードは、項目「語句・単語」及び「発音指定」を含む。項目「語句・単語」には、発音を指定したい語句又は単語が登録される。図の例では「ＡＢＣ」という語句が登録されている。項目「発音指定」には、その語句又は単語の発音が登録されている。図は日本語における発音を指定する例を示しており、「アーベーツェー」という発音が指定されている。詳細な図示は省略したが、各レコードは言語を指定する項目を有し、言語毎に発音が指定されてもよい。

再び図５を参照する。オブジェクト９５４は、音声合成する際の言語及び音声タイプを指定するためのＵＩオブジェクトである。この例において、ファイル生成プログラムは、複数の音声合成エンジンにアクセスすることができる。これら複数の音声合成エンジンはそれぞれ異なる事業者により提供され、それぞれ異なる特徴を有している。例えばある音声合成エンジンは対応する言語が多く、別の音声合成エンジンは多数の音声タイプが用意される。サーバ１０の記憶手段１１は、データベース１１３を記憶している。データベース１１３は、音声合成エンジンの属性を記録したデータベースである。ファイル生成プログラムは、データベース１１３を参照して、オブジェクト９５４のプルダウンメニューを表示する。

図８は、データベース１１３の構成を例示する図である。データベース１１３は複数のレコードを含む。各レコードは、１つのエンジンＩＤ、１つの言語ＩＤ、及び少なくとも１つの音声タイプＩＤを含む。エンジンＩＤは、音声合成エンジンの識別情報である。言語ＩＤは音声合成する言語を示す識別情報である。音声タイプＩＤは、音声合成に用いられる音声のタイプ（例えば、少女、少年、若い女性、若い男性、中年女性、又は中年男性など）を示す識別情報である。図８の例では、エンジンＩＤ「ＧＧＬ」を有する音声合成エンジンが、言語ＩＤ「英語（イギリス）」に対応しており、音声タイプ「少女」、「少年」、「若い女性」、「若い男性」、「中年女性」、及び「中年男性」という６タイプの音声で音声合成が可能であることを示している。

この例では、単一の音声付きファイルにおいて複数の音声タイプを併用することができる。オブジェクト９５４は、「複数音声の設定」というボタンを有する。ユーザがこのボタンを押すと、第２、第３の音声タイプを設定することができる。

再び図５を参照する。オブジェクト９５５は、音声合成の際の読み上げ速度及びピッチを指定するためのＵＩオブジェクトであり、この例ではスライドバーを含む。ファイル生成プログラムは、このスライドバーの位置に応じて読み上げ速度及びピッチを設定する。

オブジェクト９５６は、字幕の有無を指定するためのＵＩオブジェクトであり、この例ではラジオボタンを含む。この例において、字幕に関する設定は、「ＹＥＳ」、「ＮＯ」、「タグを指定して付ける」の３択である。「ＹＥＳ」が選択されると、ファイル生成プログラムは、動画において字幕を表示するように設定する。「ＮＯ」が選択されると、ファイル生成プログラムは、動画において字幕を表示しないように設定する。「タグを指定して付ける」が選択されると、ファイル生成プログラムは、ノートにおいて特定のタグが付与された文字列（この例では＜ｓｕｂｔｉｔｌｅ＞及び＜／ｓｕｂｔｉｔｌｅ＞というタグで囲まれた文字列）のみ字幕として表示されるよう設定する。

オブジェクト９５７は、スライドの間隔を指定するためのＵＩオブジェクトであり、この例では数値ボックスを含む。ファイル生成プログラムは、スライドとスライドとの間に、オブジェクト９５７において指定された時間のブランクを挿入するよう設定する。具体的には、前スライドの画像が表示され続けた状態で音声が一旦止まり、音のない時間が続き（ブランクの時間）、その後、次のスライドの画面と音声再生が始まる。

オブジェクト９５８は、翻訳の有無を指定するためのＵＩオブジェクトである。この例において、オブジェクト９５８は、ラジオボタン９５８１、チェックボックス９５８２、プルダウンメニュー９５８３、チェックボックス９５８４、ボタン９５８５、テキストボックス９５８６、及びボタン９５８７を含む。

ラジオボタン９５８１は、翻訳の有無を指定するためのＵＩオブジェクトである。「ＹＥＳ」が選択されると、ファイル生成プログラムは、ノートを翻訳するよう設定する。「ＮＯ」が選択されると、ファイル生成プログラムは、ノートを翻訳しないように設定し、オブジェクト９５８に含まれる他のＵＩオブジェクトをグレーアウトする。チェックボックス９５８２は、音声付きファイル生成の有無を指定するＵＩオブジェクトである。チェックボックス９５８２にチェックが入れられると、ファイル生成プログラムは、プレゼンテーションファイルを翻訳するだけで音声付きファイルの生成は行わない。チェックボックス９５８２のチェックが外されると、ファイル生成プログラムは、プレゼンテーションファイルに含まれるノートの翻訳に加え、翻訳されたプレゼンテーションファイルを音声付きファイルに変換する。プルダウンメニュー９５８３は、翻訳エンジンを選択するためのＵＩオブジェクトである。サーバ１０の記憶手段１１は、データベース１１４を記憶している。データベース１１４は、翻訳エンジンの属性を記録したデータベースである。ファイル生成プログラムは、データベース１１４を参照してプルダウンメニュー９５８３を表示する。

チェックボックス９５８４は、用語集の使用の有無を指定するＵＩオブジェクトである。「ＹＥＳ」が選択されると、ファイル生成プログラムは、翻訳の際に用語集を使用するように設定する。「ＮＯ」が選択されると、ファイル生成プログラムは、翻訳の際に用語集を使用しないように設定する。ボタン９５８５が押されると、ファイル生成プログラムは用語集を表示する。この例において、用語集はサーバ１０においてデータベース１１２に記憶されている。ファイル生成プログラムは、サーバ１０にアクセスして用語集を読み出す。

テキストボックス９５８６は、ノートの翻訳をしたプレゼンテーションファイルの出力ファイル名を入力又は編集するためのＵＩオブジェクトである。ボタン９５８７は、ノートの翻訳をしたプレゼンテーションファイルの出力ファイルを指定するＵＩオブジェクト（例えばダイアログボックス）を呼び出すためのＵＩオブジェクトである。ファイル生成プログラムは、テキストボックス９５８６において指定されたファイル名を与えて、ノートの翻訳をしたプレゼンテーションファイルを保存する。

オブジェクト９５９は、音声合成のテストの設定を行うＵＩオブジェクト（例えばダイアログボックス）を呼び出すためのＵＩオブジェクトである。オブジェクト９５９を介して音声合成のテストの設定が指示されると、ファイル生成プログラムは、テストの設定を行うＵＩオブジェクトを呼び出す。

図９は、テストの設定を行うＵＩオブジェクトを例示する図である。このＵＩオブジェクトは、オブジェクト８０１～８１０を含む。オブジェクト８０１は、読み上げタイプを指定するためのＵＩオブジェクトである。読み上げタイプとは、言語と音声タイプとの組み合わせをいう。この例において、ノートの合成音声は、所定のマークアップ言語、例えばＳＳＭＬ（Speech Synthesis Markup Language）又はＳＳＭＬに準拠若しくは類似した言語により指定される属性又はパラメータを用いて行われる。この例においては、所定のタグ（＜ｖｎ＞）により読み上げタイプの切り替えを指定することができる。具体的には、３つの読み上げタイプを指定することができる（ｎ＝１～３の整数）。読み上げタイプ１、２、及び３については、オブジェクト９５４において指定された言語及び音声タイプの組み合わせが初期値としてファイル生成プログラムにより自動的に設定される。読み上げタイプ１についても、ユーザは初期値から変更することができる。すなわちファイル生成プログラムはオブジェクト８０１において、音声の指定を受け付ける（図６：ステップＳ１２２）。この例において、音声の指定を受け付けるということは、音声合成エンジン及び言語の指定を受け付ける（図６：ステップＳ１２３及びステップＳ１２４）ことに相当する。

オブジェクト８０２は、読み上げ速度及びピッチを指定するためのＵＩオブジェクトである。この例において、オブジェクト８０２はスライドバーを含む。読み上げ速度及びピッチの初期値としては、オブジェクト９５５において指定された読み上げ速度及び音声タイプがファイル生成プログラムにより自動的に設定される。ユーザは、オブジェクト８０２を操作することにより、読み上げ速度及びピッチを初期値から変更することができる。

オブジェクト８０３は、翻訳エンジン、用語集の利用の有無、発音辞書の反映の有無を指定するためのＵＩオブジェクトである。プルダウンメニュー９５８３において指定された翻訳エンジンが、翻訳エンジンの初期値としてファイル生成プログラムにより自動的に設定される。チェックボックス９５８４において指定された用語集の利用の有無が、用語集の利用の有無の初期値としてファイル生成プログラムにより自動的に設定される。オブジェクト９５３において指定された発音辞書の利用の有無が、発音辞書の利用の有無の初期値としてファイル生成プログラムにより自動的に設定される。ユーザは、オブジェクト８０３を操作することにより、翻訳エンジン、用語集の利用の有無、発音辞書の反映の有無を初期値から変更することができる。すなわちファイル生成プログラムはオブジェクト８０３において、翻訳エンジンの指定を受け付ける（図６：ステップＳ１２５）。

オブジェクト８０４は、編集対象となるノートを含むスライドを指定するためのＵＩオブジェクトである。オブジェクト８０４は、スピンボックスを含む。ファイル生成プログラムは、このスピンボックス内に表示されている番号のスライドのノートを編集対象として特定する。この例においてオブジェクト８０４はさらに、プレゼンテーションファイルを指定するダイアログボックスを呼び出すためのボタンを含む。このダイアログボックスを介して、ファイル生成プログラムは、プレゼンテーションファイルの指定を受け付ける。

オブジェクト８０５は、ノートの編集を行うためのＵＩオブジェクトである。オブジェクト８０５は、テキストボックス８０５１及びボタン群８０５２を含む。オブジェクト８０４において指定されるスライドが変更されると、ファイル生成プログラムは、プレゼンテーションファイルから、指定されたスライドのノートを抽出する（すなわち読み出す）（図６：ステップＳ１２１）。ファイル生成プログラムは、読み出したノートのテキストをテキストボックス８０５１に表示する。ユーザはテキストボックス８０５１において、ノートに文字列の追加、置き換え、及び削除をすることができる。すなわち、ファイル生成プログラムは、ノートの編集指示を受け付ける（図６：ステップＳ１２６）。

ボタン群８０５２は、編集対象のノートに所定のマークアップ言語により記述された、音声合成の属性を指定するタグを挿入するためのボタン群である。この例において、ボタン群８０５２は、「休止を入れる」、「段落を指定する」、「文を指定する」、「強調する」、「スピードを指定する」、「声を高くする」、「声を低くする」、「ボリュームを指定する」、「読み上げタイプ２」、及び「読み上げタイプ３」という１０個のボタンを含む。これらのボタンを押すことにより、ファイル生成プログラムは、ノートの編集指示を受け付ける（図６：ステップＳ１２６）と言える。

ボタン「休止を入れる」は、休止を指定するタグ（この例では<break time></break>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、休止時間を指定するためのダイアログボックスを表示する。

図１０は、休止時間を指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいて休止時間を指定することができる。ＯＫボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１（図９）においてカーソルが存在する位置に、指定された休止時間を示すタグを挿入する。この例では、タグ<break time="500ms"></break>が挿入される。

再び図９を参照する。ボタン「段落を指定する」は、段落を指定するタグ（この例では<p></p>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１においてカーソルが存在する位置に、段落を指定するタグを挿入する。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<p>を、末尾にタグ</p>を、それぞれ挿入する。

ボタン「文を指定する」は、文を指定するタグ（この例では<s></s>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１においてカーソルが存在する位置に、文を指定するタグを挿入する。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<s>を、末尾にタグ</s>を、それぞれ挿入する。

ボタン「強調する」は、強調を指定するタグ（この例では<emphasis></emphasis>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、強調の度合いを指定するためのダイアログボックスを表示する。

図１１は、強調の度合いを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいて強調の度合いを指定することができる。ＯＫボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１（図９）においてカーソルが存在する位置に、指定された強調度合いを示すタグを挿入する。この例では、タグ<emphasis level="moderate"></emphasis>が挿入される。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<emphasis level="moderate">を、末尾にタグ</emphasis>を、それぞれ挿入する。

再び図９を参照する。ボタン「スピードを指定する」は、強調を指定するタグ（この例では<prosody rate ></prosody>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、スピードを指定するためのダイアログボックスを表示する。

図１２は、スピードを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいてスピードを指定することができる。ＯＫボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１（図９）においてカーソルが存在する位置に、指定されたスピードを示すタグを挿入する。この例では、タグ<prosody rate="fast"></prosody>が挿入される。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody rate="fast">を、末尾にタグ</prosody>を、それぞれ挿入する。

再び図９を参照する。ボタン「声を高くする」及びボタン「声を低くする」は、声の高さ（すなわち音高又はピッチ）を指定するタグ（この例では<prosody pitch></prosody>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、声を高くする又は低くする程度を指定するためのダイアログボックスを表示する。

図１３は、声の高さを指定するためのダイアログボックス（ボタン「声を高くする」が押された例）を例示する図である。ユーザはこのダイアログボックスにおいて声の高さを指定することができる。ＯＫボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１（図９）においてカーソルが存在する位置に、指定された声の高さを示すタグを挿入する。この例では、タグ<prosody pitch="+1st"></prosody>が挿入される。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody pitch="+1st">を、末尾にタグ</prosody>を、それぞれ挿入する。

再び図９を参照する。ボタン「ボリュームを指定する」は、ボリューム（すなわち音量）を指定するタグ（この例では<prosody volume></prosody>）を挿入するためのボタンである。このボタンが押されると、ファイル生成プログラムは、ボリュームを指定するためのダイアログボックスを表示する。

図１４は、ボリュームを指定するためのダイアログボックスを例示する図である。ユーザはこのダイアログボックスにおいてボリュームを指定することができる。ＯＫボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１（図９）においてカーソルが存在する位置に、指定されたボリュームを示すタグを挿入する。この例では、タグ<prosody volume="x-loud">タグ</prosody>が挿入される。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<prosody volume="x-loud">を、末尾にタグ</prosody>を、それぞれ挿入する。

再び図９を参照する。ボタン「読み上げタイプ２」及びボタン「読み上げタイプ３」は、読み上げタイプを、それぞれ「読み上げタイプ２」及び「読み上げタイプ３」に変更するタグ（この例では<v2></v2>及び<v3></v3>）ためのボタンである。このボタンが押されると、ファイル生成プログラムは、テキストボックス８０５１においてカーソルが存在する位置に、読み上げタイプを指定するタグを挿入する。テキストボックス８０５１において文字列が選択された状態でこのボタンが押されると、ファイル生成プログラムは、選択された文字列の先頭にタグ<v2>又は<v3>を、末尾にタグ</v2>又は</v3>を、それぞれ挿入する

オブジェクト８０６は、ノートを翻訳するためのＵＩオブジェクトであり、この例ではボタンである。この例において、翻訳先の言語は、オブジェクト８０１により指定される読み上げタイプに含まれる言語である。このボタンが押されると、ファイル生成プログラムは、ノートのテキストを原文とする翻訳要求を、オブジェクト８０３により指定される翻訳エンジンに要求する。この例において、ノートのテキストがＳＳＭＬに準拠するタグを含む場合、ファイル生成プログラムは、このタグを削除したテキストを原文として翻訳エンジンに翻訳を要求する。音声合成エンジンは、ファイル生成プログラムからの要求に従って原文を翻訳先言語に翻訳した翻訳文を生成する。音声合成エンジンは、生成した翻訳文をファイル生成プログラム（すなわちユーザ端末２０）に送信する。ファイル生成プログラムは、翻訳エンジンから取得した翻訳文をテキストボックス８０５１に表示する。

オブジェクト８０７は、音声合成のテストを行うためのＵＩオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、ノートのテキストを対象文とする音声合成要求を、オブジェクト８０１において指定される言語及び音声タイプに対応する音声合成エンジンに送信する。ファイル生成プログラムは、データベース１１３を参照して、音声合成要求の送信先となる音声合成エンジンを特定する。音声合成エンジンは、ファイル生成プログラムからの要求に従って対象文を音声合成する。音声合成エンジンは、生成した音声データをファイル生成プログラム（すなわちユーザ端末２０）に送信する。ファイル生成プログラムは、音声合成エンジンから音声データを取得する（図６：ステップＳ１２７）。ファイル生成プログラムは、取得した音声データを再生、すなわちテスト再生する（図６：ステップＳ１２８）。

オブジェクト８０８は、編集されたノートをプレゼンテーションファイルに書き込むためのＵＩオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、プレゼンテーションファイルのうち編集対象のスライド（この例ではオブジェクト８０４において指定されるスライド）のノートを、テキストボックス８０５１に表示されているテキストで置換する。すなわちファイル生成プログラムは、編集されたノートをプレゼンテーションファイルに書き込む（図６：ステップＳ１２９）。

オブジェクト８０９は、図９の画面で行った設定を反映するためのＵＩオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、図９の画面において編集された設定（例えば、読み上げタイプ、翻訳エンジン、用語集使用、及び発音辞書使用など）を保存する。この例において、図９のテスト設定の画面を閉じると図５の設定画面に戻るが、設定を保存しない場合は図９の画面で行った設定はキャンセルされる。設定を保存すると、図５の設定画面に戻ったときに図９の画面で行った設定が反映される。オブジェクト８１０は、図９の画面で行った設定をキャンセルするためのＵＩオブジェクトであり、この例ではボタンである。

再び図５を参照する。オブジェクト９６０は、音声付きファイルの生成を指示するＵＩオブジェクトであり、この例ではボタンである。このボタンが押されると、ファイル生成プログラムは、プレゼンテーションファイルを音声付きファイルに変換する（図４：ステップＳ１３）。具体的にはスライドの画像と、ノートの音声合成により得られた音声データを合わせて所定のフォーマット（例えばｍｐ４形式）の音声付きファイルを生成する。ファイル生成プログラムは、音声付きファイルを生成する際、スライドを切り替えるタイミングを、そのスライドのノートの音声データの時間長に応じて決める。例えば、第１ページのスライドに含まれるノートの音声データが３０秒であった場合、ファイル生成プログラムは、これに所定のブランク（オブジェクト９５７において指定された時間。例えば６秒）を加えた３６秒間、第１ページのスライドを映し、３６秒が経過した後、第２ページのスライドに切り換わる動画ファイルを生成する。

３．変形例
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例に記載した事項の少なくとも一部が、他の一部と組み合わせて適用されてもよい。

ファイル生成プログラムの機能は実施形態において例示したものに限定されない。実施形態において説明した機能の一部が省略されてもよい。例えば、ファイル生成プログラムは翻訳機能を有していなくてもよい。ファイル管理プログラムは、他のプログラムと協働して動作し、他のプログラムから呼び出されて起動するものでもよい。

処理の対象となるスライドを指定する方法は実施形態において例示したものに限定されない。処理の対象となるスライドは、例えば、キーワード検索により指定されてもよい。

実施形態においては、音声合成エンジン及び翻訳エンジンについて複数の選択肢があり、どの音声合成エンジン又は翻訳エンジンを使用するのか、ユーザが選択することができる例を説明した。しかし、音声合成エンジン及び翻訳エンジンの少なくとも一方は選択肢が無く、ファイル生成システム１により固定されていてもよい。

ファイル生成プログラムは、生成した動画をテスト再生するためのＵＩオブジェクトを有してもよい。この例によれば、修正した設定の効果を確認することができる。

ファイル生成プログラムにおけるＵＩは実施形態において例示したものに限定されない。実施形態において例えばボタンとして説明されたＵＩオブジェクトが、チェックボックス、スライドバー、ラジオボタン、又はスピンボックスなど、他のＵＩオブジェクトとして実装されてもよい。また、実施形態においてファイル生成プログラムが有するものとして説明した機能の一部が省略されてもよい。

ファイル生成プログラムが出力する音声付きファイルの形式は実施形態において例示したものに限定されない。ファイル生成プログラムが出力する音声付きファイルは、例えば、動画ファイル（mpeg4など）、プレゼンテーションファイル（Power Point（登録商標）ファイルなど）、ｅラーニングの教材ファイル（SCORMなど）、音声付きのhtmlファイルなど、どのような形式のものであってもよい。

機能要素とハードウェアとの対応関係は実施形態において例示したものに限定されない。実施形態においてユーザ端末２０に実装されるものとして説明した機能の少なくとも一部がサーバ１０等のサーバに実装されてもよい。例えば、受け付け手段２２、抽出手段２３、取得手段２４、再生手段２５、受け付け手段２６、書き込み手段２７、及び変換手段２８のうち少なくとも一部が、サーバ１０に実装されてもよい。一例において、ファイル生成プログラムは、ユーザ端末２０にインストールされるアプリケーションプログラムではなく、サーバ１０上で動作するいわゆるウェブアプリケーションであってもよい。

ファイル生成システム１におけるハードウェア構成は実施形態において例示したものに限定されない。物理的に複数のコンピュータ装置が協働して、サーバ１０としての機能を有してもよい。あるいは、物理的に単一の装置が、サーバ１０、サーバ３０、及びサーバ４０の機能を有してもよい。サーバ１０、サーバ３０、及びサーバ４０はいずれも物理サーバであってもよいし、仮想サーバ（例えばいわゆるクラウド）であってもよい。また、サーバ１０、サーバ３０、及びサーバ４０の少なくとも一部は省略されてもよい。

ＣＰＵ２１０等により実行されるプログラムは、ＤＶＤ－ＲＯＭ等の非一時的な記憶媒体に記憶された状態で提供されてもよいし、インターネット等のネットワークを介して提供されてもよい。

１…ファイル生成システム１０…サーバ、２０…ユーザ端末、３０…サーバ、４０…サーバ、１１…記憶手段、１９…制御手段、２１…記憶手段、２２…受け付け手段、２３…抽出手段、２４…取得手段、２５…再生手段、２６…受け付け手段、２７…書き込み手段、２８…変換手段、２９…制御手段、３１…音声合成手段、４１…翻訳手段、２１０…ＣＰＵ、２２０…メモリ、２３０…ストレージ、２４０…通信ＩＦ、２５０…入力装置、２６０…出力装置、８０１～８０１…オブジェクト、９５１～９６０…オブジェクト

Claims

コンピュータに、
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、
前記複数のスライドのうち１つのスライドのノートの文字列を抽出するステップと、
前記ノートの音声合成により得られる音声データを取得するステップと、
前記音声データを再生するステップと、
前記ノートの文字列の編集指示を受け付けるステップと、
前記編集されたノートの文字列をスライドに書き込むステップと、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換するステップと
を実行させるためのプログラム。
前記コンピュータに、前記音声データを再生する際の音声の指定を受け付けるステップ
を実行させるための請求項１に記載のプログラム。
前記コンピュータに、前記ノートを音声合成する音声合成エンジンの指定を受け付けるステップを実行させ、
前記音声データを取得するステップにおいて、前記指定された音声合成エンジンから前記音声データが取得される
請求項１又は２に記載のプログラム。
前記コンピュータに、前記ノートを編集するためのＵＩオブジェクトを表示手段に表示させるステップ
を実行させるための請求項１乃至３のいずれか一項に記載のプログラム。
前記ＵＩオブジェクトが、ＳＳＭＬ（Speech Synthesis Markup Language）のタグを挿入するためのボタンを含む
請求項４に記載のプログラム。
前記ＵＩオブジェクトが、前記音声データをテスト再生するためのボタンを含む
請求項４又は５に記載のプログラム。
前記ＵＩオブジェクトが、前記音声付きファイルをテスト再生するためのボタンを含む
請求項４乃至６のいずれか一項に記載のプログラム。
前記コンピュータに、前記ノートの他言語への翻訳を取得するステップ
を実行させるための請求項１乃至７のいずれか一項に記載のプログラム。
前記コンピュータに、前記翻訳における翻訳先の言語の指定を受け付けるステップを実行させ、
前記翻訳を取得するステップにおいて、前記ノートの前記指定された言語への翻訳が取得される
請求項８に記載のプログラム。
前記音声付きファイルに変換するステップにおいて、前のスライドから次のスライドに切り替えるタイミングが、当該前のスライドのノートの音声データの時間長に応じて決められる
請求項１乃至９のいずれか一項に記載のプログラム。
コンピュータが、各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるステップと、
前記コンピュータが、前記複数のスライドのうち１つのスライドのノートの文字列を抽出するステップと、
前記コンピュータが、前記ノートの音声合成により得られる音声データを取得するステップと、
前記コンピュータが、前記音声データを再生するステップと、
前記コンピュータが、前記ノートの文字列の編集指示を受け付けるステップと、
前記コンピュータが、前記編集されたノートの文字列をスライドに書き込むステップと、
前記コンピュータが、前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換するステップと
を有するファイル生成方法。
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるファイル受け付け手段と、
前記複数のスライドのうち１つのスライドのノートの文字列を抽出する抽出手段と、
前記ノートの音声合成により得られる音声データを取得する取得手段と、
前記音声データを再生する再生手段と、
前記ノートの文字列の編集指示を受け付ける指示受け付け手段と、
前記編集されたノートの文字列をスライドに書き込む書き込み手段と、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換する変換手段と
を有する情報処理装置。
各々がノートを含む複数のスライドを含むプレゼンテーションファイルの指定を受け付けるファイル受け付け手段と、
前記複数のスライドのうち１つのスライドのノートの文字列を抽出する抽出手段と、
前記ノートの音声合成により得られる音声データを取得する取得手段と、
前記音声データを再生する再生手段と、
前記ノートの文字列の編集指示を受け付ける指示受け付け手段と、
前記編集されたノートの文字列をスライドに書き込む書き込み手段と、
前記編集されたスライドを含む前記プレゼンテーションファイルを、前記プレゼンテーションファイルとは別の形式の音声付きファイルに変換する変換手段と
を有する情報処理システム。