JP7200533B2

JP7200533B2 - 情報処理装置およびプログラム

Info

Publication number: JP7200533B2
Application number: JP2018150559A
Authority: JP
Inventors: 麻衣鈴木
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2023-01-10
Anticipated expiration: 2038-08-09
Also published as: JP2020027132A

Description

本発明は、情報処理装置およびプログラムに関する。

特許文献１には、マークアップ言語で記述された文書を画面に表示し、表示された文書を選択的に音声化する文書音声化装置において、マークアップ言語で記述された文書中のタグを検出するタグ検出手段と、要素を音声化すべきタグが登録された音声化タグの登録情報に基づき、上記タグ検出手段で検出されたタグの要素を音声化すべきかどうかを判断する判断手段と、上記判断手段によって音声化すべきと判断された要素を音声化する音声化手段とを有することを特徴とする文書音声化装置が開示されている。

特開２０００－３３９１３２号公報

本発明の目的は、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置およびプログラムを提供することである。

［情報処理装置］
請求項１に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に複数の使用言語が含まれる場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する特定手段と、
前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。

請求項２に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項１記載の情報処理装置である。

請求項３に係る本発明は、前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項２記載の情報処理装置である。

請求項４に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項２記載の情報処理装置である。

請求項５に係る本発明は、前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項１記載の情報処理装置である。

請求項６に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも１つの話者名が含まれている場合に、複数の話者による発話文を特定する請求項１記載の情報処理装置である。

請求項７に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、予め定められた記号が含まれている場合に、複数の話者による発話文を特定する請求項１記載の情報処理装置である。

請求項８に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。

請求項９に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。

［プログラム］
請求項１０に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に複数の使用言語が含まれる場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。
請求項１１に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得ステップにより取得したテキストデータから複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。
請求項１２に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。

請求項１に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
また、請求項１に係る本発明によれば、ユーザが静止画像に対応付けられたテキストデータに対応する話者の言語をそれぞれ設定しなくても、音声化する言語をそれぞれ設定することが可能な情報処理装置を提供することができる。

請求項２に係る本発明によれば、設定された話者の声質をユーザが確認することが可能な情報処理装置を提供することができる。

請求項３に係る本発明によれば、設定された話者の声質をユーザが変更することが可能な情報処理装置を提供することができる。

請求項４に係る本発明によれば、設定された話者の声質をユーザが調整することが可能な情報処理装置を提供することができる。

請求項５に係る本発明によれば、設定された話者の発話文をユーザが確認することが可能な情報処理装置を提供することができる。

請求項６に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。

請求項７に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。

請求項８に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。

請求項９に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。

請求項１０に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。
また、請求項１０に係る本発明によれば、ユーザが静止画像に対応付けられたテキストデータに対応する話者の言語をそれぞれ設定しなくても、音声化する言語をそれぞれ設定することが可能な情報処理装置を提供することができる。
請求項１１に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。
請求項１２に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。

本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。本発明の一実施形態における編集処理サーバ１０のハードウェア構成を示すブロック図である。本発明の一実施形態における編集処理サーバ１０の機能構成を示すブロック図である。本発明の一実施形態の編集処理サーバ１０における処理の概略を示すフローチャートである。編集処理サーバ１０に取り込むプレゼンテーション資料の一例である。図５に示すプレゼンテーション資料を編集処理サーバ１０に取り込む場合の端末装置２０の表示画面例を示す図である。図６で取り込んだプレゼンテーション資料にナレーション話者を設定する場合の端末装置２０の表示画面例を示す図である。図６で取り込んだプレゼンテーション資料に会話文が含まれている場合の端末装置２０の表示画面例を示す図である。図６で取り込んだプレゼンテーション資料のナレータ設定画面の一例を示す図である。プレゼンテーション資料のナレータ設定画面の一例を示す図である。プレゼンテーション資料にふきだし図形が含まれている場合のナレータ設定画面の一例を示す図である。プレゼンテーション資料のナレータ設定画面の一例を示す図である。編集処理サーバ１０に取り込むプレゼンテーション資料の一例である。図１３に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。編集処理サーバ１０に取り込むプレゼンテーション資料の一例である。図１５に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。図１５に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

図１は本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。

本発明の一実施形態のマルチメディアコンテンツ生成システムは、図１に示されるように、ネットワーク３０により相互に接続された編集処理サーバ１０およびパーソナルコンピュータ（以下、パソコンと略す。）等の端末装置２０により構成される。

本実施形態のマルチメディアコンテンツ生成システムは、画像、音声、文字等の様々なコンテンツを組み合わせたマルチメディアコンテンツを生成するものである。本実施形態のマルチメディアコンテンツ生成システムによれば、例えば、プレゼンテーション資料等のテキストデータに複数の話者を設定して音声化するようなマルチメディアコンテンツを生成することができる。

ここで、テキストデータとは、プレゼンテーション資料のノート部分のテキストデータや、プレゼンテーション資料の静止画像データに画像認識処理を行ったテキストデータ等を含む。

編集処理サーバ１０は、このような様々なコンテンツを編集してマルチメディアコンテンツを生成するための編集ソフトウェアがインストールされている情報処理装置である。そして、端末装置２０は、テキストデータや静止画像データを取り込み、編集処理サーバ１０上で動作する編集ソフトウェアを用いて、マルチメディアコンテンツを生成する。

なお、このような編集ソフトウェアを編集処理サーバ１０にインストールするのではなく、パソコン等の端末装置２０に直接インストールして使用することも可能である。

次に、本実施形態の画像形成システムにおける編集処理サーバ１０のハードウェア構成を図２に示す。

編集処理サーバ１０は、図２に示されるように、ＣＰＵ１１、メモリ１２、ハードディスクドライブ（ＨＤＤ）等の記憶装置１３、ネットワーク３０を介して端末装置２０等の外部の装置等との間でデータの送信及び受信を行う通信インタフェース（ＩＦ）１４、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース（ＵＩ）装置１５を有する。これらの構成要素は、制御バス１６を介して互いに接続されている。

ＣＰＵ１１は、メモリ１２または記憶装置１３に格納された制御プログラムに基づいて所定の処理を実行して、編集処理サーバ１０の動作を制御する。なお、本実施形態では、ＣＰＵ１１は、メモリ１２または記憶装置１３内に格納された制御プログラムを読み出して実行するものとして説明するが、当該プログラムをＣＤ－ＲＯＭ等の記憶媒体に格納してＣＰＵ１１に提供することも可能である。

図３は、上記の制御プログラムが実行されることにより実現される編集処理サーバ１０の機能構成を示すブロック図である。

本実施形態の編集処理サーバ１０は、図３に示されるように、データ通信部３１と、制御部３２と、マルチメディアデータ格納部３３とを備えている。

データ通信部３１は、端末装置２０との間でネットワーク３０を介したデータ通信を行っている。また、データ通信部３１は、プレゼンテーション資料等に対応づけられたテキストデータを取得する取得手段として機能する。

制御部３２は、編集処理サーバ１０の動作を制御していて、特定部４１、設定部４２、音声化部４３、表示制御部４４と、ユーザ操作受付部４５と、画像認識部４６と、を備えている。

マルチメディアデータ格納部３３は、編集処理を行おうとするテキストデータ、静止画像データ、音声データ等の各種コンテンツデータを格納している。

特定部４１は、プレゼンテーション資料のノート部分等のテキストデータから１又は複数の話者による発話文を特定し、話者変更の可能性がある箇所を特定する。また、特定部４１は、テキストデータ内に、少なくとも１つの話者名が含まれている場合に、複数の話者による発話文を特定する。

ここで、発話文とは、会話文や、ト書き等の状況説明文や、会話文やト書き等を除く地の文等、それぞれの文に対して話者が設定される文をいう。

また、特定部４１は、テキストデータ内に、特定の文字列を囲って他の文字列と区別する括弧やクォーテーションマーク等の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、括弧等で囲まれた発話文を会話文、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。

また、特定部４１は、テキストデータ内に、ダッシュ、ハイフン等のト書き等の状況説明文に付される特定の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、ダッシュ等が付された発話文をト書き、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。

また、特定部４１は、テキストデータ内に、疑問符や感嘆符等の特定の記号が含まれている場合に、複数の話者による発話文の可能性があるものとして特定する。つまり、テキストデータ内に会話文が含まれている可能性があるものとして特定する。

また、特定部４１は、テキストデータの文字列の言語により、複数の話者による発話文を特定する。つまり、テキストデータ内に複数の言語が含まれている場合に、会話文が含まれている可能性があるものとして特定する。

また、特定部４１は、静止画像データにおける吹き出し図形等の特定図形を抽出し、この特定図形の属性情報から複数の話者による発話文を特定する。そして、特定図形上に重ねて入力されたテキストデータにより発話文を特定する。

設定部４２は、特定部４１により特定された発話文に対して複数の話者をそれぞれ設定する。つまり、特定された会話文、地の文、ト書き等に対してそれぞれ話者を設定する。また、設定部４２は、設定された複数の話者ごとに、それぞれ音声合成により声質を設定し、話者の切替えのためのパラメータを設定する。

ここで、声質とは、話者ごとに設定される声の質であって、言語、性別、声の高さ、声の大きさ、速さ等を組み合わせることで設定される。

また、設定部４２は、特定部４１により特定された発話文に対して、言語ごとに対応する話者をそれぞれ設定する。

また、設定部４２は、話者が設定された会話文の直前の文字列を、話者名として設定する。つまり、括弧等の直前の文字列を、話者名として設定する。なお、括弧の直前に文字列がない場合には、括弧で囲まれた発話文毎に、交互に話者を設定するようにしてもよい。

音声化部４３は、設定部４２により設定された1又は複数の話者に応じて発話文をそれぞれ音声化する。

表示制御部４４は、端末装置２０において表示される画面の制御を行っている。

表示制御部４４は、設定部４２により設定された１又は複数の話者の声質をそれぞれ表示するよう制御する。

また、表示制御部４４は、設定部４２により設定された複数の話者の発話文を、話者ごとにそれぞれ表示するように制御する。

ユーザ操作受付部４５は、設定部４２により設定された１又は複数の話者の設定をそれぞれ変更する設定変更手段として機能する。また、ユーザ操作受付部４５は、設定部４２により設定された１又は複数の話者の声質をそれぞれ調整する調整手段として機能する。また、ユーザ操作受付部４５は、設定部４２により設定された複数の話者の発話文の発話範囲をそれぞれ変更する発話範囲変更手段として機能する。

画像認識部４６は、静止画像データに対して画像認識処理を行ってテキストデータに変換する。

次に、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ１０の動作について図面を参照して詳細に説明する。

先ず、編集処理サーバ１０における動作の概略を図４のフローチャートを参照して説明する。

ここでは、図５に示すようなプレゼンテーション資料を編集処理サーバ１０に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。

図５に示されているように、プレゼンテーション資料には、ノート部分５０を作成できるようにされている。ノート部分５０には、ユーザがメモを書き込む等のテキストデータを入力することができる。そして、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ１０では、このノート部分５０に書き込まれた内容を音声化して自動で読み上げるようにすることができる。

端末装置２０の表示部には、図６に示すようなプレゼンテーション資料の取り込み画面が表示される。そして、プレゼンテーション資料を格納したファイルが選択、追加されて「取り込み開始」が選択されると、編集処理サーバ１０は、プレゼンテーション資料を取り込む（ステップＳ１０）。

そして、特定部４１が、取り込んだプレゼンテーション資料からノート部分５０を取得する（ステップＳ１１）。

そして、図７に示されているようなナレーション話者設定画面が表示される。そして、ユーザが、ナレーション話者設定画面において出力言語と性別等の声質を選択し、「ＯＫ」が選択されることにより話者設定が作成されて、ノート部分５０にナレーション話者が設定される。

そして、ノート部分５０から、話者変更の可能性がある場合には、図８に示されているようなナレータ設定画面が表示され、「ＯＫ」が選択されることにより、話者変更の可能性がある発話文が特定され（ステップＳ１２）、話者設定が作成される（ステップＳ１３）。

ここで、話者変更の可能性がある場合とは、ノート部分５０に会話文が含まれている場合等が挙げられる。つまり、特定部４１は、テキストデータ内に括弧やクォーテーションマーク等が含まれている場合に、話者変更の可能性があると判断し、話者変更の可能性がある発話文として、ノート部分５０から括弧等で囲まれた発話文（会話文）を特定する。

そして、他に話者変更の可能性のある発話文がある場合には（ステップＳ１４においてＹｅｓ）、ステップＳ１２の処理に戻り、ノート部分５０から他の話者変更の可能性がある発話文を特定する。

そして、他に話者変更の可能性のある発話文がない場合には（ステップＳ１４においてＮｏ）、それぞれの発話文に話者名を割り当てる（ステップＳ１５）。

つまり、括弧等の直前の文字列が話者名（登場人物）として自動抽出されて、自動抽出された発話文のそれぞれに話者名が割り当てられる。そして、話者名に対応する言語、性別等の声質が設定されて、図９に示されているようにナレータ設定画面に一覧表示される。

図９に示されているようなナレータ設定画面では、各登場人物に対応して言語、性別、声の高さ、大きさ、速さ等の声質をユーザが変更、調整できるよう構成されている。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物（話者名）が設定される。

また、ノート部分５０に括弧等で囲まれた発話文等がない場合であっても、疑問符や感嘆符等の付いた発話文が含まれている場合には、図１０に示されているようなユーザにノート部分５０の編集を促すようなナレータ設定画面を表示する。そして、「ノートを編集」が選択され、ユーザが、例えばノート部分５０の話者を変更したい発話文を括弧で囲むことにより、括弧で囲まれた発話文（会話文）に話者を設定することが可能となる。

次に、図５に示されているようなプレゼンテーション資料から複数の話者による発話文を特定し、それぞれの発話文に話者を設定する他の例について説明する。

図５に示されているような吹き出し図形等の特定図形が含まれているプレゼンテーション資料の場合に、特定部４１は、画像データにおける吹き出し図形等の特定図形を抽出し、これらの特定図形からテキストデータ内に会話文が含まれていると判断し、これらの特定図形の色、形等の属性情報から複数の話者による発話文を特定する。このとき、吹き出し図形上に重ねて発話文が表示されている。

そして、図１１に示されているようなナレータ設定画面において「ＯＫ」が選択されると、例えば吹き出し図形の色毎に登場人物が割り当てられて、図１２に示されるような黄色の吹き出し図形上の発話文に女性、青色の吹き出し図形上の発話文に男の子が割り当てられ、ナレータ設定画面に表示される。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物（話者名）が設定され、登場人物に対応する言語、性別等の声質が設定される。

次に、図１３に示すようなプレゼンテーション資料を編集処理サーバ１０に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。

図１３のプレゼンテーション資料のノート部分５０には、括弧で囲まれた発話文の中に英語が含まれている。

ここでは、特定部４１は、プレゼンテーション資料のノート部分５０の言語を特定し、話者の言語を自動的に設定する。具体的には、図１３に示されているノート部分５０の括弧で囲まれた発話文には、日本語と英語の２つの言語が含まれているため、ナレーションの他に、複数の話者による発話文が含まれていると特定する。そして、設定部４２が、特定部４１により特定された日本語と英語のそれぞれの発話文に対して、それぞれの言語に対応する話者をそれぞれ割り当て、図１４に示されているようなナレータ設定画面に一覧表示する。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物（話者名）が設定される。

次に、図１５に示すようなプレゼンテーション資料を編集処理サーバ１０に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。

図１５のプレゼンテーション資料のノート部分５０には、文頭にダッシュが付された発話文が含まれている。つまり、ノート部分５０に、状況説明文としてト書きが加えられている。

ここでは、話者変更の可能性がある発話文として、プレゼンテーション資料のノート部分５０から会話文の他に、ダッシュやハイフン等の記号が付されたト書きを特定する。

この場合、特定部４１は、ノート部分５０のダッシュが付された発話文のダッシュから改行コードが入るまでをト書きとして特定し、話者の言語、性別等の声質を設定する。なお、ダッシュに限らず、ハイフン、段落インデントが追加された発話文等をト書きとして特定し、話者の言語、性別等の声質を設定するようにしてもよい。そして、図１６に示されているように、会話文の登場人物の他に、ト書きが登場人物としてナレータ設定画面に一覧表示される。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物（話者名）が設定される。

また、図１７に示されているように、テキストデータ内からそれぞれ特定部４１により特定されて抽出された発話文を一覧表示し、抽出された発話文から類推される登場人物をそれぞれ割り当てて設定するようにしてもよい。なお、抽出された発話文と登場人物は、図１７に示されているような表示画面上でユーザが修正、変更できるようにしてもよい。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物（話者名）が設定される。

１０編集処理サーバ
１１ＣＰＵ
１２メモリ
１３記憶装置
１４通信インタフェース（ＩＦ）
１５ユーザインタフェース（ＵＩ）装置
１６制御バス
２０端末装置
３０ネットワーク
３１データ通信部
３２制御部
３３マルチメディアデータ格納部
４１特定部
４２設定部
４３音声化部
４４表示制御部
４５ユーザ操作受付部
４６画像認識部

Claims

静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に複数の使用言語が含まれる場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する特定手段と、
前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置。
前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項１記載の情報処理装置。
前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項２記載の情報処理装置。
前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項２記載の情報処理装置。
前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項１記載の情報処理装置。
前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも１つの話者名が含まれている場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する請求項１記載の情報処理装置。
前記特定手段は、前記取得手段により取得されたテキストデータ内に、特定の文字列を囲って他の文字列と区別するための記号が含まれている場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する請求項１記載の情報処理装置。
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置。
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置。
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に複数の使用言語が含まれる場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
をコンピュータに実行させるためのプログラム。
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得ステップにより取得したテキストデータから複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
をコンピュータに実行させるためのプログラム。
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
をコンピュータに実行させるためのプログラム。