JP7200533B2 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP7200533B2
JP7200533B2 JP2018150559A JP2018150559A JP7200533B2 JP 7200533 B2 JP7200533 B2 JP 7200533B2 JP 2018150559 A JP2018150559 A JP 2018150559A JP 2018150559 A JP2018150559 A JP 2018150559A JP 7200533 B2 JP7200533 B2 JP 7200533B2
Authority
JP
Japan
Prior art keywords
text data
speakers
setting
voicing
utterance sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018150559A
Other languages
English (en)
Other versions
JP2020027132A (ja
Inventor
麻衣 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018150559A priority Critical patent/JP7200533B2/ja
Publication of JP2020027132A publication Critical patent/JP2020027132A/ja
Application granted granted Critical
Publication of JP7200533B2 publication Critical patent/JP7200533B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、情報処理装置およびプログラムに関する。
特許文献1には、マークアップ言語で記述された文書を画面に表示し、表示された文書を選択的に音声化する文書音声化装置において、マークアップ言語で記述された文書中のタグを検出するタグ検出手段と、要素を音声化すべきタグが登録された音声化タグの登録情報に基づき、上記タグ検出手段で検出されたタグの要素を音声化すべきかどうかを判断する判断手段と、上記判断手段によって音声化すべきと判断された要素を音声化する音声化手段とを有することを特徴とする文書音声化装置が開示されている。
特開2000-339132号公報
本発明の目的は、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置およびプログラムを提供することである。
[情報処理装置]
請求項1に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に複数の使用言語が含まれる場合に当該テキストデータ内に含まれる複数の話者による発話文を特定する特定手段と、
前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。
請求項2に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置である。
請求項3に係る本発明は、前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項2記載の情報処理装置である。
請求項4に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項2記載の情報処理装置である。
請求項5に係る本発明は、前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置である。
請求項に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも1つの話者名が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置である。
請求項に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、予め定められた記号が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置である。
請求項に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。
請求項に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置である。
[プログラム]
請求項10に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に複数の使用言語が含まれる場合に当該テキストデータ内に含まれる複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。
請求項11に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得ステップにより取得したテキストデータから複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。
請求項12に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声
化ステップと、
をコンピュータに実行させるためのプログラムである。
請求項1に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
また、請求項1に係る本発明によれば、ユーザが静止画像に対応付けられたテキストデータに対応する話者の言語をそれぞれ設定しなくても、音声化する言語をそれぞれ設定することが可能な情報処理装置を提供することができる。
請求項2に係る本発明によれば、設定された話者の声質をユーザが確認することが可能な情報処理装置を提供することができる。
請求項3に係る本発明によれば、設定された話者の声質をユーザが変更することが可能な情報処理装置を提供することができる。
請求項4に係る本発明によれば、設定された話者の声質をユーザが調整することが可能な情報処理装置を提供することができる。
請求項5に係る本発明によれば、設定された話者の発話文をユーザが確認することが可能な情報処理装置を提供することができる。
請求項に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
請求項に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
請求項に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
請求項に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。
請求項10に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。
また、請求項10に係る本発明によれば、ユーザが静止画像に対応付けられたテキストデータに対応する話者の言語をそれぞれ設定しなくても、音声化する言語をそれぞれ設定することが可能な情報処理装置を提供することができる。
請求項11に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。
請求項12に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。
本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。 本発明の一実施形態における編集処理サーバ10のハードウェア構成を示すブロック図である。 本発明の一実施形態における編集処理サーバ10の機能構成を示すブロック図である。 本発明の一実施形態の編集処理サーバ10における処理の概略を示すフローチャートである。 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。 図5に示すプレゼンテーション資料を編集処理サーバ10に取り込む場合の端末装置20の表示画面例を示す図である。 図6で取り込んだプレゼンテーション資料にナレーション話者を設定する場合の端末装置20の表示画面例を示す図である。 図6で取り込んだプレゼンテーション資料に会話文が含まれている場合の端末装置20の表示画面例を示す図である。 図6で取り込んだプレゼンテーション資料のナレータ設定画面の一例を示す図である。 プレゼンテーション資料のナレータ設定画面の一例を示す図である。 プレゼンテーション資料にふきだし図形が含まれている場合のナレータ設定画面の一例を示す図である。 プレゼンテーション資料のナレータ設定画面の一例を示す図である。 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。 図13に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。 図15に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。 図15に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。
本発明の一実施形態のマルチメディアコンテンツ生成システムは、図1に示されるように、ネットワーク30により相互に接続された編集処理サーバ10およびパーソナルコンピュータ(以下、パソコンと略す。)等の端末装置20により構成される。
本実施形態のマルチメディアコンテンツ生成システムは、画像、音声、文字等の様々なコンテンツを組み合わせたマルチメディアコンテンツを生成するものである。本実施形態のマルチメディアコンテンツ生成システムによれば、例えば、プレゼンテーション資料等のテキストデータに複数の話者を設定して音声化するようなマルチメディアコンテンツを生成することができる。
ここで、テキストデータとは、プレゼンテーション資料のノート部分のテキストデータや、プレゼンテーション資料の静止画像データに画像認識処理を行ったテキストデータ等を含む。
編集処理サーバ10は、このような様々なコンテンツを編集してマルチメディアコンテンツを生成するための編集ソフトウェアがインストールされている情報処理装置である。そして、端末装置20は、テキストデータや静止画像データを取り込み、編集処理サーバ10上で動作する編集ソフトウェアを用いて、マルチメディアコンテンツを生成する。
なお、このような編集ソフトウェアを編集処理サーバ10にインストールするのではなく、パソコン等の端末装置20に直接インストールして使用することも可能である。
次に、本実施形態の画像形成システムにおける編集処理サーバ10のハードウェア構成を図2に示す。
編集処理サーバ10は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク30を介して端末装置20等の外部の装置等との間でデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、編集処理サーバ10の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明するが、当該プログラムをCD-ROM等の記憶媒体に格納してCPU11に提供することも可能である。
図3は、上記の制御プログラムが実行されることにより実現される編集処理サーバ10の機能構成を示すブロック図である。
本実施形態の編集処理サーバ10は、図3に示されるように、データ通信部31と、制御部32と、マルチメディアデータ格納部33とを備えている。
データ通信部31は、端末装置20との間でネットワーク30を介したデータ通信を行っている。また、データ通信部31は、プレゼンテーション資料等に対応づけられたテキストデータを取得する取得手段として機能する。
制御部32は、編集処理サーバ10の動作を制御していて、特定部41、設定部42、音声化部43、表示制御部44と、ユーザ操作受付部45と、画像認識部46と、を備えている。
マルチメディアデータ格納部33は、編集処理を行おうとするテキストデータ、静止画像データ、音声データ等の各種コンテンツデータを格納している。
特定部41は、プレゼンテーション資料のノート部分等のテキストデータから1又は複数の話者による発話文を特定し、話者変更の可能性がある箇所を特定する。また、特定部41は、テキストデータ内に、少なくとも1つの話者名が含まれている場合に、複数の話者による発話文を特定する。
ここで、発話文とは、会話文や、ト書き等の状況説明文や、会話文やト書き等を除く地の文等、それぞれの文に対して話者が設定される文をいう。
また、特定部41は、テキストデータ内に、特定の文字列を囲って他の文字列と区別する括弧やクォーテーションマーク等の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、括弧等で囲まれた発話文を会話文、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。
また、特定部41は、テキストデータ内に、ダッシュ、ハイフン等のト書き等の状況説明文に付される特定の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、ダッシュ等が付された発話文をト書き、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。
また、特定部41は、テキストデータ内に、疑問符や感嘆符等の特定の記号が含まれている場合に、複数の話者による発話文の可能性があるものとして特定する。つまり、テキストデータ内に会話文が含まれている可能性があるものとして特定する。
また、特定部41は、テキストデータの文字列の言語により、複数の話者による発話文を特定する。つまり、テキストデータ内に複数の言語が含まれている場合に、会話文が含まれている可能性があるものとして特定する。
また、特定部41は、静止画像データにおける吹き出し図形等の特定図形を抽出し、この特定図形の属性情報から複数の話者による発話文を特定する。そして、特定図形上に重ねて入力されたテキストデータにより発話文を特定する。
設定部42は、特定部41により特定された発話文に対して複数の話者をそれぞれ設定する。つまり、特定された会話文、地の文、ト書き等に対してそれぞれ話者を設定する。また、設定部42は、設定された複数の話者ごとに、それぞれ音声合成により声質を設定し、話者の切替えのためのパラメータを設定する。
ここで、声質とは、話者ごとに設定される声の質であって、言語、性別、声の高さ、声の大きさ、速さ等を組み合わせることで設定される。
また、設定部42は、特定部41により特定された発話文に対して、言語ごとに対応する話者をそれぞれ設定する。
また、設定部42は、話者が設定された会話文の直前の文字列を、話者名として設定する。つまり、括弧等の直前の文字列を、話者名として設定する。なお、括弧の直前に文字列がない場合には、括弧で囲まれた発話文毎に、交互に話者を設定するようにしてもよい。
音声化部43は、設定部42により設定された1又は複数の話者に応じて発話文をそれぞれ音声化する。
表示制御部44は、端末装置20において表示される画面の制御を行っている。
表示制御部44は、設定部42により設定された1又は複数の話者の声質をそれぞれ表示するよう制御する。
また、表示制御部44は、設定部42により設定された複数の話者の発話文を、話者ごとにそれぞれ表示するように制御する。
ユーザ操作受付部45は、設定部42により設定された1又は複数の話者の設定をそれぞれ変更する設定変更手段として機能する。また、ユーザ操作受付部45は、設定部42により設定された1又は複数の話者の声質をそれぞれ調整する調整手段として機能する。また、ユーザ操作受付部45は、設定部42により設定された複数の話者の発話文の発話範囲をそれぞれ変更する発話範囲変更手段として機能する。
画像認識部46は、静止画像データに対して画像認識処理を行ってテキストデータに変換する。
次に、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ10の動作について図面を参照して詳細に説明する。
先ず、編集処理サーバ10における動作の概略を図4のフローチャートを参照して説明する。
ここでは、図5に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。
図5に示されているように、プレゼンテーション資料には、ノート部分50を作成できるようにされている。ノート部分50には、ユーザがメモを書き込む等のテキストデータを入力することができる。そして、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ10では、このノート部分50に書き込まれた内容を音声化して自動で読み上げるようにすることができる。
端末装置20の表示部には、図6に示すようなプレゼンテーション資料の取り込み画面が表示される。そして、プレゼンテーション資料を格納したファイルが選択、追加されて「取り込み開始」が選択されると、編集処理サーバ10は、プレゼンテーション資料を取り込む(ステップS10)。
そして、特定部41が、取り込んだプレゼンテーション資料からノート部分50を取得する(ステップS11)。
そして、図7に示されているようなナレーション話者設定画面が表示される。そして、ユーザが、ナレーション話者設定画面において出力言語と性別等の声質を選択し、「OK」が選択されることにより話者設定が作成されて、ノート部分50にナレーション話者が設定される。
そして、ノート部分50から、話者変更の可能性がある場合には、図8に示されているようなナレータ設定画面が表示され、「OK」が選択されることにより、話者変更の可能性がある発話文が特定され(ステップS12)、話者設定が作成される(ステップS13)。
ここで、話者変更の可能性がある場合とは、ノート部分50に会話文が含まれている場合等が挙げられる。つまり、特定部41は、テキストデータ内に括弧やクォーテーションマーク等が含まれている場合に、話者変更の可能性があると判断し、話者変更の可能性がある発話文として、ノート部分50から括弧等で囲まれた発話文(会話文)を特定する。
そして、他に話者変更の可能性のある発話文がある場合には(ステップS14においてYes)、ステップS12の処理に戻り、ノート部分50から他の話者変更の可能性がある発話文を特定する。
そして、他に話者変更の可能性のある発話文がない場合には(ステップS14においてNo)、それぞれの発話文に話者名を割り当てる(ステップS15)。
つまり、括弧等の直前の文字列が話者名(登場人物)として自動抽出されて、自動抽出された発話文のそれぞれに話者名が割り当てられる。そして、話者名に対応する言語、性別等の声質が設定されて、図9に示されているようにナレータ設定画面に一覧表示される。
図9に示されているようなナレータ設定画面では、各登場人物に対応して言語、性別、声の高さ、大きさ、速さ等の声質をユーザが変更、調整できるよう構成されている。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。
また、ノート部分50に括弧等で囲まれた発話文等がない場合であっても、疑問符や感嘆符等の付いた発話文が含まれている場合には、図10に示されているようなユーザにノート部分50の編集を促すようなナレータ設定画面を表示する。そして、「ノートを編集」が選択され、ユーザが、例えばノート部分50の話者を変更したい発話文を括弧で囲むことにより、括弧で囲まれた発話文(会話文)に話者を設定することが可能となる。
次に、図5に示されているようなプレゼンテーション資料から複数の話者による発話文を特定し、それぞれの発話文に話者を設定する他の例について説明する。
図5に示されているような吹き出し図形等の特定図形が含まれているプレゼンテーション資料の場合に、特定部41は、画像データにおける吹き出し図形等の特定図形を抽出し、これらの特定図形からテキストデータ内に会話文が含まれていると判断し、これらの特定図形の色、形等の属性情報から複数の話者による発話文を特定する。このとき、吹き出し図形上に重ねて発話文が表示されている。
そして、図11に示されているようなナレータ設定画面において「OK」が選択されると、例えば吹き出し図形の色毎に登場人物が割り当てられて、図12に示されるような黄色の吹き出し図形上の発話文に女性、青色の吹き出し図形上の発話文に男の子が割り当てられ、ナレータ設定画面に表示される。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定され、登場人物に対応する言語、性別等の声質が設定される。
次に、図13に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。
図13のプレゼンテーション資料のノート部分50には、括弧で囲まれた発話文の中に英語が含まれている。
ここでは、特定部41は、プレゼンテーション資料のノート部分50の言語を特定し、話者の言語を自動的に設定する。具体的には、図13に示されているノート部分50の括弧で囲まれた発話文には、日本語と英語の2つの言語が含まれているため、ナレーションの他に、複数の話者による発話文が含まれていると特定する。そして、設定部42が、特定部41により特定された日本語と英語のそれぞれの発話文に対して、それぞれの言語に対応する話者をそれぞれ割り当て、図14に示されているようなナレータ設定画面に一覧表示する。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。
次に、図15に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。
図15のプレゼンテーション資料のノート部分50には、文頭にダッシュが付された発話文が含まれている。つまり、ノート部分50に、状況説明文としてト書きが加えられている。
ここでは、話者変更の可能性がある発話文として、プレゼンテーション資料のノート部分50から会話文の他に、ダッシュやハイフン等の記号が付されたト書きを特定する。
この場合、特定部41は、ノート部分50のダッシュが付された発話文のダッシュから改行コードが入るまでをト書きとして特定し、話者の言語、性別等の声質を設定する。なお、ダッシュに限らず、ハイフン、段落インデントが追加された発話文等をト書きとして特定し、話者の言語、性別等の声質を設定するようにしてもよい。そして、図16に示されているように、会話文の登場人物の他に、ト書きが登場人物としてナレータ設定画面に一覧表示される。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。
また、図17に示されているように、テキストデータ内からそれぞれ特定部41により特定されて抽出された発話文を一覧表示し、抽出された発話文から類推される登場人物をそれぞれ割り当てて設定するようにしてもよい。なお、抽出された発話文と登場人物は、図17に示されているような表示画面上でユーザが修正、変更できるようにしてもよい。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。
10 編集処理サーバ
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース(IF)
15 ユーザインタフェース(UI)装置
16 制御バス
20 端末装置
30 ネットワーク
31 データ通信部
32 制御部
33 マルチメディアデータ格納部
41 特定部
42 設定部
43 音声化部
44 表示制御部
45 ユーザ操作受付部
46 画像認識部

Claims (12)

  1. 静止画像に対応づけられたテキストデータを取得する取得手段と、
    前記取得手段により取得したテキストデータ内に複数の使用言語が含まれる場合に当該テキストデータ内に含まれる複数の話者による発話文を特定する特定手段と、
    前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定手段と、
    前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
    を備えた情報処理装置。
  2. 前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置。
  3. 前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項2記載の情報処理装置。
  4. 前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項2記載の情報処理装置。
  5. 前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置。
  6. 前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも1つの話者名が含まれている場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する請求項1記載の情報処理装置。
  7. 前記特定手段は、前記取得手段により取得されたテキストデータ内に、特定の文字列を囲って他の文字列と区別するための記号が含まれている場合に、当該テキストデータ内に含まれる複数の話者による発話文を特定する請求項1記載の情報処理装置。
  8. 静止画像に対応づけられたテキストデータを取得する取得手段と、
    前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
    前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
    前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
    を備えた情報処理装置。
  9. 静止画像に対応づけられたテキストデータを取得する取得手段と、
    前記取得手段により取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
    前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
    前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
    を備えた情報処理装置。
  10. 静止画像に対応づけられたテキストデータを取得する取得ステップと、
    前記取得ステップにより取得したテキストデータ内に複数の使用言語が含まれる場合に当該テキストデータ内に含まれる複数の話者による発話文を特定する特定ステップと、
    前記特定ステップにより特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する設定ステップと、
    前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
    をコンピュータに実行させるためのプログラム。
  11. 静止画像に対応づけられたテキストデータを取得する取得ステップと、
    前記静止画像における特定図形を抽出して、抽出した特定図形上に重ねて入力されたテキストデータにより発話文を特定することにより、前記取得ステップにより取得したテキストデータから複数の話者による発話文を特定する特定ステップと、
    前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
    前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
    をコンピュータに実行させるためのプログラム。
  12. 静止画像に対応づけられたテキストデータを取得する取得ステップと、
    前記取得ステップにより取得したテキストデータ内に、状況説明文に付される特定の記号が付されている文字列が存在する場合に当該文字列が状況説明文であると特定することにより、前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
    前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
    前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
    をコンピュータに実行させるためのプログラム。
JP2018150559A 2018-08-09 2018-08-09 情報処理装置およびプログラム Active JP7200533B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018150559A JP7200533B2 (ja) 2018-08-09 2018-08-09 情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018150559A JP7200533B2 (ja) 2018-08-09 2018-08-09 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2020027132A JP2020027132A (ja) 2020-02-20
JP7200533B2 true JP7200533B2 (ja) 2023-01-10

Family

ID=69620008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018150559A Active JP7200533B2 (ja) 2018-08-09 2018-08-09 情報処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP7200533B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113574144B (zh) 2019-03-14 2022-12-13 日油株式会社 润滑油用添加剂、润滑油用添加剂组合物及含有该添加剂或添加剂组合物的润滑油组合物
JP7121411B2 (ja) * 2020-10-09 2022-08-18 溝口 さとし 二次元コードエンコーダ及び教育用二次元コード読取装置
JP7048141B1 (ja) * 2022-01-05 2022-04-05 株式会社Airobo プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
WO2024122284A1 (ja) * 2022-12-05 2024-06-13 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339132A (ja) 1999-05-31 2000-12-08 Sony Corp 文書音声化装置および文書音声化方法
JP2001014307A (ja) 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2012133659A (ja) 2010-12-22 2012-07-12 Fujifilm Corp ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
JP2012133660A (ja) 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012133661A (ja) 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2012133662A (ja) 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラムならびに該ビューワプログラムが記録された記録媒体
JP2013072957A (ja) 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH077335B2 (ja) * 1986-12-20 1995-01-30 富士通株式会社 会話型文章読み上げ装置
JPH02310766A (ja) * 1989-05-26 1990-12-26 Nec Corp 文書音読装置の音読方式
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JPH1185457A (ja) * 1997-09-11 1999-03-30 Canon Inc データ処理装置およびデータ処理装置のデータ処理方法およびコンピュータが読み出し可能なプログラムを格納した記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339132A (ja) 1999-05-31 2000-12-08 Sony Corp 文書音声化装置および文書音声化方法
JP2001014307A (ja) 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2002358092A (ja) 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP2012133659A (ja) 2010-12-22 2012-07-12 Fujifilm Corp ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
JP2012133660A (ja) 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012133661A (ja) 2010-12-22 2012-07-12 Fujifilm Corp ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2012133662A (ja) 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラムならびに該ビューワプログラムが記録された記録媒体
JP2013072957A (ja) 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2020027132A (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
US9070365B2 (en) Training and applying prosody models
JP7200533B2 (ja) 情報処理装置およびプログラム
US9330657B2 (en) Text-to-speech for digital literature
JP4872323B2 (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US20080243510A1 (en) Overlapping screen reading of non-sequential text
US20060287860A1 (en) Printing to a text-to-speech output device
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
US10373606B2 (en) Transliteration support device, transliteration support method, and computer program product
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
JP7140016B2 (ja) 音声出力方法、音声出力システム及びプログラム
JPH08272388A (ja) 音声合成装置及びその方法
JP2016197184A (ja) 発音学習コンテンツ提供装置、システム、プログラム及び方法
JP6080058B2 (ja) オーサリング装置、オーサリング方法、およびプログラム
JP2009086597A (ja) テキスト音声変換サービスシステム及び方法
JP2003044072A (ja) 音声読み上げ設定装置、音声読み上げ装置、音声読み上げ設定方法、音声読み上げ設定プログラム及び記録媒体
US20220201136A1 (en) Information processing system that executes command corresponding to utterance, image processing apparatus, control method for information processing system, and storage medium storing control program for information processing system
JP6818916B2 (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP2008158630A (ja) 画像出力装置及び画像出力方法
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP2007127994A (ja) 音声合成方法及び音声合成装置並びにプログラム
JP2000214874A (ja) 音声合成装置及びその方法、コンピュ―タ可読メモリ

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221205

R150 Certificate of patent or registration of utility model

Ref document number: 7200533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150