JP2020027132A - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP2020027132A
JP2020027132A JP2018150559A JP2018150559A JP2020027132A JP 2020027132 A JP2020027132 A JP 2020027132A JP 2018150559 A JP2018150559 A JP 2018150559A JP 2018150559 A JP2018150559 A JP 2018150559A JP 2020027132 A JP2020027132 A JP 2020027132A
Authority
JP
Japan
Prior art keywords
speakers
setting
information processing
text data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018150559A
Other languages
Japanese (ja)
Other versions
JP7200533B2 (en
Inventor
麻衣 鈴木
Mai Suzuki
麻衣 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018150559A priority Critical patent/JP7200533B2/en
Publication of JP2020027132A publication Critical patent/JP2020027132A/en
Application granted granted Critical
Publication of JP7200533B2 publication Critical patent/JP7200533B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

To make it possible, when vocalizing text data associated with a still image, to easily vocalize by setting a plurality of speakers respectively, as compared with a case where a user sets and vocalizes speakers corresponding to the text data.SOLUTION: A data communication unit 31 acquires text data associated with a presentation material etc. A specifying unit 41 specifies utterance sentences from a plurality of speakers from the text data. A setting unit 42 sets a plurality of speakers for the utterance sentence specified by the specifying unit 41, respectively. A vocalizing unit 43 vocalizes each utterance sentence according to the plurality of speakers set by the setting unit 42.SELECTED DRAWING: Figure 3

Description

本発明は、情報処理装置およびプログラムに関する。   The present invention relates to an information processing device and a program.

特許文献1には、マークアップ言語で記述された文書を画面に表示し、表示された文書を選択的に音声化する文書音声化装置において、マークアップ言語で記述された文書中のタグを検出するタグ検出手段と、要素を音声化すべきタグが登録された音声化タグの登録情報に基づき、上記タグ検出手段で検出されたタグの要素を音声化すべきかどうかを判断する判断手段と、上記判断手段によって音声化すべきと判断された要素を音声化する音声化手段とを有することを特徴とする文書音声化装置が開示されている。   Japanese Patent Application Laid-Open No. H11-163,972 discloses a document speech device that displays a document described in a markup language on a screen and selectively vocalizes the displayed document, and detects tags in the document described in the markup language. Tag detecting means for performing, based on the registration information of the voiced tag in which the tag whose element is to be voiced is registered, determining means for determining whether to voice the element of the tag detected by the tag detecting means, There is disclosed a document sounding apparatus, comprising: a sounding means for sounding an element judged to be sounded by the judging means.

特開2000−339132号公報JP 2000-339132 A

本発明の目的は、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置およびプログラムを提供することである。   An object of the present invention is to easily convert a plurality of text data associated with a still image into a plurality of voices in comparison with a case where a user sets a speaker corresponding to the text data and voices the text data. It is an object of the present invention to provide an information processing apparatus and a program that can set a speaker and convert it into a voice.

[情報処理装置]
請求項1に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置。
[Information processing device]
The present invention according to claim 1 is
Acquiring means for acquiring text data associated with a still image;
From the text data obtained by the obtaining means, specifying means for specifying the utterance sentence by a plurality of speakers,
Setting means for setting a plurality of speakers for the utterance sentence specified by the specifying means,
Speech means for vocalizing each utterance sentence according to the plurality of speakers set by the setting means,
Information processing device provided with.

請求項2に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置である。   The present invention according to claim 2 is the information processing apparatus according to claim 1, further comprising display control means for controlling to display voice qualities of a plurality of speakers set by the setting means.

請求項3に係る本発明は、前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項2記載の情報処理装置である。   The present invention according to claim 3 is the information processing apparatus according to claim 2, further comprising setting change means for changing the settings of the plurality of speakers set by the setting means.

請求項4に係る本発明は、前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項2記載の情報処理装置である。   The present invention according to claim 4 is the information processing apparatus according to claim 2, further comprising adjusting means for adjusting voice qualities of a plurality of speakers set by the setting means.

請求項5に係る本発明は、前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置である。   The present invention according to claim 5 is the information processing apparatus according to claim 1, further comprising display control means for controlling to display utterances of a plurality of speakers set by the setting means.

請求項6に係る本発明は、前記設定手段により設定された複数の話者の発話文の発話範囲をそれぞれ変更する発話範囲変更手段をさらに備える請求項5記載の情報処理装置である。   The present invention according to claim 6 is the information processing apparatus according to claim 5, further comprising utterance range changing means for changing utterance ranges of utterance sentences of a plurality of speakers set by the setting means.

請求項7に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも1つの話者名が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置である。   According to a seventh aspect of the present invention, when the at least one speaker name is included in the text data obtained by the obtaining unit, the specifying unit specifies an utterance sentence by a plurality of speakers. An information processing apparatus according to claim 1.

請求項8に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータ内に、予め定められた記号が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置である。   The present invention according to claim 8, wherein the specifying means specifies an utterance sentence by a plurality of speakers when the text data acquired by the acquisition means includes a predetermined symbol. An information processing apparatus according to item 1.

請求項9に係る本発明は、前記特定手段は、前記取得手段により取得されたテキストデータの使用言語により、複数の話者による発話文を特定する請求項1記載の情報処理装置である。   The present invention according to claim 9 is the information processing apparatus according to claim 1, wherein the specifying means specifies utterances of a plurality of speakers according to a language used in the text data acquired by the acquiring means.

請求項10に係る本発明は、前記設定手段は、前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する請求項9記載の情報処理装置である。   The present invention according to claim 10 is the information processing apparatus according to claim 9, wherein the setting means sets a speaker corresponding to each of the languages used in the utterance sentence specified by the specifying means. .

請求項11に係る本発明は、画像データを取得する画像データ取得手段をさらに備え、前記特定手段は、前記画像データ取得手段により取得された画像データにおける特定画像から発話文を特定する請求項1記載の情報処理装置である。   The present invention according to claim 11, further comprising image data obtaining means for obtaining image data, wherein the specifying means specifies an utterance sentence from a specific image in the image data obtained by the image data obtaining means. An information processing apparatus as described in the above.

[プログラム]
請求項12に係る本発明は、
静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
をコンピュータに実行させるためのプログラムである。
[program]
The present invention according to claim 12 is:
An obtaining step of obtaining text data associated with the still image;
From the text data obtained in the obtaining step, a specifying step of specifying utterances by a plurality of speakers,
A setting step of setting a plurality of speakers for the utterance sentence specified by the specifying step,
A voice-to-voice step of voice-to-voice utterances according to the plurality of speakers set by the setting step,
Is a program for causing a computer to execute.

請求項1に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。   According to the first aspect of the present invention, when voice data of text data associated with a still image is compared with a case where a user sets a speaker corresponding to the text data to voice each text data, In addition, it is possible to provide an information processing apparatus that can easily set a plurality of speakers and convert them to speech.

請求項2に係る本発明によれば、設定された話者の声質をユーザが確認することが可能な情報処理装置を提供することができる。   According to the second aspect of the present invention, it is possible to provide an information processing apparatus that allows a user to confirm the set voice quality of a speaker.

請求項3に係る本発明によれば、設定された話者の声質をユーザが変更することが可能な情報処理装置を提供することができる。   According to the third aspect of the present invention, it is possible to provide an information processing apparatus in which the user can change the set voice quality of the speaker.

請求項4に係る本発明によれば、設定された話者の声質をユーザが調整することが可能な情報処理装置を提供することができる。   According to the fourth aspect of the present invention, it is possible to provide an information processing apparatus that allows a user to adjust the set voice quality of a speaker.

請求項5に係る本発明によれば、設定された話者の発話文をユーザが確認することが可能な情報処理装置を提供することができる。   According to the fifth aspect of the present invention, it is possible to provide an information processing apparatus that allows a user to confirm a set utterance sentence of a speaker.

請求項6に係る本発明によれば、設定された話者の発話文の発話範囲をユーザが変更することが可能な情報処理装置を提供することができる。   According to the sixth aspect of the present invention, it is possible to provide an information processing apparatus in which the user can change the utterance range of the set utterance sentence of the speaker.

請求項7に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。   According to the seventh aspect of the present invention, when converting text data associated with a still image to voice, the user sets a speaker corresponding to the text data and voices the text data. In addition, it is possible to provide an information processing apparatus that can easily set a plurality of speakers and convert them to speech.

請求項8に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。   According to the present invention, when text data associated with a still image is vocalized, compared with a case where a user sets a speaker corresponding to the text data and vocalizes the speaker, In addition, it is possible to provide an information processing apparatus that can easily set a plurality of speakers and convert them to speech.

請求項9に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。   According to the ninth aspect of the present invention, when the text data associated with the still image is vocalized, the text data is compared with the case where the user sets the speakers corresponding to the text data and vocalizes them. In addition, it is possible to provide an information processing apparatus that can easily set a plurality of speakers and convert them to speech.

請求項10に係る本発明によれば、ユーザが静止画像に対応付けられたテキストデータに対応する話者の言語をそれぞれ設定しなくても、音声化する言語をそれぞれ設定することが可能な情報処理装置を提供することができる。   According to the tenth aspect of the present invention, it is possible to set each language to be spoken without setting the language of the speaker corresponding to the text data associated with the still image. A processing device can be provided.

請求項11に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能な情報処理装置を提供することができる。   According to the eleventh aspect of the present invention, when voice data of text data associated with a still image is compared with a case where a user sets a speaker corresponding to the text data and voices the speaker, respectively. In addition, it is possible to provide an information processing apparatus that can easily set a plurality of speakers and convert them to speech.

請求項12に係る本発明によれば、静止画像に対応付けられたテキストデータを音声化する際に、ユーザが該テキストデータに対応する話者をそれぞれ設定して音声化する場合と比較して、容易に複数の話者をそれぞれ設定して音声化することが可能なプログラムを提供することができる。   According to the twelfth aspect of the present invention, when voice data of text data associated with a still image is compared with a case where a user sets a speaker corresponding to the text data and voices the text data, Thus, it is possible to provide a program that can easily set a plurality of speakers and convert them to speech.

本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。1 is a system diagram illustrating a configuration of a multimedia content generation system according to an embodiment of the present invention. 本発明の一実施形態における編集処理サーバ10のハードウェア構成を示すブロック図である。FIG. 2 is a block diagram illustrating a hardware configuration of the editing processing server 10 according to the embodiment of the present invention. 本発明の一実施形態における編集処理サーバ10の機能構成を示すブロック図である。FIG. 2 is a block diagram illustrating a functional configuration of an editing processing server 10 according to the embodiment of the present invention. 本発明の一実施形態の編集処理サーバ10における処理の概略を示すフローチャートである。6 is a flowchart illustrating an outline of processing in the editing processing server 10 according to the embodiment of the present invention. 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。It is an example of presentation material taken into the editing processing server 10. 図5に示すプレゼンテーション資料を編集処理サーバ10に取り込む場合の端末装置20の表示画面例を示す図である。FIG. 6 is a diagram showing an example of a display screen of the terminal device 20 when the presentation material shown in FIG. 5 is taken into the editing processing server 10. 図6で取り込んだプレゼンテーション資料にナレーション話者を設定する場合の端末装置20の表示画面例を示す図である。FIG. 7 is a diagram illustrating an example of a display screen of the terminal device 20 when a narration speaker is set in the presentation material captured in FIG. 6. 図6で取り込んだプレゼンテーション資料に会話文が含まれている場合の端末装置20の表示画面例を示す図である。FIG. 7 is a diagram showing an example of a display screen of the terminal device 20 in a case where the presentation material captured in FIG. 6 includes a conversation sentence. 図6で取り込んだプレゼンテーション資料のナレータ設定画面の一例を示す図である。FIG. 7 is a diagram illustrating an example of a narrator setting screen of the presentation material captured in FIG. 6. プレゼンテーション資料のナレータ設定画面の一例を示す図である。It is a figure showing an example of a narrator setting screen of presentation material. プレゼンテーション資料にふきだし図形が含まれている場合のナレータ設定画面の一例を示す図である。FIG. 11 is a diagram illustrating an example of a narrator setting screen when a speech bubble is included in a presentation material. プレゼンテーション資料のナレータ設定画面の一例を示す図である。It is a figure showing an example of a narrator setting screen of presentation material. 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。It is an example of presentation material taken into the editing processing server 10. 図13に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。FIG. 14 is a diagram illustrating an example of a narrator setting screen for presentation materials illustrated in FIG. 13. 編集処理サーバ10に取り込むプレゼンテーション資料の一例である。It is an example of presentation material taken into the editing processing server 10. 図15に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。FIG. 16 is a diagram showing an example of a narrator setting screen for presentation material shown in FIG. 15. 図15に示すプレゼンテーション資料のナレータ設定画面の一例を示す図である。FIG. 16 is a diagram showing an example of a narrator setting screen for presentation material shown in FIG. 15.

次に、本発明の実施の形態について図面を参照して詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings.

図1は本発明の一実施形態のマルチメディアコンテンツ生成システムの構成を示すシステム図である。   FIG. 1 is a system diagram showing a configuration of a multimedia content generation system according to one embodiment of the present invention.

本発明の一実施形態のマルチメディアコンテンツ生成システムは、図1に示されるように、ネットワーク30により相互に接続された編集処理サーバ10およびパーソナルコンピュータ(以下、パソコンと略す。)等の端末装置20により構成される。   As shown in FIG. 1, a multimedia content generation system according to an embodiment of the present invention includes an editing processing server 10 and a terminal device 20 such as a personal computer (hereinafter abbreviated as a personal computer) connected to each other via a network 30. It consists of.

本実施形態のマルチメディアコンテンツ生成システムは、画像、音声、文字等の様々なコンテンツを組み合わせたマルチメディアコンテンツを生成するものである。本実施形態のマルチメディアコンテンツ生成システムによれば、例えば、プレゼンテーション資料等のテキストデータに複数の話者を設定して音声化するようなマルチメディアコンテンツを生成することができる。   The multimedia content generation system according to the present embodiment generates multimedia content in which various contents such as images, sounds, and characters are combined. According to the multimedia content generation system of the present embodiment, for example, it is possible to generate multimedia content in which a plurality of speakers are set in text data such as presentation material and the voice is converted.

ここで、テキストデータとは、プレゼンテーション資料のノート部分のテキストデータや、プレゼンテーション資料の静止画像データに画像認識処理を行ったテキストデータ等を含む。   Here, the text data includes text data of a note portion of the presentation material, text data obtained by performing image recognition processing on still image data of the presentation material, and the like.

編集処理サーバ10は、このような様々なコンテンツを編集してマルチメディアコンテンツを生成するための編集ソフトウェアがインストールされている情報処理装置である。そして、端末装置20は、テキストデータや静止画像データを取り込み、編集処理サーバ10上で動作する編集ソフトウェアを用いて、マルチメディアコンテンツを生成する。   The editing processing server 10 is an information processing apparatus in which editing software for editing such various contents and generating multimedia contents is installed. Then, the terminal device 20 captures the text data and the still image data, and generates the multimedia content by using the editing software operating on the editing processing server 10.

なお、このような編集ソフトウェアを編集処理サーバ10にインストールするのではなく、パソコン等の端末装置20に直接インストールして使用することも可能である。   Instead of installing such editing software on the editing server 10, it is also possible to directly install and use the terminal device 20 such as a personal computer.

次に、本実施形態の画像形成システムにおける編集処理サーバ10のハードウェア構成を図2に示す。   Next, FIG. 2 shows a hardware configuration of the editing processing server 10 in the image forming system of the present embodiment.

編集処理サーバ10は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク30を介して端末装置20等の外部の装置等との間でデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。   As shown in FIG. 2, the editing processing server 10 exchanges data with a CPU 11, a memory 12, a storage device 13 such as a hard disk drive (HDD), and an external device such as a terminal device 20 via a network 30. It has a communication interface (IF) 14 for transmitting and receiving, a user interface (UI) device 15 including a touch panel or a liquid crystal display, and a keyboard. These components are connected to each other via a control bus 16.

CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、編集処理サーバ10の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明するが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。   The CPU 11 controls the operation of the edit processing server 10 by executing predetermined processing based on a control program stored in the memory 12 or the storage device 13. In the present embodiment, the CPU 11 is described as reading and executing a control program stored in the memory 12 or the storage device 13. However, the CPU 11 stores the program in a storage medium such as a CD-ROM and It is also possible to provide.

図3は、上記の制御プログラムが実行されることにより実現される編集処理サーバ10の機能構成を示すブロック図である。   FIG. 3 is a block diagram showing a functional configuration of the editing processing server 10 realized by executing the control program.

本実施形態の編集処理サーバ10は、図3に示されるように、データ通信部31と、制御部32と、マルチメディアデータ格納部33とを備えている。   As shown in FIG. 3, the editing processing server 10 according to the present embodiment includes a data communication unit 31, a control unit 32, and a multimedia data storage unit 33.

データ通信部31は、端末装置20との間でネットワーク30を介したデータ通信を行っている。また、データ通信部31は、プレゼンテーション資料等に対応づけられたテキストデータを取得する取得手段として機能する。   The data communication unit 31 performs data communication with the terminal device 20 via the network 30. In addition, the data communication unit 31 functions as an obtaining unit that obtains text data associated with a presentation material or the like.

制御部32は、編集処理サーバ10の動作を制御していて、特定部41、設定部42、音声化部43、表示制御部44と、ユーザ操作受付部45と、画像認識部46と、を備えている。   The control unit 32 controls the operation of the editing processing server 10, and includes a specifying unit 41, a setting unit 42, an audio conversion unit 43, a display control unit 44, a user operation reception unit 45, and an image recognition unit 46. Have.

マルチメディアデータ格納部33は、編集処理を行おうとするテキストデータ、静止画像データ、音声データ等の各種コンテンツデータを格納している。   The multimedia data storage unit 33 stores various content data such as text data, still image data, and audio data to be edited.

特定部41は、プレゼンテーション資料のノート部分等のテキストデータから1又は複数の話者による発話文を特定し、話者変更の可能性がある箇所を特定する。また、特定部41は、テキストデータ内に、少なくとも1つの話者名が含まれている場合に、複数の話者による発話文を特定する。   The specifying unit 41 specifies utterances of one or more speakers from text data such as a notebook part of a presentation material, and specifies a location where there is a possibility of speaker change. In addition, when at least one speaker name is included in the text data, the specifying unit 41 specifies the utterances of a plurality of speakers.

ここで、発話文とは、会話文や、ト書き等の状況説明文や、会話文やト書き等を除く地の文等、それぞれの文に対して話者が設定される文をいう。   Here, the utterance sentence is a sentence in which a speaker is set for each sentence, such as a conversation sentence, a situation explanation sentence such as a written letter, and a sentence on the ground excluding a conversational sentence or written letter.

また、特定部41は、テキストデータ内に、特定の文字列を囲って他の文字列と区別する括弧やクォーテーションマーク等の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、括弧等で囲まれた発話文を会話文、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。   Further, when the text data includes symbols such as parentheses and quotation marks that surround a specific character string and are distinguished from other character strings, the specifying unit 41 specifies the utterances of a plurality of speakers. I do. That is, the utterance sentence enclosed in parentheses or the like is determined to be a conversation sentence, and the other utterance sentences are determined to be ground sentences, and utterance sentences by a plurality of speakers are specified.

また、特定部41は、テキストデータ内に、ダッシュ、ハイフン等のト書き等の状況説明文に付される特定の記号が含まれている場合に、複数の話者による発話文を特定する。つまり、ダッシュ等が付された発話文をト書き、その他の発話文を地の文であると判断し、複数の話者による発話文を特定する。   In addition, when the text data includes a specific symbol attached to a situation description such as a dash or a hyphen in the text data, the specifying unit 41 specifies an utterance sentence by a plurality of speakers. That is, an utterance sentence with a dash or the like is written, and other utterances are determined to be ground sentences, and utterances by a plurality of speakers are specified.

また、特定部41は、テキストデータ内に、疑問符や感嘆符等の特定の記号が含まれている場合に、複数の話者による発話文の可能性があるものとして特定する。つまり、テキストデータ内に会話文が含まれている可能性があるものとして特定する。   In addition, when the text data includes a specific symbol such as a question mark or an exclamation mark in the text data, the specifying unit 41 specifies that there is a possibility that a plurality of speakers may be uttered sentences. That is, the text data is identified as possibly having a conversation sentence.

また、特定部41は、テキストデータの文字列の言語により、複数の話者による発話文を特定する。つまり、テキストデータ内に複数の言語が含まれている場合に、会話文が含まれている可能性があるものとして特定する。   Further, the specifying unit 41 specifies utterances of a plurality of speakers according to the language of the character string of the text data. That is, when a plurality of languages are included in the text data, the text data is identified as possibly having a conversational sentence.

また、特定部41は、静止画像データにおける吹き出し図形等の特定図形を抽出し、この特定図形の属性情報から複数の話者による発話文を特定する。そして、特定図形上に重ねて入力されたテキストデータにより発話文を特定する。   The specifying unit 41 extracts a specific figure such as a balloon figure in the still image data, and specifies utterances of a plurality of speakers from attribute information of the specific figure. Then, the utterance sentence is specified based on the text data input over the specific figure.

設定部42は、特定部41により特定された発話文に対して複数の話者をそれぞれ設定する。つまり、特定された会話文、地の文、ト書き等に対してそれぞれ話者を設定する。また、設定部42は、設定された複数の話者ごとに、それぞれ音声合成により声質を設定し、話者の切替えのためのパラメータを設定する。   The setting unit 42 sets a plurality of speakers for the utterance sentence specified by the specifying unit 41, respectively. That is, a speaker is set for each of the specified conversational sentence, ground sentence, and writing. Further, the setting unit 42 sets voice quality by voice synthesis for each of the set speakers, and sets parameters for switching the speakers.

ここで、声質とは、話者ごとに設定される声の質であって、言語、性別、声の高さ、声の大きさ、速さ等を組み合わせることで設定される。   Here, the voice quality is the voice quality set for each speaker, and is set by combining language, gender, voice pitch, voice loudness, speed, and the like.

また、設定部42は、特定部41により特定された発話文に対して、言語ごとに対応する話者をそれぞれ設定する。   Further, the setting unit 42 sets a speaker corresponding to each language for the utterance sentence specified by the specifying unit 41.

また、設定部42は、話者が設定された会話文の直前の文字列を、話者名として設定する。つまり、括弧等の直前の文字列を、話者名として設定する。なお、括弧の直前に文字列がない場合には、括弧で囲まれた発話文毎に、交互に話者を設定するようにしてもよい。   Further, the setting unit 42 sets a character string immediately before the conversation sentence in which the speaker is set as a speaker name. That is, the character string immediately before the parentheses or the like is set as the speaker name. If there is no character string immediately before the parentheses, a speaker may be set alternately for each utterance sentence enclosed in parentheses.

音声化部43は、設定部42により設定された1又は複数の話者に応じて発話文をそれぞれ音声化する。   The voice conversion unit 43 voices each utterance sentence according to one or a plurality of speakers set by the setting unit 42.

表示制御部44は、端末装置20において表示される画面の制御を行っている。   The display control unit 44 controls a screen displayed on the terminal device 20.

表示制御部44は、設定部42により設定された1又は複数の話者の声質をそれぞれ表示するよう制御する。   The display control unit 44 controls to display the voice qualities of one or a plurality of speakers set by the setting unit 42, respectively.

また、表示制御部44は、設定部42により設定された複数の話者の発話文を、話者ごとにそれぞれ表示するように制御する。   The display control unit 44 controls to display the utterances of a plurality of speakers set by the setting unit 42 for each speaker.

ユーザ操作受付部45は、設定部42により設定された1又は複数の話者の設定をそれぞれ変更する設定変更手段として機能する。また、ユーザ操作受付部45は、設定部42により設定された1又は複数の話者の声質をそれぞれ調整する調整手段として機能する。また、ユーザ操作受付部45は、設定部42により設定された複数の話者の発話文の発話範囲をそれぞれ変更する発話範囲変更手段として機能する。   The user operation receiving unit 45 functions as a setting change unit that changes the setting of one or more speakers set by the setting unit 42. Further, the user operation receiving unit 45 functions as an adjusting unit that adjusts the voice quality of one or a plurality of speakers set by the setting unit 42. Further, the user operation receiving unit 45 functions as an utterance range changing unit that changes the utterance ranges of the utterance sentences of a plurality of speakers set by the setting unit 42.

画像認識部46は、静止画像データに対して画像認識処理を行ってテキストデータに変換する。   The image recognition unit 46 performs image recognition processing on the still image data and converts the still image data into text data.

次に、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ10の動作について図面を参照して詳細に説明する。   Next, the operation of the editing processing server 10 in the multimedia content generation system of the present embodiment will be described in detail with reference to the drawings.

先ず、編集処理サーバ10における動作の概略を図4のフローチャートを参照して説明する。   First, the outline of the operation in the editing processing server 10 will be described with reference to the flowchart in FIG.

ここでは、図5に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。   Here, a case will be described as an example where a presentation material as shown in FIG. 5 is taken into the editing processing server 10 to generate multimedia content to be converted into audio.

図5に示されているように、プレゼンテーション資料には、ノート部分50を作成できるようにされている。ノート部分50には、ユーザがメモを書き込む等のテキストデータを入力することができる。そして、本実施形態のマルチメディアコンテンツ生成システムにおける編集処理サーバ10では、このノート部分50に書き込まれた内容を音声化して自動で読み上げるようにすることができる。   As shown in FIG. 5, a note portion 50 can be created in the presentation material. In the note portion 50, the user can input text data such as writing a memo. Then, in the editing processing server 10 in the multimedia content generation system of the present embodiment, the contents written in the note portion 50 can be converted into voice and automatically read out.

端末装置20の表示部には、図6に示すようなプレゼンテーション資料の取り込み画面が表示される。そして、プレゼンテーション資料を格納したファイルが選択、追加されて「取り込み開始」が選択されると、編集処理サーバ10は、プレゼンテーション資料を取り込む(ステップS10)。   A display screen of the presentation material as shown in FIG. 6 is displayed on the display unit of the terminal device 20. Then, when the file storing the presentation material is selected and added and “Start importing” is selected, the editing processing server 10 imports the presentation material (Step S10).

そして、特定部41が、取り込んだプレゼンテーション資料からノート部分50を取得する(ステップS11)。   Then, the specifying unit 41 acquires the note portion 50 from the taken presentation material (step S11).

そして、図7に示されているようなナレーション話者設定画面が表示される。そして、ユーザが、ナレーション話者設定画面において出力言語と性別等の声質を選択し、「OK」が選択されることにより話者設定が作成されて、ノート部分50にナレーション話者が設定される。   Then, a narration speaker setting screen as shown in FIG. 7 is displayed. Then, the user selects the output language and the voice quality such as sex on the narration speaker setting screen, and the speaker setting is created by selecting “OK”, and the narration speaker is set in the note part 50. .

そして、ノート部分50から、話者変更の可能性がある場合には、図8に示されているようなナレータ設定画面が表示され、「OK」が選択されることにより、話者変更の可能性がある発話文が特定され(ステップS12)、話者設定が作成される(ステップS13)。   If there is a possibility that the speaker can be changed from the note portion 50, a narrator setting screen as shown in FIG. 8 is displayed, and when "OK" is selected, the speaker can be changed. An utterance sentence having a possibility is specified (step S12), and speaker settings are created (step S13).

ここで、話者変更の可能性がある場合とは、ノート部分50に会話文が含まれている場合等が挙げられる。つまり、特定部41は、テキストデータ内に括弧やクォーテーションマーク等が含まれている場合に、話者変更の可能性があると判断し、話者変更の可能性がある発話文として、ノート部分50から括弧等で囲まれた発話文(会話文)を特定する。   Here, the case where there is a possibility of speaker change includes a case where the note portion 50 includes a conversational sentence. That is, when the parentheses and quotation marks are included in the text data, the specifying unit 41 determines that there is a possibility that the speaker may be changed, and determines that the utterance sentence having the possibility of changing the speaker includes the note portion. From 50, an utterance sentence (conversation sentence) enclosed in parentheses or the like is specified.

そして、他に話者変更の可能性のある発話文がある場合には(ステップS14においてYes)、ステップS12の処理に戻り、ノート部分50から他の話者変更の可能性がある発話文を特定する。   Then, when there is another utterance sentence that may change the speaker (Yes in step S14), the process returns to step S12, and the utterance sentence having the possibility of another speaker change is returned from the note portion 50. Identify.

そして、他に話者変更の可能性のある発話文がない場合には(ステップS14においてNo)、それぞれの発話文に話者名を割り当てる(ステップS15)。   If there is no other utterance sentence that may change the speaker (No in step S14), a speaker name is assigned to each utterance (step S15).

つまり、括弧等の直前の文字列が話者名(登場人物)として自動抽出されて、自動抽出された発話文のそれぞれに話者名が割り当てられる。そして、話者名に対応する言語、性別等の声質が設定されて、図9に示されているようにナレータ設定画面に一覧表示される。   That is, the character string immediately before the parentheses or the like is automatically extracted as the speaker name (character), and the speaker name is assigned to each of the automatically extracted utterance sentences. Then, the voice quality such as the language and gender corresponding to the speaker name is set, and a list is displayed on the narrator setting screen as shown in FIG.

図9に示されているようなナレータ設定画面では、各登場人物に対応して言語、性別、声の高さ、大きさ、速さ等の声質をユーザが変更、調整できるよう構成されている。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。   The narrator setting screen as shown in FIG. 9 is configured so that the user can change and adjust the voice quality such as language, gender, voice pitch, loudness, speed, etc. corresponding to each character. . Then, when "registration" is selected on the narrator setting screen, a character (speaker name) is set for each utterance sentence.

また、ノート部分50に括弧等で囲まれた発話文等がない場合であっても、疑問符や感嘆符等の付いた発話文が含まれている場合には、図10に示されているようなユーザにノート部分50の編集を促すようなナレータ設定画面を表示する。そして、「ノートを編集」が選択され、ユーザが、例えばノート部分50の話者を変更したい発話文を括弧で囲むことにより、括弧で囲まれた発話文(会話文)に話者を設定することが可能となる。   Further, even when there is no utterance sentence enclosed in parentheses or the like in the note portion 50, if an utterance sentence with a question mark, an exclamation mark, or the like is included, as shown in FIG. A narrator setting screen that prompts the user to edit the note portion 50 is displayed. Then, "edit note" is selected, and the user sets the speaker in the utterance sentence (conversation sentence) enclosed in parentheses, for example, by enclosing the utterance sentence for which the speaker of the note portion 50 is to be changed in parentheses. It becomes possible.

次に、図5に示されているようなプレゼンテーション資料から複数の話者による発話文を特定し、それぞれの発話文に話者を設定する他の例について説明する。   Next, another example in which utterances by a plurality of speakers are specified from the presentation material as shown in FIG. 5 and speakers are set to the respective utterances will be described.

図5に示されているような吹き出し図形等の特定図形が含まれているプレゼンテーション資料の場合に、特定部41は、画像データにおける吹き出し図形等の特定図形を抽出し、これらの特定図形からテキストデータ内に会話文が含まれていると判断し、これらの特定図形の色、形等の属性情報から複数の話者による発話文を特定する。このとき、吹き出し図形上に重ねて発話文が表示されている。   In the case of a presentation material including a specific graphic such as a balloon graphic as shown in FIG. It is determined that a conversational sentence is included in the data, and utterance sentences by a plurality of speakers are specified from attribute information such as the color and shape of these specific figures. At this time, the utterance sentence is displayed over the speech balloon figure.

そして、図11に示されているようなナレータ設定画面において「OK」が選択されると、例えば吹き出し図形の色毎に登場人物が割り当てられて、図12に示されるような黄色の吹き出し図形上の発話文に女性、青色の吹き出し図形上の発話文に男の子が割り当てられ、ナレータ設定画面に表示される。そして、このナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定され、登場人物に対応する言語、性別等の声質が設定される。   Then, when "OK" is selected on the narrator setting screen as shown in FIG. 11, for example, characters are assigned for each color of the balloon graphic, and the character is assigned on the yellow balloon graphic as shown in FIG. Is assigned to a woman, and a boy is assigned to the utterance on the blue speech balloon, and displayed on the narrator setting screen. Then, when "registration" is selected on the narrator setting screen, a character (speaker name) is set for each utterance sentence, and a voice quality such as a language and gender corresponding to the character is set.

次に、図13に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。   Next, a case will be described as an example where a presentation material as shown in FIG. 13 is taken into the editing processing server 10 to generate multimedia content to be converted into audio.

図13のプレゼンテーション資料のノート部分50には、括弧で囲まれた発話文の中に英語が含まれている。   In the note portion 50 of the presentation material of FIG. 13, English is included in the utterance sentence enclosed in parentheses.

ここでは、特定部41は、プレゼンテーション資料のノート部分50の言語を特定し、話者の言語を自動的に設定する。具体的には、図13に示されているノート部分50の括弧で囲まれた発話文には、日本語と英語の2つの言語が含まれているため、ナレーションの他に、複数の話者による発話文が含まれていると特定する。そして、設定部42が、特定部41により特定された日本語と英語のそれぞれの発話文に対して、それぞれの言語に対応する話者をそれぞれ割り当て、図14に示されているようなナレータ設定画面に一覧表示する。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。   Here, the specifying unit 41 specifies the language of the note portion 50 of the presentation material, and automatically sets the language of the speaker. Specifically, since the utterance sentence enclosed in parentheses in the note portion 50 shown in FIG. 13 includes two languages, Japanese and English, in addition to the narration, a plurality of speakers It is specified that the utterance sentence is included. Then, the setting unit 42 assigns speakers corresponding to the respective languages to the Japanese and English utterances specified by the specifying unit 41, respectively, and sets the narrator as shown in FIG. Display a list on the screen. Then, when "register" is selected on the narrator setting screen, a character (speaker name) is set for each utterance sentence.

次に、図15に示すようなプレゼンテーション資料を編集処理サーバ10に取り込んで音声化するマルチメディアコンテンツを生成する場合を例にして説明する。   Next, a case will be described as an example where a presentation material as shown in FIG. 15 is taken into the editing processing server 10 to generate multimedia content to be converted into audio.

図15のプレゼンテーション資料のノート部分50には、文頭にダッシュが付された発話文が含まれている。つまり、ノート部分50に、状況説明文としてト書きが加えられている。   The note portion 50 of the presentation material in FIG. 15 includes an utterance sentence with a dash at the beginning of the sentence. That is, a note is added to the note portion 50 as a situation description.

ここでは、話者変更の可能性がある発話文として、プレゼンテーション資料のノート部分50から会話文の他に、ダッシュやハイフン等の記号が付されたト書きを特定する。   Here, as the utterance sentence that may be changed by the speaker, in addition to the conversation sentence from the note portion 50 of the presentation material, a letter written with a symbol such as a dash or a hyphen is specified.

この場合、特定部41は、ノート部分50のダッシュが付された発話文のダッシュから改行コードが入るまでをト書きとして特定し、話者の言語、性別等の声質を設定する。なお、ダッシュに限らず、ハイフン、段落インデントが追加された発話文等をト書きとして特定し、話者の言語、性別等の声質を設定するようにしてもよい。そして、図16に示されているように、会話文の登場人物の他に、ト書きが登場人物としてナレータ設定画面に一覧表示される。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。   In this case, the specifying unit 41 specifies from the dash of the utterance sentence to which the dash of the note portion 50 is added to the start of the line feed code as a note, and sets the voice quality such as the language and gender of the speaker. The utterance sentence to which the hyphen and the paragraph indent are added, as well as the dash, may be specified as the transcript, and the voice quality such as the language and gender of the speaker may be set. Then, as shown in FIG. 16, in addition to the characters in the conversation sentence, the characters are listed as characters on the narrator setting screen. Then, when "register" is selected on the narrator setting screen, a character (speaker name) is set for each utterance sentence.

また、図17に示されているように、テキストデータ内からそれぞれ特定部41により特定されて抽出された発話文を一覧表示し、抽出された発話文から類推される登場人物をそれぞれ割り当てて設定するようにしてもよい。なお、抽出された発話文と登場人物は、図17に示されているような表示画面上でユーザが修正、変更できるようにしてもよい。そして、ナレータ設定画面において「登録」が選択されると、発話文のそれぞれに登場人物(話者名)が設定される。   Also, as shown in FIG. 17, the utterance sentences specified and extracted by the specifying unit 41 from the text data are displayed in a list, and the characters estimated by analogy from the extracted utterance sentences are respectively assigned and set. You may make it. The extracted utterance sentence and characters may be modified and changed by the user on a display screen as shown in FIG. Then, when "register" is selected on the narrator setting screen, a character (speaker name) is set for each utterance sentence.

10 編集処理サーバ
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース(IF)
15 ユーザインタフェース(UI)装置
16 制御バス
20 端末装置
30 ネットワーク
31 データ通信部
32 制御部
33 マルチメディアデータ格納部
41 特定部
42 設定部
43 音声化部
44 表示制御部
45 ユーザ操作受付部
46 画像認識部
10 edit processing server 11 CPU
12 memory 13 storage device 14 communication interface (IF)
Reference Signs List 15 user interface (UI) device 16 control bus 20 terminal device 30 network 31 data communication unit 32 control unit 33 multimedia data storage unit 41 specifying unit 42 setting unit 43 voice conversion unit 44 display control unit 45 user operation reception unit 46 image recognition Department

Claims (12)

静止画像に対応づけられたテキストデータを取得する取得手段と、
前記取得手段により取得したテキストデータから、複数の話者による発話文を特定する特定手段と、
前記特定手段により特定した発話文に対して複数の話者をそれぞれ設定する設定手段と、
前記設定手段により設定した複数の話者に応じて発話文をそれぞれ音声化する音声化手段と、
を備えた情報処理装置。
Acquiring means for acquiring text data associated with the still image;
From the text data obtained by the obtaining means, specifying means for specifying the utterance sentence by a plurality of speakers,
Setting means for setting a plurality of speakers for the utterance sentence specified by the specifying means,
Speech means for vocalizing each utterance sentence according to the plurality of speakers set by the setting means,
Information processing device provided with.
前記設定手段により設定された複数の話者の声質をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置。   The information processing apparatus according to claim 1, further comprising a display control unit configured to control to display the voice qualities of a plurality of speakers set by the setting unit. 前記設定手段により設定された複数の話者の設定をそれぞれ変更する設定変更手段をさらに備えた請求項2記載の情報処理装置。   The information processing apparatus according to claim 2, further comprising a setting change unit configured to change settings of the plurality of speakers set by the setting unit. 前記設定手段により設定された複数の話者の声質をそれぞれ調整する調整手段をさらに備えた請求項2記載の情報処理装置。   3. The information processing apparatus according to claim 2, further comprising adjusting means for adjusting voice qualities of a plurality of speakers set by said setting means. 前記設定手段により設定された複数の話者の発話文をそれぞれ表示するよう制御する表示制御手段をさらに備えた請求項1記載の情報処理装置。   The information processing apparatus according to claim 1, further comprising a display control unit configured to control to display utterances of a plurality of speakers set by the setting unit. 前記設定手段により設定された複数の話者の発話文の発話範囲をそれぞれ変更する発話範囲変更手段をさらに備える請求項5記載の情報処理装置。   6. The information processing apparatus according to claim 5, further comprising utterance range changing means for changing utterance ranges of utterance sentences of a plurality of speakers set by said setting means. 前記特定手段は、前記取得手段により取得されたテキストデータ内に、少なくとも1つの話者名が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the specifying unit specifies the utterances of a plurality of speakers when at least one speaker name is included in the text data obtained by the obtaining unit. 前記特定手段は、前記取得手段により取得されたテキストデータ内に、予め定められた記号が含まれている場合に、複数の話者による発話文を特定する請求項1記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the specifying unit specifies utterances of a plurality of speakers when a predetermined symbol is included in the text data obtained by the obtaining unit. 前記特定手段は、前記取得手段により取得されたテキストデータの使用言語により、複数の話者による発話文を特定する請求項1記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the specifying unit specifies utterances of a plurality of speakers according to a language used in the text data acquired by the acquiring unit. 前記設定手段は、前記特定手段により特定された発話文に対して、前記使用言語ごとに対応した話者をそれぞれ設定する請求項9記載の情報処理装置。   The information processing apparatus according to claim 9, wherein the setting unit sets a speaker corresponding to each of the languages used in the utterance sentence specified by the specifying unit. 画像データを取得する画像データ取得手段をさらに備え、前記特定手段は、前記画像データ取得手段により取得された画像データにおける特定画像から発話文を特定する請求項1記載の情報処理装置。   2. The information processing apparatus according to claim 1, further comprising image data acquisition means for acquiring image data, wherein the identification means identifies an utterance sentence from a specific image in the image data acquired by the image data acquisition means. 静止画像に対応づけられたテキストデータを取得する取得ステップと、
前記取得ステップにより取得したテキストデータから、複数の話者による発話文を特定する特定ステップと、
前記特定ステップにより特定した発話文に対して複数の話者をそれぞれ設定する設定ステップと、
前記設定ステップにより設定した複数の話者に応じて発話文をそれぞれ音声化する音声化ステップと、
をコンピュータに実行させるためのプログラム。
An obtaining step of obtaining text data associated with the still image;
From the text data obtained in the obtaining step, a specifying step of specifying utterances by a plurality of speakers,
A setting step of setting a plurality of speakers for the utterance sentence specified by the specifying step,
A voice-to-voice step of voice-to-voice utterances according to the plurality of speakers set by the setting step,
A program for causing a computer to execute.
JP2018150559A 2018-08-09 2018-08-09 Information processing device and program Active JP7200533B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018150559A JP7200533B2 (en) 2018-08-09 2018-08-09 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018150559A JP7200533B2 (en) 2018-08-09 2018-08-09 Information processing device and program

Publications (2)

Publication Number Publication Date
JP2020027132A true JP2020027132A (en) 2020-02-20
JP7200533B2 JP7200533B2 (en) 2023-01-10

Family

ID=69620008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018150559A Active JP7200533B2 (en) 2018-08-09 2018-08-09 Information processing device and program

Country Status (1)

Country Link
JP (1) JP7200533B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020184570A1 (en) 2019-03-14 2020-09-17 日油株式会社 Lubricating oil additive, lubricating oil additive composition, and lubricating oil composition containing these
JP7048141B1 (en) 2022-01-05 2022-04-05 株式会社Airobo Programs, file generation methods, information processing devices, and information processing systems
JP2022062983A (en) * 2020-10-09 2022-04-21 溝口 さとし Two-dimensional code encoder and two-dimensional code reading device for education
WO2024122284A1 (en) * 2022-12-05 2024-06-13 ソニーグループ株式会社 Information processing device, information processing method, and information processing program

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63157226A (en) * 1986-12-20 1988-06-30 Fujitsu Ltd Conversation type sentence reading device
JPH02310766A (en) * 1989-05-26 1990-12-26 Nec Corp Reading aloud system for document reading aloud device
JPH08248971A (en) * 1995-03-09 1996-09-27 Hitachi Ltd Text reading aloud and reading device
JPH1185457A (en) * 1997-09-11 1999-03-30 Canon Inc Data processor, its data processing method, and storage medium storing computer-readable program
JP2000339132A (en) * 1999-05-31 2000-12-08 Sony Corp Document voicing device and its method
JP2001014307A (en) * 1999-07-02 2001-01-19 Sony Corp Device and method for processing document and recording medium
JP2002358092A (en) * 2001-06-01 2002-12-13 Sony Corp Voice synthesizing system
JP2012133659A (en) * 2010-12-22 2012-07-12 Fujifilm Corp File format, server, electronic comic viewer device and electronic comic generation device
JP2012133660A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program, recording medium recorded with viewer program, and electronic comic display method
JP2012133661A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Viewer device, browsing system, viewer program and recording medium
JP2012133662A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program and recording medium recording viewer program
JP2013072957A (en) * 2011-09-27 2013-04-22 Toshiba Corp Document read-aloud support device, method and program

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63157226A (en) * 1986-12-20 1988-06-30 Fujitsu Ltd Conversation type sentence reading device
JPH02310766A (en) * 1989-05-26 1990-12-26 Nec Corp Reading aloud system for document reading aloud device
JPH08248971A (en) * 1995-03-09 1996-09-27 Hitachi Ltd Text reading aloud and reading device
JPH1185457A (en) * 1997-09-11 1999-03-30 Canon Inc Data processor, its data processing method, and storage medium storing computer-readable program
JP2000339132A (en) * 1999-05-31 2000-12-08 Sony Corp Document voicing device and its method
JP2001014307A (en) * 1999-07-02 2001-01-19 Sony Corp Device and method for processing document and recording medium
JP2002358092A (en) * 2001-06-01 2002-12-13 Sony Corp Voice synthesizing system
JP2012133659A (en) * 2010-12-22 2012-07-12 Fujifilm Corp File format, server, electronic comic viewer device and electronic comic generation device
JP2012133660A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program, recording medium recorded with viewer program, and electronic comic display method
JP2012133661A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Viewer device, browsing system, viewer program and recording medium
JP2012133662A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program and recording medium recording viewer program
JP2013072957A (en) * 2011-09-27 2013-04-22 Toshiba Corp Document read-aloud support device, method and program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020184570A1 (en) 2019-03-14 2020-09-17 日油株式会社 Lubricating oil additive, lubricating oil additive composition, and lubricating oil composition containing these
JP2022062983A (en) * 2020-10-09 2022-04-21 溝口 さとし Two-dimensional code encoder and two-dimensional code reading device for education
JP7121411B2 (en) 2020-10-09 2022-08-18 溝口 さとし Two-dimensional code encoder and educational two-dimensional code reader
JP7048141B1 (en) 2022-01-05 2022-04-05 株式会社Airobo Programs, file generation methods, information processing devices, and information processing systems
WO2023132140A1 (en) * 2022-01-05 2023-07-13 株式会社アーティスソリューションズ Program, file generation method, information processing device, and information processing system
JP2023100149A (en) * 2022-01-05 2023-07-18 株式会社Airobo Program, file generation method, information processing device, and information processing system
WO2024122284A1 (en) * 2022-12-05 2024-06-13 ソニーグループ株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP7200533B2 (en) 2023-01-10

Similar Documents

Publication Publication Date Title
US9070365B2 (en) Training and applying prosody models
US10043519B2 (en) Generation of text from an audio speech signal
JP7200533B2 (en) Information processing device and program
KR20210103002A (en) Speech synthesis method and apparatus based on emotion information
JP6150268B2 (en) Word registration apparatus and computer program therefor
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US8773696B2 (en) Method and system for generating document using speech data and image forming apparatus including the system
US20080243510A1 (en) Overlapping screen reading of non-sequential text
KR101111487B1 (en) Apparatus and method for learning english
JP3542578B2 (en) Speech recognition apparatus and method, and program
JP2010169973A (en) System and program for supporting foreign language learning
JP2017102939A (en) Authoring device, authoring method, and program
JP5088109B2 (en) Morphological analyzer, morphological analyzer, computer program, speech synthesizer, and speech collator
US10373606B2 (en) Transliteration support device, transliteration support method, and computer program product
JP2004334207A (en) Assistance for dynamic pronunciation for training of japanese and chinese speech recognition system
JP6289950B2 (en) Reading apparatus, reading method and program
JP6208056B2 (en) Pronunciation display device, pronunciation display method, and program
WO2020110744A1 (en) Information processing device, information processing method, and program
JP6340839B2 (en) Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program
JPH08272388A (en) Device and method for synthesizing voice
CN113393831B (en) Speech input operation method based on at least diphones and computer readable medium
US20220201136A1 (en) Information processing system that executes command corresponding to utterance, image processing apparatus, control method for information processing system, and storage medium storing control program for information processing system
JP2004287756A (en) E-mail generating device and method
JP2005266009A (en) Data conversion program and data conversion device
JP2016161735A (en) Authoring device, authoring method, and program

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221205

R150 Certificate of patent or registration of utility model

Ref document number: 7200533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150