JP2007241321A - Message transmission system, message transmission method, reception device, transmission device and message transmission program - Google Patents
Message transmission system, message transmission method, reception device, transmission device and message transmission program Download PDFInfo
- Publication number
- JP2007241321A JP2007241321A JP2004062408A JP2004062408A JP2007241321A JP 2007241321 A JP2007241321 A JP 2007241321A JP 2004062408 A JP2004062408 A JP 2004062408A JP 2004062408 A JP2004062408 A JP 2004062408A JP 2007241321 A JP2007241321 A JP 2007241321A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- voice quality
- configuration information
- image configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims description 51
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 40
- 238000000926 separation method Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract 2
- 230000006854 communication Effects 0.000 description 49
- 238000004891 communication Methods 0.000 description 49
- 238000010586 diagram Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010049976 Impatience Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、受信装置が受信したメッセージを読み上げ、画像を表示するメッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラムに関する。 The present invention relates to a message transmission system, a message transmission method, a reception apparatus, a transmission apparatus, and a message transmission program for reading a message received by a reception apparatus and displaying an image.
従来のメッセージ伝達システムの一例が、非特許文献1に記載されている。図17は、従来のメッセージ伝達システムの一構成例を示すブロック図である。図17に示すように、この従来のメッセージ伝達システムは、音声合成部21と、画像表示部22とを含む。このような構成を有する従来のメッセージ伝達システムは、次のように動作する。
An example of a conventional message transmission system is described in Non-Patent Document 1. FIG. 17 is a block diagram showing a configuration example of a conventional message transmission system. As shown in FIG. 17, this conventional message transmission system includes a
音声合成部21は、受信した電子メールの内容を読み上げる。このとき読み上げに用いる音声の性質(以下、声質情報という。)は、受信装置11の使用者(以下、受信者という。)が設定した声質情報か、または受信装置11が自動に選択した声質情報を使用する。また、画像表示部22は、受信装置13が受信した電子メールに対応した画像を表示するとともに、読み上げの進行にともなって、画像を変化させる。
The
このため、画像の情報および画像を変化させるための情報である画像構成情報を用いる。ここで、画像構成情報とは、受信者が予め受信装置13に記憶させている画像と、その画像に対して受信者が設定した目、口などの顔の部位の位置情報である。また、他の例では、画像構成情報を、受信者が設定する代わりに、予め端末内に記憶しているものがある。
For this reason, image configuration information that is information for changing the image information and the image is used. Here, the image configuration information is an image stored in advance in the
また、受信した電子メールを読み上げる他のシステムが、特許文献1に記載されている。特許文献1に記載されているシステムは、受信したメッセージ中の文字列に埋め込まれた動作制御情報にもとづいて、電子メールを合成音声で読み上げると同時に、ロボットを動かす。また、送信者に対応付けて受信した電子メールの音声データを記憶する。 Another system that reads a received electronic mail is described in Patent Document 1. The system described in Patent Document 1 moves the robot simultaneously with reading out an e-mail with synthesized speech based on the operation control information embedded in the character string in the received message. Also, the voice data of the email received in association with the sender is stored.
さらに、受信した電子メールを読み上げる別の方法が、特許文献2に記載されている。特許文献2に記載されている方法は、受信した電子メールに対して、予め受信側で記憶している複数の画像のうちから、送信者IDによって画像を選択して表示し、電子メールを合成音声で読み上げる。合成音声の声質情報は、送信者の音声を予め分析して利用する。 Furthermore, Patent Document 2 describes another method of reading a received electronic mail. The method described in Patent Document 2 selects and displays an image by a sender ID from a plurality of images stored in advance on the receiving side for the received e-mail, and synthesizes the e-mail. Read aloud. The voice quality information of the synthesized voice is used by analyzing the voice of the sender in advance.
しかし、従来の技術の第1の問題点は、声質情報と画像構成情報とをともに設定する場合、それぞれを別々に設定しなければならない点である。また、第2の問題点は、受信した電子メールの送信者に適した声質情報または画像構成情報を、受信者が予め選択する等の準備をしなければならず、送信者が電子メールの送信時に送信者に適した声質情報または画像構成情報を通信回線を介して提供する方法が無いということである。さらに、第3の問題点は、送信者と受信者以外の第三者が提供する声質情報または画像構成情報を、通信回線を介して受信者に提供する方法が無いということである。 However, the first problem of the prior art is that when voice quality information and image configuration information are set together, they must be set separately. In addition, the second problem is that the receiver needs to make preparations such as preselecting voice quality information or image configuration information suitable for the sender of the received electronic mail. Sometimes there is no way to provide voice quality information or image composition information suitable for the sender via a communication line. Furthermore, the third problem is that there is no method for providing voice quality information or image configuration information provided by a third party other than the sender and the receiver to the receiver via the communication line.
そこで、本発明は、声質情報または画像構成情報を一体として扱うことのできる、メッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラムを提供することを目的とする。また、本発明は、電子メールの送信者が、電子メールの送信時に送信者に適した声質情報または画像構成情報を、通信回線を介して提供できるメッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラムを提供することを目的とする。さらに、本発明は、送信者と受信者以外の第三者が提供する声質情報または画像構成情報を、通信回線を介して提供するメッセージ伝達システム、メッセージ伝達方法、受信装置、送信装置およびメッセージ伝達プログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a message transmission system, a message transmission method, a reception device, a transmission device, and a message transmission program that can handle voice quality information or image configuration information as a unit. The present invention also provides a message transmission system, a message transmission method, a receiving apparatus, and a transmission in which an e-mail sender can provide voice quality information or image configuration information suitable for the sender at the time of e-mail transmission via a communication line. An object is to provide a device and a message transmission program. Furthermore, the present invention provides a message transmission system, a message transmission method, a reception apparatus, a transmission apparatus, and a message transmission that provide voice quality information or image configuration information provided by a third party other than the sender and the receiver via a communication line. The purpose is to provide a program.
本発明によるメッセージ伝達システムは、テキストメッセージを送信する送信手段と、受信したテキストメッセージにもとづいて合成音声を生成する音声合成手段と、合成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と、画像情報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段と、画像表示手段に表示させる画像の情報である画像構成情報と、音声合成手段に生成させる合成音声の特徴の情報である声質情報とを含む表現情報を予め記憶する表現情報記憶手段とを含み、画像情報生成手段は、画像構成情報にもとづいて画像の情報を生成し、音声合成手段は、声質情報にもとづいて合成音声を生成し、生成した合成音声の区切りを示す情報である区切り情報を生成して、画像表示手段に入力し、画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させることを特徴とする。 The message transmission system according to the present invention includes a transmitting means for transmitting a text message, a speech synthesizing means for generating synthesized speech based on the received text message, and image information generation for generating image information to be displayed together with the output of the synthesized speech. Means, image display means for displaying an image based on image information generated by the image information generation means, image configuration information which is information of an image to be displayed on the image display means, and characteristics of synthesized speech to be generated by the voice synthesis means Expression information storage means for preliminarily storing expression information including voice quality information which is information of the image, the image information generation means generates image information based on the image configuration information, and the speech synthesis means Generates synthesized speech based on the generated information, generates delimiter information that indicates the delimiter of the generated synthesized speech, and inputs it to the image display means. Image display means, based on the input delimiter information, and wherein the changing the image to be displayed at the timing of the separated synthesized speech.
送信手段を含む送信装置と、音声合成手段と、画像情報生成手段と、画像表示手段と、表現情報記憶手段とを含む受信装置とを備えてもよい。そのような構成によれば、受信装置のユーザが希望する画像と音声とを受信装置に出力させることができる。 A transmission device including a transmission unit, a voice synthesis unit, an image information generation unit, an image display unit, and a reception device including an expression information storage unit may be provided. According to such a configuration, an image and sound desired by the user of the receiving device can be output to the receiving device.
音声合成手段と、画像情報生成手段と、画像表示手段とを含む受信装置と、送信手段と、表現情報記憶手段と、表現情報記憶手段が記憶している表現情報を受信装置に送信する表現情報送信手段とを含む送信装置とを備えてもよく、受信装置は、表現情報を受信して声質情報を生成する声質情報生成手段を含んでもよく、画像情報生成手段は、表現情報を送信装置から受信して、表現情報から画像構成情報を生成してもよい。そのような構成によれば、送信装置のユーザが希望する画像と音声とを、受信装置に出力させることができる。 Expression information for transmitting the expression information stored in the reception apparatus including the voice synthesis means, the image information generation means, and the image display means, the transmission means, the expression information storage means, and the expression information storage means to the reception apparatus. A receiving device may include voice quality information generating means for receiving the expression information and generating voice quality information, and the image information generating means receives the expression information from the transmitting device. The image configuration information may be generated from the expression information received. According to such a configuration, an image and sound desired by the user of the transmission device can be output to the reception device.
送信装置は、受信装置に送信した表現情報に応じた料金の情報である表現情報課金情報を生成する課金手段を含んでもよい。そのような構成によれば、受信装置に送信した表現情報に応じて、送信装置のユーザに料金を課金することができる。 The transmitting device may include a charging unit that generates expression information charging information that is information on a fee according to the expression information transmitted to the receiving device. According to such a configuration, a charge can be charged to the user of the transmission apparatus according to the expression information transmitted to the reception apparatus.
画像構成情報の全部または一部を記憶する外部画像構成情報記憶手段と、外部画像構成情報記憶手段が記憶している画像構成情報の全部または一部を受信装置に送信する画像構成情報送信手段とを含む画像構成情報提供装置を備えてもよい。そのような構成によれば、外部画像構成情報記憶手段が記憶している、送信装置および受信装置のユーザ以外の第三者が提供する画像を、受信装置に出力させることができる。 External image configuration information storage means for storing all or part of the image configuration information; and image configuration information transmission means for transmitting all or part of the image configuration information stored in the external image configuration information storage means to the receiving device; May be provided. According to such a configuration, the image provided by a third party other than the user of the transmission device and the reception device stored in the external image configuration information storage unit can be output to the reception device.
受信装置と画像構成情報提供装置とは専用回線で接続されてもよい。そのような構成によれば、受信装置と画像構成情報提供装置との通信のプロトコルを簡易なものにできるので、メッセージ伝達システムの構築が簡単になる。 The receiving device and the image configuration information providing device may be connected by a dedicated line. According to such a configuration, since the communication protocol between the receiving device and the image configuration information providing device can be simplified, the construction of the message transmission system is simplified.
受信装置と画像構成情報提供装置とは公衆回線網で接続されてもよい。そのような構成によれば、受信装置のユーザは、インターネット等の公衆回線網を介して複数の画像構成情報提供装置が記憶している画像構成情報を用いることができる。 The receiving device and the image configuration information providing device may be connected via a public network. According to such a configuration, the user of the receiving device can use image configuration information stored in a plurality of image configuration information providing devices via a public network such as the Internet.
表現情報は、外部画像構成情報記憶手段が記憶する画像構成情報の全部または一部の位置を示す情報である画像インデックス情報を含んでもよく、画像情報生成手段は、画像インデックス情報にもとづいて、画像構成情報送信手段に、外部画像構成情報記憶手段が記憶する画像構成情報の全部または一部の送信を要求してもよい。 The expression information may include image index information that is information indicating the position of all or part of the image configuration information stored in the external image configuration information storage unit, and the image information generation unit generates an image based on the image index information. The configuration information transmission unit may request transmission of all or part of the image configuration information stored in the external image configuration information storage unit.
画像構成情報送信手段は、画像情報生成手段の要求に応じて、外部画像構成情報記憶手段が記憶する画像構成情報の全部または一部を受信装置に送信してもよい。 The image configuration information transmission unit may transmit all or part of the image configuration information stored in the external image configuration information storage unit to the receiving device in response to a request from the image information generation unit.
画像構成情報提供装置は、受信装置に送信した画像構成情報に応じた料金の情報である画像課金情報を生成する課金手段を含んでもよい。そのような構成によれば、受信装置に送信した画像構成情報に応じて、受信装置のユーザに料金を課金することができる。 The image configuration information providing device may include a billing unit that generates image billing information that is fee information according to the image configuration information transmitted to the receiving device. According to such a configuration, a charge can be charged to the user of the receiving device according to the image configuration information transmitted to the receiving device.
声質情報の全部または一部を記憶する外部声質情報記憶手段と、外部声質情報記憶手段が記憶している声質情報の全部または一部を受信装置に送信する声質情報送信手段を含む声質情報提供装置を備えてもよい。そのような構成によれば、外部声質情報記憶手段が記憶している、送信装置および受信装置のユーザ以外の第三者が提供する音声の性質の合成音声を、受信装置に出力させることができる。 Voice quality information providing device including external voice quality information storage means for storing all or part of voice quality information, and voice quality information transmission means for sending all or part of voice quality information stored in the external voice quality information storage means to the receiving device May be provided. According to such a configuration, it is possible to cause the receiving device to output synthesized speech having the nature of speech provided by a third party other than the user of the transmitting device and the receiving device, stored in the external voice quality information storage unit. .
受信装置と声質情報提供装置とは専用回線で接続されてもよい。そのような構成によれば、受信装置と声質情報提供装置との通信のプロトコルを簡易なものにできるので、メッセージ伝達システムの構築が簡単になる。 The receiving device and the voice quality information providing device may be connected by a dedicated line. According to such a configuration, since the communication protocol between the receiving device and the voice quality information providing device can be simplified, the construction of the message transmission system is simplified.
受信装置と声質情報提供装置とは公衆回線網で接続されてもよい。そのような構成によれば、受信装置のユーザは、インターネット等の公衆回線網を介して複数の声質情報提供装置が記憶している画像構成情報を用いることができる。 The receiving device and the voice quality information providing device may be connected via a public network. According to such a configuration, the user of the receiving device can use image configuration information stored in a plurality of voice quality information providing devices via a public line network such as the Internet.
表現情報は、外部声質情報記憶手段が記憶する声質情報の全部または一部の位置を示す情報である声質インデックス情報を含んでもよく、音声合成手段は、声質インデックス情報にもとづいて、声質情報送信手段に、外部声質情報記憶手段が記憶する声質情報の全部または一部の送信を要求してもよい。 The expression information may include voice quality index information that is information indicating the position of all or part of the voice quality information stored in the external voice quality information storage means, and the voice synthesis means is configured to transmit voice quality information based on the voice quality index information. In addition, transmission of all or part of the voice quality information stored in the external voice quality information storage means may be requested.
声質情報送信手段は、音声合成手段の要求に応じて、外部声質情報記憶手段が記憶する声質情報の全部または一部を受信装置に送信してもよい。 The voice quality information transmitting means may transmit all or part of the voice quality information stored in the external voice quality information storage means to the receiving device in response to a request from the voice synthesis means.
声質情報提供装置は、受信装置に送信した声質情報に応じた料金の情報である声質課金情報を生成する課金手段を含んでもよい。そのような構成によれば、受信装置に送信した声質情報に応じて、受信装置のユーザに料金を課金することができる。 The voice quality information providing device may include a billing unit that generates voice quality billing information that is information on a fee according to the voice quality information transmitted to the receiving device. According to such a configuration, a charge can be charged to the user of the receiving apparatus according to the voice quality information transmitted to the receiving apparatus.
本発明によるメッセージ伝達方法は、テキストメッセージを受信し、表示する画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成し、合成音声の区切りを示す情報である区切り情報を生成し、合成音声を出力し、画像構成情報にもとづいて合成音声の出力とともに表示する画像の情報を生成し、画像の情報にもとづく画像を表示し、区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させることを特徴とする。 The message transmission method according to the present invention receives a text message, voice quality information of expression information including image configuration information that is information of an image to be displayed and voice quality information that is characteristic information of synthesized speech, and a received text message. Generating synthesized speech based on the generated speech, generating break information which is information indicating a break of the synthesized speech, outputting the synthesized speech, generating information on the image to be displayed together with the output of the synthesized speech based on the image configuration information, An image based on the image information is displayed, and the image to be displayed is changed at the timing of the synthesized speech separation based on the separation information.
表現情報から画像構成情報を生成してもよく、表現情報から声質情報を生成してもよい。そのような方法によれば、ユーザが希望する画像と音声とを出力させることができる。 Image configuration information may be generated from expression information, and voice quality information may be generated from expression information. According to such a method, an image and sound desired by the user can be output.
予め記憶している表現情報を送信してもよく、表現情報を受信すると、受信した表現情報から画像構成情報を生成してもよく、受信した表現情報から声質情報を生成してもよい。そのような方法によれば、送信側のユーザが希望する画像と音声とを、出力側に出力させることができる。 Expression information stored in advance may be transmitted. When expression information is received, image configuration information may be generated from the received expression information, or voice quality information may be generated from the received expression information. According to such a method, the image and sound desired by the user on the transmission side can be output to the output side.
送信した表現情報に応じた料金の情報である表現情報課金情報を生成してもよい。そのような方法によれば、送信した表現情報に応じて、受信側のユーザに料金を課金することができる。 Expression information billing information, which is fee information corresponding to the transmitted expression information, may be generated. According to such a method, it is possible to charge a charge to the user on the receiving side according to the transmitted expression information.
表現情報は、画像構成情報の全部または一部を記憶している外部画像構成情報記憶手段における、画像構成情報の全部または一部を記憶している位置を示す情報である画像インデックス情報を含んでもよく、画像インデックス情報にもとづいて、外部画像構成情報記憶手段に、記憶している画像構成情報の全部または一部の送信を要求してもよく、外部画像構成情報記憶手段から、画像構成情報の全部または一部を受信してもよい。そのような方法によれば、外部画像構成情報記憶手段が記憶している第三者等の画像を、受信側に出力させることができる。 The expression information may include image index information that is information indicating a position where all or part of the image configuration information is stored in the external image configuration information storage unit that stores all or part of the image configuration information. Often, based on the image index information, the external image configuration information storage means may be requested to transmit all or part of the stored image configuration information. You may receive all or one part. According to such a method, an image of a third party or the like stored in the external image configuration information storage unit can be output to the receiving side.
外部画像構成情報記憶手段において、送信した画像構成情報に応じた料金の情報である画像課金情報を生成してもよい。そのような方法によれば、受信側に送信した画像構成情報に応じて、受信側のユーザに料金を課金することができる。 The external image configuration information storage means may generate image billing information that is fee information according to the transmitted image configuration information. According to such a method, a charge can be charged to the user on the receiving side according to the image configuration information transmitted to the receiving side.
表現情報は、声質情報の全部または一部を記憶している外部声質情報記憶手段における、声質情報の全部または一部を記憶している位置を示す情報である声質インデックス情報を含んでもよく、声質インデックス情報にもとづいて、外部声質情報記憶手段に、声質情報の全部または一部の送信を要求してもよく、外部声質情報記憶手段から、声質情報の全部または一部を受信してもよい。そのような方法によれば、外部声質情報記憶手段が記憶している第三者の音声の性質の合成音声を、受信側に出力させることができる。 The expression information may include voice quality index information which is information indicating a position where all or part of the voice quality information is stored in the external voice quality information storage means storing all or part of the voice quality information. Based on the index information, the external voice quality information storage means may be requested to transmit all or part of the voice quality information, and all or part of the voice quality information may be received from the external voice quality information storage means. According to such a method, it is possible to cause the receiving side to output synthesized speech having the nature of third-party speech stored in the external voice quality information storage unit.
外部声質情報記憶手段において、送信した声質情報に応じた料金の情報である声質課金情報を生成してもよい。そのような方法によれば、受信側に送信した声質情報に応じて、受信側のユーザに料金を課金することができる。 In the external voice quality information storage means, voice quality billing information which is information on a fee corresponding to the transmitted voice quality information may be generated. According to such a method, a charge can be charged to the user on the receiving side according to the voice quality information transmitted to the receiving side.
本発明による受信装置は、送信装置からテキストメッセージを受信する受信装置であって、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、送信装置から受信したテキストメッセージとにもとづいて合成音声を生成する音声合成手段と、画像構成情報にもとづいて、合成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と、画像情報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段とを含み、音声合成手段は、生成した合成音声の区切りを示す情報である区切り情報を生成して、画像表示手段に入力し、画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させることを特徴とする。 A receiving device according to the present invention is a receiving device that receives a text message from a transmitting device, and includes voice quality information of expression information including image configuration information that is image information and voice quality information that is information of characteristics of synthesized speech, Speech synthesis means for generating synthesized speech based on a text message received from a transmission device, image information generating means for generating information on an image to be displayed together with output of synthesized speech based on image configuration information, and image information generation Image display means for displaying an image based on the information of the image generated by the means, the speech synthesis means generates separator information that is information indicating a separator of the generated synthesized speech, and inputs it to the image display means, The image display means is characterized in that the image to be displayed is changed at the timing of the synthesized speech separation based on the inputted separation information.
表現情報を予め記憶する表現情報記憶手段を含んでもよく、画像情報生成手段は、表現情報から画像構成情報を生成してもよい。そのような構成によれば、受信装置のユーザが希望する画像と音声とを出力させることができる。 Expression information storage means for storing expression information in advance may be included, and the image information generation means may generate image configuration information from the expression information. According to such a configuration, it is possible to output an image and sound desired by the user of the receiving apparatus.
表現情報を受信して、表現情報から声質情報を生成する声質情報生成手段を含んでもよく、画像情報生成手段は、表現情報を受信して、表現情報から画像構成情報を生成してもよい。そのような構成によれば、送信装置のユーザが希望する画像と音声とを、受信装置に出力させることができる。 Voice quality information generating means for receiving the expression information and generating voice quality information from the expression information may be included, and the image information generating means may receive the expression information and generate image configuration information from the expression information. According to such a configuration, an image and sound desired by the user of the transmission device can be output to the reception device.
画像構成情報の全部または一部を記憶する画像構成情報提供装置から、画像構成情報の全部または一部を受信してもよい。そのような構成によれば、画像情報提供装置が記憶している第三者等の画像を、受信装置に出力させることができる。 All or part of the image configuration information may be received from an image configuration information providing apparatus that stores all or part of the image configuration information. According to such a configuration, an image of a third party or the like stored in the image information providing device can be output to the receiving device.
表現情報は、画像構成情報提供装置が記憶する画像構成情報の全部または一部の位置を示す情報である画像インデックス情報を含んでもよく、画像情報生成手段は、画像インデックス情報にもとづいて、画像構成情報提供装置に、画像構成情報提供装置が記憶する画像構成情報の全部または一部の送信を要求し、画像構成情報提供装置から、画像構成情報提供装置が記憶する画像構成情報の全部または一部を受信してもよい。 The expression information may include image index information that is information indicating the position of all or part of the image configuration information stored in the image configuration information providing apparatus, and the image information generation unit is configured to generate the image configuration information based on the image index information. The information providing device is requested to transmit all or part of the image configuration information stored in the image configuration information providing device, and all or part of the image configuration information stored in the image configuration information providing device is transmitted from the image configuration information providing device. May be received.
画像情報提供装置と専用回線で接続されていてもよい。そのような構成によれば、受信装置と画像構成情報提供装置との通信のプロトコルを簡易なものにできる。 The image information providing apparatus may be connected by a dedicated line. According to such a configuration, a communication protocol between the receiving device and the image configuration information providing device can be simplified.
画像情報提供装置と公衆回線網で接続されていてもよい。そのような構成によれば、受信装置のユーザは、複数の画像情報提供装置が記憶している画像構成情報を用いることができる。 The image information providing apparatus may be connected to the public line network. According to such a configuration, the user of the receiving device can use the image configuration information stored in the plurality of image information providing devices.
声質情報の全部または一部を記憶する声質情報提供装置から、声質情報の全部または一部を受信してもよい。そのような構成によれば、声質情報提供装置が記憶している第三者の音声の性質の合成音声を、受信装置に出力させることができる。 You may receive all or a part of voice quality information from the voice quality information provision apparatus which memorize | stores all or a part of voice quality information. According to such a configuration, it is possible to cause the receiving device to output synthesized speech having the nature of third-party speech stored in the voice quality information providing device.
表現情報は、声質情報提供装置が記憶する声質情報の全部または一部の位置を示す情報である声質インデックス情報を含んでもよく、音声合成手段は、声質インデックス情報にもとづいて、声質情報提供装置に、声質情報提供装置が記憶する声質情報の全部または一部の送信を要求し、声質情報提供装置から、声質情報提供装置が記憶する声質情報の全部または一部を受信してもよい。 The expression information may include voice quality index information which is information indicating the position of all or a part of the voice quality information stored in the voice quality information providing apparatus, and the speech synthesis means provides the voice quality information providing apparatus based on the voice quality index information. The voice quality information providing apparatus may request transmission of all or part of the voice quality information stored therein, and may receive all or part of the voice quality information stored in the voice quality information providing apparatus from the voice quality information providing apparatus.
声質情報提供装置と専用回線で接続されていてもよい。そのような構成によれば、受信装置と声質情報提供装置との通信のプロトコルを簡易なものにできる。 The voice quality information providing apparatus may be connected by a dedicated line. According to such a configuration, the communication protocol between the receiving device and the voice quality information providing device can be simplified.
声質情報提供装置と公衆回線網で接続されていてもよい。そのような構成によれば、受信装置のユーザは、複数の声質情報提供装置が記憶している声質情報を用いることができる。 The voice quality information providing apparatus may be connected to the public line network. According to such a configuration, the user of the receiving apparatus can use voice quality information stored in a plurality of voice quality information providing apparatuses.
本発明による送信装置は、受信装置に伝達するテキストメッセージ、受信装置に表示させる画像の情報である画像構成情報、および受信装置に生成させるテキストメッセージの合成音声の特徴の情報である声質情報を含む表現情報とを送信する送信手段を含むことを特徴とする。 The transmission device according to the present invention includes a text message to be transmitted to the reception device, image configuration information that is information of an image to be displayed on the reception device, and voice quality information that is information on characteristics of synthesized speech of the text message to be generated by the reception device. It includes transmission means for transmitting expression information.
本発明によるメッセージ伝達プログラムは、コンピュータに、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報にもとづいて、画像を表示する画像表示手段に、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理とを実行させることを特徴とする。 The message transmission program according to the present invention provides a computer with synthesized speech based on voice quality information of expression information including image configuration information that is image information and voice quality information that is information of characteristics of synthesized speech, and a received text message. Information generation processing for generating image information to be displayed together with the output of the synthesized voice of the text message, based on the image configuration information And image display means for displaying an image based on the separation information, and performing an image display process for changing the image at the timing of the synthesized speech separation.
コンピュータに、表現情報を受信して、表現情報から声質情報を生成する声質情報生成処理を実行させてもよく、画像情報生成処理で、表現情報を受信して、表現情報から画像構成情報を生成する処理を実行させてもよい。そのような構成によれば、送信側のユーザが希望する画像を画像表示手段に表示させ、送信側のユーザが希望する性質の合成音声を音声出力手段に出力させることができる。 The computer may receive expression information and execute voice quality information generation processing for generating voice quality information from the expression information. In the image information generation process, the expression information is received and image configuration information is generated from the expression information. You may perform the process to perform. According to such a configuration, the image desired by the user on the transmission side can be displayed on the image display means, and the synthesized voice having the property desired by the user on the transmission side can be output to the sound output means.
コンピュータに、画像情報生成処理で、画像構成情報の全部または一部を記憶する外部画像構成情報記憶手段と、外部画像構成情報記憶手段が記憶している画像構成情報の全部または一部を送信する画像構成情報送信手段とを含む画像情報提供装置から、表現情報に含まれ、外部画像構成情報記憶手段が記憶する画像構成情報の全部または一部の位置を示す情報である画像インデックス情報にもとづいて、画像情報提供装置が記憶する画像構成情報の全部または一部の送信を画像情報提供装置に要求する処理を実行させてもよく、画像情報提供装置から画像構成情報の全部または一部を受信する処理を実行させてもよい。そのような構成によれば、画像情報提供装置が記憶している第三者等の画像を、画像表示手段に表示させることができる。 In the image information generation process, external image configuration information storage means for storing all or part of the image configuration information and all or part of the image configuration information stored in the external image configuration information storage means are transmitted to the computer. Based on image index information which is information included in the expression information from the image information providing apparatus including the image configuration information transmitting unit and which indicates the position of all or part of the image configuration information stored in the external image configuration information storage unit. The image information providing apparatus may execute processing for requesting the image information providing apparatus to transmit all or part of the image configuration information stored in the image information providing apparatus, and receive all or part of the image configuration information from the image information providing apparatus. Processing may be executed. According to such a configuration, an image of a third party or the like stored in the image information providing apparatus can be displayed on the image display means.
コンピュータに、音声合成処理で、声質情報の全部または一部を記憶する外部声質情報記憶手段と、外部声質情報記憶手段が記憶している声質情報の全部または一部を送信する声質情報送信手段とを含む声質情報提供装置から、表現情報に含まれ、外部声質情報記憶手段が記憶している声質情報の全部または一部の位置を示す情報である声質インデックス情報にもとづいて、声質情報提供装置が記憶する声質情報の全部または一部の送信を、声質情報提供装置に要求する処理を実行させてもよく、声質情報提供装置から、声質情報の全部または一部を受信する処理を実行させてもよい。そのような構成によれば、声質情報提供装置が記憶している第三者の音声の性質の合成音声を、音声出力手段に出力させることができる。 An external voice quality information storage means for storing all or part of the voice quality information in the speech synthesis process; and a voice quality information transmission means for transmitting all or a part of the voice quality information stored in the external voice quality information storage means to the computer. A voice quality information providing device based on voice quality index information which is information indicating the position of all or part of the voice quality information stored in the external voice quality information storage means. Processing for requesting the voice quality information providing apparatus to transmit all or part of the stored voice quality information may be executed, or processing for receiving all or part of the voice quality information from the voice quality information providing apparatus may be executed. Good. According to such a configuration, it is possible to cause the voice output means to output the synthesized voice having the nature of the third party voice stored in the voice quality information providing apparatus.
本発明の第1の効果は、電子メールを、 送信者に結び付いた内容である声質情報と画像構成情報を用いて、合成音声と画像とで表現することができることである。また、第2の効果は、電子メールの送信者が提供した声質情報または画像構成情報を使うことで、より緊密なコミュニケーションを行うことが可能になるということである。さらに、第3の効果は、例えば著名人やキャラクタの音声や画像を使用する権利を有する第三者が、声質情報または画像構成情報を受信者に提供することで、送信者と受信者とがより多彩なコミュニケーションを行うことが可能になるということである。 The first effect of the present invention is that an e-mail can be expressed by synthesized speech and an image using voice quality information and image configuration information which are contents linked to a sender. The second effect is that closer communication can be performed by using voice quality information or image configuration information provided by the sender of the e-mail. Furthermore, the third effect is that, for example, a third party who has the right to use voices and images of celebrities and characters provides the receiver with voice quality information or image configuration information. This means that more diverse communication is possible.
実施の形態1.
本発明の第1の実施の形態について、図面を参照して説明する。図1は、本発明の第1の実施の形態の一構成例を示すブロック図である。
Embodiment 1 FIG.
A first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of the first embodiment of the present invention.
本発明の第1の実施の形態は、電子メール等のテキストメッセージを通信回線12を介して送信する送信装置11と、送信装置11から受信したテキストメッセージにもとづく合成音声の出力と、合成音声の出力に対応した画像の出力とを行う受信装置13とを含む。
In the first embodiment of the present invention, a
送信装置11は、テキストメッセージを記憶するテキストメッセージ記憶部31と、テキストメッセージ記憶部31が記憶しているテキストメッセージを、通信回線12を介して受信装置13に送信する送信部32とを含む。
The
受信装置13は、声質情報と画像構成情報とを含む表現情報を記憶する表現情報記憶部(表現情報記憶手段)34、表現情報から声質情報を生成する声質情報生成部(声質情報生成手段)23、表現情報から画像構成情報を生成する画像構成情報生成部(画像情報生成手段)24、画像構成情報を記憶する画像構成情報記憶部33、声質情報にもとづいてテキストメッセージを合成音声に変換したり、合成音声の区切りを示す情報である区切り情報を生成したりする音声合成部(音声合成手段)21、画像構成情報と区切り情報とにもとづいて画像を表示する画像表示部(画像表示手段)22、および合成音声を出力するスピーカ27を含む。
The receiving
声質情報生成部23は、表現情報記憶部34が記憶している表現情報から声質情報を生成する。ここで、声質情報は、音声合成部21がテキストメッセージから変換して生成する合成音声の声質を指定する情報である。なお、声質情報は、話者名、声の高さ、抑揚の強さ、語尾の特徴等の特定個人あるいは概念的な人物像の声を想起させる要素や、発声速度、焦り方などの発話の際におかれている状況を想起させる要素のうち1以上を含む。
The voice quality
画像構成情報生成部24は、表現情報記憶部34が記憶している表現情報から、画像構成情報を生成する。ここで、画像構成情報は、画像表示部22が、送信者本人またはその代理となるキャラクタの画像を構成、表示するために用いる情報である。また、画像構成情報は、画像を生成するために、基本となる画像である基本画像や、顔の画像の場合は目や口や眉毛などの位置と形状との情報を含んでもよく、それ以外の部位の画像の場合も同等の情報を含んでもよい。画像構成情報生成部24は、生成した画像構成情報を画像構成情報記憶部33に記憶させる。画像構成情報記憶部33は、画像構成情報を記憶する。
The image configuration
なお、画像構成情報は、送信者本人の顔写真や、全身写真のほか、似顔絵や、送信者を受信者に想起させるキャラクタなどの無生物等の情報であってもよい。そして、画像構成情報は、上記に限定したものでは無く、コンピュータグラフィックス(CG)でキャラクタを合成表示するためのパラメータや、複数の静止画像のそれぞれに番号等を付けて束ねたもの等を用いてもよい。 Note that the image configuration information may be information such as an inanimate object such as a portrait or a character that reminds the receiver of the sender, in addition to the photograph of the sender himself / herself or the whole body. The image configuration information is not limited to the above, but uses parameters for combining and displaying characters by computer graphics (CG), or a bundle of numbers of each of a plurality of still images. May be.
音声合成部21は、声質情報生成部23が生成した声質情報にもとづいて、送信装置11から受信したテキストメッセージを合成音声に変換し、スピーカ27に出力する。
合成音声の出力中には、合成音声の出力の開始、段落の区切り、文の区切り、音節の区切り、合成音声の出力の終了、などの各種の区切りが存在する。音声合成手段21は、これらの区切りのうち、予め定めたいくつかの区切りのタイミングで、区切り情報を画像表示部22に出力する。
The
During the output of synthesized speech, there are various types of breaks such as the start of output of synthesized speech, paragraph breaks, sentence breaks, syllable breaks, and termination of output of synthesized speech. The
画像表示部22は、音声合成部21が区切り情報を入力したタイミングで、画像構成情報記憶部33が記憶している画像構成情報にもとづいて画像を生成し、生成した画像を表示する。なお、画像表示部22は、予め音声合成部21が入力した区切り情報に応じて読み込む画像構成情報の要素を記憶している。
The
ここで、送信装置11と受信装置13とは、例えば、電子メール送受信機能を備えた携帯電話機であり、通信回線12は携帯電話通信網およびそれに付随するデータ通信網である。ただし、本発明の適用はこれらに限定されるものではなく、一般のインターネットを介した電子メールシステムやチャットシステム、専用ホストによるパソコン通信システム、IP電話網、ビデオ通信網などでもよい。また、通信回線12を介する送信装置11と受信装置13との間の通信は、双方向通信でなくてもよく、送信装置11から受信装置13への単一方向通信でもよい。
Here, the
ここで、受信装置13は、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報にもとづいて、画像を表示する画像表示部22に、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭載する。
Here, the receiving
次に、本発明の第1の実施の形態の動作について説明する。図2は、本発明の第1の実施の形態の動作を説明するフローチャートである。 Next, the operation of the first exemplary embodiment of the present invention will be described. FIG. 2 is a flowchart for explaining the operation of the first embodiment of the present invention.
送信装置11の送信部32は、通信回線12を介して受信装置13に、テキストメッセージ記憶部31が記憶しているテキストメッセージを送信する(ステップS101)。図3に、テキストメッセージ記憶部31が記憶しているテキストメッセージの一例を示す。図3に示す例では、テキストメッセージ記憶部31は、「今日は、良い天気です。」というテキストメッセージを記憶している。送信部32は、通信回線12を介して受信装置13に、「今日は、良い天気です。」というテキストメッセージを送信する。
The
受信装置13において、音声合成部21がテキストメッセージを受信すると、声質情報生成部23および画像構成情報生成部24に、テキストメッセージを受信したことを通知する(ステップS102)。声質情報生成部23および画像構成情報生成部24は、表現情報記憶部34が記憶している表現情報を読み出す(ステップS103)。図4は、表現情報の一例を示す説明図である。図4に示す例では、表現情報は、声質情報と画像構成情報とを含む。
In the receiving
声質情報生成部23は、読み出した表現情報から声質情報を生成し、画像構成情報生成部24は、読み出した表現情報から画像構成情報を生成する(ステップS104)。図5は、声質情報の一例を示す説明図である。声質情報は、話者と、発声速度と、声の高さとを示す情報である。ここで、図5に示す例では、声の高さを基準値+100Hzとしているが、例えば350Hz等の絶対値で示してもよい。図6は、画像構成情報の一例を示す説明図である。画像構成情報は、基本画像と、目の相対位置と、目の大きさと、口の相対位置と、口の開度とを示している。目の相対位置と口の相対位置とは、例えば、顔の画像の中心を原点として正規化した座標値で示す。なお、目の相対位置において、右目の相対位置は、例えば、右目を接して囲む四角形の対角線の交点のY座標値と、X座標値とであり、左目の相対位置は、左目を接して囲む四角形の対角線の交点のY座標値と、X座標値とである。また、口の相対位置は、例えば、口を接して囲む四角形の上辺のY座標値(口の上下方向の位置を示す。)と、四角形の幅の値(口の幅を示す。)と、四角形の高さの値(口の厚さを示す。)とで示す。目の大きさにおいて、例えば、右目の大きさは、右目を接して囲む四角形の高さ(右目の厚さを示す。)と幅(右目の幅を示す。)との値で示し、左目の大きさは、左目を接して囲む四角形の高さ(左目の厚さを示す。)と幅(左目の幅を示す。)との値で示す。口の開度は、例えば、口を最も大きく開けた時の口を接して囲む四角形の高さを100として、正規化した値で示す。例えば、口の開度が75の場合、口を最も大きく開けたときの75%の高さで口が開いていることを示す。なお、この実施の形態の例では、上述の方法で、画像構成情報が示す画像を数値化して示したが、本発明はこれに限定されるものではなく、他の方法で画像を画像構成情報が示してもよい。画像構成情報生成部24は、生成した画像構成情報を画像構成情報記憶部33に記憶させる。
The voice quality
画像表示部22は、画像構成情報記憶部33が記憶している画像構成情報を読み出し、基本画像を表示する(ステップS105)。音声合成部21は、声質情報生成部23が生成した声質情報にもとづいて、受信したテキストメッセージの音声合成を行ない、合成音声を生成し、スピーカ27に合成音声の出力を開始する(ステップS106)。
The
図7は、音声合成部21が声質情報にもとづいて、受信したテキストメッセージの音声合成を行ない、生成した合成音声の音声波形の一例を示す説明図である。ここで、音声合成部21は内部でタイミング点の情報を持つ。本実施例におけるタイミング点の例として、図7中に時刻Aから時刻Dを示す。それぞれ、時刻Aは発声の開始時点の時刻、時刻Bは読点の時点の時刻、時刻Cは音声合成部21が認識した文節区切りの時点の時刻、時刻Dは発声の終了時点を表している。音声合成部21はそれぞれのタイミング点の時刻で、区切り情報を生成して画像表示部22に出力する。画像情報表示部22は、区切り情報にもとづいて、それぞれのタイミング点の時刻で、予め決められた画像に表示する画像を変化させる。
FIG. 7 is an explanatory diagram illustrating an example of a speech waveform of a synthesized speech generated by the
時刻Aになると(ステップS107)、画像表示部22は画像構成情報記憶部33が記憶している口の相対位置と口の開度との情報を読み出す(ステップS108)。そして、画像表示部は、読み出した口の相対位置と口の開度との情報に応じて、口の周辺の画像を生成し、表示している基本画像の口の周辺の画像に上書きする。この実施の形態では、基本画像の口の開度は75なので、口の開度が100である、口が開いた画像に書き換えられる(ステップS109)。
At time A (step S107), the
時刻Bになると(ステップS110)、画像表示部22は画像構成情報記憶部33が記憶している目の相対位置と目の大きさとの情報を読み出す(ステップS111)。そして、目の相対位置を中心に、例えば、右目を囲んで接する四角形の中の画像を、反時計回りの方向に30度傾ける。また、左目を囲んで接する四角形の中の画像を、時計回りの方向に30度傾ける。すると、目が笑っているように見える画像が生成され、画像表示部22は、基本画像の目の周辺の画像を、目が笑っているように見える画像に書き換える(ステップS112)。
At time B (step S110), the
時刻Cになると(ステップS113)、画像表示部22は画像構成情報記憶部33が記憶している目の相対位置と目の大きさとの情報を読み出す(ステップS114)。そして、画像表示部は、読み出した目の相対位置と目の大きさとの情報に応じて、目の周辺の画像を生成し、表示している笑っている目の周辺の画像に上書きし、目の周辺を基本画像に書き換える(ステップS115)。
At time C (step S113), the
時刻Dになると(ステップS116)、画像表示部22は画像構成情報記憶部33が記憶している口の相対位置と口の開度との情報を読み出す(ステップS117)。そして、画像表示部は、読み出した口の相対位置と口の開度との情報に応じて、口の周辺の画像を生成し、表示している開いている口の周辺の画像に上書きする。この実施の形態では、基本画像の口の開度は75なので、口の開度が100である、口が開いた画像が、口の開度が75である基本画像に書き換えられる(ステップS118)。
At time D (step S116), the
音声合成部21は合成音声の出力を終了し(ステップS119)、画像表示部22は、画像の表示を終了する(ステップS120)。
The
図8は、第1の実施の形態において、画像表示部22が出力する画像の例を示す説明図である。第1の実施の形態の動作の説明で述べたように、時刻Aから時刻Dまで、画像表示部22が出力する画像が時刻に応じて変化することがわかる。
FIG. 8 is an explanatory diagram illustrating an example of an image output from the
以上、述べたように、この実施の形態によれば、テキストメッセージの出力に連動して画像が動くように見えるように、画像表示部22は画像を出力することができる。
As described above, according to this embodiment, the
なお、この実施の形態では、テキストメッセージは、プレーンテキストを例に説明したが、修飾情報を伴うリッチテキスト、音声合成の発声内容を表した発音記号列などを用いてもよい。その場合には、それぞれに対応した音声合成部21を用いる。また、図2のフローチャートに示した動作は、各区切りの時刻毎に予め定められているが、そのほか文中の単語の種類や、記号等の特定の文字種、リッチテキストの場合の修飾情報に応じて予め定められていてもよい。
In this embodiment, the text message has been described by taking plain text as an example. However, a rich text with modification information, a phonetic symbol string representing the utterance content of speech synthesis, or the like may be used. In that case, the
また、この実施例においては、説明のため、表現情報は単一としている。ここで、送信装置11(送信者)が複数ある場合には、表現情報記憶部34は、送信装置11に対応する表現情報を複数記憶しておく。そして、送信装置11は、テキストメッセージとともに送信装置を示す送信者IDを送信し、音声合成部21は、受信した送信者IDを声質情報生成部23および画像構成情報生成部24に出力し、声質情報生成部23および画像構成情報生成部24は、送信者IDに対応した表現情報をそれぞれ読み出す。
In this embodiment, the expression information is single for the sake of explanation. Here, when there are a plurality of transmission apparatuses 11 (senders), the expression
実施の形態2.
本発明の第2の実施の形態について、図面を参照して説明する。図9は、本発明の第2の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、第1の実施の形態の受信装置13の表現情報記憶部34を、送信装置11が備えたものであり、その他の構成は第1の実施例と同様である。そのため、第1の実施の形態と同様の回路等については図1と同じ符号を付し、説明を省略する。
Embodiment 2. FIG.
A second embodiment of the present invention will be described with reference to the drawings. FIG. 9 is a block diagram showing a configuration example of the second exemplary embodiment of the present invention. In the configuration of the present embodiment, the
送信装置11が備える送信部(表現情報送信手段)32は、テキストメッセージ記憶部31が記憶しているテキストメッセージとともに、または別々に、通信回線12を介して表現情報記憶部34が記憶している表現情報を受信装置13に送信する。受信装置13では、声質情報生成部23と画像構成情報生成部24とが表現情報を受信する。
The transmission unit (expression information transmission means) 32 included in the
ここで、送信部32は、テキストメッセージと表現情報とを、一体として通信回線12を送信してもよいし、別々に送信してもよい。また、テキストメッセージと表現情報とを別々に送信する場合、テキストメッセージと表現情報とを伝送する通信回線12は物理的・論理的に同一のものでなくてもよい。
Here, the
受信装置13は、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報にもとづいて、画像を表示する画像表示部22に、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭載する。また、表現情報を受信して、表現情報から声質情報を生成する声質情報生成処理を実行してもよく、画像情報生成処理で、表現情報を受信して、表現情報から画像構成情報を生成する処理を実行してもよい。
The receiving
次に、本発明の第2の実施の形態の動作について、図面を参照して説明する。図10は、本発明の第2の実施の形態の動作を説明するフローチャートである。 Next, the operation of the second exemplary embodiment of the present invention will be described with reference to the drawings. FIG. 10 is a flowchart for explaining the operation of the second exemplary embodiment of the present invention.
送信装置11の送信部32は、テキストメッセージと表現情報とを、通信回線12を介して受信装置13に送信する(ステップS201)。送信部32は、テキストメッセージと表現情報とに、共通のヘッダを付して通信回線12を一体として送信する。ただし、本発明は、これに限定されることはなく、送信部32は、テキストメッセージと表現情報とを別々のデータとして送信してもよい。また、一度テキストメッセージと表現情報とを一体として送付した後は、表現情報に変更の無い限り、表現情報を受信装置13の記憶部(図示せず)に記憶させて、表現情報の送信を省略してもよい。すると、本発明の第1の実施の形態と同様の構成となる。
The
受信装置13では、声質情報生成部23と画像構成情報生成部24とが表現情報を受信し、音声合成手段21がテキストメッセージを受信する(ステップS202)。
In the receiving
声質情報生成部23は、受信した表現情報から声質情報を生成し、画像構成情報生成部24は、受信した表現情報から画像構成情報を生成する(ステップS203)。画像構成情報生成部24は、生成した画像構成情報を画像構成情報記憶部33に記憶させる。
The voice quality
画像表示部22は、画像構成情報記憶部33が記憶している画像構成情報を読み出し、基本画像を表示する(ステップS204)。音声合成部21は、声質情報生成部23が生成した声質情報にもとづいて、受信したテキストメッセージの音声合成を行ない、合成音声を生成し、スピーカ27に合成音声の出力を開始する(ステップS205)。
The
ステップS206以降(ステップS206〜S219)の動作は、第1の実施の形態におけるステップS107以降(ステップS107〜S120)の動作と同様なため、説明を省略する。 Since the operations after step S206 (steps S206 to S219) are the same as the operations after step S107 (steps S107 to S120) in the first embodiment, the description thereof will be omitted.
以上、述べたように、本発明の第2の実施の形態によれば、送信装置11が表現情報を受信装置13に送信するため、送信装置11のユーザの希望する声質の合成音声を受信装置13のスピーカ27から出力させたり、送信装置11のユーザの希望する画像を、合成音声の出力に連動して画像表示部22に表示させたりすることができる。
As described above, according to the second embodiment of the present invention, since the
実施の形態3.
本発明の第3の実施の形態について、図面を参照して説明する。図11は、本発明の第3の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、第2の実施の形態の受信装置13の画像構成情報生成部24に通信回線14を介して接続されるサーバ(画像構成情報提供装置、声質情報提供装置)15を含む点が第2の実施の形態と異なる。そして、サーバ15は、予め画像構成情報を記憶しているサーバ画像構成情報記憶部(外部画像構成情報記憶手段)35と、サーバ画像構成情報記憶部35が記憶している画像構成情報を通信回線14を介して受信装置13の画像構成情報生成部24に送信する画像構成情報送信部(画像構成情報送信手段)25とを含む。その他の構成は第2の実施の形態と同様である。そのため、第2の実施の形態と同様の回路等については図9と同じ符号を付し、説明を省略する。なお、通信回線14は、LAN(Local Area Network)等の専用回線で画像情報生成部24とサーバ15とを接続してもよいし、インターネット等の公衆回線で画像情報生成部24とサーバ15とを接続してもよい。そして、通信回線14は、インターネット等の公衆回線であった場合、通信回線12と一部共用していてもよい。
Embodiment 3 FIG.
A third embodiment of the present invention will be described with reference to the drawings. FIG. 11 is a block diagram showing a configuration example of the third embodiment of the present invention. The configuration of this embodiment includes a server (image configuration information providing device, voice quality information providing device) 15 connected to the image configuration
図12は、第3の実施の形態の表現情報の一例を示す説明図である。図12に示す例では、表現情報は、声質情報と画像構成情報のインデックスとを含む。画像構成情報のインデックスとは、画像構成情報を記憶している装置と、その装置内で画像構成情報を記憶している位置とを示す情報である。この実施の形態の例では、サーバ15のサーバ画像構成情報記憶部35が画像構成情報を記憶しているため、画像構成情報のインデックスは、サーバ15のIPアドレスと、サーバ15内での画像構成情報を記憶している位置を示す番号である位置番号とで構成されている。ここで、画像構成情報のインデックスは、サーバのIPアドレスとサーバ15内における位置番号との組に限らず、サーバの名称とフルパス名の組や、URI(Uniform Resource Identifiers)等を用いてもよい。
FIG. 12 is an explanatory diagram illustrating an example of expression information according to the third embodiment. In the example shown in FIG. 12, the expression information includes voice quality information and an index of image configuration information. The index of the image configuration information is information indicating a device that stores the image configuration information and a position in the device that stores the image configuration information. In the example of this embodiment, since the server image configuration
画像構成情報生成部24は、画像構成情報のインデックスを含む表現情報を受信すると、画像構成情報のインデックスにもとづいて通信回線14を介してサーバ15に接続し、画像構成情報の位置番号を送信する。サーバ15の画像構成情報送信部25は、画像構成情報生成部24から受信した位置番号の画像構成情報をサーバ画像構成情報記憶部35から読み出して、読み出した画像構成情報を通信回線14を介して画像構成情報生成部24に送信する。
When receiving the expression information including the index of the image configuration information, the image configuration
ここで、受信装置13は、画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成させ、合成音声の区切りを示す情報である区切り情報を生成させる音声合成処理と、テキストメッセージの合成音声の出力とともに表示する画像の情報を、画像構成情報にもとづいて生成させる画像情報生成処理と、区切り情報にもとづいて、画像を表示する画像表示部22に、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理とを実行するメッセージ伝達プログラムを搭載する。また、画像情報生成処理で、画像構成情報の全部または一部を記憶するサーバ画像構成情報記憶部35と、サーバ画像構成情報記憶部35が記憶している画像構成情報の全部または一部を送信する画像構成情報送信部25とを含むサーバ15から、表現情報に含まれ、サーバ画像構成情報記憶部35が記憶する画像構成情報の全部または一部の位置を示す情報である画像構成情報のインデックスにもとづいて、サーバ15が記憶する画像構成情報の全部または一部の送信をサーバ15に要求する処理を実行してもよく、サーバ15から画像構成情報の全部または一部を受信する処理を実行してもよい。さらに、音声合成処理で、声質情報の全部または一部を記憶する外部声質情報記憶部(図示せず)と、外部声質情報記憶部が記憶している声質情報の全部または一部を送信する声質情報送信部(図示せず)とを含むサーバ15から、表現情報に含まれ、外部声質情報記憶部が記憶している声質情報の全部または一部の位置を示す情報である声質情報のインデックスにもとづいて、サーバ15が記憶する声質情報の全部または一部の送信を、サーバ15に要求する処理を実行してもよく、サーバ15から、声質情報の全部または一部を受信する処理を実行してもよい。
Here, the receiving
次に、本発明の第3の実施の形態の動作について説明する。図13は、画像構成情報生成部24が画像構成情報送信部25から画像構成情報を受信する際の動作を説明するシーケンス図である。
Next, the operation of the third exemplary embodiment of the present invention will be described. FIG. 13 is a sequence diagram illustrating an operation when the image configuration
画像構成情報生成部24は、画像構成情報のインデックスを受信すると(ステップS301)、通信回線14を介してサーバ15の画像構成情報送信部25に接続を要求する、(ステップS302)。画像構成情報送信部25は、接続を許可する(ステップS303)。
When receiving the index of the image configuration information (step S301), the image configuration
画像構成情報生成部24は、画像構成情報のインデックスに含まれる位置番号を、画像構成情報送信部25に通信回線14を介して送信して、画像構成情報の送信を要求する(ステップS304)。画像構成情報送信部25は、位置番号を受信すると(ステップS305)、受信した位置番号の画像構成情報をサーバ画像構成情報記憶部35から読み出し(ステップS306)、読み出した画像構成情報を、画像構成情報生成部24に通信回線14を介して送信する(ステップS307)。
The image configuration
画像構成情報生成部24は、画像構成情報を受信すると(ステップS308)、画像構成情報送信部25に接続の切断を要求する(ステップS309)。画像構成情報送信部25は、接続の切断を許可する(ステップS310)。画像構成情報生成部24は、画像構成情報送信部25との接続を切断する(ステップS311)。
When receiving the image configuration information (step S308), the image configuration
本発明の第3の実施の形態の、送信装置11と受信装置13とサーバ15との動作について説明する。図14は、本発明の第3の実施の形態の動作を説明するフローチャートである。
Operations of the
送信装置11の送信部32は、テキストメッセージと表現情報とを、通信回線12を介して受信装置113に送信する(ステップS401)。受信装置13では、声質情報生成部23と画像構成情報生成部24とが表現情報を受信し、音声合成手段21がテキストメッセージを受信する(ステップS402)。
The
画像情報生成部24は、表現情報に含まれる画像構成情報のインデックスにもとづいて、画像構成情報をサーバ15から通信回線14を介して受信する(ステップS403)。画像情報生成部24は、図13のシーケンス図に示す動作を行ない、サーバ15から画像構成情報を受信する。そして、画像情報生成部24は、受信した画像構成情報を画像構成情報記憶部33に記憶させ、画像構成情報を受信したことを音声合成手段21に通知する。
The image
声質情報生成部23は、受信した表現情報から声質情報を生成する(ステップS404)。画像表示部22は、画像構成情報記憶部33が記憶している画像構成情報を読み出し、基本画像を表示する(ステップS405)。音声合成部21は、声質情報生成部23が生成した声質情報にもとづいて、受信したテキストメッセージの音声合成を行ない、合成音声を生成し、スピーカ27に合成音声の出力を開始する(ステップS406)。
The voice quality
ステップS407以降(ステップS407〜S420)の動作は、第1の実施の形態におけるステップS106以降(ステップS107〜S120)の動作と同様なため、説明を省略する。 Since the operations after step S407 (steps S407 to S420) are the same as the operations after step S106 in the first embodiment (steps S107 to S120), description thereof will be omitted.
なお、第3の実施の形態で述べた例では、画像構成情報生成部24は、画像構成情報の全てをサーバ15から受信したが、本発明はこれに限定されるものではなく、画像構成情報の一部を送信装置11から表現情報として受信し、残りの情報をサーバ15から受信してもよい。具体的には、表現情報の画像構成情報に、画像表示部が画像を表示するのに必要となる情報の一部(例えば、基本画像)が欠けていたり、表現情報の画像構成情報に、基本画像がないことを示す情報と、基本画像が記憶されているインデックスとが含まれていたりする場合、画像構成情報生成部24は、サーバ15に接続して基本画像を受信し、サーバ15から受信した基本画像と、表現情報に含まれている他の情報とで画像構成情報を生成してもよい。
In the example described in the third embodiment, the image configuration
また、第3の実施の形態で述べた例では、画像構成情報の全部または一部をサーバ15から受信するという構成になっているが、サーバ15が声質情報を記憶し、声質情報生成部23が通信回線14を介してサーバ15と接続され、声質情報の全部または一部をサーバ15から受信して、声質情報を生成してもよい。その場合、表現情報に声質情報のインデックスが含まれる。さらに、画像構成情報部24が画像構成情報の全部または一部をサーバ15から受信し、声質情報生成部23が声質情報の全部または一部をサーバ15から受信する構成であってもよい。
In the example described in the third embodiment, all or part of the image configuration information is received from the
以上、述べたように、この実施の形態によれば、画像表示部22が表示する画像または音声合成部21が生成する合成音声を、サーバ15が記憶している画像構成情報または声質情報にもとづいて生成するため、例えば著名人やキャラクタの画像や音声を使用する権利を有する第三者が、画像構成情報または声質情報をサーバ15に記憶させて、受信装置13に送信することで、送信装置11のユーザと受信装置13のユーザとは、より多彩なコミュニケーションを行うことができる。
As described above, according to this embodiment, the image displayed by the
また、通信回線14がLAN等の専用回線であれば、画像情報生成部24とサーバ15との通信プロトコルを簡易なものにできるので、システムの構築が簡単になる。また、通信回線14がインターネット等の公衆回線網であれば、画像情報生成部24は、他のサーバに接続して、他のサーバが記憶している画像構成情報または声質情報を受信することができるため、受信装置13のユーザは、複数のサーバが記憶している画像構成情報または声質情報を使い分けることができる。
Further, if the
実施の形態4.
本発明の第4の実施の形態について、図面を参照して説明する。図15は、本発明の第4の実施の形態の一構成例を示すブロック図である。本実施の形態の構成は、第3の実施の形態のサーバ15に通信回線16を介して外部の課金処理システムに接続される課金情報生成部(課金手段)26を含む点が第3の実施の形態と異なる。そして、画像構成情報送信部25は、サーバ画像構成情報記憶部35が記憶している画像構成情報を通信回線14を介して受信装置13の画像構成情報生成部24に送信すると、送信した画像構成情報と、送信先の受信装置13を示す情報とを課金情報生成部26に出力する。その他の構成は第3の実施の形態と同様である。そのため、第3の実施の形態と同様の回路等については図11と同じ符号を付し、説明を省略する。
Embodiment 4 FIG.
A fourth embodiment of the present invention will be described with reference to the drawings. FIG. 15 is a block diagram showing a configuration example of the fourth embodiment of the present invention. The configuration of the present embodiment is that the
次に、本発明の第4の実施の形態の動作について説明する。図16は、画像構成情報生成部24が画像構成情報送信部25から画像構成情報を受信し、画像構成情報送信部25が、送信した画像構成情報と送信先の受信装置13とを示す情報を課金情報生成部26に出力する際の動作を説明するシーケンス図である。
Next, the operation of the fourth exemplary embodiment of the present invention will be described. In FIG. 16, the image configuration
画像構成情報生成部24が、画像構成情報のインデックスを受信すると(ステップS501)、サーバ15の画像構成情報送信部25に受信装置13を示す情報を送信して接続を要求する、(ステップS502)。画像構成情報送信部25は、受信装置13の認証を行ない(ステップS503)、接続を許可する(ステップS504)。
When the image configuration
画像構成情報生成部24は、画像構成情報のインデックスに含まれる位置番号を、画像構成情報送信部25に送信する(ステップS505)。画像構成情報送信部25は、位置番号を受信すると(ステップS506)、受信した位置番号の画像構成情報をサーバ画像構成情報記憶部35から読み出し(ステップS507)、読み出した画像構成情報を、画像構成情報生成部24に送信する(ステップS508)。
The image configuration
画像構成情報送信部25は、送信した画像構成情報と送信先の受信装置13を示す情報とを課金情報生成部26に出力する(ステップS509)。課金情報生成部26は、送信した画像構成情報と送信先の受信装置13を示す情報とにもとづいて、受信装置13に課金する金額を決定し、決定した課金する金額と受信装置13を示す情報とである課金情報を生成し(ステップS510)、生成した課金情報を通信回線16を介して外部の課金処理システムに送信する(ステップS511)。外部の課金処理システムは、受信した課金情報にもとづいて、受信装置13のユーザに課金し、料金を請求する。なお、課金する金額は、外部の課金処理システムが決定してもよい。その場合、課金情報は、送信した画像構成情報と送信先の受信装置13を示す情報を含む情報である。
The image configuration
画像構成情報生成部24は、画像構成情報を受信すると(ステップS512)、画像構成情報送信部25に接続の切断を要求する(ステップS513)。画像構成情報送信部25は、接続の切断を許可する(ステップS514)。画像構成情報生成部24は、画像構成情報送信部25との接続を切断する(ステップS515)。
When receiving the image configuration information (step S512), the image configuration
なお、以上に述べた例では、課金情報生成部26は、送信した画像構成情報と送信先の受信装置13を示す情報とにもとづいて、受信装置13に課金する金額を決定しているが、サーバ15が声質情報を記憶し、送信した声質情報と送信先の受信装置13を示す情報とにもとづいて、受信装置13に課金する金額を決定してもよい。
In the example described above, the billing
以上、述べたように、この実施の形態によれば、受信装置13のユーザによる、画像構成情報や声質情報の利用回数や種類に応じた課金処理が可能となり、例えば著名人やキャラクタの声質情報や画像構成情報を有料で受信装置13のユーザに提供することができる。また、例えば、画像構成情報や声質情報に広告・宣伝の要素を入れると、そのような画像構成情報や声質情報を利用した回数に応じて広告主に対して課金することができる。
As described above, according to this embodiment, the user of the receiving
なお、本実施の形態では、課金情報生成部26はサーバ15に含まれるが、送信装置11が課金情報生成部26を含み、課金情報生成部26は、送信部32が表現情報を受信装置13に送信すると、送信した表現情報に応じて、受信装置13のユーザに課金してもよい。
In the present embodiment, the billing
本発明によれば、電子メールや電子会議、チャット等の、テキストのメッセージの送受信を行う用途に適用することができる。また、マンマシンインタフェースのような、機械的に生成されるメッセージを出力する用途に適用することができる。 INDUSTRIAL APPLICABILITY According to the present invention, the present invention can be applied to uses for transmitting and receiving text messages such as e-mail, electronic conference, and chat. Further, the present invention can be applied to a purpose of outputting a mechanically generated message such as a man-machine interface.
11 送信装置
12、14、16 通信回線
13 受信装置
15 サーバ
21 音声合成部
22 画像表示部
23 声質情報生成部
24 画像構成情報生成部
25 画像構成情報送信部
26 課金情報生成部
27 スピーカ
31 テキストメッセージ記憶部
32 送信部
33 画像構成情報記憶部
34 表現情報記憶部
35 サーバ画像構成情報記憶部
DESCRIPTION OF
Claims (40)
受信したテキストメッセージにもとづいて合成音声を生成する音声合成手段と、
前記合成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と、
前記画像情報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段と、
前記画像表示手段に表示させる画像の情報である画像構成情報と、前記音声合成手段に生成させる合成音声の特徴の情報である声質情報とを含む表現情報を予め記憶する表現情報記憶手段と
を含み、
前記画像情報生成手段は、前記画像構成情報にもとづいて画像の情報を生成し、
前記音声合成手段は、前記声質情報にもとづいて合成音声を生成し、生成した前記合成音声の区切りを示す情報である区切り情報を生成して、前記画像表示手段に入力し、
前記画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させる
ことを特徴とするメッセージ伝達システム。 A transmission means for transmitting a text message;
Speech synthesis means for generating synthesized speech based on the received text message;
Image information generating means for generating information of an image to be displayed together with the output of the synthesized speech;
Image display means for displaying an image based on image information generated by the image information generation means;
Expression information storage means for preliminarily storing expression information including image configuration information which is information of an image to be displayed on the image display means and voice quality information which is information of characteristics of synthesized speech to be generated by the speech synthesis means. ,
The image information generation means generates image information based on the image configuration information,
The speech synthesizer generates synthesized speech based on the voice quality information, generates delimiter information which is information indicating a delimiter of the generated synthesized speech, and inputs it to the image display unit,
The message display system is characterized in that the image display means changes the image to be displayed at the timing of the synthesized speech separation based on the inputted separation information.
音声合成手段と、画像情報生成手段と、画像表示手段と、表現情報記憶手段とを含む受信装置とを備えた
請求項1記載のメッセージ伝達システム。 A transmission device including transmission means;
The message transmission system according to claim 1, further comprising: a receiving device including voice synthesis means, image information generation means, image display means, and expression information storage means.
送信手段と、表現情報記憶手段と、前記表現情報記憶手段が記憶している表現情報を前記受信装置に送信する表現情報送信手段とを含む送信装置とを備え、
前記受信装置は、前記表現情報を受信して声質情報を生成する声質情報生成手段を含み、
前記画像情報生成手段は、前記表現情報を前記送信装置から受信して、前記表現情報から画像構成情報を生成する
請求項1記載のメッセージ伝達システム。 A receiving device including speech synthesis means, image information generation means, and image display means;
A transmission device including transmission means, expression information storage means, and expression information transmission means for transmitting expression information stored in the expression information storage means to the reception device;
The receiving device includes voice quality information generating means for receiving the expression information and generating voice quality information,
The message transmission system according to claim 1, wherein the image information generation unit receives the expression information from the transmission device and generates image configuration information from the expression information.
請求項3記載のメッセージ伝達システム。 The message transmission system according to claim 3, wherein the transmitting device includes charging means for generating expression information charging information, which is fee information corresponding to the expression information transmitted to the receiving device.
請求項3または請求項4記載のメッセージ伝達システム。 External image configuration information storage means for storing all or part of the image configuration information, and image configuration information transmission for transmitting all or part of the image configuration information stored in the external image configuration information storage means to the receiving device The message transmission system according to claim 3, further comprising an image configuration information providing device including means.
請求項5記載のメッセージ伝達システム。 The message transmission system according to claim 5, wherein the receiving device and the image configuration information providing device are connected by a dedicated line.
請求項5記載のメッセージ伝達システム。 The message transmission system according to claim 5, wherein the receiving device and the image configuration information providing device are connected by a public network.
画像情報生成手段は、前記画像インデックス情報にもとづいて、画像構成情報送信手段に、前記外部画像構成情報記憶手段が記憶する前記画像構成情報の全部または一部の送信を要求する
請求項5から請求項7のうちいずれか1項記載のメッセージ伝達システム。 The expression information includes image index information that is information indicating the position of all or part of the image configuration information stored in the external image configuration information storage unit,
The image information generation unit requests the image configuration information transmission unit to transmit all or a part of the image configuration information stored in the external image configuration information storage unit based on the image index information. The message transmission system according to any one of items 7 to 9.
請求項8記載のメッセージ伝達システム。 The message transmission system according to claim 8, wherein the image configuration information transmitting unit transmits all or part of the image configuration information stored in the external image configuration information storage unit to the receiving device in response to a request from the image information generation unit.
請求項5から請求項9のうちいずれか1項記載のメッセージ伝達システム。 The message transmission according to any one of claims 5 to 9, wherein the image configuration information providing device includes charging means for generating image charging information which is fee information according to the image configuration information transmitted to the receiving device. system.
請求項3から請求項10のうちいずれか1項記載のメッセージ伝達システム。 Voice quality information including external voice quality information storage means for storing all or part of voice quality information, and voice quality information transmission means for transmitting all or part of the voice quality information stored in the external voice quality information storage means to a receiving device The message transmission system according to any one of claims 3 to 10, further comprising a providing device.
請求項11記載のメッセージ伝達システム。 The message transmission system according to claim 11, wherein the receiving device and the voice quality information providing device are connected by a dedicated line.
請求項11記載のメッセージ伝達システム。 The message transmission system according to claim 11, wherein the receiving device and the voice quality information providing device are connected by a public network.
音声合成手段は、前記声質インデックス情報にもとづいて、声質情報送信手段に、前記外部声質情報記憶手段が記憶する前記声質情報の全部または一部の送信を要求する
請求項11から請求項13のうちいずれか1記載のメッセージ伝達システム。 The expression information includes voice quality index information that is information indicating the position of all or part of the voice quality information stored in the external voice quality information storage means,
The voice synthesizing unit requests the voice quality information transmitting unit to transmit all or part of the voice quality information stored in the external voice quality information storage unit based on the voice quality index information. The message transmission system according to any one of the above.
請求項14記載のメッセージ伝達システム。 The message transmission system according to claim 14, wherein the voice quality information transmitting means transmits all or part of the voice quality information stored in the external voice quality information storage means to the receiving device in response to a request from the voice synthesis means.
請求項11から請求項15のうちいずれか1項記載のメッセージ伝達システム。 The message transmission system according to any one of claims 11 to 15, wherein the voice quality information providing device includes billing means for generating voice quality billing information which is information on a fee according to voice quality information transmitted to the receiving device.
表示する画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信した前記テキストメッセージとにもとづいて合成音声を生成し、
前記合成音声の区切りを示す情報である区切り情報を生成し、
前記合成音声を出力し、
前記画像構成情報にもとづいて前記合成音声の出力とともに表示する画像の情報を生成し、
前記画像の情報にもとづく画像を表示し、
前記区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させる
ことを特徴とするメッセージ伝達方法。 Receive a text message,
Generating synthesized speech based on voice quality information of expression information including image configuration information which is information of an image to be displayed and voice quality information which is information of characteristics of synthesized speech, and the received text message;
Generating delimiter information which is information indicating a delimiter of the synthesized speech;
Outputting the synthesized speech,
Generating information of an image to be displayed together with the output of the synthesized speech based on the image configuration information;
Displaying an image based on the image information;
A message transmission method characterized in that an image to be displayed is changed at the timing of synthesis speech separation based on the separation information.
前記表現情報から声質情報を生成する
請求項17記載のメッセージ伝達方法。 Generate image composition information from expression information,
The message transmission method according to claim 17, wherein voice quality information is generated from the expression information.
前記表現情報を受信すると、受信した前記表現情報から画像構成情報を生成し、受信した前記表現情報から声質情報を生成する
請求項17記載のメッセージ伝達方法。 Send pre-stored expression information,
The message transmission method according to claim 17, wherein when the expression information is received, image configuration information is generated from the received expression information, and voice quality information is generated from the received expression information.
請求項19記載のメッセージ伝達方法。 The message transmission method according to claim 19, wherein expression information billing information that is fee information according to the transmitted expression information is generated.
前記画像インデックス情報にもとづいて、前記外部画像構成情報記憶手段に前記画像構成情報の全部または一部の送信を要求し、
前記外部画像構成情報記憶手段から、前記画像構成情報の全部または一部を受信する
請求項19または請求項20記載のメッセージ伝達方法。 The expression information includes image index information which is information indicating a position where all or part of the image configuration information is stored in the external image configuration information storage unit storing all or part of the image configuration information. ,
Based on the image index information, the external image configuration information storage means is requested to transmit all or part of the image configuration information,
The message transmission method according to claim 19 or 20, wherein all or part of the image configuration information is received from the external image configuration information storage unit.
請求項21記載のメッセージ伝達方法。 The message transmission method according to claim 21, wherein the external image configuration information storage means generates image billing information which is fee information according to the transmitted image configuration information.
前記声質インデックス情報にもとづいて、前記外部声質情報記憶手段に、前記声質情報の全部または一部の送信を要求し、
前記外部声質情報記憶手段から、前記声質情報の全部または一部を受信する
請求項19から請求項22のうちいずれか1項記載のメッセージ伝達方法。 The expression information includes voice quality index information which is information indicating a position where all or part of the voice quality information is stored in the external voice quality information storage means storing all or part of the voice quality information,
Based on the voice quality index information, the external voice quality information storage means is requested to transmit all or part of the voice quality information,
The message transmission method according to any one of claims 19 to 22, wherein all or part of the voice quality information is received from the external voice quality information storage unit.
請求項23記載のメッセージ伝達方法。 24. The message transmission method according to claim 23, wherein the external voice quality information storage means generates voice quality billing information which is information on a fee according to the transmitted voice quality information.
画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、前記送信装置から受信したテキストメッセージとにもとづいて合成音声を生成する音声合成手段と、前記画像構成情報にもとづいて、合成音声の出力とともに表示する画像の情報を生成する画像情報生成手段と、前記画像情報生成手段が生成した画像の情報にもとづく画像を表示する画像表示手段とを含み、
前記音声合成手段は、生成した前記合成音声の区切りを示す情報である区切り情報を生成して、前記画像表示手段に入力し、
前記画像表示手段は、入力された区切り情報にもとづいて、合成音声の区切りのタイミングで表示する画像を変化させる
ことを特徴とする受信装置。 In a receiving device that receives a text message from a sending device,
Speech synthesis means for generating synthesized speech based on voice quality information of expression information including image configuration information which is image information and voice quality information which is characteristic information of synthesized speech, and a text message received from the transmission device; And image information generating means for generating image information to be displayed together with the output of the synthesized speech based on the image configuration information, and image display means for displaying an image based on the image information generated by the image information generating means. Including
The speech synthesizer generates delimiter information that is information indicating a delimiter of the generated synthesized speech, and inputs the delimiter information to the image display unit.
The receiving apparatus according to claim 1, wherein the image display means changes an image to be displayed at the timing of the synthesized speech separation based on the inputted separation information.
画像情報生成手段は、前記表現情報から画像構成情報を生成する
請求項25記載の受信装置。 Including expression information storage means for storing expression information in advance,
The receiving device according to claim 25, wherein the image information generating means generates image configuration information from the expression information.
画像情報生成手段は、前記表現情報を受信して、前記表現情報から画像構成情報を生成する
請求項25記載の受信装置。 Voice quality information generating means for receiving expression information and generating voice quality information from the expression information;
The receiving device according to claim 25, wherein the image information generating means receives the expression information and generates image configuration information from the expression information.
請求項26または請求項27記載の受信装置。 The receiving device according to claim 26 or claim 27, wherein all or part of the image configuration information is received from an image configuration information providing device that stores all or part of the image configuration information.
画像情報生成手段は、前記画像インデックス情報にもとづいて、前記画像情報提供装置に、前記画像情報提供装置が記憶する前記画像構成情報の全部または一部の送信を要求し、前記画像情報提供装置から、前記画像情報提供装置が記憶する前記画像構成情報の全部または一部を受信する
請求項28記載の受信装置。 The expression information includes image index information that is information indicating the position of all or part of the image configuration information stored in the image configuration information providing device,
The image information generation means requests the image information providing device to transmit all or part of the image configuration information stored in the image information providing device based on the image index information, and from the image information providing device. The receiving device according to claim 28, wherein all or part of the image configuration information stored in the image information providing device is received.
請求項28または請求項29記載の受信装置。 30. The receiving device according to claim 28 or 29, connected to the image information providing device by a dedicated line.
請求項28または請求項29記載の受信装置。 30. The receiving apparatus according to claim 28 or 29, connected to the image information providing apparatus via a public network.
請求項26から請求項31のうちいずれか1項記載の受信装置。 The receiving device according to any one of claims 26 to 31, wherein the receiving device receives all or part of the voice quality information from a voice quality information providing device that stores all or part of the voice quality information.
音声合成手段は、前記声質インデックス情報にもとづいて、前記声質情報提供装置に、前記声質情報提供装置が記憶する声質情報の全部または一部の送信を要求し、前記声質情報提供装置から、前記声質情報提供装置が記憶する前記声質情報の全部または一部を受信する
請求項32記載の受信装置。 The expression information includes voice quality index information that is information indicating the position of all or part of the voice quality information stored in the voice quality information providing device,
Based on the voice quality index information, the voice synthesis means requests the voice quality information providing apparatus to transmit all or part of the voice quality information stored in the voice quality information providing apparatus, and from the voice quality information providing apparatus, The receiving device according to claim 32, wherein all or part of the voice quality information stored in the information providing device is received.
請求項32または請求項33記載の受信装置。 The receiving device according to claim 32 or 33, wherein the receiving device is connected to the voice quality information providing device via a dedicated line.
請求項32または請求項33記載の受信装置。 The receiving device according to claim 32 or 33, wherein the receiving device is connected to the voice quality information providing device via a public network.
ことを特徴とする送信装置。 Transmission that transmits a text message to be transmitted to the receiving device, image configuration information that is information of an image to be displayed on the receiving device, and expression information that includes voice quality information that is characteristic of synthesized speech of the text message to be generated by the receiving device A transmission device comprising: means.
画像の情報である画像構成情報と合成音声の特徴の情報である声質情報とを含む表現情報の声質情報と、受信したテキストメッセージとにもとづいて合成音声を生成させ、前記合成音声の区切りを示す情報である区切り情報を生成させる音声合成処理と、
テキストメッセージの合成音声の出力とともに表示する画像の情報を、前記画像構成情報にもとづいて生成させる画像情報生成処理と、
前記区切り情報にもとづいて、画像を表示する画像表示手段に、合成音声の区切りのタイミングで画像を変化させて表示させる画像表示処理と
を実行させることを特徴とするメッセージ伝達プログラム。 On the computer,
A synthesized speech is generated based on voice quality information of expression information including image configuration information which is image information and voice quality information which is characteristic information of synthesized speech, and a received text message, and indicates a break of the synthesized speech Speech synthesis processing for generating delimiter information as information,
Image information generation processing for generating information on an image to be displayed together with the output of the synthesized voice of the text message based on the image configuration information;
A message transmission program for causing an image display means for displaying an image based on the separation information to perform an image display process for changing and displaying an image at a separation timing of the synthesized speech.
表現情報を受信して、前記表現情報から声質情報を生成する声質情報生成処理を実行させ、
画像情報生成処理で、前記表現情報を受信して、前記表現情報から画像構成情報を生成する処理を実行させる
請求項37記載のメッセージ伝達プログラム。 On the computer,
Receiving expression information, and executing voice quality information generation processing for generating voice quality information from the expression information;
38. The message transmission program according to claim 37, wherein in the image information generation process, the expression information is received, and a process of generating image configuration information from the expression information is executed.
画像情報生成処理で、画像構成情報の全部または一部を記憶する外部画像構成情報記憶手段と、前記外部画像構成情報記憶手段が記憶している前記画像構成情報の全部または一部を送信する画像構成情報送信手段とを含む画像情報提供装置から、表現情報に含まれ、前記外部画像構成情報記憶手段が記憶する画像構成情報の全部または一部の位置を示す情報である画像インデックス情報にもとづいて、前記画像情報提供装置が記憶する前記画像構成情報の全部または一部の送信を、前記画像情報提供装置に要求する処理を実行させ、前記画像情報提供装置から前記画像構成情報の全部または一部を受信する処理を実行させる
請求項38記載のメッセージ伝達プログラム。 On the computer,
In the image information generation process, an external image configuration information storage unit that stores all or part of the image configuration information, and an image that transmits all or part of the image configuration information stored in the external image configuration information storage unit From the image information providing apparatus including the configuration information transmitting means, based on the image index information that is included in the expression information and indicates the position of all or part of the image configuration information stored in the external image configuration information storage means. , Causing the image information providing apparatus to execute a process of requesting the image information providing apparatus to transmit all or part of the image configuration information stored in the image information providing apparatus, and sending all or part of the image configuration information from the image information providing apparatus. 39. The message transmission program according to claim 38, wherein the message transmission program is executed.
音声合成処理で、声質情報の全部または一部を記憶する外部声質情報記憶手段と、前記外部声質情報記憶手段が記憶している前記声質情報の全部または一部を送信する声質情報送信手段とを含む声質情報提供装置から、表現情報に含まれ、前記外部声質情報記憶手段が記憶している前記声質情報の全部または一部の位置を示す情報である声質インデックス情報にもとづいて、前記声質情報提供装置が記憶する前記声質情報の全部または一部の送信を、前記声質情報提供装置に要求する処理を実行させ、前記声質情報提供装置から、前記声質情報の全部または一部を受信する処理を実行させる
請求項38または請求項39記載のメッセージ伝達プログラム。 On the computer,
External voice quality information storage means for storing all or part of voice quality information in voice synthesis processing, and voice quality information transmission means for transmitting all or part of the voice quality information stored in the external voice quality information storage means The voice quality information is provided based on voice quality index information that is included in the expression information and indicates the position of all or part of the voice quality information stored in the external voice quality information storage means from the voice quality information providing device that includes the voice quality information A process for requesting the voice quality information providing apparatus to transmit all or part of the voice quality information stored in the apparatus, and a process for receiving all or part of the voice quality information from the voice quality information providing apparatus The message transmission program according to claim 38 or 39.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004062408A JP2007241321A (en) | 2004-03-05 | 2004-03-05 | Message transmission system, message transmission method, reception device, transmission device and message transmission program |
PCT/JP2005/003216 WO2005086010A1 (en) | 2004-03-05 | 2005-02-25 | Message transmission system, message transmission method, reception device, transmission device, and message transmission program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004062408A JP2007241321A (en) | 2004-03-05 | 2004-03-05 | Message transmission system, message transmission method, reception device, transmission device and message transmission program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007241321A true JP2007241321A (en) | 2007-09-20 |
Family
ID=34918115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004062408A Pending JP2007241321A (en) | 2004-03-05 | 2004-03-05 | Message transmission system, message transmission method, reception device, transmission device and message transmission program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2007241321A (en) |
WO (1) | WO2005086010A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009125710A1 (en) * | 2008-04-08 | 2009-10-15 | 株式会社エヌ・ティ・ティ・ドコモ | Medium processing server device and medium processing method |
JP2012068910A (en) * | 2010-09-24 | 2012-04-05 | Toshiba Alpine Automotive Technology Corp | Information processor |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3299797B2 (en) * | 1992-11-20 | 2002-07-08 | 富士通株式会社 | Composite image display system |
JPH09138767A (en) * | 1995-11-14 | 1997-05-27 | Fujitsu Ten Ltd | Communication equipment for feeling expression |
JP2000347956A (en) * | 1999-03-31 | 2000-12-15 | Sony Corp | Device and method for processing information and recording medium |
-
2004
- 2004-03-05 JP JP2004062408A patent/JP2007241321A/en active Pending
-
2005
- 2005-02-25 WO PCT/JP2005/003216 patent/WO2005086010A1/en active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009125710A1 (en) * | 2008-04-08 | 2009-10-15 | 株式会社エヌ・ティ・ティ・ドコモ | Medium processing server device and medium processing method |
JPWO2009125710A1 (en) * | 2008-04-08 | 2011-08-04 | 株式会社エヌ・ティ・ティ・ドコモ | Media processing server apparatus and media processing method |
JP2012068910A (en) * | 2010-09-24 | 2012-04-05 | Toshiba Alpine Automotive Technology Corp | Information processor |
Also Published As
Publication number | Publication date |
---|---|
WO2005086010A1 (en) | 2005-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6077521B2 (en) | Tactile content in text messages | |
FI115868B (en) | speech synthesis | |
US7756536B2 (en) | Device and method for providing and displaying animated SMS messages | |
US7333507B2 (en) | Multi modal communications system | |
US20090157223A1 (en) | Robot chatting system and method | |
CN104869225B (en) | Intelligent dialogue method and electronic device using the same | |
JP2000305583A (en) | Speech synthesizing device | |
WO2003063483A1 (en) | Communication apparatus | |
JP2008529403A (en) | Method and system for providing news information using 3D characters in a mobile communication network | |
WO2018186416A1 (en) | Translation processing method, translation processing program, and recording medium | |
JP6218568B2 (en) | COMMUNICATION DEVICE, COMMUNICATION SYSTEM, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM | |
KR100941598B1 (en) | telephone communication system and method for providing users with telephone communication service comprising emotional contents effect | |
KR20070008477A (en) | Motion operable robot chatting system capable of emotion transmission | |
KR101916107B1 (en) | Communication Terminal and Information Processing Method Thereof | |
WO2005086010A1 (en) | Message transmission system, message transmission method, reception device, transmission device, and message transmission program | |
JP2004193809A (en) | Communication system | |
KR100499769B1 (en) | Method for displaying of pictures through instant messenger in mobile communication terminal and mobile communication terminal therefor | |
JP6064209B2 (en) | Call system and call relay method | |
JP6805663B2 (en) | Communication devices, communication systems, communication methods and programs | |
KR20040025029A (en) | Image Data Transmission Method through Inputting Data of Letters in Wired/Wireless Telecommunication Devices | |
JP2006048352A (en) | Communication terminal having character image display function and control method therefor | |
JP4530016B2 (en) | Information communication system and data communication method thereof | |
JP2011141651A (en) | Electronic mail system, electronic mail receiving device, and display method | |
JP6677596B2 (en) | Communication terminal | |
JP2015115740A (en) | Telephone communication device, telephone communication method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080708 |