JP2007251581A - Voice transmission terminal and voice reproduction terminal - Google Patents
Voice transmission terminal and voice reproduction terminal Download PDFInfo
- Publication number
- JP2007251581A JP2007251581A JP2006071971A JP2006071971A JP2007251581A JP 2007251581 A JP2007251581 A JP 2007251581A JP 2006071971 A JP2006071971 A JP 2006071971A JP 2006071971 A JP2006071971 A JP 2006071971A JP 2007251581 A JP2007251581 A JP 2007251581A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- terminal
- data
- database
- vibration setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
本発明は、携帯電話機など音声を送受信する機器で利用される技術に関する。詳しくは、多様性あるいはバラエティ性に富んだコミュニケーションを可能とする音声あるいはデータの送信技術に関する。 The present invention relates to a technique used in a device such as a mobile phone that transmits and receives audio. More specifically, the present invention relates to a voice or data transmission technology that enables communication with a variety or variety.
昨今の携帯電話機には様々な機能が付加され高機能化が進んでいる。本来からある音声通話機能に加え、電子メール送受信機能、インターネット接続機能、サウンド再生機能、ムービー再生機能、カメラ機能、ムービー機能などが付加されている。 Various functions have been added to mobile phones in recent years, and higher functionality has been advanced. In addition to the original voice call function, e-mail transmission / reception function, Internet connection function, sound playback function, movie playback function, camera function, movie function, etc. are added.
たとえば、インターネットに接続してサウンドファイルやムービーファイルをダウンロードすることで、サウンドやムービーを携帯電話機で再生することが可能である。また、カメラ機能やムービー機能を用いて静止画や動画を撮影し、携帯電話機で閲覧することが可能であるし、電子メールを利用して友人に静止画や動画を送信することも可能である。 For example, by connecting to the Internet and downloading a sound file or movie file, it is possible to play the sound or movie on a mobile phone. It is also possible to shoot still images and videos using the camera function and movie function and view them on a mobile phone, and to send still images and videos to friends using e-mail .
このように、携帯電話機の多機能化に伴い、それら機能を複合的に利用することで新しいコミュニケーションの方法を実現することや、新しい楽しみ方をユーザに提供することが可能である。しかし、音声の通話機能については従来から変わらない方法がとられている。つまり、送信する音声の品質を向上させることや、ノイズを低減させるといったことを目的とした技術は多く存在するが、それらは通話者が話した音声を正確に伝えるという目的に留まっている。 As described above, with the increase in the number of functions of mobile phones, it is possible to realize new communication methods and provide users with new ways of enjoying by using these functions in combination. However, the voice call function has not been changed conventionally. In other words, there are many techniques aimed at improving the quality of voice to be transmitted and reducing noise, but these are only for the purpose of accurately transmitting the voice spoken by the caller.
下記特許文献1は、人間の感情状態に基づいて音声を出力する技術に関するものである。電話回線上を流れる音声から音声信号を取得し、取得した音声から感情状態を判断して適当な音楽を出力するようにしている。 Patent Document 1 below relates to a technique for outputting sound based on a human emotional state. A voice signal is acquired from the voice flowing on the telephone line, and the emotional state is judged from the acquired voice to output appropriate music.
上述したように音声通話に関しては、従来からのシンプルな方法がとられているのが現状である。したがって、音声通話に対しても表現力を増強させることや、意思伝達を多様な形で表現する技術が存在すれば、携帯電話機などを利用したコミュニケーションに多様性やバラエティ性を加えることができ、携帯電話機をさらに付加価値の高いコミュニケーションツールとして利用できることが期待される。 As described above, the current situation is that a simple method has been adopted for voice calls. Therefore, if there is technology to enhance expressiveness for voice calls and express communication in various ways, diversity and variety can be added to communication using mobile phones, etc. It is expected that mobile phones can be used as communication tools with higher added value.
上記特許文献1の技術は、音声出力装置が受信した音声から感情状態を判断するものである。したがって、受信装置に音声を認識する機能が存在しなければならないため、多くのユーザがこのような機能を利用するためには、それら全てのユーザが利用する電話機がこの機能に対応している必要がある。したがって、多くのユーザが広くこの技術を利用したサービスを受けることができるような仕組みを構築することは容易ではない。 The technique disclosed in Patent Document 1 determines an emotional state from voice received by a voice output device. Accordingly, since the receiving device must have a function for recognizing voice, in order for many users to use such a function, the telephones used by all those users need to support this function. There is. Therefore, it is not easy to construct a mechanism that allows many users to receive services using this technology widely.
そこで、本発明は前記問題点に鑑み、音声通話に対しても多様性あるいはバラエティ性に富んだコミュニケーションを可能とする技術を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a technique that enables communication with a great variety and variety even for voice calls.
上記課題を解決するため、請求項1記載の発明は、音声認識結果に対応付けられた音声素材データを蓄積する音声素材データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、音声素材データが合成された音声を相手の端末に送信する通信手段と、を備えることを特徴とする。 In order to solve the above problem, the invention according to claim 1 is a speech material database for storing speech material data associated with a speech recognition result, speech input means, and speech recognition for speech input from the speech input means. Voice recognition means for performing voice recognition, and voice material data associated with a recognition result by the voice recognition means from the voice material database, and means for synthesizing the acquired voice material data with the voice input from the voice input means And communication means for transmitting the voice synthesized with the voice material data to the partner terminal.
請求項2記載の発明は、請求項1に記載の音声送信端末において、さらに、音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、を備え、前記通信手段は、音声素材データが合成された音声とあわせて前記映像素材データベースから取得した映像を前記相手の端末に送信することを特徴とする。 According to a second aspect of the present invention, in the audio transmitting terminal according to the first aspect, the video material database for storing the video material data associated with the voice recognition result and the recognition result by the voice recognition means Means for acquiring the video material data being recorded from the video material database, and the communication means sends the video acquired from the video material database together with the audio synthesized with the audio material data to the partner terminal. It is characterized by transmitting.
請求項3記載の発明は、請求項1に記載の音声送信端末において、さらに、音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、を備え、前記通信手段は、音声素材データが合成された音声とあわせてバイブレーション設定データを前記相手の端末に送信することを特徴とする。 According to a third aspect of the present invention, in the voice transmitting terminal according to the first aspect, a vibration setting database in which a voice recognition result and vibration setting data are associated with each other, and a vibration setting based on the recognition result by the voice recognition means Means for determining data, wherein the communication means transmits vibration setting data to the partner terminal together with the voice synthesized with the voice material data.
請求項4記載の発明は、請求項2または請求項3に記載の音声送信端末において、さらに、前記相手の端末の端末情報を取得する手段、を備え、前記相手の端末の種別に応じて映像素材データあるいはバイブレーション設定データの送信を停止することを特徴とする。 According to a fourth aspect of the present invention, there is provided the voice transmitting terminal according to the second or third aspect, further comprising means for acquiring terminal information of the partner terminal, and video according to a type of the partner terminal. The transmission of material data or vibration setting data is stopped.
請求項5記載の発明は、請求項2ないし請求項4のいずれかに記載の音声送信端末において、さらに、前記通信手段は、前記音声認識手段による認識結果を前記相手の端末に送信することを特徴とする。 According to a fifth aspect of the present invention, in the voice transmission terminal according to any one of the second to fourth aspects, the communication unit further transmits a recognition result by the voice recognition unit to the counterpart terminal. Features.
請求項6記載の発明は、音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、前記音声入力手段から入力した音声とあわせて前記映像素材データベースから取得した映像を相手の端末に送信する通信手段と、を備えることを特徴とする。 The invention according to claim 6 is a video material database that stores video material data associated with a voice recognition result, a voice input unit, a voice recognition unit that performs voice recognition on a voice input from the voice input unit, Means for acquiring video material data associated with the recognition result by the voice recognition means from the video material database; and the video acquired from the video material database together with the voice input from the voice input means. And a communication means for transmitting to.
請求項7記載の発明は、音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、音声入力手段と、前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、前記音声入力手段から入力した音声とあわせてバイブレーション設定データを相手の端末に送信する通信手段と、を備えることを特徴とする。 According to a seventh aspect of the present invention, there is provided a vibration setting database in which voice recognition results and vibration setting data are associated with each other, voice input means, voice recognition means for performing voice recognition on voice input from the voice input means, and the voice It comprises: means for determining vibration setting data based on the recognition result by the recognition means; and communication means for transmitting the vibration setting data to the partner terminal together with the voice input from the voice input means.
請求項8記載の発明は、請求項1ないし請求項7のいずれかに記載の音声送信端末において、前記音声認識結果は、前記音声入力手段が入力した音声をテキスト変換した結果および/または前記音声入力手段が入力した音声から判定された音声の調子に関わる情報を含むことを特徴とする。 According to an eighth aspect of the present invention, in the voice transmitting terminal according to any one of the first to seventh aspects, the voice recognition result is obtained by converting the voice input by the voice input means into a text and / or the voice. It includes information related to the tone of the sound determined from the sound input by the input means.
請求項9記載の発明は、請求項1に記載の音声送信端末において、前記音声素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記音声素材データベースが利用可能となることを特徴とする。 According to a ninth aspect of the present invention, in the voice transmitting terminal according to the first aspect, the voice material database is stored in a memory card, and the voice material database is inserted by inserting the memory card into the voice transmitting terminal. It can be used.
請求項10記載の発明は、請求項2または請求項6に記載の音声送信端末において、前記映像素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記映像素材データベースが利用可能となることを特徴とする。 According to a tenth aspect of the present invention, in the audio transmitting terminal according to the second or sixth aspect, the video material database is stored in a memory card, and the memory card is inserted into the audio transmitting terminal to insert the memory card. The video material database can be used.
請求項11記載の発明は、請求項3または請求項7に記載の音声送信端末において、前記バイブレーション設定データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記バイブレーション設定データベースが利用可能となることを特徴とする。 According to an eleventh aspect of the present invention, in the voice transmitting terminal according to the third or seventh aspect, the vibration setting database is stored in a memory card, and the memory card is inserted into the voice transmitting terminal to insert the memory card. A vibration setting database is available.
請求項12記載の発明は、請求項1に記載の音声送信端末から送信された音声を受信する端末であって、音声素材データが合成された音声をスピーカから出力することを特徴とする。 A twelfth aspect of the invention is a terminal that receives a voice transmitted from the voice transmitting terminal according to the first aspect, and outputs a voice synthesized with voice material data from a speaker.
請求項13記載の発明は、請求項2記載の音声送信端末から送信された音声およびデータを受信する端末であって、音声素材データが合成された音声をスピーカから出力しつつ受信した映像素材データをモニタに出力することを特徴とする。 A thirteenth aspect of the invention is a terminal for receiving voice and data transmitted from the voice transmitting terminal according to the second aspect, wherein the video material data received while outputting the synthesized voice data from the speaker. Is output to a monitor.
請求項14記載の発明は、請求項3記載の音声送信端末から送信された音声およびデータを受信する端末であって、音声素材データが合成された音声をスピーカから出力しつつ、受信したバイブレーション設定データに基づいてバイブレータを駆動することを特徴とする。
The invention according to
請求項15記載の発明は、請求項5記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、前記受信端末は、音声認識結果に対応付けられた映像素材データを蓄積する受信側映像素材データベース、を備え、前記受信端末は、前記音声送信端末から映像素材データを受信した場合、合成音声とともに受信した映像素材データを再生するか、受信した認識結果に基づいて前記受信側映像素材データベースから対応する映像素材データを取得し、合成音声とともに取得した映像素材データを再生するかを選択可能としたことを特徴とする。 A fifteenth aspect of the present invention is a terminal that receives the synthesized voice and the voice recognition result transmitted from the voice transmitting terminal according to the fifth aspect, wherein the receiving terminal is video material data associated with the voice recognition result. A receiving-side video material database for storing the received video material data, when receiving the video material data from the audio transmitting terminal, the video data received together with the synthesized audio is reproduced or based on the received recognition result. The corresponding video material data is acquired from the receiving-side video material database, and it is possible to select whether to reproduce the acquired video material data together with the synthesized audio.
請求項16記載の発明は、請求項5記載の音声送信端末から送信された合成音声および音声認識結果を受信する端末であって、前記受信端末は、音声認識結果とバイブレーション設定データとを対応付けた受信側バイブレーション設定データベース、を備え、前記受信端末は、前記音声送信端末からバイブレーション設定データを受信した場合、合成音声を再生するとともに受信したバイブレーション設定データに基づいてバイブレータを駆動するか、受信した音声認識結果に基づいて前記受信側バイブレーション設定データベースを参照してバイブレーション設定データを決定し、合成音声を再生するとともに決定したバイブレーション設定データに基づいてバイブレータを駆動するかを選択可能としたことを特徴とする。
The invention according to
請求項17記載の発明は、キー操作に対応付けられた音声素材データを蓄積する音声素材データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、音声素材データが合成された音声を相手の端末に送信する通信手段と、を備えることを特徴とする。 According to the seventeenth aspect of the present invention, there is provided a voice material database that stores voice material data associated with key operations, a voice input unit, and voice material data associated with key operations input during a voice call. Means for synthesizing the obtained voice material data with the voice inputted from the voice input means and the voice inputted from the voice input means; and a communication means for sending the voice synthesized with the voice material data to the other terminal. Features.
請求項18記載の発明は、キー操作に対応付けられた映像素材データを蓄積する映像素材データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられている映像素材データを前記映像素材データベースから取得する手段と、前記音声入力手段から入力した音声とともに取得した映像素材データを相手の端末に送信する通信手段と、を備えることを特徴とする。 According to the eighteenth aspect of the present invention, there is provided a video material database for storing video material data associated with key operations, a voice input means, and video material data associated with key operations input during a voice call. It is characterized by comprising means for acquiring from a video material database and communication means for transmitting video material data acquired together with the audio input from the audio input means to a partner terminal.
請求項19記載の発明は、キー操作に対応付けられたバイブレーション設定データを蓄積するバイブレーション設定データベースと、音声入力手段と、音声通話中に入力したキー操作から対応付けられているバイブレーション設定データを前記バイブレーション設定データベースから取得する手段と、前記音声入力手段から入力した音声とともに取得したバイブレーション設定データを相手の端末に送信する通信手段と、を備えることを特徴とする。 According to a nineteenth aspect of the present invention, the vibration setting database for storing the vibration setting data associated with the key operation, the voice input means, and the vibration setting data associated with the key operation input during the voice call are Means for acquiring from a vibration setting database; and communication means for transmitting the vibration setting data acquired together with the voice input from the voice input means to a partner terminal.
本発明の音声送信端末は、音声認識結果から対応付けられている音声素材データを取得し、通話者から入力した音声に取得した音声素材データを合成する。そして、音声素材データが合成された音声を相手の端末に送信する。これにより、通話者が言葉を発すると、その言葉に対応付けられた効果音やBGMが合成されて送信されるので、コミュニケーションにおける表現力を増強させることが可能である。また、送信側の端末で合成音を生成して送信するので、受信側の端末は、通常の音声受信、再生機能が備わっていれば良い。つまり、送受信を行う両方の端末が機能対応している必要はないので、導入および普及しやすいサービスを実現できる。 The voice transmitting terminal according to the present invention acquires the voice material data associated with the voice recognition result, and synthesizes the acquired voice material data with the voice input from the caller. Then, the voice synthesized with the voice material data is transmitted to the partner terminal. Thereby, when a caller utters a word, a sound effect or BGM associated with the word is synthesized and transmitted, so that it is possible to enhance the expressive power in communication. Further, since the synthesized terminal is generated and transmitted by the terminal on the transmission side, the terminal on the reception side only needs to have normal voice reception and playback functions. That is, since it is not necessary for both terminals that perform transmission and reception to correspond to functions, a service that is easy to introduce and spread can be realized.
さらに、本発明の音声送信端末は、音声認識結果に対応付けられた映像素材データを取得し、合成音声とあわせて映像データを相手の端末に送信する。したがって、通話者の感情や意図を映像を利用して表現豊かに伝えることができる。 Furthermore, the audio transmission terminal of the present invention acquires video material data associated with the audio recognition result, and transmits the video data together with the synthesized audio to the partner terminal. Therefore, it is possible to convey the emotion and intention of the caller in an expressive manner using the video.
さらに、本発明の音声送信端末は、音声認識結果に基づいてバイブレーション設定データを決定し、合成音声とあわせてバイブレーション設定データを相手の端末に送信する。したがって、通話者の感情や意図を、振動を利用することでより臨場感あふれる表現形態で伝えることが可能である。 Furthermore, the voice transmitting terminal according to the present invention determines the vibration setting data based on the voice recognition result, and transmits the vibration setting data to the partner terminal together with the synthesized voice. Therefore, it is possible to convey the emotions and intentions of the caller in a more realistic expression form by using vibration.
{第1の実施の形態}
以下、図面を参照しつつ本発明の実施の形態について説明する。図1は、本発明の携帯電話を利用したコミュニケーションシステムの利用イメージを示す図である。携帯電話機10および携帯電話機20は、音声の通話機能に加えて、ネットワークと接続してデータを送受信する機能を備えている。本発明においては、携帯電話機10を操作している通話者が言葉を発すると、その音声に様々な特殊効果が与えられて携帯電話機20において表現される。たとえば、図に示すように、携帯電話機10の操作者が「うそつき」という言葉を発すると、携帯電話機20においては「うそつき」という言葉が再生されるとともに、「うそつき」という言葉に関連した映像が携帯電話機20のモニタに表示される。あるいは、「うそつき」という言葉に関連したBGMが携帯電話機20で再生されるのである。
{First embodiment}
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a usage image of a communication system using a mobile phone of the present invention. The
図2は、携帯電話機10および携帯電話機20のブロック図である。まず、携帯電話機10の構成および機能について説明する。音声入力部11は、通話者の音声を入力する。入力した音声は音声認識部12および音声合成部13に出力される。
FIG. 2 is a block diagram of the
音声認識部12は、音声入力部11が入力した音声に対してリアルタイムで音声認識処理を実行する。音声認識処理としては、周知の方法を利用すればよい。一般には、入力した音声の周波数を解析し、音素を認識する。さらに、単語、文を認識することで、入力した音声を解析する。最終的に、音声認識部12は、入力した音声をテキストデータに変換する。
The
また、音声認識部12は、入力した音声の音圧(音の強さ)、テンポ、周波数などから通話者の音声の調子を特定する。通話者の音声の調子を特定するために、音声認識部12は、予め、音声の音圧、テンポ、周波数などと通話者の状態パターン(音声の調子のパターン)とを対応づけるテーブルを備えている。つまり、「ウキウキした調子」、「沈んだ調子」、「怒鳴り声」、「笑い声」など、所定の状態パターンについては、それぞれ音声の音圧、テンポ、周波数などの数値が設定されているのである。そして、入力した音声の音圧、テンポ、周波数などの数値が登録されているいずれかの状態パターンの設置値と近い場合(設定された閾値の範囲に収まっている場合)には、現在の通話者の音声の調子が登録されたいずれかの状態パターンにあると判定するのである。
Further, the
音声合成部13は、音声認識部12から入力した音声認識結果に基づいて合成する音声を決定し、音声入力部11から入力した音声に決定された音声を合成する。音声認識結果から合成する音声を決定するために、音声素材データベース101を利用する。
The
図3は、音声素材データベース101の登録例を示す図である。音声素材データベース101は、音声認識部12における音声認識結果と音声データとを対応付けるとともに、対応付けられた音声データを蓄積しているデータベースである。音声素材データベース101の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。実際には、キーワードと音声データを対応付けるデータベースと、状態パターンと音声データとを対応付けるデータベースとは、それぞれ別のデータベースで管理されることになるが、説明を簡単にするため1つのデータベースで管理されているものとして説明する。なお、図3において、登録されているのがキーワードの場合には、キーワード文字のみ表示し、登録されているのが状態パターンである場合には、状態パターン名とともに(状態パターン)と表示している。
FIG. 3 is a diagram showing a registration example of the
この音声素材データベース101は、メモリカード30(図1に図示)に格納されて例えばコンテンツプロバイダにより提供されている。ユーザは、音声素材データベース101が格納されたメモリカード30を購入して携帯電話機10のメモリカードスロットに挿入することで、音声素材データベース101を利用することが可能となる。ただし、音声素材データベース101は、ネットワーク上からダウンロードし、携帯電話機10の内蔵メモリやメモリカードに格納する形態であってもよい。
The
音声合成部13は、音声認識部12より入力した音声のテキストデータの中に、音声素材データベース101に登録されているキーワードが存在するか検索し、キーワードがヒットした場合には、そのキーワードに対応する音声データを合成音声として決定する。あるいは、音声合成部13は、音声認識部12より入力した通話者の状態パターンと対応する音声データを合成音声として決定する。
The
図の例であれば、たとえば、通話者が発した音声の中に、「最悪」、「ブルー」、「落ち込む」、「落ち込んだ」といったキーワードが含まれていれば、暗い雰囲気(どよ〜んとした雰囲気)の効果音データが選択される。逆に、通話者が発した音声の中に、「ハッピー」、「嬉しい」、「楽しい」といったキーワードが含まれていれば、明るい輝かしい雰囲気(キラキラキラしたイメージ)の効果音データが選択される。また、音声認識部12から入力した状態パターンが「怒鳴り声」である場合には、爆発音の効果音データが選択される。
In the case of the example in the figure, for example, if the voice uttered by the caller includes keywords such as “worst”, “blue”, “depressed”, “depressed”, a dark atmosphere (Doyo ~ Sound effect data is selected. On the other hand, if the speech produced by the caller includes keywords such as “happy”, “happy”, and “fun”, sound effect data with a bright and brilliant atmosphere (a sparkling image) is selected. When the state pattern input from the
音声合成部13は、音声認識結果に基づいて音声素材データベース101から音声データを取得すると、音声入力部11から入力した音声に、音声素材データベース101から取得した音声を合成し、通信部14に出力する。
When the
音声認識部12は、また音声認識結果を映像決定部15に出力する。映像決定部15は、音声認識部12から入力した音声認識結果に基づいて携帯電話機20に送信する映像を決定する。音声認識結果から選択する映像を決定するために、映像素材データベース102を利用する。
The
図4は、映像素材データベース102の登録例を示す図である。映像素材データベース102は、音声認識部12における音声認識結果と映像データとを対応付けるとともに、対応付けられた映像データを蓄積しているデータベースである。映像素材データベース102の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。映像決定部15は、音声認識部12より入力した音声のテキストデータの中に、映像素材データベース102に登録されているキーワードが存在するか検索し、ヒットした場合には、そのキーワードに対応する映像データを取得する。あるいは、映像決定部15は、音声認識部12より入力した通話者の状態パターンと対応する映像データを取得する。
FIG. 4 is a diagram illustrating a registration example of the
図の例であれば、たとえば、通話者が発した音声の中に、「うそつき」、「うそばっかり」、「うそばかり」といったキーワードが含まれていれば、うそつき者をたしなめている様子を表現した映像データが選択される。通話者が発した音声の中に、「許さない」、「許すことができない」、「許しがたい」といったキーワードが含まれていれば、厳つい男が怒って指を鳴らしている様子を表現した映像データが選択される。また、音声認識部12から入力した状態パターンが「怒鳴り声」である場合には、怒鳴り声をあげている様子を比喩的に表現した雷の映像が選択される。なお、図の例では、映像データとして動画データが登録されているが、映像データとして静止画データを登録しておいてもよい。
In the example of the figure, for example, if the voice uttered by the caller contains keywords such as “lie”, “lie sober”, and “lie”, it expresses the appearance of the liar Selected video data is selected. If the voice uttered by the caller includes keywords such as “don't forgive”, “can't forgive”, or “unforgivable”, it expresses a harsh man angry Video data is selected. When the state pattern input from the
この映像素材データベース102についても、メモリカード30に格納されて提供されている。ただし、映像素材データベース102は、ネットワーク上からダウンロードし、携帯電話機10の内蔵メモリやメモリカードに格納する形態であってもよい。
The
映像決定部15は、音声認識結果に基づいて映像素材データベース102から映像データを取得すると、取得した映像データを通信部14に出力する。
When the
また、音声認識部12は音声認識結果をバイブレーション決定部16に出力する。バイブレーション決定部16は、音声認識部12から入力した音声認識結果に基づいて携帯電話機20に送信するバイブレーション設定データを決定する。音声認識結果からバイブレーション設定データを取得するために、バイブレーション設定データベース103を利用する。
Further, the
図5は、バイブレーション設定データベース103の登録例を示す図である。バイブレーション設定データベース103は、音声認識部12における音声認識結果とバイブレーション設定データとを対応付けたデータベースである。バイブレーション設定データベース103の音声認識結果フィールドには、キーワードあるいは通話者の状態パターンが登録されている。バイブレーション決定部16は、音声認識部12より入力した音声のテキストデータの中に、バイブレーション設定データベース103に登録されているキーワードが存在するか検索し、ヒットした場合には、そのキーワードに対応するバイブレーション設定データを取得する。あるいは、バイブレーション決定部16は、音声認識部12より入力した通話者の状態パターンと対応するバイブレーション設定データを取得する。
FIG. 5 is a diagram illustrating an example of registration in the
図の例であれば、たとえば、通話者が発した音声の中に、「うそつき」、「うそばっかり」、「うそばかり」といったキーワードが含まれていれば、強力なバイブレーションを1回だけ単発で発生させるというバイブレーション設定データが選択される。また、音声認識部12から入力した状態パターンが「怒鳴り声」である場合には、強力なバイブレーションを連続して5回発生させるというバイブレーション設定データが選択される。なお、バイブレーション設定データには、バイブレーションの振動回数、振動時間、振動間隔、振動の強さなどを個別にあるいは複合的に設定可能とすればよい。
In the example shown in the figure, for example, if the voice uttered by the caller includes keywords such as “liar”, “lie sober”, and “lie”, a powerful vibration can be performed only once. Vibration setting data to be generated is selected. Further, when the state pattern input from the
このバイブレーション設定データベース103についても、メモリカード30に格納されて提供されている。ただし、バイブレーション設定データベース103は、ネットワーク上からダウンロードし、携帯電話機10の内蔵メモリやメモリカードに格納する形態であってもよい。
The
バイブレーション決定部16は、音声認識結果に基づいてバイブレーション設定データベース103からバイブレーション設定データを取得すると、取得したバイブレーション設定データを通信部14に出力する。
When the
通信部14は、他の携帯電話機との間で音声の送受信を行う機能部とネットワークを介してデータを送受信する機能部とを備えている。上述したように、通信部14は、音声合成部13から、効果音やBGMが合成された通話者の音声を入力する。また、通信部14は、映像決定部15から音声認識結果に基づいて決定された映像データを入力する。さらに、通信部14は、バイブレーション決定部16から音声認識結果に基づいて決定されたバイブレーション設定データを入力する。そして、通信部14は、これら合成音声とデータとを携帯電話機20に送信する。
The
ここで、通信部14が合成音声を送信する方法は、通常の通話音声を送信する方法と同じである。つまり、携帯電話機10の音声処理部において通話者から取得した音声と効果音やBGMが合成されているので、通信部14は、合成音声を通常の音声と同様に処理して送信することができるのである。これにより、この合成音声を受信する携帯電話機は特別な機能を必要としない。受信側の携帯電話機20は、通常の通話音声と同様に合成音声を受信し、スピーカから合成音声を出力すればよいのである。
Here, the method by which the
映像データおよびバイブレーション設定データは、音声通信とは別にTCP/IPなどのデータ送受信プロトコルを利用して送信される。通信部14は、このような通信を可能とするデータ通信機能を備えている。あるいは、通信部14は、音声通信の特定の周波数帯域に映像データやバイブレーション設定データを重畳させて送信するようにしてもよい。
Video data and vibration setting data are transmitted using a data transmission / reception protocol such as TCP / IP separately from voice communication. The
なお、携帯電話機10から送信するバイブレーション設定データのデータ形式は、たとえば、バイブレータコマンドと、振動回数、振動時間、振動間隔、振動の強さなどを示す引数とで構成すればよい。
Note that the data format of the vibration setting data transmitted from the
次に、携帯電話機20の構成および機能について説明する。通信部21は、通信部14から送信された合成音声および映像データやバイブレーション設定データを受信する。通信部21は、音声信号を送受信する機能とデータ通信機能を備えている。上述したように、映像データやバイブレーション設定データが、音声信号とは別にデータ通信機能を利用して送信された場合には、通信部21は、データ通信機能を利用して映像データやバイブレーション設定データを受信する。映像データやバイブレーション設定データが音声信号に重畳されている場合には、通信部21は、音声信号から映像データやバイブレーション設定データを分離して取得する。
Next, the configuration and function of the
通信部21は、受信した音声信号を音声再生部22に出力する。音声再生部22は、携帯電話機20が備えるスピーカから合成音声を出力する。このようにして、携帯電話機10において通話者が言葉を発すると、その言葉に効果音やBGMが合成され、合成音が携帯電話機20において再生されるのである。
The
したがって、携帯電話機20の通話者は、携帯電話機10の通話者が発した言葉を単に聞くだけでなく、その言葉に効果音やBGMが付加されることにより臨場感たっぷりのコミュニケーションをとることが可能である。たとえば、携帯電話機10の通話者が「ハッピー」という言葉を発すると、その言葉とともにキラキラしたイメージの効果音が携帯電話機20において再生されるので、携帯電話機20の通話者は、通話相手の感情を充分に感じることができる。
Therefore, the caller of the
また、上述したように、この合成音声は送信側の携帯電話機10において合成され、通常の音声と同様の方法で送信されるので、受信側の携帯電話機20は、通常の携帯電話機を用いて合成音声を再生することが可能である。したがって、このような合成音声再生機能を利用するために、送信側と受信側の双方の端末が機能に対応している必要はない。本発明の音声合成機能を備えた携帯電話機を用意すれば、どんな音声再生装置(携帯電話機に限らず、固定電話でもよいし、テレビ電話などであってもよい。)に対しても、表現豊かな合成音声を送信することが可能である。
In addition, as described above, this synthesized voice is synthesized in the transmitting-side
通信部21は、また、受信した映像データを映像再生部23に出力する。映像再生部23は、入力した映像データを携帯電話機20のモニタに再生するのである。映像再生部23は、受信した合成音声が音声再生部22から再生されるのに同期して、モニタに映像データを再生するのである。映像データが動画データである場合には、映像再生部23はモニタに動画を再生し、映像データが静止画データである場合には、モニタに静止画を表示する。これにより、携帯電話機20では、受信した合成音声が再生されるとともに、音声認識結果から決定された映像が再生されるのである。
The
たとえば、図3、図4のデータベースを利用した場合を例にあげると、携帯電話機10において「許さない」といった言葉が発せられた場合、携帯電話機20では、「許さない」という音声に「ボキボキ」という指を鳴らす音の効果音が合成されて再生され、さらに、携帯電話機20のモニタには、厳つい男が指を鳴らす映像が再生されるのである。
For example, in the case of using the database shown in FIGS. 3 and 4, for example, when a word “don't allow” is issued on the
また、通信部21は受信したバイブレーション設定データをバイブレータ24に出力する。バイブレータ24は、入力したバイブレーション設定データに基づいて振動を発生させるのである。つまり、バイブレータ24は、バイブレーション設定データで指定されている振動回数、振動時間、振動間隔、振動の強さなどのパラメータにしたがって振動を発生させることができる。これにより、携帯電話機20では、受信した合成音声が再生されるとともに、音声認識結果から決定されたバイブレーションが発生するのである。
In addition, the
たとえば、図3、図4、図5のデータベースを利用した場合を例にあげると、携帯電話機10において「うそつき」といった言葉が発せられた場合、携帯電話機20では、「うそつき」という音声が再生されるとともに、うそをついた者をたしなめる映像が再生され、さらに、強力なバイブレーションが1回単発で発生するのである。
For example, in the case of using the database shown in FIGS. 3, 4, and 5, for example, when a word “liar” is issued on the
このように本実施の形態の携帯電話コミュニケーションシステムを利用すれば、携帯電話機10の操作者は、自分の気持ちを表現豊かに伝えることが可能である。言葉だけでは中々伝わらない意思、感情を映像やバイブレーションが表現力を増強させてくれるのである。また、携帯電話機10の通話者は、感情をあらわにすることが苦手であっても、伝えたい言葉だけを発すれば、携帯電話機10が表現力を増強させてくれるのである。一方、携帯電話機20の操作者は、相手の気持ちを感情豊かに受け取ることができる。また、単なる意思伝達に多様性を持たせるというだけでなく、遊びの要素を取り入れ、バラエティ性の高いコミュニケーションが可能となる。
As described above, by using the mobile phone communication system of the present embodiment, the operator of the
{第2の実施の形態}
次に、本発明の第2の実施の形態について説明する。上述したように、携帯電話機10は、合成音声を通常の音声と同様の方法で送信するため、受信側は通常の音声再生機能を備えていれば良いことを説明した。これに対して、映像データおよびバイブレーション設定データについては、受信側の端末にも対応する機能が必要である。携帯電話機20は、映像再生部23およびバイブレータ24を備え、これらの処理部が音声信号とともにデータを受信した場合に、合成音声の再生と同期させて映像の再生やバイブレータの駆動を行った。
{Second Embodiment}
Next, a second embodiment of the present invention will be described. As described above, since the
第2の実施の形態においては、携帯電話機10が送信先の携帯電話機20の端末種別に応じて送信するデータを選択する。図6に示すように、携帯電話機20は、端末情報記憶部25を備えている。この端末情報記憶部25には、携帯電話機20のメーカ名、機種名、製造番号名などの情報が記録されている。
In the second embodiment, the
一方、携帯電話機10は、図6に示すように端末情報取得部17を備えている。端末情報取得部17は、合成音声やその他のデータを送信する前に、携帯電話機20から端末機種の情報を取得するのである。第2の実施の形態においても、第1の実施の形態と同様の方法で、合成音声が生成され、映像データおよびバイブレーション設定データが決定される。そして、第1の実施の形態においては、合成音声を生成し、映像データおよびバイブレーション設定データを決定すると、そのまま合成音声とデータを送信した。第2の実施の形態においては、まず、端末情報取得部17が携帯電話機20の端末機種情報を取得し、処理の方法を決定するのである。
On the other hand, the
具体的には、音声通話が開始された時点(端末同士が接続された時点で)で、端末情報取得部17が端末機種の情報取得コマンドを生成すると、通信部14よりコマンドが携帯電話機20に送信される。携帯電話機20では、端末情報記憶部25より携帯電話機20の端末機種情報が読み出され、読み出された情報が携帯電話機10に送信されるのである。こうして、端末情報取得部17が、携帯電話機20の端末機種情報を得る。
Specifically, when the terminal information acquisition unit 17 generates an information acquisition command for the terminal model at the time when the voice call is started (when the terminals are connected to each other), the command is sent from the
端末情報取得部17は、端末機種情報を映像決定部15およびバイブレーション決定部16に出力する。映像決定部15は、送信先の携帯電話機が音声通話時における映像再生機能を備えているかどうかを端末機種情報から決定する。そして、送信先の携帯電話機が音声通話時の映像再生機能を備えていると判定した場合には、第1の実施の形態と同様、映像素材データベース102から取得した映像データを通信部14に出力するのである。これに対して、送信先の携帯電話機が当該機能を備えていないと判定した場合には、通信部14に対する映像データの出力を停止する。
The terminal information acquisition unit 17 outputs the terminal model information to the
バイブレーション決定部16は、送信先の携帯電話機が音声通話時におけるバイブレーション機能を備えているかどうかを端末機種情報から決定する。そして、送信先の携帯電話機が音声通話時のバイブレーション機能を備えていると判定した場合には、第1の実施の形態と同様、バイブレーション設定データベース103を参照して決定したバイブレーション設定データを通信部14に出力するのである。これに対して、送信先の携帯電話機が当該機能を備えていないと判定した場合には、通信部14に対するバイブレーション設定データの出力を停止する。
The
これにより、通信部14は、送信先の携帯電話機が音声通話時の映像再生機能を備えているが、バイブレーション機能を備えていない場合には、合成音声および映像データのみを送信する。送信先の携帯電話機が音声通話時のバイブレーション機能を備えているが、映像再生機能を備えていない場合には、合成音声およびバイブレーション設定データのみを送信する。送信先の携帯電話機が音声通話時の映像再生機能およびバイブレーション機能の両方を備えている場合には、合成音声に加えて映像データおよびバイブレーション設定データを送信するのである。
Thereby, the
このように、送信先の携帯電話機の種別に応じて送信するデータを決定するので、送信先の携帯電話機が対応していない無駄なデータを送信することはない。これにより、データ送信のコストを低減させることが可能であり、また、通信帯域を無駄なデータで圧迫することを防止できる。 Thus, since the data to be transmitted is determined according to the type of the mobile phone of the transmission destination, useless data not supported by the mobile phone of the transmission destination is not transmitted. Thereby, it is possible to reduce the cost of data transmission, and it is possible to prevent the communication band from being compressed with useless data.
{第3の実施の形態}
次に、本発明の第3の実施の形態について説明する。第1の実施の形態においては、携帯電話機20は、携帯電話機10から送信された映像データをそのまま再生した。あるいは、携帯電話機10から送信されたバイブレーション設定データに基づいてバイブレータ24を駆動した。これに対して第3の実施の形態においては、携帯電話機20においても、映像データの決定やバイブレーションの設定データを決定する。
{Third embodiment}
Next, a third embodiment of the present invention will be described. In the first embodiment, the
第3の実施の形態においては、図7に示すように、音声認識部12は、音声認識結果を通信部14に出力する。そして、通信部14は、合成音声と映像データとバイブレーション設定データとともに音声認識結果を携帯電話機20に送信する。通信部14は、映像データ等と同じ方法で音声認識結果を送信する。つまり、データ通信機能を利用するか音声信号に重畳させて音声認識結果を送信する。
In the third embodiment, as shown in FIG. 7, the
携帯電話機20では、通信部21が音声信号から映像データやバイブレーション設定データとともに音声認識結果を分離して取得する。通信部21は、映像再生部23に対して、受信した映像データとともに音声認識結果を出力する。
In the
携帯電話機20は、図7に示すように、映像素材データベース201を備えている。映像素材データベース201のデータベース構造は、携帯電話機10が備える映像素材データベース102と同様である。つまり、音声認識結果と映像データとが対応付けるとともに、対応付けられている映像データを蓄積している。
The
ただし、映像素材データベース201における音声認識結果と映像データとの対応付けは映像素材データベース102と異なる場合もある。たとえば、同じキーワードや同じ状態パターンに対しても異なる映像データが対応付けられている場合がある。たとえば、映像素材データベースを同じコンテンツプロバイダから取得していれば、内容も同じとなるが、異なるコンテンツプロバイダから取得していれば内容が異なる。あるいは、1つのコンテンツプロバイダから複数の異なる映像素材データベースが提供されていてもよい。映像素材データベース201についても、メモリカードに格納されてユーザに提供されてもよいし、ユーザがネットワーク経由でダウンロードする形態であってもよい。
However, the correlation between the voice recognition result and the video data in the
映像再生部23は、通信部21から映像データと音声認識結果を入力すると、入力した映像データ、つまり携帯電話機10から送信された映像データをそのままモニタに再生してもよい。あるいは、映像再生部23は、入力した音声認識結果に基づいて映像素材データベース201を参照して対応する映像データを決定し、決定した映像データをモニタに再生させてもよい。どちらの映像を再生するかについては、携帯電話機20において予め設定可能としておけばよい。相手の端末から送信されてくる映像を楽しみたいのであれば、受信する映像データを再生する設定にすればよいし、自分の携帯電話機20で利用している映像素材データベース201を利用したいのであれば、受信する音声認識結果を利用するように設定すればよい。
When the
また、通信部21は、バイブレータ24に対して受信したバイブレーション設定データとともに音声認識結果を出力する。携帯電話機20は、図7に示すように、バイブレーション設定データベース202を備えている。バイブレーション設定データベース202のデータベース構造は、携帯電話機10が備えるバイブレーション設定データベース103と同様である。つまり、音声認識結果に対してバイブレーション設定データが対応付けられている。
Further, the
同様に、バイブレーション設定データベース103とバイブレーション設定データベース202は異なるデータベースであってもよいし、同じデータベースであってもよい。バイブレーション設定データベース202についても、メモリカードに格納されてユーザに提供されてもよいし、ユーザがネットワーク経由でダウンロードする形態であってもよい。
Similarly, the
バイブレータ24は、通信部21からバイブレーション設定データと音声認識結果を入力すると、入力したバイブレーション設定データ、つまり携帯電話機10から送信されたバイブレーション設定データに基づいて振動を発生させてもよい。あるいは、バイブレータ24は、入力した音声認識結果に基づいてバイブレーション設定データベース202を参照してバイブレーション設定データを決定し、決定したデータに基づいて振動を発生させてもよい。
When
このように、第3の実施の形態においては、合成音声とともに再生される映像は、送信側の携帯電話機10で取得されたものを利用するか、受信側の携帯電話機20で取得されたものを利用するかを選択することが可能である。したがって、受信側がより豊富なデータベースを所持しているならば受信側のデータベースを利用し、より一層表現力豊かなコミュニケーションをとることが可能である。また、受信側のデータベースを利用することで、送信側の意図しない映像が受信側で再生されることを逆に楽しむことができる。
As described above, in the third embodiment, the video reproduced together with the synthesized audio is obtained using the transmission-side
なお、第3の実施の形態においては、音声認識部12の認識結果をそのまま通信部14を介して携帯電話機20に送信することとした。つまり、通話者の音声をテキストデータに変換したものか、あるいは、音声認識部12において特定された状態パターンを指定したデータを携帯電話機20に送信することとした。
In the third embodiment, the recognition result of the
別の方法として、携帯電話機10側で採用されたキーワードのみを送信する形態であってもよい。つまり音声合成部13、映像決定部15、バイブレーション決定部16は、音声認識部12から音声認識結果であるテキストデータを入力すると、それぞれデータベース101〜103を参照してキーワードの検索を行った。そして、キーワードが検索された場合には、キーワードから音声データや映像データ、バイブレーション設定データを取得した。そこで、キーワードが検索された場合には、このキーワードを通信部14に出力するのである。そして、通信部14は、音声を変換したテキストデータの全部を送信するのではなく、キーワードのみを携帯電話機20に送信するのである。これにより、データ送信量を少なくすることが可能である。
As another method, only the keyword adopted on the
なお、第2の実施の形態の機能を第3の実施の形態に取り入れても良い。つまり、音声通話の開始時に送信先の携帯電話機の端末機種情報を取得し、送信先の携帯電話機が音声通話時の映像再生機能を備えている場合にのみ映像データと音声認識結果を送信するようにしてもよい。また、送信先の携帯電話機が音声通話時のバイブレーション機能を備えている場合のみ、バイブレーション設定データと音声認識結果を送信するようにしてもよい。 Note that the functions of the second embodiment may be incorporated into the third embodiment. In other words, the terminal model information of the destination mobile phone is acquired at the start of the voice call, and the video data and the voice recognition result are transmitted only when the destination mobile phone has a video playback function at the time of the voice call. It may be. Moreover, the vibration setting data and the voice recognition result may be transmitted only when the transmission destination mobile phone has a vibration function during a voice call.
{第4の実施の形態}
第1〜第3の実施の形態においては、携帯電話機10において入力した音声にリアルタイムで音声認識処理を実行した。そして、音声認識結果に基づいてデータベース101〜103を参照して音声素材データ、映像素材データ、バイブレーション設定データを取得した。つまり、データベース101〜103は、音声認識結果と素材データやバイブレーション設定データを対応付けていた。
{Fourth embodiment}
In the first to third embodiments, the voice recognition process is executed in real time on the voice input in the
第4の実施の形態では、音声素材データベースに登録されている音声素材データは、携帯電話機10のキー操作と対応付けられている。同様に、映像素材データベースに登録されている映像素材データやバイブレーション設定データベースに登録されているバイブレーション設定データは、携帯電話機10のキー操作と対応付けられている。
In the fourth embodiment, the sound material data registered in the sound material database is associated with the key operation of the
したがって、携帯電話機10では、音声認識処理は行わず、操作者のキー操作に基づいて音声の合成や映像あるいはバイブレーション設定データの送信を行うのである。たとえば、音声の通話中に操作者が、「1」のキーを押下すると、これに応じて対応するBGMが選択され、通話音声に選択されたBGMが合成されて携帯電話機20に送信される。あるいは、音声の通話中に操作者が、「2」のキーを押下すると、これに応じて対応する映像データおよびバイブレーション設定データが選択され、通話音声とともに、選択された映像データおよびバイブレーション設定データが携帯電話機20に送信されるのである。
Therefore, the
このように、ユーザが音声通話中に任意のタイミングで割り当てられているキー操作を行うことで、通話音声に任意のタイミングでBGMや効果音を合成させることが可能である。また、任意のタイミングで映像データやバイブレーション設定データを相手の端末に送信することが可能である。上記の例では、1つのキー操作と音声素材データ等を対応付けているが、複数のキー操作と対応付けてもよい。たとえば、「1」のキーが音声を合成する指示に対応し、続けて「1」〜「9」までのキーを選択することによって、音声データを指定するような方法であってもよい。 Thus, BGM and sound effects can be synthesized with the call voice at any timing by performing key operations assigned at any timing during the voice call. In addition, video data and vibration setting data can be transmitted to the partner terminal at an arbitrary timing. In the above example, one key operation is associated with audio material data or the like, but may be associated with a plurality of key operations. For example, a method may be used in which voice data is designated by selecting a key from “1” to “9” in response to an instruction for synthesizing voice with the key “1”.
この方法によっても、通話音声に表現力を増強させる特殊効果を付加することが可能である。また、リアルタイムの音声認識処理を行わないので、携帯電話機10における処理負荷を小さくすることが可能である。
Also by this method, it is possible to add a special effect that enhances the expressive power to the call voice. In addition, since real-time voice recognition processing is not performed, the processing load on the
{変形例}
上記各実施の形態においては、合成音声とともに音声認識結果から取得された映像データを送信するようにした。別の実施例として、音声の合成は行わず、通話者が発した音声とともに、音声認識結果から取得された映像データを送信する形態であってもよい。
{Modifications}
In each of the above embodiments, the video data acquired from the voice recognition result is transmitted together with the synthesized voice. As another embodiment, voice data may not be synthesized, and video data acquired from a voice recognition result may be transmitted together with voice uttered by a caller.
また、上記各実施の形態においては、合成音声とともに音声認識結果から取得されたバイブレーション設定データを送信するようにした。別の実施例として、音声の合成は行わず、通話者が発した音声とともに、音声認識結果から取得されたバイブレーション設定データを送信する形態であってもよい。 In each of the above embodiments, the vibration setting data acquired from the speech recognition result is transmitted together with the synthesized speech. As another example, the voice setting data acquired from the voice recognition result may be transmitted together with the voice uttered by the caller without performing voice synthesis.
以上、本発明の実施の形態について、送信側および受信側の端末が携帯電話機である場合を例に説明したが、それら一方あるいは両方が携帯電話機以外の端末であってもよい。たとえば、映像の再生機能やバイブレーション機能を備えた固定電話であってもよい。あるいは、パソコン上で実行されるメッセンジャーなどであってもよい。 As described above, the embodiments of the present invention have been described by way of example in which the transmitting and receiving terminals are mobile phones, but one or both of them may be terminals other than the mobile phone. For example, it may be a landline telephone having a video playback function and a vibration function. Alternatively, it may be a messenger executed on a personal computer.
また、送信側の端末において、上記各実施の形態における機能をON/OFFする機能を備えることが望ましい。つまり、音声を合成するのか、映像データを送信するのか、バイブレーション設定データを送信するのか、という点についてそれぞれ個別に機能をON/OFFできるようにしておけばよい。たとえば、大事な仕事の内容の通話については、各機能をOFFすることができる。 In addition, it is desirable that the terminal on the transmission side has a function for turning on / off the function in each of the above embodiments. That is, it is only necessary to individually enable / disable the function regarding whether to synthesize audio, to transmit video data, or to transmit vibration setting data. For example, each function can be turned off for an important work call.
また、上記各実施の形態において、各データベースは、メモリカードに格納されて提供される場合やダウンロードにより取得できると説明したが、簡単なオーサリングツールを端末に持たせることで、これらデータベースをユーザ自身が作成できるようにしておいてもよい。 Further, in each of the above embodiments, it has been described that each database can be obtained by being stored in a memory card or downloaded. However, by providing a simple authoring tool in the terminal, these databases can be stored by the user himself / herself. May be created.
10 (送信側)携帯電話機
20 (受信側)携帯電話機
101 音声素材データベース
102 映像素材データベース
103 バイブレーション設定データベース
201 (受信側)映像素材データベース
202 (受信側)バイブレーション設定データベース
10 (Transmission side) Mobile phone 20 (Reception side)
Claims (19)
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、
音声素材データが合成された音声を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。 An audio material database for storing audio material data associated with the speech recognition results;
Voice input means;
Voice recognition means for performing voice recognition on the voice input from the voice input means;
Means for acquiring the voice material data associated with the recognition result by the voice recognition means from the voice material database, and synthesizing the acquired voice material data with the voice input from the voice input means;
A communication means for transmitting the synthesized voice data to the other terminal;
A voice transmitting terminal comprising:
音声認識結果に対応付けられた映像素材データを蓄積する映像素材データベースと、
前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
を備え、
前記通信手段は、音声素材データが合成された音声とあわせて前記映像素材データベースから取得した映像を前記相手の端末に送信することを特徴とする音声送信端末。 The voice transmission terminal according to claim 1, further comprising:
A video material database that stores video material data associated with the speech recognition results;
Means for acquiring video material data associated with a recognition result by the voice recognition means from the video material database;
With
The communication means transmits the video acquired from the video material database together with the audio synthesized with the audio material data to the partner terminal.
音声認識結果とバイブレーション設定データとを対応付けたバイブレーション設定データベースと、
前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、
を備え、
前記通信手段は、音声素材データが合成された音声とあわせてバイブレーション設定データを前記相手の端末に送信することを特徴とする音声送信端末。 The voice transmission terminal according to claim 1, further comprising:
A vibration setting database in which voice recognition results are associated with vibration setting data;
Means for determining vibration setting data based on a recognition result by the voice recognition means;
With
The communication means transmits vibration setting data to the partner terminal together with the voice synthesized with the voice material data.
前記相手の端末の端末情報を取得する手段、
を備え、
前記相手の端末の種別に応じて映像素材データあるいはバイブレーション設定データの送信を停止することを特徴とする音声送信端末。 The voice transmission terminal according to claim 2 or 3, further comprising:
Means for obtaining terminal information of the partner terminal;
With
An audio transmitting terminal, wherein transmission of video material data or vibration setting data is stopped according to a type of the partner terminal.
前記通信手段は、前記音声認識手段による認識結果を前記相手の端末に送信することを特徴とする音声送信端末。 The voice transmission terminal according to any one of claims 2 to 4, further comprising:
The voice transmission terminal characterized in that the communication means transmits a recognition result by the voice recognition means to the partner terminal.
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
前記音声入力手段から入力した音声とあわせて前記映像素材データベースから取得した映像を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。 A video material database that stores video material data associated with the speech recognition results;
Voice input means;
Voice recognition means for performing voice recognition on the voice input from the voice input means;
Means for acquiring video material data associated with a recognition result by the voice recognition means from the video material database;
Communication means for transmitting the video acquired from the video material database together with the voice input from the voice input means to a partner terminal;
A voice transmitting terminal comprising:
音声入力手段と、
前記音声入力手段から入力した音声に対する音声認識を行う音声認識手段と、
前記音声認識手段による認識結果に基づいてバイブレーション設定データを決定する手段と、
前記音声入力手段から入力した音声とあわせてバイブレーション設定データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。 A vibration setting database in which voice recognition results are associated with vibration setting data;
Voice input means;
Voice recognition means for performing voice recognition on the voice input from the voice input means;
Means for determining vibration setting data based on a recognition result by the voice recognition means;
A communication means for transmitting vibration setting data to the partner terminal together with the voice input from the voice input means;
A voice transmitting terminal comprising:
前記音声認識結果は、前記音声入力手段が入力した音声をテキスト変換した結果および/または前記音声入力手段が入力した音声から判定された音声の調子に関わる情報を含むことを特徴とする音声送信端末。 The voice transmission terminal according to any one of claims 1 to 7,
The speech recognition result includes the result of text-converting the speech input by the speech input means and / or information related to the tone of the speech determined from the speech input by the speech input means. .
前記音声素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記音声素材データベースが利用可能となることを特徴とする音声送信端末。 The voice transmission terminal according to claim 1,
The audio material database is stored in a memory card, and the audio material database can be used by inserting the memory card into the audio transmission terminal.
前記映像素材データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記映像素材データベースが利用可能となることを特徴とする音声送信端末。 In the voice transmitting terminal according to claim 2 or 6,
An audio transmitting terminal, wherein the video material database is stored in a memory card, and the video material database can be used by inserting the memory card into the audio transmitting terminal.
前記バイブレーション設定データベースはメモリカードに格納されており、前記音声送信端末に前記メモリカードを挿入することで前記バイブレーション設定データベースが利用可能となることを特徴とする音声送信端末。 In the voice transmitting terminal according to claim 3 or 7,
The vibration setting database is stored in a memory card, and the vibration setting database can be used by inserting the memory card into the voice transmitting terminal.
音声素材データが合成された音声をスピーカから出力することを特徴とする音声再生端末。 A terminal for receiving voice transmitted from the voice transmitting terminal according to claim 1,
An audio reproduction terminal characterized by outputting audio synthesized with audio material data from a speaker.
音声素材データが合成された音声をスピーカから出力しつつ受信した映像素材データをモニタに出力することを特徴とする音声再生端末。 A terminal for receiving voice and data transmitted from the voice transmitting terminal according to claim 2,
An audio reproduction terminal characterized by outputting received video material data to a monitor while outputting audio synthesized with audio material data from a speaker.
音声素材データが合成された音声をスピーカから出力しつつ、受信したバイブレーション設定データに基づいてバイブレータを駆動することを特徴とする音声再生端末。 A terminal for receiving voice and data transmitted from the voice transmitting terminal according to claim 3,
An audio reproduction terminal characterized in that a vibrator is driven based on received vibration setting data while outputting a synthesized voice of audio material data from a speaker.
前記受信端末は、
音声認識結果に対応付けられた映像素材データを蓄積する受信側映像素材データベース、
を備え、
前記受信端末は、
前記音声送信端末から映像素材データを受信した場合、合成音声とともに受信した映像素材データを再生するか、受信した認識結果に基づいて前記受信側映像素材データベースから対応する映像素材データを取得し、合成音声とともに取得した映像素材データを再生するかを選択可能としたことを特徴とする音声再生端末。 A terminal that receives the synthesized voice and the voice recognition result transmitted from the voice transmitting terminal according to claim 5,
The receiving terminal is
Receiving-side video material database that stores video material data associated with voice recognition results,
With
The receiving terminal is
When the video material data is received from the audio transmission terminal, the video material data received together with the synthesized audio is reproduced, or the corresponding video material data is acquired from the receiving video material database based on the received recognition result, and synthesized. An audio reproduction terminal characterized in that it can select whether to reproduce video material data acquired together with audio.
前記受信端末は、
音声認識結果とバイブレーション設定データとを対応付けた受信側バイブレーション設定データベース、
を備え、
前記受信端末は、
前記音声送信端末からバイブレーション設定データを受信した場合、合成音声を再生するとともに受信したバイブレーション設定データに基づいてバイブレータを駆動するか、受信した音声認識結果に基づいて前記受信側バイブレーション設定データベースを参照してバイブレーション設定データを決定し、合成音声を再生するとともに決定したバイブレーション設定データに基づいてバイブレータを駆動するかを選択可能としたことを特徴とする音声再生端末。 A terminal that receives the synthesized voice and the voice recognition result transmitted from the voice transmitting terminal according to claim 5,
The receiving terminal is
Receiving side vibration setting database that associates voice recognition results with vibration setting data,
With
The receiving terminal is
When vibration setting data is received from the voice transmitting terminal, the synthesized voice is reproduced and the vibrator is driven based on the received vibration setting data, or the reception side vibration setting database is referred to based on the received voice recognition result. A voice reproduction terminal characterized in that vibration setting data is determined to reproduce a synthesized voice and to select whether to drive a vibrator based on the determined vibration setting data.
音声入力手段と、
音声通話中に入力したキー操作から対応付けられている音声素材データを前記音声素材データベースから取得し、前記音声入力手段から入力した音声に取得した音声素材データを合成する手段と、
音声素材データが合成された音声を相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。 An audio material database that stores audio material data associated with key operations;
Voice input means;
Means for acquiring voice material data associated from a key operation input during a voice call from the voice material database, and synthesizing the acquired voice material data with the voice input from the voice input means;
A communication means for transmitting the synthesized voice data to the other terminal;
A voice transmitting terminal comprising:
音声入力手段と、
音声通話中に入力したキー操作から対応付けられている映像素材データを前記映像素材データベースから取得する手段と、
前記音声入力手段から入力した音声とともに取得した映像素材データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。 A video material database that stores video material data associated with key operations;
Voice input means;
Means for acquiring video material data associated with key operations input during a voice call from the video material database;
A communication means for transmitting the video material data acquired together with the sound input from the sound input means to a partner terminal;
A voice transmitting terminal comprising:
音声入力手段と、
音声通話中に入力したキー操作から対応付けられているバイブレーション設定データを前記バイブレーション設定データベースから取得する手段と、
前記音声入力手段から入力した音声とともに取得したバイブレーション設定データを相手の端末に送信する通信手段と、
を備えることを特徴とする音声送信端末。
A vibration setting database for storing vibration setting data associated with key operations;
Voice input means;
Means for acquiring vibration setting data associated with key operations input during a voice call from the vibration setting database;
Communication means for transmitting the vibration setting data acquired together with the voice input from the voice input means to the partner terminal;
A voice transmitting terminal comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071971A JP2007251581A (en) | 2006-03-16 | 2006-03-16 | Voice transmission terminal and voice reproduction terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071971A JP2007251581A (en) | 2006-03-16 | 2006-03-16 | Voice transmission terminal and voice reproduction terminal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007251581A true JP2007251581A (en) | 2007-09-27 |
Family
ID=38595417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006071971A Withdrawn JP2007251581A (en) | 2006-03-16 | 2006-03-16 | Voice transmission terminal and voice reproduction terminal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007251581A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013024704A1 (en) * | 2011-08-16 | 2013-02-21 | ソニー株式会社 | Image-processing device, method, and program |
JP2014526829A (en) * | 2011-09-09 | 2014-10-06 | クゥアルコム・インコーポレイテッド | Emotion transmission as tactile feedback |
JP2017194950A (en) * | 2016-02-29 | 2017-10-26 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | Multi-media capture system and method |
-
2006
- 2006-03-16 JP JP2006071971A patent/JP2007251581A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013024704A1 (en) * | 2011-08-16 | 2013-02-21 | ソニー株式会社 | Image-processing device, method, and program |
JP2014526829A (en) * | 2011-09-09 | 2014-10-06 | クゥアルコム・インコーポレイテッド | Emotion transmission as tactile feedback |
JP2016167815A (en) * | 2011-09-09 | 2016-09-15 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Transmission of feeling as tactile sense feedback |
US9762719B2 (en) | 2011-09-09 | 2017-09-12 | Qualcomm Incorporated | Systems and methods to enhance electronic communications with emotional context |
JP2017194950A (en) * | 2016-02-29 | 2017-10-26 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | Multi-media capture system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5225847B2 (en) | Information processing terminal, music information generation method, and program | |
RU2382514C2 (en) | System and method for automatic generation of user video data for call signals and transmitting context information | |
US7706510B2 (en) | System and method for personalized text-to-voice synthesis | |
US20090198497A1 (en) | Method and apparatus for speech synthesis of text message | |
US7664645B2 (en) | Individualization of voice output by matching synthesized voice target voice | |
KR20080015567A (en) | Voice-enabled file information announcement system and method for portable device | |
JP2008529403A (en) | Method and system for providing news information using 3D characters in a mobile communication network | |
CA2539649C (en) | System and method for personalized text-to-voice synthesis | |
JP2008085421A (en) | Video telephone, calling method, program, voice quality conversion-image editing service providing system, and server | |
JP2007251581A (en) | Voice transmission terminal and voice reproduction terminal | |
CN101640860B (en) | Method for communicating, a related system for communicating and a related transforming part | |
JP2005062420A (en) | System, method, and program for content generation | |
JP4655008B2 (en) | Recording notification method by portable terminal device, portable terminal device, and communication system | |
JP3915716B2 (en) | Telephone message system, content server, and call transfer system | |
JP5423970B2 (en) | Voice mail realization system, voice mail realization server, method and program thereof | |
JP2005249880A (en) | Digital picture book system by portable communication terminal | |
JP2007259427A (en) | Mobile terminal unit | |
JP2006048352A (en) | Communication terminal having character image display function and control method therefor | |
KR101114155B1 (en) | Bell service method using mp3 music of mobile phone | |
KR100553437B1 (en) | wireless telecommunication terminal and method for transmitting voice message using speech synthesizing | |
JP2004343566A (en) | Mobile telephone terminal and program | |
JP2003304307A (en) | Apparatus, method and program for voice communication | |
JP3829672B2 (en) | Videophone device and videophone display method | |
JP2009157746A (en) | Speech processing system, terminal device, server device, speech processing method and program | |
KR101236496B1 (en) | E-mail Transmission Terminal and E-mail System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090602 |