JP2016110151A - Voice management server device, conversation voice provision method, and conversation voice provision system - Google Patents

Voice management server device, conversation voice provision method, and conversation voice provision system Download PDF

Info

Publication number
JP2016110151A
JP2016110151A JP2015238101A JP2015238101A JP2016110151A JP 2016110151 A JP2016110151 A JP 2016110151A JP 2015238101 A JP2015238101 A JP 2015238101A JP 2015238101 A JP2015238101 A JP 2015238101A JP 2016110151 A JP2016110151 A JP 2016110151A
Authority
JP
Japan
Prior art keywords
voice
user
server device
talk
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015238101A
Other languages
Japanese (ja)
Other versions
JP6598369B2 (en
Inventor
悠之介 北
Yunosuke Kita
悠之介 北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=56122197&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2016110151(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Individual filed Critical Individual
Publication of JP2016110151A publication Critical patent/JP2016110151A/en
Application granted granted Critical
Publication of JP6598369B2 publication Critical patent/JP6598369B2/en
Ceased legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a conversation voice provision method capable of providing voice like voice uttered by a human being, and giving a user a pleasure of a conversation.SOLUTION: A conversation voice provision method employs a voice management server device in which plural speech synthetic data items for use in synthesizing human beings' voices are recorded, and a user terminal capable of transmitting or receiving data to or from the server device. The conversation voice provision method includes a step of automatically transmitting user's talk voice from the user terminal to the server device, a step of recording in the server device the contents of the talk voice received from the user terminal, a step of producing a response message, which responds to the received contents of the talk, by means of artificial intelligence of the server device, a step of producing voice response data, which is used to output the response message with voice selected in advance by the user, using the speech synthetic data by means of the artificial intelligence of the server device, and a step of transmitting the voice response data to a user-side conversation terminal.SELECTED DRAWING: Figure 1

Description

本発明は、音声管理サーバー装置、会話音声提供方法、会話音声提供システムに関するものであり、また、人工知能(A.I./Artificial Intelligence)を利用して会話するための機能を備えた装置、方法、システムに関するものである。   The present invention relates to a voice management server device, a conversation voice providing method, and a conversation voice providing system, and an apparatus, method, and system having a function for conversation using artificial intelligence (AI / Artificial Intelligence). It is about.

コンピュータを利用した簡易会話システムが提供されているが、従来型の会話システムは、音声が人工的(機械的)であったため、人間らしさをほとんど感じることができなかった。また、ユーザが発した音声に対する応答メッセージは、あらかじめ決められた定型句であったため極めて短期間で飽き易く、また、会話の面白みに欠けるといった問題があった。   Although a simple conversation system using a computer has been provided, since the conventional conversation system has an artificial (mechanical) voice, it has hardly felt humanity. Further, since the response message to the voice uttered by the user is a fixed phrase determined in advance, there is a problem that it is easy to get bored in a very short period of time, and the conversation is not interesting.

上述した従来技術の問題点に鑑み、本発明の目的は、人間らしい音声を提供することができ、ユーザに対して会話の楽しみを長期にわたって与えることができる音声管理サーバー装置、会話音声提供方法、会話音声提供システムを提供することにある。   SUMMARY OF THE INVENTION In view of the above-described problems of the prior art, an object of the present invention is to provide a voice management server apparatus, a conversation voice providing method, a conversation that can provide human-like voice and can provide a user with enjoyment of conversation over a long period of time. It is to provide a voice providing system.

上記目的は、異なる複数の動物(ヒトを含む)の音声の各々について作成された複数の音声合成用データ(音声素片データ)であって、該音声を合成するための複数の音声合成用データが記録された音声情報記録手段(情報記録媒体)を有する音声管理サーバー装置によって達成される。
複数の音声合成用データは、それぞれ異なるヒトの音声に由来する音声素片データで構成され、当該ヒトの音声を合成する際に用いられる。
The above object is a plurality of speech synthesis data (speech segment data) created for each of a plurality of different animal (including human) speech, and a plurality of speech synthesis data for synthesizing the speech Is achieved by a voice management server device having voice information recording means (information recording medium) in which is recorded.
The plurality of speech synthesis data are composed of speech segment data derived from different human speech, and are used when synthesizing the human speech.

上記音声管理サーバー装置において、前記複数の音声合成用データは、それぞれ、ヒトの音声に由来する音声素片データで構成され、当該ヒトの音声を合成する際に用いられる。
「音声素片データ」とは、例えば、ヒトの音声を構成する短い区間のデータ(五十音、濁音、半濁音などの発音一つ一つの音のデータ)である。例えば、五十音、濁音、半濁音などの発音一つ一つ(音声素片)をつなぎ合わせることで、音声(当該音声素片を発した本人の声)を合成することができる。
In the speech management server device, each of the plurality of speech synthesis data is composed of speech segment data derived from human speech, and is used when synthesizing the human speech.
The “speech segment data” is, for example, data of a short section constituting human speech (data of each pronunciation of sounds such as fifty sounds, muddy sounds, semi-muddy sounds). For example, speech (the voice of the person who emitted the speech segment) can be synthesized by connecting the pronunciations (speech segments) such as fifty sounds, muddy sounds, and semi-turbid sounds.

上記音声管理サーバー装置は、
前記複数の動物の音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記ユーザに対する応答メッセージをユーザが選択した前記音声により出力するための音声応答データを、前記音声合成用データ(音声素片データ)を利用して生成(合成)する情報処理手段と、
を更に有する
The voice management server device
Receiving means for accepting a voice use request for designating any voice selected by the user among the voices of the plurality of animals;
Information processing means for generating (synthesizing) voice response data for outputting a response message to the user by the voice selected by the user using the voice synthesis data (voice segment data);
Further

また、上記音声管理サーバー装置は、
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段を、更に有する。
In addition, the voice management server device
The voice response data further includes a transmission means for transmitting the voice response data to an arbitrary terminal selected by the user through the Internet.

また、上記音声管理サーバー装置は、
前記音声合成用データ(音声素片データ)の利用頻度を示す利用データを記録する利用情報記録手段を更に具備し、前記情報処理手段は、前記ユーザからの音声利用リクエストに応じて、前記利用情報記録手段の利用データを更新する。
In addition, the voice management server device
Usage information recording means for recording usage data indicating the usage frequency of the speech synthesis data (speech segment data), wherein the information processing means responds to the voice usage request from the user; Update the usage data of the recording means.

前記複数の動物の音声には、現在実在するヒトの音声、過去実在したヒトの音声、人工的に作り出した人物の音声、現在実在する動物の音声、過去実在した動物の音声、人工的に作り出した動物の音声、の1種または2種以上が含まれる。   The voices of the plurality of animals include present human voices, past human voices, artificially created person voices, current real animal voices, past real animal voices, and artificially produced voices. One or more of the voices of the animals.

また、前記複数の動物の音声には、キャラクターの音声、アイドルの音声、タレントの音声、声優の音声、女優の音声、俳優の音声、アナウンサーの音声、歌手の音声、有名人や著名人の音声、家族や親族の音声の1種または2種以上が含まれる。   The voices of the animals include character voices, idol voices, talent voices, voice actor voices, actress voices, actor voices, announcer voices, singer voices, celebrity and celebrity voices, Includes one or more voices of family and relatives.

また、前述した目的は、複数の動物(ヒトを含む)の音声の各々について作成された複数の音声合成用データ(音声素片データ)であって、該音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、該サーバー装置との間で送受信可能なユーザ端末と、を用いた会話音声提供方法であって、
(a) ユーザのトーク音声をユーザ端末からサーバー装置へ自動送信するステップと、
(b) ユーザ端末から受信したトーク音声の内容をサーバー装置に記録するステップと、
(c) 受信したトーク内容に応答する応答メッセージを、サーバー装置の人工知能(Artificial Intelligence)により生成するステップと、
(d) ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを、前記音声合成用データ(音声素片データ)を利用して、サーバー装置の人工知能により生成するステップと、
(e) 前記音声応答データを、ユーザ側の会話端末へ送信するステップと、
を含む会話音声提供方法によって達成される。
The above-described object is a plurality of speech synthesis data (speech segment data) created for each of a plurality of animal (including human) speech, and a plurality of speech synthesizers for synthesizing the speech. A conversational voice providing method using a voice management server device in which data is recorded and a user terminal capable of transmitting and receiving between the server device,
(a) automatically transmitting the user's talk voice from the user terminal to the server device;
(b) recording the content of the talk voice received from the user terminal in the server device;
(c) generating a response message in response to the received talk content by the server device's artificial intelligence;
(d) generating voice response data for outputting the response message in a voice selected in advance by a user using artificial intelligence of the server device using the voice synthesis data (voice segment data);
(e) transmitting the voice response data to a conversation terminal on the user side;
Is achieved by a method for providing conversational speech including:

また、上記会話音声提供方法の前記ステップ(c)において、サーバー装置に記録されたユーザのトーク内容を踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する。   In the step (c) of the conversation voice providing method, a response message that responds to the received talk content is generated so that the response content is based on the user's talk content recorded in the server device.

また、上記会話音声提供方法は、
前記複数の動物の音声うち、ユーザが選択した任意の音声を指定する音声利用リクエストをユーザ端末から受信するステップを更に含んでいる。
In addition, the conversation voice providing method is
The method further includes a step of receiving from the user terminal a voice use request designating any voice selected by the user among the voices of the plurality of animals.

また、上記会話音声提供方法の前記ステップ(b)において、ユーザ端末から受信したユーザのトーク音声の内容を、その受信日時に関する日時データと関連付けた状態で、サーバー装置に記録する。   Further, in the step (b) of the conversational voice providing method, the content of the user's talk voice received from the user terminal is recorded in the server device in a state associated with the date / time data related to the reception date / time.

また、上記会話音声提供方法は、
ユーザ端末から受信したユーザのトーク音声から、ユーザの感情を解析するステップと、解析した感情に関するデータをトーク内容に関連付けした状態で記録するステップと、を更に含んでおり、
前記ステップ(c)において、記録されたユーザのトーク音声の内容とそれに対応するユーザの感情とを踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する。
In addition, the conversation voice providing method is
Further comprising: analyzing the user's emotion from the user's talk voice received from the user terminal; and recording the analyzed emotion data in a state associated with the talk content;
In step (c), a response message is generated in response to the received talk content so that the response content is based on the recorded user talk voice content and the corresponding user emotion.

また、上記会話音声提供方法では、
一定の期間内における前記音声の利用頻度を示す利用頻度データを生成し、該音声の識別情報に関連付けた状態で記録する。
In the above conversation voice providing method,
Usage frequency data indicating the usage frequency of the voice within a certain period is generated and recorded in a state associated with the identification information of the voice.

また、上記会話音声提供方法では、
前記ユーザ端末は、ユーザが居住または滞在する空間に設置されている。
In the above conversation voice providing method,
The user terminal is installed in a space where the user lives or stays.

また、上記会話音声提供方法では、
前記ユーザ端末は、家庭用電気機械器具、家具、玩具のいずれかに取り付けられている。
In the above conversation voice providing method,
The user terminal is attached to any one of household electric machine appliances, furniture, and toys.

また、前述した目的は、
複数の動物(ヒトを含む)の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信するユーザ端末と、を含んで構成される会話音声提供システムであって、
前記音声管理サーバー装置は、
ユーザ端末から受信したユーザのトーク音声の内容をサーバー装置に記録する手段と、
受信したトーク内容に応答する応答メッセージを、サーバー装置の人工知能(Artificial Intelligence)により生成する手段と、
ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを作成する手段と、
前記音声応答データを、ユーザ側の会話端末へ送信する手段と、を含んでおり、
前記ユーザ端末は、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信する手段と、
前記トーク音声に応答する音声応答データをサーバー装置から受信する手段と、を含む
ことを特徴とする会話音声提供システムによって達成される。
In addition, the above-mentioned purpose is
A voice management server device that is a plurality of voice synthesis data created for each of voices of a plurality of animals (including humans) in which a plurality of voice synthesis data for synthesizing the voices is recorded; and a user A talk voice providing system configured to include a user terminal that transmits a talk voice from the user terminal to the server apparatus and receives a response voice to the talk voice from the server apparatus,
The voice management server device
Means for recording in the server device the content of the user's talk voice received from the user terminal;
Means for generating a response message in response to the received talk content by the server device's artificial intelligence;
Means for generating voice response data for outputting the response message in a voice preselected by the user;
Means for transmitting the voice response data to a conversation terminal on the user side,
The user terminal is
Means for transmitting the user's talk voice from the user terminal to the server device;
And means for receiving voice response data in response to the talk voice from a server device.

本発明によれば、実在・架空のヒトの音声を商材として利用できるようになる。また、商材としての音声をコンピュータで管理できるようになる。   According to the present invention, real and fictitious human voice can be used as a commercial product. In addition, it becomes possible to manage sound as a product with a computer.

また、商材としての音声をコンピュータで一括管理することで、音声の持ち主(実在の場合)や権利者(合成の場合)に対して、音声の利用量や利用頻度に応じた利益(音声使用量)を分配することができる。   In addition, by managing the sound as a commercial product with a computer in a batch, the profit (sound usage) for the voice owner (in the case of real existence) and the rights holder (in the case of synthesis) according to the amount of voice used and the frequency of use Amount).

また、商材としての音声をコンピュータで一括管理することで、音声の不正使用を防止することが可能になる。   In addition, it is possible to prevent unauthorized use of sound by collectively managing sound as a product with a computer.

また、本発明によれば、ユーザは、あらゆる音声を、自分が好きな音声(アイドルやキャラクターなどの音声)で聞くことができるようになる。   In addition, according to the present invention, the user can listen to all voices with voices that he / she likes (voices such as idols and characters).

また、本発明によれば、自分の好きな音声との間で自由に会話ができるようになる。その結果、例えば遠い存在であるはずのアイドルやキャラクターなどが、常に自分の身近にいるような新たな感覚(楽しみ)をユーザに与えることが可能になる。また、アイドルやキャラクターなどが、近くで自分を常に見守ってくれているような感覚(安心感)をユーザに与えることができる。   In addition, according to the present invention, it is possible to freely talk with a favorite voice. As a result, for example, it becomes possible to give the user a new feeling (enjoyment) that an idol or character that should be far away is always close to him / her. In addition, it is possible to give the user a sense (safety) that an idol, a character, and the like are always watching themselves nearby.

また、サーバー装置がユーザの行動パターン(発音を伴う行動パターン)を随時記録するので、そのユーザの行動パターンに応じて、返答内容(応答メッセージ)を返すことが可能になる。その結果、ユーザは、擬似的な会話相手(実際には音声管理サーバーから送信される合成音声)を、より身近な会話相手に感じることができるようになる。   Further, since the server device records the user's behavior pattern (behavioral pattern accompanied by pronunciation) at any time, it becomes possible to return the response content (response message) according to the user's behavior pattern. As a result, the user can feel a pseudo conversation partner (actually synthesized speech transmitted from the voice management server) as a closer conversation partner.

また、本発明では、ユーザの過去のトーク音声の内容等を踏まえた応答メッセージを生成するので、定型句のような面白みに欠けた応答が従来よりも遥かに少なくなり、その結果、ユーザに対し長期にわたって会話の楽しみを与えることができる。   Further, in the present invention, since a response message based on the contents of the user's past talk voice and the like is generated, the response that is not interesting like the fixed phrase is much less than before, and as a result, Can provide conversation enjoyment for a long time.

また本発明では、ユーザの過去のトーク内容などを踏まえて、当該ユーザのトークに対して応答を返すので、オリジナリティーのある自分だけの会話相手(擬似的な会話相手あるいは応援者)を育てるという新たな楽しみをユーザに与えることができる。   In the present invention, since a response is returned to the user's talk based on the contents of the user's past talk, etc., a new conversation partner (pseudo conversation partner or supporter) who has originality is nurtured. Can be provided to the user.

また、本発明を利用することで、家族と離れて暮らす者や、身寄りのない一人暮らしの者、一人暮らしの老人などの孤独感や寂しさが解消されるとともに、安心感を与えることができる。また、このような一人暮らしの者に対して、楽しい会話の機会を多く与えることで、日常生活におけるやる気を向上させることが可能になる。   In addition, by using the present invention, loneliness and loneliness of a person who lives away from his / her family, a person who lives alone without being close, or an elderly person who lives alone can be eliminated and a sense of security can be given. Moreover, it becomes possible to improve the motivation in daily life by giving many such conversation opportunities to those living alone.

また、コミュニケーションが不慣れな者・苦手な者に対して、積極的な会話の場を与えることが可能になる。   In addition, it becomes possible to provide a place for active conversation for those who are unfamiliar with communication or who are not good at communication.

また、本発明は、少なくとも音声をモニターするので、ユーザ不在時の防犯に利用することも可能である。   In addition, since the present invention monitors at least sound, it can also be used for crime prevention when the user is absent.

本発明の会話音声提供システムの概略構成を示す図である。It is a figure which shows schematic structure of the conversation audio | voice provision system of this invention. 本発明の音声管理サーバー装置の概略構成を示す図である。It is a figure which shows schematic structure of the audio | voice management server apparatus of this invention. データベースに記録される「音声情報」のデータ構成の一例を示す図である。It is a figure which shows an example of a data structure of the "voice information" recorded on a database. データベースに記録される「ユーザ情報」のデータ構成の一例を示す図である。It is a figure which shows an example of a data structure of the "user information" recorded on a database. データベースに記録される「音声利用情報」のデータ構成の一例を示す図である。It is a figure which shows an example of a data structure of the "voice utilization information" recorded on a database. データベースに記録される「トーク情報」のデータ構成の一例を示す図である。It is a figure which shows an example of a data structure of "talk information" recorded on a database. 音声管理サーバー装置で実行される「ユーザが利用する音声の登録処理」の一例を示す図である。It is a figure which shows an example of the "registration process of the voice which a user uses" performed with a voice management server apparatus. 会話用ユーザ端末で実行される「会話用ユーザ端末における音声送信処理」の一例を示す図である。It is a figure which shows an example of the "voice transmission process in the user terminal for conversation" performed with the user terminal for conversation. 音声管理サーバー装置で実行される「音声管理サーバー装置におけるトーク内容の記録処理」の一例を示す図である。It is a figure which shows an example of the "recording process of the talk content in a voice management server apparatus" performed with a voice management server apparatus. 音声管理サーバー装置で実行される「音声管理サーバー装置における応答処理」の一例を示す図である。It is a figure which shows an example of the "response process in a voice management server apparatus" performed with a voice management server apparatus. 会話用ユーザ端末で実行される「会話用ユーザ端末における音声出力処理」の一例を示す図である。It is a figure which shows an example of the "voice output process in the user terminal for conversation" performed with the user terminal for conversation. 本発明で用いる音声合成用データ(音声素片データ)を集める方法の概要を示す図である。It is a figure which shows the outline | summary of the method of collecting the data for speech synthesis (speech segment data) used by this invention. 本発明で用いる音声合成用データ(音声素片データ)を集める方法の概要を示すフローチャートである。It is a flowchart which shows the outline | summary of the method of collecting the data for speech synthesis (speech segment data) used by this invention.

(音声管理サーバー装置)
はじめに、本発明の音声管理サーバー装置の実施形態の一例について説明する。
(Voice management server device)
First, an example of an embodiment of a voice management server device according to the present invention will be described.

音声管理サーバー装置は、図1に示すような会話音声提供システムで用いられるサーバー装置である。   The voice management server device is a server device used in a conversation voice providing system as shown in FIG.

この音声管理サーバー装置は、図2に示すように、主として、
人工知能などの各種プログラムがインストールされたプログラム格納部と、
後述する各種情報を記録するためのデータベースと、
応答メッセージの生成や音声の合成の際に用いられるCPU(情報処理手段/Central Processing Unit)と、
各種情報処理の際などに用いられるメモリと、
インターネットを通じてユーザ側の端末を情報の送受信を行うための通信装置と、
を具備している。
As shown in FIG. 2, the voice management server device mainly has
A program storage unit in which various programs such as artificial intelligence are installed;
A database for recording various information to be described later,
A CPU (Central Processing Unit) used in response message generation and voice synthesis;
Memory used for various information processing, etc.
A communication device for transmitting and receiving information to and from the user terminal via the Internet;
It has.

プログラム格納部には、人工知能(A.I./Artificial Intelligence)などの各種プログラムがインストールされている。人工知能プログラムは、後述するユーザと、擬似的な会話相手(現実的には音声管理サーバー装置)との間で、人間的会話を成立させるためのプログラムである。この人工知能プログラムを利用することで、ユーザとサーバー装置との間の会話が、ありふれた会話や定型句などのやりとりになることなく、ユーザのトーク内容(過去のトーク内容を含む)に応じた人間味にあふれた返答をサーバー装置から返すことができる。   Various programs such as artificial intelligence (A.I./Artificial Intelligence) are installed in the program storage unit. The artificial intelligence program is a program for establishing a human conversation between a user described later and a pseudo conversation partner (actually, a voice management server device). By using this artificial intelligence program, the conversation between the user and the server device can be handled according to the user's talk contents (including past talk contents) without having to exchange ordinary conversations or boilerplate phrases. A response full of humanity can be returned from the server device.

データベースには、音声情報記録部と、ユーザ情報記録部と、音声利用情報記録部と、トーク情報記録部と、辞書情報記録部とが含まれている。   The database includes a voice information recording unit, a user information recording unit, a voice usage information recording unit, a talk information recording unit, and a dictionary information recording unit.

データベースの音声情報記録部には、図3に示すようなデータ構成の音声情報が記録されている。図3に示すとおり、複数の動物(ヒトを含む)の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録されている。本実施形態では、この音声合成用データは、実在の発声者の音声に基づいて作成されている。   Audio information having a data structure as shown in FIG. 3 is recorded in the audio information recording unit of the database. As shown in FIG. 3, a plurality of speech synthesis data created for each of a plurality of animal (including human) speech, and a plurality of speech synthesis data for synthesizing the speech are recorded. . In the present embodiment, the voice synthesis data is created based on the voice of an actual speaker.

なお、音声情報記録部に記録する音声合成用データは、必ずしも、現在実在するヒトの音声に限定されず、過去に実在したヒトの音声であってもよく、あるいは、人工的に作り出した人物の音声(架空の人物の音声)であってもよい。また、現在実在する動物の音声、過去実在した動物の音声、人工的に作り出した動物の音声(架空の動物の音声)であってもよい。   Note that the data for voice synthesis recorded in the voice information recording unit is not necessarily limited to the current human voice, and may be a human voice that has existed in the past, or an artificially created person's voice. Voice (fictional person's voice) may be used. Moreover, the sound of the animal which exists now, the sound of the animal which existed in the past, and the sound of the animal produced artificially (the sound of the fictitious animal) may be used.

また、ヒトの音声に関する音声合成用データの具体例としては、例えば図3に示すように、キャラクターの音声、アイドルの音声、タレントの音声、声優の音声、女優の音声、俳優の音声、アナウンサーの音声、歌手の音声、有名人や著名人の音声、現存する家族や親族の音声、亡くなった家族や親族の声、といったヒトの音声を合成するためのデータが挙げられる。   As specific examples of speech synthesis data related to human speech, for example, as shown in FIG. 3, character speech, idol speech, talent speech, voice actor speech, actress speech, actor speech, announcer speech Data for synthesizing human voices such as voices, voices of singers, voices of celebrities and celebrities, voices of existing families and relatives, voices of deceased family members and relatives, and the like.

また、ヒトの音声に関する音声合成用データは、上述したものに限定されず、例えば、聞きやすい男性又は女性の声、他人を威嚇する怖い男性の声、子どもの声、老人の声などでもよい。   Moreover, the data for speech synthesis related to human speech is not limited to the above-described data, and may be, for example, an easy-to-hear male or female voice, a scary male voice threatening others, a child voice, an elderly voice, and the like.

そして、上述した音声合成用データは、図3に示すとおり、音声の識別情報(音声ID)、音声の種類を示す情報に関連付けた状態(紐付けした状態)でデータベースに記録されている。   The speech synthesis data described above is recorded in the database in a state (linked state) associated with speech identification information (speech ID) and information indicating the speech type, as shown in FIG.

データベースのユーザ情報記録部には、図4に示すとおり、ユーザの識別情報(ユーザID)と、ユーザによって選択された音声の種類を示す情報と、選択された音声の識別情報(音声ID)と、が関連付けされた状態(紐付けされた状態)で記録されている。   As shown in FIG. 4, the user information recording unit of the database includes user identification information (user ID), information indicating the type of voice selected by the user, and identification information (voice ID) of the selected voice. , Are recorded in an associated state (linked state).

データベースの音声利用情報記録部には、図5に示すとおり、音声合成用データの利用頻度を示す音声利用データが記録される。また、音声利用データには、その音声の識別情報(音声ID)と、その音声の種類を示す情報とが関連付けされた状態(紐付けされた状態)で記録されている。   In the voice usage information recording unit of the database, voice usage data indicating the frequency of use of voice synthesis data is recorded as shown in FIG. Further, the voice use data is recorded in a state where the voice identification information (voice ID) and the information indicating the type of the voice are associated (linked).

データベースのトーク情報記録部には、図6に示すとおり、
会話用ユーザ側の端末から受信したトーク音声の内応を示す情報と、
その端末のユーザの識別情報(ユーザID)と、
そのトーク音声を受信した日時の情報と、
そのトーク音声から解析して得られたユーザの感情情報と、
そのトーク音声の内容を解析して得られたトーク重要度に関する情報と、
が関連付けした状態で(紐付けした状態で)記録されている。
In the talk information recording part of the database, as shown in FIG.
Information indicating the talk speech received from the terminal of the conversation user side,
Identification information (user ID) of the user of the terminal;
Information on the date and time when the talk was received,
Emotion information of the user obtained by analyzing from the talk voice,
Information on the importance of talk obtained by analyzing the content of the talk voice,
Is recorded in a linked state (in a linked state).

感情情報とは、図6に示すとおり、例えば「喜び」「リラックス」「怒り」「悲しみ」といった感情を5段階で数値化した情報である。これらの感情情報は、ユーザ側の端末から受信したトーク音声を解析することで得ることができる。   The emotion information is information obtained by digitizing emotions such as “joy”, “relax”, “anger”, and “sadness” in five stages as shown in FIG. Such emotion information can be obtained by analyzing the talk voice received from the user terminal.

トーク重要度とは、図6に示すとおり、トークの重要度を5段階で数値化したものであり、例えば「おはよう」「ただいま」といった極めて日常的なトークは、重要度1と判断される。また、「もうすぐ試験だから勉強しなくちゃ。いやだなぁ。」とういった非日常的で深い内容のトークは、重要度5であると判断される。   As shown in FIG. 6, the talk importance level is obtained by quantifying the talk importance level in five stages. For example, a very daily talk such as “good morning” or “just now” is determined to have the importance level 1. Also, an unusual and deep talk such as “I will study soon because it is an exam soon” is judged to be of importance 5.

音声管理サーバー装置は、上述したデータベースのほか、図2に示すとおり、応答メッセージの生成や音声の合成の際に用いられるCPU(情報処理手段/Central Processing Unit)を有している。   In addition to the above-described database, the voice management server device has a CPU (Information Processing Unit / Central Processing Unit) used when generating a response message and synthesizing voice as shown in FIG.

このCPUは、例えば、ユーザに対する応答メッセージを生成するとともに、ユーザが選択した前記音声により前記応答メッセージを出力するための音声応答データを、前記音声合成用データを利用して生成するといった情報処理を実行する役割を担っている。また例えば、ユーザからの音声利用リクエストに応じて、利用情報記録部の音声利用データを更新するといった情報処理を実行する役割を担っている。   The CPU performs, for example, information processing such as generating a response message for the user and generating voice response data for outputting the response message using the voice selected by the user by using the voice synthesis data. Have a role to do. Also, for example, it plays a role of executing information processing such as updating the voice usage data of the usage information recording unit in response to a voice usage request from the user.

また、音声管理サーバー装置の通信装置には、図2に示すとおり、
複数の動物の音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段と、
を含んで構成されている。
In addition, as shown in FIG.
A receiving means for accepting a voice usage request for designating an arbitrary voice selected by the user among a plurality of animal voices;
Transmitting means for transmitting the voice response data to an arbitrary terminal selected by the user through the Internet;
It is comprised including.

(会話音声提供システム)
次に、本発明の会話音声提供システムの実施形態の一例について説明する。
(Conversation voice providing system)
Next, an example of an embodiment of the conversation voice providing system of the present invention will be described.

会話音声提供システムは、図1に示すとおり、
複数の動物(ヒトを含む)の音声の各々について作成された複数の音声合成用データであって、該音声を合成するための複数の音声合成用データが記録された「音声管理サーバー装置」と、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信する「会話用ユーザ端末」と、
を含んで構成される。
As shown in FIG.
A “voice management server device”, which is a plurality of voice synthesis data created for each of a plurality of animal (including human) voices, and in which a plurality of voice synthesis data for synthesizing the voice is recorded; ,
A user's talk voice is transmitted from the user terminal to the server device, and a response voice to the talk voice is received from the server device;
It is comprised including.

音声管理サーバー装置の構成は前述したとおりである。   The configuration of the voice management server device is as described above.

会話用ユーザ端末は、図1に示すとおり、マイクとスピーカーとを含んで構成されている。このユーザ端末は、ユーザが居住または滞在する空間に設置される。ユーザが居住する空間の具体例としては、例えば、ユーザの住居の室内が挙げられる。また、ユーザが滞在する空間の具体例としては、例えば乗用車の車内やホテルなどの室内が挙げられる。   The conversation user terminal includes a microphone and a speaker as shown in FIG. This user terminal is installed in a space where the user resides or stays. As a specific example of the space in which the user lives, for example, the room of the user's residence can be cited. Moreover, as a specific example of the space where the user stays, for example, a passenger car interior or a room such as a hotel.

このような会話用ユーザ端末は、単に、居住空間や滞在空間に取り付けられてもよく、あるいは、家庭用電気機械器具、家具、玩具のいずれかに組み込まれた状態で取り付けられてもよい。   Such a user terminal for conversation may be simply attached to a living space or a staying space, or may be attached in a state of being incorporated in any of home electric machine appliances, furniture, and toys.

以下、本発明の会話音声提供システム(音声管理サーバー装置、設定用ユーザ端末、会話用ユーザ端末)を利用した会話音声提供方法の一例について、処理別に説明する。   Hereinafter, an example of a conversation voice providing method using the conversation voice providing system (voice management server apparatus, setting user terminal, conversation user terminal) of the present invention will be described for each process.

(ユーザが利用する音声の登録処理)
主として図7に基づいて説明する。
(Voice registration process for users)
The description will be mainly based on FIG.

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、設定用ユーザ端末から利用音声の登録リクエストを受け付けると、選択可能な音声リストのデータを設定用ユーザ端末に、インターネットを通じて送信する。選択可能な音声リストとは、例えば図3に列挙したような「音声の種類」のリストである。設定用ユーザ端末とは、例えば、ユーザが所有するスマートフォンやパソコンなどである。   First, the voice management server device stands by in a standby state. Subsequently, when a use voice registration request is received from the setting user terminal, selectable voice list data is transmitted to the setting user terminal via the Internet. The selectable audio list is, for example, a list of “audio types” as listed in FIG. The setting user terminal is, for example, a smartphone or a personal computer owned by the user.

続いて、設定用ユーザ端末は、サーバー装置から受信した音声リストをディスプレイに表示し、ユーザは、その表示リストのなかから、自己の好みに応じて、好きな音声を選択する。   Subsequently, the setting user terminal displays the voice list received from the server device on the display, and the user selects a favorite voice from the display list according to his / her preference.

例えば、好きなアイドルの音声で会話音声を受信したい場合には、設定用ユーザ端末を操作して、そのアイドルの音声を選択して、その選択結果を音声管理サーバー装置に送信する。あるいは、好きなキャラクターの音声で会話音声を受信したい場合には、そのアイドルの音声を選択する。このように音声を選択することで、自己のトーク音声に対する応答(会話音声)を、自身が選んだ好みの音声で聞くことができる。   For example, when it is desired to receive a conversation voice with a favorite idle voice, the user terminal for setting is operated to select the idle voice, and the selection result is transmitted to the voice management server device. Alternatively, when it is desired to receive a conversation voice with the voice of a favorite character, the idle voice is selected. By selecting the voice in this way, it is possible to hear the response (conversation voice) to the talk voice by the favorite voice selected by the user.

続いて、設定用ユーザ端末は、ユーザが選択した音声の識別情報(音声ID、図3参照)を、サーバー装置へ送信し、サーバー装置はその音声IDをインターネットを通じて受信する。   Subsequently, the setting user terminal transmits the voice identification information (voice ID, see FIG. 3) selected by the user to the server device, and the server device receives the voice ID through the Internet.

次に、サーバー装置は、選択可能な応答頻度の情報を、設定用ユーザ端末に送信する。その選択可能な応答頻度を受信したユーザ端末は、当該応答頻度を選択可能に画面に表示し、続いて、ユーザはそのなかから、最適な応答頻度を選択する。つまり、ユーザは、自己のトーク音声に対するサーバー装置からの応答の頻度を、自由に設定することができる。   Next, the server device transmits selectable response frequency information to the setting user terminal. The user terminal that has received the selectable response frequency displays the response frequency on the screen in a selectable manner, and then the user selects an optimal response frequency. That is, the user can freely set the frequency of response from the server device to his / her talk voice.

続いて、設定用ユーザ端末は、ユーザが選択した応答頻度の識別情報(応答頻度ID)をサーバー装置へ送信し、サーバー装置はインターネットを通じて当該識別情報を受信する。   Subsequently, the setting user terminal transmits response frequency identification information (response frequency ID) selected by the user to the server device, and the server device receives the identification information through the Internet.

次に、サーバー装置では、今回通信を行ったユーザ端末の識別情報(ユーザID)と、先のステップで受信した選択音声の識別情報(音声ID)と、先のステップで受信した反応頻度に関する識別情報(応答頻度ID)とを、相互に関連付けた状態で(紐付けした状態で)データベースに記録する。   Next, in the server device, the identification information (user ID) of the user terminal that performed communication this time, the identification information (voice ID) of the selected voice received in the previous step, and the identification relating to the reaction frequency received in the previous step Information (response frequency ID) is recorded in the database in a state of being associated with each other (in a state of being associated).

以上でユーザが利用する音声の登録処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。   This completes the registration processing of the voice used by the user, and the computer returns to the standby state again except when the program ends.

(会話用ユーザ端末における音声送信処理)
主として図8に基づいて説明する。
(Voice transmission processing at user terminal for conversation)
The description will be mainly based on FIG.

ユーザの居住空間や滞在空間に設置されたユーザ端末は、マイクやCPU等を利用して、ユーザのトーク音声をモニターしている。トーク音声とは、ユーザが口から発する音のすべてを含むものである。すなわち、トーク音声には、ユーザの会話音声のほか、独り言、ため息、咳、くしゃみ等のあらゆる音声が含まれる。   A user terminal installed in the user's living space or stay space monitors the user's talk voice using a microphone, CPU, or the like. The talk voice includes all the sounds emitted from the mouth by the user. That is, the talk voice includes all voices such as monologue, sigh, cough, and sneeze in addition to the user's conversation voice.

ユーザ端末がユーザ音声を検出すると、当該音声を音声データ化する。この音声データ化処理を、無音を検出するまで継続する。続いて、得られた音声データを、インターネットを通じて、サーバー装置へ送信する。   When the user terminal detects user voice, the voice is converted into voice data. This voice data conversion process is continued until silence is detected. Subsequently, the obtained audio data is transmitted to the server device via the Internet.

以上で会話用ユーザ端末における音声送信処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。   Thus, the voice transmission process in the conversation user terminal is completed, and the apparatus returns to the standby state again except when the program ends.

(音声管理サーバー装置におけるトーク内容の記録処理)
主として図9に基づいて説明する。
(Recording of talk content in the voice management server device)
The description will be mainly based on FIG.

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、会話用ユーザ端末からトーク音声のデータを受信すると、受信したトーク音声データに基づいて、ユーザのトーク音声の内容を1フレーズ毎に(又は1センテンス毎に)テキストデータ化する。トーク音声のテキストデータ化には、音声認識プログラムを用いる。   First, the voice management server device stands by in a standby state. Subsequently, when talk voice data is received from the conversation user terminal, the contents of the user's talk voice are converted into text data for each phrase (or for each sentence) based on the received talk voice data. A speech recognition program is used to convert talk speech into text data.

続いて、受信した音声データに基づいて、トーク音声におけるユーザの感情、トーク内容の重要度を解析してデータ化する。ユーザの感情とは、例えば図6に示すように、喜び、リラックス、怒り、悲しみといったものであり、5段階で数値化される。ユーザの感情の数値化は、例えばユーザの声の波長に基づいて判断される。ユーザのトーク内容の重要度は、例えば5段階で数値化され、その重要度は受信したトーク内容から判断される。例えば、単なる「おはよう」や「いってきます」といった日常的な定型句のトーク内容の場合には、重要度は低いと判断され、また、「もうすぐ試験だ」といった非日常的なトーク内容の場合には、重要度が高いと判断される。   Subsequently, based on the received voice data, the user's emotion in the talk voice and the importance of the talk content are analyzed and converted into data. The user's emotion is, for example, joy, relaxation, anger, sadness, as shown in FIG. 6, and is quantified in five stages. The digitization of the user's emotion is determined based on the wavelength of the user's voice, for example. The importance level of the user's talk content is digitized in, for example, five levels, and the importance level is determined from the received talk content. For example, in the case of daily regular phrases such as “Good morning” and “I will come”, the importance is judged to be low, and in the case of unusual conversations such as “I am coming soon” Is determined to have high importance.

次に、音声管理サーバー装置は、先のステップで受信したトーク音声の受信日時、先のステップで識別したトーク音声の内容(テキストデータ)、先のステップで解析したユーザの感情や重要度を、相互に関連付けした状態で(紐付けした状態で)、データベースに記録する。図6参照。   Next, the voice management server device receives the talk voice reception date and time received in the previous step, the content (text data) of the talk voice identified in the previous step, the user's emotion and importance analyzed in the previous step, Record in the database in a state of being associated with each other (in a state of being linked). See FIG.

以上で音声管理サーバー装置におけるトーク内容の記録処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。   Thus, the recording process of the talk content in the voice management server apparatus is completed, and the apparatus returns to the standby state again except when the program ends.

(音声管理サーバー装置における応答処理)
主として図10に基づいて説明する。
(Response processing in the voice management server device)
Description will be made mainly based on FIG.

はじめに、音声管理サーバー装置は、スタンバイ状態で待機している。続いて、会話用ユーザ端末からトーク音声のデータを受信すると、音声管理サーバー装置は、今回受信したトーク音声に対して応答するか否かの判断を行う。この応答判断は、例えば、あらかじめ指定された応答頻度(図7参照)や、トーク音声の内容の重要度(図6参照)などに基づいて行う。   First, the voice management server device stands by in a standby state. Subsequently, when talk voice data is received from the conversation user terminal, the voice management server device determines whether or not to respond to the talk voice received this time. This response determination is performed based on, for example, a response frequency specified in advance (see FIG. 7), the importance level of the talk voice content (see FIG. 6), or the like.

そして、音声管理サーバー装置は、今回のトーク音声に対して応答すると判断した場合には、データベースに記録されているトーク情報(当該ユーザの過去のトーク内容やそのトークの日時など)を参照するとともに、その参照したトーク情報の受信日時・トーク内容・ユーザの感情・トークの重要度などを踏まえた応答メッセージを生成する。   When the voice management server device determines that it responds to the current talk voice, it refers to the talk information recorded in the database (such as the user's past talk contents and the date and time of the talk). Then, a response message is generated based on the reception date / time of the referenced talk information, the talk content, the user's emotion, the importance level of the talk, and the like.

ここでいう「トーク情報の受信日時・トーク内容・ユーザの感情・トークの重要度などを踏まえた応答メッセージ」とは、例えば次のとおりである。   The “response message based on the reception date / time of the talk information, the content of the talk, the emotion of the user, the importance level of the talk”, and the like are as follows, for example.

例えば図6に例示するトーク情報の場合では、2011年1月27日23時55分のトーク内容「おやすみなさい」に対しては、同日18時10分のトーク内容「もうすぐ試験だから勉強しなくちゃ。いやだなぁ。」を参照し、そのトーク内容を踏まえて「いいの?もうすぐ試験だから勉強した方がいいんじゃない?」といった応答メッセージを生成する。
また例えば、2011年1月28日6時10分のトーク内容「今日はAKBのコンサートに行ってくるよ」に対しては、前日23時50分のトーク内容「明日は雨か」を参照し、そのトーク内容を踏まえて「おはよう。今日も頑張ってね。今日は雨だから傘を忘れないでね。」といった応答メッセージを生成する。
For example, in the case of the talk information illustrated in FIG. 6, for the talk content “Good night” on January 27, 2011, the talk content “18:10 on the same day” Refer to “No.”, and based on the content of the talk, generate a response message such as “Okay? Is it better to study because it is an exam soon?”
Also, for example, for the talk content of 6:10 on January 28, 2011, “Today we will go to the AKB concert”, refer to the talk content “Tomorrow is raining” at 23:50 the previous day. Based on the contents of the talk, a response message such as “Good morning. Do your best today. Do n’t forget your umbrella because it ’s raining today.” Is generated.

続いて、音声管理サーバー装置は、ユーザが予め選択した音声によって応答メッセージを出力するための応答音声を合成して、その合成した応答音声のデータをインターネットを通じてユーザ端末へ送信する。「応答音声のデータ」とは、先のステップで生成した応答メッセージを、ユーザが予め選択した音声で出力するためのデータである。この「応答音声のデータ」を使って音声を出力することで、ユーザが予め選択した音声の本人や動物が、自分に対して直接語りかけているかのような感覚を楽しむことができる。   Subsequently, the voice management server device synthesizes a response voice for outputting a response message with a voice selected in advance by the user, and transmits the synthesized response voice data to the user terminal through the Internet. “Response voice data” is data for outputting the response message generated in the previous step in a voice selected in advance by the user. By outputting the voice using the “response voice data”, it is possible to enjoy the feeling as if the voice person or animal selected in advance by the user is directly speaking to himself / herself.

以上で音声管理サーバー装置における応答処理が完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。   Thus, the response processing in the voice management server device is completed, and the standby state is restored again except when the program is terminated.

(会話用ユーザ端末における音声出力処理)
主として図11に基づいて説明する。
(Voice output processing in conversation user terminal)
The description will be mainly based on FIG.

はじめに、会話用ユーザ端末は、スタンバイ状態で待機している。続いて、会話用ユーザ端末が音声管理サーバー装置から応答音声データを受信すると、その受信データに基づいて、所定の音声(ユーザが予め選択した音声)による応答をスピーカーから出力する。   First, the conversation user terminal stands by in a standby state. Subsequently, when the conversation user terminal receives the response voice data from the voice management server device, a response based on a predetermined voice (voice preselected by the user) is output from the speaker based on the received data.

以上でユーザ端末における音声出力完了し、プログラム終了の場合を除いて、再びスタンバイ状態に復帰する。   The voice output at the user terminal is completed as described above, and the apparatus returns to the standby state again except when the program ends.

(音声採取方法の第1実施形態)
次に、本発明で用いる音声合成用データ(音声素片データ)を集める方法、すなわち、音声採取方法の実施形態について説明する。
(First embodiment of voice collection method)
Next, a method for collecting speech synthesis data (speech segment data) used in the present invention, that is, an embodiment of a speech sampling method will be described.

この出願で言及する「音声採取方法」とは、ヒト(人間)の音声を合成する際に用いる音声素片データであって、当該ヒトの音声に由来する音声素片データを、インターネットとサーバー装置を利用して採取する方法である。   The “speech collection method” referred to in this application is speech unit data used when synthesizing human (human) speech, and speech unit data derived from the human speech is transmitted to the Internet and a server device. It is a method of collecting using

この方法の処理の流れは、図12の概略図と図13のフローチャートに示すとおりである。   The processing flow of this method is as shown in the schematic diagram of FIG. 12 and the flowchart of FIG.

すなわち、音声採取方法の第1実施形態の概要は、
音声提供者の音声を入力できるように構成された音声提供者用端末(音声登録用端末)から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末(音声登録用端末)に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
サンプリングした前記音声に関する音声サンプリングデータを、音声提供者用端末からサーバー装置へ送信し、
前記サーバー装置において、前記音声サンプリングデータに基づいて音声素片データを生成し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、
というものである。
That is, the outline of the first embodiment of the voice sampling method is as follows.
Access from the voice provider terminal (voice registration terminal) configured to be able to input the voice of the voice provider to the server device used for collecting voice segment data via the Internet,
Sampling the voice of the voice provider via voice input means connected to the voice provider terminal (voice registration terminal),
Audio sampling data related to the sampled audio is transmitted from the audio provider terminal to the server device,
In the server device, voice unit data is generated based on the voice sampling data,
In a state in which the provider identification information related to the voice provider and the voice segment data are associated with each other, the information is stored in the information recording unit of the server device.
That's it.

なお、この出願において「音声提供者用端末(音声登録用端末)」とは、例えば図12に示すとおり、インターネットにアクセス可能なコンピュータや、携帯型情報端末(例えばスマートフォンや携帯電話)などが挙げられる。
また、「音声入力手段」とは、例えば、コンピュータに接続されたマイクや、携帯型情報端末が内蔵するマイクなどが挙げられる。
また、「音声素片データ」とは、例えば、ヒト音声を構成する短い区間のデータ(五十音、濁音、半濁音などの発音一つ一つの音のデータ)である。例えば、五十音、濁音、半濁音などの発音一つ一つ(音声素片)をつなぎ合わせることで、音声(当該音声素片を発した本人の声)を合成することができる。
In this application, “voice provider terminal (voice registration terminal)” includes, for example, a computer that can access the Internet, a portable information terminal (for example, a smartphone or a mobile phone), as shown in FIG. It is done.
Examples of the “voice input means” include a microphone connected to a computer and a microphone built in the portable information terminal.
The “speech segment data” is, for example, data of a short section constituting human speech (data of each sound of pronunciation such as fifty sounds, muddy sounds, and semi-voiced sounds). For example, speech (the voice of the person who emitted the speech segment) can be synthesized by connecting the pronunciations (speech segments) such as fifty sounds, muddy sounds, and semi-turbid sounds.

(音声採取方法の第2実施形態)
音声採取方法の第2実施形態の概要は、
音声提供者の音声を入力できるように構成された音声提供者用端末から、インターネットを介して、音声素片データの収集に用いるサーバー装置へアクセスし、
前記音声提供者用端末に接続された音声入力手段を介して、音声提供者の音声をサンプリングし、
前記音声提供者用端末において、サンプリングした前記音声に関する音声サンプリングデータに基づいて、音声素片データを生成し、
生成した前記音声素片データを音声提供者用端末からサーバー装置へ送信し、
前記音声提供者に関する提供者識別情報と前記音声素片データとを関連付けした状態で、前記サーバー装置の情報記録手段に保存する、
というものである。
(Second embodiment of voice collection method)
The outline of the second embodiment of the sound collection method is as follows.
Access from the voice provider terminal configured to be able to input the voice of the voice provider to the server device used for collecting voice segment data via the Internet,
Through the voice input means connected to the voice provider terminal, sample the voice of the voice provider;
In the voice provider terminal, based on the voice sampling data related to the sampled voice, voice unit data is generated,
The generated speech segment data is transmitted from the voice provider terminal to the server device,
In a state in which the provider identification information related to the voice provider and the voice segment data are associated with each other, the information is stored in the information recording unit of the server device.
That's it.

本発明で用いる会話用ユーザ端末の機能は、例えば、アンドロイド、ロボット、テレビ、スマートフォン、パソコンのモニター、ぬいぐるみ、人形、玩具などに組み込んで、これらの物と一緒に使用する事が可能である。また、会話用ユーザ端末は、3D立体画像と同期させて機能させるようにしてもよい。また、画像のマッピング(二次元の画像)や、壁や被写体への画像などと、融合させて機能させることも可能である。   The functions of the conversation user terminal used in the present invention can be incorporated into, for example, an Android, a robot, a television, a smartphone, a personal computer monitor, a stuffed animal, a doll, a toy, and the like. The conversation user terminal may function in synchronization with the 3D stereoscopic image. It is also possible to function by fusing with image mapping (two-dimensional image), an image on a wall or subject, and the like.

Claims (8)

異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声情報記録手段を有する音声管理サーバー装置。   A plurality of voice synthesis data created for each of a plurality of different human voices, and having voice information recording means in which a plurality of voice synthesis data for synthesizing the plurality of human voices is recorded Management server device. 前記複数の音声合成用データは、それぞれ、
ヒトの音声に由来する音声素片データで構成され、
当該ヒトの音声を合成する際に用いられる、
ことを特徴とする請求項1に記載の音声管理サーバー装置。
The plurality of data for speech synthesis are respectively
Consists of speech segment data derived from human speech,
Used to synthesize human speech,
The voice management server apparatus according to claim 1.
前記複数のヒトの音声のうち、ユーザが選択した任意の音声を指定する音声利用リクエストをインターネットを通じて受け付ける受信手段と、
前記ユーザに対する応答メッセージをユーザが選択した前記音声により出力するための音声応答データを、前記音声合成用データを利用して生成する情報処理手段と、
を有する請求項1に記載の音声管理サーバー装置。
Receiving means for accepting a voice usage request for designating any voice selected by the user among the plurality of human voices;
Information processing means for generating voice response data for outputting a response message to the user by the voice selected by the user, using the voice synthesis data;
The voice management server apparatus according to claim 1, comprising:
前記音声応答データを、ユーザが選択した任意の端末に対して、インターネットを通じて送信するための送信手段を、更に有することを特徴とする請求項3に記載の音声管理サーバー装置。   4. The voice management server apparatus according to claim 3, further comprising a transmission means for transmitting the voice response data to an arbitrary terminal selected by a user via the Internet. 異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、該サーバー装置との間で送受信可能なユーザ端末と、を用いた会話音声提供方法であって、
(a) ユーザのトーク音声をユーザ端末からサーバー装置へ自動送信するステップと、
(b) ユーザ端末から受信したトーク音声の内容をサーバー装置に記録するステップと、
(c) 受信したトーク内容に応答する応答メッセージを、サーバー装置により生成するステップと、
(d) ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを、前記音声合成用データを利用して、サーバー装置により生成するステップと、
(e) 前記音声応答データを、サーバー装置からユーザ端末へ送信するステップと、
を含む会話音声提供方法。
A plurality of voice synthesis data created for each of a plurality of different human voices, wherein a plurality of voice synthesis data for synthesizing the plurality of human voices are recorded; A conversation voice providing method using a user terminal capable of transmitting and receiving with a server device,
(a) automatically transmitting the user's talk voice from the user terminal to the server device;
(b) recording the content of the talk voice received from the user terminal in the server device;
(c) generating a response message in response to the received talk content by the server device;
(d) generating voice response data for outputting the response message in a voice selected in advance by a user using the voice synthesis data by a server device;
(e) transmitting the voice response data from the server device to the user terminal;
Conversation voice providing method including
前記ステップ(c)において、サーバー装置に記録されたユーザの現在及び/又は過去のトーク内容を踏まえた応答内容になるように、受信したトーク内容に応答する応答メッセージを生成する、
ことを特徴とする請求項5に記載の会話音声提供方法。
In the step (c), a response message that responds to the received talk content is generated so that the response content is based on the current and / or past talk content of the user recorded in the server device.
The conversation voice providing method according to claim 5.
前記複数のヒトの音声うち、ユーザが選択した任意の音声を指定する音声利用リクエストをユーザ端末から受信するステップを更に含んでいる、
ことを特徴とする請求項5に記載の会話音声提供方法。
Receiving a voice use request for designating any voice selected by the user among the plurality of human voices from the user terminal;
The conversation voice providing method according to claim 5.
異なる複数のヒトの音声の各々について作成された複数の音声合成用データであって、当該複数のヒトの音声を合成するための複数の音声合成用データが記録された音声管理サーバー装置と、ユーザのトーク音声をユーザ端末からサーバー装置へ送信するとともに、該トーク音声に対する応答音声をサーバー装置から受信するユーザ端末と、を含んで構成される会話音声提供システムであって、
前記音声管理サーバー装置は、
ユーザ端末から受信したユーザのトーク音声の内容をサーバー装置に記録する手段と、
受信したトーク内容に応答する応答メッセージを生成する手段と、
ユーザが予め選択した音声で前記応答メッセージを出力するための音声応答データを作成する手段と、
前記音声応答データをユーザ端末へ送信する手段と、を含んでおり、
前記ユーザ端末は、
ユーザのトーク音声をユーザ端末からサーバー装置へ送信する手段と、
前記トーク音声に応答する音声応答データをサーバー装置から受信する手段と、
を含むことを特徴とする会話音声提供システム。
A plurality of voice synthesis data created for each of a plurality of different human voices, wherein the voice management server device stores a plurality of voice synthesis data for synthesizing the plurality of human voices; and a user A talk voice providing system configured to include a user terminal that transmits a talk voice from the user terminal to the server apparatus and receives a response voice to the talk voice from the server apparatus,
The voice management server device
Means for recording in the server device the content of the user's talk voice received from the user terminal;
Means for generating a response message in response to the received talk content;
Means for generating voice response data for outputting the response message in a voice preselected by the user;
Means for transmitting the voice response data to a user terminal,
The user terminal is
Means for transmitting the user's talk voice from the user terminal to the server device;
Means for receiving voice response data in response to the talk voice from a server device;
Conversation voice providing system characterized by including
JP2015238101A 2014-12-04 2015-12-04 Voice management server device Ceased JP6598369B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014246286 2014-12-04
JP2014246286 2014-12-04

Publications (2)

Publication Number Publication Date
JP2016110151A true JP2016110151A (en) 2016-06-20
JP6598369B2 JP6598369B2 (en) 2019-10-30

Family

ID=56122197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015238101A Ceased JP6598369B2 (en) 2014-12-04 2015-12-04 Voice management server device

Country Status (1)

Country Link
JP (1) JP6598369B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018014091A (en) * 2017-06-20 2018-01-25 Gatebox株式会社 Image display device, topic selection method, and topic selection program
JP2019124855A (en) * 2018-01-18 2019-07-25 株式会社ユピテル Apparatus and program and the like
CN110941329A (en) * 2018-09-25 2020-03-31 未来市股份有限公司 Artificial intelligence system and interactive response method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259271A (en) * 1998-03-13 1999-09-24 Aqueous Reserch:Kk Agent device
JP2003169147A (en) * 2001-11-30 2003-06-13 Buzzhits Kk Client response system and method
JP2003216186A (en) * 2002-01-21 2003-07-30 Arcadia:Kk Speech data distribution management system and its method
JP2007163875A (en) * 2005-12-14 2007-06-28 Advanced Telecommunication Research Institute International Voice synthesizer and voice synthesis program
JP2014021136A (en) * 2012-07-12 2014-02-03 Yahoo Japan Corp Speech synthesis system
WO2014181524A1 (en) * 2013-05-09 2014-11-13 ソフトバンクモバイル株式会社 Conversation processing system and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259271A (en) * 1998-03-13 1999-09-24 Aqueous Reserch:Kk Agent device
JP2003169147A (en) * 2001-11-30 2003-06-13 Buzzhits Kk Client response system and method
JP2003216186A (en) * 2002-01-21 2003-07-30 Arcadia:Kk Speech data distribution management system and its method
JP2007163875A (en) * 2005-12-14 2007-06-28 Advanced Telecommunication Research Institute International Voice synthesizer and voice synthesis program
JP2014021136A (en) * 2012-07-12 2014-02-03 Yahoo Japan Corp Speech synthesis system
WO2014181524A1 (en) * 2013-05-09 2014-11-13 ソフトバンクモバイル株式会社 Conversation processing system and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018014091A (en) * 2017-06-20 2018-01-25 Gatebox株式会社 Image display device, topic selection method, and topic selection program
JP2019124855A (en) * 2018-01-18 2019-07-25 株式会社ユピテル Apparatus and program and the like
JP7130201B2 (en) 2018-01-18 2022-09-05 株式会社ユピテル Equipment and programs, etc.
CN110941329A (en) * 2018-09-25 2020-03-31 未来市股份有限公司 Artificial intelligence system and interactive response method

Also Published As

Publication number Publication date
JP6598369B2 (en) 2019-10-30

Similar Documents

Publication Publication Date Title
US20220284896A1 (en) Electronic personal interactive device
US9396437B2 (en) Interface apparatus and method for providing interaction of a user with network entities
KR20220024557A (en) Detection and/or registration of hot commands to trigger response actions by automated assistants
CN109697992A (en) The interaction with synchronous regime is encapsulated between equipment
JP2020034895A (en) Responding method and device
CN109272984A (en) Method and apparatus for interactive voice
IL229370A (en) Interface apparatus and method for providing interaction of a user with network entities
CN109346076A (en) Interactive voice, method of speech processing, device and system
KR20160100811A (en) Method and device for providing information
WO2019214456A1 (en) Gesture language translation system and method, and server
JP6166889B2 (en) Dialog support apparatus, dialog system, dialog support method and program
JP2021108142A (en) Information processing system, information processing method, and information processing program
JP6598369B2 (en) Voice management server device
JP2023123479A (en) Conversation output system, server, conversation output method, and program
JPWO2018030149A1 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
JP4568211B2 (en) Sensory communication device and sensory communication method
JP2015176058A (en) Electronic apparatus and method and program
CN112634886B (en) Interaction method of intelligent equipment, server, computing equipment and storage medium
CN112672207A (en) Audio data processing method and device, computer equipment and storage medium
JP2016071248A (en) Interaction device
JP2014109998A (en) Interactive apparatus and computer interactive method
CN115335898A (en) Information processing apparatus, interactive robot, control method, and program
JP2021149664A (en) Output apparatus, output method, and output program
JP2015173857A (en) Electronic apparatus and information processing method
KR20200085433A (en) Voice synthesis system with detachable speaker and method using the same

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20160107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20171110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6598369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RVOP Cancellation by post-grant opposition