JP6795028B2 - Information processing system and information processing method - Google Patents
Information processing system and information processing method Download PDFInfo
- Publication number
- JP6795028B2 JP6795028B2 JP2018506772A JP2018506772A JP6795028B2 JP 6795028 B2 JP6795028 B2 JP 6795028B2 JP 2018506772 A JP2018506772 A JP 2018506772A JP 2018506772 A JP2018506772 A JP 2018506772A JP 6795028 B2 JP6795028 B2 JP 6795028B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- scenario
- agent
- voice
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 50
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000009471 action Effects 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000001133 acceleration Effects 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 description 161
- 238000000034 method Methods 0.000 description 81
- 230000008569 process Effects 0.000 description 80
- 238000007726 management method Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 45
- 238000004458 analytical method Methods 0.000 description 41
- 230000001960 triggered effect Effects 0.000 description 20
- 238000003780 insertion Methods 0.000 description 19
- 230000037431 insertion Effects 0.000 description 19
- 230000006399 behavior Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 17
- 230000008921 facial expression Effects 0.000 description 16
- 230000004044 response Effects 0.000 description 14
- 239000000284 extract Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 235000019219 chocolate Nutrition 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035900 sweating Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000556720 Manga Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Description
本開示は、情報処理システムおよび情報処理方法に関する。 The present disclosure relates to an information processing system and an information processing method.
近年、通信技術の発達により、ネットワークを介したメッセージのやり取りが頻繁に行われている。ユーザは、スマートフォンや携帯電話端末、タブレット端末等の情報処理端末を用いて、他端末から送信されたメッセージを確認したり、メッセージを送信したりすることができる。 In recent years, with the development of communication technology, messages are frequently exchanged via networks. The user can confirm a message sent from another terminal or send a message by using an information processing terminal such as a smartphone, a mobile phone terminal, or a tablet terminal.
また、情報処理端末において、ユーザのメッセージに対して自動で応答を行うエージェントシステムが提案されている。このようなシステムに関し、例えば下記特許文献1には、服装、髪型、持ち物、性格といったエージェント作成用データをユーザが好きに組み合わせてエージェントを作成することができるエージェント作成装置が記載されている。
Further, in an information processing terminal, an agent system that automatically responds to a user's message has been proposed. Regarding such a system, for example,
また、下記特許文献2には、ユーザ情報からユーザの趣味・嗜好を含めた文化的背景を解釈し、その文化的背景に対応する動作をエージェントに行わせる装置が記載されている。また、下記特許文献3には、音声インタフェースエージェントにおいて、所定の感情を発生させる状況に特有に現れる予測不可能な付帯条件を学習し、学習された付帯条件を満たす新たな状況下で該所定の感情を想起させることが可能な感情生成装置が記載されている。
Further,
しかしながら、エージェントのキャラクターを様々設定出来ても、エージェントはあくまでもユーザの対話相手として存在するものであって、ユーザ自身が好きなエージェントのキャラクターになりきるといった体験を得ることは出来なかった。 However, even if the character of the agent can be set in various ways, the agent exists only as a dialogue partner of the user, and the user cannot get the experience of becoming the character of the agent he / she likes.
そこで、本開示では、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能な情報処理システムおよび情報処理方法を提案する。 Therefore, the present disclosure proposes an information processing system and an information processing method capable of further enhancing the entertainment of the agent system by allowing the user to experience the character of the agent through the agent.
本開示によれば、複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースを記憶するエージェント記憶部と、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し、さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し、前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、を備える、情報処理システムを提案する。 According to the present disclosure, an agent storage unit that stores a phonograph database and an utterance phrase database corresponding to a plurality of types of characters, and a selection signal for selecting a specific character are received via a user's client terminal, and the specific character is specified. Based on the communication unit that transmits the utterance phrase corresponding to the utterance phrase database of the character and the user's message received via the communication unit, the specific phonology database corresponding to the specific character is used. A conversion message converted into a character's voice is generated, a utterance phrase of the specific character corresponding to the user's message is generated using the utterance phrase database, and the generated conversion message and utterance phrase are generated by the client. We propose an information processing system equipped with a control unit that controls the return to the terminal.
本開示によれば、プロセッサが、複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し、さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し、前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、を含む、情報処理方法を提案する。 According to the present disclosure, the processor stores a phonological database and an utterance phrase database corresponding to a plurality of types of characters in an agent storage unit, and receives a selection signal for selecting a specific character via a user's client terminal. At the same time, the communication unit transmits the utterance phrase corresponding to the utterance phrase database of the specific character, and the phonetic element corresponding to the specific character is based on the user's message received via the communication unit. A conversion message converted into the voice of the specific character is generated using the database, and an utterance phrase of the specific character corresponding to the message of the user is generated using the utterance phrase database, and the generated conversion is performed. We propose an information processing method including controlling by a control unit to return a message and an utterance phrase to the client terminal.
以上説明したように本開示によれば、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能となる。 As described above, according to the present disclosure, it is possible to further enhance the entertainment of the agent system by allowing the user to experience the character of the agent himself / herself through the agent.
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。 It should be noted that the above effects are not necessarily limited, and either in combination with or in place of the above effects, any of the effects shown herein, or any other effect that can be grasped from this specification. May be played.
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present disclosure will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理システムの概要
2.構成
2−1.システム構成
2−2.サーバの構成
3.システム動作処理
3−1.会話データ登録処理
3−2.音素DB生成処理
3−3.対話制御処理
3−4.会話DB更新処理
3−5.広告挿入処理
4.音声出力制御処理
4−1.構成
4−2.動作処理
(4−2−1.エージェント購入処理)
(4−2−2.音声変換処理)
(4−2−3.自動発話処理)
(4−2−4.シナリオ取得処理)
(4−2−5.シナリオ実行処理)
5.まとめIn addition, the explanation shall be given in the following order.
1. 1. Outline of the information processing system according to the embodiment of the
(4-2-2. Voice conversion processing)
(4-2-3. Automatic utterance processing)
(4-2-4. Scenario acquisition process)
(4-2-5. Scenario execution processing)
5. Summary
<<1.本開示の一実施形態による情報処理システムの概要>>
本開示の一実施形態による情報処理システムは、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることを可能とする。以下、図1を参照して本実施形態による情報処理システムの概要について説明する。<< 1. Outline of information processing system according to one embodiment of the present disclosure >>
The information processing system according to the embodiment of the present disclosure makes it possible to further enhance the entertainment of the agent system by allowing the user to experience the character of the agent through the agent. Hereinafter, an outline of the information processing system according to the present embodiment will be described with reference to FIG.
図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。エージェントとの対話は、例えばユーザが所有するスマートフォン等のクライアント端末1を介して行われる。クライアント端末1は、マイクロホンおよびスピーカーを有し、ユーザとの音声による対話を可能とする。
FIG. 1 is a diagram illustrating an outline of an information processing system according to an embodiment of the present disclosure. The dialogue with the agent is performed, for example, via a
ここで、上述したように、エージェントのキャラクターを様々設定出来ても、エージェントはあくまでもユーザの対話相手として存在するものであって、ユーザ自身が好きなエージェントのキャラクターになりきるといった体験を得ることは出来なかった。 Here, as described above, even if the agent character can be set in various ways, the agent exists only as a dialogue partner of the user, and it is not possible to obtain the experience that the user himself / herself can become the character of the agent he / she likes. I could not do it.
そこで、本実施形態では、エージェントがユーザと音声による自動会話を行う他、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることを可能とする。 Therefore, in the present embodiment, in addition to the agent having an automatic conversation with the user by voice, it is possible to further enhance the entertainment of the agent system by allowing the user to experience the character of the agent through the agent.
例えば、エージェントプログラムが起動している際、本実施形態による情報処理システムは、図1に示すように、ユーザが発話を行うと、その発話音声W1をエージェントキャラクター10の音声W2に変換してユーザのイヤホン等から再生する(音声変換処理)。このように、ユーザが話した言葉がエージェントキャラクター10(例えばヒーロー)の声で聞こえるため、ユーザはそのエージェントキャラクター10になりきった体験が得られる。また、本実施形態による情報処理システムは、変換した音声W2に続けて、ユーザの発話音声W1に対応する所定のフレーズを同エージェントキャラクター10の音声で続けて出力してもよい(図1に示す発話音声W3)(自動発話処理)。所定のフレーズとは、例えばユーザの発話音声W1に含まれるキーワード(またはフレーズ)に紐付けられて登録されているフレーズである。このようなフレーズを、ユーザの音声を変換した音声に続けて自動発話させることにより、そのキャラクターへのなりきり体験をより高めることができる。また、本実施形態による情報処理システムは、発話音声W1に含まれるキーワード(またはフレーズ)や、対応する所定のフレーズに応じた効果音を併せて再生してもよい。また、本実施形態による自動発話処理は、ユーザの発話音声に限らず、ユーザの行動や移動場所、表情、日時等に対応するフレーズや効果音を再生してもよい。For example, when the agent program is running, the information processing system according to the present embodiment converts the spoken voice W 1 into the voice W 2 of the
また、本実施形態による情報処理システムは、エージェントキャラクター10にユーザ自身がなりきってシナリオに参加できるようにすることも可能である。例えばユーザが予め好きなエージェントとシナリオを購入すると、クライアント端末1に搭載された位置測位部(GPSなど)や各種センサ(加速度センサ、ジャイロセンサ、地磁気センサ、マイク、カメラ等)から検知された情報に基づくユーザの実世界の状況に応じてシナリオが展開される。具体的には、シナリオの進行に応じて各種イベントが開催され、ユーザはイベントに応じた行動は発話を行うことで、イベントを体験することができる。
Further, the information processing system according to the present embodiment can allow the user himself / herself to participate in the scenario by impersonating the
また、本実施形態では、同シナリオに参加する他のエージェントキャラクターになりきった人物と出会うイベントを開催することも可能である。例えば、キャラクター同士が特定の時間、場所で出会うシーンを含むシナリオプログラムが実行されている際に、各キャラクターになりきった人物が特定の時間に特定の場所に移動すると、特別なイベントが発生する。具体的には、例えば情報処理システムは、各クライアント端末1において相手の発話音声を相手のエージェントキャラクターの音声に変換してイヤホン等から再生させることで、ユーザ同士がシナリオに登場するキャラクターとして会話を楽しむことができるようにしてもよい。また、本実施形態では、ユーザがクライアント端末1を相手にかざしてクライアント端末1のカメラで相手の姿が捉えられた際に、相手の姿に相手のエージェントキャラクターの画像を重畳表示させることで、聴覚的のみならず視覚的にも相手ユーザのエージェントキャラクターへの成りきりを直感的に提供することができる。
Further, in the present embodiment, it is also possible to hold an event to meet a person who has become another agent character who participates in the scenario. For example, when a scenario program that includes a scene where characters meet at a specific time and place is being executed, a special event will occur if the person who has become each character moves to a specific place at a specific time. .. Specifically, for example, in an information processing system, each
なお、本実施形態による情報処理システム(エージェントシステム)は、音声により応答を行う音声エージェントに限定されず、クライアント端末1においてテキストベースで応答を行うテキスト対応エージェントであってもよい。
The information processing system (agent system) according to the present embodiment is not limited to the voice agent that responds by voice, and may be a text-compatible agent that responds on a text basis at the
以下、本実施形態による情報処理システムのシステム構成と、各装置の基本的な構成および動作処理について具体的に説明する。なお以降では、本実施形態による情報処理システムを通信制御システムと称して説明する。 Hereinafter, the system configuration of the information processing system according to the present embodiment, the basic configuration of each device, and the operation processing will be specifically described. Hereinafter, the information processing system according to the present embodiment will be referred to as a communication control system.
<<2.構成>>
<2−1.システム構成>
続いて、上述した本実施形態による通信制御システムの全体構成について図2を参照して説明する。図2は、本実施形態による通信制御システムの全体構成を示す図である。<< 2. Configuration >>
<2-1. System configuration>
Subsequently, the overall configuration of the communication control system according to the present embodiment described above will be described with reference to FIG. FIG. 2 is a diagram showing an overall configuration of a communication control system according to the present embodiment.
図2に示すように、本実施形態による通信制御システムは、クライアント端末1およびエージェントサーバ2を含む。
As shown in FIG. 2, the communication control system according to the present embodiment includes a
エージェントサーバ2は、ネットワーク3を介してクライアント端末1と接続し、データの送受信を行う。具体的には、エージェントサーバ2は、クライアント端末1で収音され、送信された発話音声に対する応答音声を生成し、クライアント端末1に送信する。エージェントサーバ2は、1以上のエージェントに対応する音素DB(データベース)を有し、特定のエージェントの音声で応答音声を生成することが可能である。ここで、エージェントとは、漫画、アニメ、ゲーム、ドラマ、映画等のキャラクターや、芸能人、著名人、歴史上の人物等であってもよいし、また、個人に特定せず、例えば世代別の平均的な人物であってもよい。また、エージェントは、動物や擬人化されたキャラクターであってもよい。また、エージェントは、ユーザ本人の性格を反映した人物や、ユーザの友人、家族、知人等の性格を反映した人物であってもよい。
The
また、エージェントサーバ2は、各エージェントの性格を反映した応答内容を生成することが可能である。エージェントサーバ2は、エージェントを介して、ユーザのスケジュール管理、メッセージの送受信、情報提供等、様々なサービスをユーザとの対話を通じて提供し得る。
Further, the
なおクライアント端末1は、図2に示すようなスマートフォンに限定されず、例えば携帯電話端末、タブレット端末、PC(パーソナルコンピュータ)、ゲーム機、ウェアラブル端末(スマートアイグラス、スマートバンド、スマートウォッチ、スマートネック等)等であってもよい。また、クライアント端末1は、ロボットであってもよい。
The
以上、本実施形態による通信制御システムの概要について説明した。続いて、本実施形態による通信制御システムのエージェントサーバ2の構成について図3を参照して具体的に説明する。
The outline of the communication control system according to the present embodiment has been described above. Subsequently, the configuration of the
<2−2.エージェントサーバ2>
図3は、本実施形態によるエージェントサーバ2の構成の一例を示すブロック図である。図3に示すように、エージェントサーバ2は、音声エージェントI/F(インタフェース)20、対話処理部30、音素記憶部40、会話DB生成部50、音素DB生成部60、広告挿入処理部70、広告DB72、およびフィードバック取得処理部80を有する。<2-2.
FIG. 3 is a block diagram showing an example of the configuration of the
音声エージェントI/F20は、音声データの入出力部、音声認識部、および音声生成部として機能する。入出力部としては、ネットワーク3を介してクライアント端末1と送受信を行う通信部が想定される。音声エージェントI/F20は、クライアント端末1からユーザの発話音声を受信し、音声認識によりテキスト化することが可能である。また、音声エージェントI/F20は、対話処理部30から出力されたエージェントの回答文データ(テキスト)を、当該エージェントに対応する音素データを用いて音声化し、生成したエージェントの応答音声をクライアント端末1に送信する。
The voice agent I /
対話処理部30は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェントサーバ2内の動作全般を制御する。対話処理部30は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による対話処理部30は、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34として機能する。
The
キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34は、エージェント毎に特化された対話を実現する。ここでは、エージェントの一例として「キャラクターA」「人物B」「人物C」を挙げているが、本実施形態は当然これに限定されず、さらに多数のエージェントに特化した対話を実現する各対話処理部を有していてもよい。基本対話処理部31は、エージェント毎に特化されていない、汎用の対話を実現する。
The character A
ここで、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34に共通する基本構成について図4を参照して説明する。
Here, a basic configuration common to the basic
図4は、本実施形態による対話処理部300の構成例を示す図である。図4に示すように、対話処理部300は、質問文検索部310、回答文生成部320、音素データ取得部340、および会話DB330を有する。会話DB330は、質問文データと回答文データが組になった会話データが保存されている。エージェントに特化した対話処理部では、かかる会話DB330にエージェントに特化した会話データが保存され、汎用の対話処理部では、かかる会話DB330にエージェントに特化しない汎用の会話データ(すなわち、基本会話データ)が保存されている。
FIG. 4 is a diagram showing a configuration example of the dialogue processing unit 300 according to the present embodiment. As shown in FIG. 4, the dialogue processing unit 300 includes a question
質問文検索部310は、音声エージェントI/F20から出力された、ユーザの質問音声(発話音声の一例)を認識してテキスト化した質問文と一致する質問文データを会話DB330から検索する。回答文生成部320は、質問文検索部310により検索した質問文データに対応付けて保存されている回答文データを会話DB330から抽出し、回答文データを生成する。音素データ取得部340は、回答文生成部320により生成された回答文を音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば、キャラクターA対話処理部32の場合、キャラクターA音素DB42から、回答文データをキャラクターAの音声で再生するための音素データを取得する。そして、対話処理部300は、生成した回答文データおよび取得した音素データを音声エージェントI/F20に出力する。
The question
音素記憶部40は、エージェント毎の音声を生成するための音素データベースを格納する。音素記憶部40は、ROM(Read Only Memory)およびRAM(Random Access Memory)により実現され得る。図3に示す例では、基本音素DB41、キャラクターA音素DB42、人物B音素DB43、人物C音素DB44を格納する。各音素DBには、音素データとして、例えば音素片とその制御情報である韻律モデルが記憶されている。
The
会話DB生成部50は、対話処理部300の会話DB330を生成する機能を有する。例えば会話DB生成部50は、想定される質問文データを収集し、各質問に対応する回答文データを収集した後に、質問文データと回答文データとを組にして保存する。そして、会話DB生成部50は、所定数の会話データ(質問文データと回答文データとの組、例えば100組)が集まったら、エージェントの会話データセットとして会話DB330に登録する。
The conversation
音素DB生成部60は、音素記憶部40に格納されている音素DBを生成する機能を有する。例えば音素DB生成部60は、所定のテキストを読み上げた音声情報を解析して、音素片とその制御情報である韻律モデルに分解し、所定数以上の音声情報が収集できたら音素データとして音素DBに登録する処理を行う。
The phoneme
広告挿入処理部70は、エージェントの対話に広告情報を挿入する機能を有する。挿入する広告情報は、広告DB72から抽出し得る。広告DB72には、企業等の提供側(ベンダー、サプライヤー)から依頼された広告情報(例えばテキスト、画像、音声等の広告内容、広告主、広告期間、広告対象者等の情報)が登録されている。
The advertisement
フィードバック取得処理部80は、エージェントの対話に、フィードバックを取得するための質問を挿入し、ユーザからフィードバックを得るための機能を有する。
The feedback
以上、本実施形態によるエージェントサーバ2の構成について具体的に説明した。なお、本実施形態によるエージェントサーバ2の構成は、図3に示す例に限定されない。例えば、エージェントサーバ2が有する各構成は、各々ネットワーク上の他サーバで構成されていてもよい。
The configuration of the
続いて、本実施形態による通信制御システムの基本的な動作処理について図5〜図14を参照して説明する。 Subsequently, the basic operation processing of the communication control system according to the present embodiment will be described with reference to FIGS. 5 to 14.
<<3.システム動作処理>>
<3−1.会話データ登録処理>
図5は、本実施形態による会話DB330の生成処理を示すフローチャートである。図5に示すように、まず、会話DB生成部50は、想定される質問文を保存する(ステップS103)。<< 3. System operation processing >>
<3-1. Conversation data registration process>
FIG. 5 is a flowchart showing the generation process of the
次に、会話DB生成部50は、質問文に対応する(対の)回答文を保存する(ステップS106)。
Next, the conversation
次いで、会話DB生成部50は、質問文と回答文のペア(会話データとも称す)が所定数集まったか否かを判断する(ステップS109)。
Next, the conversation
そして、質問文と会話文のペアが所定数集まった場合(ステップS109/Yes)、会話DB生成部50は、質問文および回答文の多数のペアから成るデータセットを会話DB330に登録する(ステップS112)。質問文および回答文のペアの一例としては、例えば下記のようなものが想定される。
Then, when a predetermined number of pairs of question sentences and conversation sentences are collected (step S109 / Yes), the conversation
質問文および回答文のペア例
ペア1
質問文:おはよう。
回答文:今日の調子はどうですか?
ペア2
質問文:今日の天気は?
回答文:今日の天気は○○です。Question and answer
Question: Good morning.
Answer: How are you doing today?
Question: What's the weather today?
Answer: Today's weather is XX.
このようなペアが、会話データとして会話DB330に登録され得る。
Such a pair can be registered in the
<3−2.音素DB生成処理>
図6は、本実施形態による音素DBの生成処理を示すフローチャートである。図6に示すように、まず、音素DB生成部60は、例文の表示を行う(ステップS113)。例文の表示は、例えば図示しない情報処理端末のディスプレイに、音素データ生成のために必要な例文を表示する。<3-2. Phoneme DB generation process>
FIG. 6 is a flowchart showing a phoneme DB generation process according to the present embodiment. As shown in FIG. 6, first, the phoneme
次に、音素DB生成部60は、例文を読み上げた音声を録音し(ステップS116)、録音音声を分析する(ステップS119)。例えば、エージェントの音声を担当する人物により読み上げられた音声情報が情報処理端末のマイクロホンにより収集され、音素DB生成部60がこれを受信し、記憶し、さらに音声分析を行う。
Next, the phoneme
次いで、音素DB生成部60は、音声情報に基づいて、韻律モデルを生成する(ステップS122)。韻律モデルとは、音声の韻律的特徴(例えば音の高低、音の強弱、発話速度等)を示す韻律パラメータを抽出するものであって、個人毎に異なる。
Next, the phoneme
次に、音素DB生成部60は、音声情報に基づいて、音素片(音素データ)を生成する(ステップS125)。
Next, the phoneme
次いで、音素DB生成部60は、韻律モデルおよび音素片を保存する(ステップS128)。
Next, the phoneme
続いて、音素DB生成部60は、韻律モデルおよび音素片が所定数集まったか否かを判断する(ステップS131)。
Subsequently, the phoneme
そして、韻律モデルおよび音素片が所定数集まった場合(ステップS131/Yes)、音素DB生成部60は、韻律モデルおよび音素片を、所定のエージェント用の音素データベースとして音素記憶部40に登録する(ステップS134)。
Then, when a predetermined number of prosody models and phoneme pieces are collected (step S131 / Yes), the phoneme
<3−3.対話制御処理>
図7は、本実施形態による対話制御処理を示すフローチャートである。図7に示すように、まず、音声エージェントI/F20は、ユーザの質問音声およびエージェントIDを取得したか否かを確認する(ステップS143)。エージェントIDは、キャラクターA、人物B、人物Cといった特定のエージェントを示す識別情報である。ユーザは、エージェント毎の音素データを購入することができ、例えば購入処理時に購入したエージェントのIDがクライアント端末1に保存される。<3-3. Dialogue control process>
FIG. 7 is a flowchart showing the dialogue control process according to the present embodiment. As shown in FIG. 7, first, the voice agent I / F20 confirms whether or not the user's question voice and the agent ID have been acquired (step S143). The agent ID is identification information indicating a specific agent such as character A, person B, and person C. The user can purchase phoneme data for each agent, for example, the ID of the agent purchased at the time of purchase processing is stored in the
次に、ユーザの質問音声およびエージェントIDを取得すると(ステップS146/Yes)、音声エージェントI/F20は、質問音声を音声認識し、テキスト化する(ステップS149)。音声エージェントI/F20は、テキスト化した質問文を、エージェントIDで指定された特定エージェントの対話処理部に出力する。例えば「エージェントID:キャラクターA」の場合、音声エージェントI/F20は、テキスト化した質問文をキャラクターA対話処理部32に出力する。
Next, when the user's question voice and agent ID are acquired (step S146 / Yes), the voice agent I / F20 voice-recognizes the question voice and converts it into text (step S149). The voice agent I / F20 outputs a textualized question sentence to the dialogue processing unit of the specific agent specified by the agent ID. For example, in the case of "agent ID: character A", the voice agent I /
次いで、対話処理部30は、エージェントIDで指定された特定エージェントの会話DBから、テキスト化した質問文と一致する質問文を検索する(ステップS152)。
Next, the
次に、一致する質問があった場合(ステップS155/Yes)、キャラクターA対話処理部32は、質問に対応する(対になって保存されている)回答文データを特定エージェントの会話DBから取得する(ステップS158)。
Next, when there is a matching question (step S155 / Yes), the character A
一方、一致する質問がなかった場合(ステップS155/No)、基本対話処理部31の会話DBから、テキスト化した質問文と一致する質問文が検索される(ステップS161)。 On the other hand, when there is no matching question (step S155 / No), a question sentence matching the textualized question sentence is searched from the conversation DB of the basic dialogue processing unit 31 (step S161).
一致する質問文があった場合(ステップS161/Yes)、基本対話処理部31は、質問に対応する(対になって保存されている)回答文データを基本対話処理部31の会話DBから取得する(ステップS167)。
When there is a matching question sentence (step S161 / Yes), the basic
一方、一致する質問文がなかった場合(ステップS164/No)、基本対話処理部31は、一致する質問文が無い場合の回答文データ(例えば、「質問が解りません」といった回答文)を取得する(ステップS170)。
On the other hand, when there is no matching question sentence (step S164 / No), the basic
次いで、キャラクターA対話処理部32により、エージェントIDで指定された特定エージェントの音素DB(ここでは、キャラクターA音素DB42)を参照し、回答文データの音声を生成するためのキャラクターAの音素データが取得される(ステップS173)。
Next, the character A
次に、取得された音素データと回答文データが音声エージェントI/F20に出力される(ステップS176)。 Next, the acquired phoneme data and the answer sentence data are output to the voice agent I / F20 (step S176).
そして、音声エージェントI/F20は、回答文データ(テキスト)を音素データを用いて音声化(音声合成)し、クライアント端末1に送信する(ステップS179)。クライアント端末1では、キャラクターAの音声で回答文が再生される。
Then, the voice agent I / F20 voices (speech synthesis) the answer sentence data (text) using the phoneme data and transmits it to the client terminal 1 (step S179). On the
<3−4.会話DB更新処理>
次に、各対話処理部300の会話DB330の更新処理について説明する。本実施形態では、ユーザとの会話によって会話DB330を成長させることが可能である。<3-4. Conversation DB update process>
Next, the update process of the
まず、会話DB330のデータ構成例について図8を参照して補足説明を行う。図8は、本実施形態による会話DB330のデータ構成例について説明する図である。図8に示すように、各会話DB330は、個人化レイヤー331と共通レイヤー332という2つのレイヤーを有する。例えばキャラクターA用会話DB330Aの場合、共通レイヤー332Aには、キャラクターAの性格や特徴が反映された会話データが保持される。一方、個人化レイヤー331Aには、ユーザとの会話により当該ユーザ向けにカスタマイズされた会話データが保持される。すなわち、キャラクターA音素DB42およびキャラクターA対話処理部32がセットでユーザに提供(販売)されるところ、あるユーザXと、ユーザYは、最初は同じキャラクターAと対話を行う(共通レイヤー332Aに保持されている会話データが使用される)が、対話を続けるにつれて、各ユーザ向けにカスタマイズされた会話データが、ユーザ毎の個人化レイヤー331Aに蓄積される。これにより、ユーザX、ユーザYそれぞれの好みに応じたキャラクターAとの対話を提供できるようになる。
First, a supplementary explanation will be given with reference to FIG. 8 regarding a data configuration example of the
またエージェント「人物B」が、キャラクターAのような特定の性格を有さない平均的な世代別の人物の場合も、会話データがユーザ向けにカスタマイズされ得る。すなわち、例えば「人物B」が『20代の人物』の場合、共通レイヤー332Bには20代の平均的な会話データが保持され、ユーザとの対話を続けることでカスタマイズされた会話データがユーザ毎の個人化レイヤー331Bに保持される。また、ユーザは、人物Bの音声として「男性」、「女性」、「高い声」、「低い声」といった好きな音素データを人物B音素DB43から選択し、購入することも可能である。
The conversation data can also be customized for the user when the agent "person B" is an average generational person such as character A who does not have a specific personality. That is, for example, when "person B" is "a person in his twenties", the average conversation data in his twenties is held in the
このような会話DB330のカスタマイズを行う際の具体的な処理について、図9を参照して説明する。図9は、本実施形態による会話DB330の更新処理を示すフローチャートである。
Specific processing when customizing the
図9に示すように、まず、音声エージェントI/F20は、クライアント端末1からユーザの質問音声を取得(受信)し、これを音声認識によりテキスト化する(ステップS183)。テキスト化されたデータ(質問文データ)は、エージェントIDにより指定されている特定エージェントの対話処理部(ここでは、例えばキャラクターA対話処理部32)に出力される。
As shown in FIG. 9, first, the voice agent I / F20 acquires (receives) a user's question voice from the
次に、キャラクターA対話処理部32は、質問文データが所定のコマンドであるか否かを判断する(ステップS186)。
Next, the character A
次いで、所定のコマンドである場合(ステップS186/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、会話DB330Aの個人化レイヤー331Aに質問文データと対で登録する(ステップS189)。所定のコマンドとは、例えば「NG」、「設定」といった言葉であってもよい。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
Next, in the case of a predetermined command (step S186 / Yes), the character A
ユーザ:「おはよう」
キャラクターA:「おはよう」
ユーザ:「NG。元気で頑張ってと答えて」
キャラクターA:「元気で頑張って」User: "Good morning"
Character A: "Good morning"
User: "NG. Answer that you are fine and do your best"
Character A: "Be fine and do your best"
上記の会話の流れでは、『NG』が所定のコマンドであって、キャラクターA対話処理部32は、ユーザから『NG』と発せられた後、ユーザ指定の回答文データ『元気で頑張って』を、質問文データ『おはよう』と対にして会話DB330Aの個人化レイヤー331Aに登録する。
In the above conversation flow, "NG" is a predetermined command, and the character A
一方、所定のコマンドでない場合(ステップS186/No)、キャラクターA対話処理部32は、質問文データと対になって保持されている回答文データをキャラクターA用会話DB330Aから検索する。問文データと対になって保持されている回答文データがキャラクターA用会話DB330Aに保持されていない場合、すなわち、ユーザの質問が回答文の無い質問であった場合(ステップS192/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、質問文と対にして個人化レイヤー331Aに登録する(ステップS195)。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
On the other hand, when the command is not a predetermined command (step S186 / No), the character A
ユーザ:「元気?」
キャラクターA:「質問がわかりません」(該当する回答が無い場合の回答データ例)
ユーザ:「『元気?』と聞いたら、『今日も元気だよ』と答えて」
キャラクターA:「今日も元気だよ」User: "How are you?"
Character A: "I don't understand the question" (example of answer data when there is no corresponding answer)
User: "When you ask,'How are you?', Answer'I'm fine today.'"
Character A: "I'm fine today"
上記会話の流れでは、『元気?』と対になって保持される回答文データが無いため、該当する回答が無い場合の回答データ例である『質問がわかりません』がキャラクターA対話処理部32により取得され、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力され、クライアント端末1で再生される。次いで、ユーザ指定の回答文『今日も元気だよ』が入力されると、キャラクターA対話処理部32は、質問文データ『元気?』と対にして個人化レイヤー331Aに登録する。
In the flow of the above conversation, "How are you? Since there is no answer sentence data that is held as a pair with "", "I don't understand the question", which is an example of answer data when there is no corresponding answer, is acquired by the character A
なお、回答文の有る質問であった場合(ステップS192/No)、キャラクターA対話処理部32は、当該回答文データを取得し、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力し、クライアント端末1で回答文がキャラクターAの音声で再生される(ステップS198)。
If the question has an answer sentence (step S192 / No), the character A
次いで、個人化レイヤーから共通レイヤーへの会話データ移行について、図10を参照して説明する。図10は、本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。ここでは、一例としてキャラクターA対話処理部32の個人化レイヤー331Aから共通レイヤー332Aへの会話データ移行処理について説明する。
Next, the transfer of conversation data from the personalized layer to the common layer will be described with reference to FIG. FIG. 10 is a flowchart showing a conversation data transfer process from the personalized layer to the common layer according to the present embodiment. Here, as an example, the conversation data transfer process from the
図10に示すように、まず、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aを定期的にサーチし(ステップS203)、実質的に同じ内容の会話ペア(質問文データと回答文データのペア)を抽出する(ステップS206)。実質的に同じ内容の会話ペアとは、例えば質問文「元気?」と回答文「今日も元気だよ!」のペアと、質問文「元気ですか?」と回答文「今日も元気だよ!」のペアは、質問文が丁寧語か否かの違いのみであって、実質的に同じ内容の会話ペアと判断され得る。
As shown in FIG. 10, first, the character A
次に、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aから会話ペアが所定数以上抽出された場合(ステップS209/Yes)、当該会話ペアを(ユーザ毎の)共通レイヤー332Aに登録する(ステップS212)。
Next, when the character A
このように、ユーザ毎の個人化レイヤー331において実質的に内容が同じ会話ペアを共通レイヤー332に移行することで、共通レイヤー332を成長(会話ペアを拡充)させることが可能となる。 In this way, by migrating the conversation pairs having substantially the same contents in the personalization layer 331 for each user to the common layer 332, it is possible to grow the common layer 332 (expand the conversation pairs).
また、本実施形態では、特定エージェントの会話DB(具体的には共通レイヤー)から基本対話用の会話DBへ会話データを移行して基本対話用の会話DBを成長させることも可能である。図11は、本実施形態による基本対話用会話DB330Fへの会話データの移行について説明する図である。例えば、ユーザXおよびユーザYが各々エージェント「キャラクターA」を選択(購入)し、ユーザZがエージェント「人物B」を選択(購入)している場合、図11に示すように、ユーザXのキャラクターA用会話DB330A−X、ユーザYのキャラクターA用会話DB330A−Y、およびユーザZの人物B用会話DB330B−Zが対話処理部30に存在し得る。この場合、各個人化レイヤー331A−X、331A−Y、331B−Zには、各ユーザX、ユーザY、ユーザZとの対話に応じて独自の(カスタマイズされた)会話ペアが登録されていく(図9参照)。次いで、同じエージェントの個人化レイヤー331A−X、331A−Yにおいて実質同じ会話ペアが所定数あると、ユーザ毎の共通レイヤー332A−X、332A−Yに各々登録される(図10参照)。
Further, in the present embodiment, it is also possible to grow the conversation DB for basic dialogue by migrating the conversation data from the conversation DB (specifically, the common layer) of the specific agent to the conversation DB for basic dialogue. FIG. 11 is a diagram illustrating the transfer of conversation data to the basic conversation conversation DB 330F according to the present embodiment. For example, when user X and user Y each select (purchase) agent "character A" and user Z select (purchase) agent "person B", as shown in FIG. 11, the character of user X The conversation DB330A-X for A, the conversation DB330A-Y for character A of user Y, and the conversation DB330B-Z for person B of user Z may exist in the
そして、対話処理部30は、複数のエージェント(異なるエージェントを含んでもよい)の共通レイヤー332A−X、332A−Y、332B−Zから実質同じ会話ペアが所定数以上抽出された場合、上位の基本対話用会話DB330Fに会話ペアを移行する。基本対話用会話DB330Fは、基本対話処理部31が有する会話DBである。これにより、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。かかるデータ移行処理について、図12を参照して具体的に説明する。図12は、本実施形態による基本対話用DB330Fへの会話データ移行処理を示すフローチャートである。
Then, the
図12に示すように、まず、対話処理部30は、定期的に会話DB330の複数の共通レイヤー332をサーチし(ステップS223)、実質同じ会話ペアを抽出する(ステップS226)。
As shown in FIG. 12, first, the
次に、対話処理部30は、複数の共通レイヤー332から実質同じ会話ペアが所定数以上抽出された場合(ステップS229/Yes)、当該会話ペアを基本対話用会話DB330Fに登録する(ステップS232)。
Next, when a predetermined number or more of substantially the same conversation pairs are extracted from the plurality of common layers 332 (step S229 / Yes), the
このように、複数のエージェントにおける会話DB330の共通レイヤー332において実質的に内容が同じ会話ペアを、基本対話用会話DB330Fに移行することで、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。 In this way, the conversation pair for basic dialogue DB330F is grown (expanded conversation pair) by migrating the conversation pair having substantially the same content in the common layer 332 of the conversation DB330 among the plurality of agents to the conversation DB330F for basic dialogue. It becomes possible.
<3−5.広告出力処理>
続いて、広告挿入処理部70による広告情報の挿入処理について図13〜図14を参照して説明する。本実施形態では、広告挿入処理部70により、エージェントの発言に広告DB72に格納されている広告情報の挿入を行うことが可能である。広告DB72には、予め広告情報が登録され得る。図13は、本実施形態による広告DB72に登録されている広告情報の一例を示す図である。<3-5. Advertisement output processing>
Subsequently, the process of inserting the advertisement information by the advertisement
図13に示すように、広告情報621は、例えばエージェントID、質問文、広告内容、条件、および確率を含む。エージェントIDは広告内容を発言するエージェントを指定し、質問文は広告内容を挿入するトリガとなるユーザの質問文を指定し、広告内容はエージェントの対話に挿入する広告文章である。また、条件は、広告内容を挿入する条件であって、確率は広告内容を挿入する確率を示す。例えば図13の1段目に示す例では、エージェント「キャラクターA」との対話において、30歳以下のユーザからの質問文に「チョコレート」という単語が含まれている場合に、「BB社の新しく発売されたチョコはミルクがたくさん入っていて美味しいよ」といった広告内容が回答文に挿入される。また、トリガとなる質問文が発せられた際に毎回広告内容を挿入するとユーザが煩わしく思ってしまうこともあるため、本実施形態では、広告を挿入する確率を設定するようにしてもよい。かかる確率は広告料に応じて決定されてもよい。例えば広告料が高いほど確率が高く設定される。
As shown in FIG. 13, the
このような広告内容の挿入処理について図14を参照して具体的に説明する。図14は、本実施形態による広告内容の挿入処理を示すフローチャートである。 Such an advertisement content insertion process will be specifically described with reference to FIG. FIG. 14 is a flowchart showing an advertisement content insertion process according to the present embodiment.
図14に示すように、まず、広告挿入処理部70は、ユーザとエージェントとの対話(具体的には、対話処理部30による対話処理)を監視する(ステップS243)。
As shown in FIG. 14, first, the advertisement
次に、広告挿入処理部70は、ユーザとエージェントとの対話に、広告DB72に登録されている質問文と同一の内容の質問文が登場したか否かを判断する(ステップS246)。
Next, the advertisement
次いで、同一の内容の質問文が登場した場合(ステップS246/Yes)、広告挿入処理部70は、該当する質問文と対応付けられている広告挿入の条件および確率を確認する(ステップS249)。
Next, when a question sentence having the same content appears (step S246 / Yes), the advertisement
続いて、広告挿入処理部70は、条件および確率に基づいて、現在、広告が出せる状態であるか否かを判断する(ステップS252)。
Subsequently, the advertisement
次に、広告が出せる状態である場合(ステップS252/Yes)、広告挿入処理部70は、対話処理部30による対話処理を一時停止させ(ステップS255)、広告内容を対話に挿入する(ステップS258)。具体的には、例えばユーザの質問文に対するエージェントの回答文に、広告内容を挿入させる。
Next, when the advertisement can be put out (step S252 / Yes), the advertisement
そして、広告内容を含む対話(会話文データ)が対話処理部30から音声エージェントI/F20に出力され、音声エージェントI/F20からクライアント端末1に送信され、エージェントの音声で再生される(ステップS261)。具体的には、例えば以下のような会話により、キャラクターAの発言としてユーザに広告内容を提示することができる。
Then, the dialogue (conversation text data) including the advertisement content is output from the
ユーザ:「おはよう」
キャラクターA:「おはよう!今日の調子はどうですか?」
ユーザ:「元気だよ。何か美味しい物食べたいな」
キャラクターA:「CC店の焼肉が美味しいらしいよ」User: "Good morning"
Character A: "Good morning! How are you doing today?"
User: "I'm fine. I want to eat something delicious."
Character A: "It seems that the grilled meat at the CC store is delicious."
上記会話では、まず、ユーザの質問文「おはよう」に対して、キャラクターAの会話DBから検索された対応する回答文「おはよう!今日の調子はどうですか?」が音声出力される。次いで、ユーザの質問文「元気だよ。何か美味しい物食べたいな」に、広告挿入のトリガとなる質問文「何か美味しい物食べたいな」が含まれているため(図13の2段目参照)、広告挿入処理部70は広告挿入処理を行い、キャラクターAの音声で広告内容「CC店の焼肉が美味しいらしいよ」といった回答文が出力される。
In the above conversation, first, in response to the user's question sentence "Good morning", the corresponding answer sentence "Good morning! How are you doing today?" Searched from the conversation DB of the character A is output by voice. Next, because the user's question "I'm fine. I want to eat something delicious" includes the question "I want to eat something delicious" that triggers the insertion of advertisements (2nd row in Fig. 13). (See eyes), the advertisement
以上、本実施形態による通信制御システムの基本的な動作処理として、会話データ登録処理、音素DB生成処理、対話制御処理、会話DB更新処理、および広告挿入処理について説明した。 As described above, conversation data registration processing, phoneme DB generation processing, dialogue control processing, conversation DB update processing, and advertisement insertion processing have been described as basic operation processing of the communication control system according to the present embodiment.
さらに、本実施形態による通信制御システムの対話処理部30は、エージェントの音声発話機能を用いて、エージェントのキャラクターにユーザ自身がなりきる体験を提供し、エージェントシステムの楽しさを高めることを可能とする。このような本実施形態による対話処理部30の音声出力制御処理について、図15〜図42を参照して具体的に説明する。
Further, the
<<4.音声出力制御処理>>
<4−1.構成>
まず、本実施形態による音声出力制御処理を行う対話処理部30aの構成について、図15を参照して説明する。<< 4. Audio output control processing >>
<4-1. Configuration>
First, the configuration of the dialogue processing unit 30a that performs the voice output control processing according to the present embodiment will be described with reference to FIG.
図15は、本実施形態による対話処理部30aの構成例を示す図である。図15に示すように、対話処理部30aは、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34、ユーザ管理部35、自動発話制御部36、およびシナリオ管理部37を有する。
FIG. 15 is a diagram showing a configuration example of the dialogue processing unit 30a according to the present embodiment. As shown in FIG. 15, the dialogue processing unit 30a includes a basic
基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34は、図3および図4を参照して説明したように、ユーザの発話に対応するエージェントの応答を生成する機能を有する。基本対話処理部31は、エージェントに特化しない汎用の応答を生成し、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34は、各エージェントキャラクター(キャラクターA、人物B、人物C)にそれぞれ特化した応答を生成する。
The basic
(ユーザ管理部35)
ユーザ管理部35は、ユーザ情報の管理(登録、変更、更新、削除)を行う。図16に、本実施形態によるユーザ管理部35の構成例を示す。図16に示すように、ユーザ管理部35は、ログイン管理部351、ユーザ情報DB352、顔情報登録部353、およびユーザ位置情報登録部354を有する。(User Management Department 35)
The
ログイン管理部351は、クライアント端末1からの要求に応じて、ユーザのログイン認証を行う。具体的には、例えばログイン管理部351は、ユーザによりクライアント端末1で入力されたアカウント情報(アカウント名、パスワード)をユーザ情報DB352と参照し、ログイン認証を行う。ユーザ情報DB352は、ユーザID、アカウント情報、ユーザ属性情報(誕生日、性別、郵便番号等)、顔情報、購入した(ユーザ所有の)エージェントIDおよびシナリオID等を含むユーザ情報を記憶する。これらのユーザ情報は、例えばエージェントサーバ2の音声エージェントI/F20(図3参照)を介してクライアント端末1から送信され、登録される。
The
顔情報登録部353は、ユーザの顔情報をユーザ情報DB52に登録する。ユーザの顔情報は、例えばクライアント端末1に設けられたカメラにより撮像されたユーザの顔画像を解析した結果であって、クライアント端末1からエージェントサーバ2へ送信され得る。なお、クライアント端末1から顔画像が送信され、顔情報登録部353において解析してもよい。
The face
ユーザ位置情報登録部354は、ユーザの現在位置情報をユーザ情報DB52に登録する。ユーザの現在位置情報は、例えばクライアント端末1に設けられたGPS(Global Positioning System)等の位置測位部により測位され、定期的にエージェントサーバ2に送信される。
The user position
(自動発話制御部36)
自動発話制御部36は、エージェントによる自動的な発話を制御する機能を有する。図17に、本実施形態による自動発話制御部36の構成例を示す。図17に示すように、自動発話制御部36は、ユーザ音声抽出部361、音素データ取得部362、位置情報取得部363、フレーズ検索部364、フレーズDB365、および情報解析部366を有する。(Automatic utterance control unit 36)
The automatic
ユーザ音声抽出部361は、入力された音声情報を解析し、ユーザ音声を抽出する。かかる音声情報は、例えばクライアント端末1のマイクロホンにより収音され、ネットワークを介してクライアント端末1からエージェントサーバ2に送信される。エージェントサーバ2では、音声エージェントI/F20により受信した当該音声情報を対話処理部30aへ出力する。なおクライアント端末1は、継続的、定期的、または所定のタイミングで周辺の音声情報を収音し、エージェントサーバ2へ送信する。ユーザ音声抽出部361は、抽出したユーザ音声をテキスト化し(発話テキストの生成)、音素データ取得部362へ出力する。
The user
位置情報取得部363は、ユーザの現在位置情報を取得し、フレーズ検索部364へ出力する。ユーザの現在位置情報は、クライアント端末1から送信され得る。
The position
情報解析部366は、クライアント端末1から送信されたユーザ状況を示す種々の情報を解析し、解析結果をフレーズ検索部364へ出力する。具体的には、例えば情報解析部366は、クライアント端末1から送信された顔情報(撮像画像に基づいて解析された、現在のユーザの顔情報または周囲に居る人物の顔情報)から顔の表情を解析する。また、情報解析部366は、クライアント端末1から送信された加速度情報(加速度センサにより検知された情報)からユーザ行動(走っている、ジャンプしている、寝ている等)を解析する。また、情報解析部366は、クライアント端末1から送信された音声情報(マイクロホンにより収音された音声情報)から環境音(ユーザ周辺の雑音等)を解析する。また、情報解析部366は、クライアント端末1から送信された生体情報(脈拍センサ、心拍センサ、発汗センサ、体温センサ、血圧センサ、脳波センサ等により検知された情報)からユーザ状態(緊張している、怒っている、悲しんでいる、喜んでいる等)を解析する。そして、情報解析部366は、解析結果(ユーザまたは周辺人物の状況)をフレーズ検索部364へ出力する。
The
フレーズ検索部364は、位置情報取得部363により取得されたユーザ位置、情報解析部366により解析されたユーザまたは相手の表情、ユーザ行動、またはユーザ状況等に応じたフレーズ(発話フレーズとも称す)をフレーズDB365から検索し、検索結果を音素データ取得部362へ出力する。フレーズには、ナレーションや効果音が紐付けられていてもよい。また、フレーズDB365は、エージェントキャラクター毎のフレーズデータが格納される。ここで、下記表1に、フレーズDB365に格納されるエージェントキャラクター「ヒーロー」のフレーズデータ例を示す。下記表1に示すように、フレーズDB365には、状況とフレーズや効果音が対応付けて記憶されている。下記表1に示す例では、一のセンサ種別に「状況」が対応付けられているが、本実施形態はこれに限定されず、複数のセンサの解析結果に基づいて「状況」が総合的に判断されてもよい。また、本実施形態では、複数の状況(場所、表情、時刻、状態等)が条件を満たす場合に対応する「フレーズ、効果音」が対応付けられていてもよい。
The
音素データ取得部362は、音声抽出部361から出力された発話テキスト、またはフレーズ検索部364から出力されたフレーズ、ナレーションを音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば音素データ取得部362は、ユーザ音声をユーザ指定のエージェントの音声に変換するため、当該エージェントの音素データを発話テキストに応じて取得する。クライアント端末1からは、特定のエージェントキャラクターを選択する選択信号が送信され得る。
The phoneme
(シナリオ管理部37)
シナリオ管理部37は、エージェントキャラクターに紐付けられた各シナリオの管理を行う。図18に、本実施形態によるシナリオ管理部37の構成例を示す。図18に示すように、シナリオ管理部37は、データ管理部371、シナリオ実行部372、情報解析部373、およびシナリオDB374を有する。(Scenario Management Department 37)
The
データ管理部371は、シナリオDB374に格納されているシナリオの登録、変更、更新、削除といった管理を行う。シナリオDB374には、各エージェントキャラクターに対応する1以上のシナリオデータが格納されている。シナリオデータには、タイトル、あらすじ、購入金額等が付随情報として付与され、さらに、イベント(シナリオイベントとも称す)に関するデータが含まれる。イベントに関するデータには、イベント発生のトリガとなる状況(場所、ユーザ行動、表情、ユーザ発話等)と、イベントの開催時刻(開催期間)等が含まれる。
The
シナリオ実行部372は、ユーザが参加中のシナリオに従って、エージェントキャラクターの音声や画像をユーザに提示するよう制御する。具体的には、シナリオ実行部372は、シナリオに基づく音声や画像等の提示情報を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信するよう制御する。また、シナリオ実行部372は、情報解析部373による解析結果に基づいて、シナリオに含まれるイベントのトリガ判断を行い、イベントが発生する場合はイベントの音声や画像等の提示情報を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信するよう制御する。
The
情報解析部373は、クライアント端末1から送信されたユーザ状況を示す種々の情報を解析し、解析結果をフレーズ検索部364へ出力する。ユーザ状況を示す種々の情報とは、例えば位置情報、顔情報(撮像画像に基づいて解析された、現在のユーザの顔情報または周囲に居る人物の顔情報)、加速度情報、音声情報、生体情報等である。
The
ここで、下記表2に、シナリオDB374に格納されるシナリオデータに含まれるイベントデータ例を示す。下記表2に示すように、イベントデータでは、トリガ発生の条件、イベント内容、およびアクションが対応付けられている。
Here, Table 2 below shows an example of event data included in the scenario data stored in the
以上、本実施形態による対話処理部30aの構成について具体的に説明した。続いて、本実施形態による動作処理について図19〜図42を参照して具体的に説明する。 The configuration of the dialogue processing unit 30a according to the present embodiment has been specifically described above. Subsequently, the operation processing according to the present embodiment will be specifically described with reference to FIGS. 19 to 42.
<4−2.動作処理>
(4−2−1.エージェント購入処理)
図19は、本実施形態によるエージェントアプリケーションの購入処理を示すシーケンス図である。ここで、エージェントアプリケーションとは、特定のエージェントキャラクターによる自動対話をクライアント端末1で享受するために使用されるソフトウェアであって、エージェントアプリケーションの購入は、「エージェントの購入」とも言える。以下、アプリケーションを「App」とも称する。<4-2. Operation processing>
(4-2-1. Agent purchase process)
FIG. 19 is a sequence diagram showing a purchase process of the agent application according to the present embodiment. Here, the agent application is software used to enjoy automatic dialogue by a specific agent character on the
図19に示すように、まず、クライアント端末1は、エージェントサーバ2により提供されるアプリケーションショップのWebサイトから任意の(すなわち、ユーザにより選択された)エージェントAppのダウンロードおよびインストールを行う(ステップS270)。なお、クライアント端末1とエージェントサーバ2は、ネットワークを介して接続される。エージェントサーバ2のデータの送受信は、音声エージェントI/F20により行われ得る。
As shown in FIG. 19, first, the
次いで、クライアント端末1は、エージェントAppを起動(初回起動)する(ステップS273)。ユーザアカウントが登録済みでない場合(ステップS276/No)、アカウントの登録処理をエージェントサーバ2に要求する(ステップS279)。
Next, the
次に、エージェントサーバ2のユーザ管理部35(図16参照)は、クライアント端末1からの要求に応じて、新規アカウント情報をユーザ情報DB352に登録する(ステップS282)。新規アカウント情報は、アカウント名やパスワード、ユーザ属性情報(性別、生年月日、ニックネーム)等であって、クライアント端末1においてユーザにより入力され、アカウント登録処理の要求と共に送信される。
Next, the user management unit 35 (see FIG. 16) of the
一方、ユーザアカウントが登録済みである場合(ステップS276/Yes)、クライアント端末1は、ログイン処理をエージェントサーバ2に要求する(ステップS285)。
On the other hand, when the user account is already registered (step S276 / Yes), the
次いで、新規アカウント登録を行った場合若しくはログイン処理要求を受信した場合、エージェントサーバ2のログイン管理部351は、ユーザ情報DB352を参照し、アカウントのログイン処理を行う(ステップS288)。ログイン処理の要求では、クライアント端末1においてユーザにより入力されたアカウント名とパスワードが送信されるので、ログイン管理部351はユーザ情報DB352を参照して照合する。
Next, when a new account is registered or a login processing request is received, the
次に、ログイン処理が正常に完了すると、エージェントサーバ2は、ログイン完了通知を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信する(ステップS291)。
Next, when the login process is normally completed, the
次いで、クライアント端末1は、クライアント端末1のカメラ(または周辺に存在する通信可能な外部端末に設けられているカメラ)を起動し、ユーザの顔を撮像し、撮像画像(顔画像)から顔情報を取得する(ステップS294)。顔情報は、撮像画像(顔画像)の解析結果でもよいし、顔画像自体であってもよい。
Next, the
次に、クライアント端末1は、顔情報をエージェントサーバ2へ送信し(ステップS297)、エージェントサーバ2は、顔情報をユーザ情報DB352に登録する(ステップS300)。
Next, the
続いて、クライアント端末1は、バックグラウンドでエージェントAppを実行させるか否かのユーザによる選択を受け付け(ステップS303)、選択内容を設定情報としてエージェントサーバ2へ送信する(ステップS306)。
Subsequently, the
次いで、エージェントサーバ2は、設定情報をユーザ情報DB352に保存する(ステップS309)。なおかかる設定情報はクライアント端末1の記憶部に保存されていてもよい。
Next, the
そして、クライアント端末1は、起動したエージェントAppに従ってメイン画面を表示する(ステップS312)。
Then, the
以上、エージェントApp購入とエージェントApp初回起動時の処理について説明した。ここで、エージェントApp購入とエージェントApp初回起動時におけるクライアント端末1での表示画面例について図20〜図22を参照して説明する。
The processing for purchasing the Agent App and starting the Agent App for the first time has been explained above. Here, an example of a display screen on the
図20は、本実施形態によるエージェントアプリケーションの購入時における表示画面例を示す図である。図20左に示す画面100には、購入対象の候補となる複数のエージェントAppのタイトルが表示されている。画面100に示す各エージェントAppのタイトルは、例えばエージェントキャラクターの名称である。例えばエージェントキャラクター「パワフルマン」を購入したい場合、ユーザは、画面100の「エージェントApp『パワフルマン』」を選択する。この場合、画面100は図20中央に示す画面101に遷移する。
FIG. 20 is a diagram showing an example of a display screen at the time of purchasing the agent application according to the present embodiment. On the
画面101には、アカウント情報入力欄、アカウント作成ボタン、および「アカウントをお持ちの方はこちら」ボタンが表示されている。アプリケーションショップを利用するためのアカウントを既に登録済みの場合、ユーザは、「アカウントをお持ちの方はこちら」ボタンを選択する。この場合、画面101は図20右に示す画面102に遷移する。
On the
画面102には、アカウント名入力欄、パスワード入力欄、およびログインボタンが表示されている。ユーザは、登録済みのアカウント名(ユーザ名/ID、ログイン名/IDとも称される)およびパスワードを入力し、ログインボタンを選択する。ログインボタンが選択されると、クライアント端末1は、入力されたアカウント名およびパスワードと共に、エージェントサーバ2に対してログイン処理要求を行う。
On the
一方、アカウントが未登録の場合、画面101においてアカウント名等の入力を行い、アカウントの作成をエージェントサーバ2に依頼する。図21は、本実施形態によるアカウント登録画面例を示す図である。図21左の画面103に示すように、アカウント名等が入力され、「アカウント作成」ボタンが選択されると、クライアント端末1は、入力された情報と共にアカウント登録処理の要求をエージェントサーバ2に対して行う。
On the other hand, if the account is not registered, the account name and the like are input on the
エージェントサーバ2においてアカウント登録処理が正常に完了すると、図21右に示すように、アカウント作成が完了したことを通知する画面104が表示される。画面104には、「続いて、お客様の顔情報を登録しますか?」といったテキストが表示され、「はい」ボタンが選択されると、クライアント端末1のカメラが起動し、ユーザの顔の撮像、および顔情報の抽出(解析)が行われる。抽出された顔情報は、エージェントサーバ2へ送信され、ユーザ情報として登録される。
When the account registration process is normally completed on the
図22は、本実施形態によるメイン画面例を示す図である。エージェントAppの初回起動においてログイン処理やアカウント登録処理が終了すると、図22の左に示すように、エージェントAppを開始するか否かを確認する画面105が表示される。開始する場合、ユーザは画面105に表示されている「はい」ボタンを選択する。なお画面105には、バックグラウンドでの実行可否を設定するためのチェックボックスも表示されている。ユーザは、エージェントAppをバックグラウンドで実行したい場合にはチェックを入れる。クライアント端末1は、当該チェックボックスへのチェックの有無を、バックグラウンドでの実行可否の設定情報としてエージェントサーバ2へ送信する。
FIG. 22 is a diagram showing an example of a main screen according to the present embodiment. When the login process and the account registration process are completed in the initial startup of the agent application, a
画面105の「はい」ボタンが選択されると、エージェントAppのメイン画面106が表示される。ここでは、例えばヒーローキャラクターの「パワフルマン」の画像がクライアント端末1の表示部に表示され、さらに「この街は俺が守る!」といった「パワフルマン」の音声やテーマ曲がクライアント端末1のスピーカーから再生される。
When the "Yes" button on the
(4−2−2.音声変換処理)
続いて、本実施形態による音声変換処理について図23〜図24を参照して説明する。図23は、本実施形態による音声変換処理について説明する図である。本実施形態では、図23に示すように、ユーザの発話音声W4をクライアント端末1(またはクライアント端末1と通信接続する周辺に存在するウェアラブル装置)のマイクロホンにより収音すると、これを対話処理部30aの自動発話制御部36により特定のエージェントキャラクターの音声W5に変換してユーザが装着するイヤホン等から再生する。特定のエージェントキャラクターとは、例えばクライアント端末1において起動中のエージェントAppに対応するキャラクターであって、当該エージェントAppを起動する操作が、実質的なユーザによるエージェントキャラクターの選択として認識され、選択信号がエージェントサーバ2へ送信される。このように、ユーザは自分の発話音声がエージェントキャラクターの音声で聞こえることで、エージェントキャラクターに成りきることができる。(4-2-2. Voice conversion processing)
Subsequently, the voice conversion process according to the present embodiment will be described with reference to FIGS. 23 to 24. FIG. 23 is a diagram illustrating the voice conversion process according to the present embodiment. In the present embodiment, as shown in FIG. 23, when the user's utterance voice W 4 is picked up by the microphone of the client terminal 1 (or a wearable device existing in the vicinity of communicating with the client terminal 1), this is picked up by the dialogue processing unit. The automatic
図24は、本実施形態による音声変換処理を示すシーケンス図である。図24に示すように、まず、クライアント端末1は、マイクロホンにより音データを収音すると(ステップS320)、収音した音データをエージェントサーバ2へ送信する(ステップS323)。この際、クライアント端末1は、ユーザが選択しているエージェントキャラクターを示す選択信号も併せて送信してもよい。これらのデータは、クライアント端末1からネットワーク3を介してエージェントサーバ2へ送信され、エージェントサーバ2の音声エージェントI/F20(通信部として機能)で受信され得る。
FIG. 24 is a sequence diagram showing the voice conversion process according to the present embodiment. As shown in FIG. 24, first, when the
次いで、エージェントサーバ2は、自動発話制御部36のユーザ音声抽出部361(図17参照)により、音データを解析し、ユーザ音声の抽出を行う。エージェントサーバ2は、ユーザ音声が抽出できた場合、これをユーザに選択された特定のエージェントキャラクター(ここでは、例えば「ヒーローキャラクター」)の音声に変換する(ステップS326)。より具体的には、エージェントサーバ2は、対話処理部30aのユーザ音声抽出部361により抽出、テキスト化したユーザ音声文をエージェントキャラクターの音声で音声化するための音素データを対話処理部30aの音素データ取得部362により取得する。そして、対話処理部30aから出力されたユーザ音声文および対応する特定のエージェントキャラクターの音素データに基づいて、音声エージェントI/F20により、ユーザ音声文を特定のエージェントキャラクターの音声で音声化し(音声変換)、音声化したデータ(音声データ)を音声エージェントI/F20からネットワークを介してクライアント端末1へ送信する(ステップS329)。
Next, the
次に、クライアント端末1は、エージェントサーバ2で変換されたヒーローキャラクターの声色の音声データをイヤホン等(スピーカーの一例)から再生する(ステップS332)。
Next, the
以上、音声変換処理について説明したが、本実施形態は、上述したような聴覚的な成りきりに限定されず、視覚的にも成りきり体験を提供することが可能である。以下、図25を参照して説明する。 Although the voice conversion process has been described above, the present embodiment is not limited to the above-mentioned auditory pretext, and it is possible to provide a visual prescription experience. Hereinafter, description will be made with reference to FIG.
図25は、本実施形態によるAR(Augmented Reality)変身による視覚的な成りきりについて説明する図である。本実施形態では、図25に示すように、例えばクライアン端末1に設けられたカメラでユーザ自身の顔を撮像し、撮像したユーザの顔画像に、エージェントキャラクターの顔画像を重畳表示した画面107を生成して表示することで、視覚的な成りきり体験を提供することができる。この際、エージェントサーバ2により、撮像した顔画像に基づく顔認識、すなわちユーザ情報DB3532に登録された顔情報と一致するか否かの確認を行い、一致する場合は当該顔画像にエージェントキャラクターの顔画像を重畳表示するようにしてもよい。また、上述した音声変換の聴覚的な成りきり体験と併せて視覚的な成りきり体験を提供するようにしてもよい。
FIG. 25 is a diagram for explaining the visual premise of AR (Augmented Reality) transformation according to the present embodiment. In the present embodiment, as shown in FIG. 25, for example, a camera provided in the
(4−2−3.自動発話処理)
続いて、ユーザ状況に応じた特定エージェントキャラクターの自動発話処理について図26A〜図26Dを参照して説明する。ユーザ状況とは、例えばユーザの場所、人物属性や表情、行動状態(行動認識)、および心理状態等が想定される。(4-2-3. Automatic utterance processing)
Subsequently, the automatic utterance processing of the specific agent character according to the user situation will be described with reference to FIGS. 26A to 26D. The user situation is assumed to be, for example, the user's location, personal attributes and facial expressions, behavioral state (behavior recognition), psychological state, and the like.
図26Aは、本実施形態による場所に応じた自動発話処理を示すシーケンス図である。図26Aに示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS340)、エージェントサーバ2へ現在位置情報を送信する(ステップS342)。このような現在位置情報の取得および送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
FIG. 26A is a sequence diagram showing automatic utterance processing according to a location according to the present embodiment. As shown in FIG. 26A, first, the
次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信され位置情報取得部363により取得したクライアント端末1の位置情報(場所)に対応するフレーズを、フレーズ検索部364によりフレーズDB365を参照して検索する(ステップS344)。例えば上記表1に示しように、特定の場所(XX都市、Y公園、Z駅等)や一般的な場所(駅、郵便局、公園、海等)に紐付けられたフレーズや効果音が検索される。
Next, the automatic
次いで、場所に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS346/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS348)。具体的には、音素データ取得部362によりフレーズを音声化するためのヒーローキャラクターの音素データを音素記憶部40から取得し、取得された音素データおよびフレーズが音声エージェントI/F20に出力され、音声エージェントI/F20によりフレーズの音声化処理(例えば音声合成)が行われる。
Next, when a phrase corresponding to the location is found (that is, the search is hit) (step S346 / Yes), the automatic
続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS350)。
Subsequently, the
そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS352)。これにより、ユーザが所定の場所に移動したことをトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその場所に対応するフレーズが再生される。
Then, the
図26Bは、本実施形態による人物属性や表情に応じた各自動発話処理を示すシーケンス図である。図26Bに示すように、まず、クライアント端末1は、カメラを起動し、撮像画像を取得し(ステップS354)、エージェントサーバ2へ撮像画像を送信する(ステップS356)。このようなカメラの起動、撮像、および送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。カメラは、クライアント端末1がユーザの視線方向等ユーザの周辺を撮像する外向きのカメラ(アウトカメラとも称される)と、クライアント端末1を操作するユーザを撮像する内向きのカメラ(インカメラとも称される)とが想定される。
FIG. 26B is a sequence diagram showing each automatic utterance process according to a person's attributes and facial expressions according to the present embodiment. As shown in FIG. 26B, first, the
次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された撮像画像がインカメラで撮像されたものであるか否かを判断する(ステップS358)。インカメラで撮像されたか否かは、例えば撮像画像に付属するメタデータから判断し得る。
Next, the automatic
次いで、インカメラである場合(ステップS358/Yes)、撮像画像にはユーザが写っていると判断され、フレーズ検索部364は、情報解析部366による顔画像解析結果に基づいて、顔の表情に対応するフレーズをフレーズDB365から検索する(ステップS360)。例えば上記表1に示したように、ユーザが笑顔の場合に対応するフレーズや効果音、若しくはユーザが怒り顔の場合に対応するフレーズや効果音等が検索される。
Next, in the case of the in-camera (step S358 / Yes), it is determined that the user is shown in the captured image, and the
一方、インカメラでない場合(ステップS358/No)、すなわちアウトカメラで撮像されたものである場合、撮像画像にはユーザ周辺の人物(例えばユーザと対面する人物)が写っていると判断され、フレーズ検索部364は、情報解析部366による顔画像解析結果に基づいて、対面する人物の属性(年齢、性別、雰囲気等)や表情に対応するフレーズをフレーズDB365から検索する(ステップS362)。例えば上記表1に示したように、対面する相手が女性である場合に対応するフレーズや効果音等が検索される。
On the other hand, when it is not an in-camera (step S358 / No), that is, when it is captured by an out-camera, it is determined that a person around the user (for example, a person facing the user) is captured in the captured image, and the phrase The
次いで、人物属性や表情に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS364/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS366)。特定エージェントキャラクターへの変換処理は、上記ステップS348で説明した処理と同様である。
Next, when a phrase corresponding to the person attribute or facial expression is found (that is, the search is hit) (step S364 / Yes), the automatic
続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS368)。
Subsequently, the
そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS370)。これにより、ユーザの表情、または対面する相手の属性や表情をトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の表情や属性に対応するフレーズが再生される。
Then, the
図26Cは、本実施形態によるユーザ行動に応じた各自動発話処理を示すシーケンス図である。図26Cに示すように、まず、クライアント端末1は、加速度センサにより加速度センサ情報を取得し(ステップS372)、エージェントサーバ2へ加速度センサ情報を送信する(ステップS374)。加速度センサ情報の送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
FIG. 26C is a sequence diagram showing each automatic utterance process according to the user action according to the present embodiment. As shown in FIG. 26C, first, the
次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された加速度センサ情報に基づいて情報解析部366により行動認識処理を行い、行動認識結果で示される行動状態に対応するフレーズをフレーズ検索部364によりフレーズDB365を参照して検索する(ステップS376)。例えば上記表1に示しように、走っている状態や寝ている状態に紐付けられたフレーズや効果音が検索される。なお、行動認識処理に用いるセンサデータとしてここでは加速度センサ情報を用いているが、本実施形態は当然これに限定されず、加速度センサの他、ジャイロセンサ、地磁気センサ等、様々なセンサにより検知されたデータを用いてもよい。
Next, the automatic
次いで、行動状態に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS378/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS380)。
Next, when a phrase corresponding to the action state is found (that is, the search is hit) (step S378 / Yes), the automatic
続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS382)。
Subsequently, the
そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS384)。これにより、ユーザが所定の行動状態になったことをトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の行動状態に対応するフレーズが再生される。
Then, the
図26Dは、本実施形態による心理状態に応じた各自動発話処理を示すシーケンス図である。図26Dに示すように、まず、クライアント端末1は、生体センサによりユーザの生体情報を検知し(ステップS386)、エージェントサーバ2へ生体情報を送信する(ステップS388)。生体情報の送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
FIG. 26D is a sequence diagram showing each automatic utterance process according to the psychological state according to the present embodiment. As shown in FIG. 26D, first, the
次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された生体情報を情報解析部366により解析し、解析により得られたユーザの心理状態(すなわち感情)に対応するフレーズを、フレーズ検索部364によりフレーズDB365を参照して検索する(ステップS390)。例えば上記表1に示しように、脈拍が速く緊張した状態に紐付けられたフレーズや効果音が検索される。生体センサは、例えば脈拍、、心拍、血圧、発汗量、呼吸、脳波、または筋電等を検知する各種センサである。情報解析部366は、このような生体情報に基づいて、ユーザの心理状態、すなわち、喜び、怒り、悲しみ、緊張、興奮等の感情を解析する。
Next, the automatic
次いで、心理状態に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS392/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS394)。
Next, when a phrase corresponding to the psychological state is found (that is, the search is hit) (step S392 / Yes), the automatic
続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS396)。
Subsequently, the
そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS398)。これにより、ユーザの心理状態をトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の心理状態に対応するフレーズが再生される。
Then, the
以上、ユーザ状況に応じたエージェントの自動発話制御処理について説明した。なお、本実施形態による自動発話制御処理は上述した例に限定されず、例えば場所、表情、行動、感情、ユーザ発話、日時等のうち少なくとも1以上のユーザ状況に対応するフレーズを検索してもよいし、複数のユーザ状況のうち例えば所定の順序(優先度の高い順等)にフレーズ検索を行ってもよい。 The automatic utterance control process of the agent according to the user situation has been described above. The automatic utterance control process according to the present embodiment is not limited to the above-mentioned example, and even if a phrase corresponding to at least one or more user situations among places, facial expressions, actions, emotions, user utterances, date and time, etc. is searched Alternatively, the phrase search may be performed in a predetermined order (higher priority order, etc.) among a plurality of user situations.
(4−2−4.シナリオ取得処理)
続いて、本実施形態によるシナリオモードについて説明する。本実施形態による対話処理部30aは、上述したようなユーザ音声のエージェントキャラクター音声への変換、およびユーザ状況に応じたエージェントキャラクターの自動発話の他、さらにユーザがエージェントキャラクターに成りきってシナリオ(物語)へ参加する体験を提供することができる。このような体験を提供する際に用いられるシナリオプログラムの取得について、以下図27〜図29を参照して説明する。(4-2-4. Scenario acquisition process)
Subsequently, the scenario mode according to the present embodiment will be described. In the dialogue processing unit 30a according to the present embodiment, in addition to the above-mentioned conversion of the user voice into the agent character voice and the automatic utterance of the agent character according to the user situation, the user becomes an agent character and a scenario (story) ) Can provide an experience of participating. The acquisition of the scenario program used to provide such an experience will be described below with reference to FIGS. 27-29.
図27は、本実施形態によるシナリオ取得処理を示すシーケンス図である。図27に示すように、まず、クライアント端末1の表示部に表示されたメニュー画面から「シナリオ一覧」が選択されると(ステップS410)、クライアント端末1は、エージェントサーバ2に対してシナリオ一覧の取得要求を行う(ステップS413)。ここでは、例えばユーザが購入したエージェントキャラクター「ヒーローキャラクター『パワフルマン』」のシナリオ一覧の取得要求が行われる。
FIG. 27 is a sequence diagram showing a scenario acquisition process according to the present embodiment. As shown in FIG. 27, when "scenario list" is first selected from the menu screen displayed on the display unit of the client terminal 1 (step S410), the
次いで、エージェントサーバ2のシナリオ管理部37は、ヒーローキャラクターに紐づくシナリオの一覧をシナリオDB374から取得し(ステップS416)、クライアント端末1へ音声エージェントI/F20からネットワークを介して送信する(ステップS419)。
Next, the
次に、クライアント端末1は、エージェントサーバ2から受信したシナリオ一覧を表示部に表示し(ステップS422)、ユーザによるシナリオの選択を受け付ける(ステップS425)。
Next, the
次いで、クライアント端末1は、ユーザが選択したシナリオを示す選択情報をエージェントサーバ2へ送信する(ステップS428)。
Next, the
次に、エージェントサーバ2のシナリオ管理部37は、ユーザにより選択されたシナリオが購入済みであるか否かを判断し(ステップS431)、未購入の場合(ステップS431/Yes)、クライアント端末1に対して当該シナリオの購入画面の表示指示を行う(ステップS434)。
Next, the
次いで、クライアント端末1は、シナリオ購入画面を表示する(ステップS437)。ユーザは、例えばシナリオ購入画面に表示された購入ボタンをタップしてシナリオの購入を決定する。
Next, the
続いて、シナリオの購入が決定された場合(ステップS440/Yes)、クライアント端末1は、エージェントサーバ2に対してシナリオの購入依頼を行う(ステップS443)。
Subsequently, when the purchase of the scenario is decided (step S440 / Yes), the
そして、エージェントサーバ2は、シナリオ購入処理を行う(ステップS446)。シナリオ購入処理は、例えばクレジットカードや電子マネーを用いた決済処理(アプリケーション内の課金処理)により行われ得る。また、ユーザによるシナリオの購入は、ユーザ管理部35によりユーザ情報DB352にユーザ情報として登録される。
Then, the
なお、シナリオ購入画面が表示された後、購入を見合わせる場合(ステップS440/No)、例えばユーザは戻るボタン等をタップしてメニュー一覧画面に戻り、他のシナリオの取得を検討してもよい。 When the purchase is postponed after the scenario purchase screen is displayed (step S440 / No), for example, the user may tap the back button or the like to return to the menu list screen and consider acquiring another scenario.
ここで、図28および図29に、シナリオ購入までのクライアント端末1における画面表示例を示す。例えば、図28左には、ユーザがあるヒーローキャラクターを購入した際のメイン画面110を示す。ユーザがメイン画面110に表示されているメニューボタン111を選択すると、図28中央に示すように、メニュー画面112aが表示される。そして、メニュー画面112aに表示されているメニューに含まれる「シナリオ一覧」の項目を選択すると、図28右に示すように、シナリオ一覧画面113が表示される。シナリオ一覧画面113には、参加可能なシナリオが並び、ユーザは購入したいシナリオを選択する。なお参加期間が既に終了しているシナリオや売り切れのシナリオは、グレーアウト表示され選択できない。例えば画面113では、選択可能なシナリオとしてシナリオ113a、113bが表示され、選択できないシナリオとしてシナリオ113cがグレーアウト表示されている。
Here, FIGS. 28 and 29 show an example of screen display on the
次いで、ユーザが例えばシナリオ113a「XX都市でバトル」を選択した場合、図29の左に示すような購入画面114が表示される。購入画面114には、シナリオのタイトル、あらすじ、購入金額、購入ボタン114a、シナリオへの参加場所および期間が表示され、ユーザはシナリオの内容や金額、参加場所、期間等を確認する。シナリオには例えば複数のイベントが用意されていて、それらを全てクリアすることでシナリオをクリアすることが目標となる。「参加場所」とは、イベントが発動するトリガとなる場所であって、その場所に居なくてもシナリオに参加することは可能であるが、発動するイベントが少なく、シナリオをクリアすることが困難となる。
Next, when the user selects, for example,
そして、ユーザが購入ボタン114aを選択すると、図29右に示す購入決定画面115が表示され、「はい」ボタンを選択すると購入処理(決算処理)がエージェントサーバ2により行われ、シナリオ購入が完了する。
Then, when the user selects the
続いて、シナリオへの参加登録処理について図30を参照して説明する。図30は、本実施形態によるシナリオ参加登録処理を示すシーケンス図である。なお図30に示す処理は、上記ステップS431で、ユーザに選択されたシナリオが購入済みの場合に引き続き行われる処理である。 Subsequently, the participation registration process for the scenario will be described with reference to FIG. FIG. 30 is a sequence diagram showing a scenario participation registration process according to the present embodiment. The process shown in FIG. 30 is a process that is continuously performed when the scenario selected by the user has already been purchased in step S431.
エージェントサーバ2のシナリオ管理部37は、ユーザに選択されたシナリオにおいて、ユーザが購入した特定のエージェントキャラクター、例えばヒーローキャラクターが未登録のシナリオを検索する(ステップS450)。ここで、本実施形態によるシナリオ構成について図31を参照して説明する。
The
図31は、本実施形態によるシナリオ構成について説明する図である。本実施形態によるシナリオには1以上のキャラクターが登場し、1つのキャラクターには一人のユーザが登録される。しかしながら、複数のユーザが同じキャラクターのエージェントプログラムを購入している状態も想定されるため、図31に示すように、シナリオ毎に複数の参加グループを設定し、参加グループ毎にユーザ登録を行う。例えば、シナリオ#1には、参加グループ#1-1、#1-2、#1-3…と複数の参加グループが紐付けされ、参加グループ内においてキャラクターが重複しないようユーザの振り分けが行われる。具体的には、現在、シナリオ#1の参加グループ#1-1には「キャラクターA」と「キャラクターB」にそれぞれ成りきるユーザの登録が行われているが、「キャラクターC」は空位の状態である。また、同シナリオの参加グループ#1-2では、「キャラクターA」が空位の状態である。また、同シナリオの参加グループ#1-3では、「キャラクターA」、「キャラクターB」、「キャラクターC」が空位の状態である。シナリオ管理部37は、ユーザがシナリオ#1の選択を行った際に、同シナリオの参加グループにおけるユーザ登録状態を把握し、ユーザが購入したキャラクターが未登録(空位)の参加グループを検索する。例えばユーザのキャラクターが「キャラクターA」の場合、参加グループ#1-2を検索し、「キャラクターB」の場合、参加グループ#1-3を検索し、「キャラクターC」の場合、参加グループ#1-1を検索する。なお、ユーザが同キャラクターで異なるシナリオ(例えばシナリオ#1とシナリオ#2)に同時に参加登録することは可能である。
FIG. 31 is a diagram illustrating a scenario configuration according to the present embodiment. One or more characters appear in the scenario according to this embodiment, and one user is registered in one character. However, since it is assumed that a plurality of users have purchased the agent program of the same character, as shown in FIG. 31, a plurality of participating groups are set for each scenario, and user registration is performed for each participating group. For example, in
次いで、シナリオ管理部37は、検索した参加グループのシナリオ情報をクライアント端末1に送信する(ステップS453)。
Next, the
次に、クライアント端末1は、受信したシナリオ情報を表示部に表示する(ステップS456)。シナリオ情報の表示画面には、シナリオのあらすじや参加場所、日時の詳細と共に、参加ボタンが表示されている。ここで、図32に本実施形態によるシナリオ参加画面の一例を示す。図32左に示す画面116は、シナリオ一覧画面113(図28参照)で選択したシナリオ、若しくはシナリオの購入決定画面115(図29参照)で購入を決定し購入処理が完了したシナリオへ参加登録するための操作を受け付ける画面である。画面116には、例えば選択されたシナリオのタイトル、あらすじ、シナリオ購入済みの表示、参加場所、参加期間情報、および参加ボタン116aが表示されている。ユーザは参加ボタン116aを選択することで本シナリオへの参加意思を入力することができる。
Next, the
次いで、参加ボタンが選択されユーザの参加意思が入力された場合(ステップS459/Yes)、クライアント端末1はエージェントサーバ2に対して本シナリオ(の参加グループ)への参加依頼を行う(ステップS462)。
Next, when the participation button is selected and the user's intention to participate is input (step S459 / Yes), the
次に、エージェントサーバ2のシナリオ管理部37は、クライアント端末1からの要求に応じて、ユーザのシナリオへの参加登録処理を行う(ステップS465)。各シナリオの参加グループに登場するキャラクーへのユーザ登録の情報は、シナリオDB374(図18参照)に登録されていてもよいし、ユーザ情報DB352(図16参照)に登録されていてもよい。
Next, the
次に、シナリオ管理部37は、ユーザが参加登録しているシナリオが開始時刻前である場合(ステップS468/Yes)、開始時刻をユーザへ通知し(ステップS471)、クライアント端末1ではシナリオの開始時刻を表示画面等を介してユーザに通知する(ステップS474)。表示画面例としては、例えば図32の右上に示す画面117が挙げられる。画面17には、シナリオタイトルと共に、参加予約済みである旨、およびシナリオ開催開始時刻までのカウントダウンが表示されている。
Next, when the scenario in which the user has registered to participate is before the start time (step S468 / Yes), the
続いて、シナリオの開催開始時刻になった場合(ステップS477/Yes)、若しくは参加登録したシナリオが既に開催開始時刻後であって(ステップS468/No)かつシナリオ開催中の場合(ステップS469/Yes)、シナリオ管理部37は、シナリオの開催開始通知をユーザに通知する(ステップS480)。例えば、参加登録したシナリオが既に開始時刻後である場合(すなわちシナリオ開催中の場合)、図32に示すように、参加ボタン116aをタップした際に、図32右下に示す画面118のように、シナリオタイトルと共に「参加中!」の旨が表示され、直ちにシナリオが開始される。また、既に参加登録しているシナリオの開催開始時刻に達した際、例えば図33または図34に示すような開催開始通知が行われる。なお、シナリオの開催期間が終了している場合(ステップS469/No)、シナリオへの参加はできないため参加登録処理は終了する。
Subsequently, when the start time of the scenario is reached (step S477 / Yes), or when the scenario registered for participation is already after the start time of the scenario (step S468 / No) and the scenario is being held (step S469 / Yes). ), The
図33は、本実施形態によるエージェントAppがフォアグラウンドで起動中の場合におけるシナリオ開催開始通例例を示す図である。図33左に示すように、エージェントAppの画面120(例えばメイン画面)が表示されている際に、シナリオの開催開始時刻に達すると、図33右に示すように、エージェントAppの画面120上に、シナリオが開始されることを示すポップアップ表示120aが表示される。ユーザが通知内容を確認の上、「OK」ボタンを押すと、ポップアップ表示120aが閉じる。
FIG. 33 is a diagram showing a customary example of starting scenario holding when the agent App according to the present embodiment is running in the foreground. As shown on the left side of FIG. 33, when the
図34は、本実施形態によるエージェントAppが非起動の場合におけるシナリオ開催開始通例例を示す図である。図34左に示すように、エージェントAppが非起動の場合(例えばホーム画面122が表示されている場合)に、シナリオの開催開始時刻に達すると、ホーム画面122上にシナリオが開始されることを示すポップアップ表示122a(Push通知)が表示される。ユーザが通知内容を確認の上、「開く」ボタンを押すと、エージェントAppが起動し、図34右に示すようにエージェントAppのメイン画面123が表示される。
FIG. 34 is a diagram showing a customary example of starting scenario holding when the agent App according to the present embodiment is not started. As shown on the left side of FIG. 34, when the agent app is not started (for example, when the
次いで、クライアント端末1は、シナリオが開始されることを表示画面等を介してユーザに通知する(ステップS483)。
Next, the
そして、シナリオ管理部37は、シナリオ実行処理を開始する(ステップS486)。
Then, the
例えば「XX都市でバトル」といったシナリオが開始された場合、例えばクライアント端末1の表示部には、エージェントキャラクター(例えばヒーローキャラクター)の画像が表示され、さらにナレーションとヒーローキャラクターの音声がイヤホン等から以下のように出力される。
・シナリオ音声
ナレーション「2015年10月12日、舞台はXX都市。繰り広げられる激しいバトルに戦士たちは疲弊していた…」
ヒーローキャラ「XX都市が俺を待ってるぜ!」
ナレーション「そのXX都市で8人の敵を倒すことが使命である。」For example, when a scenario such as "Battle in XX City" is started, for example, an image of an agent character (for example, a hero character) is displayed on the display unit of the
・ Scenario voice narration "On October 12, 2015, the stage is XX city. The warriors were exhausted by the fierce battle that took place ..."
Hero character "XX city is waiting for me!"
Narration "It is our mission to defeat eight enemies in that XX city."
次いで、シナリオが進行している通常時は、クライアント端末1にヒーローキャラクターが表示され、ユーザの状況に応じてヒーローキャラクターが自動発話したり、対応する効果音が流れたりする。状況に応じた自動発話は、図26A〜図26Dを参照して説明した処理と同様である。
・自動発話音声
ユーザ状況:位置情報の解析により、ユーザがXX都市に移動したことを認識。
ヒーローキャラ「ここがXX都市か。敵はどこだ!?」Next, when the scenario is in progress, the hero character is displayed on the
-Automatic voice user status: By analyzing location information, it is recognized that the user has moved to XX city.
Hero character "Is this the XX city? Where are the enemies !?"
続いて、ある条件により、事前にシナリオに用意されたイベントが発生する。イベントが発生した場合は、ヒーローキャラクターまたはナレーションによりイベントが発生した旨と、イベントクリアのために必要なアクションが通知される。ユーザがそのアクションを正しく行うことで、イベントクリアとなる。このような条件に応じたイベント発生といったシナリオ実行処理について、以下詳細に説明する。 Then, under certain conditions, an event prepared in advance for the scenario occurs. When an event occurs, the hero character or narration will notify you that the event has occurred and the actions required to clear the event. The event is cleared when the user performs the action correctly. Scenario execution processing such as event occurrence according to such conditions will be described in detail below.
(4−2−5.シナリオ実行処理)
本実施形態によるシナリオ管理部37は、シナリオ実行部372により、ユーザの発話や移動場所、アクション(行動)等をトリガとしてシナリオイベント(本実施形態では「イベント」と称される)を発生させ、イベントクリアのための所定のアクションをユーザに指示する等の処理を行う。以下、図35〜図42を参照して具体的に説明する。(4-2-5. Scenario execution processing)
The
・ユーザ音声をトリガとしたイベントの発生
図35は、本実施形態によるユーザ音声をトリガとしたイベントの実行処理を示すシーケンス図である。図35に示すように、まず、クライアント端末1は、マイクにより周辺の音データを収音し(ステップS490)、収音した音データをエージェントサーバ2へ送信する(ステップS493)。-Generation of Event Triggered by User Voice FIG. 35 is a sequence diagram showing execution processing of an event triggered by user voice according to the present embodiment. As shown in FIG. 35, first, the
次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、音データの解析を行い、ユーザ音声の抽出を行う。ユーザ音声ができた場合、シナリオ実行部372は、ユーザが参加中のシナリオからユーザの発話に対応するイベントを検索する(ステップS496)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。上述したように、各シナリオには、1以上のイベントが含まれ、イベント発生のトリガ(条件)とイベント内容とイベントクリアのためのアクションとが対応付けられたデータがシナリオデータとしてシナリオDB374に格納されている。シナリオデータの具体例は、上記表2に示した通りである。シナリオ管理部37は、表2に示したようなイベントデータを参照して、ユーザ音声(すなわち発話内容)をトリガ(発生条件)とするイベントを検索する。
Next, the
次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS499)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS502)。なお、対応するイベントが検索できなかった場合、シナリオ実行部372は特にクライアント端末1への情報送信は行わないようにしてもよいし、イベント発生のためのヒント(トリガの示唆)を出すようにしてもよい。また、クライアント端末1による音データの収音およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
Next, the
次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS505)。ここで、図36を参照してイベント発生時における表示画面の具体例について説明する。
Next, the
図36は、本実施形態によるイベント発生時における表示画面例を示す図である。図36左に示すように、例えばユーザのある発話音声W6が上述した音声変換機能によりエージェントキャラクターの音声W7に変換されると共に、当該発話音声W6が特定の発話であって対応するイベントが検索された場合、当該イベントをクリアするためのアクションが指示される。例えば図36右に示すように、「上にジャンプするんだ!今すぐ!」といったエージェントの発話音声W8がイヤホン等から出力されたり、「ジャンプだ!」といったテキストとエージェントの画像を含む画面124がクライアント端末1の表示部に表示されたりする。これにより、ユーザは、イベントに対応する指定のアクションを実行することができる。FIG. 36 is a diagram showing an example of a display screen when an event occurs according to the present embodiment. As shown on the left side of FIG. 36, for example, a certain utterance voice W 6 of a user is converted into the voice W 7 of an agent character by the above-mentioned voice conversion function, and the utterance voice W 6 is a specific utterance and corresponds to an event. If is searched, the action to clear the event is instructed. For example, as shown on the right side of Fig. 36, the agent's utterance voice W 8 such as "Jump up! Now!" Is output from earphones, etc., or a screen containing text such as "Jump!" And an image of the agent. 124 may be displayed on the display unit of the
続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS508)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS511)。ユーザの行動等を検知する各センサとは、例えば加速度センサ、ジャイロセンサ、地磁気センサ、カメラ等である。
Subsequently, the
次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS514)。
Next, the
次に、指定のアクションが行われたと判断された場合(ステップS514/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS517)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS520)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
Next, when it is determined that the specified action has been performed (step S514 / Yes), the
そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS523)。
Then, the
このように、本実施形態では、ユーザの特定の発話をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。 As described above, in the present embodiment, a predetermined event is generated by triggering a specific utterance of the user, the user is urged to perform a predetermined action, and when the action is detected, the scenario is advanced assuming that the event is cleared. Can be made to.
・移動場所(ユーザの位置)をトリガとしたイベントの発生
図37は、本実施形態によるユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。図37に示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS530)、取得した現在位置情報をエージェントサーバ2へ送信する(ステップS533)。-Generation of an event triggered by a movement location (user's position) FIG. 37 is a sequence diagram showing an event execution process triggered by a user's position according to the present embodiment. As shown in FIG. 37, first, the
次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、位置情報の解析を行い、位置情報で示される場所を特定する。例えば情報解析部373は、ランドマーク情報が紐付けられた地図データを参照して、ユーザが現在居る場所の名称(地名、都市名、建物名、公園名等)や種別(駅、公園、海辺、郵便局等)を取得する。場所が特定できた場合、シナリオ実行部372は、ユーザが参加中のシナリオから特定した場所に対応するイベントを検索する(ステップS536)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。シナリオ管理部37は、上記表2に示したようなイベントデータを参照して、ユーザの現在居る場所(すなわち移動場所)をトリガとするイベントを検索する。
Next, the
次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS539)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS542)。なお、クライアント端末1による現在位置情報の取得およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
Next, the
次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS545)。
Next, the
続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS548)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS551)。
Subsequently, the
次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS554)。
Next, the
次に、指定のアクションが行われたと判断された場合(ステップS554/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS557)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS560)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
Next, when it is determined that the specified action has been performed (step S554 / Yes), the
そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS563)。
Then, the
このように、本実施形態では、ユーザの位置をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。 As described above, in the present embodiment, a predetermined event is generated by using the position of the user as a trigger, the user is urged to perform a predetermined action, and when the action is detected, the scenario is advanced assuming that the event is cleared. Can be done.
・複数ユーザが出会うこと(複数ユーザの位置)をトリガとしたイベントの発生
図38は、本実施形態による複数ユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。図38に示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS570)、取得した現在位置情報をエージェントサーバ2へ送信する(ステップS572)。-Generation of an event triggered by the encounter of a plurality of users (positions of a plurality of users) FIG. 38 is a sequence diagram showing an event execution process triggered by the positions of a plurality of users according to the present embodiment. As shown in FIG. 38, first, the
次いで、エージェントサーバ2のシナリオ管理部37は、同じシナリオに参加している他のキャラクターをエージェントとしている他ユーザがユーザの近くにいるか否かを判断する(ステップS573)。シナリオに参加している各ユーザの位置情報は、定期的にクライアント端末1から送信され、エージェントサーバ2側で管理されている。また、シナリオ管理部37は、ユーザが特定の場所に移動した際に近辺に居る他のキャラクターのユーザを検索するようにしてもよい。また、シナリオ管理部37は、同じシナリオに参加している不特定の他のキャラクターのユーザを検索するようにしてもよい。
Next, the
次に、近くに他のキャラクターをエージェントとする他ユーザが居ると判断された場合(ステップS573/Yes)、シナリオ管理部37は、対応するイベントを検索する(ステップS576)。シナリオ管理部37は、例えば上記表2に示したようなイベントデータを参照して、「同じシナリオに参加する他のキャラクターが近くに居る」場合をトリガとするイベント(例えば、「オーバーレイ表示」)を検索する。
Next, when it is determined that there is another user who uses another character as an agent nearby (step S573 / Yes), the
次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS579)、イベントの実行処理を行う。ここでは、例えば「オーバーレイ表示」というイベントである場合、シナリオ実行部372は、近くに居る人の顔画像の取得要求をクライアント端末1に対して行う(ステップS582)。
Next, the
次に、クライアント端末1は、エージェントサーバ2からの要求に応じて、カメラを起動し、ユーザに対して近くの人にカメラをかざすよう指示する(ステップS585)。ここでは、カメラを起動して近くの人にかざす行動が、イベントクリアのための指定のアクションとなる。
Next, the
続いて、クライアント端末1は、近くの人の顔をカメラにより撮像して撮像画像を取得し(ステップS588)、撮像画像をエージェントサーバ2に送信する(ステップS591)。
Subsequently, the
次いで、エージェントサーバ2のシナリオ管理部37は、情報解析部366により、撮像画像を解析し、ユーザの近辺に居る人物の顔認識を行う(ステップS594)。さらに、シナリオ実行部372は、上記ステップS573で位置情報に基づいてユーザの近辺に居ると判断された他ユーザの顔情報と、撮像画像に基づく顔認識結果とを参照して、近辺に居る人物の顔認証を行ってもよい。
Next, the
次に、近辺に居る人物の顔認識ができた場合(ステップS594/Yes)、シナリオ実行部372は、上記ステップS573で判断した近辺に居る他のキャラクターの情報をシナリオDB374から取得し(ステップS597)、クライアント端末1へ送信する(ステップS600)。キャラクター情報には、キャラクターの画像が含まれる。
Next, when the face of a person in the vicinity can be recognized (step S594 / Yes), the
続いて、クライアント端末1は、ユーザが近くの人物(相手ユーザ)にクライアント端末1のカメラをかざしてスルー画像が表示部に表示されている際に、エージェントサーバ2から送信されたキャラクター情報に基づいて、相手が成りきっているエージェントキャラクターの画像をスルー画像上で相手にオーバーレイ表示する(ステップS603)。これにより、ユーザは、現実空間で同シナリオに登場する他のキャラクターと出会うことができる。なお、エージェントサーバ2は、相手のキャラクター画像を相手のスルー画像に重畳表示するのみならず、例えば相手の発話音声を相手のキャラクターの音声に変換してユーザのイヤホン等から再生するようにしてもよい。また、相手ユーザのクライアント端末1においても同様にユーザのスルー画像にユーザのキャラクターを重畳表示させたり、ユーザの音声をユーザのキャラクターの音声に変換して再生したりするようにしてもよい。これにより、両ユーザは、同シナリオに登場するキャラクター同士として出会い、会話することができる。
Subsequently, the
ここで、図39Aおよび図39Bを参照して本実施形態による他のキャラクターのオーバーレイ表示の具体例について説明する。図39Aは、本実施形態によるカメラをかざす行動をユーザに促す表示画面例を示す図である。図示された画面125は、上記ステップS585でクライアント端末1の表示部に表示される誘導画面であって、エージェントキャラクターの画像およびカメラ起動ボタン125aが含まれる。また、エージェントキャラクターの声色で、「カメラを起動して近くの人にかざしてみるんだ!」といった発話音声W9が再生されてもよい。これによりユーザは、エージェントキャラクターの誘導に従ってカメラ起動ボタン125aをタップしてカメラを起動し、近くの人物にかざすといったイベントクリアのための指定のアクションを取ることができる。Here, a specific example of overlay display of another character according to the present embodiment will be described with reference to FIGS. 39A and 39B. FIG. 39A is a diagram showing an example of a display screen prompting the user to hold the camera according to the present embodiment. The illustrated
図39Bは、本実施形態による他のキャラクターのオーバーレイ表示について説明する図である。図39Bに示すように、ユーザがクライアント端末1を近くにいる人物にかざすと、クライアント端末1の表示部に、クライアント端末1のカメラで撮像したスルー画像が表示され、さらにスルー画像に写る相手ユーザに相手のキャラクター画像がリアルタイムで重畳された画像126が表示される。この際、クライアント端末1は、エージェントサーバ2により相手ユーザの発話音声が相手ユーザのキャラクター音声に変換された音声や、状況に応じて自動発話される相手ユーザのキャラクターの所定フレーズ音声W10をイヤホン等から再生してもよい。FIG. 39B is a diagram illustrating overlay display of other characters according to the present embodiment. As shown in FIG. 39B, when the user holds the
次いで、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS606)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS609)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
Next, the
そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS612)。
Then, the
このように、本実施形態では、複数ユーザの位置に基づいて、同じシナリオに参加するキャラクター同士が現実空間で出会うことをトリガとして所定のイベントを発生させることができる。 As described above, in the present embodiment, a predetermined event can be generated based on the positions of a plurality of users, triggered by the encounter of characters participating in the same scenario in the real space.
・各センサからの出力結果をトリガとしたイベントの発生
図40は、本実施形態による各センサからの出力結果をトリガとしたイベントの実行処理を示すシーケンス図である。図40に示すように、まず、クライアント端末1は、各センサからの出力結果を取得し(ステップS620)、エージェントサーバ2へ送信する(ステップS623)。各センサとは、例えば加速度センサ、ジャイロセンサ、地磁気センサ、カメラ等であってクライアント端末1や、クライアント端末1と通信接続するウェアラブル端末(例えばスマートバンド、スマートウォッチ、スマートアイグラス)等に設けられ、ユーザの行動を認識する。-Generation of an event triggered by an output result from each sensor FIG. 40 is a sequence diagram showing an event execution process triggered by an output result from each sensor according to the present embodiment. As shown in FIG. 40, first, the
次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、各センサの出力結果の解析を行い、ユーザの行動を特定する。ユーザの行動(寝ている、起きた、走った、歩いた、電車/自転車/自動車に乗った等)が特定できた場合、シナリオ実行部372は、ユーザが参加中のシナリオからユーザの行動に対応するイベントを検索する(ステップS626)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。シナリオ管理部37は、上記表2に示したようなイベントデータを参照して、ユーザの行動をトリガとするイベントを検索する。
Next, the
次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS629)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS632)。なお、クライアント端末1による各センサからの出力結果の取得およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
Next, the
次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS635)。
Next, the
続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS638)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS641)。
Subsequently, the
次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS644)。
Next, the
次に、指定のアクションが行われたと判断された場合(ステップS644/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS647)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS650)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
Next, when it is determined that the specified action has been performed (step S644 / Yes), the
そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS653)。
Then, the
このように、本実施形態では、ユーザの行動をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。 As described above, in the present embodiment, a predetermined event is generated by using the user's action as a trigger, the user is urged to perform the predetermined action, and when the action is detected, the scenario is advanced assuming that the event is cleared. Can be done.
以上、本実施形態によるシナリオイベントの実行処理について具体的に説明した。なお、本実施形態によるシナリオイベントの発生トリガは、上述した発話(ユーザ音声)、移動場所(位置情報)、複数ユーザが出会うこと(複数ユーザの位置情報)、各センサの出力結果(ユーザ行動)、若しくはユーザの表情(撮像画像)、日時等のうち、少なくともいずれか1以上を含む条件としてもよい。例えば、ある特定の場所で、ある発話を行うことを条件としたり、ある特定の時刻にある場所に移動することを条件としてもよい。また、上述したトリガのうち、所定の順(予め設定された順序、優先度の高い順序等)にイベント発生有無を判断してもよい。 The execution process of the scenario event according to the present embodiment has been specifically described above. The triggers for generating a scenario event according to the present embodiment are the above-mentioned utterance (user voice), moving location (position information), encounter of multiple users (position information of multiple users), and output result of each sensor (user behavior). Alternatively, the condition may include at least one or more of the user's facial expression (captured image), date and time, and the like. For example, it may be a condition that a certain utterance is made at a specific place, or a condition that the person moves to a certain place at a specific time. Further, among the above-mentioned triggers, it may be determined whether or not an event has occurred in a predetermined order (preset order, high priority order, etc.).
また、上述したイベントは、エージェントAppが非起動時(バッググラウンドで実行中)にも発生し得る。イベント発生時は、例えばプッシュ通知でその旨が知らされ(「エージェントApp通知 イベントが発生!」等)、エージェントAppを起動することでその内容を確認することができる。 The above-mentioned event can also occur when the agent application is not started (running in the background). When an event occurs, for example, a push notification will notify you (such as "Agent App notification event has occurred!"), And you can check the contents by starting the Agent App.
・シナリオクリア
1つのシナリオには例えば複数のイベントが含まれ、シナリオ開催期間中に全てのイベントをクリアすることが求められる。以下、図41〜図42を参照して本実施形態によるシナリオクリアの一例について説明する。-Scenario clear One scenario includes, for example, multiple events, and it is required to clear all the events during the scenario holding period. Hereinafter, an example of scenario clearing according to the present embodiment will be described with reference to FIGS. 41 to 42.
図41は、本実施形態によるシナリオクリアの判断処理を示すシーケンス図である。図41に示すように、まず、エージェントサーバ2のシナリオ管理部37は、ユーザが参加中のシナリオにおける全てのイベントがクリアされたか否かを判断する(ステップS660)。
FIG. 41 is a sequence diagram showing a scenario clear determination process according to the present embodiment. As shown in FIG. 41, first, the
次いで、全てのイベントがクリアされたと判断した場合(ステップS660/Yes)、シナリオ実行部372は、当該シナリオがクリアされたと判断し(ステップS663)、クライアント端末1に対して、シナリオをクリアした旨を送信する(ステップS666)。また、シナリオ実行部372は、シナリオクリアの情報をシナリオDB374に登録(更新)する。
Next, when it is determined that all the events have been cleared (step S660 / Yes), the
そして、クライアント端末1は、シナリオをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS669)。ここで、図42に、本実施形態によるシナリオクリア時の通知画面例を示す。
Then, the
図示された例では、画面128に、「シナリオ#1 『XX都市でバトル』をクリアしました!!」といった通知と、OKボタンが表示される。これによりユーザは、参加中のシナリオ#1の全てのイベントをクリアしたことが分かる。また、OKボタンをタップすると当該通知の表示画面が閉じられ、例えばエージェントAppのメイン画面に戻る。
In the illustrated example, a notification such as "
<<5.まとめ>>
上述したように、本開示の実施形態による通信制御システムでは、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能となる。<< 5. Summary >>
As described above, in the communication control system according to the embodiment of the present disclosure, it is possible to further enhance the entertainment of the agent system by allowing the user to experience the character of the agent through the agent.
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 Although the preferred embodiments of the present disclosure have been described in detail with reference to the accompanying drawings, the present technology is not limited to such examples. It is clear that a person having ordinary knowledge in the technical field of the present disclosure can come up with various modifications or modifications within the scope of the technical ideas described in the claims. Of course, it is understood that the above also belongs to the technical scope of the present disclosure.
例えば、上述したクライアント端末1、またはエージェントサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはエージェントサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
For example, it is possible to create a computer program for exerting the functions of the
また、上述した実施形態では、クライアント端末1とインターネットを介して接続するエージェントサーバ2で各種機能が実現される構成を示したが、本実施形態はこれに限定されない。例えば、図3、図15〜図18に示すエージェントサーバ2の各構成のうち少なくとも一部が、クライアント端末1(スマートフォンやウェアラブル端末等)にあってもよい。また、図3、図15〜図18に示すエージェントサーバ2の構成全てがクライアント端末1に設けられ、クライアント端末1で全ての処理を行えるようにしてもよい。
Further, in the above-described embodiment, various functions are realized by the
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 In addition, the effects described herein are merely explanatory or exemplary and are not limited. That is, the techniques according to the present disclosure may exhibit other effects apparent to those skilled in the art from the description herein, in addition to or in place of the above effects.
なお、本技術は以下のような構成も取ることができる。
(1)
複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースを記憶するエージェント記憶部と、
ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、
前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、
を備える、情報処理システム。
(2)
前記制御部は、前記通信部を介して受信した前記ユーザのコンテキストと、前記発話フレーズデータベースに基づいて、前記ユーザのメッセージに対応する発話フレーズを生成する、前記(1)に記載の情報処理システム。
(3)
前記ユーザのコンテキストは、前記ユーザの位置、顔認識、加速度情報、または生体センサ情報の少なくともいずれかである、前記(2)に記載の情報処理システム。
(4)
前記ユーザのメッセージは、ユーザの発話音声または当該発話音声をテキスト化したものである、前記(2)または(3)に記載の情報処理システム。
(5)
前記情報処理システムは、前記ユーザがキャラクターとして参加可能な複数のシナリオを記憶するシナリオ記憶部をさらに備え、
前記制御部は;
前記通信部を介して受信した前記ユーザからのシナリオ選択信号に応じて、前記シナリオ記憶部に記憶されるシナリオを選択し;
前記通信部を介して受信した前記ユーザのコンテキストが、前記選択したシナリオに記述されているイベント発生条件に一致すると、所定のイベントの発生を前記ユーザに通知するよう制御する、前記(1)〜(4)のいずれか1項に記載の情報処理システム。
(6)
前記所定のイベント発生時に前記ユーザに通知される内容には、特定のアクションを示す情報が含まれ、
前記制御部は、前記通信部を介して新たに受信した前記ユーザのコンテキストに基づいて、前記特定のアクションが実行された否かを判定し、実行されたと判定すると、イベントクリアを示す通知を前記ユーザに送信するよう制御する、前記(5)に記載の情報処理システム。
(7)
前記イベント発生条件の判断に用いられる前記ユーザのコンテキストは、前記ユーザの位置、発話、加速度情報、または生体センサ情報の少なくともいずれかである、前記(5)または(6)に記載の情報処理システム。
(8)
前記制御部は、前記選択されたシナリオに参加している各ユーザのクライアント端末の位置を示す各位置情報を前記通信部により受信し、前記ユーザの周辺に同一の前記シナリオに参加する他のユーザが存在すると判断した場合、前記通信部を介して前記ユーザにイベント発生の通知を行うよう制御する、前記(5)〜(7)のいずれか1項に記載の情報処理システム。
(9)
前記制御部は、前記通信部を介して受信した前記クライアント端末の撮像部により撮像された撮像画像に人物の顔を認識すると、当該顔に重畳表示するための前記他のユーザのキャラクターの画像を前記クライアント端末に送信するよう制御する、前記(8)に記載の情報処理システム。
(10)
前記制御部は、前記通信部を介して受信した前記クライアント端末の収音部により収音された音声から他のユーザの発話音声を認識すると、当該発話音声を前記他のユーザのキャラクターの音声に変換した変換メッセージと、前記発話フレーズデータベースに基づく対応するフレーズを生成し、前記クライアント端末に送信するよう制御する、前記(8)または(9)に記載の情報処理システム。
(11)
プロセッサが、
複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、
ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、
前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、
を含む、情報処理方法。The present technology can also have the following configurations.
(1)
An agent storage unit that stores phoneme databases and utterance phrase databases that support multiple types of characters,
A communication unit that receives a selection signal for selecting a specific character via the user's client terminal and transmits an utterance phrase corresponding to the utterance phrase database of the specific character.
Based on the user's message received via the communication unit, a converted message converted into the voice of the specific character is generated using the phoneme database corresponding to the specific character;
Further, the utterance phrase of the specific character corresponding to the message of the user is generated by using the utterance phrase database;
A control unit that controls the generated conversion message and utterance phrase to be returned to the client terminal.
Information processing system equipped with.
(2)
The information processing system according to (1) above, wherein the control unit generates an utterance phrase corresponding to the user's message based on the context of the user received via the communication unit and the utterance phrase database. ..
(3)
The information processing system according to (2) above, wherein the user's context is at least one of the user's position, face recognition, acceleration information, or biosensor information.
(4)
The information processing system according to (2) or (3) above, wherein the user's message is a user's uttered voice or a text of the uttered voice.
(5)
The information processing system further includes a scenario storage unit that stores a plurality of scenarios in which the user can participate as a character.
The control unit;
A scenario stored in the scenario storage unit is selected according to a scenario selection signal from the user received via the communication unit;
When the context of the user received via the communication unit matches the event occurrence condition described in the selected scenario, the user is controlled to notify the occurrence of a predetermined event. The information processing system according to any one of (4).
(6)
The content notified to the user when the predetermined event occurs includes information indicating a specific action.
The control unit determines whether or not the specific action has been executed based on the context of the user newly received via the communication unit, and if it determines that the specific action has been executed, the control unit issues a notification indicating event clear. The information processing system according to (5) above, which controls transmission to a user.
(7)
The information processing system according to (5) or (6) above, wherein the user's context used for determining the event occurrence condition is at least one of the user's position, utterance, acceleration information, or biosensor information. ..
(8)
The control unit receives each position information indicating the position of the client terminal of each user participating in the selected scenario by the communication unit, and another user who participates in the same scenario around the user. The information processing system according to any one of (5) to (7) above, which controls to notify the user of the occurrence of an event via the communication unit when it is determined that the information system exists.
(9)
When the control unit recognizes a person's face in the image captured by the image pickup unit of the client terminal received via the communication unit, the control unit displays an image of the character of the other user to be superimposed and displayed on the face. The information processing system according to (8) above, which controls transmission to the client terminal.
(10)
When the control unit recognizes the uttered voice of another user from the voice picked up by the sound collecting unit of the client terminal received via the communication unit, the uttered voice is converted into the voice of the character of the other user. The information processing system according to (8) or (9) above, wherein the converted conversion message and the corresponding phrase based on the utterance phrase database are generated and controlled to be transmitted to the client terminal.
(11)
The processor
Storing phoneme databases and utterance phrase databases corresponding to multiple types of characters in the agent storage section,
In addition to receiving a selection signal for selecting a specific character via the user's client terminal, the communication unit transmits a utterance phrase corresponding to the utterance phrase database of the specific character.
Based on the user's message received via the communication unit, a converted message converted into the voice of the specific character is generated using the phoneme database corresponding to the specific character;
Further, the utterance phrase of the specific character corresponding to the message of the user is generated by using the utterance phrase database;
Control by the control unit to return the generated conversion message and utterance phrase to the client terminal, and
Information processing methods, including.
1 クライアント端末
2 エージェントサーバ
30 対話処理部
300 対話処理部
310 質問文検索部
320 回答文生成部
330 会話DB
340 音素データ取得部
30a 対話処理部
31 基本対話処理部
32 キャラクターA対話処理部
33 人物B対話処理部
34 人物C対話処理部
35 ユーザ管理部
351 ログイン管理部
352 ユーザ情報DB
353 顔情報登録部
354 ユーザ位置情報登録部
36 自動発話制御部
361 ユーザ音声抽出部
362 音素データ取得部
363 位置情報取得部
364 フレーズ検索部
365 フレーズDB
366 情報解析部
37 シナリオ管理部
371 データ管理部
372 シナリオ実行部
373 情報解析部
374 シナリオDB
40 音素記憶部
41 基本用音素DB
42 キャラクターA音素DB
43 人物B音素DB
44 人物C音素DB
50 会話DB生成部
60 音素DB生成部
70 広告挿入処理部
72 広告DB
80 フィードバック取得処理部
3 ネットワーク
10 エージェント1
340 Phoneme data acquisition unit 30a
353 Face
366
40
42 Character A Phoneme DB
43 Person B Phoneme DB
44 Person C Phoneme DB
50 Conversation
80 Feedback
Claims (11)
ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、
前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、
を備える、情報処理システム。 An agent storage unit that stores phoneme databases and utterance phrase databases that support multiple types of characters,
A communication unit that receives a selection signal for selecting a specific character via the user's client terminal and transmits an utterance phrase corresponding to the utterance phrase database of the specific character.
Based on the user's message received via the communication unit, a converted message converted into the voice of the specific character is generated using the phoneme database corresponding to the specific character;
Further, the utterance phrase of the specific character corresponding to the message of the user is generated by using the utterance phrase database;
A control unit that controls the generated conversion message and utterance phrase to be returned to the client terminal.
Information processing system equipped with.
前記制御部は;
前記通信部を介して受信した前記ユーザからのシナリオ選択信号に応じて、前記シナリオ記憶部に記憶されるシナリオを選択し;
前記通信部を介して受信した前記ユーザのコンテキストが、前記選択したシナリオに記述されているイベント発生条件に一致すると、所定のイベントの発生を前記ユーザに通知するよう制御する、請求項1〜4のいずれか1項に記載の情報処理システム。 The information processing system further includes a scenario storage unit that stores a plurality of scenarios in which the user can participate as a character.
The control unit;
A scenario stored in the scenario storage unit is selected according to a scenario selection signal from the user received via the communication unit;
Claims 1 to 4 control to notify the user of the occurrence of a predetermined event when the context of the user received via the communication unit matches the event occurrence condition described in the selected scenario. The information processing system according to any one of the above.
前記制御部は、前記通信部を介して新たに受信した前記ユーザのコンテキストに基づいて、前記特定のアクションが実行された否かを判定し、実行されたと判定すると、イベントクリアを示す通知を前記ユーザに送信するよう制御する、請求項5に記載の情報処理システム。 The content notified to the user when the predetermined event occurs includes information indicating a specific action.
The control unit determines whether or not the specific action has been executed based on the context of the user newly received via the communication unit, and if it determines that the specific action has been executed, the control unit issues a notification indicating event clear. The information processing system according to claim 5, which controls the transmission to the user.
複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、
ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、
前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、
を含む、情報処理方法。 The processor
Storing phoneme databases and utterance phrase databases corresponding to multiple types of characters in the agent storage section,
In addition to receiving a selection signal for selecting a specific character via the user's client terminal, the communication unit transmits a utterance phrase corresponding to the utterance phrase database of the specific character.
Based on the user's message received via the communication unit, a converted message converted into the voice of the specific character is generated using the phoneme database corresponding to the specific character;
Further, the utterance phrase of the specific character corresponding to the message of the user is generated by using the utterance phrase database;
Control by the control unit to return the generated conversion message and utterance phrase to the client terminal, and
Information processing methods, including.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016057208 | 2016-03-22 | ||
JP2016057208 | 2016-03-22 | ||
PCT/JP2016/087855 WO2017163509A1 (en) | 2016-03-22 | 2016-12-19 | Information processing system and information processing method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020187766A Division JP7070638B2 (en) | 2016-03-22 | 2020-11-11 | Information processing system and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017163509A1 JPWO2017163509A1 (en) | 2019-01-31 |
JP6795028B2 true JP6795028B2 (en) | 2020-12-02 |
Family
ID=59901035
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018506772A Active JP6795028B2 (en) | 2016-03-22 | 2016-12-19 | Information processing system and information processing method |
JP2020187766A Active JP7070638B2 (en) | 2016-03-22 | 2020-11-11 | Information processing system and information processing method |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020187766A Active JP7070638B2 (en) | 2016-03-22 | 2020-11-11 | Information processing system and information processing method |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6795028B2 (en) |
WO (1) | WO2017163509A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017163509A1 (en) * | 2016-03-22 | 2017-09-28 | ソニー株式会社 | Information processing system and information processing method |
US11450314B2 (en) * | 2017-10-03 | 2022-09-20 | Google Llc | Voice user interface shortcuts for an assistant application |
JP6583931B2 (en) * | 2017-12-27 | 2019-10-02 | 株式会社カプコン | GAME PROGRAM AND GAME DEVICE |
JPWO2021039456A1 (en) * | 2019-08-27 | 2021-03-04 | ||
WO2023195115A1 (en) * | 2022-04-07 | 2023-10-12 | 日本電気株式会社 | Conversation device, conversation method, and non-transitory computer-readable medium |
CN117354356A (en) * | 2023-12-04 | 2024-01-05 | 四川才子软件信息网络有限公司 | APP region retention statistical method, system and equipment |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001230801A (en) | 2000-02-14 | 2001-08-24 | Sony Corp | Communication system and its method, communication service server and communication terminal |
US6987514B1 (en) * | 2000-11-09 | 2006-01-17 | Nokia Corporation | Voice avatars for wireless multiuser entertainment services |
JP2002351489A (en) * | 2001-05-29 | 2002-12-06 | Namco Ltd | Game information, information storage medium, and game machine |
JP2003140677A (en) | 2001-11-06 | 2003-05-16 | Matsushita Electric Ind Co Ltd | Read-aloud system |
JP2003248837A (en) * | 2001-11-12 | 2003-09-05 | Mega Chips Corp | Device and system for image generation, device and system for sound generation, server for image generation, program, and recording medium |
JP2005322125A (en) | 2004-05-11 | 2005-11-17 | Sony Corp | Information processing system, information processing method, and program |
JP2007072511A (en) | 2005-09-02 | 2007-03-22 | Oki Electric Ind Co Ltd | Chat system, chat server, program and message exchange method |
JP2014123072A (en) * | 2012-12-21 | 2014-07-03 | Nec Corp | Voice synthesis system and voice synthesis method |
WO2017163509A1 (en) | 2016-03-22 | 2017-09-28 | ソニー株式会社 | Information processing system and information processing method |
-
2016
- 2016-12-19 WO PCT/JP2016/087855 patent/WO2017163509A1/en active Application Filing
- 2016-12-19 JP JP2018506772A patent/JP6795028B2/en active Active
-
2020
- 2020-11-11 JP JP2020187766A patent/JP7070638B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP7070638B2 (en) | 2022-05-18 |
WO2017163509A1 (en) | 2017-09-28 |
JP2021039370A (en) | 2021-03-11 |
JPWO2017163509A1 (en) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7070638B2 (en) | Information processing system and information processing method | |
US20240054118A1 (en) | Artificial intelligence platform with improved conversational ability and personality development | |
US11327556B2 (en) | Information processing system, client terminal, information processing method, and recording medium | |
JP7070652B2 (en) | Information processing systems, information processing methods, and programs | |
US11430439B2 (en) | System and method for providing assistance in a live conversation | |
US20190206401A1 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
US20190206393A1 (en) | System and method for dialogue management | |
US20190206402A1 (en) | System and Method for Artificial Intelligence Driven Automated Companion | |
US20190206407A1 (en) | System and method for personalizing dialogue based on user's appearances | |
JP6860010B2 (en) | Information processing systems, information processing methods, and information processing programs | |
US11003860B2 (en) | System and method for learning preferences in dialogue personalization | |
JP7099589B2 (en) | Servers, communication control methods, and programs | |
CN106464758A (en) | Leveraging user signals for initiating communications | |
CN109086860B (en) | Interaction method and system based on virtual human | |
KR20160029895A (en) | Apparatus and method for recommending emotion-based character | |
KR101791979B1 (en) | Method for providing a messenger service through item representing metadata or supplemental item and server using the same | |
US20220270162A1 (en) | Computing devices and systems for sending and receiving a digital gift using a voice interface | |
US11954570B2 (en) | User interface for construction of artificial intelligence based characters | |
US11954794B2 (en) | Retrieval of augmented parameters for artificial intelligence-based characters | |
US20230351142A1 (en) | Relationship graphs for artificial intelligence character models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191212 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201026 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6795028 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |