JP7232846B2 - ボイスチャット装置、ボイスチャット方法及びプログラム - Google Patents

ボイスチャット装置、ボイスチャット方法及びプログラム Download PDF

Info

Publication number
JP7232846B2
JP7232846B2 JP2020568121A JP2020568121A JP7232846B2 JP 7232846 B2 JP7232846 B2 JP 7232846B2 JP 2020568121 A JP2020568121 A JP 2020568121A JP 2020568121 A JP2020568121 A JP 2020568121A JP 7232846 B2 JP7232846 B2 JP 7232846B2
Authority
JP
Japan
Prior art keywords
text
voice chat
voice
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020568121A
Other languages
English (en)
Other versions
JPWO2020153251A1 (ja
Inventor
章悟 鈴木
拓馬 大岩
朗 宮下
哲 松田
千晶 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2020153251A1 publication Critical patent/JPWO2020153251A1/ja
Application granted granted Critical
Publication of JP7232846B2 publication Critical patent/JP7232846B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • A63F13/352Details of game servers involving special game server arrangements, e.g. regional servers connected to a national server or a plurality of servers managing partitions of the game world
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/10Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/2753Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content
    • H04M1/2757Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content by data transmission, e.g. downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72427User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting games or graphical animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Description

本発明は、ボイスチャット装置、ボイスチャット方法及びプログラムに関する。
近年、ともにゲームをプレイしているユーザやゲームのプレイ状況を表す動画像の閲覧者などといった離れた場所にいる他のユーザとボイスチャットをしながら、ユーザがゲームをプレイすることが行われるようになってきている。
ユーザによっては、ボイスチャットの内容を、ボイスチャットの音声の音声認識結果であるテキストによって把握したい者がいる。このようなユーザにはボイスチャットの音声の音声認識結果であるテキストが提供されるようにすることが望ましい。
しかし、ボイスチャットの音声の音声認識結果であるテキストを把握したいとは思っていないユーザのような、当該テキストが提供される必要のないユーザにまでも当該テキストが提供されることは通信量の無駄である。
本発明は上記実情に鑑みてなされたものであって、その目的の一つは、ボイスチャットの音声の音声認識結果であるテキストが提供されるか否かを適切に制御できるボイスチャット装置、ボイスチャット方法及びプログラムを提供することにある。
上記課題を解決するために、本発明に係るボイスチャット装置は、ボイスチャットが可能な複数のボイスチャットシステムのうちの1つに含まれるボイスチャット装置であって、ボイスチャットの音声を受け付ける音声受付部と、前記音声の音声認識結果であるテキストを取得するテキスト取得部と、通信相手である前記ボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御する送信制御部と、を含む。
本発明の一態様では、前記テキスト取得部は、前記複数の前記ボイスチャットシステムのいずれかにおいて音声認識結果が表示されるようになったことに応じて、前記テキストの取得を開始する。
この態様では、前記テキスト取得部は、前記複数の前記ボイスチャットシステムのすべてについて音声認識結果が表示されないようになったことに応じて、前記テキストの取得を停止してもよい。
また、本発明の一態様では、前記送信制御部は、通信相手である前記ボイスチャットシステムに音声認識結果を表示する補助装置が含まれているか否かに応じて、当該通信相手に前記テキストデータを送信するか否かを制御する。
この態様では、前記テキスト取得部は、前記複数の前記ボイスチャットシステムのいずれかにおいて前記補助装置が含まれるようになったことに応じて、前記テキストの取得を開始してもよい。
さらに、前記テキスト取得部は、前記複数の前記ボイスチャットシステムのすべてについて前記補助装置が含まれないようになったことに応じて、前記テキストの取得を停止してもよい。
また、本発明の一態様では、テキストを受け付けるテキスト受付部と、前記テキストの音声合成結果である音声を取得する音声取得部と、をさらに含み、前記送信制御部は、さらに、通信相手である前記ボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキスト受付部が受け付けるテキストを含むテキストデータを送信するか否かを制御する。
この態様では、前記テキスト受付部は、前記ボイスチャット装置と接続されている補助装置に入力される前記テキストを受け付けてもよい。
また、本発明の一態様では、前記テキスト取得部は、前記ボイスチャット装置と通信可能なサーバに前記音声を表す音声データを送信し、前記テキスト取得部は、前記サーバから前記音声データが表す音声の音声認識結果であるテキストを受信する。
また、本発明に係るボイスチャット方法は、ボイスチャットの音声を受け付けるステップと、前記音声の音声認識結果であるテキストを取得するステップと、通信相手であるボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御するステップと、を含む。
また、本発明に係るプログラムは、ボイスチャットの音声を受け付ける手順、前記音声の音声認識結果であるテキストを取得する手順、通信相手であるボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御する手順、をコンピュータに実行させる。
本発明の一実施形態に係るコンピュータネットワークの全体構成の一例を示す図である。 本発明の一実施形態に係るボイスチャットシステムの構成の一例を示す図である。 本発明の一実施形態に係るボイスチャットシステムの構成の一例を示す図である。 パーティ管理データの一例を示す図である。 ボイスチャットの音声が入力された際に実行される処理の一例を示す図である。 パーティ管理データの一例を示す図である。 ボイスチャットの音声に変換されるテキストが入力された際に実行される処理の一例を示す図である。 ボイスチャットの音声が入力された際に実行される処理の一例を示す図である。 補助画面の一例を示す図である。 本発明の一実施形態に係るボイスチャットシステムで実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係るボイスチャット装置において行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係るボイスチャット装置において行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係るボイスチャット装置において行われる処理の流れの一例を示すフロー図である。
図1は、本発明の一実施形態に係るコンピュータネットワークの全体構成の一例を示す図である。図1に示すように、いずれもコンピュータを中心に構成された、ボイスチャットシステム10(10-1、10-2、・・・、10-n)、ボイスエージェントサーバ12、管理サーバ14が、インターネットなどのコンピュータネットワーク16に接続されている。ボイスチャットシステム10、ボイスエージェントサーバ12、管理サーバ14は、互いに通信可能となっている。
管理サーバ14は、例えば、ボイスチャットシステム10を利用するユーザのアカウント情報などを管理するサーバ等のコンピュータである。管理サーバ14は、例えば、それぞれユーザに対応付けられるアカウントデータを複数記憶する。アカウントデータには、例えば、当該ユーザの識別情報であるユーザID、当該ユーザの実名を示す実名データ、当該ユーザのメールアドレスを示すメールアドレスデータ、などが含まれる。
ボイスエージェントサーバ12は、本実施形態では例えば、受け付ける音声に対する音声認識処理の実行結果を示すテキストの生成、及び、受け付けるテキストに対する音声合成処理の実行結果を示す音声の生成を実行するサーバ等のサーバコンピュータである。ボイスエージェントサーバ12には、受け付ける音声に対する音声認識処理の実行結果を示すテキストを生成する音声認識エンジン、及び、受け付けるテキストに対する音声合成処理の実行結果を示す音声を生成する音声合成エンジンが実装されていてもよい。
図2Aに示すように、ボイスチャットシステム10には、ボイスチャット装置20とルータ22とが含まれている。
ボイスチャット装置20は、例えば、ゲームコンソール、携帯型ゲーム装置、スマートフォン、パーソナルコンピュータなどといった、ボイスチャットの音声の入出力が可能なコンピュータである。
図2Aに示すように、ボイスチャット装置20には、例えば、プロセッサ20a、記憶部20b、通信部20c、表示部20d、操作部20e、マイク20f、スピーカ20g、エンコード・デコード部20hが含まれている。なお、ボイスチャット装置20がカメラを備えていてもよい。
プロセッサ20aは、例えばCPU等のプログラム制御デバイスであって、記憶部20bに記憶されたプログラムに従って各種の情報処理を実行する。
記憶部20bは、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。
通信部20cは、例えばルータ22、及び、コンピュータネットワーク16を介して、他のボイスチャットシステム10、ボイスエージェントサーバ12、管理サーバ14などといったコンピュータとの間でデータを授受するための通信インタフェースである。
表示部20dは、例えば液晶ディスプレイ等であり、プロセッサ20aが生成する画面や、通信部20cを介して受信する動画像データが表す動画像などを表示させる。
操作部20eは、例えばプロセッサ20aに対する操作入力を行うための操作部材である。なお操作部20eがゲームコントローラであってもよい。
マイク20fは、例えばボイスチャットの音声の入力に用いられる音声入力デバイスである。
スピーカ20gは、例えばボイスチャットの音声の出力に用いられる音声出力デバイスである。
エンコード・デコード部20hは、例えばエンコーダとデコーダとを含む。エンコード・デコード部20hは、入力される音声をエンコードすることにより当該音声を表す音声データを生成する。また、エンコード・デコード部20hは、入力される音声データをデコードして、当該音声データが表す音声を出力する。
また所定のペアリング処理を実行することで、図2Bに示すように、本実施形態に係るボイスチャットシステム10には、ボイスチャット装置20に加えてさらに、ボイスチャットを支援する補助装置24を追加できるようになっている。
補助装置24は、例えば、スマートフォンやタブレット端末などの携帯型のコンピュータである。なお補助装置24は、据置型のコンピュータであっても構わない。
本実施形態に係る補助装置24には、例えば、プロセッサ24a、記憶部24b、通信部24c、タッチパネル24d、が含まれている。
プロセッサ24aは、例えばCPU等のプログラム制御デバイスであって、記憶部24bに記憶されたプログラムに従って各種の情報処理を実行する。
記憶部24bは、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。
通信部24cは、例えばルータ22を介して、ボイスチャット装置20等のコンピュータとの間でデータを授受するための通信インタフェースである。なお通信部24cが、例えばルータ22、及び、コンピュータネットワーク16を介して、他のボイスチャットシステム10、ボイスエージェントサーバ12、管理サーバ14等のコンピュータとの間で情報の送受信が行えてもよい。
タッチパネル24dは、例えばタッチセンサと液晶ディスプレイ等のディスプレイとが一体となったものである。タッチパネル24dは、プロセッサ24aが生成する画面などを表示させる。またユーザは、タッチパネル24dに対してタップ等の各種操作を行うことで、プロセッサ24aに対する操作入力を行えるようになっている。
ボイスチャット装置20及び補助装置24は有線又は無線で、コンピュータネットワーク16に接続されたルータ22と接続されている。そしてボイスチャット装置20及び補助装置24は、ルータ22を介して、他のボイスチャットシステム10、ボイスエージェントサーバ12、管理サーバ14と通信を行う。
本実施形態では、複数のボイスチャットシステム10(10-1~10-n)は、ボイスチャットが可能になっている。そのため本実施形態では、それぞれ互いに異なるボイスチャットシステム10を利用する複数のユーザがボイスチャットを楽しめるようになっている。ここで例えば、ボイスチャットに参加している一部又は全部のユーザがプレイ中であるゲームのプレイ状況を表す動画像を共有しながらボイスチャットが行われるようにしてもよい。
本実施形態では、ボイスチャットに参加している複数のユーザは、パーティと呼ばれるグループに属することとする。また、本実施形態に係るボイスチャットシステム10のユーザは、所定の操作を行うことで、新規のパーティの作成や、既に作成されているパーティへの参加を行うことができる。
また本実施形態では、補助装置24とボイスチャット装置20とのペアリング処理が実行済であるボイスチャットシステム10のユーザは、所定の操作を行うことで、当該ボイスチャットシステム10におけるボイスチャット支援サービスを利用できるようになる。
ボイスチャット支援サービスが利用可能なボイスチャットシステム10では、ボイスチャットの音声の音声認識結果を補助装置24のタッチパネル24dに表示させることや、音声の代わりにテキストによってボイスチャットの入力を行うことが可能となる。またボイスチャット支援サービスを利用しているユーザは所定の操作を行うことで、当該ボイスチャット支援サービスの利用を停止することができる。
本実施形態では、パーティに関する情報が、図3に例示するパーティ管理データによって管理されている。パーティ管理データは、例えば、管理サーバ14に記憶される。図3に示すように、パーティ管理データには、パーティの識別情報であるパーティIDと、それぞれ当該パーティに参加しているユーザに対応付けられるユーザデータと、が含まれる。そして、ユーザデータには、ユーザID、接続先アドレスデータ、種類データ、支援サービス利用フラグ、などが含まれている。
ユーザIDは、例えば当該ユーザの識別情報である。接続先アドレスデータは、例えば当該ユーザが利用するボイスチャット装置20のアドレスを示すデータである。種類データは、例えば当該ユーザが利用するボイスチャット装置20の種類を示すデータである。支援サービス利用フラグは、例えば当該ユーザが利用するボイスチャットシステム10においてボイスチャット支援サービスが利用可能であるか否かを示すフラグである。ここでは例えば、当該ボイスチャットシステム10においてボイスチャット支援サービスが利用可能である場合は、支援サービス利用フラグの値として1が設定されることとする。また例えば、当該ボイスチャットシステム10においてボイスチャット支援サービスが利用可能ではない場合は、支援サービス利用フラグの値として0が設定されることとする。
図3には、5人のユーザが参加するパーティに対応付けられる、パーティIDが001であるパーティ管理データが例示されている。図3に示すパーティ管理データには、それぞれ当該パーティに参加するユーザに対応付けられる5個のユーザデータが含まれている。以下、ユーザIDがaaaであるユーザ、bbbであるユーザ、cccであるユーザ、dddであるユーザ、eeeであるユーザを、それぞれ、ユーザA、ユーザB、ユーザC、ユーザD、ユーザEと呼ぶこととする。また、ユーザA、ユーザB、ユーザC、ユーザD、ユーザEは、それぞれ、ボイスチャットシステム10-1、10-2、10-3、10-4、10-5を利用していることとする。また、ボイスチャットシステム10-1、10-2、10-3、10-4、10-5には、それぞれ、ボイスチャット装置20-1、20-2、20-3、20-4、20-5が含まれていることとする。
図3に例示するパーティ管理データには、いずれのボイスチャットシステム10についても、ボイスチャット支援サービスが利用可能でないことが示されている。
また本実施形態では、管理サーバ14に記憶されているパーティ管理データのコピーが、当該パーティ管理データに対応付けられるパーティに参加するユーザが利用するボイスチャット装置20に送信される。そしてボイスチャット装置20の記憶部20bには、管理サーバ14に記憶されているパーティ管理データのコピーが記憶される。そのため、パーティに参加するユーザが利用するボイスチャット装置20は、当該パーティに参加するユーザが利用するボイスチャット装置20のアドレスを特定可能である。
また本実施形態では、例えばユーザによるパーティへの参加操作、ボイスチャット支援サービスの利用を開始する操作、ボイスチャット支援サービスの利用を停止する操作、などに応じて、管理サーバ14に記憶されているパーティ管理データは更新される。そして管理サーバ14に記憶されているパーティ管理データが更新される度に、更新後のパーティ管理データのコピーが、当該パーティ管理データに対応付けられるパーティに参加するユーザが利用するボイスチャット装置20に送信される。そして、ボイスチャット装置20の記憶部20bに記憶されているパーティ管理データのコピーは更新される。このようにして本実施形態では、パーティ管理データに示されている最新の情報が、当該パーティ管理データに対応付けられるパーティに参加するユーザが利用するボイスチャット装置20で共有されることとなる。
以下の説明では、図3のパーティ管理データに示されている5人のユーザによるボイスチャットが行われることとする。
図4は、パーティ管理データが図3に示す状況である場合に、ユーザAによりボイスチャットの音声が入力された際に実行される処理の一例を示す図である。この場合は、ボイスチャットシステム10-1~10-5のそれぞれについて、当該ボイスチャットシステム10に含まれるボイスチャット装置20においてパーティプロセス30が実行される。
ユーザAによってボイスチャット装置20-1のマイク20fを介して音声が入力されると、当該音声を表す音声データが、ボイスチャット装置20-1のパーティプロセス30に入力される(図4(1)参照)。そして、当該パーティプロセス30は、入力された音声データを、ユーザAと同じパーティに参加している他のユーザが利用するボイスチャット装置20のパーティプロセス30に送信する(図4(2)参照)。ここで例えば、ユーザAのユーザIDが関連付けられた音声データが送信されてもよい。図4には、音声データの送信先の一例としてボイスチャット装置20-2が示されているが、ボイスチャット装置20-3~20-5についても同様の音声データが送信される。そして当該音声データを受信したパーティプロセス30は、当該音声データが表す音声をスピーカ20gから出力させる(図4(3)参照)。
ユーザB~ユーザEについても同様に、当該ユーザによって入力された音声は、当該ユーザと同じパーティに参加している他のユーザが利用するボイスチャット装置20から出力される。
図5は、パーティ管理データの別の一例を示す図である。図5に例示するパーティ管理データには、ボイスチャットシステム10-1、10-2については、ボイスチャット支援サービスが利用可能であることが示されている。また、ボイスチャットシステム10-3~10-5については、ボイスチャット支援サービスが利用可能でないことが示されている。
なお以下の説明では、ボイスチャットシステム10-1に、ボイスチャット装置20-1及び補助装置24-1が含まれていることとする。また、ボイスチャットシステム10-2に、ボイスチャット装置20-2及び補助装置24-2が含まれていることとする。
本実施形態では例えば、ユーザAが所定の操作を行って、ボイスチャットシステム10-1におけるボイスチャット支援サービスを利用できるようになると、管理サーバ14に記憶されているパーティ管理データは更新される。ここでは例えば、ユーザIDがaaaであるユーザデータの支援サービス利用フラグの値が0から1に更新される。すると、このことに応じて、ボイスチャット装置20-1~20-5に記憶されているパーティ管理データが同様に更新される。
また同様に、ユーザBが所定の操作を行って、ボイスチャットシステム10-2におけるボイスチャット支援サービスを利用できるようになると、管理サーバ14、及び、ボイスチャット装置20-1~20-5に記憶されているパーティ管理データが更新される。ここでは例えば、ユーザIDがbbbであるユーザデータの支援サービス利用フラグの値が0から1に更新される。
図6は、パーティ管理データが図5に示す状況である場合に、ユーザAによりボイスチャットの音声に変換されるテキストが入力された際に実行される処理の一例を示す図である。この例でも、ボイスチャットシステム10-1~10-5のそれぞれについて、当該ボイスチャットシステム10に含まれるボイスチャット装置20においてパーティプロセス30が実行される。
またこの例では、ボイスチャット支援サービスが利用可能なボイスチャットシステム10の補助装置24においてコンパニオンアプリケーションプロセス32が実行される。そして、当該ボイスチャットシステム10のボイスチャット装置20では、コンパニオンアプリケーションプロセス32と通信するプロキシプロセス34が実行される。ここでは例えば、補助装置24-1及び24-2において、コンパニオンアプリケーションプロセス32が実行される。そして、ボイスチャット装置20-1において、補助装置24-1のコンパニオンアプリケーションプロセス32と通信するプロキシプロセス34が実行される。また、ボイスチャット装置20-2において、補助装置24-2のコンパニオンアプリケーションプロセス32と通信するプロキシプロセス34が実行される。
また本実施形態では、図5に示すように、パーティに参加するユーザが利用するボイスチャットシステム10の少なくとも1つにおいてボイスチャット支援サービスが利用可能である。この場合は、当該パーティに参加するユーザが利用するボイスチャット装置20のすべてにおいてボイスエージェントプロセス36が実行される。
例えばボイスチャット装置20に記憶されているパーティ管理データに含まれるいずれかのユーザデータに含まれる支援サービス利用フラグの値が1に更新されることに応じて、当該ボイスチャット装置20はボイスエージェントプロセス36を起動する。
ここでは例えば、ボイスチャット装置20-1~20-5において、ボイスエージェントプロセス36が実行される。なお本実施形態では、ボイスチャットシステム10-3~10-5ではボイスチャット支援サービスが利用可能ではないが、ボイスチャット装置20-3~20-5では、ボイスエージェントプロセス36が実行されることとなる。
ここで例えばユーザAによって補助装置24-1のタッチパネル24dにテキストが入力されたとする(図6(1)参照)。すると、補助装置24-1のコンパニオンアプリケーションプロセス32がボイスチャット装置20-1のプロキシプロセス34に当該テキストを含むテキストデータを送信する(図6(2)参照)。すると、ボイスチャット装置20-1において、プロキシプロセス34がボイスエージェントプロセス36及びパーティプロセス30に当該テキストデータを出力する(図6(3)(4)参照)。
そして、ボイスチャット装置20-1のボイスエージェントプロセス36が、ボイスエージェントサーバ12に当該テキストデータを送信する(図6(5)参照)。すると、ボイスエージェントサーバ12が、当該テキストデータに対して音声合成処理を実行し、その実行結果である音声データをボイスチャット装置20-1のボイスエージェントプロセス36に送信する(図6(6)参照)。そしてボイスエージェントプロセス36は、パーティプロセス30に当該音声データを出力する(図6(7)参照)。
そしてボイスチャット装置20-1のパーティプロセス30は、ボイスチャット支援サービスが利用可能である他のボイスチャットシステム10を特定する。ここでは例えばボイスチャットシステム10-2が特定される。そしてボイスチャット装置20-1のパーティプロセス30は、特定されたボイスチャットシステム10に含まれるボイスチャット装置20のパーティプロセス30に、上述の音声データ及び上述のテキストデータを送信する(図6(8)参照)。ここで例えば、ユーザAのユーザIDが関連付けられた音声データ及びテキストデータが送信されてもよい。
すると、ボイスチャット装置20-2のパーティプロセス30は、受信したテキストデータをプロキシプロセス34に出力する(図6(9)参照)。そして、ボイスチャット装置20-2のプロキシプロセス34は当該テキストデータを、補助装置24-2のコンパニオンアプリケーションプロセス32に送信する(図6(10)参照)。すると、補助装置24-2のコンパニオンアプリケーションプロセス32は、当該テキストデータに含まれるテキストをタッチパネル24dに表示させる(図6(11)参照)。また、ボイスチャット装置20-2のパーティプロセス30は、受信した音声データが表す音声をスピーカ20gから出力させてもよい(図6(12)参照)。
また、ボイスチャット装置20-1のパーティプロセス30は、ボイスチャット支援サービスが利用可能でない他のボイスチャットシステム10を特定する。ここでは例えば、ボイスチャットシステム10-3~10-5が特定される。そしてボイスチャット装置20-1のパーティプロセス30は、特定されたボイスチャットシステム10に含まれるボイスチャット装置20のパーティプロセス30に、上述の音声データのみを送信する(図6(13)参照)。ここで例えば、ユーザAのユーザIDが関連付けられた音声データが送信されてもよい。ボイスチャット支援サービスが利用可能でないボイスチャットシステム10のパーティプロセス30には、上述のテキストデータは送信されない。図6には、ボイスチャット装置20-3のパーティプロセス30に音声データが送信されることが代表して示されている。すると、ボイスチャット装置20-3のパーティプロセス30は、受信した音声データが表す音声をスピーカ20gから出力させる(図6(14)参照)。なお本実施形態では同様にして、ボイスチャット装置20-4、20-5のスピーカ20gから上述の音声データが表す音声が出力される。
図7は、パーティ管理データが図5に示す状況である場合に、ユーザCによりボイスチャットの音声が入力された際に実行される処理の一例を示す図である。
ユーザCによってボイスチャット装置20-3のマイク20fを介して音声が入力されると、当該音声を表す音声データが、ボイスチャット装置20-3のパーティプロセス30、及び、ボイスエージェントプロセス36に入力される(図7(1)参照)。
そして、ボイスチャット装置20-3のボイスエージェントプロセス36が、ボイスエージェントサーバ12に当該音声データを送信する(図7(2)参照)。すると、ボイスエージェントサーバ12が、当該音声データに対して音声認識処理を実行し、その実行結果であるテキストデータを当該ボイスエージェントプロセス36に送信する(図7(3)参照)。そしてボイスエージェントプロセス36は、パーティプロセス30に当該テキストデータを出力する(図7(4)参照)。
そしてボイスチャット装置20-3のパーティプロセス30は、ボイスチャット支援サービスが利用可能である他のボイスチャットシステム10を特定する。ここでは例えば、ボイスチャットシステム10-1、10-2が特定される。そしてボイスチャット装置20-3のパーティプロセス30は、特定されたボイスチャットシステム10に含まれるボイスチャット装置20のパーティプロセス30に、上述の音声データ及び上述のテキストデータを送信する(図7(5)参照)。ここで例えば、ユーザCのユーザIDが関連付けられた音声データ及びテキストデータが送信されてもよい。図7には、ボイスチャット装置20-1のパーティプロセス30に音声データ及びテキストデータが送信されることが代表して示されている。
すると、ボイスチャット装置20-1のパーティプロセス30は、受信したテキストデータをプロキシプロセス34に出力する(図7(6)参照)。そして、ボイスチャット装置20-1のプロキシプロセス34は、当該テキストデータを、補助装置24-1のコンパニオンアプリケーションプロセス32に送信する(図7(7)参照)。すると、補助装置24-1のコンパニオンアプリケーションプロセス32は、当該テキストデータに含まれるテキストをタッチパネル24dに表示させる(図7(8)参照)。また、ボイスチャット装置20-1のパーティプロセス30は、受信した音声データが表す音声をスピーカ20gから出力させてもよい(図7(9)参照)。なお本実施形態では同様にして、補助装置24-2についても当該テキストデータに含まれるテキストがタッチパネル24dに表示される。ここで上述の音声データが表す音声がボイスチャット装置20-2のスピーカ20gから出力されてもよい。
また、ボイスチャット装置20-3のパーティプロセス30は、ボイスチャット支援サービスが利用可能でない他のボイスチャットシステム10を特定する。ここでは例えば、ボイスチャットシステム10-4、10-5が特定される。そしてボイスチャット装置20-3のパーティプロセス30は、特定されたボイスチャットシステム10に含まれるボイスチャット装置20のパーティプロセス30に、上述の音声データのみを送信する(図7(10)参照)。ここで例えば、ユーザCのユーザIDが関連付けられた音声データが送信されてもよい。ボイスチャット支援サービスが利用可能でないボイスチャットシステム10のパーティプロセス30には、上述のテキストデータは送信されない。図7には、ボイスチャット装置20-4のパーティプロセス30に音声データが送信されることが代表して示されている。すると、ボイスチャット装置20-4のパーティプロセス30は、受信した音声データが表す音声をスピーカ20gから出力させる(図7(11)参照)。なお本実施形態では同様にして、ボイスチャット装置20-5のスピーカ20gから上述の音声データが表す音声が出力される。
図8は、本実施形態に係る補助装置24のタッチパネル24dに表示される補助画面の一例を示す図である。図8には、ボイスチャット支援サービスが利用可能な状態におけるユーザAが利用する補助装置24-1のタッチパネル24dに表示される補助画面が示されている。
図8に示す補助画面には、ユーザAとは異なるユーザにより入力された音声の音声認識結果であるテキストが配置される。例えば、図8に示す補助画面には、ユーザBにより入力された音声の音声認識結果であるテキストS1が、ユーザBのユーザIDを表す文字列S2に対応付けられた状態で配置されている。ユーザBのユーザIDは、例えば、ボイスチャット装置20-2から送信される、ユーザBのユーザIDに関連付けられた音声データ及びテキストデータに基づいて特定可能である。
また、図8に示す補助画面には、ユーザCにより入力された音声の音声認識結果であるテキストS3が、ユーザCのユーザIDを表す文字列S4に対応付けられた状態で配置されている。ユーザCのユーザIDは、例えば、ボイスチャット装置20-3から送信される、ユーザCのユーザIDに関連付けられた音声データ及びテキストデータに基づいて特定可能である。
また補助画面には、テキストを入力するためのフォームF、及び、フォームFに入力されたテキストを投稿するための送信ボタンSBが配置されている。例えばユーザAがフォームFにテキストを入力して送信ボタンSBをタップすると、当該テキストを含むテキストデータがボイスチャット装置20-1に送信される。また補助画面には、このようにしてユーザAにより入力されたテキストS5が、ユーザAのユーザIDを表す文字列S6に対応付けられた状態で配置される。
本実施形態において、パーティに参加するユーザが利用するボイスチャットシステム10のすべてにおいてボイスチャット支援サービスが利用可能でない状態になったとする。この場合は、当該パーティに参加するユーザが利用するボイスチャット装置20のすべてにおいてボイスエージェントプロセス36が終了される。
例えばボイスチャット装置20に記憶されているパーティ管理データに含まれるすべてのユーザデータについて、支援サービス利用フラグの値が0に設定されたことに応じて、当該ボイスチャット装置20はボイスエージェントプロセス36を終了する。
以上のように本実施形態では、ボイスチャット支援サービスが利用可能でないボイスチャットシステム10には、ボイスチャットの音声の音声認識結果であるテキストは提供されない。そのため本実施形態によれば、すべてのボイスチャットシステム10にボイスチャットの音声の音声認識結果であるテキストが提供される場合よりも、ボイスチャットにおける通信量が低減される。このようにして本実施形態によれば、ボイスチャットの音声の音声認識結果であるテキストが提供されるか否かを適切に制御できることとなる。
以下、本実施形態に係るボイスチャットシステム10で実装される機能について、さらに説明する。
図9は、本実施形態に係るボイスチャットシステム10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るボイスチャットシステム10で、図9に示す機能のすべてが実装される必要はなく、また、図9に示す機能以外の機能が実装されていても構わない。
図9に示すように、本実施形態に係るボイスチャット装置20には、機能的には例えば、パーティ管理データ記憶部40、パーティ管理部42、音声受付部44、テキスト取得部46、テキスト受付部48、音声取得部50、送信制御部52、データ受信部54、音声出力部56、補助送信部58、が含まれる。
パーティ管理データ記憶部40は、記憶部20bを主として実装される。パーティ管理部42、送信制御部52は、プロセッサ20a及び通信部20cを主として実装される。音声受付部44は、マイク20f及びエンコード・デコード部20hを主として実装される。テキスト取得部46、テキスト受付部48、音声取得部50、データ受信部54、補助送信部58は、通信部20cを主として実装される。音声出力部56は、スピーカ20g及びエンコード・デコード部20hを主として実装される。
そして以上の機能は、コンピュータであるボイスチャット装置20にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ20aで実行することにより実装されている。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してボイスチャット装置20に供給される。
また、図9に示すように、本実施形態に係る補助装置24には、機能的には例えば、テキスト受付部60、テキスト送信部62、補助受信部64、表示制御部66、が含まれる。テキスト受付部60、表示制御部66は、プロセッサ24a及びタッチパネル24dを主として実装される。テキスト送信部62、補助受信部64は、通信部24cを主として実装される。
そして以上の機能は、コンピュータである補助装置24にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ24aで実行することにより実装されている。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して補助装置24に供給される。
パーティ管理データ記憶部40は、本実施形態では例えば、図3及び図5に例示するパーティ管理データを記憶する。
パーティ管理部42は、本実施形態では例えば、管理サーバ14から送信されるパーティ管理データの受信に応じて、パーティ管理データ記憶部40に記憶されているパーティ管理データを、受信したパーティ管理データに更新する。
本実施形態では例えば、ユーザによる、ボイスチャット支援サービスの利用を開始する操作、又は、利用を停止する操作に応じて、管理サーバ14に記憶されているパーティ管理データにおける、支援サービス利用フラグの値が更新される。そして、当該更新に応じて、管理サーバ14は、当該パーティ管理データにより管理されているパーティの参加者が利用するボイスチャットシステム10に更新後のパーティ管理データを送信する。そして上述のように、パーティ管理部42は、管理サーバ14から送信されるパーティ管理データの受信に応じて、パーティ管理データ記憶部40に記憶されているパーティ管理データを、受信したパーティ管理データに更新する。
また、パーティ管理部42は、更新後のパーティ管理データに基づいて、いずれかのボイスチャットシステム10において音声認識結果が表示されるようになったことを検出してもよい。当該検出の一例としては、すべての支援サービス利用フラグの値が0である状態から、少なくとも1つの支援サービス利用フラグの値が1である状態に変化したことの検出が挙げられる。
また、パーティ管理部42は、更新後のパーティ管理データに基づいて、すべてのボイスチャットシステム10について音声認識結果が表示されないようになったことを検出してもよい。当該検出の一例としては、少なくとも1つの支援サービス利用フラグの値が1である状態から、すべての支援サービス利用フラグの値が0である状態に変化したことの検出が挙げられる。
音声受付部44は、本実施形態では例えば、ボイスチャットの音声を受け付ける。音声受付部44は、当該音声をエンコードすることにより、当該音声を表す音声データを生成してもよい。
テキスト取得部46は、本実施形態では例えば、音声受付部44が受け付ける音声の音声認識結果であるテキストを取得する。ここで例えば、テキスト取得部46は、ボイスチャット装置20と通信可能なボイスエージェントサーバ12に当該音声を表す音声データを送信してもよい。そしてテキスト取得部46は、ボイスエージェントサーバ12から、当該音声データが表す音声の音声認識結果であるテキストを含むテキストデータを受信してもよい。当該機能は、図6、及び、図7に示すボイスエージェントプロセス36の機能に相当する。
また、テキスト取得部46は、少なくとも1つのボイスチャットシステム10のいずれかにおいて音声認識結果が表示されるようになったことに応じて、テキストの取得を開始してもよい。また、テキスト取得部46は、少なくとも1つのボイスチャットシステム10のいずれかにおいて補助装置24が含まれるようになったことに応じて、テキストの取得を開始してもよい。例えば、パーティ管理部42によりいずれかのボイスチャットシステム10においてテキストが表示されるようになったことが検出されたことに応じて、テキスト取得部46は、ボイスエージェントプロセス36を起動してもよい。
また、テキスト取得部46は、少なくとも1つのボイスチャットシステム10のすべてについて音声認識結果が表示されないようになったことに応じて、テキストの取得を停止してもよい。また、テキスト取得部46は、少なくとも1つのボイスチャットシステム10のすべてについて補助装置24が含まれないようになったことに応じて、テキストの取得を停止してもよい。例えば、パーティ管理部42によりすべてのボイスチャットシステム10についてテキストが表示されないようになったことを検出されたことに応じて、テキスト取得部46は、ボイスエージェントプロセス36を終了させてもよい。
ボイスチャット装置20のテキスト受付部48は、本実施形態では例えば、音声合成処理の対象となるテキストを受け付ける。ここでテキスト受付部48は、例えば、ボイスチャット装置20と接続されている補助装置24に入力されるテキストを受け付けてもよい。当該機能は、図6、及び、図7に示すプロキシプロセス34の機能に相当する。
音声取得部50は、本実施形態では例えば、テキスト受付部48が受け付けるテキストの音声合成結果である音声を取得する。ここで例えば、音声取得部50は、ボイスチャット装置20と通信可能なボイスエージェントサーバ12に当該テキストを含むテキストデータを送信してもよい。そして音声取得部50は、ボイスエージェントサーバ12から、当該テキストデータに含まれるテキストの音声合成結果である音声を受信してもよい。当該機能は、図6、及び、図7に示すボイスエージェントプロセス36の機能に相当する。
送信制御部52は、本実施形態では例えば、通信相手であるボイスチャットシステム10において音声認識結果が表示されるか否かに応じて、当該通信相手にテキストデータを送信するか否かを制御する。ここで送信制御部52は、通信相手であるボイスチャットシステム10において音声認識結果が表示されるか否かに応じて、当該通信相手に音声データを送信するか、当該音声データとともにテキストデータを送信するか否かを制御してもよい。例えば、送信制御部52は、音声受付部44が受け付ける音声を表す音声データを送信するか、当該音声データとともにテキスト取得部46が取得するテキストデータを送信するかを制御してもよい。また例えば、送信制御部52は、音声取得部50が取得する音声を表す音声データを送信するか、当該音声データとともにテキスト受付部48が受け付けるテキストを含むテキストデータを送信するかを制御してもよい。当該機能は、図5~図7に示すパーティプロセス30の機能に相当する。
ここで送信制御部52は、例えば、通信相手であるボイスチャットシステム10に音声認識結果を表示する補助装置24が含まれているか否かに応じて、当該通信相手にテキストデータを送信するか否かを制御してもよい。また、送信制御部52は、例えば、通信相手であるボイスチャットシステム10に音声認識結果を表示する補助装置24が含まれているか否かに応じて、音声データを送信するか、音声データとともにテキストデータを送信するかを制御してもよい。
また例えば、パーティ管理データ記憶部40に記憶されているパーティ管理データの支援サービス利用フラグの値に基づいて、通信相手にテキストデータを送信するか否かが制御されてもよい。例えば、支援サービス利用フラグの値が1であるボイスチャットシステム10には音声データとテキストデータが送信されるようにしてもよい。そして支援サービス利用フラグの値が0であるボイスチャットシステム10には音声データのみが送信されるようにしてもよい。
データ受信部54は、本実施形態では例えば、通信相手のボイスチャット装置20から送信される音声データを受信する。また、データ受信部54は、本実施形態では例えば、通信相手のボイスチャット装置20から送信されるテキストデータを受信する。当該機能は、図5~図7に示すパーティプロセス30の機能に相当する。
音声出力部56は、本実施形態では例えば、ボイスチャットの音声を出力する。例えば、音声出力部56は、データ受信部54が受信する音声データが表す音声を出力する。音声出力部56は、データ受信部54が受信する音声データをデコードして、当該音声データが表す音声を出力してもよい。
補助送信部58は、本実施形態では例えば、データ受信部54が受信するテキストデータを補助装置24に送信する。当該機能は、図6、図7に示すプロキシプロセス34の機能に相当する。
補助装置24のテキスト受付部60は、本実施形態では例えば、タッチパネル24dに入力されるテキストを受け付ける。
テキスト送信部62は、本実施形態では例えば、テキスト受付部60が受け付けるテキストを含むテキストデータをボイスチャット装置20に送信する。
補助受信部64は、本実施形態では例えば、ボイスチャット装置20から送信されるテキストデータを受信する。
表示制御部66は、本実施形態では例えば、補助受信部64が受信するテキストデータに含まれるテキストや、テキスト受付部60が受け付けるテキストを、例えばタッチパネル24dに表示させる。表示制御部66は、図8に示す補助画面をタッチパネル24dに表示させてもよい。
補助装置24のテキスト受付部60、テキスト送信部62、補助受信部64、及び、表示制御部66の機能は、図6、図7に示すコンパニオンアプリケーションプロセス32の機能に相当する。
ここで、ボイスエージェントプロセス36が停止している状態における、本実施形態に係るボイスチャット装置20において行われる処理の流れの一例を、図10に例示するフロー図を参照しながら説明する。図10に示すS101~S102に示す処理は、所定のサンプリングレートで繰り返し実行される。
まず、音声受付部44が、本ループの期間において受け付けた音声をエンコードすることにより、音声データを生成する(S101)。
そして、送信制御部52が、S101に示す処理で生成された音声データを、同じパーティに参加しているユーザが利用しているボイスチャット装置20に送信して(S102)、S101に示す処理に戻る。なお、S102に示す処理を実行するボイスチャット装置20自身に対しては、音声データは送信されない。
S102に示す処理で送信された音声データを受信したボイスチャット装置20では、当該音声データが表す音声が出力される。
次に、ボイスエージェントプロセス36が動作している状態において行われる音声入力に応じた、本実施形態に係るボイスチャット装置20において行われる処理の流れの一例を、図11に例示するフロー図を参照しながら説明する。図11に示すS201~S207に示す処理は、所定のサンプリングレートで繰り返し実行される。
まず、音声受付部44が、本ループの期間において受け付けた音声をエンコードすることにより、音声データを生成する(S201)。
そして、テキスト取得部46が、S201に示す処理で生成された音声データを、ボイスエージェントサーバ12に送信する(S202)。
そして、テキスト取得部46が、ボイスエージェントサーバ12から送信されるテキストデータを受信する(S203)。
そして、送信制御部52が、パーティ管理データ記憶部40に記憶されているパーティ管理データに基づいて、支援サービス利用フラグの値が1であるユーザデータに対応付けられるボイスチャット装置20を特定する(S204)。
そして、送信制御部52が、S204に示す処理により特定されたボイスチャット装置20に、S201に示す処理で生成された音声データ、及び、S203に示す処理で受信したテキストデータを送信する(S205)。なお、S205に示す処理を実行するボイスチャット装置20自身に対しては、音声データ及びテキストデータは送信されない。
そして、送信制御部52が、パーティ管理データ記憶部40に記憶されているパーティ管理データに基づいて、支援サービス利用フラグの値が0であるユーザデータに対応付けられるボイスチャット装置20を特定する(S206)。
そして、送信制御部52が、S206に示す処理により特定されたボイスチャット装置20に、S201に示す処理で生成された音声データを送信して(S207)、S201に示す処理に戻る。なお、S207に示す処理を実行するボイスチャット装置20自身に対しては、音声データは送信されない。
S205、及び、S207に示す処理で送信された音声データを受信したボイスチャット装置20では、当該音声データが表す音声が出力される。
S205に示す処理で送信されたテキストデータを受信したボイスチャット装置20は、当該ボイスチャット装置20に接続されている補助装置24に当該テキストデータを送信する。そして当該テキストデータを受信した補助装置24は、当該補助装置24のタッチパネル24dに当該テキストデータに含まれるテキストを表示させる。
なお、S205に示す処理において、S203に示す処理で受信したテキストデータのみが送信されるようにしてもよい。そしてこの場合、当該テキストデータを受信したボイスチャット装置20からはS201に示す処理で生成された音声データが表す音声が出力されなくてもよい。
次に、ボイスエージェントプロセス36が動作している状態において行われるテキスト入力に応じた、本実施形態に係るボイスチャット装置20において行われる処理の流れの一例を、図12に例示するフロー図を参照しながら説明する。図12に示すS301~S307に示す処理は、所定のサンプリングレートで繰り返し実行される。
まず、テキスト受付部48が、本ループの期間において補助装置24から送信されるテキストデータを受信する(S301)。
そして、音声取得部50が、S301に示す処理で生成されたテキストデータを、ボイスエージェントサーバ12に送信する(S302)。
そして、音声取得部50が、ボイスエージェントサーバ12から送信される音声データを受信する(S303)。
そして、送信制御部52が、パーティ管理データ記憶部40に記憶されているパーティ管理データに基づいて、支援サービス利用フラグの値が1であるユーザデータに対応付けられるボイスチャット装置20を特定する(S304)。
そして、送信制御部52が、S304に示す処理により特定されたボイスチャット装置20に、S303に示す処理で受信した音声データ、及び、S301に示す処理で受け付けたテキストデータを送信する(S305)。なお、S305に示す処理を実行するボイスチャット装置20自身に対しては、音声データ及びテキストデータは送信されない。
そして、送信制御部52が、パーティ管理データ記憶部40に記憶されているパーティ管理データに基づいて、支援サービス利用フラグの値が0であるユーザデータに対応付けられるボイスチャット装置20を特定する(S306)。
そして、送信制御部52が、S306に示す処理により特定されたボイスチャット装置20に、S303に示す処理で受信した音声データを送信して(S307)、S301に示す処理に戻る。なお、S307に示す処理を実行するボイスチャット装置20自身に対しては、音声データは送信されない。
S305、及び、S307に示す処理で送信された音声データを受信したボイスチャット装置20では、当該音声データが表す音声が出力される。
S305に示す処理で送信されたテキストデータを受信したボイスチャット装置20は、当該ボイスチャット装置20に接続されている補助装置24に当該テキストデータを送信する。そして当該テキストデータを受信した補助装置24は、当該補助装置24のタッチパネル24dに当該テキストデータに含まれるテキストを表示させる。
なお、S305に示す処理において、S301に示す処理で受け付けたテキストデータのみが送信されるようにしてもよい。そしてこの場合、当該テキストデータを受信したボイスチャット装置20からはS303に示す処理で受信した音声データが表す音声が出力されなくてもよい。
なお、本発明は上述の実施形態に限定されるものではない。
例えばボイスチャット装置20、及び、補助装置24の役割分担は上述のものに限定されない。例えば図9に示すボイスチャット装置20の機能の一部又は全部が補助装置24によって実装されてもよい。また例えば図9に示す補助装置24の機能の一部又は全部がボイスチャット装置20によって実装されてもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (11)

  1. ボイスチャットが可能な複数のボイスチャットシステムのうちの1つに含まれるボイスチャット装置であって、
    ボイスチャットの音声を受け付ける音声受付部と、
    前記音声の音声認識結果であるテキストを取得するテキスト取得部と、
    通信相手である前記ボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御する送信制御部と、
    テキストを受け付けるテキスト受付部と、
    前記テキストの音声合成結果である音声を取得する音声取得部と、
    を含み、
    前記送信制御部は、前記音声認識結果が表示される通信相手の前記ボイスチャットシステムに前記テキスト受付部が受け付けるテキストを含むテキストデータを送信すると共に、前記音声認識結果が表示されない通信相手の前記ボイスチャットシステムに前記音声合成結果である音声データを送信する、
    ことを特徴とするボイスチャット装置。
  2. 前記テキスト取得部は、前記複数の前記ボイスチャットシステムのいずれかにおいて音声認識結果が表示されるようになったことに応じて、前記テキストの取得を開始する、
    ことを特徴とする請求項1に記載のボイスチャット装置。
  3. 前記テキスト取得部は、前記複数の前記ボイスチャットシステムのすべてについて音声認識結果が表示されないようになったことに応じて、前記テキストの取得を停止する、
    ことを特徴とする請求項2に記載のボイスチャット装置。
  4. 前記送信制御部は、通信相手である前記ボイスチャットシステムに音声認識結果を表示する補助装置が含まれているか否かに応じて、当該通信相手に前記テキストデータを送信するか否かを制御する、
    ことを特徴とする請求項1に記載のボイスチャット装置。
  5. 前記テキスト取得部は、前記複数の前記ボイスチャットシステムのいずれかにおいて前記補助装置が含まれるようになったことに応じて、前記テキストの取得を開始する、
    ことを特徴とする請求項4に記載のボイスチャット装置。
  6. 前記テキスト取得部は、前記複数の前記ボイスチャットシステムのすべてについて前記補助装置が含まれないようになったことに応じて、前記テキストの取得を停止する、
    ことを特徴とする請求項5に記載のボイスチャット装置。
  7. 前記テキスト受付部は、前記ボイスチャット装置と接続されている補助装置に入力される前記テキストを受け付ける、
    ことを特徴とする請求項1から6のいずれか一項に記載のボイスチャット装置。
  8. 前記テキスト取得部は、前記ボイスチャット装置と通信可能なサーバに前記音声を表す音声データを送信し、
    前記テキスト取得部は、前記サーバから前記音声データが表す音声の音声認識結果であるテキストを受信する、
    ことを特徴とする請求項1から7のいずれか一項に記載のボイスチャット装置。
  9. 前記ボイスチャット装置を含む前記ボイスチャットシステムに、前記音声認識結果が表示される通信相手の前記ボイスチャットシステム及び前記音声認識結果が表示されない通信相手の前記ボイスチャットシステムにより送信されるテキストデータに含まれるテキスト並びに前記テキスト受付部が受け付けるテキストを順次表示手段に表示する手段を含む、
    ことを特徴とする請求項1から8のいずれか一項に記載のボイスチャット装置。
  10. ボイスチャットが可能な複数のボイスチャットシステムのうちの1つに含まれるボイスチャット装置が、ボイスチャットの音声を受け付けるステップと、
    前記ボイスチャット装置が、前記音声の音声認識結果であるテキストを取得するステップと、
    前記ボイスチャット装置が、通信相手である前記ボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御するステップと、
    前記ボイスチャット装置が、テキストを受け付けるステップと、
    前記ボイスチャット装置が、前記テキストの音声合成結果である音声を取得するステップと、
    を含み、
    前記送信するか否かを制御するステップは、前記音声認識結果が表示される通信相手の前記ボイスチャットシステムに前記テキストを受け付けるステップで受け付けるテキストを含むテキストデータを送信すると共に、前記音声認識結果が表示されない通信相手の前記ボイスチャットシステムに前記音声合成結果である音声データを送信する、
    ことを特徴とするボイスチャット方法。
  11. ボイスチャットが可能な複数のボイスチャットシステムのうちの1つに含まれるボイスチャット装置であるコンピュータに、
    ボイスチャットの音声を受け付ける手順、
    前記音声の音声認識結果であるテキストを取得する手順、
    通信相手である前記ボイスチャットシステムにおいて音声認識結果が表示されるか否かに応じて、当該通信相手に前記テキストを含むテキストデータを送信するか否かを制御する手順、
    テキストを受け付ける手順、
    前記テキストの音声合成結果である音声を取得する手順、
    を実行させることを特徴とするプログラムであって、
    前記送信するか否かを制御する手順は、前記音声認識結果が表示される通信相手の前記ボイスチャットシステムに前記テキストを受け付ける手順で受け付けるテキストを含むテキストデータを送信すると共に、前記音声認識結果が表示されない通信相手の前記ボイスチャットシステムに前記音声合成結果である音声データを送信する、
    ことを特徴とするプログラム。
JP2020568121A 2019-01-22 2020-01-17 ボイスチャット装置、ボイスチャット方法及びプログラム Active JP7232846B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019008400 2019-01-22
JP2019008400 2019-01-22
PCT/JP2020/001483 WO2020153251A1 (ja) 2019-01-22 2020-01-17 ボイスチャット装置、ボイスチャット方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020153251A1 JPWO2020153251A1 (ja) 2021-11-18
JP7232846B2 true JP7232846B2 (ja) 2023-03-03

Family

ID=71736154

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020568121A Active JP7232846B2 (ja) 2019-01-22 2020-01-17 ボイスチャット装置、ボイスチャット方法及びプログラム

Country Status (8)

Country Link
US (1) US20220101849A1 (ja)
EP (1) EP3917120A4 (ja)
JP (1) JP7232846B2 (ja)
CN (1) CN113302682A (ja)
AU (1) AU2020210375A1 (ja)
CA (1) CA3127299A1 (ja)
SG (1) SG11202107956RA (ja)
WO (1) WO2020153251A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566166A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 一种公共交通文本处理方法、装置、系统、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030750A1 (en) 2002-04-02 2004-02-12 Worldcom, Inc. Messaging response system
JP2011223506A (ja) 2010-04-14 2011-11-04 Kddi Corp 表示システム、表示方法およびプログラム
JP2015100073A (ja) 2013-11-20 2015-05-28 エヌ・ティ・ティ・コミュニケーションズ株式会社 通信装置、端末、通信システム、通信方法、および通信プログラム
US20180161683A1 (en) 2016-12-09 2018-06-14 Microsoft Technology Licensing, Llc Session speech-to-text conversion

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285063A (ja) * 1999-03-31 2000-10-13 Sony Corp 情報処理装置および情報処理方法、並びに媒体
JP2001142487A (ja) * 1999-11-11 2001-05-25 Sony Corp 音声データ入力システム
US9339728B2 (en) * 2002-12-10 2016-05-17 Sony Interactive Entertainment America Llc System and method for managing audio and video channels for video game players and spectators
JP2007214909A (ja) * 2006-02-09 2007-08-23 Matsushita Electric Ind Co Ltd 電話装置及び電話方法
US20110195739A1 (en) * 2010-02-10 2011-08-11 Harris Corporation Communication device with a speech-to-text conversion function
JP5807092B1 (ja) * 2014-06-17 2015-11-10 株式会社 ディー・エヌ・エー 音声チャット管理装置及び方法
JP6407624B2 (ja) * 2014-08-14 2018-10-17 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置およびユーザ情報表示方法
CN106531149B (zh) * 2016-12-07 2018-02-23 腾讯科技(深圳)有限公司 信息处理方法及装置
US10812423B2 (en) * 2017-03-15 2020-10-20 Naver Corporation Method, apparatus, system, and non-transitory computer readable medium for chatting on mobile device using an external device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030750A1 (en) 2002-04-02 2004-02-12 Worldcom, Inc. Messaging response system
JP2011223506A (ja) 2010-04-14 2011-11-04 Kddi Corp 表示システム、表示方法およびプログラム
JP2015100073A (ja) 2013-11-20 2015-05-28 エヌ・ティ・ティ・コミュニケーションズ株式会社 通信装置、端末、通信システム、通信方法、および通信プログラム
US20180161683A1 (en) 2016-12-09 2018-06-14 Microsoft Technology Licensing, Llc Session speech-to-text conversion

Also Published As

Publication number Publication date
EP3917120A1 (en) 2021-12-01
SG11202107956RA (en) 2021-08-30
WO2020153251A1 (ja) 2020-07-30
JPWO2020153251A1 (ja) 2021-11-18
CN113302682A (zh) 2021-08-24
AU2020210375A1 (en) 2021-08-12
EP3917120A4 (en) 2022-10-19
US20220101849A1 (en) 2022-03-31
CA3127299A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
JP7022734B2 (ja) ゲームセッションへの参加を容易にするための方法およびシステム
JP5807094B1 (ja) 音声チャットを可能とするシステム、方法及びプログラム
KR20130050871A (ko) 인스턴트 메시징 서비스 및 인스턴트 메시징 서비스로부터 확장된 복수의 서비스들을 제공하는 방법
US20080263235A1 (en) Device-to-Device Sharing of Digital Media Assets
US8152644B2 (en) Data stream processing
KR20210135683A (ko) 인터넷 전화 기반 통화 중 리액션을 표시하는 방법, 시스템, 및 컴퓨터 프로그램
KR20220090411A (ko) 게임 생방송 방법, 장치 및 디바이스
JP6751919B2 (ja) ソーシャルメディアシステム及びプログラム
WO2020238840A1 (zh) 单机程序的运行方法、装置、设备及存储介质
JP2021129296A (ja) ビデオ通話ボットを利用してコミュニケーションを提供する方法、システム、およびコンピュータプログラム
JP5162508B2 (ja) クライアント装置、画像表示方法、画像処理プログラム、画像処理プログラムが記憶された記憶媒体
CN106576126B (zh) 音频聊天管理设备和方法
JP2010122826A (ja) オンライン会話システム、オンライン会話用サーバ、オンライン会話制御方法及びプログラム
TW202341038A (zh) 電腦程式、終端及伺服器
JP7232846B2 (ja) ボイスチャット装置、ボイスチャット方法及びプログラム
KR102002872B1 (ko) 외부 디바이스를 통한 모바일 디바이스에서의 채팅 방법 및 시스템
US9056250B2 (en) Systems and methods for handling communication events in a computer gaming system
JP2017204856A (ja) VoIP通話サービスでリングバックトーンを利用するためのコンピュータプログラムおよび通話方法
JP2018036688A (ja) 情報処理装置、サーバ装置、情報処理システム、その制御方法及びプログラム
US20220208210A1 (en) Sound output control apparatus, sound output control system, sound output control method, and program
JP7143874B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR102521672B1 (ko) 게임 서비스 방법 및 이를 수행하기 위한 컴퓨팅 장치
JP2018139115A (ja) 音声チャットを可能とするシステム、方法及びプログラム
US20240129432A1 (en) Systems and methods for enabling a smart search and the sharing of results during a conference
JP6312639B2 (ja) 音声チャットを可能とするシステム、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R150 Certificate of patent or registration of utility model

Ref document number: 7232846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150