JP2024072688A - 音声再生制御システム、音声再生制御方法および音声再生制御プログラム - Google Patents
音声再生制御システム、音声再生制御方法および音声再生制御プログラム Download PDFInfo
- Publication number
- JP2024072688A JP2024072688A JP2022183671A JP2022183671A JP2024072688A JP 2024072688 A JP2024072688 A JP 2024072688A JP 2022183671 A JP2022183671 A JP 2022183671A JP 2022183671 A JP2022183671 A JP 2022183671A JP 2024072688 A JP2024072688 A JP 2024072688A
- Authority
- JP
- Japan
- Prior art keywords
- playback
- voice
- audio
- data
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 54
- 230000004044 response Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 17
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000012447 hatching Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1827—Network arrangements for conference optimisation or adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/38—Displays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/50—Aspects of automatic or semi-automatic exchanges related to audio conference
- H04M2203/5063—Centrally initiated conference, i.e. conference server dials participants
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】 複数の音声を識別可能な状態で並行して再生する。【解決手段】 音声再生制御システムは、音声データを音声で再生する音声再生部17と、音声データを文字に変換して再生する文字再生部19と、第1音声データと第2音声データを並行して再生する並行再生制御部15と、を備え、並行再生制御部15は、第1音声データを文字再生部19により再生するとともに音声再生部17による再生をOFFまたは第2音声データより小さい音量で再生し、第2音声データを音声再生部17により再生する。【選択図】 図4
Description
この発明は、音声再生制御システム、音声再生制御方法および音声再生制御プログラムに関し、特に、複数種類の音声を再生するのに適した音声再生制御システム、その音声再生制御システムで実行される音声再生制御方法およびその音声再生制御方法をコンピューターに実行させる音声再生制御プログラムに関する。
近年、離れた場所に位置する複数のユーザーがコンピューターを介して会議等の通話する音声通話システムが普及している。例えば、特開2021-184189号公報には、複数の端末とネットワークで接続され、前記端末間でのオンライン会議を実現するオンライン会議システムであって、複数の前記端末間で音声データおよび画像データを相互に配信する配信制御部を有し、前記配信制御部は、前記オンライン会議中に、いずれかの前記端末から、該端末を含む前記複数の端末の一部を特定端末として指定し、該特定端末の間でのみ会話を行う限定会話指示を受けた場合は、該特定端末との間で授受される音声データを、その他の端末で再生可能な状態で配信することを禁止する限定配信を行うオンライン会議システムが開示されている。
しかしながら、特開2021-184189号公報に記載のオンライン会議システムにおいては、限定会話を指示した参加者は、オンライン会議における会話を音声で聞かなければならず、限定会話の会話とオンライン会議の会話とのいずれであるかを音声で識別しなければならない。このため、限定会話を指示した参加者は、音声の識別が困難な場合は、限定会話の会話とオンライン会議の会話とを区別することが困難な場合がある。
この発明の目的の1つは、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することである。
この発明の他の目的は、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御方法を提供することである。
この発明のさらに他の目的は、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御プログラムを提供することである。
この発明のある局面によれば、音声再生制御システムは、音声データを音声で再生する音声再生手段と、音声データを文字に変換して再生する文字再生手段と、第1音声データと第2音声データを並行して再生する並行再生制御手段と、を備え、並行再生制御手段は、第1音声データを文字再生手段により再生するとともに音声再生手段による再生をOFFまたは第2音声データより小さい音量で再生し、第2音声データを音声再生手段により再生する。
この発明の他の局面によれば、音声再生制御方法は、音声データを音声で再生する音声再生ステップと、音声データを文字に変換して再生する文字再生ステップと、第1音声データと第2音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、並行再生制御ステップは、第1音声データを文字再生ステップにおいて再生させるとともに音声再生ステップにおいて再生しないまたは第2音声データより小さい音量で再生させ、第2音声データを音声再生ステップにおいて再生させる。
この発明のさらに他の局面によれば、音声再生制御プログラムは、音声データを音声で再生する音声再生ステップと、音声データを文字に変換して再生する文字再生ステップと、第1音声データと第2音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、並行再生制御ステップは、第1音声データを文字再生ステップにおいて再生させるとともに音声再生ステップにおいて再生しないまたは第2音声データより小さい音量で再生させ、第2音声データを音声再生ステップにおいて再生させる。
以下、本発明の実施の形態について図面を参照して説明する。以下の説明では同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがってそれらについての詳細な説明は繰返さない。
図1は、本発明の実施の形態の1つにおけるリモート会議システムのシステム構成の一例を示す図である。リモート会議システム1は、音声再生制御システムの一例である。図1を参照して、リモート会議システム1は、サーバー100と、パーソナルコンピューター(以下「PC」という)200-1,200-2,200-3,200-4~200-Nとを含む。但し、Nは、正の整数であり、ここでは5以上である。サーバー100およびPC200-1~Nそれぞれは、インターネット5に接続され、互いに通信可能である。
PC200-1~Nそれぞれは、カメラ、音声を集音するマイクロホン、音を出力するスピーカーを備えている。PC200-1~Nそれぞれは、一般的なコンピューターであり、その主なハードウェア構成および機能は同じである。
なお、PC200-1~Nに代えて、カメラ、マイクロホン、スピーカーおよび通信機能を備えた装置であれば、PDA(Personal Digital Assistance)またはスマートフォン等の情報通信装置であってもよい。また、インターネット5に限らず、サーバー100およびPC200-1~Nが互いに通信可能であれば他のネットワークであってもよい。ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)であってもよい。
リモート会議システム1において、会議の参加者がPC200-1~Nのいずれかを操作して会議に参加する。以下、PC200-1~Nのうち任意の1つをPC200という。
PC200-1~Nそれぞれには、会議に参加するためのプログラムがインストールされており、PC200-1~Nそれぞれがサーバー100と通信することによって、会議が開催される。PC200-1~Nそれぞれにインストールされるプログラムは、サーバー100と通信するための専用のプログラムの他、サーバー100がWebサービスを提供している場合には、一般的なブラウザプログラムであってもよい。
サーバー100は、音声再生制御プログラムを実行することによりリモート会議システムが実現される。サーバー100は、PC200-1~Nと通信し、PC200-1~Nそれぞれから受信するデータを他のPC200-1~Nそれぞれに送信する。
PC200-1~Nそれぞれとサーバー100との間で送受信されるデータは、音声を示す音声データ、画像を示す画像データおよびアプリケーションデータを含む。画像は、静止画像と動画像を含む。PC200-1~Nそれぞれとサーバー100との間で送受信されるデータは、圧縮されたデータであってもよいし、圧縮されていないデータであってもよい。
サーバー100は、PC200-1~Nそれぞれに送信するデータを統括する。例えば、サーバー100は、PC200-1~Nそれぞれから受信される音声のデータを、PC200-1~Nすべてに送信することが可能である。また、サーバー100は、画像データについては、PC200-1~Nそれぞれから受信される画像のデータを集約し、PC200-1~Nそれぞれに送信することが可能である。
サーバー100は、PC200-1~Nそれぞれからの要求に応じて、送信する音声データ、画像データおよびアプリケーションデータを決定し、送信する。したがって、PC200-1~Nそれぞれに表示される画像は、同じ場合もあれば異なる場合があり、PC200-1~Nそれぞれから出力される音声は、同じ場合もあれば異なる場合がある。なお、PC200-1~Nそれぞれが、サーバー100から受信される複数の音声データを加工して、出力してもよい。この場合、サーバー100で音声データを加工する処理が不要になるので、負荷が低減する。また、PC200-1~Nそれぞれが、サーバー100から受信される複数の画像データを加工して、表示してもよい。この場合、サーバー100で複数の画像データを加工する処理が不要になるので、負荷が低減する。
図2は、サーバーのハードウェア構成の一例を示すブロック図である。図2を参照して、サーバー100は、演算処理を行うコンピューターであり、それぞれがバス113に接続された、サーバー100の全体を制御するための中央演算装置(CPU)101と、CPU101が実行するためのプログラムを記憶するROM(Read Only Memory)102と、CPU101の作業領域として使用されるRAM(Random Access Memory)103と、データを不揮発的に記憶するHDD104と、CPU101をインターネット5に接続する通信部105と、画像を表示する表示部106と、操作の入力を受け付ける操作部107と、外部記憶装置110と、を含む。
通信部105は、サーバー100をインターネット5に接続するためのインターフェースである。このため、CPU101は、通信部105を介して、インターネット5に接続されたPC200-1~100Nと通信可能である。
外部記憶装置110は、CD-ROM(Compact Disk Read Only Memory)111が装着される。CPU101は、外部記憶装置110を制御して、CD-ROM111に記憶されたデータを読み出す。
本実施の形態においては、CPU101は、ROM102またはHDD104に記憶されたプログラムを実行する。また、CPU101は、外部記憶装置110を制御して、CD-ROM111からCPU101が実行するためのプログラムを読出し、読み出したプログラムをRAM103に記憶して実行してもよい。
さらに、CPU101は、インターネット5に接続されたコンピューターからプログラムをダウンロードしてHDD104に記憶する。また、インターネット5に接続されたコンピューターがプログラムをHDD104に書込みする場合に、HDD104にプログラムが記憶される。CPU101は、HDD104に記憶されたプログラムをRAM103にロードして実行してもよい。
なお、CPU101が実行するためのプログラムを記憶する記録媒体としては、CD-ROM111に限られず、フレキシブルディスク、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、ICカード、光カード、マスクROM、EPROM(Erasable Programmable ROM)等の半導体メモリ等の媒体でもよい。ここでいうプログラムは、CPU101により直接実行可能なプログラムだけでなく、ソースプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。
図3は、PCのハードウェア構成の一例を示すブロック図である。図3を参照して、PC200は、演算処理を行うコンピューターであり、それぞれがバス212に接続された、PC200の全体を制御するためのCPU201と、CPU201が実行するためのプログラムを記憶するROM202と、CPU201の作業領域として使用されるRAM203と、データを不揮発的に記憶するHDD204と、CPU201をインターネット5に接続する通信部205と、画像を表示する表示部206と、ユーザーである参加者による操作の入力を受け付ける操作部207と、参加者を撮像するカメラ208と、音声を出力するスピーカー209と、操作者の音声を集音するマイクロホン210と、外部記憶装置211と、を含む。
外部記憶装置211は、CD-ROM211Aが装着される。CPU201は、外部記憶装置211を制御して、CD-ROM211Aに記憶されたデータを読み出す。
カメラ208、スピーカー209およびマイクロホン210の少なくとも2つが一体となったモジュールがPC200に接続されてもよい。モジュールは、例えば、スピーカー209およびマイクロホン210が一体となったヘッドセットを含む。
図4は、本実施の形態におけるサーバーが備えるCPUが有する機能の一例を示す図である。図4に示す機能は、サーバー100が備えるCPU101が、ROM102、HDD104またはCD-ROM111に記憶された端末側音声再生制御プログラムを実行することにより、CPU101により実現される機能である。端末側音声再生制御プログラムは、音声再生制御プログラムの一部である。図4を参照して、CPU101は、通話部11と、並行通話制御部13と、並行再生制御部15と、音声再生部17と、文字再生部19と、を含む。
通話部11は、複数ユーザー間における通話を制御する。通話部11は、2以上のユーザーからなるグループにおいて、グループに属する2以上のユーザー間における通話を可能とする。通話部11は、グループに属する1のユーザーの音声をそのグループに属する他のすべてのユーザーに伝達する。通話部11は、複数のグループそれぞれにおける通話を、別の通話とする。換言すれば、通話部11は、1のグループにおける通話を、他のグループにおける通話と別の通話とする。したがって、1のグループにおける通話は、他のグループに属するユーザーには伝達されない。なお、複数のグループに同一のユーザーが含まれる場合がある。
通話部11は、通話をするユーザーのグループを決定し、同一のグループに属する複数のユーザーがそれぞれ操作するPCを決定する。通話部11は、同一グループに属する複数のPC200について、一のPC200から受信されるデータを、一のPCとは別の1以上のPC200に送信する。
以下の説明では、N人のユーザーP-1~NがPC200-1~Nをそれぞれ操作する場合を例に説明する。通信部105がPC200-1~Nとの間で送受信するデータは、音声データを少なくとも含む。通信部105がPC200-1~Nとの間で送受信するデータは、静止画または動画を含む画像データを含んでもよい。
例えば、ユーザーP-1~M(Mは、Nより小さい整数)が会議に参加する場合、通話部11は、ユーザーP―1~Mがそれぞれ操作するPC200-1~Mを同一のグループに決定する。通話部11は、通信部105を制御して、同一グループに属するPC200-1~Mのいずれか、例えばPC200-1から音声データを受信し、受信された音声データをPC200―1以外のすべてのPC200-2~Mに送信する。また、ユーザーP-1とユーザーP-2とが通話する場合、通話部11は、ユーザーP―1,P-2がそれぞれ操作するPC200-1、200-2を同一のグループに決定する。通話部11は、PC200-1とPC200-2とのいずれか一方から受信されたデータを他方に送信する。
並行通話制御部13は、第1のグループにおける通話と第2のグループにおける通話を並行して実行する。並行通話制御部13は、第1のグループと第2のグループとの双方に属する特定ユーザーが存在する場合に、その特定ユーザーについて、第1のグループにおける通話と第2のグループにおける通話とを並行して実行する。並行通話制御部13は、第1グループにおける通話の音声データと、第2グループにおける通話の音声データとを、並行再生制御部15に出力する。
なお、並行通話制御部13は、第2のグループにおける通話を禁止する場合がる。例えば、第1のグループに属する複数のユーザーのいずれかにより、第2のグループにおける通話を禁止することが指定される場合に、第2のグループにおける通話が禁止される。並行通話制御部13は、第2のグループにおける通話を禁止される場合、第2のグループにおける通話を禁止する。
並行再生制御部15は、第1グループにおける通話の音声データと、第2グループにおける通話の音声データとを音声再生部17および文字再生部19に出力する。並行再生制御部15は、音声再生部17および文字再生部19を制御して、第1のグループにおける通話の音声データと第2のグループにおける通話の音声データとを並行して再生する。
音声再生部17は、音声データを音声で再生する。音声再生部17は、再生した音声を並行通話制御部13に出力する。
文字再生部19は、音声データを文字に変換することにより音声データを再生する。具体的には、文字再生部19は、音声データを音声認識することにより文字に変換する。文字再生部19は、音声データから変換された文字からなる文字情報を並行通話制御部13に出力する。文字再生部19は、音声データから音声を発声しているユーザーを特定し、特定されたユーザーを識別するためのユーザー識別情報を付加した文字情報を並行通話制御部13に出力してもよい。また、文字再生部19は、音声データから変換された文字情報を他の言語に翻訳し、翻訳後の文字情報を並行通話制御部13に出力してもよい。
並行再生制御部15は、文字再生部19を制御して、第1のグループにおける通話を示す第1音声データを再生させる。並行再生制御部15は、文字再生部19による第1音声データの再生と並行して、音声再生部17を制御して、第2のグループにおける通話の第2音声データを再生させるとともに、第1音声データを再生させないかまたは第1音声データを第2音声データより小さい音量で再生させる。音声再生部17は、特定ユーザーの音声については、第1のグループにおける通話ではなく、第2のグループにおける通話として扱う。このため、特定ユーザーが発声する音声は、第1音声データに含まれず、第2音声データに含まれる。
並行通話制御部13は、特定ユーザーを識別するためのユーザー識別情報と、音声再生部17により再生された音声の音声データと、文字再生部19により再生された文字情報と、を通話部11に出力する。
通話部11は、特定ユーザーが操作するPC200に、音声データと文字情報とを送信する。なお、文字情報が送信されるのに変えて、特定ユーザーが操作するPC200に送信する画像データに文字情報が重畳されてもよい。
並行再生制御部15は、通話部11において第1のグループにおける通話が継続している間に、第2のグループにおける通話が開始されることに応じて、第1のグループにおける通話と第2のグループにおける通話を並行して実行する。なお、並行再生制御部15は、通話部11において第1のグループにおける通話が継続している間に、第2のグループにおける通話が開始された後に、特定ユーザーから並行通話の開始を示す開始指示を受け付けることに応じて、第1のグループにおける通話と第2のグループにおける通話を並行して実行してもよい。
さらに、並行再生制御部15は、第1のグループにおける通話と第2のグループにおける通話を並行して実行している間に、特定ユーザーから切換指示を受け付ける場合に、第1グループにおける通話の再生と第2グループにおける通話の再生とを切り換えてもよい。具体的には、並行再生制御部15は、切換指示を受け付けることに応じて、文字再生部19を制御して第2音声データを再生させるとともに、音声再生部17を制御して第1音声データを再生させるとともに、第2音声データを再生させないかまたは第2音声データを第1音声データより小さい音量で再生させる。
図5は、本実施の形態におけるPCが備えるCPUが有する機能の一例を示す図である。図5に示す機能は、PC200が備えるCPU201が、ROM202、HDD204またはCD-ROM211Aに記憶された再生プログラムを実行することにより、CPU201により実現される機能である。再生プログラムは、音声再生制御プログラムの一部である。図5を参照して、PC200が備えるCPU201は、端末側通話部251と、音声入力制御部253と、音声出力制御部255と、表示制御部257と、画像入力制御部259と、を含む。
端末側通話部251は、PC200を操作するユーザーと、他のユーザーとの間の通話を制御する。他のユーザーは、1以上である。端末側通話部251は、PC200を操作するユーザーと1以上のユーザーからなるグループにおいて、PC200を操作するユーザーと他の1以上のユーザーとの間の通話を可能にする。
端末側通話部251は、通信部205を制御して、サーバー100から音声データと文字情報とを受信する。端末側通話部251は、サーバー100から受信された音声データを音声出力制御部255に出力し、サーバー100から受信された文字情報を表示制御部257に出力する。端末側通話部251は、サーバー100から画像データが受信される場合、画像データの画像を表示制御部257に出力する。
表示制御部257は、端末側通話部251から文字情報が入力されることに応じて、表示部206に文字情報の画像を表示させる。表示制御部257は、端末側通話部251から画像データが入力されることに応じて、表示部206に画像データの画像を表示させる。また、表示制御部257は、端末側通話部251から文字情報と画像データとが入力されることに応じて、表示部206に文字情報の画像と画像データの画像とを表示させる。
文字情報の画像と画像データの画像とが別々に表示されてもよいし、画像データの画像に文字情報の画像が重畳して表示されてもよい。
文字情報の画像と画像データの画像とが別々に表示されてもよいし、画像データの画像に文字情報の画像が重畳して表示されてもよい。
音声出力制御部255は、音声データを再生する。具体的には、音声出力制御部255は、デジタル信号の音声データをアナログ信号に変換し、アナログの音声データをスピーカー209に出力する。これによりスピーカー209から音声データの音声が出力される。
音声入力制御部253は、マイクロホン210が出力するアナログの音声データが入力される。音声入力制御部253は、アナログの音声データをデジタルの音声データに変換し、変換後の音声データを端末側通話部251に出力する。なお、音声入力制御部253は、音声データを圧縮し、圧縮された音声データを端末側通話部251に出力してもよい。音声入力制御部253が端末側通話部251に出力する音声データは、PC200を操作するユーザーが発した音声に対応する。
画像入力制御部259は、カメラ208が出力するアナログの画像データが入力される。画像入力制御部259は、アナログの画像データをデジタルの画像データに変換し、変換後の画像データを端末側通話部251に出力する。
端末側通話部251は、通信部205を制御して、音声入力制御部253から入力される音声データおよび画像入力制御部259から入力される画像データをサーバー100に送信する。
以下、ユーザーP-1が操作するPC200-1を例に、音声再生システムの動作を説明する。
図6は、操作画面の一例を示す第1の図である。操作画面300は、5人のユーザーP-1~5が会議を開催している場合にPC200―1の表示部206に表示される画面である。操作画面300は、画像301-1~5が表示される。画像301-1~5は、PC200―1~5それぞれが備えるカメラ208により撮像された画像である。画像301-1~5は、ユーザーP-1~5にそれぞれ対応する。この状態において、サーバー100において、5人のユーザーP-1~5間の通話が第1のグループの通話として取り扱われる。
PC200―1の表示部206に、操作画面300が表示されている状態においては、サーバー100、PC200-1~5それぞれにおいて、再生モードは、通常モードである。ユーザーP-2~5それぞれが発声する音声が会議の音声として、PC200-1のスピーカー209から出力される。また、ユーザーP-1が発声する音声はPC200―1のマイクロホン210で集音され、PC200-2~5それぞれのスピーカー209から出力される。
ユーザーP-1に対応する画像301-1を除く他の画像301-2~5それぞれの右下に重畳して秘話の文字が表されたボタン303が表示される。ユーザーP-1が、画像301-2~5それぞれの右下に重畳して秘話の文字が表されたボタン303により、現在通話している会議の通話とは別の通話の相手を指定することができる。ここでは、ユーザーP-4に対応する画像301―4の右下に表示されたボタン303が指示された状態を、ハッチングで示している。
図7は、招待指示画面の一例を示す図である。図7を参照して、招待指示画面305は、ポップアップ画面であり、操作画面300に重畳した状態で表示部206に表示される。招待指示画面305は、ユーザーP-1により、操作画面300中の画像301―2~5それぞれの右下に表示されたボタン303が指示されることに応じて、表示される。図7においては、ユーザーP-1により、操作画面300中の画像301―4の右下に表示されたボタン303が指示される場合に表示され招待指示画面305が示される。
招待指示画面305は、「Dさんと秘話を開始しますか?」のメッセージと、「はい」の文字が表されたボタンと、「いいえ」の文字が表されたボタンと、を含む。ユーザーP-1が「はい」の文字が表されたボタンを指示すると、ユーザーP-4が操作するPC200-4の表示部206に招待受付画面が表示される。
図8は、招待受付画面の一例を示す第1の図である。ここでは、ユーザーP-4が操作するPC200-4の表示部206に表示される操作画面300および招待受付画面307が示される。図8を参照して、招待受付画面307は、ポップアップ画面であり、操作画面300に重畳した状態で表示部206に表示される。招待受付画面307は、「Aさんから秘話の要求があります。」のメッセージと、「許可」の文字が表されたボタンと、「拒否」の文字が表されたボタンと、を含む。ユーザーP-4が「許可」の文字が表されたボタンを指示すると、ユーザーP-1とユーザーP4との間の通話が可能になる。この場合、サーバー100,PC200―1およびPC200-4それぞれにおいて、再生モードが並行再生モードに切り換わる。並行再生モードの場合、サーバー100において、ユーザーP-1とユーザーP-4との間の通話が第2のグループの通話として扱われる。ユーザーP-4が「拒否」の文字が表されたボタンを指示すると、ユーザーP-1とユーザーP4との間の通話は実現されないとともに、サーバー100、PC200―1およびPC200-4それぞれにおいて、再生モードは通常モードが維持され、並行再生モードに切り換わらない。
図9は、並行再生画面の一例を示す第1の図である。図9に示す並行再生画面310は、ユーザーP-1が操作するPC200-1の表示部206に表示される。並行再生画面310は、第1グループ表示領域313と、「会議に戻る」の文字列が表示されるボタン311と、「入れ替え」の文字列が表示されるボタン312と、を含む。並行再生モードにおいては、第1のグループにユーザーP-1~5が属し、第2のグループにユーザーP-1、4が属する。
第1グループ表示領域313には、第1のグループに属しかつ第2のグループに属しないユーザーP-2,3,5の通話が、文字情報として表示される。図9においては、ユーザーP-2,3,5それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーP-2,3,5をそれぞれ識別するユーザー識別情報B,C,Eとしている。
第2のグループに属するユーザーP-1,4の通話は、音声で再生される。図9においては、音声を吹き出しに文字で示される。なお、第2のグループに属するユーザーP-1,4の通話は、ユーザーP-2,3,5に伝達されない。
このように、ユーザーP-1は、第1グループ表示領域313に表示された文字情報で、ユーザーP-2,3,5それぞれの発話の内容を認識しながら、音声でユーザーP-4と通話することができる。
ユーザーP-1が、ボタン311を指示することにより、第2グループの通話が終了し、第1グループの通話のみに戻る。この場合、図6に示した操作画面300が表示部206に表示されるとともに、第1のグループに属するユーザーP200-1~5の通話が音声で再開される。
ユーザーP-1が、ボタン312を指示することにより、第1グループの再生と、第2グループの再生とが入れ替わる。
図10は、並行再生画面の一例を示す第2の図である。図10に示す並行再生画面310は、ユーザーP-1が図9に示した並行再生画面310のボタン312を指示することによりPC200-1の表示部206に表示される。図10に示す並行再生画面310は、第2グループ表示領域314と、「会議に戻る」の文字列が表示されるボタン311と、「入れ替え」の文字列が表示されるボタン312と、を含む。並行再生モードにおいては、第1のグループにユーザーP200-1~5が属し、第2のグループにユーザーP200-1、4が属する。
第2グループ表示領域314は第2のグループの通話に関する領域である。第2グループ表示領域314には、第2のグループに属するユーザーP-1,4の通話が、文字情報として表示される。図10においては、ユーザーP-1,4それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーP-1,4をそれぞれ識別するユーザー識別情報A,Dとしている。
第1のグループに属しかつ第2のグループに属しないユーザーP-2,3,5の通話は、音声で再生される。図10においては、音声を吹き出しに文字で示される。なお、第2のグループに属するユーザーP-1,4の通話は、ユーザーP-2,3,5に伝達されない。
このように、ユーザーP-1は、第2グループ表示領域314に表示された文字情報で、ユーザーP-1,4それぞれの発話の内容を認識しながら、ユーザーP-2,3,5による発生を音声で確認することができる。
ユーザーP-1が、ボタン311を指示することにより、第2グループの通話が終了し、第1グループの通話のみに戻る。この場合、図6に示した操作画面300が表示部206に表示されるとともに、第1のグループに属するユーザーP-1~5の通話が音声で再開される。
ユーザーP-1が、ボタン312を指示することにより、第1グループの再生と、第2グループの再生とが入れ替わる。この場合、図9に示した並行再生画面310がPC200-1の表示部206に表示される。
図11は、並行再生画面の一例を示す第3の図である。図11に示す並行再生画面310が、図9に示した並行再生画面310と異なる点は、共有画面表示領域315が追加された点である。ここでは、共有画面表示領域315にユーザーP-2により第1のグループにおいて共有された画面が表示される。共有画面表示領域315に表示される画面は、ユーザーP-2が操作するPC200―2により第1のグループにおいて共有が指示された画面であり、PC200―2の表示部206に表示される画面である。共有画面表示領域315に表示される画面は、PC200―2からサーバー100を経由して、PC2001,3~5に送信される。
なお、第2のグループに属するユーザーP-1,4の通話は音声として出力され、図10においては、吹き出しに文字で示される。
図12は、並行再生画面の一例を示す第4の図である。図12に示す並行再生画面310が、図9に示した並行再生画面310と異なる点は、第2グループ表示領域314が追加された点である。ここでは、第1グループ表示領域313と第2グループ表示領域314とが左右に並んで配置される。第1グループ表示領域313は第1のグループの通話に関する領域であるのに対して、第2グループ表示領域314は第2のグループの通話に関する領域である。ここでは、第2グループ表示領域314は、第2のグループに属するユーザーP-4を撮像した画像が表示される。なお、第2グループ表示領域314は、第2のグループで共有される画面であってもよい。
なお、第2のグループに属するユーザーP-1,4の通話は音声として出力され、図11においては、吹き出しに文字で示される。
図13は、操作画面の一例を示す第2の図である。図13に示す操作画面300が図6に示した操作画面300と異なる点は、通話リスト320が追加された点である。通話リスト320は、ユーザーP-1が、通話可能なユーザーのユーザー識別情報を並へた表である。通話リスト320に含まれるユーザー識別情報は、第1のグループに属するユーザーP-1~5に加えて、他のユーザーP-6~Nを含む。
ユーザーP-1が、通話リスト320に表示されたユーザー識別情報の1以上を指示すると、再生モードが通常モードから並行再生モードに切り換わる。ここでは、ユーザーP-6のユーザー識別情報Fが指示される場合を例に説明する。
図14は、並行再生画面の一例を示す第5の図である。図14に示す並行再生画面310は、ユーザーP-1が図13に示した操作画面300の通話リスト320に表示されたユーザー識別情報Fを指示することによりPC200-1の表示部206に表示される。
図14に示す並行再生画面310は、第1グループ表示領域313と、「会議に戻る」の文字列が表示されるボタン311と、「入れ替え」の文字列が表示されるボタン312と、を含む。並行再生モードにおいては、第1のグループにユーザーP200-1~5が属し、第2のグループにユーザーP200-1、6が属する。
第1グループ表示領域313には、第1のグループに属しかつ第2のグループに属しないユーザーP-2~5の通話が、文字情報として表示される。図14においては、ユーザーP-2~5それぞれの音声に対応する文字情報が表示される。また、文字情報は、音声が発声された順に、上から下に並んで表示される。また、音声を発声したユーザーを特定するための情報として、文字情報の先頭に、ユーザー識別情報が表示される。ここでは、ユーザーP-2~5をそれぞれ識別するユーザー識別情報B,C,D,Eとしている。
第2のグループに属するユーザーP-1,6の通話は、音声で再生される。図14においては、音声を吹き出しに文字で示される。なお、第2のグループに属するユーザーP-1,6の通話は、ユーザーP-2~5に伝達されない。
このように、ユーザーP-1は、第1グループ表示領域313に表示された文字情報で、ユーザーP-2~5それぞれの発話の内容を認識しながら、音声でユーザーP-6と通話することができる。
ユーザーP-1が、ボタン311を指示することにより、第2グループの通話が終了し、第1グループの通話のみに戻る。この場合、図13に示した操作画面300が表示部206に表示されるとともに、第1のグループに属するユーザーP200-1~5の通話が音声で再開される。
ユーザーP-1が、ボタン312を指示することにより、第1グループの再生と、第2グループの再生とが入れ替わる。
図15は、招待受付画面の一例を示す第2の図である。ここでは、ユーザーP-1に対して第1のグループに属しないユーザーP-6から通話の要求があった場合にPC200-1の表示部206に表示される招待受付画面308を示す。
図15を参照して、招待受付画面308は、ポップアップ画面であり、図6に示した操作画面300に重畳した状態で表示部206に表示される。招待受付画面308は、「Fさんから通話の要求があります。」のメッセージと、「許可」の文字が表されたボタンと、「拒否」の文字が表されたボタンと、を含む。ユーザーP-4が「許可」の文字が表されたボタンを指示すると、ユーザーP-1とユーザーP―6との間の通話が可能になるとともに、PC200―1において、再生モードが並行再生モードに切り換わる。並行再生モードの場合、サーバー100において、ユーザーP-1とユーザーP-6との間の通話が第2のグループの通話として扱われる。この場合、図14に示した並行再生画面310が、PC200-1の表示部206に表示される。
ユーザーP-1が「拒否」の文字が表されたボタンを指示すると、ユーザーP-1とユーザーP6との間の通話は実現されないとともに、PC200―1において、再生モードは通常モードが維持され、並行再生モードに切り換わらない。
図16は、音声再生制御処理の流れの一例を示すフローチャートである。音声再生制御処理は、サーバー100が備えるCPU101が、ROM102、HDD104またはCD-ROM111に記憶された音声再生制御プログラムを実行することにより、CPU101により実行される処理である。サーバー100は、PC200-1~Nそれぞれについて、送受信される音声データの切換を制御する。PC200-1~Nそれぞれにおける音声データを切り換える制御は、すべて同じである。ここでは、サーバー100がPC200―1との間で送受信する音声データを切り換える制御を例に説明する。
図16を参照して、サーバー100が備えるCPU101は、第1通話が開始されたか否かを判断する。第1通話が開始されるまで待機状態となり(ステップS01でNO)、第1通話が開始されたならば(ステップS01でYES)、処理はステップS02に進む。第1通話は、ユーザーP―1と、他の1以上のユーザーとの間における通話である。ここでは、ユーザーP-1が、他の4人のユーザーP-2~5との間で通話する場合を例に説明する。また、第1通話において通話するユーザーP-1~5の集合は第1グループを構成する。
ステップS02においては、第1通話が接続され、処理はステップS03に進む。ユーザーP-1~5がそれぞれ操作するPC200-1~5を相互に接続し、PC200-1~5間で音声データの送受信を可能にする。なお、音声データに加えて、画像データがPC200-1~5間で送受信が可能となる。
ステップS03においては、第1音声データを再生し、処理をステップS04に進める。第1音声データは、第1グループに属する他のユーザーP-2~5の音声である。サーバー100は、PC200-2~5のいずれかから受信される第1音声デーをPC200―1に送信する。PC200―1においては、サーバー100から受信される第1音声データを再生し、第1音声データの音声をスピーカー209から出力する。
ステップS04においては、第1ウィンドウが生成され、処理はステップS05に進む。第1ウィンドウは、第1通話に関連する画像を含む。第1通話に関連する画像は、例えば、他のユーザーP-2~5をカメラ208が撮像した動画像、第1グループで共有されるデータの画像を含む。ステップS05においては、PC200-1に第1ウィンドウが送信され、処理はステップS06に進む。これにより、PC200-1において、表示部206に第1ウィンドウが表示される。なお、ステップS03とステップS04と同時に実行される。
ステップS06においては、第2通話の開始指示を受け付けたか否かが判断さる。ユーザーP-1により第2通話の相手としてユーザーが指定される場合、他のユーザーP-2~Nのいずれかから第2通話の相手としてユーザーP-1が指定される場合、第2通話の開始指示を受け付ける。また、第2通話の開始指示は、第1グループとは別のグループの通話に、ユーザーP-1を招待する指示を含む。第2通話の開始指示が受け付けられたならば処理はステップS07に進むが、そうでなければ処理はステップS03に戻る。ただし、第2通話が禁止されている場合は、第2通話の開始指示が受け付けられても、処理はステップS03に戻る。第1通話における第1グループのいずれかが第2通話を禁止する指示をしている場合に、第2通話が禁止される。ここでは、第2通話が禁止されていない状態で、ユーザーP―1が、第2通話の相手としてユーザーP-4を指定した場合を例に説明する。
ステップS07においては、第2通話が接続され、処理はステップS08に進む。ユーザーP-1が操作するPC200-1とユーザーP-4が操作するPC200-4とを接続し、PC200-1,4間で音声データの送受信を可能にする。サーバー100は、PC200-2から受信される第2音声データをPC200―1に送信する。PC200―1においては、サーバー100から受信される第2音声データを再生し、第2音声データの音声をスピーカー209から出力する。なお、音声データに加えて、画像データがPC200-1,4間で送受信が可能となる。
ユーザーP-1により第2通話の相手としてユーザーが指定される場合、指定されたユーザーが許可する場合に第2通話が接続されてもよい。また、他のユーザーP-2~Nのいずれかから第2通話の相手としてユーザーP-1が指定される場合、ユーザーP-1が許可する場合第2通話が接続されてもよい。また、第1グループとは別のグループの通話にユーザーP-1が招待される場合、ユーザーP-1が許可する場合第2通話が接続されてもよい。
ステップS08においては、第1並行通話制御処理が実行され、処理はステップS09に進む。第1並行通話制御処理の詳細は後述するが、PC200―1において、第2通話の第2音声データが音声として再生され、第1通話の第1音声データが第2音声データの再生と異なる形態で再生されるように制御する処理である。
ステップS09においては、切換指示を受け付けた否かが判断される。切換指示は、ユーザーP―1がPC200―1に入力する操作であり、第1通話と第2通話とで再生携帯の切り換えを指示する操作である。切換指示を受け付けたならば(ステップS09でYES)、処理はステップS10に進むが、そうでなければ処理はステップS08に戻る。
ステップS10においては、第2並行通話制御処理が実行され、処理はステップS11に進む。第2並行通話制御処理の詳細は後述するが、PC200―1において、第1通話の第1音声データが音声として再生され、第2通話の第2音声データが第1音声データの再生と異なる形態で再生されるように制御する処理である。
ステップS11においては、切換指示を受け付けた否かが判断される。切換指示は、ユーザーP―1がPC200―1に入力する操作であり、第1通話と第2通話とで再生形態の切り換えを指示する操作である。切換指示を受け付けたならば(ステップS11でYES)、処理はステップS08に戻り、そうでなければ(ステップS11でNO)、処理はステップS10に戻る。
なお、第2通話が終了した時点で、ステップS02に戻り、第1通話が接続された状態となる。第1通話が終了した時点で、第2通話が接続された状態となる。この場合は、第2通話が第1通話に置き換わり、ステップS02に戻る。第1通話および第2通話が終了した時点で、処理は終了する。
図17は、第1並行通話制御処理の流れの一例を示すフローチャートである。第1並行通話制御処理は、音声再生制御処理のステップS08で実行される処理である。図17を参照して、サーバー100が備えるCPU101は、第1音声データを文字に変換し(ステップS21)、処理をステップS22に進める。なお、第1音声データから文字に変換された文字情報を、別の言語に翻訳してもよい。第1音声データを文字に変換した後の文字情報は、第1音声データと同じ言語の文字情報と、その文字情報を別の言語に変換した後の文字情報とを含む。また、第1音声データが複数のユーザーの音声を含む場合、音声データから音声を発声したユーザーを識別し、音声に対応する文字情報に、その音声を発声したユーザーを識別するためのユーザー識別情報が付加されてもよい。
ステップS22においては、第1ウィンドウが生成され、処理はステップS23に進む。第1ウィンドウは、第1通話に関連する画像を含む。第1ウィンドウは、ステップS21において生成された文字情報の画像を少なくとも含む。また、第1通話に関連する画像は、例えば、他のユーザーP-2~5をカメラ208が撮像した動画像、第1グループで共有されるデータの画像を含む。
ステップS23においては、第2ウィンドウが生成され、処理はステップS24に進む。第2ウィンドウは、第2通話に関連する画像を含む。第2通話に関連する画像は、例えば、他のユーザーP-4をカメラ208が撮像した動画像、第2グループで共有されるデータの画像を含む。
ステップS24においては、第1音声データおよび第2音声データが再生される。第1音声データが音声で再生され、第2音声データが音声で再生される。この場合、第1音声データが再生される音声の音量は、第2音声データが再生される音声の音量よりも小さい。なお、第1音声データが音声で再生されることなく、第2音声データが音声で再生されてもよい。
ステップS25においては、第1音声データを再生した音声と第2音声データを再生した音声とが合成され、合成データが生成される。第1音声データが音声で再生されない場合、合成データは、第2音声データの音声のみを含む。次のステップS26においては、PC200-1に音声データおよび画像データが送信され、処理は音声再生制御処理に戻る。画像データは、ステップS22で生成された第1ウィンドウおよびステップS23で生成された第2ウィンドウを含む画面の画像を示すデータを含む。音声データは、ステップS25において生成された合成データを圧縮したデータを含む。
図18は、第2並行通話制御処理の流れの一例を示すフローチャートである。第2並行通話制御処理は、音声再生制御処理のステップS10で実行される処理である。図18を参照して、サーバー100が備えるCPU101は、第2音声データを文字に変換し(ステップS31)、処理をステップS32に進める。なお、第2音声データから文字に変換された文字情報を、別の言語に翻訳してもよい。第2音声データを文字に変換した後の文字情報は、第2音声データと同じ言語の文字情報と、その文字情報を別の言語に変換した後の文字情報とを含む。また、第2音声データが複数のユーザーの音声を含む場合、音声データから音声を発声したユーザーを識別し、音声に対応する文字情報に、その音声を発声したユーザーを識別するためのユーザー識別情報が付加されてもよい。
ステップS32においては、第2ウィンドウが生成され、処理はステップS33に進む。第2ウィンドウは、第2通話に関連する画像を含む。第2ウィンドウは、ステップS31において生成された文字情報の画像を少なくとも含む。また、第2通話に関連する画像は、例えば、他のユーザーP-4をカメラ208が撮像した動画像、第2グループで共有されるデータの画像を含む。
ステップS33においては、第1ウィンドウが生成され、処理はステップS34に進む。第1ウィンドウは、第1通話に関連する画像を含む。第1通話に関連する画像は、例えば、他のユーザーP-2~5をカメラ208が撮像した動画像、第1グループで共有されるデータの画像を含む。
ステップS34においては、第1音声データおよび第2音声データが再生される。第1音声データが音声で再生され、第2音声データが音声で再生される。この場合、第2音声データが再生される音声の音量は、第1音声データが再生される音声の音量よりも小さい。なお、第2音声データが音声で再生されることなく、第1音声データが音声で再生されてもよい。
ステップS35においては、第1音声データを再生した音声と第2音声データを再生した音声とが合成され、合成データが生成される。第2音声データが音声で再生されない場合、合成データは、第1音声データの音声のみを含む。次のステップS36においては、PC200-1に音声データおよび画像データが送信され、処理は音声再生制御処理に戻る。画像データは、ステップS32で生成された第2ウィンドウおよびステップS33で生成された第1ウィンドウを含む画面を示すデータを含む。音声データは、ステップS35において生成された合成データを圧縮したデータを含む。
<変形例>
上述したリモート会議システム1においては、サーバー100が、PC200―1~Nで出力される画像および音声を生成するようにした。変形例におけるリモート会議システムにおいては、サーバー100の機能の一部をPC200-1~Nが備える。
上述したリモート会議システム1においては、サーバー100が、PC200―1~Nで出力される画像および音声を生成するようにした。変形例におけるリモート会議システムにおいては、サーバー100の機能の一部をPC200-1~Nが備える。
図19は、変形例におけるサーバーが備えるCPUが有する機能の一例を示す図である。図19に示す機能は、サーバー100が備えるCPU101が、ROM102、HDD104またはCD-ROM111に記憶された変形例における音声再生制御プログラムを実行することにより、CPU101により実現される機能である。図19を参照して、図4に示した機能と異なる点は、並行再生制御部15、音声再生部17および文字再生部19が削除された点、並行通話制御部13が並行通話制御部13Aに変更された点である。このため、CPU101は、通話部11と、並行通話制御部13Aと、を含む。
並行通話制御部13Aは、第1のグループにおける通話と第2のグループにおける通話を並行して実行する。並行通話制御部13Aは、第1のグループと第2のグループとの双方に属する特定ユーザーが存在する場合に、その特定ユーザーについて、第1のグループにおける通話と第2のグループにおける通話とを並行して実行する。並行通話制御部13Aは、第1グループにおける通話の音声データと、第2グループにおける通話の音声データとが特定ユーザーが操作するPC200に送信されるように、通話部11に指令を出力する。
図20は、変形例におけるPCが備えるCPUが有する機能の一例を示す図である。図20に示す機能は、PC200が備えるCPU201が、ROM202、HDD204またはCD-ROM211Aに記憶された変形例における端末側再生制御プログラムを実行することにより、CPU201により実現される機能である。端末側再生制御プログラムは、音声再生制御プログラムの一部である。図20を参照して、図5に示した機能と異なる点は、並行再生制御部15、音声再生部17および文字再生部19が追加された点、端末側通話部251が端末側通話部251Aに変更された点である。その他の機能は、図5に示した機能と同じなので、ここでは説明を繰り返さない。
端末側通話部251Aは、PC200を操作するユーザーと、他のユーザーとの間の通話を制御する。他のユーザーは、1以上である。端末側通話部251Aは、PC200を操作するユーザーと1以上のユーザーからなるグループにおいて、PC200を操作するユーザーと他の1以上のユーザーとの間の通話を可能にする。端末側通話部251Aは、複数のグループにおける通話を別の通話として取り扱う。端末側通話部251Aは、第1のグループにおける通話に関する情報をサーバー100との間で送受信するとともに、第2のグループにおける通話に関する情報をサーバー100との間で送受信する。
端末側通話部251Aは、通信部205を制御して、サーバー100から音声データを受信する。端末側通話部251は、サーバー100から受信された音声データを並行再生制御部15に出力する。端末側通話部251Aは、サーバー100から画像データが受信される場合、画像データを並行再生制御部15に出力する。
並行再生制御部15は、第1グループにおける通話の音声データと、第2グループにおける通話の音声データとを音声再生部17および文字再生部19に出力する。並行再生制御部15は、音声再生部17および文字再生部19を制御して、第1のグループにおける通話の音声データと第2のグループにおける通話の音声データとを並行して再生する。
音声再生部17は、音声データを音声で再生する。音声再生部17は、再生した音声を音声出力制御部255に出力する。
文字再生部19は、音声データを文字に変換することにより音声データを再生する。具体的には、文字再生部19は、音声データを音声認識することにより文字に変換する。文字再生部19は、音声データから変換された文字からなる文字情報を表示制御部257に出力する。文字再生部19は、音声データから音声を発声しているユーザーを特定し、特定されたユーザーを識別するためのユーザー識別情報を付加した文字情報を並行通話制御部13に出力してもよい。また、文字再生部19は、音声データから変換された文字情報を他の言語に翻訳し、翻訳後の文字情報を並行通話制御部13に出力してもよい。
並行再生制御部15は、文字再生部19を制御して、第1のグループにおける通話の第1音声データを再生させる。並行再生制御部15は、第1音声データの文字再生部19による再生と並行して、音声再生部17を制御して、第2のグループにおける通話の第2音声データを再生させるとともに、第1音声データを再生させないかまたは第1音声データを第2音声データより小さい音量で再生させる。
並行再生制御部15は、音声入力制御部253から出力される音声データが、第2のグループにおける音声データとしてサーバー100に送信され、第1のグループにおける音声データとして送信されないように、端末側通話部251Aに指示する。これにより、ユーザーの音声は、第2のグループのユーザーに伝達されるが、第1のグループのユーザーには伝達されない。
並行再生制御部15は、通話部11において第1のグループにおける通話が継続している間に、第2のグループにおける通話が開始されることに応じて、第1のグループにおける通話と第2のグループにおける通話を並行して実行する。なお、並行再生制御部15は、通話部11において第1のグループにおける通話が継続している間に、第2のグループにおける通話が開始された後に、特定ユーザーから並行通話の開始を示す開始指示を受け付けることに応じて、第1のグループにおける通話と第2のグループにおける通話を並行して実行してもよい。
さらに、並行再生制御部15は、第1のグループにおける通話と第2のグループにおける通話を並行して実行している間に、特定ユーザーから切換指示を受け付ける場合に、第1グループにおける通話の再生と第2グループにおける通話の再生とを切り換えてもよい。具体的には、並行再生制御部15は、切換指示を受け付けることに応じて、文字再生部19を制御して第2音声データを再生させるとともに、音声再生部17を制御して第1音声データを再生させるとともに、第2音声データを再生させないかまたは第2音声データを第1音声データより小さい音量で再生させる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
<実施の形態の総括>
(項1) 音声データを音声で再生する音声再生手段と、
音声データを文字に変換して再生する文字再生手段と、
第1音声データと第2音声データを並行して再生する並行再生制御手段と、を備え、
前記並行再生制御手段は、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、音声再生制御システム。
(項1) 音声データを音声で再生する音声再生手段と、
音声データを文字に変換して再生する文字再生手段と、
第1音声データと第2音声データを並行して再生する並行再生制御手段と、を備え、
前記並行再生制御手段は、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、音声再生制御システム。
この局面に従えば、第2音声データが音声で再生され、第1音声データが文字に変換して再生されるとともに音声で再生されないか第2音声データより小さい音量で再生される。このため、ユーザーは、第2音声データを音声で確認しつつ、第1音声データを文字で確認できる。したがって、複数の音声が異なる形態で出力されるので、ユーザーは、複数の音声を区別して認識できる。その結果、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することができる。
(項2) 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始される場合に、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、項1に記載の音声再生制御システム。
この局面に従えば、第1音声データの再生中に、第2音声データの再生が開始される場合に、第2音声データが音声で再生され、第1音声データが文字に変換して再生されるとともに音声で再生されないか第2音声データより小さい音量で再生される。このため、後から再生される第2音声データが第1音声データよりも優先して再生される。したがって、ユーザーは優先する音声データを指定する必要がないので、操作が容易になる。
(項3) 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始されることに応じて、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、項2に記載の音声再生制御システム。
この局面に従えば、第1音声データの再生中に、第2音声データの再生が開始される場合に、第2音声データが音声で再生され、第1音声データが文字に変換して再生されるとともに音声で再生されないか第2音声データより小さい音量で再生される。このため、第2音声データの開始をトリガーとして第1の音声データと第2の音声データが再生されるので、切り換え操作が不要となる。したがって、操作が容易である。
(項4) 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、項2に記載の音声再生制御システム。
この局面に従えば、第1音声データの再生中に、第2音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、第2音声データが音声で再生され、第1音声データが文字に変換して再生されるとともに音声で再生されないか第2音声データより小さい音量で再生される。このため、ユーザーは、複数の音声が異なる形態で出力されるタイミングを指定できる。したがって、利便性が向上する。
(項5) 複数ユーザー間で通話を行う通話手段と、
前記通話手段により、第1通話と第2通話を並行して実行する並行通話制御手段と、をさらに備え、
前記第1音声データは、前記第1通話の音声データであり、
前記第2音声データは、前記第2通話の音声データであり、
前記並行通話制御手段は、前記並行再生制御手段により音声データを再生する、項1に記載の音声再生制御システム。
前記通話手段により、第1通話と第2通話を並行して実行する並行通話制御手段と、をさらに備え、
前記第1音声データは、前記第1通話の音声データであり、
前記第2音声データは、前記第2通話の音声データであり、
前記並行通話制御手段は、前記並行再生制御手段により音声データを再生する、項1に記載の音声再生制御システム。
この局面に従えば、第2通話が音声で再生され、第1通話が文字に変換して再生されるとともに音声で再生されないか第2通話より小さい音量で再生される。このため、ユーザーは、第2通話を音声で確認しつつ、第1通話を文字で確認できる。したがって、複数の音声が異なる形態で出力されるので、ユーザーは、複数の音声を区別して認識できる。その結果、複数の通話を識別可能な状態で並行して再生することが可能な音声再生制御システムを提供することができる。
(項6) 前記第1通話に関連する第1画像を含む第1ウィンドウと、前記第2通話に関連する第2画像を含む第2ウィンドウとを表示可能な表示制御手段を、さらに備えた、項5に記載の音声再生制御システム。
この局面に従えば、第1通話に関連する第1画像を含む第1ウィンドウと、第2通話に関連する第2画像を含む第2ウィンドウとが表示される。このため、第1画像と第2画像とを区別して表示することができる。
(項7) 前記表示制御手段は、前記文字再生手段により前記第1音声データが再生された文字情報を前記第1ウィンドウに表示する、項6に記載の音声再生制御システム。
この局面に従えば、第1通話に関する音声および画像が第1ウィンドウに表示されるので、第1通話に関する情報を纏めて表示することができる。
(項8) 前記第1通話は、操作者および1以上の第1ユーザー間での通話であり、
前記第2通話は、操作者および1以上の第2ユーザー間での通話である、項5に記載の音声再生制御システム。
前記第2通話は、操作者および1以上の第2ユーザー間での通話である、項5に記載の音声再生制御システム。
この局面に従えば、ユーザーは、第1ユーザー間の通話と、第2ユーザーとの間の通話と、を並行してすることができる。
(項9) 前記並行再生制御手段は、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する状態から、前記第2音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第1音声データより小さい音量で再生し、前記第1音声データを前記音声再生手段により再生する状態に切り換える、項1に記載の音声再生制御システム。
この局面に従えば、第1音声データを再生する形態と第2音声データを再生する形態とを異ならせるとともに、再生する形態が切り換えられる。このため、操作者は、第1音声データと第2音声データとで優先する一方を選択することができる。
(項10) 前記並行再生制御手段による再生を禁止する禁止手段を、さらに備えた項1に記載の音声再生制御システム。
この局面に従えば、第2音声データが音声で再生され、第1音声データが文字に変換して再生されるとともに音声で再生されないか第2音声データより小さい音量で再生されることが禁止される。このため、第1音声データの再生を優先させることができる。
(項11)前記第2ユーザーは、前記1以上の第1ユーザーの少なくとも一人を含む、項8に記載の音声再生制御システム。
(項12)前記第2ユーザーは、前記1以上の第1ユーザー以外の第3ユーザーの少なくとも一人を含む、項8に記載の音声再生制御システム。
(項13) 音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御方法。
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御方法。
この局面に従えば、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御方法を提供することができる。
(項14) 音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御プログラム。
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御プログラム。
この局面に従えば、複数の音声を識別可能な状態で並行して再生することが可能な音声再生制御プログラムを提供することができる。
1 リモート会議システム、5 インターネット、100 サーバー、200、200-1~N PC、11 通話部、13,13A 並行通話制御部、15 並行再生制御部、17 音声再生部、19 文字再生部、251,251A 端末側通話部、253 音声入力制御部、255 音声出力制御部、257 表示制御部、259 画像入力制御部、300,301 操作画面、301-1~4 画像、303 ボタン、305 招待指示画面、307 招待受付画面、308 招待受付画面、310 並行再生画面、311,312 ボタン、313 第1グループ表示領域、314 第2グループ表示領域、315 共有画面表示領域、320 通話リスト。
Claims (12)
- 音声データを音声で再生する音声再生手段と、
音声データを文字に変換して再生する文字再生手段と、
第1音声データと第2音声データを並行して再生する並行再生制御手段と、を備え、
前記並行再生制御手段は、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、音声再生制御システム。 - 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始される場合に、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、請求項1に記載の音声再生制御システム。
- 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始されることに応じて、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、請求項2に記載の音声再生制御システム。
- 前記並行再生制御手段は、前記第1音声データを前記音声再生手段により再生中に、前記第2音声データの再生が開始される場合に、ユーザーによる予め定められた指示に応じて、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する、請求項2に記載の音声再生制御システム。
- 複数ユーザー間で通話を行う通話手段と、
前記通話手段により、第1通話と第2通話を並行して実行する並行通話制御手段と、をさらに備え、
前記第1音声データは、前記第1通話の音声データであり、
前記第2音声データは、前記第2通話の音声データであり、
前記並行通話制御手段は、前記並行再生制御手段により音声データを再生する、請求項1に記載の音声再生制御システム。 - 前記第1通話に関連する第1画像を含む第1ウィンドウと、前記第2通話に関連する第2画像を含む第2ウィンドウとを表示可能な表示制御手段を、さらに備えた、請求項5に記載の音声再生制御システム。
- 前記表示制御手段は、前記文字再生手段により前記第1音声データが再生された文字情報を前記第1ウィンドウに表示する、請求項6に記載の音声再生制御システム。
- 前記第1通話は、操作者および1以上の第1ユーザー間での通話であり、
前記第2通話は、操作者および1以上の第2ユーザー間での通話である、請求項5に記載の音声再生制御システム。 - 前記並行再生制御手段は、前記第1音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第2音声データより小さい音量で再生し、前記第2音声データを前記音声再生手段により再生する状態から、前記第2音声データを前記文字再生手段により再生するとともに前記音声再生手段による再生をOFFまたは前記第1音声データより小さい音量で再生し、前記第1音声データを前記音声再生手段により再生する状態に切り換える、請求項1に記載の音声再生制御システム。
- 前記並行再生制御手段による再生を禁止する禁止手段を、さらに備えた請求項1に記載の音声再生制御システム。
- 音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、を音声再生制御装置に実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御方法。 - 音声データを音声で再生する音声再生ステップと、
音声データを文字に変換して再生する文字再生ステップと、
第1音声データと第2音声データを並行して再生する並行再生制御ステップと、をコンピューターに実行させ、
前記並行再生制御ステップは、前記第1音声データを前記文字再生ステップにおいて再生させるとともに前記音声再生ステップにおいて再生しないまたは前記第2音声データより小さい音量で再生させ、前記第2音声データを前記音声再生ステップにおいて再生させる、音声再生制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022183671A JP2024072688A (ja) | 2022-11-16 | 2022-11-16 | 音声再生制御システム、音声再生制御方法および音声再生制御プログラム |
US18/376,770 US20240163374A1 (en) | 2022-11-16 | 2023-10-04 | Speech reproduction control system, speech reproduction control method and non-transitory computer-readable recording medium encoded with speech reproduction control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022183671A JP2024072688A (ja) | 2022-11-16 | 2022-11-16 | 音声再生制御システム、音声再生制御方法および音声再生制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024072688A true JP2024072688A (ja) | 2024-05-28 |
Family
ID=91027737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022183671A Pending JP2024072688A (ja) | 2022-11-16 | 2022-11-16 | 音声再生制御システム、音声再生制御方法および音声再生制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240163374A1 (ja) |
JP (1) | JP2024072688A (ja) |
-
2022
- 2022-11-16 JP JP2022183671A patent/JP2024072688A/ja active Pending
-
2023
- 2023-10-04 US US18/376,770 patent/US20240163374A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240163374A1 (en) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3651508B2 (ja) | 情報処理装置および情報処理方法 | |
JP2008099330A (ja) | 情報処理装置、携帯電話機 | |
US11650790B2 (en) | Centrally controlling communication at a venue | |
WO2009103204A1 (zh) | 一种动态音视频菜单的播放方法与实现装置 | |
JP4425172B2 (ja) | 通話装置、通話システム、及びプログラム | |
JP2024072688A (ja) | 音声再生制御システム、音声再生制御方法および音声再生制御プログラム | |
JP2000023130A (ja) | テレビ会議システム | |
JPH08317365A (ja) | 電子会議装置 | |
JP2015002394A (ja) | 情報処理装置及びコンピュータプログラム | |
JP2001268078A (ja) | 通信制御装置、その方法およびその提供媒体と通信装置 | |
JPH10215331A (ja) | 音声会議システムとその情報端末装置 | |
JP6610076B2 (ja) | 情報処理装置、情報処理システム、プログラム、及び記録媒体 | |
JP2022016997A (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
JP4531013B2 (ja) | 映像音声会議システムおよび端末装置 | |
JP2000333150A (ja) | テレビ会議システム | |
JP6392161B2 (ja) | 音声会議システム、音声会議装置、その方法及びプログラム | |
JP5391175B2 (ja) | 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム | |
KR102307639B1 (ko) | 핸드폰 영상밴드 노래반주 시스템 | |
JPH0591508A (ja) | テレビ会議システムにおける話者表示方法 | |
JP7393000B2 (ja) | 遠隔会議装置、システム、方法及びプログラム | |
JPH11177952A (ja) | ビデオ会議装置 | |
JP2007318625A (ja) | グループ通話装置 | |
JP2002304196A (ja) | オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体 | |
JP4522332B2 (ja) | 映像音声配信システムおよび方法およびプログラム | |
JP2023072720A (ja) | 会議サーバ、及び会議サーバの制御方法 |