JP2018139397A - Voice display device and voice display program - Google Patents
Voice display device and voice display program Download PDFInfo
- Publication number
- JP2018139397A JP2018139397A JP2017033961A JP2017033961A JP2018139397A JP 2018139397 A JP2018139397 A JP 2018139397A JP 2017033961 A JP2017033961 A JP 2017033961A JP 2017033961 A JP2017033961 A JP 2017033961A JP 2018139397 A JP2018139397 A JP 2018139397A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- image
- signal
- unit
- display device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、音声表示装置および音声表示プログラム、より具体的には、他の拠点との間で少なくとも音声を双方向通信するシステムに用いられる音声表示装置および音声表示プログラムに関するものである。 The present invention relates to an audio display device and an audio display program, and more specifically to an audio display device and an audio display program used in a system that performs at least two-way audio communication with other sites.
離れた拠点間での会話、特に会議を行う際、インターネットプロトコル網(以下、IP網ともいう)を使用することによって、他拠点の様子を映す画像を表示することが可能である。すなわち、IP網の使用により、他拠点の音声情報のみならず視覚情報をも伝えることが可能となる。このように、遠隔地への視覚情報の伝送を可能にするシステムを、特に遠隔地間の会議での使用に適することから、例えばテレビ会議システムと呼ぶことがある。 When a conversation between remote bases, especially a conference, is performed, an image showing the state of another base can be displayed by using an Internet protocol network (hereinafter also referred to as an IP network). In other words, by using the IP network, it is possible to convey visual information as well as voice information of other bases. As described above, a system that enables transmission of visual information to a remote place is particularly suitable for use in a conference between remote places, and thus may be called a video conference system, for example.
かかるシステムでは、IP網を用いて音声および画像をそれぞれパケット形式にて送受信する。しかしながら、通信障害や通信トラフィックの集中などの様々な理由により、パケットの円滑な伝送が妨げられ、パケットを受信した側では出力される音声と画像がリアルタイムに対応しなくなってしまう場合がある。このような場合、自分が話した言葉の内容が他拠点側にいる相手に正しく伝わったかどうかは相手の表情などから間接的に判断する他ないが、これらの間接的な情報だけでは判断できないこともある。さらに、音声パケットの受信の不調などにより、相手が話した言葉を聞き取れない場合もある。また、相手が話した言葉を聞き取れないことや、聞き漏らしてしまうことは、システムに何の不具合もない場合にも度々起こり得る。 In such a system, voice and images are transmitted and received in packet format using an IP network. However, due to various reasons such as communication failure and concentration of communication traffic, smooth transmission of packets may be hindered, and the voice and image output may not correspond in real time on the side receiving the packets. In such a case, whether or not the content of the spoken word is correctly communicated to the partner at the other site side can only be judged indirectly from the other party's facial expression, etc., but it cannot be judged only by this indirect information There is also. In addition, the speech spoken by the other party may not be heard due to poor reception of voice packets. In addition, the inability to hear or miss the words spoken by the other party can often occur even when there is no problem with the system.
このように、会話内容の相互理解ができなかった場合には、同じ言葉を再度伝えて相手に伝わったかどうかを確認する作業や、同じ言葉を再度伝えるよう相手に要請する作業が必要となる。 As described above, when mutual understanding of conversation contents cannot be achieved, it is necessary to confirm whether or not the same word is transmitted to the other party and to request the other party to transmit the same word again.
しかしながら、このような作業を行うと、その都度会議の進行が妨げられ、会議の能率が低下してしまうという問題がある。とはいえ、会話内容の不十分な理解や誤った理解を放置するようなことは避けなければならない。 However, when such work is performed, there is a problem that the progress of the conference is prevented each time, and the efficiency of the conference is reduced. Nonetheless, you should avoid neglecting inadequate or misunderstood conversations.
そのため、会議の進行を妨げることなく会話内容の正確な共通理解を図ることができるシステムの構築が求められていた。特に、視覚的演出をできるだけ効率的に活用して会話内容の正確な共通理解を図り、議論の活性化を促す手法が求められていた。 Therefore, there has been a demand for the construction of a system that can achieve an accurate common understanding of conversation contents without hindering the progress of the conference. In particular, there has been a need for a technique that promotes the activation of discussions by utilizing visual effects as efficiently as possible to achieve an accurate common understanding of conversation contents.
本発明はこのような課題に鑑み、他の拠点との間で音声などを双方向通信するシステムを用いて会話をする際に、会話者間の意思疎通をより確実にする音声表示装置を提供することを目的とする。 In view of such problems, the present invention provides a voice display device that makes communication between talkers more reliable when a conversation is performed using a system that performs two-way communication of voice and the like with other bases. The purpose is to do.
本発明は上述の課題を解決するために、他の拠点との間で少なくとも音声を双方向通信するシステムに用いられ、音声を入力して音声を信号変換して音声信号を生成する音声入力部と、少なくとも音声入力部で生成された音声信号に基づいて文字データを生成する音声処理部と、他の拠点で発せられた音声に基づいて生成された音声信号または文字データの供給を他の拠点から受ける通信処理部と、少なくとも音声入力部に入力された音声および他の拠点で発せられた音声に対応する文字データに基づいて画像信号を生成する画像処理部と、画像信号に基づいて画像を出力表示する画像出力部と、他の拠点との間における音声の通信状況を判断し、音声処理部、通信処理部および画像処理部の動作を制御する制御部とを有し、画像の表示態様は文字データから認識される情報または音声の通信状況の少なくとも一方に応じて決定される。 In order to solve the above-mentioned problem, the present invention is used in a system that performs at least two-way audio communication with other sites, and inputs a voice and converts the voice to generate a voice signal. A voice processing unit that generates character data based on at least the voice signal generated by the voice input unit, and the supply of the voice signal or character data generated based on the voice emitted from the other site to the other site. A communication processing unit received from the image processing unit, an image processing unit that generates an image signal based on character data corresponding to at least a voice input to the voice input unit and a voice emitted from another base, and an image based on the image signal An image output unit that outputs and displays; and a control unit that determines an audio communication state between other bases and controls operations of the audio processing unit, the communication processing unit, and the image processing unit, and displays an image It is determined according to at least one of the communication status information or the speech is recognized from the character data.
また、本発明は、他の拠点との間で少なくとも音声を双方向通信するシステムに用いられ、音声を入力して音声を信号変換して音声信号を生成する音声入力部と、画像信号に基づいて画像を出力表示する画像出力部と接続されているコンピュータを、音声を画像出力部から表示する音声表示装置として機能させるプログラムであって、コンピュータを、少なくとも音声入力部で生成された音声信号に基づいて文字データを生成する音声処理手段、他の拠点で発せられた音声に基づいて生成された音声信号または文字データの供給を他の拠点から受ける通信処理手段、少なくとも音声入力部に入力された音声および他の拠点で発せられた音声に対応する文字データに基づいて画像出力部から出力する画像信号を生成する画像処理手段、ならびに他の拠点との間における音声の通信状況を判断し音声処理手段、通信処理手段および画像処理手段の動作を制御する制御手段として機能させ、画像の表示態様は文字データから認識される情報または音声の通信状況の少なくとも一方に応じて決定される。 Further, the present invention is used in a system that performs at least two-way audio communication with another site, and is based on an audio input unit that inputs audio and converts the audio to generate an audio signal, and an image signal. A computer connected to an image output unit for outputting and displaying an image to function as an audio display device for displaying sound from the image output unit, wherein the computer is converted into at least an audio signal generated by the audio input unit. Voice processing means for generating character data based on the above, communication processing means for receiving supply of a voice signal or character data generated based on the voice uttered at another base from another base, input to at least the voice input unit Image processing means for generating an image signal to be output from the image output unit based on the character data corresponding to the sound and the sound emitted at another base, and It determines the voice communication status with the other base and functions as a control means for controlling the operation of the voice processing means, the communication processing means and the image processing means, and the display mode of the image is information recognized from character data or voice It is determined according to at least one of the communication conditions.
本発明によれば、他の拠点との間で音声などを双方向通信するシステムを用いて会話をする際に、会話者間の意思疎通をより確実にすることができる。 ADVANTAGE OF THE INVENTION According to this invention, when carrying out a conversation using the system which carries out two-way communication of an audio | voice etc. between other bases, communication between talkers can be made more reliable.
次に添付図面を参照して本発明による音声表示装置の実施例を詳細に説明する。図1を参照すると、本発明による音声表示装置10の実施例は、離れた拠点A、B間での音声および画像の双方向通信を可能にするテレビ会議システム12に設けられる。音声表示装置10は、遠隔地間における画像データおよび音声データの通信を可能とするデータ通信装置であるとともに、各拠点で入力された音声を文字データ化して所定の処理を施し、画像の一部として出力する装置である。
Next, an embodiment of an audio display device according to the present invention will be described in detail with reference to the accompanying drawings. Referring to FIG. 1, an embodiment of an
図1に示す例において、テレビ会議システム12は、IP網などの通信網14を使用してシステムを構築することによって、離れた拠点間での音声および画像の送受信を実現している。通信網14は、複数のコンピュータや通信機器を接続して相互間における通信を実現する技術であれば、IP網をはじめとしていかなる通信ネットワークであっても構わない。
In the example shown in FIG. 1, the video conference system 12 implements transmission and reception of voice and images between remote locations by constructing a system using a
音声表示装置10と通信網14の接続は、ルータ16を介して実現される。ルータ16は、データの転送経路を選択および制御する機器である。図1では、ルータ16に接続されている通信網のうち、音声表示装置10a、10b間における通信処理を行う通信網14以外の通信網の図示は省略されている。
The connection between the
音声表示装置10と通信網14の接続構成をより具体的に述べる。音声表示装置10とルータ16の間は、回線18によって接続されている。回線18とは、音声データや画像データの送受信に用いられる通信線一般のことを指し、有線回線であっても、無線回線であっても構わない。ルータ16と通信網14の間もまた、データの送受信に用いられる広義の回線20によって接続されている。
The connection configuration of the
音声表示装置10は、音声を入力して同装置10で処理可能な形式の信号に変換して同装置10へ送る音声入力部22を有する。音声表示装置10は、音声入力部22で受信した音声に対応する音声信号を文字データに変換することができる。音声表示装置10はさらに、被写体の画像情報を受信して音声表示装置10で処理可能な形式の信号に変換して同装置10へ送る画像入力部24を有する。
The
音声表示装置10は、他拠点B側の音声入力部22で得られた音声信号を通信網14経由で受け取り音声として出力する音声出力部26を有する。音声表示装置10はさらに、他拠点B側の画像入力部24で得られた信号を通信網14経由で受け取り画像として出力する画像出力部28を有する。また、画像出力部28から出力される画像には、自拠点A側および他拠点B側の音声入力部22で音声データを含む信号を処理して得られた文字が含まれる。
The
音声表示装置10は、自拠点A側の音声信号のみならず、他拠点B側の音声表示装置から受け取った信号に含まれる音声データを文字データに変換することができるようにしてもよい。
The
続いて、本発明に係る音声表示装置10の実施例の構成について、図2を参照しながらより詳細に説明する。なお、音声表示装置10にはさまざまな構成要素が含まれているが、図中に明示し詳細な説明を述べる構成要素は、本発明に係る音声表示装置10の実施例の理解のため特に重要な構成要素のみにとどめる。
Next, the configuration of the embodiment of the
音声表示装置10は、装置10に含まれる様々な構成要素の動作の制御を行う制御部30を有する。特に、制御部30は各構成要素に対していかなる動作をどのタイミングで実行するかを制御する。制御部30はさらに、各構成要素の制御および各構成要素を介して受信した各種のデータの加工に必要な所定の演算を実行する。
The
音声表示装置10は、同装置10内の構成要素に対する制御処理の実行手順および受信したデータの加工手順などを規定するプログラムを記憶している記憶部32を有する。記憶部32は、データや制御信号の伝送経路となる信号線34を介して制御部30と接続されている。そのため、制御部30は記憶部32から所望のプログラムデータを読み出し、読み出したプログラムを実行することにより、プログラムに記載された所定の手順で制御処理およびデータの加工などを実行することが可能となる。また、記憶部32は、音声表示装置10内で処理される予定のデータおよび処理済みのデータを、一時的または半永久的に記憶しておくことも可能である。
The
音声表示装置10が有する音声入力部22は、例えばマイクロフォンのように、音声を電気信号など別の形式に変換した信号を生成する機器であり、当該信号変換を実現するあらゆる手段が定義上含まれる。
The voice input unit 22 included in the
音声表示装置10は、音声入力部22と制御部30の間を接続するインタフェースとして、音声入力部22によって得られた音声データを含む音声信号を処理する入力音声処理部36を有する。音声入力部22と入力音声処理部36の間は、有線または無線の回線38を介して接続されている。かかる構成により、音声入力部22で得られた信号は入力音声処理部36に供給される。
The
また、入力音声処理部36と制御部30の間は、通信線40を介して接続されている。かかる構成により、入力音声処理部36は制御部30から制御信号を受け取り、記憶部32に記憶されたプログラムに記載の手順に従った信号処理を実行することができる。また、かかる構成では通信線40は信号の伝送路となるので、入力音声処理部36は、制御部30による制御を受けて処理された音声データを含む信号を、制御部30へ送信することができる。
Further, the input
入力音声処理部36では、音声入力部22から供給を受けた信号に含まれる音声データを文字データに変換する処理も実行される。文字データへの変換処理もまた、制御部30からの制御の下で実行される。変換処理によって生成された文字データもまた、処理済みの音声データと同様に信号にのせて制御部30へと送信される。なお、音声データから文字データへの変換は、公知のいかなる変換方法でも利用することができる。
The input
好ましくは、入力音声処理部36は、音声入力部22で検出した音声の強弱を認識する。入力音声処理部36が認識した音声の強弱は、処理部36内で生成された文字データの付随情報として処理され、文字データとともに制御部30へと供給される。
Preferably, the input
音声表示装置10が有する画像入力部24は、例えばビデオカメラのように、撮影した風景の画像、特に動画を電気信号など別の形式の信号に変換する機器であり、当該信号変換を実現するあらゆる手段が定義上含まれる。
The image input unit 24 included in the
音声表示装置10は、画像入力部24と制御部30の間を接続するインタフェースとして、画像入力部24によって得られた画像データを含む信号を処理する入力画像処理部42を有する。画像入力部24と入力画像処理部42の間は、有線または無線の回線44を介して接続されている。かかる構成により、画像入力部24で得られた信号は入力画像処理部42に供給される。
The
また、入力画像処理部42と制御部30の間は、通信線46を介して接続されている。かかる構成により、入力画像処理部42は制御部30から制御信号を受け取り、記憶部32に記憶されたプログラムに記載の手順に従った信号処理を実行することができる。また、かかる構成では通信線46は信号の伝送路となるので、入力画像処理部42は、制御部30による制御を受けて処理された画像データを含む信号を、制御部30へ送信することができる。
The input
音声表示装置10は、回線18によってルータ16に接続され、ルータ16と接続されているIP網14を経由した先にある他拠点側とのデータや信号、文字データを含む音声信号や画像データを含む画像信号の送受信に関する処理を行う通信処理部50を有する。通信処理部50は通信線52を介して制御部30とも接続されている。そのため、通信処理部50は制御部30から制御信号を受け取り、記憶部32に記憶されたプログラムに記載の手順に従った制御を受けることができる。
The
制御部30は、入力音声処理部36から受け取った音声データおよび入力画像処理部42から受け取った画像データを通信処理部50に転送する。制御部30はさらに、これらのデータを他拠点側にある画像データおよび音声データを通信可能なデータ通信装置、好ましくは他拠点側の音声表示装置10に送信するよう通信処理部50に対して指示する。制御部30の制御により通信処理部50から他拠点側の音声表示装置10に転送されるデータには、入力音声処理部36で音声データから変換された文字データも含まれる。
The
また、通信処理部50で受け取った他拠点側のデータ通信装置から送信された画像データや音声データは、さらに制御部30に転送される。他拠点側のデータ通信装置が音声表示装置10である場合には、通信処理部50で受け取り制御部30に転送される各種のデータの中には他拠点側の入力音声処理部36で音声データから変換された文字データも含まれる。
The image data and audio data transmitted from the data communication device on the other base side received by the communication processing unit 50 are further transferred to the
制御部30は、入力音声処理部36から受け取った音声データおよび通信処理部50から受け取った他拠点側の音声データに基づいて、会話の状況を判断することができる。制御部30は会話状況の判断にあたり、自拠点側および他拠点側で生成された文字データならびに画像データの少なくともいずれかを判断材料に加えても構わない。または、制御部30は文字データを会話状況の主たる判断材料としても構わない。
The
例えば、30秒間や1分間などの所定の期間、どの拠点からも音声が全く検出されないか、または予め定めておいた下限基準以下の音声データ量や文字データ量しか得られなかった場合には、制御部30は会議参加者達が沈黙していて会議の進行が止まっていると判断する。
For example, when no voice is detected from any base for a predetermined period such as 30 seconds or 1 minute, or only voice data amount or character data amount below a predetermined lower limit standard is obtained, The
他方、所定の期間内に予め定めておいた上限基準以上の音声データ量や文字データ量が得られた場合には、制御部30は参加者が活発に発言を行い、議論が白熱している、いわば激論中であると判断する。もちろん、激論中であると制御部30が判断する方法はこの限りではない。制御部30は例えば、検出された声量の大きさに基づいて議論の白熱状況を判断してもよい。または、制御部30は、ある参加者の発言とこれに続く別の参加者の発言の間隔が所定の時間よりも短いことが連続している場合に激論中であると判断してもよい。
On the other hand, when the amount of voice data or character data exceeding the predetermined upper limit standard is obtained within a predetermined period, the
音声表示装置10が有する音声出力部26は、例えばスピーカのように、音声データを載せた電気信号などの信号を音に変換する機器であり、音声の出力を実現するあらゆる手段が定義上含まれる。
The
音声表示装置10は、音声出力部26と制御部30の間を接続するインタフェースとして、他拠点側のデータ通信装置から得られた音声データを含む音声信号を処理する出力音声処理部54を有する。出力音声処理部54では、受け取った信号を、音声出力部26で処理可能な方式の信号に変換処理する。
The
出力音声処理部54と制御部30の間は、通信線56を介して接続されている。通信線56は信号の伝送路となり、出力音声処理部54は、制御部30から他拠点側の音声データを含む信号を受信することができる。また、通信線56を介して、出力音声処理部54は制御部30から制御信号を受け取り、記憶部32に記憶されたプログラムに記載の手順に従った信号処理を実行することができる。
The output
出力音声処理部54と音声出力部26の間は、有線または無線の回線58を介して接続されている。かかる構成により、出力音声処理部54で処理された音声データ付きの信号は音声出力部26に供給される。
The output
出力音声処理部54は、供給を受けた信号に含まれる、他拠点側の音声表示装置10で得られた音声データを文字データに変換処理してもよい。例えば、他拠点側のデータ通信装置が本発明の実施例に係る音声表示装置10ではなく従来の通信装置であった場合には、他拠点側の通信装置では音声データを文字データに変換することができない。そのため、従来の通信装置を有する他拠点側から通信部50を介して制御部30に入力される信号には、音声データは含まれるものの文字データは含まれない。このような場合には、制御部30は、他拠点側の音声データを出力音声処理部54に転送するとともに、転送した音声データに基づいて文字データを生成するよう出力音声処理部54に対して命令する。出力音声処理部54で生成された他拠点側の音声に対応する文字データは、制御部30による制御の下で制御部30へ返送される。かかる構成により、他拠点側の設備状態に関わらず、他拠点側で発せられた音声を文字表示することが可能となる。
The output
音声表示装置10が有する画像出力部28は、例えば装置自体に画像を表示するディスプレイまたはスクリーンに画像を投影するプロジェクタのように、画像データを載せた電気信号などの信号を可視光に変換する機器であり、画像の出力を実現するあらゆる手段が定義上含まれる。
The
音声表示装置10は、画像出力部28と制御部30の間を接続するインタフェースとして、他拠点側のデータ通信装置から得られた画像データを含む信号を処理する出力画像処理部60を有する。出力画像処理部60では、受け取った信号を、画像出力部28で処理可能な方式の画像信号に変換処理する。
The
出力画像処理部60と制御部30の間は、通信線62を介して接続されている。通信線62は信号の伝送路となり、出力画像処理部60は、制御部30から他拠点側の画像データを含む信号を受信することができる。また、通信線62を介して、出力画像処理部60は制御部30から制御信号を受け取り、記憶部32に記憶されたプログラムに記載の手順に従った信号処理を実行することができる。
The output
出力画像処理部60と画像出力部28の間は、有線または無線の回線64を介して接続されている。かかる構成により、出力画像処理部60で処理された画像データ付きの画像信号は画像出力部28に供給される。
The output
出力画像処理部60は、制御部30を介して入力音声処理部36で生成された文字データを受け取り、受け取ったデータに対応する文字を画像データから得られる画像とともに画像出力部28を通じて表示するための処理を実行する。表示の対象となる文字データには、他拠点側の音声表示装置10で生成されIP網14を介して自拠点側の音声表示装置10に送信された文字データのみならず、自拠点側の音声を変換して得られた文字データも含まれる。
The output
他拠点側のデータ通信装置が従来の装置であって音声から変換された文字データが送信されてこないような場合には、他拠点側から受け取った音声データに基づいて出力音声処理部54で生成された文字データが制御部30を介して転送され、この転送された文字データを表示処理の対象とする。
If the data communication device at the other site is a conventional device and character data converted from voice is not sent, it is generated by the output
文字データの表示処理は、文字データの単なる視覚化処理にとどまらない。例えば、制御部30または制御部30の制御下にある出力画像処理部60は、処理対象となる各文字データに基づいて、どの拠点で発せられた音声に基づき生成されたデータであるかを識別することができる。かかる識別結果を踏まえて、出力画像処理部60は、音声の発生源に関する情報に応じて画面内における文字の表示位置を決定する処理を行うことが可能である。また、かかる識別結果を踏まえれば、出力画像処理部60は音声の発生源に応じて文字の色を区別して画面表示させる処理を行うことも可能である。このような処理を行って音声の発生源ごとに文字の表示態様を適宜に変えることにより、どの発言がどの拠点にいる参加者から発せられたものであるかを視覚的に認識することがより容易となる。
The display process of character data is not limited to a simple visualization process of character data. For example, the
また、出力画像処理部60は、声量に関する文字データの付随情報などに基づいて、文字データに対応する音声が発せられたときの音声の強弱を判断することができる。かかる判断により音声の強弱に関する情報を得て、この情報を踏まえて、出力画像処理部60は、画像出力部28から出力される文字の大きさを決定する処理を行うことが可能である。かかる処理を行うことにより、例えば発言者が強調したい発言を大きめに表示して、視覚的に認識しやすくすることが可能となる。音声の強弱に応じて文字の大きさを変えるのみならず、文字のフォントや色を変えるなどの文字表示の変化を施しても構わない。
Further, the output
また、出力画像処理部60は、各拠点間における会話の状況、すなわち通信状況を文字にして画面に表示させる処理を行うことも可能である。例えば、会議参加者達の沈黙が続いて会議の進行が止まっていると制御部30が判断した場合には、制御部30はその判断結果を出力画像処理部60に伝える。続いて、出力画像処理部60は、制御部30の判断結果を示す文字、例えば「シーン…」のような擬態語や、「沈黙中」のように現在の状態を示す語句を画面上に表示させる処理を行うことができる。
Further, the output
かかる表示をすることによって、会議の進行が止まっている状態を参加者の視覚に訴えかけ、例えば、参加者の発言を促す心理的効果を与えることが可能となる。 By performing such a display, it is possible to appeal to the participant's vision that the progress of the conference has stopped, and to give a psychological effect that prompts the participant to speak, for example.
他方、議論が白熱していると制御部30が判断した場合にも、制御部30はその判断結果を出力画像処理部60に伝える。そして出力画像処理部60は、制御部30の判断結果を示す文字、例えば「激論中!!」等のような現在の状態を示す語句を画面上に表示させる処理を行うことができる。
On the other hand, when the
かかる表示をすることによって、議論が白熱している状態を参加者の視覚に訴えかけ、例えば、積極的に発言を行っている者以外の者に対して積極的な発言を促したり、興奮した状態にある参加者に平静を取り戻させたりする心理的効果を与えることが可能となる。 This display appealed to the participants' visual perceptions that the discussion was incandescent, for example, encouraged people who were not actively speaking, or was excited. It is possible to give a psychological effect to regain calmness to participants in the state.
制御部30により判別可能な会話の状況は、上述した沈黙や議論の白熱に限られない。その他にも様々な会話の状況を制御部30で判別できるように設定しておき、これらの状況に応じた擬態語や現在の状態を表す語句などを記憶部32に記憶させておくとより好ましい構成となる。かかる構成を採る音声表示装置10の実施例を用いれば、テレビ会議システム12を利用した遠隔地間の会話の能率がさらに上昇する。
The state of conversation that can be discriminated by the
なお、ここまでで述べてきた音声表示装置10の構成例では、制御部30と各処理部36、42、54、60を別の構成要素として述べてきたが、この説明は便宜上のものである。制御部30が各処理部36、42、54、60の一部または全部を含むような構成に設計し、制御部30自身が各処理部36、42、54、60の一部または全部の役割を兼ねても構わない。
In the configuration example of the
続いて、本発明に係る音声表示装置10の実施例を含むテレビ会議システム12を用いて離れた拠点間で会議を行う際におけるテレビ会議システム12、特に音声表示装置10の動作について説明する。本説明では、拠点Aおよび拠点Bの2地点に会議参加者が集まって会議を開催するものとする。しかしながら、3地点以上の多拠点間における会議を開催する場合も音声表示装置10やテレビ会議システム12の基本的な動作は2地点の場合と同様である。また、特に断り書きのない限り、拠点A側および拠点B側に設置されているデータ通信装置(10)はいずれも、本発明に係る音声表示装置10の実施例であるものとして説明する。必要に応じて、拠点A側に設置されているテレビ会議システム12の構成要素には参照符号の後に小文字の”a”を付して、拠点B側に設置されているテレビ会議システム12の構成要素には参照符号の後に小文字の”b”を付して図示および説明を行う。
Next, the operation of the video conference system 12, particularly the
まず、拠点Aおよび拠点Bのそれぞれに集まった会議の参加者は、テレビ会議システム12を使用しての両拠点間における音声および画像の円滑な相互通信を実施するために必要な操作を行う。例えば、参加者は音声表示装置10ならびにその構成要素である入力部22、24および出力部26、28の設定を調整する。
First, the participants of the conference gathered at each of the bases A and B perform operations necessary for carrying out smooth mutual communication of voice and images between the two bases using the video conference system 12. For example, the participant adjusts the settings of the
かかる操作を経て音声表示装置10が動作可能になると、各拠点の音声入力部22は、会議参加者が発した音声を入力して、入力した音声を入力音声処理部36で処理可能な形式の信号、例えば電気信号に変換する。音声の入力と同時進行で、各拠点の画像入力部24は、各拠点の様子を撮影し、得られた画像を入力画像処理部42で処理可能な形式の信号に変換する。
When the
音声入力部22は変換後の信号を入力音声処理部36に供給し、画像入力部24もまた変換後の信号を入力画像処理部42に供給する。入力音声処理部36は、制御部30の指示の下で音声データを含む信号を処理する。入力音声処理部36で実行される信号処理には、信号に含まれる音声データから文字データへの変換が含まれ、好ましくは入力された音声の強弱の認識なども含まれる。同様に、入力画像処理部42でも、制御部30の指示の下で画像データを含む信号を処理する。
The audio input unit 22 supplies the converted signal to the input
入力音声処理部36は、音声データを含む処理後の信号を制御部30に供給する。このときに制御部30に供給される信号には、処理部36の変換処理により得られた文字データが添付される。同様に入力画像処理部42でも、画像データを含む処理後の信号を制御部30に供給する。
The input
ここまでで述べてきた動作は、音声表示装置10a、10bのいずれでも実行される。拠点A側では、音声表示装置10aの制御部30aは、入力音声処理部36aから供給を受けた音声データおよび文字データを含む信号、ならびに入力画像処理部42bから供給を受けた画像データを含む信号を、IP網14を介する信号送信に適した形式に処理する。その後制御部30aは、自ら処理した各種データを含有する信号を通信部50aに供給するとともに、供給した信号を音声表示装置10bに転送するよう通信部50aに対して命令する。
The operations described so far are executed by both the
このとき、拠点B側でも同様に、音声表示装置10bの制御部30bは、入力音声処理部36bおよび入力画像処理部42bから供給を受けた信号を、IP網14を介する信号送信に適した形式に処理する。その後制御部30bは、自ら処理した含有する信号を通信部50bに供給するとともに、供給した信号を音声表示装置10aに転送するよう通信部50bに対して命令する。
At this time, the control unit 30b of the
このような処理動作を経て、音声表示装置10aの制御部30aは、通信部50aを介して、音声表示装置10bによって処理されたデータ、すなわち音声データ、文字データおよび画像データを包含する信号の供給を受ける。同様に音声表示装置10bの制御部30bでも、通信部50bを介して、音声表示装置10aによって処理されたデータを包含する信号の供給を受ける。
Through such processing operation, the control unit 30a of the
制御部30は、自拠点側の音声表示装置10で得られた信号および他拠点側の音声表示装置10から受け取った信号を処理する。より具体的には、他拠点側の音声データを出力音声処理部54に供給することができるよう、また他拠点側の画像データおよび両拠点の文字データを出力画像処理部60に供給することができるように信号の処理を行う。
The
制御部30はさらに、自拠点側の音声表示装置10で生成された音声、文字および画像のデータならびに他拠点側の音声表示装置10から送信されてきた信号に包含されている音声、文字および画像のデータに基づいて、会話の状況を判断する。制御部30は、例えば、会議参加者達の沈黙が続いて会議の進行が止まっているか否か、また、両拠点からの発言が活発であり議論が白熱しているか否か等を判断することができる。
The
制御部30aは、他拠点B側の音声入力部22bから入力された音声に基づき生成された音声データを含む信号を出力音声処理部54aに供給する。出力音声処理部54aは、制御部30aの指示の下で、受け取った信号を音声出力部26aで処理可能な形式の信号に変換する。続いて出力音声処理部54aは、変換した信号を音声出力部26aに出力する。
The control unit 30a supplies the output sound processing unit 54a with a signal including sound data generated based on the sound input from the
音声出力部26aは、受け取った信号を会議参加者が聴覚的に認識可能な音に変換して音を出力する。このようにして、拠点A側の会議参加者は、遠隔地である拠点B側の参加者の発言を聞き取ることができる。なお、他拠点側にある出力音声処理部54bおよび音声出力部26bでも同様の処理が行われる。
The
なお、本実施例で用いられるデータ通信装置は、拠点A側、拠点B側のいずれでも、音声を文字データ化することが可能な音声表示装置10であるものとして説明している。しかしながら、例えば、拠点A側のデータ通信装置は本発明の実施例に係る音声表示装置10aであるが拠点B側のデータ通信装置は従来の装置である場合には、拠点B側から音声データは送信されても文字データは送信されてこない。または、両方の拠点で本発明の実施例に係る音声表示装置10が用いられていても、通信障害が発生している場合や、一方の音声表示装置10bが故障している場合などには、他方の音声表示装置10aに文字データが正常に送信されてこない可能性がある。
Note that the data communication apparatus used in the present embodiment is described as the
このように、制御部30aで音声データの受信を検出したものの音声データに対応する文字データの受信を検出できない場合には、制御部30aは、拠点B側から供給された音声データを出力音声処理部54aに出力するとともに、出力音声処理部54aに対して拠点B側の音声データを文字データに変換することを指示する命令を送ってもよい。この場合には、出力音声処理部54aは制御部30aから受けた命令を実行し、変換生成した文字データを制御部30aに返送する。 As described above, when the reception of the voice data is detected by the control unit 30a, but the reception of the character data corresponding to the voice data cannot be detected, the control unit 30a outputs the voice data supplied from the base B side to the output voice process. In addition to outputting to the unit 54a, a command for instructing the output voice processing unit 54a to convert the voice data on the site B side into character data may be sent. In this case, the output voice processing unit 54a executes the command received from the control unit 30a, and returns the converted character data to the control unit 30a.
制御部30aは、画像データおよび文字データを含む信号を出力画像処理部60aに供給する。出力画像処理部60aに供給される画像データは他拠点B側の画像入力部24bで生成された画像データであり、出力画像処理部60aに供給される文字データは、入力音声処理部36aで生成された文字データおよび入力音声処理部36bで生成され音声表示装置10aに送信されてきた文字データである。ただし、音声表示装置10aから文字データが送信されなかった場合には、制御部30aは出力音声処理部54aで生成され制御部30aに返送された拠点B側の文字データを出力画像処理部60aに転送することができる。
The control unit 30a supplies a signal including image data and character data to the output image processing unit 60a. The image data supplied to the output image processing unit 60a is image data generated by the
出力画像処理部60aは、制御部30aの指示の下で、受信した信号に含まれる画像データおよび文字データの成分を画像出力部28で処理可能な形式の画像信号に変換する。続いて出力画像処理部60aは、変換した画像信号を画像出力部28aに出力する。
Under the instruction of the control unit 30a, the output image processing unit 60a converts the image data and character data components included in the received signal into an image signal in a format that can be processed by the
画像出力部28aは、受け取った信号を会議参加者が視覚的に認識可能な画像に変換して出力する。このときに制御部30aは、出力画像処理部60aおよび出力音声処理部56aを介して、画像出力部28aによる画像出力のタイミングが音声出力部26aによる音声出力のタイミングと対応するように制御する。このようにして、拠点A側の会議参加者は、遠隔地である拠点B側の風景のみならず、両拠点にいる会議参加者の発言内容を視覚的に認識することができる。会議での発言は画像出力部28aによって文字として表示されるからである。なお、他拠点側にある出力画像処理部60bおよび画像出力部28bでも同様の処理が行われる。
The
出力画像処理部60による文字データの処理および画像出力部28による文字の表示の例については、以下において図3ないし図7を参照しながらより詳細な説明を行う。図3ないし図7では、画像出力部28、特に拠点A側に設置されている画像出力部28aから出力される画像70が示されている。この画像70には、他拠点B側に設置されている画像入力部24bから入力された風景が映し出されている。
An example of character data processing by the output
出力画像処理部60は、供給を受けた文字データがどちらの拠点から入力された音声に基づくものであるかを判別することができる。音声表示装置10aでは、出力画像処理部60aは音声の入力源に関する判別結果に基づいて、画面70で表示する文字の色を決定し、所定の処理を行う。
The output
例えば、文字データは自拠点A側に設置された音声入力部22aから入力された音声を変換したものであると出力画像処理部60aが判別した場合には、出力画像処理部60aは当該データを画像出力部28aでは白色の文字として表示させる処理を行う。他方、文字データは他拠点B側に設置された音声入力部22bから入力された音声を変換したものであると出力画像処理部60aが判別した場合には、出力画像処理部60aは当該データを画像出力部28aでは緑色の文字として表示させる処理を行う。言うまでもなく、文字の表示に用いる色は、画像出力部28aから出力できる限りにおいて任意に選択し得る。
For example, when the output image processing unit 60a determines that the character data is converted from the voice input from the
さらに、出力画像処理部60aは、音声の入力源に関する判別結果に基づいて、画面70内における文字の表示位置を決定する。例えば、図3に示すように、自拠点Aの音声入力部22aから入力された音声を変換して得られた文字72aを画面70の左側に表示させ、他拠点Bの音声入力部22bから入力された音声を変換して得られた文字72bを画面70の右側に表示させてもよい。なお、表示された文字72は、画面70上の限られた領域を有効活用すべく、任意のタイミングで画面から消去させてよい。
Further, the output image processing unit 60a determines the display position of the character in the
出力画像処理部60aは、画像出力部28aに対し、各拠点から入力された音声が画面70の左右どちら側に出力されるかを示す目印74を表示させる処理を行うとより好ましい。
More preferably, the output image processing unit 60a performs a process of causing the
図4は、画面70における別の文字表示例を示している。図4の表示例では、自拠点A側の音声を変換した文字76aの表示位置と他拠点B側の音声を変換した文字76bの表示位置は特段区別されていない。その結果、文字76aと文字76bは混在して表示されることになる。文字76aおよび76bは画面70の右側から左側に流れるように画面70上を移動する。このような表示例の場合、画面70条における文字76aと文字76bの表示色を変えておけば、会議参加者は表示されている文字76がどちらの拠点からの発言であるかを視覚的に判別することができる。
FIG. 4 shows another example of character display on the
この表示例の場合も、出力画像処理部60aは、画像出力部28aに対し、各拠点から入力された音声がそれぞれ何色で文字化されるかを示す目印74を表示させる処理を行うとより好ましい。例えば、自拠点A側の音声を変換した文字76aの表示色が白色である場合には目印74aも白色で、他拠点B側の音声を変換した文字76bの表示色が緑色である場合には目印74bも緑色で表示される。
Also in the case of this display example, the output image processing unit 60a performs a process of causing the
また、出力画像処理部60aは、文字データに対応する入力音声の強弱を判断可能である場合には、その判断結果に基づいて画面70に表示される文字の大きさを決定する処理を行ってもよい。かかる処理が行われたときの画面70の表示例が図5に示されている。例えば、自拠点A側の会議参加者が、通常の発言時より大きな声で所定の発言をした場合には、出力画像処理部60aは、当該発言を変換処理して得られた文字78aを、通常の声量の発言から得られた文字72a、72bの表示寸法よりも大きく画面70に表示させる。他方、自拠点A側の会議参加者が、通常の発言時より小さな声で所定の発言をした場合には、出力画像処理部60aは、当該発言を変換処理して得られた文字80aを、文字72a、72bの表示寸法よりも小さく画面70に表示させる。
In addition, when the output image processing unit 60a can determine the strength of the input voice corresponding to the character data, the output image processing unit 60a performs a process of determining the size of the character displayed on the
音声の強弱を画面70上に表示する方法は、表示される文字の大小に限られない。例えば、音声の強弱に応じて文字のフォントや色を変えて表示させても構わない。
The method for displaying the strength of the voice on the
図6および図7は、出力画像処理部60aが拠点AB間における会話の状況を文字にして画面70に表示させる処理を行った場合の表示例である。ある一定時間会話がない旨の制御部30aの判断結果が出力画像処理部60aに伝送されてきた場合には、図6に示すように、出力画像処理部60aは制御部30aの判断結果を示す文字82を画面70に表示させる処理を行う。文字82は例えば、「シーン…」等のような擬態語や、「沈黙中」のように現在の会話状態を示す語句である。
FIGS. 6 and 7 are display examples when the output image processing unit 60a performs a process of displaying the state of conversation between the bases AB as characters on the
また、両拠点からの活発な発言が続き議論が白熱している旨の制御部30aの判断結果が出力画像処理部60aに伝送されてきた場合には、図7に示すように、出力画像処理部60aは制御部30aの判断結果を示す文字84を画面70に表示させる処理を行う。文字84は例えば、「激論中!!」のように現在の会話状態を示す語句である。
In addition, when active statements from both bases continue and the determination result of the control unit 30a that the discussion is incandescent is transmitted to the output image processing unit 60a, as shown in FIG. The unit 60a performs processing for displaying a
ここでいう文字82や文字84には、話者が発した言語の表記の用に供する狭義の文字の他に、例えば文字コード規格で定められている広義の文字、すなわち記号、符号、ピクトグラムなども含まれ得る。また、制御部30の判断に基づく出力画像の処理手法は、文字82や文字84の表示に限らない。例えば、所定の画像を予め記憶部32に記憶させておき、出力画像処理部60は制御部30の判断に基づいて記憶されている画像を表示させてもかまわない。また、画面70に特殊な視覚的加工を施す所定のプログラムを予め記憶部32に記憶させておき、出力画像処理部60は制御部30の判断に基づき、出力される画面70に視覚的加工処理を施しても構わない。
The
すなわち、本発明に係る音声表示装置10の実施例によれば、遠隔の拠点間での会話の状況を制御部30が判断して、画面70を通して判断結果に基づく現在の会話状況を視覚的に表現することが可能となる。画面70で表示できる限りいかなる視覚的な表現手段も採り得る。このような画面上の視覚的表現に基づいて、会話の参加者は現在の会話状況を視覚で認識することが可能となる。
That is, according to the embodiment of the
続いて、本発明に係る音声表示装置10の別の実施例に関する説明を行う。この実施例によれば、会話の中の重要なキーワードを、付箋のように画面上に残しておくことができる。また、会話の中で登場した回数の多い語句をランキングとして画面に表示することができる。
Subsequently, another embodiment of the
音声表示装置10の別の実施例の構成を図8に示す。図8では、先に述べた図1で示す音声表示装置10の実施例と同様の構成要素に関しては同一の参照符号を付して図示するとともに、以下においても重複した説明を避ける。
The configuration of another embodiment of the
図8に示す音声表示装置10の実施例は、先に述べた音声表示装置10の実施例に設けられている構成要素に加えて、制御部30と接続されている表示指示入力部102を有する。制御部30と表示指示入力部102の間は、例えば有線または無線の回線104を介して接続される。表示指示入力部102は、例えばボタン、レバー、タッチパネル等のような公知の入力装置で構成されて構わない。
The embodiment of the
表示指示入力部102では、例えば音声を変換した文字を画面70に貼り付けるように見せる画像表示処理を実行するよう求める指示信号が生成される。かかる画像表示処理の具体的な実行工程は記憶部32に記憶されている。利用者が表示指示入力部102を操作すると、表示指示入力部102は上述の指示信号を生成し、生成された指示信号を音声表示装置10の制御部30に伝送する。
In the display
かかる指示信号の供給を受けた制御部30は、出力画像処理部60と協働して指示に対応する画像表示処理の動作を実行する。その結果、出力画像処理部60では、画面70上に貼付されているかのように表示され続ける貼付文字106のデータを含む信号が生成される。出力画像処理部60が生成した信号を画像出力部28に出力すると、画像出力部28は、貼付文字106のデータを含む信号を、画像データや通常の文字データと同様に、会議参加者が視覚的に認識可能な画像に変換して出力する。
Upon receiving the instruction signal, the
図9は、図8で示す音声表示装置10の実施例において、表示指示入力部102を操作することによって出力された画像70の一例を示す。例えばボタンを押し続けている間など、参加者が指示入力部102を操作している間に音声入力部22に入力された音声から変換された文字データは、制御部30および出力画像処理部60での処理を経て、貼付文字106として画面70に出力される。貼付文字106は、時間の経過によってもその表示が画面70から消えることはなく、会議参加者が所定の操作を行う等するまで画面70上に表示され続ける。そのため、会議における重要なキーワードが明確となり、会議参加者全体に共有される。好ましくは図9に示すように、付箋上に貼付文字106が記載されているような表示上の演出を施すと、より視覚的効果が高まる。言うまでもなく、表示上の演出は、表示指示入力部102を操作中に音声入力部22に入力された音声を、文字72や文字76とは異なる態様、特に通常の文字の表示態様よりも視覚的に目立つ態様で画面70に表示するものであれば上述の例に限定されない。
FIG. 9 shows an example of an
さらに、図8に示す音声表示装置10の実施例は、制御部30と接続されている集計指示入力部108を有する。制御部30と集計指示入力部108の間は、例えば有線または無線の回線110を介して接続される。集計指示入力部108は、例えばボタン、レバー、タッチパネル等のような公知の入力装置で構成されて構わない。
Further, the embodiment of the
また、本実施例においては、音声表示装置10で音声から文字データに変換された語句は、画像出力部28から出力されるとともに記憶部32に記憶される。記憶部32に記憶される文字データには、IP網14を介して他の音声表示装置10から供給を受けた文字データも含まれる。
In the present embodiment, the phrase converted from voice to character data by the
集計指示入力部108では、記憶部32に記憶されている文字データに含まれている語句ごとの数を集計するよう求める指示信号が生成される。利用者が集計指示入力部108を操作すると、集計指示入力部108は上述の指示信号を生成し、生成された指示信号を音声表示装置10の制御部30に伝送する。かかる集計処理の具体的な実行工程もまた記憶部32に記憶されている。利用者が集計指示入力部108を操作すると、集計指示入力部108は上述の指示信号を生成し、生成された指示信号を音声表示装置10の制御部30に伝送する。
The totaling
かかる指示信号の供給を受けた制御部30は、記憶部32に記憶されている文字データに基づいて、会議参加者の発言に登場する各語句の集計を行う。集計が終了したら、制御部30は、出力画像処理部60と協働して集計結果112を画面70に表示させる処理を実行する。その結果、出力画像処理部60では、画面70上に表示すべき集計結果112のデータを含む信号が生成される。
Upon receiving the instruction signal, the
出力画像処理部60が生成した集計結果112を含む信号を画像出力部28に出力すると、画像出力部28は、集計結果112を含む信号を、画像データや通常の文字データと同様に、会議参加者が視覚的に認識可能な画像に変換して出力する。
When the output
図10は、図8で示す音声表示装置10の実施例において、集計指示入力部108を操作することによって出力された画像70の一例を示す。例えばボタンを押す等、参加者が集計指示入力部108を操作すると、記憶部32に記憶されている文字データに基づいて制御部30が語句の集計を行う。さらに、制御部30および出力画像処理部60での画面表示処理を経て、集計結果112として画面70に出力される。
FIG. 10 shows an example of an
どのような集計結果を画面70に表示するかは任意であり、集計処理の実行工程の一部として予め記憶部32に記憶されている。図10の表示例においては、画面70に表示されている集計結果112は、会議の開始時点から集計指示入力部108を操作する時点までに発言された語句を集計した上位3語をランキング形式で示すものである。なお、本発明に係る音声表示装置10は、画面70に表示される集計結果112の内容を、利用者の操作または制御部30による自動的な判断などによって任意に調整できるような構成であるとより好ましい。
It is arbitrary what sort results are displayed on the
このように集計結果112を画面70に表示することによって、会議で出現頻度が高い語句を重要なキーワードとして参加者の視覚を通じて認識させることが可能となる。
By displaying the
ところで、上述してきた本発明の実施例は、コンピュータに音声表示装置10としての役割を実行させるプログラムを所定のコンピュータにインストールさせることによっても具現化され得る。この場合の実施例を、図11を参照しながら簡潔に説明する。
By the way, the embodiment of the present invention described above can also be realized by installing a program for causing a computer to perform the role as the
記憶媒体130に、コンピュータ132を本発明に係る音声表示装置10の実施例として機能させるプログラムを記憶しておく。ここで、記憶媒体130とは、光学ディスクや磁気ディスク、フラッシュメモリなど、プログラムを記憶することが可能ないかなる装置や部品も含まれる。
The
コンピュータ132は、記憶媒体130の記憶内容を読取り可能なドライブ134を有する。ドライブ134はコンピュータ132に固定的に内蔵されていても、または、コンピュータ132の筐体からは独立した外付け型でコンピュータ132と接続可能な機器であってもよい。また、コンピュータ132は、演算などの情報処理やコンピュータ自身の制御を行う中央処理装置(Central Processing Unit: CPU)136およびプログラムやデータなどを記憶する記憶装置138を有する。本図で示す記憶装置138は便宜上、データを一時的に記憶する装置および恒常的に記憶する装置の双方を含むものとする。CPU 136はドライブ134と接続線140を介して接続され、記憶装置138とも接続線142を介して接続されている。
The
記憶媒体130に記憶されたプログラムは、ドライブ134を介してコンピュータ132に読み取られ、読み取られたプログラムは、CPU 136による制御の下、コンピュータ132の記憶装置138に記憶される。このようにしてプログラムが組み込まれたコンピュータ132は、プログラムを実施させることにより、音声表示装置10として働くことが可能となる。このプログラムは、プログラムの内容に応じて、コンピュータ132内のCPU 136を制御部30および制御部30と協働して動作する各処理部として働かせ、記憶装置138を記憶部32として働かせるものであるともいえる。その他図示しないコンピュータ132内の様々な装置もまた、かかるプログラムの実行によって、音声表示装置10の構成部品として働くことになる。
The program stored in the
また、各種の入力部22、24、102、108に相当する構成部品および各種の出力部26、28に相当する構成部品は、コンピュータ132に当初から内蔵されている構成要素を用いても、またはコンピュータ132の筐体からは独立して構成されている構成要素をコンピュータ132と接続して用いても構わない。
In addition, components corresponding to the
なお、コンピュータ132へのプログラムのインストールは、ドライブ134を介して記憶媒体130に記憶されたプログラムを読み取る方式に限らず、ネットワークを介してプログラムを読み取る方式などと採用しても構わない。
Note that the installation of the program in the
以上、ここまで本発明のいくつかの実施例を述べてきたが、本発明を実施する具体的手法は上述の実施例に制限されるものではない。本発明の実施が可能である限りにおいて適宜に設計や動作手順等の変更をなし得る。例えば、本発明に用いられる構成要素の機能発揮を補助する用に供する回路その他の機器については、適宜に付加および省略可能である。 Although several embodiments of the present invention have been described so far, specific methods for implementing the present invention are not limited to the above-described embodiments. As long as the present invention can be implemented, the design, operation procedure, and the like can be changed as appropriate. For example, circuits and other devices used for assisting the function of the components used in the present invention can be added and omitted as appropriate.
10 音声表示装置
12 テレビ会議システム
22 音声入力部
24 画像入力部
26 音声出力部
28 画像出力部
30 制御部
32 記憶部
36 入力音声処理部
42 入力画像処理部
50 通信処理部
54 出力音声処理部
60 出力画像処理部
102 表示指示入力部
108 集計指示処理部
10 Voice display device
12 Video conference system
22 Audio input section
24 Image input section
26 Audio output section
28 Image output section
30 Control unit
32 Memory unit
36 Input audio processor
42 Input image processor
50 Communication processor
54 Output audio processor
60 Output image processor
102 Display instruction input section
108 Aggregation instruction processing section
Claims (14)
音声を入力して該音声を信号変換して音声信号を生成する音声入力部と、
少なくとも前記音声入力部で生成された音声信号に基づいて文字データを生成する音声処理部と、
前記他の拠点から、該他の拠点で発せられた音声に基づいて生成された音声信号または文字データの供給を受ける通信処理部と、
少なくとも前記音声入力部に入力された音声および前記他の拠点で発せられた音声に対応する文字データに基づいて画像信号を生成する画像処理部と、
前記画像信号に基づいて画像を出力表示する画像出力部と、
前記他の拠点との間における前記音声の通信状況を判断し、前記音声処理部、前記通信処理部および前記画像処理部の動作を制御する制御部とを有し、
前記画像の表示態様は、前記文字データから認識される情報または前記音声の通信状況の少なくとも一方に応じて決定されることを特徴とする音声表示装置。 Used in systems that communicate at least two-way audio with other sites,
A voice input unit that inputs voice and converts the voice to generate a voice signal;
A voice processing unit that generates character data based on at least a voice signal generated by the voice input unit;
A communication processing unit that receives supply of a voice signal or character data generated based on the voice emitted from the other base, from the other base;
An image processing unit that generates an image signal based on character data corresponding to at least the voice input to the voice input unit and the voice emitted from the other base;
An image output unit for outputting and displaying an image based on the image signal;
Determining the communication status of the voice with the other bases, and having a control unit for controlling the operation of the voice processing unit, the communication processing unit, and the image processing unit;
The display mode of the image is determined according to at least one of information recognized from the character data and a communication state of the voice.
該音声表示装置が前記表示指示信号を検出すると、前記画像処理部は、前記指示入力部の操作中に前記音声入力部に入力された音声に対応する文字を前記所定の文字として、通常の文字の表示とは異なる態様で前記画面に表示させる画像処理を実行することを特徴とする音声表示装置。 5. The voice display device according to claim 1, further comprising: a display instruction signal for requesting image processing for displaying a predetermined character on the screen in a mode different from a normal character display. It has a display instruction input part to input,
When the voice display device detects the display instruction signal, the image processing unit uses the character corresponding to the voice input to the voice input unit during the operation of the instruction input unit as the predetermined character as a normal character. An audio display device that executes image processing to be displayed on the screen in a mode different from the display of.
前記音声処理部で生成および前記通信処理部から供給された前記文字データを記憶する記憶部と、
該記憶部に記憶された前記文字データに含まれている語句の数を集計する処理を求める集計指示信号を入力する集計指示入力部を有し、
該音声表示装置が前記集計指示信号を検出すると、該音声表示装置は前記語句の数を集計し、該集計の終了後、前記画像処理部は前記語句の数の集計結果を前記画面に表示させる画像処理を実行することを特徴とする音声表示装置。 The voice display device according to any one of claims 1 to 5, wherein the voice display device further includes:
A storage unit for storing the character data generated by the voice processing unit and supplied from the communication processing unit;
A tally instruction input unit for inputting a tally instruction signal for a process of tallying the number of words included in the character data stored in the storage unit;
When the voice display device detects the counting instruction signal, the voice display device counts the number of words, and after completion of the counting, the image processing unit displays the result of counting the number of words on the screen. An audio display device that performs image processing.
少なくとも前記音声入力部で生成された音声信号に基づいて文字データを生成する音声処理手段、
前記他の拠点から、該他の拠点で発せられた音声に基づいて生成された音声信号または文字データの供給を受ける通信処理手段、
少なくとも前記音声入力部に入力された音声および前記他の拠点で発せられた音声に対応する文字データに基づいて、前記画像出力部から出力する画像信号を生成する画像処理手段、
前記他の拠点との間における前記音声の通信状況を判断し、前記音声処理手段、前記通信処理手段および前記画像処理手段の動作を制御する制御手段として機能させ、
前記画像の表示態様は、前記文字データから認識される情報または前記音声の通信状況の少なくとも一方に応じて決定されることを特徴とする音声表示プログラム。 Used in a system that performs at least two-way audio communication with other sites, and inputs an audio signal and converts the audio signal to generate an audio signal, and outputs an image based on the image signal A program that causes a computer connected to an image output unit to be displayed to function as a sound display device that displays the sound from the image output unit,
Voice processing means for generating character data based on at least the voice signal generated by the voice input unit;
Communication processing means for receiving supply of a voice signal or character data generated based on the voice emitted from the other base from the other base;
Image processing means for generating an image signal to be output from the image output unit based on at least the character data corresponding to the voice input to the voice input unit and the voice emitted from the other site;
Judgment of the communication status of the voice with the other base, and function as a control means for controlling the operation of the voice processing means, the communication processing means and the image processing means,
The voice display program according to claim 1, wherein a display mode of the image is determined according to at least one of information recognized from the character data and a voice communication state.
前記コンピュータが前記表示指示信号を検出すると、前記画像処理手段に、前記指示入力部の操作中に前記音声入力部に入力された音声に対応する文字を前記所定の文字として、通常の文字の表示とは異なる態様で前記画面に表示させる画像処理を実行させることを特徴とする音声表示プログラム。 12. The voice display program according to claim 8, wherein the voice display program further includes an input unit for inputting a predetermined signal to the computer or a computer connected to the input unit. Function as a display instruction signal detection means for requesting image processing to display characters on the screen in a manner different from normal character display;
When the computer detects the display instruction signal, the image processing unit displays a normal character with the character corresponding to the voice input to the voice input unit during operation of the instruction input unit as the predetermined character. An audio display program for executing image processing to be displayed on the screen in a different mode.
前記コンピュータが前記集計指示信号を検出すると、前記コンピュータに前記語句の数を集計し、該集計の終了後、前記画像処理手段に前記語句の数の集計結果を前記画面に表示させる画像処理を実行させることを特徴とする音声表示プログラム。 13. The voice display program according to claim 8, further comprising an input unit for inputting a predetermined signal to the computer or connected to the input unit, and generated by the voice processing means. And a computer having a storage unit for storing the character data supplied from the communication processing unit, and a totaling instruction signal for calculating a number of words included in the character data stored in the storage unit Function as a detection means,
When the computer detects the counting instruction signal, the computer counts the number of words, and after the counting is finished, executes image processing for causing the image processing means to display the counting result of the number of words on the screen. An audio display program characterized by causing
14. The voice display program according to claim 8, wherein when the voice signal supplied from the other base to the communication processing means does not include character data, the voice processing means A voice display program for generating character data corresponding to a voice uttered at the other base based on a supplied voice signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017033961A JP2018139397A (en) | 2017-02-24 | 2017-02-24 | Voice display device and voice display program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017033961A JP2018139397A (en) | 2017-02-24 | 2017-02-24 | Voice display device and voice display program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018139397A true JP2018139397A (en) | 2018-09-06 |
Family
ID=63451482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017033961A Pending JP2018139397A (en) | 2017-02-24 | 2017-02-24 | Voice display device and voice display program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018139397A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021162895A (en) * | 2020-03-30 | 2021-10-11 | 本田技研工業株式会社 | Conference support system, conference support method, and program |
WO2024062779A1 (en) * | 2022-09-22 | 2024-03-28 | ソニーグループ株式会社 | Information processing device, information processing system, and information processing method |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023716A (en) * | 2000-07-05 | 2002-01-25 | Pfu Ltd | Presentation system and recording medium |
JP2005025571A (en) * | 2003-07-03 | 2005-01-27 | Ns Solutions Corp | Business support device, business support method, and its program |
JP2005065252A (en) * | 2003-07-29 | 2005-03-10 | Fuji Photo Film Co Ltd | Cell phone |
JP2006229903A (en) * | 2005-02-21 | 2006-08-31 | Fuji Xerox Co Ltd | Conference supporting system, method and computer program |
JP2008042386A (en) * | 2006-08-03 | 2008-02-21 | Matsushita Electric Ind Co Ltd | Communication terminal device |
JP2011066794A (en) * | 2009-09-18 | 2011-03-31 | Sharp Corp | Meeting management device, and meeting management method |
JP2011065467A (en) * | 2009-09-17 | 2011-03-31 | Sharp Corp | Conference relay device and computer program |
-
2017
- 2017-02-24 JP JP2017033961A patent/JP2018139397A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023716A (en) * | 2000-07-05 | 2002-01-25 | Pfu Ltd | Presentation system and recording medium |
JP2005025571A (en) * | 2003-07-03 | 2005-01-27 | Ns Solutions Corp | Business support device, business support method, and its program |
JP2005065252A (en) * | 2003-07-29 | 2005-03-10 | Fuji Photo Film Co Ltd | Cell phone |
JP2006229903A (en) * | 2005-02-21 | 2006-08-31 | Fuji Xerox Co Ltd | Conference supporting system, method and computer program |
JP2008042386A (en) * | 2006-08-03 | 2008-02-21 | Matsushita Electric Ind Co Ltd | Communication terminal device |
JP2011065467A (en) * | 2009-09-17 | 2011-03-31 | Sharp Corp | Conference relay device and computer program |
JP2011066794A (en) * | 2009-09-18 | 2011-03-31 | Sharp Corp | Meeting management device, and meeting management method |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021162895A (en) * | 2020-03-30 | 2021-10-11 | 本田技研工業株式会社 | Conference support system, conference support method, and program |
JP7316971B2 (en) | 2020-03-30 | 2023-07-28 | 本田技研工業株式会社 | CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM |
WO2024062779A1 (en) * | 2022-09-22 | 2024-03-28 | ソニーグループ株式会社 | Information processing device, information processing system, and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6178198B2 (en) | Speech translation system, method and program | |
US9111545B2 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
CN112236817B (en) | Low latency neighbor group translation | |
US20130304457A1 (en) | Method and system for operating communication service | |
JP6548045B2 (en) | Conference system, conference system control method, and program | |
KR102085383B1 (en) | Termial using group chatting service and operating method thereof | |
CN111147444B (en) | Interaction method and electronic equipment | |
CN102422639A (en) | System and method for translating communications between participants in a conferencing environment | |
JP2008541559A (en) | Method and system for associating a conference participant with a telephone call | |
JP2018174442A (en) | Conference support system, conference support method, program of conference support apparatus, and program of terminal | |
US11700325B1 (en) | Telephone system for the hearing impaired | |
JP2018139397A (en) | Voice display device and voice display program | |
WO2016157993A1 (en) | Information processing device, information processing method, and program | |
CN113676689A (en) | Video call method and device and television | |
JP2007030050A (en) | Robot control device, robot control system, robot device and robot control method | |
JP6950708B2 (en) | Information processing equipment, information processing methods, and information processing systems | |
US9697851B2 (en) | Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium | |
JP6065768B2 (en) | Information processing apparatus, information processing method, and program | |
JP6824547B1 (en) | Active learning system and active learning program | |
JP7232846B2 (en) | VOICE CHAT DEVICE, VOICE CHAT METHOD AND PROGRAM | |
JP2017158137A (en) | Conference system | |
JP6787078B2 (en) | Communication equipment, methods and programs | |
CN115066907A (en) | User terminal, broadcasting apparatus, broadcasting system including the same, and control method thereof | |
JP2005151002A (en) | Remote conference system | |
JP7293863B2 (en) | Speech processing device, speech processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201228 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20201228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210525 |