JP4957119B2 - Information processing device - Google Patents
Information processing device Download PDFInfo
- Publication number
- JP4957119B2 JP4957119B2 JP2006219778A JP2006219778A JP4957119B2 JP 4957119 B2 JP4957119 B2 JP 4957119B2 JP 2006219778 A JP2006219778 A JP 2006219778A JP 2006219778 A JP2006219778 A JP 2006219778A JP 4957119 B2 JP4957119 B2 JP 4957119B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- participant
- videophone
- information processing
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は情報処理装置に係り、特に、テレビ電話を行うことができるようにした情報処理装置に関する。 The present invention relates to an information processing apparatus, and more particularly, to an information processing apparatus capable of making a videophone call.
近年、大容量の画像データや音声データを、インターネットを介してユーザ同士の間でやり取りするテレビ電話システムが知られている。 2. Description of the Related Art In recent years, videophone systems that exchange large volumes of image data and audio data between users via the Internet are known.
例えばユーザAとユーザBとの間でテレビ電話システムを利用する場合、ユーザAのコンピュータAでは、ユーザBのコンピュータBから送信されてきたユーザBの画像が表示され、音声が出力される。また、ユーザBのコンピュータBでは、ユーザAのコンピュータAから送信されてきたユーザAの画像が表示され、音声が出力される。これにより、ユーザAとユーザBとの間で、画像と音声によるコミュニケーションを図ることができる。なお、このテレビ電話システムは、1対1のみならず、1対複数にも適用することが可能である。 For example, when the video phone system is used between the user A and the user B, the user A's computer A displays the image of the user B transmitted from the user B's computer B and outputs sound. Further, the computer B of the user B displays the image of the user A transmitted from the computer A of the user A and outputs a sound. Thereby, the communication by an image and an audio | voice can be aimed between the user A and the user B. FIG. This videophone system can be applied not only to one-to-one but also to one-to-one.
また、画像と音声によるコミュニケーションを図る方法として、テレビ電話システム以外にも、テレビ会議システムなどが知られている。 In addition to the video phone system, a video conference system and the like are known as a method for communication using images and sounds.
1対複数で画像と音声によるコミュニケーションを図るテレビ会議システムにおいては、端末からのコマンドに応じて、予め蓄積された映像資料を読み出し、各端末からの映像とともに1つの映像に合成することにより、端末からの映像とともに、蓄積された資料映像や過去の映像などを所望の形態で表示利用したり、会議履歴を蓄積して所望の形態で表示し閲覧したりすることができる技術が提案されている(例えば、特許文献1参照)。 In a video conference system that performs one-to-multiple video and audio communication, in response to a command from the terminal, the video material stored in advance is read out and combined with the video from each terminal into a single video. A technology has been proposed that can be used to display and use the stored document video and past video in a desired format as well as the video from the video, or to accumulate and display the conference history in a desired format. (For example, refer to Patent Document 1).
一方、携帯電話機においても、近年、基地局などを介して無線通信により携帯電話機間でテレビ電話を行う技術が提案されている。特に、携帯電話機間においては、現在、1対1のテレビ電話が実用化されている。
しかしながら、携帯電話機において1対複数のテレビ電話を行う場合(すなわち、多地点間でのテレビ電話を行う場合)、携帯電話機に設けられた表示部の大きさは限定されているため、通話の相手の顔を表示部にすべて表示しようとすると、1人当たりに割り当てられる表示面積が小さくなってしまい、通話の相手の顔を表示しても誰であるかを判別することが困難であるという課題があった。 However, when making a one-to-multiple videophone call on a mobile phone (that is, when making a videophone call between multiple points), the size of the display unit provided on the mobile phone is limited. If all the faces are displayed on the display unit, the display area allocated per person becomes small, and it is difficult to determine who the person is even if the face of the other party is displayed. there were.
このような課題は、特許文献1に提案されている技術によっても解決することはできない。
Such a problem cannot be solved even by the technique proposed in
本発明は、このような状況に鑑みてなされてものであり、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部に表示されるユーザの画像の配置を好適に制御することができる情報処理装置を提供することを目的とする。 The present invention is made in view of such a situation, and when a plurality of users make a videophone call between multiple points, it is preferable to arrange a user image displayed on the display unit according to a call situation. It is an object of the present invention to provide an information processing apparatus that can be controlled automatically.
本発明の情報処理装置は、上述した課題を解決するために、複数の情報処理装置から画像信号および音声信号をそれぞれ取得し、取得された音声信号に基づいて音声認識処理を行う音声認識手段と、複数の画像信号に基づく画像を表示する表示手段と、音声認識手段により音声認識された発言に基づいて、名前を呼ばれる回数の解析を行い、その解析結果に基づいて、表示手段により表示される複数の画像信号に基づく画像の配置に関する優先度を算出する解析手段と、解析手段により算出された優先度に応じて、表示手段により表示される複数の画像信号に基づく画像の配置を制御する制御手段とを備えることを特徴とする。 In order to solve the above-described problem, the information processing apparatus according to the present invention acquires an image signal and a sound signal from a plurality of information processing apparatuses, and performs speech recognition processing based on the acquired sound signal. The display means for displaying an image based on a plurality of image signals, and the number of times the name is called is analyzed based on the speech recognized by the voice recognition means, and the display means displays the result based on the analysis result. Analyzing means for calculating priority for image arrangement based on a plurality of image signals, and control for controlling arrangement of images based on the plurality of image signals displayed by the display means in accordance with the priority calculated by the analyzing means Means.
本発明の情報処理装置においては、複数の情報処理装置から画像信号および音声信号がそれぞれ取得され、取得された音声信号に基づいて音声認識処理が行われ、複数の画像信号に基づく画像が表示され、音声認識された発言に基づいて、名前を呼ばれる回数の解析が行われ、その解析結果に基づいて、表示される複数の画像信号に基づく画像の配置に関する優先度が算出され、算出された優先度に応じて、表示される複数の画像信号に基づく画像の配置が制御される。 In the information processing apparatus of the present invention, image signals and audio signals are respectively acquired from the plurality of information processing apparatuses, and voice recognition processing is performed based on the acquired audio signals, and images based on the plurality of image signals are displayed. Based on the speech-recognized utterance, the number of times the name is called is analyzed, and based on the analysis result, the priority for the arrangement of the images based on the plurality of displayed image signals is calculated, and the calculated priority The arrangement of images based on a plurality of displayed image signals is controlled according to the degree.
本発明によれば、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部に表示されるユーザの画像の配置を好適に制御することができる。 ADVANTAGE OF THE INVENTION According to this invention, when a some user makes a videophone between many points, arrangement | positioning of the user's image displayed on a display part according to a telephone call condition can be controlled suitably.
以下、本発明の実施の形態について、図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明に係る情報処理装置として適用可能な携帯電話機1の内部の構成を表している。
FIG. 1 shows an internal configuration of a
図1に示されるように、携帯電話機1は、携帯電話機1の各部を統括的に制御する主制御部21に対して、電源回路部22、操作入力制御部23、画像エンコーダ24、カメラインタフェース部25、LCD(Liquid Crystal Display)制御部26、多重分離部28、変復調回路部29、音声コーデック30、記憶部37、および音楽制御部38がメインバス31を介して互いに接続されるとともに、画像エンコーダ24、画像デコーダ27、多重分離部28、変復調回路部29、音声コーデック30、および記録再生部35が同期バス32を介して互いに接続されて構成される。
As shown in FIG. 1, the
電源回路部22は、ユーザの操作により終話・電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話機1を動作可能な状態に起動する。
When the call termination / power key is turned on by the user's operation, the power
主制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、およびRAM(Random Access Memory)などからなり、CPUは、ROMに記憶されているプログラムまたは記憶部37からRAMにロードされた各種のアプリケーションプログラムに従って各種の処理を実行するとともに、種々の制御信号を生成し、各部に供給することにより携帯電話機1を統括的に制御する。RAMは、CPUが各種の処理を実行する上において必要なデータなどを適宜記憶する。
The
なお、主制御部21には、現在の日付と時刻を計測するタイマが内蔵されている。
The
ここで、CPUが実行する種々のアプリケーションプログラムは、ROMや記憶部37に予めインストールしておくことができる。また、CPUが実行する種々のアプリケーションプログラムは、図示せぬ基地局を介して通信によって携帯電話機1にダウンロードすることにより、記憶部37にインストールすることができる。さらに、CPUが実行する種々のアプリケーションプログラムは、メモリカード36に記録しておき、記録再生部35によって読み出して、記憶部37にインストールすることも可能である。
Here, various application programs executed by the CPU can be installed in the ROM or the
携帯電話機1は、主制御部21の制御に基づいて、音声通話モード時にマイクロフォン15で集音した音声信号を音声コーデック30によってディジタル音声信号に変換、圧縮し、これを変復調回路部29でスペクトラム拡散処理し、送受信回路部33でディジタルアナログ変換処理及び周波数変換処理を施した後にアンテナ34を介して送信する。
Based on the control of the
また、携帯電話機1は、音声通話モード時にアンテナ34で受信した受信信号を増幅して周波数変換処理及びアナログディジタル変換処理を施し、変復調回路部29でスペクトラム逆拡散処理し、音声コーデック30によって伸張し、アナログ音声信号に変換した後、変換されたアナログ音声信号をスピーカ16を介して出力する。
Also, the
携帯電話機1は、画像信号を送信しない場合には、CCDカメラ12で撮像した画像信号をカメラインタフェース部35及びLCD制御部36を介して液晶ディスプレイ13に直接表示する。
When the
携帯電話機1は、データ通信モード時(またはテレビ電話を行う際)に画像信号を送信する場合、CCDカメラ12で撮像された画像信号をカメラインタフェース部25を介して画像エンコーダ24に供給する。
When transmitting an image signal in the data communication mode (or when making a videophone call), the
画像エンコーダ24は、CCDカメラ12から供給された画像信号を、例えばMPEG(Moving Picture Experts Group)4などの所定の符号化方式によって圧縮符号化することにより符号化画像信号に変換し、変換された符号化画像信号を多重分離部28に送出する。このとき同時に携帯電話機1は、CCDカメラ12で撮像中にマイクロフォン15で集音した音声を音声コーデック30を介してディジタルの音声信号として多重分離部28送出する。
The
多重分離部28は、画像エンコーダ24から供給された符号化画像信号と音声コーデック30から供給された音声信号とを所定の方式で多重化し、その結果得られる多重化信号を変復調回路部29でスペクトラム拡散処理し、送受信回路部33でディジタルアナログ変換処理及び周波数変換処理を施した後にアンテナ34を介して送信する。
The demultiplexing unit 28 multiplexes the encoded image signal supplied from the
また、携帯電話機2は、データ通信モード時(またはテレビ電話を行う際)に動画像ファイルのデータを受信する場合、アンテナ34を介して基地局(図示せず)から受信した受信信号を変復調回路部29でスペクトラム逆拡散処理し、その結果得られる多重化信号を多重分離部28に送出する。
Further, when receiving data of a moving image file in the data communication mode (or when making a videophone call), the
多重分離部28は、多重化信号を分離することにより符号化画像信号と音声信号とに分け、同期バス32を介して符号化画像信号を画像デコーダ27に供給すると共に音声信号を音声コーデック30に供給する。画像デコーダ27は、符号化画像信号をMPEG4などの所定の符号化方式に対応した復号化方式でデコードすることにより再生動画像信号を生成し、生成された再生動画像信号をLCD制御部36を介して液晶ディスプレイ13に供給する。これにより、例えば動画像ファイルに含まれる動画像データが表示される。
The demultiplexing unit 28 divides the multiplexed signal into an encoded image signal and an audio signal, supplies the encoded image signal to the
このとき同時に音声コーデック30は、音声信号をアナログ音声信号に変換した後、これをスピーカ16に供給し、これにより、例えば、動画像ファイルに含まる音声信号が再生される。
At the same time, the
記憶部37は、例えば、電気的に書換えや消去が可能な不揮発性メモリであるフラッシュメモリ素子などからなり、主制御部21のCPUにより実行される種々のアプリケーションプログラムや種々のデータ群を格納している。また、記憶部37は、必要に応じて、ユーザの操作に応じて受信した電子メールや、受信したWebページなどにリンクされた動画像ファイルに含まれる動画像データなどを記憶する。
The
音楽制御部38は、記憶部37に記憶されているオーディオデータの再生動作および一時停止動作や、巻戻し機能、早送り機能、音量ダウン動作、音量アップ動作などの実行を制御する。
The
図2は、本発明に係る情報処理装置に適用可能な携帯電話機1が実行することが可能な機能的な構成を表している。
FIG. 2 shows a functional configuration that can be executed by the
音声認識機能41は、例えば図1の主制御部21などにより実現され、予め設定され所定の時間(例えば、5分間など)内で、音声コーデック30によって伸張された音声信号(ディジタル信号)を取得し、取得された伸張後の音声信号から無効な音およびノイズを除去するとともに、無効な音およびノイズが除去された後の音声信号に基づいて音声認識処理を実行する。すなわち、音声認識機能41は、無効な音およびノイズが除去された後の音声信号から特徴量を抽出し、抽出された特徴量に基づいて所定の単語列をテレビ電話の参加者の発言(音声)として選択し、選択されたテレビ電話の参加者の発言(音声)に関するデータである発言データを解析機能42に逐次供給する。
The
解析機能42は、例えば図1の主制御部21などにより実現され、音声認識機能41から供給されたテレビ電話の参加者の発言データを逐次取得し、取得されたテレビ電話の参加者の発言データに基づいて、所定の解析(テレビ電話の参加者の発言回数やキーワードの発言回数などの解析)を行う。解析機能42は、その解析結果に基づいて、テレビ電話の参加者とその参加者の発言回数などが対応付けられて登録されている発言履歴データベース43を予め設定された所定の時間ごとに更新するとともに、更新された発言履歴データベース43を参照して、現在の通話状況に応じた、液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置に関する優先度を算出し、算出された優先度に関するデータである優先度データを画像配置制御機能44に供給する。なお、発言履歴データベース43は、例えば図1の記憶部37などにより実現される。
The
画像配置制御機能44は、例えば図1の主制御部21などにより実現され、解析機能42から供給された優先度データを取得し、取得された優先度データに基づいてテレビ電話を行う際に液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置を制御するための画像配置制御信号を生成し、生成された画像配置制御信号をLCD制御部26に供給する。
The image
次に、図3のフローチャートは、図2の携帯電話機1における画像配置制御処理を示している。なお、この画像配置制御処理は、複数のユーザ(例えば、Aさん、Bさん、Cさん、およびDさんからなる4人のユーザ)によりテレビ電話(またはテレビ会議など)を開始するときに同時に並行して開始される。
Next, the flowchart of FIG. 3 shows image arrangement control processing in the
ステップS1において、音声認識機能41は、予め設定された所定の時間(例えば、5分間など)内で、音声コーデック30によって伸張された音声信号(ディジタル信号)を逐次取得する。なお、例えばAさん、Bさん、Cさん、およびDさんからなる4人のユーザの間でテレビ電話を行う際に、複数の携帯電話機1(他のユーザの携帯電話機1以外にも自分の携帯電話機1も含まれる)から取得される音声信号および画像信号には、少なくとも、どの携帯電話機1からの音声信号または画像信号であるかを示す制御情報(例えば、携帯電話機1の電話番号など)が付加されており、この制御情報に基づいて、テレビ電話を行っているどの携帯電話機1からの音声信号または画像信号であるかを判別することができる。
In step S1, the
ステップS2において、音声認識機能41は、取得された伸張後の音声信号から無効な音およびノイズを除去するとともに、無効な音およびノイズが除去された後の音声信号に基づいて音声認識処理を実行する。すなわち、音声認識機能41は、無効な音およびノイズが除去された後の音声信号から特徴量を抽出し、抽出された特徴量に基づいて所定の単語列をテレビ電話の参加者(Aさん、Bさん、Cさん、およびDさんのいずれか)の発言(音声)として選択する。
In step S2, the
例えばBさんからAさんに「XXですよね、Aさん」という発言がなされた場合、音声認識処理が実行されることで、4人のうちいずれかのテレビ電話の参加者の発言として「XXですよね、Aさん」が選択される。 For example, when Mr. B says to Mr. A, “It ’s XX, Mr. A”, the voice recognition process is executed, so that one of the four participants in the videophone call says “XX. “Mr. A” is selected.
音声認識機能41は、選択されたテレビ電話の参加者の発言(音声)に関するデータである発言データを解析機能42に逐次供給する。この発言データには、例えば、4人のうちいずれかのテレビ電話の参加者の発言として選択された「XXですよね、Aさん」に関するデータや、どの携帯電話機1からの音声信号であるかを示す制御情報(例えば、携帯電話機1の電話番号など)が含まれる。
The
ステップS3において、解析機能42は、音声認識機能41から供給されたテレビ電話の参加者の発言データを逐次取得し、取得されたテレビ電話の参加者の発言データに基づいて、所定の解析(テレビ電話の参加者の発言回数やキーワードの発言回数などの解析)を行う。
In step S3, the
具体的には、まず、解析機能42は、取得されたテレビ電話の参加者の発言データに基づいてテレビ電話の参加者を特定する。すなわち、例えば図4に示されるように、BさんからAさんに「XXですよね、Aさん」という発言がなされた場合に、その後、AさんからBさんに「はい、そうです。」という発言(応答)がなされると、発言(応答)をしたテレビ電話の参加者が「Aさん」であるということを特定することができる。同様の処理により、Bさん、Cさん、およびDさんを特定することができる。
Specifically, first, the
図4は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号と参加者名の対応関係を表している。
FIG. 4 shows the correspondence between the telephone number of the
図4のテーブルの第1列目乃至第2列目には、左から順に、「電話番号」および「参加者名」が記載されており、それぞれ、テレビ電話に参加している参加者(ユーザ)の所有する携帯電話機1の電話番号、および、その携帯電話機1の電話番号に対応する参加者名を示している。
In the first column to the second column of the table in FIG. 4, “phone number” and “participant name” are described in order from the left, and each participant (user) participating in the videophone call is described. ) And the participant name corresponding to the telephone number of the
図4のテーブルの第1行目は、「電話番号」が「090−2345−××××」であり、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号が「090−2345−××××」であることを示している。「参加者名」は「A」であり、その携帯電話機1の電話番号(「090−2345−××××」)に対応する参加者名が「A」であることを示している。
In the first row of the table of FIG. 4, the “phone number” is “090-2345-xxx”, and the phone number of the
図4のテーブルの第2行目は、「電話番号」が「090−7523−××××」であり、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号が「090−7523−××××」であることを示している。「参加者名」は「B」であり、その携帯電話機1の電話番号(「090−7523−××××」)に対応する参加者名が「B」であることを示している。
In the second row of the table of FIG. 4, the “phone number” is “090-7523-xxx”, and the phone number of the
なお、図4のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。 Note that the same applies to the third to fourth rows of the table of FIG.
次に、解析機能42は、取得されたテレビ電話の参加者の発言データに含まれる制御情報(例えば、携帯電話機1の電話番号など)に基づいて、テレビ電話の参加者のうち、現在の話者を特定する。例えばテレビ電話の参加者のうち、現在の話者がAさん(電話番号が「090−2345−××××」の携帯電話機1を所有するユーザ)である場合、テレビ電話の参加者の発言データに含まれる制御情報(「090−2345−××××」の携帯電話機1の電話番号)に基づいて、現在の話者がAさんであると特定される。
Next, the
図5は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号、参加者名、および発言中である話者の対応関係を表している。なお、図5のテーブルの第1列目および第2列目の「電話番号」および「参加者名」は、図4のテーブルの第1列目および第2列目の「電話番号」および「参加者名」と同様であり、その説明は繰り返しになるので省略する。
FIG. 5 shows the correspondence between the telephone number of the
図5のテーブルの第3列目には、「発言中」が記載されており、現在の発言中である話者であるか否かを示している。 In the third column of the table of FIG. 5, “speaking” is described, indicating whether or not the speaker is currently speaking.
図5のテーブルの第1行目の場合、「発言中」は「○」であり、参加者名「A」であるユーザが現在の発言中である話者であることを示している。 In the case of the first row of the table of FIG. 5, “in speech” is “◯”, indicating that the user with the participant name “A” is the speaker who is currently speaking.
図5のテーブルの第2行目の場合、「発言中」は「―」であり、参加者名「B」であるユーザが現在の発言中である話者ではないことを示している。 In the case of the second row of the table of FIG. 5, “speaking” is “−”, indicating that the user with the participant name “B” is not the speaker currently speaking.
なお、図5のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。 Note that the same applies to the third to fourth rows of the table of FIG.
勿論、テレビ電話の参加者のうち、現在の話者が複数(例えば、2人など)存在する場合、テレビ電話の参加者の発言データに含まれる制御情報に基づいて、複数の参加者が現在の話者として特定される。 Of course, if there are multiple (for example, two) current speakers among the participants of the videophone, the plurality of participants are currently selected based on the control information included in the speech data of the participants of the videophone. Identified as a speaker.
さらに、解析機能42は、取得されたテレビ電話の参加者の発言データに基づいて、予め設定された所定の時間内での、4人の参加者A乃至Dの発言回数、キーワードの発言回数、名前を呼ばれる回数、および返事(相槌を含む)をした回数などを解析する。これにより、話者以外であっても、例えば発言回数、キーワードの発言回数、および名前を呼ばれる回数が多ければ会話の中心人物(または会話の中心人物に近い人)と認識することができるし、また、返事をした回数が多ければ会話の中で相手役になっていると認識することができる。
Further, the
なお、キーワードは、テレビ電話による会話の内容で繰り返し使用される単語をキーワードとするようにしてもよいし、ユーザの好みに応じて、予め設定するようにしてもよい。 The keyword may be a word that is repeatedly used in the content of a videophone conversation, or may be set in advance according to the user's preference.
図6は、テレビ電話に参加しているユーザの所有する携帯電話機1の電話番号、参加者名、発言中である話者、発言回数、キーワードの発言回数、名前を呼ばれる回数、および返事をした回数の対応関係を表している。なお、図6のテーブルの第1列目乃至第3列目の「電話番号」、「参加者名」、および「発言中」は、図5のテーブルの第1列目乃至第3列目の「電話番号」、「参加者名」、および「発言中」と同様であり、その説明は繰り返しになるので省略する。
FIG. 6 shows the telephone number of the
図6のテーブルの第4列目乃至8列目には、左から順に、「発言回数」、「キーワードの発言回数」、「名前を呼ばれる回数」、および「返事をした回数」が記載されており、それぞれ、テレビ電話の参加者が会話中に発言した回数、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数、他の参加者から名前が呼ばれた回数、および、他の参加者に対して返事をした回数を示している。 In the fourth column to the eighth column of the table of FIG. 6, “the number of utterances”, “the number of utterances of the keyword”, “the number of times the name is called”, and “the number of replies” are described in order from the left. The number of times a videophone participant speaks during a conversation, the number of times a keyword related to a certain theme when making a videophone call, the number of times a name is called by another participant, and other participation The number of times the person has been answered.
図6のテーブルの第1行目の場合、「発言回数」は「7」であり、テレビ電話の参加者(参加者A)が会話中に発言した回数が「7」であることを示している。「キーワードの発言回数」は「3」であり、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数が「3」であることを示している。「名前を呼ばれる回数」は「6」であり、他の参加者から名前(「Aさん」という名前)が呼ばれた回数が「6」であることを示している。「返事をした回数」は「5」であり、他の参加者に対して返事をした回数が「5」であることを示している。 In the case of the first row in the table of FIG. 6, the “speech count” is “7”, and the videophone participant (participant A) speaks during the conversation is “7”. Yes. “Keyword utterance count” is “3”, which indicates that the number of utterances of a keyword related to a predetermined theme when making a videophone call is “3”. “The number of times the name is called” is “6”, which indicates that the number of times the name (named “Mr. A”) is called by another participant is “6”. “Number of replies” is “5”, indicating that the number of replies to other participants is “5”.
図6のテーブルの第2行目の場合、「発言回数」は「1」であり、テレビ電話の参加者(参加者B)が会話中に発言した回数が「1」であることを示している。「キーワードの発言回数」は「1」であり、テレビ電話を行う際の所定のテーマに関するキーワードを発言した回数が「1」であることを示している。「名前を呼ばれる回数」は「2」であり、他の参加者から名前(「Aさん」という名前)が呼ばれた回数が「2」であることを示している。「返事をした回数」は「2」であり、他の参加者に対して返事をした回数が「2」であることを示している。 In the case of the second row of the table of FIG. 6, the “number of utterances” is “1”, and the number of utterances during the conversation by the participant (participant B) of the videophone is “1”. Yes. “Keyword utterance count” is “1”, which indicates that the number of utterances of keywords related to a predetermined theme when making a videophone call is “1”. The “number of times the name is called” is “2”, indicating that the number of times the name (named “Mr. A”) is called by another participant is “2”. “Number of replies” is “2”, indicating that the number of replies to other participants is “2”.
なお、図6のテーブルの第3行目乃至第4行目についても同様であり、その説明は繰り返しになるので省略する。 Note that the same applies to the third to fourth rows of the table of FIG.
ステップS4において、解析機能42は、予め設定された所定の時間ごとに、その解析結果に基づいて、テレビ電話の参加者と発言回数などが対応付けられて登録されている発言履歴データベース43を更新する。
In step S4, the
例えば、A乃至Dの4人でテレビ電話を行った際に、図6のテーブルに示されるような解析結果に基づいて発言履歴データベース43を更新する場合、図7に示されるように発言履歴データベース43が更新される。
For example, when the
なお、例えば参加者A乃至Dの4人でのテレビ電話が開始されると、予め設定された所定の時間ごとに画像配置制御処理が繰り返され、図7に示されるように発言履歴データベース43が更新された後、予め設定された所定の時間が経過すると、例えば図8に示されるように発言履歴データベース43が更新される。
For example, when a videophone call is started with four participants A to D, the image arrangement control process is repeated at a predetermined time set in advance, and the
図8の例の場合、参加者名「D」であるユーザが現在の発言中である話者であり、その他の「発言回数」、「キーワードの発言回数」、「名前を呼ばれる回数」、および「返事をした回数」がそれぞれ更新されている。 In the case of the example in FIG. 8, the user with the participant name “D” is the speaker who is currently speaking, and the other “number of utterances”, “number of keyword utterances”, “number of times the name is called”, and “Number of replies” has been updated.
なお、本発明の実施形態においては、予め設定された所定の時間内に取得された音声信号に基づいて音声認識処理を行い、音声認識された発言(音声)を一括して解析し、その解析結果に基づいて、テレビ電話の参加者と発言回数などが対応付けられて登録されている発言履歴データベース43を予め設定された所定の時間ごとに一括して更新するようにしたが、このような場合に限られず、逐次取得された音声信号に基づいて逐次音声認識処理を行い、音声認識された発言(音声)を逐次解析し、発言履歴データベース43を逐次更新するようにしてもよい。
In the embodiment of the present invention, a speech recognition process is performed based on a speech signal acquired within a predetermined time set in advance, and the speech (speech) that has been speech-recognized is collectively analyzed. On the basis of the result, the
ステップS5において、解析機能42は、更新された発言履歴データベース43を参照して、現在の通話状況に応じた、液晶ディスプレイ13に表示されるテレビ電話の参加者(例えばA乃至D)の画像の配置に関する優先度(すなわち、参加者A乃至Dの4人でのテレビ電話において会話の頻度と重要度などが高いため、液晶ディスプレイ13に表示画面において優先的に表示する度合い)を算出する。
In step S5, the
具体的には、図7の例の場合、参加者Aが現在発言中である話者であることから、例えば参加者A乃至Dの4人のうち、参加者Aについて最も高く優先度が算出され、残りの参加者C、D、Bの順で優先度が低く算出される(参加者Bが最も優先度が低く算出される)。この優先度の算出に際して、発言回数や返事をした回数などを単純に加算するようにしてもよいし、それぞれの回数ごとに重み付けを行った後加算するようにしてもよい。 Specifically, in the case of the example in FIG. 7, since the participant A is a speaker who is currently speaking, for example, among the four participants A to D, the highest priority is calculated for the participant A The priority is calculated in the order of the remaining participants C, D, and B (participant B is calculated with the lowest priority). In calculating the priority, the number of utterances, the number of replies, and the like may be simply added, or may be added after weighting for each number of times.
解析機能42は、算出された優先度に関するデータである優先度データを画像配置制御機能44に供給する。
The
ステップS6において、画像配置制御機能44は、解析機能42から供給された優先度データを取得し、取得された優先度データに基づいて、テレビ電話を行う際に液晶ディスプレイ13に表示される参加者(図7の例の場合、A乃至D)の画像の配置を制御するための画像配置制御信号を生成し、生成された画像配置制御信号をLCD制御部26に供給する。
In step S6, the image
例えば図7の例の場合、参加者Aが現在発言中である話者であることから、参加者A乃至Dの4人のうち、参加者Aについて最も高く優先度が算出され、例えば図9に示されるように、参加者Aの画像がメインX−1に表示される一方、他の参加者B乃至DがメインX−1の下のサブX−2乃至4で表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成される。 For example, in the case of the example of FIG. 7, since the participant A is a speaker who is currently speaking, the highest priority is calculated for the participant A among the four participants A to D. For example, FIG. As shown, the participant A's image is displayed on the main X-1, while the other participants B to D participate in the sub-X-2 to 4 below the main X-1. An image arrangement control signal for controlling the arrangement of the person's image is generated.
LCD制御部26は、画像デコーダ27から供給された複数のデコード後の画像信号を取得し、画像配置制御機能44から供給された画像配置制御信号に基づいて、取得された複数のデコード後の画像信号に基づく参加者(例えばA乃至D)の画像を所望の位置に配置させて液晶ディスプレイ13に表示させる。
The
ステップS7において、液晶ディスプレイ13は、LCD制御部26の制御に従い、図9に示されるように、複数のデコード後の画像信号に基づく参加者(例えばA乃至D)の画像を予め設定された所定の時間ごとに更新して表示する。
In step S7, the
これにより、ユーザは、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)の顔を容易に判別することができ、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)が誰であるかを容易に認識することができる。 Thereby, the user can easily determine the face of the user who is the center of conversation in the videophone (or the user who is speaking), and the user who is the center of conversation in the videophone (or It is possible to easily recognize who the user is speaking).
なお、ステップS6および7において、例えば図7の例の場合、参加者Aが現在発言中である話者であり、参加者Aについて最も高く優先度が算出され、その次に参加者C、D、Bの順で高く優先度が算出されることから、例えば図10に示されるように、参加者Aの画像がメインX−1に表示され、参加者Cの画像がメインX−1の下の少し大きめのサブX−2に表示され、参加者Dの画像がメインX−1の下の少し大きめのサブX−3で表示され、そして、参加者Bの画像がメインX−1の下の少し大きめのサブX−4で表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成されるようにしてもよい。 In steps S6 and S7, for example, in the example of FIG. 7, the participant A is a speaker who is currently speaking, and the highest priority is calculated for the participant A, and then the participants C, D Since the priority is calculated in the order of B and B, for example, as shown in FIG. 10, the image of the participant A is displayed on the main X-1, and the image of the participant C is below the main X-1. Is displayed on the slightly larger sub X-2, the image of the participant D is displayed on the slightly larger sub X-3 below the main X-1, and the image of the participant B is displayed below the main X-1. An image arrangement control signal for controlling the arrangement of the images of the participants may be generated so as to be displayed in the slightly larger sub X-4.
また、例えば10人でテレビ電話を行う場合、参加者Aが他の参加者から呼ばれる回数が多く、参加者Aを中心に会話が成立していると認識されるときには、例えば図11に示されるように、参加者Aの画像がメインX−4に表示され、参加者Aの会話の相手をしていると認識される優先度の高い他の参加者(B乃至G)の画像がサブX−1乃至X−3およびX−5乃至X−7に表示されるように参加者の画像の配置を制御するための画像配置制御信号が生成されるようにしてもよい。 Further, for example, when ten people make a videophone call, when it is recognized that the participant A is called many times by other participants and the conversation is centered on the participant A, for example, FIG. Thus, the image of the participant A is displayed on the main X-4, and the images of the other high-priority participants (B to G) that are recognized as the conversation partner of the participant A are sub-X. Image arrangement control signals for controlling the arrangement of the images of the participants may be generated so as to be displayed on -1 to X-3 and X-5 to X-7.
その後、処理はステップS1に戻り、ステップS1以降の処理が繰り返される。 Thereafter, the process returns to step S1, and the processes after step S1 are repeated.
本発明の実施形態においては、複数の携帯電話機1から取得された音声信号に基づいて音声認識処理を行うとともに、音声認識された発言に関するデータである発言データに基づいて所定の解析を行い、その解析結果に基づいて液晶ディスプレイ13に表示されるテレビ電話の参加者の画像の配置に関する優先度を算出し、算出された優先度に基づいて、液晶ディスプレイ13に表示される参加者の画像の配置を制御するようにしたので、複数のユーザが多地点間でテレビ電話を行う場合において、通話状況に応じて表示部(液晶ディスプレイ13)に表示されるユーザの画像の配置を好適に制御することができる。これにより、携帯電話機1のように表示部の大きさが限られる場合であっても、ユーザは、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)の顔を容易に判別することができ、テレビ電話において会話の中心となっているユーザ(あるいは、発言中のユーザ)が誰であるかを容易に認識することができる。従って、テレビ電話を行う場合における利便性を向上させることができる。
In the embodiment of the present invention, voice recognition processing is performed based on voice signals acquired from a plurality of
なお、「通話状況」とは、複数のユーザにより行われるテレビ電話における種々の状況、例えば現在の発言者が誰であるのか、その発言者の発言回数はどれくらいか、会話の中心人物は誰か、会話の内容はどのような内容であるかなどに関する状況と定義する。 In addition, “call situation” means various situations in videophone calls performed by a plurality of users, for example, who is the current speaker, how many times the speaker speaks, who is the central person in the conversation, The content of the conversation is defined as a situation regarding what kind of content it is.
また、図3を参照して説明した画像配置制御処理においては、予め設定された所定の時間(例えば、5分間など)ごとに、現在の通話状況に応じて、液晶ディスプレイ13に表示される参加者の画像の配置を制御するようにしたが、テレビ電話を行う際の内容や参加者に応じて画像配置制御処理を繰り返す所定の時間を変更するようにしてもよい。
In addition, in the image arrangement control process described with reference to FIG. 3, the participation displayed on the
なお、本発明は、携帯電話機1以外にも、PDA(Personal Digital Assistant)、パーソナルコンピュータ、その他の情報処理装置にも適用することができる。
The present invention can be applied to a PDA (Personal Digital Assistant), a personal computer, and other information processing apparatuses in addition to the
また、本発明の実施形態において説明した一連の処理は、ソフトウェアにより実行させることもできるが、ハードウェアにより実行させることもできる。 The series of processes described in the embodiments of the present invention can be executed by software, but can also be executed by hardware.
さらに、本発明の実施形態では、フローチャートのステップは、記載された順序に沿って時系列的に行われる処理の例を示したが、必ずしも時系列的に処理されなくとも、並列的あるいは個別実行される処理をも含むものである。 Furthermore, in the embodiment of the present invention, the steps of the flowchart show an example of processing performed in time series in the order described, but parallel or individual execution is not necessarily performed in time series. The processing to be performed is also included.
1…携帯電話機、11…操作キー、12…CCDカメラ、13…液晶ディスプレイ、14…サブディスプレイ、15…マイクロフォン、16…スピーカ、21…主制御部、22…電源回路、23…操作入力制御部、24…画像エンコーダ、25…カメラI/F部、26…LCD制御部、27…画像デコーダ、28…多重分離部、29…変復調回路部、30…音声コーデック、31…メインバス、32…同期バス、33…送受信回路部、34…アンテナ、35…記録再生部、36…メモリカード、37…記憶部、38…音楽制御部、41…音声認識機能、42…解析機能、43…発言履歴データベース、44…画像配置制御機能。
DESCRIPTION OF
Claims (4)
複数の前記情報処理装置から画像信号および音声信号をそれぞれ取得し、取得された前記音声信号に基づいて音声認識処理を行う音声認識手段と、
複数の前記画像信号に基づく画像を表示する表示手段と、
前記音声認識手段により音声認識された発言に基づいて、名前を呼ばれる回数の解析を行い、その解析結果に基づいて、前記表示手段により表示される複数の前記画像信号に基づく画像の配置に関する優先度を算出する解析手段と、
前記解析手段により算出された前記優先度に応じて、前記表示手段により表示される複数の前記画像信号に基づく画像の配置を制御する制御手段とを備えることを特徴とする情報処理装置。 In an information processing apparatus that performs videophone calls between multiple points via wireless communication,
Voice recognition means for acquiring image signals and voice signals from the plurality of information processing apparatuses, and performing voice recognition processing based on the acquired voice signals;
Display means for displaying an image based on a plurality of the image signals;
Based on the speech voice-recognized by the voice recognition means, the number of times the name is called is analyzed, and based on the result of the analysis, the priority regarding the arrangement of the images based on the plurality of image signals displayed by the display means An analysis means for calculating
An information processing apparatus comprising: control means for controlling arrangement of images based on the plurality of image signals displayed by the display means according to the priority calculated by the analysis means.
に記載の情報処理装置。 Wherein the by the analysis result analyzing means, say the number of times, claim, characterized in that contained speech number of keywords, at least one of the number of times of the return that is 1
The information processing apparatus described in 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219778A JP4957119B2 (en) | 2006-08-11 | 2006-08-11 | Information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006219778A JP4957119B2 (en) | 2006-08-11 | 2006-08-11 | Information processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008048030A JP2008048030A (en) | 2008-02-28 |
JP4957119B2 true JP4957119B2 (en) | 2012-06-20 |
Family
ID=39181370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006219778A Expired - Fee Related JP4957119B2 (en) | 2006-08-11 | 2006-08-11 | Information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4957119B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101462930B1 (en) * | 2008-04-30 | 2014-11-19 | 엘지전자 주식회사 | Mobile terminal and its video communication control method |
KR101626307B1 (en) * | 2010-01-05 | 2016-06-01 | 엘지전자 주식회사 | Mobile terminal and operation control method thereof |
JP2013070171A (en) * | 2011-09-21 | 2013-04-18 | Sanyo Electric Co Ltd | Television telephone apparatus |
US9210379B2 (en) * | 2014-02-27 | 2015-12-08 | Google Inc. | Displaying a presenter during a video conference |
JP6651989B2 (en) * | 2015-08-03 | 2020-02-19 | 株式会社リコー | Video processing apparatus, video processing method, and video processing system |
JP6534968B2 (en) * | 2016-06-21 | 2019-06-26 | 日本電信電話株式会社 | Multipoint connection device, video distribution system, multipoint connection method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09149396A (en) * | 1995-11-27 | 1997-06-06 | Fujitsu Ltd | Multi-spot television conference system |
JP2001313915A (en) * | 2000-04-28 | 2001-11-09 | Matsushita Electric Ind Co Ltd | Video conference equipment |
JP2003299051A (en) * | 2002-03-29 | 2003-10-17 | Matsushita Electric Ind Co Ltd | Information output unit and information outputting method |
-
2006
- 2006-08-11 JP JP2006219778A patent/JP4957119B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008048030A (en) | 2008-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100048235A1 (en) | Method and Device for Data Capture for Push Over Cellular | |
US9361881B2 (en) | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition | |
AU2003266592B2 (en) | Video telephone interpretation system and video telephone interpretation method | |
JP4957119B2 (en) | Information processing device | |
AU2003264434B2 (en) | Sign language interpretation system and sign language interpretation method | |
KR20070040850A (en) | System and method for optimizing audio and video data transmission in a wireless system | |
KR102287704B1 (en) | Terminal, Operation Method Thereof and Computer Readable Recording Medium | |
JPWO2018164165A1 (en) | Communication system, API server used in communication system, headset, and portable communication terminal | |
CN110198375A (en) | The way of recording, terminal and computer readable storage medium | |
US7973818B2 (en) | Mixing background effects with real communication data to enhance personal communications | |
JP2006197116A (en) | Communication method and communication system | |
JP2011253389A (en) | Terminal and reply information creation program for pseudo conversation | |
KR20110120338A (en) | Electronic device, storage medium storing information processing program and information processing method | |
KR101396832B1 (en) | A Method for performing a video conference in a portable terminal and an apparatus thereof | |
US20090170504A1 (en) | Communication terminal, communication method, and communication program | |
CN101009885A (en) | Startup method for call and answer | |
US20070282613A1 (en) | Audio buddy lists for speech communication | |
US8254889B2 (en) | Mobile device panic function with recordability | |
JP2007201906A (en) | Mobile terminal device and image display method | |
US8917833B1 (en) | System and method for non-privacy invasive conversation information recording implemented in a mobile phone device | |
JP2003283672A (en) | Conference call system | |
JP2008067078A (en) | Portable terminal apparatus | |
JP5136823B2 (en) | PoC system with fixed message function, communication method, communication program, terminal, PoC server | |
JP2007259427A (en) | Mobile terminal unit | |
KR101334015B1 (en) | Portable terminal having function of classifying speaker during multilateral image communication and method for classifying speaker during multilateral image communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090702 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
LAPS | Cancellation because of no payment of annual fees |