JP2006236149A - コミュニケーション装置 - Google Patents

コミュニケーション装置 Download PDF

Info

Publication number
JP2006236149A
JP2006236149A JP2005052041A JP2005052041A JP2006236149A JP 2006236149 A JP2006236149 A JP 2006236149A JP 2005052041 A JP2005052041 A JP 2005052041A JP 2005052041 A JP2005052041 A JP 2005052041A JP 2006236149 A JP2006236149 A JP 2006236149A
Authority
JP
Japan
Prior art keywords
data
voice
voice data
face
partner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005052041A
Other languages
English (en)
Other versions
JP4069207B2 (ja
Inventor
Kazushi Nishimoto
一志 西本
Kanayo Ogura
加奈代 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Advanced Institute of Science and Technology
Original Assignee
Japan Advanced Institute of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Advanced Institute of Science and Technology filed Critical Japan Advanced Institute of Science and Technology
Priority to JP2005052041A priority Critical patent/JP4069207B2/ja
Publication of JP2006236149A publication Critical patent/JP2006236149A/ja
Application granted granted Critical
Publication of JP4069207B2 publication Critical patent/JP4069207B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 音声によるコミュニケーションを支援するものであり、音声データ間の相互関係を把握可能とすることによりマルチスレッド対話が実現可能なコミュニケーション装置を提供する。
【解決手段】 ユーザのクライアント端末に対して受信した音声データを提供することにより音声によるコミュニケーションを支援するコミュニケーション装置において、受信した音声データに関するログデータに音声データ間の関連を示す情報を付加する手段を備える。
【選択図】 図1

Description

本発明は、複数ユーザのクライアント端末に対して受信した音声データを提供することにより音声によるコミュニケーションを支援するコミュニケーション装置に関する。
インターネット環境が普及した現在、電子メールや電子掲示板、チャットのような非対面型のテキストをベースとしたコミュニケーションが日常的に利用されている。中でもテキストチャットは逐次やりとりをするという点で対面対話に通じる点がある。また一方で、「マルチスレッド対話」が容易に可能であるという対面対話にはない利点を持っている。ここで、マルチスレッド対話とは、会話空間で同時並行的に複数の話題についての対話が進行し、しかもある一人の参加者が同時に複数の話題に参加しているような対話である。対面対話でも、多人数が集まれば、同じ場で複数話題が同時に展開されることはあるが、これは話題に基づく集団の単なる分割にすぎないため、マルチスレッド対話とは見なさない。
日常の対面対話では、一定時間は、対話参加者全員が単一の話題を共有し、しかもその話題についての発話を行う必要があり、話者は一人だけであることが求められる(同期性の制約)。そのため、対面対話は非効率的に進行していると言える。また、この結果、今交わされている話題とは別のことを思いついても、すぐに発話することができず、思いついた内容そのものを忘れてしまうことがしばしば起こる。
また、対話参加者の位置関係の影響の有無という点でもテキストチャットと対面対話では大きな違いがある。対面対話の場合、特に会議や会食のような多人数で1つの場を共有する状況では、最初についた座席の位置関係によって会話を交わしやすい人、そうでない人の区分が決定する(近接性の制約)。自分の座席から離れている人と話をするためには、座席を移動するか、大声で相手に呼びかける必要がある。前者の場合は、会話そのものを中断させ、後者の場合は、呼びかけた相手の会話を遮ることになり、どちらの場合も、会話進行の大きな妨げになる。
これに対して、テキストチャット対話では、このような制約が無いため,思いついたことや過去の任意の発話に関連する内容をいつでも発言順序を気にせず発言可能となる。つまり、マルチスレッド対話を行うことが可能となるため、対話が効率化される。また、テキストチャット対話では、発言履歴が会話空間であり、発言履歴に表示される参加者個々のログイン名が参加者の分身であると言える。ここでは単に誰が参加しているのかという存在情報のみが意味を持ち、参加者の位置関係という概念そのものが存在しない。そのため、対面対話とは異なり参加者の位置関係を気にせずに発言することが可能である。ゆえに、たとえば企画会議などにおいてアイディアをもれなく収集するような際に非常に有効である。
しかし、テキスト対話では文字入力のわずらわしさのために、思うような発言を十分に行うことが難しい。このため、音声対話によりコミュニケーションを支援する装置、特に、音声対話によるマルチスレッド対話を実現可能な装置が求められる。
音声データによりコミュニケーションを支援する装置として、下記非特許文献1には、空間的位置関係にかかわらず、音声認識を用いて同一スレッドに属する話者の発話音声がより明確に聞こえる等の自動的音響効果を付加した同時的会話環境である“The Mad Hatter’s Cocktail Party”が開示されている。このシステムでは,音声認識を用いた同一スレッドの自動判定を行っているため、認識精度の問題が生じてしまい確実性が低くなる。
P.M.Aoki, M. Romaine, M.H. Szymanski, J.D. Thornton, D. Wilson, and A. Woodruff:The Mad Hatter's Cocktail Party: A Social Mobile Audio Space SupportingMultiple Conversations,Proc. ACM SIGCHI Conf. onHuman Factors in Computing Systems, pp.425-432,2003.
ところが、音声を用いた対話(対面対話、電話、音声チャット)では、今のところマルチスレッド対話は実現不可能ないし非常に困難である。その最大の理由は、一般に人は複数の発言を同時に聞いてそれらを記憶し、理解することができないことにある。
対面でマルチスレッド対話を行なうためには、我々は、一度に複数の発言を聞き分け、記憶し、理解することが必要とされる。しかし、これは人間の認知能力の範囲内では困難である。したがって、マルチスレッド対話が行なわれることはめったにない。一方テキストチャットでは、誰が、いつ、何を発言したかという発言にかかわるデータが保存され、それが発言履歴として表示され、参加者は自由に履歴を閲覧できる。これが人間の短期記憶を補う役割を果たしているために同期性の制約が解消され、また発言履歴が対話の場として機能するために近接性の制約も解消される。この結果、テキストチャットではマルチスレッド対話が可能となっていると思われる。つまりマルチスレッド対話の実現には,発言履歴が不可欠であると考えられる。
音声チャットシステムでは、個々の発言が音声データとして計算機上に記録され、いつ誰が発言したかを示すログリストも表示されるために、何度でも必要に応じて聞きなおすことができる。つまり音声データやログの保存によって人の短期記憶が補助されているため、対面対話や電話よりはマルチスレッド対話を実現しやすい音声コミュニケーション・メディアとなっている。
しかし、ログ上では個々の発言(音声データ)の関連性が見えず、音を再生して聞いてみないとどの発言(音声データ)とどの発言(音声データ)とがつながっているのかがわからない。このため、既存の音声チャットシステムでは依然としてマルチスレッド対話を実現することが難しい。
本発明は、このような実情に鑑みてなされたものであり、音声によるコミュニケーションを支援するものであり、音声データ間の相互関係を把握可能とすることによりマルチスレッド対話が実現可能なコミュニケーション装置を提供することを目的とする。
発明者等は、従来のテキストチャットシステムを用いた場合に、マルチスレッド状況を維持するために、どのような手段がとられているか、その傾向を調査した。その結果を下記に示す。
チャット対話収録で得たデータについて予備分析を行なった結果、発言履歴の参照しにくさがある中で話の流れを追い、できる限りスムーズに対話を進めるために貢献していると考えられる3種類の表現が存在することがわかった。
1)誰に向けた発言であるかを明記する表現(固有名詞を含む)(図6では“>人”)
例)まだまだ今年はこれからですよ。>Bさん
2)どの話に関連した発言をしているかを明記する表現(図6では“>単語”)
例)意見わかれるとこみたいです>マロンクリーム
3)どの発言に対して発言をしているかを明記する表現(この場合はコピー&ペーストを行なっていると推測される場合)(図6では“>コピぺ”)
例)A:栗と生クリームって合わないと思いません?>ALL>とても合うと思うよ。マロンクリームってめっちゃうまいやん!
(「栗と生クリームって合わないと思いません?>ALL」がコピー&ペーストされた部分。)
これら3つの表現が対話中に出現した割合のグラフを図6に示す。さらに、発言間の意味的つながりの判定作業を行なった上で、3つの表現を発言間のインターバル(発言間距離)ごとに分類した出現頻度の結果を示すグラフを図7に示す。なお、分析対象としたデータは、2人対話が3対話311発言分、3人対話が5対話559発言分、計870発言分の発言履歴データであり、全てチャット経験者を被験者としたデータである。
図6を見ると、3つの表現をあわせると分析対象発言の約1/4の割合で、話をスムースに進めるためにいずれかの表現を用いていることがわかる。また、図7を見ると、隣接する発言同士が異なる話題である場合(発言間距離2以上の場合)にどの表現も出現頻度が増加している。このことから、より複雑な状況になればなるほど、話の流れを追いやすくするために、誰に対する発言なのか、どの話、どの発言に関する発言なのかなど、発言間の関連を明記して対応していると推測できる。
以上の結果から、発明者等は、本発明のコミュニケーション装置を開発した。本発明のコミュニケーション装置は、ユーザのクライアント端末に対して受信した音声データを提供することにより音声によるコミュニケーションを支援するコミュニケーション装置において、受信した音声データに関するログデータに音声データ間の関連を示す情報を付加する手段を備えることを特徴とする。この本発明によれば、ログデータを参照することにより、音声データの相互関係を把握することができる。
前記音声データ間の関連を示す情報には、発言相手を特定する情報が含まれていることを特徴とする。この発明によれば、ログデータを参照することにより、音声データごとに発言者や発言相手を知ることができ、音声データの相互関係を把握することができる。
前記音声データ間の関連を示す情報には、先行する音声データを特定する情報が含まれていることを特徴とする。この発明によれば、ログデータを参照することにより、その音声データがいずれの音声データに対する発言であるかを把握することができる。
前記音声データ間の関連を示す情報を付加する手段は、発言相手が指定されると、その発言相手を特定する情報をログデータに付加することを特徴とする。この発明によれば、発言相手となるユーザを指定するだけで、ログデータに発言相手の情報を付与することができる。
前記音声データ間の関連を示す情報を付加する手段は、先行する音声データの一覧から音声データが選択されると、その選択された音声データを特定する情報をログデータに付加することを特徴とする。この発明によれば、先行する音声データの一覧から音声データを選択するだけで、そのログデータに対応する音声データが先行するどの音声データを受けてなされたものかの情報を付加することができる。
信号を発信する発信手段と、当該発信手段から発信された信号を受信する受信手段とを備え、発言者のクライアント端末から音声データを受信し、当該発信手段からの信号を受信した受信手段に接続される発言相手のクライアント端末から当該発言相手の識別子を受信し、当該音声データのログデータに当該発言相手の識別子を付与することを特徴とする。この発明によれば、発言者がクライアント端末から音声データをコミュニケーション装置に送信し、自己の発信手段を用いて発言相手の受信手段に信号を送信すると、その信号を受け取った受信手段に接続される発言相手のクライアント端末から発言相手の識別子がコミュニケーション装置に送信される。コミュニケーション装置は、発言者のクライアント端末から受信した音声データのログデータに、発言相手のクライアント端末から受信した発言相手の識別子を付加する。発言者は、発言相手を指し示すように、送信手段を用いて発言相手の受信手段に信号を送る動作をするだけで、音声データのログデータに発言相手の情報を付加することができる。
詳しくは、信号を発信する発信手段と、当該発信手段から発信された信号を受信する受信手段とを備え、発言者のクライアント端末から音声データと当該発言者の識別子を受信し、発信手段から発信された識別子を受信した受信手段が接続される発言相手のクライアント端末から、当該受信した識別子と発言相手の識別子とを受信すると、当該発言者の識別子と受信した識別子とが一致する場合は、当該受信した音声データに関するログデータに当該発言相手の識別子を付加することを特徴とする。
また、本発明のコミュニケーション装置は、テキストデータが入力可能であり、入力されたテキストデータは、前記ログデータに付加されることを特徴とする。この発明によれば、音声データのみならず、テキストデータによってもコミュニケーションが図られる。たとえば、具体的かつ詳細な内容は音声で入力し、その内容のタイトルやキーワードなどだけを文字として入力するようなことが可能となり、個々の音声データ間の関係を意味的に明示することが可能となる。また、音声では入力できない「顔文字」のようなものも音声に付加して入力可能となる。
本発明のコミュニケーション装置によれば、コミュニケーションに参加するユーザは、ログデータを参照することにより、音声データの相互関係を把握することができるため、音声によるマルチスレッド型の対話が可能となる。とくに、音声データ間の関連を示す情報として、発言者や発言相手を特定する情報が含まれている場合は、個々の音声データごとに、誰の発言であるか、誰に対しての発言であるか、を把握することができる。また、音声データ間の関連を示す情報として、先行する音声データを特定する情報が含まれる場合は、個々の音声データが、先行するいずれの音声データを受けた発言であるかを把握することができる。また、これらの両方が含まれる場合は、音声データ間の相互関係を更に詳しく把握することができる。
ユーザは、ユーザ一覧から発言相手を選択するだけで、その音声データの発言相手を指定でき、また、先行する音声データの一覧から音声データを選択するだけで、その音声データがいずれの音声データを受けて発言されたものかの情報を付加することができるため、音声データ間の関連付けを簡単に行うことができ、マルチスレッド型の対話が滞りなく円滑に進行される。
さらに、信号を発信する発信手段と、その信号を受信する受信手段とを用いることにより、発言者が発言相手を指し示すような感覚で、音声データに関するログデータに発言相手を特定する情報を付加することができる。このシステムを対面型の対話に導入すれば、マルチスレッド型の対話が可能となるだけでなく、全く新しくしかも効率的な対話スタイルを確立することが可能となる。これは会議などにおいて非常に有効であると期待できる。また、発信手段を発言相手側に向ける動作により発言相手を見ることとなり、ログデータを見続けるような状況が回避され、対話がより自然に進行する。
さらに、ログデータに、入力されたテキストデータが付加されると、ログデータを参照することによって、音声データ間の意味的なつながりを把握することが可能となる。これによってマルチスレッド対話をより効率的に行うことができる。また、従来のテキスト・音声混合チャットシステムでは、音声の再生手段を持たない参加者は音声データの内容を全く理解できなかった。本システムによれば、付加されたタイトルやキーワードなどのテキストデータで、おおまかながら音声データの内容を理解可能となる。
(第1の実施の形態)
以下、本発明に係るコミュニケーション装置Sについて図面を参照しながら説明する。図1は、本実施の形態のコミュニケーション装置Sを説明する説明図である。コミュニケーション装置Sは、コンピュータシステムであるサーバにより実現され、インターネットなどのネットワークを介して同じくコンピュータシステムである複数のクライアント端末C1,,,Cxと接続可能となっている。
コミュニケーション装置Sは、例えば、音声チャットシステムのように、ユーザのクライアント端末C1,,,Cxから音声データを受信し、その受信した音声データを提供することにより、音声によるコミュニケーションを支援するシステムである。
クライアント端末C1,,,Cxは、音声によるコミュニケーション参加のために、ネットワークを介してコミュニケーション装置Sにアクセス可能となっている。クライアント端末C1,,,Cxは、音声を録音する録音機能を備え、録音された音声は、音声データとしてネットワークを介してコミュニケーション装置Sにアップロード可能となっている。
コミュニケーション装置Sは、クライアント端末C1,,,Cxからの要求に応じて、各クライアント端末C1,,,Cxにユーザインタフェース画面を表示する。図2は、コミュニケーション装置Sがクライアント端末C1,,,Cxに提供するユーザインタフェース画面を示す図である。
クライアント端末C1,,,Cxにおいて、参加者の識別子であるハンドル名を入力する欄1にハンドル名が入力され、ログインのボタン2が押下されると、コミュニケーション装置Sは、その信号を受信し、ユーザインタフェース画面のユーザ一覧の欄3にログイン状態にあるユーザの識別子(ここではハンドル名)と、履歴一覧の欄4に蓄積記憶されているログデータを表示する。
コミュニケーション装置Sは、ユーザインタフェース画面と同時に提供するプログラムにより、クライアント端末C1,,,Cxに下記の機能を実現させる。
(録音機能)
コミュニケーション装置Sは、クライアント端末C1,,,Cxに、音声を録音して音声データを生成させ、その音声データをコミュニケーション装置Sにアップロードさせる録音機能を実現させる。実現させる録音機能としては三種類有り、(1)通常録音機能、(2)先行音声データ指定録音機能、(3)発言相手指定録音機能、を備える。
(通常録音機能)
クライアント端末C1,,,Cxは、ユーザインタフェース画面の録音関連ボタン群5のうち「録音」ボタン6の押下を検知すると、図3に示されるような「発言完了」ボタンを、ユーザインタフェース画面をすべて覆い隠す形で画面上に表示し、録音を開始する。クライアント端末C1,,,Cxは「発言完了」ボタンの押下を検知すると録音を終了し、生成された音声データ、及び、その音声データの発言者の識別子(ここではハンドル名)をコミュニケーション装置Sにアップロードする。ここで、発言者とは、音声データの元となる発言をした者であり、音声データを生成してアップロードする者のことである。
図4は、ユーザインタフェース画面の履歴一覧の欄4のログデータを抽出して示す図である。コミュニケーション装置Sは、音声データを特定する識別子a1,発言者を特定する識別子(ハンドル名)a2,発言時刻となるアップロード時刻a3を、受信した音声データに関する基本ログデータとし、受信した音声データと基本ログデータとを関連付けて蓄積記憶する。つぎに、コミュニケーション装置Sは、各クライアント端末C1,,,Cxに対してその基本ログデータを提供し、再表示させたユーザインタフェース画面の履歴一覧の欄4に、生成された基本ログデータを追加表示させる。
(先行音声データ指定録音機能1)
また、クライアント端末C1,,,Cxは、生成した音声データと、先行する音声データとを対応付けてアップロードする機能を備える。クライアント端末C1,,,Cxは、上記通常録音機能により音声の録音を完了した後に、ユーザインタフェース画面の履歴一覧の欄4から、先行する音声データが選択されるとともに、「先行発言指定」ボタン7が押下されると、選択された先行する音声データを特定する識別子a1を、音声データや発言者の識別子(ハンドル名)とともにコミュニケーション装置Sにアップロードする。なお、履歴一覧は音声データの履歴を示すものであり、先行する音声データの一覧の役割も同時に果たす。
(先行音声データ指定録音機能2)
また、別の先行音声データ指定録音機能として、履歴一覧の欄4から先行する音声データが選択された後に、「発言への返信録音」ボタン8が押下されると、「発言完了」ボタンを表示し、発言の録音を開始する。「発言完了」ボタンが押下されると録音を終了し、生成された音声データと、発言者の識別子(ハンドル名)と、選択された音声データを特定する識別子1aとを、コミュニケーション装置Sにアップロードする。
コミュニケーション装置Sは、上記二通りのいずれかの先行音声データ指定録音機能により生成された音声データ、発言者の識別子(ハンドル名)、及び、選択された先行する音声データを特定する識別子a1を受信すると、生成された音声データと基本ログデータに、選択された先行する音声データを特定する識別子a1を付加し、互いに関連付けて蓄積記憶する。その後、各クライアント端末C1,,,Cxに対して、基本ログデータ、及び、選択された先行する音声データの識別子a1を提供する。クライアント端末C1,,,Cxの履歴一覧には、基本ログデータが表示されるとともに、基本ログデータの文末に、例えば「>>[2]」のように、先行する音声データを特定する識別子a4が付与される。
(発言相手指定録音機能1)
また、クライアント端末C1,,,Cxは、発言相手を指定して録音を行う発言相手指定録音機能を備える。この機能としては3パターン存在する。第1のパターンとして、上記通常録音機能で発言を録音し、ユーザ一覧の欄3から発言相手が選択されるとともに「発言相手指定」ボタン9の押下を検知すると、確認のために「発言相手指定」ボタン9を選択した発言相手の識別子(ハンドル名)に変更する。その変更されたボタン9の押下を検知すると、生成された音声データと発言相手を特定する識別子(ハンドル名)とをコミュニケーション装置にアップロードする。例えば、通常録音完了後に、ユーザ一覧の欄3から「Bob」が選択されたと仮定する。そうすると、「発言相手指定」ボタン9を「>Bob」という表示のボタンに変更し、そのボタン9の押下を検知すると、「Bob」を指定した発言が完了することになる。
(発言相手指定録音機能2)
また、第2のパターンとして、クライアント端末C1,,,Cxは、ユーザ一覧の欄3から発言相手となるユーザが選択された後に、「相手指定録音」ボタン10の押下を検知すると、「発言完了」ボタンを表示画面に表示し、録音を開始する。「発言完了」ボタンの押下を検知すると、録音を終了し、生成された音声データと、発言者の識別子(ハンドル名)と、選択された発言相手の識別子(ハンドル名)をコミュニケーション装置Sにアップロードする。
(発言相手指定録音機能3)
また、第3のパターンでは、履歴一覧から選んだ音声データの発言者を発言相手として指定する。クライアント端末C1,,,Cxは、履歴一覧の欄4から音声データが選択されるとともに、「発言者への返答録音」ボタン11の押下を検知すると、「発言完了」ボタンを表示画面に表示し、録音を開始する。「発言完了」ボタンの押下を検知すると、録音を終了し、生成された音声データと、発言者の識別子(ハンドル名)と、選択された音声データの発言者の識別子(ハンドル名)とをコミュニケーション装置Sにアップロードする。選択された音声データの発言者の識別子は、発言相手の識別子として取り扱われる。
コミュニケーション装置Sは、上記機能により受信した音声データと、基本ログデータと、選択された発言相手の識別子(発言相手指定録音機能3においては「選択された音声データの発言者の識別子」)とを蓄積記憶し、各クライアント端末C1,,,Cxに対してこれらの情報を提供する。クライアント端末C1,,,Cxの履歴一覧の欄4には、基本ログデータが表示されるとともに、発言相手として選択したユーザの識別子(ハンドル名)a5が付加される。たとえば、クライアント端末C1,,,Cxに表示される履歴一覧の欄4には,基本ログデータの文末に「>Bob」のよう発言相手の識別子(ハンドル名)が付与される.なお,自己が他のユーザから発言相手として指定を受けた場合には,行頭に「>>>You:」と表示される.
また、以上のそれぞれの機能は組み合わせても動作可能である。たとえば、基本ログデータに、「>Bob>>[4]」のように、発言相手の指定と先行音声データの指定の両方を付与する機能も備える。さらに、発言相手指定録音機能は、「>Susie>Andy」のように複数の発言相手の指定を行なう機能も備える。
(再生機能)
コミュニケーション装置Sは、クライアント端末C1,,,Cxに、受信した音声データを再生する再生機能を実現させる。クライアント端末C1,,,Cxは、履歴一覧の欄4からログデータが選択されるとともに、「これ→を聞く」ボタン12が押下されると、その選択されたログデータに対応する音声データをコミュニケーション装置Sに要求する。コミュニケーション装置Sは、クライアント端末C1,,,Cxから、音声データの送信要求を受け取ると、要求を受けた音声データをクライアント端末C1,,,Cxに提供する。クライアント端末C1,,,Cxは、受信した音声データを再生する。
また、クライアント端末C1,,,C3xは、履歴一覧の欄4でのダブルクリックを検知した場合にも、そのダブルクリックされたログデータに対応する音声データをコミュニケーション装置Sに要求する。コミュニケーション装置Sは、要求された音声データをクライアント端末C1,,,Cxに提供し、それを受信したクライアント端末C1,,,Cxは音声データを再生する。これによれば、ダブルクリックのみで音声データを再生できるため操作性が良い。
また、再生機能の付加機能として、「次を聞く」ボタン13の押下を検知すると、ログデータの配列順に、直前に再生した音声データの次の音声データをコミュニケーション装置Sに要求する。コミュニケーション装置Sは、要求された音声データをクライアント端末C1,,,Cxに提供し、それを受信したクライアント端末C1,,,Cxは音声データを再生する。この機能を使うと、履歴一覧のログデータの配列順(時系列順)で、音声データを聞くことができる。
また、再生機能の付加機能として、「自分宛を聞く」ボタン14の押下を検知すると、それを操作したユーザの識別子(ハンドル名)が発言相手として付与されているログデータに対応する音声データのみをコミュニケーション装置Sに要求する。コミュニケーション装置Sはその音声データのみをクライアント端末C1,,,Cxに提供し、クライアント端末C1,,,Cxはそれを再生する。自分宛が複数ある場合は、履歴一覧の欄4で選択されている音声データよりも後の音声データ(後にアップロードされた音声データ)で、かつその選択されている音声データにもっとも時間的に近い音声データを再生する。時系列に順次連続して再生するようにしても良い。この機能を使うと、履歴一覧のなかから自分宛の音声データのみを聞くことができる。
また、再生機能の付加機能として、「先行発言を聞く」ボタン15の押下を検知すると、履歴一覧の欄4から指定されているログデータに付加されている先行する音声データをコミュニケーション装置Sに要求する。コミュニケーション装置Sはその音声データのみをクライアント端末C1,,,Cxに提供し、クライアント端末C1,,,Cxはそれを再生する。この機能を使うと、関連する先行の音声データを遡って聞くことができる。
(第2の実施の形態)
図5(a)(b)は、本実施の形態のコミュニケーション装置Sを説明する説明図である。本実施の形態のコミュニケーション装置Sは、主に、会議などの対面方式の対話の場面において使用され、対面対話を行ないながらマルチスレッド対話を実現するものである。コミュニケーション装置Sは、上記実施の形態のコミュニケーション装置Sに、発言者が発言相手を指し示すような動作を行なうことにより、発言相手を指定することができる機能を備える。
コミュニケーション装置Sは、信号を発信する発信手段b1と、発信手段から発信された信号を受信する受信手段b2とを備える。発信手段b1は、先端に赤外線発光ダイオード(LED)が内蔵されており、スイッチを押下することにより、赤外線光で識別子が発信される。発信手段b1は、すべてのユーザが一つずつ持ち、発信される識別子は発信手段b1ごとに異なるように、各々に固有の識別子が設定されている。各クライアント端末C1,,,CxにはRS-232Cインタフェースを介して受信手段b2が一つずつ接続されている。
以下、発言者のクライアント端末C1と、発言相手のクライアント端末C2を例に説明する(図5(b))。発言者は、クライアント端末C1から音声録音機能を用いて音声データと発言者の識別子をコミュニケーション装置Sにアップロードし、図5(b)に示すように、発信手段b1を発言相手の受信手段b2に向けてスイッチを押下する。発信手段b1が赤外線光で発言者の識別子Xを発信すると、受信手段b2が赤外線受光部でその識別子Xを受信し、受信手段b2が接続されている発言相手のクライアント端末C2にその識別子Xを伝える。クライアント端末C2は、受信した識別子Xと、そのクライアント端末C2を使用する発言相手の識別子Yとを、コミュニケーション装置Sに通知する。
コミュニケーション装置Sは、発言者のクライアント端末C1から、音声データと発言者の識別情報Aとを受信し、また、発言相手のクライアント端末C2から、発言者の識別子Xと発言相手の識別子Yとを受信する。発言者のクライアント端末C1から受信した発言者の識別子Xと、発言相手のクライアント端末C2から受信した発言者の識別子Xが一致する場合は、受信した音声データのログデータに発言相手の識別子Yを付加する。発言者は、発信手段b1により受信手段b2に信号を送るだけで、発言相手を指し示すような簡単な動作で音声データのログデータに発言相手の情報を付加することができる。受信した発言者の識別子Xを音声データのログデータに付加してもよい。これにより、発言者が発言相手を指し示すような簡単な動作で、音声データのログデータに発言者の情報を付加することができる。発言相手の識別子Yと発言者の識別子Xとを両方付加すると、より効果的である。
(第3の実施の形態)
本実施の形態のコミュニケーション装置Sは、音声データに加えて、テキストデータを入力可能とするものである。コミュニケーション装置Sは、クライアント端末C1,,,Cxからテキストデータと音声データを特定する識別子a1を受信すると、そのテキストデータを音声データのログデータに関連付けて記憶する。そのテキストデータは音声データのログデータとともに、クライアント端末C1,,,Cxに提供され、各クライアント端末C1,,,Cxの履歴一覧の欄4にログデータとともにテキストデータが表示される。これにより、個々の音声データ間の関係を意味的に明示することが可能となる。また、音声では入力できない「顔文字」のようなものも、音声に付加して入力可能となる。
(有効性に関する実験)
以下に、第1の実施の形態を例として、本発明の有効性を確認すべく、実験をおこなった。7人の大学院生から成るグループ2組計14人に対し,以下3つの条件での実験を行なった。被験者は全員、何らかの形でテキストチャットを利用した経験はあるが、ボイスチャットの経験はない。また、システムの慣れによる影響を抑えるため、個々のグループの使用順序は異なる。
・Base:一般的なインターフェースをもつボイスチャットシステムを非対面状況で使用。実際には、本発明のコミュニケーション装置(以下、ChaTELという)が提供する機能のうち、発言履歴と、「これを聞く」および「録音」ボタンのみを使用可能としたものを使用した。
・ 非対面ChaTEL:ChaTELをそのまま非対面状況で使用。
・ 対面のChaTEL:ChaTELをそのまま対面状況で使用。
実験では、最初に7人の被験者からなるグループを3人と4人の2つのサブグループに分け、それぞれのサブグループに異なる話題を与え、これらの話題について2つのサブグループが同時並行的に約20分間話をするように教示した。与えた話題は、「行ってみたい場所」、「昔よくした遊びについて」など、比較的自由なテーマである。なお、これらの与えた話題については、各サブグループでひと通り完結するまで話を続けることを求めたが、それ以外の話をすることや、別のサブグループの話題に参加することについては禁止していない。また非対面条件では、全員が完全に離れた場所で実験を行い、対面条件では、全員が円状に配置するようなセッティングを行なった。
本システムで付与した、発言相手指定および先行発言指定機能により、マルチスレッド状況に対応しやすくなると考えられるため、対話構造そのものに影響が出ること予想される。そこで、まず、非対面状況で、発言相手指定および先行発言指定機能を持たないBaseシステムを使用した場合とChaTELを使用した場合の対話構造比較を行なった。ここで、対話構造を比較するために、実験で取得したデータの個々の発言がどの発言と意味的につながりがあるかを同定し、木構造の概念を用いて、始端数(スレッドの開始点の数)、パス数(1スレッド内の個々の発言を結びつける経路数)、終端数(スレッドの末端の数)を算出した。また、各スレッドの始端発言のIDと、最後の終端発言のIDの差をスレッド長とする。これは、それぞれのスレッドが幅広く展開されるのか、深く展開されるのかを判断するための材料のひとつとして使用できる。結果を表1に示す。
Figure 2006236149
表1より、A.Bどちらの被験者群もBase、本システムどちらについてもスレッド長を除いた項目に大きな違いはないことがわかる。スレッド長については、A,Bどちらの被験者群も、Baseよりも本システムを利用したほうが大きくなる傾向にあることがわかる。これは、発言の分岐が起こっても、本システムを利用したほうが1スレッドが長く継続されるということであり、スレッド数そのものがほぼ同じであれば、スレッドが長く続けば続くほどマルチスレッド状況が生じやすくなっているということを意味する。よって、本システムを利用した場合のほうが、マルチスレッドを長く継続できるということになる。
また、発言相手指定および先行発言指定機能を持たないBaseシステムと本システムとでは、個々の参加メンバーがシステム利用中に同時参加しているスレッド数にどの程度差があるのかを算出した。なお、各参加者の同時参加スレッド数は、以下のようにして求めた。まず、各スレッドについて、個々の参加者による最初の発言と最後の発言を求め、その両発言の間はその参加者はそのスレッドに参加しているものとみなすこととした。その上で、個々の発言が行なわれた時に、個々の参加メンバーが、その時点で存在しているスレッドのうちのいくつに参加していたかということを算出して求めた。結果を表2に示す。
Figure 2006236149
表2より、A,Bどちらの被験者群もBaseよりも本システムを利用した場合のほうが平均同時参加スレッド数が多くなっていることがわかる。また,Baseの平均同時参加スレッド数が1.0以下であるということは、自分が確実に発言できる機会がくるまでは、聞くことに専念していることを、また本システムの平均同時参加スレッド数が1.0以上であるということは、常にいずれかのスレッドで発言を行いながら、別のスレッドでも発言を行おうとしていることを示唆している。
前節より、発言相手指定および先行発言指定機能をもつ本システムが、マルチスレッド状況の発生に有効に機能していることがわかった。しかし、これだけでは、対面状況でマルチスレッド状況に有効であるかという点では不十分である。そこで、本システムを非対面状況で用いた場合と対面状況で用いた場合との比較実験を行なった。まず、この場合も、前節同様の方法で、両システムを用いた際の対話構造の比較を行なった。結果を表3に示す。
Figure 2006236149
表3より、どちらの被験者群も、非対面、対面状況での対話構造に大きな差は見られなかった。
さらに、非対面状況、対面状況での差異を見るため、対面状況での実験時に収録したビデオ収録データを検討した。その中で、非対面状況では、通常の対面対話とほぼ同じ音量で発言をしていたにも関わらず、対面状況では、小声で発言するということが音声データ、ビデオの両方から確認できた。さらに対面状況で参加者メンバーが目の前にいるにも関わらず、大半の参加者が発言履歴が表示されているモニターに注視している時間が長いということが観察された。これらから、対面状況での本システムの利用は、物理的には同じ場所を共有しつつも、心理的には独立した自分の空間を保持したまま対話していることが推測される。一方で、他の参加メンバーの笑い声に反応したり場の雰囲気を共有している場面も見受けられた。
本発明のコミュニケーション装置によれば、近接性、同期性の制約なしに対面でのマルチスレッド対話を可能とするために、音声による効率的な発言入力を可能とし、発言履歴と相手指定/対応発言指定機能の提供によって、対面状況でも音声によるマルチスレッド対話を可能とした。さらに、開発したシステムがマルチスレッド対話の進行に有効となることを、実験で得た対話データを中心に分析を行ない、検証した。
非対面条件で、通常のインターフェースを持つボイスチャットシステムと本研究で開発したシステムとの比較では、前者よりも後者のほうが、1スレッドあたりのスレッド長が長くなることが確認された。また、本研究で開発したシステムを用いたほうが、各参加者が同時に関与するスレッド数が多くなることが確認された。これらのことから、相手指定や先行発言指定を行なうことで、同じ話題を長く維持しながら、複数の話題に同時に参加できることが示され、本システムを用いるとマルチスレッド状況が生じやすくなるということが示唆された。
対面状況時のビデオ記録から、笑いを共有するなどの場の雰囲気を共有している場面はあるにせよ、発言履歴に注視しがちになってしまい、参加者同士が表情を確認する等の対面対話の利点が生かされていないことが示唆された。心理的には互いに独立したままの対話空間を、実空間に接地することにより、対面状況対話空間を共有しやすくする工夫が必要である。そこで、対面状況で、相手の表情を確認できるくらいの視線の移動がごく自然な動作で可能となるよう、相手指定を、発言者が相手を「指差しする」動作によって行なう機能を追加した。
これにより、実世界での身体的に相手を指差しするという自然な行為による発言の対象者指定が可能となり、その行為の再に相手の方を見ることで、場の雰囲気そのものもより自然なものとなった。
本発明は、その趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本実施の形態のコミュニケーション装置を説明する説明図である。 コミュニケーション装置がクライアント端末に提供するユーザインタフェース画面を示す図。 「発言完了」ボタンを示す図。 ユーザインタフェース画面の履歴一覧の欄のログデータを抽出して示す図。 本実施の形態のコミュニケーション装置を説明する説明図。 3つの表現が対話中に出現した割合のグラフ。 3つの表現を発言間のインターバル(発言間距離)ごとに分類した出現頻度の結果を示すグラフ。
符号の説明
S コミュニケーション装置
C1,,,Cx クライアント端末
1 ハンドル名を入力する欄
2 ログインのボタン
3 ユーザ一覧の欄
4 履歴一覧の欄
5 録音関連ボタン群
6 「録音」ボタン
7 「先行発言指定」ボタン
8 「発言への返信録音」ボタン
9 「発言相手指定」ボタン
10 「相手指定録音」ボタン
11 「発言者への返信録音」ボタン
12 「これ→を聞く」ボタン
13 「次を聞く」ボタン
14 「自分宛を聞く」ボタン
15 「先行発言を聞く」ボタン
a1 音声データを特定する識別子
a2 発言者を特定する識別子
a3 発言時刻となるアップロード時刻
a4 先行する音声データを特定する識別子
b1 発信手段
b2 受信手段

Claims (7)

  1. ユーザのクライアント端末に対して受信した音声データを提供することにより音声によるコミュニケーションを支援するコミュニケーション装置において、受信した音声データに関するログデータに音声データ間の関連を示す情報を付加する手段を備えることを特徴とするコミュニケーション装置。
  2. 前記音声データ間の関連を示す情報には、発言相手を特定する情報が含まれていることを特徴とする請求項1記載のコミュニケーション装置。
  3. 前記音声データ間の関連を示す情報には、先行する音声データを特定する情報が含まれていることを特徴とする請求項1又は請求項2に記載のコミュニケーション装置。
  4. 前記音声データ間の関連を示す情報を付加する手段は、発言相手が指定されると、その発言相手を特定する情報をログデータに付加することを特徴とする請求項1記載のコミュニケーション装置。
  5. 前記音声データ間の関連を示す情報を付加する手段は、先行する音声データの一覧から音声データが選択されると、その選択された音声データを特定する情報をログデータに付加することを特徴とする請求項1記載のコミュニケーション装置。
  6. 信号を発信する発信手段と、当該発信手段から発信された信号を受信する受信手段とを備え、
    発言者のクライアント端末から音声データを受信し、当該発信手段からの信号を受信した受信手段に接続される発言相手のクライアント端末から当該発言相手の識別子を受信し、当該音声データのログデータに当該発言相手の識別子を付与することを特徴とする請求項1記載乃至請求項5のいずれか1項に記載のコミュニケーション装置。
  7. テキストデータが入力可能であり、入力されたテキストデータは、前記ログデータに付加されることを特徴とする請求項1乃至請求項6のいずれか1項に記載のコミュニケーション装置。
JP2005052041A 2005-02-25 2005-02-25 コミュニケーション装置 Active JP4069207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005052041A JP4069207B2 (ja) 2005-02-25 2005-02-25 コミュニケーション装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005052041A JP4069207B2 (ja) 2005-02-25 2005-02-25 コミュニケーション装置

Publications (2)

Publication Number Publication Date
JP2006236149A true JP2006236149A (ja) 2006-09-07
JP4069207B2 JP4069207B2 (ja) 2008-04-02

Family

ID=37043704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005052041A Active JP4069207B2 (ja) 2005-02-25 2005-02-25 コミュニケーション装置

Country Status (1)

Country Link
JP (1) JP4069207B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070994A (ja) * 2006-09-12 2008-03-27 Sharp Corp メッセージ交換端末
JP2014086014A (ja) * 2012-10-26 2014-05-12 Konami Digital Entertainment Co Ltd 表示装置、制御方法、およびプログラム
JP2014195255A (ja) * 2007-06-28 2014-10-09 Voxer Ip Llc 電気通信及びマルチメディア管理方法及び装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070994A (ja) * 2006-09-12 2008-03-27 Sharp Corp メッセージ交換端末
JP4740076B2 (ja) * 2006-09-12 2011-08-03 シャープ株式会社 メッセージ交換端末
JP2014195255A (ja) * 2007-06-28 2014-10-09 Voxer Ip Llc 電気通信及びマルチメディア管理方法及び装置
JP2014086014A (ja) * 2012-10-26 2014-05-12 Konami Digital Entertainment Co Ltd 表示装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
JP4069207B2 (ja) 2008-04-02

Similar Documents

Publication Publication Date Title
US11777755B2 (en) Electronic communication methods and systems for collaborating and communicating in meeting environments
Ackerman et al. Hanging on the ‘wire: a field study of an audio-only media space
US9652113B1 (en) Managing multiple overlapped or missed meetings
Hindus et al. Thunderwire: A field study of an audio-only media space
US6839417B2 (en) Method and apparatus for improved conference call management
EP2661066B1 (en) Multi-modal conferencing
JP6101973B2 (ja) ボイスリンクシステム
US9179002B2 (en) System and method for initiating online social interactions based on conference call participation
WO2019245770A1 (en) Use of voice recognition to generate a transcript of conversation(s)
JP2002522998A (ja) インターネットおよびイントラネットを含むローカルおよびグローバルネットワークによるオーディオ会議用のコンピューター・アーキテクチャーおよびプロセス
JP2007189671A (ja) 話し手を示す(who−is−speaking)(wis)信号アプリケーションを可能にするためのシステムおよび方法
JP2005277462A (ja) 会議支援システム、議事録生成方法、およびコンピュータプログラム
US8515761B2 (en) Intelligent mechanism to automatically discover and notify a potential participant of a teleconference
TWI795759B (zh) 線上會議系統
JP2006203548A (ja) 複数話者の音声信号を処理する音声信号処理装置およびプログラム
JP4077656B2 (ja) 発言者特定映像装置
JP4069207B2 (ja) コミュニケーション装置
JP2006197251A (ja) 会議運営支援方法
Dutt et al. Video, talk and text: How do parties communicate coherently across modalities in live videostreams?
JP2004032229A (ja) 音声会議支援システム、音声会議支援システムにおける端末装置およびコンピュータプログラム
JP7393000B2 (ja) 遠隔会議装置、システム、方法及びプログラム
CN110677377B (zh) 录音处理、播放方法、装置、服务器、终端及存储介质
WO2024067597A1 (zh) 线上会议方法、装置、电子设备及可读存储介质
Moors The SmartPhone: Interactive group audio with complementary symbolic control
TW202341703A (zh) 用於改進的群通訊通信期的系統和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060808

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20060808

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20060912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070613

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071022

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150