JP3828185B2 - CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM - Google Patents

CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM Download PDF

Info

Publication number
JP3828185B2
JP3828185B2 JP22538695A JP22538695A JP3828185B2 JP 3828185 B2 JP3828185 B2 JP 3828185B2 JP 22538695 A JP22538695 A JP 22538695A JP 22538695 A JP22538695 A JP 22538695A JP 3828185 B2 JP3828185 B2 JP 3828185B2
Authority
JP
Japan
Prior art keywords
audio signal
terminal device
information
voice
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22538695A
Other languages
Japanese (ja)
Other versions
JPH0969884A (en
Inventor
哲朗 知野
誠 中村
大志 下森
朋男 池田
寛 服部
信之 武田
史彦 池上
薫 鈴木
夏子 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP22538695A priority Critical patent/JP3828185B2/en
Publication of JPH0969884A publication Critical patent/JPH0969884A/en
Application granted granted Critical
Publication of JP3828185B2 publication Critical patent/JP3828185B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、対面あるいは遠隔で行なわれる会議を支援するための会議支援システムおよび会議支援システムの制御方法に関する。
【0002】
【従来の技術】
近年、電子計算機技術および通信技術の進展に伴い、文字情報のみならず音声情報や、静止画および動画を含む画像情報などの、マルチメディア情報を処理する技術や、それらマルチメディア情報を通信するための技術を応用し、人間同士のコミュニケーションや協同作業、あるいはさらに計算機サービスを併用した活動を支援するため、グループウェア技術あるいはCSCW(Computer Supported Cooperative Work)技術の開発が進められている。
【0003】
現在、このような背景の下で、CSCW技術を応用した、新しい形態での会議を支援する機器の実現への要求も高まっており、例えば、“「情報処理学会編/石井著/グループウェアのデザイン」における図3.1”に示される如きのグループウェアシステムの分類などに紹介されている「Colab(Xerox)」などの様々な会議支援システムの試作がなされている。
【0004】
これらの会議支援システムでは、会議室にテレビカメラ、大型スクリーン、マイク、スピーカ装置、あるいはコンピュータ端末などの端末装置間で通信回線を介して通信することなどによって会議を支援する。
【0005】
そして、従来の会議支援システムでは、位置的に固定的に設置された機器によって、CSCW環境を実現するものが多く、たとえ遠隔間の通信を行なうような構成の会議支援システムにおいても、個々の設備に関しては位置的に固定された環境での利用を仮定したものがほとんどであった。
【0006】
しかし、近年の計算機技術と通信技術の進展に伴って、例えば、特開平6‐075757号公報に示される如き通信制御方式などの技術を応用し、携帯可能でしかも自立的にネットワークを形成できるようにした新しい情報処理機器が提案されている。
【0007】
この技術は、携帯可能な情報処理端末装置を、例えば、自分の机の回りや、室内の他の部屋や、あるいは野外や移動中の乗物内など、いろいろな場所で利用したいという要求の高まりに応えるために開発されたものであり、ノートパソコンやPDA(個人向け携帯情報端末装置)などのインテリジェント端末を応用したもので、このような端末を持ち寄るだけで、それらの端末機器の間に自立的にワイヤレスの通信ネットワークを構築して、互いに通信できるように動作するものであり、従って、このような端末を持ち寄るだけで誰でも、何処でも、しかも、簡単にマルチメディア情報のやりとりがその端末によって出来るようにした情報処理機器の技術である(電子情報通信学会技術報告−SSE94−219,in 94−161,1995/3参照)。
【0008】
そして、さらにこの技術を応用することにより、会議支援システム(情報処理学会マルチメディア通信分散処理研究会資料68−21、グループウェア研究会資料9−21,1995.1.27参照)を構成することも可能であり、例えば、従来の会議では書類として配布していた必要情報を個々の会議参加者の利用しているパソコンや携帯情報端末装置の画面に送信したり、会議中にその端末装置上で書き加えた注釈などの情報を個々の会議参加者の端末装置に送って配布したりすることを可能としたり、また、会議への途中参加や途中退出する参加者があった場合にも、適切に必要情報の共有や送受といったことを行なうことが出来るようにすることが可能になるものである。
【0009】
このような、携帯し、移動して利用が可能な情報処理機器、あるいは自立的にネットワーク形成が可能な情報処理機器(以後、これを「携帯端末」あるい単に「端末」と呼ぶこととする)を応用し、このような携帯端末を参加者各自が携帯することなどによって実現される会議支援システム(以後、これを「携帯端末会議システム」と呼ぶこととする)では、固定的な設備による従来の会議支援システムでは全く考える必要のなかった以下のような独特の課題が浮上してくることとなる。
【0010】
すなわち、会議支援を実現するためには、使用される端末装置は、音声の授受、テキストの授受、画像の授受等を可能にするための機能が必要であり、そのためには、個々の端末から入力あるいは蓄積用意されている音声や画像などのマルチメディア情報を適宜他の端末へ通信し配送する機能が必要がある。
【0011】
例えば、会議参加者の発言などの音声情報について考えると、他の会議参加者が遠隔地にいる場合、あるいは他の部屋にいる場合や、同室していても距離が離れていたり、周囲雑音などのために、遠い位置の発声者の発した音声が直接、届かない場所にいる場合には、その音声情報を端末間の通信路を利用して対応する端末へ伝送し、受け手側の端末で音声として再生出力することなどによって聞き取れるようになり、会議を支援することが可能となる。
【0012】
従来の会議支援システムでは位置的に固定的な環境での利用を仮定しているため、上述のような音声信号の伝達に関して、遠隔地のみに伝達し再生し、直接の音声が到達するような近接した端末間にはそのような伝送および再生の機能を用意しないか、あるいはある固定された出力レベルでの再生がなされるような仕組みとなっていた。
【0013】
しかし、携帯端末会議システムでは、個々の端末は移動可能であるため、固定的な位置関係を仮定することが出来ず、位置関係が利用の度に異なるものとなる可能性がある。そのため、最も簡単には、端末装置に音声情報の授受の機能と、その音声情報を音声として出力させる機能を持たせて、一義的に音声情報の授受と音声出力をさせるようにすることが考えられるが、このようにすると、発言者の至近にある端末装置では、発言者の肉声が直に十分なレベルで届くのに、無用に音声出力を併用することになり、かえって聞き辛くなる。
【0014】
さらに、会議の開催される場所が特定の場所に限定されないため、周囲雑音などの環境条件も固定されず、対話参加者の発声した音声などの情報が直接伝達する範囲を固定的に設定しておくことが出来ない。
【0015】
さらに、端末装置は運搬可能であるため、参加者が会議途中に場所を移動するとその参加者の携えた端末装置も移動することとなり、通信によって情報を伝達すべき端末の組合せが変動する可能性がある。
【0016】
このように固定的な環境で利用されるという保証が全くない携帯端末装置を利用した会議支援システムでは、上述のような様々な問題点が浮上する。
そしてさらに、全ての端末間で上述のような通信を実施することは、端末間で利用可能な通信路帯域の制限や通信路資源および駆動エネルギの有効利用の観点から考えて不経済かつ非効率的であり、将来、一層大量の情報の通信が必要となることが否めない状況を考えると、これは大きな問題点である。
【0017】
また、たとえば対話参加者の発言の音声をある端末から取り込み、他の全ての端末に通信し、それぞれの端末で音声信号として再生することは、上述の通り通信資源の浪費であると共に、直接音声と各端末の出力音声の内の複数が対話参加者に聞こえるような場合には、それぞれの音声信号が重複や干渉を起こす可能性がある。
【0018】
さらに、上述のように全ての端末で伝送された情報を音声出力した場合には、ある複数から送られた音声信号が他の端末の音声出力となりまたその音声出力がある端末に拾われそれが通信によって伝送されるなどして、ループを形成し、エコーやハウリングなどの現象を起こし、円滑な会議の進行を妨げる可能性がある。
【0019】
【発明が解決しようとする課題】
端末装置に音声を取り込む機能と、その音声を伝送する機能と、取り込んだ音声または伝送されてきた音声を音声出力する機能と、テキストや画像を配信、表示するといった機能を持たせた携帯端末を使用して会議を支援する携帯端末会議システムが提案されている。
【0020】
このような携帯端末会議システムでは、個々の端末は移動可能であり、個々の端末の位置関係が利用の度に異なるものとなることを抑止できないため、位置的に固定的な環境での利用を仮定することはできない。
【0021】
また、携帯端末会議システムでは、会議の開催される場所が特定の場所に限定されない利点がある反面、それがために、周囲雑音などの環境条件も固定されないこととなり、従って、対話参加者の発声した音声などの情報が直接伝達する範囲を固定的に設定しておくことが出来ないことから、その対策が必要となる。
【0022】
さらに、携帯端末会議システムでは、端末は運搬可能であるため、会議参加者が自己の携える端末と共に会議途中で場所を移動することが可能であり、その場合、通信によって情報を伝達すべき端末の組合せが変動する可能性がある。
【0023】
そこで、全ての端末間で、会議参加者の発言音声など、入力された情報を他の端末へと伝送しあうようにすることが考えられるが、このようにすると、例えば音声信号のように近接した端末間では、端末間の通信路を介さずとも直接伝達するため通信する必要のない情報も含めて通信がなされることになるため、端末間で利用可能な通信路帯域の制限や有効利用の観点から考えて不経済かつ非効率的になるという問題がある。
【0024】
さらに、全ての端末間で、会議参加者の発言音声など入力された情報を他の端末へと伝送しあうことは、例えば音声信号のように近接した端末間では、双方の端末からの出力が重複あるいは干渉する可能性があり、その重複によって、エコーなどの現象を生じ、会議の進行に悪影響を及ぼすという問題も残る。
【0025】
さらに、全ての端末間で、会議参加者の発言音声など入力された情報を他の端末へと伝送しあうことは、ある機器の出力が再度他の機器に入力されることによって、ループが形成され、ハウリングなどの現象を生じ、会議の進行に悪影響を及ぼし得るという問題を残す。
【0026】
このような状況のため、自立的にネットワークを形成する情報機器あるいは携帯可能な情報機器をそのまま利用して会議支援システムを構築するには現状としては問題が多い。
【0027】
そこで本発明はこのような事情を考慮してなされたもので、自立的にネットワークを形成できる情報機器あるいは携帯可能な情報機器の応用によって実現される携帯端末会議システムとして、周囲雑音などを含め、環境条件の変化の影響を受けず、必要な場合にのみ、音声情報の伝送や音声出力を行なうことができるようにした合理的な端末装置を実現して会議支援を可能にする会議支援システムおよび会議支援方法を提供することにある。
【0028】
また、会議参加者が会議途中に空間的に移動しても端末間で通信によって授受すべき情報を適切に決定することの出来る端末装置を実現して会議支援を可能にする会議支援システムおよび会議支援システムの制御方法を提供することにある。
【0029】
【課題を解決するための手段】
上記目的を達成するため本発明はつぎのように構成する。すなわち、音声を取り込んで音声信号を得る入力手段と、送信されてきた音声信号を受信し、また、前記入力手段からの音声信号もしくは前記受信した音声信号を送信する通信手段と、前記入力手段からの音声信号もしくは前記通信手段にて受信した音声信号を音声として出力する出力手段とをそれぞれ有する端末装置複数台を用いて構成するシステムであって、各端末装置間で通信路を確立させて、音声信号を授受できるようにした会議支援システムにおいて、
第1には、
前記端末装置は、
前記入力手段および前記通信手段から得られる他端末装置からの端末間通信情報に応じて、前記出力手段の音声出力を制御するとともに、前記入力手段からえら得た情報または前記通信手段から得られる他端末装置からの情報を、前記通信手段から出力する制御手段と、
を具備した構成とする。
【0030】
また、第2には
前記音声信号の強度情報を取得し、この強度情報が十分な場合には前記出力手段からの音声出力を停止し、かつ、この音声信号を強度情報と共に前記通信手段にて他端末装置に送信し、
取得した前記音声信号の前記強度情報が十分でない場合には前記音声信号と前記通信手段にて受信した音声信号のうち強度の高い方の音声信号を用いて前記出力手段から音声出力を発生させるようにした。
【0031】
本発明では、発言者の音声や他端末装置からの出力音声等を入力手段にて収集し、これを音声信号化すると共に、この音声信号の強度情報を取得し、この強度情報が十分な場合には前記出力手段からの音声出力を停止し、かつ、この音声信号を強度情報と共に前記通信手段にて他端末装置に送信し、
取得した前記音声信号の前記強度情報が十分でない場合には前記音声信号と前記通信手段にて受信した音声信号のうち強度の高い方の音声信号を用いて前記出力手段から音声出力を発生させる。
【0032】
また、第3には、前記音声信号の強度情報を取得し、この強度情報が十分な場合には前記出力手段からの音声出力を停止し、かつ、この音声信号を強度情報と共に前記通信手段にて他端末装置に送信し、また、前記入力手段からの音声信号の前記強度情報が予め定めた所定レベル以上あるときは自己に対する音声信号の送信を停止する要求を送信元の端末装置に送信して送信停止させるようにし、
取得した前記音声信号の前記強度情報が十分なレベルを示すものでない場合には前記音声信号と前記通信手段にて受信した音声信号のうち強度の高い方の音声信号を用いて前記出力手段から音声出力を発生させるようにする。
【0033】
【発明の実施の形態】
本発明は、音声を取り込んで音声信号を得る入力手段と、送信されてきた音声信号を受信し、また、前記入力手段からの音声信号もしくは前記受信した音声信号を送信する通信手段と、前記入力手段からの音声信号もしくは前記通信手段にて受信した音声信号を音声として出力する出力手段とをそれぞれ有する端末装置複数台を用いて構成するシステムであって、各端末装置間で通信路を確立させて、音声信号を授受できるようにした会議支援システムにおいて、
前記端末装置は、
前記入力手段および前記通信手段から得られる他端末装置からの情報に応じて、前記出力手段の音声出力を制御するとともに、前記入力手段から得た情報または前記通信手段から得られる他端末装置からの情報を、前記通信手段から出力制御する制御手段と、
を具備した構成とする。
【0034】
特に、制御手段は、前記音声信号の強度情報を取得し、この強度情報が十分な場合には前記出力手段からの音声出力を停止し、かつ、この音声信号を強度情報と共に前記通信手段にて他端末装置に送信し、また、前記入力手段からの音声信号の前記強度情報が予め定めた所定レベル以上あるときは自己に対する音声信号の送信を停止する要求を送信元の端末装置に送信して送信停止させるようにし、取得した前記音声信号の前記強度情報が十分なレベルを示すものでない場合には前記音声信号と前記通信手段にて受信した音声信号のうち強度の高い方の音声信号を用いて前記出力手段から音声出力を発生させるように制御する機能を持たせる。
【0035】
本発明では、発言者の音声や他端末装置からの出力音声等を入力手段にて収集し、これを音声信号化すると共に、この音声信号の強度情報を取得し、この強度情報が十分な場合には前記出力手段からの音声出力を停止し、かつ、この音声信号を強度情報と共に前記通信手段にて他端末装置に送信し、取得した前記音声信号の前記強度情報が十分でない場合には前記音声信号と前記通信手段にて受信した音声信号のうち強度の高い方の音声信号を用いて前記出力手段から音声出力を発生させる。
【0036】
従って、本発明によれば、自立的にネットワークを形成できる情報機器あるいは携帯可能な情報機器の応用によって実現される携帯端末会議システムにおいて、発言者の音声が十分に届くところや、近くの端末装置の出力音声が十分に届くところでは、自己の端末装置からの音声の出力を抑制でき、また、発言者の音声あるいは、近くの端末装置の出力音声が十分に届かないところでは自己の端末装置から音声を出力させて聴取することができるようになる等、環境条件の変化に対しても適切に必要な情報を伝達することが可能となる。
【0037】
そしてまた、本システムでは、前記入力手段からの音声信号の前記強度情報が予め定めた所定レベル以上あるときは自己に対する音声信号の送信を停止する要求を送信元の端末装置に送信して送信停止させる。故に、無用な通信を行なわずに済み、通信資源や電力エネルギの節減効果が得られる。
【0038】
また、本システムでは、各端末装置によって入力手段から得られる音声信号の少なくとも一部を含む端末間通信情報を通信手段で授受し、制御手段によって、自己の入力手段から得られる音声信号と自己の通信手段から得られる端末通信情報の間で、相関を比較し伝達関数を推定するなどしてその類似性を判定することにより、各会議参加者の各発声について、最も近くに存在する端末を判定することができる発言者判定手段と、該発言者判定手段によって得られる情報に基づき、各端末間の通信によって授受する情報を決定する機能を制御手段に持たせる。
【0039】
また、あるいは、発言者判定手段によって得られる情報に基づき、制御手段は各端末装置の音声出力の内容を決定する。
また、あるいは、制御手段によって、各端末装置において、入力手段から得られる音声信号の少なくとも一部を含む端末間通信情報を通信手段で授受し、自己の入力手段から得られる音声信号と自己の通信手段から得られる端末通信情報の間で、相関を比較し伝達関数を推定するなどしてその類似性を判定することによって、会議参加者の各発声について、該発声の音声信号が直接到達する端末の組合せを判断する直接伝達判定手段と、該直接伝達判定手段によって得られる情報に基づき端末間の通信によって授受する情報を決定する。
【0040】
また、あるいは、制御手段は直接伝達判定手段によって得られる情報に基づき、各端末の音声出力信号の出力内容を決定する。
また、あるいは、制御手段は各端末で音声入力信号の一部および入力手段あるいは出力手段あるいは発言者判定手段あるいは直接伝達判定手段の動作状況の少なくとも一部を含む端末通信情報に基づき、ある端末で入力された音声信号を通信路を通じて伝送し合い、音声出力すべき端末を決定する。
【0041】
この結果、どの端末には情報を送って音声出力をさせ、どの端末にはそれをさせないといった選択制御ができ、無駄のない運用が自動的に行なえるようになる。
【0042】
従って、本発明によれば、自立的にネットワークを形成できる情報機器あるいは携帯可能な情報機器の応用によって実現される携帯端末会議システムにおいて、発言者の音声が直に十分届くところや、近くの端末装置の出力音声が十分に届くところでは、自己の端末装置からの音声の出力を抑制でき、また、発言者の音声あるいは、近くの端末装置の出力音声が十分に届かないところでは自己の端末装置から音声を出力させて聴取することができるようになる等、環境条件の変化に対しても適切に必要な情報を伝達することが可能となる。
【0043】
また、端末装置間で通信により授受すべき情報を動的に決定するので、ある端末装置からの音声出力が他の端末装置の所有者にも十分聞こえるような場合に、その端末装置に対する通信や音声出力を中止させることができるので、無駄な通信と音声の出力を抑制することが可能となり、端末装置間の通信路を効率的に利用することが可能となる。
【0044】
また、端末装置を携えた参加者が会議途中に場所を移動しても端末装置間で通信によって授受すべき情報を適切に決定し、適切な情報の伝達を行なうことが可能となる。
【0045】
また、端末間で通信により授受すべき情報を動的に決定するので、複数の端末の音声出力の重複やエコーなどの現象を回避することが可能となり、特に、ある端末装置の音声出力などが他の端末装置に入力され、再度出力されることによりループが形成され、ハウリングなどが起こることを、本発明では端末装置間で通信により授受すべき情報を動的に決定することによって、回避することが可能となる。
【0046】
このように、本システムは、発話者等からの音声の入力手段と、その音声の送受信手段と、音声の出力手段とを有し、近隣の端末装置間で自立的に通信路をリンクさせて、音声情報を授受することができるようにした端末装置を用いる場合に、入力音声のレベルをチェックし、その入力レベルに応じてその音声情報の出力手段からの出力と、リンク先相手端末への送信を制御するようにした。そのため、音声が大きい場合にはその端末からの音声出力を中止し、音声が小さい場合にはその端末からの音声出力を実施するといった制御や、音声の送信の中止や送信実施を状況対応に実施することができ、更にはハウリングの防止を図ることができるようになり、また、無駄な音声送信を抑制することができるなど、最適な音声伝達制御が可能になる等の特徴が得られるようになる。
【0047】
(より具体的な実施の態様)
以下、図面を参照して本発明の請求項目6の一実施例に係る会議支援装置および方式につき説明する。
【0048】
[本装置の構成]
図1は、本発明の具体的な実施の例としての会議支援装置の構成の概要を示している。
【0049】
図1に於いて、Tn(n=i,j,k,l,…)は、本会議支援装置を構成する端末装置を表しており、さらに、該端末装置Tnが、入力部1、通信部2、制御部3、および出力部4から構成されていることを表している。この端末装置Tnは個人々々が携帯し、移動して利用が可能な情報処理機器であり、近隣に他の同種の端末装置があると自立的にそれとネットワーク形成が可能な情報処理機器である。
【0050】
これらのうち、入力部1はマイクやアンプあるいはA/D(アナログ/ディジタル)変換装置などからなる入力部を表しており、端末装置の利用者の発言や、周囲の雑音、あるいは他の端末装置からの出力音声などの音声信号を収集し、音声入力情報として制御部3に送るようにしている。
【0051】
また、通信部2は電波あるいは赤外線などを利用した無線伝送のための送受信回路、あるいは通信ケーブルなどの有線伝送を行なうための送受信回路を持つ通信手段であり、自立的に他の端末装置と通信回線をリンクして通信路を確立し、他の端末装置から送信される端末間通信情報を受信して自端末装置の制御部3へ送ったり、あるいはこの制御部3の制御に基づき、入力部1から入力された音声入力情報などを他の端末装置に向けて送信したりすることができる構成としている。
【0052】
制御部3は、入力音声情報、端末間通信情報および、入力部1、通信部2、出力部4の動作状況に応じて、端末間通信情報、出力音声情報の生成と、入力部1、通信部2、出力部4の動作制御などを行なう演算制御の中枢である。
【0053】
図2は、制御部3の構成を示すブロック図であり、入力情報記憶部3a、出力情報記憶部3b、通信情報記憶部3c、および中央演算部3dからなる。なお、図2において、実線矢印はデータの流れを表し、破線矢印は制御信号の流れを表している。
【0054】
これらのうち、入力情報記憶部3aは、入力部1から得られる入力音声情報を時間情報とともに適宜記録する記憶手段であり、記憶情報は中央演算部3dから参照できるように構成してある。
【0055】
図3は、各端末装置Tn(n=i,j,k,l,…)の制御部3における入力情報記憶部3aの内容の例を表しており、入力部1から得られる音声入力情報Iが、開始時刻情報A、音声波形B、強度情報Cなどと分類され記録されるようにしている。
【0056】
なお、図3の(a)、(b)、(c)、(d)は、それぞれ、端末装置Ti,Tj,Tk,Tlの各入力情報記憶部3aの内容の例を表している。
入力情報記憶部3aには、図3に示す如くエントリ(格納アドレス)、開始時刻情報A、音声波形情報B、強度情報Cが格納される。そして、各エントリにおいて、開始時刻情報Aの欄には、入力音声情報Iiの入力が開始された時刻である時刻情報t1が記録されるようにしてある。
【0057】
また、音声波形情報Bの欄には、入力部1によって得られる入力音声波形の情報が、例えばPCM(パルスコード・モジュレーション)ディジタル波形などの形で記録されるようにしており、強度情報Cの欄には、たとえば振幅などに基づく入力音声波形の強度を表す情報が記録されるようにしてある。
【0058】
なお、図3などにおいて、音声波形Bの欄には、記述上の都合により、対応する音声の書き下し結果を音声波形の代わりに示すようにしている。
図2の説明に戻る。図2における出力情報記憶部3bは、中央演算部3dから得られ、出力部4から音声出力として出力すべき出力音声情報を適宜記録するための記憶手段であり、記録された内容は中央演算部3dおよび出力部4から参照できるように構成してある。
【0059】
図4(a)〜(d)は、各端末装置Ti〜Tlにおける出力情報記憶部3bの内容の一例を示しており、各端末装置Ti〜Tlにおける制御部3dの制御に従い、通信情報記憶部3cなどから得られる音声波形情報が、例えばPCM(パルスコードモジュレーション)ディジタル波形などの形で、出力音声波形情報Aの欄に記録されるようにしてある。
【0060】
なお、図4などにおいても、出力音声波形Aの欄には記述上の都合により、波形の代わりに、対応する音声の書き下し結果を示すようにしている。
また、図中の記号「…」および記号「−」は、説明の上で明記する必要のない部分を省略したことを表している(以後同様)。
【0061】
また、図4の(a)、(b)、(c)、(d)は、それぞれ、端末装置Ti、Tj、Tk、Tlの各出力情報記憶部3bの内容の例を表している。
図2の説明に戻る。図2の通信情報記憶部3cは、通信部2から得られる端末間通信情報、および中央演算部3dによって生成される端末間通信情報を適宜記録する記憶手段であり、その記録内容は通信部2および中央演算部3dから参照できるようになっている。
【0062】
図5(a)〜(d)は、各端末装置Ti,Tj,Tk,Tlの通信情報記憶部3cの内容の例を表しており、通信部2から得られる他端末からの情報が、開始時刻情報A、音声波形情報B、強度情報C、状態情報D、および送出元端末識別情報Eに分類され、記録されるようにしている。
【0063】
すなわち、図5に示す如きの記録内容を含む通信情報記憶部3cの各エントリには、それぞれ開始時刻情報A、音声波形情報B、強度情報C、送出元端末識別情報E、および状態情報Dが対応して記録できるようにしてあり、本エントリに対応する端末間通信情報Cxに含まれる入力音声情報Ixの、それぞれ開始時刻情報A、音声波形情報Bおよび強度情報Cがこれら開始時刻情報A、音声波形情報B、および強度情報Cの欄対応に記録されるようにしており、送出元端末識別情報Eの欄には、端末間通信情報Cxを送出した端末装置の識別記号が記録されるようにしている。
【0064】
さらに、状態情報Dの欄には、本エントリに対する本端末装置による処理の状態を表す「未処理」、「出力中」、「出力済」、「同一である」、「同一でない」、「要出力」、「同一だが要出力」などといった記号が記録されるようにしている。
【0065】
なお、図5などにおいても、出力音声波形Aの欄には、記述上の都合により波形の代わりに対応する音声の書き下し結果を記録内容として示してある。
また、図5の(a)、(b)、(c)、(d)は、それぞれ、端末装置Ti、Tj、Tk、Tlの各通信情報記憶部3cの内容の例を表している。
【0066】
図2における中央演算部3dは演算や制御の中枢を担うものであり、この中央演算部3dは、入力記憶部3a、出力情報記憶部3b、および通信情報記憶部3cの内容を参照し、入力部1、通信部2および出力部4、および、入力情報記憶部3a、出力情報記憶部3b、および通信情報記憶部3cといった制御部3内の各構成要素を制御するものである。
【0067】
なお、この制御部3の動作が、本発明の実現において中心的な役割を担うものであるため、後ほど詳しく説明することとする。
図1における出力部4はスピーカ、アンプあるいはD/A(ディジタル/アナログ)変換装置などからなる出力手段であり、制御部3から得られる出力音声情報を、入力部1から入力された音声情報、あるいは通信部2を用いた通信によって得られた音声入力情報、あるいは制御部3に記録保持されている音声入力情報を、制御部3からの制御に従って、音声出力として出力する機能を有するものである。
【0068】
以上が本装置の構成の概要である。
[本装置の動作]
続いて、本装置の動作について説明を行なう。
【0069】
本例にかかる会議支援装置は、各端末装置Tn(n=i,j,k,l…)の制御部3の中央演算装置3dが、以下に示す主制御並びに入出力および記録処理《基本動作規則A》に従って動作することによって実現されている。また、各端末装置(たとえばTi)の中央演算部3dは、以下の《基本動作規則A》に従って制御され、並列に動作する。
【0070】
《基本動作規則A》
[ステップA1]. 自端末装置の入力部1から入力音声が得られる場合は、自端末装置の入力情報記憶部3aに、新たなエントリ(例えばVi)を設け、開始時刻情報Aおよび強度情報Cと共に、音声波形情報Bを順次記録する。
【0071】
[ステップA2]. 自端末装置の通信部2に、他の端末装置(例えばTx)から送られた端末間通信情報(例えばCx_i)が得られる場合には、(端末装置Tiの)通信情報記憶部3cに、新たなエントリ(例えばWx_i)を設け、開始時刻情報A、強度情報C、状態情報D、送出端末識別情報Eと共に音声波形情報Bを順次記録する。なお状態情報Dの欄には、記号「未処理」を記録する。
【0072】
[ステップA3]. 通信情報記憶部3cの新たに記録されたエントリ(例えばWx_i)について、以下の同一音声判定処理である《基本動作手順B》に沿った一連の処理を実施する。
【0073】
[ステップA4]. これが終わると次に入力情報記憶部3aに新たに記録されたエントリ(例えばVi)について、類似性/同一性判定処理である以下の《基本動作手順C》に沿った一連の処理を並列に実施する。
【0074】
[ステップA5]. 次に自端末装置の通信情報記憶部3cの内容を参照して、状態情報Dの内容が「要出力」である各エントリ(例えばWx_i)の音声波形情報Bの内容を、出力情報記憶部3bの新たなエントリの出力音声情報記Aの欄に記録し、エントリWx_iの状態情報Dに「処理済」を記録する。
【0075】
[ステップA6]. 次に自端末装置の出力情報記憶部3bの内容を参照して、新たに記録されたエントリの音声波形情報Aの内容を、出力部3から出力する。
【0076】
[ステップA7]. 自端末装置の通信部2が、ある他端末装置(例えばTx)より、通信停止信号Di_xを受信した場合には、その端末装置Txへ向けて現在送信中の端末間通信情報の送出が存在する場合、それを中止して当該端末装置Txへ向けての通信は終了する。
【0077】
以上が主制御並びに音声の入出力および記録処理である《基本動作手順A》の内容である。端末装置(例えばTi)における同一音声判定処理としての《基本動作手順B》は、以下の手順に沿って行なわれる(なお、端末間通信情報記憶部3cの、あるエントリWx_iについて処理が行なわれるものとする)。
【0078】
《基本動作手順B(同一音声判定処理)》
[ステップB1]. エントリWx_iの開始時刻情報Aの時刻Twと、予め定めたある小さな値をtとし、
Tw−t < T ≦ Tw
なる条件を満たす時刻Tを開始時刻情報Aに持つ入力情報記憶部3aのエントリViが存在するか否かを調べ、その結果、存在する場合はステップB4へ進み、存在しない場合は次のステップB2進む。
【0079】
[ステップB2]. 予め定めたある小さな値をsとし、時刻Tw+sになるまでに、時刻Twについて
Tw < T < Tw+s
なる条件を満たす時刻Tを開始時刻情報Aに持つ端末装置Tiの入力情報記憶部3aのエントリViが入力したか否かを調べ、入力した場合は、ステップB4へ進み、入力してない場合は次のステップB3へ進む。
【0080】
[ステップB3]. エントリWx_iの状態情報Eの欄に「要出力」を記録し、ステップB9の処理へ進む。
[ステップB4]. 音声処理信号処理でのキャンセレーション技術などに於ける伝達関数推定処理や、音声認識技術における周波数分析結果の時系列パターン間での復号類似度法やダイナミックプログラミング(DP)による類似性比較処理やニューラルネットワークなどを利用した従来技術による音声信号間の類似性判定処理によって、エントリViの音声波形情報Bと、Wx_iの音声波形情報Bとの間で、類似性/同一性の判定を行なう。
【0081】
[ステップB5]. ステップB4での類似性/同一性の判定において、予め定めたある閾値u以上の類似性が得られ、かつエントリViの強度情報Cの値が、予め定めたある閾値v以上である場合は、ステップB7へ進む。閾値v以上でなければステップB6の処理に移る。
【0082】
[ステップB6]. エントリWx_iの状態情報Eの欄に、記号「要出力」を記録し、ステップB9へ進む。
[ステップB7]. ステップB7ではまずはじめにエントリWx_iの送出端末識別情報Eを参照し、この端末間通信情報の送出元の端末装置(例えば端末装置Tx)へ通信停止信号Di_xを送出する。そして、ステップB8の処理に進む。
【0083】
[ステップB8]. ステップB8ではエントリWx_iの状態情報Eの欄に、記号「処理済」を記録する。そして、ステップB9の処理に進む。
[ステップB9]. ステップB9はサブルーチンの終了であり、エントリWx_iに関する《基本動作手順B》を終了して《基本動作規則A》のステップA5に移る。
【0084】
以上が同一音声判定のための処理である《基本動作手順B》の内容である。次に類似性/同一性判定処理である《基本動作手順C》の内容を説明する。端末装置(例えばTi)における《基本動作手順C》は、以下の手順に沿って行なわれる(なお、入力情報記憶部3aiのあるエントリYiについて処理が行なわれるものとする(添字iは端末装置Tiの構成要素であることを示す))。
【0085】
《基本動作手順C》
[ステップC1]. ステップA4からこのステップC1に処理が移ると、ここではまずはじめにエントリYiの開始時刻情報Aに記録されている時刻Tyについて、ある小さな値p、およびある小さな値qを用い、Ty−p < Tw かつ Tw < Ty+qなる条件を満たす時刻Twを、開始時刻情報Aの欄に持つ各エントリ(Wj_iとする)について、以下のステップC2〜C3を実施する.
【0086】
[ステップC2]. 音声信号処理でのキャンセレーション技術などに於ける伝達関数推定処理や、音声認識技術における周波数分析結果の時系列パターン間での復号類似度法やダイナミックプログラミング(DP)による類似性比較処理やニューラルネットワークなどを利用した従来技術による音声信号間の類似性判定処理によって、エントリViの音声波形情報Bと、Wj_iの音声波形情報Bとの間で、類似性/同一性の判定を行なう。
【0087】
[ステップC3]. ステップC2において、予め定めたある閾値u以上の類似性が得られ、かつエントリViの強度情報Cの値が、予め定めたある閾値v以上である場合は、エントリWj_iに関する<基本動作手順C>の処理を終了する。
【0088】
[ステップC4]. エントリViの開始時刻情報Aおよび、音声波形情報B、および強度情報Cを参照して、他の端末装置(例えばTj、Tk、…)に対する、新たな端末間通信情報(例えばCi_j、Ci_k、…)を生成し、通信部2を通じて送出する。なお、送出元端末識別情報Eの欄には、端末装置Tiの識別記号「Ti」を記録しておく。
【0089】
[ステップC5]. これが終わると以上の<基本動作手順C>の処理を終了する。
以上の《基本動作規則A》(主制御並びに入出力および記録処理)、および《基本動作手順B》(同一音声判定処理)、および《基本動作手順C》(類似性/同一性判定処理)に沿った処理が各端末装置Tnにおいて実施されることによって、本システムが目指す会議支援が実現される。
【0090】
以上が本会議支援装置の基本的な動作であり、各端末装置Tnの入力部1から得られた音声入力が、必要に応じて自己以外の他の端末装置に送られ、それが各端末装置Tnの出力部4から音声出力として出力されることによって、会議の支援が実現される。
【0091】
ここでの端末装置Tnでの入力音声情報と端末間通信情報との比較によって授受される直接伝達制御情報を用いた出力音声の制御が、直接伝達判定手段および発言者判定手段の機能を実現している。
【0092】
また、《基本動作手順A》のステップA3において、入力音声情報Iiの発言者にもっとも近い端末装置が端末装置Tiであることとする処理によって、各発言の発言者を決定する発言者決定手段が実現されている。
【0093】
以上が本装置とその機能である。
ここで先ず上述した会議支援装置での処理における各端末装置の動作について、図1〜図6を参照して更に詳しく具体的に説明する。
【0094】
図6は、4人の会議参加者Ai、Aj、Ak、Alが、それぞれの端末装置Ti、Tj、Tk、Tlを持って会議を行なっている場面を示しており、会議参加者Aiが「こんにちは…」という音声入力Viを行なうという具体的な例を表している。
【0095】
この発声動作により、各端末装置Ti、Tj、Tk、Tlにおいて《基本的動作規則A》に沿った処理が次のように行なわれる。
〔端末装置Tiの動作〕
端末装置Tiは「こんにちは…」という音声をした会議参加者Aiが携えた端末装置である。この発声により端末装置Tiではその制御部3の中央演算部3dが《基本動作規則A》のステップA1に従った処理を行なうことによって、その端末装置Tiの入力部1を介して得られた「こんにちは…」なる入力音声Viが当該端末装置Tiの制御部3内の入力情報記憶部3aに取り込まれる。
【0096】
つまり、ステップA1の処理によって制御部3内の入力情報記憶部3aには図3(a)のエントリPi1に示した如き内容が当該入力情報記憶部3aに開始時刻情報Aおよび強度情報Cと共に記録される。ここでの音声の強度は“10”であり、開始時刻はt1であったとする。
【0097】
その後、制御部3の中央演算部3dが《基本動作規則A》のステップA2,A3に従った処理を行ない、それが終わるとステップA4の処理を行なうことにより《基本動作手順C》が起動される。
【0098】
《基本動作手順C》の処理ではそのステップC1〜C3の処理を経る。この場合、端末装置Tiの制御部3における通信情報記憶部3cの内容は空であるため、制御部3の中央演算部3dはステップC4の処理へ進む。
【0099】
ステップC4では、端末装置Tiに入力された入力音声Viを含む端末間通信情報が生成され、他の端末装置Tj、Tk、Tlへの端末間通信情報Ci_j、Ci_k、Ci_lがそれぞれ順次送出される。
【0100】
後ほど説明するが、端末装置Tjから通信停止信号Djiが送信されたとすると、これを受けて中央演算部3dは《基本動作規則A》のステップA7に従った処理によって、当該通信停止信号Djiを受信した時点で、端末装置Tjへの端末間通信情報の送出処理を停止する。なお、その他の端末装置Tk、およびTlからの通信停止信号がないとすると、これら端末装置Tk、およびTlへの端末間通信情報の送出処理は、この例では、ずっと続けられることになる。
【0101】
〔端末装置Tjの動作〕
一方、端末装置Tjではその制御部3の中央演算部3dが《基本動作規則A》のステップA2に従った処理によって、端末装置Tiから送出された端末間通信情報Ci_jを、当該端末装置Tjの通信部2を通じて取り込み、これを当該端末装置Tjの制御部3の通信情報記憶部3cに図5(b)のエントリRj2の如く書き込むことで、通信情報記憶部3cに記録する。
【0102】
端末装置Tjでは次にその制御部3の中央演算部3dが《基本動作規則A》のステップA3に従った処理を行なうことによって、《基本動作手順B》を起動する。
【0103】
端末装置Tjでは次に中央演算部3dがステップB1の処理に進み、当該端末装置Tjの制御部3における入力情報記憶部3aから条件に合うエントリを検索する。
【0104】
一方、ある時刻t2において、会議参加者Aiの発生した発言の入力音声信号Viが端末装置Tjの入力部1に到達したとする。すると、当該端末装置Tjの制御部3における入力情報記憶部3aに、図3(b)のエントリPj2が記録されることになる。なお、ここで、音声入力信号の強度は“7”であったとする。
【0105】
そして、このPj2が、ステップB1あるいはステップB2での条件を満たしたとする。
すると端末装置Tjでは中央演算部3dがステップB4の処理で、端末装置Tiから送出され、自己に到達し、自己(端末装置Tj)の制御部3における通信情報記憶部3cのエントリRj2に記憶されている端末間通信情報Ci_jと、自己(端末装置Tj)の制御部3における入力情報記憶部3aのエントリPj2との間で、音声信号処理による類似性/同一性判定処理が行なわれる。
【0106】
この類似性/同一性判定処理において端末装置Tjの中央演算部3dはステップB5処理で、「同一であり」かつ「十分な強度を持つ(つまり、音声入力信号の強度が“7”であるから)」ことを表す条件が満足されることになるので、ステップB7の処理へと進む。
【0107】
端末装置Tjの中央演算部3dはステップB7で、エントリRj2の送出端末情報Eを参照し、送出元である端末装置Tiに対して、自己(端末装置Tj)の通信部2を通じて、通信停止信号Djiを送出する。
【0108】
この結果、上述の端末装置Tiから端末装置Tjへ行なわれていた端末間通信情報の送出が停止されることとなる。
次に端末装置Tjの中央演算部3dはステップB8の処理を行ない、自己の制御部3における通信情報記憶部3cのエントリRj2の状態情報Dの欄に記号「処理済」を記録する。
【0109】
次に端末装置Tjの中央演算部3dはステップB9の処理に移り、これにより《基本動作手順B》の処理が終了する。
〔端末装置Tkの動作〕
また、端末装置Tkではその制御部3の中央演算部3dが《基本動作規則A》のステップA2に従った処理を行なうことによって、前述の端末装置Tiから送出された端末間通信情報Ci_kを、自己(端末装置Tk)の通信部2を通じて取り込み、これを当該端末装置Tkの制御部3の通信情報記憶部3cに、図5(c)のエントリRk2の如く書き込むことで、自己の制御部3における通信情報記憶部3cに記録する。
【0110】
端末装置Tkでは次にその制御部3の中央演算部3dが《基本動作規則A》のステップA3に従った処理を行なうことによって、《基本動作手順B》が起動される。
【0111】
端末装置Tkでは次に中央演算部3dがステップB1の処理に進み、当該端末装置Tkの制御部3における入力情報記憶部3aから条件に合うエントリを検索する。
【0112】
一方、ある時刻t3において、会議参加者Aiの発生した発言の入力音声信号Viが端末装置Tkの入力部1に到達したとする。すると、当該端末装置Tkの制御部3における入力情報記憶部3aに、図3(c)のエントリPk3が記録されることになる。ここで、音声入力信号の強度は“4”であったとする。
【0113】
そして、このPk3が、ステップB1あるいはステップB2の条件を満たしたとする。
すると端末装置Tkでは中央演算部3dがステップB4の処理で、端末装置Tiから送出され、自己に到達し、自己(端末装置Tk)の制御部3における通信情報記憶部3cのエントリRk3に記憶されている端末間通信情報Ci_kと、自己(端末装置Tk)の入力情報記憶部3aのエントリPk3との間で、音声信号処理による類似性/同一性判定処理が行なわれる。
【0114】
この類似性/同一性判定処理において端末装置Tkの中央演算部3dはステップB5で、「同一である」が「十分な強度が無い(つまり、音声入力信号の強度が“4”であるから)」ために、条件が満足されないことから、ステップB6の処理へと進む。
【0115】
端末装置Tkの中央演算部3dはステップB6の処理で、エントリRk3の状態情報Eの欄に、記号「要出力」を記録する。
そして、次にステップB9の処理に移り、《基本動作手順B》を終了する。そして、ステップA5の処理に移る。
【0116】
端末装置Tkの中央演算部3dはステップA5に従った処理の結果、端末装置Tkの制御部3における通信情報記憶部3cのエントリRk3の状態情報Dの内容が「要出力」であることから、エントリRk3の音声波形情報Bの内容を、出力情報記憶部3bの新たなエントリQk3の出力音声情報記Aの欄に記録し、エントリRk3の状態情報Dに「処理済」を記録する。
【0117】
端末装置Tkの中央演算部3dは次に《基本動作規則A》のステップA6の処理に移り、ここで端末装置Tkの制御部3における出力情報記憶部3bの内容を参照して、新たに記録されたエントリQk3の音声波形情報Aの内容を、自己(端末装置Tk)の出力部3から音声として出力する。
【0118】
〔端末装置Tlの動作〕
一方、端末装置Tlではその制御部3の中央演算部3dが《基本動作規則A》のステップA2に従った処理によって、端末装置Tiから送出された端末間通信情報Ci_lを、自己(端末装置Tl)の通信部2を通じて取り込み、これを自己(端末装置Tl)の制御部3の通信情報記憶部3cに、図5(d)のエントリR14の如く書き込むことで、通信情報記憶部3cに記録する。
【0119】
端末装置Tlでは次にその制御部3の中央演算部3dが《基本動作規則A》のステップA3に従った処理を行なうことによって、《基本動作手順B》を起動する。
【0120】
端末装置Tlでは次にその制御部3の中央演算部3dがステップB1の処理に進み、自己(端末装置Tl)の制御部3における入力情報記憶部3aから条件に合うエントリを検索する。
【0121】
ここでは、該当するエントリが存在しないので、中央演算部3dはステップB3の処理へと進み、エントリRl4の状態情報Eの欄に、記号「要出力」を記録する。
【0122】
次に端末装置Tlの中央演算部3dはステップB9の処理に移り、これにより《基本動作手順B》を終了してステップA5の処理に移る。
次に端末装置Tlの中央演算部3dは《基本動作規則A》のステップA5に従った処理を行なう。その結果、自己の演算部3における通信情報記憶部3cのエントリRl4の状態情報Dの内容が「要出力」であることから、エントリR14の音声波形情報Bの内容を、出力情報記憶部3b‐iの新たなエントリQl4の出力音声情報記Aの欄に記録し、エントリRl4の状態情報Dに「処理済」を記録する。
【0123】
次に端末装置Tlの中央演算部3dは《基本動作規則A》のステップA6に従った処理によって、自己の演算部3における出力情報記憶部3bの内容を参照して、新たに記録されたエントリQl4の音声波形情報Aの内容を、自己(端末装置Tl)の出力部3から出力する。
【0124】
以上は具体的動作例を説明したが、さらに、上述した会議支援装置システムでの全体の動作の様子について、図7〜図11の例に係る全体の動作例((その1)〜(その5))を参照してわかり易く説明する。
【0125】
〔(その1)〕まず、図7において、会議参加者Aiが「こんにちは」と発声を行ない、その音声が、端末装置Tiの入力部1から、強度“10”の音声入力として取り込まれる。
【0126】
この発声音はやがて他の会議参加者Aj,Akの携える端末装置Tj、および端末装置Tkへも到達し、それぞれの端末の入力部1から取り込まれるが、発言した会議参加者Aiから遠い位置にある会議参加者Alの携える端末装置Tlへは到達しないものとする。
【0127】
〔(その2)〕
次に、図8において、端末装置Tiの内部で、《基本動作規則A》のステップA1に従った処理によって入力音声が記録される。
【0128】
つづいて、《基本動作規則A》のステップA4に従った処理によって《基本動作手順C》が起動されるが、自己(端末装置Ti)の通信情報記憶部3cの内容が空であるため、他の端末装置Tj、Tk、Tlに向けて、端末間通信情報Ci_j、およびCi_k、およびCi_lをそれぞれ送出し、それぞれの端末装置Tj、Tk、Tlでは自己の通信部2によりこれを受信してそれぞれ自己の端末間通信情報記憶部3cに記録する。
【0129】
〔(その3)〕
つぎに、図9において、まず端末装置Tjでは、自己の入力部1から直接到達した音声が強度“7”で入力されているものとすると、この入力音声と自己の端末間通信情報記憶部3cの内容の間で、同一/類似性判定処理が行なわれる。その結果、端末装置Tiからの通信によって得られた音声情報と直接到達した音声が、「同一であり」かつ直接到達した音声(強度は“7”)が「十分な強度を持つ」と判断される。
【0130】
その結果、端末装置Tjでは、この端末間通信情報の送出元である端末装置Tiに対して、通信停止信号Djiが送出される。つまり、「十分な強度を持つ」という判定基準を満たした場合には、その端末装置の制御部3から通信停止信号を送信するように通信部2に指令が出され、通信部2から送信元に対して、自己(端末装置Tj)に対する通信を停止する要求である通信停止信号(この場合はDji)が送出される。
【0131】
また端末装置Tkでは、自己の入力部1から直接到達した音声が強度“4”で入力されているものとすると、この入力音声と端末装置Tkの端末間通信情報記憶部3cの内容の間で、同一/類似性判定処理が行なわれる。そしてこの場合、端末装置Tiからの通信によって得られた音声情報と直接到達した音声が、「同一である」が端末装置Tkの入力部1で得た音声の強度が“4”のため、「十分な強度を持たない」と判断される。
【0132】
その結果、端末装置Tkの制御部3はこの端末間通信情報に含まれる音声信号は「要出力」であると判断して、端末装置Tkの出力部4からこの端末間通信情報に含まれる音声信号を音声として出力して、この端末装置Tkのユーザである会議参加者Tkに提供することになる。
【0133】
一方、端末装置Tlでは、会議参加者Alの位置から遠いため、この会議参加者Alの音声が直接到達しない。そのため、その端末装置Tlの入力部1からの会議参加者Alの音声入力は無く、その結果、端末装置Tlの制御部3は自己の端末間通信情報記憶部3cに含まれる音声信号は「要出力」であると判断して、端末装置Tlの出力部4から音声信号として出力させ、端末装置Tlのユーザである会議参加者Alに提供する。
【0134】
〔(その4)〕
つぎに、図10に示すように、端末装置Tiにおいて、端末装置Tjから送出された通信中止信号Djiが受信される。すると、端末装置Tiの制御部3は《基本動作規則A》のステップA7に従った処理を実施することによって、端末装置Tiから端末装置Tjへの端末間通信情報の送出を停止させる。
【0135】
〔(その5)〕
以上説明した如きの動作によって、図11に示すように会議参加者Aiの発言Viが、十分な音量で直接届く端末装置Tjに関しては、通信路による音声情報の伝達と端末装置Tjの出力部4からの音声出力が行なわれず、無駄な通信路の利用が避けられ、ハウリングも防止できる。
【0136】
また、発言者から直接伝達される発声音の音量が小さ過ぎる端末装置Tkと、音声音が届かない端末装置Tlへは、通信路による音声情報の伝達と、この伝達された音声情報を用いた端末装置の出力部からの音声出力が行なわれる。そして、これによって、移動可能な携帯端末装置による会議支援における通信路の有効利用が可能となり、また、不要な音声出力による障害の回避ができるなどの効果が得られる。
【0137】
以上の説明の如きの動作によって、ある会議参加者Aiの発言Viが、十分な音量で直接届く端末装置Tjに関しては、通信路による音声情報の伝達と端末装置からの音声出力が行なわれず、直接伝達する音量が小さ過ぎる端末装置Tkと、音声情報が届かない端末装置Tlへは、通信路による音声情報の伝達と、端末装置からの音声出力が行なわれることによって、移動可能な携帯端末装置による会議支援における、通信路の有効利用、不要な音声出力による障害の回避などの本発明の効果が実現できることになる。
【0138】
従って、本発明によれば、自立的にネットワークを形成できる情報機器あるいは携帯可能な情報機器の応用によって実現される携帯端末会議システムにおいて、周囲雑音などの環境条件の変化しても適切に必要な情報を伝達することが可能となる。
【0139】
また、参加者が会議途中に空間的に移動しても端末間で通信によって授受すべき情報を適切に決定し、適切な情報の伝達を行なうことが可能となる。
また、端末間で通信によって授受すべき情報を動的に決定することによって、端末間の通信路を効率的に利用することが可能となる。
【0140】
また、端末間で通信によって授受すべき情報を動的に決定することによって、ある端末からの出力が複数の端末の出力の代用とできる場合に、無駄な通信と出力を押さえることが可能となる。
【0141】
また、端末間で通信によって授受すべき情報を動的に決定することによって、複数の端末の出力の重複やエコーなどの現象を回避することが可能となる。
また、端末間で通信によって授受すべき情報を動的に決定することによって、ある端末の出力などが他の端末に入力され、再度出力されることによりループが形成され、ハウリングなどが起こることを回避することが可能となる。
【0142】
尚、本発明にかかる会議支援装置の効果も上述した例に限定されるものではない。例えば、上述の実施例では、音声情報の入出力および内部の処理でPCMディジタル方式を用いていたが、これもディジタル方式に限定されるものではない。
【0143】
また、各端末装置において、自己の入力部と出力部の位置関係およびそれぞれの入力音声信号と出力音声信号の内容は既知であるので、自己の出力信号を入力信号から差し引くキャンセレーションの従来技術を組み合わせることも可能である。
【0144】
さらに、同一音声判定である《基本動作手順B》のステップB4における閾値Wは、各端末装置の位置に於ける音声信号に対する会議参加者の要求に対応づけることができるので、この値を例えばボリュームなどによって調整できるようにすることで、各端末装置を持つ会議参加者がそれぞれの希望に沿った音量での会議音声を得ることができる。
【0145】
さらに、上述の実施例で示した会議支援装置では、そのアルゴリズムから、ある端末装置から送信された音声情報を、複数台の端末装置で音声出力する必要があるような場合でも、そのなかの一部が出力を開始することによって(いわばサテライト的に配置されることによって)、その出力が他の端末装置に到達することによって、その他の端末装置での音声出力とそこへの通信が不要になることによって、さらに効率的な通信資源の活用が可能となる。
【0146】
さらに、上述の実施例で示した会議支援装置では、そのアルゴリズムから、複数の端末装置の間で、閾値Wを高い値に設定した端末装置から優先して音声が出力されるようになっており、高い閾値Wを設定した端末装置が上述のサテライトとして機能するようにすることが可能である。
【0147】
また、上述の例では、各端末装置での音声入力信号と通信される信号との比較処理によって、ある発言の発言者と近接する端末装置を判定しているが、例えば、会議参加者の顔画像を処理する視覚情報などを利用した方法によっても、発言者の判定を行なうことが可能であり、それによって本発明を実現することも可能である。
【0148】
また、同一音声判定処理BのステップB1では、時間情報に対する不等号式によって、同一性の判定における条件付けを行なっているが、ここで音声波の伝達遅延や端末装置の入/出力部での遅延、および処理における遅延を考慮した条件を設定することによってより精度を向上させることも可能である。
【0149】
また、会議記録の蓄積を行なう会議支援装置においても本発明の技術を併用することが可能である。
また、イヤホンやヘッドホンといった機器を併用する端末装置を一部含む利用形態においても、本発明の効果を同様に得ることができる。
【0150】
また、本具体例では、会議支援における音声情報の授受を例題として説明を行なったが、扱う情報は音声情報に限定されるわけではない。
また、上述の具体例では、対等の立場にある複数の端末装置が協調動作して本発明の効果を発揮する例を示したが、たとえば1つの中央処理装置としての役割を持つ装置を設定した形態でも同様の効果を得ることができる。
【0151】
【発明の効果】
以上説明したように、本発明によれば、自立的にネットワークを形成できる情報機器あるいは携帯可能な情報機器の応用によって実現される携帯端末会議システムに於いて、周囲雑音などの環境条件の変化しても適切に必要な情報を伝達することが可能となる。
【0152】
また、参加者が会議途中に空間的に移動しても端末間で通信によって授受すべき情報を適切に決定し、適切な情報の伝達を行なうことが可能となる。
また、端末間で通信によって授受すべき情報を動的に決定することによって、端末間の通信路を効率的に利用することが可能となる。
【0153】
また、端末間で通信によって授受すべき情報を動的に決定することによって、ある端末からの出力が複数の端末の出力の代用とできる場合に、無駄な通信と出力を押えることが可能となる。
【0154】
また、端末間で通信によって授受すべき情報を動的に決定することによって、複数の端末の出力の重複やエコーなどの現象を回避することが可能となる。
また、端末間で通信によって授受すべき情報を動的に決定することによって、ある端末の出力などが他の端末に入力され、再度出力されることによりループが形成され、ハウリングなどが起こることを回避することが可能となる等の実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の具体例の説明をするための図であって、本発明による会議支援装置の構成例を示すブロック図。
【図2】本発明の具体例の説明をするための図であって、本発明による会議支援装置の制御部3の構成例を示すブロック図。
【図3】本発明の具体例の説明をするための図であって、入力情報記憶部3aの内容の例を示す図。
【図4】本発明の具体例の説明をするための図であって、出力情報記憶部3bの内容の例を示す図。
【図5】本発明の具体例の説明をするための図であって、通信情報記憶部3cの内容の例を示す図。
【図6】本発明の具体例の説明をするための図であって、具体的動作例の説明図。
【図7】本発明の具体例の説明をするための図であって、本発明の会議支援装置の全体の動作例(その1)を説明するための図。
【図8】本発明の具体例の説明をするための図であって、本発明の会議支援装置の全体の動作例(その2)を説明するための図。
【図9】本発明の具体例の説明をするための図であって、本発明の会議支援装置の全体の動作例(その3)を説明するための図。
【図10】本発明の具体例の説明をするための図であって、本発明の会議支援装置の全体の動作例(その4)を説明するための図。
【図11】本発明の具体例の説明をするための図であって、本発明の会議支援装置の全体の動作例(その5)を説明するための図。
【符号の説明】
1…入力部
2…通信部
3…制御部
3a…入力情報記憶部
3b…出力情報記憶部
3c…通信情報記憶部
3d…中央演算装置
4…出力部
Ti,Tj,Tk,Tl…端末装置。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a conference support system and a control method for a conference support system for supporting a conference held in person or remotely.
[0002]
[Prior art]
In recent years, with the progress of computer technology and communication technology, to process multimedia information such as audio information, image information including still images and moving images, as well as text information, and to communicate such multimedia information In order to support human activities such as communication and collaborative work, or activities that use computer services together, groupware technology or CSCW (Com pu ter Suppo rt ed Cooperative Work) technology is being developed.
[0003]
Under these circumstances, there is a growing demand for the realization of equipment that supports conferences in a new form using CSCW technology. For example, "" Information Processing Society of Japan / Author of Ishii / Groupware Various conference support systems such as “Colab (Xerox)” introduced in the classification of groupware systems as shown in FIG. 3.1 ″ in “Design” have been prototyped.
[0004]
In these conference support systems, a conference is supported by communicating with a conference room between terminal devices such as a television camera, a large screen, a microphone, a speaker device, or a computer terminal via a communication line.
[0005]
In many conventional conference support systems, a CSCW environment is realized by equipment that is fixed in position. Even in a conference support system configured to perform remote communication, individual equipment Most of them were assumed to be used in a fixed location environment.
[0006]
However, with the recent progress in computer technology and communication technology, it is possible to apply a technology such as a communication control method as disclosed in Japanese Patent Laid-Open No. 6-075757 and form a portable and autonomous network. New information processing equipment has been proposed.
[0007]
This technology increases the demand for using portable information processing terminal devices in various places, for example, around your desk, in other rooms in the room, or outdoors or in moving vehicles. It was developed to respond to the application of intelligent terminals such as notebook personal computers and personal digital assistants (PDAs), and it is self-supporting between these terminals just by bringing such terminals. The wireless communication network is constructed to operate so that they can communicate with each other. Therefore, by simply bringing such a terminal, anyone can exchange multimedia information easily by using that terminal. It is a technology of information processing equipment that can be made (The Institute of Electronics, Information and Communication Engineers Technical Report-SSE94-219, in 94-161,199 (See 5/3).
[0008]
Furthermore, by applying this technology, a conference support system (Information Processing Society of Japan multimedia communication) When It is also possible to configure the distributed processing study group document 68-21 and groupware study group document 9-21, 1995.1.27). For example, the necessary information distributed as documents in the conventional conference Sent to the screens of personal computers and personal digital assistants used by other conference participants, and sent and distributed information such as annotations added on the terminals during the conference to the terminals of individual conference participants It is also possible to share information and send / receive information appropriately when there is a participant who joins or leaves the conference. It will be.
[0009]
Information processing equipment that can be carried and used by being moved, or information processing equipment that can form a network autonomously (hereinafter referred to as “portable terminal” or simply “terminal”) ), And in a conference support system (hereinafter referred to as “mobile terminal conference system”) realized by each participant carrying such a mobile terminal, the fixed equipment is used. The following unique problems that did not need to be considered in the conventional conference support system will emerge.
[0010]
That is, in order to realize conference support, a terminal device to be used needs a function for enabling voice exchange, text exchange, image exchange, and the like. There is a need for a function for communicating and delivering multimedia information such as voice and images that are input or stored and prepared as appropriate to other terminals.
[0011]
For example, when considering speech information such as the speeches of conference participants, when other conference participants are in remote locations, in other rooms, even if they are in the same room, the distance is far away, ambient noise, etc. Therefore, when the voice of a far-off speaker is not directly reachable, the voice information is transmitted to the corresponding terminal using the communication path between the terminals, and the receiver's terminal It becomes possible to hear by reproducing and outputting as audio, and the conference can be supported.
[0012]
Since the conventional conference support system assumes use in a locationally fixed environment, with regard to the transmission of the audio signal as described above, it is transmitted and played only to a remote place, and direct audio arrives. Such transmission and playback functions are not prepared between adjacent terminals, or playback is performed at a fixed output level.
[0013]
However, in the mobile terminal conference system, since individual terminals are movable, a fixed positional relationship cannot be assumed, and the positional relationship may differ every time it is used. Therefore, in the simplest case, it is considered that the terminal device is provided with a function for sending / receiving voice information and a function for outputting the voice information as voice so that voice information can be exchanged / output with voice. However, in this case, in the terminal device in the vicinity of the speaker, the voice of the speaker reaches the sufficient level directly, but the voice output is used unnecessarily, which makes it difficult to hear.
[0014]
In addition, since the location where the conference is held is not limited to a specific location, environmental conditions such as ambient noise are not fixed, and a range in which information such as voice spoken by the participant is directly transmitted is fixedly set. I can't leave it.
[0015]
Furthermore, since the terminal device can be transported, if the participant moves a location during the conference, the terminal device carried by the participant will also move, and the combination of terminals to which information should be transmitted may vary due to communication. There is.
[0016]
In such a conference support system using a portable terminal device that is not guaranteed to be used in a fixed environment, various problems as described above emerge.
Furthermore, the communication as described above between all the terminals is uneconomical and inefficient in terms of the limitation of the channel bandwidth available between the terminals and the effective use of the channel resources and driving energy. This is a major problem when considering the situation where it is unavoidable that communication of a larger amount of information will be required in the future.
[0017]
In addition, for example, capturing voices of conversation participants from a certain terminal, communicating with all other terminals, and reproducing them as voice signals at each terminal is a waste of communication resources as described above and direct voice. If more than one of the output sounds of each terminal can be heard by the dialogue participant, the respective audio signals may cause duplication or interference.
[0018]
Furthermore, when information transmitted from all terminals is output as audio as described above, the audio signal sent from a plurality of terminals becomes the audio output of another terminal and is picked up by the terminal having the audio output. There is a possibility that a loop is formed by transmission through communication, and a phenomenon such as echo or howling is caused to hinder smooth progress of the conference.
[0019]
[Problems to be solved by the invention]
A mobile terminal having a function of capturing sound into a terminal device, a function of transmitting the sound, a function of outputting the captured sound or transmitted sound, and a function of distributing and displaying text and images Mobile terminal conferencing systems that use and support conferences have been proposed.
[0020]
In such a portable terminal conference system, individual terminals are movable, and it is not possible to prevent the positional relationship of individual terminals from being different every time they are used. It cannot be assumed.
[0021]
In addition, in the mobile terminal conference system, there is an advantage that the place where the conference is held is not limited to a specific place, but on the other hand, environmental conditions such as ambient noise are not fixed. Since it is not possible to set a fixed range for direct transmission of information such as voice, it is necessary to take countermeasures.
[0022]
Furthermore, in the mobile terminal conference system, since the terminal can be transported, it is possible for a conference participant to move in the middle of the conference together with the terminal that he / she carries. Combinations can vary.
[0023]
Therefore, it is conceivable to transmit the input information such as the speech of the conference participant between all the terminals to other terminals. Because communication is performed directly between terminals that do not need to communicate because they are transmitted directly without going through the communication path between terminals, the communication channel bandwidth that can be used between terminals is limited or effectively used. There is a problem of becoming uneconomical and inefficient from the viewpoint of this.
[0024]
Furthermore, the transmission of input information such as speeches of conference participants to other terminals between all terminals means that the output from both terminals can be transmitted between adjacent terminals such as audio signals. There is a possibility of overlapping or interfering with each other, and the duplication causes a phenomenon such as an echo and adversely affects the progress of the conference.
[0025]
Furthermore, the transmission of input information such as speeches of conference participants to other terminals between all terminals means that a loop is formed by the output of one device being input again to another device. This causes problems such as howling, which can adversely affect the progress of the conference.
[0026]
Due to such a situation, there are many problems at present in constructing a conference support system using information devices that form a network autonomously or portable information devices as they are.
[0027]
Therefore, the present invention was made in consideration of such circumstances, as a portable terminal conference system realized by application of information equipment that can form a network autonomously or portable information equipment, including ambient noise, A conference support system that enables a conference support by realizing a rational terminal device that can transmit and output audio information only when necessary without being affected by changes in environmental conditions. It is to provide a meeting support method.
[0028]
In addition, a conference support system and a conference that enable conference support by realizing a terminal device that can appropriately determine information to be exchanged between terminals even if a conference participant moves spatially during the conference It is to provide a control method of a support system.
[0029]
[Means for Solving the Problems]
In order to achieve the above object, the present invention is configured as follows. That is, an input unit that captures audio and obtains an audio signal, a communication unit that receives the transmitted audio signal and transmits the audio signal from the input unit or the received audio signal, and the input unit Or a plurality of terminal devices each having output means for outputting the sound signal received by the communication means as sound, establishing a communication path between each terminal device, In a conference support system that can send and receive audio signals,
First,
The terminal device
The voice output of the output unit is controlled in accordance with the inter-terminal communication information from the other terminal device obtained from the input unit and the communication unit, and the information obtained from the input unit or the other obtained from the communication unit Control means for outputting information from the terminal device from the communication means;
It is set as the structure comprised.
[0030]
Secondly,
When the intensity information of the audio signal is acquired, and the intensity information is sufficient, the audio output from the output unit is stopped, and the audio signal is transmitted to the other terminal device together with the intensity information by the communication unit. ,
If the acquired intensity information of the audio signal is not sufficient, an audio output is generated from the output means using an audio signal having a higher intensity of the audio signal and an audio signal received by the communication means. I made it.
[0031]
In the present invention, the voice of the speaker, the output voice from another terminal device, etc. are collected by the input means, converted into a voice signal, the intensity information of the voice signal is acquired, and the intensity information is sufficient The voice output from the output means is stopped, and this voice signal is transmitted to the other terminal device by the communication means together with the intensity information,
If the acquired intensity information of the audio signal is not sufficient, an audio output is generated from the output means using the audio signal having the higher intensity of the audio signal and the audio signal received by the communication means.
[0032]
Third, the intensity information of the audio signal is acquired, and if the intensity information is sufficient, the audio output from the output means is stopped, and the audio signal is sent to the communication means together with the intensity information. To the other terminal apparatus, and when the intensity information of the audio signal from the input means is equal to or higher than a predetermined level, a request to stop transmitting the audio signal to itself is transmitted to the transmitting terminal apparatus. To stop sending,
If the acquired intensity information of the audio signal does not indicate a sufficient level, the audio signal is output from the output unit using the audio signal having the higher intensity of the audio signal and the audio signal received by the communication unit. Generate output.
[0033]
DETAILED DESCRIPTION OF THE INVENTION
The present invention includes an input unit that captures audio and obtains an audio signal, a communication unit that receives the transmitted audio signal and transmits the audio signal from the input unit or the received audio signal, and the input A system comprising a plurality of terminal devices each having a voice signal from the means or an output means for outputting the voice signal received by the communication means as a voice, and establishing a communication path between the terminal devices In a conference support system that can send and receive audio signals,
The terminal device
According to the information from the other terminal device obtained from the input means and the communication means, the voice output of the output means is controlled, and the information obtained from the input means or the other terminal device obtained from the communication means Control means for controlling the output of information from the communication means;
It is set as the structure comprised.
[0034]
In particular, the control means acquires the intensity information of the audio signal, stops the audio output from the output means if the intensity information is sufficient, and the audio signal is sent to the communication means together with the intensity information. When the intensity information of the audio signal from the input means is equal to or higher than a predetermined level, a request to stop transmitting the audio signal to itself is transmitted to the terminal device of the transmission source. When transmission is stopped and the intensity information of the acquired audio signal does not indicate a sufficient level, the higher audio signal of the audio signal and the audio signal received by the communication means is used. And a function of controlling to generate a sound output from the output means.
[0035]
In the present invention, the voice of the speaker, the output voice from another terminal device, etc. are collected by the input means, converted into a voice signal, the intensity information of the voice signal is acquired, and the intensity information is sufficient The voice output from the output means is stopped, and the voice signal is transmitted to the other terminal device by the communication means together with the intensity information, and when the intensity information of the acquired voice signal is not sufficient, A voice output is generated from the output means by using a voice signal having a higher intensity among a voice signal and a voice signal received by the communication means.
[0036]
Therefore, according to the present invention, in a portable terminal conference system realized by application of information equipment that can form a network autonomously or portable information equipment, a place where a voice of a speaker is sufficiently reached or a nearby terminal device The output of the voice from its own terminal device can be suppressed when the output voice of the terminal is sufficiently reached, and the voice of the speaker or the output voice of the nearby terminal device cannot be sufficiently reached from the own terminal device. Necessary information can be transmitted appropriately even in response to changes in environmental conditions, such as being able to output and listen to sound.
[0037]
Further, in this system, when the intensity information of the audio signal from the input means is equal to or higher than a predetermined level, a request for stopping transmission of the audio signal to itself is transmitted to the transmission source terminal device to stop transmission. Let Therefore, unnecessary communication is not required, and communication resources and power energy can be saved.
[0038]
Also, in this system, communication information between terminals including at least a part of the audio signal obtained from the input means by each terminal device is exchanged by the communication means, and the audio signal obtained from the input means by the control means Determine the nearest terminal for each utterance of each conference participant by comparing the correlation between the terminal communication information obtained from the communication means and estimating the transfer function, etc. The control means is provided with a function for determining the information to be exchanged by communication between the terminals based on the speaker determination means that can be performed and the information obtained by the speaker determination means.
[0039]
Alternatively, based on the information obtained by the speaker determining means, the control means determines the contents of the audio output of each terminal device.
Alternatively, the communication means transmits / receives inter-terminal communication information including at least a part of the voice signal obtained from the input means in each terminal device by the control means, and the voice signal obtained from the own input means and the own communication. A terminal to which the speech signal of the utterance directly arrives for each utterance of the conference participant by comparing the correlation between the terminal communication information obtained from the means and estimating the similarity by estimating the transfer function, etc. And determining information to be exchanged by communication between terminals based on information obtained by the direct transmission determination unit.
[0040]
Alternatively, the control means determines the output content of the audio output signal of each terminal based on the information obtained by the direct transmission determination means.
Alternatively, the control means is based on terminal communication information including a part of the voice input signal and at least a part of the operation status of the input means, the output means, the speaker determination means, or the direct transmission determination means in each terminal. The input audio signals are transmitted through the communication path, and a terminal to output audio is determined.
[0041]
As a result, selection control can be performed such that information is transmitted to which terminal and voice is output and which terminal is not allowed to perform the operation, and a wasteless operation can be automatically performed.
[0042]
Therefore, according to the present invention, in a portable terminal conference system realized by application of information equipment that can form a network autonomously or portable information equipment, a place where the voice of the speaker can reach directly or nearby terminals When the output sound of the device is sufficiently reached, the output of the sound from the terminal device can be suppressed, and when the voice of the speaker or the output sound of the nearby terminal device is not sufficiently reached, the terminal device of the own device Therefore, necessary information can be appropriately transmitted even in response to changes in environmental conditions.
[0043]
In addition, since the information to be exchanged between the terminal devices is dynamically determined, when the audio output from one terminal device can be heard sufficiently by the owner of another terminal device, Since voice output can be stopped, useless communication and voice output can be suppressed, and a communication path between terminal devices can be used efficiently.
[0044]
Further, even if a participant carrying the terminal device moves in the middle of the conference, it is possible to appropriately determine information to be exchanged between the terminal devices by communication and to transmit appropriate information.
[0045]
In addition, since information to be exchanged between terminals is dynamically determined, it is possible to avoid a phenomenon such as duplication or echo of voice output of a plurality of terminals. In the present invention, it is avoided by dynamically determining the information to be exchanged between the terminal devices by the fact that a loop is formed and howling occurs by being input to another terminal device and output again. It becomes possible.
[0046]
As described above, this system has a voice input means from a speaker or the like, a voice transmission / reception means, and a voice output means, and independently links communication paths between neighboring terminal devices. When using a terminal device that can send and receive voice information, the level of the input voice is checked, the output from the voice information output means according to the input level, and the link destination partner terminal The transmission was controlled. Therefore, if the voice is loud, the voice output from the terminal is stopped, and if the voice is low, the voice output from the terminal is executed, and the voice transmission is stopped or executed in response to the situation. In addition, it is possible to prevent howling and to obtain features such as optimal voice transmission control, such as suppression of useless voice transmission. Become.
[0047]
(More specific embodiments)
A conference support apparatus and method according to an embodiment of claim 6 of the present invention will be described below with reference to the drawings.
[0048]
[Configuration of this device]
FIG. 1 shows an outline of the configuration of a conference support apparatus as a specific embodiment of the present invention.
[0049]
In FIG. 1, Tn (n = i, j, k, l,...) Represents a terminal device that constitutes the conference support device, and the terminal device Tn includes an input unit 1 and a communication unit. 2, the control unit 3 and the output unit 4. This terminal device Tn is an information processing device that can be carried by individuals and moved and used, and if there is another similar type of terminal device in the vicinity, it can be networked with it independently. .
[0050]
Among these, the input unit 1 represents an input unit composed of a microphone, an amplifier, an A / D (analog / digital) conversion device, and the like, and the terminal device user's speech, ambient noise, or other terminal devices A voice signal such as an output voice is collected and sent to the control unit 3 as voice input information.
[0051]
The communication unit 2 is a communication means having a transmission / reception circuit for wireless transmission using radio waves or infrared rays, or a transmission / reception circuit for performing wired transmission such as a communication cable, and communicates with other terminal devices independently. A communication path is established by linking lines, and communication information between terminals transmitted from other terminal devices is received and sent to the control unit 3 of the own terminal device, or based on the control of the control unit 3, an input unit The voice input information input from 1 can be transmitted to other terminal devices.
[0052]
The control unit 3 generates the inter-terminal communication information and the output audio information, and the input unit 1 and the communication according to the input voice information, the inter-terminal communication information, and the operation status of the input unit 1, the communication unit 2, and the output unit 4. This is the center of arithmetic control for performing operation control of the unit 2 and the output unit 4.
[0053]
FIG. 2 is a block diagram showing the configuration of the control unit 3, and includes an input information storage unit 3a, an output information storage unit 3b, a communication information storage unit 3c, and a central processing unit 3d. In FIG. 2, solid arrows indicate the flow of data, and broken arrows indicate the flow of control signals.
[0054]
Among these, the input information storage unit 3a is a storage unit that appropriately records the input voice information obtained from the input unit 1 together with time information, and the storage information is configured to be referred to from the central processing unit 3d.
[0055]
FIG. 3 shows an example of the contents of the input information storage unit 3a in the control unit 3 of each terminal device Tn (n = i, j, k, l,...). The voice input information I obtained from the input unit 1 is shown in FIG. Are classified and recorded as start time information A, speech waveform B, intensity information C, and the like.
[0056]
Note that (a), (b), (c), and (d) in FIG. 3 represent examples of the contents of the input information storage units 3a of the terminal devices Ti, Tj, Tk, and Tl, respectively.
As shown in FIG. 3, an entry (storage address), start time information A, speech waveform information B, and intensity information C are stored in the input information storage unit 3a. In each entry, the time information t1 that is the time when the input of the input voice information Ii is started is recorded in the start time information A column.
[0057]
In the voice waveform information B column, information on the input voice waveform obtained by the input unit 1 is recorded in the form of, for example, a PCM (pulse code modulation) digital waveform. In the column, for example, information indicating the intensity of the input speech waveform based on the amplitude or the like is recorded.
[0058]
In FIG. 3 and the like, the voice waveform B column shows the result of writing the corresponding voice instead of the voice waveform for convenience of description.
Returning to the description of FIG. The output information storage unit 3b in FIG. 2 is storage means for appropriately recording output audio information obtained from the central processing unit 3d and to be output as audio output from the output unit 4, and the recorded contents are stored in the central processing unit. 3d and the output unit 4 can be referred to.
[0059]
4A to 4D show an example of the contents of the output information storage unit 3b in each of the terminal devices Ti to Tl. In accordance with the control of the control unit 3d in each of the terminal devices Ti to Tl, the communication information storage unit The voice waveform information obtained from 3c or the like is recorded in the column of output voice waveform information A in the form of, for example, a PCM (pulse code modulation) digital waveform.
[0060]
Also in FIG. 4 and the like, the output voice waveform A column shows the result of writing the corresponding voice instead of the waveform for convenience of description.
Moreover, the symbol “...” And the symbol “−” in the figure indicate that parts that do not need to be clearly specified in the description are omitted (the same applies hereinafter).
[0061]
Moreover, (a), (b), (c), and (d) of FIG. 4 represent examples of the contents of the output information storage units 3b of the terminal devices Ti, Tj, Tk, and Tl, respectively.
Returning to the description of FIG. The communication information storage unit 3c in FIG. 2 is a storage unit that appropriately records the inter-terminal communication information obtained from the communication unit 2 and the inter-terminal communication information generated by the central processing unit 3d. It can be referred to from the central processing unit 3d.
[0062]
5A to 5D show examples of the contents of the communication information storage unit 3c of each terminal device Ti, Tj, Tk, Tl, and information from other terminals obtained from the communication unit 2 is started. The time information A, voice waveform information B, intensity information C, state information D, and transmission source terminal identification information E are classified and recorded.
[0063]
That is, each entry of the communication information storage unit 3c including the recorded content as shown in FIG. 5 includes start time information A, voice waveform information B, intensity information C, transmission source terminal identification information E, and status information D, respectively. The start time information A, the voice waveform information B, and the intensity information C of the input voice information Ix included in the terminal-to-terminal communication information Cx corresponding to this entry are recorded in correspondence with the start time information A, It is recorded so as to correspond to the fields of the speech waveform information B and the intensity information C, and the identification symbol of the terminal device that has transmitted the inter-terminal communication information Cx is recorded in the field of the transmission source terminal identification information E. I have to.
[0064]
Further, in the column of status information D, “unprocessed”, “outputting”, “already output”, “same”, “not identical”, “required” indicating the status of processing by this terminal device for this entry. Symbols such as “output” and “same but need output” are recorded.
[0065]
Also in FIG. 5 and the like, in the column of the output voice waveform A, the result of writing the corresponding voice instead of the waveform is shown as recorded contents for convenience of description.
Further, (a), (b), (c), and (d) of FIG. 5 represent examples of the contents of the communication information storage units 3c of the terminal devices Ti, Tj, Tk, and Tl, respectively.
[0066]
The central processing unit 3d in FIG. 2 plays a central role in calculation and control. The central processing unit 3d refers to the contents of the input storage unit 3a, the output information storage unit 3b, and the communication information storage unit 3c. It controls each component in the control unit 3 such as the unit 1, the communication unit 2 and the output unit 4, and the input information storage unit 3a, the output information storage unit 3b, and the communication information storage unit 3c.
[0067]
The operation of the control unit 3 plays a central role in the realization of the present invention, and will be described in detail later.
An output unit 4 in FIG. 1 is an output means including a speaker, an amplifier, a D / A (digital / analog) converter, and the like. The output audio information obtained from the control unit 3 is converted into audio information input from the input unit 1, Alternatively, it has a function of outputting voice input information obtained by communication using the communication unit 2 or voice input information recorded and held in the control unit 3 as a voice output in accordance with control from the control unit 3. .
[0068]
The above is the outline of the configuration of the present apparatus.
[Operation of this device]
Next, the operation of this apparatus will be described.
[0069]
In the conference support device according to this example, the central processing unit 3d of the control unit 3 of each terminal device Tn (n = i, j, k, l...) Performs the following main control, input / output and recording processing << basic operation This is realized by operating according to Rule A >>. The central processing unit 3d of each terminal device (for example, Ti) is controlled according to the following << basic operation rule A >> and operates in parallel.
[0070]
<< Basic operation rule A >>
[Step A1]. When the input voice is obtained from the input unit 1 of the own terminal device, a new entry (for example, Vi) is provided in the input information storage unit 3a of the own terminal device, and the voice waveform information together with the start time information A and the intensity information C Record B sequentially.
[0071]
[Step A2]. When communication information (for example, Cx_i) transmitted from another terminal device (for example, Tx) is obtained in the communication unit 2 of the own terminal device, a new information is stored in the communication information storage unit 3c (for the terminal device Ti). The voice waveform information B is sequentially recorded together with the start time information A, the intensity information C, the status information D, and the transmission terminal identification information E. The symbol “unprocessed” is recorded in the status information D column.
[0072]
[Step A3]. For a newly recorded entry (for example, Wx_i) in the communication information storage unit 3c, a series of processes according to << basic operation procedure B >> which is the same voice determination process described below is performed.
[0073]
[Step A4]. When this is completed, a series of processes according to the following << basic operation procedure C >>, which is a similarity / identity determination process, is performed in parallel for the entry (for example, Vi) newly recorded in the input information storage unit 3a. To do.
[0074]
[Step A5]. Next, referring to the contents of the communication information storage unit 3c of the terminal device itself, the contents of the audio waveform information B of each entry (for example, Wx_i) whose status information D is “output required” are stored in the output information storage unit 3b. Is recorded in the column of output audio information A of the new entry, and “processed” is recorded in the status information D of the entry Wx_i.
[0075]
[Step A6]. Next, referring to the content of the output information storage unit 3 b of the terminal device, the content of the audio waveform information A of the newly recorded entry is output from the output unit 3.
[0076]
[Step A7]. When the communication unit 2 of the own terminal device receives a communication stop signal Di_x from a certain other terminal device (for example, Tx), there is transmission of communication information between terminals currently being transmitted to the terminal device Tx. In this case, the communication is stopped and the communication toward the terminal device Tx ends.
[0077]
The above is the content of the “basic operation procedure A” which is the main control and voice input / output and recording processing. The << basic operation procedure B >> as the same voice determination process in the terminal device (for example, Ti) is performed according to the following procedure (Note that the process is performed for a certain entry Wx_i in the inter-terminal communication information storage unit 3c). And).
[0078]
<< Basic operation procedure B (same voice determination process) >>
[Step B1]. The time Tw of the start time information A of the entry Wx_i and a predetermined small value are set as t,
Tw−t <T ≦ Tw
It is checked whether or not there is an entry Vi in the input information storage unit 3a having the time T satisfying the following condition in the start time information A. As a result, if it exists, the process proceeds to step B4. move on.
[0079]
[Step B2]. Suppose that a certain small value is set to s, and about time Tw until time Tw + s.
Tw <T <Tw + s
It is checked whether or not the entry Vi of the input information storage unit 3a of the terminal device Ti having the time T satisfying the following condition is included in the start time information A. If it is input, the process proceeds to step B4. Proceed to the next step B3.
[0080]
[Step B3]. “Required output” is recorded in the field of status information E of entry Wx_i, and the process proceeds to step B9.
[Step B4]. Transfer function estimation processing in cancellation technology in speech processing signal processing, similarity comparison processing by time series patterns of frequency analysis results in speech recognition technology, similarity comparison processing by dynamic programming (DP) and neural Similarity / identity determination is performed between the speech waveform information B of the entry Vi and the speech waveform information B of the Wx_i by a similarity determination process between speech signals according to a conventional technique using a network or the like.
[0081]
[Step B5]. In the similarity / identity determination in step B4, when similarity equal to or greater than a predetermined threshold u is obtained and the value of the intensity information C of the entry Vi is equal to or greater than a predetermined threshold v Proceed to step B7. If it is not greater than or equal to the threshold value v, the process proceeds to step B6.
[0082]
[Step B6]. The symbol “output required” is recorded in the state information E column of the entry Wx_i, and the process proceeds to Step B9.
[Step B7]. In step B7, first, the transmission terminal identification information E of the entry Wx_i is referred to, and a communication stop signal Di_x is transmitted to the terminal device (for example, the terminal device Tx) that has transmitted the inter-terminal communication information. Then, the process proceeds to step B8.
[0083]
[Step B8]. In step B8, the symbol “processed” is recorded in the state information E column of the entry Wx_i. Then, the process proceeds to step B9.
[Step B9]. Step B9 is the end of the subroutine. The “basic operation procedure B” relating to the entry Wx_i is terminated, and the process proceeds to step A5 of the “basic operation rule A”.
[0084]
The above is the content of << basic operation procedure B >> which is a process for determining the same voice. Next, the content of << basic operation procedure C >> which is a similarity / identity determination process will be described. The << basic operation procedure C >> in the terminal device (e.g., Ti) is performed in accordance with the following procedure (note that processing is performed for an entry Yi in the input information storage unit 3ai (subscript i is the terminal device Ti). Is a component of)).
[0085]
<< Basic operation procedure C >>
[Step C1]. When processing moves from step A4 to step C1, here , First, with respect to the time Ty recorded in the start time information A of the entry Yi, the start time is determined by using a certain small value p and a certain small value q, and the time Tw satisfying the condition Ty−p <Tw and Tw <Ty + q. The following steps C2 to C3 are executed for each entry (Wj_i) in the information A column.
[0086]
[Step C2]. Transfer function estimation processing in cancellation technology, etc. in speech signal processing, similarity comparison processing between time series patterns of frequency analysis results in speech recognition technology, similarity programming by dynamic programming (DP), and neural network The similarity / identity determination is performed between the speech waveform information B of the entry Vi and the speech waveform information B of the Wj_i by the similarity determination processing between the speech signals according to the prior art using the above.
[0087]
[Step C3]. In step C2, when similarity equal to or higher than a predetermined threshold u is obtained and the value of the intensity information C of the entry Vi is equal to or higher than a predetermined threshold v, <basic operation procedure C> related to the entry Wj_i Terminate the process.
[0088]
[Step C4]. With reference to the start time information A, voice waveform information B, and intensity information C of the entry Vi, new inter-terminal communication information (for example, Ci_j, Ci_k,...) For other terminal devices (for example, Tj, Tk,...). ) And sent through the communication unit 2. It should be noted that the identification symbol “Ti” of the terminal device Ti is recorded in the transmission source terminal identification information E column.
[0089]
[Step C5]. When this is finished, the above <Basic operation procedure C> processing is terminated.
In the above-mentioned << basic operation rule A >> (main control and input / output and recording process), << basic operation procedure B >> (same voice determination process), and << basic operation procedure C >> (similarity / identity determination process) By performing the process along each terminal device Tn, the conference support aimed by the present system is realized.
[0090]
The basic operation of the conference support apparatus is as described above, and the voice input obtained from the input unit 1 of each terminal apparatus Tn is sent to other terminal apparatuses other than itself as necessary. By outputting as an audio output from the output unit 4 of Tn, conference support is realized.
[0091]
The control of the output voice using the direct transmission control information exchanged by comparing the input voice information and the terminal-to-terminal communication information in the terminal device Tn here realizes the functions of the direct transmission determination means and the speaker determination means. ing.
[0092]
In addition, in step A3 of << basic operation procedure A >>, a speaker determining means for determining a speaker of each speech by processing that the terminal device closest to the speaker of the input voice information Ii is the terminal device Ti. It has been realized.
[0093]
The above is this apparatus and its function.
Here, first, the operation of each terminal device in the process of the conference support apparatus described above will be described in more detail with reference to FIGS.
[0094]
FIG. 6 shows a scene in which four conference participants Ai, Aj, Ak, Al hold a respective terminal device Ti, Tj, Tk, Tl. it represents a concrete example of performing voice input Vi called Hello ... ".
[0095]
By this utterance operation, processing in accordance with << basic operation rule A >> is performed in each terminal device Ti, Tj, Tk, Tl as follows.
[Operation of terminal device Ti]
Terminal Ti is a conference participant Ai is a terminal device that brought that was the voice of "Hello ...". As a result of this utterance, the central processing unit 3d of the control unit 3 of the terminal device Ti performs processing according to step A1 of << basic operation rule A >>, and is obtained via the input unit 1 of the terminal device Ti. Hello ... "is input speech Vi is taken in the input information storage unit 3a of the control unit 3 of the terminal device Ti.
[0096]
In other words, the contents shown in the entry Pi1 in FIG. 3A are recorded in the input information storage unit 3a in the control unit 3 together with the start time information A and the intensity information C by the process of step A1. Is done. Here, it is assumed that the sound intensity is “10” and the start time is t1.
[0097]
Thereafter, the central processing unit 3d of the control unit 3 performs processing according to steps A2 and A3 of << basic operation rule A >>, and when this is completed, <basic operation procedure C >> is started by performing processing of step A4. The
[0098]
In the process of << basic operation procedure C >>, the processes of steps C1 to C3 are performed. In this case, since the content of the communication information storage unit 3c in the control unit 3 of the terminal device Ti is empty, the central processing unit 3d of the control unit 3 proceeds to the process of step C4.
[0099]
In step C4, the inter-terminal communication information including the input voice Vi input to the terminal device Ti is generated, and the inter-terminal communication information Ci_j, Ci_k, Ci_l to the other terminal devices Tj, Tk, Tl are sequentially transmitted. .
[0100]
As will be described later, if the communication stop signal Dji is transmitted from the terminal device Tj, the central processing unit 3d receives the communication stop signal Dji by processing according to step A7 of << basic operation rule A >>. At this point, the process of sending the inter-terminal communication information to the terminal device Tj is stopped. If there is no communication stop signal from the other terminal devices Tk and Tl, the transmission processing of the inter-terminal communication information to these terminal devices Tk and Tl is continued in this example.
[0101]
[Operation of terminal device Tj]
On the other hand, in the terminal device Tj, the central processing unit 3d of the control unit 3 receives the inter-terminal communication information Ci_j sent from the terminal device Ti by the process according to step A2 of the “basic operation rule A”. The data is taken in through the communication unit 2 and recorded in the communication information storage unit 3c by writing it into the communication information storage unit 3c of the control unit 3 of the terminal device Tj as shown in the entry Rj2 in FIG. 5B.
[0102]
Next, in the terminal device Tj, the central processing unit 3d of the control unit 3 starts the “basic operation procedure B” by performing a process according to step A3 of the “basic operation rule A”.
[0103]
Next, in the terminal device Tj, the central processing unit 3d proceeds to the process of step B1, and searches the input information storage unit 3a in the control unit 3 of the terminal device Tj for an entry that meets the condition.
[0104]
On the other hand, it is assumed that the input voice signal Vi of the speech generated by the conference participant Ai reaches the input unit 1 of the terminal device Tj at a certain time t2. Then, the entry Pj2 in FIG. 3B is recorded in the input information storage unit 3a in the control unit 3 of the terminal device Tj. Here, it is assumed that the strength of the voice input signal is “7”.
[0105]
Then, it is assumed that Pj2 satisfies the condition in step B1 or step B2.
Then, in the terminal device Tj, the central processing unit 3d is transmitted from the terminal device Ti in the process of step B4, reaches itself, and is stored in the entry Rj2 of the communication information storage unit 3c in the control unit 3 of itself (terminal device Tj). Similarity / identity determination processing by audio signal processing is performed between the terminal-to-terminal communication information Ci_j and the entry Pj2 of the input information storage unit 3a in the control unit 3 of itself (terminal device Tj).
[0106]
In this similarity / identity determination processing, the central processing unit 3d of the terminal device Tj is “same” and “having sufficient strength (that is, the strength of the voice input signal is“ 7 ”) in step B5 processing. ) ”Is satisfied, the process proceeds to step B7.
[0107]
In step B7, the central processing unit 3d of the terminal device Tj refers to the transmission terminal information E of the entry Rj2, and sends a communication stop signal to the terminal device Ti that is the transmission source through the communication unit 2 of itself (terminal device Tj). Dji is sent out.
[0108]
As a result, the transmission of the inter-terminal communication information performed from the terminal device Ti to the terminal device Tj is stopped.
Next, the central processing unit 3d of the terminal device Tj performs the process of step B8, and records the symbol “processed” in the column of the status information D of the entry Rj2 of the communication information storage unit 3c in its own control unit 3.
[0109]
Next, the central processing unit 3d of the terminal device Tj moves to the process of step B9, thereby completing the process of << basic operation procedure B >>.
[Operation of terminal device Tk]
Further, in the terminal device Tk, the central processing unit 3d of the control unit 3 performs the process according to step A2 of << basic operation rule A >>, so that the inter-terminal communication information Ci_k sent from the terminal device Ti is This is taken in through the communication unit 2 of itself (terminal device Tk), and is written in the communication information storage unit 3c of the control unit 3 of the terminal device Tk as shown in the entry Rk2 in FIG. Is recorded in the communication information storage unit 3c.
[0110]
Next, in the terminal device Tk, the central processing unit 3d of the control unit 3 performs the processing according to step A3 of the “basic operation rule A”, thereby starting the “basic operation procedure B”.
[0111]
Next, in the terminal device Tk, the central processing unit 3d proceeds to the process of step B1, and searches the input information storage unit 3a in the control unit 3 of the terminal device Tk for an entry that meets the condition.
[0112]
On the other hand, it is assumed that the input voice signal Vi of the speech generated by the conference participant Ai reaches the input unit 1 of the terminal device Tk at a certain time t3. Then, entry Pk3 of FIG.3 (c) is recorded on the input information storage part 3a in the control part 3 of the said terminal device Tk. Here, it is assumed that the strength of the voice input signal is “4”.
[0113]
It is assumed that this Pk3 satisfies the condition of step B1 or step B2.
Then, in the terminal device Tk, the central processing unit 3d is transmitted from the terminal device Ti in the process of step B4, reaches itself, and is stored in the entry Rk3 of the communication information storage unit 3c in the control unit 3 of itself (terminal device Tk). Similarity / identity determination processing by audio signal processing is performed between the terminal-to-terminal communication information Ci_k and the entry Pk3 of the input information storage unit 3a of the terminal device Tk itself.
[0114]
In this similarity / identity determination processing, the central processing unit 3d of the terminal device Tk determines that “identical” is “not enough” (ie, the strength of the voice input signal is “4”) in step B5. Therefore, since the condition is not satisfied, the process proceeds to step B6.
[0115]
The central processing unit 3d of the terminal device Tk records the symbol “output required” in the state information E field of the entry Rk3 in the process of step B6.
Then, the process proceeds to step B9, and << basic operation procedure B >> is terminated. Then, the process proceeds to step A5.
[0116]
As a result of the processing according to step A5, the central processing unit 3d of the terminal device Tk indicates that the content of the status information D of the entry Rk3 of the communication information storage unit 3c in the control unit 3 of the terminal device Tk is “output required”. The contents of the audio waveform information B of the entry Rk3 are recorded in the output audio information record A column of the new entry Qk3 of the output information storage unit 3b, and “processed” is recorded in the status information D of the entry Rk3.
[0117]
Next, the central processing unit 3d of the terminal device Tk moves to the process of step A6 of << basic operation rule A >>, where the contents of the output information storage unit 3b in the control unit 3 of the terminal device Tk are referred to and newly recorded. The content of the voice waveform information A of the entry Qk3 is output as a voice from the output unit 3 of itself (terminal device Tk).
[0118]
[Operation of terminal device Tl]
On the other hand, in the terminal device Tl, the central processing unit 3d of the control unit 3 converts the inter-terminal communication information Ci_l sent from the terminal device Ti by the processing according to step A2 of the << basic operation rule A >> (the terminal device Tl). ) Through the communication unit 2, and this is recorded in the communication information storage unit 3 c of the control unit 3 of its own (terminal device Tl) as shown in the entry R 14 in FIG. 5D to be recorded in the communication information storage unit 3 c. .
[0119]
Next, in the terminal device Tl, the central processing unit 3d of the control unit 3 starts the “basic operation procedure B” by performing the process according to step A3 of the “basic operation rule A”.
[0120]
Next, in the terminal device Tl, the central processing unit 3d of the control unit 3 proceeds to the process of step B1, and searches the input information storage unit 3a in the control unit 3 of itself (terminal device Tl) for an entry that meets the condition.
[0121]
Here, since there is no corresponding entry, the central processing unit 3d proceeds to the process of step B3, and records the symbol “output required” in the status information E column of the entry R14.
[0122]
Next, the central processing unit 3d of the terminal device Tl proceeds to the process of step B9, thereby ending the << basic operation procedure B >> and proceeds to the process of step A5.
Next, the central processing unit 3d of the terminal device Tl performs processing according to step A5 of << basic operation rule A >>. As a result, since the content of the status information D of the entry Rl4 of the communication information storage unit 3c in the own computation unit 3 is “necessary output”, the content of the audio waveform information B of the entry R14 is changed to the output information storage unit 3b−. Record in the column of output audio information A of the new entry Q14 of i, and record “processed” in the status information D of the entry R14.
[0123]
Next, the central processing unit 3d of the terminal device Tl refers to the contents of the output information storage unit 3b in its own processing unit 3 by the processing according to step A6 of << basic operation rule A >> and newly recorded entries. The content of the speech waveform information A of Q14 is output from the output unit 3 of itself (terminal device Tl).
[0124]
Although the specific operation example has been described above, the entire operation example ((No. 1) to (No. 5) according to the example of FIGS. )) To explain in an easy-to-understand manner.
[0125]
[(Part 1)] First, in FIG. Ai There performs say "Hello", the voice, from the input unit 1 of the terminal apparatus Ti, incorporated as a sound input intensity "10".
[0126]
This uttered sound eventually reaches the terminal device Tj and the terminal device Tk carried by other conference participants Aj and Ak, and is taken in from the input unit 1 of each terminal. Ai It is assumed that the terminal device Tl carried by the conference participant Al at a position far from the terminal is not reached.
[0127]
[(Part 2)]
Next, in FIG. 8, the input voice is recorded by the process according to step A1 of << basic operation rule A >> inside the terminal device Ti.
[0128]
Subsequently, << basic operation procedure C >> is started by the processing according to step A4 of << basic operation rule A >>, but the content of the communication information storage unit 3c of itself (terminal device Ti) is empty. Terminal-to-terminal communication information Ci_j, Ci_k, and Ci_l are respectively sent to the terminal devices Tj, Tk, and Tl. Each terminal device Tj, Tk, and Tl receives the received information by its own communication unit 2. It records in its own inter-terminal communication information storage unit 3c.
[0129]
[(Part 3)]
Next, in FIG. 9, first, in the terminal device Tj, assuming that the voice directly reached from its own input unit 1 is input with the intensity “7”, this input voice and its own inter-terminal communication information storage unit 3c. Identical / similarity determination processing is performed between the contents of. As a result, it is determined that the voice information obtained through communication from the terminal device Ti and the voice directly reached are “same” and the voice directly reached (the intensity is “7”) is “sufficiently strong”. The
[0130]
As a result, the terminal device Tj transmits a communication stop signal Dji to the terminal device Ti that is the transmission source of the inter-terminal communication information. That is, when the determination criterion “sufficient strength” is satisfied, the control unit 3 of the terminal device issues a command to the communication unit 2 to transmit a communication stop signal, and the communication unit 2 transmits the transmission source. In response to this, a communication stop signal (Dji in this case), which is a request to stop communication with itself (terminal device Tj), is sent.
[0131]
Further, in the terminal device Tk, if the voice directly reached from the input unit 1 is input with the intensity “4”, the input voice and the content of the inter-terminal communication information storage unit 3c of the terminal device Tk are between. Identical / similarity determination processing is performed. In this case, the voice information obtained through communication from the terminal device Ti and the voice directly reached are “same” because the voice intensity obtained at the input unit 1 of the terminal device Tk is “4”. It is judged that it does not have sufficient strength.
[0132]
As a result, the control unit 3 of the terminal device Tk determines that the audio signal included in the inter-terminal communication information is “necessary output”, and the audio included in the inter-terminal communication information from the output unit 4 of the terminal device Tk. The signal is output as voice and provided to the conference participant Tk who is the user of the terminal device Tk.
[0133]
On the other hand, since the terminal device Tl is far from the position of the conference participant Al, the voice of the conference participant Al does not reach directly. For this reason, there is no audio input of the conference participant Al from the input unit 1 of the terminal device Tl. As a result, the control unit 3 of the terminal device Tl indicates that the audio signal contained in its own inter-terminal communication information storage unit 3c is “required”. It is determined that it is “output”, and is output as an audio signal from the output unit 4 of the terminal device Tl and provided to the conference participant Al who is the user of the terminal device Tl.
[0134]
[(Part 4)]
Next, as shown in FIG. 10, the terminal device Ti receives the communication stop signal Dji sent from the terminal device Tj. Then, the control unit 3 of the terminal device Ti stops the transmission of the inter-terminal communication information from the terminal device Ti to the terminal device Tj by performing the process according to step A7 of << basic operation rule A >>.
[0135]
[(Part 5)]
With the operation as described above, as shown in FIG. 11, as for the terminal device Tj where the utterance Vi of the conference participant Ai reaches directly at a sufficient volume, the voice information is transmitted through the communication path and the output unit 4 of the terminal device Tj. Audio is not output, and useless communication paths are avoided, and howling can be prevented.
[0136]
In addition, to the terminal device Tk in which the volume of the utterance sound directly transmitted from the speaker is too low and to the terminal device Tl to which the voice sound does not reach, the voice information is transmitted through the communication path and the transmitted voice information is used. Audio is output from the output unit of the terminal device. As a result, it is possible to effectively use the communication path in the conference support by the mobile terminal device that can be moved, and it is possible to obtain an effect that it is possible to avoid a failure due to unnecessary audio output.
[0137]
With the operation as described above, the terminal device Tj in which the speech Vi of a certain conference participant Ai directly reaches with sufficient volume is not directly transmitted, and the voice information from the terminal device is not transmitted. The terminal device Tk whose volume to be transmitted is too low and the terminal device Tl to which the voice information does not reach are transmitted by the voice information through the communication path and the voice output from the terminal device. In the conference support, the effects of the present invention such as effective use of the communication path and avoidance of trouble due to unnecessary audio output can be realized.
[0138]
Therefore, according to the present invention, in a mobile terminal conference system realized by application of an information device that can form a network autonomously or a portable information device, it is appropriately necessary even if environmental conditions such as ambient noise change. Information can be transmitted.
[0139]
In addition, even if the participant moves spatially during the conference, it is possible to appropriately determine information to be exchanged between terminals and transmit appropriate information.
In addition, by dynamically determining information to be exchanged between terminals, it is possible to efficiently use communication paths between terminals.
[0140]
In addition, by dynamically determining information to be exchanged between terminals, it is possible to suppress unnecessary communication and output when output from a certain terminal can substitute for output from a plurality of terminals. .
[0141]
Also, by dynamically determining information to be exchanged between terminals, it is possible to avoid phenomena such as duplication of outputs from multiple terminals and echoes.
In addition, by dynamically determining the information to be exchanged between terminals, the output of one terminal is input to another terminal and output again to form a loop and howling occurs. It can be avoided.
[0142]
The conference according to the present invention support The effect of the apparatus is not limited to the above-described example. For example, in the above-described embodiment, the PCM digital system is used for input / output of voice information and internal processing, but this is not limited to the digital system.
[0143]
Also, in each terminal device, the positional relationship between its own input unit and output unit and the contents of each input audio signal and output audio signal are known, so the conventional technique of cancellation that subtracts its own output signal from the input signal is used. Combinations are also possible.
[0144]
Further, the threshold value W in step B4 of << basic operation procedure B >>, which is the same voice determination, can be associated with a conference participant's request for a voice signal at the position of each terminal device. By making the adjustment possible, the conference participant having each terminal device can obtain the conference sound at a sound volume according to his / her desire.
[0145]
Further, in the conference support apparatus shown in the above-described embodiment, even if it is necessary to output voice information transmitted from a certain terminal apparatus by a plurality of terminal apparatuses from the algorithm, one of them. When the unit starts outputting (in other words, being arranged like a satellite), when the output reaches another terminal device, voice output and communication with the other terminal device become unnecessary. This makes it possible to use communication resources more efficiently.
[0146]
Furthermore, in the conference support apparatus shown in the above-mentioned embodiment, the voice is output preferentially from the terminal apparatus in which the threshold value W is set to a high value among the plurality of terminal apparatuses from the algorithm. It is possible to cause the terminal device set with a high threshold W to function as the satellite described above.
[0147]
In the above-described example, the terminal device close to the speaker of a certain speech is determined by the comparison process between the voice input signal at each terminal device and the signal to be communicated. The speaker can also be determined by a method using visual information or the like for processing the image, and the present invention can be realized by that.
[0148]
Further, in step B1 of the same voice determination process B, conditioning in the determination of identity is performed by an inequality expression for time information. Here, the transmission delay of the voice wave and the delay in the input / output unit of the terminal device, It is also possible to improve the accuracy by setting conditions that take into account the delay in processing.
[0149]
The technology of the present invention can also be used in a conference support apparatus that accumulates conference records.
Further, the effects of the present invention can be obtained in the same manner even in a usage form including a part of terminal devices that use devices such as earphones and headphones.
[0150]
Further, in this specific example, the description has been given by taking as an example the exchange of voice information in conference support, but the information to be handled is not limited to voice information.
Further, in the above-described specific example, an example in which a plurality of terminal devices in an equal position exerts a cooperative operation to exert the effect of the present invention has been shown. However, for example, a device having a role as one central processing unit is set. The same effect can be obtained in the form.
[0151]
【The invention's effect】
As described above, according to the present invention, in a mobile terminal conference system realized by application of an information device that can form a network autonomously or a portable information device, environmental conditions such as ambient noise change. However, necessary information can be transmitted appropriately.
[0152]
In addition, even if the participant moves spatially during the conference, it is possible to appropriately determine information to be exchanged between terminals and transmit appropriate information.
In addition, by dynamically determining information to be exchanged between terminals, it is possible to efficiently use communication paths between terminals.
[0153]
In addition, by dynamically determining information to be exchanged between terminals, it is possible to suppress wasteful communication and output when output from a certain terminal can substitute for output from a plurality of terminals. .
[0154]
Also, by dynamically determining information to be exchanged between terminals, it is possible to avoid phenomena such as duplication of outputs from multiple terminals and echoes.
In addition, by dynamically determining the information to be exchanged between terminals, the output of one terminal is input to another terminal and output again to form a loop and howling occurs. There are many practical effects such as avoidance.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining a specific example of the present invention, and is a block diagram showing a configuration example of a conference support apparatus according to the present invention.
FIG. 2 is a diagram for explaining a specific example of the present invention, and is a block diagram showing a configuration example of a control unit 3 of the conference support apparatus according to the present invention.
FIG. 3 is a diagram for explaining a specific example of the present invention and showing an example of contents of an input information storage unit 3a.
FIG. 4 is a diagram for explaining a specific example of the present invention, and shows an example of contents of an output information storage unit 3b.
FIG. 5 is a diagram for explaining a specific example of the present invention, and shows an example of the contents of a communication information storage unit 3c.
FIG. 6 is a diagram for explaining a specific example of the present invention, and is a diagram for explaining a specific operation example;
FIG. 7 is a diagram for explaining a specific example of the present invention and is a diagram for explaining an overall operation example (part 1) of the conference support apparatus of the present invention;
FIG. 8 is a diagram for explaining a specific example of the present invention, and is a diagram for explaining an overall operation example (part 2) of the conference support apparatus of the present invention.
FIG. 9 is a diagram for explaining a specific example of the present invention, and is a diagram for explaining an overall operation example (part 3) of the conference support apparatus of the present invention;
FIG. 10 is a diagram for explaining a specific example of the present invention, and is a diagram for explaining an overall operation example (part 4) of the conference support apparatus of the present invention;
FIG. 11 is a diagram for explaining a specific example of the present invention, and is a diagram for explaining an overall operation example (No. 5) of the conference support apparatus of the present invention;
[Explanation of symbols]
1 ... Input section
2 ... Communication Department
3. Control unit
3a: Input information storage unit
3b ... Output information storage unit
3c: Communication information storage unit
3d ... Central processing unit
4 ... Output section
Ti, Tj, Tk, Tl... Terminal device.

Claims (6)

複数の携帯可能な端末装置を含み、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムにおいて、前記各端末装置は、
会議参加者の発生音声を取り込んで第1音声信号を得る入力手段と、
他の端末装置から送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信手段と、
前記第2音声信号を音声として出力するための出力手段と、
前記第1音声信号と前記第2音声信号との類似性から会議参加者の発声音声が直接到達するか否かを判定する判定手段と、
前記判定手段により前記発声音声が直接到達すると判定された場合は前記他の端末装置へ前記第2音声信号の送信を停止する要求を送出し、前記判定手段により前記発声音声が直接到達しないと判定された場合は前記出力手段に対して前記第2音声信号を音声として出力させる制御手段と、
を具備することを特徴とする会議支援システム。
In a conference support system that includes a plurality of portable terminal devices, and establishes a communication path between the terminal devices and exchanges audio signals, the terminal devices are
An input means for obtaining the first audio signal by capturing the audio generated by the conference participants;
Communication means for receiving the second audio signal transmitted from another terminal device and transmitting the first audio signal ;
Output means for outputting the second audio signal as audio;
Determining means for determining whether or not the voice of the conference participant directly arrives from the similarity between the first audio signal and the second audio signal;
When the determination means determines that the uttered voice reaches directly, a request to stop transmission of the second voice signal is sent to the other terminal device, and the determination means determines that the uttered voice does not reach directly. Control means for causing the output means to output the second audio signal as sound if
A conference support system comprising:
複数の携帯可能な端末装置を含み、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムの制御方法であって、
会議参加者の発生音声を取り込んで第1音声信号を得る入力ステップと、
他の端末装置から送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信ステップと、
前記第1音声信号と前記第2音声信号との類似性から会議参加者の発声音声が直接到達するか否かを判定する判定ステップと、
前記判定ステップにより前記発声音声が直接到達すると判定された場合は前記他の端末装置へ前記第2音声信号の送信を停止する要求を送出するステップと、
前記判定ステップにより前記発声音声が直接到達しないと判定された場合は前記第2音声信号を音声として出力するステップと、を含む処理を前記各端末装置において行うことを特徴とする会議支援システムの制御方法。
A control method for a conference support system that includes a plurality of portable terminal devices, and establishes a communication path between the terminal devices to exchange voice signals,
An input step of capturing a voice generated by a conference participant to obtain a first voice signal;
A communication step of receiving a second audio signal transmitted from another terminal device and transmitting the first audio signal ;
A determination step of determining whether or not the voice of the conference participant directly reaches from the similarity between the first audio signal and the second audio signal;
A step of sending a request to stop transmission of the second audio signal to the other terminal device when it is determined by the determination step that the uttered voice is directly reached;
Control of the conference support system, wherein the terminal device performs a process including: a step of outputting the second audio signal as a sound when it is determined by the determining step that the uttered sound does not reach directly. Method.
音声を取り込んで第1音声信号を得る入力手段と、送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信手段と、前記第2音声信号を音声として出力するための出力手段とをそれぞれ有する複数台の端末装置を用いて構成され、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムにおいて、
前記各端末装置は、前記第1音声信号の強度情報を取得し、この強度情報が十分なレベルを示すものである場合には前記出力手段からの音声出力を停止させ、前記強度情報が予め定めた所定レベル以上ある場合は前記通信手段から前記第2音声信号の送信を停止する要求を前記第2音声信号の送信元の端末装置に対して送信させ、前記強度情報が十分なレベルを示すものでない場合には前記第2音声信号を前記出力手段から音声として出力させる制御部を有することを特徴とする会議支援システム。
Input means for obtaining a first audio signal captures audio, and communication means for transmitting the reception and the first audio signal of the second audio signal transmitted, for outputting the second audio signal as a speech In a conference support system that is configured using a plurality of terminal devices each having an output means, and establishes a communication path between each terminal device and exchanges audio signals,
Each of the terminal devices acquires the intensity information of the first audio signal, and when the intensity information indicates a sufficient level, stops the audio output from the output means, and the intensity information is predetermined. A request to stop transmission of the second audio signal is transmitted from the communication means to the terminal device that is the transmission source of the second audio signal, and the strength information indicates a sufficient level If not, it has a control part which makes the said 2nd audio | voice signal output from the said output means as an audio | voice .
音声を取り込んで第1音声信号を得る入力手段と、送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信手段と、前記第2音声信号を音声として出力するための出力手段とをそれぞれ有する複数台の端末装置を用いて構成され、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムの制御方法であって、
前記第1音声信号の強度情報を取得し、この強度情報が十分なレベルを示すものである場合には前記出力手段からの音声出力を停止させ、前記強度情報が予め定めた所定レベル以上ある場合は前記通信手段から前記第2音声信号の送信を停止する要求を前記第2音声信号の送信元の端末装置に対して送信させ、前記強度情報が十分なレベルを示すものでない場合には前記第2音声信号を前記出力手段から音声として出力させる処理を前記各端末装置において行うことを特徴とする会議支援システムの制御方法。
Input means for obtaining a first audio signal captures audio, and communication means for transmitting the reception and the first audio signal of the second audio signal transmitted, for outputting the second audio signal as a speech A method of controlling a conference support system configured by using a plurality of terminal devices each having an output means, and establishing a communication path between each terminal device to exchange voice signals ,
When the intensity information of the first audio signal is acquired and the intensity information indicates a sufficient level, the audio output from the output means is stopped, and the intensity information is equal to or higher than a predetermined level. Transmits a request to stop transmission of the second audio signal from the communication means to the terminal device that is the transmission source of the second audio signal, and if the strength information does not indicate a sufficient level, the first 2. A control method for a conference support system, wherein each terminal device performs a process of outputting two audio signals as audio from the output means .
音声を取り込んで第1音声信号を得る入力手段と、送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信手段と、前記第2音声信号を音声として出力するための出力手段とをそれぞれ有する複数台の端末装置を用いて構成され、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムにおいて、
前記各端末装置は、前記第1音声信号の強度情報を取得し、この強度情報が十分なレベルを示すものである場合には前記出力手段からの音声出力を停止させ、前記強度情報が十分なレベルを示すものでない場合には前記第2音声信号を前記出力手段から音声として出力させる制御手段を有することを特徴とする会議支援システム。
Input means for obtaining a first audio signal captures audio, and communication means for transmitting the reception and the first audio signal of the second audio signal transmitted, for outputting the second audio signal as a speech In a conference support system that is configured using a plurality of terminal devices each having an output means, and establishes a communication path between each terminal device and exchanges audio signals,
Each terminal device acquires the intensity information of the first audio signal, and when the intensity information indicates a sufficient level, stops the audio output from the output means, and the intensity information is sufficient A conference support system comprising control means for outputting the second audio signal as sound from the output means when the level is not indicated .
音声を取り込んで第1音声信号を得る入力手段と、送信されてきた第2音声信号の受信及び前記第1音声信号の送信を行う通信手段と、前記第2音声信号を音声として出力するための出力手段とをそれぞれ有する複数台の端末装置を用いて構成され、各端末装置間で通信路を確立させて音声信号を授受する会議支援システムの制御方法であって、
前記第1音声信号の強度情報を取得し、この強度情報が十分なレベルを示すものである場合には前記出力手段からの音声出力を停止させ、前記強度情報が十分なレベルを示すものでない場合には前記第2音声信号を前記出力手段から音声として出力させる処理を前記各端末装置において行うことを特徴とする会議支援システムの制御方法。
Input means for obtaining a first audio signal captures audio, and communication means for transmitting the reception and the first audio signal of the second audio signal transmitted, for outputting the second audio signal as a speech A method of controlling a conference support system configured by using a plurality of terminal devices each having an output means, and establishing a communication path between each terminal device to exchange voice signals ,
When the intensity information of the first audio signal is acquired and the intensity information indicates a sufficient level , the audio output from the output means is stopped , and the intensity information does not indicate a sufficient level The method for controlling a conference support system, wherein the terminal device performs a process of outputting the second audio signal as audio from the output means .
JP22538695A 1995-09-01 1995-09-01 CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM Expired - Fee Related JP3828185B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22538695A JP3828185B2 (en) 1995-09-01 1995-09-01 CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22538695A JP3828185B2 (en) 1995-09-01 1995-09-01 CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM

Publications (2)

Publication Number Publication Date
JPH0969884A JPH0969884A (en) 1997-03-11
JP3828185B2 true JP3828185B2 (en) 2006-10-04

Family

ID=16828552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22538695A Expired - Fee Related JP3828185B2 (en) 1995-09-01 1995-09-01 CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM

Country Status (1)

Country Link
JP (1) JP3828185B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5716549B2 (en) * 2011-05-27 2015-05-13 株式会社リコー Conference support system, information processing apparatus, and document distribution program
JP2014165887A (en) * 2013-02-27 2014-09-08 Saxa Inc Conference terminal and program
CN114553616B (en) * 2022-01-12 2023-11-24 广州市迪士普音响科技有限公司 Audio transmission method, device and system of conference unit and terminal equipment

Also Published As

Publication number Publication date
JPH0969884A (en) 1997-03-11

Similar Documents

Publication Publication Date Title
US11107490B1 (en) System and method for adding host-sent audio streams to videoconferencing meetings, without compromising intelligibility of the conversational components
CN101313483B (en) Configuration of echo cancellation
JP4202640B2 (en) Short range wireless communication headset, communication system using the same, and acoustic processing method in short range wireless communication
US7272224B1 (en) Echo cancellation
US7206404B2 (en) Communications system and method utilizing centralized signal processing
US7433716B2 (en) Communication apparatus
WO2014017134A1 (en) Information processing system and storage medium
US7539486B2 (en) Wireless teleconferencing system
US8265240B2 (en) Selectively-expandable speakerphone system and method
US7574228B2 (en) Multi-spot call system, sound volume adjustment device, portable terminal device, and sound volume adjustment method used therefor and program thereof
CN103270738A (en) Communication system and method for handling voice and/or video calls when multiple audio or video transducers are available
WO2014187061A1 (en) Remote conference realizing method and apparatus
US11521636B1 (en) Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation
JP6201279B2 (en) Server, server control method and control program, information processing system, information processing method, portable terminal, portable terminal control method and control program
CN114845144B (en) Screen projection method, auxiliary screen projection device and storage medium
JPH11112672A (en) Multi-spot speaking device
JP2004312662A (en) Mobile terminal having function of outputting effect sound/background sound by using key button on communication
JPH09233198A (en) Method and device for software basis bridge for full duplex voice conference telephone system
JP3828185B2 (en) CONFERENCE SUPPORT SYSTEM AND METHOD FOR CONTROLLING CONFERENCE SUPPORT SYSTEM
US11804237B2 (en) Conference terminal and echo cancellation method for conference
CN114531425A (en) Processing method and processing device
JP2006339869A (en) Apparatus for integrating video signal and voice signal
JP2022016997A (en) Information processing method, information processing device, and information processing program
JP6392161B2 (en) Audio conference system, audio conference apparatus, method and program thereof
JP2000049948A (en) Speech communication device and speech communication system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060706

LAPS Cancellation because of no payment of annual fees