JP2013141182A - Interaction environment reproduction method and device - Google Patents
Interaction environment reproduction method and device Download PDFInfo
- Publication number
- JP2013141182A JP2013141182A JP2012001211A JP2012001211A JP2013141182A JP 2013141182 A JP2013141182 A JP 2013141182A JP 2012001211 A JP2012001211 A JP 2012001211A JP 2012001211 A JP2012001211 A JP 2012001211A JP 2013141182 A JP2013141182 A JP 2013141182A
- Authority
- JP
- Japan
- Prior art keywords
- echo
- data
- interactive environment
- reproduction method
- test sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、所定の伝送手段に互いに接続された複数の情報端末間でテレビ会議、電話会議等を実現する双方向対話システムにおける対話環境再現方法及び該対話環境再現方法を実現するための装置に関し、特に、自己の情報端末が設置された対話環境(自己の対話環境)において、相手側対話者の情報端末へ送信されるべき電子データのうち、音声や環境音などのオーディオデータを再生することにより、該自己の対話環境下で相手側対話者の対話環境を再現する技術に関するものである。 The present invention relates to an interactive environment reproduction method in an interactive dialogue system for realizing a video conference, a telephone conference, etc. between a plurality of information terminals connected to each other to a predetermined transmission means, and an apparatus for realizing the interactive environment reproduction method. In particular, in the interactive environment where the information terminal of the user is installed (the user's own dialog environment), audio data such as voice and environmental sound among the electronic data to be transmitted to the information terminal of the other party's dialog Thus, the present invention relates to a technique for reproducing the dialogue environment of the other party's dialogue person in the own dialogue environment.
従来、既存の一般電話回線網、光ネットワーク、専用回線など、有線又は無線のデータ通信を実現するインターネットに代表されるネットワークに接続されているパーソナルコンピュータ(以下、PCという)を利用して、アプリケーション、資料・画像、映像、音声情報などを遠隔地の一人又は複数人とやり取りをするテレビ会議、電話会議等の双方向対話システム(ウエブ会議と呼ばれることもある)が利用されている(特許文献1参照)。この双方向対話システムにおいて音声などの電子データのやり取りを行う場合、PCに内蔵あるいは接続されたマイク及びスピーカの他、オーディオ端子やUSB端子に接続されたヘッドセット、PCに接続された専用受話器なども利用される。 Conventionally, an application using a personal computer (hereinafter referred to as a PC) connected to a network represented by the Internet that realizes wired or wireless data communication, such as an existing general telephone line network, an optical network, a dedicated line, etc. In addition, interactive dialogue systems (also called web conferences) such as video conferences and telephone conferences that exchange data / images, videos, audio information, etc. with one or more people in remote locations are used (Patent Literature). 1). When exchanging electronic data such as voice in this interactive dialogue system, in addition to the microphone and speaker built in or connected to the PC, a headset connected to the audio terminal or USB terminal, a dedicated receiver connected to the PC, etc. Is also used.
このような双方向対話システムは対話者ごとに異なる対話環境に起因して相手側対話者の環境下で発生するエコーが問題となっており、そのため、例えば特許文献2に開示されたようなエコーキャンセリング技術の研究が盛んに行われている。 Such an interactive dialogue system has a problem of echo generated in the environment of the other party's dialogue due to different dialogue environments for each of the dialogues. Research on canceling technology is actively conducted.
発明者らは、上述のような従来の双方向対話システムに適用されるエコーキャンセリング技術について検討した結果、以下のような課題を発見した。すなわち、従来の双方向対話システムでは、PCなどの情報端末の設置環境(反響具合、環境ノイズ有無などの対話環境)、マイクなどの集音器に対する発言者の位置、声量など様々な条件下で運用されており、状況によって、エコーが発生する場合がある。 As a result of studying the echo canceling technique applied to the conventional interactive dialog system as described above, the inventors have found the following problems. In other words, in a conventional interactive dialogue system, there are various conditions such as the installation environment of an information terminal such as a PC (interactive environment such as reverberation and presence of environmental noise), the position of the speaker with respect to a sound collector such as a microphone, and the volume of voice. Echo may occur depending on the situation.
そのため、従来から、上記特許文献2など、エコーやハウリングを除去する様々な技術が提案されているが、実際の対話環境では、様々な空間構造(関連設備の配置も含む)、設置場所・向き、発言者の声量などが存在し、全ての利用状況で十分なエコーキャンセルを実現することは難しい。 For this reason, various techniques for removing echoes and howling have been proposed, such as the above-mentioned Patent Document 2, but in an actual interactive environment, various spatial structures (including the arrangement of related equipment), installation locations and orientations. There is a voice volume of the speaker, and it is difficult to realize sufficient echo cancellation in all use situations.
特にエコーに関しては、相手側対話者の対話環境下で発生するため、主なエコー発生源である対話者自身はエコー発生が認識できない。そのため、相手側対話者の対話環境下におけるエコー解消に向けた調整は困難であった。 In particular, since echo is generated in the dialog environment of the other party's dialog, the user who is the main echo source cannot recognize the occurrence of echo. For this reason, it has been difficult to make adjustments for echo cancellation in the conversation environment of the other party's conversation.
本発明は、上述のような課題を解決するためになされたものであり、所定の伝送手段に互いに接続された複数の情報端末間でテレビ会議、電話会議等を実現する双方向対話システムにおいて、対話者自身が自己の情報端末が設置された対話環境(自己の対話環境)で相手側対話者の対話環境(エコー発生状況)を再現することを可能にする対話環境再現方法及び該対話環境再現方法を実現するための装置を提供することを目的としている。 The present invention has been made in order to solve the above-described problems, and in an interactive dialogue system that realizes a video conference, a conference call, etc. between a plurality of information terminals connected to a predetermined transmission means. Dialog environment reproduction method and dialog environment reproduction that enable the dialog person himself / herself to reproduce the conversation environment (echo occurrence state) of the other party's talker in the dialog environment (self-conversation environment) in which his / her information terminal is installed An object is to provide an apparatus for implementing the method.
本発明に係る対話環境再現方法は、所定の伝送手段に互いに接続された複数の情報端末間でテレビ会議、電話会議等を実現する双方向対話システムにおける対話環境再現方法に関し、対話開始前の事前確認作業として実行される。すなわち、当該再現方法は、自己の情報端末が設置された対話環境でエコー発生状況を再現することにより、対話者自身による相手側対話者の対話環境の事前確認(双方向対話開始前の確認)を可能にする。 The interactive environment reproduction method according to the present invention relates to an interactive environment reproduction method in a two-way interactive system that realizes a video conference, a telephone conference, etc. between a plurality of information terminals connected to a predetermined transmission means. It is executed as confirmation work. In other words, the reproduction method reproduces the echo generation situation in the dialogue environment where its information terminal is installed, so that the dialogue environment of the other party is confirmed in advance (confirmation before starting the interactive dialogue). Enable.
ここで、所定の伝送手段は、インターネットなど、有線、無線を問わず、公衆回線、形態電話回線等の一般的な通信ネットワークの他、構内LAN、家庭内LANも含む概念であり、パッケットデータの送受信を行う情報端末(PCなどの情報処理装置)間に位置する通信経路全般を意味する。また、情報端末間で授受されるデータは、少なくとも音声データを含む電子データ(ディジタル、アナログのいずれであってもよい)である。 Here, the predetermined transmission means is a concept including a local LAN and a home LAN as well as a general communication network such as the public line, a form telephone line, etc., regardless of wired or wireless, such as the Internet. It means all communication paths located between information terminals (information processing devices such as PCs) that perform transmission and reception. The data exchanged between the information terminals is electronic data (which may be either digital or analog) including at least audio data.
本実施形態に係る対話環境再現方法では、自己の情報端末が設置された対話環境下で収録されたテスト用音源として、第1テスト音データが当該自己の情報端末の記録手段に格納される。なお、第1テスト音データは、音声や環境音などのオーディオデータであるのが好ましく、環境音には、音楽、人工的に作られた効果音の他、外部騒音、機器雑音等も含まれる。また、第1テスト音データは、種々の取得ルートを介して得られる。例えば、第1テスト音データが所定の伝送手段に接続された別の情報端末の記録手段に予め格納された電子データ(予め自己の情報端末のマイクを介して取り込まれたディジタル又はアナログデータ)である場合、該第1テスト音データは、所定の伝送手段を介して取得可能である。また、ネットワーク上に予め記録されたテスト用音源(第1テスト音データ)が存在しない場合、自己の情報端末のマイクを介して取り込まれた電子データが、第1テスト音データとして自己の情報端末の記録手段に格納されてもよい。 In the interactive environment reproduction method according to the present embodiment, the first test sound data is stored in the recording means of the own information terminal as a test sound source recorded in the interactive environment where the own information terminal is installed. The first test sound data is preferably audio data such as voice and environmental sound. The environmental sound includes external noise, equipment noise, etc. in addition to music and artificially created sound effects. . In addition, the first test sound data is obtained through various acquisition routes. For example, the first test sound data is electronic data stored in advance in recording means of another information terminal connected to predetermined transmission means (digital or analog data previously taken in through the microphone of its own information terminal) In some cases, the first test sound data can be acquired via a predetermined transmission means. Also, when there is no test sound source (first test sound data) recorded in advance on the network, the electronic data captured through the microphone of the own information terminal is used as the first test sound data. It may be stored in the recording means.
本実施形態に係る対話環境再現方法では、上述のように記録手段に格納された第1テスト音データに基づく音を自己の情報端末のスピーカを介して再生しながら該自己の情報端末のマイクを介して取り込まれた第2テスト音データが、第1テスト音データと同様に、自己の対話環境に関する環境データとして記録手段に格納される。この第2テスト音データは、自己の情報端末が設置された環境下において再生された第1テスト音データを、マイクを介して取り込むことにより得られたデータであるため、本来、相手側対話者の対話環境において再生される環境データ(相手側対話者がスピーカを介して聞く音声や環境音などのオーディオデータ)に相当する。 In the interactive environment reproduction method according to the present embodiment, a sound based on the first test sound data stored in the recording unit as described above is reproduced through the speaker of the own information terminal while the microphone of the own information terminal is used. Like the first test sound data, the second test sound data fetched via this is stored in the recording means as environment data relating to its own dialogue environment. Since the second test sound data is data obtained by capturing the first test sound data reproduced in the environment where the information terminal is installed through the microphone, the second test sound data is inherently the other party's dialogue person. Corresponds to environmental data (audio data such as voices and environmental sounds heard by the other party's dialog through a speaker).
そこで、本実施形態に係る対話環境再現方法では、自己の情報端末のスピーカを介して第2テスト音データに基づく音を再生することにより、自己の情報端末が設置された対話環境下でのエコー発生状況が対話者自身の対話環境下で再現され得る。なお、再生されたエコー発生状況は、LEDなどの所定の表示手段を利用して視覚的に表示できるような構成も実現可能である。また、その際、再現されたエコー発生状況を、第2テスト音データに含まれるエコー成分(第1テスト音データと第2テスト音データとの差分データ)の音量情報に基づいて判断し、その判定結果を所定の表示手段を利用して視覚的に表示する構成も実現可能である。特に、判定結果の視覚的な表示は、対話環境の整備状態を客観的に評価する指標として有効である。 Therefore, in the interactive environment reproduction method according to the present embodiment, the sound based on the second test sound data is reproduced via the speaker of the own information terminal, thereby echoing in the interactive environment where the own information terminal is installed. The occurrence situation can be reproduced in the dialogue environment of the dialogue person. It is possible to realize a configuration in which the reproduced echo occurrence state can be visually displayed using a predetermined display means such as an LED. At that time, the reproduced echo occurrence situation is determined based on the volume information of the echo component (difference data between the first test sound data and the second test sound data) included in the second test sound data, A configuration in which the determination result is visually displayed using a predetermined display means can also be realized. In particular, the visual display of the determination result is effective as an index for objectively evaluating the state of maintenance of the conversation environment.
本実施形態に係る対話環境再現方法において、双方向対話に寄与する情報端末(少なくとも相手側対話者の対話環境に設置された情報端末)は、少なくともエコーキャンセリング機能を有してもよい。 In the dialog environment reproduction method according to the present embodiment, an information terminal that contributes to a two-way dialog (at least an information terminal installed in the dialog environment of the other-party talker) may have at least an echo canceling function.
さらに、本発明に係る対話環境再現方法は、上記PC等のコンピュータにより実現可能なコンピュータプログラムとして、ハードディスク、CD、DVD、ブルーレイ等の、コンピュータで読み書き可能な外部記録媒体(情報記録媒体)に記録されていてもよい。 Furthermore, the interactive environment reproduction method according to the present invention is recorded on a computer readable / writable external recording medium (information recording medium) such as a hard disk, CD, DVD, or Blu-ray as a computer program that can be realized by a computer such as the PC. May be.
また、上述の対話環境再現方法を実現する装置(本発明に係る装置)は、少なくとも、制御手段、記録手段、表示手段を有する。制御手段は、上述の対話環境再現方法を実行する。記録手段は、電子データの読み取り及び書き込みが可能な電子デバイスである。表示手段は、記録手段に格納された第2テスト音データに含まれるエコー成分の発生(所定値以上の音量でエコー成分が再現される場合の他、エコー成分の音量が変化する場合も含む)を視覚的に表示する。また、対話環境の整備状態を客観的に評価するため、当該装置は、さらに判定手段を備えてもよい。この判定手段は、制御手段により再現されたエコー発生状況を、第2テスト音データに含まれるエコー成分の音量情報に基づいて判定する。その際、表示手段は、判定手段の判定結果を予め設定された判定レベルに応じて視覚的に表示する。 In addition, an apparatus (apparatus according to the present invention) that realizes the above-described interactive environment reproduction method includes at least a control unit, a recording unit, and a display unit. The control means executes the above-described interactive environment reproduction method. The recording means is an electronic device capable of reading and writing electronic data. The display means generates an echo component included in the second test sound data stored in the recording means (including the case where the echo component is reproduced at a volume higher than a predetermined value and the volume of the echo component changes) Is displayed visually. Moreover, in order to objectively evaluate the maintenance state of the dialogue environment, the apparatus may further include a determination unit. The determination means determines the echo occurrence state reproduced by the control means based on the volume information of the echo component included in the second test sound data. At that time, the display means visually displays the determination result of the determination means in accordance with a predetermined determination level.
なお、本発明に係る各実施例は、以下の詳細な説明及び添付図面によりさらに十分に理解可能となる。これら実施例は単に例示のために示されるものであって、この発明を限定するものと考えるべきではない。 The embodiments according to the present invention can be more fully understood from the following detailed description and the accompanying drawings. These examples are given for illustration only and should not be construed as limiting the invention.
また、本発明のさらなる応用範囲は、以下の詳細な説明から明らかになる。しかしながら、詳細な説明及び特定の事例はこの発明の好適な実施例を示すものではあるが、例示のためにのみ示されているものであって、この発明の範囲における様々な変形および改良はこの詳細な説明から当業者には自明であることは明らかである。 Further scope of applicability of the present invention will become apparent from the detailed description given below. However, the detailed description and specific examples, while indicating the preferred embodiment of the invention, are presented for purposes of illustration only and various modifications and improvements within the scope of the invention may It will be apparent to those skilled in the art from the detailed description.
本発明に係る対話環境再現方法及び装置は、ネットワークを介して複数情報端末間で行われるテレビ会議、電話会議等の双方向対話において発生するエコーなどのトラブルの有無を、双方向対話開始前に事前確認するための技術である。対話者は、当該再現方法を使用して、相手側対話者の対話環境下で発生し得るエコーを該対話者自身の対話環境下で事前確認することで、マイクやスピーカの配置方法の変更など、エコー除去のための対策を施すことが可能になる。 The interactive environment reproduction method and apparatus according to the present invention determines whether or not there is a trouble such as an echo generated in a bidirectional conversation such as a video conference and a telephone conference between a plurality of information terminals via a network before the interactive conversation is started. This is a technology for checking in advance. By using the reproduction method, the interlocutor confirms in advance the echo that may occur in the other party's dialogue environment in the dialogue environment of the other party, thereby changing the arrangement method of the microphone or speaker, etc. Therefore, it is possible to take measures for echo cancellation.
以下、本発明に係る対話環境再現方法及び装置の各実施形態を、図1〜図7を用いて詳細に説明する。なお、図面の説明において同一の要素には同一符号を付して重複する説明を省略する。また、対話環境を再現するためのテスト用音源は、音声や環境音(音楽、人工的に作られた効果音の他、外部騒音、機器雑音等も含まれる)などのオーディオデータが利用可能であるが、以下の実施形態の説明では、簡単のため、ディジタル音源としての音声データを利用したケースに限定して詳細に説明する。 Hereinafter, embodiments of the interactive environment reproduction method and apparatus according to the present invention will be described in detail with reference to FIGS. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted. Audio data such as voice and environmental sounds (including music, artificially produced sound effects, external noise, equipment noise, etc.) can be used as test sound sources to reproduce the interactive environment. However, in the following description of the embodiment, for the sake of simplicity, a detailed description will be given only for the case of using audio data as a digital sound source.
図1は、本実施形態に係る対話環境再現方法が適用可能な双方向対話システム(テレビ会議システム)の一構成例、及び会議用端末(本実施形態に係る装置を含む)の構成例を示す図である。図1(a)には、ネットワーク(所定の伝送手段)10を介して対話者30Aと相手側対話者30Bとが一対一の双方向対話を実行するためのシステム構成(最小単位)が示されている。
FIG. 1 shows a configuration example of an interactive dialogue system (video conference system) to which the interactive environment reproduction method according to the present embodiment can be applied, and a configuration example of a conference terminal (including the device according to the present embodiment). FIG. FIG. 1 (a) shows a system configuration (minimum unit) for a
すなわち、対話者30A側には、ネットワーク10に接続された会議用端末(PC等の情報端末)20Aが設置されており、この会議用端末20Aには、映像インターフェースの一部を構成する周辺機器、例えば対話者30A等を撮像するためのCCDカメラ等の撮像部41A、相手側対話者30Bの像等を表示するためのモニタ(表示手段)42Aが接続されている。また、会議用端末20Aには、オーディオインターフェース(音声インターフェースを含む)の一部を構成する周辺機器、例えば相手側対話者30Bからの音声を再生するスピーカ51A、対話者30Aの音声を取り込むためのマイク52Aが接続されている。
That is, a conference terminal (an information terminal such as a PC) 20A connected to the
一方、相手側対話者30B側には、ネットワーク10に接続された会議用端末20Bが設置されており、この会議用端末20Bには、映像インターフェースの一部を構成する周辺機器、例えば相手側対話者30B等を撮像するための撮像部41B、対話者30Aの像等を表示するためのモニタ42Bが接続されている。また、会議用端末20Bには、オーディオインターフェースの一部を構成する周辺機器、例えば対話者30Aからの音声を再生するスピーカ51B、相手側対話者30Bの音声を取り込むためのマイク52Bが接続されている。
On the other hand, a
上述の会議用端末20A、20Bそれぞれは、図1(b)に示されたような構造を有する。なお、会議用端末20A、20Bは同一の構造を有するものとし、図1(b)に示された各部の参照符号には添え字A、Bが省略されている。
Each of the
会議用端末20(20A、20B)は、所定の伝送手段であるネットワーク10と接続するためのインターフェースとして、データ入出力部(以下、I/Oという)221と、キーボード、ポインティングデバイス、外部記憶装置等の周辺機器との間でデータ授受を行うためのI/O222を備える。また、会議用端末20は、種々の音声データや映像データを格納する記憶部(記録手段)230と、対話者30A及び相手側対話者30Bの対話環境に起因して発生するエコーをキャンセルするためのエコーキャンセリング回路240、音声データ(ディジタルデータ)をスピーカ51(51A、51B)に出力可能にするためのディジタル/アナログ変換器(以下、D/Aという)251、マイク52(52A、52B)から取り込まれた音声(アナログデータ)をディジタルデータに変換するためのアナログ/ディジタル変換器(以下、A/Dという)252、I/O221を介してネットワーク10から送られてきた映像情報をモニタ42(42A、42B)に表示するための描画部260、そして、当該会議用端末20を構成する各部の動作内容及び動作タイミングを制御するための制御部(制御手段)210を備える。
The conference terminal 20 (20A, 20B) has a data input / output unit (hereinafter referred to as I / O) 221 as an interface for connecting to the
なお、表示手段は、会議用端末20の本体に電気的に接続されるモニタ42には限定されず、当該本体に取り付けられた液晶モニタ261、LEDアラーム262も含まれる。液晶モニタ261、LEDアラーム262は、制御部210により再現されるエコー発生状況の程度を視覚的に表示するための表示手段として有効である。特に、制御部210が本実施形態に係る対話環境再現方法を実行する制御手段として機能する他、対話環境の整備状態を判定する判定手段としても機能する場合、制御部210は、液晶モニタ261、LEDアラーム262、モニタ42などの表示手段に判定結果を表示させるよう、描画部260を制御する。
The display means is not limited to the
上述の構成要素のうち、制御部210、記憶部230、エコーキャンセリング回路240、D/A251、A/D252、スピーカ51、及びマイク52によりオーディオインターフェース200Aが構成される。また、制御部210、記憶部230、描画部260、モニタ42、及び撮像部41により映像インターフェース200Aが構成される。
Among the above-described components, the
また、ネットワーク10を介して行われる双方向対話の実施形態は図1に示されたような一対一の構成には限定されない。例えば、少なくとも一方の対話環境に複数の対話者が参加することで、一対多、多対多の双方向対話に対しても、本実施形態に係る対話環境再現方法は有効である。
Further, the interactive dialogue performed through the
すなわち、図2は、本実施形態に係る対話環境再現方法が適用可能な双方向対話システム(音声会議システム)の他の構成例を示す図である。 That is, FIG. 2 is a diagram illustrating another configuration example of the interactive dialogue system (voice conference system) to which the dialogue environment reproduction method according to the present embodiment can be applied.
図2に示された双方向対話システムでは、ネットワーク10を介して接続された一方の会議用端末20Aが会場A(対話環境400A)に設置され、他方の会議用端末20Bが別の会場B(対話環境400B)に設置される。また、この多対多の双方向対話は、ネットワーク10に接続された会議用サーバ300により管理されている。なお、会議用サーバ300は、会議のスケジュール、議事内容の記録データ(音声、映像、テキスト等)が格納される記憶部320、ネットワーク10を介して会議用端末20A、20Bとデータ等の授受を行うためのI/O310を、少なくとも備える。
In the interactive dialogue system shown in FIG. 2, one
会場Aの対話環境400Aには、複数の対話者31A(それぞれが図1(a)の対話者30Aに相当)が参加しており、対話者31Aの前方には、ネットワーク10を介して会議用サーバ300、会場Bの対話環境400Bとのデータ授受を行うためのI/221を有する会議用端末20Aが設置されている。会議用端末20Aには、少なくとも、スピーカ51A、マイク52Aが接続されている。もちろん、会議用端末20Aには、モニタ及び撮像部が接続されてもよい。同様に、会場Bの対話環境400Bには、複数の相手側対話者31B(それぞれが図1(a)の相手側対話者30Bに相当)が参加しており、相手側対話者31Bの前方には、ネットワーク10を介して会議用サーバ300、会場Aの対話環境400Aとのデータ授受を行うためのI/O221を有する会議用端末20Bが設置されている。会議用端末20Bには、少なくとも、スピーカ51B、マイク52Bが接続されおり、もちろん、モニタ及び撮像部がさらに接続されてもよい。
A plurality of
上述のような一対一、一対多、多対多の双方向対話において音声データの授受が行われる場合、会議用端末20の設置環境(反響具合、環境ノイズ有無などの対話環境)、マイクなどの集音器に対する発言者の位置、声量など様々な条件下で運用されており、状況によって、エコーが発生する場合がある。 When voice data is exchanged in the one-to-one, one-to-many, and many-to-many interactive conversations as described above, the installation environment of the conference terminal 20 (interactive environment such as the presence of echoes and the presence of environmental noise), the collection of microphones, and the like It is operated under various conditions such as the position of the speaker relative to the sound device and the volume of the voice, and an echo may occur depending on the situation.
図3(a)は、そのエコー発生メカニズムを説明するための図である。通常、ネットワーク10を介して対話者30Aと相手側対話者30Bが双方向対話を行う場合、対話者30Aの音声Aはマイク52Aから取り込まれ、スピーカ51Bによって再生されることにより相手側対話者30Bに聴かれる。一方、相手側対話者30Bの音声Bも、マイク52Bにより取り込まれ、スピーカ51Aにより再生することで対話者30Aに聴かれる。このとき、相手側対話者30Bがいる対話環境において、スピーカ51Bから再生出力された音声Aの一部がエコー成分36としてマイク52Bに取り込まれる可能性がある。なお、このエコー成分36には、直接マイク52Bに取り込まれる成分、障害物35に反射した成分、相手側対話者30B自身に反射した成分が含まれる。結局、対話者30Aがいる対話環境では、スピーカ51Aから相手側対話者30Bの音声Bとともにエコー成分36が再生出力されることになる。
FIG. 3A is a diagram for explaining the echo generation mechanism. Normally, when the
上述のような双方向対話でのエコー発生の特徴は、対話者30A、相手側対話者30Bとも、相手側対話者の対話環境で再生される自身の音声を確認することはできず、相手側でエコーが発生しているか否かを確認できないまま双方向対話が行われていることである。このような状況を放置しているとスムーズな双方向対話が行われなくなる可能性があるため、近年、図3(b)に示されたようなエコーキャンセリング回路240を備えた会議用端末が利用されるようになってきた。すなわち、エコーキャンセリング回路240は、音声データをライン入力し、D/A251を介してスピーカ51Bから出力するパス上に設けられたボイススイッチ242と、マイク52BからA/D252を介して取り込まれた音声Bをライン出力するパス上に設けられたボイススイッチ243、エコーサプレッサ245、エコー成分を取り込まれた音声Bのディジタルデータから差分するための適応フィルタ241、ボイススイッチ242、243それぞれを制御するためのボイススイッチ制御部244を備える。
The feature of echo generation in the two-way dialogue as described above is that neither the
適応フィルタ241は、マイク52Bに戻ってくるエコー成分36を予測してA/D252から出力された音声データから除去する。エコーサプレッサ245は、適応フィルタ241によるエコー成分除去の残存成分を小さくする処理を行う。また、ボイススイッチ242、243は、ボイススイッチ制御部244が適切な音量に制御することによりハウリング発生を抑制するよう、ライン入力とライン出力間の音量調整を行う。
The
なお、エコーキャンセリングの原理は、自身(例えば対話者30A)の対話環境下において、相手(例えば相手側対話者30B)の音声に混じって既に送信された自身の音声成分を、再生すべき音声データから削除すること、あるいは、相手(例えば相手側対話者30B)の対話環境下において、該相手の音声に混じって既に再生された自身(例えば対話者30A)の音声成分を、送信すべき音声データから削除することにより行われる。具体的には、一例として、相手から送信されてきたエコー成分に似せた擬似エコー信号を発生させ、実際のエコー成分(エコー信号)からこの擬似エコー信号を引き算することによりエコー成分を打ち消す。また、相手側対話者の対話環境(部屋等)の残響などに起因して自身の音声が送信されてきたときも同様の処理が行われる。このようなエコーキャンセリングを実行するアルゴリズムは複数種類あり、その中にはNLMS(学習同定法)アルゴリズムのように発生するエコー成分と必要な擬似エコー成分のバランスを自動計算するものもある。
The principle of echo canceling is that the voice component to be reproduced is already transmitted in the voice environment of the other party (for example, the
次に、本実施形態に係る対話環境再現方法の一例を、図4〜図6を参照しながら詳細に説明する。なお、以下の動作説明は、対話者30B(図1(a))や会場Bの対話環境400B(図2)で双方向対話開始前に行われる動作である。また、図4は、本実施形態に係る対話環境再現方法の一例を説明するためのフローチャートである。図5は、本実施形態に係る対話環境再現方法を実行する会議用端末、特にオーディオインターフェースにおける概略動作を説明するための図である。図6は、本実施形態に係る対話環境再現方法の各工程における再生音声の波形及びエコー成分の波形を示す図である。
Next, an example of the interactive environment reproduction method according to the present embodiment will be described in detail with reference to FIGS. The following description of the operation is performed before the interactive conversation is started in the
図1(a)等に示された会議用端末20の動作モードには、通常の双方向対話モード、エコーキャンセリングを行いながら双方向対話を実行するエコーキャンセリングモード、双方向対話開始前に相手側対話者側のエコー発生状況を確認するためのテストモード(本実施形態に係る対話環境再現方法を実行するモード)があるが、以下、会議用端末20のうち特にオーディオインターフェース200Aが関与するテストモードについて詳細に説明する。
The operation mode of the
まず、テストモードを開始する一方の対話者が、自己の対話環境下において、設置されている会議用端末に対して、一定時間発言する。会議用端末は、対話者の発言内容(音声)を、予め設定された録音ボリューム値に基づいて録音することにより、テスト用音声データ(テスト用音源としてのディジタルデータ)の取得が行われる(ステップST10)。具体的には、図5(a)に示されたように、会議用端末のオーディオインターフェース200Aのマイク52からA/D252を介して取り込まれたテスト用音声(テスト用音源)は、制御部210により、データ1(第1テスト音データに相当する第1音声データ)として記憶部230に格納される。
First, one of the interlocutors who starts the test mode speaks for a certain period of time to the conference terminal that is installed in his / her interactive environment. The conference terminal obtains test voice data (digital data as a test sound source) by recording the speech content (voice) of the conversation person based on a preset recording volume value (step 1). ST10). Specifically, as shown in FIG. 5A, the test sound (test sound source) captured from the
続いて、オーディオインターフェース200Aは、記憶部230に格納されたデータ1を、テスト用音声として、予め設定された再生ボリューム値に基づいてスピーカ51からD/A251を介して再生出力する。同時に、スピーカ51からの再生音声は、マイク52からA/D252を介してオーディオインターフェース200Aに取り込まれる(ステップST20)。すなわち、図5(b)に示されたように、オーディオインターフェース200Aでは、制御部210が所定の録音ボリューム値に基づいて取り込まれた音声データ(第2テスト音データに相当する第2音声データ)を、データ2として、記憶部230に格納させる。このように記憶部230に格納されたデータ2は、テストモードが実行される対話環境の環境データ(音声)である。また、データ2の格納の際、当該オーディオインターフェース200Aがエコーキャンセリング回路240を有する場合には、再生音声の取り込みの際にエコーキャンセリング動作が行われてもよい。なお、このステップST20においてスピーカ51から再生出力される音声の波形を図6(a)に示す。
Subsequently, the
このテストモードでは、記憶部230に格納されたデータ2(テストモードが実行される対話環境の環境データ)をスピーカ51から再生出力する(ステップST30)。すなわち、図5(c)に示されたように、オーディオインターフェース200Aでは、制御部210が記憶部230から格納されていたデータ2を読み出し、読み出されたデータ2が、所定の再生ボリューム値に基づいて、D/A251を介してスピーカ51から再生出力される。このステップST30における再生音声(確認用音声)を聞くことによりテストモードを行っている対話者は、自己の対話環境におけるエコー発生状況を確認することが可能となる(ステップST40)。
In this test mode, the data 2 (environment data of the interactive environment in which the test mode is executed) stored in the
なお、ステップST20において記憶部230にデータ2が格納される際、エコーキャンセリングが有効に機能していれば、ステップST30において再生されるデータ2に基づく音声からはエコー成分が除去されるため、そのときのエコー成分(データ2とデータ1の差分)は、図6(b)に示すような波形になる。
Note that when data 2 is stored in the
一方、ステップST20において記憶部230にデータ2が格納される際、エコーキャンセリングが十分に機能していなければ、ステップST30において再生されるデータ2に基づく音声にエコー成分が残ってしまい、そのときのエコー成分は、図6(c)に示すような波形になる。この場合、実際の双方向対話が行われた場合、相手側にエコーが聴こえていることになる。
On the other hand, when the data 2 is stored in the
ステップST40で行われるエコー確認として、たとえば簡易的に、ステップST30で再生される音声波形の振幅が一定値以上出力されないことを確認することで、エコー成分と適切な入力音声成分かの識別が可能になる。この識別は、ステップST20で再生された音声の波形とステップST30で再生された音声が同一か否かにより行われる。また、この識別は、再生音声をフーリエ変換して周波数成分を比較することによっても可能である。 As the echo confirmation performed in step ST40, for example, by simply confirming that the amplitude of the speech waveform reproduced in step ST30 is not output above a certain value, it is possible to distinguish between the echo component and an appropriate input speech component. become. This identification is performed based on whether or not the sound waveform reproduced in step ST20 and the sound reproduced in step ST30 are the same. This identification can also be performed by Fourier transforming the reproduced sound and comparing the frequency components.
ステップST40においてエコー発生が確認された場合、例えば、対話環境の改善(カーテンなどを設置することで吸音)、マイクとスピーカの距離を離す、マイクやスピーカの向きを調整する、再生ボリュームを調整するなど、音声再生環境(対話環境)の調整が行われる(ステップST50)。 If echo generation is confirmed in step ST40, for example, improvement of the conversation environment (sound absorption by installing a curtain or the like), separation of the distance between the microphone and the speaker, adjustment of the direction of the microphone or the speaker, adjustment of the reproduction volume. For example, the sound reproduction environment (dialogue environment) is adjusted (step ST50).
なお、ステップST20において再生された音声のボリューム(音量)が適切でない場合は、ボリュームが適切になるように、マイクボリューム、スピーカボリューム等を調整し、ステップST10からテストモードを開始する。 If the volume (volume) of the sound reproduced in step ST20 is not appropriate, the microphone volume, speaker volume, etc. are adjusted so that the volume is appropriate, and the test mode is started from step ST10.
また、ステップST10において、記憶部230に格納されるデータ1は、マイク52からA/D252を介して取り込まれるディジタルデータには限定されない。例えば、ネットワーク10に接続されたサーバ(例えば会議用サーバ300の記憶部310)に予め可能されたマイク52の設置環境と同じ環境下で取得された音声データをI/O221を介して取得し、この取得された音声データが、テスト用音声データとして、記憶部230に格納されてもよい。その際、データ1は、利用される会場(会議室)ごとに事前に用意されるのが好ましい。会議用サーバ300などにデータ1を保管しておけば、会議用端末が新たに会場に導入される時など、必要な時にそのデータ1をテスト用音声データとして使用することも可能になる。相手の対話環境(会議室)での再生ボリュームを確保するのに最低限必要なマイクボリュームを確認しておき、ボリューム調整時にそのマイクボリューム値よりも下げられないように制限を設けることも可能である。
In step ST10, the data 1 stored in the
上述のように、ステップST40において自己の対話環境におけるエコー発生状況を再現する制御部210は、再現されたエコー発生状況に基づいて、該対話環境の整備状態を判定する判定手段としても機能し得る。この場合、制御部210は、会議用端末本体に取り付けられた液晶モニタ261やLEDアラーム262に判定結果を視覚的に表示させるよう描画部260を制御する。なお、この判定結果は、会議用端末に接続されたモニタ42に表示させてもよい。
As described above, the
図7は、制御部210による表示制御の一例として、LEDアラーム262の種々の構成例を示す図である。
FIG. 7 is a diagram illustrating various configuration examples of the
図7(a)の例では、LEDアラーム262Aは、対話開始が可能なレベルまでエコー発生状況が抑えられていることを示すLED1(「OK」表示のLED)、対話環境の整備が必要であることを示すLED2(「NO」表示のLED)を備える。判定手段として機能する制御部210は、例えば、ステップST30において再生されるデータ2に含まれるエコー成分(データ1とデータ2との差分)の振幅(音量情報)が予め設定された閾値を超えるか否かで、対話環境の整備状態を判定する。制御部210は、この判定結果に基づいて、LEDアラームのLED1及びLED2のいずれかを点灯させるよう、描画部260を制御する。
In the example of FIG. 7A, the
図7(b)に示されたLEDアラーム262Bは、2種類のLEDを備える点では上述のLEDアラーム262Aと同様であるが、対話環境の整備状況の判定結果をレベル表示する点でLEDアラーム262Aと異なる。すなわち、LEDアラーム262Bは、対話開始が可能なレベルまでエコー発生状況が抑えられていることを示すLED1(「OK」表示のLED)、対話環境の整備が必要であることを、その輝度を調節することにより複数レベルで示すLED3(「NO」表示のLED)を備える。この場合、制御部210は、予め複数のレベルごとに閾値を設定しておき、ステップST30において再生されるデータ2に含まれるエコー成分の音量情報に基づいて、LED3が該エコー成分の音量変化に対応した輝度になるよう描画部260を制御する。また、制御部210が判定手段としても機能する場合、該制御部210は、ステップST30において再生されるデータ2に含まれるエコー成分の振幅がいずれの閾値を超えるかで、対話環境の整備レベルを判定する(ステップST40)。制御部210は、この判定結果に基づいて、LEDアラームのLED1及びLED3のいずれかを選択し、さらにLED3を選択する場合には判定結果に応じたレベルの輝度でLED3を点灯させるよう、描画部260を制御する。
The
図7(c)に示されたLEDアラーム262Cは、LEDアラーム262Aと同じ2種類のLED1、LED2の他、対話環境の整備状況の判定結果をレベル表示する1又はそれ以上のLED群(LED4)を備える。すなわち、LEDアラーム262Cは、対話開始が可能なレベルまでエコー発生状況が抑えられていることを示すLED1(「OK」表示のLED)、対話環境の整備が必要であることを示すLED2(「NO」表示のLED)、対話環境の整備必要度に応じて点灯する1又はそれ以上のLED群(LED4)を備える。この場合、制御部210は、予め複数のレベルごとに閾値を設定しておき、ステップST30において再生されるデータ2に含まれるエコー成分の音量情報に基づいて、LEDアラーム262CのLED1、LED2及びLED4のうち、該エコー成分の音量に対応するLEDを点灯するよう描画部260を制御する。また、制御部210が判定手段としても機能する場合、該制御部210は、ステップST30において再生されるデータ2に基づく音の振幅がいずれの閾値を超えるかで、対話環境の整備レベルを判定する(ステップST40)。制御部210は、この判定結果に基づいて、LEDアラーム262CのLED1、LED2及びLED4のいずれかを選択し、さらにLED4を選択する場合には判定結果に応じたレベルのLEDを点灯させるよう、描画部260を制御する。
The
以上のように本発明よれば、対話者自身の対話環境が発生源となり相手側対話者の対話環境下で発生するエコーを、発生源である対話者自身の対話環境下で事前確認することが可能になる。そのため、相手側対話者の対話環境下で発生するエコー、特に各情報端末が有するエコーキャンセリング機能では除去しきれないエコーの解消に向けた対策を取り易くなる。また、このエコー解消作業は、エコーに関する問題が発生する可能性のある相手側対話者の対話環境と接続することなく、対話者自身がエコー発生状況を事前確認できる。 As described above, according to the present invention, it is possible to confirm in advance the echo generated in the conversation environment of the other party's dialogue person in the conversation environment of the other party's own conversation in the conversation environment of the other party. It becomes possible. For this reason, it is easy to take measures for eliminating echoes generated in the conversation environment of the other party's dialog, particularly echoes that cannot be removed by the echo canceling function of each information terminal. In addition, the echo canceling work allows the conversation person to confirm the echo occurrence state in advance without being connected to the conversation environment of the partner conversation person who may cause a problem related to the echo.
以上の本発明の説明から、本発明を様々に変形しうることは明らかである。そのような変形は、本発明の思想および範囲から逸脱するものとは認めることはできず、すべての当業者にとって自明である改良は、以下の請求の範囲に含まれるものである。 From the above description of the present invention, it is apparent that the present invention can be modified in various ways. Such modifications cannot be construed as departing from the spirit and scope of the invention, and modifications obvious to one skilled in the art are intended to be included within the scope of the following claims.
10…ネットワーク(伝送手段)20、20A、20B…会議用端末(情報端末)、30A、31A…対話者、30B、31B…相手側対話者、51、51A、51B…スピーカ、52、52A、52B…マイク、210…制御部(制御手段、判定手段)230…記録部(記録手段)、240…エコーキャンセリング回路、260…描画部、261…液晶モニタ(表示手段)、262、262A、262B、262C…LEDアラーム(表示手段)。
DESCRIPTION OF
Claims (10)
前記自己の情報端末が設置された対話環境下で収録されたテスト用音源として、第1テスト音データを前記自己の情報端末の記録手段に格納し、
前記自己の情報端末のスピーカを介して前記第1テスト音データに基づく音を再生しながら前記自己の情報端末のマイクを介して取り込まれた第2テスト音データを、環境データとして前記記録手段に格納し、
前記スピーカを介して前記第2テスト音データに基づく音を再生することにより、前記自己の情報端末が設置された対話環境下でのエコー発生状況を再現する対話環境再現方法。 In a two-way interactive system that enables transmission and reception of electronic data including at least audio data via a predetermined transmission means, in order for the interlocutor to confirm the echo occurrence status in the interactive environment where the information terminal is installed The interactive environment reproduction method of
Storing the first test sound data in the recording means of the information terminal as a test sound source recorded in an interactive environment in which the information terminal is installed;
While reproducing the sound based on the first test sound data via the speaker of the own information terminal, the second test sound data captured via the microphone of the own information terminal is stored as environmental data in the recording means. Store and
An interactive environment reproduction method for reproducing an echo occurrence state in an interactive environment in which the information terminal is installed by reproducing a sound based on the second test sound data through the speaker.
前期表示手段を利用して、前記エコー発生状況の判定結果を、予め設定された判定レベルに応じて視覚的に表示することを特徴とする請求項2記載の対話環境再現方法。 Determining the degree of the reproduced echo occurrence status based on the volume information of the echo component,
3. The interactive environment reproduction method according to claim 2, wherein the judgment result of the echo occurrence state is visually displayed according to a preset judgment level by using a previous period display means.
前記記録手段と、
前記記録手段に格納された前記第2テスト音データに含まれるエコー成分を視覚的に表示するための表示手段と、を備えた装置。 Control means for executing the interactive environment reproduction method according to any one of claims 1 to 6,
The recording means;
A display means for visually displaying an echo component included in the second test sound data stored in the recording means.
前記表示手段は、前記判定手段の判定結果を予め設定された判定レベルに応じて視覚的に表示することを特徴とする請求項9記載の装置。 Determination means for determining the degree of echo occurrence status reproduced by the control means based on volume information of the echo component;
The apparatus according to claim 9, wherein the display unit visually displays the determination result of the determination unit according to a predetermined determination level.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012001211A JP2013141182A (en) | 2012-01-06 | 2012-01-06 | Interaction environment reproduction method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012001211A JP2013141182A (en) | 2012-01-06 | 2012-01-06 | Interaction environment reproduction method and device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013141182A true JP2013141182A (en) | 2013-07-18 |
Family
ID=49038244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012001211A Pending JP2013141182A (en) | 2012-01-06 | 2012-01-06 | Interaction environment reproduction method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013141182A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018025397A1 (en) * | 2016-08-05 | 2018-02-08 | 三菱電機株式会社 | Electronic equipment and vehicle-mounted hands-free device |
JP2018102606A (en) * | 2016-12-27 | 2018-07-05 | 株式会社サテライトオフィス | Robot or voice-compatible electronic circuit module control system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000253182A (en) * | 1999-03-02 | 2000-09-14 | Hitachi Building Systems Co Ltd | Device for checking speech path and speech device of elevator |
JP2001036625A (en) * | 1999-07-21 | 2001-02-09 | Kenwood Corp | Method for adjusting amount of echo in speech unit |
JP2011193374A (en) * | 2010-03-16 | 2011-09-29 | Ricoh Co Ltd | Remote conference apparatus and remote conference method |
-
2012
- 2012-01-06 JP JP2012001211A patent/JP2013141182A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000253182A (en) * | 1999-03-02 | 2000-09-14 | Hitachi Building Systems Co Ltd | Device for checking speech path and speech device of elevator |
JP2001036625A (en) * | 1999-07-21 | 2001-02-09 | Kenwood Corp | Method for adjusting amount of echo in speech unit |
JP2011193374A (en) * | 2010-03-16 | 2011-09-29 | Ricoh Co Ltd | Remote conference apparatus and remote conference method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018025397A1 (en) * | 2016-08-05 | 2018-02-08 | 三菱電機株式会社 | Electronic equipment and vehicle-mounted hands-free device |
JP2018102606A (en) * | 2016-12-27 | 2018-07-05 | 株式会社サテライトオフィス | Robot or voice-compatible electronic circuit module control system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11929088B2 (en) | Input/output mode control for audio processing | |
JP5085556B2 (en) | Configure echo cancellation | |
KR101125897B1 (en) | Sound pickup apparatus and echo cancellation processing method | |
CN105340255B (en) | Catch up with ongoing conference call | |
US20190222950A1 (en) | Intelligent audio rendering for video recording | |
US10586131B2 (en) | Multimedia conferencing system for determining participant engagement | |
US20180109753A1 (en) | Providing a log of events to an isolated user | |
US20220369034A1 (en) | Method and system for switching wireless audio connections during a call | |
JP2012142910A (en) | Communication apparatus and communication method | |
US11521636B1 (en) | Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation | |
WO2022066393A1 (en) | Hearing augmentation and wearable system with localized feedback | |
JP5034607B2 (en) | Acoustic echo canceller system | |
US20170148438A1 (en) | Input/output mode control for audio processing | |
JP6201279B2 (en) | Server, server control method and control program, information processing system, information processing method, portable terminal, portable terminal control method and control program | |
JP2013141182A (en) | Interaction environment reproduction method and device | |
Tashev | Recent advances in human-machine interfaces for gaming and entertainment | |
KR20150088169A (en) | Method And Apparatus for Noise Reduction And Inducement thereto | |
US20200344545A1 (en) | Audio signal adjustment | |
JP7095356B2 (en) | Communication terminal and conference system | |
US20220368554A1 (en) | Method and system for processing remote active speech during a call | |
US11146909B1 (en) | Audio-based presence detection | |
JP2022016997A (en) | Information processing method, information processing device, and information processing program | |
JP2017034490A (en) | Intercom device | |
US11509993B2 (en) | Ambient noise detection using a secondary audio receiver | |
WO2022131018A1 (en) | Communication apparatus and communication method, information processing apparatus, communication system, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150908 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160105 |