DE69634023T2

DE69634023T2 - Audiokommunikationssteuereinheit für Telekonferenzsysteme

Info

Publication number: DE69634023T2
Application number: DE69634023T
Authority: DE
Inventors: Ikuichiro Yokosuka-shi Kinoshita; Shigeaki Yokosuka-shi Aoki; Manabu Yokohama-shi Okamoto; Nobuo Yokohama-shi Hayashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-03-01
Filing date: 1996-02-29
Publication date: 2005-12-15
Anticipated expiration: 2016-03-01
Also published as: EP0730365B1; US5734724A; DE69634023D1; CA2170545C; CA2170545A1; EP0730365A2; EP0730365A3

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft eine Audiokommunikationssteuereinheit, welche die Verarbeitung von Audiosignalen in einer Mehrpunkt-Telekonferenz, welche Audiokommunikation einbezieht, wie z. B. einer Audio-, Video- oder Multimediakonfetenz, die über ein Kommunikationsnetzwerk abgehalten wird, steuert.
Ein Audiokonferenzsystem, ein Mehrpunkt-Videokonferenzsystem oder etwas ähnliches setzt eine Audiokommunikationssteuereinheit ein, welche Audiosignale, die von Konferenzteilnehmern kommend empfangen werden, miteinander mischt, nachdem jedes Audiosignal mit einem Gewichtungskoeffizienten entsprechend z. B. der Anzahl der gleichzeitig sprechenden Personen multipliziert worden ist, und das gemischte Audiosignal an jeden Konferenzteilnehmer überträgt.
Konventionelle Audiokommunikationssteuereinheiten sind solche, welche Mittel zum miteinander Mischen von Audiosignalen haben, die von allen Konferenzteilnehmern empfangen werden, oder Mittel zum Anfordern der Genehmigung zum Sprechen, haben.
In dem Fall, dass nur ein Kanal (Downlink-Kanal) verwendet wird, um das gemischte Audiosignal an jeden Standort zu übertragen, an dem ein Kommunikationsendgerät angeordnet ist (ein solches Audiosignal wird nachfolgend als ein Downlink-Audiosignal bezeichnet), treten solche Probleme auf, wie sie untenstehend aufgelistet sind.
Wenn bei einem Schema, welches Audiosignale von einer Mehrzahl von Sprechern miteinander mischt, zwei oder mehr Parteien gleichzeitig sprechen, werden die Audiosignale gemischt, und es wird ein gemischter Ton unter Verwendung eines Tontreibers (oder Lautsprechers) wiedergegeben. Dies verschlechtert die Verständlichkeit für den Hörer und macht es für ihn schwierig, die Sprecher zu identifizieren. Darüber hinaus ist es für jeden Teilnehmer notwendig, zum Übertragen einer Sprechanfrage einige Operationen auszuführen, wenn sich der Teilnehmer in der Telekonferenz äußern will, und die Kommunikationssteuereinheit hat all diese Anfragen auch zu verwalten und hält die Teilnehmer dadurch von freier Konversation ab.
Andererseits ist es im Stand der Technik bekannt, dass ein räumliches Wahrnehmen der Stimme jedes Sprechers, die von einer eindeutigen Position herrührt, dabei unterstützt, den Sprecher zu identifizieren, und die Sprachverständlichkeit verbessert (D. R. Begault, „Multichannel Spatial Auditory Display for Speech Communications", Journal of the Audio Engineering Society, 42, Seiten 819–826, 1994). Mit der hier erwähnten Tonlokalisierung ist gemeint, dass man den Hörer über die Position des Tons, den er hört, urteilen lässt. Gewöhnlicherweise fällt die abgebildete Position eines Tons mit der realen Position der Tonquelle zusammen. Es wurde jedoch eine Technik entwickelt, die es einem Hörer ermöglicht, das Klangbild an einer beliebigen Zielposition zu lokalisieren.
Es wird nun eine kurze Beschreibung eines typischen Schemas zum Lokalisieren von mehreren Tönen an jeweiligen Zielpositionen gegeben. Wie in 2 gezeigt ist, werden akustische Transferfunktionen wie z. B. kopfbezogene Transferfunktionen H_1L und H_1R, welche die Übertragungswege von einer Tonquelle 1 zum linken und rechten Ohr des Hörers in der 1 repräsentieren, mit einem Audiosignal S₁ gefaltet. Gleichzeitig werden akustische Transferfunktionen H_2L und H_2R, welche die Übertragungswege von einer Tonquelle 2 zum linken und rechten Ohr repräsentieren, auf eine ähnliche Weise mit einem Audiosignal S₂, das von S₁ verschieden ist, gefaltet. Die aus der Faltung resultierenden Audiosignale werden miteinander gemischt, und das gemischte Audiosignal wird den beiden Ohren über einen Stereokopfhörer dargeboten. Dadurch werden dem linken und rechten Ohr jeweils Klangreize S₁*H_1L + S₂*H_2L bzw. S₁*H_1R + S₂*H_2R gegeben, welche denjenigen äquivalent sind, die vorliegen, wenn die Audiosignale die beiden Ohren des Hörers von den Tonquellen 1 und 2 erreichen, wie in der 2 gezeigt. In einem solchen Fall kann der Hörer Klangbilder für die Audiosignale S₁ und S₂ an denselben räumlichen Positionen lokalisieren wie denjenigen der Tonquellen 1 und 2 in der 1. Andere Schemata werden z. B. in J. Blauert, Gotoh und Morimoto, „Spatial Hearing. The Psychophysics of Human Sound Localization", (Cambridge, MA: MIT Press, 1983) usw., ebenfalls im Einzelnen beschrieben.
Ein Beispiel aus dem Stand der Technik, welches die oben beschriebenen Ergebnisse auf die Mehrpunkt-Audiokommunikation anwendet, ist ein Telekonferenzendgerät, das z. B. in der offengelegten japanischen Patentschrift Nr. 10744/92 beschrieben ist. Wie in der 3 dargestellt, hat die in diesem Dokument vorgeschlagene Kommunikationsendgerätausrüstung Mittel 3L und 3R zum Verarbeiten von Audiosignalen von anderen Endgeräten. Für die Signalverarbeitung werden Parameter eingesetzt, die mit jeweiligen Zielpositionen in Beziehung stehen. Zur Steuerung dieser Endgeräte ist es unerlässlich, jedem Endgerät (oder Konferenzteilnehmer) vorab eine Identifikationsnummer (oder eine Endgerätadresse) ID zuzuweisen, und ein Teilnehmer muss immer, wenn er sein Audiosignal übertragen will, seine Nummer-ID zusammen mit dem Audiosignal übertragen. Das in der 3 gezeigte Kommunikationsendgerät empfängt eine Identifikationsnummer ID, welche den Ursprung des empfangenen Audiosignals spezifiziert. D. h., dass ein von einem anderen Kommunikationsendgerät empfangenes Signal von einem Signaltrennungsteil 1 in eine ID und ein Audiosignal getrennt wird. Als Antwort auf den getrennten ID-Code wählt ein Schaltsteuerteil 2 Sprachsignalverarbeitungsmittel 3R und 3L aus, welche eine Faltung mit einem Paar akustischer Transferfunktionen entsprechend einer der räumlichen Positionen ausführen, die dem Endgerät zugeteilt ist, welches diese ID hat. Das Sprachsignal an dem Signaltrennungsteil 1 wird in das ausgewählte Paar von Sprachsignalverarbeitungsmitteln 3R und 3L eingegeben und mit dem Paar von Transferfunktionen gefaltet, um ein Klangbild zu reproduzieren, welches an der zugewiesenen räumlichen Position lokalisiert ist. Dementsprechend erfordert die Einführung dieses Kommunikationsendgerätes des Standes der Technik an jedem Standort Prozeduren zum Übertragen der Identifikationsnummer und schränkt dadurch die Ausführbarkeit des Kommunikationssystems des Standes der Technik ein.
Diese Unzulänglichkeiten verhindern eine ökonomische Einrichtung von Mehrpunkt-Audiotelekommunikationen desjenigen Typs, in dem Stimmen von Parteien an jeweiligen Positionen lokalisiert werden können.
Für einen Zweipunkt-Telekonferenzdienst wurde auch ein System vorgeschlagen, welches akustische Umgebungen in einem Konferenzraum an einer lokalen Station z. B. durch ein Stereomikrofon detektiert, und bei dem Information über die Umgebungen codiert und an die andere entfernte Station übertragen wird (z. B. U.S. Patent Nr. 5,020,098). Die Anwendung dieses Systems auf eine Drei- oder Mehrpunkt-Telekonferenz erfordert es jedoch, Kommunikationskanäle zwischen den jeweiligen Standorten zu schalten. Darüber hinaus muss jedes Endgerät mit einer Entschlüsselungsvorrichtung ausgestattet sein.
4 zeigt ein weiteres System aus dem Stand der Technik, in welchem Endgeräte 4 alle mit Tonlokalisierungssignalverarbeitungsmitteln ausgerüstet sind und über Netzwerkkommunikationskanäle untereinander verbunden sind. In diesem Fall ist die Anzahl C_M der benötigten Kommunikationskanäle mindestens M(M – 1)/2, wobei M die Anzahl der untereinander zu verbindenden Endgeräte 4 ist. Dieses Verbindungsschema ist nicht praktikabel, weil bei einem Anwachsen der Anzahl M die erforderliche Anzahl von Verbindungskanälen für alle möglichen Kombinationen rasch um einen Faktor von ungefähr M anwächst.
Als eine Modifikation des Verfahrens zur Realisierung einer Mehrpunkt-Audiotelekommunikation desjenigen Typs, bei dem der Hörer die Stimme von jeder Partei an einer unterschiedlichen räumlichen Position durch Verwendung einer Tonlokalisierungstechnik ähnlich der oben genannten lokalisieren kann, wurde ein Verfahren vorgeschlagen, das Kommunikation zwischen den Endgeräten von zwei oder mehr gewünschten Gruppen von jeweiligen Punkten ausführt, wie es z. B. in Cohen, Koizumi N. und Aoki S., „Design and Control of Shared Conferencing Environments or Audio Telecommunication", Proc. Int. Symp. on Measurement and Control in Robotics, Seiten 405–412, November 1992, beschrieben ist.
Dieses Verfahren erfordert ebenfalls, dass jedes Endgerät mit Audiosignalverarbeitungsmitteln zum Verarbeiten des Audiosignals, das über die Kommunikationsleitung von jedem Standort übertragen wird, um die Stimme von jedem Sprecher an einer unterschiedlichen Position zu lokalisieren, und Mischmitteln zum Mischen von Audiosignalen, die von dem Audiosignalverarbeitungsmittel erzeugt werden, ausgestattet ist. Darüber hinaus ist es notwendig, den ursprünglichen Standort zu spezifizieren und das Audiosignal für jeden Standort zu übertragen. Um diese Erfordernisse zu erfüllen, muss das zu verwendende Kommunikationssystem vorbestimmt werden. Dies lässt das Problem des Erfordernisses der Vorbestimmung des verwendeten Kommunikationssystems ungelöst.
Es ist daher eine Aufgabe der vorliegenden Erfindung eine Audiokommunikationssteuereinheit bereitzustellen, welche die Einrichtung einer Mehrpunkt-Telekonferenz erlaubt, welche in dem Fall von mehrfachen gleichzeitigen Äußerungen eine hohe Verständlichkeit für mehrere Audiotöne erreicht, ohne dass jedes Endgerät mit einer hohen Audiosignalverarbeitungsfähigkeit ausgestattet sein muss.
US-A-4,734,934 offenbart ein Telekonferenzsystem, das eine Audiokommunikationssteuereinheit gemäß dem Oberbegriff des Anspruchs 1 verwendet. Dieses System erlaubt es einem Benutzer, an einer Telekonferenz teilzunehmen. Von jedem Sprecher wird ein Sprachsignal in zwei Kanäle verzweigt, für jeden Sprecher wird das Sprachsignal eines der beiden Zweigkanäle verzögert, die verzögerten Sprachsignale der jeweiligen Sprecher werden gemischt, die nicht verzögerten Sprachsignale der anderen Kanäle der jeweiligen Sprecher werden ebenfalls gemischt, in den gemischten Signalen wird die eigene Sprache jedes Konferenzteilnehmers aus einem Rücksignal entfernt, das an diesen Konferenzteilnehmer weitergeleitet werden soll. Es werden Paare von Invertern eingesetzt, um die Signalkomponenten der eigenen Sprache des Konferenzteilnehmers aus dem Signal zu löschen, das zurückgegeben werden soll. Es ist auch beschrieben, dass die Verzögerungen so eingestellt werden, dass bei einem passenden Konferenzteilnehmer der Eindruck erweckt wird, dass die anderen Konferenzteilnehmer räumlich um den Hörer verteilt sind, wie in der 3 dieses Dokumentes gezeigt ist.
Es ist eine andere Aufgabe der vorliegenden Erfindung, eine Audiokommunikationssteuereinheit bereitzustellen, welche es jedem in einem Kommunikationsnetzwerk eingegliederten Endgerät erlaubt, auf dieses zuzugreifen und von ihm Gebrauch zu machen.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, eine Audiokommunikationssteuereinheit bereitzustellen, welche gleichzeitig eine oder mehr Kommunikationen zwischen einer gewünschten Kombination von verbundenen Endgeräten implementiert, wobei jeder Teilnehmer Töne lokalisieren kann, die von jeweiligen Sprechern der Endgeräte an jeweiligen Positionen herrühren.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung werden diese Aufgaben von einer Audiokommunikationssteuereinheit, wie sie in Anspruch 1 beansprucht ist, und deren bevorzugten Ausgestaltungen, wie sie in den abhängigen Ansprüchen beansprucht sind, gelöst.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Diagramm zur Erklärung akustischer Transferfunktionen, die für die Tonlokalisierung bestimmt sind;
2 ist ein Diagramm zur Erklärung eines Beispiels für die Audiosignalverarbeitung, die für die Tonlokalisierung bestimmt ist;
3 ist ein Blockdiagramm, das ein Beispiel für die Konfiguration eines Endgerätes für konventionelle Mehrpunkt-Audiotelekommunikation zeigt;
4 ist ein Blockdiagramm, das ein Beispiel für eine Netzwerkanordnung in einem konventionellen Mehrpunkt-Audiotelekommunikationssystem zeigt;
5 ist ein Blockdiagramm, das beispielhaft die Unterbringung von Kommunikationskanälen zur Verwendung bei einer Audiokommunikationssteuereinheit 100 gemäß der vorliegenden Erfindung zeigt;
6 ist ein Blockdiagramm, das den grundlegenden Aufbau der Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung zeigt;
7 ist ein Blockdiagramm, das ein Beispiel für die Endgerätekonfiguration zur Verwendung in dem System der 5 zeigt;
8 ist ein Blockdiagramm, das eine Audiokommunikationssteuereinheit gemäß einer ersten Ausgestaltung der vorliegenden Erfindung zeigt;
9 ist ein Wellenformdiagramm zur Erklärung eines Sprecheridentifizierungsverfahrens;
10 ist ein Blockdiagramm, das ein Beispiel für den Aufbau eines Audiosignalverarbeitungsteils 25 in der 8 zeigt;
11 ist ein Blockdiagramm, das ein weiteres Beispiel für den Aufbau des Audiosignalverarbeitungsteils 25 in der 8 zeigt;
12 ist ein Ablaufdiagramm zur Erklärung eines ersten Hauptsprecheridentifizierungsverfahrens und eines Beispiels für die Betriebsweise in der 11;
13 ist ein Ablaufdiagramm zur Erklärung eines zweiten Hauptsprecheridentifizierungsverfahrens und eines weiteren Beispiels für die Betriebsweise in der 11;
14 ist ein Blockdiagramm, das eine zweite Ausgestaltung der Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung zeigt;
15 ist ein Blockdiagramm, das ein Beispiel für den Aufbau eines endgerätzugeordneten Mischsteuerteils entsprechend jedem Endgerät in der 14 zeigt;
16 ist ein Blockdiagramm, das eine dritte Ausgestaltung der Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung zeigt;
17 ist ein Blockdiagramm, das ein Beispiel für den Aufbau eines Klangbildverarbeitungsteils 8-1 in der 16 zeigt;
18 ist ein Diagramm zur Erklärung von Zielpositionen zur Tonlokalisierung;
19 ist ein Diagramm zur Erklärung von Kombinationen von Endgeräten, die zu einer oder mehr Telekonferenzen gehören;
20 ist ein Blockdiagramm, das eine vierte Ausgestaltung der Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung darstellt;
21A ist ein Diagramm, das ein Beispiel für die Zielpositionen zur Tonlokalisierung in einer Telekonferenz durch die Ausgestaltung der 20 zeigt;
21B ist ein Diagramm, das ein Beispiel für die Zielpositionen zur Tonlokalisierung in einer anderen Telekonferenz durch die Ausgestaltung der 20 zeigt;
21C ist ein Diagramm, das Zielpositionen zur Tonlokalisierung in zwei Telekonferenzen durch die Ausgestaltung der 20 zeigt;
22 ist ein Blockdiagramm einer fünften Ausgestaltung der vorliegenden Erfindung, die ein Beispiel für den Aufbau der Ausgestaltung der 20 darstellt;
23 ist ein Blockdiagramm, das ein Beispiel für den Aufbau von jedem Misch/Verzweigungsteil 17-P in der 22 zeigt;
24 ist ein Blockdiagramm einer sechsten Ausgestaltung der vorliegenden Erfindung, die eine modifizierte Form der Ausgestaltung der 20 darstellt;
25 ist ein Blockdiagramm einer siebten Ausgestaltung, das ein Beispiel für den Aufbau der Ausgestaltung in der 24 darstellt;
26A ist ein Diagramm, das ein Beispiel für die Zielpositionen zur Tonlokalisierung zeigt, die in einer Telekonferenz durch die Ausgestaltung der 24 oder 25 möglich sind; und
26B ist ein Diagramm, das ein Beispiel für die Zielpositionen zur Tonlokalisierung zeigt, die in anderen Telekonferenzen durch die Ausgestaltungen der 24 oder 25 möglich sind.
BESCHREIBUNG DER BEVORZUGTEN AUSGESTALTUNGEN
5 stellt schematisch den allgemeinen Aufbau eines Mehrpunkt-Telekonferenzssystems dar, welches die Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung verwendet. Die Audiokommunikationssteuereinheit der vorliegenden Erfindung, im Allgemeinen mit 100 bezeichnet, hat ein Schalt- oder Vermittlungsteil 11, das mit einem Kommunikationsnetzwerk 40, wie z. B. einem ISDN oder LAN, verbunden ist und über jedes damit verbundene Endgerät zugänglich ist. Aufgrund von Beschränkungen der Kapazität und des Durchsatzes der Audiokommunikationssteuereinheit 100 ist die maximale Anzahl N von Konferenzteilnehmern (oder die Anzahl von Endgeräten), denen erlaubt ist, gleichzeitig an einer Konferenz teilzunehmen, vorgeschrieben, wobei N eine ganze Zahl ist, die gleich oder größer ist als 3. Z. B. sind vier konferenzteilnehmende Endgeräte TM-1 bis TM-4 über ein Kommunikationsnetzwerk 40 verbunden, und das Schaltteil 11 ist mit vier von N Eingabekanälen C₁ bis C₄ verbunden. Die Eingabekanäle C₁ bis C_N sind dadurch mit einem Audiosignal-Mischsteuerteil 10 verbunden, was ein Mehrpunkt-Telekonferenzsystem begründet, das den Konferenzteilnehmern ermöglicht, miteinander zu reden. Wie später genauer beschrieben wird, verarbeitet das Audiosignal-Mischsteuerteil 10 das von jedem Endgerät herrührende Audiosignal durch Verwenden einer Art von Klangbildsteuerparametern, die ein Klangbild wie z. B. Pegel (oder Pegel, Dämpfung, Verstärkung, usw.), Verzögerungen, Phasen und Transferfunktionen oder eine gewünschte Kombination davon betreffen, so dass wenigstens ein Satz der Klangbildsteuerparameter mit Audiosignalen von einem Endgerät arbeitet und andere Sätze der Klangbildsteuerparameter mit Audiosignalen von anderen Endgeräten.
6 stellt den grundlegenden Aufbau der Audiokommunikationssteuereinheit 100 der vorliegenden Erfindung zur Verwendung in dem System der 5 in Blockform dar. Das Schaltteil 11 verbindet wahlweise die Kommunikationskanäle von Endgeräten, die anfragen, an einer Konferenz teilzunehmen, mit dem Audiosignal-Mischsteuerteil 10 über die N Eingabekanäle C₁ bis C_N. Das Audiosignal-Mischsteuerteil 10 umfasst: ein Kanalverzweigungsteil 13, durch welches Audiosignale, die von maximal N verbundenen Endgeräten in die N Eingabekanäle C₁ bis C_N eingegeben werden, in Audiosignale auf K vorbestimmten Zweigkanälen B_JL und B_JR (J = 1, ..., N) verzweigt werden (wobei K eine ganze Zahl ist, die gleich 2 ist, und K in 6 auf 2 gesetzt ist, wobei jedes entweder einem linken oder einem rechten Kanal entspricht); ein Klangbildsteuerteil 14, welches N Sätze von auf K Kanäle verzweigten Audiosignalen durch vorbestimmte Klangbildsteuerparameter steuert; ein Mischteil 15, welches N Kanälen zugeordnete entsprechende der N Sätze von klangbildgesteuerten K-Kanal-Audiosignalen mischt, um K-kanal-gemischte Audiosignale zu erzeugen; und ein endgerätzugeordnetes Verzweigungsteil 16, welches die K-kanal-gemischten Audiosignale in jeweils N Sätze von K-Kanal-Signalen zur Eingabe in das Schaltteil 11 verzweigt. Das Kanalverzweigungsteil 13, das Klangbildsteuerteil 14 und das Mischteil 15 bilden ein Audiosignalverarbeitungsteil 25. Das Schaltteil 11 vermittelt durch dieses die N Sätze der K-Kanal-Signale an die N an der Konferenz teilnehmenden Endgeräte TM-1 bis TM-N. In der 6 werden alle Zweikanal-(K = 2)-Audiosignale von dem Schaltteil 11 über zwei Downlink-Kanäle an eines der teilnehmenden Endgeräte gesendet.
Wie zuvor beschrieben, zeigt 6 den Fall K = 2, und die eingegebenen Audiosignale werden alle an einem der Verzweigungspunkte 3-1, 3-2, ..., 3-N in dem Kanalverzweigungsteil 13 in verzweigte Zweikanal-Audiosignale verzweigt. In 6 ist gezeigt, dass die zwei Kanäle wie im Stand der Technik linken und rechten Kanälen entsprechen. Diejenigen Teile, die sich auf den linken Kanal beziehen, sind alle mit einem Anhang L an deren Bezugszeichen gekennzeichnet, und diejenigen Teile, die sich auf den rechten Kanal beziehen, sind alle mit einem Anhang R gekennzeichnet. Das Klangbildsteuerteil 14 umfasst N Sätze von Signalverarbeitungsteilen 4-1L, 4-1R, 4-2L, 4-2R, ..., 4-NL, 4-NR und verarbeitet die verzweigten Audiosignale durch Verwenden von vorbestimmten Arten von jeweiligen Klangbildsteuerparametern.
Wie zuvor beschrieben worden ist, ist es möglich, für die Klangbildsteuerparameter verschiedene Arten von Parametern wie z. B. Pegel, Phase, Verzögerung und akustische Transferfunktion zu verwenden. Untenstehend werden kurze Beschreibungen der Effekte auf die Klangbilder durch jeden dieser Parameter unter der Annahme gegeben, dass die Anzahl der Verzweigungen, in die jedes der eingegebenen Audiosignale bei jedem Verzweigungspunkt verzweigt wird, zwei ist.

(a) In dem Fall, dass Pegel (entweder der Lautstärke, des Dämpfungsfaktors oder des Verstärkungsfaktors) als die Klangbildsteuerparameter verwendet werden, kann die Richtung eines von linken und rechten Lautsprechern in Verbindung mit dem eingegebenen Audiosignal wiedergegebenen Klangbildes durch Steuern der relativen Pegel der dem eingegebenen Audiosignal entsprechenden links- und rechtsverzweigten Audiosignale in eine gewünschte Richtung zwischen den beiden Lautsprechern gesetzt werden.,
(b) In dem Fall, dass Phasen (gleiche Phase oder Gegenphase) als die Klangbildsteuerparameter verwendet werden, kann das durch linke und rechte Lautsprecher wiedergegebene Klangbild durch Steuern der Phase der dem eingegebenen Audiosignal entsprechenden links- und rechtsverzweigten Audiosignale derart, dass sie gleichphasig oder einander gegenphasig sind, mit einer Perspektive versorgt werden, oder sie kann ihm entzogen werden.
(c) In dem Fall, dass Verzögerung als die Klangbildsteuerparameter verwendet wird, kann die Richtung des Klangbildes, das von linken und rechten Lautsprechern (oder Stereokopfhörer) wiedergegeben wird, durch Steuern der relativen Verzögerung der dem eingegebenen Audiosignal entsprechenden links- und rechtsverzweigten Audiosignale in eine gewünschte Richtung um einen Hörer gesetzt werden.
(d) In dem Fall, dass akustische Transferfunktionen als die Klangbildsteuerparameter verwendet werden, kann das von einem Stereokopfhörer wiedergegebene Klangbild durch Falten eines Paares von der räumlichen Zielposition entsprechenden akustischen Transferfunktionen mit dem dem eingegebenen Audiosignal entsprechenden links- und rechtsverzweigten Audiosignal an einer gewünschten räumlichen Position lokalisiert werden.

Die Klangbildsteuerparameter werden von einem Parametersetzteil 14C für die Signalverarbeitungsteile 4-1L, 4-1R, 4-2L, 4-2R, ..., 4-NL, 4-NR bereitgestellt. Die Klangbildsteuerparameter können z. B. in Übereinstimmung mit der Anzahl der Konferenzteilnehmer bestimmt werden. In dem Fall der 6 werden die Audiosignale von den Signalverarbeitungsteilen 4-1L, 4-2L, ..., 4-NL von einem Mischer 5L in dem Mischteil 15 zu einem gemischten Linkskanal-Audiosignal gemischt, während die Audiosignale von den Signalverarbeitungsteilen 4-1R, 4-2R, ..., 4-NR von einem Mischer 5R in dem Mischteil 15 zu einem gemischten Rechtskanal-Audiosignal gemischt werden. Daher enthalten die K-Kanal-Signale, die von dem endgerätzugeordneten Verzweigungsteil 16 an die jeweiligen Endgeräte TM-1 bis TM-N verteilt werden, Komponenten, die von Audiosignalen abgeleitet werden, welche von allen teilnehmenden Endgeräten ankommen.
Wie in 7 dargestellt, sind die Endgeräte TM-1 bis TM-N jeweils aus einem Mikrofon MC, einem Übertragungsteil 51, einem Entschlüsselungsteil 52 und Wiedergabeteilen 53L und 53R aufgebaut. Das empfangene codierte K-Kanal (K = 2) Audiosignal wird vom Entschlüsselungsteil 52 in Audiosignale der jeweiligen Kanäle entschlüsselt, die durch die Wiedergabeteile 53L und 53R in Töne umgeformt werden. Daher können die Töne, die der Benutzer von jedem Endgerät TM hört, Stimmen enthalten, die von allen teilnehmenden Endgeräten gesendet werden.
Gemäß der vorliegenden Erfindung kann durch Auswählen unterschiedlicher Klangbildsteuerparameter für die N Sätze der verzweigten Audiosignale in dem Klangbildsteuerteil 14 ein Teilnehmer an jedem Endgerät TM den Ton der Stimme, die von wenigstens einem der Endgeräte herrührt, von dem Ton der Stimmen, die von den anderen verbleibenden Endgeräten herrühren, unterscheiden. Die Eigenschaften des Klangbildes, die gesteuert werden müssen, sind z. B. die räumliche Position und das Raumempfinden, das der Hörer psychoakustisch oder auditorisch wahr nimmt. Wenn z. B. die Wiedergabeteile 53L und 53R des Endgerätes Lautsprecher sind, kann das Klangbild gesteuert werden, indem man als die Klangbildsteuerparameter für die Links- und Rechtskanal-Audiosignale entweder den Zwischenkanalpegelunterschied, den Zwischenkanalverzögerungsunterschied und die relative Phase (gleichphasig, gegenphasig) oder eine Kombination des Pegelunterschieds und des Zeitunterschieds verwendet. Durch Verwenden solcher vorbestimmter Klangbildsteuerparameter zur Anwendung in den N Sätzen von linken und rechten Audiosignalen in den Signalverarbeitungsteilen 4-1L, 4-1R, 4-2L, 4-2R, ..., 4-NL, 4-NR des Klangbildsteuerteils 14 in der 6 kann bei jedem Endgerät ein gewünschtes Klangbild wiedergegeben werden. Wenn ein Kopfhörer die Wiedergabeteile 53L und 53R in der 7 verwendet, ist die Anzahl der Kanäle auf K = 2 beschränkt. Durch Falten der N Sätze von linken und rechten Sprachsignalen mit Transferfunktionen entsprechend den gewünschten Zielpositionen der Tonquellen als Klangbildsteuerparameter wird in dem Klangbildsteuerteil 14 in der 6 ein gemischter Ton durch die Wiedergabeteile 53L und 53R in der 7 wiedergegeben, so dass jede Komponente, die von jedem Endgerät herrührt, an gewünschten Zielpositionen lokalisiert werden kann.
Es wird eine Beschreibung von Ausgestaltungen der vorliegenden Erfindung in Verbindung mit dem Fall gegeben, bei dem K = 2 ist.
Unter Bezugnahme auf die Zeichnungen werden untenstehend konkrete betriebsfähige Beispiele der Erfindung beschrieben.
Erste Ausgestaltung
8 stellt eine erste Ausgestaltung der Audiokommunikationssteuereinheit basierend auf dem grundlegenden Aufbau der 6 gemäß der vorliegenden Erfindung dar, bei der eine Mehrzahl von Endgeräten TM-1 bis TM-M über Kommunikationsleitungen 40 mit der Audiokommunikationssteuereinheit 100 der vorliegenden Erfindung verbunden sind. Bei dieser Ausgestaltung wird durch Beobachten der Audiosignale in den Eingabekanälen C₁ bis C_N aus dem Schaltteil 11, das mit einer Mehrzahl von teilnehmenden Endgeräten verbunden ist, ein Hauptsprecher als eine Quelle von Audiosignalen bewertet. In der Audiokommunikationssteuereinheit 100 werden die Audiosignale von allen teilnehmenden Endgeräten derart verarbeitet, dass Hörer die beurteilte Tonposition, die von dem Hauptsprecher herrührt, von der beurteilten Tonposition, die von einem Sprecher an irgendeinem anderen Endgerät herrührt, unterscheiden können.
Die Audiokommunikationssteuereinheit 100 dieser Ausgestaltung umfasst das Schaltteil 11, ein Audiosignal- und Steuersignal- oder Videosignal-Multiplex/Demultiplexteil 22, ein Audiosignaldecodierteil 23A, ein Äußerungserfassungsverarbeitungsteil 23B, ein Sprecherauswahlteil 24 zum Auswählen von Sprechern, deren Töne miteinander gemischt werden sollen, ein Audiosignalverarbeitungsteil 25, ein Echokompensationsteil 26, Audiosignalcodierteile 27 und 28, ein Downlink-Audiosignalauswahlteil 29, ein Signalverarbeitungssteuerteil 20 und ein Bildanzeigesteuerteil 30. Sowohl das Schaltteil 11 als auch das Multiplex/Demultiplexteil 22, das Audiosignaldecodierteil 23A und das Äußerungserfassungsverarbeitungsteil 23B führen entsprechend dem Endgerät als dem Ursprung des Audiosignals Verarbeitungen durch und haben einen Durchsatz oder eine Fähigkeit zur Verarbeitung von Audiosignalen, die von der maximalen Anzahl N von gleichzeitig zugegriffenen Endgeräten herrühren.
In 8 ist als ein Beispiel für das Endgerät TM ein Videokonferenzendgerät dargestellt, welches zur selben Zeit Videoinformation und Sprachinformation überträgt und empfängt. Weil das Vorhandensein von Videoinformation für die vorliegende Erfindung unbedeutend ist und weil das Videoanzeigesteuerteil 30 mit dem Gegenstand der Erfindung nicht in direkter Beziehung steht, wird von der Videoanzeigesteuerung keine genauere Beschreibung gegeben. Videoinformation könnte jedoch verwendet werden, um die Konferenz zu betreiben, an welcher die Endgeräte TM-1 bis TM-M alle teilnehmen, und um die Kombination der Konferenzteilnehmer zu steuern. In einem solchen Fall wird ein Signal, das mit der Audiosignalmischsteuerung in Beziehung steht, vom Videoanzeigesteuerteil 30 an das Signalverarbeitungssteuerteil 20 angelegt.
Die Betriebsweise der Audiokommunikationssteuereinheit 100 wird nachfolgend in Verbindung mit dem Fall beschrieben, in welchem M Endgeräte (TM-1 bis TM-M) über die Kommunikationsleitungen 40 mit der Einheit 100 verbunden sind.
Die verwendeten Kommunikationsleitungen 40 sind solche, die zur interaktiven Audiokommunikation in der Lage sind wie z. B. N-ISDN-Leitungen, Standleitungen, analoge Telefonschaltkreise, LAN-Schaltkreise, individuelle Schaltkreise oder gemultiplexte logische Schaltkreise. Außerdem spielt es keine Rolle, ob die Kommunikationskanäle verkabelt sind oder ob sie Funkkanäle sind, wenn das Schaltteil 11 an den Typ des Kommunikationsnetzwerkes 40 angepasst ist. Diese Ausgestaltung wird unter Verwendung von N-ISDN-Schaltkreisen beschrieben (wobei Übertragungsbänder von 264 kBit/s für Video und 64 kBit/s für Audio zugewiesen werden).
Z. B. können Videokonferenzendgeräte, die für N-ISDN-Leitungen ausgelegt sind, als die Endgeräte TM-1 bis TM-M verwendet werden. In diesem Fall müssen die Endgeräte TM-1 bis TM-M die Funktion des Empfangens von Zweikanal-Audiosignalen haben.
Die Endgeräte TM-1 bis TM-M sind über das Kommunikationsnetzwerk 40 mit dem Schaltteil 11 der Audiokommunikationssteuereinheit 100 verbunden. Video- und Audiosignale und Steuersignale zum Steuern der Kombination der teilnehmenden Endgeräte, werden durch standardisierte Vorschriften wie z. B. der ITU-T-Empfehlung H.221 in einen Kanal gemultiplext und von den Endgeräten TM-1 bis TM-M gesendet und von dem Multiplex/Demultiplexteil 22 gedemultiplext. Das Videosignal und das so gedemultiplexte Videoanzeigesteuersignal werden an das Videoanzeigesteuerteil 30 gesendet. Weil die Videoanzeigesteuerung für die vorliegende Erfindung nicht direkt von Bedeutung ist, wird von ihr keine Beschreibung gegeben.
Die Audio- oder Sprachsteuerinformation wird vom Multiplex/Demultiplexteil 22 an das Audiosignalverarbeitungssteuerteil 20 gesendet. Es ist möglich, Informationen wie z. B. eine Anfrage zur Teilnahme/Verlassen der Konferenz als die Sprachsteuerinformation einzusetzen. Die in dem Multiplex/Demultiplexteil 22 gedemultiplexten Audiosignale werden alte in dem Audiosignaldecodierteil 23A in z. B. ein PCM-codiertes Audiosignal zur nachfolgenden Verarbeitung codiert. Der Kürze wegen wird das Signal in der unten beschriebenen Verarbeitung einfach als ein Audiosignal bezeichnet.
Das Äußerungserfassungsverarbeitungsteil 23B erfasst Sprache z. B. durch Beobachten der Leistung des Audiosignals. Wenn Sprache erfasst wird, versorgt das Spracherfassungssteuerteil 23B das Signalverarbeitungssteuerteil 20 mit einem Steuersignal, das die Äußerung repräsentiert. In 9 ist ein Beispiel für das Äußerungserfassungsschema im Äußerungserfassungsverarbeitungsteil 23B gezeigt. Auf der Grundlage des eingegebenen Audiosignals (9A) wird eine integrierte Leistung IT über einer Zeiteinheit (z. B. für 100 ms) (9B) bestimmt. Dann wird der integrierte Leistungswert IT mit einer AN-Erfassungsschwelle E_AN und einer AUS-Erfassungsschwelle E_AUS verglichen, um die Äußerung an dem Endgerät zu beurteilen.
Bei einem ersten Äußerungsidentifikationsschema wird, wenn die integrierte Leistung IT der Einheitszeit die AN-Erfassungsschwelle E_AN überschreitet, die Äußerung an dem betreffenden Endgerät sofort beurteilt, und wenn die integrierte Leistung IT unter die AUS-Erfassungsschwelle E_AUS absinkt, wird sofort entschieden, dass sich das Endgerät in dem nicht sprechenden oder stillen Zustand befindet. Deshalb wird eine Äußerung während der diagonal schraffierten Perioden (a–b, c–d, f–g) in der 9C beurteilt.
Gemäß dem ersten Identifikationsschema wird die Äußerung-Stille-Beurteilung häufig umgeschaltet.
Ein zweites Äußerungsidentifikationsschema unterscheidet sich vom ersten Schema dadurch, dass das erstere die Äußerung unter der Annahme beurteilt, dass sichergestellt ist, dass die Äußerung für eine gewisse Periode (T in 9D) anhält, nachdem die integrierte Leistung IT der Einheitszeit unter die AUS-Erfassungsschwelle E_AUS abfällt. Gemäß diesem Schema wird Äußerung während der diagonal schraffierten Perioden (a–e, f–h) in der 9D beurteilt.
Das Audiosignal, das von dem Endgerät herrührt, in dem eine Äußerung von dem Äußerungserfassungsverarbeitungsteil 23B erfasst wird, wird in dem Sprecherauswahlteil 24 in der 8 ausgewählt. Das ausgewählte Audiosignal wird dem Audiosignalverarbeitungsteil 25 über irgendeinen der ausgewählten Audiosignalkanäle A₁ bis A_N bereitgestellt. Das Audiosignalverarbeitungsteil 25 umfasst das Kanalverzweigungsteil 13, das Klangbildsteuerteil 14 und das Mischteil 15, welche die Hauptkomponenten der vorliegenden Erfindung sind.
Das Signalverarkeitungssteuerteil 20 bearbeitet Steuersignale, die von dem Multiplex/Demultiplexteil 22 und dem Äußerungserfassungsverarbeitungsteil 23B empfangen werden, oder ein Konferenzsteuersignal von dem Videoanzeigesteuerteil 30. Berücksichtigt man die Anzahl der gegenwärtig sprechenden Personen, die Anzahl derjenigen Personen, die zu sprechen anfragen, und andere Bedingungen wie z. B. einen Vorsitzenden, dem vorzugsweise die Erlaubnis gegeben werden muss, zu allen Zeiten zu sprechen, so bestimmt das Signalverarbeitungssteuerteil 20 diejenigen der ausgewählten Audiosignalkanäle, die den Endgeräten entsprechen, deren Audiosignal gemischt werden soll, sowie deren Prioritäten. Das Sprecherauswahlteil 24 verbindet die ausgewählten Audiosignalkanäle A₁ bis A_N mit den Positionen der Eingabekanäle, wobei es den bestimmten Prioritäten folgt. Bei dieser Ausgestaltung wird angenommen, dass das vom Hauptsprecher herrührende Audiosignal in den ausgewählten Audiosignalkanal A₁ vermittelt wird, und dass zweite bis N-te Spreche an die ausgewählten Audiosignalkanäle A₂ bis A_N vermittelt werden.
Das Signalverartbeitungssteuerteil 20 steuert die Arbeitsweise des Audiosignalverarbeitungsteils 25, um Audiosignale, die von mehreren Sprechern herrühren, ohne Verschlechterung der Verständlichkeit des Tones vom Hauptsprecher zu mischen und zu verteilen. In diesem Beispiel weist das Audiosignalverarbeitungsteil 25 das Audiosignal dem Linkskanal-Audiosignal und die Audiosignale, die von den an deren Sprechern herrühren, dem Rechtskanal-Signal zu und legt beide an das Audiosignalcodierteil 28 an.
Das Audiosignalcodierteil 28 codiert und multiplext das gemischte Zweikanalstereo-Audiosignal von dem Audiosignalverarbeitungsteil 25 durch einen Stereocodierer. Das Downlink-Audiosignalauswahlteil 29 entspricht dem endgerätzugeordneten Verzweigungsteil 16 in der 6 und wählt für das Kommunikationsnetzwerk entsprechend den anderen Endgeräten als demjenigen des Hauptsprechers das codierte gemischte Stereo-Audiosignal aus dem Audiosignalcodierteil 28 aus. Was die dem Endgerät des Hauptsprechers entsprechende Leitung angeht, wird das Stereo-Audiosignal, das von dem Audiosignalcodierteil 27 codiert wird, ausgewählt. In diesem Fall wird jedoch das Signal, das von dem Hauptsprecher herrührt, von dem Echokompensationsteil 26 in den gemischten Links- und Rechtskanal-Audiosignalen zur Echounterdrückung vor dem Codieren gelöscht. Die ausgewählten Audiosignale werden jeweils an das Multiplex/Demultiplexteil 22 angelegt.
Das Multiplex/Demultiplexteil 22 multiplext die Stereo-Audiosignale von dem Downlink-Sprachauswahlteil 29 und Videoinformation vom Videoanzeigesteuerteil 30 und sendet die gemultiplexten Signale über die Kommunikationsleitungen 40 von dem Schaltteil 11 an die Endgeräte TM-1 bis TM-M.
Die Audiosignalmischverarbeitung und Klangbildsteuerverarbeitung, die auf menschlichen Hör- oder auditorischen Charakteristiken und den in Konferenzen vorherrschenden Gebräuchen basieren, werden in der Audiosignalverarbeitung 25 ausgeführt. Wie zuvor bereits erwähnt wurde, hat das Audiosignalverarbeitungsteil 25 in der 6 das Signalkanalverzweigungsteil 13, das Klangbildsteuerteil 14 und das Audiosignalmischteil 15. Diese Ausgestaltung steuert das verzweigte Audiosignal von jedem ausgewählten Audiosignalkanal, indem sie als die Klangbildsteuerparameter die Dämpfung, zum Steuern der Zwischenkanalpegelunterschiede, und die Phase, zum Steuern der Links- und Rechtskanal-Audiosignale auf Gleichphasig- oder Gegenphasigkeit, verwendet.
10 stellt ein konkretes Beispiel für das Audiosignalverarbeitungsteil 25 dar, in welchem die verzweigten Audiosignale unter Verwendung der Zwischenkanalphasenbeziehung als dem Klangbildsteuerparameter gesteuert werden. Ein Pegelsteuerteil 14A und ein Phasensteuerteil 14B bilden das Klangbildsteuerteil 14. Die Audiosignale der ausgewählten Signalkanäle A₁ bis A_N werden jeweils von Dämpfern 4-1, 4-2, ..., 4-N des Pegelsteuerteils 14A auf 1/2^½-, 1/N^½-, ..., 1/N^½-fache Pegel gedämpft. Die von den Dämpfern 4-1 bis 4-N ausgegebenen Audiosignale werden jeweils an Verzweigungspunkten 3-1, 3-2, ..., 3-N in dem Kanalverzweigungsteil 13 in Links- und Rechtskanal-Signale auf links- und rechtsverzweigten Kanälen B_1L, B_1R, ..., B_NL, B_NR verzweigt, welche in das Phasensteuerteil 14B eingegeben werden, worin sie durch Phasensteuerungen 4-1L, 4-1R, 4-2L, 4-2R, ..., 4-NL, 4-NR so gesteuert werden, dass sie zueinander gleichphasig oder um 180 Grad außer Phase sind. Die Klangbildsteuerparameter wie z. B. Dämpfung und Phase werden in dem Parametersetzteil 14C unter der Steuerung des Signalverarbeitungssteuerteils 20 gesetzt.
Das Audiosignal, das vom Hauptsprecher herrührt, d. h. das Signal des ausgewählten Audiosignalkanals A₁, wird durch Verwendung des Dämpfers 4-1 auf 1/2^½ gedämpft und am Verzweigungspunkt 3-1 in Links- und Rechtskanal-Signale verzweigt, welche von den Phasensteuerungen 4-1L und 4-1R so gesteuert werden, dass sie miteinander in Phase sind, und jeweils den Mischern 5L und 5R bereitgestellt. De Links- und Rechtskanal-Audiosignale an den Ausgaben der Mischer 5L und 5R entsprechen den Links- und Rechtskanal-Audiosignalen an dem empfangenden Endgerät. Daher ist ein Hörer an dem empfangenden Endgerät, wenn er über ein Stereowiedergabesystem hört, in der Lage, den Audioton auf dem ausgewählten Audiosignalkanal A₁ (der vom Hauptsprecher herrührt) perspektivisch zu hören, wobei dessen Klangbild im Zentrum des Wiedergabesystems lokalisiert ist.
Die Audiosignale der ausgewählten Audiosignalkanäle A₂ bis A_N werden an den Verzweigungspunkten 3-2 bis 3-N in linke und rechte Kanäle verzweigt, nachdem sie von den Dämpfern 4-2 bis 4-N z. B. um das 1/N^1/2-Fache gedämpft worden sind (wobei N die Anzahl der ausgewählten Audiosignalkanäle A₁ bis A_N ist), so dass die Summe der Sprachleistungspegel des Audiosignals auf den ausgewählten A udiosignalkanälen A₂ bis A_N, die an jedem Endgerät wiedergegeben werden, gleich oder kleiner sein kann als der Pegel der wiedergegebenen Sprache des Hauptsprechers. Die Linkskanal-Audiosignale werden von den Phasensteuerungen 4-2L bis 4-NL gleichphasig gehalten und an den Mischer 5L angelegt, während die Rechtskanal-Audiosignale von den Phasensteuerungen 4-2R bis 4-NR phasenumgekehrt werden und dann an den Mischer 5R angelegt werden.
Wenn ihm Töne mit entgegengesetzten Phasen aus dem linken und rechten Kanal bei der Stereoreproduktion vorgelegt werden, kann der Hörer die nahe an seinem Kopf befindlichen Klangbilder nicht perspektivisch wahrnehmen. Durch Ausnutzung dieser menschlichen Hör- oder auditorischen Charakteristik werden die untergeordneten Audiosignale, die in die ausgewählten Audiosignalkanäle A₂ bis A_N eingegeben werden, durch den Hörer ohne Perspektive an jedem Endgerät erkannt (d. h. ohne eines Gefühls der Entfernung zu ihm), wenn er über das Stereowiedergabesystem hört. Andererseits ist der Ton, der vom Hauptsprecher herrührt, in einer festen Position lokalisiert. Die Dämpfer 4-1 bis 4-N in dem Pegelsteuerteil 14A des Audiosignalverarbeitungsteils 25, das in der 10 gezeigt ist, dienen dazu, den Pegel des Tons, der vom Hauptsprecher herrührt und der an jedem Endgerät wiedergegeben wird, größer als die Summe der Pegel der Töne zu machen, die von den anderen Sprechern herrühren. Der Unterschied der Lokalisierung zwischen dem Ton, der vom Hauptsprecher herrührt, und dem Ton, der von den anderen Sprechern herrührt, wird ausschließlich abhängig davon bereitgestellt, ob die Links- und Rechtskanal-Audiosignale in dem Phasensteuerteil 14B derart gesteuert werden, dass sie miteinander in Phase sind oder entgegengesetzte Phasen haben.
11 stellt eine weitere Ausgestaltung des Audiosignalverarbeitungsteils 25 dar, welches derart ausgelegt ist, dass z. B. an jedem Endgerät nur derjenige Ton unter Verwendung des linken Lautsprechers wiedergegeben wird, der vom Hauptsprecher herrührt, und gemischter Ton, der von allen Sprechern herrührt, von dem rechten Lautsprecher wiedergegeben wird, wobei dessen Leistungspegel gleich oder niedriger als der Leistungspegel des Tons gehalten wird, der vom Hauptsprecher herrührt. In den vom Kanalverzweigungsteil 13 verzweigten rechten Kanälen B_1R bis B_NR werden Dämpfer 4-1R, 4-2R, ..., 4-NR mit einem Dämpfungsfaktor von N^1/2 eingeführt; die Dämpfung des Dämpfers 4-1L im verzweigten linken Kanal B_1L für den Hauptsprecher wird auf Null gesetzt, und eine Dämpfung, die ausreichend größer ist als der Dämpfungsfaktor N^1/2 in dem rechten Kanal, z. B. eine unendlich große Dämpfung, wird in jedem der Dämpfer 4-2L, ..., 4-NL der linken Kanäle B_2L bis B_NL gesetzt (d. h. die Kanäle werden ausgeschaltet gehalten). Dementsprechend wird nur das Audiosignal des ausgewählten Audiosignalkanals A₁ für den Hauptsprecher an den Linkskanalmischer 5L angelegt, ohne dass es gedämpft wird, und die Signale aller ausgewählten Audiosignalkanäle A₁ bis A_N werden an den Rechtskanalmischer 5R angelegt, nachdem sie von den Dämpfern 4-1R bis 4-NR auf eine passende Lautstärke von beispielsweise 1/N^1/2 gedämpft worden sind.
Der Hörer hört an jedem empfangenden Endgerät zur selben Zeit die Töne des Hauptsprechers und anderer Sprecher, wobei er sie an unterschiedlichen Positionen lokalisiert. Somit ist es möglich, eine Mehrpunkt-Telekonferenz zu realisieren, bei der der Hörer zu allen Zeiten klar den Ton, der vom Hauptsprecher herrührt, sowie die Töne, die von den anderen Sprechern herrühren, hören kann.
12 zeigt beispielhaft das Hauptsprecherbestimmungsschema in dem Signalverarbeitungssteuerteil 20 und das Schema der Erzeugung von gemischten Links- und Rechtskanal-Audiosignalen in dem Audiosignalverarbeitungsteil 25. Das in 12 gezeigte Hauptsprecherbestimmungsschema ist eines, bei dem "von Endgeräten, von denen geurteilt wird, dass sie zu einer gewissen Zeit Äußerungen von sich geben, dasjenige Endgerät, das als erstes als eines erkannt wird, das Äußerungen von sich gibt, als das Endgerät des Hauptsprechers angesehen wird, solange der Sprechzustand anhält."
Wenn nur ein Endgerät Äußerungen von sich gibt, wird entschieden, dass dieses Endgerät der Hauptsprecher ist, wobei dann, wenn eine Mehrzahl von Endgeräten gleichzeitig dahingehend beurteilt wird, dass sie Äußerungen von sich geben, dasjenige der Endgeräte, welches vor den anderen Äußerungen von sich gegeben hat, als dasjenige des Hauptsprechers an dem Punkt beurteilt wird, wenn der Hauptsprecher bis dahin mit dem Vonsichgeben von Äußerungen aufhört oder still wird. In 12 zeigen Reihen A bis D jeweils die Äußerungsperioden NA, NB, NC und ND der Sprecher an den Endgeräten TM-1 bis TM-4 als diagonal schraffierte Flächen. Zeile E zeigt die Ursprünge von Linkskanaläußerungen und Zeile F die Ursprünge von Rechtskanaläußerungen. Der Ton wird durch Mischen derjenigen Audiosignale miteinander erzeugt, die von den anderen Teilnehmern als dem Hauptsprecher herrühren.
13 zeigt andere Beispiele für das Hauptsprecherbestimmungsschema in dem Signalverarbeitungssteuerteil 20 und das Schema der Erzeugung von gemischten Links- und Rechtskanal-Audiosignalen durch das Audiosignalverarbeitungsteil 25 in der 11. In dem Beispiel der 13 wird einem bestimmten Endgerät (im vorliegenden Fall TM-1) der Vorrang im Recht zu sprechen gegeben. Dieses Steuerschema entspricht dem vorherrschenden Brauch, einem Vorsitzenden oder Dozenten den Vorrang im Recht zu sprechen zu geben. In der 13 zeigen die Zeilen A bis D die Komponenten des Tons, NA bis ND, an den Endgeräten TM-1 bis TM-4, Zeile E die Inhalte der Linkskanal-Audiosignale und Zeile F, wie die Rechtskanal-Audiosignale gemischt sind.
Es gibt Fälle, in denen die zwei Identifikationsschemata, die zuvor mit Bezug auf die 9 beschrieben wurden, je nach Typ der Konferenz passend oder unpassend sind. Wenn z. B. Teilnehmer an mehreren Endgeräten eine freie Diskussion unter gleichen Bedingungen ausführen, ist das erste Identifikationsschema bevorzugt, bei welchem erwartet wird, dass sich der Hauptsprecher schnell ändert. Wenn Teilnehmer der Reihe nach sprechen, ist das zweite Identifikationsschema günstig, bei dem erwartet wird, dass eine ungewünschte Änderung von Hauptsprechern eintritt.
Dementsprechend ist es effektiv, das Signalverarbeitungssteuerteil 20 mit einem Mittel auszustatten, das Algorithmen zur Erfassung von Hauptsprechern hat, wie z. B. in den 9, 12 und 13 veranschaulichend gezeigt ist, und das die Steueralgorithmen durch Manipulation von den Endgeräten TM-1 bis TM-M aus umschaltet, während die Konferenz voranschreitet.
Das Sprecherauswahlteil 24 wird vorgesehen, wenn die Klangbildsteuerparameter in dem Audiosignalverarbeitungsteil 25, das später mit Bezug auf die 10 beschrieben wird, gesetzt werden. In dem Fall, wenn in dem Audiosignalverarbeitungsteil 25 der 10 die Audiosignale von irgendeinem Paar von links- und rechtsverzweigten Kanälen B_JL und B_JR so gesetzt werden können, dass sie entweder zueinander gleichphasig oder um 180 Grad außer Phase sind, und der Dämpfungsfaktor für irgend einen sprachausgewählten Kanal A_J auf 1 bis 1/N^1/2 gesetzt werden kann, ist das Sprecherauswahlteil 24 mit Setzen der Klangbildsteuerparameter für den Eingabekanal des Audiosignals, das von dem Haauptsprecher herrührt, und für die anderen Kanäle in dem Parametersetzteil 14C in derselben Beziehung wie derjenigen zwischen dem Parameter für den Kanal des Hauptsprechers (ausgewählter Audiosignalkanal A₁) und den Parametern für die anderen ausgewählten Audiosignalkanäle A₂ bis A_N in der 10, entbehrlich. Auf ähnliche Weise ist das Sprecherauswahlteil 24 nicht notwendig, wenn der Dämpfungsfaktor in dem Parametersetzteil 14C für jeden verzweigten Kanal wahlweise auf irgendeinen der Werte 0, 1/N^1/2 und 1/∞ gesetzt werden kann.
Die 10 und 11 zeigen den Fall, bei dem die Phasen der Audiosignale zwischen den links- und rechtsverzweigten Kanälen so gesteuert werden, dass das vom Audiosignal erzeugte Klangbild, das vom Hauptsprecher herrührt, von den Klangbildern unterschieden werden kann, die von den Audiosignalen erzeugt werden, welche von anderen Sprechern herrühren, und bei dem die Verteilung der Audiosignale auf die linken und rechten Kanäle zum selben Zweck erfolgt. In diesen Fällen sind die Wiedergabeteile 53L und 53R, die an jedem Endgerät verwendet werden, Lautsprecher, die vor dem Hörer links und rechts aufgestellt werden. Wie die Klangbildsteuerparameter in den Signalverarbeitungsteilen 4-1L bis 4-NL und 4-1R bis 4-NR, kann die Phase oder Dämpfung durch linke und rechte akustische Transferfunktionen, die später mit Bezug auf 18 beschrieben werden, ersetzt werden. Ein solcher Fall setzt voraus, dass Kopfhörer an allen Endgeräten als die Wiedergabeteile 53L und 53R verwendet werden.
Zweite Ausgestaltung
In 14 ist eine modifizierte Form der Ausgestaltung der 8 dargestellt, in welcher es dem Benutzer an jedem Endgerät erlaubt ist, an mehreren Konferenzen teilzunehmen. Bei der Ausgestaltung der 14 sind Q Audiosignalverarbeitungsteile 25-1 bis 25-Q entsprechend den Q Konferenzen vorgesehen, und endgerätzugeordnete Mischsteuerteile 21-1 bis 21-N sind entsprechend den jeweiligen Endgeräten TM-1 bis TM-N vorgesehen, welche es erlauben, mehrere Konferenzen abzuhalten und es jedem Endgerät ermöglichen, an zwei oder mehreren der Konferenzen teilzunehmen.
Der Konferenzteilnehmer weist das Sprecherauswahlteil 24 der Audiokommunikationssteuereinheit 100 an, eine oder mehr Konferenzen auszuwählen, an denen er teilnehmen möchte. Wenn mehrere Konferenzen bestimmt werden, wird vom Teilnehmer verlangt eine Hauptkonferenz zu spezifizieren, zu der sein Ton gemischt wird. Deshalb wird nur eine Konferenz bestimmt, für welche das Audiosignal von diesem Endgerät zum Mischen verarbeitet wird. Was die anderen bestimmten Konferenzen angeht, wird das Audiosignal von diesem Endgerät nicht gemischt und der Teilnehmer hört nur die gemischten Töne von anderen Teilnehmern an diesen Konferenzen.
Wenn man annimmt, dass eine der logischen Konferenzen ein Dialog zwischen zwei oder mehr spezifischen Mitgliedern der Konferenz ist, wie in der 14 gezeigt ist, kann der Teilnehmer an einem Endgerät mit einem bestimmten Mitglied sprechen, während er zur selben Zeit den Ton von anderen Teilnehmern der Konferenz hört – dies ermöglicht es allen Konferenzteilnehmern, einen natürlichen Dialog zu führen, als ob sie physisch im selben Konferenzraum sitzen würden. In der Ausgestaltung der 14 hat das Sprecherauswahlteil 24 eine entsprechend mehreren Konferenzen (1 bis Q) logisch geteilte interne Struktur und führt für jeden Konferenzraum dieselbe Sprechererfassung aus, wie sie zuvor mit Bezug auf die 9 beschrieben wurde.
Die Ausgestaltung der 14 unterscheidet sich darin strukturell von der Ausgestaltung der 8, dass Audiosignalverarbeitungsteile 25-1 bis 25-Q mit derselben Anzahl vorgesehen sind, wie diejenige Q der Konferenzen, die gleichzeitig ausgeführt werden können, dass eines der Audiosignalverarbeitungsteile 25-1 bis 25-Q einer logischen Konferenz zugewiesen wird und die endgerätzugewiesenen Mischsteuerteile 21-1 bis 21-N alle an der Ausgabeseite von einem der Audiosignalverarbeitungsteile 25-1 bis 25-P vorgesehen sind. Die Audiosignalverarbeitungsteile 25-1 bis 25-P in dieser Ausgestaltung können z. B. diejenigen sein, die in den 10 oder 11 dargestellt sind.
15 stellt schematisch als ein Beispiel den Aufbau des einen 21-J der endgerätzugewiesenen d Mischsteuerteile 21-1 bis 21-N dar, das dem Endgerät TM-J in der Ausgestaltung der 14 entspricht. Das endgerätzugewiesene Mischsteuerteil 21-J ist aufgebaut aus: Konferenzauswahlschaltern 7S-1 bis 7S-Q, die mit Links- und Rechtskanal-Audiosignalen von den Q Signalverarbeitungssteuerteilen 25-1 bis 25-Q versorgt werden; einem Linkskanalmischer 2-L, der mit Linkskanalausgaben von allen Konferenzauswahlschaltern 7S-1 bis 7S-Q verbunden ist; und einem Rechtskanalmischer 2-R, der mit Rechtskanalausgaben der Konferenzauswahlschalter 7S-1 bis 7S-Q verbunden ist. Als Antwort auf ein vom Endgerät TM-J empfangenes Steuersignal, das die teilnehmende Konferenz bestimmt, schaltet das Signalverarbeitungssteuerteil 20 ein oder mehrere Konferenzauswahlschalter (1 ≤ P ≤ Q) entsprechend der bestimmten Konferenz auf AN und wählt dadurch die bestimmte Konferenz aus.
Die linken und rechten Audiosignalausgaben von den Audiosignalverarbeitungsteilen 25-1 bis 25-Q entsprechend den Konferenzen 1 bis Q werden von dem endgerätzugewiesenen Verzweigungsteil 16 verzweigt und den Konferenzauswahlschaltern 7S-1 bis 7S-Q in dem endgerätzugewiesenen Mischsteuerteil 21-J bereitgestellt. Als ein Ergebnis davon werden Links- und Rechtskanal-Audiosignale von einer oder mehr Konferenzen, die durch das Endgerät TM-J bestimmt sind, ausgewählt und in die Links- und Rechtskanalmischer 2-L und 2-R eingegeben. Wenn das Endgerät z. B. zur selben Zeit an zwei Konferenzen teilnimmt, werden die Linkskanal-Audiosignale von den beiden Konferenzen von dem Linkskanalmischer 2-L miteinander gemischt und als ein Linkskanal-Audiosignal daraus ausgegeben, und die Rechtskanal-Audiosignale von den beiden Konferenzen werden durch den Rechtskanalmischer 5-R miteinander gemischt und als ein Rechtskanal-Signal daraus ausgegeben. Die so erzeugten Links- und Rechtskanal-Audiosignale werden in dem entsprechenden Audiosignalcodierteil 27-J in der 14 codiert und an das entsprechende an der Konferenz teilnehmende Endgerät TM-J gesendet, wo die gemischte Sprache von den beiden Konferenzen wiedergegeben wird.
Anstatt die Konferenzauswahlanordnung zu verwenden, welche die zuvor erwähnte endgerätzugewiesene Konferenzauswahl durch die Konferenzauswahlschalter 7S-1 bis 7S-Q in der 15 ausführt, ist es auch möglich eine Anordnung anzunehmen, in welcher das endgerätzugewiesene Verzweigungsteil 16 durch eine Schaltermatrix gebildet wird, die logisch 2Q durch (2Q × N) Eingaben/Ausgaben hat und bei der eine EIN-AUS-Steuerung ihrer Kontakte durch das Signalverarbeitungssteuerteil 20 auf der Basis eines Konferenzauswahlbefehles von dem Endgerät erfolgt, um die endgerätzugewiesenen Mischsteuerteile 21-1 bis 21-N mit nur dem Audiosignal der durch das Endgerät bestimmten Konferenz zu versorgen.
Dritte Ausgestaltung
In der in den 8 und 11 gezeigten dritten Ausgestaltung wird der Hauptsprecher beurteilt, und das von ihm herrührende Audiosignal wird dem linken Kanal zugewiesen, und Audiosignale von anderen Teilnehmern werden gemischt und dem rechten Kanal zugewiesen. Die Audiosignale von dem linken und rechten Kanal werden zu jedem teilnehmenden Endgerät geschickt, wo der Ton unter Verwendung einer Tonquelle für jeden Kanal wiedergegeben wird. Wenn dieses System auf Kommunikationen zwischen drei oder mehr Endgeräten angewendet wird, werden Audiosignale von zwei Punkten gleichzeitig in den rechten Kanal gemischt, so dass in diesem Fall der Hörer deren Töne nicht an unterschiedlichen Positionen lokalisieren kann. Außerdem wird das Audiosignal von jedem Endgerät nicht immer zu demselben Kanal verteilt, wenn sich der Hauptsprecher ändert, was bewirkt, dass der Hörer nicht jede Tonkomponente desselben Sprechers für alle Zeiten an derselben Position lokalisiert. Dies behindert die Identifizierung von jedem Sprecher und die Verständlichkeit. 16 stellt eine Ausgestaltung dar, mit der beabsichtigt ist, diesen Mangel zu beheben.
Die Ausgestaltung der 16 basiert auch auf dem grundlegenden Aufbau der vorliegenden Erfindung, der in 8 dargestellt ist. Die Audiokommunikationssteuereinheit 100 der 16 verarbeitet Audiosignale von N Teilnehmern durch Verwenden von unterschiedlichen Sätzen von akustischen Transferfunktionen als Klangbildsteuerparameter, so dass die wiedergegebenen Töne der N-Teilnehmer an unterschiedlichen räumlichen Positionen lokalisiert werden. Dies erlaubt das Implementieren einer Telekonferenz, die gleichzeitig maximal N Endgeräte vereint, bei der die Töne der Sprecher an verschiedenen Positionen lokalisiert werden sollen. In diesem Beispiel erfordert das Endgerät jedoch die Verwendung von Kopfhörern als Wiedergabeteile 53L und 53R (7). An jedem Punkt überträgt das Endgerät ein Audiosignal einer Kommunikationsleitung an die Audiokommunikationssteuereinheit 100, welche wiederum ein Audiosignal einer Kommunikationsleitung zurück zum Endgerät an jedem Punkt überträgt. Das auf einem Kommunikationskanal von der Audiokommunikationssteuereinheit 100 beförderte Audiosignal wird durch Multiplexen von Stereo-Audiosignalen von zwei Kanälen zu einem Einkanal-Signal erhalten.
In dieser Ausgestaltung sind die Sätze der Kanalverzweigungspunkte 3-1, ..., 3-N des Kanalverzweigungsteils 16 und Links- und Rechtssignalverarbeitungsteile 4-1L, 4-1R, 4-2L, 4-2R, ..., 4-NI, 4-NR des Klangbildsteuerteils 14, welches dem jeweiligen Endgerät entspricht, jeweils als Klangbildverarbeitungsteile 8-1, 8-2, ..., 8-N gezeigt. In 17 ist als Beispiel das Klangbildverarbeitungsteil 8-1 dargestellt. Basierend auf dem zuvor mit Bezug auf 2 beschriebenen Prinzip, faltet das Klangbildverarbeitungsteil 8-1 mittels Falter 4-1L und 4-1R akustische Transferfunktionen H_1L und H_1R zu Links- und Rechtsaudiosignalen, die jeweils an dem Kanalverzweigungspunkt 3-1 verzweigt werden. Die aus der Faltung resultierenden Audiosignale werden als Links- und Rechtskanal-Audiosignale an die Mischer 5L und 5R des Mischteiles 15 in 16 angelegt. Die Transferfunktionen H_1L und H_1R, die mit den verzweigten Audiosignalen der jeweiligen Kanäle gefaltet werden, können entsprechend den gewünschten räumlichen Positionen bestimmt werden, um wiedergegebene Töne der Audiosignale zu lokalisieren.
Das Schaltteil 11 wählt J (wobei 1 ≤ J ≤ M) Kommunikationsleitungen aus einer unbestimmten Anzahl von Kommunikationsleitungen 40 aus, die ein Kommunikationsschaltkreisnetzwerk bilden, wobei M die Anzahl der Endgeräte repräsentiert, die gleichzeitig an das Netzwerk angeschlossen sind, und gewöhnlicherweise ist M ≤ N. Jede ausgewählte Kommunikationsleitung ist als zwei Kanäle für jedes der Endgeräte, das gleichzeitig Audiokommunikation durchführt, verbunden. Einer der beiden Kanäle führt in diesem Beispiel das eingegebene Audiosignal und ist mit einem Decodierteil 23-J (wobei J = 1, 2, ..., N) verbunden. Der andere Kanal führt das ausgegebene Audiosignal und ist mit einem Multiplexteil 22-J über den Eingabekanal C_J verbunden. Jedes Decodierteil 23-J entschlüsselt das Audiosignal, das vom mit ihm verbundenen Endgerät in dieses eingegeben wird. Das im Decodierteil 23-J entschlüsselte Audiosignal wird an ein Verstärkungsfaktorsetzteil 35 und einen Verstärker 36-J angelegt.
Das Signalverarbeitungssteuerteil 20 empfängt ein Verbindungsbestätigungssignal und ähnliche Steuersignale, die von den jeweiligen Endgeräten über das Schaltteil 11 übertragen werden. Das Signalverarbeitungssteuerteil 20 erfasst die Anzahl M der verbundenen Endgeräte aus solchen Steuersignalen und sendet die erfasste Anzahl M verbundener Endgeräte an das Verstärkungsfaktorsetzteil 35 und das Parametersetzteil 14C. Der Verstärker 36-J verstärkt das eingegebene Audiosignal mit einem Verstärkungsfaktor G_J, der in dem Verstärkungsfaktorsetzteil 35 bestimmt wird. Z. B. wird der Verstärkungsfaktor G_J so bestimmt, dass die integrierte Leistung IT des Audiosignals vom Verstärker 36-J für alle Kanäle gleich ist.
Das Parametersetzteil 14C setzt akustische Transfertunktionen H_JL(θ_J) und H_JR(θ_J), die für das Klangbildverarbeitungsteil 8-J notwendig sind, um ein Audiosignal des vom Endgerät TM-J eines jeden Punktes J herrührenden wiedergegebenen Tons an einer verschiedenen Zielposition θ_j zu lokalisieren. Die Zielpositionen θ_j und die akustischen Transferfunktionen H_JL(θ_J) und H_JR(θ_J) haben eine 1 : 1-Entsprechung; sobald die Zielposition θ_J für jedes Eingangssignal bestimmt worden ist, können die akustischen Transferfunktionen H_JL(θ_J) und H_JR(θ_J) bestimmt werden, die mit jedem Audiosignal gefaltet werden. In diesem Beispiel werden die Zielpositionen θ_J für die Audiosignale von jeweiligen Endgeräten auf der Basis der Anzahl M verbundener Endgeräte bestimmt. Wie in 18 beispielhaft gezeigt, in der M = 5 ist, werden die Zielpositionen θ_J in gleichwinkligen Intervallen von Δθ = 180/(M – 1) Grad um den Hörer über Winkelpositionen (+90°)-(0°)-(–90°) von seiner linken zur rechten Seite in einer horizontalen Ebene bestimmt. Die Zielpositionen θ_J für die Endgeräte TM-J an den jeweiligen Punkten J sind als 90 – 180(J – 1)/(M – 1) Grad gemäß der Anzahl M der verbundenen Endgeräte bestimmt. Daher ist der Zielpositionsabstand Δθ in dem Fall minimal, in dem die maximale Zahl N verbindbarer Punkte verwendet wird (M = N).
In dem Klangbildverarbeitungsteil 8-J, wie es zuvor mit Bezug auf 17 beschrieben worden ist, werden die Transferfunktionen H_JL(θ_J) und H_JR(θ_J), die von dem Parametersetzteil 14C gesetzt werden, mit dem Audiosignal von dem Verstärker 36-J gefaltet, und die gefalteten Ausgaben werden als Links- und Rechtskanal-Audiosignale an die Mischer 5L bzw. 5R angelegt. Im Falle des beidohrigen Hörens dieser Links- und Rechtskanal-Audiosignale bei einem Kopfhörer kann der Hörer das Klangbild an der Zielposition θ_J lokalisieren. Die Links- und Rechtskanal-Audiosignale von dem Klangbildverarbeitungsteil 8-J werden auch Verzögerungsteilen D-JL bzw. D-JR bereitgestellt.
Der Mischer 5L mischt alle Linkskanal-Audiosignale, die von den Klangbildverarbeitungsteilen 8-1 bis 8-N eingegeben werden, zusammen und legt das resultierende linkskanalgemischte Audiosignal an einen Verzweigungspunkt 6L im Verzweigungsteil 16 an. Der Mischer 5R mischt alle Rechtskanal-Audiosignale, die von den Klangbildverarbeitungsteilen 8-1 bis 8-N eingegeben werden, zusammen und legt das resultierende rechtskanalgemischte Audiosignal an einen Verzweigungspunkt 6R an. Der Verzweigungspunkt 6L verzweigt das linkskanalgemischte Audiosignal, das vom Mischer 5L eingegeben wird, an N Kompensatoren 26-1L bis 26-NL. Der Verzweigungspunkt 6R verzweigt das rechtskanalgemischte Audiosignal, das vom Mischer 5R eingegeben wird, an N Kompensatoren 26-1R bis 26-NR.
Andererseits wird das Linkskanal-Audiosignal, das an jedes Verzögerungsteil D-JL angelegt wird, um die Zeit τ_JL verzögert und dem Kompensator 26-JL bereitgestellt. Die Verzögerung τ_JL ist als die Summe der Verzögerung durch die Audiosignalverarbeitung in dem Mischer 5L und der Verzögerung durch die Audiosignalverarbeitung an dem Verzweigungspunkt 6L gesetzt. Folglich werden das Linkskanal-Audiosignal, das vom Verzögerungsteil D-JL ausgegeben wird, und diejenige Komponente des vom Verzweigungspunkt 6L ausgegebenen linkskanalgemischten Audiosignals, welche dem Mischer 5L vom Klangbildverarbeitungsteil 8-J bereitgestellt wurde, gleichphasig und löschen sich im Kompensator 26-JL gegenseitig aus. Dementsprechend wird die Audiosignalkomponente, die von dem Endgerät TM-J an jedem Punkt J empfangen wird, aus dem an das Endgerät TM-J zu verzweigenden linkskanalgemischten Audiosignal eliminiert, und ein Echo kann dadurch vermieden werden. Dementsprechend ist das Audiosignal, das zum Endgerät TM-J über den Kompensator 26-JL zurückgesandt wird, nur eine gemischte Version von Audiosignalen von anderen Endgeräten als TM-J. Aus denselben Gründen wie oben angegeben verzögert das Verzögerungsteil D-JR das Rechtskanalaudiosignal von dem Tonverarbeitungsteil 8-J um eine Zeit τ_JR und legt es dann an den Kompensator 26-JR an. Die Verzögerung τ_JR wird als die Summe der Verzögerung durch die Audiosignalverarbeitung in dem Mischer 5R und der Verzögerung durch die Audiosignalverarbeitung an der Verzweigung 6R gesetzt.
Die echokompensierten Links- und Rechtskanalaudiosignale, die von den Kompensatoren 26-JL und 26-JR ausgegeben werden, werden dem Multiplexteil 22-J bereitgestellt, worin sie gemultiplext und codiert werden, wobei sie danach über das Schaltteil 11 zu den Endgeräten TM-J an den Punkten J gesendet werden. Auf diese Weise multiplext jedes Multiplexteil 22-J Audiosignale des linken und rechten Kanals in ein Einkanalaudiosignal und codiert es. Als Ergebnis davon wird das gemultiplexte Einkanalaudiosignal codiert und dann über das Schaltteil 11 an die Punkte J (1 ≤ J ≤ M) über eine Kommunikationsleitung übertragen. Somit kann der Verzögerungsunterschied zwischen den Kommunikationsleitungen durch die Verwendung von zwei Leitungen für die Übertragung von Zweikanal-Stereosignalen vermieden werden, wobei außerdem die Anzahl der verwendeten Kommunikationsleitungen eingespart werden kann. Durch Entschlüsseln des gemultiplexten Audiosignals und Wiedergeben des Tons an jedem Endgerät kann der Hörer an diesem Endgerät den Ton von anderen Endgeräten an gewünschten Zielpositionen θ_J lokalisieren. Dies ermöglicht jedem Zuhörer, die anderen Sprecher einfach zu identifizieren, und stellt hohe Sprachverständlichkeit sicher. Zusätzlich dazu wird kein Klangbildpositionsverarbeitungsmittel für die Tonlokalisierung an jedem Punkt benötigt, und es kann ein wirtschaftliches System implementiert werden.
Im übrigen basiert die Ausgestaltung der 16 auf der Annahme, dass zwei Kommunikationsleitungen für die Übertragung des Zweikanal-Stereo-Audiosignals zu jedem der Punkte J (1 ≤ J ≤ M) von der Audiokommunikationssteuereinheit 100 verwendet werden. In einem solchen Fall wird jeweils eine Kommunikationsleitung für Links- bzw. Rechtskanal-Audiosignal verwendet, und das Schaltteil 11 muss für jeden Punkt J eine dreifache Schaltung ausführen. Außerdem wird das Multiplexen und Demultiplexen im Multiplexteil 22-J an jedem Punkt in der 16 unnötig; es werden aber zwei Codierteile 22-JL und 22-JR für jedes Endgerät als ein Ersatz für ein Multiplexteil 22-J benötigt. Es ist auch notwendig, die Kompensatoren 26-JL und 26-JR mit den Eingängen der Codierteile 22-JL und 22-JR zum Eingeben von Audiosignalen in diese zu verbinden.
Wie oben beschrieben, kann gemäß der Ausgestaltung der 16 der Hörer an jedem Endgerät Töne von anderen Endgeräten an unterschiedlichen Positionen lokalisieren, und er kann daher selbst dann einfach zuhören, wenn das Endgerät nicht mit dem Audiosignalverarbeitungsteil für die Tonlokalisierung ausgestattet ist. Somit kann der Hörer an jedem Punkt den Sprecher einfach identifizieren, und es kann eine vorzügliche Verständlichkeit erreicht werden. Darüber hinaus gibt es keine Notwendigkeit, das Kommunikationssystem vorzubestimmen.
Wie zuvor darauf hingewiesen wurde, ist es auch bei einem beidohrigen Hörer über ein Kopfgerät oder etwas ähnliches möglich, ein wirtschaftliches Mehrpunktaudiokommunikationssystem zu implementieren, in welchem der Hörer Ton von jedem Sprecher an einer verschiedenen Position lokalisiert. Wenn die Anzahl M verbundener Endgeräte kleiner ist als die maximale Anzahl N der verbindbaren Endgeräte, kann der Abstand der Zielpositionen entsprechend erhöht werden.
Vierte Ausgestaltung
Es wird nun der Fall betrachtet, bei dem Endgeräte TM-1 bis TM-6 an verschiedenen Punkten miteinander über die Audiokommunikationssteuereinheit wie in 19 gezeigt kommunizieren. Es sei angenommen, dass Kombinationen von Endgeräten TM-1 bis TM-3 und TM-4 bis TM-6 jeweils Telekonferenzen X und Y bilden. In diesem Fall können Benutzer der Endgeräte TM-4 bis TM-6 nicht Töne von Benutzern an den Endgeräten TM-1 und TM-2 hören, während die Benutzer an den Endgeräten TM-1 und TM-2 Töne von den Benutzern an den Endgeräten TM-4 bis TM-6 nicht hören können. Der Benutzer am Endgerät TM-3 kann Töne von den Benutzern an den Endgeräten TM-1, TM-2 und TM-4 bis TM-6 hören und alle die Benutzer an den Endgeräten TM-1, TM-2 und TM-4 bis TM-6 können Töne von dem Benutzer am Endgerät TM-3 hören. Bei diesem Verfahren können die Inhalte der Kommunikation vor Benutzern verborgen werden, die nicht zur betreffenden Telekonferenz gehören, oder einem Benutzer, der zu mehreren Telefonkonferenzen gehört, kann es möglich gemacht werden, die Inhalte von Kommunikation in irgendeiner der Konferenzen zu erkennen, und verschiedene andere Anwendungen sind möglich. Daneben kann der Hörer durch Hören von Tönen individueller Sprecher, während er deren Klangbild an verschiedenen Positionen lokalisiert, die Sprecher leicht identifizieren und den Inhalt mit hoher Verständlichkeit verstehen; darüber hinaus kann erwartet werden, dass der Hörer und die Sprecher eine bessere Kommunikation miteinander entwickeln, als ob sie sich im selben Raum befinden würden.
Mit der in den 14 und 16 gezeigten Audiokommunikationssteuereinheit dagegen kann der Benutzer am Endgerät TM-3 die beiden Telekonferenzen X und Y auswählen und gleichzeitig die Töne in beiden Konferenzen hören; ihm ist aber nur in seiner ausgewählten Konferenz X und Y zu sprechen erlaubt. Wenn der Benutzer am Endgerät TM-3 zur selben Zeit Töne von beiden Konferenzen X und Y hört, werden die von den Konferenzen empfangenen Töne von linken und rechten Lautsprechern getrennt wiedergegeben, aber Töne von mehreren Kanälen in den Tönen von den Telekonferenzen X oder Y können nicht an verschiedenen Positionen lokalisiert werden.
In 20 ist der grundlegende Aufbau einer vierten Ausgestaltung der Audiokommunikationssteuereinheit der vorliegenden Erfindung dargestellt, die die oben erwähnten Nachteile beheben soll. Die hauptsächliche Anordnung der Audiokommunikationssteuereinheit dieser Ausgestaltung kann wie folgt gebildet sein: das Schaltteil 11; die Klangbildverarbeitungsteile 8-J (J = 1, 2, ..., N, wobei in diesem Beispiel N = 6 ist), von denen jedes Sprachverarbeitung zum Lokalisieren der Position der Tonquelle des Sprechers durch Falten von Transferfunktionen von der Tonquelle zu den beiden Ohren des Hörers mit dem Audiosignal ausführt, das von den Endgeräten TM-1 bis TM-6 gesendet wird; ein Kombinationszuweisungsteil 19 zum Zuweisen von Kombinationen der Endgeräte in Entsprechung mit mehreren Telekonferenzen; ein Misch/Verzweigungsteil 17-P (P = 1, 2, ..., Q, wobei in diesem Beispiel Q = 2 ist) und ein Mischteil 2. Jedes Misch/Verzweigungsteil 17-P ist aus den Links- und Rechtskanalmischern 5L und 5R und den Verzweigungspunkten 6L und 6R aufgebaut. Das Mischteil 12 umfasst N Links- und N Rechtskanalmischer 2-JL und 2-JR (J = 1, 2, ..., N, wobei in diesem Beispiel N = 6 ist). Die Komponenten derselben Art sind mit Anhängen J (1 ≤ J ≤ N) und P (1 ≤ P ≤ Q) bezeichnet. Die Komponenten zum Verarbeiten des Audiosignals des linken und rechten Kanals werden ähnlich mit jeweiligen Anhängen L und R bezeichnet.
Es wird die Arbeitsweise der Audiokommunikationssteuereinheit gemäß dieser Ausgestaltung beschrieben. Das Schaltteil 11 wählt eine Kommunikationsleitung J (1 ≤ J ≤ M) aus einer nicht spezifizierten Anzahl von Leitungen aus, die ein Schaltkreisnetzwerk bilden, wobei M die Anzahl der Endgeräte repräsentiert, die zur selben Zeit mit dem Netzwerk verbunden sind. Gewöhnlicherweise ist M ≤ N, wobei N die maximale Anzahl von verbindbaren Endgeräten repräsentiert. Als Antwort auf ein Kommunikationsstart/Ende-, Endgerätbestimmungs-, Verbindungsbestätigungs- oder ähnliches Steuersignal, das vom Endgerät empfangen wird, wählt das Schaltteil 11 z. B. die Kommunikationsleitung J aus und koppelt sie an das Klangbildverarbeitungsteil 8-J, in diesem Beispiel über den Eingabekanal C_J. Das Klangbildverarbeitungsteil 8-J ist im Aufbau identisch mit dem in 17 dargestellten und entspricht einem Satz aus einem Verzweigungspunkt 3-J und Links- und Rechtskanal-Signalverarbeitungsteilen 4-JL und 4-JR in 6.
Das Klangbildverarbeitungsteil 8-J führt Verarbeitung zum Lokalisieren von von dem Endgerät TM-J herrührendem Ton an einer Zielposition durch Falten der Transferfunktion mit dem Audiosignal aus, das vom Endgerät TM-J gesendet wird. Daher ist das Audiosignal, das vom Klangbildverarbeitungsteil 8-J ausgegeben wird, ein Stereo-Audiosignal. Die von den jeweiligen Klangbildverarbeitungstei len 8-J erzeugten Stereo-Audiosignale werden an ein Kombinationszuweisungsteil 19 angelegt, worin sie für jede Kombination von Endgeräten sortiert werden. In dem dargestellten Beispiel ist gezeigt, dass die Endgeräte TM-1 bis TM-3 und TM-3 bis TM-6 zu den Telekonferenzen X bzw. Y gehören, wie in 19 dargestellt.
Die Stereo-Audiosignale, die von dem Kombinationszuweisungsteil 19 in solche, die zur Konferenz X und solche, die zur Konferenz Y gehören, klassifiziert werden, werden jeweils in die Misch/Verzweigungsteile 17-1 und 17-2 eingegeben, in denen die Audiosignale von denjenigen Endgeräten, die zu derselben Konferenz gehören, von den Mischern 5L oder 5R für jeden der linken und rechten Kanäle gemischt werden. Die gemischten Audiosignale der Telekonferenz X (und der Telekonferenz Y) werden von den Links- und Rechtsverzweigungspunkten 6L und 6R in dem Misch/Verzweigungsteil 17-1 an Links- und Rechtskanalmischer 2-1L bis 2-3L und 2-1R bis 2-3R in dem Mischteil 12 verteilt, die allen den Endgeräten TM-1 bis TM-3 entsprechen, die zu derselben Telefonkonferenz X gehören. Ähnlich werden die gemischten Audiosignale der Telekonferenz Y durch die Links- und Rechtskanalverzweigungspunkte 6L und 6R in dem Misch/Verzweigungsteil 17-2 an Links- und Rechtskanalmischer 2-3L bis 2-6L und 2-3R bis 2-6R in dem Misch/Verzweigungsteil 17-2 verteilt, die allen den Endgeräten TM-3 bis TM-6 entsprechen, die zu derselben Telefonkonferenz Y gehören. Jedes Paar von Mischern 2-JL und 2-JR mischt für jeden Kanal alle Audiosignale der Telekonferenzen, zu der dieses Paar gehört, und erzeugt dadurch Stereo-Audiosignale. Die so erhaltenen Stereo-Audiosignale werden über das Schaltteil 11 zu denjenigen der Endgeräte TM-1 bis TM-6 übertragen, die der Telekonferenz entsprechen.
In diesem Beispiel sind die Audiosignale, die an die Endgeräte TM-1 bis TM-6 gesendet werden, Stereo-Audiosignale, und der Benutzer von jedem Endgerät kann die Töne hören, die von den anderen Endgeräten herrühren, und sie an Zielpositionen lokalisieren, die durch Transferfunktionen bestimmt werden, die mit den Audiosignalen in den Klangbildverarbeitungsteilen 8-J gefaltet werden, wie in den 21A und 21B gezeigt. D. h., weil in der Ausgestaltung der 20 die Audiosignale, die von den Endgeräten TM-1 bis TM-3 herrühren, mit den Transferfunktionen gefaltet, für jeden Kanal miteinander gemischt und dann zu den Endgeräten TM-1 bis TM-3 übertragen werden, können nur die Benutzer an diesen Endgeräten die Töne hören, die von den Endgeräten TM-1 bis TM-3 herrühren, und deren Töne an Zielpositionen entsprechend den Transferfunktionen lokalisieren, die mit den Audiosignalen in den Klangbildverarbeitungsteilen wie in 21A gezeigt gefaltet sind. Die durch diese Kombination von Endgeräten gebildete Telekonferenz wird nachfolgend als eine Telekonferenz X bezeichnet. Entsprechend werden Transferfunktionen mit den Audiosignalen gefaltet, die von den Endgeräten TM-3 bis TM-6 herrühren, und die Audiosignale werden für jeden Kanal miteinander gemischt und an die Endgeräte TM-3 bis TM-6 gesendet; somit können die Hörer dieser Endgeräte die Töne hören, die von den Endgeräten TM-3 bis TM-6 herrühren, und deren Töne an Zielpositionen lokalisieren, die den Transferfunktionen entsprechen, welche mit den Audiosignalen in den Klangbildverarbeitungsteilen wie in 21B gezeigt gefaltet wurden. Die durch diese Kombination von Endgeräten gebildete Telekonferenz wird nachfolgend als eine Telekonferenz Y bezeichnet. Weil in diesem Beispiel der Benutzer des Endgerätes TM-3 zu beiden Telekonferenzen X und Y gehört, kann er die Töne hören, die von allen Endgeräten TM-1 bis TM-6 beider Telekonferenzen X und Y herrühren, und ihre Töne an unterschiedlichen Zielpositionen, wie in 21C dargestellt, lokalisieren.
Fünfte Ausgestaltung
Es wird mit Bezug auf die 22 und 23 eine Beschreibung eines konkreten Beispiels der Audiokommunikationssteuereinheit 100 mit dem grundlegenden Aufbau, wie er in 20 gezeigt ist, gegeben. Es wird angenommen, dass die Audiokommunikationssteuereinheit 100 dieser Ausgestaltung Audiosignale zwischen sich und jedem Endgerät über ein Paar von Down- und Uplink-Kommunikationsleitungen überträgt. Die Audiokommunikationssteuereinheit 100 dieser Ausgestaltung steuert ein Maximum von Q Telekonferenzen, die durch ein Maximum von N Endgeräten gebildet werden. Jedes Endgerät sendet ein einkanaliges digitales Audiosignal an die Audiokommunikationssteuereinheit 100, welche wiederum ein einkanaliges digitales Audiosignal an jedes Endgerät sendet. Das einkanalige Audiosignal von der Audiokommunikationssteuereinheit 100 ist eine einkanalige gemultiplexte Version des zweikanaligen Stereosignals, das in der Einheit 100 erzeugt wird.
Weil in 20 das Schaltteil 11, das Decodierteil 23-J (J = 1, 2, ..., N), das Signalverarbeitungsteil 20, das Verstärkungsfaktorsetzteil 35, der Verstärker 6-J (J = 1, ..., N), das Parametersetzteil 14C, das Klangbildverarbeitungsteil 8-J (J = 1, ..., N) und das Multiplex/Codierteil 22-J (J = 1, ..., N) in Aufbau und Betriebsweise mit denjenigen der Ausgestaltung der 16 identisch sind, wird ihre Beschreibung nicht wiederholt. Diese Ausgestaltung unterscheidet sich von der Ausgestaltung der 16 in der Bereitstellung eines Kombinationszuweisungsteil 19, eines Konferenzteilnahmeendgerätauswahlteiles 9C, eines Misch/Verzweigungsteiles 17-P (P = 1, ..., Q), eines Konferenzauswahlteiles 7C, eines Konferenzauswahlschalters 7-P (P = 1, ..., Q) und eines Mischteiles 12. Das Kombinationszuweisungsteil 19 hat Q mal N Endgerätauswahlschalter 9P-J (P = 1, ..., Q und J = 1, ..., N), und das Mischteil 12 hat N Paare von Mischern 2-JL und 2-JR (J = 1, ..., N).
Wie in 23 dargestellt ist das Misch/Verzweigungsteil 17-P aus Mischern 5L und 5R, Verzweigungspunkten 6L und 6R, Verzögerungsteilen D-JL und D-JR (J = 1, ..., N) und Kompensatoren 26-JL und 26-JR (J = 1, ..., N) aufgebaut. Die Funktionen der für diese Ausgestaltung charakteristischen Teile werden unten beschrieben. Wie zuvor mit Bezug auf 16 beschrieben wurde, wird das Audiosignal von jedem Endgerät dem Klangbildverarbeitungsteil 8-J über das Decodierteil 32-J und den Verstärker 36-J bereitgestellt.
Das Signalverarbeitungssteuerteil 20 empfängt von jedem Endgerät über das Schaltteil 11 Steuersignale wie Kommunikationsstart/-ende, Verbindungsbestätigung, die Konferenzmitgliedschaft des Endgerätes usw.. Basierend auf diesen Steuersignalen erfasst das Signalverarbeitungssteuerteil die Anzahl M der verbundenen Endgeräte TM-1 bis TM-M, deren Kommunikationsstart/-ende und deren Konferenzmitgliedschaft. Das Signalverarbeitungssteuerteil 20 sendet Information über die verbundenen Endgeräte und die Anzahl M der verbundenen Endgeräte an das Verstärkungsfaktorsetzteil 35 und das Parametersetzteil 14C, sendet die Kommunikationsstart/-ende-Information an das Konferenzteilnahmeendgerätauswahlteil 9C und das Konferenzauswahlteil 7C, und sendet Informa tion über die Konferenzmitgliedschaft von jedem verbundenen Endgerät TM-1 bis TM-M an das Konferenzteilnahmeendgerätauswahlteil 9C.
Das Parametersetzteil 14C setzt akustische Transferfunktionen H_L(θ_J) und H_R(θ_J), die für das Klangbildverarbeitungsteil 8-J notwendig sind, um eine Verarbeitung zur Erzeugung eines Audiosignals auszuführen, dessen von jedem Endgerät TM-J herrührender wiedergegebener Ton an verschiedenen Zielpositionen θ_J lokalisiert ist. Weil die Zielpositionen θ_J und die akustischen Transferfunktionen H_L(θ_J) und H_R(θ_J) eine 1 : 1-Korrespondenz haben, können die akustischen Transferfunktionen gesetzt werden, sobald die Zielpositionen bestimmt sind. In diesem Beispiel werden basierend auf der Anzahl M der verbundenen Endgeräte die Zielpositionen θ_J für die Töne, die von den jeweiligen Endgeräten herrühren, bestimmt. Wie in 21C gezeigt, werden die Zielpositionen θ_J in gleichwinkligen Intervallen von 180(M – 1) Grad um den Hörer über Winkelpositionen (+90°)-(0°)-(–90°) von seiner linken zur rechten Seite in einer horizontalen Ebene bestimmt. D. h. die Zielpositionen θ_J für die Punkte J sind gegeben durch 90 – 180(J – 1)/(M – 1) Grad.
Weil in dem Beispiel der 21C M = 6 ist, sind die Zielpositionen θ_J für die Endgeräte TM-1 bis TM-6 wie folgt: θJ-1 = 90° – 180° × (1 – 1)/(6 – 1) = +90° θJ-2 = 90° – 180° × (2 – 1)/(6 – 1) = +54° θJ-3 = 90° – 180° × (3 – 1)/(6 – 1) = +18° θJ-4 = 90° – 180° × (4 – 1)/(6 – 1) = –18° θJ-5 = 90° – 180° × (5 – 1)/(6 – 1) = .54° θJ-6 = 90° – 180° × (5 – 1)/(6 – 1) = –90°
Das Klangbildverarbeitungsteil 8-J faltet die akustischen Transferfunktionen H_L(θ_J) und H_R(θ_J), die in dem Parametersetzteil 14C für das Endgerät TM-J gesetzt sind, mit dem vom Verstärker 36-J eingegebenen Audiosignal und erzeugt Links- und Rechtskanal-Stereo-Audiosignale. Durch beidohriges Hören von Tönen, die von den Stereo-Audiosignalen wiedergegeben werden, lokalisiert der Hörer die Klangbilder an den Zielpositionen θ.
Die Links- und Rechtskanal-Audiosignale von dem Klangbildverarbeitungsteil 80J werden an die Q Endgerätauswahlschalter 9₁-J, 9₂-J, ..., 9_Q-J verteilt. Basierend auf der Steuerinformation über Kommunikationsstart/-ende und die Kommunikationskonferenzmitgliedschaft von jedem verbundenen Endgerät, die von dem Signalverarbeitungssteuerteil 90 angeordnet wird, bestimmt das Konferenzteilnahmeendgerätauswahlteil 9C Endgerätauswahlinformation und sendet sie an den Endgerätauswahlschalter 9_P-J. Z. B. überträgt nach Öffnen oder Schließen der Telekonferenz P, zu welcher das Endgerät TM-J gehört, das Konferenzteilnahmeendgerätauswahlteil 9C ein Steuersignal an den Endgerätauswahlschalter 9_P-J , um den Durchgang von Audiosignalen dort hindurch zu erlauben oder zu blockieren. Als Ergebnis davon werden z. B. bei der Kombination von Endgeräten, die in 21C gezeigt ist, die Audiosignale, die von Endgeräten TM-1 bis TM-3 herrühren, dem Misch/Verzweigungsteil 17-1 zugewiesen, und die Audiosignale von den Endgeräten TM-3 bis TM-6 werden dem Misch/Verzweigungsteil 17-2 zugewiesen.
Bezogen auf 23 wird der innere Aufbau des Misch/Verzweigungsteils 17P beschrieben. Die von jedem Endgerätauswahlschalter 9_P-J eingegebenen Links- und Rechtskanal-Audiosignale werden an die Mischer 5L bzw. 5R angelegt, und zu derselben Zeit werden sie auch den Verzögerungsteilen D-JL und D-JR bereitgestellt. Der Mischer 5L mischt N eingegebene Linkskanal-Audiosignale miteinander und gibt das gemischte Linkskanal-Audiosignal an den Verzweigungspunkt 6L aus. Der Mischer 5R mischt auf ähnliche Weise N eingegebene Rechtskanal-Audiosignale zusammen und gibt das gemischte Rechtskanalaudiosignal an dem Verzweigungspunkt 6R aus. Der Verzweigungspunkt 6L verzweigt das gemischte Linkskanal-Audiosignal, das in ihn eingegeben wurde, an N Kompensatoren 26-JL (J = 1, ..., N). Auf gleiche Weise verzweigt der Verzweigungspunkt 6R das gemischte Rechtskanalaudiosignal, das in ihn eingegeben wurde, an N Kompensatoren 26-JR (J = 1, ..., N).
Das Verzögerungsteil D-JL verzögert das Linkskanal-Audiosignal, das vom Endgerätauswahlschalter 9_P-J eingegeben wurde, um eine Zeit τ_JL und legt das verzögerte Linkskanal-Audiosignal an den Kompensator 26-JL an. Die Verzögerung τ_JL ist so ausgewählt, dass sie die Summe aus der Verzögerung durch die Audiosignalverarbeitung im Mischer 4L und der Verzögerung durch die Audiosignalverarbeitung in dem Verzweigungspunkt 6L ist. Als Folge davon sind das Linkskanal-Audiosignal, das vom Verzögerungsteil D-JL ausgegeben wird, und die Linkskanal-Audiosignalkomponente in dem linkskanalgemischten Audiosignal vom Verzweigungspunkt 6L, das vom Endgerätauswahlschalter 9_P-J ausgegeben wird, miteinander synchronisiert. Die Verzögerung τ_JR des Verzögerungsteiles D-JR wird auch auf ähnliche Weise bestimmt, und das vom Verzögerungsteil D-JR ausgegebene Rechtskanalaudiosignal und die Rechtskanalaudiokomponente in dem rechtskanalgemischten Audiosignal vom Verzweigungspunkt 6R, das vom Endgerätauswahlschalter 9P-L ausgegeben wurde, sind miteinander synchronisiert.
Die Kompensatoren 26-JL und 26-JR löschen die verzögerten Audiosignale, die von den Verzögerungsteilen D-JL und D-JR eingegeben werden, aus den Audiosignalen, die von den Verzweigungspunkten 6L bzw. 6R eingegeben werden. Als Ergebnis davon werden die Komponenten gegenseitig gelöscht, und in dem jedem Endgerät TM-J entsprechenden Kanal wird ein gemischtes Audiosignal erhalten, das von anderen Kanälen K (J ≠ K) herrührt. Dieses gemischte Audiosignal wird an den Konferenzauswahlschalter 7-P angelegt. D. h. das Audiosignal, das von jedem Endgerät TM-J herrührt, wird aus dem Audiosignal ausgeschlossen, das zu diesem Endgerät TM-J übertragen wird. Somit kann ein Echo gelöscht werden, das der Audiokommunikationssteuereinheit 100 dieser Erfindung zugeordnet werden kann.
Kehrt man zur 22 zurück, bestimmt das Konferenzauswahlteil 7C Konferenzauswahlinformation als Antwort auf Telekonferenz-P-Öffnungs/Schließungsinformation, die von dem Signalverarbeitungssteuerteil 20 angewiesen wird. Diese Konferenzauswahlinformation wird zu dem Konferenzauswahlschalter 7P übertragen. Wenn z. B. die Telekonferenz P geöffnet oder geschlossen wird, wird ein Steuersignal zu dem Endgerätauswahlschalter 9_P-J übertragen, um den Durchgang von Audiosignalen durch ihn zu erlauben oder zu blockieren. Der Konferenzauswahlschalter 7-P antwortet auf das Steuersignal von dem Konferenzauswahlteil 7C, um die Audiosignalausgaben von dem Misch/Verzweigungsteil 17-P, d. h, von den Kompensatoren 26-JL und 26-JR, durch ihn zu erlauben oder zu blockieren.
Die Zwischenkombinationsmischer 2-JL und 2-JR addieren jeweils die Links- und Rechtskanäle der Q Kombinationen von Endgeräten Ps, die von den Konferenzauswahlschaltern 7-P (P = 1, ..., Q) von den J-ten Kanälen der Q-Misch/Verzweigungsteile 17-P (P = 1, ..., Q) entsprechend den Q-Kombinationen von Endgeräten ausgewählt werden. Das Referenzmerkmal P_S ist die Anzahl der Kombinationen von Endgeräten (oder die Konferenzzahl), für welche Audiosignale miteinander gemischt werden, und ein Maximum von Q Kombinationen kann in dem Bereich von 0 ≤ P_S ≤ Q ausgewählt werden. Die entsprechenden Links- und Rechtskanal-Audiosignale der ausgewählten Kombinationen von Endgeräten, die miteinander gemischt werden, und die gemischten Audiosignale werden zu jedem Endgerät TM-J gesendet, an welchem der Benutzer die Töne von all den anderen Endgeräten hören kann, die den ausgewählten mehreren Endgerätekombinationen (mehreren Telekonferenzen) angehören. Das Audiosignal, das von dem Endgerät TM-J herrührt, wird an all die anderen Endgeräte gesendet, wobei diejenigen Endgerätekombinationen ausgewählt werden, die das Endgerät TM-J beinhalten. Jedes Multiplex/Codierteil 22-J multipliziert und codiert die Links- und Rechtskanal-Audiosignale, die von den Zwischenkombinationsmischteilen 2-JL und 2-JR eingegeben werden. D. h. das Multiplex/Codierteil 22-J multiplext die Stereo-Audiosignale entsprechend den linken und rechten Kanälen zu Einkanalaudiosignalen und codiert sie. Als Ergebnis davon werden die codierten einkanaligen gemultiplexten Signale für jedes Endgerät TM-J unabhängig an das Schaltteil 11 angelegt, und die einkanaligen gemultiplexten Audiosignale werden über eine Kommunikationsleitung an jedes Endgerät TM-J (1 ≤ J ≤ M) übertragen.
Gemäß der Ausgestaltung der 22 können die Hörer selbst dann, wenn zwei Telekonferenzen durch die Endgeräte TM-1 bis TM-6, wie in 21C gezeigt ist, ausgeführt werden, Töne, die von den anderen Endgeräten ausgehen, in beiden Konferenzen an unterschiedlichen Zielpositionen, die um 36° voneinander beabstandet sind, lokalisieren; es ist daher möglich, gleichzeitig Telekonferenzen X ausschließlich der Endgeräte TM-1 bis TM-3 und eine Telekonferenz Y ausschließlich der Endgeräte TM-3 bis TM-6 zu realisieren. In diesem Fall kann der Hörer am Endgerät TM-3 sowohl die Töne hören, die von den Endgeräten TM-4 bis TM-6 ausgehen, als auch die von den Endgeräten TM-1 bis TM-2. Zusätzlich dazu kann die Telekonferenz Y, selbst wenn eine Telekonferenz von all den Endgeräten TM-1 bis TM-6 im Gang ist, durch die Endgeräte TM-1 bis TM-3 implementiert werden. Im obigen wurde die Arbeitweise der Audiokommunikationssteuereinheit 100 unter der Annahme beschrieben, dass ein gewisses Endgerät, wie z. B. das TM-3, an den mehreren Telekonferenzen X und Y teilnimmt; in dem Fall, dass nur ein Endgerät wie z. B. das TM-1 allein an der Telekonferenz X in der 21C teilnimmt, reicht es aus, nur die Audiosignale von einem Konferenzauswahlschalter entsprechend der Konferenz X an z. B. die Mischteile 2-1L und 2-1R entsprechend dem Endgerät TM-1 anzulegen.
Wie in 21C dargestellt, kann selbst in Anwendungen der Mehrpunkt-Audiokommunikation auf z. B. einen Dialog zwischen bestimmten Sprechern in einer allgemeinen Telekonferenz oder das Beobachten von jeder Telekonferenz, der Hörer Ton, der von jedem Endgerät herrührt, an einer verschiedenen Zielposition lokalisieren. Dies unterstützt die Identifizierung von jedem Sprecher und verbessert die Verständlichkeit. Der Vorteil dieser Ausgestaltung ist, dass das Klangbildverarbei tungsteil nicht in jedem Endgerät TM-J für die Tonlokalisierung eingeführt werden muss. Somit ist es möglich, einen Telekonferenzdienst wirtschaftlich zu implementieren, der es allen Konferenzteilnehmern ermöglicht, natürliche Kommunikationen mit den anderen Mitgliedern zu entwickeln, als ob sie sich in demselben Raum aufhalten würden.
Wie oben beschrieben, hat die Ausgestaltung der 22 Q Misch/Verzweigungsteile 17-1 bis 17-Q entsprechend den Q Telekonferenzen, und nach Empfangen des Steuersignals von jedem Endgerät TM-J, das eines oder mehr Telekonferenzen bestimmt, in welchem der Benutzer des Endgerätes teilzunehmen wünscht (sprechen), legt das Signalverarbeitungssteuerteil 20 das Steuersignal an das Konferenzteilnahmeendgerätauswahlteil 9C an. Das Konferenzteilnahmeendgerätauswahlteil 9C schaltet auf EIN, so dass ein oder mehr der Q Endgerätauswahlschalter 9_P-J (P = 1, ..., Q) für die Audiosignale, die von den Endgeräten TM-J herrühren, zu dem Misch/Verzweigungsteil 17-P entsprechend den Telekonferenzen, die durch das Steuersignal spezifiziert sind, vermittelt werden. Deshalb kann das Audiosignal, das von dem Endgerät TM-J herrührt, mit der einen oder mehr Telekonferenzen verbunden werden, die durch das Endgerät TM-J bestimmt werden, und deren Benutzer kann den Telekonferenzen beitreten. Zusätzlich dazu hat die Ausgestaltung der 22 Q Konferenzauswahlschalter 7-1 bis 7-Q, die mit den Ausgaben der Q Misch/Verzweigungsteile 17-1 bis 17-Q verbunden sind. Nach Empfangen des Steuersignals von jedem Endgerät TM-J, das eine oder mehr Telekonferenzen bestimmt, welche der Benutzer des Endgerätes beobachten möchte, gibt das Signalverarbeitungssteuerteil 20 das Steuersignal an das Konferenzauswahlteil 7C weiter. Das Konferenzauswahlteil 7C antwortet auf das Steuersignal durch Stellen der Konferenzauswahlschalter auf AUS, die mit dem einen oder mehr Misch/Verzweigungsteil(en) entsprechend der durch das Steuersignal spezifizierten Telekonferenzen verbunden sind, und vermittelt dadurch Audiosignale der bestimmten einen oder mehr Telekonferenzen an das Endgerät TM-J.
Dadurch macht es die Übertragung eines Steuersignals an die Audiokommunikationssteuereinheit der vorliegenden Erfindung dem Benutzer möglich, falls notwendig, an jedem Endgerät TM-J Kommunikationen, in welchen er beobachtet oder an denen er teilnimmt, zu ändern, ihnen beizutreten oder sie zu verlassen.
Bei der Audiokommunikationssteuereinheit 100 der 22 kann das zweikanalige Audiosignal (oder Stereosignal) über eine zweikanalige Kommunikationsleitung an jedes Endgerät TM-J gesendet werden, anstatt eine einkanalige Kommunikationsleitung zu verwenden. In diesem Fall wird für das Audiosignal von jedem Kanal eine Kommunikationsleitung verwendet, und das Schaltteil 11 muss drei Leitungen für jede Eingabe in und Ausgabe aus dem Endgerät TM-J schalten – dies vermeidet Multiplexen in dem Multiplex/Codierteil 22-J und Demultiplexen an jedem Endgerät TM-J. In einem solchen Fall werden jedoch zwei Codierteile 22-J für den linken und rechten Kanal benötigt, was dazu führt, dass der Aufbau dementsprechend komplex wird.
Sechste Ausgestaltung
24 stellt den grundlegenden Aufbau einer modifizierten Form der in 20 gezeigten Ausge staltung dar. Das Erfordernis der praktischen Verwendung ist dasselbe wie in den in den 20 und 22 dargestellten Ausgestaltungen. Die Audiokommunikationssteuereinheit dieser Ausgestaltung ist im Aufbau mit der Ausgestaltung in der 20 identisch, außer dass das Kombinationszuweisungsteil 19 an einer der dem Klangbildverarbeitungsteil 8-J vorhergehenden Stufe vorgesehen ist. Weil das Kombinationszuweisungsteil 19 an der Eingabeseite des Klangbildverarbeitungsteils 8-J vorgesehen ist, wird die Audiosignalverarbeitung zur Tonlokalisierung ausgeführt, nachdem eine Kombination von verbundenen Endgeräten bestimmt ist. Dies erlaubt es, die Zielpositionen von Tönen, die von den Endgeräten TM-1 bis TM-3 oder TM-3 bis TM-6 für die Telekonferenzen X und Y herrühren, jeweils wie in den 26A und 26B gezeigt zu setzen.
Siebte Ausgestaltung
In 25 ist ein konkretes Beispiel des in 24 gezeigten grundlegenden Aufbaus gezeigt, wobei die Teile, die denjenigen der 22 entsprechen, mit denselben Bezugszeichen versehen sind. Der Aufbau und die Funktion dieser Ausgestaltung sind überwiegend denjenigen der Ausgestaltung in der 22 ähnlich. Diese Ausgestaltung stellt auch einen Mehrpunkttelekonferenzdienst bereit, der es jedem Endgerät ermöglicht, an mehreren Telekonferenzen zur gleichen Zeit teilzunehmen und dem Benutzer ermöglichen, an jedem Endgerät Töne zu hören, die von anderen Endgeräten herrühren, und ihre Töne an unterschiedlichen Zielpositionen zu lokalisieren. Darüber hinaus stimmt diese Ausgestaltung mit der Ausgestaltung der 22 darin überein, dass das Klangbildverarbeitungsteil bei jedem Endgerät TM-J oder bei der Kombination P von Endgeräten entbehrlich ist. Es wird eine Beschreibung dieser Ausgestaltung gegeben, die sich auf Unterschiede zwischen ihr und der Ausgestaltung der 22 konzentriert.
Das Signalverarbeitungssteuerteil 20 empfängt von jeweiligen Endgeräten über das Schaltteil 11 solche Steuersignale wie diejenigen über Kommunikationsstart/ende, Verbindungsbestätigung und Mitgliedschaft bei den Telekonferenzen P, die durch Kombinationen von verbundenen Endgeräten TM-J zugewiesen sind. Das Signalverarbeitungssteuerteil 20 erfasst gemäß diesen Steuersignalen die Information auf dem verbundenen Endgerät TM-J, die Anzahl M der verbundenen Endgeräte, Kommunikationsstart/ende, die Mitgliedschaft bei der Telekonferenz P und die Anzahl der Endgeräte, die zu jeder Telekonferenz P gehören. Zusätzlich dazu sendet das Signalverarbeitungssteuerteil 20 Information über die erfassten Endgeräte und die Zahl M der verbundenen Endgeräte an das Verstärkungsfaktorsetzteil 35, sendet die Kommunikationsstart/endeinformation an das Konferenzteilnahmeendgerätauswahlteil 9C und das Konferenzauswahlteil 7C, sendet die Mitgliedschaft von jedem verbundenen Endgerät TM-J an den Telekonferenzen P an das Konferenzteilnahmeendgerätauswahlteil 9C und sendet die Anzahl M_P der Endgeräte, die zu jeder Telekonferenz P gehören, an das Parametersetzteil 14C.
Für jede Kombination der Endgeräte P setzt das Parametersetzteil 14C in den Klangbildverarbeitungsteilen 8-J akustische Transferfunktionen H_L(θ_PJ) und H_R(θ_PJ), die mit den Audiosignalen gefaltet werden, welche von allen Endgeräten TM_P-J der Kombination P herrühren, die mit den Zielpositionen θ_PJ in Beziehung steht. Bei dieser Ausgestaltung wird die Zielposition θ_PJ für Ton, der von jedem Endgerät TM-J herrührt, auf der Basis der Anzahl M_P der Endgeräte bestimmt, die zu der Telekonferenz P gehören, welche in dem Signalverarbeitungssteuerteil 20 erfasst wird. Wie in 21C beispielhaft gezeigt ist, werden die jeweiligen Zielpositionen θ_PJ in gleichwinkligen Intervallen von 180/(M_P – 1) Grad um den Hörer bei Winkelpositionen (+90°)-(0°)-(–90°) von seiner linken zur rechten Seite in einer horizontalen Ebene bestimmt. Lässt man die Anzahl der Endgeräte TM-J, die zu der Telekonferenz P gehören, in einer sequenziellen Reihenfolge J_P (1 ≤ J_P ≤ M_P) sein, werden die Zielpositonen θ_PJ durch 90 – 180(J_P – 1)/(M_P – 1) Grad bestimmt, wie zuvor beschrieben.
Das einkanalige Audiosignal, das von jedem Endgerät TM-J herrührt, wird zu Q Endgerätauswahlschaltern 9_P-J (P = 1, ..., Q) verteilt. Jeder Endgerätauswahlschalter 9_P-J steuert den Durchgang jedes einkanaligen Audiosignals durch ihn als Antwort auf ein Steuersignal, das von dem Konferenzteilnahmeendgerätauswahlteil 9C gesendet wird, und die Audiosignale, die durch den Endgerätauswahlschalter 9_P-J hindurchgegangen sind, werden an das entsprechende Klangbildverarbeitungsteil 8_P-J angelegt. In jedem Klangbildverarbeitungsteil 8_P-J werden die akustischen Transferfunktion H_L(θ_PJ) und H_R(θ_PJ), die in dem Parametersetzteil 14C gesetzt werden, mit den Audiosignalen gefaltet, die von dem Endgerätauswahlschalter 9_P-J ausgegeben werden, um ein zweikanaliges Audiosignal zu erhalten, welches in das Misch/Verzweigungsteil 17-P eingegeben wird. Es sind N (J = 1, ..., N) Klangbildverarbeitungsteile 8_P-J für jeden Satz P von Endgeräten vorgesehen, während in 22 die Anzahl der Klangbildverarbeitungsteile 8-J nur N ist. Der Endgerätauswahlschalter 9_P-J in der 22 unterscheidet sich von seinem Gegenstück in der Ausgestaltung der 25 darin, dass der letztere das zweikanalige Audiosignal unterbricht. Das Misch/Verzweigungsteil 17-P ist in Aufbau und Arbeitsweise exakt mit demjenigen der 23 identisch.
Die Ausgestaltung der 25 unterscheidet sich von der Ausgestaltung der 22 im Verarbeiten von Audiosignalen. In der Ausgestaltung der 25 werden einkanalige Audiosignale, die von jeweiligen Endgeräten TM-J herrühren, für jede Kombination P (P = 1, ..., Q) von Endgeräten gruppiert, woraufhin ein Zweikanal-Audiosignal für die Tonlokalisierung an jeweiligen Zielpositionen für jede Telekonferenz P erzeugt wird. Dementsprechend wird in jeweiligen Endgeräten TM-J, die zu jeder Telekonferenz P gehören, erlaubt, unterschiedliche Zielpositionen θ_PJ für jede Telekonferenz P unabhängig zu setzen. D. h., es ist möglich, in dem Parametersetzteil 14C die akustischen Transferfunktionen H_L(θ_PJ) und H_R(θ_PJ) als Klangbildsteuerparameter zu setzen, um dem Hörer zu ermöglichen, Töne, die von den zu jeder Telekonferenz gehörenden P Endgeräten TM-J herrühren, an jeweiligen Zielpositionen θ_PJ zu lokalisieren.
Es wird nun eine Beschreibung eines Verfahrens gegeben, wie der Abstand der Zielpositionen für Töne, die von jeweiligen Endgeräten TM-N in jeder Telekonferenz P herrühren, auf der Basis der Anzahl M_P der Endgeräte, die zu der Telekonferenz P gehören, erhöht wird. Man betrachte die Anwendung dieses Verfahrens auf die Kombinationen der Endgeräte, die in den 26A und 26B gezeigt sind. Weil die Telekonferenz X zwischen drei Endgeräten abgehalten wird, wie in 26A gezeigt ist, sind die Zielpositionen um 90° voneinander beabstandet. Die Zielpositionen für die Endgeräte TM-1, TM-2 und TM-3 sind sequenziell bei Winkelpositionen (+90°)-(0°)-(–90°) um den Hörer von seiner linken zur rechten Seite verteilt. Weil die Telekonferenz Y zwischen vier Endgeräten abgehalten wird, sind die Zielpositionen um 60° voneinander beabstandet. Die Zielpositionen für Töne, die von den Endgeräten TM-3, TM-4, TM-5 und TM-6 herrühren, sind sequenziell an Winkelpositionen (+90°)-(+30°)-(–30°)-(–90°) um den Hörer von seiner linken zur rechten Seite verteilt.
Man betrachte zum Vergleich den Fall, bei dem die Zielpositionen unter Verwendung der Anzahl M aller verbundener Endgeräte bestimmt werden. Weil die Anzahl M aller verbundener Endgeräte 6 ist, sind die Zielpositionen um 36° voneinander beabstandet und, wie in der 21C gezeigt ist, sind die Zielpositionen für Töne, die von den Endgeräten TM-1 bis TM-6 herrühren, sequenziell bei Winkelpositionen (+90°)-(+54°)-(+18°)-(–18°)-(–54°)-(–90°) um den Hörer von seiner linken zur rechten Seite verteilt. Weil in den Ausgestaltungen der 21A und 21B die Kombination nach der Verarbeitung der Tonlokalisierung zugewiesen wird, können die Zielpositionen nicht unabhängig voneinander für jede Telekonferenz gesetzt werden; deshalb ist die Zielposition für Ton, der von einem Endgerät herrührt, unabhängig von der Kombination der Endgeräte festgelegt. In einem solchen Fall ist die Zielpositionsverteilung für die Telekonferenz X zwischen den Endgeräten TM-1 bis TM-3 beschränkt und reicht von rechts (+90°) vor dem Hörer bis nach rechts (+18°) vor ihm, wie in den 21A und 21B dargestellt ist. Bei der Telekonferenz Y, welche die Endgeräte TM-3 bis TM-6 einsetzt, sind die Zielpositionen über dem Bereich von links vor dem Hörer (+18°) bis rechts (–90°) vor ihm verteilt.
Wie oben beschrieben, erlauben die Ausgestaltungen der 24 und 25 das Setzen der Zielpositionen für jede der Telekonferenzen. Zusätzlich dazu kann durch Setzen der Zielpositionen gemäß der Anzahl M_P der Endgeräte, die zu jeder Kombination (d. h. Telekonferenz) P gehören, der Winkelbereich der Verteilung und der Abstand der Zielpositionen für Töne, die von jedem Endgerät herrühren, weiter sein als in den Ausgestaltungen 20 und 22. Folglich erlaubt es diese Ausgestaltung dem Hörer, jeden Sprecher einfacher zu identifizieren, und liefert eine weiter verbesserte Verständlichkeit als die Ausgestaltungen der 20 und 22.
Gemäß der Ausgestaltung der 25 können, wenn die Anzahl der teilnehmenden Endgeräte in einer Telekonferenz sich ändert, die Zielpositionen von Tönen, die von den teilnehmenden Endgeräten herrühren, dementsprechend aktualisiert werden. In einem solchen Fall können die Zielpositionen von Tönen, die von allen an der Konferenz teilnehmenden Endgeräten herrühren, nach einem Modell zur Anordnung (einem Satz von akustischen Transferfunktionen H_L(θ_J) und H_R(θ_J)) der Zielpositionen für Töne, die von jeweiligen vorbestimmten Endgeräten herrühren, durch das Signalverarbeitungssteuerteil 20 der Audiokommunikationssteuereinheit 100 in Übereinstimmung mit jeweiligen Zahlen von teilnehmenden Endgeräten bestimmt werden. D. h., wenn die Zahl M der Konferenzteilnehmer sich als Antwort auf eine Anfrage, die Telekonferenz zu verlassen oder an ihr teilzunehmen, ändert, werden die Zielpositionen, die den verbleibenden Teilnehmern zugewiesen werden sollen, nach Bezugnahme auf das Anordnungsmodell gemäß der aktualisierten Zahl der Teilnehmer erneuert, und die entsprechenden Sätze von akustischen Transferfunktionen H_L(θ_J) und H_R(θ_J) werden gemäß den aktualisierten Zielpositionen ausgewählt und in einem der Klangbildverarbeitungsteile 8-J gesetzt. Als eine anfängliche Prozedur der Telekonferenz ist es auch möglich, mögliche Zielpositionen gemäß der Anzahl der Teilnehmer vorzubestimmen und den Teilnehmern zu erlauben, diese Positionen anzupassen.
In dem Fall, bei dem die Klangbildsteuerparameter durch das Parametersetzteil 14C in den Ausgestaltungen der 22 und 25 gesetzt werden, können die Zielfunktionen, die Konferenzteilnehmer zugewiesen werden können, im Signalverarbeitungssteuerteil 20 nach Erfassen der Anzahl M der teilnehmenden Endgeräte in jeder Telekonferenz bestimmt werden. Während oben das Parametersetzteil 14C so beschrieben wurde, dass es bestimmt, welche Teilnehmer welcher bestimmten Zielposition zugewiesen sind, ist eine Anpassung gegenwärtig zugewiesener Zielpositionen an eine gewünschte sogar während einer laufenden Telekonferenz möglich. Z. B. setzt die Audiokommunikationseinheit 100 vorab Information über Zielpositionen, die für alle Teilnehmer bestimmt sind. Wenn ein Benutzer an einem Endgerät die Zielposition während einer Telekonferenz auf eine gewünschte ändert, sendet das Endgerät an die Audiokommunikationssteuereinheit 100 ein Änderungsanfragesignal, das die gewünschte Position anzeigt. Als Antwort auf das Änderungsanfragesignal ersetzt das Signalverarbeitungssteuerteil der Audiokommunikationssteuereinheit 100 z. B. die gegenwärtige Position des anfragenden Endgerätes mit der gewünschten Position und sendet die neue Zuordnungsinformation an alle Teilnehmer.
Bei den Ausgestaltungen der 8 und 12 ist es auch möglich, eine Anordnung einzusetzen, in welcher Schalter SW-1 bis SW-N hintereinander an die jeweiligen Kanäle auf der Ausgangsseite des Äußerungserfassungsverarbeitungsteils 23B geschaltet sind, wie durch die gestrichelten Linien angedeutet ist, und das Äußerungserfassungsverarbeitungsteil 23B beurteilt die Äußerung auf jedem Kanal und hält den Schalter SW-J in diesem Kanal außer während der Äußerungsperiode auf AUS, wodurch es vom Kanal herrührendes Rauschen unterdrückt. Eine Äußerung kann abhängig davon beurteilt werden, ob die integrierte Leistung des Audiosignals die Schwelle E_AN, wie zuvor mit Bezugnahme auf 8 beschrieben wurde, übertrifft. In den Ausgestaltungen der 16, 22, 25 ist es auch möglich, Schalter SW-1 bis SW-N in Reihe den Ausgängen der Decodierteile 23-1 bis 23-N, wie durch die gestrichelten Linien angedeutet, zuzuweisen, eine Äußerung auf jedem Kanal gemäß dem Audiosignal auf dem Kanal zu beurteilen und den Kanal durch das Verstärkungsfaktorsetzteil 35 nur während dessen Äußerungsperiode auf EIN zu halten.
Wie oben im Detail beschrieben wurde, verzweigt die Audiokommunikationssteuereinheit gemäß der vorliegenden Erfindung das Audiosignal von jedem Endgerät in mehrere Kanäle, mischt die verzweigten Audiosignale, die von den jeweiligen Endgeräten herrühren, um ein mehrkanaliges gemischtes Audiosignal für jeden verzweigten Kanal zu erzeugen, und sendet das mehrkanalige gemischte Audiosignal an jedes Endgerät, nachdem es in jeweilige Kanäle verzweigt wurde. Daher kann der Ton, der von wenigstens einem Telekonferenzteilnehmer herrührt, an jedem Endgerät in Unterscheidung von Tönen wiedergegeben werden, die von den anderen Teilnehmern herrühren, wobei die Notwendigkeit einer Audiosignalverarbeitung bei den Endgeräten zur Tonlokalisierung an gewünschten Zielpositionen vermieden wird.

Claims

Audiokommunikationssteuereinheit für Telekonferenzen, die über ein Kommunikationsnetzwerk mit einer Mehrzahl von Endgeräten (TM-1–TM-M) verbunden ist, welches Folgendes umfasst: ein Vermittlungsteil (11), das mit dem Kommunikationsnetzwerk verbunden ist; N Eingabekanäle (C₁–C_N), die mit dem Vermittlungsteil (11) verbunden sind, wobei jeder Eingabekanal eingerichtet ist, um ein eingegebenes Audiosignal von einem jeweiligen von N Endgeräten zu empfangen, wobei N eine ganze Zahl ist, die gleich oder größer ist als 3; ein Audiosignalverarbeitungsteil (25), das Folgendes umfasst: – ein Kanalverzweigungsteil (13), das eingerichtet ist, um jedes der eingegebenen Audiosignale von den N Eingabekanälen in zwei verzweigte Audiosignale zweier verzweigter Kanäle als ein jeweiliges von N Paaren von ersten und zweiten Zweigkanalaudiosignalen zu verzweigen; – ein Klangbildsteuerteil (14; 8-1 bis 8-N), das eingerichtet ist, um jedes Paar von ersten und zweiten Zweigkanalaudiosignalen mit einem entsprechenden von N Parametersätzen zu verarbeiten, wobei jeder Satz zwei Klangbildsteuerparameter von vorbestimmtem Typ oder vorbestimmten Typen umfasst, um ein entsprechendes Paar von ersten und zweiten klangbildgesteuerten Audiosignalen zu erzeugen, die ein Klangbild an einer bestimmten räumlichen Zielposition repräsentieren, wobei wenigstens einer der N Parametersätze von den anderen Parametersätzen gemäß den für jedes der Endgeräte bestimmten Zielpositionen verschieden ist; und – ein Mischteil (15), das eingerichtet ist, um die ersten klangbildgesteuerten Audiosignale aller Paare zu einem ersten Misch-Audiosignal zu mischen, und um die zweiten klangbildgesteuerten Audiosignale aller Paare zu einem zweiten Misch-Audiosignal zu mischen; und ein endgerätzugeordnetes Verzweigungsteil (16), das eingerichtet ist, um das erste Misch-Audiosignal zu einem Satz von N ersten Zweig-Misch-Audiosignalen und das zweite Misch-Audiosignal zu einem Satz von N zweiten Zweig-Misch-Audiosignalen zu verzweigen, und um an jedes der N Endgeräte ein jeweiliges Paar aus einem ersten und einem zweiten Zweig-Misch-Audiosignal als ein erstes und ein zweites gemischtes Ausgabesignal zu senden; gekennzeichnet durch ein Äußerungserfassungsverarbeitungsteil (23B), das eingerichtet ist, um die Leistung des von jedem der N Endgeräte eingegebenen Audiosignals zu überwachen und um die Äußerung an jedem der N Endgeräte zu erfassen; und ein Signalverarbeitungssteuerteil (20), das eingerichtet ist, um auf der Basis der Äußerungserfassung durch das Äußerungserfassungsverarbeitungsteil (23B) zu entscheiden, dass eines der eingegebenen Audiosignale einen Hauptsprecher repräsentiert; wobei das Klangbildsteuerteil (14) ein Phasensteuerteil (14B) umfasst, welches eingerich tet ist, um unter der Steuerung des Signalverarbeitungssteuerteils (20) das dem Audiosignal des Hauptsprechers entsprechende erste und zweite Zweigkanalaudiosignal so zu setzen, dass sie zueinander gleichphasig sind, und die den Audiosignalen der anderen Sprecher entsprechenden ersten und zweiten Zweigkanalaudiosignale so zu setzen, dass sie zueinander gegenphasig sind.
Steuereinheit nach Anspruch 1, bei der das Klangbildsteuerteil (14) ein Dämpfungsteil (14A) zum Dämpfen der Audiosignale der anderen Sprecher auf einen Pegel unterhalb demjenigen des Audiosignals des Hauptsprechers unter der Steuerung des Signalverarbeitungssteuerteils (20) umfasst.
Steuereinheit nach Anspruch 1, bei der: das Klangbildsteuerteil (14) Dämpfer (4-1L, 4-1R bis 4-NL, 4-NR) zum Dämpfen jedes Paares von ersten und zweiten Zweigkanalaudiosignalen umfasst, wobei das Verarbeitungssteuerteil (20) eingerichtet ist, um die Dämpfer (4-1L, 4-R bis 4-NL, 4-NR) derart zu steuern, dass der Dämpfungswert des dem Audiosignal des Hauptsprechers entsprechenden zweiten Zweigkanalaudiosignals ein erster Wert ist, der größer ist als der Dämpfungswert des dem Audiosignal des Hauptsprechers entsprechenden ersten Zweigkanalaudiosignals, und der Dämpfungswert der den Audiosignalen der anderen Sprecher entsprechenden ersten Zweigkanalaudiosignale ein zweiter Wert ist, der größer ist als der Dämpfungswert der den Audiosignalen der anderen Sprecher entsprechenden zweiten Zweigkanalaudiosignale.
Steuereinheit nach Anspruch 1, welche Q der Audiosignalverarbeitungsteile (25-1 bis 25-Q), wobei Q eine ganze Zahl ist, die gleich oder größer ist als 2, und N Konferenzauswahlteile (21-1 bis 21-N) umfasst, bei der: das endgerätzugeordnete Verzweigungsteil (16) eingerichtet ist, um das erste Misch-Audiosignal von jedem der Q Audiosignalverarbeitungsteile (25-1 bis 25-Q) zu einer jeweiligen von Q ersten Gruppen von N ersten Zweig-Misch-Audiosignalen und das zweite Misch-Audiosignal von jedem der Q Audiosignalverarbeitungsteilen (25-1 bis 25-Q) zu einer jeweiligen von Q zweiten Gruppen von N zweiten Zweig-Misch-Audiosignalen zu verzweigen; und jedes der N Konferenzauswahlteile (21-1 bis 21-N) eingerichtet ist, um Q Paare von Zweig-Misch-Audiosignalen zu empfangen, wobei jedes Paar ein jeweiliges erstes Zweig-Misch-Audiosignal von jeder ersten Gruppe und ein jeweiliges zweites Zweig-Misch-Audiosignal von jeder zweiten Gruppe umfasst, und um eines oder mehr der Q Paare von Zweig-Misch-Audiosignalen auszuwählen und um die ersten Zweig-Misch-Audiosignale aller ausgewählten Paare zu einem jeweiligen ersten gemischten Ausgabesignal und die zweiten Zweig-Misch-Audiosignale aller ausgewählten Paare zu einem jeweiligen zweiten gemischten Ausgabesignal zu mischen.
Steuereinheit nach Anspruch 4, bei der das Signalverarbeitungssteuerteil (20) auf ein Konferenzteilnahmeanfragesignal von einem J-ten der N Endgeräte anspricht, um ein J-tes der N Konferenzauswahlteile (21-1 bis 21-N) zum Auswählen eines oder mehrerer der Q Paare von Zweig-Misch-Audiosignalen, wie von dem Konferenzteilnahmeanfragesignal bestimmt, zu veranlassen, wobei das erste und zweite gemischte Ausgabesignal von dem J-ten Konferenzauswahlteil (21-1 bis 21-N) zu dem J-ten Endgerät gesendet wird.
Audiokommunikationssteuereinheit nach einem der vorhergehenden Ansprüche, bei der das Signalverarbeitungssteuerteil (20) eingerichtet ist, um die N Parametersätze derart zu bestimmen, dass sie N verschiedene Zielpositionen repräsentieren.
Steuereinheit nach Anspruch 6, bei der das Signalverarbeitungssteuerteil (20) eingerichtet ist, um die Anzahl M von verbundenen Endgeräten (TM-1 bis TM-M), die an irgendeiner von einer oder mehreren Telekonferenzen teilnehmen, durch Erfassen von Signalen von Endgeräten, die anfragen, um an einer Telekonferenz teilzunehmen, zu erfassen, eine jeweilige Zielposition für jedes der verbundenen Endgeräte gemäß der erfassten Anzahl M zu bestimmen, die Klangbildsteuerparameter von M Sätzen derart zu bestimmen, dass sie jeweils den bestimmten Zielpositionen entsprechen, und die bestimmten Klangbildsteuerparameter dem das Klangbildsteuerteil (14C; 8-1 bis 8N) zu liefern.
Steuereinheit nach Anspruch 7, bei der das Signalverarbeitungssteuerteil (20) eingerichtet ist, um die Zielpositionen so zu bestimmen, dass sie links-rechts-symmetrische Positionen in Abständen von 180/(M – 1) Grad sind.
Steuereinheit nach einem der Ansprüche 7 oder 8, bei der das Signalverarbeitungssteuerteil (20) auf jede Änderung der Anzahl M der verbundenen Endgeräte (TM-1 bis TM-M) anspricht, die auf eine Anfrage von einem Endgerät folgt, an Telekonferenzen teilzunehmen oder sie zu verlassen, um die Zielpositionen gemäß der neuen Anzahl von verbundenen Endgeräten zu aktualisieren, und um die Klangbildsteuerparameter entsprechend zu aktualisieren, und um die aktualisierten Klangbildsteuerparameter in den Klangbildsteuerteilen (14; 8-1 bis 8-N) zu setzen.
Steuereinheit nach Anspruch 1, die weiter ein Kompensationsteil (26-1L, 261R bis 26NL, 26-NR) umfasst, das eingerichtet ist, um in jedem Paar von ersten und zweiten gemischten Ausgabesignalen die ersten und zweiten klangbildgesteuerten Audiosignale zu löschen, die von demjenigen Endgerät herrühren, an welches das jeweilige Paar geschickt wird.
Steuereinheit nach Anspruch 1, die darüber hinaus folgendes umfasst: ein Kombinationszuweisungsteil (19), das eingerichtet ist, um die ersten und zweiten klangbildgesteuerten Audiosignale von allen Paaren zu empfangen; Q Sätze (17-1 bis 17-Q) eines ersten und eines zweiten Mischteiles (5L, 5R) und eines ersten und eines zweiten Verzweigungsteiles (6L, 6R), wobei Q eine ganze Zahl ist, die gleich oder größer ist als 2; und ein Zwischenkombinationsmischteil (12); bei der das Kombinationszuweisungsteil (19) eingerichtet ist, um an das erste und zweite Mischteil (5L, 5R) jedes der Q Sätze das erste bzw. das zweite klangbildgesteuerte Audiosignal einer jeweiligen Kombination der Paare von ersten und zweiten klangbildgesteuerten Audiosignalen, die von einer entsprechenden Gruppe der Endgeräte herrühren, anzulegen, wobei das erste und zweite Verzweigungsteil (6L, 6R) eines jeweiligen der Q Sätze eingerichtet sind, um erste bzw. zweite gemischte Signale von dem ersten bzw. dem zweiten Mischteil desselben Satzes zu empfangen, und angepasst sind, um für jedes Endgerät in der entsprechenden Gruppe ein jeweiliges Paar eines ersten und eines zweiten Zweig-Misch-Signals bereitzustellen; und das Zwischenkombinationsmischteil (12) angepasst ist, um das erste Zweig-Misch-Signal sowie das zweite Zweig-Misch-Signal von zwei oder mehreren der Q Sätze (17-1 bis 17-Q) miteinander zu mischen, wobei die Zweig-Misch-Signale einem Endgerät entsprechen, das zu zwei oder mehreren der entsprechenden Gruppen gehört.
Steuereinheit nach Anspruch 11, bei der die zwei Klangbildsteuerparameter jedes Parametersatzes Paare von akustischen Übertragungsfunktionen sind, wobei jedes Paar eine unterschiedliche Zielposition repräsentiert, und das Klangbildsteuerteil (8-1 bis 8-N) eingerichtet ist, um jedes der ersten und zweiten Zweigkanalaudiosignale mit einer jeweiligen akustischen Übertragungsfunktion des jeweiligen Paares zu falten, um als die ersten und zweiten klangbildgesteuerten Audiosignale das linkskanalige und das rechtskanalige Signal eines Stereo-Audiosignals zu erhalten.
Steuereinheit nach Anspruch 12, bei der das Signalverarbeitungssteuerteil (20) angepasst ist, um die Anzahl M der verbundenen Endgeräte, die an einer von Q Telekonferenzen teilnehmen, durch Erfassen von Signalen von Endgeräten, die anfragen, um an einer Telekonferenz teilzunehmen, zu erfassen, M Zielpositionen zu bestimmen, diejenigen Paare von akustischen Übertragungsfunktionen, die den bestimmten Zielpositionen entsprechen, zu bestimmen, und die bestimmten Paare von akustischen Übertragungsfunktionen für die jeweiligen Klangbildsteuerteile (14C; 8-1 bis 8-N) bereitzustellen.
Audiokommunikationssteuereinheit nach Anspruch 1, bei der Q Sätze der Kanalverzweigungsteile (3-1 bis 3-N), des Klangbildsteuerteils (4-1L, 4-1R bis 4-QL, 4-QR), des Mischteils (5L, 5R) und des endgerätzugeordneten Verzweigungsteils (6KL, 6R) bereitgestellt sind, wobei Q eine ganze Zahl ist, die gleich oder größer ist als 2, und die Audiokommunikationssteuereinheit darüber hinaus folgendes umfasst: ein Kombinationszuweisungsteil (19), das eingerichtet ist, um das eingegebene Audiosignal von jedem der N Endgeräte (TM-1 bis TM-J) an eines oder mehrere bezeichnete der Q Kanalverzweigungsteile anzulegen; und ein Zwischenkombinationsmischteil (12), das eingerichtet ist, um für jedes Endgerät die entsprechenden ersten gemischten Ausgabesignale bzw. zweiten gemischten Ausgabesignale von einem oder mehreren bezeichneten der Q endgerätzugeordneten Verzweigungsteile (6L, 6R) jeweils miteinander zu mischen.
Steuereinheit nach Anspruch 14, bei der die zwei Kanäle linke und rechte Kanäle sind, und jedes der Q den Telekonferenzen entsprechenden Klangbildsteuerteile (17-1 bis 17-Q) angepasst ist, um für jedes Endgerät ein Stereo-Audiosignal von linken und rechten Kanälen als das klangbildgesteuerte Audiosignal durch Falten eines Paares von akustischen Übertragungsfunktionen als der Klangbildsteuerparameter, welche einer Zielposition einer Tonquelle entsprechen, die für jedes der N Endgeräte verschieden ist, jeweils mit den jedem Endgerät entsprechenden verzweigten Audiosignalen der linken und rechten Kanäle zu erzeugen.