DE69326751T2

DE69326751T2 - Bewegtbildkodierer

Info

Publication number: DE69326751T2
Application number: DE69326751T
Authority: DE
Inventors: Shigenobu 4-10-15 Minami; Osamu Yamada; Shoichiro 3-1-1-908 Yamasaki
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-08-27
Filing date: 1993-08-27
Publication date: 2000-05-11
Anticipated expiration: 2013-08-28
Also published as: EP0615387B1; EP0615387A1; DE69326751D1; CA2122371A1; CA2122371C; US5594494A; WO1994006246A1; EP0615387A4

Description

Technisches Gebiet

Diese Erfindung bezieht sich auf eine Codiervorrichtung zum Codieren von Videosignalen, und insbesondere auf eine Bewegtbild-Codiervorrichtung, die einen bedeutenden Teil in einem Bild auf der Basis des zusammen mit dem Videosignal gesendeten Audiosignals spezifiziert, eine dem spezifizierten Bildbereich zugewiesene codierte Bitrate erhöht und dadurch das Bild codiert.

Stand der Technik

Mit dem letzten Fortschritt in der Kommunikationstechnologie wurden Fernkonferenzsysteme (Fernsehkonferenzsysteme) und Bildtelefonsysteme, die sogar für den einzelnen verfügbar sind, zur praktischen Anwendung gebracht.
In derartigen Systemen werden Bilder und Ton unter Verwendung von Kommunikationskanälen, wie z. H. Telefonschaltungen, die daher die pro Kanal übertragbare codierte Bitrate begrenzen, übertragen. Um die Menge der Bildsignaldaten unter die Obergrenze der codierten Bitrate zu drücken, wird die Bildinformation vor einer Übertragung codiert.
Da die pro Zeiteinheit übertragbare codierte Bitrate unzureichend ist, wird, um natürliche Bewegungen zu gewährleisten, die codierte Bitrate für die Bilder pro Frame aus der Übertragungsrate beim Übertragen von Bewegtbildern bestimmt.
Im allgemeinen wird eine Codierung so ausgeführt, daß der gesamte Bildschirm eine gleichmäßige Auflösung aufweisen kann. Dies verursacht jedoch das Problem, daß das Bild des Gesichts des anderen Teilnehmers unscharf wird. Normalerweise richtet eine Person ihre Aufmerksamkeit nicht auf den gesamten Bildschirm, sondern tendiert dazu, sich auf einen signifikanten Teil auf dem Bildschirm zu konzentrieren. Dadurch gibt es, wenn die Bildqualität eines signifikanten Teils verbessert wird, sogar dann, wenn die restlichen Teile eine etwas niedrige Auflösung aufweisen, kein Problem beim Verstehen des Bildes.
Aus diesem Licht betrachtet wurden Codierverfahren untersucht, die den Gesichtsbereich einer Person, eine wichtigere Informationsquelle schärfer als die verbleibenden Bereiche, anzeigen bzw. wiedergeben, um die subjektive Bildqualität zu verbessern. Eines von solchen vorgeschlagenen Verfahren verwendet differentielle Interframe-Bilder (interframe differential pictures) (Literatur: Kamino et al., "A study of a method of sensing the face area in a color moving-picture TV telephone", the 1989 Electronic Information Communication Society's Spring National Meeting D-92).
Bei diesem System wird die über das Telefon sprechende Person mit einer Fernsehkamera aufgenommen. Aus dem so erhaltenen Bildsignal werden sich bewegende Teile in dem Bild aufgenommen. Der Gesichtsbereich des Sprechers wird auf der Basis des aufgenommenen Bereichs geschätzt. Dem geschätzten Gesichtsbereich wird eine hohe codierte Bitrate zugewiesen und den restlichen Bereichen wird eine niedrige codierte Bitrate gegeben. Indem ein derartiger Codierprozeß durchgeführt wird, wird der Gesichtsbereich einer Person schärfer angezeigt als die restlichen Bereiche.
In Fällen, in denen ein derartiges Gesichtsbereichs- Aufnahmeverfahren in einem Bewegtbild-Fernsehtelefon auf ein Konferenzsystem angewendet wird, ist es schwierig, den Gesichtsbereich des Sprechers zu schätzen, wenn unbeabsichtigterweise andere sich bewegende Objekte als die Person aufgenommen werden, oder wenn mehr als eine Person aufgenommen wird, wobei jede Änderungen im Ausdruck zeigt.
Wenn wie oben beschrieben mehr als eine Person aufgenommen wird, oder wenn andere sich bewegende Objekte als eine Person aufgenommen werden, entsteht das Problem, daß man nicht in der Lage ist, nur den Gesichtsbereich des Sprechers zu extrahieren, der der wichtigste Faktor in einem Verfahren des Aufnehmens des Bildbereichs in einem Bewegtbild ist.
GB-A-2123646 offenbart ein Verfahren und eine Vorrichtung zum Vermindern der Signalbandbreite eines einem von einer Videokamera hergeleiteten Bild entsprechenden, mit Mitteln zum Aufteilen des Bildes in Segmente und Mitteln zum Entwickeln hochauflösender Signale für ein oder mehrere ausgewählte Segmente des Bildes und einer niedrigeren Auflösung für die verbleibenden Segmente. Die Auswahl der Segmente basiert auf dem Aktivitätsniveau innerhalb jedes (voreingestellten) Segmentes, wobei der Aktivitätsindikator Sprache oder eine Bewegung innerhalb der Segmente sein kann. Insbesondere wird eine Sprachaktivität durch Festlegen, welches der Mikrophone das lauteste Signal aufweist, bestimmt.
Das Verfahren zum Bestimmen des Aktivitätsniveaus des Segments arbeitet jedoch beispielsweise dann nicht korrekt, wenn ein Sprecher eine viel lautere Sprache als ein anderer aufweist. In diesem Fall wird das falsche Segment mit einer höheren Auflösung codiert.

Offenbarung der Erfindung

Demgemäß besteht die Aufgabe der vorliegenden Erfindung darin, eine Bewegtbild-Codiervorrichtung in einem Bildübertragungssystem zum Codieren und Übertragen von Videosignalen zu liefern, wobei die Vorrichtung umfaßt: Bildaufnahmemittel zum Aufnehmen einer Mehrzahl von Objekten mit mindestens einem Objekt, das als eine Tonquelle spezifiziert ist, die einen vokalen Ton hervorbringt, und zum Ausgeben eines Videosignals; ein tonempfindliches Mittel mit rechtem und linken Kanal, das linke und rechte Mikrophone umfaßt, die von links nach rechts bezüglich der Objekte angeordnet sind, und das Ton von dem Objekt einsammelt, das von dem Bildaufnahmemittel aufgenommen wurde, und Audiosignale für linke und rechte Kanäle ausgibt; ein Schätzmittel, das eine Verzägerungsschaltung zum Verzögern eines Linkskanal-Audiosignals von dem linken Mikrophon und eine Schätzschaltung zum Schätzen eines Linkskanal- Audiosignals auf der Basis des verzögerten Linkskanal- Audiosignals von der Verzögerungsschaltung und eines Rechtskanal-Audiosignals von dem rechten Mikrophon aufweist, und das die Position der Tonquelle auf der Basis der Rechts- und Linkskanal-Audiosignale, die von dem tonempfindlichen Mittel mit rechtem und linken Kanal ausgegeben werden, schätzt; und Codiermittel zum Codieren des Videosignals entsprechend einem spezifizierten Bereich einer Bildfläche bzw. eines Bildbereichs, das an der Tonquellenposition zentriert ist, die durch das Schätzmittel geschätzt wird, mit einer höheren codierten Bitrate als Videosignale, die anderen Bildbereichen entsprechen.
Mit einer so aufgebauten Bewegtbild-Codiervorrichtung nimmt die Fernsehkamera ein Objekt auf und gibt ein Videosignal aus. Die getrennt voneinander vor dem Objekt angeordneten Mikrophone sammeln den vokalen Ton. Die Tonquellenpositions- Schätzschaltung schätzt die Position der Tonquelle auf der Basis der von einer Mehrzahl von Kanälen gesammelten Audiosignale. Die Codierschaltung codiert das Videosignal von der Fernsehkamera auf eine Art und Weise, die das Videosignal mit einer etwas größeren codierten Bitrate als der für die restlichen Bildbereiche für einen spezifischen Bereich codiert, der an der durch die Schätzschaltung geschätzten Tonposition zentriert ist, so daß der Bildbereich innerhalb des spezifischen Bereichs eine höhere Auflösung aufweisen kann.
Folglich ist es möglich, die Nachbarschaft der Tonquellenposition auf dem Bildschirm meistens mit einer höheren Auflösung zu codieren, mit dem Ergebnis, daß ein Bewegtbild-Codierung durchgeführt werden kann, mit der es möglich ist, Videosignale zu codieren, so daß der Sprecher schärfer angezeigt werden kann. Durch Abstimmen des Bildbereichs innerhalb des an der geschätzten Tonquellenposition zentrierten spezifischen Bereichs mit dem Gesichtsbereich des Objektes auf dem Bildschirm, kann das Videosignal codiert werden, so daß der Gesichtsbereich des Sprechers eine höhere Auflösung aufweisen kann.

Kurzbeschreibung der Zeichnungen

Fig. 1 ist ein Blockdiagramm eines Bildcodierabschnitts in einem Fernsehkonferenzsystem gemäß einer Ausführungsform der vorliegenden Erfindung;
Fig. 2 ist eine Zeichnung, die hilft, eine Ausführungsform der vorliegenden Erfindung zu erläutern, die eine Anordnung eines Konferenzzimmers für ein Fernsehkonferenzsystem im Zusammenhang die mit der vorliegenden Erfindung zeigt;
Fig. 3 ist ein Blockdiagramm des Tonquellenpositions- Schätzabschnitts von Fig. 1;
Fig. 4A und Fig. 4B sind Schaltdiagramme der Tonquellenpositions-Schätzschaltung von Fig. 3;
Fig. 5 ist eine Zeichnung, die zu erläutern hilft, wie die Tonquellenpositions-Schätzschaltung von Fig. 3 eine Schätzung vornimmt;
Fig. 6 ist eine Zeichnung, die zu erläutern hilft, wie der Bildcodierabschnitt von Fig. 1 den wichtigen Codierbereich bestimmt; und
Fig. 7 ist ein Blockdiagramm des Bildcodierabschnitts von Fig. 1.

Beste Ausführungsart der Erfindung

Nachstehend wird unter Bezugnahme auf die beigefügten Zeichnungen eine Ausführungsform der vorliegenden Erfindung erläutert. Diese Erfindung liefert eine Bildcodiervorrichtung, die ein Bewegtbild-Codierverfahren verwendet, welcher die Tonquellenposition auf der Basis der Audiosignale von einer Mehrzahl von Kanälen schätzt, meistens die geschätzte Nachbarschaft der Tonquellenposition codiert und dadurch eine Codierung so ausführt, daß der Sprecher schärfer angezeigt werden kann.
Fig. 2 zeigt einen schematischen Aufbau eines Konferenzzimmers für ein Fernsehkonferenzsystem, der eine Bildcodiervorrichtung der Erfindung enthält. In der Figur erfaßt eine einzige Kamera drei Personen bei der Konferenz.
Wie in Fig. 2 gezeigt ist, werden auf einem Tisch 9 an dem Anwesende A1 bis A3 sitzen, zwei Mikrophone (tonempfindliche Mittel) 11R und 11L seitlich mit gleichen Abständen plaziert, um das Gespräch der Anwesenden zu umgeben. Vor dem Tisch 9 ist eine Fernsehkamera 12 vorgesehen, die die Bilder der Anwesenden A1 bis A3, die Seite an Seite an dem Tisch 9 sitzen, erfaßt.
Die Audiosignale von den rechten und linken Mikrophonen 11R und 11L und das Videosignal von der Fernsehkamera 12 werden an ein Bildschätz-Codierabschnitt 10 geliefert, der diese Signale so codiert, daß sie eine spezifizierte codierte Bitrate pro Bildschirm aufweisen. Die Audiosignale werden ferner an ein Audiosignalverarbeitungssystem (nicht gezeigt) geliefert, das diese in digitale Signale wandelt, die dann zusammen mit dem codierten Videosignal zu einer Übertragungsleitung gesendet werden. Somit werden diese Signale an den anderen Teilnehmer übertragen.
Der Bildschätz-Codierabschnitt 10, der als Bildverarbeitungssystem arbeitet, schätzt die Position des Bildbereichs des Sprechers auf der Basis der durch die Fernsehkamera 12 erfaßten Anwesenden A1 bis A3, codiert das Videosignal für den geschätzten Positionsbereich mit einer etwas höheren codierten Bitrate M(i) als die Videosignale für die anderen Bereiche, und codiert die anderen Bereiche mit der codierten Bitrate M(O) für den restlichen Bereich. Genauer gesagt wird die gesamte codierte Bitrate M(total) pro Bildschirm bestimmt. Die bestimmte codierte Bitrate ist in eine codierte Bitrate (M(i)), die dem geschätzten Positionsbereich zugeordnet ist, und eine codierte Bitrate (M(0)) die den anderen Bereichen zugeordnet ist, unterteilt. Dies ergibt: M(total) = M)i) + M(0).
Der Bildschätz-Codierabschnitt 10 umfaßt einen Tonquellenpositions-Schätzabschnitt 13, einen Tonquellenpositionsinformations-Speicherabschnitt 14, einen Bildcodierabschnitt 15 und einen Bildspeicher 16. Der Bildspeicher 16 hält die Bilddaten vorübergehend in Bildschirmen fest, die durch Umwandeln des Videosignals von der Fernsehkamera 12 in eine digitale Form erhalten werden. Der Bildspeicher weist eine Kapazität auf, die groß genug ist, um eine Mehrzahl von Bildern für eine Bildverarbeitung zu speichern, und aktualisiert die Bilddaten fortwährend. Der Tonquellenpositions-Schätzabschnitt 13 schätzt die Position der Tonquelle. Genauer gesagt schätzt der Schätzabschnitt 13 die Position des Sprechers auf der Basis der Audiosignalausgaben von den Mikrophonen 11R und 11L und schätzt gleichzeitig die Tonquellenposition auf dem Bild oder dem Bereich des Sprechers auf der Basis der Position der linken und rechten Mikrophone 11L und 11R in den in dem Bildspeicher 16 gespeicherten Bilddaten. Der Tonquellenpositionsinformations-Speicherabschnitt 14 speichert Informationen über die an dem Tonquellenpositions- Schätzabschnitt 13 geschätzten Tonquellenposition und Information über die Zeit, zu der die Schätzung durchgeführt wurde. Dabei wird die Zeitinformation extern zugeführt. Ferner kann die Bildschätz-Codierschaltung 10 mit einer Taktschaltung versehen sein, von der die Zeitinformation geliefert werden kann.
Der Bildcodierabschnitt 15 codiert die in dem Bildspeicher 16 gespeicherten Bilddaten auf der Basis der Information von dem Tonquellenpositionsinformations-Speicherabschnitt 14 und gibt die codierten Daten aus. Genauer gesagt codiert der Codierabschnitt das Videosignal, so daß ein Bereich, der an der Position des Sprechers zentriert ist, klarer angezeigt werden kann. Um dies zu tun, bestimmt der Bildcodierabschnitt 15 den Bereich in der Position des Sprechers auf dem Bild als den wichtigen Codierbereich auf der Basis der Informationen über die Position des Sprechers, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert ist. Dann weist der Codierabschnitt die codierte Bitrate M(i) dem Videosignal für den wichtigen Codierbereich und die codierte Bitrate M(0) den Videosignalen für die anderen Bereiche zu, und codiert die Videosignale für die einzelnen Bereiche, so daß sie in die zugewiesenen Bereiche fallen können.
Der Tonquellenpositions-Schätzabschnitt 13 umfaßt eine Verzögerungsschaltung 31, eine Schätzschaltung 32, eine Subtrahierschaltung 33 und eine Tonquellenpositions- Schätzschaltung 34, wie in Fig. 3 gezeigt ist. Die Verzögerungschaltung 31 verzögert das Linkskanal- Audioeingangssignal von dem linken Mikrophon 11L. Die Schätzschaltung 32 schätzt ein Linkskanal-Audiosignal auf der Basis des verzögerten Linkskanal-Audioeingangssignal von der Verzögerungsschaltung 31 und des Rechtskanal-Audiosignals von dem rechten Mikrophon 11R. Die Subtrahierschaltung 33 empfängt das verzögerte Linkskanal-Audiosignal von der Verzögerungsschaltung 31 und das geschätzte Linkskanal- Audiosignal von der Schätzschaltung 32 und subtrahiert das geschätzte Linkskanal-Audiosignal von dem Linkskanal- Audiosignal, um das Differenzsignal zu erzeugen. Wenn das Differenzsignal an die Schätzschaltung 32 zurückgeführt wird, schätzt die Schätzschaltung 32 ein solches Linkskanal- Audiosignal so, daß das Differenzsignal Null werden kann, und gibt das geschätzte Audiosignal aus. Dies ermöglicht der Schätzschaltung 32 ein Linkskanal-Audiosignal als eine geschätzte Impulsantwortreihe H(k) auf der Basis des Rechtskanal-Audiosignals von dem rechten Mikrophon 11R unter Bezugnahme auf das verzögerte Linkskanal-Audioeingangssignal zu schätzen. Unter Verwendung der an der Schätzschaltung 32 erhaltenen geschätzten Impulsantwortreihe H(k) schätzt die Tonquellenpositions-Schätzschaltung 34 die Position der Tonquelle.
Mit der obigen Konfiguration nimmt die Fernsehkamera 12 die Personen auf, die bei der Konferenz anwesend sind, und gleichzeitig werden durch die Mikrophone 11R und 11L auf dem Tisch 9 vokale Töne eingesammelt. Das Videosignal von der Fernsehkamera 12 wird an den Bildcodierabschnitt 15 gesendet, und die Audiosignale von den Mikrophonen 11R und 11L werden an den Tonquellenpositions-Schätzabschnitt 13 gesendet. Der Tonquellenpositions-Schätzabschnitt 13 schätzt die Position der Tonquelle auf der Basis der Audiosignale. Das Schätzergebnis wird in dem Tonquellenpositionsinformations- Speicherabschnitt 14 gespeichert.
Unter Verwendung der neuesten Tonquellenpositionsinformation, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert sind, spezifiziert der Bildcodierabschnitt 15 den Bereich, der der Tonquellenposition in dem Videobild auf dem Bildschirm entspricht, codiert den Bereich mit der voreingestellten codierten Bitrate M(i) und die anderen Bereiche mit der codierten Bitrate M(0) und überträgt das codierte Signal. Dies ermöglicht es, den Sprecher unter den Personen, die bei der Konferenz anwesend sind, mit einer hohen Auflösung auf einem Monitor (nicht gezeigt) auf der Empfangsseite wiederzugeben.
Im folgenden wird ausführlicher erläutert, wie der Sprecher spezifiziert wird.
Wenn in Fig. 3 der durch den Sprecher A1 hervorgebrachte vokale Ton X(ω) ist, wird der vokale Ton X(ω) durch die Mikrophone 11R und 11L eingesammelt. Wenn der vokale Ton X(ω) hervorgebracht wird, und das Eingangs-Audiosignal an das rechte Mikrophon 11R YR(ω) und das Eingangs-Audiosignal an das linke Mikrophon 11L YL0(ω) ist, werden diese Eingangs-Audiosignale YR(ω) und YL0(ω) unter Verwendung von Übertragungsfunktionen FR(ω) und GL(ω), die durch die Tonfortpflanzungsverzögerung zwischen der Tonquelle und den Mikrophonen und den Tonmerkmalen in dem Raum bestimmt sind, wie folgt ausgedrückt:
YR(ω) = FR(ω)X(ω) (1)
YLO(ω) = GL(ω)X(ω) (2)
Ferner erfährt das Linkskanaleingangs-Audiosignal YLO(ω) eine flache Verzögerung C(ω) in der Verzögerungsschaltung 31, die das Kausalgesetz an der Schätzschaltung 32 garantiert. Dadurch ist es möglich, das Linkskanaleingangs- Audiosignal YL0(ω) durch YL(ω) unter Verwendung einer Übertragungsfunktion FL(ω) einschließlich der Verzögerungsschaltung 31 wie folgt auszudrücken:
YL(ω) = C(ω)GL(ω)X(ω) (3)
= FL(ω)X(ω)
Dieses Linkskanaleingangs-Audiosignal YL(ω) wird in die Subtrahierschaltung 33 eingegeben. Auf der Basis der folgenden Gleichung (4) schätzt die Schätzschaltung 32 eine Übertragungsfunktion G(ω), um das Linkskanal-Audiosignal YL(ω) aus dem Rechtskanal-Audiosignal YR(ω) unter Verwendung des Rechtskanal-Audiosignals YR(ω) und des Linkskanal- Audiosignals YL(ω) zu erhalten, und erzeugt dann eine geschätzte Übertragungsfunktion GP(ω) aus der Übertragungsfunktion G(ω):
G(ω) = GL(ω)/FR(ω) (4)
Im einzelnen wird die geschätzte Übertragungsfunktion Gp(ω) für die Übertragungsfunktion G(ω) wie folgt erzeugt.
Unter Verwendung des Rechtskanal-Audiosignals YR(ω) berechnet die Schätzschaltung 32 ein geschätztes Linkskanal- Audiosignal yp(ω) für Zeitbereiche. Die Schätzschaltung 32 umfaßt ein adaptives Transversalfilter 32a zum Berechnen eines geschätzten Linkskanal-Audiosignals yp(ω) für Zeitbereiche, wie sie in Fig. 4A gezeigt sind, und eine Korrekturschaltung 32b zum fortwährenden Aktualisieren einer geschätzten Impulsantwortreihe Hp(ω) für die Übertragungsfunktion G(ω), wie sie in Fig. 4B gezeigt ist. Das adaptive Transversalfilter 32a und die Korrekturschaltung 32b arbeiten synchron mit einem Systemtakt, der von einem Taktgenerator (nicht gezeigt) geliefert wird. Das adaptive Transversalfilter 32a umfaßt: n-Abgriff-Schieberegister 411 bis 41n-1 zum fortwährenden Senden des Eingangs-Audiosignals YR(ω) und zum Umwandeln der Rechtskanal-Audiosignale x(k) bis x(k-n+1) in die Werte für die einzelnen Zeitkomponenten; Vervielfacher 421 bis 42n zum komponentenweisen Vervielfachen der geschätzten Impulsantworten hp1(k) bis hpn(k) für die einzelnen Zeitkomponenten, die an der Korrekturschaltung 32b durch die Rechtskanal-Audiosignale x(k) bis x(k-n-1), die mittels der Schieberegister 441 bis 44n-1 erhalten werden, korrigiert wurden; und einen Addierer 43 zum Finden der Summe (Σ) der Vervielfachungsergebnisse und zum Erhalten eines geschätzten Linkskanal- Audioeingangssignals yp(k).
Insbesondere führt die Korrekturschaltung 32b eine Operation unter Verwendung von Gleichung (10) (später erläutert) durch, um geschätzte Impulsantwortreihen hp1(k) bis hpn(k) zu erhalten, teilt diese durch die Zeitkomponente und gibt sie an die entsprechenden Vervielfacher 42&sub1; bis 42n in dem adaptiven Transversalfilter 32a weiter. Die Vervielfacher 42&sub1; bis 42n multiplizieren komponentenweise geschätzte Impulsantwortreihen hp1(k) bis hpn(k) durch die Rechtskanal- Audiosignale x(k) bis x(k-n+1), die mittels Schieberegistern 41&sub1; bis 41n-1 erhalten werden, und erhalten dadurch geschätzte Linkskanal-Audiosignale pro Zeitkomponente. Der Addierer 43 addiert diese geschätzten Linkskanal-Audiosignale für die einzelnen Zeitkomponenten und erhält ein geschätztes Linkskanal-Audiosignal yp(k).
In einer solchen Schätzschaltung 32 wird das Rechtskanal- Audiosignal x(k) in n-Stufen der Schieberegister 411 bis 41n-1 eingegeben, die eine Verzögerung von einer Abtastzeit pro Stufe (one sample time per stage) aufweisen, wodurch ein durch Gleichung (5) ausgedrückter Zeitreihenvektor erzeugt wird:
X(k) = (x(k), x(k-1), ..., x(k-n+1)T (5)
wobei ( )T einen transponierten Vektor angibt.
Andererseits wird eine geschätzte Impulsantwortreihe Hp(k), die der geschätzten Übertragungsfunktion Gp(ω) in Zeitbereichen angenähert ist, durch Gleichung (6) ausgedrückt:
Hp(k) = (hp1(k), hp2(k), ..., hpn(k))T (6)
Ein geschätztes Linkskanal-Audiosignal yp(k) oder ein geschätzter Wert des Linkskanal-Audiosignals y(k) kann unter Verwendung der folgenden Gleichung (7) erhalten werden:
Yp(k) = HP (k) T · X (k)
Wenn die Impulsantwortreihe H für die Übertragungsfunktion G(ω) hier durch die Gleichung (8) ausgedrückt wird (wobei n eine ganze Zahl ist) bedeutet dies, daß die Übertragungsfunktion zufriedenstellend geschätzt wird.
H = (h&sub1;, h&sub2;, ...., hn)T (8)
Wenn die geschätzte Impulsantwortreihe Hp(k)
HP(k) = H (9)
wird, nähert sich daher das geschätzte Linkskanal-Audiosignal yp(k) das tatsächliche Linkskanal-Audiosignal y(k) sehr. Demgemäß muß nur eine derartige geschätzte Übertragungsfunktion Gp(ω), die zu einer Übertragungsfunktion G(ω) paßt, die die durch Gleichung (9) ausgedrückte Beziehung liefert, gefunden werden. Dies bedeutet, daß eine solche geschätzte Impulsantwortreihe Hp(k), die es ermöglicht, daß die geschätzte Übertragungsfunktion Gp(ω) eine Übertragungsfunktion G(ω) wird, nur geschätzt werden muß.
Die Schätzung der geschätzten Impulsantwortreihe Hp(k) in der Schätzschaltung 32 wird so ausgeführt, daß in dem adaptiven Transversalfilter 32a die Korrekturschaltung 32b beispielsweise die folgende Operation unter Verwendung der Zeitreihenvektoren x(k) bis x(k-n+1), die als Eingaben und Ausgaben der n-Stufen von Schieberegistern 411 bis 41n-1 erhalten wurden, fortwährend durchführt.
Hp(k+1) = Hp(k) + α·e(k) X(k)/ X(k) ²
wobei Hp(0) = 0.
Dieser Algorithmus ist ein bekanntes Lern- Identifizierungsverfahren (learning identification method). In Gleichung (10) wird, wenn e(k) die Ausgabe der Subtrahierschaltung 33 von Fig. 3 und das geschätzte Linkskanal-Audiosignal yp(k) ist, die Ausgabe e(k) die durch die Gleichung (11) ausgedrückte Beziehung aufweisen:
e (k) = y (k) - yp (k) (11)
Dies bedeutet, daß die Ausgabe e(k) der Subtrahierschaltung 33 das Differenzsignal zwischen dem Linkskanal-Audiosignal y(k) und dem geschätzten Linkskanal-Audiosignal yp(k) ist. In Gleichung (10) ist α ein Koeffizient, der die Konvergenzgeschwindigkeit und die Stabilität von Gleichung (10) bestimmt und die Differenz in dem Abstand zwischen den linken und rechten Mikrophonen 11L und 11R angibt.
Somit wird in dem Bildschätz-Codierabschnitt 10 die Position der linken und rechten Mikrophone 11L und 11R aus den in dem Bildspeicher 16 gespeicherten Bilddaten herausgefunden, und die Differenz im Abstand α wird dann bestimmt. Unter Verwendung dieser Abstandsciifferenz und der Ausgabe e(k) der Subtrahierschaltung 33 führt die Korrekturschaltung 32b eine Operation gemäß Gleichung (10) durch und schätzt dadurch eine geschätzte Impulsantwortreihe Hp(k).
Basierend auf der geschätzten Impulsantwortreihe Hp(k), die durch die obige Verarbeitung erhalten wurde, schätzt die Tonquellenschätzschaltung 34 die Position der Tonquelle. Diese Schätzung wird wie folgt durchgeführt.
Es sei angenommen, daß das Glied, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k), Mx ist. Wenn dabei die Abtastperiode T (sec), die Schallgeschwindigkeit v (m/sec) und die Anzahl der Abgriffe n ist, kann die Differenz im Abstand a zwischen der Tonquelle und jeder der linken und rechten Mikrophone 11L und 11R unter Verwendung der folgenden Gleichung (12) geschätzt werden:
α = v·T (Mx - N/2) (12)
Wie in Fig. 5 gezeigt ist, werden dabei die linken und rechten Mikrophone 11L und 11R mit einer Geraden 52 miteinander verbunden, und es wird eine Gerade 53 parallel zu der Linie 52 angenommen. Dabei wird davon ausgegangen, daß die Tonquelle 51 mit einem spezifischen Abstand von den linken und rechten Mikrophonen 11L und 11R auf der Linie 53 positioniert ist. Falls der Abstand von dem Schnittpunkt einer Linie 54, die senkrecht durch den Halbierungspunkt Po zwischen den linken und rechten Mikrophonen 11L und 11R auf der Linie 52 zu der Tonquelle 51 verläuft, "a" ist, der lineare Abstand von dem rechten Mikrophon 11R zu der Tonquelle 51 "b" ist, die Länge einer senkrechten Linie zwischen der Linie 53, die durch die Tonquelle 51 verläuft und der Linie 52, die durch die Mikrophone 11L und 11R verläuft, "c" ist, und der Abstand zwischen den Mikrophonen 11L und 11R 2d ist, gelten die folgenden simultanen Gleichungen.
(b + a)² - (d + a)² + c²
b² = (d - a)² + c² (13)
Durch Eliminieren von b aus den simultanen Gleichungen und Auflösen nach "a" kann die Position der Tonquelle Pa geschätzt werden.
Wenn Daten über die so geschätzte Tonquellenposition Pa in den Bildcodierabschnitt 15 über den Tonquellenpositionsinformations-Speicherabschnitt 14 eingegeben werden, wird ein an der Tonquelle zentrierter Bildbereich als der wichtige Codierbereich bestimmt, und die diesem Bereich entsprechenden Bilddaten werden mit einer größeren Codemenge als die Bilddaten für die anderen Bereiche codiert. Diese Codierung wird ausführlich erläutert.
Der Bildspeicher 16 speichert einen Frame von Bilddaten, der beispielsweise in 44 · 36 Blöcke aufgeteilt ist, wobei jeder Block aus 8 Pixel · 8 Zeilen besteht, wie in Fig. 6 gezeigt ist. Die in dem Bildspeicher 16 gespeicherten Bilddaten werden an den Bildcodierabschnitt 15 in aufeinanderfolgenden Blöcken gesendet. Der Bildcodierabschnitt 15 umfaßt eine orthogonale Transformations(DCT)-Schaltung 71, die mit einem Ausleseterminal des Bildspeichers 16 verbunden ist, eine mit dem Ausgangsterminal der DCT-Schaltung 71 verbundenen Quantisierungsschaltung 72, eine mit dem Ausgangsterminal der Quantisierungsschaltung 72 verbundenen Codierschaltung für veränderliche Längen (variable length coding circuit) 73 und einer mit dem Steuerterminal der Quantisierungsschaltung 72 verbundenen Quantisierungs-Schrittgrößen-Entscheidungs- Schaltung (quantization step size deciding circuit) 74. Die Bildcodierschaltung 15 umfaßt ferner eine Markierungs- Erkennungs-Schaltung 75 und eine Schaltung zum Entscheiden des wichtigen Codierbereichs 76. Die Markierungs-Erkennungs- Schaltung 75 erkennt zwei Markierungen 61a und 61b, die so plaziert sind, daß sie den linken und rechten Mikrophonen 11L und 11R auf der Basis der aus dem Bildspeicher 16 gelesenen Bilddaten entsprechen, und bestimmt den Abstand 2d' zwischen den Mikrophonen 11L und 11R auf dem Bildschirm. Die Markierungen werden durch die Bedienungsperson in die Vorrichtung eingegeben, wenn die Mikrophone in dem Konferenzzimmer angeordnet sind.
Wenn Information über den bestimmten Abstand 2d' in die Schaltung zum Entscheiden des wichtigen Codierbereichs 76 eingegeben wird, erhält die Schaltung 76 den Abstand "a'" aus dem Halbierungspunkt des Abstands 2d' zu der Position des Speichers 62 auf der Basis der Abstands(2d')-Information und der aus dem Tonquellenpositionsinformations-Speicherabschnitt 14a gelesenen Positionsinformation unter Verwendung der folgenden Gleichung 14:
a' - ad'/d (14)
Überdies bestimmt die Schaltung zum Entscheiden des wichtigen Codierbereichs 76 einen Bereich 73 mit einer voreingestellten Breite von 2w', die an der Position des Sprechers 62 zentriert ist, als den wichtigen Codierbereich. Wenn Information über den wichtigen Codierbereich in die Quantisierungs-Schrittgrößen-Entscheidungs-Schaltung 74 eingegeben wird, bestimmt die Schrittgrößen- Entscheidungsschaltung 74 eine Schrittgröße zum Codieren der Bilddaten zu dem wichtigen Codierbereich mit einer höheren codierten Bitrate als die Bilddaten zu den anderen Bereichen. Wenn Information über die bestimmte Schrittgröße in die Quantisierungsschaltung 72 eingegeben wird, quantisiert die Quantisierungsschaltung 72 die aus dem Bildspeicher 16 gelesenen Bilddaten und unterzieht sie einer orthogonalen Transformation an der DCT-Schaltung 71 in der bestimmten Schrittgröße oder mit der bestimmten codierten Bitrate. In diesem Fall wird eine Quantisierung in der Schrittgröße ausgeführt, die zum Zeitpunkt, zu dem die dem wichtigen Codierbereich 63 entsprechenden Bilddaten in die Quantisierungsschaltung 72 eingegeben werden, bestimmt wird, wohingegen die Bilddaten über die anderen Bereiche mit einer gröberen Schrittgröße als die Bilddaten zum den Bereich 63 quantisiert werden. Die quantisierten Bilddaten werden einer veränderlichen Längencodierung in der Codierschaltung für veränderliche Längen 73 unterzogen, die die codierten Bilddaten ausgibt.
Wenn die so codierten Bilddaten an die Empfangsseite gesendet werden und auf einem Empfangsmonitor angezeigt werden, wird das Bild des Sprechers mit einer höheren Auflösung als die anderen Bilder angezeigt.
Obwohl es bei der obigen Ausführungsform erläutert wurde, daß nur Informationen über die Tonquelle in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert wird, kann auch Zeitinformation wie folgt gespeichert werden.
Im einzelnen veranlaßt der Tonquellenpositions- Schätzabschnitt 13, daß die Tonquellenpositions- Schätzschaltung 34 die Tonquellenposition Pa auf der Basis des Glieds schätzt, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k) ist. Die Information über die Tonquellenposition Pa, die an dem Tonquellenpositions-Schätzabschnitt 13 geschätzt wurde, und über die Zeit, mit der die Schätzung ausgeführt wurde, werden in dem Tonquellenpositionsinformations-Speicherabschnitt 14 unter der Steuerung einer Steuereinheit (nicht gezeigt) gespeichert. Zu dieser Zeit steuert, wenn die Tonquellenposition Pa(t) vor einer Zeit t innerhalb einer spezifischen Breite w von der letzten Tonquellenposition Pa zur rechten und linken liegt, die Steuereinheit den Tonquellenpositionsinformations-Speicherabschnitt 14 so, daß die gespeicherte Information über die vorherige Tonquellenposition Pa(t) aus dem Speicherabschnitt 14 gelöscht werden kann. Dies ermöglicht es dem Speicherabschnitt 14, die Position des aktuellen Sprechers und die letzte Position jeder der Personen (N Personen), die in der Vergangenheit gesprochen haben, wie folgt zu speichern:
T(1), L(1)
T(2), L(2)
" "
" "
" "
T(N), L(N)
vorausgesetzt, daß T(1) < T(2) < ... < T(N) (15)
wobei T(i) die Zeit ist, die verstrichen ist, seitdem der Sprecher i zuletzt einen vokalen Ton hervorgebracht hat, L(i) die Daten sind, die die Position angibt, an der der Sprecher i zuletzt einen vokalen Ton hervorgebracht hat, T(1) die Zeit ist, zu der die obige Operation durch ein Abtasten des vokalen Tons des gegenwärtigen Sprechers durchgeführt wurde und L(1) die Daten sind, die die Position angibt, an der aktuelle Sprecher einen vokalen Ton hervorgebracht hat.
Der Bildcodierabschnitt 15 codiert ein Bild nach obiger Beschreibung auf der Basis der Informationen über die Position L(1) des letzten Sprechers, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert ist.
Es sei angenommen, daß die codierte Bitrate für den gesamten Bildschirm M, die Breite des gesamten Bildschirms WL, die Bedeutung des wichtigen Codierbereichs für den Sprecher i R(i) und die Bedeutung der von dem wichtigen Codierbereich verschiedenen Bereiche R(0) ist. Zu dieser Zeit kann die Bedeutung R(i) und R(0) frei festgelegt werden. Falls einer Person eine größere Bedeutung gegeben wird, die noch neueren Datums gesprochen hat, kann eine Einstellung wie folgt ausgeführt werden:
R(1) > R(2) > ... > R(N) > R(0) (16)
Zu dieser Zeit wird eine Bedeutung so zugeordnet, daß eine codierte Bitrate M(i) für den wichtigen Codierbereich für den letzten Sprecher (den Bildbereich für den letzten Sprecher) und eine codierte Bitrate M(0) für die von dem bedeutenden Codierbereich verschiedenen Bereiche wie folgt ausgedrückt werden kann:
M(i) = Mw' R(i)/RT
M(0) = M(WL - N·w')R(O)/RT
wobei RT als
RT = w' (R(1) + R(2) +... + R(N)) + (W L - Nw')R(O) (17)
ausgedrückt wird.
Durch Zuordnen einer etwas höheren codierten Bitrate M(i) zu dem wichtigen Codierbereich für Sprecher i und der restlichen codierten Bitrate M(0) zu den anderen Bereichen und Durchführen einer Codieroperation innerhalb der zugeordneten Bereiche, kann die Codierung so durchgeführt werden, daß ein Bereich, der an der Position des Sprechers zentriert ist, klarer angezeigt werden kann. Obgleich die gesamte codierte Bitrate pro Bildschirm sich nicht von derjenigen in einer herkömmlichen, gleichwertigen Bitrate unterscheidet, kann demgemäß eine subjektive Bildqualität des gesamten Bildschirms verbessert werden.
Wie oben beschrieben, wird die Position der Tonquelle auf der Basis der Kanalaudiosignale, die durch Mikrophone eingesammelt werden, die in unterschiedlichen Positionen angeordnet sind, und der Mikrophonposition auf dem Bildschirm einschließlich des Mikrophons und des Sprechers geschätzt. Dies ermöglicht es, daß der Bildbereich des Sprechers auf dem Bildschirm genau extrahiert werden kann. Darüberhinaus wird es durch Zuordnen einer größeren codierten Bitrate zu dem Bildbereich des Speichers möglich, daß das Bewegtbild- Codiersystem den Bildbereich des Sprechers klar anzeigt.
Die vorliegende Erfindung ist nicht auf die obige Ausführungsform beschränkt, sondern kann auf noch andere Weisen praktiziert oder ausgeführt werden, ohne daß von dem wesentlichen Charakter derselben abgewichen wird.
Während bei der obigen Ausführungsform das adaptive Transversalfilter für Zeitbereiche in der Schätzschaltung 32 des Tonquellenpositions-Schätzabschnitts 13 verwendet wird, kann beispielsweise anstelle dessen eine weitere Schaltungskonfiguration, wie z. B. ein adaptives Transversalfilter für Frequenzbereiche verwendet werden. Obgleich der Schätzalgorithmus unter Verwendung eines Lern- Identifizierungsverfahrens beispielhaft erläutert wurde, kann ein weiterer Lernalgorithmus, wie beispielsweise ein Verfahren des steilsten Abfalls (steepest descent method), verwendet werden.
Obgleich bei der Tonquellenschätzschaltung 34 die Position der Tonquellen auf der Basis des Glieds geschätzt wird, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k) ist, kann auch ein anderes Verfahren verwendet werden.
Das Verfahren eines Bestimmens des wichtigen Codierbereichs in dem Bildcodierabschnitt 15 ist nicht auf das oben beschriebene Verfahren beschränkt. Beispielsweise kann ein weiteres Verfahren, wie beispielsweise ein Erfassen des Gesichtsbereichs in dem wichtigen Codierbereich 63 verwendet werden. Eine Festlegung des Grades der Bedeutung bzw. Wichtigkeit in dem Bildcodierabschnitt 15 kann durch andere Verfahren, wie beispielsweise ein Festlegen des Wichtigkeitsgrades gemäß der Zeit, während der der Sprecher einen vokalen Ton bis zu dem gegenwärtigen Zeitpunkt hervorgebracht hat, oder ein Festlegen des Wichtigkeitsgrades unter Berücksichtigung sowohl der verstrichenen Zeit, seit der Sprecher zuletzt gesprochen hat, und der Zeit, während der der Sprecher einen vokalen Ton bis zu dem gegenwärtigen Zeitpunkt hervorgebracht hat, ausgeführt werden.
Bei einem Fernsehkonferenzsystem bleiben die Objekte auf dem Bildschirm in der Position unverändert, es sei denn sie bewegen sich selber, da die Objekte fast stillsitzen und der Fernsehbildschirm hinsichtlich der Objekte unter den gleichen Blickwinkeln gehalten wird. Durch ein externes Festlegen des Wichtigkeitsgrades oder des wichtigen Codierbereichs in dem Bildcodierabschnitt 15, kann eine VIP immer sehr genau codiert werden. Da das Verhältnis zwischen dem Bildschirm und dem Objekt unverändert bleibt, ist es leicht, den Gesichtsbereich des Sprechers und nicht den Bildbereich des Sprechers zu spezifizieren. Somit kann die Konfiguration derart sein, daß eine codierte Bitrate zugewiesen wird, um die Auflösung des spezifizierten Gesichtsbereichs zu erhöhen.
Obgleich in der obigen Ausführungsform die Verfahrensweise eines Zuordnens einer höheren codierten Bitrate zu dem wichtigen Codierbereich 63 in jedem Frame und die Durchführung einer genauen Codierung für das Codierverfahren am Bildcodierabschnitt 15 erläutert wurde, kann eine genaue Codierung auch durchgeführt werden, indem die Teile, die von dem wichtigen Codierbereich 63 verschieden sind, in einen Zeitverlaufs-Zustand (time iapse state) gebracht werden, wobei dadurch dem wichtigen Codierbereich 63 eine höhere codierte Bitrate zugeordnet wird. Die Auflösung kann gemäß einer Gewichtung entsprechend der Reihenfolge, in der die Sprecher einen vokalen Ton hervorbrachten, so geändert werden, daß die höchste Auflösung dem letzten Sprecher und die niedrigste Auflösung dem ersten Sprecher in der chronologischen Reihenfolge der Sprecher gegeben wird.
Obwohl bei der obigen Ausführungsform zwei Kanäle für Audioeingänge verwendet werden, können auch drei oder mehr Kanäle verwendet werden. In diesem Fall kann durch Anordnen der Mikrophone, um eine Höhendifferenz auszubilden, eine zweidimensionale Schätzung der Tonquelle vorgenommen werden. Durch diesen Ansatz kann ein einzelner Punkt auf dem Bildschirm als Tonquelle. geschätzt werden, wodurch es möglich ist, die Tonquellenposition mit einer viel größeren Genauigkeit zu schätzen.

Industrielle Anwendbarkeit

Gemäß der oben beschriebenem Erfindung ist es durch Schätzen der Position der Tonquelle auf der Basis einer Mehrzahl von Kanalaudiosignalen und einem hauptsächlichen Codieren der Nachbarschaft der Tonquellenposition möglich, ein Bewegtbild/Codiersystem vorzusehen, das ein Codieren so durchführt, daß der Sprecher klarer erscheinen kann.

Claims

1. Eine Bewegtbild-Codiervorrichtung, mit folgenden Merkmalen:

Bildaufnahmemittel zum Aufnehmen einer Mehrzahl von Objekten mit mindestens einem Objekt, das als eine Tonquelle spezifiziert ist, die einen vokalen Ton hervorbringt, und zum Ausgeben eines Videosignals;

ein tonempfindliches Mittel mit rechtem und linkem Kanal, das linke und rechte Mikrophone umfaßt, die von links nach rechts bezüglich der Objekte angeordnet sind, und das Ton von dem Objekt einsammelt, das von dem Bildaufnahmemittel aufgenommen wurde, und Audiosignale für linke und rechte Kanäle ausgibt;

ein Schätzmittel, das eine Verzögerungsschaltung zum Verzögern eines Linkskanal-Audiosignals von dem linken Mikrophon und eine Schätzschaltung zum Schätzen eines Linkskanal-Audiosignals auf der Basis des verzögerten Linkskanal-Audiosignals von der Verzögerungsschaltung und eines Rechtskanal-Audiosignals von dem rechten Mikrophon aufweist, und das die Position der Tonquelle auf der Basis der Rechts- und Linkskanal-Audiosignale, die von dem tonempfindlichen Mittel mit rechtem und linkem Kanal ausgegeben werden, schätzt; und

Codiermittel zum Codieren des Videosignals entsprechend einem spezifizierten Bereich einer Bildfläche bzw. eines Bildbereiches, das an der Tonquellenposition zentriert ist, die durch das Schätzmittel, mit einer höheren codierten Bitrate als Videosignale, die anderen Bildbereichen entsprechen, geschätzt wird.

2. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 1, wobei das Schätzmittel eine Subtrahierschaltung zum Erhalten eines Differenzsignals zwischen dem verzögerten Linkskanal- Audiosignal von der Verzögerungsschaltung und dem geschätzten Linkskanal-Audiosignal von der Schätzschaltung aufweist, wobei die Schätzschaltung das Linkskanal-Audiosignal so schätzt, daß es möglich wird, daß das Differenzsignal Null wird, wenn das Differenzsignal zu der Schätzschaltung zurückgeführt wird, und eine Tonquellenpositions- Schätzschaltung, die die Position der Tonquelle unter Verwendung einer geschätzten Impulsantwortreihe, die von den Schätzschaltung ausgegeben wird, schätzt.

3. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 2, wobei die Schätzschaltung ein adaptives Transversalfilter zum Berechnen eines geschätzten Linkskanal-Audiosignals für Zeitbereiche und eine Korrekturschaltung zum fortwährenden Aktualisieren der geschätzten Impulsantwortreihe aufweist.

4. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 3, wobei das adaptive Transversalfilter ein n-Abgriff- Schieberegister zum aufeinanderfolgenden Verschieben des Rechtskanal-Audiosignals und zum Umwandeln des Audiosignals in einen Wert für jede Zeitkomponente, eine Vervielfacherschaltung zum Vervielfachen der geschätzten Impulsantwortreihe für jede Zeitkomponente, die durch die Korrekturschaltung um den Wert des Rechtskanal-Audiosignals für jede über das Schieberegister erhaltenen Zeitkomponente korrigiert wurde, um eine Mehrzahl von Multiplikationsergebnissen, die einer Mehrzahl von Zeitkomponenten entsprechen, zu erhalten, und einen Addierer zum Addieren der Multiplikationsergebnisse, um ein geschätztes Linkskanal-Audioeingangssignal zu erhalten, aufweist.

5. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 4, wobei die Vervielfacherschaltung eine Mehrzahl von Vervielfachern aufweist, und die Korrekturschaltung ein Schaltungsmittel zum Erhalten einer geschätzten Impulsantwortreihe, zum Dividieren der geschätzten Impulsantwortreihe durch die Zeitkomponenten, um eine Mehrzahl von geteilten Impulsantwortreihen zu erhalten, und zum Liefern der geteilten Impulsantwortreihen an den jeweiligen Vervielfacher des adaptiven Filters aufweist, wobei die Vervielfacher des adaptiven Transversalfilters eine geschätzte Impulsantwortreihe mit dem mittels des Schieberegisters erhaltenen Rechtskanal-Audiosignals komponentenweise multiplizieren, und ein geschätztes Linkskanal-Audiosignal für jede Zeitkomponente ausgeben, und der Addierer geschätzte Linkskanal-Audiosignale addiert, die den Zeitkomponenten entsprechen, um ein geschätztes Linkskanal-Audiosignal zu erzeugen.

6. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 1, ferner mit folgenden Merkmalen:

Tonquellenpositions-Speichermittel zum Speichern der Historie der Information an den gegenwärtigen und vergangenen Positionen der durch die Schätzmittel geschätzten Tonquelle;

wobei das Codiermittel das Videosignal mit einer codierten Bitrate entsprechend der Position auf der Basis der Historie gegenwärtiger Tonquellenpositionsinformation und vergangener Tonquellenpositionsinformation, die in dem Tonquellenpositions-Speichermittel gespeichert sind, codiert.

7. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6, wobei das Codiermittel mindestens eine der Tonquellenpositionsinformation, die in dem Tonguellenpositions-Speichermittel gespeichert ist, und seine Nachbarschaft als Bereich mit hoher Bildqualität spezifiziert, jedes Bildqualitätsniveau einstellt, eine codierte Bitrate zuweist, so daß der Bereich gemäß dem Bildqualitätsniveau eine höhere Bildqualität als andere Bereiche aufweisen kann, und das Videosignal codiert.

8. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6, wobei das Codiermittel einen Bereich mit hoher Bildqualität und Bildqualitätsniveaus gemäß der Tonquellenpositionsinformation spezifiziert, und das Videosignal durch Zuweisen einer codierten Bitrate, so daß der Bereich eine höhere Bildqualität als andere Bereiche aufweisen kann, codiert.

9. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 8, wobei das Codiermittel die Bildqualitätsniveaus entsprechend dem Umstand, wie oft die Tonquellenposition erscheint, einstellt.

10. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6, wobei das Schätzmittel eine Subtrahierschaltung zum Erhalten eines Differenzsignals zwischen dem verzögerten Linkskanal- Audiosignal von der Verzögerungsschaltung und dem geschätzten Linkskanal-Audiosignal von der Schätzschaltung aufweist, wobei die Schätzschaltung ein derartiges Linkskanal- Audiosignal so schätzt, daß es möglich wird, daß das Differenzsignal Null wird, wenn das Differenzsignal zu der Schätzschaltung zurückgeführt wird, und eine Tonquellenpositions-Schätzschaltung, die die Position der Tonquelle unter Verwendung einer geschätzten Impulsantwortreihe, die von den Schätzschaltung ausgegeben wird, schätzt.

11. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 10, wobei die Schätzschaltung ein adaptives Transversalfilter zum Berechnen eines geschätzten Linkskanal-Audiosignals für Zeitbereiche und eine Korrekturschaltung zum fortwährenden Aktualisieren der geschätzten Impulsantwortreihe aufweist.

12. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 11, wobei das adaptive Transversalfilter ein n-Abgriff- Schieberegister zum aufeinanderfolgenden Verschieben des Rechtskanal-Audiosignals und zum Umwandeln des Audiosignals in einen Wert für jede Zeitkomponente, eine Vervielfacherschaltung zum Vervielfachen der geschätzten Impulsantwortreihe für jede Zeitkomponente, die durch die Korrekturschaltung um den Wert des Rechtskanal-Audiosignals für jede über das Schieberegister erhaltenen Zeitkomponente korrigiert wurde, um eine Mehrzahl von Multiplikationsergebnissen, die einer Mehrzahl von Zeitkomponenten entsprechen, zu erhalten, und einen Addierer zum Addieren der Multiplikationsergebnisse, um ein geschätztes Linkskanal-Audioeingangssignal zu erhalten, aufweist.

13. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 12, wobei die Vervielfacherschaltung eine Mehrzahl von Vervielfachern aufweist, und die Korrekturschaltung ein Schaltungsmittel zum Erhalten einer geschätzten Impulsantwortreihe, zum Dividieren der geschätzten Impulsantwortreihe durch die Zeitkomponenten, und zum Liefern der geteilten Impulsantwortreihen an den jeweiligen Vervielfacher des adaptiven Filters aufweist, wobei die Vervielfacher des adaptiven Transversalfilters eine geschätzte Impulsantwortreihe mit dem mittels des Schieberegisters erhaltenen Rechtskanal-Audiosignals komponentenweise multiplizieren und ein geschätztes Linkskanal-Audiosignal für jede Zeitkomponente ausgeben, und der Addierer geschätzte Linkskanal-Audiosignale addiert, die den Zeitkomponenten entsprechen, um ein geschätztes Linkskanal-Audiosignal zu erzeugen.