DE69326751T2 - Bewegtbildkodierer - Google Patents
BewegtbildkodiererInfo
- Publication number
- DE69326751T2 DE69326751T2 DE69326751T DE69326751T DE69326751T2 DE 69326751 T2 DE69326751 T2 DE 69326751T2 DE 69326751 T DE69326751 T DE 69326751T DE 69326751 T DE69326751 T DE 69326751T DE 69326751 T2 DE69326751 T2 DE 69326751T2
- Authority
- DE
- Germany
- Prior art keywords
- channel audio
- estimated
- audio signal
- circuit
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/148—Interfacing a video terminal to a particular transmission medium, e.g. ISDN
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers
- H04R3/005—Circuits for transducers for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Circuit For Audible Band Transducer (AREA)
- Closed-Circuit Television Systems (AREA)
Description
- Diese Erfindung bezieht sich auf eine Codiervorrichtung zum Codieren von Videosignalen, und insbesondere auf eine Bewegtbild-Codiervorrichtung, die einen bedeutenden Teil in einem Bild auf der Basis des zusammen mit dem Videosignal gesendeten Audiosignals spezifiziert, eine dem spezifizierten Bildbereich zugewiesene codierte Bitrate erhöht und dadurch das Bild codiert.
- Mit dem letzten Fortschritt in der Kommunikationstechnologie wurden Fernkonferenzsysteme (Fernsehkonferenzsysteme) und Bildtelefonsysteme, die sogar für den einzelnen verfügbar sind, zur praktischen Anwendung gebracht.
- In derartigen Systemen werden Bilder und Ton unter Verwendung von Kommunikationskanälen, wie z. H. Telefonschaltungen, die daher die pro Kanal übertragbare codierte Bitrate begrenzen, übertragen. Um die Menge der Bildsignaldaten unter die Obergrenze der codierten Bitrate zu drücken, wird die Bildinformation vor einer Übertragung codiert.
- Da die pro Zeiteinheit übertragbare codierte Bitrate unzureichend ist, wird, um natürliche Bewegungen zu gewährleisten, die codierte Bitrate für die Bilder pro Frame aus der Übertragungsrate beim Übertragen von Bewegtbildern bestimmt.
- Im allgemeinen wird eine Codierung so ausgeführt, daß der gesamte Bildschirm eine gleichmäßige Auflösung aufweisen kann. Dies verursacht jedoch das Problem, daß das Bild des Gesichts des anderen Teilnehmers unscharf wird. Normalerweise richtet eine Person ihre Aufmerksamkeit nicht auf den gesamten Bildschirm, sondern tendiert dazu, sich auf einen signifikanten Teil auf dem Bildschirm zu konzentrieren. Dadurch gibt es, wenn die Bildqualität eines signifikanten Teils verbessert wird, sogar dann, wenn die restlichen Teile eine etwas niedrige Auflösung aufweisen, kein Problem beim Verstehen des Bildes.
- Aus diesem Licht betrachtet wurden Codierverfahren untersucht, die den Gesichtsbereich einer Person, eine wichtigere Informationsquelle schärfer als die verbleibenden Bereiche, anzeigen bzw. wiedergeben, um die subjektive Bildqualität zu verbessern. Eines von solchen vorgeschlagenen Verfahren verwendet differentielle Interframe-Bilder (interframe differential pictures) (Literatur: Kamino et al., "A study of a method of sensing the face area in a color moving-picture TV telephone", the 1989 Electronic Information Communication Society's Spring National Meeting D-92).
- Bei diesem System wird die über das Telefon sprechende Person mit einer Fernsehkamera aufgenommen. Aus dem so erhaltenen Bildsignal werden sich bewegende Teile in dem Bild aufgenommen. Der Gesichtsbereich des Sprechers wird auf der Basis des aufgenommenen Bereichs geschätzt. Dem geschätzten Gesichtsbereich wird eine hohe codierte Bitrate zugewiesen und den restlichen Bereichen wird eine niedrige codierte Bitrate gegeben. Indem ein derartiger Codierprozeß durchgeführt wird, wird der Gesichtsbereich einer Person schärfer angezeigt als die restlichen Bereiche.
- In Fällen, in denen ein derartiges Gesichtsbereichs- Aufnahmeverfahren in einem Bewegtbild-Fernsehtelefon auf ein Konferenzsystem angewendet wird, ist es schwierig, den Gesichtsbereich des Sprechers zu schätzen, wenn unbeabsichtigterweise andere sich bewegende Objekte als die Person aufgenommen werden, oder wenn mehr als eine Person aufgenommen wird, wobei jede Änderungen im Ausdruck zeigt.
- Wenn wie oben beschrieben mehr als eine Person aufgenommen wird, oder wenn andere sich bewegende Objekte als eine Person aufgenommen werden, entsteht das Problem, daß man nicht in der Lage ist, nur den Gesichtsbereich des Sprechers zu extrahieren, der der wichtigste Faktor in einem Verfahren des Aufnehmens des Bildbereichs in einem Bewegtbild ist.
- GB-A-2123646 offenbart ein Verfahren und eine Vorrichtung zum Vermindern der Signalbandbreite eines einem von einer Videokamera hergeleiteten Bild entsprechenden, mit Mitteln zum Aufteilen des Bildes in Segmente und Mitteln zum Entwickeln hochauflösender Signale für ein oder mehrere ausgewählte Segmente des Bildes und einer niedrigeren Auflösung für die verbleibenden Segmente. Die Auswahl der Segmente basiert auf dem Aktivitätsniveau innerhalb jedes (voreingestellten) Segmentes, wobei der Aktivitätsindikator Sprache oder eine Bewegung innerhalb der Segmente sein kann. Insbesondere wird eine Sprachaktivität durch Festlegen, welches der Mikrophone das lauteste Signal aufweist, bestimmt.
- Das Verfahren zum Bestimmen des Aktivitätsniveaus des Segments arbeitet jedoch beispielsweise dann nicht korrekt, wenn ein Sprecher eine viel lautere Sprache als ein anderer aufweist. In diesem Fall wird das falsche Segment mit einer höheren Auflösung codiert.
- Demgemäß besteht die Aufgabe der vorliegenden Erfindung darin, eine Bewegtbild-Codiervorrichtung in einem Bildübertragungssystem zum Codieren und Übertragen von Videosignalen zu liefern, wobei die Vorrichtung umfaßt: Bildaufnahmemittel zum Aufnehmen einer Mehrzahl von Objekten mit mindestens einem Objekt, das als eine Tonquelle spezifiziert ist, die einen vokalen Ton hervorbringt, und zum Ausgeben eines Videosignals; ein tonempfindliches Mittel mit rechtem und linken Kanal, das linke und rechte Mikrophone umfaßt, die von links nach rechts bezüglich der Objekte angeordnet sind, und das Ton von dem Objekt einsammelt, das von dem Bildaufnahmemittel aufgenommen wurde, und Audiosignale für linke und rechte Kanäle ausgibt; ein Schätzmittel, das eine Verzägerungsschaltung zum Verzögern eines Linkskanal-Audiosignals von dem linken Mikrophon und eine Schätzschaltung zum Schätzen eines Linkskanal- Audiosignals auf der Basis des verzögerten Linkskanal- Audiosignals von der Verzögerungsschaltung und eines Rechtskanal-Audiosignals von dem rechten Mikrophon aufweist, und das die Position der Tonquelle auf der Basis der Rechts- und Linkskanal-Audiosignale, die von dem tonempfindlichen Mittel mit rechtem und linken Kanal ausgegeben werden, schätzt; und Codiermittel zum Codieren des Videosignals entsprechend einem spezifizierten Bereich einer Bildfläche bzw. eines Bildbereichs, das an der Tonquellenposition zentriert ist, die durch das Schätzmittel geschätzt wird, mit einer höheren codierten Bitrate als Videosignale, die anderen Bildbereichen entsprechen.
- Mit einer so aufgebauten Bewegtbild-Codiervorrichtung nimmt die Fernsehkamera ein Objekt auf und gibt ein Videosignal aus. Die getrennt voneinander vor dem Objekt angeordneten Mikrophone sammeln den vokalen Ton. Die Tonquellenpositions- Schätzschaltung schätzt die Position der Tonquelle auf der Basis der von einer Mehrzahl von Kanälen gesammelten Audiosignale. Die Codierschaltung codiert das Videosignal von der Fernsehkamera auf eine Art und Weise, die das Videosignal mit einer etwas größeren codierten Bitrate als der für die restlichen Bildbereiche für einen spezifischen Bereich codiert, der an der durch die Schätzschaltung geschätzten Tonposition zentriert ist, so daß der Bildbereich innerhalb des spezifischen Bereichs eine höhere Auflösung aufweisen kann.
- Folglich ist es möglich, die Nachbarschaft der Tonquellenposition auf dem Bildschirm meistens mit einer höheren Auflösung zu codieren, mit dem Ergebnis, daß ein Bewegtbild-Codierung durchgeführt werden kann, mit der es möglich ist, Videosignale zu codieren, so daß der Sprecher schärfer angezeigt werden kann. Durch Abstimmen des Bildbereichs innerhalb des an der geschätzten Tonquellenposition zentrierten spezifischen Bereichs mit dem Gesichtsbereich des Objektes auf dem Bildschirm, kann das Videosignal codiert werden, so daß der Gesichtsbereich des Sprechers eine höhere Auflösung aufweisen kann.
- Fig. 1 ist ein Blockdiagramm eines Bildcodierabschnitts in einem Fernsehkonferenzsystem gemäß einer Ausführungsform der vorliegenden Erfindung;
- Fig. 2 ist eine Zeichnung, die hilft, eine Ausführungsform der vorliegenden Erfindung zu erläutern, die eine Anordnung eines Konferenzzimmers für ein Fernsehkonferenzsystem im Zusammenhang die mit der vorliegenden Erfindung zeigt;
- Fig. 3 ist ein Blockdiagramm des Tonquellenpositions- Schätzabschnitts von Fig. 1;
- Fig. 4A und Fig. 4B sind Schaltdiagramme der Tonquellenpositions-Schätzschaltung von Fig. 3;
- Fig. 5 ist eine Zeichnung, die zu erläutern hilft, wie die Tonquellenpositions-Schätzschaltung von Fig. 3 eine Schätzung vornimmt;
- Fig. 6 ist eine Zeichnung, die zu erläutern hilft, wie der Bildcodierabschnitt von Fig. 1 den wichtigen Codierbereich bestimmt; und
- Fig. 7 ist ein Blockdiagramm des Bildcodierabschnitts von Fig. 1.
- Nachstehend wird unter Bezugnahme auf die beigefügten Zeichnungen eine Ausführungsform der vorliegenden Erfindung erläutert. Diese Erfindung liefert eine Bildcodiervorrichtung, die ein Bewegtbild-Codierverfahren verwendet, welcher die Tonquellenposition auf der Basis der Audiosignale von einer Mehrzahl von Kanälen schätzt, meistens die geschätzte Nachbarschaft der Tonquellenposition codiert und dadurch eine Codierung so ausführt, daß der Sprecher schärfer angezeigt werden kann.
- Fig. 2 zeigt einen schematischen Aufbau eines Konferenzzimmers für ein Fernsehkonferenzsystem, der eine Bildcodiervorrichtung der Erfindung enthält. In der Figur erfaßt eine einzige Kamera drei Personen bei der Konferenz.
- Wie in Fig. 2 gezeigt ist, werden auf einem Tisch 9 an dem Anwesende A1 bis A3 sitzen, zwei Mikrophone (tonempfindliche Mittel) 11R und 11L seitlich mit gleichen Abständen plaziert, um das Gespräch der Anwesenden zu umgeben. Vor dem Tisch 9 ist eine Fernsehkamera 12 vorgesehen, die die Bilder der Anwesenden A1 bis A3, die Seite an Seite an dem Tisch 9 sitzen, erfaßt.
- Die Audiosignale von den rechten und linken Mikrophonen 11R und 11L und das Videosignal von der Fernsehkamera 12 werden an ein Bildschätz-Codierabschnitt 10 geliefert, der diese Signale so codiert, daß sie eine spezifizierte codierte Bitrate pro Bildschirm aufweisen. Die Audiosignale werden ferner an ein Audiosignalverarbeitungssystem (nicht gezeigt) geliefert, das diese in digitale Signale wandelt, die dann zusammen mit dem codierten Videosignal zu einer Übertragungsleitung gesendet werden. Somit werden diese Signale an den anderen Teilnehmer übertragen.
- Der Bildschätz-Codierabschnitt 10, der als Bildverarbeitungssystem arbeitet, schätzt die Position des Bildbereichs des Sprechers auf der Basis der durch die Fernsehkamera 12 erfaßten Anwesenden A1 bis A3, codiert das Videosignal für den geschätzten Positionsbereich mit einer etwas höheren codierten Bitrate M(i) als die Videosignale für die anderen Bereiche, und codiert die anderen Bereiche mit der codierten Bitrate M(O) für den restlichen Bereich. Genauer gesagt wird die gesamte codierte Bitrate M(total) pro Bildschirm bestimmt. Die bestimmte codierte Bitrate ist in eine codierte Bitrate (M(i)), die dem geschätzten Positionsbereich zugeordnet ist, und eine codierte Bitrate (M(0)) die den anderen Bereichen zugeordnet ist, unterteilt. Dies ergibt: M(total) = M)i) + M(0).
- Der Bildschätz-Codierabschnitt 10 umfaßt einen Tonquellenpositions-Schätzabschnitt 13, einen Tonquellenpositionsinformations-Speicherabschnitt 14, einen Bildcodierabschnitt 15 und einen Bildspeicher 16. Der Bildspeicher 16 hält die Bilddaten vorübergehend in Bildschirmen fest, die durch Umwandeln des Videosignals von der Fernsehkamera 12 in eine digitale Form erhalten werden. Der Bildspeicher weist eine Kapazität auf, die groß genug ist, um eine Mehrzahl von Bildern für eine Bildverarbeitung zu speichern, und aktualisiert die Bilddaten fortwährend. Der Tonquellenpositions-Schätzabschnitt 13 schätzt die Position der Tonquelle. Genauer gesagt schätzt der Schätzabschnitt 13 die Position des Sprechers auf der Basis der Audiosignalausgaben von den Mikrophonen 11R und 11L und schätzt gleichzeitig die Tonquellenposition auf dem Bild oder dem Bereich des Sprechers auf der Basis der Position der linken und rechten Mikrophone 11L und 11R in den in dem Bildspeicher 16 gespeicherten Bilddaten. Der Tonquellenpositionsinformations-Speicherabschnitt 14 speichert Informationen über die an dem Tonquellenpositions- Schätzabschnitt 13 geschätzten Tonquellenposition und Information über die Zeit, zu der die Schätzung durchgeführt wurde. Dabei wird die Zeitinformation extern zugeführt. Ferner kann die Bildschätz-Codierschaltung 10 mit einer Taktschaltung versehen sein, von der die Zeitinformation geliefert werden kann.
- Der Bildcodierabschnitt 15 codiert die in dem Bildspeicher 16 gespeicherten Bilddaten auf der Basis der Information von dem Tonquellenpositionsinformations-Speicherabschnitt 14 und gibt die codierten Daten aus. Genauer gesagt codiert der Codierabschnitt das Videosignal, so daß ein Bereich, der an der Position des Sprechers zentriert ist, klarer angezeigt werden kann. Um dies zu tun, bestimmt der Bildcodierabschnitt 15 den Bereich in der Position des Sprechers auf dem Bild als den wichtigen Codierbereich auf der Basis der Informationen über die Position des Sprechers, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert ist. Dann weist der Codierabschnitt die codierte Bitrate M(i) dem Videosignal für den wichtigen Codierbereich und die codierte Bitrate M(0) den Videosignalen für die anderen Bereiche zu, und codiert die Videosignale für die einzelnen Bereiche, so daß sie in die zugewiesenen Bereiche fallen können.
- Der Tonquellenpositions-Schätzabschnitt 13 umfaßt eine Verzögerungsschaltung 31, eine Schätzschaltung 32, eine Subtrahierschaltung 33 und eine Tonquellenpositions- Schätzschaltung 34, wie in Fig. 3 gezeigt ist. Die Verzögerungschaltung 31 verzögert das Linkskanal- Audioeingangssignal von dem linken Mikrophon 11L. Die Schätzschaltung 32 schätzt ein Linkskanal-Audiosignal auf der Basis des verzögerten Linkskanal-Audioeingangssignal von der Verzögerungsschaltung 31 und des Rechtskanal-Audiosignals von dem rechten Mikrophon 11R. Die Subtrahierschaltung 33 empfängt das verzögerte Linkskanal-Audiosignal von der Verzögerungsschaltung 31 und das geschätzte Linkskanal- Audiosignal von der Schätzschaltung 32 und subtrahiert das geschätzte Linkskanal-Audiosignal von dem Linkskanal- Audiosignal, um das Differenzsignal zu erzeugen. Wenn das Differenzsignal an die Schätzschaltung 32 zurückgeführt wird, schätzt die Schätzschaltung 32 ein solches Linkskanal- Audiosignal so, daß das Differenzsignal Null werden kann, und gibt das geschätzte Audiosignal aus. Dies ermöglicht der Schätzschaltung 32 ein Linkskanal-Audiosignal als eine geschätzte Impulsantwortreihe H(k) auf der Basis des Rechtskanal-Audiosignals von dem rechten Mikrophon 11R unter Bezugnahme auf das verzögerte Linkskanal-Audioeingangssignal zu schätzen. Unter Verwendung der an der Schätzschaltung 32 erhaltenen geschätzten Impulsantwortreihe H(k) schätzt die Tonquellenpositions-Schätzschaltung 34 die Position der Tonquelle.
- Mit der obigen Konfiguration nimmt die Fernsehkamera 12 die Personen auf, die bei der Konferenz anwesend sind, und gleichzeitig werden durch die Mikrophone 11R und 11L auf dem Tisch 9 vokale Töne eingesammelt. Das Videosignal von der Fernsehkamera 12 wird an den Bildcodierabschnitt 15 gesendet, und die Audiosignale von den Mikrophonen 11R und 11L werden an den Tonquellenpositions-Schätzabschnitt 13 gesendet. Der Tonquellenpositions-Schätzabschnitt 13 schätzt die Position der Tonquelle auf der Basis der Audiosignale. Das Schätzergebnis wird in dem Tonquellenpositionsinformations- Speicherabschnitt 14 gespeichert.
- Unter Verwendung der neuesten Tonquellenpositionsinformation, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert sind, spezifiziert der Bildcodierabschnitt 15 den Bereich, der der Tonquellenposition in dem Videobild auf dem Bildschirm entspricht, codiert den Bereich mit der voreingestellten codierten Bitrate M(i) und die anderen Bereiche mit der codierten Bitrate M(0) und überträgt das codierte Signal. Dies ermöglicht es, den Sprecher unter den Personen, die bei der Konferenz anwesend sind, mit einer hohen Auflösung auf einem Monitor (nicht gezeigt) auf der Empfangsseite wiederzugeben.
- Im folgenden wird ausführlicher erläutert, wie der Sprecher spezifiziert wird.
- Wenn in Fig. 3 der durch den Sprecher A1 hervorgebrachte vokale Ton X(ω) ist, wird der vokale Ton X(ω) durch die Mikrophone 11R und 11L eingesammelt. Wenn der vokale Ton X(ω) hervorgebracht wird, und das Eingangs-Audiosignal an das rechte Mikrophon 11R YR(ω) und das Eingangs-Audiosignal an das linke Mikrophon 11L YL0(ω) ist, werden diese Eingangs-Audiosignale YR(ω) und YL0(ω) unter Verwendung von Übertragungsfunktionen FR(ω) und GL(ω), die durch die Tonfortpflanzungsverzögerung zwischen der Tonquelle und den Mikrophonen und den Tonmerkmalen in dem Raum bestimmt sind, wie folgt ausgedrückt:
- YR(ω) = FR(ω)X(ω) (1)
- YLO(ω) = GL(ω)X(ω) (2)
- Ferner erfährt das Linkskanaleingangs-Audiosignal YLO(ω) eine flache Verzögerung C(ω) in der Verzögerungsschaltung 31, die das Kausalgesetz an der Schätzschaltung 32 garantiert. Dadurch ist es möglich, das Linkskanaleingangs- Audiosignal YL0(ω) durch YL(ω) unter Verwendung einer Übertragungsfunktion FL(ω) einschließlich der Verzögerungsschaltung 31 wie folgt auszudrücken:
- YL(ω) = C(ω)GL(ω)X(ω) (3)
- = FL(ω)X(ω)
- Dieses Linkskanaleingangs-Audiosignal YL(ω) wird in die Subtrahierschaltung 33 eingegeben. Auf der Basis der folgenden Gleichung (4) schätzt die Schätzschaltung 32 eine Übertragungsfunktion G(ω), um das Linkskanal-Audiosignal YL(ω) aus dem Rechtskanal-Audiosignal YR(ω) unter Verwendung des Rechtskanal-Audiosignals YR(ω) und des Linkskanal- Audiosignals YL(ω) zu erhalten, und erzeugt dann eine geschätzte Übertragungsfunktion GP(ω) aus der Übertragungsfunktion G(ω):
- G(ω) = GL(ω)/FR(ω) (4)
- Im einzelnen wird die geschätzte Übertragungsfunktion Gp(ω) für die Übertragungsfunktion G(ω) wie folgt erzeugt.
- Unter Verwendung des Rechtskanal-Audiosignals YR(ω) berechnet die Schätzschaltung 32 ein geschätztes Linkskanal- Audiosignal yp(ω) für Zeitbereiche. Die Schätzschaltung 32 umfaßt ein adaptives Transversalfilter 32a zum Berechnen eines geschätzten Linkskanal-Audiosignals yp(ω) für Zeitbereiche, wie sie in Fig. 4A gezeigt sind, und eine Korrekturschaltung 32b zum fortwährenden Aktualisieren einer geschätzten Impulsantwortreihe Hp(ω) für die Übertragungsfunktion G(ω), wie sie in Fig. 4B gezeigt ist. Das adaptive Transversalfilter 32a und die Korrekturschaltung 32b arbeiten synchron mit einem Systemtakt, der von einem Taktgenerator (nicht gezeigt) geliefert wird. Das adaptive Transversalfilter 32a umfaßt: n-Abgriff-Schieberegister 411 bis 41n-1 zum fortwährenden Senden des Eingangs-Audiosignals YR(ω) und zum Umwandeln der Rechtskanal-Audiosignale x(k) bis x(k-n+1) in die Werte für die einzelnen Zeitkomponenten; Vervielfacher 421 bis 42n zum komponentenweisen Vervielfachen der geschätzten Impulsantworten hp1(k) bis hpn(k) für die einzelnen Zeitkomponenten, die an der Korrekturschaltung 32b durch die Rechtskanal-Audiosignale x(k) bis x(k-n-1), die mittels der Schieberegister 441 bis 44n-1 erhalten werden, korrigiert wurden; und einen Addierer 43 zum Finden der Summe (Σ) der Vervielfachungsergebnisse und zum Erhalten eines geschätzten Linkskanal- Audioeingangssignals yp(k).
- Insbesondere führt die Korrekturschaltung 32b eine Operation unter Verwendung von Gleichung (10) (später erläutert) durch, um geschätzte Impulsantwortreihen hp1(k) bis hpn(k) zu erhalten, teilt diese durch die Zeitkomponente und gibt sie an die entsprechenden Vervielfacher 42&sub1; bis 42n in dem adaptiven Transversalfilter 32a weiter. Die Vervielfacher 42&sub1; bis 42n multiplizieren komponentenweise geschätzte Impulsantwortreihen hp1(k) bis hpn(k) durch die Rechtskanal- Audiosignale x(k) bis x(k-n+1), die mittels Schieberegistern 41&sub1; bis 41n-1 erhalten werden, und erhalten dadurch geschätzte Linkskanal-Audiosignale pro Zeitkomponente. Der Addierer 43 addiert diese geschätzten Linkskanal-Audiosignale für die einzelnen Zeitkomponenten und erhält ein geschätztes Linkskanal-Audiosignal yp(k).
- In einer solchen Schätzschaltung 32 wird das Rechtskanal- Audiosignal x(k) in n-Stufen der Schieberegister 411 bis 41n-1 eingegeben, die eine Verzögerung von einer Abtastzeit pro Stufe (one sample time per stage) aufweisen, wodurch ein durch Gleichung (5) ausgedrückter Zeitreihenvektor erzeugt wird:
- X(k) = (x(k), x(k-1), ..., x(k-n+1)T (5)
- wobei ( )T einen transponierten Vektor angibt.
- Andererseits wird eine geschätzte Impulsantwortreihe Hp(k), die der geschätzten Übertragungsfunktion Gp(ω) in Zeitbereichen angenähert ist, durch Gleichung (6) ausgedrückt:
- Hp(k) = (hp1(k), hp2(k), ..., hpn(k))T (6)
- Ein geschätztes Linkskanal-Audiosignal yp(k) oder ein geschätzter Wert des Linkskanal-Audiosignals y(k) kann unter Verwendung der folgenden Gleichung (7) erhalten werden:
- Yp(k) = HP (k) T · X (k)
- Wenn die Impulsantwortreihe H für die Übertragungsfunktion G(ω) hier durch die Gleichung (8) ausgedrückt wird (wobei n eine ganze Zahl ist) bedeutet dies, daß die Übertragungsfunktion zufriedenstellend geschätzt wird.
- H = (h&sub1;, h&sub2;, ...., hn)T (8)
- Wenn die geschätzte Impulsantwortreihe Hp(k)
- HP(k) = H (9)
- wird, nähert sich daher das geschätzte Linkskanal-Audiosignal yp(k) das tatsächliche Linkskanal-Audiosignal y(k) sehr. Demgemäß muß nur eine derartige geschätzte Übertragungsfunktion Gp(ω), die zu einer Übertragungsfunktion G(ω) paßt, die die durch Gleichung (9) ausgedrückte Beziehung liefert, gefunden werden. Dies bedeutet, daß eine solche geschätzte Impulsantwortreihe Hp(k), die es ermöglicht, daß die geschätzte Übertragungsfunktion Gp(ω) eine Übertragungsfunktion G(ω) wird, nur geschätzt werden muß.
- Die Schätzung der geschätzten Impulsantwortreihe Hp(k) in der Schätzschaltung 32 wird so ausgeführt, daß in dem adaptiven Transversalfilter 32a die Korrekturschaltung 32b beispielsweise die folgende Operation unter Verwendung der Zeitreihenvektoren x(k) bis x(k-n+1), die als Eingaben und Ausgaben der n-Stufen von Schieberegistern 411 bis 41n-1 erhalten wurden, fortwährend durchführt.
- Hp(k+1) = Hp(k) + α·e(k) X(k)/ X(k) ²
- wobei Hp(0) = 0.
- Dieser Algorithmus ist ein bekanntes Lern- Identifizierungsverfahren (learning identification method). In Gleichung (10) wird, wenn e(k) die Ausgabe der Subtrahierschaltung 33 von Fig. 3 und das geschätzte Linkskanal-Audiosignal yp(k) ist, die Ausgabe e(k) die durch die Gleichung (11) ausgedrückte Beziehung aufweisen:
- e (k) = y (k) - yp (k) (11)
- Dies bedeutet, daß die Ausgabe e(k) der Subtrahierschaltung 33 das Differenzsignal zwischen dem Linkskanal-Audiosignal y(k) und dem geschätzten Linkskanal-Audiosignal yp(k) ist. In Gleichung (10) ist α ein Koeffizient, der die Konvergenzgeschwindigkeit und die Stabilität von Gleichung (10) bestimmt und die Differenz in dem Abstand zwischen den linken und rechten Mikrophonen 11L und 11R angibt.
- Somit wird in dem Bildschätz-Codierabschnitt 10 die Position der linken und rechten Mikrophone 11L und 11R aus den in dem Bildspeicher 16 gespeicherten Bilddaten herausgefunden, und die Differenz im Abstand α wird dann bestimmt. Unter Verwendung dieser Abstandsciifferenz und der Ausgabe e(k) der Subtrahierschaltung 33 führt die Korrekturschaltung 32b eine Operation gemäß Gleichung (10) durch und schätzt dadurch eine geschätzte Impulsantwortreihe Hp(k).
- Basierend auf der geschätzten Impulsantwortreihe Hp(k), die durch die obige Verarbeitung erhalten wurde, schätzt die Tonquellenschätzschaltung 34 die Position der Tonquelle. Diese Schätzung wird wie folgt durchgeführt.
- Es sei angenommen, daß das Glied, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k), Mx ist. Wenn dabei die Abtastperiode T (sec), die Schallgeschwindigkeit v (m/sec) und die Anzahl der Abgriffe n ist, kann die Differenz im Abstand a zwischen der Tonquelle und jeder der linken und rechten Mikrophone 11L und 11R unter Verwendung der folgenden Gleichung (12) geschätzt werden:
- α = v·T (Mx - N/2) (12)
- Wie in Fig. 5 gezeigt ist, werden dabei die linken und rechten Mikrophone 11L und 11R mit einer Geraden 52 miteinander verbunden, und es wird eine Gerade 53 parallel zu der Linie 52 angenommen. Dabei wird davon ausgegangen, daß die Tonquelle 51 mit einem spezifischen Abstand von den linken und rechten Mikrophonen 11L und 11R auf der Linie 53 positioniert ist. Falls der Abstand von dem Schnittpunkt einer Linie 54, die senkrecht durch den Halbierungspunkt Po zwischen den linken und rechten Mikrophonen 11L und 11R auf der Linie 52 zu der Tonquelle 51 verläuft, "a" ist, der lineare Abstand von dem rechten Mikrophon 11R zu der Tonquelle 51 "b" ist, die Länge einer senkrechten Linie zwischen der Linie 53, die durch die Tonquelle 51 verläuft und der Linie 52, die durch die Mikrophone 11L und 11R verläuft, "c" ist, und der Abstand zwischen den Mikrophonen 11L und 11R 2d ist, gelten die folgenden simultanen Gleichungen.
- (b + a)² - (d + a)² + c²
- b² = (d - a)² + c² (13)
- Durch Eliminieren von b aus den simultanen Gleichungen und Auflösen nach "a" kann die Position der Tonquelle Pa geschätzt werden.
- Wenn Daten über die so geschätzte Tonquellenposition Pa in den Bildcodierabschnitt 15 über den Tonquellenpositionsinformations-Speicherabschnitt 14 eingegeben werden, wird ein an der Tonquelle zentrierter Bildbereich als der wichtige Codierbereich bestimmt, und die diesem Bereich entsprechenden Bilddaten werden mit einer größeren Codemenge als die Bilddaten für die anderen Bereiche codiert. Diese Codierung wird ausführlich erläutert.
- Der Bildspeicher 16 speichert einen Frame von Bilddaten, der beispielsweise in 44 · 36 Blöcke aufgeteilt ist, wobei jeder Block aus 8 Pixel · 8 Zeilen besteht, wie in Fig. 6 gezeigt ist. Die in dem Bildspeicher 16 gespeicherten Bilddaten werden an den Bildcodierabschnitt 15 in aufeinanderfolgenden Blöcken gesendet. Der Bildcodierabschnitt 15 umfaßt eine orthogonale Transformations(DCT)-Schaltung 71, die mit einem Ausleseterminal des Bildspeichers 16 verbunden ist, eine mit dem Ausgangsterminal der DCT-Schaltung 71 verbundenen Quantisierungsschaltung 72, eine mit dem Ausgangsterminal der Quantisierungsschaltung 72 verbundenen Codierschaltung für veränderliche Längen (variable length coding circuit) 73 und einer mit dem Steuerterminal der Quantisierungsschaltung 72 verbundenen Quantisierungs-Schrittgrößen-Entscheidungs- Schaltung (quantization step size deciding circuit) 74. Die Bildcodierschaltung 15 umfaßt ferner eine Markierungs- Erkennungs-Schaltung 75 und eine Schaltung zum Entscheiden des wichtigen Codierbereichs 76. Die Markierungs-Erkennungs- Schaltung 75 erkennt zwei Markierungen 61a und 61b, die so plaziert sind, daß sie den linken und rechten Mikrophonen 11L und 11R auf der Basis der aus dem Bildspeicher 16 gelesenen Bilddaten entsprechen, und bestimmt den Abstand 2d' zwischen den Mikrophonen 11L und 11R auf dem Bildschirm. Die Markierungen werden durch die Bedienungsperson in die Vorrichtung eingegeben, wenn die Mikrophone in dem Konferenzzimmer angeordnet sind.
- Wenn Information über den bestimmten Abstand 2d' in die Schaltung zum Entscheiden des wichtigen Codierbereichs 76 eingegeben wird, erhält die Schaltung 76 den Abstand "a'" aus dem Halbierungspunkt des Abstands 2d' zu der Position des Speichers 62 auf der Basis der Abstands(2d')-Information und der aus dem Tonquellenpositionsinformations-Speicherabschnitt 14a gelesenen Positionsinformation unter Verwendung der folgenden Gleichung 14:
- a' - ad'/d (14)
- Überdies bestimmt die Schaltung zum Entscheiden des wichtigen Codierbereichs 76 einen Bereich 73 mit einer voreingestellten Breite von 2w', die an der Position des Sprechers 62 zentriert ist, als den wichtigen Codierbereich. Wenn Information über den wichtigen Codierbereich in die Quantisierungs-Schrittgrößen-Entscheidungs-Schaltung 74 eingegeben wird, bestimmt die Schrittgrößen- Entscheidungsschaltung 74 eine Schrittgröße zum Codieren der Bilddaten zu dem wichtigen Codierbereich mit einer höheren codierten Bitrate als die Bilddaten zu den anderen Bereichen. Wenn Information über die bestimmte Schrittgröße in die Quantisierungsschaltung 72 eingegeben wird, quantisiert die Quantisierungsschaltung 72 die aus dem Bildspeicher 16 gelesenen Bilddaten und unterzieht sie einer orthogonalen Transformation an der DCT-Schaltung 71 in der bestimmten Schrittgröße oder mit der bestimmten codierten Bitrate. In diesem Fall wird eine Quantisierung in der Schrittgröße ausgeführt, die zum Zeitpunkt, zu dem die dem wichtigen Codierbereich 63 entsprechenden Bilddaten in die Quantisierungsschaltung 72 eingegeben werden, bestimmt wird, wohingegen die Bilddaten über die anderen Bereiche mit einer gröberen Schrittgröße als die Bilddaten zum den Bereich 63 quantisiert werden. Die quantisierten Bilddaten werden einer veränderlichen Längencodierung in der Codierschaltung für veränderliche Längen 73 unterzogen, die die codierten Bilddaten ausgibt.
- Wenn die so codierten Bilddaten an die Empfangsseite gesendet werden und auf einem Empfangsmonitor angezeigt werden, wird das Bild des Sprechers mit einer höheren Auflösung als die anderen Bilder angezeigt.
- Obwohl es bei der obigen Ausführungsform erläutert wurde, daß nur Informationen über die Tonquelle in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert wird, kann auch Zeitinformation wie folgt gespeichert werden.
- Im einzelnen veranlaßt der Tonquellenpositions- Schätzabschnitt 13, daß die Tonquellenpositions- Schätzschaltung 34 die Tonquellenposition Pa auf der Basis des Glieds schätzt, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k) ist. Die Information über die Tonquellenposition Pa, die an dem Tonquellenpositions-Schätzabschnitt 13 geschätzt wurde, und über die Zeit, mit der die Schätzung ausgeführt wurde, werden in dem Tonquellenpositionsinformations-Speicherabschnitt 14 unter der Steuerung einer Steuereinheit (nicht gezeigt) gespeichert. Zu dieser Zeit steuert, wenn die Tonquellenposition Pa(t) vor einer Zeit t innerhalb einer spezifischen Breite w von der letzten Tonquellenposition Pa zur rechten und linken liegt, die Steuereinheit den Tonquellenpositionsinformations-Speicherabschnitt 14 so, daß die gespeicherte Information über die vorherige Tonquellenposition Pa(t) aus dem Speicherabschnitt 14 gelöscht werden kann. Dies ermöglicht es dem Speicherabschnitt 14, die Position des aktuellen Sprechers und die letzte Position jeder der Personen (N Personen), die in der Vergangenheit gesprochen haben, wie folgt zu speichern:
- T(1), L(1)
- T(2), L(2)
- " "
- " "
- " "
- T(N), L(N)
- vorausgesetzt, daß T(1) < T(2) < ... < T(N) (15)
- wobei T(i) die Zeit ist, die verstrichen ist, seitdem der Sprecher i zuletzt einen vokalen Ton hervorgebracht hat, L(i) die Daten sind, die die Position angibt, an der der Sprecher i zuletzt einen vokalen Ton hervorgebracht hat, T(1) die Zeit ist, zu der die obige Operation durch ein Abtasten des vokalen Tons des gegenwärtigen Sprechers durchgeführt wurde und L(1) die Daten sind, die die Position angibt, an der aktuelle Sprecher einen vokalen Ton hervorgebracht hat.
- Der Bildcodierabschnitt 15 codiert ein Bild nach obiger Beschreibung auf der Basis der Informationen über die Position L(1) des letzten Sprechers, die in dem Tonquellenpositionsinformations-Speicherabschnitt 14 gespeichert ist.
- Es sei angenommen, daß die codierte Bitrate für den gesamten Bildschirm M, die Breite des gesamten Bildschirms WL, die Bedeutung des wichtigen Codierbereichs für den Sprecher i R(i) und die Bedeutung der von dem wichtigen Codierbereich verschiedenen Bereiche R(0) ist. Zu dieser Zeit kann die Bedeutung R(i) und R(0) frei festgelegt werden. Falls einer Person eine größere Bedeutung gegeben wird, die noch neueren Datums gesprochen hat, kann eine Einstellung wie folgt ausgeführt werden:
- R(1) > R(2) > ... > R(N) > R(0) (16)
- Zu dieser Zeit wird eine Bedeutung so zugeordnet, daß eine codierte Bitrate M(i) für den wichtigen Codierbereich für den letzten Sprecher (den Bildbereich für den letzten Sprecher) und eine codierte Bitrate M(0) für die von dem bedeutenden Codierbereich verschiedenen Bereiche wie folgt ausgedrückt werden kann:
- M(i) = Mw' R(i)/RT
- M(0) = M(WL - N·w')R(O)/RT
- wobei RT als
- RT = w' (R(1) + R(2) +... + R(N)) + (W L - Nw')R(O) (17)
- ausgedrückt wird.
- Durch Zuordnen einer etwas höheren codierten Bitrate M(i) zu dem wichtigen Codierbereich für Sprecher i und der restlichen codierten Bitrate M(0) zu den anderen Bereichen und Durchführen einer Codieroperation innerhalb der zugeordneten Bereiche, kann die Codierung so durchgeführt werden, daß ein Bereich, der an der Position des Sprechers zentriert ist, klarer angezeigt werden kann. Obgleich die gesamte codierte Bitrate pro Bildschirm sich nicht von derjenigen in einer herkömmlichen, gleichwertigen Bitrate unterscheidet, kann demgemäß eine subjektive Bildqualität des gesamten Bildschirms verbessert werden.
- Wie oben beschrieben, wird die Position der Tonquelle auf der Basis der Kanalaudiosignale, die durch Mikrophone eingesammelt werden, die in unterschiedlichen Positionen angeordnet sind, und der Mikrophonposition auf dem Bildschirm einschließlich des Mikrophons und des Sprechers geschätzt. Dies ermöglicht es, daß der Bildbereich des Sprechers auf dem Bildschirm genau extrahiert werden kann. Darüberhinaus wird es durch Zuordnen einer größeren codierten Bitrate zu dem Bildbereich des Speichers möglich, daß das Bewegtbild- Codiersystem den Bildbereich des Sprechers klar anzeigt.
- Die vorliegende Erfindung ist nicht auf die obige Ausführungsform beschränkt, sondern kann auf noch andere Weisen praktiziert oder ausgeführt werden, ohne daß von dem wesentlichen Charakter derselben abgewichen wird.
- Während bei der obigen Ausführungsform das adaptive Transversalfilter für Zeitbereiche in der Schätzschaltung 32 des Tonquellenpositions-Schätzabschnitts 13 verwendet wird, kann beispielsweise anstelle dessen eine weitere Schaltungskonfiguration, wie z. B. ein adaptives Transversalfilter für Frequenzbereiche verwendet werden. Obgleich der Schätzalgorithmus unter Verwendung eines Lern- Identifizierungsverfahrens beispielhaft erläutert wurde, kann ein weiterer Lernalgorithmus, wie beispielsweise ein Verfahren des steilsten Abfalls (steepest descent method), verwendet werden.
- Obgleich bei der Tonquellenschätzschaltung 34 die Position der Tonquellen auf der Basis des Glieds geschätzt wird, dessen Koeffizient der größte der Koeffizienten der geschätzten Impulsantwortreihe Hp(k) ist, kann auch ein anderes Verfahren verwendet werden.
- Das Verfahren eines Bestimmens des wichtigen Codierbereichs in dem Bildcodierabschnitt 15 ist nicht auf das oben beschriebene Verfahren beschränkt. Beispielsweise kann ein weiteres Verfahren, wie beispielsweise ein Erfassen des Gesichtsbereichs in dem wichtigen Codierbereich 63 verwendet werden. Eine Festlegung des Grades der Bedeutung bzw. Wichtigkeit in dem Bildcodierabschnitt 15 kann durch andere Verfahren, wie beispielsweise ein Festlegen des Wichtigkeitsgrades gemäß der Zeit, während der der Sprecher einen vokalen Ton bis zu dem gegenwärtigen Zeitpunkt hervorgebracht hat, oder ein Festlegen des Wichtigkeitsgrades unter Berücksichtigung sowohl der verstrichenen Zeit, seit der Sprecher zuletzt gesprochen hat, und der Zeit, während der der Sprecher einen vokalen Ton bis zu dem gegenwärtigen Zeitpunkt hervorgebracht hat, ausgeführt werden.
- Bei einem Fernsehkonferenzsystem bleiben die Objekte auf dem Bildschirm in der Position unverändert, es sei denn sie bewegen sich selber, da die Objekte fast stillsitzen und der Fernsehbildschirm hinsichtlich der Objekte unter den gleichen Blickwinkeln gehalten wird. Durch ein externes Festlegen des Wichtigkeitsgrades oder des wichtigen Codierbereichs in dem Bildcodierabschnitt 15, kann eine VIP immer sehr genau codiert werden. Da das Verhältnis zwischen dem Bildschirm und dem Objekt unverändert bleibt, ist es leicht, den Gesichtsbereich des Sprechers und nicht den Bildbereich des Sprechers zu spezifizieren. Somit kann die Konfiguration derart sein, daß eine codierte Bitrate zugewiesen wird, um die Auflösung des spezifizierten Gesichtsbereichs zu erhöhen.
- Obgleich in der obigen Ausführungsform die Verfahrensweise eines Zuordnens einer höheren codierten Bitrate zu dem wichtigen Codierbereich 63 in jedem Frame und die Durchführung einer genauen Codierung für das Codierverfahren am Bildcodierabschnitt 15 erläutert wurde, kann eine genaue Codierung auch durchgeführt werden, indem die Teile, die von dem wichtigen Codierbereich 63 verschieden sind, in einen Zeitverlaufs-Zustand (time iapse state) gebracht werden, wobei dadurch dem wichtigen Codierbereich 63 eine höhere codierte Bitrate zugeordnet wird. Die Auflösung kann gemäß einer Gewichtung entsprechend der Reihenfolge, in der die Sprecher einen vokalen Ton hervorbrachten, so geändert werden, daß die höchste Auflösung dem letzten Sprecher und die niedrigste Auflösung dem ersten Sprecher in der chronologischen Reihenfolge der Sprecher gegeben wird.
- Obwohl bei der obigen Ausführungsform zwei Kanäle für Audioeingänge verwendet werden, können auch drei oder mehr Kanäle verwendet werden. In diesem Fall kann durch Anordnen der Mikrophone, um eine Höhendifferenz auszubilden, eine zweidimensionale Schätzung der Tonquelle vorgenommen werden. Durch diesen Ansatz kann ein einzelner Punkt auf dem Bildschirm als Tonquelle. geschätzt werden, wodurch es möglich ist, die Tonquellenposition mit einer viel größeren Genauigkeit zu schätzen.
- Gemäß der oben beschriebenem Erfindung ist es durch Schätzen der Position der Tonquelle auf der Basis einer Mehrzahl von Kanalaudiosignalen und einem hauptsächlichen Codieren der Nachbarschaft der Tonquellenposition möglich, ein Bewegtbild/Codiersystem vorzusehen, das ein Codieren so durchführt, daß der Sprecher klarer erscheinen kann.
Claims (13)
1. Eine Bewegtbild-Codiervorrichtung, mit folgenden
Merkmalen:
Bildaufnahmemittel zum Aufnehmen einer Mehrzahl von
Objekten mit mindestens einem Objekt, das als eine Tonquelle
spezifiziert ist, die einen vokalen Ton hervorbringt, und zum
Ausgeben eines Videosignals;
ein tonempfindliches Mittel mit rechtem und linkem
Kanal, das linke und rechte Mikrophone umfaßt, die von links
nach rechts bezüglich der Objekte angeordnet sind, und das
Ton von dem Objekt einsammelt, das von dem Bildaufnahmemittel
aufgenommen wurde, und Audiosignale für linke und rechte
Kanäle ausgibt;
ein Schätzmittel, das eine Verzögerungsschaltung zum
Verzögern eines Linkskanal-Audiosignals von dem linken
Mikrophon und eine Schätzschaltung zum Schätzen eines
Linkskanal-Audiosignals auf der Basis des verzögerten
Linkskanal-Audiosignals von der Verzögerungsschaltung und
eines Rechtskanal-Audiosignals von dem rechten Mikrophon
aufweist, und das die Position der Tonquelle auf der Basis
der Rechts- und Linkskanal-Audiosignale, die von dem
tonempfindlichen Mittel mit rechtem und linkem Kanal
ausgegeben werden, schätzt; und
Codiermittel zum Codieren des Videosignals entsprechend
einem spezifizierten Bereich einer Bildfläche bzw. eines
Bildbereiches, das an der Tonquellenposition zentriert ist,
die durch das Schätzmittel, mit einer höheren codierten
Bitrate als Videosignale, die anderen Bildbereichen
entsprechen, geschätzt wird.
2. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 1,
wobei das Schätzmittel eine Subtrahierschaltung zum Erhalten
eines Differenzsignals zwischen dem verzögerten Linkskanal-
Audiosignal von der Verzögerungsschaltung und dem geschätzten
Linkskanal-Audiosignal von der Schätzschaltung aufweist,
wobei die Schätzschaltung das Linkskanal-Audiosignal so
schätzt, daß es möglich wird, daß das Differenzsignal Null
wird, wenn das Differenzsignal zu der Schätzschaltung
zurückgeführt wird, und eine Tonquellenpositions-
Schätzschaltung, die die Position der Tonquelle unter
Verwendung einer geschätzten Impulsantwortreihe, die von den
Schätzschaltung ausgegeben wird, schätzt.
3. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 2,
wobei die Schätzschaltung ein adaptives Transversalfilter zum
Berechnen eines geschätzten Linkskanal-Audiosignals für
Zeitbereiche und eine Korrekturschaltung zum fortwährenden
Aktualisieren der geschätzten Impulsantwortreihe aufweist.
4. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 3,
wobei das adaptive Transversalfilter ein n-Abgriff-
Schieberegister zum aufeinanderfolgenden Verschieben des
Rechtskanal-Audiosignals und zum Umwandeln des Audiosignals
in einen Wert für jede Zeitkomponente, eine
Vervielfacherschaltung zum Vervielfachen der geschätzten
Impulsantwortreihe für jede Zeitkomponente, die durch die
Korrekturschaltung um den Wert des Rechtskanal-Audiosignals
für jede über das Schieberegister erhaltenen Zeitkomponente
korrigiert wurde, um eine Mehrzahl von
Multiplikationsergebnissen, die einer Mehrzahl von
Zeitkomponenten entsprechen, zu erhalten, und einen Addierer
zum Addieren der Multiplikationsergebnisse, um ein
geschätztes Linkskanal-Audioeingangssignal zu erhalten,
aufweist.
5. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 4,
wobei die Vervielfacherschaltung eine Mehrzahl von
Vervielfachern aufweist, und die Korrekturschaltung ein
Schaltungsmittel zum Erhalten einer geschätzten
Impulsantwortreihe, zum Dividieren der geschätzten
Impulsantwortreihe durch die Zeitkomponenten, um eine
Mehrzahl von geteilten Impulsantwortreihen zu erhalten, und
zum Liefern der geteilten Impulsantwortreihen an den
jeweiligen Vervielfacher des adaptiven Filters aufweist,
wobei die Vervielfacher des adaptiven Transversalfilters eine
geschätzte Impulsantwortreihe mit dem mittels des
Schieberegisters erhaltenen Rechtskanal-Audiosignals
komponentenweise multiplizieren, und ein geschätztes
Linkskanal-Audiosignal für jede Zeitkomponente ausgeben, und
der Addierer geschätzte Linkskanal-Audiosignale addiert, die
den Zeitkomponenten entsprechen, um ein geschätztes
Linkskanal-Audiosignal zu erzeugen.
6. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 1,
ferner mit folgenden Merkmalen:
Tonquellenpositions-Speichermittel zum Speichern der
Historie der Information an den gegenwärtigen und vergangenen
Positionen der durch die Schätzmittel geschätzten Tonquelle;
wobei das Codiermittel das Videosignal mit einer
codierten Bitrate entsprechend der Position auf der Basis der
Historie gegenwärtiger Tonquellenpositionsinformation und
vergangener Tonquellenpositionsinformation, die in dem
Tonquellenpositions-Speichermittel gespeichert sind, codiert.
7. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6,
wobei das Codiermittel mindestens eine der
Tonquellenpositionsinformation, die in dem
Tonguellenpositions-Speichermittel gespeichert ist, und seine
Nachbarschaft als Bereich mit hoher Bildqualität
spezifiziert, jedes Bildqualitätsniveau einstellt, eine
codierte Bitrate zuweist, so daß der Bereich gemäß dem
Bildqualitätsniveau eine höhere Bildqualität als andere
Bereiche aufweisen kann, und das Videosignal codiert.
8. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6,
wobei das Codiermittel einen Bereich mit hoher Bildqualität
und Bildqualitätsniveaus gemäß der
Tonquellenpositionsinformation spezifiziert, und das
Videosignal durch Zuweisen einer codierten Bitrate, so daß
der Bereich eine höhere Bildqualität als andere Bereiche
aufweisen kann, codiert.
9. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 8,
wobei das Codiermittel die Bildqualitätsniveaus entsprechend
dem Umstand, wie oft die Tonquellenposition erscheint,
einstellt.
10. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 6,
wobei das Schätzmittel eine Subtrahierschaltung zum Erhalten
eines Differenzsignals zwischen dem verzögerten Linkskanal-
Audiosignal von der Verzögerungsschaltung und dem geschätzten
Linkskanal-Audiosignal von der Schätzschaltung aufweist,
wobei die Schätzschaltung ein derartiges Linkskanal-
Audiosignal so schätzt, daß es möglich wird, daß das
Differenzsignal Null wird, wenn das Differenzsignal zu der
Schätzschaltung zurückgeführt wird, und eine
Tonquellenpositions-Schätzschaltung, die die Position der
Tonquelle unter Verwendung einer geschätzten
Impulsantwortreihe, die von den Schätzschaltung ausgegeben
wird, schätzt.
11. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 10,
wobei die Schätzschaltung ein adaptives Transversalfilter zum
Berechnen eines geschätzten Linkskanal-Audiosignals für
Zeitbereiche und eine Korrekturschaltung zum fortwährenden
Aktualisieren der geschätzten Impulsantwortreihe aufweist.
12. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 11,
wobei das adaptive Transversalfilter ein n-Abgriff-
Schieberegister zum aufeinanderfolgenden Verschieben des
Rechtskanal-Audiosignals und zum Umwandeln des Audiosignals
in einen Wert für jede Zeitkomponente, eine
Vervielfacherschaltung zum Vervielfachen der geschätzten
Impulsantwortreihe für jede Zeitkomponente, die durch die
Korrekturschaltung um den Wert des Rechtskanal-Audiosignals
für jede über das Schieberegister erhaltenen Zeitkomponente
korrigiert wurde, um eine Mehrzahl von
Multiplikationsergebnissen, die einer Mehrzahl von
Zeitkomponenten entsprechen, zu erhalten, und einen Addierer
zum Addieren der Multiplikationsergebnisse, um ein
geschätztes Linkskanal-Audioeingangssignal zu erhalten,
aufweist.
13. Eine Bewegtbild-Codiervorrichtung gemäß Anspruch 12,
wobei die Vervielfacherschaltung eine Mehrzahl von
Vervielfachern aufweist, und die Korrekturschaltung ein
Schaltungsmittel zum Erhalten einer geschätzten
Impulsantwortreihe, zum Dividieren der geschätzten
Impulsantwortreihe durch die Zeitkomponenten, und zum Liefern
der geteilten Impulsantwortreihen an den jeweiligen
Vervielfacher des adaptiven Filters aufweist, wobei die
Vervielfacher des adaptiven Transversalfilters eine
geschätzte Impulsantwortreihe mit dem mittels des
Schieberegisters erhaltenen Rechtskanal-Audiosignals
komponentenweise multiplizieren und ein geschätztes
Linkskanal-Audiosignal für jede Zeitkomponente ausgeben, und
der Addierer geschätzte Linkskanal-Audiosignale addiert, die
den Zeitkomponenten entsprechen, um ein geschätztes
Linkskanal-Audiosignal zu erzeugen.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22857292 | 1992-08-27 | ||
| PCT/JP1993/001213 WO1994006246A1 (fr) | 1992-08-27 | 1993-08-27 | Codeur d'image animee |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69326751D1 DE69326751D1 (de) | 1999-11-18 |
| DE69326751T2 true DE69326751T2 (de) | 2000-05-11 |
Family
ID=16878468
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69326751T Expired - Fee Related DE69326751T2 (de) | 1992-08-27 | 1993-08-27 | Bewegtbildkodierer |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5594494A (de) |
| EP (1) | EP0615387B1 (de) |
| CA (1) | CA2122371C (de) |
| DE (1) | DE69326751T2 (de) |
| WO (1) | WO1994006246A1 (de) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3017384B2 (ja) | 1993-07-19 | 2000-03-06 | シャープ株式会社 | 特徴領域抽出装置 |
| US6313863B1 (en) * | 1994-07-29 | 2001-11-06 | Canon Kabushiki Kaisha | Image communication apparatus and system |
| FR2728753A1 (fr) * | 1994-12-21 | 1996-06-28 | Grenier Yves | Dispositif de prise de sons comprenant un systeme video pour le reglage de parametres et procede de reglage |
| US6496607B1 (en) * | 1998-06-26 | 2002-12-17 | Sarnoff Corporation | Method and apparatus for region-based allocation of processing resources and control of input image formation |
| JP4467802B2 (ja) * | 1998-11-11 | 2010-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 改善された信号定位装置 |
| US6269483B1 (en) * | 1998-12-17 | 2001-07-31 | International Business Machines Corp. | Method and apparatus for using audio level to make a multimedia conference dormant |
| KR100293456B1 (ko) | 1998-12-30 | 2001-07-12 | 김영환 | 오디오/비디오 신호의 코딩 장치 및 방법_ |
| US6288753B1 (en) * | 1999-07-07 | 2001-09-11 | Corrugated Services Corp. | System and method for live interactive distance learning |
| US20010017650A1 (en) * | 1999-12-23 | 2001-08-30 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for transmitting a video image |
| US6850265B1 (en) | 2000-04-13 | 2005-02-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications |
| US6605674B1 (en) * | 2000-06-29 | 2003-08-12 | Ondeo Nalco Company | Structurally-modified polymer flocculants |
| US7002617B1 (en) * | 2000-07-20 | 2006-02-21 | Robert Samuel Smith | Coordinated audio and visual omnidirectional recording |
| US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
| JP2004538724A (ja) | 2001-08-07 | 2004-12-24 | ポリコム・インコーポレイテッド | 高解像度のテレビ会議のシステム及び方法 |
| US20030220971A1 (en) * | 2002-05-23 | 2003-11-27 | International Business Machines Corporation | Method and apparatus for video conferencing with audio redirection within a 360 degree view |
| US20040001091A1 (en) * | 2002-05-23 | 2004-01-01 | International Business Machines Corporation | Method and apparatus for video conferencing system with 360 degree view |
| US7444068B2 (en) * | 2002-06-28 | 2008-10-28 | Hewlett-Packard Development Company, L.P. | System and method of manual indexing of image data |
| GB2414369B (en) * | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
| GB2415584B (en) * | 2004-06-26 | 2007-09-26 | Hewlett Packard Development Co | System and method of generating an audio signal |
| JP2006148861A (ja) * | 2004-10-21 | 2006-06-08 | Matsushita Electric Ind Co Ltd | 撮像信号処理装置及び方法 |
| FR2886800A1 (fr) * | 2005-06-03 | 2006-12-08 | France Telecom | Procede et dispositif de commande d'un deplacement d'une ligne de visee, systeme de visioconference, terminal et programme pour la mise en oeuvre du procede |
| FR2886799A1 (fr) * | 2005-06-03 | 2006-12-08 | France Telecom | Procede et dispositif de commande d'un deplacement d'une ligne de visee, systeme de visioconference, terminal et programme pour la mise en oeuvre du procede |
| JP2009143454A (ja) * | 2007-12-14 | 2009-07-02 | Fujitsu Ten Ltd | 車両制御装置及び車両状態監視方法 |
| US8697990B2 (en) | 2012-07-12 | 2014-04-15 | Wirepath Home Systems, Llc | Power products with selectable mounting and related assemblies and kits |
| JP2014143678A (ja) * | 2012-12-27 | 2014-08-07 | Panasonic Corp | 音声処理システム及び音声処理方法 |
| KR20140127508A (ko) * | 2013-04-25 | 2014-11-04 | 삼성전자주식회사 | 음성처리장치 및 음성처리방법 |
| US20190082255A1 (en) * | 2017-09-08 | 2019-03-14 | Olympus Corporation | Information acquiring apparatus, information acquiring method, and computer readable recording medium |
| CN108769874B (zh) * | 2018-06-13 | 2020-10-20 | 广州国音科技有限公司 | 一种实时分离音频的方法和装置 |
| CN110719430A (zh) * | 2018-07-13 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 图像数据生成方法、装置、电子设备及存储介质 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53103353A (en) * | 1977-02-21 | 1978-09-08 | Mitsubishi Electric Corp | Automatic equalizing system |
| US4494144A (en) * | 1982-06-28 | 1985-01-15 | At&T Bell Laboratories | Reduced bandwidth video transmission |
| JPS5983496A (ja) * | 1982-11-05 | 1984-05-14 | Hitachi Ltd | マイクロホン装置 |
| JPS6129163A (ja) * | 1984-07-19 | 1986-02-10 | Toshiba Corp | Icモジユ−ルユニツト |
| JPS6243285A (ja) * | 1985-08-21 | 1987-02-25 | Hitachi Ltd | テレビ会議発言者確認方式 |
| JPS6364120A (ja) * | 1986-09-04 | 1988-03-22 | Mitsubishi Electric Corp | 端末装置のプリンタ制御方式 |
| JP2965301B2 (ja) * | 1989-09-08 | 1999-10-18 | アイシン精機株式会社 | 集音装置 |
| US5206721A (en) * | 1990-03-08 | 1993-04-27 | Fujitsu Limited | Television conference system |
-
1993
- 1993-08-27 DE DE69326751T patent/DE69326751T2/de not_active Expired - Fee Related
- 1993-08-27 EP EP93919585A patent/EP0615387B1/de not_active Expired - Lifetime
- 1993-08-27 US US08/211,724 patent/US5594494A/en not_active Expired - Fee Related
- 1993-08-27 CA CA002122371A patent/CA2122371C/en not_active Expired - Fee Related
- 1993-08-27 WO PCT/JP1993/001213 patent/WO1994006246A1/ja not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| EP0615387B1 (de) | 1999-10-13 |
| EP0615387A1 (de) | 1994-09-14 |
| DE69326751D1 (de) | 1999-11-18 |
| CA2122371A1 (en) | 1994-03-17 |
| CA2122371C (en) | 1998-03-03 |
| US5594494A (en) | 1997-01-14 |
| WO1994006246A1 (fr) | 1994-03-17 |
| EP0615387A4 (de) | 1994-07-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69326751T2 (de) | Bewegtbildkodierer | |
| DE69307673T2 (de) | Halbautomatisches System zur Wiederherstellung der Lippensynchronisation | |
| DE69032177T2 (de) | Kodierungsgerät | |
| EP0259562B1 (de) | Verfahren zur bewegungskompensierten Bild-zu-Bild-Prädiktionscodierung | |
| DE69608185T2 (de) | System zur simultanen übertragung mehrerer videoprogramme über einen übertragungskanal | |
| DE69908463T2 (de) | Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos | |
| DE2760325C2 (de) | ||
| DE3751416T2 (de) | Bildcodiersystem zum Ueberwachen einer Informationsmenge durch Bildung eines Histogramms. | |
| DE69323156T2 (de) | Bilddatenkomprimierungs/Dekomprimierungssystem | |
| DE69131259T2 (de) | Bildkodierungsmethode und -gerät | |
| DE3686848T2 (de) | Bildverbesserungsschaltung. | |
| DE3322413A1 (de) | Videouebertragung mit verringerter bandbreite | |
| DE3447472A1 (de) | Bilderzeugungsgeraet | |
| DE69309732T2 (de) | Verfahren und Vorrichtung ein Bild zu komprimieren und zu dekomprimieren | |
| DE69731872T2 (de) | Vorrichtung und verfahren zur bildinformationsumwandlung | |
| EP0468279A2 (de) | Verfahren zum Bestimmen von Bewegungsvektoren für Teilbildbereiche einer Quellbildsequenz | |
| DE69227879T2 (de) | Stehbildübertragungssystem | |
| DE69326586T2 (de) | Einrichtung und Verfahren zur Bildkommunikation | |
| DE19536691B4 (de) | Verfahren und Anordnung zur Korrektur von Bildstandsfehlern bei der fernsehmäßigen Filmabtastung | |
| DE68916480T2 (de) | Fernsehübertragungssystem mit hybrider Kodierschaltung. | |
| EP0344579A1 (de) | Anordung zur Reduzierung von Rauschen und Farbübersprechen bei Fernsehsignalen | |
| DE3688579T2 (de) | Vorrichtung und verfahren zum verarbeiten von frueher verarbeiteten videosignalen. | |
| EP0525900B1 (de) | Filterschaltung zur Vorverarbeitung eines Videosignals | |
| DE69826878T2 (de) | Wiederkodierung von dekodierten signalen | |
| DE60031559T2 (de) | Verfahren und gerät zur lernfähigen klassenauswahl nach mehreren klassifikationen |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |