DE69732089T2

DE69732089T2 - Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür

Info

Publication number: DE69732089T2
Application number: DE69732089T
Authority: DE
Inventors: Akihito Yokohama-shi AKUTSU; Yoshinobu Yokohama-shi TONOMURA; Hiroshi Yokohama-shi HAMADA
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-10-04
Filing date: 1997-10-02
Publication date: 2005-12-08
Anticipated expiration: 2017-10-03
Also published as: NO323034B1; NO982517L; DE69732089D1; US6411339B1; NO982517D0; EP0866606B1; EP0866606A4; WO1998015117A1; EP0866606A1

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft eine Technologie zum Erzeugen neuer Videos durch Integrieren einer Vielzahl von Videos, und insbesondere eine Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos und ein System zum Verkörpern desselben und ein Aufzeichnungsmedium zum Aufzeichnen eines Programms zum Ausführen des Verfahrens.
Stand der Technik
Mit dem Fortschreiten hoher Leistungsfähigkeit von Computern, einer großen Kapazität der Festplatte, einer Reduktion bezüglich der Größe und einer Digitalisierung des Camcorders und niedrigeren Kosten von ihnen ist eine Verbreitung von diesen Vorrichtungen in allgemeine Familien beschleunigt worden. Gemäß einer solchen Verbreitung des Computers hoher Leistungsfähigkeit und der Massenspeicher-Festplatte und einer zusätzlichen Bildung der Informationskompressionstechnologie ist uns eine Digitalisierung von Videos nahe gekommen. Gemäß einer solchen Digitalisierung von Videos ist es möglich geworden, die Videos mit dem allgemeinen Personalcomputer zu handhaben und auch zu einer Anzeige hoher Auflösung für den Personalcomputer ausgegeben zu werden. Allgemein sind die Videos darauf beschränkt worden, nur zu dem TV-Monitor (640 × 480 Pixel) ausgegeben zu werden, aber dies hat ermöglicht, dass die Videos mit der Auflösung, die über die Auflösung des TV-Monitors hinausgeht, ausgegeben werden. Beispielsweise ist es für eine Vielzahl von Videos möglich geworden, gleichzeitig auf der Anzeige für den Personalcomputer angezeigt zu werden, etc.
Mit einer solchen Entwicklung von Videovorrichtungen ist über mehrere Verfahren zum Verbessern der Videos berichtet worden. In der Literaturstelle Michael Irani und Samuel Peleg; "Motion Analysis for Image Enhancement: Resolution, Occlusion and Transparency", Journal of Visual Communication and Image Representation, Vol. 4, No. 4, Dezember, S. 324–335, 1993, ist ein Verfahren zum Erreichen der hohen Auflösung von Videos durch Verwenden von Bewegungsinformation in den Videos und das Verfahren zum Interpolieren des sich verbergenden Hintergrundbereichs, veranlasst durch das Subjekt, etc. vorgeschlagen worden. Zusätzlich hat Laura A. Teidcio über das Verfahren zum Erzeugen der Standbilder hoher Auflösung aus den Videos berichtet (Patentanmeldungsveröffentlichung (KOKAI) JP-A-5-304675). In letzter Zeit ist ORAD Corporation das System "Digital Replay" veröffentlicht, welches eine Reproduktion bzw. Wiedergabe der Videos implementieren kann, zu welchen neue hinzugefügte Werte angebracht sind. Als Systemfunktionen hat das System beispielsweise die Funktionen einer Darstellungsverbesserung, einer Verfolgung und einer Vergrößerung des Subjekts gehabt, und die Funktion zum Anzeigen von Information von Figuren und Segmenten davon, von Entfernungen und Geschwindigkeiten, etc. zusammen mit den Videos.
Darüber hinaus ist über eine neue Anwenderschnittstelle der Videos berichtet worden. Im Artikel "A Magnifier Tool for Video Data", Proceedings of CHI '92, S. 93–98 (1992) haben M. Mill et al. darüber berichtet, dass Videoframes in dem Raum gemäß der Auflösungsebene einer Zeit angeordnet sind, so dass der neue Videoanschau- und -zugriffsstil bezüglich der Zeit von einer groben Zeitauflösung bis zu einer feinen Zeitauflösung erhalten werden kann. Darüber hinaus haben in einem Artikel "Motion Image Processing", Striking Possibilities, ADVANCED IMAGING, AUGUST (1992), E. Elliot and A. W. Davis darüber berichtet, dass das neue Darstellungsverfahren von Zeitinformation der Videos und der intuitive Zugriff auf die Zeitinformation durch Darstellen eines dreidimensionalen Objekts erreicht werden kann, d. h. eines Videobildes (zweidimensional) + einer Zeit (eindimensional).
In der Zwischenzeit ist unter Umständen, bei welchen es einfach wird, die Videos durch den Camcorder einzugeben und ein Anzeigestil frei durchgeführt werden kann, die Anforderung für ein Handhaben einer Vielzahl von Videos aufgetreten. Beispielsweise bezeichnet "eine Vielzahl von Videos", wie es hierin verwendet wird, entweder die Vielzahl von Videos, die durch eine Vielzahl von Camcordern aufgenommen werden, die in einem Sportstadion aufgestellt sind, wie beispielsweise bei den olympischen Spielen, oder die Videos, die durch einen einzigen Camcorder aufgenommen werden, aber Verhalten von verschiedenen Abspielgeräten zeigen. Weiterhin bezeichnet "Handhaben", wie es hierin verwendet wird, dass die Vielzahl von Videos gleichzeitig erkannt, verglichen, durchsucht, editiert, etc. werden.
Jedoch hat es gemäß den obigen Berichten im Stand der Technik ungelöste Probleme bezüglich der Vielzahl von Videos gegeben. Gemäß den Berichten im Stand der Technik ist die Verbesserung von einem Schnappschuss bzw. einer Aufnahme erreicht worden, aber ist die Verbesserung für die Vielzahl von Videos durch Anwenden von Beziehungen zwischen mehreren Videos auf die Vielzahl von Videos nicht implementiert worden. Zusätzlich ist die Vielzahl von Videos nicht räumlich-zeitlich integriert und integriert gemanagt worden. "Eine Verbesserung der Vielzahl von Videos", wie es hierin verwendet wird, bezeichnet ein Ausführen der Korrelation zwischen der Vielzahl von Videos, um die Videoinhaltsinformation (Objektinformation, die bei den Videos tatsächlich berücksichtigt wird, d. h. Subjektinformation) automatisch zu extrahieren und um sie visuell darzustellen. Ebenso bezeichnet es, eines oder mehrere Videos zu erzeugen, bei welchen eine Korrelation der Vielzahl von Videos und der Videoinhaltsinformation visuell dargestellt werden. Beispielsweise besteht ein Beispiel im Erzeugen von einem Video, bei welchem jeweilige Abspielgeräte bezüglich des gemeinsamen Raums überlagert sind, aus der Vielzahl von Videos, die ein Verhalten von unterschiedlichen Abspielgeräten aufnehmen. "Räumliches-zeitliches Managen" bedeutet, dass Information, die basierend auf der räumlichen-zeitlichen Videostruktur extrahiert wird, integriert gemanagt wird. Beispielsweise werden das Subjekt und der Hintergrund separiert und jeweils gemanagt und werden auch ihre räumlichen-zeitlichen Bezugsinformationen gemanagt. Ein integriertes Managen der Vielzahl von Videos durch Verwenden der räumlichen-zeitlichen Struktur ist nicht in der Aufgabe nach dem Stand der Technik enthalten gewesen. Es ist unmöglich gewesen, die Vielzahl von Videos räumlich-zeitlich integriert nur durch ledigliches Kombinieren des Standes der Technik zu managen.
Im Stand der Technik hat die implementierte Video/Anwender-Schnittstelle die Videos wieder einfach dargestellt, so dass sie nicht positiv Information der Videos und Beziehungen zwischen der Vielzahl von Videos extrahiert hat, um die Videos zu verbessern. Da die Inhalte der Videos und die Beziehungen zwischen der Vielzahl von Videos nicht berücksichtigt worden sind, ist es unmöglich gewesen, die Videos und die Inhalte der Videos intuitiv zu ergreifen und die Videoinformation, insbesondere Information in Bezug auf die Zeit, neu zu verbessern. Ebenso ist es deshalb, weil die Vielzahl von Videos nicht räumlich-zeitlich gemanagt worden ist, unmöglich gewesen, die Inhalte der Videos genauer zu interagieren.
Wie beim Obigen, nämlich gemäß den Berichten in Bezug auf die Verbesserung der Videos, die Anwenderschnittstelle, etc., über welche im Stand der Technik berichtet ist, keine Verbesserung zum Zuordnen einer zu der Vielzahl von Videos hinzugefügten hohen Wertigkeit gegeben, und keine Darstellung, die die Videos räumlich-zeitlich integriert managen, darstellen und betreiben bzw. bearbeiten kann. Anders ausgedrückt hat es beim Stand der Technik Probleme gegeben.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos zur Verfügung zu stellen, und ein System zum Verkörpern desselben, und ein Aufzeichnungsmedium zum Aufzeichnen eines Programms zum Ausführen des Verfahrens, welche zum räumlichen-zeitlichen Integrieren einer Vielzahl von Videos fähig sind, um die Videos zu verbessern, und zum räumlichen-zeitlichen integrierten Managen/Darstellen und Bearbeiten einer Vielzahl von Videos, um Information über mehrere Videos von einer Vielzahl von Videos zu erlangen, die denselben Raum aufnehmen, und zwar effektiv in Reaktion auf ein Anwenderinteresse und objektmäßig in ihrem eigenen Stil.
IBM Technical Disclosure Bulletin, Vol. 37, No. 12, Seiten 5–6, 1. Dezember 1994, mit dem Titel "Camera Operation Extraction using 2D Spatio-Temporal Images" betrifft eine Technik zum Extrahieren von Kameraoperationen von Videodaten, die viele Frames gleichzeitig verarbeitet. Die Schlüsseltechnologie ist eine Texturanalyse von zweidimensionalen räumlichen-zeitlichen Bildern (hierin nachfolgend mit "2DSTimages" abgekürzt).
Ein 2DSTimage ist ein Rechteck, von welchem eine Seite auf der räumlichen Achse liegt und die andere auf der zeitlichen Achse. Jede Seite hat eine bestimmte Länge, die ein bestimmtes Liniensegment auf dem Bildschirm oder eine bestimmte zeitliche Periode darstellt. Die Bewegung während der Periode der Frameinhalte, die auf dem Segment liegen, kann durch Untersuchen der Richtwirkung der Texturen im 2DSTimage abgeschätzt werden.
Kameraoperationen können durch Platzieren solcher Segmente bei geeigneten Positionen in geeigneten Richtungen extrahiert werden. Eine Planung erfolgt dann, wenn die Inhalte von parallelen Segmenten sich in derselben Richtung bewegen und ein Zoom nach innen und nach außen erfasst wird, wenn die Inhalte von radialen Segmenten sich jeweils weg von und in Richtung zu dem Zentrum des Bildschirms bewegen.
Eine Gruppe von aufeinander folgenden Frames, bei welchen die Bewegungen der Inhalte nahezu identisch sind, wird "Unterszene" genannt. Die Prozedur zum Bilden von Unterszenen durch Verwenden der obigen Technik ist wie folgt:

1. Eine geeignete Anzahl von Segmenten wird im Bildschirm platziert. Ihre Positionen und Richtungen hängen von der Bewegung ab, die zu extrahieren ist.
2. Framesequenzen werden in konstanten Intervallen aufgeteilt, wie beispielsweise alle 32 Frames. Diese Intervalle werden "Perioden" genannt.
3. 2DSTimages, deren räumliche Seiten im Schritt 1 zur Verfügung gestellt wurden und deren zeitliche Seiten Perioden sind, die im Schritt 2 bestimmt sind, werden ausgebildet, wie es in 2 gezeigt ist.
4. Für jede Periode werden alle 2DSTimages, die in der Periode enthalten sind, analysiert, um eine Kameraoperation (Kameraoperationen) während der Periode zu extrahieren. Wenn es während einer Periode mehrere Kameraoperationen gibt, wird die Periode in Stücke aufgeteilt, von welchen jedes eine neue Periode ist, und der Schritt 4 wird iteriert. Schließlich hat jede Periode genau eine Kameraoperation für sich selbst.
5. Die erste Periode wird die erste Unterszene in der Sequenz, und für jede darauf folgende Periode wird dann, wenn die Kameraoperation während der Periode dieselbe wie diejenige in der vorangehenden Unterszene ist, die Periode in diese Unterszene verknüpft bzw. mit dieser verbunden, sonst wird die Periode eine neue Unterszene.

Offenbarung der Erfindung
Zum Erreichen der obigen Aufgabe stellt die vorliegende Erfindung ein System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos zur Verfügung, ein Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos und ein computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos, wie es in den beigefügten unabhängigen Ansprüchen definiert ist. Bevorzugte Ausführungsbeispiel der Erfindung sind in den abhängigen Ansprüchen definiert.
Kurze Beschreibung der Zeichnungen
1 ist eine Ansicht, die eine Konfiguration eines Ausführungsbeispiels der vorliegenden Erfindung und einen Ablauf von Prozessen, die dabei ausgeführt werden, zeigt;
2 ist eine Ansicht, die eine Konfiguration eines Camcorder-Betriebszustands-Detektors bei dem obigen Ausführungsbeispiel zeigt, und einen Ablauf von Prozessen, die dabei ausgeführt werden;
3 ist ein Ablaufdiagramm, das Prozesse bei dem Camcorder-Betriebszustands-Detektor bei dem obigen Ausführungsbeispiel zeigt;
4 ist eine Ansicht, die Camcorder-Betriebsinformation bei dem obigen Ausführungsbeispiel zeigt;
5 ist eine Ansicht, die einen Algorithmus zum Extrahieren der Camcorder-Betriebsinformation bei dem obigen Ausführungsbeispiel zeigt;
6 ist eine Ansicht, die eine Konfiguration eines Gegenstand/Hintergrund-Separators bei dem obigen Ausführungsbeispiel zeigt, und einen Ablauf von Prozessen, die dabei ausgeführt werden;
7 ist eine Ansicht, die ein Beispiel eines Binarisierungsprozesses bei dem obigen Ausführungsbeispiel zeigt;
8 ist ein Ablaufdiagramm, das einen Etikettierungsprozess bei dem obigen Ausführungsbeispiel zeigt;
9 ist eine Ansicht, die die Bildabtastsequenz bei dem obigen Ausführungsbeispiel zeigt;
10 ist eine Ansicht, die ein Objektpixel und abgetastete Pixel bei dem obigen Ausführungsbeispiel zeigt;
11 ist eine Ansicht, die ein Verfahren zum erneuten Synthetisieren eines durch ein Video aufgenommenen Raums basierend auf einer Abtastung des Camcorders bei dem obigen Ausführungsbeispiel zeigt;
12 ist eine Ansicht, die eine zylindrische Transformation zeigt; und
13 ist eine Ansicht, die eine stroboskopische Darstellung gemäß einer räumlichen-zeitlichen Abtastung bei dem obigen Ausführungsbeispiel zeigt.
Beste Art zum Ausführen der Erfindung
Hierin nachfolgend wird ein Ausführungsbeispiel der vorliegenden Erfindung detailliert unter Bezugnahme auf die beigefügten Zeichnungen erklärt werden.
Eine Systemkonfiguration eines Ausführungsbeispiels der vorliegenden Erfindung ist in 1 gezeigt. Jeweilige Bestandteile und ein Ablauf von Prozessen werden hierin nachfolgend gemäß der Ansicht erklärt werden, die die Systemkonfiguration zeigt.
Von einem Videosignal-Eingabeteil 101 in 1 eingegebene Videosignale werden temporär in einem Bilddatenketten-Speicher 102 gespeichert. Dann werden die gespeicherten Videosignale in einem Camcorder-Betriebszustands-Detektor 103 verarbeitet, um Camcorder-Ein/Aus-Information und Camcorder-Betriebsinformation zu extrahieren.
Eine Konfiguration des Camcorder-Betriebszustands-Detektors 103 ist in 2 gezeigt. Ein Ablauf von durch Bestandteilselemente 201 bis 204 im Camcorder-Betriebszustands-Detektor 103 ausgeführten Prozessen ist in 3 gezeigt. Unter Bezugnahme auf diese Figuren werden Konfigurationen von jeweiligen Bestandteilselementen und Abläufe von dabei ausgeführten Prozessen hierin nachfolgend detailliert erklärt werden.
Mehrere Frames der aus dem Bilddatenketten-Speicher 102 gelesenen Videosignale sind 301, wie es in 3 gezeigt ist. Normalerweise wird ein solches 301 räumliche-zeitliche Bilder genannt. Horizontale/vertikale Linearomponenten werden jeweils für jedes Framebild in einer Linearkomponenten-Berechnungseinheit 201 aus den räumlichen-zeitlichen Bildern berechnet. Eine vertikale lineare Berechnung ist 302 in 3 und eine horizontale lineare Berechnung ist 303 in 3. 304 und 305, welche durch diese Berechnungen erhalten werden, werden räumliche-zeitliche Bilder mit vertikaler Linearkomponente bzw. räumliche-zeitliche Bilder mit horizontaler Linearkomponente genannt.
Ein Bilddaten-Neuanordnungsteil 202 kann wiederum die räumlichen-zeitlichen Bilder mit vertikaler Linearkomponente 304 und die räumlichen-zeitlichen Bilder mit horizontaler Linearkomponente 305 durch Verwenden einer Bilddatenketten-Neuanordnungseinrichtung neu anordnen, um sie für einen nachfolgenden Filterprozess vorzubereiten. Ein Neuanordnungsprozess entspricht hierin 306 in 3, wobei die räumlichen-zeitlichen Bilder mit einer Ebene geschnitten werden, die Normalen des Bildschirms enthält. Eine Richtung orthogonal zu x- und y-Koordinatenachse des Framebildes wird als Normalenrichtung des Bildschirms eingestellt. Allgemein wird eine Ebene, die geschnittene Zeitachsen enthält, räumliches-zeitliches Schnittbild genannt. Als Beispiel für dieses räumliche-zeitliche Schnittbild gibt es eine Schnittebene (Epipolarebenenbilder), die abgeleitet wird, wenn die räumlichen-zeitlichen Bilder mit der Ebene geschnitten werden, die die Bewegungsrichtung des Camcorders und die Normalen des Bildschirms enthält, der auf dem Gebiet der Computervision bzw. des Computerbildes verwendet worden ist. Eine dreidimensionale Position des Objekts bzw. Gegenstands kann aus den räumlichen-zeitlichen Schnittbildern abgeschätzt werden. Dies ist deshalb so, weil eine Stelle von Merkmalspunkten des Objekts als gerade Linie auf den Epipolarebenenbildern erscheint und ein Gradient einer solchen geraden Linie eine Größe von Bewegungen der Merkmalspunkte des Objekts anzeigt (R. C. Bolles, H. Baker und D. H. Marimont; "Epipolar-Plane Image Analysis: An Approach to Determine Structure from Motion", IJCV, 1, 1, S. 7–55, Juni 1989). Die räumlichen-zeitlichen Schnittbilder, die durch Schneiden der räumlichen-zeitlichen Bilder erzeugt werden, um x- und t-Koordinatenachsen zu enthalten, werden insbesondere räumliche-zeitliche x-t-Bilder genannt. Gleichermaßen werden die räumlichen-zeitlichen Schnittbilder, die y- und t-Koordinatenachsen enthalten, räumliche-zeitliche y-t-Bilder genannt. Irgendwelche räumlichen-zeitlichen x-t-Bilder können mit irgendwelchen Werten von y ausgeschnitten werden, und dann wird eine Vielzahl von Bögen von räumlichen-zeitlichen x-t-Bildern räumliche-zeitliche x-t-Bildkette genannt. Dasselbe gilt für eine räumliche-zeitliche y-t-Bildkette.
Die Schnittebenen der räumlichen-zeitlichen Bilder mit vertikaler/horizontaler Linearkomponente, die in dem Bilddaten-Neuanordnungsteil 202 geschnitten worden sind, werden mit einem Filterprozess (wie beispielsweise einem linearen differentiellen, einem quadratischen differentiellen, etc.) in einem Videoinformations-Filterprozessor 203 behandelt. Dieser Prozess wird durch eine Segment-Erfassungseinrichtung ausgeführt und ist bei Erfassungskanten oder -linien beabsichtigt. In 3 entspricht der Prozess 307. Die Stärke von solchen Kanten oder Linien kann durch den Filterprozessor 203 berechnet werden. Ablaufmuster, die auf der Schnittfläche des Schnittbildes erscheinen, zusammen mit der Zeitachse werden aufgrund von Bewegungen bei den Videos verursacht. Eine Richtung eines solchen Verlaufs bzw. Flusses stimmt mit der Größe einer Bewegung überein. Die Kanten oder Linien, die die Flussrichtung darstellen, werden gemäß der obigen Kantenerfassung erfasst, was ergibt, dass nur Bewegungsinformation aus den Bildern verbessert wird. Eine Schnittbildkette, die der obigen Kantenerfassung unterzogen worden ist, wird vertikale/horizontale räumliche-zeitliche Kantenbildkette genannt.
Darauf folgend wird die vertikale/horizontale räumliche-zeitliche Kantenbildkette durch eine Integrationseinrichtung entlang der Normalenrichtung der Kantenbilder in einem Merkmalsextrahierer 204 addiert. In 3 entspricht der Prozess 308, und der Additionsprozess wird entlang einer Richtung ausgeführt, die durch eine gestrichelte Linie 308a angezeigt ist. Dieser Additionsprozess wird ausgeführt, um viel mehr der Bewegungen zu verbessern, die durch den vorherigen Filterprozess verbessert worden sind. Genauer gesagt werden die Bewegungen der Merkmalspunkte des Objekts, wenn sie als globale Bewegungen erzeugt sind, wechselseitig durch Ausführen des Additionsprozesses verbessert, so dass sie bei dem Ergebnis des Additionsprozesses merklich berücksichtigt werden können. Gegensätzlich dazu werden die Bewegungen der Merkmalspunkte des Objekts, wenn sie als lokale Bewegungen erzeugt sind, durch Ausführen des Additionsprozesses wechselseitig geschwächt, so dass es schwierig ist, sie bei dem Ergebnis des Additionsprozesses zu berücksichtigen. Zusätzlich ist der Additionsprozess widerstandsfähig gegenüber einem Rauschen, was ungleich dem Differenzenprozess ist, was bedeutet, dass die Bewegungsinformation aus den Videos extrahiert werden kann, die viel Rauschen enthalten. Resultierende Bilder, die durch den Additionsprozess erhalten werden, werden räumliche-zeitliche Projektionsbilder genannt. Räumliche-zeitliche x-t-Projektionsbilder 309 können aus der vertikalen räumlichen-zeitlichen x-t-Bildkette erzeugt werden, während räumliche-zeitliche y-t-Projektionsbilder 310 aus der horizontalen räumlichen-zeitlichen y-t-Bildkette erzeugt werden können. Ablaufmuster bzw. Flussmuster, die entlang der Zeitachse der räumlichen-zeitlichen x-t-Projektionsbilder erzeugt werden, stellen Bewegungen der Videos in der horizontalen Richtung dar, während Flussmuster der räumlichen-zeitlichen y-t-Projektionsbilder Bewegungen der Videos in der vertikalen Richtung darstellen.
In Folge werden in einem statistischen Merkmalsanalysator 205 zuerst die geraden Linien senkrecht zu der Zeitachse aus extrahierten Merkmalen erfasst, welche als zwei dimensionale Bilder mit der Zeitachse und der Raumachse dargestellt sind, und zwar durch die Camcorder-Ein/Aus-Erfassungseinrichtung, um Camcorder-Ein/Aus-Information zu extrahieren. Genauer gesagt werden die räumlichen-zeitlichen x-t-Projektionsbilder durch F(x, t) ausgedrückt und werden die räumlichen-zeitlichen y-t-Projektionsbilder durch F(y, t) ausgedrückt. Wenn angenommen wird, dass dann, wenn der Wert C, der aus der folgenden Gleichung (1) zu errechnen ist, über einen vorbestimmten Schwellenwert hinausgeht, wird Ein/Aus des Camcorders zur Zeit t erzeugt. C(t) = sum(F(x, t))dx + sum(F(y, t))dy (1)
Als Nächstes wird eine Extraktion der Camcorderbetriebsinformation ausgeführt. Die zu extrahierende Camcorder-Betriebsinformation ist in 4 gezeigt. Ein Camcorderbetrieb besteht aus sieben Grundoperationen und ihren Kombinationsoperationen. Als die Grundoperationen gibt es fest (Operation zum Einstellen des Camcorders), Schwenken 401 (Operation zum Schwenken des Camcorders in horizontaler Richtung), Zoom 402 (Operation zum Vergrößern/Verkleinern des Subjekts durch Ändern eines Sichtwinkels), Neigen 403 (Operation zum Schwenken des Camcorders in vertikaler Richtung), Verfolgen 404 (Operation zum Bewegen des Camcorders in horizontaler Richtung), Galgen 405 (Operation zum Bewegen des Camcorders in vertikaler Richtung) und Kamerawagen 406 (Operation zu Bewegen des Camcorders nach hinten und nach vorn). Anders ausgedrückt ist fest stillstehend und sind Schwenken und Neigen Änderungen entlang einer optischen Achse, wenn ein Camcorder-Projektionszentrum fest ist, ist Zoom eine Änderung bezüglich des Blickwinkels und sind Verfolgen, Galgen und Kamerawagen Operationen, denen eine Änderung bezüglich der Position des Camcorder-Projektionszentrums folgt, und zwar jeweils. Gemäß einer Änderung bezüglich der Position des Camcorder-Projektionszentrums sind Verfolgung, Galgen und Kamerawagen Operationen, die eine dreidimensionale Platzierungsinformation des Subjekts bzw. Gegenstands bei der Bewegung der Videos enthalten. Die Bewegung der Videos, die durch das Verfolgen, den Galgen und den Kamerawagen aufgenommen sind, erscheint als schnelle Bewegung, wenn der Gegenstand relativ nahe zum Camcorder ist, erscheint aber als langsame Bewegung, wenn der Gegenstand relativ entfernt von dem Camcorder ist.
Die durch das obige Verfahren berechneten räumlichen-zeitlichen x-t-Projektionsbilder werden durch F(x, t) ausgedrückt. Die räumlichen-zeitlichen x-t-Projektionsbilder sind eine Funktion des Raums x und der Zeit t. Eine räumliche Verteilung der räumlichen-zeitlichen x-t-Projektionsbilder zur Zeit t₀ wird durch F (x, t₀) ausgedrückt, und gleichermaßen wird die räumliche Verteilung der räumlichen-zeitlichen x-t-Projektionsbilder zur Zeit t₁ durch F(x, t₁) ausgedrückt. Ebenso werden hierin nachfolgend berechnete Globalbewegungsparameter durch a, b und c ausgedrückt, wobei a einen Zoomparameter der Camcorderoperation bezeichnet, b einen Schwenkparameter davon bezeichnet und c einen Neigungsparameter davon bezeichnet. Ein Ansatz zum Berechnen der Parameter für den Camcorder-Betrieb wird hierin nachfolgend gezeigt werden.
Es soll angenommen werden, das die globalen Bewegungen in den erzeugten räumlichen-zeitlichen x-t-Projektionsbildern enthalten sind, und eine folgende Gleichung zwischen F(x, t₀) und F(x, t₁) erfüllt werden kann. F(x%, t1) = F(ax + b, t0)
Gleichermaßen kann für die räumlichen-zeitlichen x-t-Projektionsbilder F(y%, t1) = F(ay + b, t0)erfüllt werden. Zuerst werden eine Korrelation zwischen x% und x und eine Korrelation zwischen y% und y bei dem Obigen durch eine Korrelationseinrichtung ausgeführt. Die Verarbeitung der Korrelation ist in 5 gezeigt.
501 in 5 bezeichnet die räumlichen-zeitlichen x-t-Projektionsbilder, 502 bezeichnet die räumliche Verteilung F(x, T) zur Zeit T und 503 bezeichnet die räumliche Verteilung F(x, T – 1) zur Zeit T – 1. Ein Koordinatenwert 504 wird korreliert, wie es in 5 gezeigt ist, um somit eine entsprechende Koordinate 505 zu berechnen. Zusätzlich zu diesem Berechnungsverfahren ist es möglich, die Koordinaten durch Berechnen der Korrelationsfunktion in jedem infinitesimalen Bereich zu berechnen. 504 und 505, die miteinander korreliert sind, bezeichnen irgendwelche Koordinatenwerte und eine Beziehung zwischen diesen Koordinatenwerten kann durch eine durch 506 gezeigte gerade Linie gegeben sein. Der Gradient dieser geraden Linie bezeichnet den Zoomparameter a und die Erfassung davon bezeichnet den Schwenkparameter b.
Darauf folgend werden durch die Verwenden der räumlichen Koordinatenwerte, die wie oben korreliert sind, Camcorder-Operationsparameter durch eine Camcorder-Betriebsparameter-Berechnungseinrichtung berechnet. Insbesondere kann zum Berechnen der Parameter a und b auf der geraden Linie der maximale Wert 507 des Projektionsraums durch Projizieren (Abstimmen) auf die Parameterräume gemäß der folgenden Gleichung durch Verwenden der korrelierten räumlichen Koordinatenwerte extrahiert werden, so dass eine Berechnung der Parameter a und b bewirkt werden kann. Allgemein ist diese Transformation die Hough-Transformation genannt worden (P. V. C. Hough; "Method and Means for Recognizing Complex Patterns", U.S.-Patent Nr. 306954, 1962). Wenn irgendwelche korrelierten Koordinaten durch x% und x dargestellt werden, kann die Beziehung zwischen den Parametern a und b gegeben sein durch b = x%·cos(a) + x·sin(a)
Die Hough-Transformation ist als ein Verfahren eingerichtet worden, das normalerweise eine gerade Linie, die durch diese Punkte aufgebaut ist, aus einer Vielzahl von Punkten abschätzen kann. Ein Punkt des Bildraums stellt eine gekrümmte Linie im Hough-Raum (Projektivenraum) dar, und Koordinatenwerte eines Schnittpunkts 507 von mehreren gekrümmten Linien stellen den Gradienten und die Erfassung einer zu extrahierenden geraden Linie dar. Gemäß dem Computer können der Gradient und die Erfassung der zu extrahierenden geraden Linie als die Koordinatenwerte berechnet werden, die die maximale Abstimmung anzeigen, wenn die gerade Linie auf den Projektionsraum abgestimmt ist. Die Parameter können jeweils durch Abstimmen von mehreren Gruppen von korrelierten Koordinatenwerten auf den Projektionsraum berechnet werden.
Gleichermaßen kann ein Neigungsparameter c aus den räumlichen-zeitlichen y-t-Projektionsbildern berechnet werden. Ebenso können deshalb, weil die räumlichen-zeitlichen Projektions-(Integrations-)Bilder, auf welche die Operation, die eine dreidimensionale Information enthält, angewendet worden ist, auch äquivalent mikroskopisch (partiell) zu den Bildern sind, auf welche die Operation ohne dreidimensionale Operation angewendet worden ist, solche Bilder durch partielles Anwenden des obigen Prozesses (Block-für-Block) verarbeitet werden. Das Obige ist die Konfiguration des Camcorder-Betriebszustands-Detektors 103 und der Ablauf der Prozesse dabei.
Als Nächstes werden, kehrt man zurück zur 1, in einem Videoteiler 104 die Videos in Schnappschüsse aufgeteilt, und zwar basierend auf der Camcorder-Ein/Aus-Information, die durch den Camcorder-Betriebszustands-Detektor 103 berechnet ist. Es kann derart angesehen werden, dass bei der Aufteilung in Schnappschüsse gemäß dem Ein/Aus des Camcorders die Bilder im selben Schnappschuss dieselbe kontinuierliche räumliche Information enthält.
Dann wird in einem Gegenstands/Hintergrund-Separator 105 eine Separation des Gegenstandes und des Hintergrunds ausgeführt. Eine Konfiguration des Gegenstands/Hintergrund-Separators 105 ist in 6 gezeigt. Konfigurationen der Bestandteilselemente 601 bis 604 im Gegenstand/Hintergrund-Separator 105 und ein Ablauf von Prozessen, die durch diese Elemente ausgeführt werden, werden hierin nachfolgend detailliert erklärt werden. Zuerst wird in einer Camcorder-Betriebslöscheinheit 601 der Camcorderbetrieb von den Bilddaten durch eine Videoframe-Deformiereinrichtung basierend auf der Camcorder-Betriebsinformation gelöscht. Die Bilddaten werden gemäß einer Änderung/einem Versatz, die/der durch den Camcorderbetrieb zwischen benachbarten Bilddaten veranlasst ist, geändert/versetzt. Die benachbarten Bilddaten sind als F(x, y, t) und F(x, y, t + 1) angenommen. Wenn A (wobei A eine Matrix ist) als die Camcorderoperation verwendet wird, kann eine folgende Beziehung zwischen den benachbarten Bilddaten abgeleitet werden. F(x, y, t + 1) = AF(x, y, t)
Eine Löschung des Camcorderbetriebs bzw. der Camcorderoperation kann ausgedrückt werden durch: F(x, y, t) = A–1F(x, y, t + 1)
Dann kann in einem Bilddatenkomparator 602 der Vergleichsprozess zwischen den benachbarten Bildern, von welchen die Camcorderoperation im Obigen gelöscht worden ist, durch eine Differenzenverarbeitungseinrichtung bewirkt werden. Der hier ausgeführte Prozess ist der Vergleichsprozess, der zwischen den Bildern bewirkt wird, von welchen die Camcorderoperation gelöscht worden ist, und absolute Differenzenwerte von Informationen, wie beispielsweise Helligkeit, Farbe, etc. zwischen den Bildern, etc. können berechnet werden. Der Hintergrund kann durch den Vergleichsprozess subtrahiert werden, so dass eine Variation nur bezüglich der Bewegung des Gegenstands als die Differenz gegenüber dem Hintergrund extrahiert werden kann.
Dann wird in einem Vergleichs-Bilddatenkomparator 603 ein Vergleich zwischen den benachbarten Vergleichs-Bilddaten bewirkt. Der hier ausgeführte Prozess ist eine solche Vergleichsoperation, dass das Produkt zwischen den Bildern oder der kleinere Wert zwischen den Bildern als der Vergleichsbildwert ausgewählt wird. Gemäß einer Reihe von Prozessen können Bereiche des Subjekts (eines sich bewegenden Objekts) in den mittleren Bildern von drei Bögen von kontinuierlichen Bilddaten verbessert werden.
Dann wird in einem Bereichsextrahierer 604 der Binarisierungsprozess des verbesserten Bereichs des Subjekts bzw. Gegenstandes durch eine Binarisierungsverarbeitungseinrichtung bewirkt. Der Binarisierungsprozess wird durch Verwenden eines zuvor zugeordneten Schwellenwerts S in den folgenden Bedingungen ausgeführt. Es soll angenommen werden, dass die Vergleichsdatenbilder f(x, y) sind und die binarisierten Bilder F(x, y) sind.
F(x, y) = 1: wenn f(x, y) ≧ S
F(x, y) = 0: wenn f(x, y) < S
Ein Beispiel für den Binarisierungsprozess ist in 7 gezeigt. 701 bezeichnet die Vergleichsdatenbilder und 702 bezeichnet die binarisierten Bilder. Eine solche Situation ist angenommen, dass ein Schwellenwert auf 9 eingestellt ist.
Darauf folgend kann eine Etikettierung der binarisierten Bilder F(x, y) durch eine Etikettiereinrichtung bewirkt werden. Ein Algorithmus für die Etikettierung ist in 8 gezeigt. Die binarisierten Bilder F(x, y) sind durch F = {F_i,j} ausgedrückt und die etikettierten Bilder sind durch L = {L_i,j} ausgedrückt. l_i,j sind positive ganze Zahlen, die die Etiketten von jeweiligen verketteten Komponenten darstellen. Ebenso ist λ eine Variable, die die verketteten Komponentenzahlen darstellen und stellen T(i) Etikettentabellen dar. Bei einer Initialisierung 800 wird λ = 1 eingestellt und wird eine Etikettenabtastung ab dem Pixel (2, 2) begonnen. Das aktuelle Pixel wird auf (i, j) eingestellt, und es wird in 802 entschieden, ob f_i,j 1 oder 0 ist. Wenn f_i,j = 1, dann geht der Prozess weiter zu 803. Wenn f_i,j = 0, dann geht der Prozess weiter zu 802a und wird l_i,j = 0 eingestellt und geht der Prozess weiter zu 807. Bei dem in 9 gezeigten Abtastverfahren sind das aktuelle Pixel x₀ = (i, j) und die benachbarten betriebenen Pixel dargestellt, wie es in 10 gezeigt ist, und das Etikett von x_p (Wert des Bildes L) ist als l_p (p = 1, 2, 3, 4) angenommen. In 803 ist angenommen, dass unterschiedliche positive Werte vom n-Typ in {T(l_p), l_p ≠ 0, p = 1, 2, 3, 4} existieren, und sie werden als L₁, L₂, ..., L_n in anwachsender Reihenfolge eingestellt. Der Prozess geht zu 804, wenn n = 0, der Prozess geht zu 805, wenn n = 1, und der Prozess geht zu 806, wenn n = 2. Nach jeweiligen Prozessen geht der Prozess zu 807. In 807 wird entschieden, ob alle Pixel beendet worden sind oder nicht. Wenn alle Pixel fertig gestellt worden sind, werden die Prozesse in 808, 809 ausgeführt, und dann ist die Etikettierung beendet.
Dann können die physikalischen Merkmale von jedem etikettierten Bereich durch eine Berechnungseinrichtung für physikalische Merkmale berechnet werden. Die hierin berechneten physikalischen Merkmale sind Helligkeit, Farbverteilung, Textur und ähnliches. Dann werden vorbestimmte Beträge und die für jeden Etikettenbereich berechneten physikalischen Merkmale durch eine Kollationiereinrichtung verglichen und kollationiert, um über den Gegenstandsbereich zu entscheiden. Dann kann der Hintergrundbereich durch eine Hintergrundextrahiereinrichtung durch Subtrahieren des im obigen extrahierten Gegenstandsbereichs von den Framebildern separiert werden.
Die obigen Erklärungen sind die Konfiguration des Gegenstands/Hintergrundseparators 105 und der Ablauf eines Prozesses dabei.
Als Nächstes werden, kehrt man zurück zur 1, in einem Gegenstandsbewegungsinformationsextrahierer 106 die für jeden etikettierten Bereich von jedem Frame berechneten physikalischen Merkmale mit denjenigen von benachbarten Frames kollationiert. Das Kollationierergebnis wird mit einem vorbestimmten Zustand verglichen. Als Ergebnis werden entsprechende Bereiche zeitlich miteinander als Bereiche mit physikalischen Merkmalen korreliert, die gleich zueinander sind, anders ausgedrückt, als Bereiche mit demselben Gegenstand. Information für die Korrelation wird als Bewegungsinformation des Gegenstands erhalten.
In der Zwischenzeit werden in einem Neusynthesizer 107 für Raum, der von einem Video aufgenommen ist, die Hintergründe, die durch den Gegenstands/Hintergrund-Separator separiert sind, als kontinuierlicher Raum durch eine Raumüberlagerungseinrichtung durch Deformieren/Versetzen der Bildframes basierend auf der durch den Camcorder-Betriebszustands-Detektor 103 berechneten Camcorder-Betriebsinformation überlagert, um einen breiten Raum, der durch ein Video aufgenommen ist, neu zu synthetisieren, welcher über den Frame hinausgeht. Ein Verhalten der Neusynthese ist in 11 gezeigt. In (a) der 1 sind 1101 und 1102 Framebilder, die bezüglich der Zeit kontinuierlich sind. Wenn die Videos durch die Schwenkoperation des Camcorders aufgenommen werden, kann 1102 durch ein Verschieben von 1101 um einen Betrag von 1103 (einen Schwenkbetriebsbetrag pro Frame) synthetisiert werden. Gleichermaßen kann in dem Fall der Neigungsoperation des Camcorders 1102 durch Verschieben um einen Betrag von 1104 (einen Neigungsbetätigungsbetrag pro Frame) synthetisiert werden. Im Fall der Zoomoperation des Camcorders, wie sie in (b) der 11 gezeigt ist, können die Bilder durch Vergrößern/Verkleinern der Größe davon gemäß einem Zoombetrag 1105 synthetisiert werden. Der durch dieses Syntheseverfahren erzeugte Hintergrund ist ein so genannter Panoramaraum und hat die Stimmung, die für den Panoramaraum speziell ist. Diese Stimmung ist äquivalent zu einer Stimmung, die dann erzeugt wird, wenn die Bilder einer zylindrischen Transformation unterzogen werden.
Dann kann in einer Momentaufnahmen-zu-Momentaufnahmen-Bezugsberechnungseinheit 108 Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation aus dem von einem Video aufgenommenen Raum für jede Momentaufnahme durch eine Transformationseinrichtung für einen von einem Video aufgenommenen Raum neu synthetisiert werden, nachdem die von einem Video aufgenommenen Räume transformiert worden sind, damit ihre Größen und Positionen zwischen den mittels Video aufgenommenen Räumen übereinstimmen. Die berechnete Information ist Information wie für den Momentaufnahmenraum. Jeweilige räumliche Anordnungsbeziehungen, die in den korrelierenden Momentaufnahmen aufgezeichnet sind, werden als Momentaufnahme-zu-Momentaufnahme-Bezugsinformation verwendet. Die Momentaufnahmen-zu-Momentaufnahmen-Beziehung kann durch Vergleichen der Panoramaräume berechnet werden, die durch den Neu-Synthesizer 107 für einen durch ein Video aufgenommenen Raum neu synthetisiert sind. Die Panoramaräume, die aus den Videos erzeugt sind, welche bei derselben Brennweite aufgenommen worden sind, enthalten dieselbe Stimmung, die durch die zylindrische Transformation verursacht ist. Eine Deformation der zylindrischen Transformation ist in 12 gezeigt. Eine Linie 1201 auf dem dreidimensionalen Raum kann 1202 an einem kreisförmigen Zylinder 1203 durch die zylindrische Transformation transformiert werden. Ein Punkt 0 in 12 ist ein Projektionszentrum des Camcorders und die Bildoberfläche ist an dem kreisförmigen Zylinder 1203. Über eine Größe des kreisförmigen Zylinders kann eindeutig durch die Größe der Brennweite f zu der Zeit einer Bildaufnahme entschieden werden. Demgemäß haben die Panoramaräume, die aus den Videos erzeugt sind, die mit derselben Brennweite aufgenommen sind, dieselbe Stimmung bzw. Spannung bei der zylindrischen Transformation. Die Beziehung zwischen den Panoramaräumen, die aus den Videos erzeugt sind, die bei derselben Brennweite aufgenommen sind, kann durch Berechnen von räumlichen parallelen Versatzbeträgen von diesen Bildern erfasst werden. Die Beziehung kann durch ein Anpassen unter Verwendung von einem Panoramabild als die Schablone und den Korrelationsfunktionskoeffizienten berechnet werden. Bei einer Berechnung kann eine solche Anpassung stabil durch Definieren der Abschätzfunktion neu aus der Korrelation von überlagerten Teilen und aus den überlagerten Bereichen bewirkt werden. Die Anpassung muss in Bezug auf die kreisförmige Zylinderspannung bewirkt werden, um die Bilder zu korrelieren, die unterschiedliche Brennweiten haben. Wenn die Anpassung durch Ändern der Brennweite nach und nach auf der Basis von einem Bild bewirkt wird, kann die Beziehung berechnet werden. Für die Videos, die ohne die Camcorderoperation aufgenommen werden, kann die Beziehung berechnet werden, wenn die Anpassung durch Vergrößern/Verkleinern der Größe der Bilder bewirkt wird.
Die berechnete Camcorder-Ein/Aus-Information, die Camcorder-Betriebsinformation, die Gegenstandsinformation, die Gegenstandsbewegungsinformation, die Information für einen neu synthetisierten Hintergrund und die Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation kann für eine Vielzahl von Videos in einem Videostrukturinformations-Management-Speicher-Teil 109 gemanagt/gespeichert werden. Im Stand der Technik sind die Videos in der Speichervorrichtung als Dateien oder Änderungen von RGB-Signalen bezüglich der Zeit gemanagt worden. Das Management of der Signalebene ist für einen mechanischen Prozess, für eine Übertragung, eine Speicherung und eine Anzeige effektiv gewesen. In der Multimediageneration, bei welcher die Videos mit dem Computer behandelt werden, hat sich eine Behandlung der Videos von einer einfachen Verarbeitung, Speicherung, Anzeige, etc. des Signals im Stand der Technik zu Behandlungen auf einer hohen Ebene von den Videos geändert, wie beispielsweise auf eine Suche aus der großen Menge von gespeicherten Videodatenbanken, ein Editieren, ein Bearbeiten, etc. Zum Ermöglichen einer solchen Behandlung auf hoher Ebene der Videos müssen die Videos als Information auf einer detaillierteren Ebene der Videoinhalte gemanagt werden, eher als auf der Signalebene. Die oben extrahierte Information ist Information, die auf einer solchen Ebene erhalten wird, und dann, wenn die Videos als derartige Information ausgedrückt und gemanagt werden, kann eine Behandlung auf höherer Ebene, welche völlig unterschiedlich von den Videos ist, welche nur durch zeitliches Ändern von RGB-Signalen dargestellt werden, erreicht werden. Ungleich einer bloßen zeitlichen Änderung der Signale kann diese Darstellung, bei welcher die Inhalte der Videos berücksichtigt werden, auch als semantische Darstellung bezüglich der Zeit und des Raums der Videos angesehen werden. Eine Behandlung auf hoher Ebene der Videos, die für Menschen intuitiv und einfach zu verstehen ist, kann durch räumliches-zeitliches Speichern/Managen einer solchen neuen Darstellung der Videos erreicht werden.
Eine Strukturinformation der extrahierten Videos und von Videodaten kann über eine Datenkompression gespeichert werden. Eine Reduzierung des Speicherraums und ein Senden/Empfang von Daten über das Netzwerk können durch die Datenkompression erreicht werden. Aus der Videostrukturinforrnation kann die Information, die sich gemäß der Zeit ändert, als die Variable durch Verwenden der reziproken Codierung, wie beispielsweise einer Huffman-Codierung etc. komprimiert werden. Räumliche Information, wie bei den Bildern (z. B. den extrahierten Gegenstandsbildern, den Bildern für einen neu synthetisierten Hintergrund, etc.) kann als Standbilder unter Verwendung der nicht reziproken Codierung komprimiert werden. Ein repräsentativer Ansatz für die nicht reziproke Codierung ist die JPEG-Codierung. Die 320 × 240 Bilder, die aus den Videos neu synthetisiert sind, die durch Schwenken des Camcorders in horizontaler Richtung über 360 Grad aufgenommen sind, gemäß der vorliegenden Erfindung, können Information von etwa 5 MByte enthalten. Solche Bilder können dann in Daten von etwa 500 KByte komprimiert werden, da eine Kompressionseffizienz von 1/10 durch die JPEG-Codierung abgeschätzt werden kann. Wenn das Internet oder ähnliches gegenwärtig verwendet werden, ist es unmöglich, Daten von einer Information von etwa 5 MByte zu übertragen, und zwar aufgrund einer Zeitbeschränkung, aber es ist möglich, Daten von etwa 500 KByte in einem praktischen Einsatz zu übertragen. Ebenso können die Bilder des Subjekts, die sich bezüglich der Zeit ändern, in etwa 1/10 bis etwa 1/20 durch Verwenden der Codierung, wie beispielsweise einer H261-Codierung, einer MPEG-Codierung oder von ähnlichem komprimiert werden, welche die nicht reziproke Codierung ist. In dem Fall, dass strukturierte Videos über die dünne Leitung (Leitung mit einer niedrigen Informationsübertragungsrate) übertragen werden, wie beispielsweise das Internet, können eine Netzwerkausnutzung, eine Zeitverkürzung und eine gute Interaktionsreaktion durch Übertragen der niedrigsten minimalen Information, wie beispielsweise der Hintergrundbildern, die JPEG-komprimiert sind, als die Standbilder erhalten werden, und der Gegenstandsbildinformation, die auch JPEG-komprimiert ist, als Standbilder, in welchem die Zeitinformation im Raum entwickelt ist (beispielsweise stroboskopische Bilder, bei welchen der Gegenstand über dem Hintergrund entwickelt ist, etc.), um auf die Anwenderanforderung zu reagieren. In Bezug auf das in 1 gezeigte Ausführungsbeispiel sendet und empfängt ein Bildstrukturinformations-Sender/Empfänger 114 solche Information.
Dann wird in einem Neu-Synthesizer 110 die Information, die in dem Videostrukturinformations-Management/Speicher-Teil 109 gemanagt wird, in Reaktion auf die von einem Anwendereingabeteil 112 ausgegebene Aufforderung oder gemäß vorbestimmten Bedingungen oder gemäß sowohl der Anwenderaufforderung als auch den vorbestimmten Bedingungen neu synthetisiert. Eine semantische Videofilterung kann ausgeführt werden. Die Videos von nur dem Hintergrund, nur dem Gegenstand oder ähnliches können erzeugt werden. Die Videos, die als Information von nur dem Raum dargestellt sind, können durch Entwickeln der Zeitinformation in dem Raum aus der Videoinformation über die Zeit und den Raum erzeugt werden. Als solches Beispiel gibt es Videos, bei welchen der Gegenstand stroboskopisch in dem Raum dargestellt ist, der wie oben panoramamäßig entwickelt ist. Im Stand der Technik war es nur möglich, dass die stroboskopische Darstellung, die auf einer Zeitbasis abgetastet wird, erreicht wird, aber gemäß der vorliegenden Erfindung ist es möglich geworden, dass die stroboskopische Darstellung, die auf einer Raumbasis abgetastet wird, erreicht wird, sowie die stroboskopische Darstellung, die auf einer Zeitbasis abgetastet wird.
Eine stroboskopische Darstellung gemäß einer räumlichen-zeitlichen Abtastung ist in 13 gezeigt. 1301 bezeichnet einen neu synthetisierten Panoramaraum. 1302 bezeichnet den Gegenstand. 1303 bezeichnet die stroboskopische Darstellung gemäß der räumlichen Abtastung und 1304 bezeichnet die stroboskopische Darstellung gemäß der Zeitabtastung. Die Anordnung des Gegenstands stellt auch die Geschwindigkeit des Gegenstands in 1304 dar, während 1303 eine Änderung des Gegenstands im Raum darstellt. Eine Vielzahl von Gegenständen, die in unterschiedlichen Momentaufnahmen existieren, können auf einem Hintergrund durch Verwenden der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation synthetisiert werden. Beispielsweise kann der erste Gegenstand (Spieler A), der durch die Momentaufnahme A aufgenommen ist, als stroboskopische Darstellung auf dem Panoramaraum angezeigt werden, und dann kann der Gegenstand (Spieler B), der durch die Momentaufnahme B aufgenommen ist, als das Bewegtbild angezeigt werden, um mit dem Spieler A auf der stroboskopischen Darstellung zu überlagern. Die Momentaufnahme A und die Momentaufnahme B, die hierin verwendet sind, haben räumlich den gemeinsamen Raum. Die Verbesserung der Videos macht es für den Anwender einfach, Unterschiede bezüglich der Form zwischen dem guten Spieler und dem schlechten Spieler, etc. intuitiv und visuell zu ergreifen bzw. begreifen.
Im Neu-Synthesizer 110 können verschiedene Darstellungen in Reaktion auf die Anwenderaufforderung implementiert werden, die vom Anwendereingabeteil 112 ausgegeben wird. Basierend auf den in einer Anzeigeeinheit 111 angezeigten Videos kann der Anwender die Darstellung rückkoppeln, die auf die Anwenderaufforderung über den Anwendereingabeteil 112 reagiert. Zusätzlich können digitale/analoge Ausgaben von einem Ausgabeteil 113 ausgegeben werden. Die digitale Ausgabe kann zu einem externen Drucker, einem Personalcomputer, etc. zugeführt werden, während die analoge Ausgabe Videosignalausgaben sind, die zu einem Monitor, etc. zugeführt werden. Ein solcher Ausgabeteil 113 kann vorgesehen sein, wenn es nötig ist.
Wie es oben angegeben ist, werden gemäß der vorliegenden Erfindung Videodaten gelesen, wird dann eine gesicherte Bilddatenkette ausgelesen, wird dann Camcorder-Betriebszustands-Information, die Camcorder-Ein/Aus-Information und Camcorder-Betriebsinformation enthält, erfasst, werden dann Videos in jeweilige Momentaufnahmen, basierend auf der Camcorder-Ein/Aus-Information aufgeteilt, werden dann das Subjekt bzw. der Gegenstand und der Hintergrund Frame für Frame durch Verwenden der Camcorder-Betriebsinformation und physikalischer Merkmalseigenschaften getrennt, wird dann Gegenstandsbewegungsinformation durch Korrelieren von separierter Gegenstandsinformation zwischen Frames extrahiert, werden dann die durch Video aufgenommenen Räume basierend auf der Camcorder-Betriebsinformation und dem Hintergrund für jeden Rahmen neu synthetisiert, werden dann räumliche Momentaufnahmen-zu-Momentaufnahmen-Beziehungen zwischen einer Vielzahl von aufgenommenen Räumen, die jeweils auf einer Vielzahl von Momentaufnahmen neu synthetisiert sind, berechnet, und wird die obige resultierende Information gemanagt/gespeichert. Als Ergebnis kann eine räumliche-zeitliche Integration eine Vielzahl von Videos erreicht werden, was die räumliche-zeitliche Verbesserung der Vielzahl von Videos, ein räumliches-zeitliches und integriertes Management, eine Darstellung und einen Betrieb ermöglicht.
Zusätzlich können deshalb, weil einer oder mehrere durch ein Video aufgenommene Räume und einer oder mehrere Gegenstände neu synthetisiert, angezeigt oder zu einer externen Vorrichtung auf analoge/digitale Weise basierend auf der obigen gemanagten und gespeicherten Information gemäß den vorbestimmten Bedingungen und der Anwenderaufforderung ausgegeben werden, die Anwenderinformation über mehrere Videos von einer Vielzahl von Videos, die denselben Raum aufnehmen, gleichzeitig, intuitiv und effektiv in Reaktion auf ihr Interesse und als Objekt in ihrem eigenen Stil erlangen.

Claims

System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos, das folgendes aufweist: einen Bilddatenketten-Speicherteil (102) zum Lesen von Videodaten einschließlich einer Vielzahl von Bildframes zum Sichern der Videodaten; gekennzeichnet durch: einen Camcorder-Betriebszustands-Erfassungsteil (103) zum Lesen der Datenkette aus dem Bilddatenketten-Speicherteil und zum Erfassen von Camcorder-Betriebszustandsinformation einschließlich von Camcorder-Ein/Aus-Information und Camcorder-Betriebsinformation unter Verwendung der Datenkette; einen Video-Aufteilteil (104) zum Aufteilen von Videos der Datenkette in jeweilige Momentaufnahmen basierend auf der Camcorder-Ein/Aus-Information; einen Gegenstand/Hintergrund-Trennteil (105) zum Trennen eines Gegenstands und eines Hintergrunds für jeden Frame der Videos unter Verwendung der Camcorder-Betriebsinformation und physikalischer Eigenschaften einschließlich wenigstens einer Helligkeit; einen Gegenstandsbewegungsinformations-Extraktionsteil (106) zum Korrelieren von Gegenstandsinformation, die von jedem Frame getrennt ist, zwischen Frames; einen Teil zum erneuten Synthetisieren eines von einem Video genommenen Raums (107) zum erneuten Synthetisieren von von einem Video eingenommenen Räumen pro Momentaufnahme, von welchen die Videos aufgenommen sind, basierend auf der Camcorder-Betriebsinformation und dem von jedem Frame getrennten Hintergrund; einen Momentaufnahmen-zu-Momentaufnahmen-Bezugsberechnungsteil (108) zum Berechnen von räumlichen Momentaufnahmen-zu-Momentaufnahmen-Bezügen zwischen einer Vielzahl von von einem Video eingenommenen Räumen, die durch den Teil zum erneuten Synthetisieren eines von einem Video eingenommenen Raums erneut synthetisiert worden sind; und einen Videostrukturinformations-Management/Speicher-Teil (109) zum Managen/Speichern von getrennter Gegenstandsinformation, korrelierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, von Hintergrundsinformation und von Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, das weiterhin folgendes aufweist: einen Videostrukturinformations-Sender/Empfänger (114) zum Senden oder Empfangen von der Gesamtheit oder einem Teil von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundinformation, der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation und den Videodaten.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1 oder 2, das weiterhin folgendes aufweist: einen Neu-Synthesizer (10) zum erneuten Synthetisieren von einem oder mehreren von einem Video eingenommenen Räumen und von einem oder mehreren Gegenständen basierend auf in dem Videostrukturinformations-Management/Speicher-Teil (109) gespeicherter/gemanagter Information gemäß einem oder beiden von vorbestimmten Zuständen und von Anwenderanfragen; eine Anzeigeeinheit (111) zum Anzeigen von neu synthetisierten Videos im Neu-Synthesizer (110); einen Anwendereingabeteil (112) zum Eingeben der Anwenderanfragen für eine erneute Synthese basierend auf den Videos, die auf der Anzeigeeinheit (111) angezeigt werden; und einen Ausgabeteil (113) zum Ausgeben der Videos, die auf der Anzeigeeinheit (111) angezeigt werden, zu einer externen Vorrichtung auf digitale oder analoge Weise.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, 2 oder 3, wobei der Camcorder-Betriebszustands-Erfassungsteil (103) folgendes aufweist: einen Linearkomponenten-Berechnungsteil (201) zum Berechnen jeweiliger horizontaler/vertikaler Linearkomponenten von Bildframes, die aus dem Bilddatenketten-Speicherteil (102) gelesen sind; einen Bilddaten-Neuanordnungsteil (202) zum erneuten Anordnen von Bildern einschließlich der berechneten vertikalen Linearkomponenten und von Bildern einschließlich der berechneten horizontalen Linearkomponenten der Bildframes in räumlich-zeitliche x-t-Projektionsbilder bzw. räumliche-zeitliche y-t-Projektionsbilder; einen Videoinformations-Filterverarbeitungsteil (203) zum Anwenden eines Filterprozesses auf die durch eine erneute Anordnung abgeleiteten räumlichen-zeitlichen x-t/y-t-Projektionsbilder; einen Merkmalsextraktionsteil (204) zum Extrahieren von Merkmalen aus Ergebnissen des Filterprozesses; und einen Statistikmerkmals-Analyseteil (205) zum Erfassen der Camcorder-Ein/Aus-Information und der Camcorder-Betriebsinformation durch statistisches Analysieren der extrahierten Merkmale.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 4, wobei der Videoinformations-Filterteil (203) eine Segment-Erfassungseinrichtung zum Erfassen von Rändern oder Linien der Videoinformation von neu angeordneten Bilddaten aufweist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 5, wobei der Merkmalsextraktionsteil (204) eine Integrationseinrichtung zum Addieren von Information in Bezug auf erfasste Ränder oder Linien entlang jeweiliger Normalenrichtungen der räumlichen-zeitlichen x-t-Projektionsbilder und der räumlichen-zeitlichen y-t-Projektionsbilder aufweist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 4, wobei der Statistikmerkmals-Analyseteil (205) eine Camcorder-Ein/Aus-Erfassungseinrichtung zum Erfassen irgendeiner geraden Linie senkrecht zu der Zeitachse in den extrahierten Merkmalen aufweist, die als zweidimensionale Bilder mit der Zeitachse und einer Raumachse dargestellt sind, um die Camcorder-Ein/Aus-Information zu berechnen.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 4, wobei der Teil zum statistischen Analysieren von Merkmalen (205) folgendes aufweist: eine Korrelationseinrichtung zum Korrelieren von Raumkoordinaten (504, 505) der extrahierten Merkmale zu irgendwelchen zwei Momenten bzw. Zeitpunkten (T, T – 1) durch Vergleichen von räumlichen Verteilungen (502, 503) der extrahierten Merkmale, die auf zweidimensionalen Bildern mit der Zeitachse und der Raumachse dargestellt sind; und eine Camcorder-Betriebsparameter-Berechnungseinrichtung zum Berechnen von Camcorder-Betriebsparametern durch statistisches Verarbeiten der korrelierten Raumkoordinaten (504, 505).
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, 2 oder 3, wobei der Gegenstand/Hintergrund-Trennteil (105) folgendes aufweist: einen Camcorder-Betriebslöschteil (601) zum Löschen des Camcorder-Betriebs zwischen benachbarten Bilddaten basierend auf der durch den Camcorder-Betriebszustands- Erfassungsteil (103) erfassten Camcorder-Betriebsinformation; einen Bilddaten-Komparator (602) zum Vergleichen der benachbarten Bilddaten, von welchen die Camcorder-Betriebsinformation gelöscht ist, und zum Berechnen einer Differenz zwischen den benachbarten Bilddaten, um eine Variation nur bezüglich einer Bewegung des Gegenstands zu extrahieren; einen Vergleichs-Bilddaten-Komparator (603) zum Vergleichen benachbarter Vergleichs-Bilddaten einschließlich einer Variation nur bezüglich einer Bewegung des Gegenstands, um einen erweiterten Bereich des Gegenstands zu extrahieren; und einen Bereichs-Extraktionsteil (604) zum Durchführen einer vorbestimmten Verarbeitung an dem erweiterten Bereich des Gegenstands, um einen Gegenstandsbereich zu extrahieren.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 9, wobei der Camcorder-Betriebslöschteil (601) eine Videoframe-Deformationseinrichtung zum Deformieren/Versetzen von benachbarten Bildframes basierend auf der Camcorder-Betriebsinformation aufweist, um eine Änderung/einen Versatz zu löschen, die/der durch den Camcorder-Betrieb verursacht ist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 9, wobei der Bilddaten-Komparator (602) eine Differenz-Verarbeitungseinrichtung zum Ausführen eines Differenzprozesses einer Helligkeit und einer Farbinformation zwischen benachbarten Bilddaten aufweist, von welchen die Camcorder-Operationen gelöscht sind, um eine Variation nur bezüglich einer Bewegung des Subjekts zu extrahieren.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 9, wobei der Bereichs-Extraktionsteil (604) folgendes aufweist: eine Binarisierungs-Verarbeitungseinrichtung zum Ausführen eines Binarisierungsprozesses des erweiterten Bereichs des Gegenstands; eine Etikettiereinrichtung zum Ausführen einer Etikettierung von Binarisierungsdaten, die dem Binarisierungsprozess unterzogen worden sind; eine Einrichtung zum Berechnen von physikalischen Merkmalen zum Berechnen von physikalischen Merkmalen für jeden etikettierten Bereich; und eine Kollationiereinrichtung bzw. Vergleichseinrichtung zum Kollationieren bzw. Vergleichen der berechneten physikalischen Merkmale, um den Gegenstandsbereich zu extrahieren.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 12, wobei der Gegenstand/Hintergrund-Trennteil (105) eine Hintergrunds-Extraktionseinrichtung zum Extrahieren des Hintergrunds durch Subtrahieren des Gegenstandsbereichs pro Frame, der durch den Bereichs-Extraktionsteil extrahiert ist, von dem Framebild aufweist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 12, wobei der Gegenstandsbewegungsinformations-Extraktionsteil (106) eine Kollationiereinrichtung zum Kollationieren von Mengen an physikalischen Merkmalen, die für jeweilige entsprechende Gegenstandsbereiche in benachbarten Frames berechnet sind, miteinander, wobei die Gegenstandsbereiche durch den Bereichs-Extraktionsteil extrahiert werden, und zum Vergleichen des Kollationierergebnisses mit einem vorbestimmten Zustand, um Stücke von Gegenstandsinformation zwischen benachbarten Frames miteinander zu korrelieren.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, 2 oder 3, wobei der Teil zum erneuten Synthetisieren von von einem Video eingenommenen Raum (107) eine Raumüberlagerungseinrichtung zum Überlagern von benachbarten Bildframes in einen kontinuierlichen von einem Video eingenommenen Raum pro Momentaufnahme durch Deformieren/Versetzen der benachbarten Bildframes basierend auf der durch den Camcorder-Betriebszustands-Erfassungsteil (103) erfassten Camcorder-Betriebsinformation aufweist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, 2 oder 3, wobei der Momentaufnahmen-zu-Momentaufnahmen-Bezugs-Berechnungsteil (108) eine Einrichtung zum Transformieren eines von einem Video eingenommenen Raums zum Transformieren des kontinuierlichen von einem Video eingenommenen Raums pro Momentaufnahme aufweist, der durch den Teil zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) erzeugt ist, um eine Größe und Positionen davon zwischen kontinuierlichen von einem Video eingenommenen Räumen gleich zu machen.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 1, wobei der Videostrukturinformations-Management/Speicher-Teil (109) eine Einrichtung zum räumlichen/zeitlichen Managen/Speichern durch Komprimieren von Daten von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundsinformation und der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation, von Videodaten und allen oder von einem Teil von von einem Video eingenommenen Räumen einer Vielzahl von Videos, die durch Verwenden der Camcorder-Betriebszustandsinformation, der Hintergrundinformation und der Moment-zu-Moment-Bezugsinformation, der Videodaten erneut synthetisiert sind, aufweist.
System zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 17, wobei der Videostrukturinformations-Management/Speicher-Teil (109) folgendes aufweist: eine Einrichtung zum Anordnen von wenigstens einer der zeitlich abgetasteten Gegenstandsinformation und der räumlich abgetasteten Gegenstandsinformation auf einem erneut synthetisierten Hintergrund, und eine Einrichtung zum Komprimieren von Daten von Bildinformation, die durch die Anordnungseinrichtung erhalten ist, als Standbild.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos, das folgendes aufweist: einen Bilddatenketten-Sicherungsschritt (102) zum Lesen von Videodaten einschließlich einer Vielzahl von Bildframes, um die Videodaten in einem Bilddatenketten-Speicherteil (102) zu sichern; gekennzeichnet durch: einen Camcorder-Betriebszustands-Erfassungsschritt (103) zum Lesen der Datenkette aus dem Bilddatenketten-Speicherteil und zum Erfassen von Camcorder-Betriebszustandsinformation einschließlich von Camcorder-Ein/Aus-Information und von Camcorder-Betriebsinformation unter Verwendung der Datenkette; einen Video-Aufteilschritt (104) zum Aufteilen von Videos der Datenkette in jeweilige Momentaufnahmen basierend auf der Camcorder-Ein/Aus-Information; einen Gegenstand/Hintergrund-Trennschritt (105) zum Trennen eines Gegenstands und eines Hintergrunds für jeden Frame der Videos durch Verwenden der Camcorder-Betriebsinformation und von physikalischen Merkmalen einschließlich wenigstens einer Helligkeit; einen Gegenstandsbewegungsinformations-Extraktionsschritt (106) zum Korrelieren von Gegenstandsinformation, die von jedem Frame getrennt ist, zwischen Frames; einen Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) zum erneuten Synthetisieren von von einem Video eingenommenen Räumen, von welchen die Videos aufgenommen sind, basierend auf der Camcorder-Betriebsinformation und dem von jedem Frame getrennten Hintergrund pro Momentaufnahme; einen Momentaufnahmen-zu-Momentaufnahmen-Bezugs-Berechnungsschritt (108) zum Berechnen von räumlichen Momentaufnahmen-zu-Momentaufnahmen-Bezügen zwischen einer Vielzahl von von einem Video eingenommenen Räumen, die jeweils durch den Schritt zum erneuten Synthetisieren von von einem Video eingenommenen Raum erneut synthetisiert worden sind; und einen Videostrukturinformations-Management/Speicher-Schritt (109) zum Managen/Speichern getrennter Gegenstandsinformation, korrelierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, von Hintergrundinformation und von Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 19, das weiterhin folgendes aufweist: einen Videostrukturinformations-Sende/Empfangs-Schritt (114) zum Senden oder Empfangen von allem oder einem Teil von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundinformation, der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation und der Videodaten.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 19 oder 20, das nach dem Videostrukturinformations-Management/Speicher-Schritt (109) weiterhin folgendes aufweist: einen Neu-Synthetisierschritt (110) zum erneuten Synthetisieren von einem oder mehreren von einem Video eingenommenen Räumen und von einem oder mehreren Gegenständen basierend auf gespeicherter/gemanagter Information gemäß einem oder beiden von vorbestimmten Zuständen und Anwenderanfragen; und einen Anzeige- oder Ausgabeschritt (111 oder 113) zum Anzeigen oder Ausgeben von Videos, die durch den Neusynthetisier-Schritt (110) erneut synthetisiert sind.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 19, 20 oder 21, wobei der Camcorder-Betriebszustands-Erfassungsschritt (103) folgendes aufweist: einen Linearkomponenten-Berechnungsschritt (201) zum Berechnen jeweiliger horizontaler/vertikaler Linearkomponenten von durch den Bilddatenketten-Speicherschritt (102) gelesenen Bildframes; einen Bilddaten-Neuanordnungsschritt (202) zum erneuten Anordnen von Bildern einschließlich der berechneten vertikalen Linearkomponenten und Bildern einschließlich der berechneten horizontalen Linearkomponenten der Bildframes jeweils in räumliche-zeitliche x-t-Projektionsbilder und räumliche-zeitliche y-t-Projektionsbilder; einem Videoinformations-Filterverarbeitungsschritt (203) zum Anwenden eines Filterprozesses auf die durch eine Neuanordnung abgeleiteten räumlichen-zeitlichen x-t/y-t-Projektionsbilder; einen Merkmals-Extraktionsschritt (204) zum Extrahieren von Merkmalen aus Ergebnissen des Filterprozesses; und einen Schritt zum statistischen Analysieren von Merkmalen (205) zum Erfassen der Camcorder-Ein/Aus-Information und der Camcorder-Betriebsinformation durch statistisches Analysieren der extrahierten Merkmale.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 22, wobei der Videoinformations-Filterschritt (203) Ränder oder Linien der Videoinformation von durch eine Neuanordnung erhaltenen Bilddaten erfasst.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 23, wobei der Merkmals-Extraktionsschritt (204) Merkmale durch Addieren von Information in Bezug auf erfasste Ränder oder Linien entlang jeweiliger normalen Richtungen der räumlichen-zeitlichen x-t-Projektionsbilder und der räumlichen-zeitlichen y-t-Projektionsbilder extrahiert.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 21, wobei der Schritt zum statistischen Analysieren von Merkmalen (205) irgendeine gerade Linie senkrecht zu der Zeitachse in den extrahierten Merkmalen erfasst, die als zweidimensionale Bilder mit der Zeitachse und einer Raumachse dargestellt sind, um die Camcorder-Ein/Aus-Information zu berechnen.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 21, wobei der Schritt zum statistischen Analysieren von Merkmalen folgendes aufweist: einen Korrelationsschritt zum Korrelieren von Raumkoordinaten (504, 505) der extrahierten Merkmale zu irgendwelchen zwei Momenten (T, T – 1) durch Vergleichen von räumlichen Verteilungen (502, 503) der extrahierten Merkmale, die auf zweidimensionalen Bildern mit der Zeitachse und der Raumachse dargestellt sind; und einen Camcorder-Betriebsparameter-Berechnungsschritt zum Berechnen von Camcorder-Betriebsparametern durch statistisches Verarbeiten der korrelierten Raumkoordinaten (504, 505).
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 19, 20 oder 21, wobei der Gegenstands/Hintergrunds-Trennschritt (105) folgendes aufweist: einen Camcorder-Betriebslöschschritt (601) zum Löschen des Camcorder-Betriebs zwischen benachbarten Bilddaten basierend auf der durch den Camcorder-Betriebszustands-Erfassungsschritt (103) erfassten Camcorder-Betriebsinformation; einem Bilddaten-Vergleichsschritt (602) zum Vergleichen der benachbarten Bilddaten, von welchen die Camcorder-Betriebsinformation gelöscht ist, und zum Berechnen einer Differenz zwischen den benachbarten Bilddaten, um eine Variation nur bezüglich einer Bewegung des Gegenstands zu extrahieren; einen Vergleichsbilddaten-Vergleichsschritt (603) zum Vergleichen von benachbarten Vergleichsbilddaten einschließlich einer Variation nur bezüglich einer Bewegung des Subjekts, um einen erweiterten Bereich des Subjekts zu extrahieren; und einen Bereichs-Extraktionsschritt (604), der eine vorbestimmte Verarbeitung auf dem erweiterten Bereich des Gegenstands durchführt, um einen Gegenstandsbereich zu extrahieren.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 27, wobei der Camcorder-Betriebslöschschritt (601) benachbarte Bildframes basierend auf der Camcorder-Betriebsinformation deformiert/versetzt, um eine Änderung/einen Versatz zu löschen, die/der durch den Camcorder-Betrieb verursacht ist.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 27, wobei der Bilddaten-Vergleichsschritt (602) einen Differenzprozess von Helligkeit und Farbinformation zwischen benachbarten Bilddaten ausführt, von welchen die Camcorder-Operationen gelöscht sind, um eine Variation nur bezüglich einer Bewegung des Gegenstands zu extrahieren.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 27, wobei der Bereichs-Extraktionsschritt (604) folgendes aufweist: einen Binarisierungs-Verarbeitungsschritt zum Ausführen eines Binarisierungsprozesses des erweiterten Bereichs des Gegenstands, einen Etikettierschritt zum Ausführen einer Etikettierung von Binarisierungsdaten, die dem Binarisierungsprozess unterzogen worden sind; einen Schritt zum Berechnen von physikalischen Merkmalen zum Berechnen von physikalischen Merkmalen für jeden etikettierten Bereich; und einen Kollationierschritt zum Kollationieren der berechneten physikalischen Merkmale, um den Gegenstandsbereich zu extrahieren.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 30, wobei der Gegenstand/Hintergrund-Trennschritt (105) den Hintergrund durch Subtrahieren des Gegenstandsbereichs pro Frame extrahiert, der durch den Bereichs-Extraktionsschritt vom Framebild extrahiert ist.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 30, wobei der Gegenstandsbewegungsinformations-Extraktionsschritt Mengen an physikalischen Merkmalen, die für jeweilige entsprechende Gegenstandsbereiche in benachbarten Frames berechnet sind, miteinander kollationiert, wobei die Gegenstandsbereiche durch den Bereichs-Extraktionsschritt extrahiert werden, und das Kollationsergebnis mit einem vorbestimmten Zustands vergleicht, um Stücke von Gegenstandsinformation miteinander zwischen benachbarten Frames zu korrelieren.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Ansprüchen 19, 20 oder 21, wobei der Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) benachbarte Bildframes in einen kontinuierlichen von einem Video eingenommenen Raum pro Momentaufnahme durch Deformieren/Versetzen der benachbarten Bildframes basierend auf der durch den Camcorder-Betriebszustands-Erfassungsteil (103) erfassten Camcorder-Betriebsinformation überlagert.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Ansprüchen 19, 20 oder 21, wobei der Momentaufnahmen-zu-Momentaufnahmen-Bezugs-Berechnungsschritt (108) den kontinuierlichen von einem Video eingenommenen Raum pro Momentaufnahme, der durch den Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) transformiert, um eine Größe und Positionen davon zwischen kontinuierlichen von einem Video eingenommenen Räumen gleichzumachen.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 19, wobei der Videostrukturinformations-Management/Speicher-Schritt (109) durch Komprimieren von Daten von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundinformation und der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation, von Videodaten, und alles oder einen Teil von von einem Video eingenommenen Räumen einer Vielzahl von Videos, die erneut synthetisiert sind, und zwar durch Verwenden der Camcorder-Betriebszustandsinformation, der Hintergrundinformation und der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation, der Videodaten, räumlich-zeitlich managt/speichert.
Verfahren zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 35, wobei der Videostrukturinformations-Management/Speicher-Schritt wenigstens eine von einer zeitlich abgetasteten Gegenstandsinformation und einer räumlich abgetasteten Gegenstandsinformation auf einem neu synthetisierten Hintergrund anordnet und durch die Anordnungseinrichtung erhaltene Bildinformation als Standbild einer Datenkompression unterzieht.
Computerlesbares Aufzeichnungsmedium mit einer Programmcodeeinrichtung zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos, das dann, wenn es auf einem Datenverarbeitungssystem läuft, die folgenden Schritte ausführt: einen Bilddatenketten-Sicherungsschritt (102) zum Lesen von Videodaten einschließlich einer Vielzahl von Bildframes, um die Videodaten in einem Bilddatenketten-Speicherteil (102) zu sichern; gekennzeichnet durch: einen Camcorder-Betriebszustands-Erfassungsschritt (103) zum Lesen der Datenkette aus dem Bilddatenketten-Speicherteil und zum Erfassen, unter Verwendung der Datenkette, von Camcorder-Betriebszustandsinformation einschließlich einer Camcorder-Ein/Aus-Information und einer Camcorder-Betriebsinformation; einen Video-Aufteilschritt (104) zum Aufteilen von Videos der Datenkette in jeweilige Momentaufnahmen basierend auf der Camcorder-Ein/Aus-Information; einen Gegenstand/Hintergrund-Trennschritt (105) zum Trennen eines Gegenstands und eines Hintergrunds für jeden Frame der Videos durch Verwenden der Camcorder-Betriebsinformation und von physikalischen Eigenschaften einschließlich wenigstens einer Helligkeit; einen Gegenstandsbewegungsinformations-Extraktionsschritt (106) zum Korrelieren von Gegenstandsinformation, getrennt von jedem Frame, zwischen Frames; einen Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) zum erneuten Synthetisieren pro Momentaufnahme von von einem Video eingenommenen Räumen, von welchen die Videos aufgenommen sind, basierend auf der Camcorder-Betriebsinformation und dem von jedem Frame getrennten Hintergrund; einen Momentaufnahmen-zu-Momentaufnahmen-Bezugs-Berechnungsschritt (108) zum Berechnen von räumlichen Momentaufnahmen-zu-Momentaufnahmen-Bezügen zwischen einer Vielzahl von von einem Video eingenommenen Räumen, die durch den Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums erneut synthetisiert worden sind; und einen Videostrukturinformations-Management/Speicher-Schritt (109) zum Managen/Speichern von getrennter Gegenstandsinformation, korrelierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, von Hintergrundinformation und von Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37, das weiterhin folgendes aufweist: einen Videostrukturinformations-Sende/Empfangs-Schritt (114) zum Senden oder Empfangen von allem oder einem Teil von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundinformation, der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation und der Videodaten.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37 oder 38, das nach dem Videostrukturinformations-Management/Speicher-Schritt (109) weiterhin folgendes aufweist: einen Neusynthetisierschritt (110) zum erneuten Synthetisieren von einem oder mehreren von einem Video eingenommenen Räumen und von einem oder mehreren Gegenständen basierend auf gespeicherter/gemanagter Information gemäß einem oder beiden von vorbestimmten Bedingungen und Anwenderanfragen; und einen Anzeige- oder Ausgabeschritt (111 oder 113) zum Anzeigen oder Ausgeben von durch den Neusynthetisierschritt (110) neu synthetisierten Videos.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37, 38 oder 39, wobei der Camcorder-Betriebszustands-Erfassungsschritt (103) folgendes aufweist: einen Linearkomponenten-Berechnungsschritt (201) zum Berechnen jeweiliger horizontaler/vertikaler Linearkomponenten von durch den Bilddatenketten-Speicherschritt (102) gelesenen Bildframes; einen Bilddaten-Neuanordnungsschritt (202) zum erneuten Anordnen von Bildern einschließlich der berechneten vertikalen Linearkomponenten und Bildern einschließlich der berechneten horizontalen Linearkomponenten der Bildframes jeweils in räumliche-zeitliche x-t-Projektionsbilder und räumliche-zeitliche y-t-Projektionsbilder; einen Videoinformations-Filterverarbeitungsschritt (203) zum Anwenden eines Filterprozesses auf die räumlichen-zeitlichen x-t/y-t-Projektionsbilder für Bilddaten, die durch eine Neuanordnung abgeleitet sind; einen Merkmals-Extraktionsschritt (204) zum Extrahieren von Merkmalen aus Ergebnissen des Filterprozesses; und einen Schritt zum statistischen Analysieren von Merkmalen (205) zum Erfassen der Camcorder-Ein/Aus-Information und der Camcorder-Betriebsinformation durch statistisches Analysieren der extrahierten Merkmale.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 39, wobei der Videoinformations-Filterschritt (203) Ränder oder Linien der Videoinformation von Bilddaten erfasst, die durch eine Neuanordnung erhalten sind.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 41, wobei der Merkmals-Extraktionsschritt (204) Merkmale durch Addieren von Information in Bezug auf erfasste Ränder oder Linien entlang jeweiliger normalen Richtungen der räumlichen-zeitlichen x-t-Projektionsbilder und der räumlichen-zeitlichen y-t-Projektionsbilder extrahiert.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 39, wobei der Schritt zum statistischen Analysieren von Merkmalen (205) irgendeine gerade Linie senkrecht zur Zeitachse in den extrahierten Merkmalen erfasst, die als zweidimensionale Bilder mit der Zeitachse und einer Raumachse dargestellt sind, um die Camcorder-Ein/Aus-Information zu berechnen.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 39, wobei der Schritt zum statistischen Analysieren von Merkmalen folgendes aufweist: einen Korrelationsschritt zum Korrelieren von Raumkoordinaten (504, 505) der extrahierten Merkmale zu irgendwelchen zwei Momenten (T, T – 1) durch Vergleichen einer räumlichen Verteilung (502, 503) der extrahierten Merkmale, die auf zweidimensionalen Bildern mit der Zeitachse und der Raumachse dargestellt sind, und einem Camcorder-Betriebsparameter-Berechnungsschritt zum Berechnen von Camcorder-Betriebsparametern durch statistisches Verarbeiten der korrelierten Raumkoordinaten (504, 505).
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Ansprüchen 37, 38 oder 39, wobei der Gegenstand/Hintergrund-Trennschritt (105) folgendes aufweist: einen Camcorder-Betriebslöschschritt (601) zum Löschen des Camcorder-Betriebs zwischen benachbarten Bilddaten basierend auf der durch den Camcorder-Betriebszustands-Erfassungsschritt (103) erfassten Camcorder-Betriebsinformation; einen Bilddaten-Vergleichsschritt (602) zum Vergleichen der benachbarten Bilddaten, von welchen die Camcorder-Betriebsinformation gelöscht ist, und zum Berechnen einer Differenz zwischen den benachbarten Bilddaten, um eine Variation nur bezüglich einer Bewegung des Gegenstands zu extrahieren, einen Vergleichsbilddaten-Vergleichsschritt (603) zum Vergleichen von benachbarten Vergleichsbilddaten einschließlich einer Variation von nur bezüglich einer Bewegung des Gegenstands, um einen erweiterten Bereich des Gegenstands zu extrahieren, und einen Bereichs-Extraktionsschritt (604) zum Durchführen einer vorbestimmten Verarbeitung an dem erweiterten Bereich des Gegenstands, um einen Gegenstandsbereich zu extrahieren.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 45, wobei der Camcorder-Betriebs-Löschschritt (601) benachbarte Bildframes basierend auf der Camcorder-Betriebsinformation deformiert/versetzt, um eine Änderung/einen Versatz, die/der durch den Camcorder-Betrieb verursacht ist, zu löschen.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 45, wobei der Bilddaten-Vergleichsschritt (602) einen Differenzprozess von Helligkeit und Farbinformation zwischen benachbarten Bilddaten ausführt, von welchen die Camcorder-Operationen gelöscht sind, um eine Variation nur bezüglich einer Bewegung des Gegenstands zu extrahieren.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 45, wobei der Bereichs-Extraktionsschritt (604) folgendes aufweist: einen Binarisierungs-Verarbeitungsschritt zum Ausführen eines Binarisierungsprozesses des erweiterten Bereichs des Gegenstands; einen Etikettierschritt zum Ausführen einer Etikettierung von Binarisierungsdaten, die dem Binarisierungsprozess unterzogen worden sind; einen Schritt zum Berechnen von physikalischen Merkmalen zum Berechnen von physikalischen Merkmalen für jeden etikettierten Bereich; und einen Kollationierschritt zum Kollationieren der berechneten physikalischen Merkmale, um den Gegenstandsbereich zu extrahieren.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 48, wobei der Gegenstand/Hintergrund-Trennschritt (105) den Hintergrund durch Subtrahieren des Gegenstandsbereichs pro Frame, der durch den Bereichs-Extraktionsschritt extrahiert ist, vom Framebild extrahiert.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 48, wobei der Gegenstandsbewegungsinformations-Extraktionsschritt Mengen an physikalischen Merkmalen, die für jeweilige entsprechende Gegenstandsbereiche in benachbarten Frames berechnet sind, miteinander kollationiert, wobei die Gegenstandsbereiche durch den Bereichs-Extraktionsschritt extrahiert werden, und das Kollationsergebnis mit einem vorbestimmten Zustand vergleicht, um Stücke von Gegenstandsinformation miteinander zwischen benachbarten Frames zu korrelieren.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37, 38 oder 39, wobei der Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) benachbarte Bildframes in einen kontinuierlichen von einem Video eingenommenen Raum pro Momentaufnahme durch Deformieren/Versetzen der benachbarten Bildframes basierend auf der durch den Camcorder-Betriebszustands-Erfassungsschritt (103) erfassten Camcorder-Betriebsinformation überlagert.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37, 38 oder 39, wobei der Momentaufnahmen-zu-Momentaufnahmen-Bezugs-Berechnungsschritt (108) den kontinuierlichen von einem Video eingenommenen Raum pro Momentaufnahme, der durch den Schritt zum erneuten Synthetisieren eines von einem Video eingenommenen Raums (107) erzeugt ist, transformiert, um eine Größe und Positionen davon zwischen kontinuierlichen von einem Video eingenommenen Räumen gleich zu machen.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 37, wobei der Videostrukturinformations-Management/Speicher-Schritt (109) durch Komprimieren von Daten von extrahierter Gegenstandsinformation, der Camcorder-Betriebszustandsinformation, der Hintergrundinformation und der Momentaufnahmen-zu-Momentaufnahmen-Bezugsinformation, von Videodaten und alles oder einen Teil von von einem Video eingenommenen Räumen einer Vielzahl von Videos, die erneut synthetisiert sind, und zwar durch Verwenden der Camcorder-Betriebszustandsinformation, der Hintergrundinformation und der Momentaufnahmen-zu- Momentaufnahmen-Bezugsinformation, der Videodaten, räumlich-zeitlich managt/speichert.
Computerlesbares Aufzeichnungsmedium zum Aufzeichnen eines Programms zum räumlichen-zeitlichen Integrieren/Managen einer Vielzahl von Videos nach Anspruch 35, wobei der Videostrukturinformations-Management/Speicher-Schritt wenigstens eines von zeitlich abgetasteter Gegenstandsinformation und räumlich abgetasteter Gegenstandsinformation auf einem neu synthetisierten Hintergrund anordnet und durch die Anordnungseinrichtung erhaltene Bildinformation als Standbild einer Datenkompression unterzieht.