DE19753296B4

DE19753296B4 - Verfahren und System zum Verarbeiten von Textdaten in einem Videosignal

Info

Publication number: DE19753296B4
Application number: DE19753296A
Authority: DE
Inventors: William S. Newark Herz
Original assignee: S3 Inc
Current assignee: S3 Graphics Co Ltd
Priority date: 1996-12-03
Filing date: 1997-12-01
Publication date: 2007-06-06
Anticipated expiration: 2017-12-02
Also published as: DE19753296A1; US5914719A; JP4074698B2; JPH10224748A

Abstract

Verfahren zum Verarbeiten von Textdaten in einem Videosignal mit folgenden Verfahrensschritten:
(a) Extrahieren der Textdaten aus einem Videosignal;
(b) Puffern der Textdaten für ein Halbbild abwechselnd in einem ersten und einem zweiten Puffer und erneut Senden der Textdaten während des nächsten Halbbilds, um ein Lesen der richtigen Daten sicherzustellen;
(c) Addieren eines Identifikators zu den Textdaten;
(d) Speichern der Textdaten;
gleichzeitig mit den Schritten (b) und (c):
(e) Addieren eines Identifikators zu Video- und Audiodaten, wodurch die Video- und Audiodaten mit den Textdaten verbunden werden;
(f) Speichern der Video- und Audiodaten.

Description

Der Gegenstand dieser Anmeldung ist verwandt mit dem Gegenstand der US-Patentanmeldung Nr. US 5,883,675 mit dem Titel "Closed Captioning Processing Architecture", die am 9. Juli 1996 von William S. Herz und Sunil S. Mahajan eingereicht wurde.
Die vorliegende Erfindung betrifft die Verarbeitung von Closed-Caption-Daten in einem Grafiksystem und spezieller die Indexierung und Speicherung von Closed-Caption-Daten aus den vertikalen Austastlücken. Der Begriff Closed-Caption wird in den US-amerikanischen und anderen Fernsehnormen für die Bezeichnung von Daten verwendet, die in die vertikale Austastlücke (während der Zeit, in der der Elektronenstrahl vom unteren zum oberen Rand des Bildschirms läuft) eingefügt und zusammen mit dem normalen Fernsehsignal übermittelt werden. Closed-Caption-Daten können von dem Fernsehempfänger extrahiert und als Text auf dem Bildschirm dargestellt werden. Closed-Caption-Daten werden bei der Fernsehübertragung z.B. dazu verwendet, Untertitel zusammen mit dem eigentlichen Videosignal zu übertragen.
Bilddaten enthalten häufig Daten, wie Closed-Caption-Textdaten, die während der vertikalen Austastlücke (VBI = Vertical Blanking Interval) übertragen werden. Die Closed-Caption-Textdaten werden üblicherweise während der Zeil 21 entweder des ungeraden oder des geraden Halbbildes des Video-Einzelbildes (Frame) im NTSC-Format (NTSC = National Television Standards Committee) übertragen. Closed-Caption-Decoder isolieren die Textdaten von dem Videosignal, decodieren die Textdaten und Formatieren die Daten neu, um sie simultan mit den Videodaten auf einem Fernsehschirm anzuzeigen. Solche Closed-Caption-Decoder verarbeiten die Textdaten getrennt von einem Videosignal. Die Closed-Caption-Daten werden im wesentlichen in Echtzeit angezeigt.

Es ist wünschenswert, ein Multimediasystem vorzusehen, welches sowohl Grafik als auch Bilddaten und VBI-Daten digital verarbeitet und anzeigt. Die GUI-Beschleunigungsvorrichtung (GUI = Graphical User Interface = Grafikbenutzer-Schnittstelle) soll die Closed-Caption-Daten vorzugsweise ähnlich verarbeiten und speichern wie bei der Verarbeitung und Speicherung der Bilddaten. Ferner wird ein Verfahren zum Indexieren, Sortieren und Verknüpfen von verarbeiteter Bilddaten mit den Closed-Caption-Daten gewünscht.

Die EP 0 648 054 A2 offenbart ein Fernseh–Darstellungssystem, das einen Fernsehsignalempfänger zum Empfangen eines Fernsehsignals aus einer externen Quelle, einen Dekoder für verborgene Untertitel, der aus dem genannten Fernsehsignal den Textdatenstrom eines verborgenen Untertitels extrahiert, Mittel, um von einem Nutzer ein oder mehrere Suchparameter zum empfangen, wobei die genannten Suchparameter den Informationsgehalt darstellen, der für den Nutzer von Interesse ist, Mittel, um in dem genannten Textdatenstrom Textdaten zu suchen, die mit einem oder mehreren Suchparameter übereinstimmen, und Mittel umfaßt, um ein oder mehrere Segmente des genannten Fersehsignals zu kennzeichnen, wobei jedes genannte Segment aus Bild- und Tonanteilen besteht und dem Vorkommen der genannten Textdaten entspricht, die mit den genannten ein oder mehreren genannten Suchparameter übereinstimmen.

Die WO 96/122 39 A1 offenbart ein Verfahren zum Erzeugen einer unabhängigen digitalen Bibliothek aus existierenden Audiodaten und Videobildern mit den Schritten eines Transkribierens der Audiodaten und Markieren der transkribierten Audiodaten mit einer ersten Gruppe Zeitmarken, Versehens der transkribierten Tondaten mit Indizes, Digitalisieren der Videodaten und Markieren der digitalisierten Videodaten mit einer zweiten Gruppe Zeitmarken, welche zu der ersten Gruppe Zeitmarken in Beziehung steht, und eines Segmentierens der digitalisierten Videodaten in Abschnitte gemäß einem Regelsatz, wobei der Regelsatz auf einer Szenencharakterisierung der Videobilder und der Verarbeitung der Audiodaten beruht, wobei die indexierten Audiodaten und die segmentierten digitalisierten Videodaten mit ihren jeweiligen Zeitmarken gruppengespeichert werden, um die digitale Bibliothek aufzubauen, auf die über die indexierten Audiodaten zugegriffen werden kann, ohne auf die existierenden Audiodaten und Videobilder zurückzugreifen.

Die DE 44 05 020 C1 offenbart ein Verfahren zum Empfangen von in einem Fernsehsignal übernagenen Daten, bei dem aus dem Fernsehsignal ein Datenstrom abgetrennt, die zu jeweils einer Seite gehörenden Daten gesammelt und die so zusammengestellten Seiten zwischengespeichert werden, wobei in dem Datenstrom eine oder mehrere gesonderte Seiten mit Listen übertragen und vom Dekoder empfangsseitig ausgewertet werden, wobei in der gesonderten Seite Adressierungsinformationen und entsprechende Kennungen für Bild- und/oder Tondaten enthalten sind, welche in dem Datenstrom übertragen werden, und die gesonderten Seiten ferner Suchworte und die den Suchworten jeweils zugeordneten Textseitennummern enthalten, und wobei bei Anwahl eines besonders markierten Suchworts in einer vom Benutzer se lektierten Textseite durch den Benutzer ein Selektionsprozeß initialisiert wird, bei weichem in der gesonderten Seite unter der Seitennummer der selektierten Textseite das ausgewählte Suchwort und die zugehörige Adressierungsinformation selektiert werden und aufgrund der selektierten Adressierungsinformation die zugehörigen Bild- bzw. Tondaten abgerufen und entsprechend der Kennung wiedergegeben werden.

Das Verfahren gemäß der vorliegenden Erfindung verarbeitet Textdaten in einem Videosignal. Das Verfahren umfaßt die folgenden Verfahrensschritte: Extrahieren der Textdaten aus einem Videosignal; Addieren eines Identifikators zu den Textdaten; und Speichern der Textdaten. Gleichzeitig mit den Additions- und Speicherschritten umfaßt das Verfahren auch die Addition des Identifikators zu den Bild- und Audiodaten (Video- und Audiodaten) und das Speichern der Bild- und Tondaten. Der zu den Bild- und Tondaten addierte Identifikator verbindet die zugehörigen Textdaten mit den Bild- und Tondaten.

Die gespeicherten Textdaten werden nach Textdaten abgefragt, welche zu einer von einem Benutzer ausgewählten Eingabe passen. Die zu der Benutzereingabe passenden Textdaten werden wiedergewonnen.

Die Bild- und Tondaten, die einen Identifikator aufweisen, der mit dem Identifikator der wiedergewonnenen Textdaten übereinstimmt, werden ebenfalls wiedergewonnen. Die wiedergewonnenen Bilddaten werden angezeigt und die Tondaten werden abgespielt. Die wiedergewonnenen Textdaten können gedruckt werden.

Der Identifikator gibt die verstrichene Zeit der Textdaten, eines Abschnitts (Clip), einer Bezeichnung (Label) oder eines Benutzerkommentars im Verhältnis zu einer Bezugszeit an.

Gemäß der vorliegenden Erfindung wird auch ein System vorgesehen, das Textdaten in einem Videosignal verarbeitet und anzeigt. Eine Decoderschaltung extrahiert die Textdaten aus dem Videosignal und addiert einen Identifikator zu den Textdaten, wobei gleichzeitig mit dieser Addition das System den Identifikator auch zu den Bild- und Tondaten addiert. Eine Speicherstruktur, wie eine Festplatte, speichert die Textdaten sowie die Bild- und Tondaten.

Ein Hostprozessor empfängt eine vom Benutzer ausgewählte Eingabe und sucht die Festplatte nach den gespeicherten Textdaten ab, welche zu der Benutzereingabe passen, und er ruft die zu der Benutzereingabe passenden Textdaten auf.

Der Hostprozessor gewinnt ferner die Bild- und Tondaten von der Festplatte wieder, welche einen zu dem Identifikator der wiedergewonnenen Textdaten passenden Identifikator haben. Eine Anzeige zeigt die wiedergewonnenen Bilddaten an, und die wiedergewonnenen Tondaten werden abgespielt. Der Hostprozessor liefert die wiedergewonnenen Textdaten an ein externes Druckgerät. Der Identifikator kann die verstrichene Zeit der Textdaten, eines Abschnitts, einer Bezeichnung oder eines Benutzerkommentars im Verhältnis zu einer Bezugszeit angeben.

Die Erfindung ist im folgenden anhand bevorzugter Ausführungsformen mit Bezug auf die Zeichnung näher erläutert. In den Figuren zeigt:

1 ein Blockdiagramm eines Grafikanzeigesystems;

2 zeigt ein Blockdiagramm der Speicherstruktur zum Speichern der VBI-Daten;

3 zeigt ein Flußdiagramm der Speicheroperation für die VBI-Daten auf einer Festplatte des Grafikanzeigesystems der 1;

4 zeigt ein Flußdiagramm der Datenwiedergewinnungsoperation des Grafikanzeigesystems der 1;

5a und 5b zeigen Flußdiagramme der Suchroutine der Datenwiedergewinnungsoperation der 4;

6 zeigt ein Flußdiagramm der Umsetzungsgeneratorroutine der Datenwiedergewinnungsoperation der 4; und

7 zeigt ein Blockdiagramm der Digitalisier- und Decodierschaltung des Grafikanzeigesystems der 1.

In 1 ist ein Blockdiagramm gezeigt, welches ein Grafikanzeigesystem 100 wiedergibt, das eine Digitalisier- und Decodierschaltung 102, einen Benutzerschnittstellen-Grafik-Beschleuniger 104 (GUI-Beschleuniger; GUI = Graphical User Interface), einen Digital-Analog-Wandler 106 (DAC), eine Grafikanzeige 108, ein Einzelbildpuffer 110, einen Bus 112, eine Festplatte 114, einen Hostprozessor 116, einen I²C-Bus 118 und einen Pixelbus 120 aufweist. Anstelle der Festplatte 114 kann selbstverständlich auch ein anderer beschreibbarer, nicht-flüchtiger Speicher verwendet werden. Der Bus 112 kann z.B. ein PCI-Bus (PCI = Peripheral Components Interconnection; Bus zum Anschließen von Peripheriekomponenten) sein. Das Grafikanzeigesystem 100 verarbeitet Videosignale und gewinnt Textdaten oder Closed-Caption-Daten aus den Videosignalen und verarbeitet diese. Der Einfachheit und Klarheit halber ist das Grafikanzeigesystem 100 hier in Bezug auf die Verarbeitung von Closed-Caption-Daten beschrieben. Die Anforderungen für Closed-Caption-Daten sind in dem United States Closed Captioning Standard niedergelegt, der von der Federal Communications Commission definiert wird. Das System 100 kann jedoch auch Textdaten in den Videosignalen oder der vertikalen Austastlücke (VBI = Vertical Blanking Interval) verarbeiten. Das Grafikanzeigesystem 100 kann z.B. Teil eines Rechners sein, wie eines Personal Computers oder eines Rechners, der eine Schnittstelle zu einem globalen Datenübertragungsnetz bildet, z.B. eine Schnittstelle zu dem Internet.
In einem ersten Betriebsmodus werden die decodierten Closed-Caption-Daten in einem Register (Register 728 in 7) in der Digitalisier- und Decodierschaltung 102 gespeichert, und der GUI-Beschleuniger 104 liest die gespeicherten Closed-Caption-Daten über den I²C-Bus 118, der eine bidirektionale Verbindung zwischen dem GUI-Beschleuniger 104 und der Digitalisier- und Decodierschaltung 102 bildet. Der I²C-Bus 118 ist ein Bus, der mit einem allgemein bekannten Protokoll von Philips arbeitet. Der GUI-Beschleuniger 104 dient als ein I²C-Bus-Master. Dieser erste Betriebsmodus ist gut bekannt und wird vom Fachmann verstanden werden. In einem zweiten Betriebsmodus steuert der Hostprozessor 116 den GUI-Beschleuniger 104, um die Closed-Caption-Daten mit dem Einzelbildpuffer 110 einzufangen.
Im zweiten Betriebsmodus extrahiert die Digitalisier- und Decodierschaltung 102 die Textdaten aus dem Videosignal. Das Videosignal wird im übrigen auf herkömmliche Weise verarbeitet und formatiert, wobei eine Skalierung oder eine andere Datenmanipulation vorgenommen werden kann. Die Digitalisier- und Decodierschaltung 102 speichert die Textdaten für das aktuelle Einzelbild und liefert die Textdaten für das vorhergehende Einzelbild an den GUI-Beschleuniger 104 über den Pixelbus 120. Die Digitalisier- und Decodierschaltung 102 formatiert die Textdaten, so daß der GUI-Beschleuniger 104 die Textdaten zusammen mit dem Videosignal überträgt, ohne durch die Videofilterung einen Teil des Inhalts zu verlieren. Die Digitalisier- und Decodierschaltung 102 umfaßt auch einen Identifikator, der anzeigt, ob Textdaten von der Platte abgerufen oder auf der Anzeige angezeigt werden sollen. Der Identifikator ist vorzugsweise entweder ein Abruf-Gültig-Bit oder ein Anzeige-Gültig-Bit. Die Digitalisier- und Decodierschaltung 102 kann z.B. wie die Digitalisier- und Decodierschaltung aufgebaut sein, die in der US-Patentanmeldung Nr. 5,883,675 mit dem Titel "Closed Captioning Processing Architecture" beschrieben ist, die am 9. Juli 1996 von William S. Herz und Sunil S. Mahajan eingereicht wurde, und auf deren Gegenstand hier Bezug genommen wird, der im wesentlichen auch in Verbindung mit 7 unten beschrieben ist.
Abhängig von vielen Befehlen von dem Hostprozessor 116 empfängt der GUI-Beschleuniger 104 Video- und Textdaten von der Digitalisier- und Decodierschaltung 102 über den Pixelbus 120, speichert die Daten in dem Einzelbildpuffer 110 und erzeugt Grafikdaten aus den Daten von der Digitalisier- und Decodierschaltung 102 oder von dem Einzelbildpuffer 110. Der Hostprozessor 116 kann z.B. ein Pentium -Prozessor sein, der von der Intel Corporation aus Santa Clara, Californien, USA, hergestellt wird. Der GUI-Beschleuniger 104 kann z.B. ein herkömmlicher GUI-Beschleuniger mit einem Video-Pixelbus-Eingang sein, wie das GUI-Beschleunigermodell 86C968, der von der S3, Inc. aus Santa Clara, Californien, USA, hergestellt wird. Der Einzelbildpuffer 110 kann z.B. ein herkömmlicher Video-Direktzugriffsspeicher (VRAM = Video Random Access Memory) sein. Die Größe des Einzelbildpuffers 110 hängt von der Auflösung und dem Format sowohl der Videodaten als auch der Grafikdaten ab.
Der GUI-Beschleuniger 104 erzeugt eine vertikale Synchronisationsunterbrechung (Vsync-Unterbrechung) abhängig von dem vertikalen Synchronisationssignal (Vsync-Signal) in dem Videosignal, das von der Digitalisier- und Decodierschaltung 102 empfangen wird. Der Hostprozessor 116 bedient die Vsync-Unterbrechung durch Ausführen einer Unterbrechungs-Serviceroutine, die unten beschrieben ist. Der Hostprozessor 116 verwendet die Vsync-Unterbrechung zum Ermitteln des Zeitpunktes der Zeile, welche die Closed-Caption-Daten enthält, und liest dann diese Zeile aus dem Einzelbildpuffer 110. In dieser Beschreibung ist die Zeile, welche die Closed-Caption-Daten enthält, die Zeile 21. Die vorliegende Erfindung ist jedoch nicht auf die Zeile 21 beschränkt. Zusätzlich können die Daten Textdaten oder andere digitale Daten sein, die auf anderen Videozeilen codiert sind.
Die Latenzzeit der Serviceroutine für die Vsync-Unterbrechung ist nicht vorhersagbar. Insbesondere die Zeitdifferenz zwischen der Vsync-Unterbrechung, dem Auftreten der Closed-Caption-Daten auf der Zeile 21 und der Beendigung der Serviceroutine kann von dem Hostprozessor 116, der die Closed- Caption-Daten aus dem Einzelbildpuffer 110 liest, nicht immer im voraus ermittelt werden. Um sicherzustellen, daß der Hostprozessor 116 die richtigen Daten liest, puffert die Digitalisier- und Decodierschaltung 102 die Daten für ein Halbbild und sendet die Closed-Caption-Daten im nächsten Halbbild erneut. Zusätzlich umfassen die Daten von der Digitalisier- und Decodierschaltung 102 ein Gültig-Bit, das angibt, ob die in dem Einzelbildpuffer 110 gespeicherten Daten der Zeile 21 gültige Closed-Caption-Daten sind, die nicht vorher schon während der Ausführung einer Unterbrechung (Interrupt) gelesen wurden. Der Hostprozessor 116 setzt auch das Gültig-Bit über den I²C-Bus 118 zurück, nachdem die Textdaten verarbeitet worden sind.
Der Digital-Analog-Wandler 106 transformiert die digitalen Daten von dem GUI-Beschleuniger 104 in ein Anzeigeformat für die Darstellung auf der Anzeige 108. Der Digital-Analog-Wandler 106 kann z.B. ein DAC485 sein, der von Booktree hergestellt wird. Die Anzeige 108 ist eine herkömmliche Anzeige.
In 2 ist ein Blockdiagramm wiedergegeben, das die Speicherstruktur zum Speichern der VBI-Daten zeigt. Die Speicherstruktur umfaßt einen Textdatenspeicher 202, einen Bild- und Tondatenspeicher 204, ein Suchmodul 206, eine Video/Audio-Steuereinrichtung 208, einen Umsetzungsgenerator 210, und eine Such-Treffer-Tabelle 212. Der Textdatenspeicher 202 und der Bild- und Tondatenspeicher 204 können z.B. Teil der Festplatte 114 sein. Der Textdatenspeicher 202 speichert die Textdaten 214 und einen Identifikator 216, den er vom Hostprozessor 116 empfängt. Die Textdaten werden für die Wiedergewinnung auf der Platte 114 gespeichert und für die Anzeige in dem Einzelbildpuffer 110 abgelegt. Der Identifikator 216 kann z.B. eine Zeitmarke sein, wie ein SMPTE-Zeitcode. Die Textdaten 214 können in einem ASCII-Format gespeichert sein.
Der Bild- und Tondatenspeicher 204 speichert die Bilddaten 218 und die Tondaten 220 aus dem Videosignal und einen Identifikator 222. Der Identifikator 222 kann äquivalent zu dem Identifikator der Textdaten sein, oder er kann eine Verbindung zwischen den Bild- und Tondaten zu den zugehörigen Textdaten schaffen, wie ein SMPTE-Zeitcode oder ein Einzelbildzähler.
Das Suchmodul 206 ist ein Programm zum Absuchen des Textdatenspeichers 202 nach Textdaten 214, welche mit vom Benutzer ausgewählten Daten übereinstimmen. Die Video/Audio-Steuereinrichtung 208 ist ein Programm, das Bild- und Tondaten von dem Bild- und Tondatenspeicher 204 speichert und wiedergewinnt. Die Such-Treffer-Tabelle 212 speichert die Identifikatoren 202 der Textdaten, welche die Suchanforderungen erfüllen. Der Umsetzungsgenerator 210 ist ein Programm, das eine Umsetzung der Textdaten erzeugt, die nahe bei den vom Benutzer ausgewählten Begriffen liegen.
In 3 ist ein Flußdiagramm gezeigt, welches den Ablauf beim Speichern der VBI-Daten in dem Speicher des Grafikanzeigesystems 100 wiedergibt. Die Digitalisier- und Decodierschaltung 102 extrahiert 302 die Textdaten aus dem empfangenen Videosignal. Der GUI-Beschleuniger 104 addiert 304 einen Identifikator 216 zu den Textdaten und speichert 306 die Textdaten in dem Textdatenspeicher 202.
Gleichzeitig mit der Extraktion 302, der Addition 304 und der Speicherung 306 addiert 308 die Digitalisier- und Decodierschaltung 102 einen Identifikator 222 zu den Bild- und Tondaten. Der Identifikator 216 verbindet die Bild- und Tondaten mit den zugehörigen Textdaten über den Identifikator 222. Der GUI-Beschleuniger 104 speichert 310 die Bild- und Tondaten in dem Bild- und Tondatenspeicher 204. Die Textdaten können unabhängig von den Bilddaten gespeichert werden, so daß die Textdaten unverändert bleiben können und unabhängig von irgendwelchen Skalierungen, die mit den Videodaten durchgeführt werden, verwendet werden können.
Die Textdaten können während mehrerer Einzelbilder der Videodaten auftreten. Die Digitalisier- und Decodierschaltung 102 verwendet daher mehrere Einzelbilder zum Erfassen der Textdaten. Die Digitalisier- und Decodierschaltung 102 richtet die Textdaten mit den Videodaten mit Hilfe der Identifikatoren 216 und 222 aus.
Die Textdaten können komprimiert werden, wobei die Daten dann vor der Speicherung codiert werden. Bei einem MPEG-System kann der Datenkanal verschlüsselt und entschlüsselt werden.
In 4 ist ein Flußdiagramm des Betriebs der Datenwiedergewinnung des Grafikanzeigesystems der 1 gezeigt. Das Grafikanzeigesystem 100 liefert die Textdaten in Echtzeit, kann die Textdaten für die spätere Wiedergewinnung speichern und kann eine Umsetzung (Transskript) ausgewählter Teile der Textdaten vorsehen.
Der Hostprozessor 116 empfängt 402 einen vom Benutzer ausgewählten Befehl und führt abhängig davon ein Programm aus. Wenn 404 der vom Benutzer ausgewählte Befehl z.B. ein Anzeigebefehl ist, fordert der Benutzer an, daß das Grafikanzeigesystem 100 die Textdaten in Echtzeit anzeigt. Abhängig von dem Anzeigebefehl weist der Hostprozessor 116 den GUI-Beschleuniger 104 an, die Textdaten in Echtzeit an den Digital-Analog-Wandler 106 für die Anzeige durch das Grafiksystem 108 zu liefern. Der GUI-Beschleuniger 104 umfaßt einen üblichen digitalen Videodecoder (nicht gezeigt), der aus der analogen Darstellung die digitalen Daten oder die digitale Darstellung der digitalen Daten abstrahiert und diese Daten in ASCII-Zeichen umwandelt, um sie nach Bedarf anzuzeigen oder zu verschlüsseln. Selbstverständlich kann der GUI-Be schleuniger 104 auch die Textdaten zusammen mit der Echtzeit-Anzeige in dem Einzelbild-Puffer 110 speichern.
Wenn 408 der von dem Benutzer ausgewählte Befehl ein Suchbefehl ist, führt der Hostprozessor 116 eine Suchroutine aus 410, die unten in Verbindung mit den 5a–5b beschrieben ist.
Wenn 412 der von dem Benutzer ausgewählte Befehl ein Umsetzungsbefehl ist, führt der Hostprozessor 116 eine Umsetzungs-Erzeugungsroutine aus 414, die unten in Verbindung mit 6 beschrieben ist. Selbstverständlich kann der Hostprozessor 116 sowohl die Suchroutine als auch die Umsetzungserzeugung ausführen.
In den 5a und 5b sind Flußdiagramme gezeigt, welche die Suchroutine der Daten-Wiedergewinnungsoperationen der 4 zeigen. Der Hostprozessor 116 zeigt eine Anforderung nach Suchbegriffen an 502. Der Hostprozessor 116 empfängt 504 die vom Benutzer ausgewählten Suchbegriffe. Der Hostprozessor 116 sucht Textaufzeichnungen nach Aufzeichnungen ab 506, welche zu den Suchbegriffen passen. Wenn ein Treffer auftritt 508, speichert 510 der Hostprozessor 116 einen Identifikator für den Treffertext in einer Such-Treffer-Tabelle (muß in der Zeichnung hinzugefügt werden). Das Absuchen wird fortgesetzt, bis die letzte Aufzeichnung abgesucht (oder gescannt) wurde 512. Bei einer alternativen Vorgehensweise kann der Hostprozessor 116 das Absuchen nach dem ersten Treffer beenden.
Der Hostprozessor 116 zeigt die Suchergebnisse an 514, die eine Einzelbildnummer, einen SMPTE-Zeitcode, einen Abschnittnamen, Benutzerkommentare oder dergleichen umfassen können. Der Hostprozessor 116 empfängt 516 eine Benutzerauswahl, welche die von dem Benutzer ausgewählte Textaufzeichnung angibt. Diese Auswahl kann auf verschiedene Arten durchgeführt werden, z.B. durch Bewegen eines Cursors und Auswählen der angezeigten Aufzeichnung mittels des Cursors oder durch Eingeben einer Zahl, die der Aufzeichnung entspricht.
Der Hostprozessor 116 ruft die Textdaten, Bilddaten und Tondaten ab 518, die der Auswahl des Benutzers entsprechen. Die wiedergewonnenen Daten können z.B. Daten sein, die innerhalb eines vorgegebenen Bereiches oder eines vom Benutzer ausgewählten Bereiches des ausgewählten Treffertextes liegen. Der Text kann z.B. Text sein, der zwischen 5 Sekunden vor und 20 Sekunden nach dem ausgewählten Treffertext auftritt. Der Hostprozessor 116 zeigt die Textdaten und Bilddaten an 520 und spielt die Tondaten ab.
In 6 ist ein Flußdiagramm gezeigt, das die Umsetzungs-Erzeugungsroutine der Datenwiedergewinnungsoperationen der 4 darstellt. Der Hostprozessor 116 empfängt 602 vom Benutzer ausgewählte Begriffe. Der Hostprozessor 116 sucht den Speicher nach Textaufzeichnungen ab 604, die zu den vom Benutzer ausgewählten Begriffen passen. Der Hostprozessor 116 liefert die wiedergewonnenen Textaufzeichnungen für das Anzeigen 606 der ausgewählten Textaufzeichnungen an die Anzeige. Der Hostprozessor 116 empfängt 608 eine Benutzerauswahl, die eine der angezeigten Textaufzeichnungen angibt. Der Hostprozessor 116 liefert 610 die ausgewählten Textaufzeichnungen an ein externes Gerät (nicht gezeigt), wie einen Drucker zum Drucken der ausgewählten Textaufzeichnungen, um eine Umsetzung (Transkript) des ausgewählten Teils der Textdaten vorzusehen. Alternativ kann die Umsetzung auf der Anzeige 106 angezeigt werden.
Eine von dem Hostprozessor 116 ausgeführte Datenverwaltungs-Softwareroutine fügt den Identifikator hinzu, wenn die Textdaten auf die Platte 114 geschrieben werden. Um den Text anzuzeigen, extrahiert der GUI-Beschleuniger 104 den ASCII- Text aus den Closed-Caption-Daten und bildet den ASCII-Text auf Buchstaben ab, die verschlüsselt und dem Videosignal überlagert werden.
7 zeigt ein Blockdiagramm der Digitalisier- und Decodierschaltung 102, die eine automatische Verstärkungsregel-(AGC = Automatic Gain Control) und Begrenzungsschaltung 702, einen Closed-Caption-Decoder 704, einen Closed-Caption-Prozessor 706, einen Videosignalprozessor 708 und einen Ausgangsprozessor 710 umfaßt. Das analoge Videosignal wird an die automatische Verstärkungsregel- und Begrenzungsschaltung 702 angelegt, welche eine übliche automatische Verstärkungsregelung und Begrenzung (Clamping) mit dem empfangenen analogen Videosignal durchführt, um ein modifiziertes Videosignal zu erzeugen. Dieses modifizierte Videosignal wird sowohl an den Closed-Caption-Decoder 704 als auch den Videosignalprozessor 708 angelegt.
Der Closed-Caption-Decoder 704 für extrahiert die Closed-Caption-Daten aus dem modifizierten Videosignal. Der Closed-Caption-Decoder 704 umfaßt eine Vergleicherschaltung 712, eine phasenstarre Schleife 714, einen Zeile 21-Detektor und Zeitgeber 716, ein Signalfreischalt-UND-Gatter 718, ein Eingangsfreischalt-UND-Gatter 719 und ein Seriell-Parallel-Schieberegister 720. Die Vergleicherschaltung 712 vergleicht das modifizierte Videosignal mit vorgegebenen Werten, um die Textdaten in dem modifizierten Videosignal in einen digitalen Textdatenstrom umzuwandeln, der an das Schieberegister 720 geliefert wird. Bei der NTSC-Norm sind die digitalen Daten amplitudenmoduliert, so daß eine logische "1" eine Amplitude zwischen 50 und 100 IRE hat, und eine logische "0" hat eine Amplitude von weniger als 20 IRE. Die Vergleicherschaltung 712 liefert ein digitales Signal mit einem ersten Logikzustand (z.B. "1"), wenn die Amplitude größer als ein vorgegebener Schwellwert (z.B. 50 IRE) ist, und sie liefert ein digitales Signal mit einem zweiten Logikzustand (z.B.
"0"), wenn die Amplitude geringer als der vorgegebene Schwellwert ist. Die Digitalisier- und Decodierschaltung 102 hat eine Abtastrate, welche das Nyquist-Kriterium für die Abtastung der Closed-Caption-Daten erfüllen muß, so daß die Schaltung 102 auch bei der längeren Datendauer der Closed-Caption-Daten die Daten richtig abtastet. Die Closed-Caption-Daten haben z.B. eine Rate von ungefähr 500 kHz oder 2μs, und die Abtastrate der Schaltung 102 beträgt ungefähr 13,5 MHz.
Der Zeile 21-Detektor und Zeitgeber 716 überwacht das modifizierte Videosignal und ermittelt den Anfang und das Ende der Zeile 21 jedes Video-Halbbildes (Videofeld). Zum Zweck der Erläuterung ist der Detektor und Zeitgeber 716 im Zusammenhang mit der Erfassung der Zeile 21 beschrieben. Alternativ kann der Detektor und Zeitgeber 716 auch eine andere Zeile oder mehrere Zeilen eines Halbbildes erfassen. Am Anfang der Zeile 21 liefert der Zeile 21-Detektor und Zeitgeber 716 ein Zeile 21-Indikatorsignal um das Eingangsfreigabe-UND-Gatter 719 zu aktivieren, um das modifizierte Videosignal an die phasenstarre Schleife 214 zu übergeben. Der Zeile 21-Detektor und Zeitgeber 716 aktiviert auch das Signalfreigabe-UND-Gatter 718. Am Ende der Zeile 21, entfernt der Zeile 21-Detektor und Zeitgeber 716 das Zeile 21-Indikatorsignal, um das Eingangsfreigabe-UND-Gatter 719 zu sperren. Bei Aktivierung synchronisiert die phasenstarre Schleife 716 den Takt mit dem Videosignal (Lock-in) und liefert dieses synchronisierte Taktsignal an das UND-Gatter 718, das dann, wenn es freigegeben ist, ein Taktsignal an das Schieberegister 720 liefert. Abhängig von dem Taktsignal verschiebt das Schieberegister 720 die digitalen Textdaten seriell und liefert die Daten parallel an den Closed-Caption-Prozessor 706.
Der Closed-Caption-Prozessor 706 puffert die Closed-Caption-Daten während eines ersten Halbbildes und sendet die Daten während des nächsten Halbbildes. Der Closed-Caption-Prozessor 706 umfaßt einen Ping-Puffer 722, einen Pong-Puffer 724, einen Multiplexer 726, ein I²C-Schieberegister 728 und ein Zustandsregister 729. Der Closed-Caption-Prozessor 706 speichert die Textdaten in dem Ping-Puffer 722 für das erste Halbbild und sendet die Daten während des nächsten Halbbildes. Ähnlich speichert der Closed-Caption-Prozessor 706 die Textdaten in dem Pong-Puffer 724 in einem Halbbild und sendet die Daten dann während des nächsten Halbbildes. Somit wechselt der Closed-Caption-Prozessor zwischen dem Ping-Puffer 722 und dem Pong-Puffer 724 bei jedem ungeraden oder geraden Halbbild. Der Multiplexer 726 wird bei jedem Halbbild ungeschaltet, um abwechselnd die Textdaten in den Ping-Puffer und den Pong-Puffer 722 bzw. 724 zu liefern. Alternativ liefert das I²C-Schieberegister 728 die Textdaten an den GUI-Beschleuniger 106. Das Zustandsregister 729 hat ein Bit, das anzeigt, daß die Digitalisier- und die Decodierschaltung 102 Closed-Caption-Text verarbeiten soll, und es hat ein Bit, das anzeigt, ob das ungerade oder das gerade Halbbild der Bilddaten den Closed-Caption-Text enthält. Ein Benutzer kann auswählen, ob die Digitalisier- und Decodierschaltung 102 den Closed-Caption-Text verarbeiten soll. Diese Auswahl setzt ein zugehöriges Bit in dem Zustandsregister 729. Die Ermittlung, ob Closed-Caption-Daten in dem ungeraden oder dem geraden Halbbild sind, kann vom Benutzer bestimmt oder von einer automatischen Erfassungsschaltung (nicht gezeigt) automatisiert durchgeführt werden. Diese Angabe wird in dem zugehörigen Bit des Zustandsregisters 729 gespeichert.
Der Videssignalprozessor 708 liefert übliche Luminanz- und Chrominanzkomponenten des Videosignals. Der Videosignalprozessor 708 umfaßt einen Luminanzprozessor 730 zum Liefern einer Luminazkomponente des Videosignals und eine Chrominanzprozessor 732 zum Liefern einer Chrominanzkomponente des Videosignals. Der Videosignalprozessor 708 liefert Video daten in einem vorgegebenen Format, wie RGB oder YUV. Als Format für die Videodaten ist im folgenden ein YUV-Format beschrieben. Der Luminanzprozessor 730 liefert die Y-Komponente der Videodaten. Ebenso liefert der Chrominanzprozessor 732 die UV-Komponenten der Videodaten. Die Closed-Caption-Daten liegen nur auf dem Y-Bus.
Der Ausgangsprozessor 710 formatiert die Videodaten von dem Closed-Caption-Prozessor 706 und dem Videosignalprozessor 708 und liefert die formatierten Videodaten an den Pixelbus 120. In einem YUV-Format umfaßt der Pixelbus 120 ein Y-Bus (nicht gezeigt) und einen UV-Bus (nicht gezeigt). Der Ausgangsprozessor 710 umfaßt einen Formatierprozessor 734 und einen Ausgangsspeicher 736. Der Ausgangsspeicher 736 kann z.B. ein herkömmlicher FIFO-Speicher sein (FIFO = first in, first out). Der Formatierprozessor 734 liefert Videodaten in dem Datenformat des GUI-Beschleunigers 104 an das Ausgangs-FIFO 736, welches Video- und Textdaten an den GUI-Beschleuniger 104 liefert. Dieses Format kann z.B. RGB oder YUV sein. Der Formatierprozessor 734 liefert auch den Closed-Caption-Text in demselben Format wie die Videodaten an das Ausgangs-FIFO 736. In diesem Format verarbeitet der GUI-Beschleuniger 104 die Textdaten ohne Verringerung (Decimation) der Daten und unter Bewahrung der Skalierbarkeit der Daten. Der GUI-Beschleuniger 104 kann die Berechtigung haben, die über den Pixelbus 120 empfangenen Daten zu skalieren. Während der Skalierung führt der GUI-Beschleuniger 104 eine Interpolation mit den Videodaten durch, die in unterschiedlichen Bits empfangen werden. Durch diese Skalierung erzeugt der GUI-Beschleuniger 104 die Videosignale für die Anzeige in dem richtigen Format. Ferner führt der GUI-Beschleuniger 104 diese Skalierung auch mit den Closed-Caption-Daten durch. Das unten beschriebene Format der Closed-Caption-Daten ermöglicht es dem GUI-Beschleuniger 104, die Closed-Caption-Daten zu skalieren und die Closed-Caption-Daten erneut im richtigen Format zu erzeugen. Eine horizontale Skalierung erzeugt die Closed-Caption-Daten in ihrem ursprünglichen Format neu, weil vor der Speicherung oder Anzeige die Closed-Caption-Daten auf eine eindeutige Weise redundant strukturiert wurden.
Die vorliegende Erfindung sieht eine gleichzeitige Verarbeitung und Speicherung von Textdaten und Bilddaten und durch Verknüpfen der Daten mit Identifikatoren vor. Die Textdaten können nach dem Erfassen abgesucht und sortiert werden. Ausgewählter Text kann zusammen mit zugehörigen Vides- und Audiodaten wiedergewonnen und angezeigt werden. Der Text kann abgesucht werden, und ausgewählte Teile können gedruckt werden.
Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindungen in ihren verschiedenen Ausgestaltungen von Bedeutung sein.

Claims

Verfahren zum Verarbeiten von Textdaten in einem Videosignal mit folgenden Verfahrensschritten: (a) Extrahieren der Textdaten aus einem Videosignal; (b) Puffern der Textdaten für ein Halbbild abwechselnd in einem ersten und einem zweiten Puffer und erneut Senden der Textdaten während des nächsten Halbbilds, um ein Lesen der richtigen Daten sicherzustellen; (c) Addieren eines Identifikators zu den Textdaten; (d) Speichern der Textdaten; gleichzeitig mit den Schritten (b) und (c): (e) Addieren eines Identifikators zu Video- und Audiodaten, wodurch die Video- und Audiodaten mit den Textdaten verbunden werden; (f) Speichern der Video- und Audiodaten.
Verfahren nach Anspruch 1, mit den weiteren Verfahrensschritten: Absuchen der gespeicherten Textdaten nach Textdaten, die mit einer von dem Benutzer ausgewählten Eingabe übereinstimmen; und Wiedergewinnen der Textdaten, die zu der vom Benutzer ausgewählten Eingabe passen.
Verfahren nach Anspruch 2, mit dem weiteren Verfahrensschritt: Wiedergewinnen der Video- und Audiodaten mit einem Identifikator, der zu dem Identifikator der wiedergewonnenen Textdaten paßt.
Verfahren nach Anspruch 3, bei dem die wiedergewonnenen Videodaten angezeigt und die wiedergewonnenen Audiodaten abgespielt werden.
Verfahren nach Anspruch 4, bei dem die Textdaten gleichzeitig mit den wiedergewonnenen Videodaten angezeigt werden.
Verfahren nach Anspruch 2, bei dem die wiedergewonnenen Textdaten gedruckt werden.
Verfahren nach einem der vorangehenden Ansprüche, bei dem der Identifikator die verstrichene Zeit der Textdaten relativ zu einer Bezugszeit anzeigt.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Textdaten unabhängig von den Videodaten gespeichert werden, um unabhängig von einer Skalierung unveränderte Textdaten vorzusehen.
Verfahren nach einem der vorangehenden Ansprüche, bei dem die Textdaten in Echtzeit angezeigt werden.
System zum Verarbeiten und Anzeigen von Textdaten, die in einem Videosignal enthalten sind, mit folgenden Merkmalen: eine Decodierschaltung (102) zum Extrahieren von Textdaten aus einem Videosignal und zum Addieren eines Identifikators zu den Textdaten sowie zum Addieren des Identifikators zu Video- und Audiodaten gleichzeitig mit der Addition des Identifikators zu den Textdaten; und ein Speicher (114) zum Speichern der Textdaten und der Video- und Audiodaten, wobei die Dekodierschaltung (102) einen ersten Puffer und einen zweiten Puffer umfaßt und dazu eingerichtet ist, die Textdaten für ein Halbbild abwechselnd im ersten und zweiten Puffer zu speichern und die Textdaten während des nächsten Halbbilds erneut zu senden, um ein Lesen der richtigen Daten sicherzustellen.
System nach Anspruch 10, mit einem Host-Prozessor (116), der einen Eingang zum Empfang einer vom Benutzer ausgewählten Eingabe hat und mit einem Speicher verbunden ist, um die gespeicherten Textdaten nach Textdaten abzusuchen, die zu einer von einem Benutzer ausgewählten Eingabe passen, und zum Wiedergewinnen der Textdaten, die zu der von dem Benutzer ausgewählten Eingabe passen.
System nach Anspruch 11, bei dem der Host-Prozessor (116) aus dem Speicher (114) die Video- und Audiodaten wiedergewinnt, die einen Identifikator haben, der zu dem Identifkator der wiedergewonnen Textdaten paßt.
System nach Anspruch 12, mit einer Anzeige (108), die mit dem Speicher (114) verbunden ist, um die wiedergewonnenen Videodaten anzuzeigen und die wiedergewonnen Audiodaten abzuspielen.
System nach einem der Ansprüche 11 bis 13, bei dem der Host-Prozessor (116) die wiedergewonnenen Textdaten zum Drucken an ein externes Gerät liefert.
System nach einem der Ansprüche 10 bis 14, bei dem der Identifikator die verstrichene Zeit der Textdaten relativ zu einer Bezugszeit anzeigt.
System nach einem der Ansprüche 10 bis 15, bei dem die Decodierschaltung (102) und der Speicher (114) in einem Rechner vorgesehen sind.