-
Technisches Gebiet
-
Die vorliegende Offenbarung betrifft allgemein die Charakterisierung von Multimediainhalt und insbesondere die Bestimmung der Qualität einer Zusammenfassung von Multimediainhalt, bei dem sowohl die Zusammenfassung wie auch der Multimediainhalt Text und Bilder beinhalten.
-
Hintergrund
-
Multimediainhalt bezeichnet allgemein digitalen Inhalt, der irgendeine Kombination von verschiedenen Inhaltsformen, darunter Text und Bilder (Video, Animation, Grafiken und dergleichen mehr) beinhaltet. Multimediainhalt dieser Art ist derart allgegenwärtig und kostengünstig, dass Nutzer beim Prozess des Auswählens eines zu konsumierenden Multimediainhaltsobjektes oftmals überfordert sind. Aufgrund dessen vertrauen Nutzer von Multimediainhalt oftmals auf Zusammenfassungen von Multimediainhaltsobjekten. Diese Zusammenfassungen können entweder als Ersatz für das Konsumieren eines Multimediainhaltsobjektes oder zur Erleichterung der Auswahl eines zu konsumierenden Multimediainhaltsobjektes verwendet werden. Damit kann die Qualität einer Multimediazusammenfassung merklichen Einfluss auf die Entscheidung eines betroffenen Nutzers haben, ein gegebenes Inhaltsobjekt zu konsumieren. Gegenwärtig sind jedoch keine geeigneten Verfahren zur Bewertung der Qualität von Multimediazusammenfassungen vorhanden.
-
Kurzbeschreibung der Zeichnung
-
1 ist ein abstrahiertes Flussdiagramm zur Darstellung eines Verfahrens zum Bestimmen einer Qualitätsmetrik einer Zusammenfassung entsprechend einem Multimediainhaltsobjekt entsprechend einer Ausführungsform der vorliegenden Offenbarung.
-
2 ist ein detailliertes Flussdiagramm zur Darstellung eines Verfahrens zum Bestimmen einer Qualitätsmetrik einer Zusammenfassung entsprechend einem Multimediainhaltsobjekt entsprechend einer Ausführungsform der vorliegenden Offenbarung.
-
3 ist ein Blockdiagramm einer verteilten Verarbeitungsumgebung, die ein Qualitätsmetrikbestimmungssystem beinhaltet, das aus der Ferne mit einer Rechenvorrichtung eines gegebenen Nutzers über ein Kommunikationsnetzwerk gekoppelt ist, entsprechend einer Ausführungsform der vorliegenden Offenbarung.
-
4 ist ein Blockdiagramm eines Qualitätsmetrikbestimmungssystems zum Bestimmen einer Qualität einer Multimediazusammenfassung eines Multimediainhaltsobjektes entsprechend einer Ausführungsform der vorliegenden Offenbarung.
-
Die Figuren zeigen verschiedene Ausführungsformen der vorliegenden Offenbarung lediglich zum Zwecke der Darstellung. Verschiedene Abwandlungen, Ausgestaltungen und andere Ausführungsformen erschließen sich aus der nachfolgenden detaillierten Diskussion.
-
Detaillierte Beschreibung
-
Wie bereits gesagt, sind keine Techniken zum Bewerten der Qualität einer gegebenen Multimediazusammenfassung vorhanden. Derartige Zusammenfassungen haben jedoch mitunter wesentlichen Einfluss auf einen möglichen Nutzer, und zwar unter anderem auf die Entscheidung des Nutzers, ob er eine Vollversion eines Digitalinhaltsobjektes, das zusammengefasst ist, konsumieren will. Aus der Marketingperspektive sind Techniken zum Bewerten der Qualität einer Zusammenfassung eines Multimediainhaltsobjektes wünschenswert. Man betrachte beispielsweise einen digitalen Artikel, der sowohl Bild- wie auch Textabschnitte aufweist. Wie sich im Lichte der vorliegenden Offenbarung ergibt, kann eine Zusammenfassung jenes Artikels, die einen hohen Grad an Kohärenz zwischen den Bildabschnitten und dem Textabschnitt aufweist, dazu beitragen, rasch ein besseres Verständnis des Artikels im Vergleich zu einer Zusammenfassung zu vermitteln, bei der die Kohärenz zwischen Bildabschnitten und Textabschnitten fehlt. Allgemeiner gesprochen bedeutet dies, dass der Grad, mit dem eine Zusammenfassung für ein entsprechendes Multimediainhaltsobjekt repräsentativ ist, als Qualitätsmetrik quantifiziert werden kann. Eine Qualitätsmetrik einer Zusammenfassung kann beispielsweise verwendet werden, um die Wahrscheinlichkeit dafür zu messen, dass die Zusammenfassung dabei, den Konsum des Inhaltsobjektes zu veranlassen, effektiv ist. Obwohl einige verfügbare Algorithmen gegebenenfalls dafür verwendbar sind, die Textabschnitte einer gegebenen Multimediazusammenfassung (aus Gründen der Kürze hier einfach „Zusammenfassung” genannt) eines Multimediainhaltsobjektes zu bewerten, versagen derartige Algorithmen gegebenenfalls bei der Betrachtung der Nichttextabschnitte (beispielsweise der Bilder) jener Zusammenfassung. Insbesondere arbeiten Algorithmen zur Bewertung von Inhalt wahrscheinlich damit, dass sie die Häufigkeit von Worten in einem Textabschnitt des Multimediainhalts mit der Häufigkeit von Worten in der entsprechenden Zusammenfassung vergleichen. Je ähnlicher die Worthäufigkeiten der Zusammenfassung zu den Worthäufigkeiten in dem Multimediainhaltsobjekt sind, desto höher ist der Qualitätswert. Beispiele für diese Art von Algorithmus beinhalten die Retentionsrate (die beispielsweise durch Dividieren der Anzahl von eindeutigen Worten in der Zusammenfassung durch die Anzahl von eindeutigen Worten in dem Multimediainhaltsobjekt ermittelt werden kann), die KL-Divergenz (die beispielsweise durch Messen der Verteilung von Worthäufigkeiten in dem Inhalt und der entsprechenden Zusammenfassung ermittelt werden kann), der bilinguale Bewertungsersatz (Bilingual Evaluation Understudy „BLEU”) (der die Qualität eines maschinenübersetzten Textes von einer Sprache in eine andere bestimmt) und der rückabruforientierte Ersatz für die Quintessenz einer Bewertung (Recall-Orientated Understudy for Gisting Evaluation „ROUGE”) (der die Qualität einer Zusammenfassung unter Verwendung von von Menschen erzeugten Zusammenfassungen als Referenz bestimmt).
-
Wie sich im Lichte der vorliegenden Offenbarung ergibt, sind die vorgenannten Algorithmen und dazu ähnliche Algorithmen jedoch ungeeignet, wenn sie zur Bestimmung der Qualität einer Zusammenfassung eines Multimediainhaltsobjektes verwendet werden. Ein Grund hierfür liegt darin, dass aufgrund dessen, dass diese Algorithmen primär auf der Worthäufigkeit beruhen, die semantische Bedeutung der Zusammenfassung nicht mit der semantischen Bedeutung des Multimediainhaltsobjektes (Nichttext) verglichen wird. Der Worthäufigkeitslösungsansatz kann daher problematischerweise einen hohen Wert einer Qualitätsmetrik sogar bei einer Zusammenfassung erzeugen, die eine ganz andere semantische Bedeutung als ein entsprechendes Multimediainhaltsobjekt hat. Man betrachte beispielsweise das vereinfachte Beispiel eines Textabschnittes eines Multimediainhaltsobjektes, das besagt: „Dieses Mädchen mag keinen Käse”. Eine entsprechende Zusammenfassung, die einen Textabschnitt aufweist, der „Dieses Mädchen mag Käse” besagt, würde unter Verwendung des Worthäufigkeitsalgorithmus einen guten Wert ergeben, wäre jedoch nicht genau, da das „keinen” in der Zusammenfassung fehlt. Bei einem anderen exemplarischen Szenario kann ein Multimediainhaltsobjekt, das einen Textabschnitt, der sich auf einen begleitenden Bildabschnitt bezieht, unter Verwendung eines Pronomens beinhaltet, eine gut bewertete Zusammenfassung aufweisen, die jedoch nicht informativ ist. Man betrachte beispielsweise ein Multimediainhaltsobjekt, das das Bild eines Hemdes beinhaltet, das von der Textüberschrift „Das ist hübsch” begleitet wird. Ohne Analyse des Bildabschnittes des Hemdes kann eine Zusammenfassung, die „Das ist hübsch” besagt, einen hohen Wert einer Qualitätsmetrik aufweisen, da eine exakte Übereinstimmung mit dem Textabschnitt des Multimediainhaltsobjektes gegeben ist (das heißt, es ist ein hoher Grad an Korrelation zwischen dem Text der Zusammenfassung und dem Text des vollständigen Artikels vorhanden). Gleichwohl kann, wenn das Bild tatsächlich betrachtet wird, die Zusammenfassung auch „Dieses Hemd ist hübsch” lauten, was eine vergleichsweise sehr viel genauere Zusammenfassung ergibt, weshalb der Wert höher als bei einer rein textbasierten Bewertung sein sollte. Daher kann unter Verwendung der gegenwärtig verfügbaren Algorithmen bei einer Zusammenfassung irrtümlicherweise bestimmt werden, dass sie einen hohen Qualitätswert aufweist, auch wenn sie die semantische Bedeutung des Multimediainhaltsobjektes nicht genau widerspiegelt.
-
Zu diesem Zweck werden hier Techniken zum Bestimmen einer Qualitätsmetrik einer Multimediazusammenfassung eines Multimediainhaltsobjektes durch Berücksichtigen sowohl textartiger wie auch nichttextartiger Komponenten jener Zusammenfassung bereitgestellt. Bei einigen Ausführungsformen beruht die Qualitätsmetrik teilweise auf semantischen Ähnlichkeiten der Zusammenfassung und des Inhaltsobjektes und nicht bloß auf Worthäufigkeiten. Dies wird bei einigen Ausführungsformen dadurch erreicht, dass eine semantische Bedeutung der Zusammenfassung und des Multimediainhaltsobjektes unter Verwendung der Vektoranalysis identifiziert wird. Die Vektoren der Zusammenfassung und die Vektoren des Multimediainhaltsobjektes werden zur Bestimmung der semantischen Ähnlichkeit verglichen. Man beachte, dass sowohl Text- wie auch Nichttextobjekte ohne Weiteres durch Vektoren dargestellt werden können, wodurch der vektorbasierte Vergleich vereinfacht wird.
-
Zusätzlich zur Beurteilung der Ähnlichkeit der semantischen Bedeutung zwischen dem gegebenen Multimediainhaltsobjekt und der zugehörigen Multimediazusammenfassung können die Techniken weiter ein Bestimmen des Grades der Korrelation zwischen den Text- und Nichttextabschnitten der Zusammenfassung selbst beinhalten. Wie sich im Lichte der vorliegenden Offenbarung ergibt, weist ein hoher Grad der Korrelation oder „Kohärenz” zwischen den Text- und Nichttextabschnitten der Zusammenfassung tendenziell auf eine qualitativ höherwertige Zusammenfassung hin. Einige Ausführungsformen der vorliegenden Offenbarung stellen daher Verfahren zum Bestimmen einer Qualitätsmetrik einer Multimediazusammenfassung des Multimediainhaltsobjektes teilweise auf Grundlage einer Bestimmung der Kohärenz zwischen einem Bildabschnitt einer Zusammenfassung und einem Textabschnitt der Zusammenfassung zum Bestimmen einer Qualitätsmetrik einer Multimediazusammenfassung bereit. Die „Kohärenz” bezeichnet eine Ähnlichkeit hinsichtlich der semantischen Bedeutung zwischen einem Textabschnitt einer Multimediazusammenfassung und einem Bildabschnitt der Multimediazusammenfassung und wird entsprechend den nachstehend beschriebenen Verfahren bestimmt. Auf abstrakter Ebene wird das Bestimmen der Kohärenz dadurch erreicht, dass Vektoren sowohl aus Segmenten eines Textabschnittes wie auch aus Segmenten eines Bildabschnittes erzeugt und die Vektoren auf einen gemeinsamen Einheitsraum projiziert werden. Die projizierten Vektoren werden sodann verglichen. Vektoren, die im gemeinsamen Einheitsraum zueinander ähnlich sind, entsprechen einer semantisch ähnlichen Information hinsichtlich beider Textabschnitte und Bildabschnitte der Zusammenfassung, weshalb ein hoher Grad der Kohärenz zwischen diesen Abschnitten vorhanden ist. Man beachte, dass dann, wenn die gegebene Multimediazusammenfassung Videos anstelle von (oder zusätzlich zu) statischen Bildern beinhaltet, das Video als Abfolge von statischen Bildern (oder Frames) behandelt werden kann, wobei jedes Bild separat gegenüber dem Textabschnitt der Zusammenfassung auf dieselbe Weise wie ein statisches Bild bewertet wird. Damit kann ein Durchschnitt oder eine andere geeignete statistische Darstellung der individuellen Vergleiche berechnet werden, um so einen Gesamtgrad der Kohärenz zwischen dem Textabschnitt und dem Video bereitzustellen. Zu diesem Zweck soll der Verweis auf ein „Bild” hier derart gedeutet werden, dass er Frames eines Videoinhalts beinhaltet.
-
Ein Vorteil bei derartigen Ausführungsformen der vorliegenden Offenbarung besteht in der verbesserten Genauigkeit der Qualitätsmetrik. Es sind verschiedene Gründe für die verbesserte Genauigkeit vorhanden. Ein Grund besteht darin, dass einige Ausführungsformen der vorliegenden Offenbarung sowohl einen Textabschnitt wie auch einen Bildabschnitt eines Multimediainhaltsobjektes und einer entsprechenden Zusammenfassung analysieren. Dies verbessert die Genauigkeit der Qualitätsmetrik, da die Qualitätsmetrik die semantische Bedeutung, die sowohl in den Textabschnitten wie auch den Bildabschnitten des Multimediainhaltsobjektes und der entsprechenden Zusammenfassung vermittelt wird, widerspiegelt. Ein weiterer Grund für die verbesserte Genauigkeit besteht darin, dass einige Ausführungsformen die Kohärenz zwischen dem Textabschnitt der Zusammenfassung und dem Bildabschnitt der Zusammenfassung analysieren und einbeziehen. Dies verbessert die Genauigkeit, da Zusammenfassungen mit einem Textabschnitt und einem Bildabschnitt, die semantisch zueinander ähnlich sind, eine qualitativ hochwertige Metrik bei Verwendung von Ausführungsformen der vorliegenden Offenbarung erzeugen.
-
Ein weiterer Vorteil einiger Ausführungsformen der vorliegenden Offenbarung ist die Fähigkeit, Gewichtungen von drei verschiedenen Beiträgen zur Multimediaqualitätsmetrik maßzuschneidern. Insbesondere betrifft dies über nutzerseitig auswählbare Koeffizienten die nachfolgenden individuellen Beiträge: (1) Informationsinhalt des Textabschnittes der Zusammenfassung relativ zu dem Textabschnitt des Multimediainhalts („Textabdeckung”); (2) Informationsinhalt des Bildabschnittes der Zusammenfassung relativ zum Bildabschnitt des Multimediainhaltsobjektes („Bildabdeckung”); und (3) Kohärenz zwischen Text und Bild der Zusammenfassung, die entsprechend einer Nutzerpräferenz entsprechend einigen Ausführungsformen gewichtet werden kann. Einige Ausführungsformen sind dafür maßgeschneidert, eine Bewertung einer Zusammenfassung konsistent zu einer Menge von Themen oder konsistent zu nutzerseitig ausgewählten Themen und Interessen zu erstellen. Einige Ausführungsformen können dafür maßgeschneidert sein, die Genauigkeit des Vergleichs zwischen semantischen Bedeutungen von Bildabschnitten, Textabschnitten oder beidem zu verbessern.
-
Im Sinne des Vorliegenden bezeichnet der Begriff „Multimediainhaltsobjekt” ein Inhaltsobjekt, das einen Textabschnitt und einen Bildabschnitt beinhaltet. Der Bildabschnitt kann ein Standbild eines beliebigen Formates aus einem beliebigen Typ von digitaler Ressource (beispielsweise ein elektronisches Buch, eine Webpage, eine mobile Anwendung bzw. Applikation, eine digitale Fotografie) oder ein Frame eines Videos, wie vorstehend erläutert worden ist, sein. Jeder von dem Textabschnitt und dem Bildabschnitt umfasst jeweils Textsegmente und Bildsegmente. Ein Textsegment ist ein Satz, ein Teilsatz, ein Wort in einem Satz oder ein Zeichen (beispielsweise eine Zahl, ein Symbol, ein Buchstabe). Ein Bildsegment ist ein Frame oder ein Abschnitt eines Frames eines Bildes oder ein Objekt innerhalb eines Frames eines Bildes. Der Informationsinhalt eines Textabschnittes oder eines Textsegmentes bezeichnet die Anzahl von Worten in einem Textabschnitt oder Textsegment, die eine Bedeutung tragen können (beispielsweise Substantive, Verben und Adjektive), im Gegensatz zu Worten, die im Allgemeinen per se keine Bedeutung tragen (beispielsweise Konjunktionen und Artikel). Der Informationsinhalt eines Bildabschnittes oder eines Bildsegmentes bezeichnet Frames, Abschnitte eines Frames oder Objekte innerhalb eines Frames, die eine Bedeutung tragen können (beispielsweise das Bild eines Gesichtes im Vergleich zu einem nichtfokussierten Hintergrund). Wie vorstehend erläutert worden ist, bezeichnet die „Kohärenz” eine Ähnlichkeit hinsichtlich der semantischen Bedeutung zwischen einem Textabschnitt einer Zusammenfassung und einem Bildabschnitt der Zusammenfassung. Der Begriff „Qualität” bezeichnet im Sinne des Vorliegenden den Grad der Ähnlichkeit zwischen der semantischen Bedeutung einer Zusammenfassung im Vergleich zur semantischen Bedeutung eines entsprechenden Multimediainhaltsobjektes. Je höher der Wert einer Qualitätsmetrik ist, desto näher beieinander sind die Zusammenfassung und das entsprechende Multimediainhaltsobjekt hinsichtlich der semantischen Bedeutung.
-
Verfahren zum Bestimmen einer Qualitätsmetrik
-
1 ist ein abstrahiertes Flussdiagramm zur Darstellung eines Verfahrens 100 zum Bestimmen einer Qualitätsmetrik einer Multimediazusammenfassung entsprechend einem Multimediainhaltsobjekt entsprechend einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren 100 beginnt mit dem Empfangen 104 eines Multimediainhaltsobjektes und zudem mit dem Empfangen 108 einer Multimediazusammenfassung entsprechend dem Multimediainhaltsobjekt. Wie vorstehend ausgeführt worden ist, ist die Anwendung des Verfahrens 100 auf ein Multimediainhaltsobjekt und eine Multimediazusammenfassung lediglich ein Beispiel. Andere Ausführungsformen der vorliegenden Offenbarung sind bei Inhaltsobjekten und Zusammenfassungen anwendbar, die entweder nur einen Textabschnitt oder nur einen Bildabschnitt enthalten.
-
Einige Ausführungsformen der vorliegenden Offenbarung analysieren, siehe 112, sodann sowohl das Multimediainhaltsobjekt wie auch die Multimediazusammenfassung. Die Analyse 112 wird nachstehend detaillierter im Zusammenhang mit 2 beschrieben. Auf Grundlage der Analyse 112 wird eine Qualitätsmetrik der Multimediazusammenfassung bestimmt, siehe 116. Die Qualitätsmetrik und ihre Bestimmung 116 werden nachstehend detaillierter im Zusammenhang mit 2 beschrieben.
-
2 ist ein detailliertes Flussdiagramm zur Darstellung eines Verfahrens 200 zum Bestimmen einer Qualitätsmetrik einer Multimediazusammenfassung entsprechend einem Multimediainhaltsobjekt entsprechend einer Ausführungsform der vorliegenden Offenbarung. Das Verfahren wird aus Gründen einer einfacheren Darstellung derart dargestellt, dass es drei Metaschritte (die in keiner bestimmten Reihenfolge dargestellt sind) beinhaltet: (1) Analysieren 204 der semantischen Ähnlichkeit zwischen Sätzen eines Textabschnittes eines Multimediainhaltsobjektes und Sätzen eines Textabschnittes einer Zusammenfassung; (2) Analysieren 208 der semantischen Ähnlichkeit zwischen Sätzen eines Textabschnittes einer Zusammenfassung und Frames eines Bildabschnittes der Zusammenfassung; und (3) Analysieren 212 einer semantischen Ähnlichkeit zwischen Bildern eines Bildabschnittes eines Multimediainhaltsobjektes und Bildern eines Bildabschnittes einer Zusammenfassung. Die Elemente des Verfahrens 100 im Zusammenhang mit dem Empfangen des Multimediainhaltsobjektes und der Multimediazusammenfassung sind aus Gründen der einfacheren Erläuterung in 2 weggelassen.
-
Metaschritt 204 des Verfahrens 200 zeigt Operationen zum Analysieren einer Ähnlichkeit zwischen Sätzen (oder Satzsegmenten) eines Textabschnittes eines Multimediainhaltsobjektes und von Sätzen (oder Satzsegmenten) eines Textabschnittes einer Zusammenfassung. Die Funktion und die Vorteile dieser Operation des Analysierens 204 bestimmt den Grad, mit dem die semantischen Bedeutungen zwischen Textabschnitten eines Multimediainhaltsobjektes und einem Textabschnitt der entsprechenden Zusammenfassung vergleichbar sind. Das Analysieren 204 erfolgt durch das zuerst erfolgende Erzeugen 216 von Vektoren für Sätze in den Textabschnitten sowohl des Multimediainhaltsobjektes wie auch der Zusammenfassung, um zu bestimmen, ob der Textabschnitt der Zusammenfassung dieselbe (oder eine ähnliche) semantische Bedeutung wie derjenige trägt, den der Textabschnitt des Multimediainhaltsobjektes trägt. Je ähnlicher die vorhandenen semantischen Bedeutungen sind, desto höher ist der Beitrag der Qualitätsmetrik zum Textabschnitt der Zusammenfassung.
-
Die Vektoren werden durch zuerst erfolgendes Verarbeiten der Textabschnitte sowohl des Multimediainhaltsobjektes wie auch der Zusammenfassung unter Verwendung eines rekursiven Autocodierers erzeugt, siehe 216. Zunächst wird eine Codiermatrix We trainiert. Sobald das Training erfolgt ist, wird We dazu verwendet, Sätze des Multimediainhaltsobjektes und der entsprechenden Zusammenfassung zu analysieren, um die jeweiligen semantischen Bedeutungen zu extrahieren und diese in einem gemeinsamen Einheitsraum (nachstehend noch detaillierter beschrieben) zu vergleichen.
-
Zum Trainieren der Codiermatrix We erzeugt der rekursive Autocodierer zunächst einen syntaktischen Parsing-Baum für wenigstens einen Trainingssatz. Ein semantischer Vektor für jedes Wort und jeden Teilsatz innerhalb eines jeden Trainingssatzes wird erzeugt. Jeder Nichtendknoten (das heißt Nichtblattknoten) des Parsing-Baumes wird entsprechend nachfolgender Gleichung 1 erzeugt. s = f(We[c1, c2] + b) Gleichung 1
-
In Gleichung 1 stellt s den Nichtblattknoten dar, We ist die trainierte Codiermatrix, und c1 und c2 (allgemeiner ci) sind die Wort-zu-Vektor-Darstellungen. Insbesondere beinhaltet ci Satzsegmente, die Elemente eines Parsing-Baumes beinhalten. Diese Satzsegmente sind Teilmengen des einen oder der mehreren Trainingssätze. Der Term b in Gleichung 1 ist konstant. Die Funktion f ist bei einem Beispiel eine Sigmoid-Funktion, die ein Ergebnis zwischen 0 und 1 erzeugt, wenn sie auf die Argumente der Funktion angewendet wird.
-
Das Trainieren der Matrix We wird mit dem rekursiven Autocodierer fortgesetzt, der Elemente unter jedem Knoten in dem Parsing-Baum für jeden Satz des Multimediainhaltsobjektes und der entsprechenden Zusammenfassung entsprechend nachfolgender Gleichung 2 rekonstruiert: [x1':y1'] = f(Wdy2 + b) Gleichung 2
-
Gleichung 2 beschreibt die Ausgabe einer Mehrzahl von Vektoren (Vektor x1' bis Vektor y1') auf Grundlage der Anwendung der Matrix Wd auf den Satz y2, der anschließend mit der Sigmoid-Funktion f verarbeitet wird.
-
Ist das Training der Matrix We beendet, so wird sodann eine Vektordarstellung der Wurzel des Parsing-Baumes erzeugt und als repräsentativer Vektor eines Satzes unter Verwendung der Trainingsmatrix We verwendet. Die Vektoren, die für jeden Satz erzeugt worden sind, werden sodann zum Berechnen einer Kosinusähnlichkeit zwischen einem Satz des Multimediainhaltsobjektes und entsprechenden Sätzen einer Zusammenfassung verwendet. Die Ähnlichkeit ST(u, v) zwischen den Sätzen der Textabschnitte des Multimediainhaltsobjektes und den Textabschnitten der Zusammenfassung wird auf Grundlage der Kosinusähnlichkeit (dargestellt durch die „Sim”-Funktion) entsprechend nachfolgender Gleichung 3 bestimmt: ST(u, v) = Sim(u, v) Gleichung 3
-
In Gleichung 3 sind u und v Vektordarstellungen der Textsegmente des Textabschnittes einer Zusammenfassung (u) beziehungsweise des Textabschnittes des Multimediainhaltsobjektes (v). Die Kosinusähnlichkeit quantifiziert die Ähnlichkeit der semantischen Bedeutung zwischen Textabschnitten der Sätze des Multimediainhaltsobjektes und der Zusammenfassung, was später als Beitrag zur Multimediazusammenfassungsqualitätsmetrik, die nachstehend noch detaillierter beschrieben wird, verwendet werden kann.
-
Metaschritt 208 des Verfahrens 200 stellt Operationen zum Analysieren der Ähnlichkeit zwischen Sätzen eines Textabschnittes einer Zusammenfassung und eines begleitenden Bildabschnittes der Zusammenfassung dar. Die Funktion und der Vorteil dieser Operation des Analysierens 204 ist das Bestimmen des Grades, mit dem die semantischen Bedeutungen zwischen einem Textabschnitt einer Zusammenfassung und einem begleitenden Bildabschnitt einer Zusammenfassung einander entsprechen. Je mehr semantische Ähnlichkeit zwischen dem Text und dem begleitenden Bild vorhanden ist, desto höher ist die Qualität der Multimediazusammenfassung.
-
Bei einem zu dem vorbeschriebenen Prozess analogen Prozess werden Vektoren entsprechend einem Bildinhalt und einem Textinhalt der Zusammenfassung bei einem Verfahren erzeugt, siehe 224, das ähnlich zu demjenigen ist, das an der nachfolgenden Literaturstelle beschrieben ist: Karpathy et al. „Deep Fragment Embeddings for Bidirectional Image Sentence Mapping", Neural Information Processing Systems, 2014, Seiten 1889–1897), was hiermit in Gänze durch Verweisung mit aufgenommen wird. Zunächst wird der Prozess zum Erzeugen von Vektoren eines Bildabschnittes einer Zusammenfassung beschrieben.
-
Der Prozess zum Erzeugen 224 von Vektoren entsprechend einem Bildabschnitt einer Zusammenfassung beinhaltet das zunächst erfolgende Identifizieren von Segmenten des Bildabschnittes, von denen wahrscheinlich ist, dass sie für die Zusammenfassung irrelevant sind. Die Segmente werden durch Trainieren eines Autocodierers eines tiefen neuronalen Netzwerkes (Deep Neural Network Auto Encoder) identifiziert, das sodann auf das Bild zum Extrahieren der relevanten Bildabschnitte angewandt wird. Auf einer abstrakteren Ebene bewerkstelligt dieser Prozess das Extrahieren von Pixelwerten aus einem Bild und das entweder einzeln oder zusammengefasst in Gruppen erfolgende Verwenden der Pixelwerte, um höhere Niveaus innerhalb des Bildes entsprechend Objekten in dem Bild zu identifizieren.
-
Sobald die Bildsegmente identifiziert sind, wird ein regionales faltungstechnisches neuronales Netzwerk (Regional Convolutional Neural Network RCNN) verwendet, um Vektoren entsprechend jedem der identifizierten Bildsegmente zu erzeugen. Bei einer Ausführungsform des RCNN werden 4096-dimensionale Vektoren entsprechend jedem identifizierten Segment erzeugt, was an folgender Literaturstelle beschrieben wird: Girshik et al. „Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation", Computer Vision and Pattern Recognition, 2014), was hiermit durch Verweisung in Gänze mit aufgenommen wird. Der 4096-dimensionale Raum stellt einen brauchbaren Kompromiss zwischen dem Verbrauch von Rechenressourcen und der Qualität der Ausgabe dar. Da 4096 gleich 212 ist, ist es einfach, binäre Datenbits anzuwenden. Es können jedoch auch niedriger dimensionale Räume verwendet werden, was jedoch mit weniger Unterscheidungen zwischen Merkmalen eingeht. Verwendet werden können indes auch höher dimensionale Räume, was jedoch mit einem erhöhten Verbrauch an Rechenressourcen einhergeht.
-
Schnitte zwischen zwei beliebigen Vektoren werden identifiziert. Eine Teilmenge der Segmente, für die Vektoren erzeugt werden, wird auf Grundlage einer Wahrscheinlichkeit eines der Bildsegmente entsprechend einem Abschnitt eines Bildes mit semantischer Relevanz für die Zusammenfassung ausgewählt. Bei einigen Ausführungsformen werden die identifizierten Segmente weiter auf Grundlage einer Klassifikation eingeschränkt, die zur Verwendung der Vektoren bestimmt ist, um das Risiko einer Überdarstellung bzw. Überrepräsentation beliebiger Bildsegmente bei den nachfolgenden Schritten der Analyse zu verringern.
-
Vektoren entsprechend Textabschnitten einer Zusammenfassung werden unter Verwendung des vorbeschriebenen Prozesses in dem Inhalt des Elementes 216 von Metaschritt 204 erzeugt, siehe 224.
-
Die Bildvektoren und die Satzvektoren werden sodann auf einen gemeinsamen Einheitsraum durch eine Matrixumwandlung projiziert. Die Matrizen, die zum Umwandeln der Vektoren in einen gemeinsamen Einheitsraum verwendet werden, sind derart trainiert worden, dass semantisch ähnliche Elemente – seien sie nun in dem Bildabschnitt oder in dem Textabschnitt vorhanden – entsprechend auf Zonen des gemeinsamen Einheitsraumes, die die semantische Ähnlichkeit widerspiegeln, projiziert werden.
-
Ein Vorteil des Projizierens von Vektoren auf einen gemeinsamen Einheitsraum besteht darin, den Einfluss von irrelevanter Information auf die Bestimmung der semantischen Ähnlichkeit zu verringern. Derart erzeugte Vektoren können beispielsweise jedwede überflüssige Information (beispielsweise Farbe, Textur bzw. Oberflächenbeschaffenheit, Form) beinhalten, die für die semantische Bedeutung entweder des Bildes oder der Textabschnitte irrelevant ist. Durch Abbilden der Vektoren auf einen gemeinsamen Einheitsraum wird die Wirkung der überflüssigen Information verringert.
-
Die Kosinusähnlichkeit der Vektoren entsprechend Bild- und Textabschnitten einer Zusammenfassung werden sodann entsprechend nachfolgender Gleichung 4 bestimmt: CT,I(u, p) = Sim(u ~, p ~) Gleichung 4
-
In dieser Gleichung sind u ~ und p ~ die Vektordarstellungen der Textsegmente eines Textabschnittes u einer Zusammenfassung und der Bildsegmente eines Bildabschnittes p einer Zusammenfassung, die man unter Verwendung der vorbeschriebenen Verfahren ermittelt.
-
Metaschritt 212 von Verfahren 200 stellt Operationen zum Analysieren einer Ähnlichkeit zwischen einem Bildabschnitt einer Zusammenfassung und einem Bildabschnitt eines Multimediainhaltsobjektes bei einer Ausführungsform dar. Wie vorstehend im Zusammenhang mit Metaschritt 208 beschrieben worden ist, sind die Vektoren für Bilder bestimmt und werden auf einen gemeinsamen Einheitsraum projiziert. Eine Kosinusähnlichkeit zwischen den Bildern auf Grundlage der erzeugten Vektoren wird entsprechend nachfolgender Gleichung 5 bestimmt. Sl(p, q) = Sim(p ~, q ~) Gleichung 5
-
In Gleichung 5 sind p ~ und q ~ die Vektordarstellungen der Bildsegmente p und q der Bildabschnitte bei einer Zusammenfassung beziehungsweise einem Multimediainhaltsobjekt.
-
Nach der Erzeugung der Ähnlichkeitswerte für die verschiedenen Elemente eines Multimediainhaltsobjektes und einer entsprechenden Zusammenfassung gemäß vorstehender Beschreibung bei dem Verfahren 200 wird eine Multimediaqualitätsmetrik, wie in 1 gezeigt und nachstehend noch detaillierter beschrieben wird, bestimmt, siehe 116.
-
Bestimmen einer Multimediazusammenfassungsmetrik
-
Anhand 1 wird nachstehend der Prozess zum Bestimmen 116 einer Qualitätsmetrik zum Quantifizieren eines Grades der Ähnlichkeit zwischen einer semantischen Bedeutung einer Zusammenfassung mit einem Multimediainhaltsobjekt unter Verwendung der Information aus der Bestimmung bei der Analyse 112 (und dem entsprechenden Verfahren 200) beschrieben.
-
Die Multimediazusammenfassungsqualitätsmetrik wird entsprechend nachfolgender Gleichung 6 bestimmt. MuSQ = f(ICtext, ICimage, Cohtotal) Gleichung 6
-
Hierbei ist MuSQ die Multimediaqualitätszusammenfassungsmetrik, ICtext ist eine Metrik zum Beschreiben einer proportionalen Informationsmenge in einem Textabschnitt einer Zusammenfassung relativ zu einem Textabschnitt eines Multimediainhaltsobjektes, und ICimage ist eine proportionale Informationsmenge in einem Bildabschnitt einer Zusammenfassung relativ zu einem Bildabschnitt eines Multimediainhaltsobjektes. Der Term „f” in Gleichung 6 und an anderen Stellen der vorliegenden Offenbarung stellt eine generische Funktion und keine spezifische Funktion dar. Cohtotal ist die „Kohärenz” zwischen einem Textabschnitt einer Zusammenfassung und einem Bildabschnitt der Zusammenfassung. Die Kohärenz gibt den Grad der semantischen Ähnlichkeit zwischen einem Textabschnitt einer Zusammenfassung und einem Bildabschnitt der Zusammenfassung an, wobei eine höhere Zahl eine höhere semantische Ähnlichkeit zwischen dem Text und dem Bild der Zusammenfassung widerspiegelt. Bei einer Ausführungsform ist Gleichung 6 eine nichtfallende Summe der Argumente hiervon, wie in nachstehender Gleichung 7 gezeigt ist. MuSQ = A·ICtext + B·ICimage + C·Cohtotal Gleichung 7
-
In Gleichung 7 sind A, B und C positive Konstanten, die zur Änderung des Relativbeitrags eines jeden Argumentes bei MuSQ verwendet werden.
-
ICtext wird in nachstehender Gleichung 8 definiert.
-
-
In Gleichung 8 ist ST die in vorstehender Gleichung 3 definierte Größe, und Rv ist die Anzahl von Termen oder Worten, die gegebenenfalls zur semantischen Bedeutung eines Textabschnittes des Multimediainhaltsobjektes beitragen (vorstehend als „Informationsinhalt” bezeichnet). Dies bedeutet, dass Rv der Wortzähler für Substantive, Verben, Adjektive und Adverbien sowie Pronomen in den Textsegmenten des Textabschnittes ist. Artikel, Konjunktionen und dergleichen sind bei der Bestimmung von Rv weggelassen.
-
Die „max”-Funktion wird über die Textsegmente u genommen, die in einem Textabschnitt der Zusammenfassung für ein gegebenes Textsegment v des Multimediainhaltsobjektes vorhanden sind. Das Ergebnis der „max”-Funktion ist eine maximale Darstellung eines Textsegmentes v, das in der Zusammenfassung S vorhanden ist. Die „max”-Funktion verhindert zudem redundante Sätze in einer Zusammenfassung, indem die Qualitätsmetrik erhöht wird, da nur Zusammenfassungssätze oder Segmente, die am meisten relevant für das Multimediainhaltsobjekt sind, zur Metrik beitragen. Mit anderen Worten, die Verwendung dieser Funktion erleichtert die Auswahl des Satzes mit dem größten Informationsinhalt unter mehreren Sätzen in dem Multimediainhaltsobjekt im Zusammenhang mit einer bestimmten Semantik. Dies verbessert den Wert der Zusammenfassung, der eine stärker diverse Abdeckung des Multimediainhalts beinhaltet, da doppelte Sätze nicht (oder weniger) zu einem Wert beitragen, während Sätze und Bilder, die verschiedene Themen betreffen, als zum Informationsinhalt beitragend gewertet werden.
-
Das Ergebnis der „max”-Funktion wird mit dem Informationsinhalt des Satzes Rv multipliziert. Das Einbeziehen des Informationsinhalts Rv in Gleichung 8 trägt zur Auswahl von Segmenten bei, die mehr Information (hinsichtlich der Anzahl von Substantiven, Adjektiven und dergleichen) im Vergleich zu weniger informativen Sätzen, die einen geringeren Zähler der identifizierten Typen von „informativen” Worten aufweisen, enthalten. Eine Summierung dieser Quantität über alle Textsegmente v, die in dem Multimediainhaltsobjekt vorhanden sind, ist ein Indikator für die Qualität eines Textabschnittes der Zusammenfassung relativ zu dem Multimediainhaltsobjekt als Ganzes.
-
ICimage ist in nachstehender Gleichung 9 definiert.
-
-
Sl(p, q) gemäß Definition in vorstehender Gleichung 5 bezeichnet den Informationsinhalt eines Bildsegmentes p (in der Zusammenfassung) bezüglich des Bildes q (in dem Multimediainhaltsobjekt). Bei einer Ausführungsform quantifiziert Sl eine Ähnlichkeit zwischen einem Bildsegment in einer Zusammenfassung p im Vergleich zu einem entsprechenden Bildsegment in einem Multimediainhaltsobjekt q. Die Quantifizierung von Sl wird auf Grundlage von Darstellungen der Bildsegmente gemäß Analyse durch ein rekurrentes faltungstechnisches neuronales Netzwerk (Recurrent Convolutional Neural Network RCNN) bestimmt, wobei gegebenenfalls eine Projektion auf einen gemeinsamen Einheitsraum, wie vorstehend beschrieben worden ist, erfolgt. Der Term R ^q ist der Informationsinhalt des Bildes q des Multimediainhaltsobjektes. Bei einer Ausführungsform wird R ^q durch Umwandeln des Bildsegmentes q in Text gemäß vorstehender Beschreibung im Zusammenhang mit Metaschritt 208 (und insbesondere dem bei 224 erzeugten Vektor) bestimmt, woraufhin der Informationsinhalt jenes Textes unter Verwendung der vorbeschriebenen Verfahren gemessen wird. Die Funktion von R ^q ist ähnlich zu derjenigen des vorbeschriebenen Terms Rv.
-
In Gleichung 9 wird die max-Funktion über die Bildsegmente p genommen, die in dem Bildteil der Zusammenfassung für ein gegebenes Bildsegment q des Multimediainhaltsobjektes vorhanden sind. Das Ergebnis ist eine maximale Darstellung des Bildsegmentes q, das in dem Bildteil der Zusammenfassung S vorhanden ist. Das Summieren dieser Quantität über alle Bildsegmente q, die in dem Multimediainhaltsobjekt vorhanden sind, stellt einen Indikator dafür bereit, wie repräsentativ der Bildabschnitt der Zusammenfassung des Multimediainhaltsobjektes ist.
-
Cohtotal wird in nachfolgender Gleichung 10 definiert.
-
-
In Gleichung 10 bezeichnet CT,l(u, p) die Kohärenz zwischen einem Satz (oder Textsegment) u aus einem Textabschnitt einer Zusammenfassung S und einem Bildsegment p eines Bildabschnittes l einer Zusammenfassung. Wie vorstehend im Zusammenhang mit Gleichung 4 beschrieben worden ist, kann CT,l auf einen gemeinsamen Einheitsraum projiziert werden, um die Vektoren des extrahierten Textabschnittes und der Bildabschnitte der Zusammenfassung zu vergleichen. Rv und R ^p sind die Informationsinhalte der Textabschnitte und der Bildabschnitte, wie vorstehend beschrieben worden ist.
-
Exemplarische Systeme
-
3 ist ein Blockdiagramm einer verteilten Verarbeitungsumgebung, die ein Qualitätsmetrikbestimmungssystem beinhaltet, das aus der Ferne mit einer Rechenvorrichtung eines gegebenen Nutzers über ein Kommunikationsnetzwerk verbunden ist, entsprechend einer Ausführungsform der vorliegenden Offenbarung. Die verteilte Verarbeitungsumgebung 300 gemäß Darstellung in 3 beinhaltet eine Nutzervorrichtung 304, ein Netzwerk 308 und ein Zusammenfassungsqualitätsbestimmungssystem 312. Bei anderen Ausführungsformen beinhaltet die Systemumgebung 300 andere und/oder zusätzliche Komponenten im Vergleich zu den in 3 gezeigten.
-
Die Nutzervorrichtung 304 ist eine Rechenvorrichtung mit der Fähigkeit, eine Nutzereingabe zu empfangen und Daten über das Netzwerk 308 zu übertragen und/oder zu empfangen. Bei einer Ausführungsform ist die Nutzervorrichtung 304 ein Computersystem, so beispielsweise ein Desktop- oder Laptopcomputer. Bei einer anderen Ausführungsform kann die Nutzervorrichtung 304 eine Vorrichtung mit Computerfunktionalität sein, so beispielsweise ein Persönlicher Digitaler Assistent (PDA), ein Mobiltelefon, ein Tablet-Computer, ein Smartphone oder eine ähnliche Vorrichtung. Bei einigen Ausführungsformen ist die Nutzervorrichtung 304 eine mobile Rechenvorrichtung, die zum Konsumieren von Multimediainhaltsobjekten, Zusammenfassungen entsprechend Multimediainhaltsobjekten und für die hier beschriebenen Verfahren zum Bestimmen einer Zusammenfassungsqualitätsmetrik einer Zusammenfassung entsprechend einem Multimediainhaltsobjekt verwendet wird. Die Nutzervorrichtung 304 ist dafür ausgelegt, mit dem Zusammenfassungsqualitätsbestimmungssystem 312 über das Netzwerk 308 zu kommunizieren. Bei einer Ausführungsform führt die Nutzervorrichtung 304 eine Anwendung bzw. Applikation aus, die einem Nutzer der Nutzervorrichtung 304 ermöglicht, mit dem Zusammenfassungsqualitätsbestimmungssystem 312 zu interagieren, wodurch sich eine spezialisierte Rechenmaschine ergibt. Die Nutzervorrichtung 304 führt beispielsweise eine Browseranwendung bzw. Applikation aus, um eine Interaktion zwischen der Nutzervorrichtung 304 und dem Zusammenfassungsqualitätsbestimmungssystem 312 über das Netzwerk 308 zu ermöglichen. Bei einer Ausführungsform interagiert eine Nutzervorrichtung 304 mit dem Zusammenfassungsqualitätsbestimmungssystem 312 durch eine Anwendungsprogrammierschnittstelle (Applikation Programming Interface APM), die auf dem nativen Betriebssystem der Nutzervorrichtung 304, so beispielsweise auf IOS® oder ANDROIDTM, läuft.
-
Die Nutzervorrichtung 304 ist dafür ausgelegt, über das Netzwerk 308 zu kommunizieren, das eine Kombination aus Lokalbereichs- und/oder Großbereichsnetzwerken unter Verwendung von sowohl verdrahteten wie auch drahtlosen Kommunikationssystemen umfassen kann. Bei einer Ausführungsform verwendet das Netzwerk 308 Standardkommunikationstechnologien und/oder Protokolle. Daher kann das Netzwerk 308 Links unter Verwendung von Technologien wie Ethernet, 802.11, WiMaX (Worldwide Interoperability for Microwave Access, 3G, 4G, CDMA, DSL (Digital Subscriber Line) und ähnliches beinhalten. Auf ähnliche Weise können die Netzwerkprotokolle, die in dem Netzwerk 308 verwendet werden, beinhalten: MPLS (Multiprotocol Label Switching), TCP/IP (Transmission Control Protocol/Internet Protocol), UDP (User Datagram Protocol, HTTP (Hypertext Transport Protocol), SMTP (Simple Mail Transfer Protocol) und FTP (File Transfer Protocol). Die Daten, die über das Netzwerk 308 ausgetauscht werden, können unter Verwendung von Technologien und/oder Formaten dargestellt werden, zu denen die Hypertextmarkierungssprache (HTML) oder die erweiterte Markierungssprache (XML) gehören. Darüber hinaus können alle oder einige der Links unter Verwendung von Verschlüsselungstechnologien verschlüsselt werden, so beispielsweise SSL (Secure Sockets Layer), TLS (Transport Layer Security) und IPsec (Internet Protocol Security).
-
4 ist ein Blockdiagramm einer Systemarchitektur des Zusammenfassungsqualitätsbestimmungssystems 312 gemäß Darstellung in 3. Das Zusammenfassungsqualitätssystem 312 ist beim Empfangen eines Multimediainhalts und einer entsprechenden Zusammenfassung dafür ausgelegt, einige oder alle der Ausführungsformen aus vorstehender Beschreibung auszuführen, um eine Qualitätsmetrik zu bestimmen, die den Grad der Ähnlichkeit zwischen der semantischen Gesamtbedeutung der Zusammenfassung im Vergleich zu einer semantischen Bedeutung eines entsprechenden Multimediainhaltsobjektes angibt. Das Zusammenfassungsqualitätsbestimmungssystem 312 beinhaltet einen nichttemporären Speicher 416 und ein Qualitätsmetrikbestimmungsmodul 432, dessen Teilkomponenten nachstehend beschrieben werden.
-
Der nichttemporäre Speicher 416 ist derart dargestellt, dass er zwei getrennte Speicherelemente beinhaltet, nämlich einen Multimediainhaltsobjektspeicher 420 und einen Zusammenfassungsspeicher 524. Der Multimediainhaltsobjektspeicher 420 speichert Multimediainhaltsobjekte (und optional Inhaltsobjekte, die nur eines von einem Textabschnitt oder einem Bildabschnitt beinhalten) zur Analyse und gegebenenfalls zur Anzeige oder Übertragung. Der Zusammenfassungsspeicher 424 speichert Zusammenfassungen, die einem Multimediainhaltsobjekt entsprechen. Wie bei dem Multimediainhaltsobjektspeicher 420 kann der Zusammenfassungsspeicher 424 eine oder mehrere Textzusammenfassungen, Bildzusammenfassungen und Multimediazusammenfassungen speichern, die sowohl Textabschnitte wie auch Bildabschnitte beinhalten. Unabhängig von der Natur des gespeicherten Inhalts und der gespeicherten Zusammenfassung, sind der Multimediainhaltsobjektspeicher 420 und der Zusammenfassungsspeicher 424 in Kommunikation mit dem Qualitätsmetrikbestimmungsmodul 432.
-
Der nichttemporäre Speicher 416 kann einen Computersystemspeicher oder einen Speicher mit wahlfreiem Zugriff beinhalten, so beispielsweise einen Speicher auf einer dauerhaften Platte (die eine beliebige geeignete optische oder magnetische dauerhafte Speicherplatte beinhalten kann, so beispielsweise RAM, ROM, Flash, USB-Laufwerk oder andere halbleiterbasierte Speichermedien), ein Festplattenlaufwerk, CD-ROM oder andere computerlesbare Medien zum Speichern von Daten und computerlesbaren Anweisungen und/oder Software zur Implementierung von verschiedenen Ausführungsformen gemäß der Lehre in der vorliegenden Offenbarung. Der nichttemporäre Speicher 416 kann auch andere Typen von Speichern oder Kombinationen aus diesen beinhalten. Der nichttemporäre Speicher 416 kann als physisches Element des Systems 312 oder auch getrennt oder entfernt von dem System 312 vorgesehen sein. Der nichttemporäre Speicher 416 des Systems 312 kann computerlesbare und computerausführbare Anweisungen oder Software zum Implementieren von verschiedenen Ausführungsformen speichern, darunter den Multimediainhaltsobjektspeicher 420 und den Zusammenfassungsspeicher 424.
-
Im Einsatz kommuniziert das Qualitätsmetrikbestimmungsmodul 432 mit dem nichttemporären Speicher 416, darunter mit dem Multimediainhaltsobjektspeicher 420 und dem Zusammenfassungsspeicher 424, um ein Multimediainhaltsobjekt und eine entsprechende Zusammenfassung zu empfangen und anschließend zu analysieren. Das Qualitätsmetrikbestimmungsmodul 432 beinhaltet einen Satz-zu-Satz-Analysator 432, einen Satz-zu-Bild-Analysator 436 und einen Bild-zu-Bild-Analysator 440. Der Satz-zu-Satz-Analysator analysiert die Qualität der Sätze (oder Satzsegmente) in einem Textabschnitt einer Zusammenfassung in Bezug auf Sätze in einem Textabschnitt eines Multimediainhaltsobjektes, wie vorstehend im Zusammenhang mit 1 und 2 beschrieben worden ist. Der Satz-zu-Bild-Analysator analysiert die Qualität von Sätzen in einem Textabschnitt einer Zusammenfassung in Bezug auf einen begleitenden Bildabschnitt der Zusammenfassung, wie in Zusammenhang mit 1 und 2 vorstehend beschrieben worden ist. Der Bild-zu-Bild-Analysator analysiert die Qualität von Bildabschnitten eines Bildabschnittes einer Zusammenfassung in Bezug auf einen Bildabschnitt des entsprechenden Multimediainhaltsobjektes, wie vorstehend im Zusammenhang mit 1 und 2 beschrieben worden ist. Sobald die Analysatoren 432, 436 und 440 die Analyse jeweils beendet haben, empfängt das Qualitätsmetrikbestimmungsmodul die Ausgabe der jeweiligen Analysen und bestimmt eine Zusammenfassungsqualitätsmetrik, wie vorstehend beschrieben worden ist.
-
Der Webserver 444 verlinkt das Zusammenfassungsqualitätsbestimmungssystem 312 mit der Nutzervorrichtung 304 über das Netzwerk 308. Der Webserver 344 bedient Webseiten wie auch anderen webbezogenen Inhalt, so beispielsweise Java®, Flash®, XML und dergleichen mehr. Der Webserver 344 kann die Funktionalität des Empfangens oder Übertragens von Inhaltsobjekten und Zusammenfassungen von einer und an eine Nutzervorrichtung 304, des Empfangen und Übertragens von Zusammenfassungsqualitätsmetriken von einer und an eine Nutzervorrichtung bereitstellen sowie auf andere Weise den Konsum von Inhaltsobjekten erleichtern. Darüber hinaus kann der Webserver 344 eine API-Funktionalität bereitstellen, um Daten direkt an native Client-Vorrichtungsbetriebssysteme, so beispielsweise IOS®, ANDROIDTM, WEBOS® oder RIM, zu senden. Der Webserver 344 bietet zudem eine API-Funktionalität zum Austauschen von Daten mit der Nutzervorrichtung 304.
-
Das Zusammenfassungsqualitätsbestimmungssystem 312 beinhaltet zudem wenigstens einen Prozessor 448 zum Ausführen von computerlesbaren und computerausführbaren Anweisungen oder Software, die in dem nichttemporären Speicher 416 gespeichert sind, oder von anderen Programmen zum Steuern bzw. Regeln von Systemhardware. Die Virtualisierung kann derart erfolgen, dass die Infrastruktur und die Ressourcen in dem Zusammenfassungsqualitätsbestimmungssystem 312 dynamisch geteilt bzw. gemeinsam genutzt (shared) werden. Eine virtuelle Maschine kann beispielsweise vorgesehen sein, um mit einem Prozess umzugehen, der auf mehreren Prozessoren derart läuft, dass der Prozess scheinbar nur eine Rechenvorrichtung und nicht mehrere Rechenvorrichtungen verwendet. Mehrere virtuelle Maschinen können ebenfalls mit einem Prozessor verwendet werden.
-
Exemplarische Anwendungen
-
Die folgenden beiden Beispiele beschreiben qualitativ Anwendungen der beschriebenen Ausführungsformen. Beim ersten Beispiel enthält ein Multimediainhaltsobjekt zwei eindeutige Sätze. Ein erster Satz Str1 beinhaltet eine Menge von eindeutigen Worten w1. Str1 wird in dem Multimediainhaltsobjekt n1-mal wiederholt. Ein zweiter Satz Str2 enthält eine Menge von eindeutigen Worten w2. Str2 wird in dem Multimediainhaltsobjekt n2-mal wiederholt. Aus Gründen der einfacheren Erläuterung wird davon ausgegangen, dass w1 und w2 keine gemeinsamen Worte aufweisen. Die letzte Annahme wird mathematisch durch w1 ∩ w2 = ∅ ausgedrückt. Bei diesem Beispiel wird zudem davon ausgegangen, dass für die Wortzählungen gilt: |w1| = 5 und |w2| = 6. Die Anzahl von Malen n1, die Str1 in dem Multimediainhaltsobjekt wiederholt wird, ist gleich 10, während die Anzahl von Malen n2, die Str2 in dem Multimediainhaltsobjekt wiederholt wird, gleich 2 ist.
-
Ist die Zusammenfassung nur eines einzigen Satzes erforderlich, so sind zwei Optionen möglich, nämlich entweder eine Zusammenfassung S
1, die nur Str
1 enthält, oder eine Zusammenfassung S
2, die nur Str
2 enthält. Da Str
1 zehnmal, also fünfmal häufiger als Str
2 wiederholt wird, ist die Zusammenfassung S
1, zu bevorzugen, da sie Information erfasst, die in dem ursprünglichen Multimediainhaltsobjekt dominant ist. Da w
1 und w
2 keine Wade gemeinsam haben, ist die Gesamtanzahl von eindeutigen Worten in dem Multimediainhaltsobjekt gleich w
1 + w
2. Die Retentionsrate von Worten in jeder der Zusammenfassungen S
1 und S
2 im Vergleich zu dem Multimediainhaltsobjekt ergibt sich aus nachfolgenden Gleichungen 11 und 12:
-
Ein Retentionsratenalgorithmus wie derjenige, der vorstehend aufgeführt ist, wählt vorzugsweise S2 aus, da diese eine höhere Anzahl von eindeutigen Worten der analysierten Zusammenfassungen aufweist. Der Retentionsratenalgorithmus beruht auf diesem Auswahlkriterium unter der Annahme, dass eine Zusammenfassung, die mehr eindeutige Wörter beinhaltet, mehr vom Inhalt des Multimediainhaltsobjektes beschreibt. Da diese Verfahren jedoch nur auf Wortzählungen abstellen, werden signifikante semantische Unterschiede übersehen. Bei diesem Beispiel wählt die Retentionsrate die Zusammenfassung S2 aus, die mehr eindeutige Worte aufweist, obwohl sie für den gesamten Inhalt des Multimediainhaltsobjektes weniger repräsentativ ist.
-
Entsprechend den Ausführungsformen der vorliegenden Offenbarung wird eine Zusammenfassung bevorzugt, die einen höheren Informationsinhalt und eine breitere Abdeckung des Multimediainhaltsobjektes insgesamt aufweist (das heißt verschiedene Themen in dem Multimediainhaltsobjekt widerspiegelt). Im Gegensatz zu den vorgenannten Beispielen für die Retentionsrate werden nunmehr Ausführungsformen der vorliegenden Offenbarung betrachtet, die zum Wählen zwischen der Zusammenfassung 1 (S1) und der Zusammenfassung 2 (S2) eingesetzt werden. Gleichungen 13 und 14 geben Ausführungsformen der vorliegenden Offenbarung im Zusammenhang mit dem vorbeschriebenen Szenario an. MuSQ(S1) = n1·w1 = 10·5 = 50 Gleichung 13 MuSQ(S2) = n2·w2 = 2·6 = 12 Gleichung 14
-
Bei den vorbeschriebenen Beispielen ist Gleichung 7 auf die Form von Gleichungen 13 und 14 reduziert, da die Beispiele nur Textabschnitte beinhalten, weshalb die Argumente von Gleichung 7, die die Bildabschnitte analysieren (das heißt ICimage und Cohtotal) gleich 0 sind. Daher ist der einzige Term, der aus Gleichung 7 übrigbleibt, derjenige von ICtext. In diesem Fall verringert ICtext die Anzahl von Worten in dem Satz, die zur semantischen Bedeutung (R) beitragen, da der „max”-Term gleich 1 ist. Auf Grundlage des Vorbesprochenen wählen Ausführungsformen der vorliegenden Offenbarung S1, da diese repräsentativer für das Multimediainhaltsobjekt ist (Beispielsweise wird S1 ausgewählt, das den Satz Str1 beinhaltet, der fünfmal häufiger als Str2 wiederholt wird).
-
Bei einem weiteren Beispiel betrachte man die Vorteile der Ausführungsformen der vorliegenden Offenbarung gegenüber der KL-Divergenz. Unter Rückgriff auf das vorbeschriebene Beispiel werden die Zusammenfassungen S1 und S2 folgendermaßen definiert: S1 = {Str1, Str2} und S2 = {Str1, Str1}, wobei |w1| = 5, |w2| = 6 und w1 ∩ w2 = ∅. Da S1 mehr Information (das heißt sowohl Str1 wie auch Str2) im Gegensatz zu S2 beinhaltet, das nur Str1 beinhaltet, das zweimal wiederholt wird), ist S1 die bevorzugte Zusammenfassung.
-
Man rufe sich in Erinnerung, dass die KL-Divergenz gemäß nachstehender Gleichung 15 definiert ist.
-
-
In Gleichung 13 ist qi die Wahrscheinlichkeit des Auftretens des i-ten Wortes in der Zusammenfassung, während p bzw. pi die Wahrscheinlichkeit des Auftretens des i-ten-Wortes in dem ursprünglichen Dokument ist. Die Zusammenfassung S2 wird durch die KL-Divergenz ausgewählt, wenn gilt: KL(S2) < KL(S1). Auf Grundlage bekannter Anwendungen und mathematischer Beziehungen bestimmt das Verhältnis von Gleichung 16 das Auswahlkriterium: n1 > 4.3·n2 ⇒ KL(S2) < KL(S1) Gleichung 16
-
Bei diesem Beispiel gilt: n1 = 10 und n2 = 2, sodass gilt: n1 > 4,3·n2. Aus diesem Grunde wird S2 in diesem Fall als bevorzugte Zusammenfassung von der KL-Divergenz gewählt, obwohl S2 weniger Information als S1 enthält.
-
Im Gegensatz hierzu ergibt die Anwendung der Ausführungsformen der vorliegenden Offenbarung: MuSQ(S1) = n1·w1 + n2·w2 = 10·5 + 2·6 = 62 und MuSQ(S2) = n1·w1 = 10·5 = 50. Unter Anwendung dieses Modells wird S1 geeignet als bevorzugte Zusammenfassung aufgrund der Diversität von Information ausgewählt.
-
Weitere Betrachtungen
-
Wie sich im Lichte der vorliegenden Offenbarung ergibt, können die verschiedenen Module und Komponenten des Systems gemäß Darstellung in 3 und 4, so beispielsweise der Satz-zu-Satz-Analysator 432, der Satz-zu-Bild-Analysator 436 und der Bild-zu-Bild-Analysator 440 in Software implementiert sein, so beispielsweise in einer Menge von Anweisungen (beispielsweise HTML, XML, C, C++, objektorientiertes C, JavaScript, Java, Basic und dergleichen mehr), die auf einem beliebigen computerlesbaren Medium oder Computerprogrammerzeugnis (beispielsweise Festplattenlaufwerk, Server, Platte oder einem anderen geeigneten nichttemporären Speicher oder einer Menge von Speichern) codiert sind und die bei Ausführung durch einen oder mehrere Prozessoren veranlassen, dass die in der vorliegenden Offenbarung bereitgestellten verschiedenen methodischen Vorgehensweisen ausgeführt werden. Es sollte einsichtig sein, dass bei verschiedenen Ausführungsformen verschiedene Funktionen, die von dem Nutzerrechensystem so, wie sie in der vorliegenden Offenbarung beschrieben sind, durchgeführt werden, durch ähnliche Prozessoren und/oder Datenbanken in anderen Konfigurationen und Anordnungen durchgeführt werden können und dass die dargestellten Ausführungsformen nicht beschränkt gemeint sind. Verschiedene Komponenten der exemplarischen Ausführungsform, darunter die Rechenvorrichtung 1000, können beispielsweise in einem oder mehreren von einem Desktop- oder Laptopcomputer, einer Workstation, einem Tablet, einem Smartphone, einer Spielekonsole, einer Set-Top-Box oder einer anderen derartigen Rechenvorrichtungen integriert sein. Andere Komponententeile und Module, die für ein Rechensystem typisch sind, so beispielsweise Prozessoren (beispielsweise eine zentrale Verarbeitungseinheit und ein Coprozessor, ein Grafikprozessor und dergleichen mehr), Eingabevorrichtungen (beispielsweise Tastatur, Maus, berührungsempfindliches Feld bzw. Touchpad, berührungsempfindlicher Schirm bzw. Touchscreen und dergleichen) und Betriebssysteme, sind nicht dargestellt, erschließen sich jedoch ohne Weiteres.
-
Die vorstehende Beschreibung der Ausführungsformen der Offenbarung wurde zum Zwecke der Illustration angegeben. Sie soll nicht erschöpfend sein oder die Ansprüche genau auf die offenbarten Formen beschränken. Auf dem einschlägigen Gebiet bewanderten Fachleuten erschließt sich, dass viele Abänderungen und Abwandlungen im Lichte der vorbeschriebenen Offenbarung möglich sind.
-
Einige Abschnitte der vorliegenden Beschreibung beschreiben die Ausführungsformen hinsichtlich Algorithmen und symbolischen Darstellungen von Operationen an Information. Diese algorithmischen Beschreibungen und Darstellungen werden allgemein von Fachleuten auf dem einschlägigen Gebiet in der Datenverarbeitung verwendet, um den Inhalt ihrer Arbeit anderen Fachleuten mitzuteilen. Diese Operationen sollen, wenn sie funktionell, rechentechnisch oder logisch beschrieben sind, derart gedeutet werden, dass sie durch Computerprogramme oder äquivalente elektrische Schaltungen, Microcode oder dergleichen implementiert sind. Die beschriebenen Operationen können in Software, Firmware, Hardware oder beliebigen Kombinationen hieraus verkörpert sein.
-
Beliebige Schritte, Operationen oder Prozesse aus vorliegender Beschreibung können mit einer oder mehreren Hardware- oder Softwaremodulen allein oder in Kombination mit anderen Vorrichtungen durchgeführt oder implementiert werden. Bei einer Ausführungsform ist ein Softwaremodul mit einem Computerprogrammerzeugnis implementiert, das ein nichttemporäres computerlesbares Medium umfasst, das Programmcode enthält, der durch einen Computerprozessor zum Durchführen beliebiger oder aller Schritte, Operationen oder Prozesse, die hier beschrieben werden, ausgeführt werden kann.
-
Exemplarische Ausführungsformen
-
Bei einem Beispiel beinhaltet ein computerimplementiertes Verfahren zum Bewerten einer Zusammenfassung eines Digitalmultimediainhaltsobjektes ein Empfangen des Multimediainhaltsobjektes, das einen Textabschnitt und einen Bildabschnitt beinhaltet, ein Empfangen der Zusammenfassung des Multimediainhalts, wobei die Zusammenfassung einen Textabschnitt und einen Bildabschnitt beinhaltet, und ein Bestimmen einer Qualitätsmetrik der Zusammenfassung relativ zu dem Multimediainhaltsobjekt. Das Bestimmen beinhaltet ein Bestimmen von wenigstens zweien von: einer ersten Inhaltsmetrik zum Quantifizieren einer Menge von Informationsinhalt in dem Textabschnitt der Zusammenfassung, der mit dem Textabschnitt des Multimediainhaltsobjektes gemeinsam ist, einem Bestimmen einer zweiten Inhaltsmetrik zum Quantifizieren einer Menge von Informationsinhalt in dem Bildabschnitt der Zusammenfassung, der mit dem Bildabschnitt des Multimediainhaltsobjektes gemeinsam ist, und einem Bestimmen einer dritten Inhaltsmetrik zum Quantifizieren einer Informationskohärenz zwischen dem Textabschnitt der Zusammenfassung und dem Bildabschnitt der Zusammenfassung. Die Qualitätsmetrik beruht wenigstens teilweise auf den wenigstens zwei bestimmten Inhaltsmetriken. Bei einer Ausführungsform dieses Beispiels beinhaltet das Bestimmen der Qualitätsmetrik des Weiteren ein Bestimmen eines Produktes der ersten Inhaltsmetrik, der zweiten Inhaltsmetrik und der dritten Inhaltsmetrik. Bei einer Ausführungsform des vorliegenden Beispiels beinhaltet das Bestimmen der ersten Inhaltsmetrik ein Bestimmen einer Kosinusähnlichkeit zwischen Vektordarstellungen wenigstens eines Textsegmentes des Textabschnittes der Multimediazusammenfassung und wenigstens eines Textsegmentes des Multimediainhaltsobjektes. Eine max-Funktion kann bei der Bestimmung der Kosinusähnlichkeit angewandt werden. Bei einer Ausführungsform des vorliegenden Beispiels beinhaltet das Bestimmen der zweiten Inhaltsmetrik ein Erzeugen eines ersten Bildvektors aus dem Bildabschnitt der Zusammenfassung und eines zweiten Bildvektors aus dem Bildabschnitt des Multimediainhaltsobjektes. Bei einer Ausführungsform des vorliegenden Beispiels beinhaltet das Bestimmen der dritten Inhaltsmetrik ein Projizieren eines ersten Textinhaltsvektors aus dem Textabschnitt der Zusammenfassung und eines zweiten Textinhaltsvektors aus dem Bildabschnitt der Zusammenfassung auf einen gemeinsamen Einheitsraum. Bei einer Ausführungsform des vorliegenden Beispiels beinhaltet das Bestimmen der dritten Inhaltsmetrik ein Bestimmen eines Produktes eines ersten Inhalts des Textabschnittes der Zusammenfassung und eines zweiten Inhalts des Bildabschnittes der Zusammenfassung.
-
Bei einem weiteren Beispiel ist ein Computerprogrammerzeugnis auf wenigstens einem nichttemporären computerlesbaren Medium gespeichert, das Anweisungen beinhaltet, die bei Ausführung durch einen oder mehrere Prozessoren veranlassen, dass das vorbeschriebene computerimplementierte Verfahren ausgeführt wird.
-
Bei einem weiteren Beispiel beinhaltet ein System zum Bewerten einer Zusammenfassung eines Digitalmultimediainhaltsobjektes verschiedene Module, wenigstens einen Prozessor und wenigstens ein nichttemperoräres Speichermedium zum Bestimmen einer Qualitätsmetrik entsprechend dem vorstehend beschriebenen exemplarischen Verfahren.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- Karpathy et al. „Deep Fragment Embeddings for Bidirectional Image Sentence Mapping”, Neural Information Processing Systems, 2014, Seiten 1889–1897 [0027]
- Girshik et al. „Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation”, Computer Vision and Pattern Recognition, 2014 [0029]