DE112021005137T5

DE112021005137T5 - Scroller-oberfläche für die transkriptionsnavigation

Info

Publication number: DE112021005137T5
Application number: DE112021005137.7T
Authority: DE
Inventors: Itay Inbar; Isaac BLANKENSMITH; Sherry Lin; Thomas Hall; James Lemieux; Bin Zhang
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-09-29
Filing date: 2021-09-28
Publication date: 2023-08-10
Also published as: US20230266874A1; CN116324829A; US20240168622A1; CN116324829A8; US11899921B2; EP4222589A1; WO2022072992A1

Abstract

Ein Verfahren beinhaltet das Empfangen einer Transkription einer Audioaufzeichnung an einem Computergerät, wobei die Transkription in eine Vielzahl von Textabschnitten aufgeteilt ist. Das Verfahren beinhaltet zusätzlich das Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert wird. Das Verfahren beinhaltet auch das Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Das Verfahren beinhaltet ferner das Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNG
Die vorliegende Anmeldung beansprucht Priorität von der am 29. September 2020 eingereichten US-Patentanmeldung Nr. 63/084,800 , deren Inhalt hiermit durch Bezugnahme aufgenommen wird.
Viele moderne Computergeräte, einschließlich Mobiltelefonen, Personal-Computern und Tablets, stellen grafische Benutzeroberflächen (Graphical User Interfaces, GUIs) bereit, um es Benutzern zu ermöglichen, mit dem Computergerät zu interagieren. Beispielsweise können Anwendungsprogramme die GUI verwenden, um unter Nutzung von Bildern, Text und grafischen Elementen, wie z. B. Fenstern, Dialogen, Popups, Bildern, Schaltflächen, Bildlaufleisten und Icons, mit einem Benutzer zu kommunizieren. Die GUI kann außerdem Eingaben von Geräten mit Benutzeroberflächen, wie z. B. Berührungsbildschirmen, Computermäusen, Tastaturen und anderen Geräten mit Benutzeroberflächen, die dem Benutzer eine Steuerung der GUI, und damit des Anwendungsprogramms, erlauben, empfangen.
Ein derartiges Anwendungsprogramm kann das Computergerät veranlassen, Audioinhalte, wie z. B. gesprochene Wörter, aufzuzeichnen. Das Anwendungsprogramm kann dann eine Transkription der aufgezeichneten Audioinhalte anzeigen, um es einem Benutzer zu ermöglichen, eine Textdarstellung der gesprochenen Wörter zu betrachten. Das Anwendungsprogramm kann eine GUI beinhalten, die eine Benutzernavigation in der Transkription ermöglicht.
ZUSAMMENFASSUNG
Die vorliegende Offenbarung beinhaltet Systeme und Verfahren, die eine Scroller-Oberfläche bereitstellen, um die Benutzernavigation in einer Transkription der aufgezeichneten Audioinhalte zu erleichtern.
In einem ersten Aspekt wird ein Verfahren bereitgestellt. Das Verfahren beinhaltet das Empfangen einer Transkription einer Audioaufzeichnung an einem Computergerät, wobei die Transkription in eine Vielzahl von Textabschnitten unterteilt ist. Das Verfahren beinhaltet zusätzlich das Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert wird. Das Verfahren beinhaltet auch das Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Das Verfahren beinhaltet zusätzlich das Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
In einem zweiten Aspekt wird ein Computergerät bereitgestellt. Das Computergerät beinhaltet einen oder mehrere Prozessoren und ein nichtflüchtiges computerlesbares Medium, das Programmanweisungen umfasst, die durch den einen oder die mehreren Prozessoren ausführbar sind, um Funktionen durchzuführen. Die Funktionen beinhalten das Empfangen einer Transkription einer Audioaufzeichnung, wobei die Transkription in eine Vielzahl von Textabschnitten aufgeteilt ist. Die Funktionen umfassen zusätzlich das Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert wird. Die Funktionen beinhalten auch das Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Die Funktionen beinhalten zusätzlich das Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
In einem dritten Aspekt wird ein nichtflüchtiges computerlesbares Medium bereitgestellt, das Programmanweisungen beinhaltet, die durch einen oder mehrere Prozessoren ausführbar sind, um den einen oder die mehreren Prozessoren zu veranlassen, Funktionen auszuführen. Die Funktionen beinhalten das Empfangen einer Transkription einer Audioaufzeichnung, wobei die Transkription in eine Vielzahl von Textabschnitten aufgeteilt ist. Die Funktionen umfassen zusätzlich das Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert wird. Die Funktionen beinhalten auch das Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Die Funktionen beinhalten zusätzlich das Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
In einem vierten Aspekt wird ein System bereitgestellt, das Mittel zum Empfangen einer Transkription einer Audioaufzeichnung beinhaltet, wobei die Transkription in eine Vielzahl von Textabschnitten unterteilt ist. Das System beinhaltet zusätzlich das Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert wird. Das System beinhaltet auch Mittel zum Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Das System beinhaltet zusätzlich Mittel zum Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
Andere Aspekte, Ausführungsformen und Implementierungen werden für Durchschnittsfachleute auf dem Gebiet durch das Lesen der folgenden ausführlichen Beschreibung mit Bezugnahme auf die begleitenden Zeichnungen, wo dies angebracht ist, ersichtlich.
Figurenliste

1A, 1B, 1C, 1D und 1E stellen eine Sequenz von Ansichten einer GUI eines Computergeräts gemäß beispielhaften Ausführungsformen dar.
2 ist ein Blockdiagramm einer Systemarchitektur gemäß beispielhaften Ausführungsformen.
3 ist ein Blockdiagramm eines Verfahrens gemäß beispielhaften Ausführungsformen.
4 ist ein Funktionsblockdiagramm eines Computergeräts, gemäß beispielhaften Ausführungsformen.

AUSFÜHRLICHE BESCHREIBUNG
Es werden beispielhafte Verfahren, Geräte und Systeme beschrieben. Es versteht sich, dass die Worte „beispielhaft“ und „exemplarisch“ hierin im Sinne von „als Beispiel, Instanz oder Veranschaulichung dienend“ verwendet werden. Jede Ausführungsform oder jedes Merkmal, das hierin als „beispielhaft“ oder „exemplarisch“ beschrieben wird, ist nicht unbedingt als bevorzugt oder vorteilhaft gegenüber anderen Ausführungsformen oder Merkmalen auszulegen. Andere Ausführungsformen können verwendet werden, und andere Änderungen können vorgenommen werden, ohne vom Umfang des hierin dargestellten Gegenstands abzuweichen.
Die hierin beschriebenen beispielhaften Ausführungsformen sind somit nicht als Einschränkung zu verstehen. Aspekte der vorliegenden Offenbarung, wie sie im Allgemeinen hierin beschrieben und in den Figuren dargestellt sind, können in all den verschiedensten Konfigurationen angeordnet, ausgetauscht, kombiniert, getrennt und ausgebildet werden, die hierin alle in Betracht gezogen werden.
Ferner können die in jeder der Figuren veranschaulichten Merkmale auch in Kombination miteinander verwendet werden, sofern der Kontext nichts anderes nahelegt. Somit sind die Figuren im Allgemeinen als Bestandteile einer oder mehrerer Ausführungsformen zu betrachten, wobei nicht alle veranschaulichten Merkmale für jede Ausführungsform erforderlich sind.
I. Überblick
Eine Software-Anwendung kann so programmiert sein, dass sie Audioinhalte, wie z. B. Konversationen zwischen Personen, aufzeichnet. Die Anwendung kann eine Transkription von aufgezeichneten Wörtern und eine Oberfläche zur Anzeige der Transkription für einen Benutzer, wie z. B. den Benutzer eines mobilen Geräts, bereitstellen. In einigen Fällen kann eine derartige Aufzeichnungsanwendung lange Konversationen aufzeichnen, was zu sehr langen Transkriptionen führt (z. B. eine einstündige Konversation, die sich über viele Textseiten erstreckt). In einigen derartigen Fällen kann es für einen Benutzer schwierig sein, wichtige Abschnitte einer Transkription zu finden, wenn er versucht in den vielen Textseiten zu navigieren. In einigen hierin beschriebenen Beispielen können besonders aussagekräftige Abschnitte in dem Text markiert oder hervorgehoben werden, um die Benutzernavigation zu erleichtern. Zusätzlich kann basierend auf dem Inhalt des Abschnitts ein besonders aussagekräftiges Schlüsselwort aus jedem derartigen Abschnitt extrahiert und mit dem Abschnitt assoziiert werden, um die Benutzernavigation weiter zu erleichtern und die Zeit zu verringern, die benötigt wird, um zu einem gewünschten Abschnitt der gesamten Transkription zu navigieren.
Eine Transkription kann zunächst basierend auf einem Transkriptionsmodell, das die gesamte Transkription als Eingabe verwendet und Abschnittsaufteilungen zwischen verschiedenen Textabschnitten ausgibt, in Abschnitte aufgeteilt werden. Ein oder mehrere Abschnittsauswahlmodelle können dann auf die Abschnitte angewendet werden, um die für das Verständnis des gesamten Textes signifikantesten Abschnitte zu identifizieren. Für jeden derartigen signifikanten Abschnitt kann ein Tag dem Abschnitt zugeordnet werden, der den Text dieses Abschnitts am besten beschreibt. Jedes Tag kann aus einem einzelnen Wort oder mehreren aufeinanderfolgenden Wörtern bestehen, die aus einem Textabschnitt extrahiert werden, der am besten darstellt, worum es sich in dem Abschnitt handelt und was den Abschnitt gegenüber dem gesamten Inhalt des Textes abhebt. Die Tags können eine einfache Benutzernavigation (z. B. Scrollen) ermöglichen, um zu wichtigen Abschnitten des Textes zu navigieren, die Themen beschreiben, die durch die assoziierten Tags beschrieben werden.
In einigen Beispielen kann sowohl das Hervorheben wichtiger Abschnitte als auch das Identifizieren von Schlüsselwörtern in diesen Abschnitten, die als Tags dienen sollen, im Kontext der gesamten Transkription durchgeführt werden. Beispielsweise kann ein Textabschnitt sowohl die National Basketball Association (NBA) als auch Lebron James beschreiben. Somit könnten sowohl „NBA“ als auch „Lebron“ potentiell als Tags für den Abschnitt dienen. Der Gesamttext der Transkription kann jedoch viele Verweise auf die NBA beinhalten, wohingegen andere Abschnitte möglicherweise keine Verweise auf Lebron James enthalten. Dementsprechend kann „Lebron“ als Abschnitts-Tag identifiziert werden, da der Textabschnitt sich speziell mit Lebron James beschäftigt. Auf diese Weise können Tags mit einem kontextuellen Verständnis des Gesamttextes extrahiert werden, um die Spezifizität der assoziierten Textabschnitte hinsichtlich dessen, was dieser Abschnitt zu der vollständigen Transkription hinzufügt, zu betonen.
Ein oder mehrere getrennte Modelle können verwendet werden, um den assoziierten Abschnitten Tags zuzuordnen. In einigen Beispielen können Ergebnisse von zwei verschiedenen Modellen kombiniert werden, um zu identifizieren, welche Tags zu welchem Abschnitt gehören. Ein erstes derartiges Modell kann ein Tiefenlernmodell sein, das an Benutzerdaten trainiert wird, den Text zu verstehen und wichtige Tags in dem Text zu finden. Das erste Modell kann beispielsweise ein Tiefenlernmodell für natürliche Sprachverarbeitung (Natural Language Processing, NLP) sein, wie z. B. Bidirectional Encoder Representations from Transformers (BERT). Ein zweites Modell kann ein heuristisches oder algorithmisches Modell anstelle eines Maschinenlernmodells sein. Beispielsweise kann das zweite Modell ein Term Frequency-Inverse Document Frequency-(TF-IDF-)Modell sein, das extrahierte potenzielle Tags analysiert und zählt, wie oft jedes potenzielle Tag in jedem Abschnitt auftritt. Verschiedene Gewichtungen können auf die Ergebnisse des Maschinenlernmodells (z. B. Gewichten einer Bewertung eines Tags im Kontext des Gesamttextes) und auf die Ergebnisse des algorithmischen Modells (z. B. Gewichten einer Bewertung eines Tags basierend auf der Anzahl an Instanzen) angewendet werden. Ein Ansatz mit zwei Modellen kann vorteilhaft sein, da jedes Modell über eigene Tag-Identifikationsfähigkeiten verfügen kann. Ein algorithmischer tag-basierter Selektor kann gut geeignet sein, um allgemeine Begriffe zu finden, die häufig vorkommen, funktioniert jedoch möglicherweise nicht gut, um spezifische Begriffe zu identifizieren. Ein maschinelles Lernmodell kann besser geeignet sein, um spezifische Begriffe zu finden, kann jedoch auch manchmal spezifische Begriffe identifizieren, die eindeutig falsch sind. Das Kombinieren beider Ansätze (eines Modells, das für allgemeine Begriffe geeignet ist, und eines Modells, das für spezifische Begriffe geeignet ist) kann die Vorteile beider Modelle nutzbar machen. Nach dem Aggregieren der Ergebnisse beider Modelle können ausschließlich Tags mit hohen Bewertungen von beiden Modellen ausgewählt werden, sodass jedes Modell als Prüfung des anderen dient.
In einigen Beispielen werden möglicherweise nur Substantive als Tags extrahiert. Ein separates Substantivextraktormodell kann verwendet werden, um andere Wortarten auszusondern. Basierend auf der Rückmeldung von Benutzern wurden Substantive für einige beispielhafte Anwendungen als nützlichere Tags identifiziert als andere Wortarten, wie z. B. Adjektive und Verben. In weiteren Beispielen kann zur Feststellung der Häufigkeit des Vorkommens von Tags eine linguistische Ableitung auf das jeweilige Tag angewandt werden, sodass verschiedene Formen von Tags alle als Vorkommen gezählt werden. So kann beispielsweise die gleiche Vorkommenszählung auf Substantive im Singular, Substantive im Plural und Genitivformen von Substantiven angewandt werden (z. B. Apfel, Äpfel, Apfels).
Das Ergebnis der Anwendung eines oder mehrerer Tag-Zuordnungsmodelle kann eine Liste von einem oder mehreren Tags sein, die dem jeweiligen Abschnitt zugeordnet werden. In einigen Beispielen kann die Tag-Zuordnung parallel zur Textabschnittsauswahl durchgeführt werden (während die Tags für Textabschnitte identifiziert werden, ist möglicherweise nicht bekannt, welche Textabschnitte ausgewählt werden). In weiteren Beispielen kann für die Liste der Tags für den jeweiligen Abschnitt eine Einstufung vorgenommen oder diese anderweitig bewertet werden, um eine spätere Anzeige eines besonders geeigneten Tags für den jeweiligen ausgewählten Abschnitt zu ermöglichen. Es können auch doppelte Tags herausgefiltert werden, um zu vermeiden, dass dasselbe Tag verschiedenen Abschnitten zugeordnet wird. Jeder Textabschnitt kann daher mit einem eindeutigen assoziierten Tag versehen werden.
Die Identifizierung wichtiger Textabschnitte, die hervorgehoben werden sollen, kann auch mithilfe eines oder mehrerer Modelle durchgeführt werden. In einigen Beispielen können Ergebnisse von einem ersten Modell und einem zweiten Modell kombiniert werden. Das erste Modell kann ein Maschinenlernmodell (z. B. ein Tiefenlernmodell, das trainiert ist, Grammatik und Kontext zu verstehen) sein. Das zweite Modell kann ein algorithmisches Modell sein (z. B. ein Tag-basiertes Modell, das so konfiguriert ist, dass es alle Tags, die in dem jeweiligen Abschnitt vorkommen, zusammenfasst). Die Ergebnisse (z. B. Bewertungen) des jeweiligen Modells können normalisiert werden, und ein vordefiniertes Gewichtungsschema kann angewandt werden, um die Ergebnisse zu aggregieren. Die Ausgabe dieses Tag-Auswahlprozesses kann eine Abschnittsrelevanzbewertung für jeden Textabschnitt der Transkription sein (getrennt von den separat erzeugten Tag-Relevanzbewertungen für alle in dem jeweiligen Abschnitt vorkommenden Tags). Ähnlich wie bei dem Tag-Auswahlprozess kann eine Kombination verschiedener Ansätze (z. B. eines Maschinenlernmodells und eines algorithmischen Modells) bessere Ergebnisse bereitstellen als jedes Modell als einzelnes.
Abschließend kann eine Teilmenge der Textabschnitte der Transkription ausgewählt werden, um als Teil einer intelligenten Scroller-Benutzeroberfläche verwendet zu werden. Um die Benutzererfahrung zu optimieren, können als wichtig identifizierte Textabschnitte, mit denen auch ein als wichtig identifiziertes Tag assoziiert ist, priorisiert werden. Textabschnitte, die als wichtig identifiziert werden, die über keine gute assoziierte Tag-Option verfügen, werden möglicherweise nicht ausgewählt, da Tags als Teil der resultierenden Benutzeroberfläche angezeigt werden. Textabschnitte können daher identifiziert werden, indem sowohl die Relevanzbewertungen der Textabschnitte als auch die Relevanzbewertungen der assoziierten Tags abgeglichen werden. In einigen Beispielen kann eine vorbestimmte Anzahl an Textabschnitten immer für die Benutzeroberfläche ausgewählt werden. Beispielsweise können acht Textabschnitte ausgewählt werden, um als Teil einer Scroller-Oberfläche angezeigt zu werden. In weiteren Beispielen kann eine Gleichverteilungsfilterung angewandt werden, um Bewertungen von Abschnitten in der gesamten Transkription, die einander zu ähnlich sind, abzuwerten. Zusätzlicher Navigationswert kann erhalten werden, indem keine benachbarten Abschnitte hervorgehoben werden.
II. Beispielhafte GUIs
Eine GUI kann als Teil einer Scroller-Oberfläche bereitgestellt werden, um die Benutzernavigation des Textes zu erleichtern. In einigen Beispielen beinhaltet die Benutzeroberfläche eine grafische Anzeige, die erscheint, sobald der Benutzer mit dem Scrollen durch den Text beginnt, was verdeutlicht, dass der Benutzer den Text überfliegt oder durchsucht. Die Benutzeroberfläche kann eine Scrollleiste auf der rechten Seite zum Vorschein bringen und die markierten Bereiche und Tags darstellen, wenn der Benutzer durch diese Bereiche scrollt. Als spezifischeres Beispiel kann die Benutzeroberfläche zwei Teile beinhalten: (1) einen grauen Zeitstrahl, der eine Gesamtübersicht über das gesamte Transkript darstellt, und (2) eine blaue Blase, die als Lupe für den Text wirkt, der derzeit auf dem Bildschirm sichtbar ist. In einigen Beispielen kann die Anzahl an Abschnitten, die auf dem Bildschirm in dem grauen Zeitstrahl angezeigt werden sollen, unabhängig von der Textgröße begrenzt werden. Beispielsweise kann diese Anzahl maximal acht bis zehn Abschnitte betragen. Die GUI kann im Aussehen von den hierin spezifisch dargestellten und beschriebenen Beispielen abweichen.
1A, 1B, 1C, 1D und 1E stellen eine Sequenz von Ansichten einer GUI eines Computergeräts gemäß beispielhaften Ausführungsformen dar. Insbesondere ist das Computergerät 100 als Mobiltelefon oder Tablet-Gerät mit einer Anzeige dargestellt, die Teile einer Transkription einer Audioaufzeichnung zeigt. Die GUI beinhaltet zusätzlich Benutzeroberflächenelemente, die eine Benutzernavigation zu verschiedenen Abschnitten der Transkription erleichtern sollen.
1A stellt eine anfängliche Ansicht eines Teils der Transkription auf der Anzeige des Computergeräts 100 dar. Die Transkription ist in diskrete Textabschnitte unterteilt. In diesem Fall wird jeder diskrete Textabschnitt als Absatz dargestellt. In alternativen Beispielen können stattdessen auch andere Unterteilungen für die diskreten Textabschnitte verwendet werden (z. B. Sätze oder Seiten). Unter Bezugnahme auf 1A werden drei Textabschnitte auf der Anzeige des Computergeräts 100 dargestellt: Textabschnitt 102, Textabschnitt 106 und Textabschnitt 110. Zusätzlich werden die Zeitstempel 104 und 108 angezeigt, um die Startzeiten in der Transkription entsprechender Textabschnitte anzuzeigen.
1A zeigt zusätzlich, dass ein Benutzer „Transkript“ ausgewählt hat, um in einen Benutzeroberflächenmodus umzuschalten, in dem eine Textdarstellung einer Audioaufzeichnung angezeigt wird. In dem dargestellten Beispiel ist auch ein „Audio“-Modus verfügbar, um es dem Benutzer zu ermöglichen, stattdessen zu verschiedenen Teilen der Audioaufzeichnung zu navigieren, um diese wiederzugeben. Die in 1A dargestellte Ansicht kann eine Benutzernavigation in einer Transkription in Echtzeit (z. B. während oder kurz nach einer Audioaufzeichnung) darstellen. Die in 1A dargestellte Ansicht kann auch eine Benutzernavigation in einer Transkription zu einem späteren Zeitpunkt nach der Aufzeichnung darstellen. In diesem Beispiel betrifft die Audioaufzeichnung einen Lehrer, der Biologieunterricht gibt. Dementsprechend können die Benutzeroberfläche und die assoziierte Software-Anwendung von einem Schüler verwendet werden, um nach Ende des Kurses zu verschiedenen Abschnitten einer Transkription der Aufzeichnung des Kurses zu navigieren. Das dargestellte Beispiel ist ein typischer Fall, bei dem eine Benutzeroberfläche, die eine effiziente Navigation ermöglicht, besonders vorteilhaft sein kann. Beispielsweise kann der Schüler eine gesamte Kurssitzung aufnehmen, möchte zu einem späteren Zeitpunkt jedoch nur bestimmte Abschnitte einsehen. Die Software-Anwendung kann daher eine vorteilhafte Alternative zum Wiedergeben der gesamten Audioaufzeichnung der Kurssitzung bereitstellen.
Um in der Transkription zu navigieren, kann der Benutzer eine Touchscreen-Schnittstelle des Computergeräts 100 an der Berührungsfläche 120 auf der Anzeige berühren. Der Benutzer kann dann seinen Finger nach oben bewegen, wie durch die Benutzereingabe 122 dargestellt. Diese Aufwärtsbewegung kann ein Abwärtsscrollen des auf dem Bildschirm angezeigten Textes einleiten. Umgekehrt kann eine Abwärtsbewegung ein Aufwärtsscrollen des auf dem Bildschirm angezeigten Textes einleiten. In alternativen Beispielen können verschiedene Arten von Benutzereingaben und/oder verschiedene Arten von Benutzereingabegeräten verwendet werden, um ein Scrollen des auf dem Bildschirm des Computergeräts 100 angezeigten Textes zu ermöglichen.
1B stellt eine auf die in 1A dargestellte Benutzereingabe folgende Ansicht der Anzeige des Computergeräts 100 dar. In 1B ist die Berührungsfläche 120 weiter oben auf dem Bildschirm auf dem Computergerät 100 dargestellt, um die Aufwärtsbewegung des Fingers des Benutzers darzustellen. Die Transkription wird so gescrollt, dass sie eine textliche Darstellung eines späteren Abschnitts der Audioaufzeichnung zeigt. Dementsprechend werden jetzt die Textabschnitte 106 und 110 zusammen mit den Zeitstempeln 108 und 112 auf dem Bildschirm dargestellt. 1B stellt daher das Ergebnis der manuellen Navigation in der Transkription dar. Die in den 1A-1E dargestellte beispielhafte Transkription ist nur wenige Minuten lang. In der Praxis können jedoch Transkriptionen für viel längere Audioaufzeichnungen (z. B. eine Stunde oder mehr) erzeugt werden. In derartigen Fällen kann die manuelle Navigation durch herkömmliches Scrollen für einen Benutzer sehr ineffizient sein.
1B stellt zusätzlich das Oberflächenelement 130 dar, das in Reaktion auf die Bewegung des Fingers des Benutzers angezeigt wird, die durch die Berührungsfläche 120 angegeben wird. In diesem Fall gibt die Aufwärtsbewegung des Fingers des Benutzers einen Wunsch an, in dem Text der Transkription zu navigieren (z. B. einen bestimmten Abschnitt eines Kursvortrags zu finden). Dementsprechend wird das Oberflächenelement 130 angezeigt, um dem Benutzer eine auswählbare Option bereitzustellen, um eine getrennte intelligente Scroller-Oberfläche zu öffnen. In diesem Beispiel werden die Aufwärts- und Abwärtspfeile des Oberflächenelements 130 bereitgestellt, um die Bedeutung des Oberflächenelements 130 besser darzustellen. In anderen Beispielen kann eine andere Art von Oberflächenelement angezeigt werden. In noch anderen Beispielen wird möglicherweise kein Oberflächenelement angezeigt, und stattdessen kann in Reaktion auf die anfängliche Scrolleingabe des Benutzers eine vollständige intelligente Scroller-Oberfläche angezeigt werden. In noch weiteren Beispielen können einem Benutzer alternative Oberflächenmittel bereitgestellt werden, um das Computergerät 100 zu veranlassen, zusätzlich oder alternativ eine intelligente Scroller-Oberfläche anzuzeigen.
1 C veranschaulicht zusätzlich das Oberflächenfeld 132, das in Reaktion auf eine Benutzereingabe angezeigt wird, mit der das Oberflächenelement 130 ausgewählt wird. Die Berührungsfläche 120 zeigt eine Benutzerberiihrungseingabe an, um das Oberflächenelement 130 auszuwählen. Daraufhin wird das Feld 132 angezeigt, das den Zeitstrahl 134 beinhaltet, der die gesamte Länge der Transkription darstellt. Zusätzlich beinhaltet das Feld 132 auch Tags 136, die mit verschiedenen ausgewählten Textabschnitten aus der Transkription assoziiert sind. Sowohl die Abschnittsrelevanz als auch die Tag-Relevanz können im Kontext der gesamten Transkription analysiert werden, um zu ermitteln, welche Abschnitte ausgewählt werden sollen, um in die intelligente Scroller-Oberfläche einbezogen zu werden, und welches Tag für den jeweiligen ausgewählten Abschnitt angezeigt werden soll. Weitere Einzelheiten zu dem Abschnitt- und Tag-Auswahlprozess werden in der Beschreibung zu der in 2 dargestellten beispielhaften Architektur bereitgestellt. Feld 132 und die enthaltenen Benutzeroberflächenkomponenten stellen einem Benutzer alternative Mittel zum schnellen Navigieren zu verschiedenen Abschnitten der gesamten Transkription bereit.
In einigen Beispielen kann immer eine vorbestimmte Anzahl an Textabschnitten ausgewählt werden, die in die intelligente Scroller-Oberfläche einbezogen werden sollen. In einem in 1C dargestellten Beispiel werden sechs Tags aus entsprechenden Textabschnitten der Transkription extrahiert. In diesem Fall sind die Tags 136: „Interphase“, „Zellteilung“, „Organismus“, „Meiose“, „Klausur“ und „Mitose“. Jedes der Tags 136 stellt einen kontextualisierten Indikator für die Relevanz entsprechender ausgewählter Abschnitte der Transkription bereit, um die Benutzernavigation durch eine Interaktion mit der intelligenten Scroller-Oberfläche zu erleichtern. In einigen Beispielen, wie hier dargestellt, können für alle Tags 136 Substantive ausgewählt werden. In alternativen Beispielen können zusätzlich oder alternativ andere Arten von Tags extrahiert werden.
1D stellt die Navigation zu einem anderen Abschnitt der Transkription in Reaktion auf eine Benutzereingabe dar, die innerhalb der intelligenten Scroller-Oberfläche navigiert. Insbesondere kann der Benutzer entscheiden, zu einem bestimmten der Tags 136 zu navigieren, um zu einem anderen Abschnitt der Transkription zu navigieren. Die Art und Weise, wie die Navigation zu einem bestimmten Tag innerhalb einer intelligenten Scroller-Oberfläche durchgeführt wird, kann in verschiedenen Beispielen variieren. In einigen Beispielen kann die Oberfläche es dem Benutzer ermöglichen, das Oberflächenelement 130 zu einem anderen Abschnitt des Zeitstrahls 134 zu ziehen und/oder den Zeitstrahl 134 direkt zu berühren, um das Oberflächenelement 130 zu einem anderen Abschnitt des Zeitstrahls 134 zu bewegen. In dem dargestellten Beispiel veranschaulicht die Stelle der Berührungsfläche 120 die Navigation des Benutzers zu dem Tag „Mitose“ nahe dem Ende der Transkription. Die hervorgehobene Blase 140 stellt dar, dass der Benutzer zu „Mitose“ navigiert hat, und die hervorgehobene Blase 140 zeigt darüber hinaus einen entsprechenden Zeitstempel („02:16“) an, bei dem der Textabschnitt, der dem Tag „Mitose“ entspricht, in der Audioaufzeichnung beginnt. In weiteren Beispielen kann die Oberfläche einem Benutzer ermöglichen, zusätzlich oder alternativ bestimmte Tags direkt auszuwählen, um zu entsprechenden Abschnitten in der Transkription zu navigieren.
Als Ergebnis der Benutzerinteraktion mit dem Feld 132 wird ein anderer Abschnitt der Transkription auf dem Computergerät 100 angezeigt. Insbesondere werden die Textabschnitte 114 und 118 zusammen mit dem Zeitstempel 116 angezeigt. In diesem Beispiel entspricht der Textabschnitt 118 dem Tag „Mitose“ und beginnt bei 02:16 der Audioaufzeichnung. Die Benutzereingabe, die in dem Feld 132 bereitgestellt wird, gibt daher ein Interesse an einem Betrachten der Kurssitzung an, die sich spezifisch auf die Mitose bezieht. Andere Abschnitte der Transkription entsprechen den anderen Tags 136, die innerhalb des Felds 132 für die Benutzernavigation verfügbar sind.
Die GUI, die die intelligente Scroller-Oberfläche darstellt, kann in anderen Beispielen anders gestaltet sein. Beispielsweise können in einigen Beispielen nur die Tags ohne Zeitstrahl zur Auswahl angezeigt werden. Die Tags können zusätzlich oder alternativ in einem anderen Format angezeigt werden, wie z. B. als Drop-Down-Liste. In anderen Beispielen werden möglicherweise nur benachbarte Tags zu einer aktuellen Navigationsposition in der Transkription angezeigt, wenn der Benutzer in einem Zeitstrahl nach oben und unten navigiert. Unabhängig davon kann die Oberfläche basierend auf Tags, die im Kontext der gesamten Transkription als hochgradig relevant identifiziert wurden, eine schnelle Navigation zu Abschnitten der Transkription ermöglichen, die als hochgradig relevant identifiziert wurden.
1E stellt die auf einer Benutzerinteraktion mit der intelligenten Scroller-Oberfläche resultierende Anzeige eines ausgewählten Abschnitts der Transkription dar. Insbesondere ist der Textabschnitt 118 basierend auf der Benutzernavigation zu dem Tag „Mitose“ nun vollständig auf dem Bildschirm des Computergeräts 100 sichtbar. In einigen Beispielen, wie hier dargestellt, kann die Oberfläche es dem Benutzer ermöglichen, den einem bestimmten Tag entsprechenden Textabschnitt zu betrachten, indem er die Berührungseingabe nach dem Navigieren zu dem bestimmten Tag entfernt. Das Feld 132 kann in Reaktion auf die Benutzereingabe entfernt werden, um eine vollständige Ansicht des ausgewählten Abschnitts der Transkription zu ermöglichen. In weiteren Beispielen können, nachdem das Feld 132 entfernt wurde, ein oder mehrere Instanzen des Tags innerhalb des Textabschnitts vorübergehend hervorgehoben werden, um die Wirkung der Benutzereingabe zu verdeutlichen. Unter Bezugnahme auf 1E hebt der hervorgehobene Block 150 beispielsweise die Instanzen von „Mitose“ innerhalb des Textabschnitts 118 hervor, um dem Benutzer zu vermitteln, dass er zu einem Abschnitt der Transkription navigiert hat, die durch die dortige Beschreibung der Mitose im Kontext der gesamten Transkription als besonders relevant identifiziert wurde.
Um den Prozess zu wiederholen, kann der Benutzer zusätzliche Berührungseingaben auf der Anzeige des Computergeräts 100 bereitstellen, um die intelligente Scroller-Oberfläche erneut zu öffnen. Von dort aus kann der Benutzer entscheiden, zu einem anderen Tag zu navigieren, um einen anderen assoziierten Textabschnitt zu betrachten. Auf diese Weise kann die Benutzererfahrung beim Navigieren in dem Text einer Transkription gegenüber Oberflächen verbessert werden, die nur ein manuelles Aufwärts- und Abwärtsscrollen erlauben.
III. Bespielhafte Architektur
2 ist ein Blockdiagramm einer Systemarchitektur gemäß beispielhaften Ausführungsformen. Insbesondere stellt 2 eine beispielhafte Architektur 200 (Anordnung von Softwaremodulen) dar, die an bereitgestellten Eingaben arbeiten kann, um Ausgaben zu erzeugen, die den Betrieb der hierin beschriebenen intelligenten Scroller-Oberflächen ermöglichen. Die Anordnung von 2 wird zur Veranschaulichung bereitgestellt. Alternative Beispiele können weniger Module, zusätzliche Module und/oder auf andere Art als explizit in 2 dargestellt angeordnete oder kombinierte Module beinhalten.
Die Texteingabe 202 kann in Form einer Transkription einer Audioaufzeichnung zur Verarbeitung durch die in 2 dargestellten Module bereitgestellt werden. In einigen Beispielen kann dasselbe Computergerät die Texteingabe 202 aus einer Audioaufzeichnung erzeugen und die Texteingabe 202 unter Nutzung der Architektur 200 verarbeiten. In anderen Ausführungsformen kann ein erstes Computergerät die Texteingabe 202 aus einer Audioaufzeichnung erzeugen, und ein zweites Computergerät kann die Texteingabe 202 unter Nutzung der Architektur 200 verarbeiten. Beispielsweise kann das erste Computergerät ein mobiles Benutzergerät sein, und das zweite Computergerät kann ein Remote-Server sein.
2 wird im Kontext des Verarbeitens der Texteingabe 202 in Form einer Transkription einer Audioaufzeichnung beschrieben. Es ist jedoch zu beachten, dass die in Bezug auf 2 sowie die anderen hierin enthaltenen Figuren dargestellte und beschriebene Methodik gleichermaßen auf andere Arten von Texteingaben anwendbar ist. Die Methodik kann beispielsweise auch angewandt werden, um eine intelligente Scroller-Oberfläche für das Navigieren in Büchern (z. B. für einen E-Reader), Webseiten (z. B. für einen Webbrowser) oder Nachrichten (für einen Nachrichtenbetrachter), neben anderen möglichen Anwendungen, zu erzeugen.
Der Tag-Extraktor 204 ist ein Modul, das auf die Texteingabe 202 angewendet wird, um in Frage kommende oder potenzielle Tags aus der Transkription zu erstellen. Diese in Frage kommenden Tags können später während des Tag-Auswahlprozesses und des Textabschnitt-Auswahlprozesses beurteilt werden, um zu ermitteln, welche Tags in eine intelligente Scroller-Oberfläche aufgenommen werden sollen. Der Tag-Extraktor 204 kann ein Maschinenlernmodell sein, das basierend auf Benutzerdaten trainiert wurde, wichtige Wörter über den gesamten Text der Transkription hinweg zu finden.
Die Textabschnitte 206 werden ebenfalls basierend auf der Texteingabe 202 erzeugt. In einigen Beispielen können die Textabschnitte 206 zusammen mit Texteingabe 202 als Teil der Eingabe an ein Computergerät bereitgestellt werden, das die Architektur 200 verwendet. In anderen Beispielen kann das Computergerät die Texteingabe 202 direkt verarbeiten, um die Texteingabe 202 in die diskreten Abschnitte zu unterteilen, aus denen die Textabschnitte 206 bestehen. Jeder der Textabschnitte 206 kann als ein separater Absatz oder ein anderer Textblock innerhalb der gesamten Transkription identifiziert werden. In einigen Beispielen können ein Maschinenlernmodell, ein algorithmisches Modell oder eine Kombination von beiden verwendet werden, um geeignete Teilungspunkte zwischen aufeinanderfolgenden Abschnitten einer Transkription zu finden, um die Textabschnitte 206 zu erzeugen.
Sowohl die Textabschnitte 206 als auch die vom Tag-Extraktor 204 erzeugten Tags können in den Substantivextraktor 208 eingegeben werden, bei dem es sich um ein Modul handelt, das so konfiguriert ist, dass es die Tags so filtert, dass diese nur Substantive beinhalten. In einigen Beispielen kann der Substantivextraktor 208 ein Maschinenlernmodul sein, wie z. B. ein neuronales Netzwerk, das für das Wortart-Tagging trainiert ist. In weiteren Beispielen kann der Substantivextraktor 208 linguistische Ableitungsheuristiken anwenden, sodass verschiedene Formen eines Substantivs als das gleiche potenzielle Tag gezählt werden (einschließlich Singular, Plural, Genitiv usw.). Die Ausgabe des Substantivextraktors 208 kann in den Tag-Vorkommenszähler 210 eingegeben werden, wobei es sich um ein Modul handelt, das so konfiguriert ist, dass es die Vorkommen aller Formen potenzieller Tags zählt. Die resultierende Ausgabe des Substantivextraktors 208 und des Tag-Vorkommenszählers 210 beinhaltet potenzielle Substantiv-Tags und assoziierte Vorkommenszählungen, die als Eingabe verwendet werden können, um sowohl das Tag-Auswahl- als auch das Abschnittsauswahlverfahren zu unterstützen.
Der Tiefen-Konversationssprachverständnis (Conversation Language Understanding, CLU)-Tag-Selektor 212 ist ein Maschinensprachlernmodell, das basierend auf Benutzerdaten trainiert wird, Grammatik und Kontext zu verstehen, um potenzielle Tags für die jeweiligen Abschnitte zu bewerten und/oder einzustufen. In einigen Beispielen ist der Tiefen-CLU-Tag-Selektor 212 ein BERT-basiertes, rekurrentes neuronales Netzwerk (RNN)-Modell. Der Tiefen-CLU-Tag-Selektor 212 verwendet die Textabschnitte 206 sowie die potenziellen Tags von dem Tag-Extraktor 204 als Eingabe, um die potenziellen Tags für die jeweiligen Abschnitte zu bewerten und/oder einzustufen. Die Ausgabe des Tiefen-CLU-Tag-Selektor 212 ist eine Bewertung und/oder Einstufung, die dann in den Normalisierer 222 eingegeben wird. Der Normalisierer 222 ist ein Modul, das die Bewertung und/oder die Einstufung von Tags anpasst, um die Aggregation von Bewertungen und/oder Einstufungen von Tags, die von mehreren verschiedenen Modellen (z. B. einem Maschinenlernmodell und einem algorithmischen Modell) ausgegeben werden, zu ermöglichen.
Der Tag-basierte Tag-Selektor 214 ist ein algorithmisches oder heuristisches Modell, das Tags aus den potenziellen Tags, die von dem Tag-Extraktor 204 erzeugt werden, zu bewerten und/oder einzustufen. In einigen Beispielen kann der Tag-basierte Tag-Selektor 214 ein TF-IDF-Modell mit Kurvenanpassung sein. Ein TF-IDF-Modell basiert auf einer numerischen Statistik, die abbilden soll, wie wichtig ein Wort für ein Dokument in einer Sammlung oder einem Korpus ist. Der TF-IDF-Wert steigt proportional zu der Anzahl an Vorkommen eines Worts in dem Dokument und wird um die Anzahl an Dokumenten in dem Korpus, die das Wort enthalten, versetzt, was der Tatsache Rechnung trägt, dass einige Wörter im Allgemeinen häufiger vorkommen. In einigen Beispielen arbeitet der Tag-basierte Tag-Selektor 214 durch das Bewerten und/oder das Einstufen der potenziellen Tags in dem jeweiligen Abschnitt basierend auf Vorkommenszählungsinformationen von dem Tag-Vorkommenszähler 210. Die Ausgabe des Tag-basierten Tag-Selektors 214 wird in den Normalisierer 224 eingegeben. Ähnlich wie der Normalisierer 222 ist der Normalisierer 224 ein Modul, das die Bewertung und/oder die Einstufung von Tags anpasst, um die Aggregation von Bewertungen und/oder Einstufungen von Tags, die von mehreren verschiedenen Modellen ausgegeben werden, zu ermöglichen.
Der Tag-Aggregator 226 ist ein Modul, das die ausgegebenen Bewertungen und/oder Einstufungen von Tags sowohl von dem Normalisierer 222 als auch von dem Normalisierer 224 als Eingabe verwendet. In einigen Beispielen kann das Aggregieren der Ergebnisse mehrerer Modelle bessere Ergebnisse liefern. Der Tag-Aggregator 226 wendet eine gewichtete Mittelung der Ausgaben von den mehreren verschiedenen Modellen an. In einigen Beispielen basiert die gewichtete Mittelung auf vorbestimmten Gewichtungen. In anderen Beispielen können einige oder alle der Gewichtungen periodisch angepasst werden. Die Ausgabe des Tag-Aggregators 226 wird in die Doppelungsfilterung 228 eingegeben. Die Doppelungsfilterung 228 ist ein Modul, das doppelte Tags entfernt, sodass für jeden Abschnitt ein unterschiedliches Tag ausgewählt wird.
Die resultierende Ausgabe des Tag-Aggregationsprozesses (die Ausgabe nach der Anwendung der Doppelungsfilterung 228 auf die Ausgabe des Tag-Aggregators 226) ist ein eindeutiges am höchsten eingestuftes Tag für jeden Textabschnitt (zu diesem Zeitpunkt ohne Kenntnis, welche bestimmten Textabschnitte für die intelligente Scroller-Oberfläche ausgewählt werden). In einigen Beispielen ist die Ausgabe des Tag-Aggregationsprozesses stattdessen eine Einstufung mehrerer Tags für jeden der Textabschnitte (z. B. eine Einstufung von am relevantesten zu am wenigsten relevant).
Unter Bezugnahme auf den Abschnittsauswahlprozess ist der Tag-basierte Abschnittsbewerter 232 ein algorithmisches oder heuristisches Modul, das die Textabschnitte bewertet und/oder einstuft, indem es alle darin enthaltenen potenziellen Tags bewertet und zusammenfasst. Der Tag-basierte Abschnittsbewerter 232 verwendet die Textabschnitte 206, die potenziellen Tags von dem Tag-Extraktor 204 und die Vorkommensinformationen von dem Tag-Vorkommenszähler 210 als Eingabe. Die Bewertungen und/oder die Einstufung von Textabschnitten, die von dem Tag-basierten Abschnittsbewerter 232 ausgegeben werden, können in den Normalisierer 242 eingegeben werden. Der Normalisierer 242 ist ein Modul, das die Bewertung und/oder die Einstufung von Textabschnitten anpasst, um die Aggregation von Bewertungen und/oder Einstufungen von Textabschnitten, die von mehreren verschiedenen Modellen (z. B. einem Maschinenlernmodell und einem algorithmischen Modell) ausgegeben werden, zu ermöglichen.
Der Tiefen-CLU-Abschnittsbewerter 234 ist ein Maschinenlernsprachenmodell, das basierend auf Benutzerdaten trainiert wird, Grammatik und Kontext zu verstehen, um die Textabschnitte zu bewerten und/oder einzustufen. In einigen Beispielen ist der Tiefen-CLU-Abschnittsbewerter 234 ein BERT-basiertes RNN-Modell. Der Tiefen-CLU-Abschnittsbewerter 234 verwendet die Textabschnitte 206 sowie die potenziellen Tags von dem Tag-Extraktor 204 als Eingabe, um die Textabschnitte zu bewerten und/oder einzustufen. Die Ausgabe des Tiefen-CLU-Abschnittsbewerters 234 ist eine Bewertung und/oder Einstufung, die dann in den Normalisierer 244 eingegeben wird. Ähnlich wie der Normalisierer 242 ist der Normalisierer 244 ein Modul, das die Bewertung und/oder die Einstufung anpasst, um die Aggregation von Bewertungen und/oder Einstufungen von Abschnitten, die von mehreren verschiedenen Modellen (z. B. einem Maschinenlernmodell und einem algorithmischen Modell) ausgegeben werden, zu ermöglichen.
Der Abschnitte-Aggregator 246 ist ein Modul, das die ausgegebenen Bewertungen und/oder Einstufungen von Textabschnitten sowohl von dem Normalisierer 242 als auch von dem Normalisierer 244 als Eingabe verwendet. In einigen Beispielen kann das Aggregieren der Ergebnisse mehrerer Modelle bessere Ergebnisse liefern. Der Abschnitte-Aggregator 246 wendet eine gewichtete Mittelung der Ausgaben von den mehreren verschiedenen Modellen an. In einigen Beispielen basiert die gewichtete Mittelung auf vorbestimmten Gewichtungen. In anderen Beispielen können einige oder alle der Gewichtungen periodisch angepasst werden. Die Ausgabe des Abschnitte-Aggregators 246 ist eine Bewertung und/oder Einstufung der Textabschnitte.
In einigen Beispielen können sowohl Abschnittsrelevanzbewertungen für jeden der Textabschnitte als auch Tag-Relevanzbewertungen für jedes der Tags in jedem Abschnitt beim Auswählen einer Teilmenge der Textabschnitte analysiert werden, die als Teil einer intelligenten Scroller-Oberfläche angezeigt werden sollen. Die Gleichverteilungsfilterung 250 ist ein Modul, das zunächst angewandt werden kann, um die Bewertungen von Abschnitten, die in der gesamten Transkription eng beieinander liegen (z. B. angrenzend), abzuwerten. Der Abschnittsselektor 252 ist ein Modul, das daraufhin basierend auf den Tag-Bewertungs- und/oder Tag-Einstufungs-Informationen von dem Tag-Aggregator 226 und den Textabschnittsbewertungs- und/oder Textabschnittseinstufungsinformationen von dem Abschnitts-Aggregator 246 den Abschnittsauswahlprozess durchführt.
Die Ausgabe des Abschnittsselektors 252 sind die Grenzergebnisse 260, eine Teilmenge von Textabschnitten, die basierend auf allen Bewertungsinformationen die beste Leistung erbringen, wobei jeder Abschnitt über ein leistungsstärkstes Tag verfügt, das innerhalb einer intelligenten Scroller-Oberfläche angezeigt werden soll. In einigen Beispielen wählt der Abschnittsselektor 252 Grenzergebnisse 260 immer so aus, dass eine vorbestimmte Anzahl der leistungsstärksten Abschnitte verfügbar ist (z. B. die leistungsstärksten acht Abschnitte). In anderen Beispielen kann die Anzahl an Textabschnitten, die von dem Abschnittsselektor 252 zur Verwendung durch die intelligente Scroller-Oberfläche ausgewählt werden, basierend auf einem oder mehreren Faktoren, wie z. B. Benutzerpräferenz und/oder Transkriptionslänge, angepasst werden.
Bei den in 2 dargestellten maschinenlembasierten Modulen können zunächst Benutzerdaten erfasst und für Trainingszwecke verwendet werden. Insbesondere können Benutzer aufgefordert werden, Transkriptionen von Audioaufzeichnungen zu überprüfen, um wichtige Abschnitte hervorzuheben, um ein Modell für die Abschnittsauswahl zu trainieren. Benutzer können auch aufgefordert werden, ein Wort auszuwählen, das die Bedeutung jedes Abschnitts im Kontext der gesamten Transkription am besten beschreibt, um ein Modell für die Tag-Auswahl zu trainieren. Es können zusätzlich oder alternativ auch andere Arten von Benutzer-Rückmeldungs-Daten verwendet werden, um eines oder mehrere der beschriebenen Maschinenlernmodelle zu trainieren.
IV. Beispielhafte Verfahren
3 stellt ein Verfahren 300 gemäß beispielhaften Ausführungsformen dar. Die Blöcke des Verfahrens 300 stellen Funktionen, Operationen oder Schritte dar, die von einem oder mehreren Computergeräten ausgeführt werden können. Die Blöcke des Verfahrens 300 können durch ein mobiles Computergerät, wie z. B. Computergerät 100, wie unter Bezugnahme auf die 1A-1E veranschaulicht und beschrieben, oder durch ein anderes Computergerät ausgeführt werden. Weiterhin kann das Verfahren 300 durch ein Computergerät durchgeführt werden, das mit einer oder allen Komponenten der in 2 dargestellten Architektur konfiguriert ist. In weiteren Beispielen können einige oder alle Blöcke des Verfahrens 300 durch ein entferntes Computergerät ausgeführt oder auf mehrere Computergeräte aufgeteilt werden.
In Bezug auf die Leiterdiagramme, Szenarien und Ablaufdiagramme, die in 3 und den anderen Figuren dargestellt sind, kann jeder Block und/oder jede Kommunikation ein Verarbeiten von Informationen und/oder eine Übermittlung von Informationen gemäß beispielhaften Ausführungsformen darstellen. Alternative Ausführungsformen sind im Umfang dieser beispielhaften Ausführungsformen eingeschlossen. In diesen alternativen Ausführungsformen können beispielsweise als Blöcke beschriebene Funktionen, Übermittlungen, Kommunikationen, Anfragen, Antworten und/oder Nachrichten in einer anderen als der gezeigten oder erläuterten Reihenfolge ausgeführt werden, einschließlich im Wesentlichen gleichzeitig oder in umgekehrter Reihenfolge, je nach der involvierten Funktionalität. Ferner können auch mehr oder weniger Blöcke und/oder Funktionen mit beliebigen der hier erläuterten Leiterdiagramme, Szenarien und Ablaufdiagramme verwendet werden, und diese Leiterdiagramme, Szenarien und Ablaufdiagramme können teilweise oder vollständig miteinander kombiniert werden.
Ein Block, der eine Verarbeitung von Informationen darstellt, kann Schaltungen entsprechen, die zur Durchführung der spezifischen logischen Funktionen eines hierin beschriebenen Verfahrens oder einer Technik konfiguriert sein können. Alternativ oder zusätzlich kann ein Block, der eine Verarbeitung von Informationen darstellt, einem Computerprogramm, einem Modul, einem Segment oder einem Teil eines Programmcodes (einschließlich zugehöriger Daten) entsprechen. Der Programmcode kann eine oder mehrere durch einen Prozessor ausführbare Anweisungen zur Implementierung spezifischer logischer Funktionen oder Aktionen in dem Verfahren oder der Technik beinhalten. Der Programmcode und/oder die zugehörigen Daten können auf jeder Art von computerlesbarem Medium, wie z. B. einem Speichergerät, das ein Laufwerk oder eine Festplatte beinhaltet, oder auf einem anderen Speichermedium gespeichert werden.
Unter Bezugnahme auf 3 beinhaltet Block 302 das Empfangen einer Transkription einer Audioaufzeichnung an einem Computergerät. Die Transkription kann in eine Vielzahl von Textabschnitten aufgeteilt werden. In einigen Beispielen können die Transkription und die Abschnittsaufteilungen von einem Transkriptionssoftwareprogramm oder einem Modul empfangen werden, das auf dem Computergerät läuft. Das Softwareprogramm oder das Modul kann so konfiguriert sein, dass es aufgezeichnete Audiodaten verarbeitet, um die Transkription zu erzeugen. In anderen Beispielen können die Transkription und die Abschnittsaufteilungen von einem separaten Computergerät empfangen werden.
Block 304 beinhaltet das Assoziieren eines oder mehrerer Tags mit jedem Textabschnitt aus der Vielzahl von Textabschnitten. Jedes assoziierte Tag kann aus dem Text der Transkription extrahiert werden.
In einigen Beispielen kann das Assoziieren von Tags mit Textabschnitten das Aggregieren von Ergebnissen aus der Anwendung eines ersten Modells und eines zweiten Modells betreffen. Das erste Modell kann ein algorithmisches Modell sein. Das zweite Modell kann ein Maschinenlernmodell sein. In weiteren Beispielen kann dieses Aggregieren das Zuweisen von Bewertungen für Tags durch Anwenden einer ersten vorbestimmten Gewichtung auf die Ergebnisse der Anwendung des ersten Modells und einer zweiten vorbestimmten Gewichtung auf die Ergebnisse der Anwendung des zweiten Modells betreffen. In weiteren Beispielen kann das Maschinenlernmodell trainiert werden, kontextrelevante Tags zu identifizieren, indem die Transkription als Eingabe verwendet wird.
In zusätzlichen Beispielen kann das Assoziieren der Tags das Ermitteln einer Vorkommenszählung von potenziellen Tags in dem jeweiligen Textabschnitt betreffen. In weiteren Beispielen kann eine linguistische Ableitung angewandt werden, bevor die Vorkommenszählung von potenziellen Tags in dem jeweiligen Textabschnitt ermittelt wird.
In weiteren Beispielen kann ein Substantivextraktor auf den Text der Transkription angewandt werden, sodass sichergestellt wird, dass alle Tags Substantive sind. In weiteren Beispielen kann eine Doppelungsfilterung auf potenzielle Tags angewandt werden, sodass sichergestellt wird, dass alle Tags unterschiedlich sind.
Block 306 beinhaltet das Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind. Die Teilmenge von Textabschnitten kann so ausgewählt werden, dass es sich um im Kontext der gesamten Transkription aussagekräftige Abschnitte handelt. Die assoziierten Tags können bei dem Textabschnittauswahlprozess im Hinblick auf das letztliche Benutzeroberflächenergebnis analysiert werden, das die Anzeige eines aussagekräftigen Tags beinhaltet, das mit dem jeweiligen ausgewählten Textabschnitt assoziiert ist.
In einigen Beispielen kann das Auswählen der Teilmenge von Textabschnitten das Aggregieren von Ergebnissen aus der Anwendung eines ersten Modells und eines zweiten Modells betreffen. Das erste Modell kann ein algorithmisches Modell sein. Das zweite Modell kann ein Maschinenlernmodell sein. In weiteren Beispielen kann dieses Aggregieren das Zuweisen von Bewertungen für Textabschnitte durch Anwenden einer ersten vorbestimmten Gewichtung auf die Ergebnisse der Anwendung des ersten Modells und einer zweiten vorbestimmten Gewichtung auf die Ergebnisse der Anwendung des zweiten Modells betreffen. In weiteren Beispielen kann das algorithmische Modell so konfiguriert sein, dass es Textabschnitten auf Basis extrahierter Tags aus der Transkription Bewertungen zuweist.
Zusätzliche Beispiele können das Zuweisen einer Abschnittsrelevanzbewertung für jeden Textabschnitt aus der Vielzahl von Textabschnitten und das Zuweisen einer Tag-Relevanzbewertung für jedes Tag, das mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert ist, beinhalten. Das Auswählen der Teilmenge kann dann auf der Abschnittsrelevanzbewertung, die jedem Textabschnitt zugewiesen wird, und der Tag-Relevanzbewertung, die jedem mit dem jeweiligen Textabschnitt assoziierten Tag zugewiesen wird, basieren.
In weiteren Beispielen kann das Auswählen der Teilmenge von Textabschnitten das Anwenden einer Gleichverteilungsfilterung auf die Vielzahl von Textabschnitten betreffen. In weiteren Beispielen kann die Teilmenge von Textabschnitten so ausgewählt werden, dass sie eine vorbestimmte Anzahl an Textabschnitten (z. B. acht Textabschnitte) beinhaltet.
Block 308 beinhaltet das Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät. Die Scroller-Oberfläche kann eine Navigation zu jedem Textabschnitt in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglichen.
In einigen Beispielen kann eine Einstufung der mit dem jeweiligen Textabschnitt assoziierten Tags ermittelt werden. Die Einstufung kann auf einer geschätzten Relevanz des jeweiligen Tags für den Textabschnitt im Kontext der gesamten Transkription basieren. Jedes in der Scroller-Oberfläche angezeigte Tag kann dann ein am höchsten eingestuftes Tag für einen assoziierten Textabschnitt sein.
In weiteren Beispielen kann die Scroller-Oberfläche eine Scrollleiste beinhalten, in der für jedes Tag, das mit einem Textabschnitt aus der Teilmenge assoziiert ist, eine Anmerkung angezeigt wird. In solchen Beispielen kann die für das jeweilige Tag angezeigte Anmerkung basierend auf einem Zeitstempel des Textabschnitts, der mit dem Tag assoziiert ist, im Verhältnis zu der Scrollleiste positioniert sein. Weitere Beispiele können das Hervorheben von Text, der einem Tag entspricht, in der Darstellung der Transkription in Reaktion auf eine Benutzernavigation zu dem Tag in der Scroller-Oberfläche, betreffen. Die Scroller-Oberfläche kann auf verschiedene andere Weisen variiert werden.
V. Beispielhafte Geräte
4 ist ein Funktionsblockdiagramm eines beispielhaften Computergeräts 400 gemäß einer beispielhaften Ausführungsform. In einigen Beispielen kann das in 4 dargestellte Computergerät 400 so konfiguriert sein, dass es zumindest eine Funktion, die in Bezug auf das in den 1A-1E dargestellte Computergerät 100 beschrieben wird, zumindest eine Funktion, die in Bezug auf die in 2 dargestellte Architektur 200 beschrieben wird, und/oder zumindest eine Funktion, die in Bezug auf das in 3 dargestellte Verfahren 300 beschrieben ist, durchführt.
Das Computergerät 400 kann ein Benutzeroberflächenmodul 401, ein Netzwerkkommunikations-Schnittstellenmodul 402, einen oder mehrere Prozessoren 403, einen Datenspeicher 404 und einen oder mehrere Sensoren 420 beinhalten, die alle über einen Systembus, ein Netzwerk oder einen anderen Verbindungsmechanismus 405 miteinander verbunden sein können.
Das Benutzeroberflächenmodul 401 kann dazu betrieben werden, Daten an externe Benutzereingabe/- ausgabegeräte zu senden und/oder von diesen zu empfangen. Zum Beispiel kann das Benutzeroberflächenmodul 401 so konfiguriert sein, dass es Daten an Benutzereingabegeräte, wie z. B. einen Berührungsbildschirm, eine Computermaus, eine Tastatur, ein Tastenfeld, ein Touchpad, einen Trackball, einen Joystick, eine Kamera, ein Spracherkennungsmodul und/oder andere ähnliche Geräte sendet und/oder von diesen empfängt. Das Benutzeroberflächenmodul 401 kann auch so konfiguriert sein, dass es Ausgaben für Benutzeranzeigegeräte, wie z. B. eine oder mehrere Kathodenstrahlröhren (CRT), Flüssigkristallanzeigen, Leuchtdioden (LEDs), Anzeigen mit digitaler Lichtverarbeitungs-(DLP)-Technologie, Drucker, Glühbirnen und/oder ähnliche Geräte, die entweder schon bekannt sind oder später entwickelt werden, bereitstellt. Das Benutzeroberflächenmodul 401 kann auch so konfiguriert sein, dass es hörbare Ausgaben erzeugt, wie z. B. als Lautsprecher, Lautsprecherbuchse, Audioausgabeanschluss, Audioausgabegerät, Kopfhörer und/oder ähnliche Geräte. Das Benutzeroberflächenmodul 401 kann ferner mit einem oder mehreren haptischen Geräten konfiguriert sein, die haptische Ausgaben, wie z. B. Vibrationen und/oder andere durch Berührung und/oder physischen Kontakt mit dem Computergerät 400 detektierbare Ausgaben, erzeugen können. In einigen Ausführungsformen kann das Benutzeroberflächenmodul 401 verwendet werden, um eine grafische Benutzeroberfläche (GUI) zum Verwenden des Computergeräts 400 bereitzustellen.
Das Netzwerkkommunikations-Schnittstellenmodul 402 kann eine oder mehrere drahtlose Schnittstellen 407 und/oder eine oder mehrere drahtgebundene Schnittstellen 408 beinhalten, die dazu konfigurierbar sind, über ein Netzwerk zu kommunizieren. Die drahtlosen Schnittstellen 407 können einen oder mehrere drahtlose Sender, Empfänger und/oder Sendeempfänger, wie z. B. einen Bluetooth™-Sendeempfänger, einen Zigbee®-Sendeempfänger, einen Wi-Fi™-Sendeempfänger, einen WiMAX™-Sendeempfänger und/oder eine andere ähnliche Art von drahtlosem Sendeempfänger, der konfigurierbar ist, um über ein drahtloses Netzwerk zu kommunizieren, beinhalten. Die drahtgebundenen Schnittstellen 408 können einen oder mehrere drahtgebundene Sender, Empfänger und/oder Sendeempfänger, wie z. B. einen Ethernet-Sendeempfänger, einen Universal-Serial-Bus-(USB)-Sendeempfänger oder einen ähnlichen Sendeempfänger, der konfigurierbar ist, um über einen Twisted-Pair-Draht, ein Koaxialkabel, einen Lichtwellenleiter oder eine ähnliche physische Verbindung zu einem drahtgebundenen Netzwerk zu kommunizieren.
In einigen Ausführungsformen kann das Netzwerkkommunikations-Schnittstellenmodul 402 so konfiguriert sein, dass es zuverlässige, gesicherte und/oder authentifizierte Kommunikationen bereitstellt. Für jede hier beschriebene Kommunikation können Informationen bereitgestellt werden, um zuverlässige Kommunikationen (d. h. garantierte Nachrichtenübermittlung) zu gewährleisten, möglicherweise als Teil einer Nachrichten-Kopfzeile und/oder -Fußzeile (z. B. Paket/Nachrichten-Sequenzierungsinformationen, Kapselungs-Kopfzeile(n) und/oder -Fußzeile(n), Größe/Zeitinformationen und Übertragungsüberprüfungsinformationen, wie die zyklische Redundanzprüfung (CRC) und/oder Paritätsprüfwerte). Die Kommunikationen können sicher gestaltet werden (z. B. codiert oder verschlüsselt) und/oder entschlüsselt/decodiert werden, indem ein oder mehrere kryptographische Protokolle und/oder Algorithmen verwendet werden, wie z. B., jedoch nicht beschränkt auf, Data Encryption Standard (DES), Advanced Encryption Standard (AES), ein Rivest-Shamir-Adelman-(RSA-)Algorithmus, ein Diffie-Hellman-Algorithmus, ein Secure Sockets Protocol, wie z. B. Secure Sockets Layer (SSL) oder Transport Layer Security (TLS) und/oder Digital Signature Algorithm (DSA). Weitere kryptographische Protokolle und/oder Algorithmen können ebenso oder zusätzlich zu den hier aufgelisteten verwendet werden, um die Kommunikationen sicher zu machen (und anschließend zu entschlüsseln/decodieren).
Ein oder mehrere Prozessoren 403 können einen oder mehrere Universalprozessoren und/oder einen oder mehrere Spezialprozessoren (z. B. digitale Signalprozessoren, Grafikverarbeitungseinheiten, anwendungsspezifische integrierte Schaltungen usw.) beinhalten. Der eine oder die mehreren Prozessoren 403 können so konfiguriert sein, dass sie computerlesbare Programmanweisungen 406, die in dem Datenspeicher 404 enthalten sind, und/oder andere Anweisungen wie hierin beschrieben ausführen.
Der Datenspeicher 404 kann ein oder mehrere computerlesbare Speichermedien beinhalten, die von zumindest einem von dem einen oder den mehreren Prozessoren 403 gelesen werden können und/oder einen Zugriff durch diesen ermöglichen. Das eine oder die mehreren computerlesbaren Speichermedien können flüchtige und/oder nicht-flüchtige Speicherkomponenten, wie z. B. optische, magnetische, organische oder sonstige Speicher oder Plattenspeicher beinhalten, die ganz oder teilweise in zumindest einem von dem einen oder den mehreren Prozessoren 403 integriert sein können. In einigen Ausführungsformen kann der Datenspeicher 404 unter Nutzung eines einzelnen physischen Geräts (z. B. eines optischen, magnetischen, organischen oder sonstigen Speichers oder einer Plattenspeichereinheit) implementiert sein, während in anderen Ausführungsformen der Datenspeicher 404 unter Nutzung von zwei oder mehr physischen Geräten implementiert sein kann.
Der Datenspeicher 404 kann computerlesbare Programmanweisungen 406 und möglicherweise zusätzliche Daten beinhalten. In einigen Ausführungsformen kann der Datenspeicher 404 zusätzlich Speicher beinhalten, der erforderlich ist, um zumindest einen Teil der hierin beschriebenen Verfahren, Szenarien und Techniken und/oder zumindest einen Teil der Funktionen der hierin beschriebenen Geräte und Netzwerke durchzuführen.
In einigen Ausführungsformen kann das Computergerät 400 einen oder mehrere Sensoren 420 beinhalten. Die Sensoren 420 können so konfiguriert sein, dass sie Interaktionen mit dem Computergerät 400 durch einen Benutzer messen. Die Sensoren 420 können so konfiguriert sein, dass sie Bedingungen in einer Umgebung des Computergeräts 400 messen und Daten über diese Umgebung bereitstellen. Beispielsweise können die Sensoren 420 eines oder mehrere von Folgendem beinhalten: (i) einen Identifikationssensor zur Identifizierung anderer Objekte und/oder Geräte, wie z. B., jedoch nicht beschränkt auf, einen Radiofrequenzidentifikations(Radio Frequency Identification, RFID)-Leser, einen Näherungssensor, einen eindimensionalen Strichcode-Leser, einen zweidimensionalen Strichcode-Leser (z. B. Quick-Response(QR)-Code-Leser) und eine Laser-Verfolgungseinrichtung, wobei der Identifikationssensor so konfiguriert sein kann, dass er Kennungen, wie RFID-Tags, Strichcodes, QR-Codes und/oder andere Geräte und/oder Objekte liest, die so konfiguriert sind, dass sie gelesen werden können und zumindest identifizierende Informationen bereitstellen; (ii) einen Sensor zur Messung von Standorten und/oder Bewegungen des Computergeräts 400, wie z. B., jedoch nicht beschränkt auf, einen Neigungssensor, ein Gyroskop, einen Beschleunigungssensor, einen Doppler-Sensor, ein Global-Positioning-System-(GPS)-Gerät, einen Sonarsensor, ein Radargerät, einen Laserverschiebungssensor und einen Kompass; (iii) einen Umgebungssensor zum Erhalten von Daten, die eine Umgebung des Computergeräts 400 angeben, wie z. B., jedoch nicht beschränkt auf, einen Infrarotsensor, einen optischen Sensor, einen Lichtsensor, eine Kamera, einen Biosensor, einen kapazitiven Sensor, einen Berührungssensor, einen Temperatursensor, einen drahtlosen Sensor, einen Funksensor, einen Bewegungssensor, ein Mikrofon, einen Schallsensor, einen Ultraschallsensor und/oder einen Rauchmelder; und (iv) einen Kraftsensor zur Messung eines oder mehrerer Kräfte (z. B. Trägheitskräfte und g-Kräfte), die um das Computergerät 400 herum wirken, wie z. B., jedoch nicht beschränkt auf, einen oder mehrere Sensoren, die Folgendes messen: Kräfte in einer oder in mehreren Dimensionen, Drehmoment, Bodenkraft, Reibungskräfte, und/oder einen Nullmomentpunktsensor (ZMP-Sensor), der ZMPs und/oder Standorte der ZMPs identifiziert. Auch viele andere Beispiele für Sensoren 420 sind möglich.
In Bezug auf hierin beschriebene Beispiele, die aufgezeichnete Audiodaten oder andere Informationen eines Benutzers einschließen können, können dem Benutzer Steuerungen bereitgestellt werden, die es dem Benutzer ermöglichen, selbst zu entscheiden, ob und wann die hierin beschriebenen Systeme, Programme oder Merkmale das Erfassen und/oder Speichern von aufgezeichneten Audiodaten oder anderen Informationen (z. B. Informationen über das soziale Netzwerk eines Benutzers, soziale Aktionen oder Aktivitäten, den Beruf, die Präferenzen eines Benutzers oder den aktuellen Standort eines Benutzers) ermöglichen können. Darüber hinaus können bestimmte Daten auf eine oder mehrere Weisen behandelt werden, bevor sie gespeichert oder verwendet werden, sodass personenbezogene Informationen entfernt werden. Eine Benutzeridentität kann beispielsweise so behandelt werden, dass keine personenbezogenen Informationen für den Benutzer ermittelt werden können, oder, wenn Standortinformationen (wie z. B. eine Stadt, eine Postleitzahl oder ein Bundesland) erfasst werden, kann ein geografischer Standort eines Benutzers verallgemeinert werden, sodass ein spezifischer Standort eines Benutzers nicht ermittelt werden kann. Somit kann der Benutzer Kontrolle darüber haben, welche Informationen über den Benutzer gesammelt werden, wie diese Informationen verwendet werden, sowie welche Informationen für den Benutzer bereitgestellt werden.
Die bestimmten in den Figuren dargestellten Anordnungen sollten nicht als Einschränkung angesehen werden. Es versteht sich, dass andere Ausführungsformen mehr oder weniger der jeweiligen Elemente, die in einer gegebenen Figur dargestellt sind, beinhalten können. Ferner können einige der dargestellten Elemente kombiniert oder weggelassen werden. Außerdem kann eine exemplarische Ausführungsform Elemente beinhalten, die in den Figuren nicht dargestellt sind.
Ein Schritt oder Block, der eine Verarbeitung von Informationen darstellt, kann Schaltungen entsprechen, die zum Durchführen der spezifischen logischen Funktionen eines/einer hierin beschriebenen Verfahrens oder Technik konfiguriert sein können. Alternativ oder zusätzlich kann ein Schritt oder Block, der eine Verarbeitung von Informationen darstellt, einem Modul, einem Segment oder einem Teil eines Programmcodes (einschließlich zugehöriger Daten) entsprechen. Der Programmcode kann eine oder mehrere durch einen Prozessor ausführbare Anweisungen zur Implementierung spezifischer logischer Funktionen oder Aktionen in dem Verfahren oder der Technik beinhalten. Der Programmcode und/oder die zugehörigen Daten können auf jeder Art von computerlesbarem Medium gespeichert werden, wie z. B. einem Speichergerät, das ein Laufwerk, eine Festplatte oder ein anderes Speichermedium beinhaltet.
Das computerlesbare Medium kann auch nichtflüchtige computerlesbare Medien, wie z. B. computerlesbare Medien, die Daten für kurze Zeiträume speichern, wie beispielsweise Registerspeicher, Prozessor-Zwischenspeicher und Direktzugriffsspeicher (RAM), beinhalten. Die computerlesbaren Medien können auch nichtflüchtige computerlesbare Medien beinhalten, die einen Programmcode und/oder Daten für längere Zeiträume speichern. Die computerlesbaren Medien können somit sekundäre oder persistente Langzeitspeicher, wie beispielsweise Nur-Lese-Speicher (ROM), optische oder magnetische Platten, Compact-Disc-Lesespeicher (CD-ROM), beinhalten. Bei den computerlesbaren Medien kann es sich außerdem um beliebige andere flüchtige oder nichtflüchtige Speichersysteme handeln. Ein computerlesbares Medium kann beispielsweise als computerlesbares Speichermedium oder als ein physisches Speichergerät betrachtet werden.
Obgleich hierin verschiedene Beispiele und Ausführungsformen offenbart wurden, sind andere Beispiele und Ausführungsformen für Fachleute ersichtlich. Die verschiedenen offenbarten Beispiele und Ausführungsformen dienen der Veranschaulichung und sind nicht als einschränkend zu verstehen, wobei der tatsächliche Schutzumfang durch die folgenden Ansprüche angegeben wird.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63084800 [0001]

Claims

Verfahren, aufweisend: Empfangen einer Transkription einer Audioaufzeichnung an einem Computergerät, wobei die Transkription in eine Vielzahl von Textabschnitten unterteilt ist; Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert ist; Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind; und Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
Verfahren nach Anspruch 1, ferner aufweisend ein Ermitteln einer Einstufung des einen oder der mehreren mit dem Textabschnitt assoziierten Tags für jeden Textabschnitt aus der Vielzahl von Textabschnitten, wobei jedes in der Scroller-Oberfläche angezeigte Tag ein am höchsten eingestuftes Tag für einen assoziierten Textabschnitt ist.
Verfahren nach Anspruch 1, wobei das Assoziieren des einen oder der mehreren Tags mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten das Aggregieren von Ergebnissen aus einer Anwendung eines ersten Modells und eines zweiten Modells umfasst, wobei das erste Modell ein algorithmisches Modell ist und wobei das zweite Modell ein Maschinenlernmodell ist.
Verfahren nach Anspruch 3, wobei das Aggregieren von Ergebnissen aus der Anwendung des ersten Modells und des zweiten Modells das Zuweisen von Bewertungen für Tags durch Anwenden einer ersten vorbestimmten Gewichtung auf die Ergebnisse aus der Anwendung des ersten Modells und durch Anwenden einer zweiten vorbestimmten Gewichtung auf die Ergebnisse aus der Anwendung des zweiten Modells umfasst.
Verfahren nach Anspruch 3, wobei das Maschinenlernmodell so konfiguriert ist, dass es kontextrelevante Tags identifiziert, indem es die Transkription als Eingabe verwendet.
Verfahren nach Anspruch 1, wobei das Assoziieren des einen oder der mehreren Tags mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten das Ermitteln einer Vorkommenszählung von potenziellen Tags in jedem Textabschnitt aus der Vielzahl von Textabschnitten umfasst.
Verfahren nach Anspruch 6, ferner aufweisend ein Anwenden von linguistischer Ableitung vor dem Ermitteln der Vorkommenszählung von potenziellen Tags in jedem Textabschnitt aus der Vielzahl von Textabschnitten.
Verfahren nach Anspruch 1, ferner aufweisend ein Anwenden eines Substantivextraktors auf den Text der Transkription, sodass jedes in der Scroller-Oberfläche angezeigte Tag ein Substantiv ist.
Verfahren nach Anspruch 1, ferner aufweisend ein Anwenden einer Doppelungsfilterung auf potentielle Tags, sodass jedes in der Scroller-Oberfläche angezeigte Tag unterschiedlich ist.
Verfahren nach Anspruch 1, wobei das Auswählen der Teilmenge aus der Vielzahl von Textabschnitten ein Aggregieren von Ergebnissen aus einer Anwendung eines ersten Modells und eines zweiten Modells aufweist, wobei das erste Modell ein algorithmisches Modell ist und wobei das zweite Modell ein Maschinenlernmodell ist.
Verfahren nach Anspruch 10, wobei das Aggregieren der Ergebnisse aus der Anwendung des ersten Modells und des zweiten Modells das Zuweisen von Bewertungen für Textabschnitte durch Anwenden einer ersten vorbestimmten Gewichtung auf die Ergebnisse aus der Anwendung des ersten Modells und durch Anwenden einer zweiten vorbestimmten Gewichtung auf die Ergebnisse aus der Anwendung des zweiten Modells aufweist.
Verfahren nach Anspruch 10, wobei das algorithmische Modell so konfiguriert ist, dass es Abschnitten basierend auf extrahierten Tags aus der Transkription Bewertungen zuweist.
Verfahren nach Anspruch 1, ferner umfassend: Zuweisen einer Abschnittsrelevanzbewertung für jeden Textabschnitt aus der Vielzahl von Textabschnitten; Zuweisen einer Tag-Relevanzbewertung für jedes mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziierte Tag; und wobei das Auswählen der Teilmenge auf der zugewiesenen Abschnittsrelevanzbewertung, die dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten zugewiesen wurde, und der Tag-Relevanzbewertung, die dem jeweiligen Tag, das mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert ist, zugewiesen wurde, basiert.
Verfahren nach Anspruch 1, wobei das Auswählen der Teilmenge das Anwenden einer Gleichverteilungsfilterung auf die Vielzahl von Textabschnitten aufweist.
Verfahren nach Anspruch 1, wobei die Teilmenge eine vorbestimmte Anzahl an Textabschnitten aufweist.
Verfahren nach Anspruch 1, wobei die Scroller-Oberfläche eine Scrollleiste aufweist, in der für jedes Tag, das mit einem Textabschnitt aus der Teilmenge assoziiert ist, eine Anmerkung angezeigt wird.
Verfahren nach Anspruch 16, wobei die für das jeweilige Tag angezeigte Anmerkung basierend auf einem Zeitstempel des Textabschnitts, der mit dem Tag assoziiert ist, im Verhältnis zu der Scrollleiste positioniert ist.
Verfahren nach Anspruch 1, ferner aufweisend, in Reaktion auf eine Benutzernavigation zu einem bestimmten Tag, ein Hervorheben von Text, der dem bestimmten Tag entspricht, in der Darstellung der Transkription.
Computergerät, aufweisend: einen oder mehrere Prozessoren; und ein nichtflüchtiges computerlesbares Medium, das Programmanweisungen umfasst, die durch den einen oder die mehreren Prozessoren ausführbar sind, um Funktionen durchzuführen, die Folgendes umfassen: Empfangen einer Transkription einer Audioaufzeichnung, wobei die Transkription in eine Vielzahl von Textabschnitten aufgeteilt ist; Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert ist; Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind; und Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige auf dem Computergerät, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.
Nichtflüchtiges computerlesbares Medium, das Programmanweisungen umfasst, die durch einen oder mehrere Prozessoren ausführbar sind, um Funktionen durchzuführen, die Folgendes umfassen: Empfangen einer Transkription einer Audioaufzeichnung, wobei die Transkription in eine Vielzahl von Textabschnitten aufgeteilt ist; Assoziieren eines oder mehrerer Tags mit den jeweiligen Textabschnitten aus der Vielzahl von Textabschnitten, wobei jedes assoziierte Tag aus dem Text der Transkription extrahiert ist; Auswählen einer Teilmenge aus der Vielzahl von Textabschnitten basierend auf zumindest dem einen oder den mehreren Tags, die mit dem jeweiligen Textabschnitt aus der Vielzahl von Textabschnitten assoziiert sind; und Bereitstellen einer Darstellung der Transkription und einer Scroller-Oberfläche zur Anzeige, wobei die Scroller-Oberfläche eine Navigation zu jedem der Textabschnitte in der Teilmenge basierend auf einer Benutzernavigation zu einem mit dem Textabschnitt assoziierten Tag ermöglicht.