DE102006060173A1

DE102006060173A1 - Rekursives sprachübergreifendes Recherche-System

Info

Publication number: DE102006060173A1
Application number: DE102006060173A
Authority: DE
Inventors: Lars Mackel
Original assignee: ZETTWERK SOFTWARE ENGINEERING; ZETTWERK SOFTWARE ENGINEERING GmbH
Current assignee: ZETTWERK SOFTWARE ENGINEERING; ZETTWERK SOFTWARE ENGINEERING GmbH
Priority date: 2006-12-18
Filing date: 2006-12-18
Publication date: 2008-04-10

Abstract

Durch die Vernetzung von Informationen, auch über Sprachgrenzen hinweg, sehen sich Anwender von Computersystemen zunehmend mehrsprachigen Datenbeständen gegenüber, insbesondere auch innerhalb einer Organisation (Datenbestand). Das vorgestellte Verfahren soll es Anwendern ermöglichen, recherche-relevante Texte und Informationen in mehreren anderen Sprachen aufzufinden. Das vorgestellte Verfahren ermöglicht eine sprachübergreifende Recherche, indem es a) Suchzeichenketten ("Suchstrings"), die der Anwender in einer Ausgangssprache eingegeben hat, kontextbezogen erweitert, und zwar durch die bei einer Suche gefundenen Dokumente in der Ausgangssprache - hier ist eine Rekursion möglich. Die solchermaßen "erweiterten Suchstrings" werden in eine zweite Sprache übersetzt. Danach folgt eine Suche nach Dokumenten in dieser zweiten Sprache, die diese "übersetzten erweiterten Suchstrings" enthalten. b) aus einem oder mehreren vorgegebenen Dokumenten ("Suchdokumenten") einer Ausgangssprache ein Sprachmodell berechnet. Mit diesem Modell können durch Berechnung bereits in der Ausgangssprache weitere Dokumente gefunden werden, die "ähnlich" sind, hier ist eine Rekursion möglich. Der Anwender selektiert recherche-relevante Dokumente, aus denen - nach der Übersetzung - ein Sprachmodell in dieser zweiten Sprache generiert wird. Danach kann in einem Datenbestand der zweiten Sprache nach Dokumenten gesucht werden, die rechnerisch diesem Modell "ähnlich" sind. c) die unter a) auf ...

Description

1. Beschreibung der Erfindung
Die vorgestellte Erfindung gibt ein Verfahren bzw. beschreibt ein rekursives System zur sprachübergreifenden Recherche in rechner-gestützten Datenbank-Systemen.
2. Stand der Technik
Begünstigt durch die globale Vernetzung über das Internet, wurden in den letzten Jahren verstärkt Überlegungen hinsichtlich sprachübergreifender (engl. cross-lingual) und mehrsprachiger (engl. multilingual) Datenverarbeitung angestellt und entsprechend zahlreiche Verfahren für automatische Übersetzungen, multilinguale Suchmechanismen, Spracherkennung (text-to-speech) und Konvertierung spontaner Sprache in Schriftsprache vorgestellt.
3. Aufgabenstellung
In der Natur einer Recherche liegt es, dass es in aller Regel zu verfeinerten Suchanfragen seitens des Anwenders kommt. Sei es, weil die Suchergebnisse vom Anwender als unzureichend angesehen und wieder verworfen werden, die Qualität der Auswahl noch nicht zufrieden stellend ist, oder weil der quantitative Umfang (die Anzahl der Ergebnisse) noch zu umfangreich oder nicht ausreichend ist.
Ziel ist ein Rechercheverfahren, das aus einer Folge von Suchanfragen besteht, wobei iterativ die Suchanfrage verfeinert wird. Die Verfeinerung wird durch das Recherchesystem automatisch, aus den recherche-relevanten Inhalten, vorgenommen und dem Anwender vorgelegt, um die Relevanz der vorgelegten Verfeinerungen zu beurteilen.
Durch die Vernetzung von Informationen, auch über Sprachgrenzen hinweg, sehen sich Anwender von Computersystemen – beispielsweise in international aufgestellten Firmen oder Behörden – zunehmend mehrsprachigen Datenbeständen gegenüber, insbesondere auch innerhalb einer Organisation (Datenbestand).
Dabei ist, wegen der schnell wachsenden Flut von Informationen, nicht davon auszugehen, dass stets zeitnah entsprechende Übersetzungen in den unterschiedlichen Sprachen, die in einer solchen Organisation verwendet werden, vorliegen.
Falls solche Informationen vorliegen, ist nicht immer eine Verknüpfung der mehrsprachigen Dokumente gegeben.
Die besagten Anwender müssen jedoch oftmals, entsprechend ihrem thematischen Arbeits- bzw. Aufgabengebiet, Recherchen durchführen, um arbeitsrelevante Informationen, unabhängig von der Sprache, zu finden.
Nun kann es durchaus sein, dass recherche-relevante Dokumente vorliegen, diese jedoch in einer Sprache oder Sprachen, die von der Sprache der Suchanfrage abweicht oder abweichen, und somit nicht gefunden werden können.
Da diese Inhalte für den Recherchierenden von hohem Wert sein könnten, ist es vorteilhaft auch Inhalte zu finden, die unabhängig von der Ausgangsprache der Suchanfrage sind. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
Hierbei ist es von großem Vorteil, wenn die gefundenen fremdsprachlichen Texte eine große. Ähnlichkeit (Korrelation) mit den gefundenen Texten der Ausgangssprache aufweisen um die Fehlerrate zu verringern. Um dies zu garantieren ist eine automatische Erweiterung der Suchanfrage durch In-Domain Daten (dies sind Daten aus dem Datenbestand der Organisation – siehe 0005 –) vorteilhaft.
4. Lösung der Aufgabenstellung
4.1 Voraussetzungen und Definitionen
Voraussetzung ist, dass der Anwender ein zeitgemäßes Computersystem zur Verfügung hat, das gegebenenfalls auch mit anderen Computersystemen vernetzt ist. Gegeben seien nun ein oder mehrere Datenbanken, die Texte und Textdokumente in verschiedenen Sprachen enthalten. Weiterhin sei zu jedem Sprachpaar ein statistisches oder regelbasiertes automatisches Übersetzungsprogramm gegeben.
Definition Übersetzung:
Eine Übersetzung wandelt den Text in der Ausgangssprache S1 in die Zielsprache Sn. Die Qualität der Übersetzung kann durch Adaption auf In-Domain Paralleldaten (dies kann offline anhand von vorhandenen In-Domain Daten geschehen, oder online auf Basis von Paralleltexten, die in der Kundendatenbank vorliegen) verbessert werden. Die Übersetzung von Worten kann weiterhin verbessert werden durch Kontexterweiterung auf Basis von In-Domain Daten in der Ausgangssprache oder teilweise in der Zielsprache (dies kann offline anhand von vorhandenen In-Domain Daten geschehen, oder online auf Basis von in der Kundendatenbank vorliegenden Texten in der Ausgangssprache oder Zielsprache, wobei hier auf das Vorhandensein von Paralleltexten verzichtet werden kann).
Definition Sprachmodell:
Ein Sprachmodell zeichnet sich dadurch aus, dass es Auskunft über die statistische Häufigkeit von den vorkommenden Wortfolgen (so genannten „N-Grammen") in einer Sprache liefert. Enthält ein Sprachmodell zu viel Information, kann es durch das Wegwerfen von Wörtern oder Wortfolgen verkleinert werden (engl. gepruned). Insbesondere lässt sich für die im Folgenden beschriebene Recherche ein für die Recherche spezifisches Sprachmodell Mn der jeweiligen Sprache Sn erstellen, in dem der Anwender über die Relevanz verschiedener Dokumente entscheidet.
Definition Perplexität:
Die Perplexität gibt einen Zahlenwert, der festlegt, wie ähnlich sich das Sprachmodell und das Dokument sind.
4.2 Verfahrensweise 1: Suchstring
Die Recherche beginnt mit der Eingabe einer Zeichenkette zur Suche (im Folgenden „Suchstring" genannt). Dieser Suchstring kann aus einem oder mehreren Worten einer Sprache S1 bestehen. Anschließend wird der Datenbestand der Sprache S1 mit dem eingegebenen Suchstring durchsucht, und es werden gefundene Dokumente an den Benutzer zurückgeliefert.
Der Benutzer kann sich an dieser Stelle zwischen Stringrecherche, weiter bei [0018] oder Dokumentenrecherche entscheiden, weiter bei [0024].
Der/Die Suchstring/s wird/werden durch den Kontext der gefundenen Texte um ein oder mehrere Worte erweitert, die ihn links und rechts an der jeweiligen Fundstelle umgeben. Beispiel: der Suchstring „der Schreibtisch" würde an einer Textfundstelle mit dem Text „...dort, wo der Schreibtisch im Raum steht..." unter anderem zu der Phrase „...wo der Schreibtisch im..." erweitert.
Die in Absatz [0018] gefundenen Textstellen können vom Anwender nach Relevanz geordnet werden, und es kann eine neue Suche [0016], unter Berücksichtigung der Relevanz, gestartet werden.
Die Schritte in Absatz [0016] bis [0019] können vom Anwender beliebig oft wiederholt werden.
Ist der Anwender mit den kontexterweiterten Strings zufrieden, werden diese übersetzt (eine Methode zur statistischen oder regelbasierten Übersetzung ist nicht Bestandteil dieser Erfindung). Falls die Anzahl solcher übersetzter Phrasen als zu hoch angesehen wird, kann sie optional vom Anwender eingeschränkt werden.
Die übersetzen Phrasen der Sprachen S2 bis Sn werden dann in Dokumenten der jeweiligen Sprachen S2 bis Sn gesucht. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
4.3 Verfahrensweise 2: Suchdokument
Die Recherche beginnt mit der Eingabe eines Dokumentes zur Suche (im Folgenden „Suchdokument" genannt). Dieses Suchdokument kann aus einem oder mehreren Dokumenten einer Sprache S1 bestehen. Aus dem Suchdokument wird ein Sprachmodell berechnet, mit dessen Hilfe die Perplexitäten der jeweiligen Dokumente im Datenbestand der Sprache S1 bestimmt und sortiert werden.
Die in Absatz [0018] oder [0023] gefundenen Dokumente können vom Anwender nach Relevanz geordnet werden, und es kann eine neue Suche [0023], unter Berücksichtigung der Relevanz, gestartet werden.
Die Schritte in Absatz [0023] bis [0024] können vom Anwender beliebig oft wiederholt werden.
Ist der Anwender mit den gefundenen Dokumenten zufrieden, werden diese übersetzt, und ein Sprachmodell wird berechnet.
Die Sprachmodelle werden zur Berechnung der Perplexitäten der jeweiligen Dokumente im Datenbestand der Sprachen S2 bis Sn verwendet und sortiert.
Die gefunden Dokumente der jeweiligen Sprache S2 bis Sn, sowie jene der dazugehörigen Ausgangssprache S1, werden dem Anwender angezeigt. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
4.4 Varianten
Zur Verfeinerung der Suche können nicht nur die relevanten, sondern wahlweise auch die irrelevanten Suchstrings oder Suchdokumente verwendet werden.
Falls die zu durchsuchenden Texte der Sprachen S1 bis Sn durch manuelle oder automatische Transkribierung von Audio- oder Videodaten gewonnen wurden, so können die Verfahren der Kapitel 4.2 und 4.3 weiterhin verwendet werden, wobei dem Anwender neben den in Absatz [0024] und [0028] gefundenen Transkriptionen noch die jeweiligen Audio- oder Videodatei mit ausgegeben wird.

Claims

Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung von Kontexterweiterung.
Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung einer Übersetzung, der Generierung von Sprachmodellen und einer Perplexitätsauswertung.
Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung einer Übersetzung, der Generierung von Sprachmodellen und einer Perplexitätsauswertung.
Verfahren nach Anspruch 1 gekennzeichnet durch eine rekursive Verwendung von Kontexterweiterungen.
Verfahren nach Anspruch 2 gekennzeichnet durch eine rekursive Verwendung der Generierung von Sprachmodellen und einer Perplexitätsauswertung innerhalb der Ausgangssprache.
Verfahren nach Anspruch 1, 2, 3 oder 4 dadurch gekennzeichnet, dass Texte und Text-Dokumente als Folge einer Transkribtion aus Audio- oder Video-Daten gewonnen wurden.