DE102006060173A1 - Rekursives sprachübergreifendes Recherche-System - Google Patents

Rekursives sprachübergreifendes Recherche-System Download PDF

Info

Publication number
DE102006060173A1
DE102006060173A1 DE102006060173A DE102006060173A DE102006060173A1 DE 102006060173 A1 DE102006060173 A1 DE 102006060173A1 DE 102006060173 A DE102006060173 A DE 102006060173A DE 102006060173 A DE102006060173 A DE 102006060173A DE 102006060173 A1 DE102006060173 A1 DE 102006060173A1
Authority
DE
Germany
Prior art keywords
language
text
perplexity
translation
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102006060173A
Other languages
English (en)
Inventor
Lars Mackel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZETTWERK SOFTWARE ENGINEERING
ZETTWERK SOFTWARE ENGINEERING GmbH
Original Assignee
ZETTWERK SOFTWARE ENGINEERING
ZETTWERK SOFTWARE ENGINEERING GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZETTWERK SOFTWARE ENGINEERING, ZETTWERK SOFTWARE ENGINEERING GmbH filed Critical ZETTWERK SOFTWARE ENGINEERING
Priority to DE102006060173A priority Critical patent/DE102006060173A1/de
Publication of DE102006060173A1 publication Critical patent/DE102006060173A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

Durch die Vernetzung von Informationen, auch über Sprachgrenzen hinweg, sehen sich Anwender von Computersystemen zunehmend mehrsprachigen Datenbeständen gegenüber, insbesondere auch innerhalb einer Organisation (Datenbestand). Das vorgestellte Verfahren soll es Anwendern ermöglichen, recherche-relevante Texte und Informationen in mehreren anderen Sprachen aufzufinden. Das vorgestellte Verfahren ermöglicht eine sprachübergreifende Recherche, indem es a) Suchzeichenketten ("Suchstrings"), die der Anwender in einer Ausgangssprache eingegeben hat, kontextbezogen erweitert, und zwar durch die bei einer Suche gefundenen Dokumente in der Ausgangssprache - hier ist eine Rekursion möglich. Die solchermaßen "erweiterten Suchstrings" werden in eine zweite Sprache übersetzt. Danach folgt eine Suche nach Dokumenten in dieser zweiten Sprache, die diese "übersetzten erweiterten Suchstrings" enthalten. b) aus einem oder mehreren vorgegebenen Dokumenten ("Suchdokumenten") einer Ausgangssprache ein Sprachmodell berechnet. Mit diesem Modell können durch Berechnung bereits in der Ausgangssprache weitere Dokumente gefunden werden, die "ähnlich" sind, hier ist eine Rekursion möglich. Der Anwender selektiert recherche-relevante Dokumente, aus denen - nach der Übersetzung - ein Sprachmodell in dieser zweiten Sprache generiert wird. Danach kann in einem Datenbestand der zweiten Sprache nach Dokumenten gesucht werden, die rechnerisch diesem Modell "ähnlich" sind. c) die unter a) auf ...

Description

  • 1. Beschreibung der Erfindung
  • Die vorgestellte Erfindung gibt ein Verfahren bzw. beschreibt ein rekursives System zur sprachübergreifenden Recherche in rechner-gestützten Datenbank-Systemen.
  • 2. Stand der Technik
  • Begünstigt durch die globale Vernetzung über das Internet, wurden in den letzten Jahren verstärkt Überlegungen hinsichtlich sprachübergreifender (engl. cross-lingual) und mehrsprachiger (engl. multilingual) Datenverarbeitung angestellt und entsprechend zahlreiche Verfahren für automatische Übersetzungen, multilinguale Suchmechanismen, Spracherkennung (text-to-speech) und Konvertierung spontaner Sprache in Schriftsprache vorgestellt.
  • 3. Aufgabenstellung
  • In der Natur einer Recherche liegt es, dass es in aller Regel zu verfeinerten Suchanfragen seitens des Anwenders kommt. Sei es, weil die Suchergebnisse vom Anwender als unzureichend angesehen und wieder verworfen werden, die Qualität der Auswahl noch nicht zufrieden stellend ist, oder weil der quantitative Umfang (die Anzahl der Ergebnisse) noch zu umfangreich oder nicht ausreichend ist.
  • Ziel ist ein Rechercheverfahren, das aus einer Folge von Suchanfragen besteht, wobei iterativ die Suchanfrage verfeinert wird. Die Verfeinerung wird durch das Recherchesystem automatisch, aus den recherche-relevanten Inhalten, vorgenommen und dem Anwender vorgelegt, um die Relevanz der vorgelegten Verfeinerungen zu beurteilen.
  • Durch die Vernetzung von Informationen, auch über Sprachgrenzen hinweg, sehen sich Anwender von Computersystemen – beispielsweise in international aufgestellten Firmen oder Behörden – zunehmend mehrsprachigen Datenbeständen gegenüber, insbesondere auch innerhalb einer Organisation (Datenbestand).
  • Dabei ist, wegen der schnell wachsenden Flut von Informationen, nicht davon auszugehen, dass stets zeitnah entsprechende Übersetzungen in den unterschiedlichen Sprachen, die in einer solchen Organisation verwendet werden, vorliegen.
  • Falls solche Informationen vorliegen, ist nicht immer eine Verknüpfung der mehrsprachigen Dokumente gegeben.
  • Die besagten Anwender müssen jedoch oftmals, entsprechend ihrem thematischen Arbeits- bzw. Aufgabengebiet, Recherchen durchführen, um arbeitsrelevante Informationen, unabhängig von der Sprache, zu finden.
  • Nun kann es durchaus sein, dass recherche-relevante Dokumente vorliegen, diese jedoch in einer Sprache oder Sprachen, die von der Sprache der Suchanfrage abweicht oder abweichen, und somit nicht gefunden werden können.
  • Da diese Inhalte für den Recherchierenden von hohem Wert sein könnten, ist es vorteilhaft auch Inhalte zu finden, die unabhängig von der Ausgangsprache der Suchanfrage sind. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
  • Hierbei ist es von großem Vorteil, wenn die gefundenen fremdsprachlichen Texte eine große. Ähnlichkeit (Korrelation) mit den gefundenen Texten der Ausgangssprache aufweisen um die Fehlerrate zu verringern. Um dies zu garantieren ist eine automatische Erweiterung der Suchanfrage durch In-Domain Daten (dies sind Daten aus dem Datenbestand der Organisation – siehe 0005 –) vorteilhaft.
  • 4. Lösung der Aufgabenstellung
  • 4.1 Voraussetzungen und Definitionen
  • Voraussetzung ist, dass der Anwender ein zeitgemäßes Computersystem zur Verfügung hat, das gegebenenfalls auch mit anderen Computersystemen vernetzt ist. Gegeben seien nun ein oder mehrere Datenbanken, die Texte und Textdokumente in verschiedenen Sprachen enthalten. Weiterhin sei zu jedem Sprachpaar ein statistisches oder regelbasiertes automatisches Übersetzungsprogramm gegeben.
  • Definition Übersetzung:
  • Eine Übersetzung wandelt den Text in der Ausgangssprache S1 in die Zielsprache Sn. Die Qualität der Übersetzung kann durch Adaption auf In-Domain Paralleldaten (dies kann offline anhand von vorhandenen In-Domain Daten geschehen, oder online auf Basis von Paralleltexten, die in der Kundendatenbank vorliegen) verbessert werden. Die Übersetzung von Worten kann weiterhin verbessert werden durch Kontexterweiterung auf Basis von In-Domain Daten in der Ausgangssprache oder teilweise in der Zielsprache (dies kann offline anhand von vorhandenen In-Domain Daten geschehen, oder online auf Basis von in der Kundendatenbank vorliegenden Texten in der Ausgangssprache oder Zielsprache, wobei hier auf das Vorhandensein von Paralleltexten verzichtet werden kann).
  • Definition Sprachmodell:
  • Ein Sprachmodell zeichnet sich dadurch aus, dass es Auskunft über die statistische Häufigkeit von den vorkommenden Wortfolgen (so genannten „N-Grammen") in einer Sprache liefert. Enthält ein Sprachmodell zu viel Information, kann es durch das Wegwerfen von Wörtern oder Wortfolgen verkleinert werden (engl. gepruned). Insbesondere lässt sich für die im Folgenden beschriebene Recherche ein für die Recherche spezifisches Sprachmodell Mn der jeweiligen Sprache Sn erstellen, in dem der Anwender über die Relevanz verschiedener Dokumente entscheidet.
  • Definition Perplexität:
  • Die Perplexität gibt einen Zahlenwert, der festlegt, wie ähnlich sich das Sprachmodell und das Dokument sind.
  • 4.2 Verfahrensweise 1: Suchstring
  • Die Recherche beginnt mit der Eingabe einer Zeichenkette zur Suche (im Folgenden „Suchstring" genannt). Dieser Suchstring kann aus einem oder mehreren Worten einer Sprache S1 bestehen. Anschließend wird der Datenbestand der Sprache S1 mit dem eingegebenen Suchstring durchsucht, und es werden gefundene Dokumente an den Benutzer zurückgeliefert.
  • Der Benutzer kann sich an dieser Stelle zwischen Stringrecherche, weiter bei [0018] oder Dokumentenrecherche entscheiden, weiter bei [0024].
  • Der/Die Suchstring/s wird/werden durch den Kontext der gefundenen Texte um ein oder mehrere Worte erweitert, die ihn links und rechts an der jeweiligen Fundstelle umgeben. Beispiel: der Suchstring „der Schreibtisch" würde an einer Textfundstelle mit dem Text „...dort, wo der Schreibtisch im Raum steht..." unter anderem zu der Phrase „...wo der Schreibtisch im..." erweitert.
  • Die in Absatz [0018] gefundenen Textstellen können vom Anwender nach Relevanz geordnet werden, und es kann eine neue Suche [0016], unter Berücksichtigung der Relevanz, gestartet werden.
  • Die Schritte in Absatz [0016] bis [0019] können vom Anwender beliebig oft wiederholt werden.
  • Ist der Anwender mit den kontexterweiterten Strings zufrieden, werden diese übersetzt (eine Methode zur statistischen oder regelbasierten Übersetzung ist nicht Bestandteil dieser Erfindung). Falls die Anzahl solcher übersetzter Phrasen als zu hoch angesehen wird, kann sie optional vom Anwender eingeschränkt werden.
  • Die übersetzen Phrasen der Sprachen S2 bis Sn werden dann in Dokumenten der jeweiligen Sprachen S2 bis Sn gesucht. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
  • 4.3 Verfahrensweise 2: Suchdokument
  • Die Recherche beginnt mit der Eingabe eines Dokumentes zur Suche (im Folgenden „Suchdokument" genannt). Dieses Suchdokument kann aus einem oder mehreren Dokumenten einer Sprache S1 bestehen. Aus dem Suchdokument wird ein Sprachmodell berechnet, mit dessen Hilfe die Perplexitäten der jeweiligen Dokumente im Datenbestand der Sprache S1 bestimmt und sortiert werden.
  • Die in Absatz [0018] oder [0023] gefundenen Dokumente können vom Anwender nach Relevanz geordnet werden, und es kann eine neue Suche [0023], unter Berücksichtigung der Relevanz, gestartet werden.
  • Die Schritte in Absatz [0023] bis [0024] können vom Anwender beliebig oft wiederholt werden.
  • Ist der Anwender mit den gefundenen Dokumenten zufrieden, werden diese übersetzt, und ein Sprachmodell wird berechnet.
  • Die Sprachmodelle werden zur Berechnung der Perplexitäten der jeweiligen Dokumente im Datenbestand der Sprachen S2 bis Sn verwendet und sortiert.
  • Die gefunden Dokumente der jeweiligen Sprache S2 bis Sn, sowie jene der dazugehörigen Ausgangssprache S1, werden dem Anwender angezeigt. Ist der Recherchierende der Sprache des zurückgegebenen Dokumentes nicht mächtig, besteht die Möglichkeit dieses von einer Person oder automatisch übersetzen zu lassen.
  • 4.4 Varianten
  • Zur Verfeinerung der Suche können nicht nur die relevanten, sondern wahlweise auch die irrelevanten Suchstrings oder Suchdokumente verwendet werden.
  • Falls die zu durchsuchenden Texte der Sprachen S1 bis Sn durch manuelle oder automatische Transkribierung von Audio- oder Videodaten gewonnen wurden, so können die Verfahren der Kapitel 4.2 und 4.3 weiterhin verwendet werden, wobei dem Anwender neben den in Absatz [0024] und [0028] gefundenen Transkriptionen noch die jeweiligen Audio- oder Videodatei mit ausgegeben wird.

Claims (6)

  1. Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung von Kontexterweiterung.
  2. Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung einer Übersetzung, der Generierung von Sprachmodellen und einer Perplexitätsauswertung.
  3. Verfahren zur sprachübergreifenden Recherche in Texten und Text-Dokumenten gekennzeichnet durch die Verwendung einer Übersetzung, der Generierung von Sprachmodellen und einer Perplexitätsauswertung.
  4. Verfahren nach Anspruch 1 gekennzeichnet durch eine rekursive Verwendung von Kontexterweiterungen.
  5. Verfahren nach Anspruch 2 gekennzeichnet durch eine rekursive Verwendung der Generierung von Sprachmodellen und einer Perplexitätsauswertung innerhalb der Ausgangssprache.
  6. Verfahren nach Anspruch 1, 2, 3 oder 4 dadurch gekennzeichnet, dass Texte und Text-Dokumente als Folge einer Transkribtion aus Audio- oder Video-Daten gewonnen wurden.
DE102006060173A 2006-12-18 2006-12-18 Rekursives sprachübergreifendes Recherche-System Withdrawn DE102006060173A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102006060173A DE102006060173A1 (de) 2006-12-18 2006-12-18 Rekursives sprachübergreifendes Recherche-System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102006060173A DE102006060173A1 (de) 2006-12-18 2006-12-18 Rekursives sprachübergreifendes Recherche-System

Publications (1)

Publication Number Publication Date
DE102006060173A1 true DE102006060173A1 (de) 2008-04-10

Family

ID=39154743

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006060173A Withdrawn DE102006060173A1 (de) 2006-12-18 2006-12-18 Rekursives sprachübergreifendes Recherche-System

Country Status (1)

Country Link
DE (1) DE102006060173A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016860A1 (en) * 1996-10-23 2001-08-23 Makifumi Nosohara Document searching system for multilingual documents
US20040059731A1 (en) * 2000-12-08 2004-03-25 Yianilos Peter N. Multistage intelligent database search method
US20050086214A1 (en) * 2003-10-21 2005-04-21 Bayer Materialscience Ag Computer system and method for multilingual associative searching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016860A1 (en) * 1996-10-23 2001-08-23 Makifumi Nosohara Document searching system for multilingual documents
US20040059731A1 (en) * 2000-12-08 2004-03-25 Yianilos Peter N. Multistage intelligent database search method
US20050086214A1 (en) * 2003-10-21 2005-04-21 Bayer Materialscience Ag Computer system and method for multilingual associative searching

Similar Documents

Publication Publication Date Title
Zerrouki et al. Tashkeela: Novel corpus of Arabic vocalized texts, data for auto-diacritization systems
Hull et al. Querying across languages: A dictionary-based approach to multilingual information retrieval
Hnátková et al. The SYN-series corpora of written Czech.
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE202005022113U1 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
KR20160138077A (ko) 기계 번역 시스템 및 방법
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Ahn et al. Question Answering with QED at TREC 2005.
CN104199813A (zh) 基于伪反馈的个性化机器翻译系统及方法
Jindal et al. Building english-punjabi parallel corpus for machine translation
Smadja et al. Translating collocations for use in bilingual lexicons
Galinsky et al. Improving neural network models for natural language processing in russian with synonyms
Goweder et al. Identifying broken plurals in unvowelised arabic tex
DE102006060173A1 (de) Rekursives sprachübergreifendes Recherche-System
Kurz A statistical account on word order variation in German
Dokkara et al. A simple surface realization engine for Telugu
Lohar et al. Building machine translation system for software product descriptions using domain-specific sub-corpora extraction
Kaur et al. Deadwood detection and elimination in text summarization for Punjabi language
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Costa Esfinge—A Question Answering System in the Web using the Web
De Pauw et al. African language technology: The data-driven perspective
Jeon et al. A key word analysis of English intensifying adverbs in male and female speech in ICE-GB
CN1272655A (zh) 英汉翻译机器
Benito-Santiago et al. Machine Translation of Texts from Languages with Low Digital Resources: A Systematic Review

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal