DE112010005226T5 - Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung - Google Patents

Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung Download PDF

Info

Publication number
DE112010005226T5
DE112010005226T5 DE112010005226T DE112010005226T DE112010005226T5 DE 112010005226 T5 DE112010005226 T5 DE 112010005226T5 DE 112010005226 T DE112010005226 T DE 112010005226T DE 112010005226 T DE112010005226 T DE 112010005226T DE 112010005226 T5 DE112010005226 T5 DE 112010005226T5
Authority
DE
Germany
Prior art keywords
language
unit
registered
reading
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112010005226T
Other languages
English (en)
Inventor
Yasushi Ishikawa
Jun Ishii
Michihiro Yamazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112010005226T5 publication Critical patent/DE112010005226T5/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

Eine Erkennungswörterbuch-Erzeugungsvorrichtung identifiziert die Sprache einer Lesung eines eingegebenen Textes, bei dem es sich um ein Ziel der Registrierung handelt, und eine Lesung mit Phonemen in der Sprache hinzufügt, die dadurch identifiziert wird, zu dem zu registrierenden Zieltext, und auch die Lesung des zu registrierenden Zieltextes von den Phonemen in der dadurch identifizierten Sprache wandelt, in Phoneme in einer zu erkennenden Sprache, die in einer Spracherkennung behandelt wird, um ein Erkennungswörterbuch zu erzeugen, in dem die gewandelte Lesung des zu registrierenden Zieltextes registriert ist.

Description

  • Erfindungsgebiet
  • Die vorliegende Erfindung betrifft eine Erkennungswörterbuch-Erzeugungsvorrichtung, die ein Wörterbuch mit Wörtern erzeugt, die jeweils ein Ziel der Spracherkennung sind, und eine Spracherkennungsvorrichtung, die die Erkennungswörterbuch-Erzeugungsvorrichtung verwendet.
  • Hintergrund der Erfindung
  • Patentreferenz 1 offenbart eine Spracherkennungsvorrichtung, die eine Spracherkennung durchführen kann, welche viele Sprachen unterstützt, indem simultan akustische Modelle für eine Vielzahl von Sprachen verwendet werden, die jeweils ein Ziel der Spracherkennung sind.
  • Ein Problem mit der durch diese Patentreferenz 1 offenbarten Erfindung besteht jedoch darin, dass es notwendig ist, ein akustisches Modell für viele Sprachen bereitzustellen, die alle der Vielzahl von Sprachen unterstützt, bei denen es sich jeweils um ein Ziel der Spracherkennung handelt, und somit kann die konventionelle Erfindung nicht für eine typische Spracherkennung verwendet werden, die nur eine Sprache unterstützt.
  • Die Spracherkennungsvorrichtung gemäß der durch diese Patentreferenz offenbarten Erfindung muss ferner vorab bestimmen, in welcher Sprache ein zu erkennendes Wort beschrieben ist, und muss eine Lesung (engl. Reading) zu dem zu erkennenden Wort hinzufügen.
  • In einer Spracherkennung, die nur eine Sprache unterstützt, wird andererseits eine Lesung in einer zu erkennenden Sprache automatisch für einen zu registrierenden Zieltext (engl. Target Text) erzeugt, für den keine Lesung hinzugefügt wird, und eine Spracherkennung wird dann anhand der Lesung durchgeführt. Zu diesem Zeitpunkt kann keine Lesung zu einem Text hinzugefügt werden, der in irgendeiner Sprache beschrieben ist, außer der zu erkennenden Sprache.
  • Die vorliegenden Erfindung dient zur Lösung der oben stehenden Probleme, und eine Aufgabe der vorliegenden Erfindung besteht somit in der Bereitstellung einer Erkennungswörterbuch-Erzeugungsvorrichtung, die selbst dann, wenn die Sprache, in der ein Wort, bei dem es sich um ein Ziel der Registrierung in einem Erkennungswörterbuch handelt, unbekannt beschrieben ist, die Lesung des Wortes in eine Lesung in dem phonemischen System einer Sprache der Spracherkennung gewandelt werden kann, um ein Erkennungswörterbuch zu erzeugen, und eine Spracherkennungsvorrichtung, welche diese Erkennungswörterbuch-Erzeugungsvorrichtung verwendet.
  • Dokumente im Stand der Technik
    • Patentreferenz 1: Japanisches Patent mit der Nummer 3776391
  • Zusammenfassung der Erfindung
  • Gemäß der vorliegenden Erfindung wird eine Erkennungswörterbuch-Erzeugungsvorrichtung bereitgestellt, umfassend: eine Sprachenidentifikationseinheit zum Identifizieren einer Sprache einer Lesung eines eingegebenen Textes, wobei es sich um ein Ziel der Registrierung handelt; eine Lesehinzufügungseinheit zum Hinzufügen einer Lesung mit Phonemen in der Sprache, die durch die Sprachenidentifikationseinheit identifiziert wird, zu dem zu registrierenden Zieltext; eine Lesewandlereinheit zum Wandeln der Lesung des zu registrierenden Zieltexts von den Phonemen in der durch die Sprachenidentifikationseinheit identifizierten Sprache in Phoneme in einer zu erkennenden Sprache, die in einer Spracherkennung verarbeitet wird; und eine Erkennungswörterbuch-Erzeugungseinheit zum Erzeugen eines Erkennungswörterbuchs, in dem die Lesung des zu registrierenden Zieltexts registriert ist, der durch die Lesewandlereinheit gewandelt ist.
  • Die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung identifiziert die Sprache der Lesung des eingegebenen Textes, bei dem es sich um ein Ziel der Registrierung handelt, und fügt eine Lesung hinzu mit Phonemen in der dadurch identifizierten Sprache, zu dem zu registrierenden Zieltext, und wandelt auch die Lesung des zu registrierenden Zieltextes von den Phonemen in der dadurch identifizierten Sprache, in Phoneme in der zu erkennenden Sprache, die bei der Spracherkennung bearbeitet wird, um ein Erkennungswörterbuch zu erzeugen, in dem die gewandelte Lesung des zu registrierenden Zieltextes registriert ist. Selbst dann, wenn es nicht bekannt ist, in welcher Sprache der zu registrierende Zieltext (Wort) beschrieben ist, kann die Erkennungswörterbuch-Erzeugungsvorrichtung in diesem Fall einen Vorteil bereitstellen, der darin besteht, dass ein Erkennungswörterbuch erlangt werden kann, das an das phonemischen System der Sprache (engl. Language) angepasst ist, das bei der Spracherkennung (engl. Voice Recognition) verwendet wird.
  • Kurze Beschreibung der Figuren
  • 1 ist ein Blockdiagramm zur Darstellung der Struktur einer Registrationstyp-Spracherkennungsvorrichtung, die eine Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung verwendet;
  • 2 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen eines Erkennungswörterbuchs, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird;
  • 3 ist eine Ansicht zur Darstellung eines Beispiels einer entsprechenden Liste und zeigt einen Zusammenhang zwischen Phonemen in Deutsch und denjenigen in Englisch, die in der Aussprache vergleichbar zueinander sind;
  • 4 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen eines Erkennungswörterbuchs, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird;
  • 5 ist ein Blockdiagramm zur Darstellung der Struktur einer Registrationstyp-Spracherkennungsvorrichtung, die eine Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung verwendet; und
  • 6 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen eines Erkennungswörterbuchs, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird.
  • Ausführungsformen der Erfindung
  • Um diese Erfindung detailliert zu erläutern werden im Folgenden die bevorzugten Ausführungsformen der vorliegenden Erfindung mit Bezug auf die begleitenden Zeichnungen beschrieben.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm zur Darstellung der Struktur einer Registrationstyp-Spracherkennungsvorrichtung, die eine Erkennungswörterbuch-Erkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung verwendet. Bezugnehmend auf 1 umfasst die Spracherkennungsvorrichtung 100 gemäß Ausführungsform 1 eine Sprachenidentifikationseinheit 101, eine Lesehinzufügungseinheit (engl. Reading Addition Unit) 102, eine Lesewandlereinheit (engl. Reading Conversion Unit) 103, eine Erkennungswörterbuch-Erzeugungseinheit 104, eine Erkennungswörterbuch-Speichereinheit 105 und eine Spracherkennungseinheit 106. Unter diesen Komponenten sind die Sprachenidentifikationseinheit 102, die Lesehinzufügungseinheit 102, die Lesewandlereinheit 103, die Erkennungswörterbuch-Erzeugungseinheit 104 und die Erkennungswörterbuch-Speichereinheit 105 strukturelle Komponenten der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1.
  • Bei der Sprachenidentifikationseinheit 101 handelt es sich um eine Komponente zum Identifizieren der Sprache, in der eine Textfolge bzw. Textstring (der im Folgenden als ein zu registrierender Zieltext bezeichnet wird) eines Wortes, bei dem es sich um ein in einem Erkennungswörterbuch zu registrierendes Ziel handelt, beschrieben wird. Eine Textfolge eines Wortes, dessen Sprache nicht leicht bestimmt werden kann, kann der zu registrierende Zieltext sein. Z. B. können bibliographische Daten, wie z. B. der Titel oder der Künstlername eines Musikstückes, die in einem tragbaren Musikabspielgerät registriert sind, oder der Name eines Platzes, der Name einer Person oder dergleichen, die in einem Mobiltelefon registriert sind, als der zu registrierende Zieltext bereitgestellt werden. Die Lesehinzufügungseinheit 102 ist eine Komponente zum Hinzufügen eines Lesens mit Phonemen in der Sprache, die durch die Sprachenidentifikationseinheit 101 identifiziert wird, zu dem registrierenden Zieltext. Die Lesewandlereinheit 103 ist eine Komponente zum Wandeln des Lesens, das dem zu registrierenden Zieltext hinzugefügt wird, durch die Lesehinzufügungseinheit 102 in ein entsprechendes mit Phonemen in einer Sprache, die in der Spracherkennung verwendet wird, die durch die Spracherkennungseinheit 106 durchgeführt wird.
  • Die Erkennungswörterbuch-Erzeugungseinheit 104 ist eine Komponente zum Erzeugen eines Wortes, bei dem es sich um ein Ziel der Spracherkennung handelt (im Folgenden als ein zu registrierendes Wort bezeichnet), aus den Phonemen, in die die ursprünglichen Phoneme durch die Lesewandlereinheit 103 gewandelt wurden, und dann zum Registrieren dieses Wortes in dem Erkennungswörterbuch der Erkennungswörterbuch-Speichereinheit 105. Die Erkennungswörterbuch-Speichereinheit 105 ist eine Speichereinheit, in der Daten durch die Erkennungswörterbuch-Erzeugungseinheit 104 und durch die Spracherkennungseinheit 106 geschrieben werden können, zum Speichern des Erkennungswörterbuchs, in dem das zu erkennende Wort, das durch die Erkennungswörterbuch-Erzeugungseinheit 104 erzeugt wird, registriert wird. Die Spracherkennungseinheit 106 ist eine Komponente zum Durchführen einer Spracherkennung unter Verwendung des zu erkennenden Wortes in dem Erkennungswörterbuch, das in der Erkennungswörterbuch-Speichereinheit 105 gespeichert wird, und zum Ausgeben des Resultats der Erkennung.
  • Ferner können die Sprachenidentifikationseinheit 101, die Lesehinzufügungseinheit 102, die Lesewandlereinheit 103, die Erkennungswörterbuch-Erzeugungseinheit 104, die Erkennungswörterbuch-Speichereinheit 105 und die Spracherkennungseinheit 106 in einem Computer implementiert werden, bei dem es sich um ein konkretes Mittel handelt, indem Hardware und Software kooperativ zusammenarbeiten, durch Speichern eines Erkennungswörterbuch-Erzeugungsprogramms gemäß dem Umfang der vorliegenden Erfindung in dem Computer, und indem veranlasst wird, dass eine CPU das Erkennungswörterbuch-Erzeugungsprogramm ausführt. Darüber hinaus ist ein Speicherbereich, den die Erkennungswörterbuch-Speichereinheit 105 und die Spracherkennungseinheit 106 verwenden, in einer Speichereinheit konstruiert, die dem oben erwähnten Computer montiert ist, wie z. B. eine Festplatteneinheit, ein externes Speichermedium, oder dergleichen.
  • Als nächstes wird ein Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung erläutert.
  • 2 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen eines Erkennungswörterbuchs, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird. Die Details des Betriebs an einem zu registrierendem Zieltext, die jeweils durch die Sprachenidentifikationseinheit 201, die Lesehinzufügungseinheit 102, die Lesewandlereinheit 103 und die Erkennungswörterbuch-Erzeugungseinheit 104 durchgeführt werden, werden im Folgenden beschrieben.
  • Zuerst startet die Sprachenidentifikationseinheit 101 die Durchführung eines Sprachenidentifikationsprozesses an der Zeichenfolge eines zu registrierenden Zieltextes, um zu bestimmen, in welcher Sprache diese Zeichenfolge beschrieben ist (ST201). Insbesondere bestimmt die Sprachenidentifikationseinheit 101, in welcher einer Vielzahl von daran eingestellten Sprachen die Zeichenfolge des eingegebenen zu registrierenden Zieltextes beschrieben ist.
  • In einem Beispiel, bei dem die folgenden sechs europäischen Sprachen: Englisch, Deutsch, Französisch, Italienisch, Spanisch und Niederländisch als Ziele der Sprachenidentifikation an der Sprachenidentifikationseinheit 101 eingestellt sind, gibt, wenn die Zeichenfolge des eingegebenen zu registrierenden Zieltextes gleich „Guten Morgen” ist, die Sprachenidentifikationseinheit 101 das Resultat der Sprachenidentifikation aus, welches anzeigt, dass die Sprache der Zeichenfolge Deutsch ist.
  • Wenn die Identifikation der Sprache der Zeichenfolge des eingegeben zu registrierenden Zieltextes beispielsweise fehlgeschlagen ist, und es somit unmöglich ist, die Sprache zu identifizieren, gibt die Sprachenidentifikationseinheit 101 eine Sprache aus, die die Sprachenerkennungseinheit 106 als ein Ziel für die Spracherkennung akzeptieren kann, als das Ergebnis der Identifikation.
  • Ferner wird ein Zeichen-N-gramm (engl. Character N-gram) z. B. für die Sprachenidentifikation durch die Sprachenidentifikationseinheit 101 verwendet. Ein N-gramm ist ein analytisches Model in Bezug auf Spracheninformation, das durch Claude Elwood Shannon eingeführt wurde, und wird für ein Sprachenmodell zur Sprachenerkennung, eine Volltextsuche, und dergleichen verwendet. Diese typischen Verfahren der Verwendung eines N-gramms werden in der folgenden Referenz beschrieben.
  • (Referenz 1) „A mathematical theory of communication", C. E. Shannon, The Bell System Technical Journal, Vol. 27, Seiten 379–423 und 623–656, Juli, Oktober, 1948.
  • Indem die Konzepte verwendet werden, die einen N-gramm zugrunde liegen, für die Sprachenidentifikation einer Textfolge, kann die Sprache der Textfolge mit einem hohen Genauigkeitsgrad identifiziert werden. Die Sprachenidentifikation, für die z. B. N auf 3 eingestellt ist und Trigramms von Zeichen verwendet werden, wird im Folgenden beschrieben.
  • Die Sprachenidentifikationseinheit 101 weist Textfolgen zum Lernen auf, die jeweils in einer von Sprachen beschrieben sind, bei denen es sich um Ziele der Sprachenidentifikation handelt, und bestimmt die Wahrscheinlichkeit des Auftretens von jeder Sequenz von drei Zeichen, die in jeder der Zeichenfolgen zum Lernen auftreten. Im Fall der Zeichenfolge „MITSUBISHI” kann diese Zeichenfolge z. B. in die folgenden Sequenzen unterteilt werden: „$$M”, ”$MI”, ”MIT”, ”IST”, ”TSU”, ”SUB”, „UBI”, „BIS”, „ISH”, „SHI”, „HI$” und „I$$”. Das „$” bedeutet ein Zeichen, das den Anfang des Worts oder das Ende des Worts anzeigt.
  • Nach der Bestimmung der Frequenz, mit der jede Sequenz in allen den Zeichenfolgen zum Lernen auftritt, die in jeder Sprache i (i = 1, 2, ... N) beschrieben sind, verwendet die Sprachenidentifikationseinheit 101 die n erstplatzierten Ketten mit höheren Wahrscheinlichkeiten des Auftretens in allen den Zeichenfolgen zum Lernen, die in jeder Sprache als ein Modell für die zu lernende Sprache beschrieben sind, und speichert die Sequenz der Zeichen und die Frequenz des Auftretens von jeder der Sequenz in dem Sprachenidentifikationsmodell für jede Sprache. Z. B. wird die Zeichensequenz (Trigramm) „$§M” und die Wahrscheinlichkeit des Auftretens Pi ($, $, M) der Zeichensequenz und dergleichen für das Spracheidentifikationsmodell für die Sprache i gespeichert.
  • Die Sprachenidentifikationseinheit 101 bestimmt die Sequenzwahrscheinlichkeit der Zeichensequenz (Trigramm) der Zeichenfolge von jedem zu registrierenden Zieltext für jede Sprache, unter Verwendung des Sprachenidentifikationsmodells für die Sprache, und setzt eine Sprache ein, die die höchste Sequenzwahrscheinlichkeit bereitstellt, als Resultat der Sprachenidentifikation. Die Sequenzwahrscheinlichkeit Pi von „Best” für die Sprache e wird z. B. als Pi = Pi ($, $, B) × Pi ($, B, E) × Pi (B, E, S) × Pi (E, S, T) × Pi (S, T, $) × Pi (T, $, $) bestimmt. Die Sprache i, welche diese Sequenzwahrscheinlichkeit Pi maximiert, ist das Resultat der Sprachenidentifikation.
  • Wenn kein N-gramm in dem Sprachenidentifikationsmodell gespeichert ist, berechnet die Sprachenidentifikationseinheit 101 die Sequenzwahrscheinlichkeit durch Bereitstellen einer festen Wahrscheinlichkeit, die für jede Zeichensequenz als dessen Wahrscheinlichkeit des Auftretens vorab bestimmt ist.
  • Für jedes der Zeichen, die gemeinsam in einer Vielzahl von Sprachen beschrieben werden können, bei denen es sich um Ziele der Sprachenidentifikation handelt, und die zur Sprachenidentifikation nicht beitragen (wie z. B. Ziffern und Symbole, wie z. B. eine Klammer und ein Punkt), kann ein N-gramm durch Ersetzen von jedem dieser Zeichen mit einem Zeichen bestimmt werden, das ein bestimmtes Zeichen anzeigt. Z. B. wird ein bestimmtes Zeichen, wie z. B. # oder @ verwendet.
  • Wenn ferner ein Zeichen, das für eine begrenzte Anzahl von Sprachen verwendet wird, in der Sprachenidentifikation verwendet wird, kann die Sprache mit der höchsten Wahrscheinlichkeit, unter den Sprachen, in denen derartige Zeichen verwendet werden, als das Resultat der Identifikation ausgegeben werden. Als Zeichen, die für eine begrenzte Anzahl von Sprachen verwendet werden, werden z. B. Umlaut-Zeichen aufgelistet.
  • Durch Lernen einer Textfolge, die zum Lernen eines N-gramms verwendet wird (eine Textfolge, die für das Sprachenidentifikationsmodell verwendet wird), unter Verwendung von Worten, die der gleichen Aufgabe unterliegen, wie der, die einem zu erkennenden Wort unterworfen wird, kann die Erkennungswörterbuch-Erzeugungsvorrichtung die Genauigkeit der Identifikation der Sprache verbessern. Eine Aufgabe bedeutet hier ein Prozess unter Verwendung eines zu erkennenden Wortes, wie z. B. eine Suche nach einem Musikstück oder einem Adressenerkennungsprozess. Die Sprachenidentifikationseinheit 101 weist Zeichenfolgen zum Lernen bzw. Erlernen für jede Aufgabe auf. Wenn eine Aufgabe durchgeführt wird, die einen zu registrierenden Zieltext verwendet, verwendet die Sprachenidentifikationseinheit die Zeichenfolgen zum Lernen, die der Aufgabe für die Sprachenidentifikation entsprechen.
  • Wenn als nächstes das Resultat der Identifikation von der Sprachenidentifikationseinheit 101 empfangen wird, beurteilt die Lesehinzufügungseinheit 102, welche der Vielzahl von Sprachen, die an der Sprachenerkennungsvorrichtung 100 eingestellt sind, mit dem Resultat der Identifikation übereinstimmt (Schritt ST202) und fügt eine Lesung hinzu, mit Phonemen in der Sprache, die durch das Beurteilungsresultat angezeigt ist, zu der Zeichenfolge des eingegebenen zu registrierenden Zieltextes (Schritt ST203). Wenn die Sprache, die durch das Beurteilungsresultat angezeigt ist, die zu erkennende Sprache ist, bei der es sich um das gegenwärtige Ziel der Spracherkennung durch die Sprachenerkennungseinheit 106 handelt, wird eine Lesung mit Phonemen in dieser zu erkennenden Sprache der Zeichenfolge des eingegebenen zu registrierenden Zieltextes hinzugefügt. Selbst dann, wenn die Sprache, die durch das Beurteilungsresultat angezeigt ist, entweder eine der Sprachen 1, 2, ... und N außer der zu erkennenden Sprache ist, wird eine Lesung mit Phonemen in der Sprache vergleichbar der Zeichenfolge des eingegebenen zu registrierenden Zieltextes hinzugefügt, wie in 2 gezeigt.
  • Die Hinzufügung der Phoneme wird z. B. unter Verwendung von G2P (engl. Grapheme to Phoneme) durchgeführt. Ferner wird dieser Lesehinzufügungsprozess zusammen mit einem Prozess durchgeführt, der von der Sprache abhängt, wie z. B. eine Bestimmung einer Abkürzung oder eines Prozesses, der an einem Symbol durchgeführt wird.
  • Die Lesewandlereinheit 103 wandelt im Schritt ST203 den zu registrierenden Zieltext, dem die Lesung mit den Phonemen in einer der Sprachen außer der zu erkennenden Sprache von der Lesung hinzugefügt ist, zu einer Lesung mit Phonemen in der zu erkennenden Sprache (Schritt ST204).
  • Der Grund, warum die Lesewandlereinheit die Wandlung an dem phonemischen System auf diese Art und Weise durchführt, besteht darin, dass das phonemische System durch die Spracherkennungseinheit 106 nur in der zu erkennenden Sprache akzeptabel ist, bei der es sich um das Ziel der Spracherkennung handelt, und ein phonemisches System auf Grundlage einer unterschiedlichen Sprache Phoneme enthält, die durch die Spracherkennungseinheit 106 nicht akzeptiert werden können.
  • In einem Beispiel eines Wandlerverfahrens, das für eine derartige Wandlung von Phonemen (lesen) verwendet wird bezüglich eines Phonems oder einer Phonemensequenz in jeder Sprache, die durch die Spracherkennungseinheit 106 nicht akzeptiert werden kann, ein Phonem oder eine Phonemensequenz in der zu erkennenden Sprache, die am nächsten an dem oben erwähnten Phonem oder der Phonemensequenz liegt, vorab als eine Zusammenhangsliste vorbereitet, und die Lesewandlereinheit 103 wandelt die Lesung der Textfolge, die im Schritt ST203 erfasst wird, in eine Lesung in eine der Sprachen außer der zu erkennenden Sprachen um, gemäß der oben erwähnten Zusammenhangsliste (eine Phonemenabbildung).
  • 3 ist eine Ansicht zur Darstellung eines Beispiels der Zusammenhangsliste, wie oben erwähnt, und zeigt einen Zusammenhang zwischen Deutsch und Englisch. Aussprachen einschließlich /a/ (ein offener nicht abgerundeter Vokal) und /Y/ (ein nahezu geschlossener abgerundeter Vokal) in Deutsch existieren nicht in dem Aussprachesystem von Britisch Englisch. Wenn daher Phoneme in Britisch Englisch akzeptiert werden beschäftigt sich die Spracherkennungseinheit 106 nicht mit einer derartigen Lesung.
  • Um dieses Problem zu lösen wird die deutsche Aussprache von /a/ und /Y/ in einen Zusammenhang mit Phonemen gebracht, die Aussprachen aufweisen, die jeweils am nächsten zu der deutschen Aussprache sind, unter den Phonemen, die im Britisch Englisch existieren, und die durch die Spracherkennungseinheit 106 akzeptiert werden können, wie z. B. /{/ (ein nahezu offener nicht abgerundeter Vokal) und /}/ (ein geschlossener mittlerer abgerundeter Vokal), wie in der in 3 gezeigten Zusammenhangsliste gezeigt. Eine X-SAMPA Darstellung wird in diesem Fall für die phonetische Darstellung verwendet.
  • Die Zusammenhangsliste kann erzeugt werden, indem Phoneme in einer Sprache in einen Zusammenhang mit denjenigen in einer anderen Sprache gebracht werden, die zu der Sprache linguistisch am nächsten ist. Alternativ kann ein Zusammenhang zwischen Sprachen z. B. derart bestimmt werden, mit welcher phonetischen Darstellung Aussprachen in jeder Sprache leicht erkannt werden können.
  • Die Erkennungswörterbuch-Erzeugungseinheit 104 empfängt die Phoneme, die im Schritt ST203 der Zeichenfolge des zu registrierenden Zieltextes durch die Lesehinzufügungseinheit 102 hinzugefügt wurden, oder die Phoneme, zu denen die im Schritt ST203 hinzugefügten Phoneme im Schritt ST204 durch die Lesewandlereinheit 103 gewandelt werden, und erzeugt ein Erkennungswörterbuch in einem Format, auf das die Spracherkennungseinheit 106 verweisen kann (Schritt ST205). Zusätzlich zur Wandlung des zu erkennenden Wortes in Binärdaten führt die Erkennungswörterbuch-Erzeugungseinheit z. B. eine morphologische Analyse und einer Wortunterteilung an dem zu erkennenden Wort wie benötigt durch, und führt auch eine Erzeugung von Randbedingungen der Sprache usw. durch, um ein Erkennungswörterbuch zu erlangen.
  • Wenn es zwei oder mehr Worte gibt, die beide eine zu erkennender Zieltext sind, führt die Erkennungswörterbuch-Erzeugungseinheit wiederholt die Verarbeitung durch, einschließlich bis zu dem oben erwähnten Prozess, an jedem der zu erkennenden Zieltexte. Die Erkennungswörterbuch-Erzeugungseinheit kann eine Erkennungswörterbuch erzeugen, indem kollektiv alle Worte registriert werden, bei denen es sich um die zu registrierenden Zieltexte handelt, nach Hinzufügen einer Lesung zu jedem von allen den Wörtern, anstelle des zusätzlichen Registrierens von jedem der Wörter in dem Erkennungswörterbuch.
  • Das durch die Erkennungswörterbuch-Erzeugungseinheit 104 erzeugte Erkennungswörterbuch wird in der Erkennungswörterbuch-Speichereinheit 105 gespeichert.
  • Die Spracherkennungseinheit 106 führt eine Spracherkennung an einer Sprache durch, die darin eingegeben wird, indem auf erkannte Wörter und Grammatik verwiesen wird, die in einem Erkennungswörterbuch beschrieben sind, das in der Erkennungswörterbuch-Speichereinheit 105 gespeichert ist, und gibt das Resultat der Erkennung aus. Z. B. liest die Spracherkennungseinheit 106 ein Erkennungswörterbuch, das durch die Phoneme in dem phonemischen System einer bestimmten Sprache beschrieben ist, und führt eine Spracherkennung an der eingegebenen Sprache in einer bestimmten Landessprache durch. Als Algorithmus zur Spracherkennung kann z. B. ein HMM (engl. Hidden Markov Model), ein DP-(engl. Dynamic Programming)Abgleich, oder dergleichen verwendet werden.
  • Obwohl der Betrieb bis jetzt nur für den Fall erläutert wurde, bei dem nur eine Sprache durch die Sprachenidentifikationseinheit 101 identifiziert ist, wird im Folgenden ein Fall erläutert, bei dem eine Vielzahl von Sprachen aus der Zeichenfolge des eingegebenen zu registrierenden Zieltextes durch die Sprachenidentifikationseinheit 101 identifiziert werden.
  • 4 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen von Erkennungswörterbüchern, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 1 durchgeführt wird, und zeigt einen Fall, bei dem N Sprachen bzw. Landessprachen durch die Sprachenidentifikationseinheit 101 identifiziert werden.
  • Die Sprachenidentifikationseinheit 101 startet die Durchführung des Sprachenidentifikationsprozesses an der Zeichenfolge des zu registrierenden Zieltextes, und bestimmt, in welcher Sprache die Zeichenfolge beschrieben ist, um die N erstplatzierten Sprachen bereitzustellen, die eine höhere Wahrscheinlichkeit aufweisen, dass die Zeichenfolge in der Sprache beschrieben ist, als Resultat der Sprachenidentifikation (Schritt ST301).
  • Obwohl N in diesem Fall ein fester Wert sein kann, kann die Sprachenidentifikationseinheit 101 alternativ eine Auswertung (engl. score) ausgeben, die ein Konfidenzniveau für jede Sprache anzeigt, und N kann die Anzahl von Kandidaten sein, die jeweils einen Score aufweisen, der ein Konfidenzniveau zeigen, das gleich oder höher als ein vorbestimmter Schwellenwert ist, oder die Anzahl von Kandidaten, die jeweils einen Score aufweisen, der ein Konfidenzniveau anzeigt, das in eine feststehende Konfidenzniveaudifferenz von dem höchsten Konfidenzniveau fällt.
  • In einem Fall, wenn z. B. „Hamburg” als ein zu registrierender Zieltext eingegeben wird, gibt die Sprachenidentifikationseinheit 101 das Resultat der Sprachenidentifikation aus, welches anzeigt, dass die Sprachen, die von diesem Text identifiziert werden, Deutsch und Englisch (N = 2) ist. Wenn ferner die Identifikation der Sprache der Zeichenfolge des eingegebenen zu registrierenden Zieltextes fehlgeschlagen ist, oder wenn der Score, der das Konfidenzniveau von allen Sprachen anzeigt, geringer als der Schwellenwert ist, gibt die Sprachenidentifikationseinheit 101 die Sprache aus (zu erkennende Sprache), die durch die Spracherkennungseinheit 106 akzeptierbar ist, als Resultat der Sprachenidentifikation.
  • Als nächstes initialisiert die Sprachenidentifikationseinheit 101 einen Zähler i, der die Anzahl von Sprachen anzeigt, die die Sprachenidentifikationseinheit als Resultat der Identifikation erlangt hat, d. h. die Anzahl von Malen, das die Sprachenidentifikationseinheit einen im Folgenden erwähnten Prozess an allen den Sprachen durchführt, auf i = 0 (Schritt ST301-1), und stellt die Sprache ein, die mit dem i-ten Resultat der Identifikation zusammenhängt, für die Lesehinzufügungseinheit 102. Als ein Ergebnis führen die Lesehinzufügungseinheit 102, die Lesewandlereinheit 103 und die Erkennungswörterbuch-Erzeugungseinheit 104 Prozesse der Schritte ST302-ST306 durch, mit der Sprache, die mit dem i-ten (i = 0 – N) Resultat der Identifikation zusammenhängt. Der Prozess im Schritt ST302 ist gleich zu dem von Schritt ST202, der in 2 gezeigt ist, der Prozess für Schritt ST303 ist der gleiche wie der für Schritt ST203, wie in 2 gezeigt, der Prozess für Schritt ST304 ist gleich zu dem von Schritt ST24, gezeigt in 2, und der Prozess für Schritt ST305 ist gleich zu dem von Schritt ST205, gezeigt in 2.
  • Die Sprachenidentifikationseinheit 101 inkrementiert in Schritt ST306 den Zähler i um 1, und wiederholt die oben erwähnte Reihe von Prozessen mit der Sprache, bei der es sich um das nächste Resultat der Identifikation handelt. Wenn die Sprachenidentifikationseinheit 101 im Schritt ST307 bestimmt, dass die oben erwähnte Reihe von Prozessen an allen den Sprachen, bei denen es sich um die Resultate der Identifikation handelt, gemäß dem Zählwert des Zählers i abgeschlossen sind (i > N + 1), beendet die Sprachenidentifikationseinheit den Registrationsprozess an dem eingegebenen zu registrierenden Zieltext. Selbst dann, wenn ein zu registrierender Zieltext in einer Vielzahl von Sprachen beschrieben ist, kann die Erkennungswörterbuch-Erzeugungsvorrichtung als ein Ergebnis den zu registrierenden Zieltext in Erkennungswörterbüchern registrieren, als ein erkanntes Wort, in dem diese Sprachen identifiziert werden, indem eine Lesung mit Phonemen in jeder der Sprachen zu dem zu registrierenden Zieltext hinzugefügt werden, und in dem danach die Lesung in eine Lesung mit Phonemen in der zu erkennenden Sprache gewandelt wird. Selbst dann, wenn der Nutzer eine Textfolge in einer der Sprachen äußert, welche die Sprachenidentifikationseinheit 101 identifiziert, kann die Spracherkennungsvorrichtung eine Spracherkennung unter Verwendung damit zusammenhängender erkannter Wörter durchführen, die in einem Erkennungswörterbuch registriert sind.
  • Wenn es zwei oder mehr zu registrierende Zieltexte gibt, führt die Erkennungswörterbuch-Erzeugungsvorrichtung wiederholt die oben erwähnten Prozesse an jedem der zu registrierenden Zieltexte durch, wie in dem Fall, in dem nur eine Sprache als Resultat der Identifikation identifiziert ist.
  • Die Erkennungswörterbuch-Erzeugungsvorrichtung kann ein Erkennungswörterbuch erzeugen, in dem Lesungen von jedem zu registrierenden Zieltext kollektiv registriert werden, in allen Sprachen bzw. Landessprachen, die für den Zieltext identifiziert sind, anstelle einer zusätzlichen Registrierung von jeder der Lesungen von jedem zu registrierenden Zieltext in allen Sprachen, die als Resultat der Sprachenidentifikation für den Zieltext bereitgestellt werden, indem Erkennungswörterbuch. Alternativ kann die Erkennungswörterbuch-Erzeugungsvorrichtung eine Lesung zu dem Wort von jedem von allen zu registrierenden Zieltexten hinzufügen, und kann danach die Lesungen von allen zu registrierenden Zieltexten in dem Erkennungswörterbuch kollektiv registrieren.
  • Wie oben erläutert identifiziert die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 die Sprache einer Lesung eines zu registrierenden Zieltextes, der darin eingegeben wird, und fügt eine Lesung mit Phonemen in der identifizierten Sprache zu dem zu registrierenden Zieltext hinzu, und wandelt auch die Lesung des zu registrierenden Zieltextes von der Lesung in der identifizierten Sprache in eine Lesung in eine zu erkennende Sprache um, die in einer Spracherkennung behandelt wird, um ein Erkennungswörterbuch zu erzeugen, indem die Lesung in der zu erkennenden Sprache bzw. Landessprache registriert ist.
  • Selbst dann, wenn es unbekannt ist, in welcher Sprache der zu registrierende Zieltext beschrieben ist (z. B. dann, wenn der zu registrierenden Zieltext bibliographische Daten sind, wie z. B. der Titel oder der Künstlername eines Musikstücks, die in einem tragbaren Musikabspielgerät registriert sind, oder der Name eines Platzes, der Name einer Person oder dergleichen, die in einem Mobiltelefon registriert sind), kann die Erkennungswörterbuch-Erzeugungsvorrichtung auf diese Art und Weise den zu registrierenden Zieltext als ein Erkennungswort registrieren, auf das in der Spracherkennung verwiesen wird, durch Identifizieren der Sprache des zu registrierenden Zieltextes mit einem Sprachenidentifikationsmodell unter Verwendung eines N-gramms, Hinzufügen von Phonemen in der identifizierten Sprache zu dem zu registrierenden Zieltext, und durch wandeln der Phoneme in Phoneme in einer Sprache, die bei der Spracherkennung akzeptabel ist.
  • In der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 identifiziert die Sprachenidentifikationseinheit 101 ferner eine Vielzahl von Sprachen bzw. Landessprachen aus dem zu registrierenden Zieltext, und fügt dann, wenn der zu registrierende Zieltext in jeder einer Vielzahl von Sprachen beschrieben werden kann, eine Lesung in jeder der Sprachen bzw. Landessprachen zu dem zu registrierenden Zieltext hinzu, um die Lesung als ein Erkennungswort zu registrieren. Auf diese Art und Weise kann die Spracherkennungsvorrichtung eine Spracherkennung durchführen, selbst dann, wenn der Nutzer den Text in einer der Sprachen ausspricht.
  • In der Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 stellt die Sprachenidentifikationseinheit 101 darüber hinaus bezüglich der Resultate der Sprachenidentifikation einen Score ein, der eine Konfidenzniveau für jede Sprache anzeigt, vergleicht diesen Score mit einem vorbestimmten Schwellenwert bezüglich dieses Scores, und gibt die Sprache aus, welche das höchste Konfidenzniveau aufweist, als endgültiges Resultat der Identifikation. Auf diese Art und Weise kann die Spracherkennungsvorrichtung nur eine Aussprache in einer Sprache benutzten, die eine hohe Wahrscheinlichkeit aufweist, dass diese durch den Nutzer geäußert wird, und kann dadurch dessen Spracherkennungsperformance verbessern.
  • Da die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 die Sprachenidentifikation unter Verwendung eines N-gramms durchführt, kann die Erkennungswörterbuch-Erzeugungsvorrichtung darüber hinaus eine stabile Sprachenidentifikationsfähigkeit bereitstellen, verglichen mit einem Fall, wenn ein Wort-Wörterbuch oder dergleichen für jede Sprache bereitgestellt wird und eine Sprachenidentifikation durchgeführt wird. die Erkennungswörterbuch-Erzeugungsvorrichtung kann ferner gleichzeitig die Wörterbuchgröße reduzieren, wodurch das Ausmaß arithmetischer Operationen und der Speicherverbrauch reduziert werden.
  • Wenn darüber hinaus die Sprachenidentifikation unter Verwendung eines N-gramms durchgeführt wird, verwendet die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 ein N-gramm, wobei in jedem der Zeichen, die nicht zur Sprachenidentifikation beitragen (wie z. B. Ziffern und Symbole, wie z. B. eine Klammer und ein Punkt) durch ein Zeichen ersetzt werden, die ein bestimmtes Zeichen anzeigen. Da die Erkennungswörterbuch-Erzeugungsvorrichtung als ein Ergebnis die Größe des Speicherbereichs zum Speichern des Sprachenidentifikationsmodells reduzieren kann und die Suchzeit und den Speicherverbrauch des Sprachenidentifikationsmodells reduzieren kann, wird die Verwendung der vorliegenden Erfindung für eine Vorrichtung, wie z. B. eine eingebaute Vorrichtung, welche Beschränkungen in dessen Berechnungsgeschwindigkeit und Speichergröße aufweist, vereinfacht.
  • Wenn darüber hinaus ein Zeichen, das für eine begrenzte Anzahl von Sprachen verwendet wird, wie z. B. ein Umlaut-Zeichen, in dem zu registrierenden Zieltext existiert, identifiziert die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 eine Sprache unter den Sprachen, in denen die Zeichen verwendet werden, wodurch die Genauigkeit der Sprachenidentifikation verbessert werden kann.
  • Wenn darüber hinaus die Sprachenidentifikation unter Verwendung eines N-gramms durchgeführt wird, erzeugt die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß dieser Ausführungsform 1 ein Sprachenidentifikationsmodell unter Verwendung von Worten, die der gleichen Aufgabe unterliegen, wie jenen, denen ein zu erkennendes Wort unterworfen wird (ein Prozess, für den das zu erkennende Wort verwendet wird), wodurch die Genauigkeit der Sprachenidentifikation verbessert werden kann.
  • Ausführungsform 2
  • 5 ist ein Blockdiagramm zur Darstellung der Struktur einer Registrationstyp-Spracherkennungsvorrichtung, die eine Erkennungswörterbuch-Erzeugungsvorrichtung verwendet, gemäß Ausführungsform 2 der vorliegenden Erfindung. Bezugnehmend auf 5 umfasst die Spracherkennungsvorrichtung 100A gemäß Ausführungsform 2 eine Sprachenidentifikations-Vorabverarbeitungseinheit 107, eine Festform-Zeichenfolgen-Speichereinheit (Auszuschließendes-Objekt-Speichereinheit) 108, eine Unterteilungs-Zeichenfolge-Speichereinheit (Unterteilungsobjekt-Speichereinheit) 109, und eine Wandlerprozess-Speichereinheit (Prozessbeschreibungs-Speichereinheit) 110, zusätzlich zu der Struktur der Spracherkennungsvorrichtung gemäß der oben beschriebenen Ausführungsform 1.
  • Die Sprachenidentifikations-Vorabverarbeitungseinheit 107 ist eine Komponente, die sich vor einer Sprachenidentifikationseinheit 101 befindet, zum Empfangen eines zu registrierenden Zieltextes, und Entfernen bezüglich der Vorabverarbeitung, die vor der Sprachenidentifikationsverarbeitung durchgeführt wird, ein bestimmtes Zeichen oder eine bestimmte Zeichenfolge (die als Festform-Zeichen oder eine Festform-Zeichenfolge bezeichnet wird) in der Zeichenfolge des eingegebenen zu registrierenden Zieltextes aus dem Ziel der Sprachenidentifikation, und unterteilt den zu registrierenden Zieltext in Unterteilungen bezüglich eines vorbestimmten Zeichens oder einer vorbestimmten Zeichenfolge (im Folgenden als ein Unterteilungszeichen oder eine Unterteilungszeichenfolge bezeichnet).
  • Die Festform-Zeichenfolge-Speichereinheit 108 ist eine Speichereinheit zum Speichern von Zeichen fester Form oder von Zeichenfolgen fester Form, die jeweils aus dem Ziel der Sprachenidentifikation entfernt werden, und eine Beschreibungssprache, in der jede der Zeichen fester Form oder der Zeichenfolgen fester Form beschrieben sind sowie eine Lesung davon. Die Unterteilungs-Zeichenfolge-Speichereinheit 109 ist eine Speichereinheit zum Speichern von Unterteilungszeichen oder Unterteilungszeichenfolgen, die jeweils als Unterteilungsposition dienen, zum Zeitpunkt der Unterteilung des zu registrierenden Zieltextes sowie eine Beschreibungssprache, in der jeder der Unterteilungszeichen oder der Unterteilungszeichenfolgen beschrieben ist, und eine Lesung davon. Die Wandlerprozess-Speichereinheit 110 ist eine Speichereinheit zum Speichern der Beschreibungen der Vorabverarbeitungen (Entfernung einer Zeichenfolge und Unterteilung einer Zeichenfolge), die an dem zu registrierenden Zieltext durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 durchgeführt wurde.
  • In 5 werden die gleichen Komponenten wie jede, die in 1 gezeigt sind, und Komponenten, die auf die gleiche Art und Weise arbeiten, wie jene in 1, durch die gleichen Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird im Folgenden weggelassen. Die Sprachenidentifikationseinheit 101 führt einen Sprachenidentifikationsprozess an der Zeichenfolge des zu registrierenden Zieltextes durch, an dem die Vorabverarbeitung durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 durchgeführt wurde. Wenn ferner ein Erkennungswörterbuch erzeugt wird, erzeugt eine Erkennungswörterbuch-Erzeugungseinheit 104 ein Erkennungswörterbuch, das auf die Zeichenfolge des zu registrierenden Zieltextes angepasst ist, unter Verwendung der Beschreibung der Vorabverarbeitung, die in der Wandlerprozess-Speichereinheit 110 gespeichert ist, d. h., eine Verbindungsbeziehung zwischen Unterteilungen, in die der zu registrierende Zieltext unterteilt wird, jeder Zeichenfolge, die von dem zu registrierenden Zieltext entfernt wird, und der Lesung der Zeichenfolge.
  • Ferner kann die Sprachenidentifikations-Vorabverarbeitungseinheit 107, die Festform-Zeichenfolgen-Speichereinheit 108, die Unterteilungszeichenfolge-Speichereinheit 109 und die Wandlerprozess-Speichereinheit 110 in einem Computer implementiert werden, bei dem es sich um ein konkretes Mittel handelt, in dem Hardware und Software zusammenarbeiten, durch Speichern eines Erkennungswörterbuch-Erzeugungsprogramms gemäß dem Umfang der vorliegenden Erfindung in dem Computer, und indem bewirkt wird, dass eine CPU das Erkennungswörterbuch-Erzeugungsprogramm ausführt. Ein Speicherbereich, der die Festform-Zeichenfolgen-Speichereinheit 108, die Unterteilungs-Zeichenfolgen-Speichereinheit 109 und die Wandlerprozess-Speichereinheit 110 verwendet, ist darüber hinaus in einer Speichereinheit konstruiert, die an dem oben erwähnten Computer montiert ist, wie z. B. ein Festplattenlaufwerk, ein externes Speichermedium oder dergleichen.
  • Als nächstes wird ein Betrieb der Erkennungswörterbuch-Erzeugungsvorrichtung erläutert.
  • 6 ist ein Flussdiagramm zur Darstellung eines Ablaufs eines Erzeugungsbetriebs zum Erzeugen eines Erkennungswörterbuchs, der durch die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 2 durchgeführt wird. Details von Operationen, die durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 der Sprachenidentifikationseinheit 101, einer Lesehinzufügungseinheit 102, einer Lesewandlereinheit 103 und der Erkennungswörterbuch-Erzeugungseinheit 104 durchgeführt werden, wird im Folgenden erwähnt.
  • Wenn zuerst ein zu registrierender Zieltext empfangen wird, erfasst die Sprachenidentifikations-Vorabverarbeitungseinheit 107 ein Zeichen fester Form oder eine Zeichenfolge fester Form, die in der Zeichenfolge des zu registrierenden Zieltextes enthalten ist, durch Verweis auf den Speicherinhalt der Festform-Zeichenfolgen-Speichereinheit 108, und entfernt das Zeichen fester Form oder die Zeichenfolge fester Form aus dem Ziel zur Sprachenidentifikation (Schritt ST501). Als Ergebnis des Zeichens fester Form oder der Zeichenfolge fester Form wird eine Beschreibung in einer bestimmten Sprache bzw. Landessprache bereitgestellt, die gemeinsam in einer Vielzahl von Sprachen auftritt.
  • In einem System, das bibliographische Daten über Musikstücke behandelt, kann ein „Disc”, „Best of” und dergleichen gemeinsam (beschrieben in Englisch) in Texten beschrieben werden, die in einer Vielzahl von Sprachen geschrieben sind, unabhängig von einer bestimmten Sprache. Derartige Zeichen oder Zeichenfolgen und deren Beschreibungssprachen (Englisch in dem oben erwähnten Beispiel) werden in der Festform-Zeichenfolgen-Speichereinheit 108 gespeichert. Wenn z. B. ein zu registrierender Zieltext eingegeben wird, bei dem es sich um „Best of Ce n'est que moi” handelt, wird, da „Best of” als englische Worte bestimmt wird, aus dem Speicherinhalt der Festform-Zeichenfolgen-Speichereinheit 108, und dessen Lesung von der Festform-Zeichenfolgen-Speichereinheit erlangt wird, „Best of” aus dem Ziel der Sprachenidentifikation durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 entfernt, und „Ce n'est que moi” verbleibt als eine Zeichenfolge zur Sprachenidentifikation.
  • Die Sprachenidentifikations-Vorabverarbeitungseinheit 107 erfasst dann einen Erteilungscharakter oder eine Unterteilungscharakterfolge, die in der Zeichenfolge des zu registrierenden Zieltextes enthalten ist, durch Verweis auf den Speicherinhalt der Unterteilungs-Zeichenfolgen-Speichereinheit 109, und unterteilt die Zeichenfolge des zu registrierenden Zieltextes in Unterteilungen bezüglich der Unterteilungszeichen oder der Unterteilungszeichenfolge (Schritt ST502). Als Unterteilungszeichen oder Unterteilungszeichenfolge kann „(„, „)”, „–” oder dergleichen bereitgestellt werden, wobei es sich um ein Zeichen handelt, dass die Beschreibung des zu registrierenden Zieltextes unterteilt.
  • Wenn z. B. ein zu registrierender Zieltext eingegeben wird, bei dem es sich um „Je vivrai sans toi (I Will Say Goodbye)” handelt, erfasst die Sprachenidentifikations-Vorabverarbeitungseinheit 107 runde Klammern „(„und”)”, die in der Zeichenfolge des zu registrierenden Zieltextes enthalten sind, durch Verweis auf den Speicherinhalt der Unterteilungs-Zeichenfolgen-Speichereinheit 109, und unterteilt die Zeichenfolge des zu registrierenden Zieltextes in Unterteilungen bezüglich dieser Zeichen. Als ein Ergebnis wird der zu registrierende Zieltext in die folgenden zwei Zeichenfolgen unterteilt: „Je vivrai sans toi” und „I Will Say Goodbye”.
  • Als nächstes verweist die Sprachenidentifikations-Vorabverarbeitungseinheit 107 auf den Speicherinhalt der Unterteilungs-Zeichenfolgen-Speichereinheit 109, um eine Zeichenfolge zu bestimmen, wie z. B. eine groß geschriebenen Zeichenfolge (Schreibweise) oder eine Ziffer, die in der Zeichenfolge des zu registrierenden Zieltextes enthalten ist, und die in der zu erkennenden Sprache gelesen werden kann, unabhängig von der Beschreibungssprache, und entfernt diese Zeichenfolge von dem zu registrierenden Zieltext und unterteilt den zu registrierenden Zieltext, aus dem die Zeichenfolge in die Unterteilungen entfernt ist (Schritt ST503).
  • Da als Resultat der Sprachenidentifikation für diesen Zeichenfolgenteil keine Sprache bestimmt ist, und die zu erkennende Sprache für diesen Zeichenfolgenteil bestimmt ist, wird eine Lesung in der zu erkennenden Sprache zu dem Zeichenfolgenteil hinzugefügt.
  • Die Erkennungswörterbuch-Erzeugungsvorrichtung kann eine Lesung in der zu erkennenden Sprache hinzufügen, zu diesem Zeichenfolgenteil (eine Zeichenfolge von groß geschriebenen Zeichen (Schreibweise) oder eine Ziffer vorab, und kann die Lesung in der Unterteilungs-Zeichenfolge-Speichereinheit 109 vorab speichern, und die Lesehinzufügungseinheit 102 kann dann eine Lesung in der Sprache hinzufügen, welche die Sprachenidentifikationseinheit 101 identifiziert hat, zu jeder der Zeichenfolgenunterteilungen, in die der zu registrierende Zieltext unterteilt ist, wobei der oben erwähnte Zeichenfolgenteil als eine Grenze zwischen diesen definiert ist.
  • Indem somit zwei Arten von Lesungen hinzugefügt werden, in der zu erkennenden Sprache und in der Sprache, bei der es sich um das Resultat der Identifikation handelt, zu jedem Zeichenfolgenteil, wie z. B. eine Zeichenfolge von groß geschriebenen Zeichen (Schreibweise) oder eine Ziffer, kann die Erkennungswörterbuch-Erzeugungsvorrichtung eine Lesung zu jedem Zeichenfolgenteil korrekt hinzufügen, der in der zu registrierenden Sprache bzw. Landessprache geäußert wird, unabhängig von der Sprache (der Sprache, bei der es sich um das Resultat der Identifikation handelt), in der Teile des zu registrierenden Zieltextes außer einem Zeichenfolgenteil wie oben erläutert beschrieben sind, wie z. B. eine Zeichenfolge groß geschriebener Zeichen oder eine Ziffer.
  • Die Sprachenidentifikations-Vorabverarbeitungseinheit 107 speichert die Beschreibungen der Vorabverarbeitung der Schritte ST501 bis ST503 in der Wandlerprozess-Speichereinheit 110. Bezüglich der Beschreibungen der Vorabverarbeitung werden in der Wandlerprozess-Speichereinheit 110 gespeichert: ein Zeichen fester Form oder eine Zeichenfolge fester Form, die von dem zu registrierenden Zieltext entfernt werden, die Beschreibungssprache, in der das Zeichen fester Form oder die Zeichenfolge fester Form beschrieben sind, und eine Lesung mit Phonemen in dieser Sprache, ein Unterteilungszeichen oder eine Unterteilungszeichenfolge, bei der es sich um eine Unterteilungsposition des zu registrierenden Zieltextes handelt, eine Verbindungsbeziehung zwischen Unterteilungen, in die der zu registrierende Zieltext unterteilt wird, und dergleichen.
  • Danach initialisiert die Sprachenidentifikations-Vorabverarbeitungseinheit 107 eine Zähler j zum Zählen der Anzahl von Unterteilungen K, mit denen die Sprachenidentifikations-Vorabverarbeitungseinheit den zu registrierenden Zieltext unterteilt (j = 0) (Schritt ST504). Die Spracheidentifikations-Vorabverarbeitungseinheit 107 stellt dann eine j-te Unterteilung als die Zeichenfolge ein, bei der es sich um das Ziel der Sprachenidentifikation handelt, und gibt diese j-te Unterteilung an die Sprachenidentifikationseinheit 101 aus (Schritt ST505).
  • Die Sprachenidentifikationseinheit 101 startet die Durchführung eines Sprachenidentifikationsprozesses an der Zeichenfolge, bei der es sich um die j-te Unterteilung handelt, die darin eingegeben ist, von der Sprachenidentifikations-Vorabverarbeitungseinheit 107, gemäß dem gleichen Verfahren, wie dem, das in der oben erwähnten Ausführungsform 1 gezeigt ist, und bestimmt, in welcher Sprache die Zeichenfolge beschrieben ist, um die N erstplatzierten Sprachen bereitzustellen, die eine höhere Wahrscheinlichkeit aufweisen, dass die oben erwähnte Zeichenfolge in der Sprache beschrieben ist (d. h., die N erstplatzierten Sprachen mit einer höheren Wahrscheinlichkeit), als Resultat der Sprachenidentifikation (Schritt ST506).
  • Als nächstes initialisiert die Sprachenidentifikationseinheit 101 einen Zähler i, der die Anzahl von Sprachen anzeigt, die die Sprachenidentifikationseinheit als Resultat der Identifikation erlangt hat, d. h., die Anzahl von Malen, dass die Sprachenidentifikationseinheit einen im Folgenden erwähnten Prozess für die Sprachen durchführt (i = 0) (Schritt ST507), und stellt die Sprache ein, die mit dem i-ten Resultat der Identifikation zusammenhängt, für die Lesehinzufügungseinheit 102.
  • Auf diese Art und Weise führen die Lesehinzufügungseinheit 102 und die Lesewandlereinheit 103 die Prozesse der Schritte ST508 bis STS510 durch, mit der Sprache, die mit dem i-ten (i = bis n) Resultat der Identifikation zusammen hängen. Der Prozess im Schritt ST508 ist gleich zu dem des Schrittes ST202, gezeigt in 2, der Prozess im Schritt ST509 ist gleich zu dem von Schritt ST203, gezeigt in 2, und der Prozess im Schritt ST510 ist gleich zu dem im Schritt ST204, gezeigt in 2.
  • Die Sprachenidentifikationseinheit 101 inkrementiert im Schritt ST511 den Zähler i um 1, und wiederholt die oben erwähnte Reihe von Prozessen, mit der Sprache, die das nächste Resultat der Identifikation ist. Wenn die Sprachenidentifikationseinheit im Schritt ST512 bestimmt, dass die oben erwähnte Reihe von Prozessen an allen Sprachen, bei denen es sich um Resultate der Identifikation handelt, abgeschlossen sind (i ≥ n + 1), inkrementiert die Sprachenidentifikationseinheit einen Zähler j um 1 (Schritt ST513). Bis die Sprachenidentifikationseinheit im Schritt ST514 bestimmt, dass die Prozesse an der Zeichenfolge von jeder von allen den Unterteilungen, in die das zu erkennende Ziel unterteilt ist, abgeschlossen wurden (j ≥ K) gemäß dem Zählwert des Zählers j, führt die Sprachenidentifikationseinheit wiederholt die Reihe der Prozesse der Schritte ST505 bis ST514 an der Zeichenfolge von jeder von allen den Unterteilungen durch, in die das zu erkennende Ziel unterteilt ist.
  • Die Erkennungswörterbuch-Erzeugungseinheit 104 bestimmt eine Lesung von jeder Zeichenfolge, die aus der Zeichenfolge des zu registrierenden Zieltextes entfernt ist, durch Verweis auf die Beschreibungen der Vorabverarbeitung, die in der Wandlerprozess-Speichereinheit 110 gespeichert ist, und kombiniert die Lesung von jeder Zeichenfolge, die aus dem Ziel der Sprachenidentifikation entfernt ist, und der Lesung, die den Zeichenfolgen von allen Unterteilungen hinzugefügt ist, in die das zu erkennende Ziel unterteilt ist, eingegeben von der Lesewandlereinheit 103, um ein Erkennungswörterbuch in einer Form zu erzeugen, auf die die Spracherkennungseinheit 106 verweisen kann (Schritt ST515). Zusätzlich zum Wandeln des zu erkennenden Wortes in Binärdaten führt die Erkennungswörterbuch-Erzeugungseinheit z. B. eine morphologische Analyse und eine Wortunterteilung an dem zu erkennenden Wort bei Bedarf durch, und führt auch eine Erzeugung von Nebenbedingungen der Sprache und dergleichen durch, um ein Erkennungswörterbuch zu erlangen.
  • Wie oben beschrieben, umfasst die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß Ausführungsform 2 die Festform-Zeichenfolgen-Speichereinheit 108, die Unterteilungs-Zeichenfolgen-Speichereinheit 109, die Sprachenidentifikations-Vorabverarbeitungseinheit 107, die eine Vorabverarbeitung an dem zu registrierenden Zieltext gemäß den in diesen Speichereinheiten 108 und 109 gespeicherten Beschreibungen durchführt, und die Wandlerprozess-Speichereinheit 110 zum Speichern der Beschreibungen der Vorabverarbeitung, die durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 durchgeführt wird, und die Erkennungswörterbuch-Erzeugungseinheit 104 bestimmt Phoneme, die eine Lesung des zu registrierenden Zieltextes anzeigen, an denen die Vorabverarbeitung durch die Sprachenidentifikations-Vorabverarbeitungseinheit 107 durchgeführt wurde, gemäß dem Speicherinhalt der Wandlerprozess-Speichereinheit 110, um ein Erkennungswörterbuch zu erzeugen, in dem die Lesung registriert ist.
  • Durch Teilen des darin eingegebenen Textes in Unterteilungen unter Verwendung einer bestimmten Zeichenfolge und Durchführen des Sprachenidentifikationsprozesses und des Lesungs-Hinzufügungs-Prozesses an jedem der Teilungen, in die der Text auf diese Art und Weise unterteilt ist, kann selbst dann, wenn Worte, die in einer Vielzahl von Sprachen beschrieben sind, in dem zu registrierenden Zieltext enthalten sind, die Erkennungswörterbuch-Erzeugungsvorrichtung korrekt die Sprache von jeder der Unterteilung identifizieren, in die der zu registrierende Zieltext unterteilt ist.
  • Durch Speichern, als bestimmte Zeichenfolgen, von Worten und Phrasen, die jeweils in Texten in einer Vielzahl von Sprachen enthalten sind und verwendet werden, und die jeweils in einer bestimmten Sprache beschrieben sind, und Entfernen einer bestimmten Zeichenfolge aus dem Ziel der Sprachenidentifikation, kann selbst dann, wenn eine Phrase (z. B. „Disc 1”, „Best of” oder dergleichen in einem Musikalbumtitel), die unabhängig von Sprachen in dem zu registrierenden Zieltext enthalten ist, die Erkennungswörterbuch-Erzeugungsvorrichtung korrekt die Sprache bzw. Landessprache einer Lesung von jeder der Zeichenfolgenunterteilungen außer der Phrase identifizieren, indem die Sprache bzw. Landessprache von jeder der Zeichenfolgenunterteilung außer der Phrase identifiziert wird.
  • Durch Teilen eines Bereichs mit einer Lesung, die von der zu erkennenden Sprache abhängt, kann die Erkennungswörterbuch-Erzeugungsvorrichtung ferner eine Lesung korrekt zu dem Teil hinzufügen.
  • Industrielle Anwendbarkeit
  • Da die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung ein Erkennungswörterbuch in einem phonemischen System einer Spracherkennung aus einem Wort erzeugen kann, dessen Beschreibungssprache unbekannt ist, ist die Erkennungswörterbuch-Erzeugungsvorrichtung gemäß der vorliegenden Erfindung zur Verwendung in Spracherkennungsvorrichtungen, wie z. B. einem tragbaren Musikabspielgerät, einem Mobiltelefon und einem Fahrzeugnavigationssystem geeignet, die jeweils Daten verarbeiten, in denen Worte koexistieren, die in einer Vielzahl von Sprachen bzw. Landessprachen beschrieben sind.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 3776391 [0006]
  • Zitierte Nicht-Patentliteratur
    • „A mathematical theory of communication”, C. E. Shannon, The Bell System Technical Journal, Vol. 27, Seiten 379–423 und 623–656, Juli, Oktober, 1948 [0026]

Claims (12)

  1. Erkennungswörterbuch-Erzeugungsvorrichtung, umfassend: eine Sprachenidentifikationseinheit zum Identifizieren einer Sprache einer Lesung eines eingegebenen Textes, wobei es sich um ein Ziel der Registrierung handelt; eine Lesehinzufügungseinheit zum Hinzufügen einer Lesung mit Phonemen in der Sprache, die durch die Sprachenidentifikationseinheit identifiziert wird, zu dem zu registrierenden Zieltext; eine Lesewandlereinheit zum Wandeln der Lesung des zu registrierenden Zieltexts von den Phonemen in der durch die Sprachenidentifikationseinheit identifizierten Sprache in Phoneme in einer zu erkennenden Sprache, die in einer Spracherkennung verarbeitet wird; und eine Erkennungswörterbuch-Erzeugungseinheit zum Erzeugen eines Erkennungswörterbuchs, in dem die Lesung des zu registrierenden Zieltexts registriert ist, der durch die Lesewandlereinheit gewandelt ist.
  2. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 1, wobei die Sprachenidentifikationseinheit eine vorbestimmte Anzahl von Sprachen ausgibt, die jeweils einen Score aufweisen, der eine höhere Wahrscheinlichkeit anzeigt, dass die Lesung des zu registrierenden Zieltextes in der Sprache beschrieben ist, und eine Vielzahl von Sprachen, die Ziele der Sprachenidentifikation sind, als Resultate der Identifikation, wobei die Lesehinzufügungseinheit eine Lesung mit Phonemen in jeder der vorbestimmten Anzahl von Sprachen hinzufügt, die durch die Sprachenidentifikationseinheit identifiziert werden, zu dem zu registrierenden Zieltext, und die Lesewandlereinheit die Lesung des zu registrierenden Zieltextes wandelt, von den Phonemen in jeder der vorbestimmten Anzahl von Sprachen, die durch die Sprachenidentifikationseinheit identifiziert ist, in Phoneme in der zu erkennenden Sprache.
  3. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 2, wobei die Sprachenidentifikationseinheit die zu erkennende Sprache ausgibt, als ein Resultat der Identifikation, wenn der Score geringer als ein vorbestimmter Schwellenwert ist.
  4. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 1, wobei die Erkennungswörterbuch-Erzeugungsvorrichtung eine Objekt-Entfernungs-Speichereinheit umfasst zum Speichern eines Zeichens oder einer Zeichenfolge, die von einem Ziel der Sprachenidentifikation zu entfernen ist, eine Sprachenidentifikations-Vorabverarbeitungseinheit zum Entfernen eines Teils, der mit dem Zeichen oder der Zeichenfolge zusammenhängt, die aus dem Ziel der Sprachenidentifikation zu entfernen ist, und die in der Objekt-Entfernungs-Speichereinheit gespeichert ist, von dem zu registrierenden Zieltext, und eine Prozessbeschreibungs-Speichereinheit zum Speichern von Beschreibungen des Entfernungsprozesses zum Entfernen des Zeichens oder der Zeichenfolge, die von dem Ziel der Sprachenidentifikation zu entfernen ist, die an dem zu registrierenden Zieltext durchgeführt wird, durch die Sprachenidentifikations-Vorabverarbeitungseinheit, und wobei die Sprachenidentifikationseinheit die Sprache der Lesung des zu registrierenden Zieltextes identifiziert, aus dem das Zeichen oder die Zeichenfolge, die aus dem Ziel der Sprachenidentifikation zu entfernen ist, durch die Sprachenidentifikations-Vorabverarbeitungseinheit entfernt ist, und die Erkennungswörterbuch-Erzeugungseinheit auf die Beschreibungen des Entfernungsprozesses verweist, die in der Prozessbeschreibungs-Speichereinheit gespeichert ist, um die Lesung des zu registrierenden Zieltextes aus einer Lesung des Zeichens oder der Zeichenfolge zu bestimmen, die aus dem Ziel der Sprachenidentifikation entfernt wird, und einer Lesung des zu registrierenden Zieltextes, aus dem das Zeichen oder die Zeichenfolge entfernt ist, die aus dem Ziel der Sprachenidentifikation zu entfernen ist.
  5. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 4, wobei die Erkennungswörterbuch-Erzeugungsvorrichtung eine Unterteilungsobjekt-Speichereinheit umfasst zum Speichern eines Unterteilungszeichens oder einer Unterteilungszeichenfolge, wobei die Sprachenidentifikations-Vorabverarbeitungseinheit eine Zeichenfolge des zu registrierenden Zieltextes unterteilt, in Unterteilungen, unter Verwendung des Unterteilungszeichens oder der Unterteilungszeichenfolge, die in der Unterteilungsobjekt-Speichereinheit gespeichert ist, wobei Beschreibungen des Unterteilungsprozesses, der an dem zu registrierenden Zieltext durchgeführt wird, durch die Sprachenidentifikations-Vorabverarbeitungseinheit, in der Prozessbeschreibungs-Speichereinheit gespeichert sind, wobei die Sprachenidentifikationseinheit eine Sprache einer Lesung von jeder der Unterteilungen identifiziert, in die der zu registrierende Zieltext durch die Sprachenidentifikations-Vorabverarbeitungseinheit unterteilt ist, und wobei die Erkennungswörterbuch-Erzeugungseinheit auf die Beschreibungen des Unterteilungsprozesses verweist, die in der Prozessbeschreibungs-Speichereinheit gespeichert sind, um die Lesung des zu registrierenden Zieltextes aus der Lesung von jeder der Unterteilungen zu bestimmen, und ein Erkennungswörterbuch zu erzeugen, in dem diese Lesung des zu registrierenden Zieltextes registriert ist.
  6. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 5, wobei die Unterteilungsobjekt-Speichereinheit ein Unterteilungszeichen oder eine Unterteilungszeichenfolge speichert, einschließlich einer Ziffer oder einer Großbuchstaben-Zeichenfolge, und eine Lesung des Unterteilungszeichens oder der Unterteilungszeichenfolge in der zu erkennenden Sprache, wobei die Sprachenidentifikations-Vorabverarbeitungseinheit die Unterteilungszeichen oder die Unterteilungszeichenfolge entfernt, einschließlich der Ziffer oder der Großbuchstaben-Zeichenfolge, aus dem zu registrierenden Zieltext, und die Zeichenfolge des zu registrierenden Zieltextes in Unterteilungen unterteilt, wobei die Sprachenidentifikationseinheit die Sprache der Lesung von jeder der Unterteilung identifiziert, in die der zu registrierende Zieltext durch die Sprachenidentifikations-Vorabverarbeitungseinheit unterteilt ist, wobei die Lesehinzufügungseinheit eine Lesung in einer Sprache der Unterteilungen hinzufügt, die durch die Sprachenidentifikationseinheit identifiziert ist, zu dem Unterteilungszeichen oder der Unterteilungszeichenfolge einschließlich der Ziffer oder der Großbuchstaben-Zeichenfolge, und wobei die Erkennungswörterbuch-Erzeugungseinheit auf die Beschreibungen des Entfernungsprozesses verweist, die in der Prozessbeschreibungs-Speichereinheit gespeichert sind, um die Lesung des zu registrierenden Zieltextes aus der Lesung von jeder der Unterteilungen zu bestimmen sowie eine Lesung in der zu erkennenden Sprache des Unterteilungszeichens oder der Unterteilungszeichenfolge, und einer Lesung von jeder der Unterteilungen, in die der zu registrierende Zieltext unterteilt ist, in der zu erkennenden Sprache, in die die Lesung in der Sprache von jeder der Unterteilungen gewandelt ist, und ein Erkennungswörterbuch erzeugt, indem die Lesung des zu registrierenden Zieltextes registriert ist.
  7. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 1, wobei die Sprachenidentifikationseinheit ein Sprachenidentifikationsmodell mit einem N-gramm für jede Sprache verwendet, bei dem es sich um ein Ziel der Sprachidentifikation handelt, und dessen Wahrscheinlichkeit des Auftretens, um eine Sequenzwahrscheinlichkeit eines N-gramms des zu registrierenden Zieltextes für jede Sprache zu berechnen, und die Sprache der Lesung aus einer Wahrscheinlichkeit auf Grundlage der Sequenzwahrscheinlichkeit identifiziert.
  8. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 7, wobei die Sprachenidentifikationseinheit jedes Zeichen oder jede Zeichenfolge ersetzt, die in dem zu registrierenden Zieltext enthalten ist, und gemeinsam in einer Vielzahl von Sprachen beschrieben ist, bei denen es sich um Ziele für die Sprachenidentifikation handelt, und die nicht zu der Sprachenidentifikation mit einem bestimmten Zeichen beitragen, um ein N-gramm zu erzeugen.
  9. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 7, wobei dann, wenn ein Zeichen oder eine Zeichenfolge, die für eine begrenzte Anzahl von Sprachen verwendet wird, in dem zu registrierenden Zieltext enthalten ist, die Sprachenidentifikationseinheit eine Sprache ausgibt, die eine höchste Wahrscheinlichkeit aufweist, unter der begrenzten Anzahl von Sprachen, als ein Ergebnis der Identifikation.
  10. Erkennungswörterbuch-Erzeugungsvorrichtung nach Anspruch 7, wobei die Sprachenidentifikationseinheit mit einem Sprachenidentifikationsmodell für jeden Prozess bereitgestellt ist, unter Verwendung eines zu erkennenden Wortes, und ein Sprachenidentifikationsmodell verwendet, das mit einem Prozess zusammenhängt, der den zu registrierenden Zieltext für die Sprachenidentifikation verwendet.
  11. Spracherkennungsvorrichtung, umfassend: eine Sprachenidentifikationseinheit zum Identifizieren einer Sprache von einer Lesung eines eingegebenen Textes, bei dem es sich um ein Ziel der Registrierung handelt; eine Lesehinzufügungseinheit zum Hinzufügen einer Lesung mit Phonemen in der Sprache, die durch die Sprachenidentifikationseinheit identifiziert wird, zu dem zu registrierenden Zieltext; eine Lesewandlereinheit zum Wandeln der Lesung des zu registrierenden Zieltextes, aus den Phonemen in der durch die Sprachenidentifikationseinheit identifizierten Sprache, in Phoneme in einer zu erkennenden Sprache, die in einer Spracherkennung behandelt wird; eine Erkennungswörterbuch-Erzeugungseinheit zum Erzeugen eines Erkennungswörterbuchs, indem die Lesung des zu registrierenden Zieltextes registriert ist, die durch die Lesewandlereinheit gewandelt ist; und eine Spracherkennungseinheit zum Durchführen einer Spracherkennung an einer darin eingegebenen Sprache, durch Verweis auf das durch die Erkennungswörterbuch-Erzeugungseinheit erzeugte Erkennungswörterbuch.
  12. Spracherkennungsvorrichtung, umfassend: eine Objekt-Entfernungs-Speichereinheit zum Speichern eines Zeichens oder einer Zeichenfolge, die aus einem Ziel der Sprachenidentifikation zu entfernen ist; eine Unterteilungsobjekt-Speichereinheit zum Speichern eines Unterteilungszeichens oder einer Unterteilungszeichenfolge; eine Sprachenidentifikations-Vorabverarbeitungseinheit zum Entfernen des Zeichens oder der Zeichenfolge, die aus dem Ziel der Sprachenidentifikation zu entfernen ist, aus einem eingegebenen zu registrierenden Zieltext, und auch zum Unterteilen des eingegebenen zu registrierenden Zieltextes in Unterteilungen, unter Verwendung der Unterteilungszeichen oder der Unterteilungszeichenfolge, auf Grundlage des Inhalts, der in der Objekt-Entfernungs-Speichereinheit gespeichert ist, und des Inhalts, der in der Unterteilungsobjekts-Speichereinheit gespeichert ist; eine Prozessbeschreibungs-Speichereinheit zum Speichern von Beschreibungen des Prozesses, der an dem zu registrierenden Zieltext durch die Sprachenidentifikations-Vorabverarbeitungseinheit durchgeführt wird; eine Sprachenidentifikationseinheit zum Identifizieren einer Sprache von einer Lesung des zu registrierenden Zieltextes, an dem der Prozess durch die Sprachenidentifikations-Vorabverarbeitungseinheit durchgeführt wird; eine Lesehinzufügungseinheit zum Hinzufügen einer Lesung mit Phonemen in der Sprache, die durch die Sprachenidentifikationseinheit identifiziert ist, zu dem zu registrierenden Zieltext; eine Lesewandlereinheit zum Wandeln der Lesung des zu registrierenden Zieltextes, von den Phonemen in der durch die Sprachenidentifikationseinheit identifizierten Sprache in Phoneme in einer zu erkennenden Sprache, die in einer Spracherkennung behandelt wird; eine Erkennungswörterbuch-Erzeugungseinheit zum Verweisen auf die Beschreibungen des Prozesses, die in der Prozessbeschreibungs-Speichereinheit gespeichert sind, um eine Lesung des zu registrierenden Zieltextes zu bestimmen, an dem der Prozess durch die Sprachenidentifikations-Vorabverarbeitungseinheit durchgeführt wird, und zum Erzeugen eines Erkennungswörterbuchs, in dem die Lesung registriert ist; und eine Spracherkennungseinheit zum Durchführen einer Spracherkennung an einer darin eingegebenen Sprache, durch ein Bezugnehmen auf das Erkennungswörterbuch, das durch die Erkennungswörterbuch-Erzeugungseinheit erzeugt ist.
DE112010005226T 2010-02-05 2010-02-05 Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung Ceased DE112010005226T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/000709 WO2011096015A1 (ja) 2010-02-05 2010-02-05 認識辞書作成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
DE112010005226T5 true DE112010005226T5 (de) 2012-11-08

Family

ID=44355045

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010005226T Ceased DE112010005226T5 (de) 2010-02-05 2010-02-05 Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung

Country Status (5)

Country Link
US (1) US8868431B2 (de)
JP (1) JP5318230B2 (de)
CN (1) CN102725790B (de)
DE (1) DE112010005226T5 (de)
WO (1) WO2011096015A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015014206A1 (de) * 2015-11-04 2017-05-04 Audi Ag Auswahl eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP5259020B2 (ja) * 2010-10-01 2013-08-07 三菱電機株式会社 音声認識装置
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
DE112013007617B4 (de) * 2013-11-20 2020-06-18 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6277921B2 (ja) * 2014-09-25 2018-02-14 京セラドキュメントソリューションズ株式会社 用語集管理装置および用語集管理プログラム
US10162811B2 (en) * 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) * 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US11361752B2 (en) * 2017-09-11 2022-06-14 Mitsubishi Electric Corporation Voice recognition dictionary data construction apparatus and voice recognition apparatus
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
CN114038463A (zh) * 2020-07-21 2022-02-11 中兴通讯股份有限公司 混合语音处理的方法、电子设备、计算机可读介质
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4205018A1 (de) * 2020-08-27 2023-07-05 Unified Compliance Framework (Network Frontiers) Automatische identifizierung von mehrwortausdrücken

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
GB2366940B (en) * 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
EP1217610A1 (de) 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US7974843B2 (en) 2002-01-17 2011-07-05 Siemens Aktiengesellschaft Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
JP3776391B2 (ja) 2002-09-06 2006-05-17 日本電信電話株式会社 多言語音声認識方法、装置、プログラム
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
WO2004044887A1 (ja) 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2004271895A (ja) 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
JP2005241952A (ja) * 2004-02-26 2005-09-08 Gap Kk 知識処理装置、知識処理方法および知識処理プログラム
US20050267755A1 (en) 2004-05-27 2005-12-01 Nokia Corporation Arrangement for speech recognition
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
US7840399B2 (en) 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
JP4163207B2 (ja) * 2005-11-25 2008-10-08 日本電信電話株式会社 多言語話者適応方法、装置、プログラム
JP5072415B2 (ja) 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
JP2009169113A (ja) * 2008-01-16 2009-07-30 Nec Corp 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
JP5119055B2 (ja) * 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
CN102246226B (zh) 2009-01-30 2013-11-13 三菱电机株式会社 声音识别装置
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
JP5259020B2 (ja) * 2010-10-01 2013-08-07 三菱電機株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A mathematical theory of communication", C. E. Shannon, The Bell System Technical Journal, Vol. 27, Seiten 379-423 und 623-656, Juli, Oktober, 1948

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015014206A1 (de) * 2015-11-04 2017-05-04 Audi Ag Auswahl eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
DE102015014206B4 (de) 2015-11-04 2020-06-25 Audi Ag Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe

Also Published As

Publication number Publication date
US8868431B2 (en) 2014-10-21
US20120226491A1 (en) 2012-09-06
WO2011096015A1 (ja) 2011-08-11
JP5318230B2 (ja) 2013-10-16
JPWO2011096015A1 (ja) 2013-06-06
CN102725790A (zh) 2012-10-10
CN102725790B (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
DE112010005226T5 (de) Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US9418152B2 (en) System and method for flexible speech to text search mechanism
JP5072415B2 (ja) 音声検索装置
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
JP2571857B2 (ja) 入力語の起源の言語群の判定方法及び合成器による音素の発生方法
US8321218B2 (en) Searching in audio speech
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
Gelas et al. Quality assessment of crowdsourcing transcriptions for African languages
Schlippe et al. Hausa large vocabulary continuous speech recognition
Alotaibi et al. Study on pharyngeal and uvular consonants in foreign accented Arabic for ASR
Nikulasdóttir et al. Open ASR for Icelandic: Resources and a baseline system
Lucassen Discovering phonemic base forms automatically: an information theoretic approach
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
Schlippe et al. Rapid bootstrapping of a ukrainian large vocabulary continuous speech recognition system
Nouza et al. A study on adapting Czech automatic speech recognition system to Croatian language
Andersen et al. A self-learning approach to transcription of danish proper names.
Amrouche et al. BAC TTS Corpus: Rich Arabic Database for Speech Synthesis
Ni et al. Investigation of using different Chinese word segmentation standards and algorithms for automatic speech recognition
Jose et al. Initial experiments with Tamil LVCSR
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
CN113077792A (zh) 佛学主题词识别方法、装置、设备及存储介质
Mohammed et al. Automatic Persian-Arabic Phonetic mapping

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)
R016 Response to examination communication
R084 Declaration of willingness to licence
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final