DE112014006591T5 - Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren - Google Patents

Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren Download PDF

Info

Publication number
DE112014006591T5
DE112014006591T5 DE112014006591.9T DE112014006591T DE112014006591T5 DE 112014006591 T5 DE112014006591 T5 DE 112014006591T5 DE 112014006591 T DE112014006591 T DE 112014006591T DE 112014006591 T5 DE112014006591 T5 DE 112014006591T5
Authority
DE
Germany
Prior art keywords
information
synonym
text information
detector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112014006591.9T
Other languages
English (en)
Other versions
DE112014006591B4 (de
Inventor
Yohei Okato
Masanobu Osawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112014006591T5 publication Critical patent/DE112014006591T5/de
Application granted granted Critical
Publication of DE112014006591B4 publication Critical patent/DE112014006591B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Ein Detektor 5 detektiert akustisch einander ähnliche Worte aus Textinformation und ein Selektor 7 wählt ein Synonym aus einem Speicher 6, wobei das Synonym einem Wort entspricht, welches durch den Detektor 5 detektiert ist und akustisch weder gleich noch ähnlich ist zu irgendeinem in der Textinformation vorkommenden Wort. Ein Ersetzer 8 ersetzt das durch den Detektor 5 detektierte Wort durch das durch den Selektor 7 ausgewählte Synonym.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf eine Informationsbereitstellungsvorrichtung für eine, und ein Informationsbereitstellungsverfahren zum Bereitstellen einer Sprachsynthesevorrichtung mit Textinformation zur Sprachsynthese.
  • HINTERGRUND DER ERFINDUNG
  • Konventioneller Weise gibt es das Problem, dass, wenn in einem in einer Sprachsynthesevorrichtung eingegebenen Text Worte existieren, die einander akustisch ähneln und leicht falsch verstanden werden, die Verständlichkeit der synthetisierten Sprache niedrig wird.
  • Patentreferenz 1 beschreibt eine Technik, wenn zueinander in der Aussprache ähnliche Worte in einem Text vorkommen, der ein Ziel für Sprachsynthese ist, des Verbesserns seiner Verständlichkeit unter Verwendung eines Sprachsegments mit einem hohen Klarheitsgrad, wenn eine synthetisierte Sprache der Worte erzeugt wird. Jedoch, weil nur der Klarheitsgrad in diesem Grad hoch wird, gibt es die Möglichkeit, dass, wenn beispielsweise der Geräuschpegel groß wird, der Nutzer die synthetisierte Sprache falsch versteht.
  • Andererseits beschreibt Patentreferenz 2 eine Technik zum Ersetzen eines Wortes in einem Text, der ein Ziel der Sprachsynthese ist, durch einen anderen, einfachen Ausdruck.
  • DOKUMENT DES STAND DER TECHNIK
  • PATENTREFERENZ
    • Patentreferenz 1: Japanische ungeprüfte Patentoffenlegungsschrift Nr. 2000-206982
    • Patentreferenz 2: Japanische ungeprüfte Patentoffenlegungsschrift Nr. 3-35296
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
  • Es wird eine Technik erwogen, um das Problem in Patentreferenz 1 zu lösen, Patentreferenzen 1 und 2 zu kombinieren, und wenn zueinander in der Aussprache ähnliche Worte in einem Text existieren, die Worte durch andere Ausdrücke zu ersetzen. Es ist jedoch ein Problem, dass, weil eine Beziehung zwischen dem Ausdruck nach Ersetzen und den anderen Worten im Text nicht berücksichtigt wird, im Gegenzug eine synthetisierte Sprache mit niedriger Verständlichkeit erzeugt wird.
  • Die vorliegende Erfindung ist gemacht worden, um das oben erwähnte Problem zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Technik des Ersetzens eines betrachteten Worts unter Berücksichtigung einer Beziehung zu anderen Wörtern in einem Text bereitzustellen.
  • MITTEL ZUM LÖSEN DES PROBLEMS
  • Gemäß der vorliegenden Erfindung wird eine Informationsbereitstellungsvorrichtung vorgesehen, die beinhaltet: einen Erfasser zum Erfassen von Textinformation; einen Detektor zum Detektieren von Worten, die einander akustisch ähnlich sind, aus der Textinformation; einen Speicher zum Speichern eines Synonyms, welches vorab in Korrespondenz mit jedem der Wörter gebracht wird; einen Selektor zum Auswählen eines Synonyms aus dem Speicher, wobei das Synonym einem durch den Detektor detektierten Wort entspricht und akustisch weder gleich noch ähnlich zu irgendeinem Wort ist, das in der Textinformation vorkommt; einen Ersetzer zum Ersetzen des durch den Detektor detektierten Worts durch das durch den Selektor ausgewählte Synonym; und einen Ausgeber zum Ausgeben der Textinformation nach Ersetzen durch den Ersetzer als Textinformation zur Sprachsynthese.
  • Gemäß der vorliegenden Erfindung wird ein Informationsdienstverfahren bereitgestellt, welches die Schritte beinhaltet: in einem Erfasser, Erfassen von Textinformation; in einem Detektor, Detektieren von Worten, die einander akustisch ähnlich sind, aus der Textinformation; in einem Selektor, Auswählen eines Synonyms aus Synonymen, die jeweils vorab in Korrespondenz mit Worten gebracht werden, wobei das Synonym einem in dem Detektionsschritt detektierten Wort entspricht und akustisch weder gleich noch ähnlich zu irgendeinem Wort ist, das in der Textinformation vorkommt; in einem Ersetzer, Ersetzen des in dem Detektionsschritt detektierten Worts durch das im Auswahlschritt ausgewählte Synonym; und in einem Ausgeber, Ausgeben der Textinformation, nachdem sie im Ersatzschritt ersetzt ist, als Textinformation zur Sprachsynthese.
  • VORTEILE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung, weil ein Synonym, das akustisch weder dasselbe noch ähnlich zu irgendeinem Wort ist, das in der Textinformation vorkommt, ausgewählt und ersetzt wird, kann Textinformation für synthetisierte Sprache, die verwendet wird, um eine synthetisierte Sprache mit hoher Verständlichkeit zu erzeugen, erzeugt werden.
  • KURZE BESCHREIBUNG DER FIGUREN
  • 1 ist ein Blockdiagramm, welches die Konfigurationen einer Informationsbereitstellungsvorrichtung und einer Sprachsynthesevorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
  • 2 ist ein Diagramm, das ein Beispiel von Worten und Synonymen zeigt, die in einem Speicher der Informationsbereitstellungsvorrichtung gemäß Ausführungsform 1 gespeichert sind;
  • 3 ist ein Flussdiagramm, welches den Betrieb der Informationsbereitstellungsvorrichtung gemäß Ausführungsform 1 zeigt.
  • 4 ist ein Blockdiagramm, welches die Konfiguration einer Informationsbereitstellungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt; und
  • 5 ist ein Flussdiagramm, welches den Betrieb der Informationsbereitstellungsvorrichtung gemäß Ausführungsform 2 zeigt.
  • AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Nachfolgend, um diese Erfindung detaillierter zu erläutern, werden die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm, welches die Konfigurationen einer Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 1 und einer Sprachsynthesevorrichtung 10, die eine synthetisierte Sprache unter Verwendung von Textinformation zur Sprachsynthese, die aus der Informationsbereitstellungsvorrichtung 1 ausgegeben wird, erzeugt, zeigt. Diese Informationsbereitstellungsvorrichtung 1 kann auf eine Navigationsvorrichtung oder eine Servervorrichtung angewendet werden oder kann ein in einem Mobilinformationsendgerät, wie etwa einem Tablett-PC (persönlicher Computer) oder einem Mobiltelefon, installiertes Anwendungsprogramm sein.
  • Die Informationsbereitstellungsvorrichtung 1 beinhaltet einen Erfasser 2, einen Analysator 3, ein Analysewörterbuch 4, einen Detektor 5, einen Speicher 6, einen Selektor 7, einen Ersetzer 8 und einen Ausgeber 9.
  • Der Erfasser 2 erfasst Textinformation, die ein Ziel für die Verarbeitung ist, welche durch diese Informationsbereitstellungsvorrichtung 1 durchgeführt wird, von außerhalb der Informationsbereitstellungsvorrichtung.
  • Der Analysator 3 bezieht sich auf das Analysewörterbuch 4 und führt eine morphologische Analyse an der durch den Erfasser 2 erfassten Textinformation durch, um den Text in Morpheme zu zerlegen. Da als Verfahren zum Durchführen einer morphologischen Analyse eine bekannte Technik verwendet werden kann, wird die Erläuterung des Verfahrens nachfolgend weggelassen.
  • Der Detektor 5 detektiert Worte, die zueinander akustisch ähnlich sind, aus der Textinformation, unter Verwendung eines durch den Analysator 3 erfassten Analyseergebnisses. Obwohl eine detaillierte Erläuterung eines Verfahrens zum Bestimmen, ob Worte akustisch einander ähnlich sind oder nicht, nachfolgend weggelassen wird, weil als Verfahren eine bekannte Technik verwendet werden kann, gibt es beispielsweise ein Verfahren zum Berechnen des Ähnlichkeitsgrads zwischen Phonemen unter Verwendung einer Konfusionsmatrix und Berechnen und Bestimmen des Ähnlichkeitsgrads zwischen Worten auf Basis des Ähnlichkeitsgrads.
  • Der Speicher 6 speichert Worte und Synonyme, die vorab definiert sind, während jednes der Worte in Entsprechung zu Synonymen gebracht wird.
  • Ein Beispiel der Worte und der Synonyme, welche der Speicher 6 speichert, ist in 2 gezeigt. Beispielsweise wird ein Wort „tensaku (Korrektur)“ in Entsprechung mit Synonymen „teisei (Änderung“ und „tenaosi (Modifikation)“ gebracht.
  • Der Selektor 7 wählt ein Synonym entsprechend einem durch den Detektor 5 detektierten Wort aus dem Speicher 6 aus. Zu dieser Zeit wählt der Selektor 7 ein Synonym, welches akustisch wieder das Gleiche noch ähnlich zu irgendeinem Wort ist, welches in der Textinformation vorkommt, unter Verwendung des durch den Analysator 3 erfassten Analyseergebnisses.
  • Wenn es eine Mehrzahl von Synonymkandidaten gibt, welche die oben erwähnte Bedingung erfüllen, kann der Selektor 7 ein Synonym mit einer kleineren Anzahl von Phonemen auswählen. Weil ein Synonym mit einer kleinen Anzahl von Phonemen eine kurze Aussprache hat, wird ein solches Synonym selbst bei Lärm leicht gehört und seine Verständlichkeit ist gut, wenn es als synthetisierte Sprache ausgegeben wird.
  • Zusätzlich muss der Selektor 7 nicht ein Synonym für jedes durch den Detektor 5 detektierte Wort auswählen. Wenn beispielsweise zwei zueinander ähnliche Worte durch den Detektor 5 detektiert werden, kann der Selektor einfach ein Synonym für eines der Worte auswählen, muss aber nicht ein Synonym für das andere Wort auswählen. Weiter kann beispielsweise der Selektor einfach ein Synonym mit einer kleineren Anzahl von Phonemen aus zwei Synonymen, die zwei ähnlichen Worten entsprechen, auswählen, muss aber nicht das andere Synonym mit einer größeren Anzahl von Phonemen auswählen.
  • Der Ersetzer 8 ersetzt ein in der durch den Erfasser 2 erfassten Textinformation vorkommendes Wort, wobei das Wort durch den Detektor 5 detektiert ist, durch ein durch den Selektor 7 ausgewähltes Synonym.
  • Der Ausgeber 9 gibt die Textinformation, nach dem Ersetzen durch den Ersetzer 8, an die Sprachsynthesevorrichtung 10 als Textinformation zur Sprachsynthese aus.
  • Als Nächstes wird die Sprachsynthesevorrichtung 10 erläutert. Die Sprachsynthesevorrichtung 10 beinhaltet einen Sprachsynthesizer 11 und einen Sprachausgeber 12.
  • Der Sprachsynthesizer 11 erzeugt eine synthetisierte Sprache aus der Textinformation zur Sprachsynthese, welche die Informationsbereitstellungsvorrichtung 1 bereitstellt. Weil eine bekannte Technik als die Sprachsynthese verwendet werden kann, wird die Erläuterung der Sprachsynthese nachfolgend weggelassen.
  • Der Sprachausgeber 12 befielt einem nicht-gezeigten Lautsprecher, die durch den Sprachsynthesizer 11 erzeugte synthetisierte Sprache auszugeben.
  • Als Nächstes wird der Betrieb der Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 1 unter Verwendung eines in 3 gezeigten Flussdiagramms und eines konkreten Beispiels erläutert.
  • In dieser Ausführungsform wird die Erläuterung gegeben unter der Annahme, dass „tensaku no saiwa, heisei wo kensakusite, shoowa ni cikansitekudasai (beim Vornehmen einer Korrektur, suchen Sie bitte nach Heisei und ersetzen Sie Heisei durch Shoowa)“ die Textinformation ist, die das Ziel der durch die Informationsbereitstellungsvorrichtung 1 durchgeführten Verarbeitung ist, und der Speicher 6 die Daten, wie in 2 gezeigt, speichert.
  • Zuerst erfasst der Erfasser 2 die Textinformation, die das Ziel für die Verarbeitung ist (Schritt ST1). In diesem Fall erfasst der Erfasser die oben erwähnte Textinformation „tensaku no saiwa, heisei wo kensakusite, shoowa ni cikansitekudasai (Beim Vornehmen einer Korrektur suchen Sie bitte nach Heisei und ersetzen Sie Heisei durch Shoowa)“.
  • Der Analysator 3 bezieht sich dann auf das Analysewörterbuch 4 und führt eine morphologische Analyse an der durch den Erfasser 2 erfassten Textinformation durch, um den Text in Morpheme zu zerlegen (Schritt ST2). Als Nächstes detektiert der Detektor 5 Wörter, die akustisch zueinander ähnlich sind, aus der Textinformation unter Verwendung eines durch den Analysator erfassten Analyseergebnisses (Schritt ST3).
  • Konkret detektiert der Detektor 5 Worte „tensaku (Korrektur)“ und „kensaku (Suche)“, die einander akustisch ähnlich sind.
  • Danach wählt der Selektor 7 ein Synonym eines durch den Detektor 5 detektierten Worts aus dem Speicher 6 aus (Schritt ST4).
  • Zu dieser Zeit bestimmt der Selektor 7, dass Synonymkandidaten für das Wort „tensaku (Korrektur)“ „teisei (Änderung)“ und „tenaosi (Modifikation)“ sind, aber das Wort „teisei (Änderung)“ akustisch zu einem anderen Wort „heisei“ in der Textinformation ähnllich ist, und wählt das Synonym „tenaosi (Modifikation)“ aus.
  • Schließlich ersetzt der Ersetzer 8 das in der Textinformation vorkommende und durch den Detektor 5 detektierte Wort durch das durch den Selektor 7 ausgewählte Synonym (Schritt ST5) und gibt Textinformation zur Sprachsynthese nach Ersetzen an die Sprachsynthesevorrichtung 10 über den Ausgeber 9 aus (ST6).
  • Konkret ersetzt der Ersetzer 8 „tensaku (Korrektur)“ in der Textinformation „tensaku no saiwa, heisei wo kensakusite, shoowa ni cikansitekudasai (Beim Vornehmen einer Korrektur suchen Sie bitte nach Heisei und ersetzen Sie Heisei durch Shoowa)“ durch „tenaosi (Modifikation)“ und erzeugt Textinformation nach Ersetzen „tenaosi no saiwa, heisei wo kensakusite, shoowa ni cikansitekudasai (beim Machen einer Modifikation suchen Sie bitte nach Heisei und ersetzen Sie Heisei durch Shoowa)“.
  • Obwohl in der oben erwähnten Erklärung ein Synonym nur für „tensaku (Korrektur)“ aus den akustisch ähnlichen Worten „tensaku (Korrektur)“ und „kensaku (Suche)“ ausgewählt wird, kann auch zusätzlich zu diesem Synonym ein Synonym von „kensaku (Suche)“ ausgewählt werden.
  • Weiter, obwohl die Anzahl von Teilen von Textinformation, die das Ziel für die Verarbeitung sind, die durch die Informationsbereitstellungsvorrichtung 1 durchgeführt wird, eins beträgt, können zwei oder mehr Sätze als das Verarbeitungsziel eingestellt werden. Durch Bestimmen des akustischen Ähnlichkeitsgrads in der Kombination von zwei oder mehr Sätzen beim Auswählen eines Synonyms kann die Informationsbereitstellungsvorrichtung Textinformation für synthetisierte Sprache erzeugen, in welcher ihre Verständlichkeit und Konsistenz zwischen den Sätzen verbessert sind.
  • Wie oben erwähnt, ist die Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 1 auf solche Weise konfiguriert, dass sie enthält: den Erfasser 2 zum Erfassen von Textinformation; den Detektor 5 zum Detektieren von akustisch zueinander ähnlichen Wörtern aus der Textinformation; den Speicher 6 zum Speichern eines Synonyms, das in Entsprechung mit jedem von Worten vorab gebracht ist; den Selektor 7 zum Auswählen eines Synonyms aus dem Speicher 6, wobei das Synonym einem Wort entspricht, welches durch den Detektor 5 detektiert wird und akustisch weder das Gleiche noch ähnlich zu einem in der Textinformation vorkommenden Wort ist; den Ersetzer 8 zum Ersetzen des durch den Detektor 5 detektierten Wortes durch das durch den Selektor 7 ausgewählte Synonym und den Ausgeber 9 zum Ausgeben der Textinformation nach Ersetzen durch den Ersetzer 8 als Textinformation zur Sprachsynthese. Daher kann Textinformation für synthetisierte Sprache, die verwendet wird, um eine synthetisierte Sprache mit hoher Verständlichkeit zu erzeugen, erzeugt werden.
  • Weiter, weil, wenn eine Mehrzahl von Synonymkandidaten vorkommen, der Selektor 7 gemäß Ausführungsform 1 ein Synonym mit einer niedrigeren Anzahl von Phonemen auswählt, kann Textinformation für synthetisierte Sprache erzeugt werden, die verwendet wird, um eine synthetisierte Sprache zu erzeugen, die höhere Verständlichkeit aufweist.
  • Ausführungsform 2
  • 4 ist ein Blockdiagramm, welches die Konfiguration der Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 2 zeigt. In 4 werden dieselben Komponenten wie jene in 1 und 2 gezeigten oder gleiche Komponenten durch dieselben Bezugszeichen bezeichnet und die Erläuterung der Komponenten wird nachfolgend weggelassen. Die Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 2 beinhaltet neu einen Partitionierer 20, der durch den Erfasser 2 erfasste Textinformation in Einheiten jeweils von einem vorbestimmten Bereich unterteilt. Jede Einheit mit einem vorbestimmten Bereich ist ein Satz, ein Absatz, eine Datei oder dergleichen und der Partitionierer 20 führt eine Partitionierung auf Basis von, der durch den Erfasser 2 erfassten Textinformation hinzugefügter Zusatzinformation durch. Die Zusatzinformation zeigt einen Trenner zwischen Sätzen, einen Trenner zwischen Absätzen oder dergleichen.
  • Ein Detektor 5, ein Selektor 7 und ein Ersetzer 8 verarbeiten jede Einheit mit einem vorbestimmten Bereich in der Textinformation nach Partitionierung durch den Partitionierer 20.
  • Konkret detektiert der Detektor Wörter, die zueinander akustisch ähnlich sind, aus jeder Einheit mit einem vorbestimmten Bereich in der Textinformation unter Verwendung eines durch einen Analysator 3 erfassten Analyseergebnisses. Wenn ein, einem durch den Detektor 5 detektierten Wort entsprechendes Synonym aus dem Speicher 6 ausgewählt wird, wählt der Selektor 7 ein Synonym aus, welches akustisch weder das Gleiche noch ähnlich zu irgendeinem in jeder Einheit mit einem vorbestimmten Bereich in der Textinformation vorkommenden Wort ist. Der Ersetzer 8 ersetzt das in einer Einheit eines vorbestimmten Bereichs in der Textinformation vorkommende und durch den Detektor 5 detektierte Wort durch ein durch den Selektor 7 ausgewähltes Synonym. Ein Ausgeber 9 gibt jeder Einheit eines vorbestimmten Bereichs in der Textinformation nach Ersatz an eine Sprachsynthesevorrichtung 10 als Textinformation zur Sprachsynthese aus.
  • Als Nächstes wird der Betrieb der Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 2 unter Verwendung eines in 5 gezeigten Flussdiagramms und eines konkreten Beispiels erläutert.
  • Zuerst erfasst der Erfasser 2 die Textinformation, die das Verarbeitungsziel ist (Schritt ST1). Der Partitionierer 20 unterteilt die Textinformation in zwei Einheiten, z. B. zwei Sätze, auf Basis der Zusatzinformation (Schritt ST20). In diesem Fall wird die Erläuterung unter der Annahme gegeben, dass die durch den Partitionierer in zwei Sätze unterteilte Textinformation „kiniro no isi ga goko, giniro no isi ga ikko hituyodesu (fünf goldene Steine und ein silberner Stein werden gebraucht). kiniro wa eigo de goorudo, giniro wa eigo de sirubaa desu (Kiniro bedeutet Gold in Englisch und giniro bedeutet Silber in Englisch)“ ist, und der Speicher 6 speichert Daten wie in 2 gezeigt.
  • Der Analysator 3 bezieht sich dann auf ein Analysewörterbuch 4 und führt eine morphologische Analyse an den zwei Sätzen der durch den Partitionierer 20 unterteilten Textinformation durch, um den Text in Morpheme zu zerlegen (Schritt ST2). Als Nächstes sucht der Detektor 5 nach Worten, die zueinander akustisch ähnlich sind, aus den zwei Sätzen der Textinformation unter Verwendung eines durch den Analysator 3 erfassten Analyseergebnisses (Schritt ST3).
  • Konkret detektiert der Detektor Wörter „kiniro (Gold)“ und „giniro (Silber)“, die zueinander akustisch ähnlich sind.
  • Danach wählt der Selektor 7 ein Synonym jedes der durch den Detektor 5 detektierten Worte aus dem Speicher 6 aus (Schritt ST4).
  • In dieser Ausführungsform, während die Synonymkandidaten für das Wort „kiniro (Gold)“ „goorudo“ und „koganeiro“ sind, wählt der Selektor 7 das Synonym „koganeiro“ weil das Wort „goorudo“ in den zwei Sätzen der Textinformation existiert. Auf dieselbe Weise wählt der Selektor 7 „siroganeiro“ als das Synonym des Wortes „giniro (Silber)“ aus.
  • Schließlich ersetzt der Ersetzer 8 die in den zwei Sätzen der Textinformation existierenden und durch den Detektor 5 detektierten Worte durch die durch den Selektor 7 ausgewählten Synonyme (Schritt ST5) und gibt die Textinformation zur Sprachsynthese nach Ersatz an die Sprachsynthesevorrichtung 10 über den Ausgeber 9 aus (Schritt ST6).
  • Konkret ersetzt der Ersetzer 8 " kiniro (Gold)" in den zwei Sätzen der Textinformation „kiniro no isi ga goko, giniro no isi ga ikko hituyodesu (fünf goldene Steine und ein silberner Stein werden gebraucht). kiniro wa eigo de goorudo, giniro wa eigo de sirubaa desu (Kiniro bedeutet Gold in Englisch und giniro bedeutet Silber in Englisch)“ durch „koganeiro“ und ersetzt auch „giniro (Silber)“ in den zwei Sätzen durch „sirogeneiro“ und erzeugt Textinformation nach Ersetzen „koganeiro no isi ga goko, siroganeiro no isi ga ikko hituyodesu (fünf goldene Steine und ein silberner Stein werden gebraucht). koganeiro wa eigo de goorudo, siroganeiro wa eigo de sirubaa desu (Koganeiro bedeutet Gold in Englisch und siroganeiro bedeutet Silber in Englisch)".
  • Wie oben erwähnt, ist die Informationsbereitstellungsvorrichtung 1 gemäß Ausführungsform 2 auf solche Weise konfiguriert, dass die Informationsbereitstellungsvorrichtung den Partitionierer 20 enthält, der die durch den Erfasser 2 erfasste Textinformation in zwei oder mehr Einheiten wie etwa Sätze unterteilt und der Detektor 5 detektiert akustisch zueinander ähnliche Worte aus den Einheiten nach Partitionierung durch den Partitionierer 20 und der Selektor 7 wählt ein Synonym aus dem Speicher 6 aus, wobei das Synonym einem Wort entspricht, welches durch den Detektor 5 detektiert ist und akustisch weder gleich noch ähnlich ist zu irgendeinem anderen in den Einheiten vorkommenden Wort nach der Partitionierung durch den Partitionierer. Daher kann die Informationsbereitstellungsvorrichtung Textinformation für Sprachsynthese erzeugen, die verwendet wird, um eine Sprache mit hoher Verständlichkeit und Konsistenz in jeder der Einheiten des Texts zwischen denen es Relevanz im Hinblick auf ihre Bedeutungen gibt, zu erzeugen.
  • Obwohl in den oben beschriebenen Ausführungsformen 1 und 2 der Analysator 3 und das Analysewörterbuch 4 den Text in Morpheme zerlegen, können der Analysator 3 und das Analysewörterbuch 4 in einem Fall eliminiert sein, in welchem ein morphologisches Analyseergebnis vorab in der durch den Erfasser 2 erfassten Textinformation enthalten ist.
  • Weiter, obwohl die Erläuterung in den oben erwähnten Ausführungsformen 1 und 2 gemacht wird, indem Japanisch als Beispiel genommen wird, ist die vorliegende Erfindung nicht auf dieses Beispiel beschränkt und die vorliegende Erfindung kann auf eine andere Sprache als Japanisch angewendet werden.
  • Während die vorliegende Erfindung in ihren bevorzugten Ausführungsformen beschrieben worden ist, versteht es sich, dass zusätzlich zu den oben beschriebenen Ausführungsformen eine beliebige Kombination der Ausführungsformen vorgenommen werden, eine Änderung bei einer beliebigen Komponente gemäß einer der Ausführungsformen vorgenommen werden kann oder eine beliebige Komponente gemäß einer der Ausführungsform innerhalb des Schutzumfangs der Erfindung weggelassen werden kann.
  • INDUSTRIELLE ANWENDBARKEIT
  • Weil die Informationsbereitstellungsvorrichtung gemäß der vorliegenden Erfindung Textinformation erzeugt, die verwendet wird, um eine synthetisierte Sprache mit hoher Verständlichkeit zu erzeugen, wodurch sie in der Lage ist, die Verständlichkeit sicherzustellen, selbst falls die Informationsbereitstellungsvorrichtung durch Umgebungslärm wie etwa Lärm zu einer Zeit, wenn ein mit der Informationsbereitstellungsvorrichtung ausgerüstetes Fahrzeug fährt, beeinflusst ist, ist die Informationsbereitstellungsvorrichtung zum Bereitstellen einer Sprachsynthesevorrichtung und zur Autonavigation oder dergleichen mit Textinformation geeignet.
  • ERLÄUTERUNG VON BEZUGSZEICHEN
    • 1 Informationsbereitstellungsvorrichtung, 2 Erfasser, 3 Analysator, 4 Analysewörterbuch, 5 Detektor, 6 Speicher, 7 Selektor, 8 Ersetzer, 10 Sprachsynthesevorrichtung, 11 Sprachsynthesizer, 12 Sprachausgeber und 20 Partitionierer.

Claims (5)

  1. Informationsbereitstellungsvorrichtung, die Textinformation zur Sprachsynthese einer Sprachsynthesevorrichtung bereitstellt, wobei die Informationsbereitstellungsvorrichtung umfasst: einen Erfasser zum Erfassen von Textinformation; einen Detektor zum Detektieren von Worten, die einander akustisch ähnlich sind, aus der Textinformation; einen Speicher zum Speichern eines Synonyms, welches vorab in Korrespondenz mit jedem der Wörter gebracht wird; einen Selektor zum Auswählen eines Synonyms aus dem Speicher, wobei das Synonym einem durch den Detektor detektierten Wort entspricht und akustisch weder gleich noch ähnlich zu irgendeinem Wort ist, das in der Textinformation vorkommt; einen Ersetzer zum Ersetzen des durch den Detektor detektierten Worts durch das durch den Selektor ausgewählte Synonym; und einen Ausgeber zum Ausgeben der Textinformation nach Ersetzen durch den Ersetzer als Textinformation zur Sprachsynthese.
  2. Informationsbereitstellungsvorrichtung gemäß Anspruch 1, wobei die Informationsbereitstellungsvorrichtung einen Partitionierer zum Partitionieren der durch den Erfasser erfassten Textinformation in zwei oder mehr Einheiten, wie etwa Sätze, beinhaltet, der Detektor zueinander akustisch ähnliche Wörter aus den Einheiten nach Partitionieren durch den Partitionierer detektiert und der Selektor ein Synonym aus dem Speicher auswählt, wobei das Synonym einem Wort entspricht, welches durch den Detektor detektiert ist und akustisch weder gleich noch ähnlich ist zu irgendeinem Wort, das in den Einheiten nach Partitionierung durch den Partitionierer vorkommt.
  3. Informationsbereitstellungsvorrichtung gemäß Anspruch 2, wobei der Partitionierer die Textinformation auf Basis von zur Textinformation hinzugefügter Zusatzinformation partitioniert.
  4. Informationsbereitstellungsvorrichtung gemäß Anspruch 1, wobei, wenn eine Mehrzahl von Synonymkandidaten vorkommt, der Selektor ein Synonym mit einer kleineren Anzahl von Phonemen auswählt.
  5. Informationsdienstverfahren, das eine Informationsbereitstellungsvorrichtung verwendet, um einer Sprachsynthesevorrichtung Textinformation zur Sprachsynthese bereitzustellen, wobei das Informationsdienstverfahren die Schritte umfasst: in einem Erfasser, Erfassen von Textinformation; in einem Detektor, Detektieren von Worten, die einander akustisch ähnlich sind, aus der Textinformation; in einem Selektor, Auswählen eines Synonyms aus Synonymen, die jeweils vorab in Korrespondenz mit Worten gebracht werden, wobei das Synonym einem in dem Detektionsschritt detektierten Wort entspricht und akustisch weder gleich noch ähnlich zu irgendeinem Wort ist, das in der Textinformation vorkommt; in einem Ersetzer, Ersetzen des in dem Detektionsschritt detektierten Worts durch das im Auswahlschritt ausgewählte Synonym; und in einem Ausgeber, Ausgeben der Textinformation, nachdem sie im Ersatzschritt ersetzt ist, als Textinformation zur Sprachsynthese.
DE112014006591.9T 2014-04-15 2014-04-15 Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren Expired - Fee Related DE112014006591B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/060710 WO2015159363A1 (ja) 2014-04-15 2014-04-15 情報提供装置および情報提供方法

Publications (2)

Publication Number Publication Date
DE112014006591T5 true DE112014006591T5 (de) 2017-03-23
DE112014006591B4 DE112014006591B4 (de) 2018-06-14

Family

ID=54323610

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112014006591.9T Expired - Fee Related DE112014006591B4 (de) 2014-04-15 2014-04-15 Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren

Country Status (5)

Country Link
US (1) US9734818B2 (de)
JP (1) JP5976255B2 (de)
CN (1) CN106233373B (de)
DE (1) DE112014006591B4 (de)
WO (1) WO2015159363A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593135B2 (en) * 2016-04-11 2020-03-17 Olivier Noyelle Methods and systems for collecting and evaluating vehicle status
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335296A (ja) 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JP3706758B2 (ja) 1998-12-02 2005-10-19 松下電器産業株式会社 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2000206982A (ja) 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
JP2003302993A (ja) 2002-04-10 2003-10-24 Canon Inc 音声合成装置、音声合成方法、プログラム、記憶媒体
JP2005063257A (ja) * 2003-08-18 2005-03-10 Canon Inc 情報処理方法、情報処理装置
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP5272764B2 (ja) * 2009-02-04 2013-08-28 富士通株式会社 音声合成装置、音声合成方法及びコンピュータプログラム
CN101819469A (zh) * 2009-11-06 2010-09-01 无敌科技(西安)有限公司 中文内容拼写校正的方法
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统

Also Published As

Publication number Publication date
US20160365086A1 (en) 2016-12-15
US9734818B2 (en) 2017-08-15
JP5976255B2 (ja) 2016-08-23
DE112014006591B4 (de) 2018-06-14
CN106233373B (zh) 2017-07-07
JPWO2015159363A1 (ja) 2017-04-13
WO2015159363A1 (ja) 2015-10-22
CN106233373A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
DE112017004374B4 (de) System und Verfahren zur Spracherkennung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE112010005168B4 (de) Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE112010005918B4 (de) Spracherkennungsvorrichtung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60122352T2 (de) Augenverfolgung für kontextabhängige spracherkennung
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE112010005425T5 (de) Spracherkennungsvorrichtung
DE112014007287B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE112016006512T5 (de) Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE202017106608U1 (de) Sprachsyntheseeinheitenauswahl
DE112014006591B4 (de) Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren
DE112014007207B4 (de) Informations-Präsentationssystem
DE102012202391A1 (de) Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee