DE04735989T1 - Einrichtung, verfahren und programm zur auswahl von voice-daten - Google Patents

Einrichtung, verfahren und programm zur auswahl von voice-daten Download PDF

Info

Publication number
DE04735989T1
DE04735989T1 DE04735989T DE04735989T DE04735989T1 DE 04735989 T1 DE04735989 T1 DE 04735989T1 DE 04735989 T DE04735989 T DE 04735989T DE 04735989 T DE04735989 T DE 04735989T DE 04735989 T1 DE04735989 T1 DE 04735989T1
Authority
DE
Germany
Prior art keywords
voice
voice data
text
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE04735989T
Other languages
English (en)
Inventor
Yasushi Rouyaru koupo Watanabe Nagareyama-shi SATO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Publication of DE04735989T1 publication Critical patent/DE04735989T1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst:
ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken;
ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und
ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.

Claims (32)

  1. Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
  2. Eine Stimmdatenauswahlvorrichtung nach Anspruch 1, die weiter Folgendes umfasst: ein Sprachsynthesemittel zum Generieren von synthetische Sprache ausdrückenden Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten.
  3. Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Eingeben von Textinformationen, die einen Text ausdrücken, zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den zurückgeholten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
  4. Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
  5. Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen von Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und ein Auswahlmittel zum Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet, und deren Zeitreihenveränderung der Tonhöhe über höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
  6. Die Stimmdatenauswahlvorrichtung nach Anspruch 5, wobei das Auswahlmittel die Stärke der Übereinstimmung zwischen einer Zeitreihenveränderung der Tonhöhe der Stimmdaten und dem Ergebnis einer Vorhersage durch das Vorhersagemittel auf der Basis eines Ergebnisses einer Regressionsrechnung spezifizieren kann, die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, durchführt.
  7. Die Stimmdatenauswahlvorrichtung nach Anspruch 5, wobei das Auswahlmittel die Stärke der Übereinstimmung zwischen einer Zeitreihenveränderung der Tonhöhe der Stimmdaten und dem Ergebnis einer Vorhersage durch das Vorhersagemittel auf der Basis eines Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und der Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, spezifizieren kann.
  8. Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen der Zeitdauer einer Stimmeinheit und Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der den Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit in dem Text; und ein Auswahlmittel zum Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt, und wobei der Bewertungswert durch eine Funktion eines numerischen Wertes, der die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  9. Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Gradienten einer primäre Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken. und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  10. Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Abschnitt einer primären Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  11. Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, umfasst.
  12. Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert den Maximalwert des Übereinstimmungskoeffizienten zwischen einer Funktion, der verschiedene Bitzählungszyklenverschiebungen zu den Daten gegeben wird, die eine Zeitreihenveränderung der Tonhöhe einer Stimmeinheit ausdrücken, die die Stimmdaten ausdrücken, und einer Funktion, die ein Vorhersagergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, umfasst.
  13. Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 5 bis 12, wobei das Datenspeicherungsmittel phonetische Daten speichert, die die Lesung der Stimmdaten, welche sie dabei mit den anbelangten Stimmdaten verbinden, ausdrücken; und wobei das Auswahlmittel Stimmdaten, mit denen die phonetischen Daten, die die Lesung ausdrücken, die mit der Lesung einer Stimmeinheit in dem Text übereinstimmt, verbunden sind, als Stimmdaten bearbeitet, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der anbelangten Stimmeinheit gemein ist.
  14. Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 5 bis 13, die weiter Folgendes umfasst: ein Sprachsynthesemittel zum Generieren von synthetische Sprache ausdrückenden Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten.
  15. Eine Stimmdatenauswahlvorrichtung nach Anspruch 14, die Folgendes umfasst: ein Fehlstücksynthesemittel zum Synthetisieren von Stimmdaten, die eine Wellenform einer Stimmeinheit in Bezug zu einer Stimmeinheit ausdrücken, für die das Auswahlmittel nicht im Stande war, Stimmdaten unter Stimmeinheiten in dem Text auszuwählen, ohne Stimmdaten zu verwenden, die das Speicherungsmittel speichert, und wobei das Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch Kombinieren von Stimmdaten, die das Auswahlmittel ausgewählt hat, mit Stimmdaten, die das Fehlstücksynthesemittel synthetisiert, generiert.
  16. Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen einer Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text bildet, und deren Zeitreihenveränderung der Tonhöhe über die höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
  17. Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Vorhersagen der Zeitdauer einer Stimmeinheit und der Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der einen Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit; und Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung einer Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt und wobei der Bewertungswert durch eine Funktion eines numerischen Wertes, das die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  18. Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen von Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und ein Auswahlmittel zum Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text bildet, und deren Zeitreihenveränderung der Tonhöhe über die höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
  19. Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen der Zeitdauer einer Stimmeinheit und Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der den Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit; und ein Auswahlmittel zum Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt und wobei der Bewertungswert aus einer Funktion eines numerischen Wertes, das die Übereinstimmung von Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer der Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  20. Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Textinformationseingabemittel zum Eingeben von Textinformationen, die einen Text ausdrücken; eine Suchsektion zum Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; und ein Auswahlmittel zum Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend des Textes verbunden werden, den die Textinformationen ausdrücken, und zum Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
  21. Die Stimmdatenauswahlvorrichtung nach Anspruch 20, wobei das Bewertungskriterium ein Kriterium ist, das ein Bewertungswert bestimmt, der eine Relation zur einander angrenzenden Stimmdaten anzeigt; und wobei der Bewertungswert auf der Basis eines Bewertungsausdrucks erhalten wird, der mindestens irgendeinen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die die Stimmdaten ausdrücken, einen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, erhalten wurde, und einen Parameter beinhaltet, der eine auf Geschwindigkeitszeitlänge bezogene Eigenschaft zeigt.
  22. Stimmdatenauswahlvorrichtung nach Anspruch 20, wobei das Bewertungskriterium ein Kriterium ist, das ein Bewertungswert bestimmt, der eine Relation zur gegenseitig angrenzenden Stimmdaten anzeigt; und wobei der Bewertungswert einen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, erhalten wurde, und auf der Basis eines Bewertungsausdrucks erhalten wird, der mindestens irgendeinen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die die Stimmdaten ausdrücken, und einen Parameter beinhaltet, der eine auf Geschwindigkeitszeitlänge bezogene Eigenschaft zeigt.
  23. Die Stimmdatenauswahlvorrichtung nach Anspruch 21 oder 22, wobei der Parameter, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, auf der Basis von Tonhöhenunterschieden in einem Grenzbereich von aneinander angrenzenden Stimmeinheiten erhalten wird für den Fall des Auswählens von jeweils denjenigen Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den Stimmdaten bildet, die die Wellenformen einer Stimme ausdrücken, die über ein Stück verfügt, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken.
  24. Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 23, wobei das Bewertungskriterium weiter eine Referenz beinhaltet, die einen Bewertungswert bestimmt, der die Übereinstimmung oder den Unterschied zwischen der Stimme, die die Stimmdaten ausdrücken, und dem Tonfallvorhersageergebnis des Tonfallvorhersagemittels ausdrückt; und wobei der Bewertungswert auf der Basis einer Funktion eines numerischen Wertes erhalten wird, der die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, und/oder auf Basis einer Funktion des Unterschiedes zwischen dem Vorhersageergebnis einer Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  25. Die Stimmdatenauswahlvorrichtung nach Anspruch 24, wobei der die Übereinstimmung ausdrückender numerischer Wert einen Gradienten und/oder einen Abschnitt einer primären Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
  26. Die Stimmdatenauswahlvorrichtung nach Anspruch 24 oder 25, wobei der die Übereinstimmung ausdrückende numerische Wert einen Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, umfasst.
  27. Die Stimmdatenauswahlvorrichtung nach Anspruch 24 oder 25, wobei der die Übereinstimmung ausdrückende numerische Wert den Maximalwert des Übereinstimmungskoeffizienten zwischen einer Funktion, der verschiedene Bitzählungszyklenverschiebungen zu den Daten gegeben wird, die eine Zeitreihenveränderung der Tonhöhe einer Stimmeinheit ausdrücken, die die Stimmdaten ausdrücken, und einer Funktion, die ein Vorhersagergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, umfasst.
  28. Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 27, wobei das Datenspeicherungsmittel phonetische Daten speichert, die die Lesung der Stimmdaten, welche sie dabei mit den anbelangten Stimmdaten verbinden, ausdrücken; und wobei das Auswahlmittel Stimmdaten, mit denen die phonetischen Daten, die die Lesung ausdrücken, die mit der Lesung einer Stimmeinheit in dem Text übereinstimmt, verbunden sind, als Stimmdaten bearbeitet, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der anbelangten Stimmeinheit gemein ist.
  29. Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 28, wobei ein Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten generiert.
  30. Eine Stimmdatenauswahlvorrichtung nach Anspruch 29, die Folgendes umfasst: ein Fehlstücksynthesemittel zum Synthetisieren von Stimmdaten, die eine Wellenform einer Stimmeinheit in Bezug zu einer Stimmeinheit ausdrücken, für die das Auswahlmittel nicht im Stande war, Stimmdaten unter Stimmeinheiten in dem Text auszuwählen, ohne Stimmdaten zu verwenden, die das Speicherungsmittel speichert, und wobei das Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch Kombinieren von Stimmdaten, die das Auswahlmittel ausgewählt hat, mit Stimmdaten, die das Fehlstücksynthesemittel synthetisiert, generiert.
  31. Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Eingeben von Textinformationen, die einen Text ausdrücken; Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend eines Textes verbunden werden, den die Textinformationen ausdrücken; und Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
  32. Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Textinformationseingabemittel zum Eingeben von Textinformationen, die einen Text ausdrücken; eine Suchsektion zum Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; und ein Auswahlmittel zum Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend eines Textes verbunden werden, den die Textinformationen ausdrücken, und zum Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
DE04735989T 2003-06-04 2004-06-03 Einrichtung, verfahren und programm zur auswahl von voice-daten Pending DE04735989T1 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2003159880 2003-06-04
JP2003159880 2003-06-04
JP2003165582 2003-06-10
JP2003165582 2003-06-10
JP2004155306 2004-05-25
JP2004155306A JP4264030B2 (ja) 2003-06-04 2004-05-25 音声データ選択装置、音声データ選択方法及びプログラム
PCT/JP2004/008088 WO2004109660A1 (ja) 2003-06-04 2004-06-03 音声データを選択するための装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
DE04735989T1 true DE04735989T1 (de) 2006-10-12

Family

ID=33514559

Family Applications (1)

Application Number Title Priority Date Filing Date
DE04735989T Pending DE04735989T1 (de) 2003-06-04 2004-06-03 Einrichtung, verfahren und programm zur auswahl von voice-daten

Country Status (7)

Country Link
US (1) US20070100627A1 (de)
EP (1) EP1632933A4 (de)
JP (1) JP4264030B2 (de)
KR (1) KR20060015744A (de)
CN (1) CN1816846B (de)
DE (1) DE04735989T1 (de)
WO (1) WO2004109660A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100411686C (zh) 2001-04-11 2008-08-20 千寿制药株式会社 视觉功能障碍改善剂
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP5387410B2 (ja) * 2007-10-05 2014-01-15 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP5093387B2 (ja) * 2011-07-19 2012-12-12 ヤマハ株式会社 音声特徴量算出装置
CN111506736B (zh) * 2020-04-08 2023-08-08 北京百度网讯科技有限公司 文本发音获取方法、装置和电子设备
CN112669810B (zh) * 2020-12-16 2023-08-01 平安科技(深圳)有限公司 语音合成的效果评估方法、装置、计算机设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2761552B2 (ja) * 1988-05-11 1998-06-04 日本電信電話株式会社 音声合成方法
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
JP3583852B2 (ja) * 1995-05-25 2004-11-04 三洋電機株式会社 音声合成装置
JPH09230893A (ja) * 1996-02-22 1997-09-05 N T T Data Tsushin Kk 規則音声合成方法及び音声合成装置
JPH1097268A (ja) * 1996-09-24 1998-04-14 Sanyo Electric Co Ltd 音声合成装置
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JPH11249679A (ja) * 1998-03-04 1999-09-17 Ricoh Co Ltd 音声合成装置
JPH11259083A (ja) * 1998-03-09 1999-09-24 Canon Inc 音声合成装置および方法
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP2001013982A (ja) * 1999-04-28 2001-01-19 Victor Co Of Japan Ltd 音声合成装置
JP2001034284A (ja) * 1999-07-23 2001-02-09 Toshiba Corp 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
JP2001092481A (ja) * 1999-09-24 2001-04-06 Sanyo Electric Co Ltd 規則音声合成方法
EP1224531B1 (de) * 1999-10-28 2004-12-15 Siemens Aktiengesellschaft Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
CA2359771A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis

Also Published As

Publication number Publication date
US20070100627A1 (en) 2007-05-03
CN1816846A (zh) 2006-08-09
WO2004109660A1 (ja) 2004-12-16
CN1816846B (zh) 2010-06-09
EP1632933A4 (de) 2007-11-14
EP1632933A1 (de) 2006-03-08
KR20060015744A (ko) 2006-02-20
JP2005025173A (ja) 2005-01-27
JP4264030B2 (ja) 2009-05-13

Similar Documents

Publication Publication Date Title
DE602004000873T2 (de) Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
Schneider Judicial career incentives and court performance: an empirical study of the German labour courts of appeal
Bertrand et al. Operations management research methodologies using quantitative modeling
CN100440092C (zh) 生产管理系统
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE06729295T1 (de) Sprachsynthesevorrichtung, sprachsyntheseverfahren und entsprechendes programm
DE69413880T2 (de) Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen
DE04735989T1 (de) Einrichtung, verfahren und programm zur auswahl von voice-daten
CN107480686B (zh) 一种筛选机器学习特征的方法和装置
DE69728413T2 (de) Objektklassifizierungs- und identifikationssystem
DE04735990T1 (de) Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
Volaric et al. Integration of FAHP and TOPSIS methods for the selection of appropriate multimedia application for learning and teaching
DE69224764T2 (de) Verfahren und Vorrichtung zur Beurteilung von automatischen Herstellungsmöglichkeiten
CN101449319A (zh) 语音合成装置及其方法
DE102016119174A1 (de) Anzeigeinhalterzeugungsvorrichtung mit funktion zur unterstützung der erzeugung eines anwendungsanzeigeinhalts
DE102017009807A1 (de) Informationsverarbeitungsvorrichtung
JPH05101107A (ja) 適合率を用いた絞り込みデータ検索装置及び方法
DE112010004797T5 (de) Eingabeunterstützungsvorrichtung
Nababan et al. The Effect of Job Training, Work Discipline and Career Development on Employee Performance at PT. Torpindo Concrete Galang
Yannou Towards a web-based collaborative weighting method in project
DE68911719T2 (de) Verfahren und Vorrichtung, die schlechte Leistung eines Rechnersystemes diagnostisiert.
CN108388972A (zh) 一种综合技能评估方法及装置
WO2021251815A1 (en) An intellectual knowledge ideation management system
Generalov et al. Problems of application of Pareto set for choosing optimal strategies of university development in world university rankings