DE04735989T1 - Einrichtung, verfahren und programm zur auswahl von voice-daten - Google Patents
Einrichtung, verfahren und programm zur auswahl von voice-daten Download PDFInfo
- Publication number
- DE04735989T1 DE04735989T1 DE04735989T DE04735989T DE04735989T1 DE 04735989 T1 DE04735989 T1 DE 04735989T1 DE 04735989 T DE04735989 T DE 04735989T DE 04735989 T DE04735989 T DE 04735989T DE 04735989 T1 DE04735989 T1 DE 04735989T1
- Authority
- DE
- Germany
- Prior art keywords
- voice
- voice data
- text
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims 7
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000013500 data storage Methods 0.000 claims abstract 11
- 238000011156 evaluation Methods 0.000 claims 19
- 230000006870 function Effects 0.000 claims 15
- 230000015572 biosynthetic process Effects 0.000 claims 5
- 238000003786 synthesis reaction Methods 0.000 claims 5
- 230000001755 vocal effect Effects 0.000 claims 3
- 230000014509 gene expression Effects 0.000 claims 2
- 238000010187 selection method Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Eine
Stimmdatenauswahlvorrichtung, die Folgendes umfasst:
ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken;
ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und
ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken;
ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und
ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
Claims (32)
- Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
- Eine Stimmdatenauswahlvorrichtung nach Anspruch 1, die weiter Folgendes umfasst: ein Sprachsynthesemittel zum Generieren von synthetische Sprache ausdrückenden Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten.
- Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Eingeben von Textinformationen, die einen Text ausdrücken, zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den zurückgeholten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
- Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Suchmittel zum Eingeben von Textinformationen, die einen Text ausdrücken, und zum Zurückholen von Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet; und ein Auswahlmittel zum Auswählen von jeweils der Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den gesuchten Stimmdaten bildet, so dass ein Wert, der durch Summieren der Tonhöhenunterschiede in Grenzbereichen der angrenzenden Stimmeinheiten erhalten wurde, im ganzen Text minimiert werden kann.
- Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen von Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und ein Auswahlmittel zum Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text aus den Stimmdaten bildet, und deren Zeitreihenveränderung der Tonhöhe über höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 5, wobei das Auswahlmittel die Stärke der Übereinstimmung zwischen einer Zeitreihenveränderung der Tonhöhe der Stimmdaten und dem Ergebnis einer Vorhersage durch das Vorhersagemittel auf der Basis eines Ergebnisses einer Regressionsrechnung spezifizieren kann, die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, durchführt.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 5, wobei das Auswahlmittel die Stärke der Übereinstimmung zwischen einer Zeitreihenveränderung der Tonhöhe der Stimmdaten und dem Ergebnis einer Vorhersage durch das Vorhersagemittel auf der Basis eines Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und der Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, spezifizieren kann.
- Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen der Zeitdauer einer Stimmeinheit und Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der den Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit in dem Text; und ein Auswahlmittel zum Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt, und wobei der Bewertungswert durch eine Funktion eines numerischen Wertes, der die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Gradienten einer primäre Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken. und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Abschnitt einer primären Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert einen Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, umfasst.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 8, wobei der die Übereinstimmung ausdrückende numerische Wert den Maximalwert des Übereinstimmungskoeffizienten zwischen einer Funktion, der verschiedene Bitzählungszyklenverschiebungen zu den Daten gegeben wird, die eine Zeitreihenveränderung der Tonhöhe einer Stimmeinheit ausdrücken, die die Stimmdaten ausdrücken, und einer Funktion, die ein Vorhersagergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, umfasst.
- Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 5 bis 12, wobei das Datenspeicherungsmittel phonetische Daten speichert, die die Lesung der Stimmdaten, welche sie dabei mit den anbelangten Stimmdaten verbinden, ausdrücken; und wobei das Auswahlmittel Stimmdaten, mit denen die phonetischen Daten, die die Lesung ausdrücken, die mit der Lesung einer Stimmeinheit in dem Text übereinstimmt, verbunden sind, als Stimmdaten bearbeitet, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der anbelangten Stimmeinheit gemein ist.
- Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 5 bis 13, die weiter Folgendes umfasst: ein Sprachsynthesemittel zum Generieren von synthetische Sprache ausdrückenden Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten.
- Eine Stimmdatenauswahlvorrichtung nach Anspruch 14, die Folgendes umfasst: ein Fehlstücksynthesemittel zum Synthetisieren von Stimmdaten, die eine Wellenform einer Stimmeinheit in Bezug zu einer Stimmeinheit ausdrücken, für die das Auswahlmittel nicht im Stande war, Stimmdaten unter Stimmeinheiten in dem Text auszuwählen, ohne Stimmdaten zu verwenden, die das Speicherungsmittel speichert, und wobei das Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch Kombinieren von Stimmdaten, die das Auswahlmittel ausgewählt hat, mit Stimmdaten, die das Fehlstücksynthesemittel synthetisiert, generiert.
- Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen einer Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text bildet, und deren Zeitreihenveränderung der Tonhöhe über die höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
- Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Vorhersagen der Zeitdauer einer Stimmeinheit und der Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der einen Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit; und Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung einer Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt und wobei der Bewertungswert durch eine Funktion eines numerischen Wertes, das die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit durch Eingeben von Textinformationen, die einen Text ausdrücken, und durch Durchführen von Tonfallvorhersagung für eine Stimmeinheit, die den anbelangten Text bildet; und ein Auswahlmittel zum Auswählen von denjenigen Stimmdaten aus den Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der einer Stimmeinheit gemeinsam ist, die den Text bildet, und deren Zeitreihenveränderung der Tonhöhe über die höchste Übereinstimmung mit dem Vorhersageergebnis durch das Vorhersagemittel verfügt.
- Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Vorhersagemittel zum Vorhersagen der Zeitdauer einer Stimmeinheit und Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die von der Eingabe der den Text ausdrückenden Textinformationen anbelangt ist und zum Durchführen einer Tonfallvorhersage für die anbelangte Stimmeinheit; und ein Auswahlmittel zum Spezifizieren eines Bewertungswertes jeweils der Stimmdaten, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der Stimmeinheit in dem Text gemein ist, und zum Auswählen von Stimmdaten, deren Bewertungswert die höchste Bewertung ausdrückt und wobei der Bewertungswert aus einer Funktion eines numerischen Wertes, das die Übereinstimmung von Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird, und eine Funktion des Unterschiedes zwischen Vorhersageergebnis der Zeitdauer der Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Eine Stimmdatenauswahlvorrichtung, die Folgendes umfasst: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Textinformationseingabemittel zum Eingeben von Textinformationen, die einen Text ausdrücken; eine Suchsektion zum Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; und ein Auswahlmittel zum Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend des Textes verbunden werden, den die Textinformationen ausdrücken, und zum Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 20, wobei das Bewertungskriterium ein Kriterium ist, das ein Bewertungswert bestimmt, der eine Relation zur einander angrenzenden Stimmdaten anzeigt; und wobei der Bewertungswert auf der Basis eines Bewertungsausdrucks erhalten wird, der mindestens irgendeinen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die die Stimmdaten ausdrücken, einen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, erhalten wurde, und einen Parameter beinhaltet, der eine auf Geschwindigkeitszeitlänge bezogene Eigenschaft zeigt.
- Stimmdatenauswahlvorrichtung nach Anspruch 20, wobei das Bewertungskriterium ein Kriterium ist, das ein Bewertungswert bestimmt, der eine Relation zur gegenseitig angrenzenden Stimmdaten anzeigt; und wobei der Bewertungswert einen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, erhalten wurde, und auf der Basis eines Bewertungsausdrucks erhalten wird, der mindestens irgendeinen Parameter beinhaltet, der eine Eigenschaft der Stimme aufweist, die die Stimmdaten ausdrücken, und einen Parameter beinhaltet, der eine auf Geschwindigkeitszeitlänge bezogene Eigenschaft zeigt.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 21 oder 22, wobei der Parameter, der eine Eigenschaft der Stimme aufweist, die durch gegenseitiges Kombinieren der Stimme, die die Stimmdaten ausdrücken, auf der Basis von Tonhöhenunterschieden in einem Grenzbereich von aneinander angrenzenden Stimmeinheiten erhalten wird für den Fall des Auswählens von jeweils denjenigen Stimmdaten, die jeweils der Stimmeinheit entsprechen, die den Text aus den Stimmdaten bildet, die die Wellenformen einer Stimme ausdrücken, die über ein Stück verfügt, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken.
- Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 23, wobei das Bewertungskriterium weiter eine Referenz beinhaltet, die einen Bewertungswert bestimmt, der die Übereinstimmung oder den Unterschied zwischen der Stimme, die die Stimmdaten ausdrücken, und dem Tonfallvorhersageergebnis des Tonfallvorhersagemittels ausdrückt; und wobei der Bewertungswert auf der Basis einer Funktion eines numerischen Wertes erhalten wird, der die Übereinstimmung von einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, und/oder auf Basis einer Funktion des Unterschiedes zwischen dem Vorhersageergebnis einer Zeitdauer einer Stimmeinheit, die die anbelangten Stimmdaten ausdrücken, und der Zeitdauer einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 24, wobei der die Übereinstimmung ausdrückender numerischer Wert einen Gradienten und/oder einen Abschnitt einer primären Funktion umfasst, die durch die primäre Regression zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, erhalten wird.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 24 oder 25, wobei der die Übereinstimmung ausdrückende numerische Wert einen Übereinstimmungskoeffizienten zwischen einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit, die die Stimmdaten ausdrücken, und einem Vorhersageergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, umfasst.
- Die Stimmdatenauswahlvorrichtung nach Anspruch 24 oder 25, wobei der die Übereinstimmung ausdrückende numerische Wert den Maximalwert des Übereinstimmungskoeffizienten zwischen einer Funktion, der verschiedene Bitzählungszyklenverschiebungen zu den Daten gegeben wird, die eine Zeitreihenveränderung der Tonhöhe einer Stimmeinheit ausdrücken, die die Stimmdaten ausdrücken, und einer Funktion, die ein Vorhersagergebnis einer Zeitreihenveränderung der Tonhöhe einer Stimmeinheit in dem Text, dessen Lesung der anbelangten Stimmeinheit gemein ist, ausdrückt, umfasst.
- Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 27, wobei das Datenspeicherungsmittel phonetische Daten speichert, die die Lesung der Stimmdaten, welche sie dabei mit den anbelangten Stimmdaten verbinden, ausdrücken; und wobei das Auswahlmittel Stimmdaten, mit denen die phonetischen Daten, die die Lesung ausdrücken, die mit der Lesung einer Stimmeinheit in dem Text übereinstimmt, verbunden sind, als Stimmdaten bearbeitet, die eine Wellenform einer Stimmeinheit ausdrücken, deren Lesung der anbelangten Stimmeinheit gemein ist.
- Die Stimmdatenauswahlvorrichtung nach jedem der Ansprüche 20 bis 28, wobei ein Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch gegenseitiges Kombinieren von ausgewählten Stimmdaten generiert.
- Eine Stimmdatenauswahlvorrichtung nach Anspruch 29, die Folgendes umfasst: ein Fehlstücksynthesemittel zum Synthetisieren von Stimmdaten, die eine Wellenform einer Stimmeinheit in Bezug zu einer Stimmeinheit ausdrücken, für die das Auswahlmittel nicht im Stande war, Stimmdaten unter Stimmeinheiten in dem Text auszuwählen, ohne Stimmdaten zu verwenden, die das Speicherungsmittel speichert, und wobei das Sprachsynthesemittel synthetische Sprache ausdrückende Daten durch Kombinieren von Stimmdaten, die das Auswahlmittel ausgewählt hat, mit Stimmdaten, die das Fehlstücksynthesemittel synthetisiert, generiert.
- Ein Stimmdatenauswahlvorrichtungsverfahren, wobei das Verfahren folgende Schritte umfasst: Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; Eingeben von Textinformationen, die einen Text ausdrücken; Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend eines Textes verbunden werden, den die Textinformationen ausdrücken; und Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
- Ein Programm, das einen Computer veranlasst, als Folgendes zu funktionieren: ein Datenspeicherungsmittel zum Speichern einer Vielzahl von Stimmdaten, die Stimmwellenformen ausdrücken; ein Textinformationseingabemittel zum Eingeben von Textinformationen, die einen Text ausdrücken; eine Suchsektion zum Suchen von Stimmdaten, die über ein Stück verfügen, dessen Lesung der einer Stimmeinheit in einem Text gemeinsam ist, den die Textinformationen ausdrücken; und ein Auswahlmittel zum Erhalten eines Bewertungswertes nach vorherbestimmten Bewertungskriterien auf der Basis einer Relation zwischen einander angrenzenden Stimmdaten, wenn die jeweils gesuchten Stimmdaten entsprechend eines Textes verbunden werden, den die Textinformationen ausdrücken, und zum Auswählen einer Kombination von ausgegebenen Stimmdaten auf der Basis des anbelangten Bewertungswertes.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003159880 | 2003-06-04 | ||
JP2003159880 | 2003-06-04 | ||
JP2003165582 | 2003-06-10 | ||
JP2003165582 | 2003-06-10 | ||
JP2004155306 | 2004-05-25 | ||
JP2004155306A JP4264030B2 (ja) | 2003-06-04 | 2004-05-25 | 音声データ選択装置、音声データ選択方法及びプログラム |
PCT/JP2004/008088 WO2004109660A1 (ja) | 2003-06-04 | 2004-06-03 | 音声データを選択するための装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
DE04735989T1 true DE04735989T1 (de) | 2006-10-12 |
Family
ID=33514559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE04735989T Pending DE04735989T1 (de) | 2003-06-04 | 2004-06-03 | Einrichtung, verfahren und programm zur auswahl von voice-daten |
Country Status (7)
Country | Link |
---|---|
US (1) | US20070100627A1 (de) |
EP (1) | EP1632933A4 (de) |
JP (1) | JP4264030B2 (de) |
KR (1) | KR20060015744A (de) |
CN (1) | CN1816846B (de) |
DE (1) | DE04735989T1 (de) |
WO (1) | WO2004109660A1 (de) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100411686C (zh) | 2001-04-11 | 2008-08-20 | 千寿制药株式会社 | 视觉功能障碍改善剂 |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
JP4516863B2 (ja) * | 2005-03-11 | 2010-08-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
JP5387410B2 (ja) * | 2007-10-05 | 2014-01-15 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP5093387B2 (ja) * | 2011-07-19 | 2012-12-12 | ヤマハ株式会社 | 音声特徴量算出装置 |
CN111506736B (zh) * | 2020-04-08 | 2023-08-08 | 北京百度网讯科技有限公司 | 文本发音获取方法、装置和电子设备 |
CN112669810B (zh) * | 2020-12-16 | 2023-08-01 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2761552B2 (ja) * | 1988-05-11 | 1998-06-04 | 日本電信電話株式会社 | 音声合成方法 |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JPH07319497A (ja) * | 1994-05-23 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置 |
JP3583852B2 (ja) * | 1995-05-25 | 2004-11-04 | 三洋電機株式会社 | 音声合成装置 |
JPH09230893A (ja) * | 1996-02-22 | 1997-09-05 | N T T Data Tsushin Kk | 規則音声合成方法及び音声合成装置 |
JPH1097268A (ja) * | 1996-09-24 | 1998-04-14 | Sanyo Electric Co Ltd | 音声合成装置 |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JPH11249679A (ja) * | 1998-03-04 | 1999-09-17 | Ricoh Co Ltd | 音声合成装置 |
JPH11259083A (ja) * | 1998-03-09 | 1999-09-24 | Canon Inc | 音声合成装置および方法 |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
JP2001013982A (ja) * | 1999-04-28 | 2001-01-19 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2001034284A (ja) * | 1999-07-23 | 2001-02-09 | Toshiba Corp | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
JP2001092481A (ja) * | 1999-09-24 | 2001-04-06 | Sanyo Electric Co Ltd | 規則音声合成方法 |
EP1224531B1 (de) * | 1999-10-28 | 2004-12-15 | Siemens Aktiengesellschaft | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
-
2004
- 2004-05-25 JP JP2004155306A patent/JP4264030B2/ja not_active Expired - Fee Related
- 2004-06-03 US US10/559,573 patent/US20070100627A1/en not_active Abandoned
- 2004-06-03 KR KR1020057023078A patent/KR20060015744A/ko not_active Application Discontinuation
- 2004-06-03 DE DE04735989T patent/DE04735989T1/de active Pending
- 2004-06-03 WO PCT/JP2004/008088 patent/WO2004109660A1/ja active Application Filing
- 2004-06-03 EP EP04735989A patent/EP1632933A4/de not_active Withdrawn
- 2004-06-03 CN CN2004800187934A patent/CN1816846B/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20070100627A1 (en) | 2007-05-03 |
CN1816846A (zh) | 2006-08-09 |
WO2004109660A1 (ja) | 2004-12-16 |
CN1816846B (zh) | 2010-06-09 |
EP1632933A4 (de) | 2007-11-14 |
EP1632933A1 (de) | 2006-03-08 |
KR20060015744A (ko) | 2006-02-20 |
JP2005025173A (ja) | 2005-01-27 |
JP4264030B2 (ja) | 2009-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602004000873T2 (de) | Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne | |
DE69731142T2 (de) | System zum Wiederauffinden von Dokumenten | |
Schneider | Judicial career incentives and court performance: an empirical study of the German labour courts of appeal | |
Bertrand et al. | Operations management research methodologies using quantitative modeling | |
CN100440092C (zh) | 生产管理系统 | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE06729295T1 (de) | Sprachsynthesevorrichtung, sprachsyntheseverfahren und entsprechendes programm | |
DE69413880T2 (de) | Verfahren zur Bestimmung der Sprachqualität bei Sprachsynthesen | |
DE04735989T1 (de) | Einrichtung, verfahren und programm zur auswahl von voice-daten | |
CN107480686B (zh) | 一种筛选机器学习特征的方法和装置 | |
DE69728413T2 (de) | Objektklassifizierungs- und identifikationssystem | |
DE04735990T1 (de) | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm | |
Volaric et al. | Integration of FAHP and TOPSIS methods for the selection of appropriate multimedia application for learning and teaching | |
DE69224764T2 (de) | Verfahren und Vorrichtung zur Beurteilung von automatischen Herstellungsmöglichkeiten | |
CN101449319A (zh) | 语音合成装置及其方法 | |
DE102016119174A1 (de) | Anzeigeinhalterzeugungsvorrichtung mit funktion zur unterstützung der erzeugung eines anwendungsanzeigeinhalts | |
DE102017009807A1 (de) | Informationsverarbeitungsvorrichtung | |
JPH05101107A (ja) | 適合率を用いた絞り込みデータ検索装置及び方法 | |
DE112010004797T5 (de) | Eingabeunterstützungsvorrichtung | |
Nababan et al. | The Effect of Job Training, Work Discipline and Career Development on Employee Performance at PT. Torpindo Concrete Galang | |
Yannou | Towards a web-based collaborative weighting method in project | |
DE68911719T2 (de) | Verfahren und Vorrichtung, die schlechte Leistung eines Rechnersystemes diagnostisiert. | |
CN108388972A (zh) | 一种综合技能评估方法及装置 | |
WO2021251815A1 (en) | An intellectual knowledge ideation management system | |
Generalov et al. | Problems of application of Pareto set for choosing optimal strategies of university development in world university rankings |