DE10127558A1

DE10127558A1 - Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit Überprüfung der Benutzungsberechtigung von Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen zur Synthese

Info

Publication number: DE10127558A1
Application number: DE10127558A
Authority: DE
Inventors: Holger R Scholl
Original assignee: Philips Corporate Intellectual Property GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2001-06-06
Filing date: 2001-06-06
Publication date: 2002-12-12
Also published as: US9092885B2; JP2004537785A; US20040148176A1; WO2002099784A1; JP4714410B2; EP1402515A1; DE60208199T2; DE60208199D1; ATE313845T1; EP1402515B1

Abstract

Die Erfindung bezieht sich auf ein Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung, bei dem die Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit einem Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil synthetisiert wird, falls ein Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese legimitiert.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Verarbeitung einer Textbeschreibung und ist von Bedeutung für das technische Gebiet der Text- und Sprachsynthese. In gleicher Weise bezieht sich die Erfindung aber auch auf ein Verfahren zur Verarbeitung einer Gestik-, Mimik- und/oder Verhaltensbeschreibung und ist daher auch von Bedeutung für die Synthese von Bildinformation.

Sprachsynthesesysteme, d. h. Systeme zur Überführung von geschriebenem Text in gesprochene Sprache, spielen in vielen Anwendungen eine Rolle. Beispiele sind telefonische Auskunfts- oder Transaktionssysteme, bei denen zunächst in Textform zusammengestellte Systemantworten einem Benutzer vorgelesen werden müssen. Konkrete Beispiele sind Systeme zur Fahrplan- oder Aktienkursauskunft und zum Kauf von Tickets oder Aktien. Weitere Anwendungen finden sich aber auch in den so genannten "Unified Messaging" Systemen, die dazu dienen, den Zugriff auf Dokumente über verschiedene Medien wie z. B. PC, Telefon, Bildtelefon und Faxgerät zu ermöglichen. Auch hier müssen in Text form vorliegende Dokumente einem über Telefon zugreifendem Benutzer vorgelesen werden.

Die Flexibilität insbesondere von automatischen Dialogsystemen wie den telefonischen Auskunfts- oder Transaktionssystemen kann über die Sprachsynthese hinaus weiter erhöht werden, indem man den Sprachsynthesesystemen noch eine Textsynthese vorschaltet. In diesem Fall fallen die vom System zu vermittelnden Informationen zunächst nur in Form reiner semantischer Informationseinheiten an, die dann erst vom Textsynthesesystem durch konkrete Wahl des Sprachstils, z. B. elaboriert oder restringiert, wortreich oder knapp, des Vokabulars, und/oder anderer Charakteristiken wie z. B. dem Höflichkeits niveau und/oder speziellen Charakteristika der Anwendung in einen Text umgesetzt werden.

So kann beispielsweise ein Telefonauskunftssystem zunächst auf eine Benutzeranfrage nur die Information "Ort: München, Vorwahl: 089, Vorname: Susanne, Name: Meyer, Geschlecht: weiblich, Telefonnummer: 45446538" aus einer Datenbank heraussuchen und dem Textsynthesesystem zur Verfügung stellen. Dieses kann daraus dann z. B. den Satz bilden: "Die von Ihnen gewünschte Telefonnummer von Frau Susanne Meyer lautet 45, 44, 65, 38. Die Vorwahl ist München, 089."

Eine solche Arbeitsteilung zwischen der Wissenskomponente eines automatischen Dialog systems, der Textsynthese und der Sprachsynthese erhöht die Flexibilität des Systement wurfs und der Systempflege bei später notwendig werdenden Änderungen erheblich und ist in praktischen Systemen daher weit verbreitet. So lässt sich durch diese Trennung z. B. ein solches System sehr viel leichter auf eine neue Sprache übertragen, da durch eine solche Übertragung z. B. die Wissenskomponente überhaupt nicht berührt wird.

Für die Zwecke einer kompakten Darstellung werden in dieser Anmeldung die der Text- und Sprachsynthese als Eingangsdaten zur Verfügung gestellten Rohinformationen als Textbeschreibung bezeichnet, und der Begriff der Sprachsynthese wird dahingehend erweitert, dass er auch den vorher als Textsynthese bezeichneten Schritt umfasst. Entsprechend bezeichnet der Ausdruck Sprachprofil die Gesamtheit der von den Sprach synthesesystemen zur Synthese benutzten weiteren Informationsquellen wie z. B. die oben erwähnten Elemente des Sprachstils, der Wortwahl, des Höflichkeitsniveaus und der An wendungscharakteristika. Je nach Ausgestaltung kann aber auch die Textbeschreibung neben den reinen semantischen Informationen auch bereits Anweisungen z. B. zur Text synthese enthalten. So kann in einem extremen Fall z. B. durch die Textbeschreibung doch bereits der Text vorgegeben werden, so dass das Sprachprofil im wesentlichen nur noch die Intonationsweise und die zur Sprachsynthese benutzte Stimme enthält. Die Begriffe Text beschreibung und Sprachprofil sollen daher in dieser Anwendung alle diese möglichen Ausgestaltungen umfassen.

Neben der Sprachsynthese von Textbeschreibungen ist auch die Bildsynthese von Gestik und/oder Mimik möglich. So ist es z. B. sinnvoll, um die Menge der zu übertragenden Daten zu reduzieren, bei Bildtelefonie die Bilder nur in stark komprimierter Form zu übertragen. Dabei lassen sich durch die Verwendung von Bilderkennung auf der Sender- und von Bildsynthese auf der Empfängerseite hohe Komprimierungsraten erreichen, da nur eine Bildbeschreibung übertragen werden muss. Analog zur Sprachsynthese ist es dabei nötig, dass auf der Empfängerseite analog zum Sprachprofil Gestik- und Mimikprofile vor handen sind, deren Charakteristiken für die Synthese benutzt werden. Zu einem solchen Gestik- und Mimikprofil können dann die Gesichtszüge und Körperkonturen einer bestimmten Person gehören. Die Profile können jedoch auch weitere auf ihre Gestik und Mimik bezogene Eigenheiten der Person umfassen, wie beispielsweise die Art, wie diese Person lächelt und wie sie eine bestimmte Handbewegung ausführt. Die Syntheseverfahren versuchen dann z. B., die synthetisierte Sprache, Gestik und Mimik echten Äußerungen dieser Person möglichst anzunähern.

In einer weiteren Stufe kann neben Sprache, Gestik und Mimik auch Verhalten synthe tisiert werden. Ein Beispiel für Verhalten ist die Problemlösestrategie einer Person oder eines Systems, also z. B. die Art, wie ein Bahnauskunftssystem die zur Auskunftserteilung benötigten Angaben zu Ausgangspunkt, Ziel und Zeitpunkt der gewünschten Verbindung erfragt. Verhalten erstreckt sich somit typischerweise über einen längeren Zeitraum der Interaktion eines Systems mit einem Benutzer. Analog zur Sprache, Gestik und Mimik lässt es sich aus einer Verhaltensbeschreibung mit Hilfe eines Verhaltensprofils synthe tisieren.

Die für eine Synthese benötigten Text-, Gestik-, Mimik- und/oder Verhaltensbeschrei bungen können direkt eingegeben werden oder aber auch durch einen Erkennungsvorgang aus Sprach- und/oder Bildsignalen gewonnen werden. Weiter ist es auch denkbar, bei Vor liegen einer Textbeschreibung eine dazu passende Gestik-, und/oder Mimikbeschreibung automatisch zu generieren. Bei Fragen könnten so z. B. die Augenbrauen hochgezogen und bei Ausrufen der Zeigefinger erhoben werden. Auch ließen sich entsprechende Gestik- und/oder Mimiksteueranweisungen, falls gewünscht auch zusammen mit Steueranweisun gen für die Sprachsynthese, in die Textbeschreibung integrieren. Umgekehrt könnten auch für bestimmte Gestik- und/oder Mimikereignisse geeignete Texte generiert werden. Ein erstauntes Gesicht könnte so den Ausruf "Oh!" generieren. Weiter ist offensichtlich, dass enge Beziehungen auch zwischen Verhalten, Sprache, Gestik und Mimik bestehen.

Kooperatives Verhalten ist so z. B. typisch bekleidet von höflichen Formulierungen, freundlichen Gesten und lächelnder Mimik.

Diese Beispiele zeigen, dass sich Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibun gen in vielfältiger Weise mit Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen synthe tisieren lassen, z. B. also eine Textbebeschreibung sowohl zu einer Sprachsynthese als auch zu einer Gestik- und/oder zu einer Mimiksynthese benutzt werden kann.

Wessen Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil für eine solche Synthese herangezogen wird, kann sich nach Art und Aufgabe der zu synthetisierenden Beschrei bung richten. Geht es beispielsweise um ein Bildtelefonat zwischen zwei Teilnehmer, so wird es der Normalfall sein, dass die Text-, Gestik-, Mimik- und Verhaltensbeschrei bungen mit den Profilen des jeweiligen Autors der Sendeseite auf der Empfängerseite synthetisiert werden. Als weitere Anwendung ist jedoch auch das Versenden akustisch und visuell animierter elektronischer Grußkarten denkbar. Z. B. könnte ein Absender für einen seiner Freunde ein für diesen Zweck eigens komponiertes Geburtstaglied selbst aufnehmen, für den Vortrag des Liedes bei seinem Freund jedoch das Profil eines bekannten Sängers auswählen. Auf der Empfängerseite könnten also Text-, Gestik-, Mimik- und Verhaltens beschreibung des Senders in eine audiovisuelle Darstellung umgesetzt werden, die den bekannten Sänger zeigt, wie er den Text des Senders mit Gestik, Mimik und Verhalten des Senders vorträgt. Je nach Wunsch des Senders oder auch Empfängers könnte zum Vortrag des Textes des Senders jedoch auch Gestik, Mimik und Verhalten des Sängers benutzt werden.

Neben den Profilen echter Personen könnten auch künstlich geschaffene Profile Ver wendung finden. So ist es z. B. bei einigen Internetanwendungen üblich, die Benutzer führung durch künstliche Charaktere, so genannte Avatare vornehmen zu lassen. Auch solche künstlich geschaffenen Profile sind für die Synthese von Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibungen benutzbar.

Die US 6,035,273 offenbart ein Sprachkommunikationssystem, das mit einer geringen Datenübertragungsrate auskommt. Dazu werden auf der Senderseite die sprachlichen Äußerungen des Senders einer Spracherkennung zugeführt und auf diese Weise in Text umgesetzt (speech to text). Der Text wird zur Empfängerseite übertragen, was eine geringe Datenrate von ungefähr 160-300 Bits pro Sekunde erfordert. Auf der Empfängerseite wird der Text mit dem Sprachprofil des Senders sprachsynthetisiert, d. h. wieder in Sprache umgewandelt (text to speech).

Um dazu der Empfängerseite das Sprachprofil des Senders zugänglich zu machen, nennt die US 6,035,273 mehrere Möglichkeiten. So kann z. B. der Sender sein Sprachprofil zusammen mit dem Text mitschicken. Das Sprachprofil kann aber auch in einer an einem Netzwerk angeschlossenen Einrichtung (remote CTD, incorporated into a switching system or other network element) gespeichert und über das Netzwerk vom Empfänger abgerufen werden. Weiter kann das Sprachprofil, statt mit dem Text mitgeschickt zu werden, auch separat z. B. vor der Textübertragung an den Empfänger übermittelt werden (transmit speech profiles between CTD's).

Während die US 6,035,273 die Nutzung von Spracherkennung und anschließender Sprachsynthese mit dem Sprachprofil des Senders als effiziente Übertragungstechnik für Sprachkommunikation offenbart, sieht sie jedoch keine Schutzmechanismen für die Benutzung des Sprachprofils vor. Denkt man aber z. B. an den möglichen Missbrauch solcher Sprachprofile, insbesondere im Zusammenhang mit den o. g. Einsatzmöglichkeiten der Sprachprofile bekannter Persönlichkeiten, so wird das Schutzbedürfnis von Sprach profilen schon aus Gründen des Persönlichkeitsschutzes offenbar. Z. B. könnte ein bekannter Sänger seine Sprach-, Gestik-, Mimik- und Verhaltensprofile nur gegen Bezah lung zur Verfügung stellen wollen und u. U. auch nur für die Darbietung ausgesuchter Text-, Gestik, Mimik- und/ oder Verhaltensbeschreibungen. Die freie Verfügbarkeit seiner Sprach-, Gestik-, Mimik- und Verhaltensprofile würde daher einem Missbrauch seines Selbstbestimmungsrechtes Tür und Tor öffnen. Entsprechendes gilt für den Schutz künst lich erstellter Profile z. B. von Avataren, in deren Entwicklung vielleicht viel Aufwand geflossen ist.

Aufgabe der Erfindung ist es daher, ein Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/ oder Verhaltensbeschreibung der eingangs genannten Art zu schaffen, das die Interessen der Besitzer der für die Sprach-, Gestik-, Mimik- und/oder Verhaltenssynthese zu benutzenden Sprach-, Gestik-, Mimik- und/oder Verhaltensprofile an einer kontrol lierten Verwendung ihrer Profile ausreichend berücksichtigt.

Diese Aufgabe wird gelöst einerseits durch ein

- Verfahren zur Verarbeitung einer Text-, Gestik, Mimik- und/oder Verhaltensbe schreibung, bei dem die Tat-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit einem Sprach-, Gestik-, Mimik- und/ader Verhaltensprofil synthetisiert wird, falls ein Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltens profils zur Synthese legitimiert,

und andererseits durch ein

- System, das zur Verarbeitung einer Text-, Gestik-, Mimik- und/ oder Verhaltens beschreibung vorgesehen ist, wobei die Text-, Gestik, Mimik- und/oder Verhaltens beschreibung mir einem Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil synthe tisiert wird, falls ein Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/ oder Verhaltensprofils zur Synthese legitimiert.

Durch die Einführung eines Berechtigungscodes in das Verfahren kann überprüft werden, ob ein Benutzer des Verfahrens eine Berechtigung zur Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese besitzt. Dadurch werden die Interessen der Besitzer der für die Sprach-, Gestik-, Mimik- und/oder Verhaltenssynthese zu benutzenden Sprach-, Gestik-, Mimik- und/oder Verhaltensprofile an einer kontrollierten Verwendung ihrer Profile gewahrt.

Anspruch 2 sieht eine Ausführungsform des Verfahrens vor, in dem überprüft wird, ob der Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltens profils zur Synthese einer konkret vorliegenden Text-, Gestik-, Mimik- und/oder Verhal tensbeschreibung legitimiert. Anspruch 3 beschreibt eine Ausgestaltung, in dem ein Berechtigungscode für eine vorgegebene Anzahl von Fällen zur Legitimation verwendet werden darE Dazu gehört beispielsweise der Fall, in dem ein Benutzer des Verfahrens einen Berechtigungscode erworben hat, der es ihm gestattet, die Sprach-, Gestik-, Mimik- und Verhaltensprofile eines bekannten Sängers 5-mal zu verwenden, oder auch der Fall, in dem der Benutzer diese Profnle nur 2-mal für die Synthese einer einzigen, durch den Berechtigungscode gekennzeichneten Text-, Gestik-, Mimik- und/oder Verhaltensbe schreibung verwenden darf.

Der Anspruch 4 beschreibt eine Ausführungsform, in welcher der Berechtigungscode in verschlüsselter Form im Verfähren verwendet wird. Dies lässt sich einerseits als Sicherheits maßnahme bei der Übertragung des Berechtigungscodes über ein Netzwerk einsetzen, um ein Abhören des Berechtigungscodes durch Unbefugte zu verhindern oder zumindest zu erschweren. Andererseits ergibt sich dadurch aber auch z. B. die Möglichkeit, bei einem Berechtigungscode, der gemäß Anspruch 2 nur die Synthese einer konkreten Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung legitimiert, die Integrität des Zusammenhangs zwischen Berechtigungscode und Text-, Gestik-, Mimik- und/oder Verhaltensbeschrei bung und Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil zu wahren, d. h. z. B. die Verwendung des Berechtigungscodes für einen gefälschten Text zu verhindern oder zumindest zu erschweren.

Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden an Hand der Ausführungsbeispiele und insbesondere an Hand der beigefügten Zeichnungen näher erläutert. Es zeigen:

Fig. 1 eine Ausführungsform eines Systemaufbaus, in dem ein erfindungsgemäßes Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung durchgeführt werden kann,

Fig. 2 den schematischen Ablauf des Erwerbs eines Berechtigungscodes zur Sprachsynthese eines Textes mit dem Sprachprofil einer bekannten Person in Form eines Flussdiagramms,

Fig. 3 den schematischen Ablauf einer Benutzung eines Berechtigungscodes zur Sprachsynthese eines Textes mit dem Sprachprofil einer bekannten Person und Versand des synthetisierten Textes an eine Zielrufnummer in Form eines Flussdiagramms,

Fig. 4a, 4b den schematischen Ablauf des Erstellens, Versendens, Empfangens und der Sprachsynthese eines Textes mit dem Sprachprofil des Textautors in Form zweier Flussdiagramme.

Die Fig. 1 zeigt eine Ausführungsform eines Systemaufbaus, in dem ein erfindungs gemäßes Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltens beschreibung durchgeführt werden kann. In ihr sind verschiedene Komponenten darge stellt, die unterschiedliche Möglichkeiten zur Benutzung des erfindungsgemäßen Ver fahrens bieten. Diese Komponenten können daher je nach einzelner Ausführungsform alle gemeinsam oder auch nur zum. Teil vorhanden sein.

Die in Fig. 1 dargestellten Geräte sind über ein Netzwerk 20, beispielsweise das Internet oder ein Telefonnetzwerk, drahtgebunden oder auch drahtlos miteinander verbunden. Dabei kann diese Verbindung über längere Zeit bestehen oder auch nur bei Bedarf wie z. B. im Falle eines Telefonats zeitweise hergestellt werden.

Es sind vier Geräte dargestellt, über die ein Benutzer mit dem Netzwerk 20 verbunden sein kann: ein öffentliches Benutzerterminal 10, ein Laptop 50, ein PC 60 und ein Telefon 70. Das öffentliche Benutzerterminal 10 verfügt über ein Display 11, eine Eingabetastatur 12, eine Mikrofon-/Lautsprecherkombination 13, einen Eingabeschlitz 14 für eine Chipkarte und eine Verarbeitungseinheit 42. Weiter sind an das Netzwerk 20 Verarbeitungsein heiten 40. . .41 und Datenspeicher 30. . .31 angeschlossen.

Mögliche erfindungsgemäße Benutzungsszenarien des in Fig. 1 dargestellten Systemaufbaus werden jetzt an Hand der in den folgenden Figuren dargebotenen Flussdiagramme beschrieben.

Fig. 2 zeigt den schematischen Ablauf des Erwerbs eines Berechtigungscodes zur Sprach synthese eines Textes mit dem Sprachprofil einer bekannten Person in Form eines Fluss diagramms. Im Startblock 101 nimmt ein Benutzer Kontakt zu einem erfindungsgemäßen System zur Textverarbeitung auf. Dazu stellt er z. B. an seinem heimischen PC 60 über das Internet 20 durch Eintippen einer entsprechenden Internetadresse eine Kommunikations verbindung zu einer Verarbeitungseinheit 40. . .41 her. Im Prozessblock 102 fragt ihn dann die Verarbeitungseinheit 40. . .41, was er tun möchte.

Die weitere Kontrolle verzweigt nach dem Entscheidungsblock 103, je nachdem, was der Benutzer möchte. Hier wird angenommen, dass der Benutzer einen Berechtigungscode erwerben will, der es ihm gestattet, einen bestimmten Text mehrmals mit dem Sprachprofil einer bekannten Person XY sprachsynthetisieren zu lassen. In diesem Fall verzweigt die Kontrolle zu Block 105, andernfalls zu dem hier nicht näher ausgeführten Block 104, der die anderen Benutzermöglichkeiten behandelt.

Im Block 105 fordert die Verarbeitungseinheit 40. . .41 den Benutzer auf, ihr den Namen der gewünschten bekannten Person zu übermitteln. Im Block 106 wird sodann geprüft, ob der Verarbeitungseinheit 40. . .41 die genannte Person bekannt ist. Ist dies nicht der Fall, so erfolgt im hier nicht näher ausgeführten Block 107 eine Alternativbehandlung. Andernfalls verzweigt die Kontrolle nach Block 106 zu Block 108.

In Block 108 wird der Benutzer dann sukzessive aufgefordert, den Text und die Anzahl der gewünschten Benutzungen des Sprachprofils der bekannten Person einzugeben sowie den Preis für den gewünschten Berechtigungscode zu bezahlen. Diese Bezahlung kann z. B. durch die Angabe einer Kreditkartennummer erfolgen. Bei Benutzung eines öffentlichen Benutzerterminals 10 anstelle des PCs 60 kann sie aber auch durch Einschieben beispiels weise einer Bezahlkarte in den Eingabeschlitz 14 des öffentlichen Benutzerterminals 10 abgewickelt werden. Bei dem Text kann es sich um eine Eigenkomposition des Benutzers handeln, der im Block 108 dann der Verarbeitungseinheit 40. . .41 übermittelt wird. Alternativ ist es aber auch denkbar, dass der Benutzer im Dialog mit der Verarbeitungs einheit 40. . .41 einen auf einem der Datenspeicher 30. . .31 vorbereiteten Text auswählt. Dabei kann es sich beispielshalber um ein allgemein bekanntes Geburtstagslied handeln.

Anschließend generiert die Verarbeitungseinheit 40. . .41 einen Berechtigungscode für die gewünschte Verwendung, z. B. in Form einer eindeutigen zufälligen Ziffernfolge, speichert diesen auf einem der Datenspeicher 30. . .31 und teilt ihn dem Benutzer mit. Wurde der Verarbeitungseinheit 40. . .41 hier Text vom Benutzer mitgeteilt, so kann auch dieser auf einem der Datenspeicher 30. . .31 gespeichert werden. Weiter werden auch die not wendigen Verwaltungsinformationen auf einem der Datenspeicher 30. . .31 gespeichert, die den Zusammenhang zwischen Berechtigungscode, Text und Sprachprofil der bekannten Person herstellen und die Anzahl der Benutzungen des Berechtigungscodes enthalten.

Im Block 110 wird der Benutzer schließlich nach weiteren Wünschen gefragt. Die Benutzerantwort wird im Block 111 ausgewertet. Hat der Benutzer weitere Wünsche, so wird die Kontrolle wieder an Block 103 zur Auswertung übergeben. Hat er dagegen keine weiteren Wünsche, so wird die Interaktion im Endblock 112 beendet.

Fig. 3 zeigt den schematischen Ablauf einer Benutzung eines Berechtigungscodes zur Sprachsynthese eines Textes mit dem Sprachprofil einer bekannten Person und Versand des synthetisierten Textes an eine Zielrufnummer in Form eines Flussdiagramms. Die Blöcke 201, 202, 203 und 204 entsprechen sinngemäß den Blöcken 101, 102, 103 und 104 der Fig. 2. Allerdings nehmen wir jetzt an, dass der Benutzer einen zuvor z. B. nach dem Schema der Fig. 2 erworbenen Berechtigungscode nutzen möchte, um den gewünsch ten Text mit dem Sprachprofil der gewünschten bekannten Person sprachsynthetisieren und anschließend an eine Telefonzielrufnummer seiner Wahl verschicken zu lassen. Um eine der Verarbeitungseinheiten 40. . .41 zu kontaktieren, kann er dazu beispielsweise einen Laptop 50, einen PC 60 oder ein Telefon 70 nutzen. Er kann aber auch ein öffent liches Benutzerterminal 10 nutzen und dann z. B. mit dessen lokaler Verarbeitungs einheit 42 zu kommunizieren, die sich bei Bedarf über das Netzwerk 20 mit einer der Verarbeitungseinheiten 40. . .41 in Verbindung setzen kann.

Im Block 205 fordert die Verarbeitungseinheit 40. . .41, 42 den Benutzer auf, den Berechtigungscode einzugeben. Je nach Systemausgestaltung und Anwendungsfall kann auch zur Eingabe einer eindeutigen Kennzeichnung der bekannten Person und/oder des Textes aufgefordert werden. Hier wird jedoch angenommen, dass der Berechtigungscode in einem Szenario entsprechend der Fig. 2 erworben wurde und eindeutig zu einer bekannten Person und einem bestimmten Text gehört und dieser Zusammenhang im System z. B. in einem der Datenspeicher 30. . .31 gespeichert ist. Alternativ könnte der Berechtigungs code aber auch nur das Sprachprofil kennzeichnen und z. B. die einmalige Synthese eines beliebigen Textes, der kürzer als eine Maximallänge ist, gestatten. Dann müsste an dieser Stelle natürlich der zu synthetisierende Text der Verarbeitungseinheit 40. . .41, 42 bekannt gemacht werden.

Im Block 206 wird die Gültigkeit des Berechtigungscodes für die gewünschte Verwendung geprüft. Je nach Anwendungsfall gehören zu dieser Prüfung die Fragen, ob der Berech tigungscode zu dem gewünschten Sprachprofil gehört, ob er zu dem zu synthetisierenden Text gehört, und ob der Berechtigungscode nicht bereits erschöpft ist, d. h. ob er bereits für die vorgesehene maximale Anzahl von Verwendungen benutzt wurde.

Ist der Berechtigungscode ungültig, so erfolgt im Block 207 eine hier nicht näher ausge führte weitere Behandlung der Interaktion. Ansonsten fordert die Verarbeitungseinheit 40 41, 42 den Benutzer im Block 208 auf, die Zielrufnummer anzugeben, an den der sprachsynthetisierte Text geschickt werden soll. Ebenfalls erfolgt in diesem Block die Sprachsynthese des Textes, die Anwahl der Telefonzielrufnummer, und das Vorlesen des sprachsynthetisierten Textes für einen sich auf dieser Zielrufnummer meldenden Teil nehmer.

Dabei kann dieser Block im einzelnen auf vielerlei Art ausgestaltet werden. Z. B. kann die Verarbeitungseinheit 40. . .41, 42 den Benutzer zunächst mit dem Teilnehmer verbinden, damit der Benutzer feststellen kann, ob sich auch der gewünschte Teilnehmer gemeldet hat, und er diesem ankündigen kann, dass die Verarbeitungseinheit 40. . .41, 42 ihm jetzt einen Text vorliest. Dabei kann der Benutzer z. B. bei Benutzung eines Telefons 70 durch Drücken der Erdtaste wieder eine Verbindung zur Verarbeitungseinheit 40. . .41, 42 erhalten. Statt dessen kann die Verarbeitungseinheit 40. . .41, 42 dem Teilnehmer aber auch selbst einen Ankündigungstext vorlesen. Sollte sich zunächst kein Teilnehmer melden, so kann die Verarbeitungseinheit 40. . .41, 42 nach einer Verzögerungszeit wieder versuchen, eine Verbindung zur Zielrufnummer herzustellen. Alternativ kann der Benutzer aber beispielsweise auch vorsehen, in diesem Fall den sprachsynthetisierten Text als Audio-Anhang an eine Email an eine Email-Adresse zu senden, die er dann natürlich dem System mitteilen muss.

Nach dem Block 208 entsprechen die weiteren Verarbeitungsstufen 210, 211 und 212 wieder sinngemäß den Blöcken 110, 111 und 112 der Fig. 2.

Die Fig. 4a und 4b zeigen den schematischen Ablauf des Erstellens, Versendens, Empfangens und der Sprachsynthese eines Textes mit dem Sprachprofil des Textautors in Form zweier Flussdiagramme.

Fig. 4a zeigt zunächst das Erstellen und Versenden eines Textes zusammen mit dem Sprachprofil des Textautors als Email. Nach dem Start im Block 301 wird im Block 302 der Text erstellt. Im Block 303 wird sodann ein Berechtigungscode generiert, der den Text und das Sprachprofil des Autors kennzeichnet. Um einen solchen Berechtigungscode zu erzeugen, können z. B. Text und Sprachprofil als eine fortlaufende Bitfolge dargestellt werden, die dann mit Hilfe eines Hashing-Verfahrens auf eine Zahl handhabbarer Größe abgebildet wird. Um nun die Integrität des Zusammenhangs zwischen Text, Sprachprofil und Berechtigungscode sicherzustellen, wird der Berechtigungscode ebenfalls noch im Block 303 nach einem asymmetrischen Verschlüsselungsverfahren wie beispielsweise dem RSA-Algorithmus mit dem privaten Schlüssel des Textautors verschlüsselt.

Im Block 304 wird der Text zusammen mit dem Sprachprofil des Autors, dem verschlüs selten Berechtigungscode und einer eindeutigen Kennung des Autors als Email verschickt. Der Prozess endet sodann im Block 305.

Fig. 4b zeigt Empfangen und Sprachsynthese des empfangenen Textes mit dem Sprach profil des Textautors. Nach dem Startblock 310 wird zunächst im Block 311 eine Email mit einem Text, dem Sprachprofil des Textautors, einem verschlüsselten Berechtigungs code und einer eindeutigen Kennung des Autors empfangen. Auch werden im Block 311 Text, Sprachprofil, verschlüsselter Berechtigungscode und Autorenkennung an ein erfindungsgemäßes Textverarbeitungssystem übergeben.

Dieses prüft im Block 312 die Gültigkeit des Berechtigungscodes. Dazu wird als erstes der verschlüsselte Berechtigungscode mit dem öffentlichen Schlüssel des Textautors ent schlüsselt. Gelingt dieser Entschlüsselungsvorgang und stimmt der entschlüsselte Berech tigungscode bei dem oben geschilderten Hashing-Verfahren mit dem Hashwert des über gegebenen Textes und Sprachprofils überein, so ist der Berechtigungscode gültig.

Ist der Berechtigungscode ungültig, so wird im hier nicht näher ausgeführten Block 313 eine weitere Behandlung der Interaktion mit dem Empfänger vorgenommen. Andernfalls erfolgt im Block 314 die Sprachsynthese des Textes mit dem Sprachprofil und die Audio ausgabe des synthetisierten Textes, worauf die Interaktion mit dem Empfänger im Block 315 beendet wird.

In den Fig. 4a und 4b stellt der mit dem privaten Schlüssel des Textautors verschlüsselte Berechtigungscode zusammen mit der eindeutigen Kennung des Autors eine Signatur zum Beweis der Authentizität des Textes und Sprachprofils dar, die ein erfindungsgemäßes Textverarbeitungssystem dazu benutzt, die Berechtigung der Benutzung des Sprachprofils zur Sprachsynthese des Textes zu prüfen.

In einer Abwandlung dieses Szenarios könnte ein Textautor generell die Benutzung seines Sprachprofils zur Sprachsynthese seiner Texte erlauben wollen. In diesem Falle würde es genügen, wenn der Textautor einmalig sein Sprachprofil einem auf der Empfängerseite eingesetztem erfindungsgemäßem Textverarbeitungssystem zur Speicherung zur Verfügung stellt und sodann nur noch seine Texte nach dem Stand der Technik signiert und ver sendet. Das auf der Empfängerseite eingesetzte erfindungsgemäße Textverarbeitungssystem benutzt dann den durch die Signatur erbrachten Authentizitätsnachweis eines Textes des Autors dazu, die Benutzung des Sprachprofils des Autors zur Sprachsynthese des Textes zu erlauben.

Die in den Fig. 2, 3, 4a und 4b dargestellten Benutzungsszenarien eines erfindungsge mäßen Textverarbeitungssystems sind nur Beispiele vieler weiterer denkbarer Varianten. So wird darauf hingewiesen, dass in den Fig. 2 und 3 eine stark dezentralisierte Architektur mit über ein Netzwerk 20 kommunizierenden Komponenten beschrieben wurde, während in den Fig. 4a und 4b ein eher lokales Szenario dargeboten wurde, bei dem alle notwen digen Aktionen lokal auf Sender- bzw. Empfängerseite erfolgen und ein Netzwerk nur zur Übermittlung einer Email verwendet wird. Es ist offensichtlich, dass sich diese Architek turen mischen lassen, im Falle der Fig. 4a und 4b also beispielshalber das Sprachprofil nicht notwendigerweise mit übertragen werden muss, wenn es statt dessen auf einem der Datenspeicher 30. . .31 vorhanden ist und die Empfängerseite es sich von dort beschaffen kann.

Weiter wurde aus Gründen der Kompaktheit in der Figurenbeschreibung immer nur von einem Textverarbeitungssystem gesprochen. Es ist jedoch offensichtlich, dass die Erfindung sich in gleicher Weise für die Verarbeitung einer Text-, Gestik-, Mimik- und/ oder Verhal tensbeschreibung eignet. Auch lässt sich die Erfindung gemeinsam mit Sprach-, Gestik, Mimik- und/oder Verhaltenserkennungssystemen einsetzen, welche die Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibungen mittels eines Erkennungsprozesses selbsttätig erstellen. Auch wird noch einmal auf die bereits eingangs erwähnten Möglichkeiten hin gewiesen, dass sich Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibungen in viel fältiger Weise mit Sprach-, Gestik-, Mimik- und/oder Verhaltensprofilen synthetisieren lassen.

Claims

1. Verfahren zur Verarbeitung einer Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung, bei dem die Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit einem Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil synthetisiert wird, falls ein Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese legitimiert.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit dem Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil synthetisiert wird, falls der Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese der Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung legitimiert.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Text-, Gestik, Mimik- und/oder Verhaltensbeschreibung mit dem Sprach-, Gestik, Mimik- und/oder Verhaltensprofil synthetisiert wird, falls die Anzahl der Fälle, in denen der Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese bereits legitimiert hat, kleiner als eine gegebene erste Anzahl ist, und/oder falls die Anzahl der Fälle, in denen der Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/ oder Verhaltensprofils zur Synthese der Text-, Gestik-, Mimik- und/oder Verhaltensbeschreibung bereits legitimiert hat, kleiner als eine gegebene zweite Anzahl ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Berechtigungscode verschlüsselt ist und im Verfahren entschlüsselt wird, wobei insbesondere ein asymmetrisches Kryptographieverfahren, insbesondere das RSA-Verfahren oder eine elliptische Kurve, zur Ver- und Entschlüsselung verwendet wird.

5. System, das zur Verarbeitung einer Text-, Gestik-, Mimik- undl oder Verhaltensbeschreibung vorgesehen ist, wobei die Tat-, Gestik-, Mimik- und/oder Verhaltensbeschreibung mit eünem Sprach-, Gestik-, Mimik- und/oder Verhaltensprofil synthetisiert wird, falls ein Berechtigungscode die Benutzung des Sprach-, Gestik-, Mimik- und/oder Verhaltensprofils zur Synthese legitimiert.