DE112006000322T5

DE112006000322T5 - Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten

Info

Publication number: DE112006000322T5
Application number: DE112006000322T
Authority: DE
Inventors: Toshihiro Kujirai; Takahisa Zama Tomoda; Minoru Atsugi Tomikashi; Takeshi Atsugi Oono
Original assignee: Xanavi Informatics Corp
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2005-02-04
Filing date: 2006-02-03
Publication date: 2008-04-03
Also published as: WO2006083020A1; US20080154591A1; JPWO2006083020A1; CN101111885A

Abstract

Spracherkennungssystem zur Herstellung einer Antwort auf der Grundlage der Eingabe einer von einem Benutzer geäußerten Sprache, mit:
einer Audioeingabeeinheit zum Umwandeln der durch den Benutzer geäußerten Sprache in Sprachdaten;
einer Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Berechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe;
einer Antworterzeugungseinheit zum Erzeugen einer Sprachantwort; und
einer Audioausgabeeinheit, um dem Benutzer Information unter Verwendung der Sprachantwort zu präsentieren,
wobei die Antworterzeugungseinheit konfiguriert ist, um:
Synthese-Audio für einen Begriff zu erzeugen, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt;
aus den Sprachdaten einen Teil zu extrahieren, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und
die Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, den extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten zu erzeugen.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Spracherkennungssystem, eine Spracherkennungsvorrichtung und ein Audioerzeugungsprogramm zur Herstellung einer Antwort auf der Grundlage der Eingabe einer Sprache eines Benutzers unter Verwendung einer Spracherkennungstechnik.
HINTERGRUND DER ERFINDUNG
In aktuellen Spracherkennungstechniken werden Muster zur Kollation durch das Lernen akustischer Modelle von Einheitsstandardmustern, die eine Äußerung auf der Grundlage einer großen Menge von Sprachdaten bilden, und durch Verbinden der akustischen Modelle der Einheitsstandardmuster nach Maßgabe eines Lexikons, das eine Vokabelgruppe darstellt, als Erkennungsziel erzeugt.
Beispielsweise werden Silben, ein Vokal-Normalteil, ein Konsonanten-Normalteil und ein subphonetisches Segment, das aus Übergangszuständen eines Vokal-Normalteils und eines Konsonanten-Normalteils zusammengesetzt ist, als die Einheitsstandardmuster verwendet. Weiterhin wird eine Technik verborgener Markow-Modelle (HMM) als Ausdrucksmittel der Einheitsstandardmuster angewendet.
Mit anderen Worten, die oben beschriebene Technik ist eine Musterabgleichstechnik zum Abgleichen von Standardmustern, die auf der Grundlage einer großen Menge von Daten mit Eingabesignalen erzeugt werden.
Weiterhin sind zum Beispiel in einem Fall, in dem zwei Sätze, „Lautstärke aufdrehen" und „Lautstärke herunterdrehen", ein Erkennungsziel sein sollen, ein Verfahren, bei dem jeder der Sätze als Ganzes als Erkennungsziel gesetzt ist, und ein Verfahren, bei dem Teile, die den Satz bilden und im Lexikon als Wörter und Kombinationen der Wörter registriert sind, als das Erkennungsziel gesetzt sind, bekannt.
Außerdem werden Benutzern Ergebnisse der Spracherkennung durch ein Verfahren zum Anzeigen einer Erkennungsergebniszeichenfolge auf einem Bildschirm, ein Verfahren zum Umwandeln der Erkennungsergebniszeichenfolge in Synthese-Audio durch Audiosynthese und Wiedergeben des Synthese-Audio oder ein Verfahren der Wiedergabe von Audio, das zuvor aufgezeichnet worden ist, gemäß dem Erkennungsergebnis mitgeteilt.
Des Weiteren ist, anstatt dass das Ergebnis der Spracherkennung einfach mitgeteilt wird, auch ein Verfahren bekannt, das die Anzeige von Zeichen einschließlich eines Satzes zur Bestätigung, wie etwa „Heißt es richtig" vor einem Wort oder einem Satz, das bzw. der als Erkennungsergebnis erhalten worden ist, oder die Verwendung von Synthese-Audio beinhaltet, um dadurch mit einem Benutzer zu interagieren.
Weiterhin werden bei den aktuellen Spracherkennungstechniken als das Erkennungsergebnis Wörter, die den von dem Benutzer geäußerten Wörtern am ähnlichsten sind, aus einem Vokabular, das als Erkennungszielvokabular registriert ist, und eine Ausgabezuverlässigkeit, die ein Maß für die Zuverlässigkeit des Erkennungsergebnisses ist, gewählt.
Als Beispiel eines Verfahrens zur Berechnung der Zuverlässigkeit eines Erkennungsergebnisses offenbart JP 04-255900 A eine Spracherkennungstechnik zum Berechnen einer Ähnlichkeit zwischen einem Merkmalsvektor V einer Eingabesprache und mehreren Standardmustern, die zuvor registriert worden sind, durch eine Vergleichskollationseinheit 2. Zu diesem Zeitpunkt wird ein Standardmuster, das einen maximalen Ähnlichkeitswert S liefert, als Erkennungsergebnis ermittelt. Gleichzeitig vergleicht und kollationiert eine Bezugsähnlichkeitsberechnungseinheit 4 den Merkmalsvektor V mit dem Standardmuster, das durch Verbinden der Einheitsstandardmuster in einer Einheitsstandardmuster-Speichereinheit 3 gebildet wird. Hier wird der maximale Wert der Ähnlichkeit als Bezugsähnlichkeit R ausgegeben. Dann verwendet eine Ähnlichkeitskorrektureinheit 5 die Bezugsähnlichkeit R zur Korrektur der Ähnlichkeit S. Die Zuverlässigkeit kann somit durch die Ähnlichkeit berechnet werden.
Als Verwendungsverfahren für die Zuverlässigkeit ist ein Verfahren bekannt, bei dem, wenn die Zuverlässigkeit des Erkennungsergebnisses niedrig ist, einem Benutzer mitgeteilt wird, dass die Erkennung nicht normal ausgeführt worden ist.
Weiterhin offenbart JP 06-110650 A eine Technik, bei der durch Registrieren von Mustern, die nicht als Schlüsselwörter dienen können, wenn es schwierig ist, alle Schlüsselwortmuster zu registrieren, da die Anzahl von Schlüsselwörtern wie etwa Namen groß ist, ein Schlüsselwortteil extrahiert wird, und der Schlüsselwortteil, der durch Aufzeichnen einer von einem Benutzer geäußerten Sprache erhalten worden ist, wird mit Audio, das von einem System geliefert wird, kombiniert, um dadurch eine Sprachantwort zu erzeugen.
ZUSAMMENFASSUNG DER ERFINDUNG
Wie vorstehend beschrieben, kann ein aktuelles Spracherkennungssystem auf der Grundlage einer Musterabgleichtechnik mit einem Lexikon eine fehlerhafte Erkennung, bei der eine Äußerung eines Benutzers mit anderen Wörtern im Lexikon verwechselt wird, nicht vollständig verhindern. Weiterhin ist es bei einem Verfahren, bei dem eine Kombination von Wörtern als Erkennungsziel gesetzt wird, notwendig, richtig zu erkennen, welcher Teil der Äußerung des Benutzers welchem Wort entspricht. Somit gibt es Fälle, bei denen, da ein falscher Teil als einem bestimmten Wort entsprechend erkannt worden ist, andere Wörter aufgrund einer Ausbreitungswirkung einer Abweichung in der Korrespondenz ebenfalls falsch erkannt werden. Ferner ist es in einem Fall, in dem ein Wort geäußert wird, das nicht im Lexikon registriert ist, theoretisch unmöglich, das geäußerte Wort richtig zu erkennen.
Um die unvollkommene Erkennungstechnik, wie vorstehend beschrieben, effektiv zu nutzen, ist es notwendig, dem Benutzer präzise mitzuteilen, welcher Teil der Äußerung des Benutzers richtig erkannt und welcher Teil davon nicht richtig erkannt worden ist. Jedoch ist die Anforderung durch ein konventionelles Verfahren zur Mitteilung einer Erkennungsergebniszeichenfolge durch einen Bildschirm oder durch Audio an den Benutzer oder durch bloßes Benachrichtigen des Benutzers, dass eine Erkennung nicht normal ausgeführt worden ist, in einem Fall niedriger Zuverlässigkeit nicht ausreichend erfüllt worden.
Die vorliegende Erfindung ist angesichts der oben angeführten Probleme gemacht worden und ihre Aufgabe ist daher die Bereitstellung eines Spracherkennungssystems zur Erzeugung eines Rückkopplungs-Audios zur Benachrichtigung eines Benutzers unter Verwen dung, entsprechend der Zuverlässigkeit von jedem Wort, das ein Spracherkennungsergebnis bildet, von Synthese-Audio für Wörter mit hoher Zuverlässigkeit und, in einem Fall von Wörtern mit niedriger Zuverlässigkeit, unter Verwendung von Bruchteilen einer Äußerung des Benutzers, die den Wörtern entsprechen.
Gemäß einem repräsentativen Aspekt der vorliegenden Erfindung wird ein Spracherkennungssystem zum Bewirken einer Antwort auf der Grundlage der Eingabe einer von einem Benutzer geäußerten Sprache zur Verfügung gestellt, mit: einer Audioeingabeeinheit zum Umwandeln der durch den Benutzer geäußerten Sprache in Sprachdaten; einer Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Berechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe; einer Antworterzeugungseinheit zum Erzeugen einer Sprachantwort; und einer Audioausgabeeinheit, um dem Benutzer Information unter Verwendung der Sprachantwort zu präsentieren. Die Antworterzeugungseinheit ist konfiguriert, um: Synthese-Audio für einen Begriff zu erzeugen, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt; aus den Sprachdaten einen Teil zu extrahieren, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und die Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, den extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten zu erzeugen.
Gemäß einem Aspekt der vorliegenden Erfindung kann ein Spracherkennungssystem zur Verfügung gestellt werden, mit dem ein Benutzer instinktiv verstehen kann, welcher Teil einer Äußerung des Benutzers erkannt worden ist und welcher Teil davon nicht erkannt worden ist. Ferner kann ein Spracherkennungssystem bereitgestellt werden, mit dem der Benutzer verstehen kann, dass die Sprach erkennung nicht normal ausgeführt worden ist, da die fehlerhafte Bestätigung durch das Spracherkennungssystem auf eine solche Weise wiedergegeben wird, dass der Benutzer instinktiv eine Anormalität verstehen kann, beispielsweise auf eine solche Art, dass Bruchteile der Äußerung Benutzers, die diesem mitgeteilt werden sollen, in ihrer Mitte unterbrochen werden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das eine Struktur eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
2 ist ein Flussdiagramm, das eine Betätigung einer Antworterzeugungseinheit gemäß der Ausführungsform der vorliegenden Erfindung zeigt.
3 ist ein Diagramm, das ein Beispiel einer Sprachantwort gemäß der Ausführungsform der vorliegenden Erfindung zeigt.
4 ist ein Diagramm, das ein weiteres Beispiel der Sprachantwort gemäß der Ausführungsform der vorliegenden Erfindung zeigt.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Nachstehend wird ein Spracherkennungssystem gemäß einer Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.
1 ist ein Blockdiagramm, das eine Struktur des Spracherkennungssystems gemäß der Ausführungsform der vorliegenden Erfindung zeigt.
Das Spracherkennungssystem gemäß der vorliegenden Erfindung beinhaltet eine Audioeingabeeinheit 101, eine Spracherkennungseinheit 102, eine Antworterzeugungseinheit 103, eine Audioausgabeeinheit 104, eine Akustikmodell-Speichereinheit 105 und eine Lexikon/ Grammatik-Speichereinheit 106.
Die Audioeingabeeinheit 101 empfangt eine von einem Benutzer geäußerte Sprache und wandelt die Sprache in Sprachdaten in einem Digitalsignalformat um. Die Audioeingabeeinheit 101 besteht beispielsweise aus einem Mikrofon und einem A/D-Wandler, und eine Sprachsignaleingabe durch das Mikrofon wird durch den A/D-Wandler in ein digitales Signal umgewandelt. Das umgewandelte digitale Signal (Sprachdaten) wird an die Spracherkennungseinheit 102 oder die Sprachhalteeinheit 105 übertragen.
Die Akustikmodell-Speichereinheit 105 speichert eine Datenbank einschließlich eines Akustikmodells. Die Akustikmodell-Speichereinheit 105 besteht zum Beispiel aus einem Festplattenlaufwerk oder einem ROM.
Das Akustikmodell ist Daten, die ausdrücken, welche Art von Sprachdaten aus Äußerungen des Benutzers in einem statistischen Modell erhalten werden. Das Akustikmodell wird auf der Grundlage von Silben (zum Beispiel in Einheiten von „a", „i" und dergleichen) modelliert. Eine Einheit eines subphonetischen Segments kann zusätzlich zu Einheiten in Silben als Einheit zum Modellieren verwendet werden. Die Einheit des subphonetischen Segments ist Daten, die durch Modellieren eines Vokals, eines Konsonanten und von Stille als einem normalen Teil und durch Modellieren eines Teils in der Mitte einer Verschiebung zwischen den verschiedenen normalen Teilen, wie etwa von dem Vokal zum Konsonanten und vom Konsonanten zur Stille als Übergangsteil erhalten werden. Zum Beispiel wird der Begriff „aki" wie folgt geteilt: „Stille", „Stille, a", „a", „ak", „k", „ki", „i", „i, Stille" und „Stille". Weiterhin wird ein HMM oder dergleichen als Verfahren für die statistische Modellierung angewendet.
Die Lexikon/Grammatik-Speichereinheit 106 speichert Lexikondaten und Grammatikdaten zur Erkennung. Die Lexikon/Grammatik-Speichereinheit 106 besteht zum Beispiel aus einem Festplattenlaufwerk oder einem ROM.
Die Lexikondaten und die Grammatikdaten sind einzelne Informationen, die auf Kombinationen mehrerer Begriffe und Sätze bezogen sind. Insbesondere sind die Lexikondaten und die Grammatikdaten einzelne Daten zum Bezeichnen eines Wegs zur Kombinierung der oben beschriebenen Akustik-modellierten Einheiten, um einen wirksamen Begriff oder Satz zu konstruieren. Die Lexikondaten sind Daten, die eine Kombination von Silben wie in dem oben beschriebenen Beispiel, das das Wort „aki" verwendet, bezeichnen. Die Grammatikdaten sind Daten, die eine Gruppe von Kombinationen von Begriffen bezeichnen, die von dem System zu akzeptieren sind. Beispielsweise ist es, damit das System zum Beispiel die Äußerung „Geh zum Bahnhof Tokio" akzeptiert, notwendig, dass eine Kombination aus den drei Begriffen „Geh", „zum" und „Bahnhof Tokio" in den Grammatikdaten enthalten ist. Zusätzlich wird jedem in den Grammatikdaten gespeicherten Begriff eine Klassifizierungsinformation gegeben. Beispielsweise kann der Begriff „Bahnhof Tokio" als „Ort" klassifiziert werden und der Begriff „Geh" kann als „Befehl" klassifiziert werden. Weiterhin wird der Begriff „zum" als „Nicht-Schlüsselwort" klassifiziert. Die Begriffe, die eine Klassifizierung als „Nicht-Schlüsselwort" haben, be einflussen keine Betätigung des Systems, selbst wenn sie erkannt werden. Im Gegensatz dazu ist ein Begriff, der eine andere Klassifizierung als das „Nicht-Schlüsselwort" aufweist, ein Schlüsselwort, das, wenn es erkannt wird, das System bei einer Betätigung beeinflusst. Wenn beispielsweise ein als „Befehl" klassifizierter Begriff erkannt wird, erfolgt das Aufrufen einer Funktion, die dem erkannten Begriff entspricht. Dadurch kann ein als der „Ort" erkannter Begriff in der aufgerufenen Funktion als Parameter verwendet werden.
Die Spracherkennungseinheit 102 erfasst ein Erkennungsergebnis auf der Grundlage der durch die Audioeingabeeinheit umgewandelten Sprachdaten und berechnet deren Ähnlichkeit. Die Spracherkennungseinheit 102 erfasst unter Verwendung der Lexikondaten oder der Grammatikdaten, die in der Lexikon/Grammatik-Speichereinheit 106 gespeichert sind, und der in der Akustikmodell-Speichereinheit 105 gespeicherten Akustikmodelle einen Begriff oder einen Satz, bei dem die Bezeichnung einer Kombination von Akustikmodellen auf der Grundlage der Sprachdaten vorgenommen worden ist. Eine Ähnlichkeit zwischen dem erfassten Wort oder Satz und den Sprachdaten wird berechnet. Dann wird das Erkennungsergebnis des Worts oder Satzes mit hoher Ähnlichkeit ausgegeben.
Es sollte beachtet werden, dass ein Satz mehrere Begriffe beinhaltet, die den Satz bilden. Danach wird jedem der Begriffe, die das Erkennungsergebnis bilden, Zuverlässigkeit gegeben und die Zuverlässigkeit wird zusammen mit dem Erkennungsergebnis ausgegeben.
Die Ähnlichkeit kann unter Anwendung eines Verfahrens berechnet werden, das in JP 04-255900 A offenbart ist. Zusätzlich kann beim Berechnen der Ähnlichkeit durch Verwendung eines Viterbi-Algorithmus ermittelt werden, welchem Teil der Sprachdaten jeder der das Erkennungsergebnis bildenden Begriffe zuzuordnen ist, so dass die Ähnlichkeit am höchsten wird. Unter Verwendung des Viterbi-Algorithmus wird die Abschnittsinformation, die einen Teil der jedem Begriff zugeordneten Sprachdaten angibt, zusammen mit dem Erkennungsergebnis ausgegeben. Insbesondere werden Sprachdaten, die jedes vorgegebene Intervall (zum Beispiel 10 Millisekunden) (wird als Rahmen bezeichnet) erhalten werden, und Information in einem Fall, in dem die Ähnlichkeit bezüglich der Zuordnung des den Begriff bildenden subphonetischen Segments am größten gemacht werden kann, ausgegeben.
Die Antworterzeugungseinheit 103 erzeugt Sprachantwortdaten auf der Grundlage des mit Zuverlässigkeit versehenen Erkennungsergebnisses, das aus der Spracherkennungseinheit 102 ausgegeben worden ist. Die von der Antworterzeugungseinheit 103 ausgeführte Verarbeitung wird später beschrieben.
Die Audioausgabeeinheit 104 wandelt die Sprachantwortdaten in einem von der Antworterzeugungseinheit 103 erzeugten Digitalsignalformat in Audio um, das von Menschen verstanden werden kann. Die Audioausgabeeinheit 104 besteht beispielsweise aus einem Digital/Analog (D/A)-Wandler und einem Lautsprecher. Eingegebene Audiodaten werden durch den D/A-Wandler in ein analoges Signal umgewandelt und das umgewandelte analoge Signal (Sprachsignal) wird durch den Lautsprecher an den Benutzer ausgegeben.
Als Nächstes wird eine Betätigung der Antworterzeugungseinheit 103 beschrieben.
2 ist ein Flussdiagramm, das die durch die Antworterzeugungseinheit 103 ausgeführte Verarbeitung zeigt.
Die Verarbeitung wird bei Ausgabe eines Erkennungsergebnisses ausgeführt, dem von der Spracherkennungseinheit 102 Zuverlässigkeit gegeben wird.
Zuerst wird Information über ein in dem eingegebenen Erkennungsergebnis enthaltenes erstes Schlüsselwort ausgewählt (S1001). Das Erkennungsergebnis besteht aus Zeitreihen-Begriffseinheiten der ursprünglichen Sprachdaten, die auf Grundlage der Abschnittsinformation unterteilt sind. Daher wird ein Schlüsselwort am Anfang der Zeitreihe ausgewählt. Ein als das „Nicht-Schlüsselwort" klassifizierter Begriff beeinflusst die Sprachantwort nicht und wird deshalb ignoriert. Weiterhin werden, da dem Erkennungsergebnis für jeden Begriff Zuverlässigkeit und Abschnittsinformation gegeben wird, die dem Begriff gegebene Zuverlässigkeit und Abschnittsinformation ausgewählt.
Als Nächstes erfolgt eine Beurteilung, ob die Zuverlässigkeit des ausgewählten Schlüsselworts gleich einem oder höher als ein vorgegebener Schwellwert ist (S1002). Wenn beurteilt wird, dass die Zuverlässigkeit gleich dem oder höher als der Schwellwert ist, geht die Verarbeitung zu Schritt S1004 weiter. Wenn beurteilt wird, dass die Zuverlässigkeit unter dem Schwellwert liegt, geht die Verarbeitung zu Schritt S1003 weiter.
Wenn beurteilt wird, dass die Zuverlässigkeit des ausgewählten Schlüsselworts gleich dem oder höher als der vorgegebene Schwellwert ist, bedeutet dies, dass die Kombination der von den Lexikondaten oder den Grammatikdaten bezeichneten Akustikmodelle gleich der Äußerung der eingegebenen Sprachdaten ist und dass das Schlüsselwort erfolgreich erkannt ist. In diesem Fall wird das Synthese-Audio des Schlüsselworts des Erkennungsergebnisses synthetisiert, um das Synthese-Audio in Sprachdaten umzuwandeln (S1003). Die tatsächliche Audiosynthese-Verarbeitung wird in diesem Schritt ausgeführt. Jedoch kann die Audiosynthese-Verarbeitung kollektiv in der Sprachantworterzeugungsverarbeitung des Schritts S1008 mit einem von dem System vorbereiteten Antwortsatz ausgeführt werden. In beiden Fällen kann durch Verwendung derselben Audiosynthesemaschine das mit hoher Zuverlässigkeit erkannte Schlüsselwort mit der gleichen Klangqualität wie derjenigen des von dem System vorbereiteten Antwortsatzes natürlich synthetisiert werden.
Wenn andererseits beurteilt wird, dass die Zuverlässigkeit des ausgewählten Schlüsselworts niedriger als der vorgegebene Schwellwert ist, bedeutet dies, dass die Kombination der durch die Lexikondaten oder die Grammatikdaten bezeichneten Akustikmodelle von der Äußerung der eingegebenen Sprachdaten weitaus unterschiedlich ist und dass das Schlüsselwort nicht erfolgreich erkannt ist. In diesem Fall wird das Synthese-Audio nicht erzeugt und die Benutzer-Äußerung wird so, wie sie ist, als die Sprachdaten verwendet. Insbesondere werden Teile der Sprachdaten, die den Begriffen entsprechen, unter Verwendung der Abschnittsinformation, die den Begriffen des Erkennungsergebnisses bereitgestellt wird, extrahiert. Die extrahierten einzelnen Sprachdaten werden auszugebende Sprachdaten (S1004). Da Teile mit einer niedrigen Zuverlässigkeit eine Klangqualität aufweisen, die sich von derjenigen des durch das System vorbereiteten Antwortsatzes oder des Teils mit hoher Zuverlässigkeit unterscheiden, kann der Benutzer dementsprechend leicht verstehen, welcher Teil der Sprachdaten ein Teil mit niedriger Zuverlässigkeit ist.
Durch Ausführen der Schritte S1003 und S1004 können Sprachdaten, die den Schlüsselwörtern des Erkennungsergebnisses entsprechen, ermittelt werden. Danach werden die Sprachdaten als Daten gespeichert, die mit den Begriffen des Erkennungsergebnisses korreliert sind (S1005).
Als Nächstes wird eine Beurteilung darüber vorgenommen, ob das eingegebene Erkennungsergebnis ein nächstes Schlüsselwort beinhaltet (S1006). Da Begriffe im Erkennungsergebnis in Zeitreihen aus den ursprünglichen Sprachdaten erhalten werden, wird eine Beurteilung darüber vorgenommen, ob es ein Schlüsselwort nächst dem Schlüsselwort gibt, das durch die Schritte S1002 bis S1005 verarbeitet worden ist. Wenn beurteilt wird, dass es ein nächstes Schlüsselwort gibt, wird das nächste Schlüsselwort ausgewählt (S1007). Dann werden die oben beschriebenen Schritte S1002 bis S1006 ausgeführt.
Wenn andererseits beurteilt wird, dass es kein nächstes Schlüsselwort gibt, bedeutet dies, dass alle die im Erkennungsergebnis eingeschlossenen Schlüsselwörter Sprachdaten gegeben worden sind, die dem Schlüsselwort entsprechen. Somit wird die Sprachantworterzeugungsverarbeitung unter Verwendung des Erkennungsergebnisses ausgeführt, das mit den Sprachdaten versehen ist (S1008).
Bei der Sprachantworterzeugungsverarbeitung werden unter Verwendung der einzelnen Sprachdaten, die alle den im Erkennungsergebnis enthaltenen Schlüsselwörtern zugeordnet sind, Sprachantwortdaten zur Mitteilung an den Benutzer erzeugt.
In der Sprachantworterzeugungsverarbeitung werden zum Beispiel einzelne den jeweiligen Schlüsselwörtern zugeordnete Sprachdaten kombiniert oder einzelne zusätzlich vorbereitete Sprachdaten werden kombiniert, um dadurch eine Sprachantwort zum Benachrichtigen des Benutzers über das Spracherkennungsergebnis oder einen Teil, bei dem die Spracherkennung versagt hat (Schlüsselwort, dessen Zuverlässigkeit den vorgegebenen Schwellwert nicht erfüllt), zu erzeugen.
Ein Verfahren zur Kombinierung der Sprachdaten variiert in Abhängigkeit von der Interaktion, die zwischen dem System und dem Benutzer stattfindet, und der Situation. Somit ist es notwendig, ein Programm oder ein Interaktionsszenario zum Ändern des Verfahrens zur Kombinierung der Sprachdaten nach Maßgabe der Situationen zu verwenden.
In der vorliegenden Ausführungsform wird die Sprachantworterzeugungsverarbeitung anhand der folgenden Beispiele beschrieben.

(1) Der Benutzer äußert „Omiya-Park in Saitama".
(2) Die Begriffe, die das Erkennungsergebnis bilden, sind die drei Begriffe „Omiya-Park", „in" und „Saitama", und die zwei Schlüsselwörter sind „Omiya-Park" und „Saitama".
(3) Nur „Saitama" ist der Begriff mit einer höheren Zuverlässigkeit als der vorgegebene Schwellwert.

Als Erstes wird ein erstes Verfahren beschrieben. Das erste Verfahren ist ein Verfahren, um dem Benutzer das Erkennungsergebnis der von dem Benutzer geäußerten Sprache anzuzeigen. Unter Bezugnahme auf 3 werden insbesondere Sprachantwortdaten, die durch Zusammenstellen der dem Schlüsselwort des Erkennungsergebnisses entsprechenden Sprachdaten und der Sprachdaten einschließlich der vom System vorbereiteten Wörter zur Bestätigung, wie etwa „in" oder „Heißt es richtig", erzeugt.
Beim ersten Verfahren wird durch eine Kombination aus den Sprachdaten „Saitama", die durch Audiosynthese erzeugt werden (in 3 mit einer Unterstreichung angegeben), den aus den Sprachdaten der Äußerung des Benutzers extrahierten Sprachdaten „Omiya-Park" (in 3 kursiv gezeigt) und den durch Audiosynthese erzeugten Sprachdaten „in" und „Heißt es richtig" (in 3 mit einer Unterstreichung gezeigt) eine Sprachantwort erzeugt, und eine Antwort an den Benutzer wird unter Verwendung der erzeugten Sprachantwort hergestellt. Mit anderen Worten, der Teil „Omiya-Park" mit einer niedrigeren Zuverlässigkeit als dem vorgegebenen Schwellwert und mit der Möglichkeit, fehlerhaft erkannt zu werden, wird so, wie er ist, in einer von dem Benutzer geäußerten Sprache zur Antwort ausgegeben.
Mit der oben beschriebenen Struktur hört der Benutzer beispielsweise, selbst wenn die Spracherkennungseinheit 102 „Omiya-Park" fälschlich als „Owada-Park" erkennt, die Sprache „Omiya-Park" von ihm/ihr selbst als Sprachantwort geäußert. Dementsprechend kann bestätigt werden, ob das von der Audiosynthese erzeugte Erkennungsergebnis des Begriffs unter den Erkennungsergebnissen, das heißt, der Begriff („Saitama") mit einer Zuverlässigkeit, die gleich dem oder höher als der vorgegebene Schwellwert ist, richtig ist, und es kann bestätigt werden, ob der Begriff mit einer Zuverlässigkeit, die niedriger als der vorgegebene Schwellwert ist („Omiya-Park"), korrekt im System aufgezeichnet ist. Wenn beispielsweise ein Endteil der Äußerung des Benutzers nicht korrekt aufgezeichnet ist, hört der Benutzer eine Frage wie etwa „Heißt es richtig" „Omiya-Park” „in" „Saitama?”. Somit kann der Benutzer verstehen, ob die Abschnittsinformation von jedem von dem System bestimmten Begriff korrekt bestimmt und aufgezeichnet ist, so dass der Benutzer eine erneute Eingabe versuchen kann.
Dieses Verfahren ist beispielsweise in einem Fall zu bevorzugen, in dem eine Aufgabe zur Organisierung mündlicher Fragebogen-Erhebungen bezüglich beliebter Parks für jede Präfektur unter Verwendung des Spracherkennungssystems durchgeführt wird. In diesem Fall kann das Spracherkennungssystem automatisch nur die Anzahl der Fälle für jede Präfektur entsprechend den Spracherkennungsergebnissen organisieren. Weiterhin wird der Teil „Omiya-Park" des Erkennungsergebnisses mit niedriger Zuverlässigkeit bearbeitet, indem ein Verfahren angewendet wird, das einen Telefonisten beinhaltet, der das Wort hört und das Wort nachher eingibt.
Daher kann beim ersten Verfahren der Teil der Sprache des Benutzers, der richtig erkannt worden ist, durch den Benutzer bestätigt werden und der Benutzer kann bestätigen, ob der Teil der Sprache, der nicht richtig erkannt worden ist, korrekt im System aufgezeichnet ist.
Als Nächstes wird ein zweites Verfahren beschrieben. Das zweite Verfahren ist ein Verfahren zum Stellen einer Anfrage an den Benutzer über nur den Teil, dessen Erkennungsergebnis zweifelhaft ist. Insbesondere ist, unter Bezugnahme auf 4, das zweite Verfahren ein Verfahren zum Kombinieren von Sprachdaten zur Bestätigung, wie etwa „Konnte den Teil xx nicht verstehen", mit den Sprachdaten „Omiya-Park" des Erkennungsergebnisses mit niedriger Zuverlässigkeit.
Beim zweiten Verfahren werden die aus den Sprachdaten der Äußerung des Benutzers extrahierten Sprachdaten „Omiya-Park" (in 4 kursiv gezeigt) und die durch Audiosynthese erzeugten Sprachdaten „Konnte den Teil nicht verstehen" (in 4 mit einer Unterstreichung angegeben) kombiniert, um eine Sprachantwort zu erzeugen, und eine Antwort an den Benutzer wird unter Verwendung der erzeugten Sprachantwort hergestellt. Mit anderen Worten, der Teil „Omiya-Park", der die niedrigere Zuverlässigkeit als der vorgegebene Schwellwert hat und die Möglichkeit aufweist, fehlerhaft erkannt zu werden, wird so, wie er ist, in einer Sprache, die von dem Benutzer geäußert wurde, als Antwort ausgegeben. Dann wird dem Benutzer mitgeteilt, dass die Spracherkennung fehlgeschlagen ist. Danach wird Audio ausgegeben, um den Benutzer anzuweisen, die Sprache erneut einzugeben, oder dergleichen.
Es sollte beachtet werden, dass, wenn der Teil „Omiya-Park" als Erkennungsergebnis als zwei Teile „Omiya" und „Park" erkannt wird und die Zuverlässigkeit des Teils „Park" allein gleich dem oder höher als der vorgegebene Schwellwert ist, ein Antwortverfahren, wie es unten beschrieben wird, verwendet werden kann. Insbesondere wird, nachdem eine Antwort durch die Kombination aus den Sprachdaten „Omiya-Park" der Äußerung des Benutzers und den durch Audiosynthese erzeugten Sprachdaten „Nicht erkennbar", Audio wie etwa „Welcher Park ist es?" oder „Bitte wie Amanuma-Park sprechen" erzeugt und als Antwort ausgegeben, um dadurch den Benutzer zur erneuten Äußerung aufzufordern. Es sollte beachtet werden, dass der letztere Fall vorzugsweise vermieden wird, da die Verwendung des Begriffs „Omiya-Park" des Erkennungsergebnisses mit niedriger Zuverlässigkeit als Beispiel für eine Antwort den Benutzer verwirren kann.
Daher ist es beim zweiten Verfahren möglich, dem Benutzer präzise mitzuteilen, welcher Teil der Äußerung des Benutzers erkannt worden ist und welcher Teil der Äußerung des Benutzers nicht erkannt worden ist. Weiterhin werden in dem Fall, in dem der Benutzer „Omiya-Park in Saitama" äußert, wenn die Zuverlässigkeit des Teils „Omiya-Park" wegen Umgebungsgeräuschen niedrig wird, die Umgebungsgeräusche im Teil „Omiya-Park" der Sprachantwort aufgezeichnet. Somit kann der Benutzer leicht verstehen, dass die Umgebungsgeräusche die Ursache der fehlerhaften Erkennung sind. In diesem Fall kann sich der Benutzer überlegen, die Äußerung zu einem Zeitpunkt zu versuchen, zu dem die Umgebungsgeräusche leise sind, sich an einen Ort mit weniger Umgebungsgeräuschen zu begeben oder, wenn sich der Benutzer im Auto befindet, das Auto abzustellen, um den Einfluss der Umgebungsgeräusche zu reduzieren.
Zusätzlich wird, wenn die Sprachendaten nicht erfasst werden, weil die Äußerung des Teils „Omiya-Park" zu leise ist, der von dem Benutzer gehörte Teil der Sprachantwort, der dem „Omiya-Park" entspricht, Stille, wodurch der Benutzer leicht verstehen kann, dass der Teil „Omiya-Park" von dem System nicht erfasst worden ist. In diesem Fall kann sich der Benutzer überlegen, die Äußerung mit lauterer Stimme zu versuchen oder die Äußerung zu probieren, indem er den Mund nahe an das Mikrofon bringt, um sicherzustellen, dass die Sprache erfasst wird.
Wenn die Begriffe des Erkennungsergebnisses fälschlich in Begriffe wie „Saitama", „in O" und „miya-Park" geteilt werden, hört der Benutzer ferner „miya-Park" in der Sprachantwort. Daher kann der Benutzer leicht erfahren, dass das System bei der Zuordnung der Sprache versagt hat. Selbst wenn das Spracherkennungsergebnis ein Fehler ist, wenn der Begriff für einen äußerst ähnlichen Begriff gehalten wird, kann der Benutzer die fehlerhafte Erkennung verzeihen, da sie wahrscheinlich auch bei Interaktionen zwischen Menschen auftreten kann. Wenn jedoch der Begriff fälschlich als Begriff erkannt wird, der sich in der Aussprache völlig unterscheidet, können beim Benutzer große Zweifel an der Leistung des Spracherkennungssystems aufkommen.
Wie vorstehend beschrieben, kann der Benutzer durch Mitteilung des Versagens bei der Zuordnung an den Benutzer die Ursache der fehlerhaften Erkennung vorhersagen und es kann erwartet werden, dass der Benutzer die Konsequenz bis zu einem gewissen Grad akzeptiert.
Weiterhin weist in den oben beschriebenen Beispielen zumindest der Teil „Saitama" der Begriffe die Zuverlässigkeit auf, die gleich dem oder höher als der vorgegebene Schwellwert ist und wird somit korrekt erkannt. Somit sind Daten der Lexikon/Grammatik-Speichereinheit 106, die von der Spracherkennungseinheit 102 zu verwenden sind, auf Inhalte begrenzt, die auf die Parks in der Präfektur Saitama bezogen sind. Mit der vorstehend beschriebenen Begrenzung nimmt die Erkennungsgeschwindigkeit des Teils „Omiya-Park" bei der nächsten Spracheingabe (zum Beispiel der nächsten Äußerung eines Benutzers) zu.
Das folgende Verfahren wird als Verfahren zur Erhöhung der Erkennungsgeschwindigkeit anderer Teile von Sprachdaten der Äußerung des Benutzers unter Verwendung eines Teils, der mit hoher Zuverlässigkeit erkannt wird, beschrieben.
Insbesondere, wenn das System Äußerungen von Benutzern, wie etwa „yy in der Präfektur xx" in den Fragebogen-Erhebungen, die nicht nur den Namen der Parks, sondern auch verschiedene Einrichtungen betreffen, unterstützen soll, wird die Anzahl der Kombinationen extrem groß, wodurch die Erkennungsgeschwindigkeit der Spracherkennung reduziert wird. Zusätzlich sind Verarbeitungsmengen des Systems und eine in dem System notwendige Speicherkapazität nicht praktisch. Somit wird zuerst der Teil „xx" erkannt, anstatt den Teil „yy" richtig zu erkennen. Dann wird der Teil „yy" durch Verwenden der erkannten „Präfektur xx" und die für die Präfektur xx spezialisierten Lexikondaten und Grammatikdaten erkannt.
Die Erkennungsgeschwindigkeit des Teils „yy" nimmt unter Verwendung der für die „Präfektur xx" spezialisierten Lexikondaten und Grammatikdaten zu. In diesem Fall, wenn alle Begriffe in den Sprachdaten der Äußerung des Benutzers richtig erkannt sind und die Zuverlässigkeit jener Begriffe gleich dem oder höher als der vorgegebene Schwellwert ist, wird die gesamte Sprachantwort durch Audiosynthese erhalten. Daher kann der Benutzer empfinden, dass das System imstande ist, die Äußerung „yy in der Präfektur xx" bezüglich verschiedener Einrichtungen in verschiedenen Präfekturen zu erkennen.
Wenn andererseits die Zuverlässigkeit des Ergebnisses der Erkennung des Teils „yy" unter Verwendung der für die „Präfektur xx" spezialisierten Lexikondaten und Grammatikdaten niedriger als der vorgegebene Schwellwert ist, wie oben beschrieben, wird eine Sprachantwort wie etwa „Konnte nicht verstehen den" „Teil yy" durch Extrahieren der Sprachdaten der Äußerung des Benutzers erzeugt, wodurch der Benutzer zur erneuten Äußerung veranlasst wird.
Als Verfahren zur Erkennung von lediglich dem Teil „xx" gibt es ein Verfahren, bei dem eines der einzelnen Lexikondaten der Lexikon/Grammatik-Speichereinheit 106 eine Beschreibung (Müll) enthält, die Kombinationen verschiedener Silben ausdrückt. Mit anderen Worten, eine Kombination aus <Müll> <in> <Name der Präfektur> wird als Kombination der Grammatikdaten verwendet. Der Teil Müll ersetzt Namen von Einrichtungen, die im Lexikon nicht registriert sind.
Weiterhin weisen die Kombinationen von Silben, die den Namen von Einrichtungen bilden, die in Japan existieren, eine Art von Eigenschaften auf. Beispielsweise erscheint eine Kombination wie etwa „Bahnhof" häufiger als eine Kombination wie etwa „Bahnhf". Durch Verwendung dieser Tatsache wird eine Häufigkeit des Auftretens nebeneinander liegender Silben aus der Angabe von Einrichtungsnamen ermittelt und es wird bewirkt, dass die Kombination von Silben mit hoher Häufigkeit des Auftretens eine große Ähnlichkeit hat, wo durch die Präzision von nebeneinander liegenden Silben als Ersatz von Einrichtungsnamen verbessert werden kann.
Wie oben beschrieben worden ist, kann das Spracherkennungssystem gemäß der Ausführungsform der vorliegenden Erfindung eine Sprachantwort erzeugen, mit der der Benutzer instinktiv verstehen kann, welcher Teil der Spracheingabe durch den Benutzer erkannt worden ist und welcher Teil davon nicht erkannt worden ist, um dadurch eine Antwort unter Verwendung der erzeugten Sprachantwort zu geben. Zusätzlich wird es möglich, zu verstehen, dass die Spracherkennung nicht normal ausgeführt worden ist, da der Teil, der nicht richtig spracherkannt worden ist, in einer solchen Weise wiedergegeben wird, dass der Benutzer die Anormalität instinktiv verstehen kann, beispielsweise auf solche Art, dass das Audio zur Mitteilung an den Benutzer in seiner Mitte unterbrochen wird, da das Audio Bruchteile der Äußerung des Benutzers selbst beinhaltet.
ZUSAMMENFASSUNG
Bereitgestellt werden ein Spracherkennungssystem zur Herstellung einer Antwort auf der Grundlage einer Eingabe einer von einem Benutzer geäußerten Sprache mit: einer Audioeingabeeinheit zum Umwandeln der geäußerten Sprache in Sprachdaten, einer Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Berechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe; eine Antworterzeugungseinheit zum Erzeugen einer Sprachantwort; und einer Audioausgabeeinheit, um dem Benutzer Information unter Verwendung der Sprachantwort zu präsentieren. Die Antworterzeugungseinheit: erzeugt Synthese-Audio für einen Begriff, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt; extrahiert aus den Sprachdaten einen Teil, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und erzeugt die Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, den extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten.

Claims

Spracherkennungssystem zur Herstellung einer Antwort auf der Grundlage der Eingabe einer von einem Benutzer geäußerten Sprache, mit: einer Audioeingabeeinheit zum Umwandeln der durch den Benutzer geäußerten Sprache in Sprachdaten; einer Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Berechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe; einer Antworterzeugungseinheit zum Erzeugen einer Sprachantwort; und einer Audioausgabeeinheit, um dem Benutzer Information unter Verwendung der Sprachantwort zu präsentieren, wobei die Antworterzeugungseinheit konfiguriert ist, um: Synthese-Audio für einen Begriff zu erzeugen, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt; aus den Sprachdaten einen Teil zu extrahieren, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und die Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, den extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten zu erzeugen.
Spracherkennungssystem nach Anspruch 1, wobei die Antworterzeugungseinheit weiterhin konfiguriert ist, um: ein Synthese-Audio zum Veranlassen einer Bestätigung der von dem Benutzer geäußerten Sprache zu erzeugen; und die Sprachantwort durch Hinzufügen des erzeugten Synthese-Audios zur Kombination der Sprachdaten zu erzeugen.
Spracherkennungssystem nach Anspruch 1, wobei die Antworterzeugungseinheit weiterhin konfiguriert ist, um: aus den Sprachdaten den Teil zu extrahieren, der dem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; eine Synthese-Audio zum Veranlassen einer Bestätigung des Begriffs zu erzeugen, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und die Sprachantwort durch Hinzufügen der vorgegebenen Sprachantwort zu den extrahierten Sprachdaten zu erzeugen.
Spracherkennungssystem nach irgendeinem des Anspruchs 1, weiterhin mit einer Lexikon/Grammatik-Speichereinheit zum Speichern von Lexikondaten und Grammatikdaten, die zum Erkennen der Sprachdaten eingesetzt werden, wobei die Spracherkennungseinheit konfiguriert ist, um: vorzugsweise mindestens einen der Begriffe, die die Sprachdaten bilden, zu erkennen; die Lexikondaten und die Grammatikdaten, die den Begriff betreffen, nach der Erkennung aus der Lexikon/Grammatik-Speichereinheit zu erfassen; und weitere Begriffe unter Verwendung der erfassten Lexikondaten und der erfassten Grammatikdaten zu erkennen.
Spracherkennungsvorrichtung zum Erzeugen einer Sprachantwort auf der Grundlage der Eingabe einer Sprache, mit: einer Audioeingabeeinheit zum Umwandeln der von einem Benutzer geäußerten Sprache in Sprachdaten; einer Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Be rechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe; und einer Antworterzeugungseinheit zum Erzeugen einer Sprachantwort; wobei die Antworterzeugungseinheit konfiguriert ist, um: Synthese-Audio für einen Begriff zu erzeugen, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt; aus den Sprachdaten einen Teil zu extrahieren, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und die Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, den extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten zu erzeugen.
Audioerzeugungsprogramm zur Erzeugung einer Sprachantwort auf der Grundlage einer Eingabe einer von einem Benutzer geäußerten Sprache, das in einem System ausgeführt wird, welches eine Audioeingabeeinheit zum Umwandeln der von dem Benutzer geäußerten Sprache in Sprachdaten, eine Spracherkennungseinheit zum Erkennen einer Kombination von Begriffen, die die Sprachdaten bilden, und zum Berechnen der Zuverlässigkeit der Erkennung von jedem der Begriffe, eine Antworterzeugungseinheit zum Erzeugen einer Sprachantwort und eine Audioausgabeeinheit, um dem Benutzer Information unter Verwendung der Sprachantwort zu präsentieren, beinhaltet, wobei das Audioerzeugungsprogramm Folgendes umfasst: einen ersten Schritt des Erzeugens von Synthese-Audio für einen Begriff, dessen berechnete Zuverlässigkeit eine vorgegebene Bedingung erfüllt; einen zweiten Schritt des Extrahierens eines Teils aus den Sprachdaten, der einem Begriff entspricht, dessen berechnete Zuverlässigkeit die vorgegebene Bedingung nicht erfüllt; und einen dritten Schritt des Erzeugens der Sprachantwort auf der Grundlage von mindestens einem von dem Synthese-Audio, der extrahierten Sprachdaten und einer Kombination aus dem Synthese-Audio und den extrahierten Sprachdaten.