JP3672800B2 - 音声入力通信システム - Google Patents
音声入力通信システム Download PDFInfo
- Publication number
- JP3672800B2 JP3672800B2 JP2000184475A JP2000184475A JP3672800B2 JP 3672800 B2 JP3672800 B2 JP 3672800B2 JP 2000184475 A JP2000184475 A JP 2000184475A JP 2000184475 A JP2000184475 A JP 2000184475A JP 3672800 B2 JP3672800 B2 JP 3672800B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- user
- phoneme
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 title claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 176
- 230000005540 biological transmission Effects 0.000 claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000012546 transfer Methods 0.000 abstract description 4
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000010365 information processing Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
- Telephone Function (AREA)
Description
【発明の属する技術分野】
この発明は、通信回線を介した情報サービスやホームネットを介した情報サービスやホームネットを介した機器制御を音声によって行う音声入力通信システムに関する。
【0002】
【従来の技術】
従来より、ユーザが、センターシステムと通信回線を介して音声によって情報交換を行うことができる情報処理システムがある。図11は、従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートを示す。図11において、ステップS1で、ユーザ端末側に音声波形が入力される。ステップS2で、上記入力された音声波形データが通信回線を介してセンターシステム側へ送信される。そうすると、ステップS3で、上記センターシステム側で波形分析が行われる。そして、ステップS4で音素認識が行われ、ステップS5で単語認識が行われ、ステップS6で文認識が行われる。こうして、言語処理の結果得られた音声入力文に従って、ステップS7でアプリケーションプログラムが実行されるのである。
【0003】
このように、従来の音声入力情報処理システムにおいては、音声波形データをセンターシステム側へ通信回線を介して送信するため、ユーザの音声に歪みが生じ、上記センターシステム側での音声認識が困難である。さらに、多数のユーザに対応するために不特定話者音声認識を使用する場合には、認識性能の低い話者がある確率で存在することになる。
【0004】
上述のような問題点を解決するために、特定話者音声認識機能または話者適応済み音声認識機能をユーザ端末側に用意し、認識に必要な語彙文法情報をセンターシステム側から通信回線を介してユーザ端末側へ送って音声認識を行う音声入力情報処理システム(例えば、特開平8‐6589号公報)がある。図12は、このような音声入力情報処理システムによる音声認識/情報処理動作のフローチャートを示す。
【0005】
ステップS11で、ユーザ端末側とセンターシステム側とで語彙文法情報通信が行われ、センターシステム側からユーザ端末側に、認識に必要な語彙文法情報が送信される。ステップS12で、ユーザ端末側に音声波形が入力される。ステップS13で、波形分析が行われる。ステップS14で、話者適用化音素認識が行われ、ステップS15で単語認識が行われ、ステップS16で文認識が行われて認識結果がセンターシステム側に送信される。ステップS17で、センターシステム側で、上記ユーザ端末側で得られた音声入力文に従ってアプリケーションプログラムが実行されるのである。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来の音声認識機能をユーザ端末側に用意する音声入力情報処理システムには、以下のような問題がある。すなわち、この音声入力情報処理システムにおいては、高い音声認識性能を実現することは可能である。しかしながら、アプリケーションが変わる度に、アプリケーションに応じた語彙と文法に関する情報をセンターシステム側から通信回線を介してユーザ端末側へ送る必要があり、語彙文法情報の情報量に比して通信回線の通信速度が遅い場合には、上記アプリケーションの切替時に発生する情報転送のための待ち時間が煩わしいという問題がある。
【0007】
さらに、語彙数が数千語以上になると実時間処理に要するプロセッサの処理速度を上げる必要が生ずるために、ユーザ端末が携帯電話やPDA(パーソナル・ディジタル・アシスタント)等のモバイル機器である場合には、消費電力の面で問題がある。
【0008】
そこで、この発明の目的は、消費電力が低いユーザ端末からの音声入力であっても高い認識性能を得ることができる音声入力通信システムを提供することにある。
【0009】
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、ユーザ端末を有するユーザシステムとセンターシステムとが第1の通信回線を介して接続され,上記ユーザ端末から上記センターシステムに対して音声によって指示を行なう音声入力通信システムにおいて、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を機能単位に分割し、分割された個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持すると共に、上記ユーザシステム側に保持された部分音声指示認識処理手段は話者適応化済みの音素認識あるいは音節認識を行う一方,上記センターシステム側に保存された部分音声指示認識処理手段は上記音素認識あるいは音節認識の認識結果に対して言語処理を行って最終的な音声指示内容を得るようになっており、上記センターシステムは複数存在し、各センターシステムには、語彙文法情報が格納された語彙文法メモリと、上記言語処理を行う言語処理手段と、互いに異なるアプリケーションプログラムの実行処理部とが搭載されていることを特徴としている。
【0010】
上記構成によれば、センターシステムに音声指示認識処理手段の音声認識機能,単語認識および文認識機能等の全機能を置いた場合のように、ユーザシステムから上記センターシステムに第1の通信回線を介して入力音声波形を送信する必要がない。したがって、上記入力音声波形の送信歪みに起因する音声指示の認識率の低下が防止される。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置いた場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、音声指示の切替り時に上記語彙文法情報を送信する間の待ち時間がなく、迅速な音声指示の認識が行われる。さらに、上記ユーザシステムの認識処理負荷が低減される。
【0011】
さらに、複数のセンターシステムの夫々は、上記音素認識あるいは音節認識の認識結果を受信すると指示文の認識を一斉に開始し、認識した指示文の内容から自分当ての指示ではないと判断した場合には以後の処理を停止し、自分当ての指示であると判断したセンターシステムによってアプリケーションプログラムが実行される。
【0012】
また、上記第1の発明の音声入力通信システムは、上記ユーザシステムに上記ユーザ端末に第2の通信回線を介して接続されたユーザ側システムを設け、このユーザ側システムを上記第1の通信回線を介して上記センターシステムに接続することが望ましい。
【0013】
上記構成によれば、上記ユーザシステムで保持する部分音声指示認識処理手段を、更に上記ユーザ端末とユーザ側システムとで分散して保持することが可能になる。したがって、上記ユーザ端末の認識処理負荷がさらに低減され、処理速度を上げることができる。その結果、上記ユーザ端末が携帯電話やPDA等の消費電力が低いモバイル機器であっても、語彙数が多い音声指示文にも十分対処することが可能になる。
【0014】
また、上記第1の発明の音声入力通信システムは、上記ユーザシステムに、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第1の通信回線を介して上記センターシステムに送信する送信制御手段を備えることが望ましい。
【0015】
上記構成によれば、上記ユーザシステムにおいて、音声認識手段によって入力音声が認識されて中間認識結果が得られ、この中間認識結果が送信制御手段によって第1の通信回線を介して上記センターシステムに送信される。こうして、音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果が通信回線を介して送信されて、認識率の低下が防止される。
【0016】
また、上記第1の発明の音声入力通信システムは、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラティスあるいは音節ラティスとすることが望ましい。
【0017】
上記構成によれば、音声波形を送信する場合に比して送信歪みの少ない中間認識結果が、音素ラティスあるいは音節ラティスとして容易に得られる。
【0018】
また、上記第1の発明の音声入力通信システムは、上記中間認識結果として、上記音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることが望ましい。
【0019】
上記構成によれば、上記中間認識結果として分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることによって、上記音素認識手段の処理負荷が小さくなる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することが可能になる。
【0020】
また、上記第1の発明の音声入力通信システムは、上記第1の通信回線と第2の通信回線とを、異なる種類の通信回線にすることが望ましい。
【0021】
上記構成によれば、例えば、上記ユーザシステムと上記センターシステムとを接続する第1の通信回線をWAN(ワイド・エリア・ネットワーク)とし、上記ユーザシステムにおいて上記ユーザ端末とユーザ側システムとを接続する第2の通信回線をLAN(ローカル・エリア・ネットワーク)とすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して、音声によって指示を行うことが可能になる。
【0022】
また、上記第1の発明の音声入力通信システムは、少なくとも一つのセンターシステムに設けられて,ユーザが発声すべき発声内容の音声合成制御パラメータを生成し,上記第1の通信回線を介してユーザシステムに送信する発声指示手段と、上記ユーザシステムにおける上記ユーザ端末に設けられて,上記第1の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて,入力された音声の波形を分析して入力音声の特徴を抽出し,上記第1の通信回線を介してセンターシステムに送信する波形分析手段と、上記発声指示手段が設けられたセンターシステムに設けられて,上記第1の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えることが望ましい。
【0023】
上記構成によれば、センターシステムの発声指示手段から送信された発声内容の音声合成制御パラメータに基づいて、上記ユーザシステムの音声合成手段によって、上記発声内容の合成音声が出力される。そして、この合成音声による発声内容に従ってユーザが発声した音声の特徴が、上記ユーザシステムの波形分析手段によって抽出されて上記センターシステムに送信される。そして、上記センターシステムの話者認識手段によって、上記入力音声の特徴に基づいて話者が認識される。
【0024】
こうして、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第1の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識が行われる。したがって、特定ユーザによる音声指示である場合にのみ当該音声指示応じた処理を実行することが可能になる。
【0025】
【発明の実施の形態】
以下、この発明を図示の実施の形態によって詳細に説明する。
<第1実施の形態>
図1は、本実施の形態の音声入力通信システムにおける基本構成を示すブロック図である。図1において、1はユーザシステムであり、2はセンターシステムである。ユーザシステム1とセンターシステム2とは通信回線3によって接続されている。
【0026】
上記ユーザシステム1とセンターシステム2とには音声指示認識処理手段4,5が搭載されており、音声指示認識処理手段4は入力された音声データを処理する一方、音声指示認識処理手段5は前段の音声指示認識処理手段4の処理結果をさらに処理する。また、上記ユーザシステム1には、上記音声指示認識処理手段4による処理結果を後段のセンターシステム2に通信回線3を介して送信する送信制御手段6が搭載されている。また、上記センターシステム2には、通信回線3を介して前段の音声指示認識処理手段4による処理結果を受信する受信制御手段7と、自段の音声指示認識処理手段5による処理結果を音声指示内容として出力する出力制御手段8が搭載されている。
【0027】
ここで、上記ユーザシステム1およびセンターシステム2に搭載されている音声指示認識処理手段4・5,送信制御手段6,受信制御手段7,出力制御手段8は、個別のLSI(大規模集積回路)で構築してもよい。あるいは、ユーザシステム1及びセンターシステム2の夫々を、CPU(中央演算処理装置)と通信機能とを有する周辺端末で構成しても差し支えない。また、通信回線3は、LANおよびWANの何れであっても、有線および無線の何れであっても差し支えない。以下、通信回線3はWANである場合を例に説明する。
【0028】
上記ユーザシステム1およびセンターシステム2に搭載されている音声指示認識処理手段4,5は、全体で、ユーザシステム1に入力された音声による指示を認識して音声指示内容を得るようになっている。その場合、ユーザシステム1の音声指示認識処理手段4では、例えば、入力された音声波形を分析し、音素認識あるいは音節認識を行う。そして、中間認識結果として音素ラティスあるいは音節ラティスを出力する。
【0029】
一方、上記ユーザシステム1にWANである通信回線3で接続されたセンターシステム2の音声指示認識処理手段5では、例えば、受信した音素ラティスあるいは音節ラティス等の中間認識結果に対して言語処理を行う。そして、最終的な音声指示内容を得るようになっているのである。
【0030】
ところで、上記ユーザシステム1およびセンターシステム2は、搭載している音声指示認識処理手段4,5の各機能を単位として複数に分割し、通信回線で接続しても差し支えない。また、他の処理システムを追加してもよい。例えば、ユーザシステム1の場合について言えば、音声指示認識処理手段4は入力音声波形の分析機能と音素認識(あるいは音節認識)機能とを有している。そこで、入力音声の波形分析処理を行う音声指示認識処理手段を搭載した第1装置と、音素認識(または音節認識)処理を行う音声指示認識処理手段を搭載した第2装置とに分割し、通信回線で接続する。そして、第1装置側には波形分析結果を送信する送信制御手段を搭載し、第2装置側には上記波形分析結果を受信する受信制御手段を搭載するのである。
【0031】
但し、その場合における上記第1装置の音声指示認識処理手段と第2装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第1装置側の音声指示認識処理手段は、単に入力された音声波形をディジタル化して処理結果として出力する。そして、上記第2装置側の音声指示認識処理手段で、波形分析処理と音素認識処理(または音節認識処理)との両方を行って、処理結果として音素ラティス(または音節ラティス)の中間認識結果を出力してもよい。この場合、上記第1,第2装置間の通信回線はLAN等とすることによって音声波形の通信歪みを極小さくできる。あるいは、上記第1装置側の音声指示認識処理手段で、波形分析処理と音素認識処理(または音節認識処理)との両方を行って、処理結果として音素ラティス(または音節ラティス)の中間認識結果を上記第2装置に送信してもよい。
【0032】
また、上記センターシステム2の場合について言えば、音声指示認識処理手段5は単語認識機能と文認識機能とを有している。そこで、単語認識処理を行う音声指示認識処理手段を搭載した第3装置と、文認識処理を行う音声指示認識処理手段を搭載した第4装置とに分割し、通信回線で接続する。そして、第3装置側には単語認識結果(単語ラティス)を送信する送信制御手段を搭載し、第4装置側には上記単語認識結果を受信する受信制御手段を搭載するのである。
【0033】
但し、その場合における上記第3装置の音声指示認識処理手段と第4装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第3装置側の音声指示認識処理手段は、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。そして、上記第4装置側の音声指示認識処理手段は、受信した音声指示内容をそのままアプリケーションを実行する制御部へ渡す。あるいは、上記第3装置側の音声指示認識処理手段では、受信したユーザシステム1からの音素ラティス(または音節ラティス)をそのまま第4装置へ送信する。そして、上記第4装置側の音声指示認識処理手段で、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。あるいは、上記第3装置及び第4装置の音声指示認識処理手段の夫々で、単語認識処理と文認識処理との両方を行って処理結果として音声指示内容を出力するようにしてもよい。
【0034】
このように、本実施の形態においては、入力された音声による指示を認識して音声指示内容を得る音声入力通信システムを構築するに際して、音声指示認識処理手段4と送信制御手段6とを搭載したユーザシステム1と、受信制御手段7と音声指示認識処理手段5と出力制御手段8とを搭載したセンターシステム2とを通信回線(WAN)3で接続する。
【0035】
そして、上記ユーザシステム1の音声指示認識処理手段4とセンターシステム2の音声指示認識処理手段5とで、入力された音声による指示を波形分析し認識して音声指示内容を得る処理を分担している。したがって、従来のセンターシステム側のみに音声分析認識処理装置を置いた場合のごとく音声波形データの送信歪みに起因する認識率の低下が生ずることがなく、高い認識結果を得ることができる。また、ユーザシステム側のみに音声分析認識処理装置を置いた場合のごとく語彙文法情報の送信に起因する待ち時間がなく、迅速な音声指示の認識処理を行うことができる。さらに、ユーザシステム1の処理負荷を小さくでき、ユーザシステム1を構成するユーザ端末が携帯電話やPDA等の消費電力が低いモバイル機器であっても大語彙の音声指示が取り扱い可能になる。
【0036】
さらに、その際に、上記ユーザシステム1の音声指示認識処理手段4で音声分析認識処理を行って、音素ラティスまたは音節ラティス等の中間認識結果を出力する。そして、この中間認識結果を通信回線(WAN)3でセンター側へ送信し、センター側で言語処理するようにしている。したがって、音声波形データを直接送信する場合に比して送信歪みを少なくでき、認識率の低下を防止することができるのである。また、ユーザシステム1およびセンターシステム2は、搭載している音声指示認識処理手段4,5の各機能を単位として複数に分割し、通信回線で接続することも可能である。また、他の処理システムを追加することも可能である。その場合には、より機動性に富み、ニーズの多様性に適用可能な音声入力通信システムを構築できる。
【0037】
尚、上記ユーザシステム1とセンターシステム2との分割位置、ユーザシステム1内での分割位置、および、センターシステム2内での分割位置は、特に限定されるものではない。要は、接続する通信回線の通信速度,通信歪みの有無,通信料金や、各分割単位における音声指示認識処理手段の処理能力,処理データ量,重量等を考慮して、構築しようとしている音声入力通信システムが最も効率よく目的とする機能を発揮できるように決定すればよい。
【0038】
<第2実施の形態>
以下、上記構成を有する音声入力通信システムについて具体的に説明する。図2は、本実施の形態における音声入力通信システムのブロック図である。本音声入力通信システムは、第1実施の形態における音声入力通信システムをそのまま具体化したものであり、ユーザ端末11とセンターシステム12とから構成されている。
【0039】
上記ユーザ端末11は、上記第1実施の形態におけるユーザシステム1に相当し、音声による指示が入力されて中間認識結果を出力する。センターシステム12は、上記ユーザ端末11と通信回線(WAN)13を介して接続されており、上記第1実施の形態におけるセンターシステム2に相当し、音声指示内容を認識して出力する。
【0040】
上記ユーザ端末11は、音素認識部15と通信制御部16を有している。上記音素認識部15は、入力された音声から音響パラメータ時系列を求めて音素を認識する。また、通信制御部16は、音素認識部15と通信回線13との接続を制御する。すなわち、音素認識部15で上記第1実施の形態における上記音声指示認識処理手段4を構成し、通信制御部16で上記送信制御手段6を構成しているのである。
【0041】
上記センターシステム12は、制御部17と言語処理部18と語彙文法メモリ19を有している。上記制御部17は、通信回線13とセンターシステム12との接続を制御する。上記言語処理部18は、通信回線13を介してユーザ端末11から送信されて来る音素認識部15による認識結果としての音素ラティスに対して、語彙文法メモリ19に格納された語彙文法情報を用いて言語処理を行い、音素認識部15に音声入力された指示文を認識する。そして、認識結果を制御部17に返す。すなわち、制御部17で上記第1実施の形態における上記受信制御手段7を構成し、言語処理部18で上記音声指示認識処理手段5および出力制御手段8を構成しているのである。
【0042】
図3は、上記構成を有する音声入力通信システムにおけるユーザ端末11およびセンターシステム12によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図3に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップS21〜ステップS24はユーザ端末11側の処理動作であり、ステップS25〜ステップS27はセンターシステム12側の処理動作である。
【0043】
ステップS21で、上記ユーザ端末11の音素認識部15に対してユーザの発声による音声波形が入力される。ステップS22で、音素認識部15によって、入力された音声波形が波形分析されて、ケプストラム,パワー等の音響パラメータ時系列が求められる。ステップS23で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として、図4に示すような音素ラティス(認識候補の音素名とその尤度と始端時間および終端時間等)が得られる。ステップS24で、通信制御部16によって、上記音素ラティスが、通信回線13を介してセンターシステム12に送信される。
【0044】
尚、本実施の形態においては、上記音素ラティスを送信するようにしている。しかしながら、通信回線13における通信速度の増加に伴って、上記音素ラテイスの代りに、図5に示すような分析フレーム毎の音素類似度の時系列を生成して送信してもよい。あるいは、図6に示すような連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。その場合には、音素ラティスを送信する場合よりもデータ量は多くなるが、音素認識部15の処理負荷を小さくできる。したがって、処理能力の低いユーザ端末11の場合に用いることが望ましい。
【0045】
ステップS25で、上記センターシステム12の制御部17によって、通信回線13経由で送信されてくる上記音素ラティスが受信され、言語処理部18に送出される。そして、言語処理部18によって、語彙文法メモリ19に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップS26で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部17に返される。ステップS27で、制御部17によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【0046】
ここで、上記語彙文法メモリ19に格納された語彙文法情報としては、語彙情報としての音素記号表記と、文法情報としての単語名をアークとする単語ネットワーク(例えば、特開平8‐6589号公報)または単語n‐グラム(gram)(n単語組み)で与えられる。
【0047】
このように、本実施の形態においては、ユーザによるユーザ端末11に対する音声による指示を、通信回線13を介してセンターシステム12に送信するに際して、音声波形分析,音素認識,単語認識および文認識のうち音声波形分析および音素認識をユーザ端末11側で行い、単語認識および文認識(言語処理)をセンターシステム12側で行うようにしている。したがって、ユーザ端末11の認識処理負荷を小さくすることができ、携帯電話やPDA等の消費電力が低いユーザ端末11であっても大語彙による音声指示の音素を正しく且つ迅速に認識することができる。
【0048】
その際に、上記ユーザ端末11の音素認識部15によって得られた音素ラテイスあるいは分析フレーム毎の音素類似度の時系列あるいは連続する複数分析フレーム毎の平均音素類似度の時系列等の中間認識結果を、通信回線13を介してセンターシステム12に送信する。そして、センターシステム12の言語処理部18によって、上記受信した中間認識結果に基づいて、単語認識および文認識を行うようにしている。したがって、通信回線13を介して送信されるデータに歪みが生ずることがなく、高い認識性能を得ることができるのである。
【0049】
<第3実施の形態>
図7は、上記第1実施の形態に示す音声入力通信システムの他の具体例を示すブロック図である。本実施の形態における音声入力通信システムは、上記第1実施の形態におけるユーザシステム1の機能をユーザ端末21,22,23とユーザ側システム24とに分割しており、センターシステム26は上記第1実施の形態におけるセンターシステム2に相当する。
【0050】
上記各ユーザ端末21,22,23の夫々には、音声による指示が入力される。また、ユーザ側システム24は、各ユーザ端末21,22,23の夫々と通信回線(有線または無線のLAN)25を介して接続されており、音声認識を行って中間認識結果を出力する。また、センターシステム26は、ユーザ側システム24と通信回線(WAN)27を介して接続されており、音声指示内容を認識して出力する。
【0051】
上記各ユーザ端末21,22,23は、制御部31,32,33を有している。この制御部31,32,33は、入力された音声波形データをディジタル化し、通信回線25を介してユーザ側システム24に送信する。すなわち、制御部31,32,33で上記第1実施の形態における上記第1装置の音声指示認識処理手段および送信制御手段を構成しているのである。
【0052】
上記ユーザ側システム24は、通信制御部34と音素認識部35とを有している。上記通信制御部34は、音素認識部35と通信回線25,27との接続を制御する。また、音素認識部35は、通信制御部34によって受信された音声波形データから音響パラメータ時系列を求めて音素を認識する。すなわち、音素認識部35で上記第1実施の形態における上記第2装置の音声指示認識処理手段を構成し、通信制御部34で上記第2装置の受信制御手段および送信制御手段6を構成しているのである。
【0053】
上記センターシステム26は、制御部36と言語処理部37と語彙文法メモリ38を有している。上記制御部36は、通信回線27とセンターシステム26との接続を制御する。また、言語処理部37は、通信回線27を介してユーザ側システム24から送信されてくる音素認識部35の認識結果としての音素ラティスに対して、語彙文法メモリ38に格納された語彙文法情報を用いて言語処理を行い、ユーザ端末21,22,23に音声入力された指示文を認識する。そして、認識結果を制御部36に返す。すなわち、制御部36で上記第1実施の形態における上記受信制御手段7を構成し、言語処理部37で上記音声指示認識処理手段5および出力制御手段8を構成しているのである。
【0054】
図8は、上記構成を有する音声入力通信システムにおけるユーザ端末21〜23,ユーザ側システム24及びセンターシステム26によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図8に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップS31,ステップS32はユーザ端末21〜23の何れか(以下においてはユーザ端末21とする)の処理動作であり、ステップS33〜ステップS35はユーザ側システム24の処理動作であり、ステップS36〜ステップS38はセンターシステム26の処理動作である。
【0055】
ステップS31で、上記ユーザ端末21の制御部31に対してユーザの発声による音声波形が入力される。ステップS32で、制御部31によって、入力された音声波形が通信回線25を介してユーザ側システム24に送信される。
【0056】
ステップS33で、上記ユーザ側システム24の通信制御部34によって、通信回線25経由で送信されてくる上記音声波形データが受信され、上記音素認識部35に送出される。そして、音素認識部35によって、音声波形が波形分析されてケプストラム,パワー等の音響パラメータ時系列が求められる。ステップS34で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として上記音素ラティスが得られる。ステップS35で、通信制御部34によって、上記音素ラティスが通信回線27を介してセンターシステム26に送信される。
【0057】
ステップS36で、上記センターシステム26の制御部36によって、通信回線27経由で送信されてくる上記音素ラティスが受信され、言語処理部37に送出される。そして、言語処理部37によって、語彙文法メモリ38に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップS37で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部36に返される。ステップS38で、制御部36によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【0058】
このように、本実施の形態においては、ユーザによるユーザ端末21,22,23に対する音声による指示を、通信回線25,37を介してセンターシステム26に送信するに際して、音声波形分析,音素認識,単語認識および文認識のうち音声波形分析および音素認識をユーザ側システム24で行い、単語認識および文認識をセンターシステム26側で行うようにしている。したがって、ユーザ端末21,22,23の夫々は、単に、入力された音声波形を通信回線(LAN)35を介してユーザ側システム24に送信するだけでよく、音声認識処理におけるユーザ端末21,22,23の処理負荷を、上記第2実施の形態におけるユーザ端末11よりも更に小さくできる。
【0059】
すなわち、本実施の形態によれば、ユーザ端末21,22,23の更なる小型軽量化を図ることができ、消費電力が低いモバイル機器に更に適した音声入力通信システムを構築できるのである。
【0060】
<第4実施の形態>
本実施の形態は、上記第2実施の形態の変形例である。第2実施の形態においては、ユーザ端末11に入力されたユーザの音声指示が音素認識部15によって音素単位で認識され、センターシステム12の言語処理部18によってユーザの音声指示が文単位で認識される。そして、認識した指示文の内容に応じたアプリケーションプログラムが実行される。
【0061】
ところが、その場合に、上記アプリケーションプログラムが社内文書の読み出し送信の実行に関するものである場合、機密文書が外部に漏れる場合が当然予測される。また、バンキングサービス(送金,振替,残高照会,振り込み通知)に関するものである場合には、個人情報が他人に漏れることが予想される。そこで、本実施の形態においては、センターシステム側で話者認識を行い、ユーザ端末に音声指示を入力したユーザの特定を行うのである。
【0062】
ところで、上記話者認識には、話者認識に用いる言葉を予め決めておく発声内容依存型と、どんな言葉を発声してもよい独立型とがある。一般に、前者は、対象キーワードが定まっているために、発声者の負担は少なく認識率も高い。ところが、登録話者の特徴パターンが録音された場合には全く無力となる。一方、後者は、上記のような問題に対しては強いが、話者は多くの単語を発声する必要があるため話者に多大な負担を強いることになる。そこで、本実施の形態においては、話者認識装置側からその都度異なる発声単語を指定するテキスト指定型の話者認識方法を用いるのである。
【0063】
図9は、本実施の形態における音声入力通信システムのブロック図である。本実施の形態における音声入力通信システムは、上記第2実施の形態の場合と同様に、互いに通信回線43で接続されたユーザ端末41とセンターシステム42とから構成されている。
【0064】
上記ユーザ端末41は、音声による指示が入力されて上記中間認識結果を出力する。一方、センターシステム42は、音声指示内容を認識して出力する。それに加えて、センターシステム42は、テキスト指定型の話者認識を行うために発声用のテキスト情報を生成してユーザ端末41に送出する。一方、ユーザ端末41は、センターシステム42からのテキスト情報に基づいて音声を合成して出力するのである。
【0065】
上記ユーザ端末41は、音素認識部45と制御部46と音声合成部47を有している。上記音素認識部45は、入力された音声から音響パラメータ時系列を求めて音素を認識する。さらに、話者の音声特徴(ピッチ周波数や長時間スペクトラム等)を抽出する。音声合成部47は、音声合成制御パラメータに基づいて音声を合成して出力する。また、制御部46は、音素認識部45からの音素の認識結果および話者の音声特徴を、通信回線43を介してセンターシステム42側へ送信する。一方、通信回線43を介して送信されてくる音声合成制御パラメータの時系列を受信し、音声合成部に47に送出する。
【0066】
上記センターシステム42は、制御部48と話者認識部49と言語処理部50と語彙文法メモリ51とを有している。上記制御部48は、通信回線43とセンターシステム42との接続を制御すると共に、ユーザ端末41から入力された音声指示に応じたアプリケーションプログラムを実行する。
【0067】
上記話者認識部49は、ユーザが発声すべきテキストを決定し、当該テキストの音声合成制御パラメータを生成して制御部48に送出する。さらに、音素認識部45で抽出された当該テキストに対応する話者の音声特徴に基づいて話者認識を行い、音声指示の入力者を特定する。言語処理部50は、通信回線43を介してユーザ端末41から送信されて来る音素認識結果としての音素ラティスに対して、語彙文法メモリ51に格納された語彙文法情報を用いて言語処理を行い、音素認識部45に音声入力された指示文を認識する。そして、認識結果を制御部48に返す。
【0068】
そうすると、上記制御部48は、認識された話者が登録された話者か、あるいは、認識された話者が認識された指示文で指定された口座の名義人と一致するか等の認識話者の評価を行い、正しい話者であると判定するとアプリケーションプログラムを実行するのである。
【0069】
図10は、上記構成を有する音声入力通信システムにおけるユーザ端末41およびセンターシステム42によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図10に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップS41はセンターシステム42側の処理動作であり、ステップS42〜ステップS47はユーザ端末41側の処理動作であり、ステップS48〜ステップS51はセンターシステム42側の処理動作である。
【0070】
ステップS41で、上記センターシステム42の話者認識部49で、ユーザに対する発声内容が決定され、当該発声内容の音声合成制御パラメータ(母音‐子音‐母音(VCV)単位連鎖,ピッチ,基本イントネーション,アクセント等)が生成されて制御部48に送出される。そして、制御部48によって、上記音声合成制御パラメータが通信回線43を介してユーザ端末41に送信される。尚、その場合における話者認識部49による発声内容の決定は、例えば、各話者各単語列毎に登録されている特徴パターンの中からランダムに一つの単語列を選出することによって行われる。
【0071】
ステップS42で、上記ユーザ端末41の制御部46によって、通信回線43経由で送信されてくる上記音声合成制御パラメータが受信され、音声合成部47に送出される。そして、音声合成部47によって、上記音声合成制御パラメータに基づいて音声合成が行われる。ステップS43で、音声合成部47によって、得られた発声内容の音声波形が出力される。つまり、発声内容(テキスト)の合成音声が出力されるのである。
【0072】
ステップS44で、ユーザによって、上記ステップS43において音声出力された発声内容(テキスト)が発声され、引き続いて音声指示が発声される。こうして、音素認識部45に対してユーザの発声による音声波形が入力される。ステップS45で、音素認識部45によって、入力された音声波形が波形分析されて、ケプストラム,パワー,ピッチ周波数等の音響パラメータ時系列が求められる。ステップS46で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として音素ラティスが得られる。ステップS47で、制御部46によって、上記音素ラティスおよび音声特徴(ピッチ周波数や長時間スペクトラム等)が、通信回線43を介してセンターシステム42に送信される。
【0073】
尚、本実施の形態においても、上記音素ラテイスの代りに、上記分析フレーム毎の音素類似度の時系列や連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。
【0074】
ステップS48で、上記センターシステム42の制御部48によって、通信回線43経由で送信されてくる上記音素ラティスおよび音声特徴が受信され、上記音素ラティスが言語処理部50に送出される。そして、言語処理部50によって、語彙文法メモリ51に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップS49で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部48に返される。
【0075】
ステップS50で、上記制御部48によって、受け取った指示文の文頭部分から上記発声内容(テキスト)の単語列が検索され、上記発声内容(テキスト)の単語列があれば、その発声内容(テキスト)部分の音声特徴が話者認識部49に送出される。そして、話者認識部49によって、当該音声特徴に基づいて話者認識が行われる。ステップS51で、制御部48によって、上記認識話者の評価が行われる。そして、正しい話者である場合には、受け取った指示文の内容に応じて、社内文書の読出し送信やバンキングサービスや電子商取引等のアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【0076】
このように、本実施の形態においては、ユーザによるユーザ端末41に対する音声による指示の中間認識結果をセンターシステム42に送信し、センターシステム42側でユーザによる指示文を認識するに先立って、センターシステム42の話者認識部49で、ユーザに対する発声内容を決定して音声合成制御パラメータを生成してユーザ端末41に送信する。そして、ユーザ端末41の音声合成部47で、受信した上記音声合成制御パラメータに基づいて発声内容の合成音声を出力する。さらに、合成音声による発声内容に従ってユーザが発声した音声の特徴をセンターシステム42に送信し、センターシステム42の話者認識部49で受信した音声特徴に基づいて話者認識を行うようにしている。
【0077】
したがって、本実施の形態によれば、通信回線43を介してユーザ端末41とセンターシステム42とでテキスト指定型の話者認識を行うことができ、バンキングサービスや電子商取引等にも適用可能なセキュリティ性の高い音声入力通信システムを構築することができる。
【0078】
その際に、構文解析を含むテキスト解析,VCV単位の結合,音声合成制御パラメータ生成等の負荷の大きい処理をセンターシステム42側で行うようにしている。したがって、ユーザ端末41の音声合成処理負荷を小さくすることができ、携帯電話やPDA等の消費電力が低いユーザ端末41によってセキュリティ性の高い音声入力通信を行うことができるのである。
【0079】
尚、上記第4実施の形態においては、上記音声合成部47および話者認識部49を、上記第2実施の形態におけるユーザ端末11およびセンターシステム12に設けた構成を有しているが、上記第3実施の形態におけるユーザ端末21〜ユーザ端末23およびセンターシステム26に設けた構成に成しても構わない。
【0080】
また、上記第3,第4実施の形態においては、上記第1実施の形態におけるユーザシステム1を、搭載している音声指示認識処理手段4の機能を単位として複数に分割する場合について説明している。しかしながら、上述したように、センターシステム2を、搭載している音声指示認識処理手段5の機能を単位として複数に分割しても差し支えない。また、他の処理システムを追加しても差し支えない。
【0081】
その場合の例として、上記第1実施の形態におけるセンターシステム2を、言語処理部および語彙文法メモリを搭載した第1センターシステムと、日英機械翻訳処理装置を搭載した第2センターシステムとで構成することが考えられる。この場合は、第1センターシステムで認識したユーザの発声による日本文を、第2センターシステムで英文に翻訳することができる。こうすれば、相手国の言語を話すことができなくとも、携帯電話でWAN等の通信回線を介して外国のセンターシステムに直接メッセージを送信することが可能になる。
【0082】
あるいは、上記第1実施の形態におけるセンターシステム2を、言語処理部および語彙文法メモリを搭載した第1センターシステムと、異なるアプリケーションプログラム実行部を搭載した第2センターシステム〜第nセンターシステムとで構成する。そして、第1センターシステムは、認識した指示文の内容から当該指示を実行するアプリケーションプログラム実行部を搭載したセンターシステムを特定し、そのセンターシステムに指示文を渡して実行させることもできる。
【0083】
あるいは、上記第1実施の形態におけるセンターシステム2を、言語処理部と語彙文法メモリと異なるアプリケーションプログラムの実行処理部とを搭載した複数のセンターシステムで構成する。そして、各センターシステムは、中間認識結果を受信すると指示文の認識を一斉に開始し、認識した指示文の内容から自分当ての指示ではないと判断した場合には以後の処理を停止し、自分当ての指示であると判断したセンターシステムがアプリケーションプログラムを実行するようにもできる。
【0084】
尚、上記各実施の形態においては、上記音声認識単位として音素を用いているが、音節であっても一向に差し支えない。
【0085】
【発明の効果】
以上より明らかなように、第1の発明の音声入力通信システムは、ユーザシステムのユーザ端末からセンターシステムに対して第1の通信回線を介して音声によって指示を行うに際して、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を音声認識,単語認識および文認識等の機能単位で分割し、個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持するので、上記センターシステム側に上記音声指示認識処理手段の全機能を置く場合のように、ユーザシステムからセンターシステムに入力音声波形を送信する必要がない。したがって、上記音声波形の送信歪みに起因する認識率低下を防止できる。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置く場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、上記音声指示が変わる毎の上記語彙文法情報の送信に起因する待ち時間を無くすことができ、迅速な音声指示内容の認識を行うことができる。さらに、上記ユーザシステムの処理負荷を低減できる。
【0086】
さらに、上記センターシステムは複数存在し、夫々のセンターシステムには、語彙文法メモリと言語処理手段と互いに異なるアプリケーションプログラムの実行処理部とを搭載しているので、各センターシステムは、音素あるいは音節の認識結果を受信すると指示文の認識を一斉に開始し、自分当ての指示であると判断したセンターシステムによってアプリケーションプログラムを実行することができる。
【0087】
また、上記第1の発明の音声入力通信システムは、上記ユーザシステムに、ユーザ端末に第2の通信回線を介して接続されたユーザ側システムを設ければ、上記ユーザシステムで保持する部分音声指示認識処理手段を、さらに上記ユーザ端末とユーザ側システムとで分散して保持できる。したがって、上記ユーザ端末の処理負荷を更に低減することができ、上記ユーザ端末が携帯電話やPDA等の消費電力が低いモバイル機器であっても、語彙数の多い音声指示文に十分対処することが可能になる。
【0088】
また、上記第1の発明の音声入力通信システムは、上記ユーザシステムに、上記部分音声指示認識処理手段としての音声認識手段と送信制御手段を備えれば、上記ユーザシステムから入力音声の中間認識結果を上記センターシステムに送信できる。したがって、直接音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果を送信することができ、認識率の低下を防止できる。
【0089】
また、上記第1の発明の音声入力通信システムは、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラティスあるいは音節ラティスとすれば、音声波形を送信する場合に比して送信歪みの少ない中間認識結果を、音素ラティスまたは音節ラティスとして容易に得ることができる。
【0090】
また、上記第1の発明の音声入力通信システムは、音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を上記中間認識結果として用いれば、上記音素認識手段の処理負荷を小さくできる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することができる。
【0091】
また、上記第1の発明の音声入力通信システムは、上記第1の通信回線と第2の通信回線とを異なる種類の通信回線にすれば、例えば、上記第1の通信回線をWANとし、上記第2の通信回線をLANとすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して音声によって指示を行うことができる。
【0092】
また、上記第1の発明の音声入力通信システムは、少なくとも一つのセンターシステムに、ユーザが発声すべき発声内容の音声合成制御パラメータを送信する発声指示手段と、上記ユーザシステムで抽出された入力音声の特徴に基づいて話者を認識する話者認識手段を備える一方、上記ユーザシステムにおける上記ユーザ端末には、上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段を備え、上記ユーザ端末およびユーザ側システムの何れか一方には、入力音声の特徴を抽出して送信する波形分析手段を備えれば、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第1の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識を行うことができる。
【0093】
したがって、特定ユーザによる音声指示である場合にのみ当該音声指示応じた処理を実行することができ、バンキングサービスや電子商取引等にも適用可能なセキュリティ性の高い音声入力通信システムを構築することができる。
【図面の簡単な説明】
【図1】 この発明の音声入力通信システムのブロック図である。
【図2】 図1に示す音声入力通信システムの具体的なブロック図である。
【図3】 図2に示す音声入力通信システムよる音声認識/情報処理動作のフローチャートである。
【図4】 図2における音素認識手段によって生成される音素ラティスを一例を示す図である。
【図5】 分析フレーム毎の音素類似度の時系列の一例を示す図である。
【図6】 連続する複数分析フレーム毎の平均音素類似度の時系列の一例を示す図である。
【図7】 図1に示す音声入力通信システムの図2とは異なる具体的なブロック図である。
【図8】 図7に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。
【図9】 図1に示す音声入力通信システムの図2および図7とは異なる具体的なブロック図である。
【図10】 図9に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。
【図11】 従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートである。
【図12】 図11とは異なる従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートである。
【符号の説明】
1…ユーザシステム、
2,12,26,42…センターシステム、
3,13,27,43…通信回線(WAN)、
4,5…音声指示認識処理手段、
6…送信制御手段、
7…受信制御手段、
8…出力制御手段、
11,21,22,23,41…ユーザ端末、
15,35,45…音素認識部、
16,34…通信制御部、
17,31,32,33,36,46,48…制御部、
18,37,50…言語処理部、
19,38,51…語彙文法メモリ、
24…ユーザ側システム、
25…通信回線(LAN)、
47…音声合成部、
49…話者認識部。
Claims (8)
- ユーザ端末を有するユーザシステムとセンターシステムとが第1の通信回線を介して接続され、上記ユーザ端末から上記センターシステムに対して音声によって指示を行なう音声入力通信システムにおいて、
入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を機能単位に分割し、分割された個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持すると共に、
上記ユーザシステム側に保持された部分音声指示認識処理手段は、話者適応化済みの音素認識あるいは音節認識を行う一方、上記センターシステム側に保存された部分音声指示認識処理手段は、上記音素認識あるいは音節認識の認識結果に対して言語処理を行って最終的な音声指示内容を得るようになっており、
上記センターシステムは複数存在し、各センターシステムには、語彙文法情報が格納された語彙文法メモリと、上記言語処理を行う言語処理手段と、互いに異なるアプリケーションプログラムの実行処理部とが搭載されている
ことを特徴とする音声入力通信システム。 - 請求項1に記載の音声入力通信システムにおいて、
上記ユーザシステムには、上記ユーザ端末に第2の通信回線を介して接続されたユーザ側システムが設けられており、
上記ユーザ側システムは、上記第1の通信回線を介して上記センターシステムに接続されていることを特徴とする音声入力通信システム。 - 請求項1に記載の音声入力通信システムにおいて、
上記ユーザシステムには、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第1の通信回線を介して上記センターシステムに送信する送信制御手段を備えたことを特徴とする音声入力通信システム。 - 請求項3に記載の音声入力通信システムにおいて、
上記音声認識手段は音素認識手段であり、
上記中間認識結果は音素ラティスであることを特徴とする音声入力通信システム。 - 請求項4に記載の音声入力通信システムにおいて、
上記中間認識結果として、上記音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることを特徴とする音声入力通信システム。 - 請求項3に記載の音声入力通信システムにおいて、
上記音声認識手段は音節認識手段であり、
上記中間認識結果は音節ラティスであることを特徴とする音声入力通信システム。 - 請求項2に記載の音声入力通信システムにおいて、
上記第1の通信回線と第2の通信回線とは、異なる種類の通信回線であることを特徴とする音声入力通信システム。 - 請求項1に記載の音声入力通信システムにおいて、
少なくとも一つのセンターシステムに設けられて、ユーザが発声すべき発声内容の音声合成制御パラメータを生成し、上記第1の通信回線を介してユーザシステムに送信する発声指示手段と、
上記ユーザシステムにおける上記ユーザ端末に設けられて、上記第1の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、
上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて、入力された音声の波形を分析して入力音声の特徴を抽出し、上記第1の通信回線を介してセンターシステムに送信する波形分析手段と、
上記発声指示手段が設けられたセンターシステムに設けられて、上記第1の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えたことを特徴とする音声入力通信システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000184475A JP3672800B2 (ja) | 2000-06-20 | 2000-06-20 | 音声入力通信システム |
US10/311,768 US7225134B2 (en) | 2000-06-20 | 2001-06-18 | Speech input communication system, user terminal and center system |
PCT/JP2001/005174 WO2001099096A1 (fr) | 2000-06-20 | 2001-06-18 | Systeme de communication a entree vocale, terminal d'utilisateur et systeme central |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000184475A JP3672800B2 (ja) | 2000-06-20 | 2000-06-20 | 音声入力通信システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002006882A JP2002006882A (ja) | 2002-01-11 |
JP3672800B2 true JP3672800B2 (ja) | 2005-07-20 |
Family
ID=18684916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000184475A Expired - Fee Related JP3672800B2 (ja) | 2000-06-20 | 2000-06-20 | 音声入力通信システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7225134B2 (ja) |
JP (1) | JP3672800B2 (ja) |
WO (1) | WO2001099096A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030037004A1 (en) | 2001-08-14 | 2003-02-20 | Chuck Buffum | Dialog-based voiceprint security for business transactions |
ATE410768T1 (de) * | 2003-08-29 | 2008-10-15 | Johnson Controls Tech Co | System und verfahren zum betrieb eines spracherkennungssystems in einem fahrzeug |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8996379B2 (en) * | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20080221900A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile local search environment speech processing facility |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
CN103871401B (zh) * | 2012-12-10 | 2016-12-28 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN103763597A (zh) * | 2014-01-08 | 2014-04-30 | 宇龙计算机通信科技(深圳)有限公司 | 控制设备的遥控方法及其装置 |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
US11099540B2 (en) | 2017-09-15 | 2021-08-24 | Kohler Co. | User identity in household appliances |
US11314215B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Apparatus controlling bathroom appliance lighting based on user identity |
US10448762B2 (en) | 2017-09-15 | 2019-10-22 | Kohler Co. | Mirror |
US10887125B2 (en) | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
CN110265004B (zh) * | 2019-06-27 | 2021-11-02 | 青岛海尔科技有限公司 | 智能家居操作系统中目标终端的控制方法及装置 |
US11900921B1 (en) | 2020-10-26 | 2024-02-13 | Amazon Technologies, Inc. | Multi-device speech processing |
US11721347B1 (en) * | 2021-06-29 | 2023-08-08 | Amazon Technologies, Inc. | Intermediate data for inter-device speech processing |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS607498A (ja) | 1983-06-28 | 1985-01-16 | 富士通株式会社 | 単語音声認識装置とその方法 |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
JPH03132797A (ja) * | 1989-10-19 | 1991-06-06 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH03221999A (ja) * | 1990-01-29 | 1991-09-30 | Sharp Corp | 音声認識装置 |
JPH0695689A (ja) * | 1992-09-17 | 1994-04-08 | Meidensha Corp | 音声認識システム |
JPH07141309A (ja) * | 1993-11-16 | 1995-06-02 | Canon Inc | 情報処理装置 |
JP2655086B2 (ja) | 1994-06-21 | 1997-09-17 | 日本電気株式会社 | 電話回線音声入力システム |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH1020883A (ja) | 1996-07-02 | 1998-01-23 | Fujitsu Ltd | ユーザ認証装置 |
JPH10133847A (ja) * | 1996-10-28 | 1998-05-22 | Casio Comput Co Ltd | 移動端末音声認識/データベース検索/リソースアクセス通信システム |
JPH10282990A (ja) * | 1997-04-04 | 1998-10-23 | Sony Corp | テキスト入力方法及び装置 |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
-
2000
- 2000-06-20 JP JP2000184475A patent/JP3672800B2/ja not_active Expired - Fee Related
-
2001
- 2001-06-18 US US10/311,768 patent/US7225134B2/en not_active Expired - Fee Related
- 2001-06-18 WO PCT/JP2001/005174 patent/WO2001099096A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2001099096A1 (fr) | 2001-12-27 |
US7225134B2 (en) | 2007-05-29 |
US20040078202A1 (en) | 2004-04-22 |
JP2002006882A (ja) | 2002-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3672800B2 (ja) | 音声入力通信システム | |
US7450698B2 (en) | System and method of utilizing a hybrid semantic model for speech recognition | |
US20080126093A1 (en) | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System | |
US8600013B2 (en) | Real time automatic caller speech profiling | |
US7552045B2 (en) | Method, apparatus and computer program product for providing flexible text based language identification | |
US8862478B2 (en) | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server | |
JP3323519B2 (ja) | テキスト−音声変換装置 | |
US20030120493A1 (en) | Method and system for updating and customizing recognition vocabulary | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
US20030120486A1 (en) | Speech recognition system and method | |
EP1463031A1 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
US20060129393A1 (en) | System and method for synthesizing dialog-style speech using speech-act information | |
JPH09230887A (ja) | 発声音に関する話者の検証を行うためのシステム及び方法 | |
US20060190260A1 (en) | Selecting an order of elements for a speech synthesis | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
US20030135371A1 (en) | Voice recognition system method and apparatus | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP5050175B2 (ja) | 音声認識機能付情報処理端末 | |
WO2002050504A2 (en) | Distributed speech recognition system | |
US20090326940A1 (en) | Automated voice-operated user support | |
JP2001013992A (ja) | 音声理解装置 | |
Bharthi et al. | Unit selection based speech synthesis for converting short text message into voice message in mobile phones | |
JP2000047684A (ja) | 音声認識方法および音声サービス装置 | |
JP4935158B2 (ja) | 音声自動翻訳装置、音声自動翻訳方法、音声自動翻訳プログラム | |
JP2003029783A (ja) | 音声認識制御方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080428 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100428 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110428 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120428 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130428 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |