JP2002006882A - 音声入力通信システム、ユーザ端末およびセンターシステム - Google Patents

音声入力通信システム、ユーザ端末およびセンターシステム

Info

Publication number
JP2002006882A
JP2002006882A JP2000184475A JP2000184475A JP2002006882A JP 2002006882 A JP2002006882 A JP 2002006882A JP 2000184475 A JP2000184475 A JP 2000184475A JP 2000184475 A JP2000184475 A JP 2000184475A JP 2002006882 A JP2002006882 A JP 2002006882A
Authority
JP
Japan
Prior art keywords
voice
recognition
user
phoneme
communication line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000184475A
Other languages
English (en)
Other versions
JP3672800B2 (ja
Inventor
Shin Kamiya
伸 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000184475A priority Critical patent/JP3672800B2/ja
Priority to US10/311,768 priority patent/US7225134B2/en
Priority to PCT/JP2001/005174 priority patent/WO2001099096A1/ja
Publication of JP2002006882A publication Critical patent/JP2002006882A/ja
Application granted granted Critical
Publication of JP3672800B2 publication Critical patent/JP3672800B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 消費電力が低いユーザ端末からの音声入力で
あっても高い認識性能を得る。 【解決手段】 音声指示認識処理手段4と送信制御手段
6を搭載したユーザシステム1と、受信制御手段7と音
声指示認識処理手段5と出力制御手段8を搭載したセン
ターシステム2とを、通信回線3で接続する。音声指示
の波形分析結果に基づいて音声指示内容を得る処理を、
音声指示認識処理手段4,5で分担する。こうして、セ
ンターシステム2側のみに音声分析認識処理機能を置い
た場合のごとく認識率が低下することを防止する。ま
た、ユーザシステム1側のみに音声分析認識処理機能を
置いた場合に生ずる待ち時間をなくすと共に、ユーザシ
ステム1の処理負荷を小さくする。したがって、ユーザ
システム1が携帯電話等の消費電力が低いモバイル機器
であっても大語彙の音声指示に対処可能になる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、通信回線を介し
た情報サービスやホームネットを介した情報サービスや
ホームネットを介した機器制御を音声によって行う音声
入力通信システムに関する。
【0002】
【従来の技術】従来より、ユーザが、センターシステム
と通信回線を介して音声によって情報交換を行うことが
できる情報処理システムがある。図11は、従来の音声
入力情報処理システムによる音声認識/情報処理動作の
フローチャートを示す。図11において、ステップS1
で、ユーザ端末側に音声波形が入力される。ステップS
2で、上記入力された音声波形データが通信回線を介し
てセンターシステム側へ送信される。そうすると、ステ
ップS3で、上記センターシステム側で波形分析が行わ
れる。そして、ステップS4で音素認識が行われ、ステ
ップS5で単語認識が行われ、ステップS6で文認識が行
われる。こうして、言語処理の結果得られた音声入力文
に従って、ステップS7でアプリケーションプログラム
が実行されるのである。
【0003】このように、従来の音声入力情報処理シス
テムにおいては、音声波形データをセンターシステム側
へ通信回線を介して送信するため、ユーザの音声に歪み
が生じ、上記センターシステム側での音声認識が困難で
ある。さらに、多数のユーザに対応するために不特定話
者音声認識を使用する場合には、認識性能の低い話者が
ある確率で存在することになる。
【0004】上述のような問題点を解決するために、特
定話者音声認識機能または話者適応済み音声認識機能を
ユーザ端末側に用意し、認識に必要な語彙文法情報をセ
ンターシステム側から通信回線を介してユーザ端末側へ
送って音声認識を行う音声入力情報処理システム(例え
ば、特開平8‐6589号公報)がある。図12は、こ
のような音声入力情報処理システムによる音声認識/情
報処理動作のフローチャートを示す。
【0005】ステップS11で、ユーザ端末側とセンター
システム側とで語彙文法情報通信が行われ、センターシ
ステム側からユーザ端末側に、認識に必要な語彙文法情
報が送信される。ステップS12で、ユーザ端末側に音声
波形が入力される。ステップS13で、波形分析が行われ
る。ステップS14で、話者適用化音素認識が行われ、ス
テップS15で単語認識が行われ、ステップS16で文認識
が行われて認識結果がセンターシステム側に送信され
る。ステップS17で、センターシステム側で、上記ユー
ザ端末側で得られた音声入力文に従ってアプリケーショ
ンプログラムが実行されるのである。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識機能をユーザ端末側に用意する音声入力情
報処理システムには、以下のような問題がある。すなわ
ち、この音声入力情報処理システムにおいては、高い音
声認識性能を実現することは可能である。しかしなが
ら、アプリケーションが変わる度に、アプリケーション
に応じた語彙と文法に関する情報をセンターシステム側
から通信回線を介してユーザ端末側へ送る必要があり、
語彙文法情報の情報量に比して通信回線の通信速度が遅
い場合には、上記アプリケーションの切替時に発生する
情報転送のための待ち時間が煩わしいという問題があ
る。
【0007】さらに、語彙数が数千語以上になると実時
間処理に要するプロセッサの処理速度を上げる必要が生
ずるために、ユーザ端末が携帯電話やPDA(パーソナ
ル・ディジタル・アシスタント)等のモバイル機器である
場合には、消費電力の面で問題がある。
【0008】そこで、この発明の目的は、消費電力が低
いユーザ端末からの音声入力であっても高い認識性能を
得ることができる音声入力通信システム、並びに、この
音声入力通信システムに用いられるユーザ端末およびセ
ンターシステムを提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、ユーザ端末を有するユーザシステム
とセンターシステムとが第1の通信回線を介して接続さ
れ,上記ユーザ端末から上記センターシステムに対して
音声によって指示を行なう音声入力通信システムにおい
て、入力された音声指示の波形分析結果から指示内容を
認識する音声指示認識処理手段を機能単位に分割し、分
割された個々の部分音声指示認識処理手段を上記ユーザ
システムと上記センターシステムとに分散して保持する
ことを特徴としている。
【0010】上記構成によれば、センターシステムに音
声指示認識処理手段の音声認識機能,単語認識および文
認識機能等の全機能を置いた場合のように、ユーザシス
テムから上記センターシステムに第1の通信回線を介し
て入力音声波形を送信する必要がない。したがって、上
記入力音声波形の送信歪みに起因する音声指示の認識率
の低下が防止される。また、上記ユーザシステムに上記
音声指示認識処理手段の全機能を置いた場合のように、
上記センターシステムからユーザシステムに語彙文法情
報を送信する必要がない。したがって、音声指示の切替
り時に上記語彙文法情報を送信する間の待ち時間がな
く、迅速な音声指示の認識が行われる。さらに、上記ユ
ーザシステムの認識処理負荷が低減される。
【0011】また、上記第1の発明の音声入力通信シス
テムは、上記ユーザシステムに上記ユーザ端末に第2の
通信回線を介して接続されたユーザ側システムを設け、
このユーザ側システムを上記第1の通信回線を介して上
記センターシステムに接続することが望ましい。
【0012】上記構成によれば、上記ユーザシステムで
保持する部分音声指示認識処理手段を、更に上記ユーザ
端末とユーザ側システムとで分散して保持することが可
能になる。したがって、上記ユーザ端末の認識処理負荷
がさらに低減され、処理速度を上げることができる。そ
の結果、上記ユーザ端末が携帯電話やPDA等の消費電
力が低いモバイル機器であっても、語彙数が多い音声指
示文にも十分対処することが可能になる。
【0013】また、上記第1の発明の音声入力通信シス
テムは、上記センターシステムを複数にし、夫々のセン
ターシステムを第3の通信回線を介して接続することが
望ましい。
【0014】上記構成によれば、上記センターシステム
で保持する部分音声指示認識処理手段を、さらに複数の
センターシステムで分散して保持することが可能にな
る。また、音声指示認識処理を行うセンターシステム
と、認識された指示内容に従ってアプリケーション処理
を行うセンターシステムとを分離することが可能にな
る。また、上記ユーザ端末から異なるセンターシステム
に対して音声によって指示を行なうことが可能になる。
【0015】また、上記第1の発明の音声入力通信シス
テムは、少なくとも最終段のセンターシステムには、上
記音声指示認識処理手段によって認識された指示内容を
出力する出力制御手段を備えることが望ましい。
【0016】上記構成によれば、少なくとも最終段のセ
ンターシステムでは、出力制御手段から出力される指示
内容に応じた様々なアプリケーションプログラム等が実
行可能になる。
【0017】また、上記第1の発明の音声入力通信シス
テムは、上記ユーザシステムにおける上記ユーザ端末お
よびユーザ側システムの何れかに、入力音声を認識して
中間認識結果を出力する上記部分音声指示認識処理手段
としての音声認識手段と、上記中間認識結果を上記第1
の通信回線を介して上記センターシステムに送信する送
信制御手段を備えることが望ましい。
【0018】上記構成によれば、上記ユーザシステムに
おいて、音声認識手段によって入力音声が認識されて中
間認識結果が得られ、この中間認識結果が送信制御手段
によって第1の通信回線を介して上記センターシステム
に送信される。こうして、音声波形を送信する場合に比
して送信歪みの少ない上記中間認識結果が通信回線を介
して送信されて、認識率の低下が防止される。
【0019】また、上記第1の発明の音声入力通信シス
テムは、少なくとも一つのセンターシステムに、語彙文
法を記憶する語彙文法メモリと、上記ユーザシステムか
らの中間認識結果に対して上記語彙文法を用いた言語処
理を行なう上記部分音声指示認識処理手段としての言語
処理手段を備えることが望ましい。
【0020】上記構成によれば、語彙文法メモリおよび
言語処理手段が備えられたセンターシステムにおいて
は、上記言語処理手段によって、上記ユーザシステムか
らの中間認識結果に対して上記語彙文法を用いた言語処
理が行なわれ、誤った認識候補が除かれて言語的に正し
い指示内容が得られる。こうして、上記ユーザ端末に入
力された音声指示の正確な指示内容が得られる。
【0021】また、上記第1の発明の音声入力通信シス
テムは、上記音声認識手段を音素認識手段あるいは音節
認識手段とし、上記中間認識結果を音素ラティスあるい
は音節ラティスとすることが望ましい。
【0022】上記構成によれば、音声波形を送信する場
合に比して送信歪みの少ない中間認識結果が、音素ラテ
ィスあるいは音節ラティスとして容易に得られる。
【0023】また、上記第1の発明の音声入力通信シス
テムは、上記中間認識結果として、上記音素ラティスに
代えて、分析フレーム毎の音素類似度系列あるいは連続
する複数分析フレーム毎の平均音素類似度系列を用いる
ことが望ましい。
【0024】上記構成によれば、上記中間認識結果とし
て分析フレーム毎の音素類似度系列あるいは連続する複
数分析フレーム毎の平均音素類似度系列を用いることに
よって、上記音素認識手段の処理負荷が小さくなる。し
たがって、上記音素認識手段を、処理能力の低いユーザ
端末に搭載することが可能になる。
【0025】また、上記第1の発明の音声入力通信シス
テムは、上記第1の通信回線と第2,第3の通信回線と
を、異なる種類の通信回線にすることが望ましい。
【0026】上記構成によれば、例えば、上記ユーザシ
ステムと上記センターシステムとを接続する第1の通信
回線をWAN(ワイド・エリア・ネットワーク)とし、上記
ユーザシステムにおいて上記ユーザ端末とユーザ側シス
テムとを接続する第2の通信回線および各センターシス
テム間を接続する第3の通信回線をLAN(ローカル・エ
リア・ネットワーク)とすることによって、支社内の異な
るユーザ端末から東京の本社内の異なるセンターシステ
ムに対して、音声によって指示を行うことが可能にな
る。
【0027】また、上記第1の発明の音声入力通信シス
テムは、少なくとも一つのセンターシステムに設けられ
て,ユーザが発声すべき発声内容の音声合成制御パラメ
ータを生成し,上記第1の通信回線を介してユーザシス
テムに送信する発声指示手段と、上記ユーザシステムに
おける上記ユーザ端末に設けられて,上記第1の通信回
線を介して送信されてくる上記音声合成制御パラメータ
に基づいて上記発声内容の合成音声を生成する音声合成
手段と、上記ユーザシステムにおける上記ユーザ端末お
よびユーザ側システムの何れか一方に設けられて,入力
された音声の波形を分析して入力音声の特徴を抽出し,
上記第1の通信回線を介してセンターシステムに送信す
る波形分析手段と、上記発声指示手段が設けられたセン
ターシステムに設けられて,上記第1の通信回線を介し
て送信されてくる上記入力音声の特徴に基づいて話者を
認識する話者認識手段を備えることが望ましい。
【0028】上記構成によれば、センターシステムの発
声指示手段から送信された発声内容の音声合成制御パラ
メータに基づいて、上記ユーザシステムの音声合成手段
によって、上記発声内容の合成音声が出力される。そし
て、この合成音声による発声内容に従ってユーザが発声
した音声の特徴が、上記ユーザシステムの波形分析手段
によって抽出されて上記センターシステムに送信され
る。そして、上記センターシステムの話者認識手段によ
って、上記入力音声の特徴に基づいて話者が認識され
る。
【0029】こうして、ユーザによる上記ユーザ端末に
対する音声指示を上記センターシステムで認識するに先
立って、上記第1の通信回線を介してユーザシステムと
センターシステムとでテキスト指定型の話者認識が行わ
れる。したがって、特定ユーザによる音声指示である場
合にのみ当該音声指示応じた処理を実行することが可能
になる。
【0030】また、第2の発明のユーザ端末は、入力さ
れた音声を音素単位で認識して音素ラティスを生成する
音素認識手段と、上記音素ラティスを,通信回線を介し
て送信する送信制御手段を備えたことを特徴としてい
る。
【0031】上記構成によれば、入力された音声を通信
回線を介して送信するに際して、中間認識結果である音
素ラティスが送信される。したがって、上記通信回線を
介して入力音声波形を送信する場合のように、送信歪み
に起因して入力音声の認識率が低下することはない。
【0032】また、第3の発明は、ユーザシステムと通
信回線を介して情報を送受信するセンターシステムであ
って、上記通信回線を介して送信されてくる音素ラティ
スを受信する受信手段と、語彙文法を記憶する語彙文法
メモリと、上記音素ラティスに対して上記語彙文法を用
いた言語処理を行なう言語処理手段を備えたことを特徴
としている。
【0033】上記構成によれば、通信回線を介してユー
ザシステムから送信されてくる中間認識結果である音素
ラティスに対して、語彙文法を用いた言語処理が行われ
る。したがって、上記通信回線を介して送信されてくる
入力音声波形に対して音声波形分析,音素認識および言
語処理を行う場合のように、送信歪みに起因して入力音
声の認識率が低下することはない。
【0034】
【発明の実施の形態】以下、この発明を図示の実施の形
態によって詳細に説明する。 <第1実施の形態>図1は、本実施の形態の音声入力通
信システムにおける基本構成を示すブロック図である。
図1において、1はユーザシステムであり、2はセンタ
ーシステムである。ユーザシステム1とセンターシステ
ム2とは通信回線3によって接続されている。
【0035】上記ユーザシステム1とセンターシステム
2とには音声指示認識処理手段4,5が搭載されてお
り、音声指示認識処理手段4は入力された音声データを
処理する一方、音声指示認識処理手段5は前段の音声指
示認識処理手段4の処理結果をさらに処理する。また、
上記ユーザシステム1には、上記音声指示認識処理手段
4による処理結果を後段のセンターシステム2に通信回
線3を介して送信する送信制御手段6が搭載されてい
る。また、上記センターシステム2には、通信回線3を
介して前段の音声指示認識処理手段4による処理結果を
受信する受信制御手段7と、自段の音声指示認識処理手
段5による処理結果を音声指示内容として出力する出力
制御手段8が搭載されている。
【0036】ここで、上記ユーザシステム1およびセン
ターシステム2に搭載されている音声指示認識処理手段
4・5,送信制御手段6,受信制御手段7,出力制御手段8
は、個別のLSI(大規模集積回路)で構築してもよい。
あるいは、ユーザシステム1及びセンターシステム2の
夫々を、CPU(中央演算処理装置)と通信機能とを有す
る周辺端末で構成しても差し支えない。また、通信回線
3は、LANおよびWANの何れであっても、有線およ
び無線の何れであっても差し支えない。以下、通信回線
3はWANである場合を例に説明する。
【0037】上記ユーザシステム1およびセンターシス
テム2に搭載されている音声指示認識処理手段4,5
は、全体で、ユーザシステム1に入力された音声による
指示を認識して音声指示内容を得るようになっている。
その場合、ユーザシステム1の音声指示認識処理手段4
では、例えば、入力された音声波形を分析し、音素認識
あるいは音節認識を行う。そして、中間認識結果として
音素ラティスあるいは音節ラティスを出力する。
【0038】一方、上記ユーザシステム1にWANであ
る通信回線3で接続されたセンターシステム2の音声指
示認識処理手段5では、例えば、受信した音素ラティス
あるいは音節ラティス等の中間認識結果に対して言語処
理を行う。そして、最終的な音声指示内容を得るように
なっているのである。
【0039】ところで、上記ユーザシステム1およびセ
ンターシステム2は、搭載している音声指示認識処理手
段4,5の各機能を単位として複数に分割し、通信回線
で接続しても差し支えない。また、他の処理システムを
追加してもよい。例えば、ユーザシステム1の場合につ
いて言えば、音声指示認識処理手段4は入力音声波形の
分析機能と音素認識(あるいは音節認識)機能とを有して
いる。そこで、入力音声の波形分析処理を行う音声指示
認識処理手段を搭載した第1装置と、音素認識(または
音節認識)処理を行う音声指示認識処理手段を搭載した
第2装置とに分割し、通信回線で接続する。そして、第
1装置側には波形分析結果を送信する送信制御手段を搭
載し、第2装置側には上記波形分析結果を受信する受信
制御手段を搭載するのである。
【0040】但し、その場合における上記第1装置の音
声指示認識処理手段と第2装置の音声指示認識処理手段
とによる処理の分担は、上述に限定するものではない。
例えば、上記第1装置側の音声指示認識処理手段は、単
に入力された音声波形をディジタル化して処理結果とし
て出力する。そして、上記第2装置側の音声指示認識処
理手段で、波形分析処理と音素認識処理(または音節認
識処理)との両方を行って、処理結果として音素ラティ
ス(または音節ラティス)の中間認識結果を出力してもよ
い。この場合、上記第1,第2装置間の通信回線はLA
N等とすることによって音声波形の通信歪みを極小さく
できる。あるいは、上記第1装置側の音声指示認識処理
手段で、波形分析処理と音素認識処理(または音節認識
処理)との両方を行って、処理結果として音素ラティス
(または音節ラティス)の中間認識結果を上記第2装置に
送信してもよい。
【0041】また、上記センターシステム2の場合につ
いて言えば、音声指示認識処理手段5は単語認識機能と
文認識機能とを有している。そこで、単語認識処理を行
う音声指示認識処理手段を搭載した第3装置と、文認識
処理を行う音声指示認識処理手段を搭載した第4装置と
に分割し、通信回線で接続する。そして、第3装置側に
は単語認識結果(単語ラティス)を送信する送信制御手段
を搭載し、第4装置側には上記単語認識結果を受信する
受信制御手段を搭載するのである。
【0042】但し、その場合における上記第3装置の音
声指示認識処理手段と第4装置の音声指示認識処理手段
とによる処理の分担は、上述に限定するものではない。
例えば、上記第3装置側の音声指示認識処理手段は、単
語認識処理と文認識処理との両方を行い、処理結果とし
て音声指示内容を出力する。そして、上記第4装置側の
音声指示認識処理手段は、受信した音声指示内容をその
ままアプリケーションを実行する制御部へ渡す。あるい
は、上記第3装置側の音声指示認識処理手段では、受信
したユーザシステム1からの音素ラティス(または音節
ラティス)をそのまま第4装置へ送信する。そして、上
記第4装置側の音声指示認識処理手段で、単語認識処理
と文認識処理との両方を行い、処理結果として音声指示
内容を出力する。あるいは、上記第3装置及び第4装置
の音声指示認識処理手段の夫々で、単語認識処理と文認
識処理との両方を行って処理結果として音声指示内容を
出力するようにしてもよい。
【0043】このように、本実施の形態においては、入
力された音声による指示を認識して音声指示内容を得る
音声入力通信システムを構築するに際して、音声指示認
識処理手段4と送信制御手段6とを搭載したユーザシス
テム1と、受信制御手段7と音声指示認識処理手段5と
出力制御手段8とを搭載したセンターシステム2とを通
信回線(WAN)3で接続する。
【0044】そして、上記ユーザシステム1の音声指示
認識処理手段4とセンターシステム2の音声指示認識処
理手段5とで、入力された音声による指示を波形分析し
認識して音声指示内容を得る処理を分担している。した
がって、従来のセンターシステム側のみに音声分析認識
処理装置を置いた場合のごとく音声波形データの送信歪
みに起因する認識率の低下が生ずることがなく、高い認
識結果を得ることができる。また、ユーザシステム側の
みに音声分析認識処理装置を置いた場合のごとく語彙文
法情報の送信に起因する待ち時間がなく、迅速な音声指
示の認識処理を行うことができる。さらに、ユーザシス
テム1の処理負荷を小さくでき、ユーザシステム1を構
成するユーザ端末が携帯電話やPDA等の消費電力が低
いモバイル機器であっても大語彙の音声指示が取り扱い
可能になる。
【0045】さらに、その際に、上記ユーザシステム1
の音声指示認識処理手段4で音声分析認識処理を行っ
て、音素ラティスまたは音節ラティス等の中間認識結果
を出力する。そして、この中間認識結果を通信回線(W
AN)3でセンター側へ送信し、センター側で言語処理
するようにしている。したがって、音声波形データを直
接送信する場合に比して送信歪みを少なくでき、認識率
の低下を防止することができるのである。また、ユーザ
システム1およびセンターシステム2は、搭載している
音声指示認識処理手段4,5の各機能を単位として複数
に分割し、通信回線で接続することも可能である。ま
た、他の処理システムを追加することも可能である。そ
の場合には、より機動性に富み、ニーズの多様性に適用
可能な音声入力通信システムを構築できる。
【0046】尚、上記ユーザシステム1とセンターシス
テム2との分割位置、ユーザシステム1内での分割位
置、および、センターシステム2内での分割位置は、特
に限定されるものではない。要は、接続する通信回線の
通信速度,通信歪みの有無,通信料金や、各分割単位にお
ける音声指示認識処理手段の処理能力,処理データ量,重
量等を考慮して、構築しようとしている音声入力通信シ
ステムが最も効率よく目的とする機能を発揮できるよう
に決定すればよい。
【0047】<第2実施の形態>以下、上記構成を有す
る音声入力通信システムについて具体的に説明する。図
2は、本実施の形態における音声入力通信システムのブ
ロック図である。本音声入力通信システムは、第1実施
の形態における音声入力通信システムをそのまま具体化
したものであり、ユーザ端末11とセンターシステム1
2とから構成されている。
【0048】上記ユーザ端末11は、上記第1実施の形
態におけるユーザシステム1に相当し、音声による指示
が入力されて中間認識結果を出力する。センターシステ
ム12は、上記ユーザ端末11と通信回線(WAN)13
を介して接続されており、上記第1実施の形態における
センターシステム2に相当し、音声指示内容を認識して
出力する。
【0049】上記ユーザ端末11は、音素認識部15と
通信制御部16を有している。上記音素認識部15は、
入力された音声から音響パラメータ時系列を求めて音素
を認識する。また、通信制御部16は、音素認識部15
と通信回線13との接続を制御する。すなわち、音素認
識部15で上記第1実施の形態における上記音声指示認
識処理手段4を構成し、通信制御部16で上記送信制御
手段6を構成しているのである。
【0050】上記センターシステム12は、制御部17
と言語処理部18と語彙文法メモリ19を有している。
上記制御部17は、通信回線13とセンターシステム1
2との接続を制御する。上記言語処理部18は、通信回
線13を介してユーザ端末11から送信されて来る音素
認識部15による認識結果としての音素ラティスに対し
て、語彙文法メモリ19に格納された語彙文法情報を用
いて言語処理を行い、音素認識部15に音声入力された
指示文を認識する。そして、認識結果を制御部17に返
す。すなわち、制御部17で上記第1実施の形態におけ
る上記受信制御手段7を構成し、言語処理部18で上記
音声指示認識処理手段5および出力制御手段8を構成し
ているのである。
【0051】図3は、上記構成を有する音声入力通信シ
ステムにおけるユーザ端末11およびセンターシステム
12によって行われる音声認識/情報処理動作のフロー
チャートを示す。以下、図3に従って、音声認識/情報
処理動作について詳細に説明する。尚、ステップS21〜
ステップS24はユーザ端末11側の処理動作であり、ス
テップS25〜ステップS27はセンターシステム12側の
処理動作である。
【0052】ステップS21で、上記ユーザ端末11の音
素認識部15に対してユーザの発声による音声波形が入
力される。ステップS22で、音素認識部15によって、
入力された音声波形が波形分析されて、ケプストラム,
パワー等の音響パラメータ時系列が求められる。ステッ
プS23で、さらに、上記得られた音響パラメータ時系列
に基づいて、話者適応化済みの高認識性能の音素認識方
式によって音素が認識される。そして、音素認識結果と
して、図4に示すような音素ラティス(認識候補の音素
名とその尤度と始端時間および終端時間等)が得られ
る。ステップS24で、通信制御部16によって、上記音
素ラティスが、通信回線13を介してセンターシステム
12に送信される。
【0053】尚、本実施の形態においては、上記音素ラ
ティスを送信するようにしている。しかしながら、通信
回線13における通信速度の増加に伴って、上記音素ラ
テイスの代りに、図5に示すような分析フレーム毎の音
素類似度の時系列を生成して送信してもよい。あるい
は、図6に示すような連続する複数分析フレーム毎の平
均音素類似度の時系列を生成して送信しても差し支えな
い。その場合には、音素ラティスを送信する場合よりも
データ量は多くなるが、音素認識部15の処理負荷を小
さくできる。したがって、処理能力の低いユーザ端末1
1の場合に用いることが望ましい。
【0054】ステップS25で、上記センターシステム1
2の制御部17によって、通信回線13経由で送信され
てくる上記音素ラティスが受信され、言語処理部18に
送出される。そして、言語処理部18によって、語彙文
法メモリ19に格納された語彙文法情報が参照されて上
記音素ラティスが解析され、ユーザが発声した単語が認
識される。ステップS26で、さらに、上記認識された単
語に基づいてユーザが発声した文が認識される。そし
て、上記認識された文が上記音声指示内容として制御部
17に返される。ステップS27で、制御部17によっ
て、受け取った指示文の内容に応じてアプリケーション
プログラムの実行が行われる。そうした後、音声認識/
情報処理動作を終了する。
【0055】ここで、上記語彙文法メモリ19に格納さ
れた語彙文法情報としては、語彙情報としての音素記号
表記と、文法情報としての単語名をアークとする単語ネ
ットワーク(例えば、特開平8‐6589号公報)または
単語n‐グラム(gram)(n単語組み)で与えられる。
【0056】このように、本実施の形態においては、ユ
ーザによるユーザ端末11に対する音声による指示を、
通信回線13を介してセンターシステム12に送信する
に際して、音声波形分析,音素認識,単語認識および文認
識のうち音声波形分析および音素認識をユーザ端末11
側で行い、単語認識および文認識(言語処理)をセンター
システム12側で行うようにしている。したがって、ユ
ーザ端末11の認識処理負荷を小さくすることができ、
携帯電話やPDA等の消費電力が低いユーザ端末11で
あっても大語彙による音声指示の音素を正しく且つ迅速
に認識することができる。
【0057】その際に、上記ユーザ端末11の音素認識
部15によって得られた音素ラテイスあるいは分析フレ
ーム毎の音素類似度の時系列あるいは連続する複数分析
フレーム毎の平均音素類似度の時系列等の中間認識結果
を、通信回線13を介してセンターシステム12に送信
する。そして、センターシステム12の言語処理部18
によって、上記受信した中間認識結果に基づいて、単語
認識および文認識を行うようにしている。したがって、
通信回線13を介して送信されるデータに歪みが生ずる
ことがなく、高い認識性能を得ることができるのであ
る。
【0058】<第3実施の形態>図7は、上記第1実施
の形態に示す音声入力通信システムの他の具体例を示す
ブロック図である。本実施の形態における音声入力通信
システムは、上記第1実施の形態におけるユーザシステ
ム1の機能をユーザ端末21,22,23とユーザ側シス
テム24とに分割しており、センターシステム26は上
記第1実施の形態におけるセンターシステム2に相当す
る。
【0059】上記各ユーザ端末21,22,23の夫々に
は、音声による指示が入力される。また、ユーザ側シス
テム24は、各ユーザ端末21,22,23の夫々と通信
回線(有線または無線のLAN)25を介して接続されて
おり、音声認識を行って中間認識結果を出力する。ま
た、センターシステム26は、ユーザ側システム24と
通信回線(WAN)27を介して接続されており、音声指
示内容を認識して出力する。
【0060】上記各ユーザ端末21,22,23は、制御
部31,32,33を有している。この制御部31,32,
33は、入力された音声波形データをディジタル化し、
通信回線25を介してユーザ側システム24に送信す
る。すなわち、制御部31,32,33で上記第1実施の
形態における上記第1装置の音声指示認識処理手段およ
び送信制御手段を構成しているのである。
【0061】上記ユーザ側システム24は、通信制御部
34と音素認識部35とを有している。上記通信制御部
34は、音素認識部35と通信回線25,27との接続
を制御する。また、音素認識部35は、通信制御部34
によって受信された音声波形データから音響パラメータ
時系列を求めて音素を認識する。すなわち、音素認識部
35で上記第1実施の形態における上記第2装置の音声
指示認識処理手段を構成し、通信制御部34で上記第2
装置の受信制御手段および送信制御手段6を構成してい
るのである。
【0062】上記センターシステム26は、制御部36
と言語処理部37と語彙文法メモリ38を有している。
上記制御部36は、通信回線27とセンターシステム2
6との接続を制御する。また、言語処理部37は、通信
回線27を介してユーザ側システム24から送信されて
くる音素認識部35の認識結果としての音素ラティスに
対して、語彙文法メモリ38に格納された語彙文法情報
を用いて言語処理を行い、ユーザ端末21,22,23に
音声入力された指示文を認識する。そして、認識結果を
制御部36に返す。すなわち、制御部36で上記第1実
施の形態における上記受信制御手段7を構成し、言語処
理部37で上記音声指示認識処理手段5および出力制御
手段8を構成しているのである。
【0063】図8は、上記構成を有する音声入力通信シ
ステムにおけるユーザ端末21〜23,ユーザ側システ
ム24及びセンターシステム26によって行われる音声
認識/情報処理動作のフローチャートを示す。以下、図
8に従って、音声認識/情報処理動作について詳細に説
明する。尚、ステップS31,ステップS32はユーザ端末
21〜23の何れか(以下においてはユーザ端末21と
する)の処理動作であり、ステップS33〜ステップS35
はユーザ側システム24の処理動作であり、ステップS
36〜ステップS38はセンターシステム26の処理動作で
ある。
【0064】ステップS31で、上記ユーザ端末21の制
御部31に対してユーザの発声による音声波形が入力さ
れる。ステップS32で、制御部31によって、入力され
た音声波形が通信回線25を介してユーザ側システム2
4に送信される。
【0065】ステップS33で、上記ユーザ側システム2
4の通信制御部34によって、通信回線25経由で送信
されてくる上記音声波形データが受信され、上記音素認
識部35に送出される。そして、音素認識部35によっ
て、音声波形が波形分析されてケプストラム,パワー等
の音響パラメータ時系列が求められる。ステップS34
で、さらに、上記得られた音響パラメータ時系列に基づ
いて、話者適応化済みの高認識性能の音素認識方式によ
って音素が認識される。そして、音素認識結果として上
記音素ラティスが得られる。ステップS35で、通信制御
部34によって、上記音素ラティスが通信回線27を介
してセンターシステム26に送信される。
【0066】ステップS36で、上記センターシステム2
6の制御部36によって、通信回線27経由で送信され
てくる上記音素ラティスが受信され、言語処理部37に
送出される。そして、言語処理部37によって、語彙文
法メモリ38に格納された語彙文法情報が参照されて上
記音素ラティスが解析され、ユーザが発声した単語が認
識される。ステップS37で、さらに、上記認識された単
語に基づいてユーザが発声した文が認識される。そし
て、上記認識された文が上記音声指示内容として制御部
36に返される。ステップS38で、制御部36によっ
て、受け取った指示文の内容に応じてアプリケーション
プログラムの実行が行われる。そうした後、音声認識/
情報処理動作を終了する。
【0067】このように、本実施の形態においては、ユ
ーザによるユーザ端末21,22,23に対する音声によ
る指示を、通信回線25,37を介してセンターシステ
ム26に送信するに際して、音声波形分析,音素認識,単
語認識および文認識のうち音声波形分析および音素認識
をユーザ側システム24で行い、単語認識および文認識
をセンターシステム26側で行うようにしている。した
がって、ユーザ端末21,22,23の夫々は、単に、入
力された音声波形を通信回線(LAN)35を介してユー
ザ側システム24に送信するだけでよく、音声認識処理
におけるユーザ端末21,22,23の処理負荷を、上記
第2実施の形態におけるユーザ端末11よりも更に小さ
くできる。
【0068】すなわち、本実施の形態によれば、ユーザ
端末21,22,23の更なる小型軽量化を図ることがで
き、消費電力が低いモバイル機器に更に適した音声入力
通信システムを構築できるのである。
【0069】<第4実施の形態>本実施の形態は、上記
第2実施の形態の変形例である。第2実施の形態におい
ては、ユーザ端末11に入力されたユーザの音声指示が
音素認識部15によって音素単位で認識され、センター
システム12の言語処理部18によってユーザの音声指
示が文単位で認識される。そして、認識した指示文の内
容に応じたアプリケーションプログラムが実行される。
【0070】ところが、その場合に、上記アプリケーシ
ョンプログラムが社内文書の読み出し送信の実行に関す
るものである場合、機密文書が外部に漏れる場合が当然
予測される。また、バンキングサービス(送金,振替,残
高照会,振り込み通知)に関するものである場合には、個
人情報が他人に漏れることが予想される。そこで、本実
施の形態においては、センターシステム側で話者認識を
行い、ユーザ端末に音声指示を入力したユーザの特定を
行うのである。
【0071】ところで、上記話者認識には、話者認識に
用いる言葉を予め決めておく発声内容依存型と、どんな
言葉を発声してもよい独立型とがある。一般に、前者
は、対象キーワードが定まっているために、発声者の負
担は少なく認識率も高い。ところが、登録話者の特徴パ
ターンが録音された場合には全く無力となる。一方、後
者は、上記のような問題に対しては強いが、話者は多く
の単語を発声する必要があるため話者に多大な負担を強
いることになる。そこで、本実施の形態においては、話
者認識装置側からその都度異なる発声単語を指定するテ
キスト指定型の話者認識方法を用いるのである。
【0072】図9は、本実施の形態における音声入力通
信システムのブロック図である。本実施の形態における
音声入力通信システムは、上記第2実施の形態の場合と
同様に、互いに通信回線43で接続されたユーザ端末4
1とセンターシステム42とから構成されている。
【0073】上記ユーザ端末41は、音声による指示が
入力されて上記中間認識結果を出力する。一方、センタ
ーシステム42は、音声指示内容を認識して出力する。
それに加えて、センターシステム42は、テキスト指定
型の話者認識を行うために発声用のテキスト情報を生成
してユーザ端末41に送出する。一方、ユーザ端末41
は、センターシステム42からのテキスト情報に基づい
て音声を合成して出力するのである。
【0074】上記ユーザ端末41は、音素認識部45と
制御部46と音声合成部47を有している。上記音素認
識部45は、入力された音声から音響パラメータ時系列
を求めて音素を認識する。さらに、話者の音声特徴(ピ
ッチ周波数や長時間スペクトラム等)を抽出する。音声
合成部47は、音声合成制御パラメータに基づいて音声
を合成して出力する。また、制御部46は、音素認識部
45からの音素の認識結果および話者の音声特徴を、通
信回線43を介してセンターシステム42側へ送信す
る。一方、通信回線43を介して送信されてくる音声合
成制御パラメータの時系列を受信し、音声合成部に47
に送出する。
【0075】上記センターシステム42は、制御部48
と話者認識部49と言語処理部50と語彙文法メモリ5
1とを有している。上記制御部48は、通信回線43と
センターシステム42との接続を制御すると共に、ユー
ザ端末41から入力された音声指示に応じたアプリケー
ションプログラムを実行する。
【0076】上記話者認識部49は、ユーザが発声すべ
きテキストを決定し、当該テキストの音声合成制御パラ
メータを生成して制御部48に送出する。さらに、音素
認識部45で抽出された当該テキストに対応する話者の
音声特徴に基づいて話者認識を行い、音声指示の入力者
を特定する。言語処理部50は、通信回線43を介して
ユーザ端末41から送信されて来る音素認識結果として
の音素ラティスに対して、語彙文法メモリ51に格納さ
れた語彙文法情報を用いて言語処理を行い、音素認識部
45に音声入力された指示文を認識する。そして、認識
結果を制御部48に返す。
【0077】そうすると、上記制御部48は、認識され
た話者が登録された話者か、あるいは、認識された話者
が認識された指示文で指定された口座の名義人と一致す
るか等の認識話者の評価を行い、正しい話者であると判
定するとアプリケーションプログラムを実行するのであ
る。
【0078】図10は、上記構成を有する音声入力通信
システムにおけるユーザ端末41およびセンターシステ
ム42によって行われる音声認識/情報処理動作のフロ
ーチャートを示す。以下、図10に従って、音声認識/
情報処理動作について詳細に説明する。尚、ステップS
41はセンターシステム42側の処理動作であり、ステッ
プS42〜ステップS47はユーザ端末41側の処理動作で
あり、ステップS48〜ステップS51はセンターシステム
42側の処理動作である。
【0079】ステップS41で、上記センターシステム4
2の話者認識部49で、ユーザに対する発声内容が決定
され、当該発声内容の音声合成制御パラメータ(母音‐
子音‐母音(VCV)単位連鎖,ピッチ,基本イントネーシ
ョン,アクセント等)が生成されて制御部48に送出され
る。そして、制御部48によって、上記音声合成制御パ
ラメータが通信回線43を介してユーザ端末41に送信
される。尚、その場合における話者認識部49による発
声内容の決定は、例えば、各話者各単語列毎に登録され
ている特徴パターンの中からランダムに一つの単語列を
選出することによって行われる。
【0080】ステップS42で、上記ユーザ端末41の制
御部46によって、通信回線43経由で送信されてくる
上記音声合成制御パラメータが受信され、音声合成部4
7に送出される。そして、音声合成部47によって、上
記音声合成制御パラメータに基づいて音声合成が行われ
る。ステップS43で、音声合成部47によって、得られ
た発声内容の音声波形が出力される。つまり、発声内容
(テキスト)の合成音声が出力されるのである。
【0081】ステップS44で、ユーザによって、上記ス
テップS43において音声出力された発声内容(テキスト)
が発声され、引き続いて音声指示が発声される。こうし
て、音素認識部45に対してユーザの発声による音声波
形が入力される。ステップS45で、音素認識部45によ
って、入力された音声波形が波形分析されて、ケプスト
ラム,パワー,ピッチ周波数等の音響パラメータ時系列が
求められる。ステップS46で、さらに、上記得られた音
響パラメータ時系列に基づいて、話者適応化済みの高認
識性能の音素認識方式によって音素が認識される。そし
て、音素認識結果として音素ラティスが得られる。ステ
ップS47で、制御部46によって、上記音素ラティスお
よび音声特徴(ピッチ周波数や長時間スペクトラム等)
が、通信回線43を介してセンターシステム42に送信
される。
【0082】尚、本実施の形態においても、上記音素ラ
テイスの代りに、上記分析フレーム毎の音素類似度の時
系列や連続する複数分析フレーム毎の平均音素類似度の
時系列を生成して送信しても差し支えない。
【0083】ステップS48で、上記センターシステム4
2の制御部48によって、通信回線43経由で送信され
てくる上記音素ラティスおよび音声特徴が受信され、上
記音素ラティスが言語処理部50に送出される。そし
て、言語処理部50によって、語彙文法メモリ51に格
納された語彙文法情報が参照されて上記音素ラティスが
解析され、ユーザが発声した単語が認識される。ステッ
プS49で、さらに、上記認識された単語に基づいてユー
ザが発声した文が認識される。そして、上記認識された
文が上記音声指示内容として制御部48に返される。
【0084】ステップS50で、上記制御部48によっ
て、受け取った指示文の文頭部分から上記発声内容(テ
キスト)の単語列が検索され、上記発声内容(テキスト)
の単語列があれば、その発声内容(テキスト)部分の音声
特徴が話者認識部49に送出される。そして、話者認識
部49によって、当該音声特徴に基づいて話者認識が行
われる。ステップS51で、制御部48によって、上記認
識話者の評価が行われる。そして、正しい話者である場
合には、受け取った指示文の内容に応じて、社内文書の
読出し送信やバンキングサービスや電子商取引等のアプ
リケーションプログラムの実行が行われる。そうした
後、音声認識/情報処理動作を終了する。
【0085】このように、本実施の形態においては、ユ
ーザによるユーザ端末41に対する音声による指示の中
間認識結果をセンターシステム42に送信し、センター
システム42側でユーザによる指示文を認識するに先立
って、センターシステム42の話者認識部49で、ユー
ザに対する発声内容を決定して音声合成制御パラメータ
を生成してユーザ端末41に送信する。そして、ユーザ
端末41の音声合成部47で、受信した上記音声合成制
御パラメータに基づいて発声内容の合成音声を出力す
る。さらに、合成音声による発声内容に従ってユーザが
発声した音声の特徴をセンターシステム42に送信し、
センターシステム42の話者認識部49で受信した音声
特徴に基づいて話者認識を行うようにしている。
【0086】したがって、本実施の形態によれば、通信
回線43を介してユーザ端末41とセンターシステム4
2とでテキスト指定型の話者認識を行うことができ、バ
ンキングサービスや電子商取引等にも適用可能なセキュ
リティ性の高い音声入力通信システムを構築することが
できる。
【0087】その際に、構文解析を含むテキスト解析,
VCV単位の結合,音声合成制御パラメータ生成等の負
荷の大きい処理をセンターシステム42側で行うように
している。したがって、ユーザ端末41の音声合成処理
負荷を小さくすることができ、携帯電話やPDA等の消
費電力が低いユーザ端末41によってセキュリティ性の
高い音声入力通信を行うことができるのである。
【0088】尚、上記第4実施の形態においては、上記
音声合成部47および話者認識部49を、上記第2実施
の形態におけるユーザ端末11およびセンターシステム
12に設けた構成を有しているが、上記第3実施の形態
におけるユーザ端末21〜ユーザ端末23およびセンタ
ーシステム26に設けた構成に成しても構わない。
【0089】また、上記第3,第4実施の形態において
は、上記第1実施の形態におけるユーザシステム1を、
搭載している音声指示認識処理手段4の機能を単位とし
て複数に分割する場合について説明している。しかしな
がら、上述したように、センターシステム2を、搭載し
ている音声指示認識処理手段5の機能を単位として複数
に分割しても差し支えない。また、他の処理システムを
追加しても差し支えない。
【0090】その場合の例として、上記第1実施の形態
におけるセンターシステム2を、言語処理部および語彙
文法メモリを搭載した第1センターシステムと、日英機
械翻訳処理装置を搭載した第2センターシステムとで構
成することが考えられる。この場合は、第1センターシ
ステムで認識したユーザの発声による日本文を、第2セ
ンターシステムで英文に翻訳することができる。こうす
れば、相手国の言語を話すことができなくとも、携帯電
話でWAN等の通信回線を介して外国のセンターシステ
ムに直接メッセージを送信することが可能になる。
【0091】あるいは、上記第1実施の形態におけるセ
ンターシステム2を、言語処理部および語彙文法メモリ
を搭載した第1センターシステムと、異なるアプリケー
ションプログラム実行部を搭載した第2センターシステ
ム〜第nセンターシステムとで構成する。そして、第1
センターシステムは、認識した指示文の内容から当該指
示を実行するアプリケーションプログラム実行部を搭載
したセンターシステムを特定し、そのセンターシステム
に指示文を渡して実行させることもできる。
【0092】あるいは、上記第1実施の形態におけるセ
ンターシステム2を、言語処理部と語彙文法メモリと異
なるアプリケーションプログラムの実行処理部とを搭載
した複数のセンターシステムで構成する。そして、各セ
ンターシステムは、中間認識結果を受信すると指示文の
認識を一斉に開始し、認識した指示文の内容から自分当
ての指示ではないと判断した場合には以後の処理を停止
し、自分当ての指示であると判断したセンターシステム
がアプリケーションプログラムを実行するようにもでき
る。
【0093】尚、上記各実施の形態においては、上記音
声認識単位として音素を用いているが、音節であっても
一向に差し支えない。
【0094】
【発明の効果】以上より明らかなように、第1の発明の
音声入力通信システムは、ユーザシステムのユーザ端末
からセンターシステムに対して第1の通信回線を介して
音声によって指示を行うに際して、入力された音声指示
の波形分析結果から指示内容を認識する音声指示認識処
理手段を音声認識,単語認識および文認識等の機能単位
で分割し、個々の部分音声指示認識処理手段を上記ユー
ザシステムと上記センターシステムとに分散して保持す
るので、上記センターシステム側に上記音声指示認識処
理手段の全機能を置く場合のように、ユーザシステムか
らセンターシステムに入力音声波形を送信する必要がな
い。したがって、上記音声波形の送信歪みに起因する認
識率低下を防止できる。また、上記ユーザシステムに上
記音声指示認識処理手段の全機能を置く場合のように、
上記センターシステムからユーザシステムに語彙文法情
報を送信する必要がない。したがって、上記音声指示が
変わる毎の上記語彙文法情報の送信に起因する待ち時間
を無くすことができ、迅速な音声指示内容の認識を行う
ことができる。さらに、上記ユーザシステムの処理負荷
を低減できる。
【0095】また、上記第1の発明の音声入力通信シス
テムは、上記ユーザシステムに、ユーザ端末に第2の通
信回線を介して接続されたユーザ側システムを設けれ
ば、上記ユーザシステムで保持する部分音声指示認識処
理手段を、さらに上記ユーザ端末とユーザ側システムと
で分散して保持できる。したがって、上記ユーザ端末の
処理負荷を更に低減することができ、上記ユーザ端末が
携帯電話やPDA等の消費電力が低いモバイル機器であ
っても、語彙数の多い音声指示文に十分対処することが
可能になる。
【0096】また、上記第1の発明の音声入力通信シス
テムは、上記センターシステムを複数にし、各センター
システムを第3の通信回線を介して接続すれば、上記セ
ンターシステムで保持する部分音声指示認識処理手段
を、さらに複数のセンターシステムで分散して保持する
ことができる。また、音声指示認識処理を行うセンター
システムと、認識された指示内容に従ってアプリケーシ
ョン処理を行うセンターシステムとを分離することがで
きる。また、上記ユーザ端末から異なるセンターシステ
ムに対して、音声によって指示を行なうことができる。
【0097】また、この発明の音声入力通信システム
は、少なくとも最終段のセンターシステムに、上記音声
指示認識処理手段によって取得された指示内容を出力す
る出力制御手段を備えれば、少なくとも最終段のセンタ
ーシステムでは、指示内容に応じた様々なアプリケーシ
ョンプログラム等を実行することができる。
【0098】また、上記第1の発明の音声入力通信シス
テムは、上記ユーザシステムにおける上記ユーザ端末お
よびユーザ側システムの何れかに、上記部分音声指示認
識処理手段としての音声認識手段と送信制御手段を備え
れば、上記ユーザシステムから入力音声の中間認識結果
を上記センターシステムに送信できる。したがって、直
接音声波形を送信する場合に比して送信歪みの少ない上
記中間認識結果を送信することができ、認識率の低下を
防止できる。
【0099】また、上記第1の発明の音声入力通信シス
テムは、少なくとも一つのセンターシステムに、語彙文
法を記憶する語彙文法メモリと、上記部分音声指示認識
処理手段としての言語処理手段を備えれば、上記ユーザ
システムからの中間認識結果に対して言語処理を行っ
て、誤った認識候補が除かれた言語的に正しい指示内容
を得ることができる。したがって、上記ユーザ端末に入
力された音声指示の正確な指示内容を得ることができ
る。
【0100】また、上記第1の発明の音声入力通信シス
テムは、上記音声認識手段を音素認識手段あるいは音節
認識手段とし、上記中間認識結果を音素ラティスあるい
は音節ラティスとすれば、音声波形を送信する場合に比
して送信歪みの少ない中間認識結果を、音素ラティスま
たは音節ラティスとして容易に得ることができる。
【0101】また、上記第1の発明の音声入力通信シス
テムは、音素ラティスに代えて、分析フレーム毎の音素
類似度系列あるいは連続する複数分析フレーム毎の平均
音素類似度系列を上記中間認識結果として用いれば、上
記音素認識手段の処理負荷を小さくできる。したがっ
て、上記音素認識手段を、処理能力の低いユーザ端末に
搭載することができる。
【0102】また、上記第1の発明の音声入力通信シス
テムは、上記第1の通信回線と第2,第3の通信回線と
を異なる種類の通信回線にすれば、例えば、上記第1の
通信回線をWANとし、上記第2,第3の通信回線をL
ANとすることによって、支社内の異なるユーザ端末か
ら東京の本社内の異なるセンターシステムに対して音声
によって指示を行うことができる。
【0103】また、上記第1の発明の音声入力通信シス
テムは、少なくとも一つのセンターシステムに、ユーザ
が発声すべき発声内容の音声合成制御パラメータを送信
する発声指示手段と、上記ユーザシステムで抽出された
入力音声の特徴に基づいて話者を認識する話者認識手段
を備える一方、上記ユーザシステムにおける上記ユーザ
端末には、上記音声合成制御パラメータに基づいて上記
発声内容の合成音声を生成する音声合成手段を備え、上
記ユーザ端末およびユーザ側システムの何れか一方に
は、入力音声の特徴を抽出して送信する波形分析手段を
備えれば、ユーザによる上記ユーザ端末に対する音声指
示を上記センターシステムで認識するに先立って、上記
第1の通信回線を介してユーザシステムとセンターシス
テムとでテキスト指定型の話者認識を行うことができ
る。
【0104】したがって、特定ユーザによる音声指示で
ある場合にのみ当該音声指示応じた処理を実行すること
ができ、バンキングサービスや電子商取引等にも適用可
能なセキュリティ性の高い音声入力通信システムを構築
することができる。
【0105】また、第2の発明のユーザ端末は、入力さ
れた音声を音素単位で認識して音素ラティスを生成する
音素認識手段と、上記音素ラティスを通信回線を介して
送信する送信制御手段を備えたので、中間認識結果であ
る音素ラティスを送信することができる。したがって、
上記通信回線を介して入力音声波形を送信する場合のよ
うに、送信歪みに起因して入力音声の認識率が低下する
ことはない。
【0106】また、第3の発明のセンターシステムは、
通信回線を介してユーザシステムから送信されてくる音
素ラティスを受信する受信手段と、上記音素ラティスに
対して語彙文法を用いた言語処理を行なう言語処理手段
を備えたので、上記通信回線を介して送信されてくる入
力音声波形に対して音声波形分析,音素認識および言語
処理を行う場合のように、送信歪みに起因して入力音声
の認識率が低下することはない。
【図面の簡単な説明】
【図1】 この発明の音声入力通信システムのブロック
図である。
【図2】 図1に示す音声入力通信システムの具体的な
ブロック図である。
【図3】 図2に示す音声入力通信システムよる音声認
識/情報処理動作のフローチャートである。
【図4】 図2における音素認識手段によって生成され
る音素ラティスを一例を示す図である。
【図5】 分析フレーム毎の音素類似度の時系列の一例
を示す図である。
【図6】 連続する複数分析フレーム毎の平均音素類似
度の時系列の一例を示す図である。
【図7】 図1に示す音声入力通信システムの図2とは
異なる具体的なブロック図である。
【図8】 図7に示す音声入力通信システムによる音声
認識/情報処理動作のフローチャートである。
【図9】 図1に示す音声入力通信システムの図2およ
び図7とは異なる具体的なブロック図である。
【図10】 図9に示す音声入力通信システムによる音
声認識/情報処理動作のフローチャートである。
【図11】 従来の音声入力情報処理システムによる音
声認識/情報処理動作のフローチャートである。
【図12】 図11とは異なる従来の音声入力情報処理
システムによる音声認識/情報処理動作のフローチャー
トである。
【符号の説明】
1…ユーザシステム、 2,12,26,42…センターシステム、 3,13,27,43…通信回線(WAN)、 4,5…音声指示認識処理手段、 6…送信制御手段、 7…受信制御手段、 8…出力制御手段、 11,21,22,23,41…ユーザ端末、 15,35,45…音素認識部、 16,34…通信制御部、 17,31,32,33,36,46,48…制御部、 18,37,50…言語処理部、 19,38,51…語彙文法メモリ、 24…ユーザ側システム、 25…通信回線(LAN)、 47…音声合成部、 49…話者認識部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04Q 9/00 331 G10L 3/00 537H 551A Fターム(参考) 5D015 AA03 BB01 BB02 GG01 HH04 HH11 KK01 KK02 LL00 LL10 LL12 5D045 AB24 5K048 AA04 BA01 CA08 DA02 DC07 EB02 FB12 FC01 HA01 HA02 HA05 HA07 5K101 KK11 KK16 KK17 LL01 LL03 LL05 LL12 MM04 MM07 NN08 NN16 NN21 NN36 NN37 SS07 TT06 UU16

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 ユーザ端末を有するユーザシステムとセ
    ンターシステムとが第1の通信回線を介して接続され、
    上記ユーザ端末から上記センターシステムに対して音声
    によって指示を行なう音声入力通信システムにおいて、 入力された音声指示の波形分析結果から指示内容を認識
    する音声指示認識処理手段を機能単位に分割し、分割さ
    れた個々の部分音声指示認識処理手段を上記ユーザシス
    テムと上記センターシステムとに分散して保持すること
    を特徴とする音声入力通信システム。
  2. 【請求項2】 請求項1に記載の音声入力通信システム
    において、 上記ユーザシステムには、上記ユーザ端末に第2の通信
    回線を介して接続されたユーザ側システムが設けられて
    おり、 上記ユーザ側システムは、上記第1の通信回線を介して
    上記センターシステムに接続されていることを特徴とす
    る音声入力通信システム。
  3. 【請求項3】 請求項1あるいは請求項2に記載の音声
    入力通信システムにおいて、上記センターシステムは複
    数存在し、各センターシステムは第3の通信回線を介し
    て接続されていることを特徴とする音声入力通信システ
    ム。
  4. 【請求項4】 請求項3に記載の音声入力通信システム
    において、 少なくとも最終段のセンターシステムは、上記音声指示
    認識処理手段によって認識された指示内容を出力する出
    力制御手段を備えていることを特徴とする音声入力通信
    システム。
  5. 【請求項5】 請求項1乃至請求項4の何れか1つに記
    載の音声入力通信システムにおいて、 上記ユーザシステムにおける上記ユーザ端末およびユー
    ザ側システムの何れかには、入力音声を認識して中間認
    識結果を出力する上記部分音声指示認識処理手段として
    の音声認識手段と、上記中間認識結果を上記第1の通信
    回線を介して上記センターシステムに送信する送信制御
    手段を備えたことを特徴とする音声入力通信システム。
  6. 【請求項6】 請求項5に記載の音声入力通信システム
    において、 少なくとも一つのセンターシステムは、 語彙文法を記憶する語彙文法メモリと、 上記ユーザシステムからの中間認識結果に対して上記語
    彙文法を用いた言語処理を行なう上記部分音声指示認識
    処理手段としての言語処理手段を備えていることを特徴
    とする音声入力通信システム。
  7. 【請求項7】 請求項5あるいは請求項6に記載の音声
    入力通信システムにおいて、 上記音声認識手段は音素認識手段であり、 上記中間認識結果は音素ラティスであることを特徴とす
    る音声入力通信システム。
  8. 【請求項8】 請求項7に記載の音声入力通信システム
    において、 上記中間認識結果として、上記音素ラティスに代えて、
    分析フレーム毎の音素類似度系列あるいは連続する複数
    分析フレーム毎の平均音素類似度系列を用いることを特
    徴とする音声入力通信システム。
  9. 【請求項9】 請求項5あるいは請求項6に記載の音声
    入力通信システムにおいて、 上記音声認識手段は音節認識手段であり、 上記中間認識結果は音節ラティスであることを特徴とす
    る音声入力通信システム。
  10. 【請求項10】 請求項2乃至請求項9の何れか一つに
    記載の音声入力通信システムにおいて、 上記第1の通信回線と第2,第3の通信回線とは、異な
    る種類の通信回線であることを特徴とする音声入力通信
    システム。
  11. 【請求項11】 請求項1乃至請求項10の何れか一つ
    に記載の音声入力通信システムにおいて、 少なくとも一つのセンターシステムに設けられて、ユー
    ザが発声すべき発声内容の音声合成制御パラメータを生
    成し、上記第1の通信回線を介してユーザシステムに送
    信する発声指示手段と、 上記ユーザシステムにおける上記ユーザ端末に設けられ
    て、上記第1の通信回線を介して送信されてくる上記音
    声合成制御パラメータに基づいて上記発声内容の合成音
    声を生成する音声合成手段と、 上記ユーザシステムにおける上記ユーザ端末およびユー
    ザ側システムの何れか一方に設けられて、入力された音
    声の波形を分析して入力音声の特徴を抽出し、上記第1
    の通信回線を介してセンターシステムに送信する波形分
    析手段と、 上記発声指示手段が設けられたセンターシステムに設け
    られて、上記第1の通信回線を介して送信されてくる上
    記入力音声の特徴に基づいて話者を認識する話者認識手
    段を備えたことを特徴とする音声入力通信システム。
  12. 【請求項12】 入力された音声を音素単位で認識して
    音素ラティスを生成する音素認識手段と、 上記音素ラティスを、通信回線を介して送信する送信制
    御手段を備えたことを特徴とするユーザ端末。
  13. 【請求項13】 ユーザシステムと通信回線を介して情
    報を送受信するセンターシステムであって、 上記通信回線を介して送信されてくる音素ラティスを受
    信する受信手段と、 語彙文法を記憶する語彙文法メモリと、 上記音素ラティスに対して上記語彙文法を用いた言語処
    理を行なう言語処理手段を備えたことを特徴とするセン
    ターシステム。
JP2000184475A 2000-06-20 2000-06-20 音声入力通信システム Expired - Fee Related JP3672800B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000184475A JP3672800B2 (ja) 2000-06-20 2000-06-20 音声入力通信システム
US10/311,768 US7225134B2 (en) 2000-06-20 2001-06-18 Speech input communication system, user terminal and center system
PCT/JP2001/005174 WO2001099096A1 (fr) 2000-06-20 2001-06-18 Systeme de communication a entree vocale, terminal d'utilisateur et systeme central

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000184475A JP3672800B2 (ja) 2000-06-20 2000-06-20 音声入力通信システム

Publications (2)

Publication Number Publication Date
JP2002006882A true JP2002006882A (ja) 2002-01-11
JP3672800B2 JP3672800B2 (ja) 2005-07-20

Family

ID=18684916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000184475A Expired - Fee Related JP3672800B2 (ja) 2000-06-20 2000-06-20 音声入力通信システム

Country Status (3)

Country Link
US (1) US7225134B2 (ja)
JP (1) JP3672800B2 (ja)
WO (1) WO2001099096A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4755585B2 (ja) * 2003-03-31 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030037004A1 (en) 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
ATE410768T1 (de) * 2003-08-29 2008-10-15 Johnson Controls Tech Co System und verfahren zum betrieb eines spracherkennungssystems in einem fahrzeug
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20080221900A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile local search environment speech processing facility
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
CN103763597A (zh) * 2014-01-08 2014-04-30 宇龙计算机通信科技(深圳)有限公司 控制设备的遥控方法及其装置
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
CN110265004B (zh) * 2019-06-27 2021-11-02 青岛海尔科技有限公司 智能家居操作系统中目标终端的控制方法及装置
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS607498A (ja) 1983-06-28 1985-01-16 富士通株式会社 単語音声認識装置とその方法
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
JPH03132797A (ja) * 1989-10-19 1991-06-06 Matsushita Electric Ind Co Ltd 音声認識装置
JPH03221999A (ja) * 1990-01-29 1991-09-30 Sharp Corp 音声認識装置
JPH0695689A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JPH07141309A (ja) * 1993-11-16 1995-06-02 Canon Inc 情報処理装置
JP2655086B2 (ja) 1994-06-21 1997-09-17 日本電気株式会社 電話回線音声入力システム
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
JPH1020883A (ja) 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
JPH10133847A (ja) * 1996-10-28 1998-05-22 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4755585B2 (ja) * 2003-03-31 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声信号に関する周波数領域および時間領域の複合ピッチ抽出のための方法、分散音声認識システム及びコンピュータ可読媒体

Also Published As

Publication number Publication date
WO2001099096A1 (fr) 2001-12-27
US7225134B2 (en) 2007-05-29
US20040078202A1 (en) 2004-04-22
JP3672800B2 (ja) 2005-07-20

Similar Documents

Publication Publication Date Title
JP3672800B2 (ja) 音声入力通信システム
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US6393403B1 (en) Mobile communication devices having speech recognition functionality
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
US8768701B2 (en) Prosodic mimic method and apparatus
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
US20090067590A1 (en) System and method of utilizing a hybrid semantic model for speech recognition
US20020138274A1 (en) Server based adaption of acoustic models for client-based speech systems
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
JPH10198396A (ja) ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
US20110307242A1 (en) Method for realtime spoken natural language translation and apparatus therefor
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
US6502073B1 (en) Low data transmission rate and intelligible speech communication
US20030135371A1 (en) Voice recognition system method and apparatus
JPH1079785A (ja) 電話端末装置
JP2003029776A (ja) 音声認識装置
JP2655086B2 (ja) 電話回線音声入力システム
JP2004007634A (ja) スピード音声ダイアル装置および方法
JP2003029783A (ja) 音声認識制御方式
JP2000259632A (ja) 自動通訳システム、通訳プログラム伝送システム、記録媒体および情報伝送媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050420

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees