JP2003044091A - 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム - Google Patents

音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Info

Publication number
JP2003044091A
JP2003044091A JP2001231739A JP2001231739A JP2003044091A JP 2003044091 A JP2003044091 A JP 2003044091A JP 2001231739 A JP2001231739 A JP 2001231739A JP 2001231739 A JP2001231739 A JP 2001231739A JP 2003044091 A JP2003044091 A JP 2003044091A
Authority
JP
Japan
Prior art keywords
information
voice
processing system
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001231739A
Other languages
English (en)
Inventor
Seita Otsuji
清太 大辻
Toshiaki Sugimura
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2001231739A priority Critical patent/JP2003044091A/ja
Publication of JP2003044091A publication Critical patent/JP2003044091A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 装置上の負担を軽減しつつ、精度のよい認識
処理を迅速に行う。 【解決手段】 音韻情報の抽出までをクライアント1で
行い、その後の言語レベルの認識をサーバ2側で行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識システム、
携帯情報端末、音声情報処理装置、音声情報処理方法お
よび音声情報処理プログラムに関し、特に、音声認識を
用いて情報を入出力する場合に適用して好適なものであ
る。
【0002】
【従来の技術】従来、音声を用いて情報の入出力を行う
方法には、音声データをセンター側に送って認識処理を
行う方法と、自分のパソコン側で音声認識を行う方法と
があった。音声データをセンター側に送って認識処理を
行う方法では、利用者が音声通話回線を用いてセンター
に電話をかける。そして、電話がつながると、利用者が
音声通話として発話し、音声受話装置を経由して送られ
た音声データが、センター側の音声認識装置で認識され
る。
【0003】自分のパソコン側で音声認識を行う方法で
は、パソコン上のソフトが音声の認識処理を行い、その
認識結果がアプリケーションに渡される。
【0004】
【発明が解決しようとする課題】しかしながら、音声デ
ータをセンター側に送って認識処理を行う方法では、以
下のような問題があった。 ・音声回線を最大同時接続数だけ用意する必要があるた
め、回線維持費や受話専用装置などのコスト上の負担が
大きく、音声認識機能をサーバに気軽に組み込むことが
できない。
【0005】・音声回線の設備資源は、CPUパワーと
異なり、他に共通流用できないため、音声認識利用に時
間的偏りがあると、これらの資源が無駄になる。 ・認識に用いる音声は、符号化の影響およびノイズや欠
落など通信条件の影響を受け易いため、認識精度が劣化
する。 ・認識に用いる音声帯域は通信帯域に制限され、通信帯
域が音声帯域より狭いと、認識精度が劣化する。
【0006】・一般的な環境で十分な認識率を得るため
には、声質など話者に依存する項目情報を用いて、認識
処理を行うことが望まれる。この場合、センター側で
は、利用者数分のプロファイル情報を保持し、サービス
開始の際にその利用者を識別し、その利用者に対応する
項目情報を取り出して、認識処理に必要な条件設定を行
う必要がある。
【0007】・認識性能を向上させるために、話者の発
話環境や騒音状態を考慮して、認識処理を行う場合、話
者の音響環境についての情報をセンター側で得るために
は、予め想定される幅広い背景雑音を収録し、それを元
に汎用の背景雑音除去・適応処理を組み込んでおくか、
サービス中に話者が発話してない時の背景雑音などから
判断するしかなく、適用の効果に限界があった。
【0008】一方、利用者側で音声認識を行う方法で
は、以下のような問題があった。 ・利用者側の携帯電話等に搭載可能な音声認識エンジン
は、利用可能な資源が少なく、処理能力が一般的に不十
分である。特に、語義数を増やす場合、言語モデルや辞
書が巨大となるため、利用者側の携帯機器に搭載するこ
とが難しい。一方、少ない語義数で十分な認識率を得る
ため、音声認識を用いるタスクに応じて最適な辞書を携
帯端末にダウンロードする方法が考えられるが、この方
法では、以下のような問題が生じる。
【0009】・タスクが決まってからダウンロードが終
了するまで、認識処理の開始を待たねばならないため、
余分の待ち時間が発生する。 ・複数のサービスを利用する場合、切替に応じてダウン
ロードしなければならず、操作が煩雑になる。 ・ダウンロード可能な辞書は携帯端末側の記憶容量など
性能に依存するため、必ずしも必要な辞書を携帯端末側
に全部用意できるとは限らない。
【0010】・あらゆる携帯端末で音声認識機能を利用
できるようにするためには、辞書の書式を規格統一しな
ければならない。 そこで、本発明の目的は、装置上の負担を軽減しつつ、
精度のよい認識処理を効率よく行うことが可能な音声認
識システム、携帯情報端末、音声情報処理装置、音声情
報処理方法および音声情報処理プログラムを提供するこ
とである。
【0011】
【課題を解決するための手段】上述した課題を解決する
ために、請求項1記載の音声認識システムによれば、ク
ライアント側で入力された音声の認識処理をサーバ側で
行う音声認識システムにおいて、前記認識処理の一部を
前記クライアント側で行うことを特徴とする。これによ
り、クライアント側およびサーバ側に用意されている資
源や負荷状況などを考慮しつつ、クライアント側とサー
バ側とで処理を分担することができ、装置上の負担を軽
減しつつ、認識処理を効率よく行うことが可能となる。
【0012】また、請求項2記載の音声認識システムに
よれば、前記クライアント側では、話者環境に依存する
処理を行い、前記サーバ側では、話者環境に依存しない
処理を行うことを特徴とする。これにより、認識処理を
サーバ側で行う場合においても、個々のクライアントご
とに特有の情報をサーバ側に保持することなく、話者環
境を考慮した認識処理を行うことができ、認識精度を向
上させることが可能となる。
【0013】また、請求項3記載の音声認識システムに
よれば、前記認識処理は音響モデル処理と言語モデル処
理とを含み、前記クライアント側では、前記音響モデル
処理を行い、前記サーバ側では、前記言語モデル処理を
行うことを特徴とする。これにより、語義情報をクライ
アント側に用意することなく、話者環境を考慮した認識
処理を行うことが可能となるとともに、サーバ側にデー
タを送信するための音声回線を用意することなく、既存
のデータ回線を利用してデータ送信することが可能とな
る。このため、クライアント側およびサーバ側の装置上
の負担を軽減しつつ、認識精度を向上させることが可能
となる。
【0014】また、請求項4記載の音声認識システムに
よれば、前記クライアント側では、話者環境に基づいて
前記音響モデル処理を行い、前記サーバ側では、前記ク
ライアント側が利用した情報サービスの内容に基づい
て、前記言語モデル処理を行うことを特徴とする。これ
により、話者環境に適応した音響モデル処理をその話者
環境中で行うことが可能となるとともに、最適化された
辞書および文法をフルに活用して言語モデル処理を行う
ことが可能となり、認識精度を容易に向上させることが
可能となる。また、言語モデル処理を情報サービスアプ
リケーションの対話処理と密結合して一体化し、より人
間的な対話、例えば、発話が認識できなかった時に、単
純に認識失敗を返すのではなく、「○○ですか」などと
推定した結果を利用者に返答したり、重要でない入力で
あれば、認識失敗のまま適当に話を合わせるなど、さら
に柔軟性のある対話を実現することが可能となる。
【0015】また、請求項5記載の音声認識システムに
よれば、音響モデルに基づいて音声から音韻情報を抽出
し、前記抽出した音韻情報を送信する利用者処理系と、
前記音韻情報を受信し、前記受信した音韻情報に基づい
て言語レベルの認識処理を行う言語モデル処理系とを備
えることを特徴とする。これにより、送信先で認識処理
を行う場合においても、話者環境の影響を受けない状態
で言語レベルの認識処理を行うことが可能となるととも
に、待ち時間の増大を抑制しつつ、十分な語義数の辞書
を活用して言語モデル処理を行うことが可能となる。ま
た、言語モデル処理系にデータを送信する場合において
も、データ量を削減しつつ、通信条件の影響を軽減する
ことが可能となる。このため、装置上の負担を軽減しつ
つ、精度のよい認識処理を迅速に行うことが可能とな
る。
【0016】また、請求項6記載の音声認識システムに
よれば、前記利用者処理系は、自己の話者環境を考慮し
て音韻情報を抽出することを特徴とする。これにより、
送信先で認識処理を行う場合においても、話者環境に適
応した音韻情報の抽出を、その話者環境中で行うことが
可能となり、話者環境への適応化をサーバ側で行う必要
がなくなることから、装置上の負担を軽減しつつ、認識
精度を向上させることが可能となる。
【0017】また、請求項7記載の音声認識システムに
よれば、前記音韻情報は、音韻候補とその尤度値の列で
あることを特徴とする。これにより、データ送信する際
のデータ量を削減しつつ、通信条件の影響を軽減するこ
とが可能となるとともに、話者環境の影響が除去された
状態で言語モデル処理を行うことが可能となり、装置上
の負担を軽減しつつ、精度のよい認識処理を効率よく行
うことが可能となる。
【0018】また、請求項8記載の音声認識システムに
よれば、前記言語モデル処理系から出力される認識結果
に基づいて、前記利用者処理系に情報サービスを提供す
る情報サービス系をさらに備えることを特徴とする。こ
れにより、利用者が言語モデル処理系に音声入力するだ
けで、必要な情報サービスを受けることが可能となる。
【0019】また、請求項9記載の音声認識システムに
よれば、前記情報サービス系は、前記利用者処理系に提
供される情報サービスの内容に基づいて、前記言語モデ
ル処理系の辞書または文法を更新することを特徴とす
る。これにより、利用者に提供される情報サービスの内
容に基づいて、言語モデル処理を行うことができ、その
サービスと無関係な語義との照合を省略することが可能
となることから、精度のよい認識処理を効率よく行うこ
とが可能となる。
【0020】また、請求項10記載の音声認識システム
によれば、前記情報サービス系から提供されるサービス
内容を前記利用者処理系に音声で伝える音声合成処理系
をさらに備えることを特徴とする。これにより、利用者
側に音声合成機能が備わってない場合においても、情報
サービス系からサービス内容を音声で受け取ることが可
能となり、また感情を込めた個性的な声のような高度な
音声合成も、利用者側の性能を拡張することなく追加で
き、自然な対話を幅広く提供することが可能となるとと
もに、情報のやり取りを円滑に行うことが可能となる。
【0021】また、請求項11記載の携帯情報端末によ
れば、音声データから音韻情報を抽出する音響モデル処
理手段と、前記音響モデル処理手段により抽出された音
韻情報を送信する音韻情報送信手段とを備えることを特
徴とする。これにより、サーバ側で認識処理を行わせる
場合においても、発声側の携帯情報端末に語義情報を用
意する必要がなくなるとともに、サーバ側で音声データ
を直接扱う必要がなくなり、携帯情報端末側で膨大な語
義を扱ったり、サーバ側に音声回線を用意したりする必
要がなくなることから、装置上の負担を抑制しつつ、精
度のよい認識処理を効率よく行うことが可能となる。
【0022】また、請求項12記載の携帯情報端末によ
れば、前記音韻情報を抽出するための話者適応化を行う
話者適応化手段と、前記音韻情報を抽出するための耐環
境処理を行う耐環境処理手段とを備えることを特徴とす
る。これにより、送信先で認識処理を行う場合において
も、話者環境への適応化を発話側で行うことが可能とな
り、装置上の負担を軽減しつつ、認識精度を向上させる
ことが可能となる。
【0023】また、請求項13記載の音声情報処理装置
によれば、音韻情報を受信する音韻情報受信手段と、前
記音韻情報に基づいて言語レベルの認識処理を行う言語
モデル処理手段とを備えることを特徴とする。これによ
り、サーバ側で音声データを直接扱うことなく、サーバ
側で認識処理を行うことが可能となり、装置上の負担を
抑制しつつ、精度のよい認識処理を効率よく行うことが
可能となる。
【0024】また、請求項14記載の音声情報処理方法
によれば、発話された音声を発話側の利用者処理系で音
韻候補とその尤度値の列に変換するステップと、前記音
韻候補とその尤度値の列を通信路経由で言語モデル処理
系に送信するステップと、前記音韻候補とその尤度値の
列に基づいて、言語レベルの認識を前記言語モデル処理
系にて行うステップとを備えることを特徴とする。
【0025】これにより、送信先で認識処理を行う場合
においても、音声データを送信するための音声回線を用
意することなく、データ送信することが可能となるとと
もに、発話側に語義情報を用意することなく、話者環境
の影響が除去された状態で言語モデル処理を行うことが
可能となる。また、発話側に語義情報を用意する必要が
なくなるため、ダウンロードなどの待ち時間の増大を抑
制しつつ、十分な語義数の辞書を活用して言語モデル処
理を行うことが可能となる。このため、装置上の負担を
軽減しつつ、精度のよい認識処理を迅速に行うことが可
能となる。
【0026】また、請求項15記載の音声情報処理方法
によれば、利用者の使用する情報サービス系を言語モデ
ル処理系へ通知するステップと、前記情報サービス系と
前記利用者とを関連付けて、前記言語モデル処理系に登
録するステップと、前記言語モデル処理系と前記情報サ
ービス系との間に通信路を設定するステップと、前記言
語モデル処理系と前記利用者を関連付けて、前記情報サ
ービス系に登録するステップと、前記言語モデル処理系
が、認識結果を前記通信路を通して前記情報サービス系
に通知するステップとを備えることを特徴とする。
【0027】これにより、認識処理をネットワーク上で
分散させて行った場合においても、利用者が情報サービ
ス系を利用する際の入力作業を、言語モデル処理系が代
行することが可能となり、利用者がセンターに直接電話
して音声対話する場合と同様な環境を提供することがで
きる。また、請求項16記載の音声情報処理方法によれ
ば、前記言語モデル処理系は、前記情報サービス系のサ
ービス内容に基づいて、言語モデル処理を行う際の辞書
または文法を切り換えることを特徴とする。
【0028】これにより、情報サービス系と利用者との
対話時における利用頻度の高い単語を重視した辞書や、
出現頻度の高い文構造を重視した文法を用いて言語モデ
ル処理を行うことが可能となり、認識精度を向上させる
ことが可能となる。また、請求項17記載の音声情報処
理方法によれば、前記利用者処理系において、前記利用
者に対応した話者適応化を行うステップと、前記利用者
周辺の音響を継続的に観測するステップと、発話時にそ
の発話場所の環境雑音に応じたノイズ除去を行うステッ
プとを備えることを特徴とする。
【0029】これにより、通信路経由で発話情報を送る
前に、話者依存性や環境雑音を除去することが可能とな
り、話者環境に影響されることなく、言語モデル処理を
行うことが可能となる。また、請求項18記載の音声情
報処理方法によれば、前記利用者処理系において、表示
用文字列および画像、ならびに発話用文字列を前記情報
サービス系から受信するステップと、前記表示用文字列
および画像を表示するステップと、前記発話用文字列を
音声合成して出力するステップとを備えることを特徴と
する。
【0030】これにより、情報サービスの内容がテキス
トデータ形式で送られてきた場合においても、情報サー
ビスの内容を音声や画面表示を利用して受け取ることが
できる。また、請求項19記載の音声情報処理方法によ
れば、前記情報サービス系が発話用文字列を音声合成処
理系へ送信するステップと、前記発話用文字列に基づい
て、前記音声合成処理系にて音声合成を行うステップ
と、前記音声合成された音声データを前記利用者処理系
に送信するステップと、前記利用者処理系が、前記音声
データを再生するステップとを備えることを特徴とす
る。
【0031】これにより、利用者側に音声合成機能が備
わってない場合においても、情報サービス系からサービ
ス内容を音声で受け取ることが可能となる。また、請求
項20記載の音声情報処理方法によれば、言語モデル処
理に基づいて、前記情報サービス系から発行された前記
言語モデル処理系の辞書および文法を更新するステップ
と、前記更新された辞書および文法を前記情報サービス
系に伝えるステップとを備えることを特徴とする。
【0032】これにより、情報サービス系から発行され
る辞書および文法の精度を向上させることができ、認識
精度を向上させることが可能となる。また、請求項21
記載の音声情報処理方法によれば、前記言語モデル処理
系の認識結果として得られた文字列を尤度と共に前記利
用者処理系に送信するステップと、前記利用者処理系が
前記認識結果を利用者に提示するステップと、前記利用
者が前記認識結果を間違いと指示した場合、前記言語モ
デル処理系に前記認識結果の取り消し通知を送信するス
テップと、前記認識結果の間違いの指示がなく、かつ前
記尤度が所定値以上の場合、前記利用者処理系は、前記
認識結果に基づいて話者適応化を行うステップとを備え
ることを特徴とする。
【0033】これにより、言語モデル処理系において認
識処理が行われる場合においても、利用者が認識結果の
間違いを指示するだけで、利用者処理系における話者適
応化を行うことができる。また、請求項22記載の音声
情報処理方法によれば、前記情報サービス系と利用者と
の対話結果に基づいて、認識誤りまたは訂正結果を取得
するステップと、前記認識誤りまたは訂正結果に基づい
て、前記言語モデル処理系に発行するために前記情報サ
ービス系に保持されている辞書および文法を更新するス
テップと、前記認識誤りまたは訂正結果を前記言語モデ
ル処理系に伝えるステップと、前記認識誤りまたは訂正
結果に基づいて、前記言語モデル処理系に保持されてい
る辞書および文法を更新するステップとを備えることを
特徴とする。
【0034】これにより、言語モデル処理過程だけでな
く、サービス処理の流れや利用者と情報サービス系との
対話結果に基づいて、情報サービス系および言語モデル
処理系に保持される辞書および文法の精度を向上させる
ことができ、認識精度をより一層向上させることが可能
となる。また、請求項23記載の音声情報処理方法によ
れば、現在の対話内容に適合した言語モデル処理系があ
るかを問い合わせるステップと、現在の対話内容に適合
した言語モデル処理系がある場合、その言語モデル処理
系へ処理を移行するステップとを備えることを特徴とす
る。
【0035】これにより、言語モデル処理系が複数ある
場合、利用者処理系と言語モデル処理系との最適な組み
合わせを選択することができ、認識精度を向上させるこ
とが可能となる。また、請求項24記載の音声情報処理
方法によれば、過去に利用した情報サービス系を、その
時利用した言語モデル処理系と共に登録するステップを
備えることを特徴とする。
【0036】これにより、ボタンの押下などの簡単な操
作を用いて特定の情報サービスへの対話を指示するだけ
で、その情報サービスとの対話を即座に開始することが
可能となる。また、請求項25記載の音声情報処理方法
によれば、発話された音声から音韻情報を発話側で抽出
するステップと、前記音韻情報を送信するステップと、
前記送信された音韻情報に基づいて、言語レベルの認識
を行うステップと、前記認識結果に基づいて、情報サー
ビス系にアクセスするステップと、前記情報サービス系
からのサービス内容を前記音韻情報の送信元に返信する
ステップとを備えることを特徴とする。
【0037】これにより、発話側に語義情報を用意する
ことなく、音声データを送信するための音声回線を用意
することもなく、話者が音声入力するだけで、必要な情
報サービスを受けることが可能となる。また、請求項2
6記載の音声情報処理方法によれば、 音声認識をネッ
トワーク上でシーケンシャルに分散処理することを特徴
とする。
【0038】これにより、ネットワーク上の資源を有効
活用して音声認識を行うことが可能となり、手元にある
資源が限られている場合においても、高度な音声認識シ
ステムを容易に構築することが可能となる。また、請求
項27記載の音声情報処理プログラムによれば、音声デ
ータから音韻情報を抽出するステップと、前記抽出され
た音韻情報を送信するステップと、前記抽出された音韻
情報に基づく認識処理を前記送信先で行わせるステップ
とをコンピュータに実行させることを特徴とする。
【0039】これにより、音声情報処理プログラムを携
帯情報端末にインストールするだけで、携帯情報端末に
かかる装置上の負担を抑制しつつ、音声による情報の入
出力を迅速に行うことが可能となる。
【0040】
【発明の実施の形態】以下、本発明の実施形態に係る音
声認識システムについて、図面を参照しながら説明す
る。図1は、本発明の第1実施形態に係る音声認識シス
テムの概略構成を示すブロック図である。
【0041】図1において、クライアント1とサーバ2
はネットワークを介して接続され、クライアント1に
は、音声分析部1a、音韻抽出部1bおよび音響モデル
1cが設けられ、サーバ2には、認識処理部2aおよび
言語モデル2bが設けられている。ここで、ネットワー
クとして、例えば、公衆回線やLAN向けのアナログ電
話回線、ISDN(総合サービス・デジタル網)、DS
L、イーサネット(登録商標)、光ファイバ回線、PH
S、携帯電話(回線接続、パケット接続)、無線LAN
(ローカルエリアネットワーク)、固定マイクロ波回
線、衛星通信回線、さらには、近距離通信用規格のRS
232C、USB、SCSI、IEEE1396、Ir
DA、Bluetoothなども混在して用いることが
できる。
【0042】クライアント1で発話が行われると、音声
分析部1aは、音声データを分析し、その音声データか
ら特徴パラメータを抽出し、音韻抽出部1bに出力す
る。なお、音声データからの特徴パラメータの抽出は、
例えば、ケプストラム分析などにより行うことができ
る。音韻抽出部1bは、音響モデル1cを用いることに
より、特徴パラメータから音韻情報(音素情報)を抽出
し、その音韻情報をネットワークを介してサーバ2に送
信する。なお、音響モデル1cは、例えば、HMM(隠
れマルコフモデル)などを用いることができる。また、
音韻情報としては、例えば、音韻候補とその尤度の列と
することができる。
【0043】サーバ2側で音韻情報を受信すると、認識
処理部2aは、言語モデル2bを用いることにより、言
語レベルの認識処理を行う。ここで、言語レベルの認識
処理は、サーバ2側で行われるので、十分な語義数の辞
書および文法をサーバ2側に予め用意することができ、
辞書および文法をダウンロードするための待ち時間を削
減することができるので、認識処理を迅速に行うことが
できる。
【0044】また、言語レベルの認識処理をサーバ2側
で行うことにより、クライアント1側に語義情報を保持
する必要がなくなり、クライアント1側の利用可能な資
源が少なく、処理能力が不十分な場合においても、精度
のよい認識処理を効率よく行うことが可能となる。ま
た、サーバ2側では、言語レベルの認識結果に基づい
て、その認識処理により適した辞書および文法をダウン
ロードすることができるので、認識処理の精度を向上さ
せることができる。
【0045】また、サーバ2側で全ての認識処理を行う
のではなく、音韻情報の抽出までをクライアント1で行
い、その後の言語レベルの認識をサーバ2側で行うこと
により、音韻情報をデータ回線を介してサーバ2側に送
ることができ、発話された音声波形データそのものをサ
ーバ2側に送る必要がなくなることから、音声回線や音
声受話装置をサーバ2側に設置する必要がなくなる。こ
のため、サーバ2側で認識処理を行う際の設備のコスト
増を抑制することが可能となり、音声認識機能を気軽に
サーバに組み込むことが可能となる。
【0046】また、音韻情報の抽出までをクライアント
1側で行うことにより、各クライアント1ごとに特有の
個人差や実環境に基づいて、話者適応化や耐環境処理を
行うことができ、クライアント1側の資源を有効に活用
することが可能となるとともに、認識処理の精度を向上
させることができる。図2は、本発明の第2実施形態に
係る音声認識システムの概略構成を示すブロック図であ
る。
【0047】図2において、利用者処理系11、言語モ
デル処理系12、情報サービス系13および音声合成処
理系14は通信路15に接続され、利用者処理系11、
言語モデル処理系および情報サービス系13は互いに通
信可能とされる。利用者処理系11は、例えば、携帯機
器などであり、利用者処理系11には、音声入力部11
a、音響モデル処理部11b、通信処理部11c、文字
画像表示部11d、対話処理部11e、音声合成処理部
11fおよび音声出力部11gが設けられている。そし
て、利用者処理系11は、利用者側に近い位置に存在
し、利用者の直接操作を受付け、音響モデルでの処理を
行う。
【0048】ここで、音声入力部11aは、マイクなど
により、利用者の発話音声や背景雑音を入力する。音響
モデル処理部11bは、音声入力部11aから入った利
用者の発話音声を音響モデルのレベルで認識処理する。
また、話者適応、雑音除去・適応も行う。通信処理部1
1cは、言語モデル処理系12および情報サービス系1
3と通信するために通信路15と接続する。文字画像表
示部11dは、文字や画像などをディスプレイ表示す
る。対話処理部11eは、Webブラウザや音声認識を
使ったサービスを運用する。音声合成処理部11fは、
テキストデータから音声信号を合成する。音声出力部1
1gは、音声合成された情報をスピーカなどから送出す
る。
【0049】言語モデル処理系12には、言語モデル処
理部12a、辞書文法保管部12bおよび通信処理部1
2cが設けられている。そして、言語モデル処理系12
は、利用者処理系11からの音響モデルレベルの認識結
果に基づいて、言語モデルでの認識を行い、情報サービ
ス系13に取り次ぐ。なお、言語モデル処理系12は、
利用者処理系12と情報サービス系13と通信可能であ
れば、どこにあっても良い。
【0050】ここで、言語モデル処理部12aは、音響
モデルの処理結果を元に言語モデルを用いて音声認識を
行う。辞書文法保管部12bは、言語モデルに用いる辞
書および文法を保管する。通信処理部12cは、利用者
処理系11および情報サービス系13と通信する。情報
サービス系13には、情報サービス部13a、辞書文法
保管部13bおよび通信処理部13cが設けられてい
る。そして、情報サービス系13は、利用者処理系11
の利用者が得ようとするサービス自体を取り扱う。な
お、情報サービス系13は、利用者処理系11および言
語モデル処理系12と通信可能ならばどこにあっても良
い。
【0051】ここで、情報サービス部13aは、 We
bサービスなどの情報提供や各種サービスなどを行う。
辞書保管部13bは、利用者とのサービス対話に適した
辞書や文法を保管する。通信処理部13cは、利用者処
理系11および言語モデル処理系12と通信する。音声
合成処理系14には、音声合成部14aおよび通信処理
部14bが設けられている。そして、音声合成処理系1
4は、情報サービス系13から受け取ったテキストデー
タと発話個性情報を元に、個性的な音声を合成し、その
合成結果を利用者処理系11へ再生可能な書式で送信す
る。
【0052】ここで、音声合成部14aは、情報サービ
ス系13から受け取ったテキストデータに基づいて音声
を合成する。また、発話個性情報があれば、それに従っ
てより感情的な声を合成するようにしてもよい。通信処
理部14bは、利用者処理系11および情報サービス系
13と通信する。なお、利用者処理系11として、携帯
電話などの情報情報端末を用い、言語モデル処理系1
2、情報サービス系13および音声合成処理系14とし
て、サーバを用いることができる。また、音響モデル処
理を行うために、Java(登録商標)アプレットなど
のプログラムを利用者処理系11にダウンロードするよ
うにしてもよい。
【0053】利用者処理系11の利用者が音声を用い
て、情報サービス系13に対して入力を行う場合、音声
認識処理を音響レベルと言語レベルに分け、音響レベル
の処理を利用者処理系11に分担させ、言語レベルの処
理を言語モデル処理系12に分担させる。ここで、利用
者側に存在する利用者処理系11は、話者の声質特性
と、現在の利用者周辺の環境雑音情報を予め測定して保
持し、これらを逐次必要に応じて更新することができ
る。そして、その利用者に対し話者適応を行うととも
に、発話時にその発話場所の環境雑音に通したノイズ除
去・適応手法を用いることにより、音響レベルの認識を
行う。そして、話者依存性や環境雑音が除去された音響
モデル処理結果の候補を、各音韻候補とその尤度を組み
にし、通信路15経由で言語モデル処理系12に送る。
【0054】例えば、利用者の発話内容が「切符の予
約」であった場合、音響モデル処理により、各音韻候補
に続く尤度を最低−10000000〜最高10000
000の数値で表現し、/k/600/t/−200,
/i/1000,/−/700/i/−3000,/p
/7500/b/2000,/u/7000/o/−2
00,/n/20000,/o/70000/−/−2
0000・・・というデータを得ることができる。そし
て、このようなデータが得られたら、各音素の上位複数
候補を尤度付きで送信する。
【0055】なお、各音素候補が正解である確からしさ
で表現してもよく、尤度が判るのであれば、符号付き小
数点表記など別の表現を用いるようにしてもよい。ま
た、話者の意図把握を強化するために、上記書式の拡張
として、音素の音程や強さの変動を認識し、上記書式に
付加して送ってもよい。言語モデル処理系12はそれら
の情報、例えば、文末音程上昇から疑問文の判定、発話
の強弱から重要度の推定を行い、それらの情報も合わせ
て情報サービス系13に送ることで、より質の高い対話
を実現することができる。
【0056】言語モデル処理系12では、利用者が利用
するサービスに特徴的な辞書および文法を保持し、音響
モデル処理結果が利用者処理系11から送られると、そ
の音響モデル処理結果を元に言語レベルの認識を行う。
これにより、音響レベルの認識までを話者側で行うこと
ができ、通信品質の影響も受けることなく、最良の条件
で音声を収録可能となるとともに、話者適応や環境雑音
適応を精度よく行うことが可能となり、得られた音響レ
ベルの認識結果を家電制御など幅広い対象に利用するこ
とができる。
【0057】また、音響レベルの処理を携帯機器などの
利用者処理系11で分担し、言語レベルの処理をサーバ
などの言語モデル処理系12に分担することにより、装
置コストと性能のバランスを利用者ごとに任意に選択で
き、性能が劣っても簡素な携帯機器を使いたい利用者
も、認識性能を重視して高性能な携帯機器を用いる利用
者も、音声入力が利用可能となる。
【0058】また、言語モデル処理系12を通信路15
に接続するだけで、認識性能、処理速度およびコストな
どの異なる言語モデル処理系12を通信路12上に混在
させることができ、利用者処理系11は、自己に適した
言語モデル処理系12を任意に選択することが可能とな
ることから、様々のニーズに合った音声認識システムを
容易に構築することが可能となる。
【0059】また、携帯機器などの利用者処理系11か
ら通信路5を経由して言語モデル処理系12へ飛ぶ情報
量は、生の音声データに比べて少ないため、音声回線を
用いて生の音声データをやり取りする音声認識サービス
に比べ、費用面や電波資源の面で気軽に使用することが
できる。また、利用者処理系11で音韻情報を抽出する
ことにより、言語モデル処理系12にテキスト形式でデ
ータを送信することができ、生の音声データをやり取り
する場合に比べて、遅延の影響も低減することが可能と
なるとともに、伝送時のノイズや欠落も再送などで容易
に対応でき、パケット通信も使うことが可能となる。
【0060】このため、音韻情報を送る際に、他のデー
タ回線を共通流用することができ、モデムなどのネット
ワーク接続機構だけを言語モデル処理系12に設ければ
良く、音声処理専用の特殊なハードウエアを用意した
り、音声回線接続用の装置や回線を用意する必要がなく
なることから、音声認識システムを構築する際のコスト
上の負担を抑制することが可能となるとともに、既存の
設備資源を有効活用することが可能となる。
【0061】また、言語モデル処理系12を実現するサ
ーバは、言語レベルの処理をすればよいため、音声認識
全てをサーバ側で処理する場合より負荷を軽くすること
が可能となるとともに、サービスに依存する単語や文法
に言語モデル処理系12側で適応できるため、携帯機器
など利用者処理系11で全て処理するよりも高い性能を
実現することができる。
【0062】また、言語モデル処理系12で使用する辞
書は、規格統一しなくても、運用することができ、辞書
まで含めて各言語モデル処理系12内部で閉じて処理す
る場合には、独自形式の辞書を用いることが可能とな
る。また、情報サービス系13から辞書を受け取る場合
も、交換する可能性がある範囲で解釈可能な書式であれ
ばよい。
【0063】また、利用者は、使用する情報サービス系
13を言語モデル処理系12へ通知し、言語モデル処理
系12は情報サービス系13と利用者とを関係付けて登
録し、それを情報サービス系13に通知して通信路5を
張り、その情報サービス系13は言語モデル処理系12
と利用者を関係付けて登録し、その言語モデル処理系1
2はその通信路5を通して認識結果を情報サービス系1
2へ通知することができる。
【0064】これにより、認識処理をネットワーク上で
分散させて行った場合においても、利用者にとってセン
ターに直接電話して音声対話する場合と同様な処理を実
現することができる。また、言語モデル処理系12は、
情報サービス系13がどのジャンルに属するかが予め対
応付けられた表を参照するか、または認識結果が送られ
る情報サービス系13から辞書および文法を入手するこ
とにより、その情報サービス系13と利用者の対話にお
いて頻度の高い単語を重視した辞書、あるいは頻度の高
い文構造を重視した文法に切り換えて言語モデル処理を
行うことができる。
【0065】これにより、利用者の利用状況を考慮した
認識処理を言語モデル処理系12で行うことができ、認
識処理をさらに効率化することが可能となる。図3は、
本発明の第3実施形態に係る音声認識システムの概略構
成を示すブロック図である。図3において、言語モデル
処理サーバ23、情報サービスアプリケーションサーバ
24および音声合成処理サーバ25はインターネット網
27に接続され、基地局22は公衆無線網26を介して
インターネット網27に接続され、携帯機器21は基地
局22と無線で通信を行う。
【0066】携帯機器21は、例えば、無線/有線回線
接続された携帯電話、携帯端末、またはパソコンなどで
あり、音声入力機能および音響モデル処理機能が設けら
れている。言語モデル処理サーバ23は、例えば、パー
ソナルコンピュータ(以下、PCという)やワークステ
ーション(以下、WSという)などの一般の計算機であ
り、ネットワーク通信機能が設けられている。また、言
語モデルの処理を行い、その処理結果を携帯機器21お
よび情報アプリケーションサーバ24へ送る。
【0067】情報サービスアプリケーションサーバ24
は、例えば、PCやWSなど一般の計算機であり、ネッ
トワーク通信機能が設けられている。そして、webサ
ーバと同様に、利用者10からの要求に応じた情報サー
ビスを提供することができる。また、音声対話による情
報提供を扱う機能を設けてもよい。なお、言語モデル処
理サーバ23で行われる言語モデル処理機能を、情報サ
ービスアプリケーションサーバ24に持たせるようにし
てもよい。
【0068】音声合成処理サーバ25は、例えば、PC
やWSなどの一般の計算機であり、ネットワーク通信機
能を持つとともに、音声合成を行う。これにより、利用
者10の個人差やその使用環境に依存する音響モデル部
分を携帯機器22で行うことができ、個人適応も、使用
場所の雑音適応も、容易に実現可能となることから、利
用者10がどのようなサービスを利用する場合において
も、一定の音響モデル処理率を保持することが可能とな
るとともに、音声認識のうち、負荷の重い部分を言語モ
デル処理サーバ23側で行わせることが可能となる。こ
のため、利用可能な資源の少ない移動機器22を用いた
場合においても、精度良く待ち時間の少ない音声入出力
を容易に実現することができる。
【0069】また、音響モデル処理は、言語モデル処理
を考慮することなく、話者が必要とする性能に応じて話
者側で調整可能となり、静かな環境で使うなら、雑音適
応なしの簡易な処理で済ませすことができるし、ある環
境で特に認識率を上げたければ、高性能の音響モデル処
理を用いることができる。また、移動機器22側で音か
ら音韻への変換が済んでいるので、テキストベースに近
い程度のデータ通信で済ませることができ、リアルタイ
ム処理の必要性も、原則として、エラーや欠落が許され
ない音声ほどシビアではないため、データ再送処理も使
え、エラーにも強く、パケット網を用いることも可能と
なる。
【0070】また、インターネット網27上のサーバ2
3で音声認識の全ての処理を行うためには、音声を直接
サーバ23に送る必要があり、同時利用可能にすべき数
だけ音声回線を用意する必要があるが、音響モデル処理
を移動機器22側で済ませることにより、音声回線接続
用ハードウエアの増設や、着信回線維持コストが不要と
なり、需要の増加に対しても、一般的な計算機能力増強
で対処することができる。
【0071】また、言語モデル処理をサーバ23側で行
うので、利用する情報サービスに適した専門用語やその
タスク特有の言い回し、対話流れなどに対応した高い性
能を持たせることができ、かつ多数の利用者へ提供可能
となる。なお、図3の実施形態では、図2の利用者処理
系11を携帯機器21に設け、携帯機器21を公衆無線
網26を介してインターネット網27に接続し、図2の
言語モデル処理系12および情報サービス系13をイン
ターネット網27上で実現する方法について説明した
が、例えば、これら3つの系が1つの建物内に存在し、
近距離無線で接続するようにしてもよい。
【0072】また、言語モデル処理系12が家庭内に設
置され、それと通信可能な利用者処理系11を持ち歩
き、インターネット網27上の情報サービス系13から
サービスが受けられるようにしてもよい。以下、本実施
形態に係る音声認識システムの具体的な動作について、
図2の音声認識システムを例にとって説明する。
【0073】なお、以下の説明では、携帯電話などの携
帯機器(利用者処理系11に相当)を使って、インター
ネット上の情報サービスを音声対話によって利用するも
のとする。また、利用者処理系10の音響モデル処理部
11bは、事前に、または継続的に、利用者10へ話者
適応しているものとする。また、利用者10の居る音響
環境を継続的に監視し、発話の際の背景雑音に対して雑
音除去・適応をしているものとする。
【0074】ここで、図2の音声認識システムを利用し
て情報サービスを受ける場合、主として、(1)音声イ
ンターフェイスおよび情報サービスの利用開始時の動
作、(2)情報サービス運用時の動作および(3)音声
インターフェイスおよび情報サービスの利用終了時の動
作が行われる。図4は、図2の音声認識システムにおけ
る音声インターフェイスおよび情報サービスの利用開始
時の動作を示すシーケンス図である。
【0075】図4において、音声認識によるサービスの
利用を開始する場合、利用者10は、携帯機器のボタン
を押すなどして、音声認識によるサービス開始を利用者
処理系11に指示する(K1)。利用者処理系11は、
音声認識によるサービス開始の指示を受けると、通信路
15上の言語モデル処理系12に接続を行う(K2)。
そして、言語モデル処理系12が利用申し込みを受け付
けると、利用者処理系11に了解を返答する(K3)。
【0076】利用者処理系11は、言語モデル処理系1
2からの了解を受け取ると、最初のメニューを音声合成
して出力するか、または画面に表示し、利用者10から
の音声入力が行われるまで待機する(ステップS1)。
次に、利用者10は、発話にて、利用するサービスを利
用者処理系11に指示する(K4)。
【0077】利用者処理系11は、発話による指示があ
ると、音響モデルによる音韻認識を行う(ステップS
2)。そして、その時の尤度が所定値以下の場合、利用
者10に再発話を催促し(K5)、尤度が所定値を超え
る場合、認識結果として得られた各音韻音候補を尤度と
共に言語モデル処理系12へ送信する(K6)。言語モ
デル処理系12は、各音韻音候補を尤度と共に受け取る
と、その音韻音候補(音素)を言語モデルで処理し、認
識判定を行う(ステップS3)。ここで、認識判定を行
った結果、その尤度が所定値以下ならば、利用者処理系
11に「認識不可」の返答を行う(K7)。そして、利
用者処理系11は、言語モデル処理系12から「認識不
可」の返答を受け取ると、利用者10に「認識不可」を
提示する(K8)。
【0078】一方、認識判定を行った結果、その尤度が
所定値を超えるならば、言語モデル処理系12は、その
認識判定結果に基づいて利用者10が要求するサービス
を判定し(ステップS4)、そのサービスに該当する情
報サービス系13に接続するとともに(K9)、利用者
名の登録を行う(ステップS5)。情報サービス系13
は、言語モデル処理系12との接続要求があると、接続
要求を受け付け(ステップS6)、利用者10からの接
続要求があったと判断し、利用者10へのサービスを開
始するとともに、そのサービスに通した辞書と文法を言
語モデル処理系12へ送信する(K10)。
【0079】なお、言語モデル処理系12がいくつかの
サービスに対応した複数の辞書および文法を既に保管し
ている場合、処理に用いる辞書および文法を言語モデル
処理系12へ指示するようにしてもよい。言語モデル処
理系12は、処理に用いる辞書および文法を情報サービ
ス系13から指定されると、情報サービス系13から指
定されたジャンルに応じた辞書および文法が辞書文法保
管部12bに既にある場合、そこから辞書および文法を
取り出して、言語モデルに設定する(ステップS7)。
情報サービス系13から指定されたジャンルに応じた辞
書および文法が辞書文法保管部12bにない場合、情報
サービス系13から辞書および文法を受信し、言語モデ
ルに設定する。
【0080】なお、辞書および文法を情報サービス系1
3から受け取った場合、それらを全部入れ替えてもよ
く、専門辞書および文法だけを入手して、基本システム
に追加するようにしてもよい。また、言語モデル処理系
12が、辞書および文法を情報サービス系13から発行
してもらった場合、言語モデル処理過程を通じて辞書・
文法の改良に使える情報(例えば、単語の前後関係頻度
の実測データ)が得られていたら、それを辞書および文
法に反映し、その反映結果を情報サービス系13へ返却
するようにしてもよい。
【0081】ここで、改良された辞書および文法の返却
時期は、特定の利用者10についての一連の情報サービ
スが終わった後でもよいし、例えば、1ヶ月程度の単位
で辞書および文法を保持し、所定量の改良データが辞書
および文法に蓄積された後でもよい。また、情報サービ
ス系13は、利用者10からの接続要求があると、利用
者10へ提示すべき情報を利用者処理系11へ送信する
(K11)。そして、利用者処理系11は、情報サービ
ス系13からの情報を音声合成して音声で利用者10に
提示したり、画面表示したりする(K12)。
【0082】利用者10は、サービス利用開始時の情報
が提示されると、利用者処理系11を介し、情報サービ
ス系13とサービスに関する対話を開始する。図5は、
図2の音声認識システムにおける情報サービス運用時の
動作を示すシーケンス図である。図5において、利用者
10は、発話にて、利用者処理系11に必要な入力を行
う(K21)。
【0083】利用者処理系11は、発話入力があると、
音響モデルによる音韻認識を行う(ステップS21)。
そして、その時の尤度が所定値以下の場合、利用者10
に再発話を催促し(K22)、尤度が所定値を超える場
合、認識結果として得られた各音韻音候補を尤度と共に
言語モデル処理系12へ送信する(K23)。言語モデ
ル処理系12は、各音韻音候補を尤度と共に受け取る
と、その音韻音候補(音素)を言語モデルで処理し、認
識判定を行う(ステップS22)。ここで、認識判定を
行った結果、その尤度が所定値以下ならば、利用者処理
系11に「認識不可」の返答を行う(K24)。そし
て、利用者処理系11は、言語モデル処理系12から
「認識不可」の返答を受け取ると、利用者10に「認識
不可」を提示する(K25)。
【0084】一方、認識判定を行った結果、その尤度が
所定値を超えるならば、言語モデル処理系12は、その
認識判定結果をテキスト形式などで情報サービス系13
に送信する(K26)。情報サービス系13は、言語モ
デル処理系12から認識判定結果が送信されると、その
認識判定結果を受信し(ステップS23)、その認識判
定結果に応じた処理を行う(ステップS24)。そし
て、情報サービス系13は、利用者10へ提示すべき情
報を利用者処理系11へ送信する(K27)。
【0085】利用者処理系11は、情報サービス系13
から送られた情報を受信すると、その情報を音声合成し
て音声で利用者10に提示したり、画面表示したりする
(K28)。図6は、図2の音声認識システムにおける
音声インターフェイスおよび情報サービスの利用終了時
の動作を示すシーケンス図である。
【0086】図6において、利用者10がサービスの利
用終了を情報サービス系13に伝えると、情報サービス
系13はサービス終了を決定し(ステップS31)、言
語モデル処理系12および利用者処理系11にサービス
終了を通知した後(K31、K33)、サービスを終了
する(ステップS33)。言語モデル処理系12は、サ
ービス終了の通知を受け取ると、情報サービス系13と
の接続を解除するとともに(K32)、その情報サービ
スに適するように設定していた辞書および文法を解除し
(ステップS32)、入力待機状態に移行する。ここ
で、辞書および文法を解除する場合、その辞書および文
法を破棄するか、またはキャッシュ(利用頻度の高いも
のを一時保管する)するか、あるいは辞書文法保管部1
2bに保管する。
【0087】利用者処理系11は、サービス終了の通知
を受け取ると、サービス終了を利用者10に提示し(K
34)、入力待機状態に移行する。次に、利用者10が
音声サービス自体の終了を利用者処理系11に指示する
と(K35)、利用者処理系11は、音声サービスの終
了を言語モデル処理系12へ伝える(K36)。
【0088】言語モデル処理系12は、音声サービスの
終了通知を受け取ると、言語モデルの利用を終了し(ス
テップS34)、利用者処理系11との接続を解除する
(K37)。利用者処理系11は、言語モデル処理系1
2との接続が解除されると、接続終了を利用者10に提
示する(K38)。なお、上述した実施形態では、情報
サービス系13が利用者10に情報サービスを提示する
場合、その情報サービスの内容をテキストデータ形式で
利用者処理系11に送信し、利用者処理系11系が必要
に応じて音声合成することにより、その情報サービスの
内容を利用者10に音声で提示する方法について説明し
た。
【0089】この方法では、利用者処理系11系で音声
合成する必要があるため、音声合成処理部11fを利用
者処理系11系に設ける必要があり、利用者処理系11
系の負荷が増大する。そこで、音声合成処理系14を通
信路15上に導入し、情報サービス系13は利用者10
に情報サービスを提示する場合、その情報サービスの内
容を音声合成処理系14へ音韻情報を含みうる発話文字
列にて送信する。そして、音声合成処理系14が音声合
成を行い、その音声データを利用者処理系11に送信
し、利用者処理系11がその音声データを再生する。
【0090】図7は、図2の音声認識システムの音声合
成処理系利用時の動作を示すシーケンス図である。図7
において、情報サービス系13は利用者10に情報サー
ビスを提示する場合、情報サービス系13は、自己の情
報サービス系13の情報および利用者情報を音声合成処
理系14に送信するとともに(K41)、音声合成の仕
様を音声合成処理系14に送信する(K42)。
【0091】音声合成処理系14は、情報サービス系1
3の情報、利用者情報および音声合成の仕様を受信する
と、情報サービス系13の情報および利用者情報を登録
するとともに(ステップS41)、仕様に合った音声合
成機能を設定する(ステップS42)。次に、情報サー
ビス系13は、利用者10に情報提示すべき発話文字列
を音声合成処理系14へ送信する(K43)。なお、こ
の時、感情表現を可能にする音韻情報や、男性、女性、
年齢など個性を表すパラメータも送信するようにしても
よい。
【0092】音声合成処理系14は、発話文字列を受信
すると、その発話文字列の音声合成を行い(ステップS
43)、その音声データを利用者処理系11に送信する
(K44)。利用者処理系11は、音声データを受信す
ると、その音声データを再生し(ステップS44)、情
報サービス系13から提供されたサービスを利用者10
に提示する。
【0093】次に、図2の音声認識システムにおける話
者適応化処理の一例について説明する。この話者適応化
処理では、言語モデル処理系12の認識結果として得ら
れた文字列および尤度を利用者処理系11にも送り、利
用者処理系11は、その認識結果を利用者10に提示す
る。そして、利用者10が、提示された認識結果を間違
いであると判断した場合は、言語モデル処理系12に取
り消しの指示を送り、間違いの指示がなく、かつ尤度が
高い場合、利用者処理系11は認識結果を正解と見な
し、話者適応化処理を行う。
【0094】図8は、図2の音声認識システムの適応的
学習による話者適応化の一例を示すシーケンス図であ
る。図8において、言語モデル処理系12は、言語モデ
ル処理が終了すると、その時得られた認識結果の文字列
を、尤度と共に利用者処理系11に送信する(K5
1)。
【0095】利用者処理系11は、言語モデル処理系1
2から認識結果を受け取ると、その認識結果を利用者1
0に提示する(K52)。そして、利用者処理系11
は、利用者10からの間違いの指示がなく、かつ、その
認識結果の尤度が高い場合には、利用者処理系11は、
その認識結果を正解と見なし、話者適応化を行う(ステ
ップS51)。
【0096】一方、利用者10は、認識結果が間違って
いるため、その認識結果を取り消す場合、利用者処理系
11に取り消しの指示を入力する(K53)。利用者処
理系11は、取り消し指示が入力されると、その取り消
し指示を言語モデル処理系12に送信する(K54)。
言語モデル処理系12は取り消し指示を受け取ると、認
識結果を取り消すとともに、必要に応じて認識処理前後
のデータを後の学習用に保管する(ステップS52)。
そして、直前の送信内容の取り消し通知を情報サービス
系13に送信する(K55)。
【0097】情報サービス系13は、言語モデル処理系
12から取り消し通知を受け取ると、直前の送信内容の
取り消し、受信前の状態に戻る(ステップS53)。こ
れにより、利用者10が認識内容を直接確認しながら、
信頼度の高い対話を進めることができ、利用者10が特
段の配慮や努力をすることなく、話者適応を継続的に行
うことが可能となる。
【0098】なお、情報サービス系13は、サービスの
処理の流れや、利用者10との対話結果から、認識誤り
の確率が高いものがある場合、情報サービス系13は、
その認識誤りを言語モデル処理系12に伝えるようにし
てもよい。また、利用者10との対話に基づいて、認識
結果が正解に訂正されたものがある場合にも、情報サー
ビス系13は、その訂正結果を言語モデル処理系12に
伝えるようにしてもよい。
【0099】そして、言語モデル処理系12は、認識誤
りまたは訂正結果を情報サービス系13から受け取る
と、その認識誤りまたは訂正を辞書および文法に反映さ
せたり、情報サービス系13が言語モデル処理系12に
発行するために保持している辞書および文法に反映させ
たりする。これにより、言語モデル処理系12は、情報
サービス系13における処理内容に基づいて、辞書およ
び文法の精度を向上させることができ、言語モデル処理
の精度を向上させることができる。
【0100】また、利用者10との対話内容が、現住使
用している言語モデル処理系12の適用ジャンル範囲
外、または性能が劣る場合、より性能の高い言語モデル
処理系12があるかを問い合わせ、そのような言語モデ
ル処理系12が他にあれば、その言語モデル処理系12
へ処理を移行するようにしてもよい。ここで、他の言語
モデル処理系12へ処理を移行する場合、切替先の言語
モデル処理系12に利用者10の登録依頼を行う。そし
て、受諾されたら、利用者処理系11に切替先の言語モ
デル処理系12を伝える。
【0101】なお、問い合わせは、例えば、使用可能な
言語モデル処理系12が記述されたカタログを生成する
サーバを通信路15に導入し、そのサーバに問い合わせ
る方法や、言語モデル処理系12がWebサーバも持
ち、対象ジャンルを示すキーワードを記載したホームペ
ージを掲載し、検索エンジンに登録することで、検索エ
ンジンを介して必要な言語モデル処理系12を検索する
方法などを用いることができる。
【0102】さらに、利用者処理系11は、使用する頻
度の高い情報サービスを予め登録するようにしてもよ
い。例えば、利用者10が情報サービス系13から情報
サービスを受けている時に、利用者処理系11に登録を
指示すると、利用者処理系11は、その時の情報サービ
ス系13を言語モデル処理系12と共に登録する。これ
により、利用者10がボタン押下等の簡単な操作で特定
の情報サービスへの対話を指示することができ、同一ジ
ャンルの情報サービスを再度利用する場合、情報サービ
ス利用開始までの処理を簡略化することができ、情報サ
ービス系13との対話を即座に開始することが可能とな
る。
【0103】なお、図2の実施形態では、利用者処理系
11、言語モデル処理系11および情報サービス系13
は相互に直接通信可能であるのに対し、利用者処理系1
1は言語モデル処理系12とのみ接続し、言語モデル処
理系12は情報サービス系13とのみ接続して、言語モ
デル処理系12が処理を全部中継するようにしてもよ
い。これにより、通信路15が1対1でしか設定できな
い場合でも、利用可能となる。
【0104】
【発明の効果】以上説明したように、本発明によれば、
語義情報をクライアント側に用意することなく、話者環
境を考慮した認識処理を行うことが可能となるととも
に、言語モデル処理を行うための十分な辞書を用意する
ことが可能となり、装置上の負担を軽減しつつ、精度の
よい認識処理を迅速に行うことが可能なる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る音声認識システム
の概略構成を示すブロック図である。
【図2】本発明の第2実施形態に係る音声認識システム
の概略構成を示すブロック図である。
【図3】本発明の第3実施形態に係る音声認識システム
の概略構成を示すブロック図である。
【図4】図2の音声認識システムの音声インターフェイ
スおよび情報サービスの利用開始時の動作を示すシーケ
ンス図である。
【図5】図2の音声認識システムの情報サービス運用時
の動作を示すシーケンス図である。
【図6】図2の音声認識システムの音声インターフェイ
スおよび情報サービスの利用終了時の動作を示すシーケ
ンス図である。
【図7】図2の音声認識システムの音声合成処理系利用
時の動作を示すシーケンス図である。
【図8】図2の音声認識システムの適応的学習による話
者適応化の一例を示すシーケンス図である。
【符号の説明】
1 クライアント 1a 音声分析部 1b 音韻抽出部 1c 音響モデル 2 サーバ 2a 認識処理部 2b 言語モデル 10 利用者 11 利用者処理系 11a 音声入力部 11b 音響モデル処理部 11c 通信処理部 11d 文字画像表示部 11e 対話処理部 11f 音声合成処理部 11g 音声出力部 12 言語モデル処理系 12a 言語モデル処理部 12b、13b 辞書文法保管部 12c、13c、14a 通信処理部 13 情報サービス系 13a 情報サービス部 14 音声合成処理系 14b 音声合成部 15 通信路 21 携帯機器 22 基地局 23 言語モデル処理サーバ 24 情報サービスアプリケーションサーバ 25 音声合成処理サーバ 26 公衆無線網 27 インターネット網
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 537Z 537J 561H Fターム(参考) 5D015 GG01 JJ07 KK02 KK04 LL05 LL11 5D045 AB01 AB26

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 クライアント側で入力された音声の認識
    処理をサーバ側で行う音声認識システムにおいて、 前記認識処理の一部を前記クライアント側で行うことを
    特徴とする音声認識システム。
  2. 【請求項2】 前記クライアント側では、話者環境に依
    存する処理を行い、 前記サーバ側では、話者環境に依存しない処理を行うこ
    とを特徴とする請求項1記載の音声認識システム。
  3. 【請求項3】 前記認識処理は音響モデル処理と言語モ
    デル処理とを含み、 前記クライアント側では、前記音響モデル処理を行い、
    前記サーバ側では、前記言語モデル処理を行うことを特
    徴とする請求項1または2記載の音声認識システム。
  4. 【請求項4】 前記クライアント側では、話者環境に基
    づいて前記音響モデル処理を行い、 前記サーバ側では、前記クライアント側が利用した情報
    サービスの内容に基づいて、前記言語モデル処理を行う
    ことを特徴とする請求項3記載の音声認識システム。
  5. 【請求項5】 音響モデルに基づいて音声から音韻情報
    を抽出し、前記抽出した音韻情報を送信する利用者処理
    系と、 前記音韻情報を受信し、前記受信した音韻情報に基づい
    て言語レベルの認識処理を行う言語モデル処理系とを備
    えることを特徴とする音声認識システム。
  6. 【請求項6】 前記利用者処理系は、自己の話者環境を
    考慮して音韻情報を抽出することを特徴とする請求項5
    記載の音声認識システム。
  7. 【請求項7】 前記音韻情報は、音韻候補とその尤度値
    の列であることを特徴とする請求項5または6記載の音
    声認識システム。
  8. 【請求項8】 前記言語モデル処理系から出力される認
    識結果に基づいて、 前記利用者処理系に情報サービスを提供する情報サービ
    ス系をさらに備えることを特徴とする請求項5〜7のい
    ずれか1項記載の音声認識システム。
  9. 【請求項9】 前記情報サービス系は、前記利用者処理
    系に提供される情報サービスの内容に基づいて、前記言
    語モデル処理系の辞書または文法を更新することを特徴
    とする請求項8記載の音声認識システム。
  10. 【請求項10】 前記情報サービス系から提供されるサ
    ービス内容を前記利用者処理系に音声で伝える音声合成
    処理系をさらに備えることを特徴とする請求項8または
    9記載の音声認識システム。
  11. 【請求項11】 音声データから音韻情報を抽出する音
    響モデル処理手段と、 前記音響モデル処理手段により抽出された音韻情報を送
    信する音韻情報送信手段とを備えることを特徴とする携
    帯情報端末。
  12. 【請求項12】 前記音韻情報を抽出するための話者適
    応化を行う話者適応化手段と、 前記音韻情報を抽出するための耐環境処理を行う耐環境
    処理手段とをさらに備えることを特徴とする請求項11
    記載の携帯情報端末。
  13. 【請求項13】 音韻情報を受信する音韻情報受信手段
    と、 前記音韻情報に基づいて言語レベルの認識処理を行う言
    語モデル処理手段とを備えることを特徴とする音声情報
    処理装置。
  14. 【請求項14】 発話された音声を発話側の利用者処理
    系で音韻候補とその尤度値の列に変換するステップと、 前記音韻候補とその尤度値の列を通信路経由で言語モデ
    ル処理系に送信するステップと、 前記音韻候補とその尤度値の列に基づいて、言語レベル
    の認識を前記言語モデル処理系にて行うステップとを備
    えることを特徴とする音声情報処理方法。
  15. 【請求項15】 利用者の使用する情報サービス系を言
    語モデル処理系へ通知するステップと、 前記情報サービス系と前記利用者とを関連付けて、前記
    言語モデル処理系に登録するステップと、 前記言語モデル処理系と前記情報サービス系との間に通
    信路を設定するステップと、 前記言語モデル処理系と前記利用者を関連付けて、前記
    情報サービス系に登録するステップと、 前記言語モデル処理系が、認識結果を前記通信路を通し
    て前記情報サービス系に通知するステップとを備えるこ
    とを特徴とする請求項14記載の音声情報処理方法。
  16. 【請求項16】 前記言語モデル処理系は、前記情報サ
    ービス系のサービス内容に基づいて、言語モデル処理を
    行う際の辞書または文法を切り換えることを特徴とする
    請求項15記載の音声情報処理方法。
  17. 【請求項17】 前記利用者処理系において、 前記利用者に対応した話者適応化を行うステップと、 前記利用者周辺の音響を継続的に観測するステップと、 発話時にその発話場所の環境雑音に応じたノイズ除去を
    行うステップとを備えることを特徴とする請求項15ま
    たは16記載の音声情報処理方法。
  18. 【請求項18】 前記利用者処理系において、 表示用文字列および画像、ならびに発話用文字列を前記
    情報サービス系から受信するステップと、 前記表示用文字列および画像を表示するステップと、 前記発話用文字列を音声合成して出力するステップとを
    備えることを特徴とする請求項15〜17のいずれか1
    項記載の音声情報処理方法。
  19. 【請求項19】 前記情報サービス系が発話用文字列を
    音声合成処理系へ送信するステップと、 前記発話用文字列に基づいて、前記音声合成処理系にて
    音声合成を行うステップと、 前記音声合成された音声データを前記利用者処理系に送
    信するステップと、 前記利用者処理系が、前記音声データを再生するステッ
    プとをさらに備えることを特徴とする請求項15〜18
    のいずれか1項記載の音声情報処理方法。
  20. 【請求項20】 言語モデル処理に基づいて、前記情報
    サービス系から発行された前記言語モデル処理系の辞書
    および文法を更新するステップと、 前記更新された辞書および文法を前記情報サービス系に
    伝えるステップとをさらに備えることを特徴とする請求
    項15〜19のいずれか1項記載の音声情報処理方法。
  21. 【請求項21】 前記言語モデル処理系の認識結果とし
    て得られた文字列を尤度と共に前記利用者処理系に送信
    するステップと、 前記利用者処理系が前記認識結果を利用者に提示するス
    テップと、 前記利用者が前記認識結果を間違いと指示した場合、前
    記言語モデル処理系に前記認識結果の取り消し通知を送
    信するステップと、 前記認識結果の間違いの指示がなく、かつ前記尤度が所
    定値以上の場合、前記利用者処理系は、前記認識結果に
    基づいて話者適応化を行うステップとをさらに備えるこ
    とを特徴とする請求項15〜20のいずれか1項記載の
    音声情報処理方法。
  22. 【請求項22】 前記情報サービス系と利用者との対話
    結果に基づいて、認識誤りまたは訂正結果を取得するス
    テップと、 前記認識誤りまたは訂正結果に基づいて、前記言語モデ
    ル処理系に発行するために前記情報サービス系に保持さ
    れている辞書および文法を更新するステップと、 前記認識誤りまたは訂正結果を前記言語モデル処理系に
    伝えるステップと、 前記認識誤りまたは訂正結果に基づいて、前記言語モデ
    ル処理系に保持されている辞書および文法を更新するス
    テップとをさらに備えることを特徴とする請求項15〜
    21のいずれか1項記載の音声情報処理方法。
  23. 【請求項23】 現在の対話内容に適合した言語モデル
    処理系があるかを問い合わせるステップと、 現在の対話内容に適合した言語モデル処理系がある場
    合、その言語モデル処理系へ処理を移行するステップと
    をさらに備えることを特徴とする請求項15〜22のい
    ずれか1項記載の音声情報処理方法。
  24. 【請求項24】 過去に利用した情報サービス系を、そ
    の時利用した言語モデル処理系と共に登録するステップ
    をさらに備えることを特徴とする請求項15〜22のい
    ずれか1項記載の音声情報処理方法。
  25. 【請求項25】 発話された音声から音韻情報を発話側
    で抽出するステップと、 前記音韻情報を送信するステップと、 前記送信された音韻情報に基づいて、言語レベルの認識
    を行うステップと、 前記認識結果に基づいて、情報サービス系にアクセスす
    るステップと、 前記情報サービス系からのサービス内容を前記音韻情報
    の送信元に返信するステップとを備えることを特徴とす
    る音声情報処理方法。
  26. 【請求項26】 音声認識をネットワーク上でシーケン
    シャルに分散処理することを特徴とする音声情報処理方
    法。
  27. 【請求項27】 音声データから音韻情報を抽出するス
    テップと、 前記抽出された音韻情報を送信するステップと、 前記抽出された音韻情報に基づく認識処理を前記送信先
    で行わせるステップとをコンピュータに実行させるため
    の音声情報処理プログラム。
JP2001231739A 2001-07-31 2001-07-31 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム Pending JP2003044091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001231739A JP2003044091A (ja) 2001-07-31 2001-07-31 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001231739A JP2003044091A (ja) 2001-07-31 2001-07-31 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2003044091A true JP2003044091A (ja) 2003-02-14

Family

ID=19063752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001231739A Pending JP2003044091A (ja) 2001-07-31 2001-07-31 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2003044091A (ja)

Cited By (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
WO2005091274A1 (ja) * 2004-03-18 2005-09-29 Nec Corporation 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
JP2005292476A (ja) * 2004-03-31 2005-10-20 Jfe Systems Inc 顧客応対方法及び装置
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム
WO2009020272A1 (en) * 2007-08-03 2009-02-12 Electronics And Telecommunications Research Institute Method and apparatus for distributed speech recognition using phonemic symbol
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Cited By (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
WO2005091274A1 (ja) * 2004-03-18 2005-09-29 Nec Corporation 音声処理方法と通信システム並びに通信端末およびサーバとプログラム
JP2005292476A (ja) * 2004-03-31 2005-10-20 Jfe Systems Inc 顧客応対方法及び装置
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP4731174B2 (ja) * 2005-02-04 2011-07-20 Kddi株式会社 音声認識装置、音声認識システム及びコンピュータプログラム
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2009020272A1 (en) * 2007-08-03 2009-02-12 Electronics And Telecommunications Research Institute Method and apparatus for distributed speech recognition using phonemic symbol
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
WO2011148594A1 (ja) * 2010-05-26 2011-12-01 日本電気株式会社 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品

Similar Documents

Publication Publication Date Title
JP2003044091A (ja) 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
US9787830B1 (en) Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists
US8494848B2 (en) Methods and apparatus for generating, updating and distributing speech recognition models
US9761241B2 (en) System and method for providing network coordinated conversational services
EP1125279B1 (en) System and method for providing network coordinated conversational services
JP3884851B2 (ja) 通信システムおよびこれに用いられる無線通信端末装置
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
US7392184B2 (en) Arrangement of speaker-independent speech recognition
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
WO2001099096A1 (fr) Systeme de communication a entree vocale, terminal d'utilisateur et systeme central
US8135589B1 (en) Performing speech recognition over a network and using speech recognition results
JP5510069B2 (ja) 翻訳装置
JP2000101705A (ja) 無線電話機
KR101165906B1 (ko) 음성-텍스트 변환 중계 장치 및 그 제어방법
JP2003141116A (ja) 翻訳システム、翻訳方法、および、翻訳プログラム
JP2000151827A (ja) 電話音声認識システム
JP2021081527A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP2002300289A (ja) 音声自動翻訳通話システム
JPH10289092A (ja) 情報処理システムおよび情報管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061212