JP2003115929A - 音声入力システムおよび音声ポータルサーバおよび音声入力端末 - Google Patents
音声入力システムおよび音声ポータルサーバおよび音声入力端末Info
- Publication number
- JP2003115929A JP2003115929A JP2001306787A JP2001306787A JP2003115929A JP 2003115929 A JP2003115929 A JP 2003115929A JP 2001306787 A JP2001306787 A JP 2001306787A JP 2001306787 A JP2001306787 A JP 2001306787A JP 2003115929 A JP2003115929 A JP 2003115929A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice input
- information
- text
- portal server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42365—Presence services providing information on the willingness to communicate or the ability to communicate in terms of media capability or network connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
Abstract
話,TV,PCなどの固定端末から音声でネットにアク
セスし、地図情報,音楽情報,番組情報,電話情報など
を提供するプロバイダからサービスを受ける音声入力シ
ステムを提供する。 【解決手段】 音声入出力手段とアクセス状況表示手段
とを備えた音声入力端末10,30と、音声を取り込み
テキストとして認識する音声認識手段と認識されたテキ
ストをコマンドテキスト辞書と照合しコマンドテキスト
とオブジェクトテキストとに分離するコマンド変換手段
と分離されたテキストに基づいて各種情報を提供するプ
ロバイダにアクセスしてサービスを受けこのサービスを
音声入力端末に出力する対話制御手段とを備えた音声ポ
ータルサーバ50と、音声ポータルサーバから受信した
コマンドテキストおよびオブジェクトテキストに基づき
情報を検索しその結果を音声ポータルサーバにサービス
するプロバイダ60とからなる音声入力システム。
Description
ム,音声ポータルサーバ,音声入力端末に係り、特に、
PDA(Personal Digital Assistants),携帯電話,車
載ナビゲーションなどの移動端末装置からまたは家庭電
話,TV,PCなどの家庭(固定)端末から音声でネット
ワークにアクセスし、地図情報,音楽情報,TV番組情
報,電話情報などを提供する情報提供サービスプロバイ
ダから情報やサービスを受ける音声入力システムに関す
る。
力された音声を音声言語理解装置によりデータベース言
語の中間言語に変換して単語を検索するシステムを記載
している。
辞書を切り替えながら入力された音声の認識性能を向上
させる方法を記載している。
ドスポッティングという技術で辞書にある言葉を切り出
し、要求キーワードを認識して話題を確定し、その話題
用の認識辞書を用いて音声を認識させ、認識性能を向上
させる方法を記載している。
93号公報の技術は、識別誤りが最小になるように文章
データをそれに対応する中間言語に変換する隠れマルコ
フモデルを学習する方法である。この方式では、統計的
処理に基づく学習であるから、いろいろな分野に同時に
サービスしようとすると、分野ごとに学習する必要があ
り、処理に多くの時間がかかり、認識性能が下がる。ま
た、長い文章と短い文章とが混在する実際の対話を考慮
した音声入力システムにはなっていない。さらに、認識
文字列の一部に誤りがあった場合についての配慮がな
い。
は、認識結果に応じて対応辞書を切り替えて認識性能を
向上させるナビゲーションの発明であるが、音声を連続
入力できない。また、認識文字列の一部に誤りがあった
場合についての配慮がない。
は、認識結果に応じて話題を切り出し辞書を切り替えて
認識性能を上げる発明である。しかし、上記2つの従来
技術と同様に、認識文字列の一部に誤りがあった場合に
ついての配慮がない。
移動端末や家庭電話(HomeTEL),TV,PCなどの固
定端末から音声でネットにアクセスし、地図情報,音楽
情報,番組情報,電話情報などを提供するプロバイダか
らサービスを受ける音声入力システムおよび音声ポータ
ルサーバおよび音声入力端末を提供することである。
成するために、音声入出力手段とWebブラウザと外部
システムへのアクセス状況および検索結果を表示する表
示手段とを備えた音声入力端末と、音声入力端末からの
音声を取り込みテキストとして認識する音声認識手段
と、認識されたテキストをコマンドテキスト辞書と照合
しコマンドテキストとオブジェクトテキストとに分離す
るコマンド変換手段と、分離されたコマンドテキストと
オブジェクトテキストとに基づいて各種情報を提供する
アプリケーションサービスプロバイダにアクセスしてサ
ービスを受けこのサービスを音声入力端末に出力する対
話制御手段とを備えた音声ポータルサーバと、音声ポー
タルサーバから受信したコマンドテキストおよびオブジ
ェクトテキストに基づいて情報を検索する情報検索手段
を備え検索結果を音声ポータルサーバにサービスするア
プリケーションサービスプロバイダとからなる音声入力
システムを提案する。
報検索手段は、入力されたオブジェクトテキストをn文
字ごとに切り出し予め作成してあるn文字INDEXに
基づいて情報検索する手段とすることができる。
地図情報をサービスするナビゲーション情報アプリケー
ションサービスプロバイダ,音楽情報をサービスする音
楽情報アプリケーションサービスプロバイダ,TV番
組,CS番組,CATV番組の少なくとも1つの情報を
サービスする番組情報アプリケーションサービスプロバ
イダ,電話情報をサービスする電話情報アプリケーショ
ンサービスプロバイダなどとする。
された音声を音声ポータルサーバで認識してコマンドと
オブジェクトとのテキストに分離し、分離されたテキス
トに基づき、アプリケーションサービスプロバイダにあ
る情報をあいまい検索し、オブジェクトテキストに一部
認識誤りがあっても、意図する情報を音声入力端末に提
供できる。
外部システムとのアクセス状況を表示する手段とを備え
た音声入力端末と、各種情報を提供するアプリケーショ
ンサービスプロバイダと、入力された音声に基づいて音
声入力端末とアプリケーションサービスプロバイダとの
対話を制御する音声ポータルサーバとからなる音声入力
システムにおいて、音声ポータルサーバは、音声入力端
末からの音声を取り込みテキストとして認識する音声認
識手段と、認識されたテキストをコマンドテキスト辞書
と照合しコマンドテキストとオブジェクトテキストとに
分離するコマンド変換手段と、分離されたコマンドテキ
ストとオブジェクトテキストとをアプリケーションサー
ビスプロバイダに送りアプリケーションサービスプロバ
イダで検索された情報を音声入力端末に出力する対話制
御手段とを備えた音声ポータルサーバを提案する。
語音声認識手段と、入力された音声の特徴量をしきい値
として2つの認識手段の認識結果の一方を選択して出力
する認識総合評価手段とを備える。
のいずれを採用してもよい。
長い文章に適した連続音声認識エンジンとコマンドのよ
うな短い文章に適した単語音声認識エンジンの2つで構
成し、総合的に評価しているため、音声対話の認識性能
が向上する。
よび各種情報を提供するアプリケーションサービスプロ
バイダにアクセスしサービスを受ける音声入力端末にお
いて、音声入出力手段と、Webブラウザと、外部シス
テムへのアクセス状況および検索結果を表示する表示手
段とを備えている。
ナビゲーションのいずれかに組み込まれている携帯音声
入力端末と、家庭電話,TV,PCのいずれかに組み込
まれている家庭音声入力端末とに分類できる。
SP)として、ナビゲーション情報ASP,音楽情報A
SP,番組情報ASP,電話情報ASPを設けたので、
PDA,MobileTEL,MobileCarPCなどの移動する
音声入力端末や、家庭電話,TV,PCなどの家庭の音
声入力端末にも、それぞれの必要に応じて、最適な情報
をサービスできる。
本発明による音声入力システム,音声ポータルサーバ,
音声入力端末の実施形態を説明する。
実施形態の全体構成を示すブロック図である。
は、移動端末10と家庭(固定)端末30とを使用でき
る。移動端末10としては、PDA10a,携帯電話1
0b,車載端末10cなどがある。家庭(固定)端末30
としては、家庭内での利用を想定した固定電話30a,
情報家電としてのテレビシステムTV30b,パーソナ
ルコンピュータPC30cなどがある。移動端末10a
〜10cは、無線基地局20を介してインターネット網
40に接続され、家庭端末30a〜30cは、インター
ネット網40に直接接続されている。
および各種アプリケーションサービスプロバイダ(AS
P)60も、インターネット網40に接続されている。
ナビゲーション情報ASP60a,音楽情報ASP60
b,TV番組情報ASP60c,電話情報ASP60d
などがある。
0cのいずれかから、音声ポータルサーバ50に接続す
ると、音声のガイダンスやメニュー表示が音声入力端末
に出力され、対応する音声を入力すると、音声はインタ
ーネット網40を介して音声ポータルサーバ50に転送
される。
し、音声の内容をコマンドや検索対象物であるオブジェ
クトとしてコマンド変換処理し、コマンドの内容に対応
したASP60に転送する。
検索し、音声ポータルサーバ50を経由して、音声を入
力してきた音声入力端末に検索結果を出力する。
は、キーボード(KB)を利用しにくい環境にある移動端
末やキーボード操作に慣れていない家庭での端末に主に
利用され、入力を容易にする。
の全体構成として、サーバ群をインターネットに接続し
てある。
に接続しても、これらのネットワーク内では、効果は変
わらない。各種ASP群を近くに置き、これらのASP
群では意図するデータをサービスできないときのみイン
ターネットのサーバ群に接続するいわゆるキャッシュサ
ーバとして設置してもよい。
以外の情報サービス、例えば、株価情報,取引先情報,
顧客情報,商品情報などが存在してもよい。
理し、個人の特性に応じたサービスをすることも可能で
ある。
あり、図5〜図7は、家庭(固定)端末の構成を示す図で
ある。各端末の基幹部分は、ほぼ同じように構成されて
いる。
PDAの実施形態の構成を示すブロック図である。PD
A10aは、無線基地局20と通信するアンテナ10a
1と、無線通信するための通信手段10a2とを含んで
いる。通信手段10a2は、Voice Over IP(VoIP)技術
などにより、音声とデータとを同時に送受信できる。処
理装置およびWebブラウザ10a3は、各構成部およ
び周辺装置と接続され、端末全体を制御する。周辺装置
としては、音声入力用のマイクMIC10a4,タッチパ
ネルとして構成する座標入力装置(タブレット)TB10
a5,液晶ディスプレイLCD10a6,スピーカSP
10a7がある。
位置検出手段10a8を備えており、GPS(Global Po
sitioning System)10a9に接続されている。
声でなされる。その処理結果はディスプレイに表示さ
れ、次の操作の待ち状態となる。
MobileTELの構成を示すブロック図である。構成要素
は、図2のPDA10aと同じである。しかし、一般
に、価格を抑えるため、液晶ディスプレイLCD10b
6のサイズやカラー表示性能が異なる。一方、携帯電話
用各種応用ソフトが追加されている。
MobileCarPCの構成を示すブロック図である。構成要
素は、基本的には、図2のPDA10aと同じである。
しかし、車載用に適した液晶ディスプレイLCD10c
6や車載用応用ソフトが、図2のPDA10aとは異な
る。また、図示していないが、車載の各種センサと接続
され、車両に関する情報を表示してもよい。
家庭電話の構成を示すブロック図である。図2のPDA
10aとの違いは、無線基地局20との通信用アンテナ
10a1,位置検出手段10a8,GPS10a9が無
いことである。
TVの構成を示すブロック図である。図5の固定電話家
庭電話30aとは、テレビ装置TV30b10,TV制
御手段30b8,カメラCM30c9が異なっている。
TV制御手段30b8は、TV番組を予約したり、チャ
ンネルを設定したりするための手段であり、一般に、セ
ットトップボックスと呼ばれる。
映像を送ったり、室内を画像で監視したりすることに用
いる。
PCの構成を示すブロック図である。図6のテレビシス
テムTV30bと異なるのは、TV制御手段が無いこと
である。PCの操作は、タッチパネルまたは音声でなさ
れる。図示しないが、キーボードを接続し、PCを操作
してもよい。
30c9は、図2〜図5の音声入力端末に装備してもよ
い。
50の実施形態の構成を示すブロック図である。本発明
の特徴的な部分である音声ポータルサーバ50は、イン
ターネット網40と通信する通信手段501と、音声ポ
ータルサーバ50全体を処理する処理装置502と、音
声データVinを取り込み認識辞書504を用いてテキス
トデータVtext1に認識出力する音声認識手段503
と、認識された音声Vtext1をコマンドテキスト辞書5
06を用いてコマンドとオブジェクトVtext2に変換す
るコマンド変換手段505と、音声入力端末や各種情報
ASPとの対話を制御する対話制御手段507と、対話
制御手段の音声テキストVtext3により音声を合成する
音声合成手段508と、Webブラウザ509とからな
る。
50の音声認識手段503の構成を示すブロック図であ
る。本実施形態では、音声認識手段が2つの認識エンジ
ンを備えていることが特徴である。すなわち、音声認識
手段503は、比較的長い音声を認識させる連続音声認
識エンジン503aとコマンドのような比較的短い音声
を認識する単語音声認識エンジン503bで構成され
る。
声認識辞書504aを用いて音声を認識し、単語音声認
識辞エンジン503bは、単語音声認識辞書504bを
用いて音声を認識する。
評価手段503cで総合的に評価される。一般に、連続
音声認識エンジンは、単語間の遷移確率モデルを用いて
認識する方式を用いるため、コマンドのような短い単語
が入力されると、前後の単語知識を利用できないため、
誤認識が多くなる。
識エンジンの出力が正しいかを総合的に判断することが
必要になる。
0〜図13を用いて具体例で説明する。
認識結果を音声の発話時間を用いて切り替える例を示し
ている。認識総合的評価手段503cは、発話時間評価
において、音声データVinをしきい値と比較し、短けれ
ばS側に、長ければL側に切り替える。
バ50の音声認識手段の動作を説明する図であり、発話
時間が比較的短い“はい。”という音声が入力されたと
きの状態を説明する図である。この場合は、S側に切り
替えられて、認識総合評価手段の出力Vtext1は、“は
い。”の文字列が出力される。ここで、しきい値は、単
語音声認識辞書の最大発話時間を選んでおく。
バ50の音声認識手段の動作を説明する図であり、発話
時間が比較的長い“日立神田に目的地を設定する。”と
いう音声発話データが入力されたときの状態を示す図で
ある。この場合は、L側に切り替えられて、認識総合評
価手段の出力Vtext1は、“日立神田に目的地を設定す
る。”の文字列が出力される。
ではなく、認識エンジンの結果の文字列長をしきい値と
評価する例である。
バ50の音声認識手段の動作を説明する図である。発話
時間が比較的短い“はい。”という音声が入力されたと
きの状態を説明する図である。この場合は、S側に切り
替えられて、認識総合評価手段の出力Vtext1は、“は
い。”の文字列が出力される。
バ50の音声認識手段の動作を説明する図である。発話
時間が比較的長い“日立神田に目的地を設定する。”と
いう音声発話データが入力されたときの状態を示す図で
ある。この場合は、L側に切り替えられて、認識総合評
価手段の出力Vtext1は、“日立神田に目的地を設定す
る。”の文字列が出力される。
かけ離れた音声が入力されると“認識不能を示す文字列
=“?”を出力するようにしている。この場合において
も、しきい値を適当な値(例:コマンド文字列の最大長)
を選んでおくことにより、最適な文字列が出力され、全
体の認識性能が改善される。
発話データが“はい。”というコマンドであっても、連
続音声認識エンジンのみの場合、“肺。”という文字が
出力されてしまう問題を解決できる。
バ50のコマンド変換手段505の構成を示すブロック
図である。音声認識手段503の文字列Vtext1がコマ
ンド変換手段に入力されると、コマンド文字列検索50
5aにおいて、コマンドテキスト辞書506を用いて、
コマンド文字列が含まれるかどうかを処理する。
スト辞書の例を示す図である。コマンドテキスト辞書5
06では、コマンドID、コマンド名1〜コマンド名5
まであり、同一コマンドIDでは、どれが入力されても
よいようになっている。例えば、“目的地設定。”と
“行く。”の文字列は同一コマンドID=D01として
判断される。
ASPにあわせたコマンド(NO1〜NO8),音声対話
用のコマンド(NO9〜NO10),画面操作用のコマン
ド(NO11〜NO22)に大別できる。
しいるが、図23〜図24で後述するように、一部認識
誤りを含んでいても検索できるようにしてもよい。
マンド以外の文字列であるオブジェクトを抽出するオブ
ジェクト抽出505bを実行する。この処理は、各情報
ASPに送出するコマンドと検索対象文字列であるオブ
ジェクトとを抽出する処理である。
バ50のコマンド変換手段505の動作を説明する図で
ある。音声認識手段の結果Vtext1が、“日立神田に目
的地を設定する。”であるとすると、コマンド文字列検
索505aでは、コマンドテキスト辞書506を参照し
てコマンド文字列が“目的地を設定する。”と判断し、
コマンドID=D01と理解する。
マンド文字列以外のがオブジェクトと判断し、オブジェ
クト“日立神田に。”が抽出される。したがって、オブ
ジェクト抽出手段505bの結果Vtext2は、“コマン
ドID=D01、オブジェクト=日立神田に。”として
出力される。
は、処理を簡単にするため、コマンド文字列以外の全て
の文字列をオブジェクトにしたが、形態素解析を実行
し、“日立神田に。”の“に”を省いて抽出するように
してもよい。
バ50の対話制御手段507の構成を示すブロック図で
ある。対話制御手段507は、全体を制御する対話処理
手段507aと、音声対話の基本対話ルール507b
と、音声入力端末とのインタフェースである端末データ
制御手段507cと、各情報ASPとのインタフェース
であるASP制御手段507dと、音声合成制御手段5
07eとで構成される。
で共通に使用されるルールを格納するものであり、各情
報ASPの特有の対話ルールは、各情報ASPからダウ
ンロードされる。
るVtext2が入力されると、対話処理手段507aで、
コマンドIDを判断し、どの情報ASPに対応するかを
判断し、対応する情報ASPにコマンドIDおよびオブ
ジェクトをASPDataOutとして送信する。
が、ASPDataInとしてASP制御手段507bに入力さ
れたら、端末制御507cは、その検索を要求した音声
入力端末に対して、TdataOutを出力する。音声入力端末
では、その検索結果のデータが表示される。
合は、音声合成制御手段507eから、Vtext3として
音声列を出力し、音声合成手段508で合成した音声V
outを音声入力端末に送り、スピーカから音を出す。
タ入力がある場合は、TdataInとして受け付ける。
VoiceXMLブラウザで構成してもよい。
Pの詳細な構成を説明する。
報ASPの構成を示すブロック図である。ナビゲーショ
ン情報ASPは、地図情報や経路探索情報をサービスす
るプロバイダであり、インターネットとのインタフェー
ス60a100と、あいまい検索手段60a200と、
経路探索手段60a500と、対話ルール処理手段60
a700とからなる。各手段は、各々辞書を参照して要
求を処理する。
情報であるランドマーク情報のデータベースランドマー
クDB60a300と、あいまい検索するためのランド
マークINDEX60a400辞書とを参照する。詳細
な動作については、後述する。
であるMapDB60a600を参照して現在地から、目的
地までの経路を探索する。この経路探索は、一般になさ
れている経路探索処理であるので、詳細な説明を省略す
る。
報ASPごとに特有の対話ルールを処理する手段であ
り、対話ルール60b800は、音声ポータルサーバ5
0の基本対話以外のルールとして利用される。
構成を示すブロック図である。図18のASPと比較す
ると、音楽情報ASPには、経路探索手段に相当するも
のが無く、コンテンツが、音楽DB60b300,音楽
INDEX60b400,音楽用対話ルール60b80
0となっている。
Pの構成を示すブロック図である。図19のASPと
は、コンテンツの内容が異なるだけである。コンテンツ
としては、TV番組DB60c300,番組INDEX
60c400,番組用対話ルール60c800がある。
組,CS番組,CATV番組の少なくとも1つの情報を
意味する。
構成を示すブロック図である。図19のASPとは、コ
ンテンツが異なり、電話DB60d300,電話IND
EX60d400,電話用対話ルール60d800を備
えている。
画面の一例を示す図である。音声メニューには、各情報
ASPに応じて音声メニューアイコンが用意されてい
る。ナビゲーション情報ASPに関するものには、“目
的地設定。”,“目的地検索。”,“経由地設定。”,
“現在地表示。”がある。
検索。”がある。番組情報ASPに関するものには、
“番組検索。”、“番組予約。”がある。電話情報AS
Pに関すものには、“電話検索。”がある。
する方法と、対象物も含めてすべて音声で入力する方法
も許している。例えば、目的地検索の例では、メニュー
を押さずに、“日立神田に目的地を設定する。”と直接
音声入力してもよい。
あいまい検索手段60a200の構成を示すブロック図
である。他のあいまい検索手段60b200,60c2
00,60d200の構成も、あいまい検索手段60a
200と同様である。
200は、検索エンジン60a100と、2文字IND
EX生成60a220とからなる。検索エンジン60a
100および2文字INDEX生成60a220は、ラ
ンドマークDBa300およびランドマークINDEX
60a400を参照しながら検索処理する。
ータを保有しているので、ランドマークINDEXは、
2文字INDEX生成処理により、予め作成しておく必
要がある。本発明においては、この2文字INDEX生
成処理により、高速でかつあいまい検索がなされるのが
特徴である。ここで、あいまい検索とは、検索語句の意
味があいまいではなく、文字列の一部の誤り(一部文字
列追加、一部文字列欠損、文字列順不同、一部文字列誤
り)があっても、入力された語句を検索できることを意
味している。
あいまい検索の手順の一例を示す図である。例として、
“日立神田に。”に目的地設定をする場合を示す。
60a200keyが入力されると、2文字ごとに切出
処理60a211をする。
X検索60a212をする。
からランドマークDBを検索し、ヒットするDBのレコ
ードを抽出する。
多いものの順にソーティングし出力処理60a214
し、検索結果としてリスト60a200resを出力す
る。
索するので、高速検索とあいまい検索の両方の特徴をも
つ。
索オブジェクトにあってもランドマークDBに該当する
ものがなければ、無視される。一方、“神田日立に。”
と入力されても、関係するものがヒットする。
を入力できる効果がある。
力し、どの検索対象物を選択するかを音声指示し、選択
することもできる。
たように、2文字INDEX生成処理により、検索する
例を示したが、3文字INDEXや4文字INDEX生
成でもよい。
もつ場合、3文字INDEXや4文字INDEX生成の
方が、2文字INDEX処理よりも、不要な検索出力が
少なくなるという効果がある。
音声ポータルサーバ50,情報ASP60間の具体的な
通信手順を説明する。
声ポータルサーバとナビゲーション情報ASPとの間の
通信手順を示す図である。ここでは、音声入力端末Mobi
lePC10c,音声ポータルサーバ50,ナビゲーショ
ン情報ASP60a間の通信手順を示すが、他の情報A
SP間との通信手順もほぼ同様である。
音声ポータルサーバ50に接続要求が出されると、音声
ポータルサーバ50から、音声により“ご用件を入力く
ださい。”と音声入力端末MobilePC10cに音声出力
する。同時に、図21の音声メニューも表示される。
は、音声で“日立神田に目的地を設定する。”と直接音
声入力する。
し、対応して“日立神田に目的地を設定しますか?。”
と音声応答する。
コマンド用の音声を入力する。
声ポータルサーバ50は、“検索中です。”の音声応答
を音声入力端末MobilePC10cに返すとともに、ナビ
ゲーション情報ASP60aに対し、コマンドID“D
01。”、オブジェクト“日立神田に。”のデータを送
信し、検索結果を返してもらう。ここでは、検索結果数
(2件)と内容(XXX,YYY)を返す。
検索結果から“結果が2件あります。何番にしますか
?”と音声応答する。同時に、音声入力端末MobilePC
10cのディスプレイには、検索結果の内容表示がされ
る。
と、音声ポータルサーバ50は音声を認識し、対応する
音声“目的地を1番に設定します。”を出力する。
現在位置を要求し、現在位置情報を得て、この情報を元
に、ナビゲーション情報ASP60aに対して、経路探
索コマンドとそのパラメータとを送信する。
ン情報ASPから、探索結果である経路情報および地図
情報を得て、音声入力端末MobilePC10cに出力する
とともに、音声“安全運転でどうぞ。”と音声応答す
る。
入力されると、図示していないが、“ご用件を入力くだ
さい。”に再度戻るようになっている。
選択する例を示したが、タッチパネルを備えているの
で、タッチパネルで選択してもよい。この場合、検索結
果の内容とタッチパネルの座標との対応は、予め決めて
おかなければならない。
lePC10cを用いたが、PDA10a、MobileTEL
10bとナビゲーション情報ASP間でやり取りしても
よい。この場合、人間ナビゲーションシステムになる。
すなわち、自分の音声入力端末の現在位置がわかるの
で、現在位置情報を表示したり、行きたいランドマーク
を検索したりできる。
声ポータルサーバと音楽情報ASPとの間の通信手順を
示す図である。音声入力端末MobilePC10cが、音声
ポータルサーバ50を介して音楽情報ASP60bから
音楽のコンテンツサービスを受ける通信手順である。
音声ポータルサーバ50に接続要求が出されると、音声
ポータルサーバ50から、音声により“ご用件を入力く
ださい。”と音声入力端末MobilePC10cに音声出力
する。同時に、図21の音声メニューも表示される。
は、音声で“Mariah Careyの曲を聴きたい。”と直接音
声入力する。
認識し、対応して“Mariah Careyの曲を検索しますか
?。”と音声応答がある。
コマンド用の音声を入力する。
声ポータルサーバ50は、“検索中です。”の音声応答
を音声入力端末MobilePC10cに返すとともに、音楽
情報ASP60bに対し、コマンドID“M01。”、オ
ブジェクト“Mariah Careyの。”のデータを送信し、検
索結果を返してもらう。
X,YYY、ZZZ)を返す。
検索結果から“結果が3件あります。何番にしますか
?。”と音声応答する。同時に、音声入力端末MobileP
C10cのディスプレイには、検索結果の内容表示がさ
れている。
と、音声ポータルサーバ50はこれを認識し、対応する
音声“音楽を3番に設定します。”と出力する。同時
に、3番の音楽のダウンロードを音楽情報ASPに指示
する。
声応答と対応した音楽コンテンツが音声入力端末Mobile
PC10cにダウンロードされる。
OKかどうかの音声応答を待って、ダウンロードが開始
する。
声ポータルサーバとTV番組情報ASPとの間の通信手
順を示す図である。音声入力端末TV30b、PC30
cが、音声ポータルサーバ50を介して番組情報ASP
60cからTV番組のコンテンツサービスを受ける通信
手順である。
バ50に接続要求が出されると、音声ポータルサーバ5
0から、音声により“ご用件を入力ください。”と音声
入力端末に音声出力する。同時に、図21の音声メニュ
ーも表示される。
報の番組を見たい。”と直接音声入力する。
し、対応して“天気予報の番組を検索しますか?。”と
音声応答がある。
コマンド用の音声を入力する。
声ポータルサーバ50は、“検索中です。”という音声
応答を音声入力端末に返すとともに、番組情報ASP6
0cに対し、コマンドID“T01”、オブジェクト“天
気予報の。”のデータを送信し、検索結果を返してもら
う。
X,YYY)を返す。
検索結果から“結果が2件あります。何番にしますか
?”と音声応答する。同時に、音声入力端末のディスプ
レイには、検索結果の内容表示がされる。
と、音声ポータルサーバ50はこれを認識し、対応する
音声“番組を1番に設定します。”を出力する。
が設定されて、天気予報サービスを見ることができる。
かの音声応答を待ってチャンネルを設定する。
れていないときは、チャンネルを予約できる。この場合
は、音声ポータルサーバ50から、予約するかどうかの
案内があり、それに答えると、予約が終了する。
毎週予約などもできる。
声ポータルサーバと電話情報ASPとの間の通信手順を
示す図である。音声入力端末家庭電話30a,MobileT
EL10bが、音声ポータルサーバ50を介して、電話
情報ASP60dから電話情報のコンテンツサービスを
受ける通信手順である。
バ50に接続要求が出されると、音声ポータルサーバ5
0から、音声により“ご用件を入力ください。”と音声
入力端末に音声出力する。同時に、図21の音声メニュ
ーも表示される。
郎さんに電話をしたい。”と直接音声入力する。
し、対応して“日立太郎さん電話をかけますか?。”と
音声応答する。
コマンド用の音声を入力する。
声ポータルサーバ50は、“検索中です。”の音声応答
を音声入力端末に返すとともに、電話情報ASP60d
に対し、コマンドID“P01。”、オブジェクト“日立
太郎さんに。”のデータを送信し、検索結果を返しても
らう。
X,YYY)を返す。
検索結果から“結果が2件あります。何番にしますか
?。”と音声応答する。同時に、音声入力端末のディス
プレイには、検索結果の内容表示がされている。
と、音声ポータルサーバ50はこれを認識し、対応する
音声“電話を1番にかけます。”と出力する。
かけて、相手がでたら対話できる。もし、検索結果が一
人だけならば、OKかどうかの音声応答を待って電話を
かける。
された音声を音声ポータルサーバで認識してコマンドと
オブジェクトとのテキストに分離し、分離されたテキス
トに基づき、アプリケーションサービスプロバイダにあ
る情報をあいまい検索し、オブジェクトテキストに一部
認識誤りがあっても、意図する情報を音声入力端末に提
供できる。
ジンを長い文章に適した連続音声認識エンジンとコマン
ドのような短い文章に適した単語音声認識エンジンの2
つで構成し、総合的に評価しているため、音声対話の認
識性能が向上する。
イダ(ASP)として、ナビゲーション情報ASP,音楽
情報ASP,番組情報ASP,電話情報ASPを設けた
ので、PDA,MobileTEL,MobileCarPCなどの移
動する音声入力端末や、家庭電話,TV,PCなどの家
庭の音声入力端末にも、それぞれの必要に応じて、最適
な情報をサービスできる。
体構成を示すブロック図である。
形態の構成を示すブロック図である。
の構成を示すブロック図である。
Cの構成を示すブロック図である。
成を示すブロック図である。
示すブロック図である。
示すブロック図である。
構成を示すブロック図である。
段の構成を示すブロック図である。
手段の動作を説明する図である。
手段の動作を説明する図である。
手段の動作を説明する図である。
手段の動作を説明する図である。
変換手段の構成を示すブロック図である。
を示す図である。
変換手段の動作を説明する図である。
手段の構成を示すブロック図である。
成を示すブロック図である。
ロック図である。
すブロック図である。
ロック図である。
示す図である。
手段の構成を示すブロック図である。
の手順の一例を示す図である。
ーバとナビゲーション情報ASPとの間の通信手順を示
す図である。
ーバと音楽情報ASPとの間の通信手順を示す図であ
る。
ーバとTV番組情報ASPとの間の通信手順を示す図で
ある。
ーバと電話情報ASPとの間の通信手順を示す図であ
る。
Claims (13)
- 【請求項1】 音声入出力手段とWebブラウザと外部
システムへのアクセス状況および検索結果を表示する表
示手段とを備えた音声入力端末と、 前記音声入力端末からの音声を取り込みテキストとして
認識する音声認識手段と、認識されたテキストをコマン
ドテキスト辞書と照合しコマンドテキストとオブジェク
トテキストとに分離するコマンド変換手段と、分離され
たコマンドテキストとオブジェクトテキストとに基づい
て各種情報を提供するアプリケーションサービスプロバ
イダにアクセスしてサービスを受けこのサービスを前記
音声入力端末に出力する対話制御手段とを備えた音声ポ
ータルサーバと、 前記音声ポータルサーバから受信したコマンドテキスト
およびオブジェクトテキストに基づいて情報を検索する
情報検索手段を備え検索結果を前記音声ポータルサーバ
にサービスするアプリケーションサービスプロバイダと
からなる音声入力システム。 - 【請求項2】 請求項1に記載の音声入力システムにお
いて、 前記アプリケーションサービスプロバイダの情報検索手
段が、入力されたオブジェクトテキストをn文字ごとに
切り出し予め作成してあるn文字INDEXに基づいて
情報検索する手段であることを特徴とする音声入力シス
テム。 - 【請求項3】 請求項1または2に記載の音声入力シス
テムにおいて、 前記アプリケーションサービスプロバイダが、地図情報
をサービスするナビゲーション情報アプリケーションサ
ービスプロバイダであることを特徴とする音声入力シス
テム。 - 【請求項4】 請求項1ないし3のいずれか一項に記載
の音声入力システムにおいて、 前記アプリケーションサービスプロバイダが、音楽情報
をサービスする音楽情報アプリケーションサービスプロ
バイダであることを特徴とする音声入力システム。 - 【請求項5】 請求項1ないし4のいずれか一項に記載
の音声入力システムにおいて、 前記アプリケーションサービスプロバイダが、TV番
組,CS番組,CATV番組の少なくとも1つの情報を
サービスする番組情報アプリケーションサービスプロバ
イダであることを特徴とする音声入力システム。 - 【請求項6】 請求項1ないし5のいずれか一項に記載
の音声入力システムにおいて、 前記アプリケーションサービスプロバイダが、電話情報
をサービスする電話情報アプリケーションサービスプロ
バイダであることを特徴とする音声入力システム。 - 【請求項7】 音声を入出力する手段と外部システムと
のアクセス状況を表示する手段とを備えた音声入力端末
と、各種情報を提供するアプリケーションサービスプロ
バイダと、入力された音声に基づいて前記音声入力端末
とアプリケーションサービスプロバイダとの対話を制御
する音声ポータルサーバとからなる音声入力システムに
おいて、 前記音声ポータルサーバは、前記音声入力端末からの音
声を取り込みテキストとして認識する音声認識手段と、
認識されたテキストをコマンドテキスト辞書と照合しコ
マンドテキストとオブジェクトテキストとに分離するコ
マンド変換手段と、分離されたコマンドテキストとオブ
ジェクトテキストとを前記アプリケーションサービスプ
ロバイダに送り前記アプリケーションサービスプロバイ
ダで検索された情報を音声入力端末に出力する対話制御
手段とを備えたことを特徴とする音声ポータルサーバ。 - 【請求項8】 請求項7に記載の音声ポータルサーバに
おいて、 前記音声認識手段が、連続音声認識手段と、単語音声認
識手段と、入力された音声の特徴量をしきい値として前
記2つの認識手段の認識結果の一方を選択して出力する
認識総合評価手段とを備えたことを特徴とする音声ポー
タルサーバ。 - 【請求項9】 請求項8に記載の音声ポータルサーバに
おいて、 前記音声の特徴量が、発話時間であることを特徴とする
音声ポータルサーバ。 - 【請求項10】 請求項8に記載の音声ポータルサーバ
において、 前記音声の特徴量が、認識文字列長であることを特徴と
する音声ポータルサーバ。 - 【請求項11】 音声ポータルサーバおよび各種情報を
提供するアプリケーションサービスプロバイダにアクセ
スしサービスを受ける音声入力端末において、 音声入出力手段と、Webブラウザと、外部システムへ
のアクセス状況および検索結果を表示する表示手段とを
備えたことを特徴とする音声入力端末。 - 【請求項12】 請求項11に記載の音声入力端末にお
いて、 PDA,携帯電話,車載ナビゲーションのいずれかに組
み込まれていることを特徴する携帯音声入力端末。 - 【請求項13】 請求項11に記載の音声入力端末にお
いて、 家庭電話,TV,PCのいずれかに組み込まれているこ
とを特徴する家庭音声入力端末。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001306787A JP3997459B2 (ja) | 2001-10-02 | 2001-10-02 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
EP02003448A EP1300828A3 (en) | 2001-10-02 | 2002-02-14 | Speech input system, portal server, and terminal |
US10/083,636 US20030074199A1 (en) | 2001-10-02 | 2002-02-27 | Speech input system, speech portal server, and speech input terminal |
US10/192,317 US6944593B2 (en) | 2001-10-02 | 2002-07-11 | Speech input system, speech portal server, and speech input terminal |
US10/823,552 US7058579B2 (en) | 2001-10-02 | 2004-04-14 | Speech input system, speech portal server, and speech input terminal |
US11/060,390 US7299186B2 (en) | 2001-10-02 | 2005-02-17 | Speech input system, speech portal server, and speech input terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001306787A JP3997459B2 (ja) | 2001-10-02 | 2001-10-02 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003115929A true JP2003115929A (ja) | 2003-04-18 |
JP3997459B2 JP3997459B2 (ja) | 2007-10-24 |
Family
ID=19126369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001306787A Expired - Fee Related JP3997459B2 (ja) | 2001-10-02 | 2001-10-02 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
Country Status (3)
Country | Link |
---|---|
US (4) | US20030074199A1 (ja) |
EP (1) | EP1300828A3 (ja) |
JP (1) | JP3997459B2 (ja) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006246444A (ja) * | 2005-02-28 | 2006-09-14 | Microsoft Corp | ユニファイド・メッセージングの状態変更の動的構成 |
JP2007171963A (ja) * | 2005-12-20 | 2007-07-05 | Karl Storz Endoskop Produktions Gmbh | 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応 |
JP2007226649A (ja) * | 2006-02-24 | 2007-09-06 | Kenwood Corp | 検索装置及びプログラム |
KR100837542B1 (ko) * | 2006-10-27 | 2008-06-12 | 주식회사 케이티 | 정보 통신망을 이용한 음악 콘텐츠 제공 방법 및 그 시스템 |
JP2009521745A (ja) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | 音声で起動されるネットワーク動作 |
JP2010048953A (ja) * | 2008-08-20 | 2010-03-04 | Toshiba Corp | 対話文生成装置 |
JP2010072578A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 対話文生成装置及び方法 |
KR20110086492A (ko) * | 2010-01-22 | 2011-07-28 | 구글 인코포레이티드 | 음성 명령의 다차원 명확화 |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP2013088813A (ja) * | 2011-10-13 | 2013-05-13 | Hyundai Motor Co Ltd | 音源情報管理サービスシステム及び音源情報管理サービス方法 |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
JP2013174644A (ja) * | 2012-02-23 | 2013-09-05 | Ntt Docomo Inc | 通信端末、制御方法及びプログラム |
JP2014507030A (ja) * | 2011-01-28 | 2014-03-20 | アマゾン テクノロジーズ インコーポレイテッド | オーディオ・ベースのアプリケーション・アーキテクチャ |
WO2014107101A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the same |
WO2014107076A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method of controlling a display apparatus in a voice recognition system |
WO2014107102A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method of controlling display apparatus |
WO2014107097A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the display apparatus |
JP2014179067A (ja) * | 2013-03-14 | 2014-09-25 | Honda Motor Co Ltd | 音声インターフェースシステム及び方法 |
WO2014171144A1 (ja) * | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
JP2015052945A (ja) * | 2013-09-06 | 2015-03-19 | 株式会社ユピテル | システム及びプログラム |
US20150081495A1 (en) * | 2013-09-19 | 2015-03-19 | Barclays Bank Plc | System and Method for Account Succession |
JP2015088108A (ja) * | 2013-11-01 | 2015-05-07 | 株式会社ユピテル | システム及びプログラム |
JP2015232868A (ja) * | 2014-05-13 | 2015-12-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
KR20170055466A (ko) * | 2017-05-12 | 2017-05-19 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
JP2017182075A (ja) * | 2017-05-01 | 2017-10-05 | 株式会社ニコン | 情報処理装置 |
KR101829855B1 (ko) | 2009-10-28 | 2018-03-29 | 구글 엘엘씨 | 컴퓨팅 디바이스 상에서의 음성 액션들 |
KR20180048510A (ko) * | 2018-04-26 | 2018-05-10 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
JP2019056913A (ja) * | 2014-05-13 | 2019-04-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
KR20190128615A (ko) * | 2019-11-11 | 2019-11-18 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR20200029422A (ko) * | 2020-03-10 | 2020-03-18 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
WO2021060575A1 (ko) * | 2019-09-24 | 2021-04-01 | 엘지전자 주식회사 | 인공 지능 서버 및 그의 동작 방법 |
Families Citing this family (210)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7024209B1 (en) * | 2000-12-20 | 2006-04-04 | Cisco Technology, Inc. | Unified messaging system configured for management of short message service-type messages |
JP3722359B2 (ja) * | 2001-06-29 | 2005-11-30 | Esmertecエンジニアリングサービス株式会社 | 文字入力システム及び通信端末 |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
GB2389762A (en) * | 2002-06-13 | 2003-12-17 | Seiko Epson Corp | A semiconductor chip which includes a text to speech (TTS) system, for a mobile telephone or other electronic product |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7158779B2 (en) * | 2003-11-11 | 2007-01-02 | Microsoft Corporation | Sequential multimodal input |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US7983835B2 (en) | 2004-11-03 | 2011-07-19 | Lagassey Paul J | Modular intelligent transportation system |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
FR2871978B1 (fr) * | 2004-06-16 | 2006-09-22 | Alcatel Sa | Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7627096B2 (en) * | 2005-01-14 | 2009-12-01 | At&T Intellectual Property I, L.P. | System and method for independently recognizing and selecting actions and objects in a speech recognition system |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
JP5394739B2 (ja) * | 2005-08-09 | 2014-01-22 | モバイル・ヴォイス・コントロール・エルエルシー | 音声制御型ワイヤレス通信デバイス・システム |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8635073B2 (en) * | 2005-09-14 | 2014-01-21 | At&T Intellectual Property I, L.P. | Wireless multimodal voice browser for wireline-based IPTV services |
WO2007070842A2 (en) * | 2005-12-15 | 2007-06-21 | Josef Berger | System and methods for initiating, maintaining, and delivering personalized information by communication server |
US7634263B2 (en) | 2006-01-30 | 2009-12-15 | Apple Inc. | Remote control of electronic devices |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8676582B2 (en) * | 2007-03-14 | 2014-03-18 | Nec Corporation | System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20090234655A1 (en) * | 2008-03-13 | 2009-09-17 | Jason Kwon | Mobile electronic device with active speech recognition |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
JP5451982B2 (ja) * | 2008-04-23 | 2014-03-26 | ニュアンス コミュニケーションズ,インコーポレイテッド | 支援装置、プログラムおよび支援方法 |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8340974B2 (en) * | 2008-12-30 | 2012-12-25 | Motorola Mobility Llc | Device, system and method for providing targeted advertisements and content based on user speech data |
DE202010018601U1 (de) | 2009-02-18 | 2018-04-30 | Google LLC (n.d.Ges.d. Staates Delaware) | Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105245A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Automatically providing content associated with captured information, such as information captured in real-time |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110106783A1 (en) * | 2009-11-03 | 2011-05-05 | Kalbhavi Srinivas | Mobile search with a landmark |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8379801B2 (en) * | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
US20110131040A1 (en) * | 2009-12-01 | 2011-06-02 | Honda Motor Co., Ltd | Multi-mode speech recognition |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
EP2586026B1 (en) | 2010-06-24 | 2016-11-16 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US9015043B2 (en) * | 2010-10-01 | 2015-04-21 | Google Inc. | Choosing recognized text from a background environment |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
KR101776673B1 (ko) * | 2011-01-11 | 2017-09-11 | 삼성전자주식회사 | 자연어 처리용 문법 자동 생성 장치 및 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9368107B2 (en) * | 2011-04-20 | 2016-06-14 | Nuance Communications, Inc. | Permitting automated speech command discovery via manual event to command mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130069962A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Active Lock Wallpapers |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
KR20130125067A (ko) * | 2012-05-08 | 2013-11-18 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140013249A1 (en) * | 2012-07-06 | 2014-01-09 | Shahram Moeinifar | Conversation management systems and methods |
US9497515B2 (en) | 2012-08-16 | 2016-11-15 | Nuance Communications, Inc. | User interface for entertainment systems |
US9031848B2 (en) | 2012-08-16 | 2015-05-12 | Nuance Communications, Inc. | User interface for searching a bundled service content data source |
US9026448B2 (en) | 2012-08-16 | 2015-05-05 | Nuance Communications, Inc. | User interface for entertainment systems |
US8799959B2 (en) | 2012-08-16 | 2014-08-05 | Hoi L. Young | User interface for entertainment systems |
US9106957B2 (en) * | 2012-08-16 | 2015-08-11 | Nuance Communications, Inc. | Method and apparatus for searching data sources for entertainment systems |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN103414934B (zh) * | 2013-07-16 | 2018-03-30 | 深圳Tcl新技术有限公司 | 终端显示电视节目信息的方法和系统 |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9245527B2 (en) | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
CN106331874A (zh) * | 2016-08-31 | 2017-01-11 | 浙江创佳数字技术有限公司 | 机顶盒的控制方法及设备 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP7028179B2 (ja) * | 2016-09-29 | 2022-03-02 | 日本電気株式会社 | 情報処理装置、情報処理方法およびコンピュータ・プログラム |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11423879B2 (en) * | 2017-07-18 | 2022-08-23 | Disney Enterprises, Inc. | Verbal cues for high-speed control of a voice-enabled device |
KR102374910B1 (ko) * | 2017-08-22 | 2022-03-16 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2955297B2 (ja) * | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
JPH06133039A (ja) | 1992-10-16 | 1994-05-13 | Oki Electric Ind Co Ltd | 気象情報自動案内装置 |
JPH06212478A (ja) | 1993-01-14 | 1994-08-02 | Olympus Optical Co Ltd | 電鋳型の製造方法 |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
JP3526101B2 (ja) | 1995-03-14 | 2004-05-10 | 株式会社リコー | 音声認識装置 |
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
TW421764B (en) * | 1996-05-21 | 2001-02-11 | Hitachi Ltd | Input character string estimation and identification apparatus |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5960399A (en) * | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
JP3088364B2 (ja) | 1997-11-05 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声言語理解装置及び音声言語理解システム |
US6144989A (en) * | 1998-06-15 | 2000-11-07 | Dejima, Inc. | Adaptive agent-oriented software architecture |
JP2000057490A (ja) | 1998-08-06 | 2000-02-25 | Fujitsu Ten Ltd | ナビゲーション装置 |
US7137126B1 (en) * | 1998-10-02 | 2006-11-14 | International Business Machines Corporation | Conversational computing via conversational virtual machine |
US6587822B2 (en) | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
JP2001034292A (ja) | 1999-07-26 | 2001-02-09 | Denso Corp | 単語列認識装置 |
JP2000224338A (ja) | 1999-01-28 | 2000-08-11 | Alpine Electronics Inc | 車載用通信装置 |
JP2000259183A (ja) | 1999-03-10 | 2000-09-22 | Sony Corp | 情報提供システム、クライアント、情報提供サーバ及び情報提供方法 |
US6338082B1 (en) * | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US6327566B1 (en) * | 1999-06-16 | 2001-12-04 | International Business Machines Corporation | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system |
US6401068B1 (en) * | 1999-06-17 | 2002-06-04 | Navigation Technologies Corp. | Method and system using voice commands for collecting data for a geographic database |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6356868B1 (en) * | 1999-10-25 | 2002-03-12 | Comverse Network Systems, Inc. | Voiceprint identification system |
US6434529B1 (en) * | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
US6473734B1 (en) * | 2000-03-27 | 2002-10-29 | Motorola, Inc. | Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces |
US6922670B2 (en) * | 2000-10-24 | 2005-07-26 | Sanyo Electric Co., Ltd. | User support apparatus and system using agents |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
-
2001
- 2001-10-02 JP JP2001306787A patent/JP3997459B2/ja not_active Expired - Fee Related
-
2002
- 2002-02-14 EP EP02003448A patent/EP1300828A3/en not_active Withdrawn
- 2002-02-27 US US10/083,636 patent/US20030074199A1/en not_active Abandoned
- 2002-07-11 US US10/192,317 patent/US6944593B2/en not_active Expired - Lifetime
-
2004
- 2004-04-14 US US10/823,552 patent/US7058579B2/en not_active Expired - Lifetime
-
2005
- 2005-02-17 US US11/060,390 patent/US7299186B2/en not_active Expired - Lifetime
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006246444A (ja) * | 2005-02-28 | 2006-09-14 | Microsoft Corp | ユニファイド・メッセージングの状態変更の動的構成 |
US8225232B2 (en) | 2005-02-28 | 2012-07-17 | Microsoft Corporation | Dynamic configuration of unified messaging state changes |
JP2007171963A (ja) * | 2005-12-20 | 2007-07-05 | Karl Storz Endoskop Produktions Gmbh | 自動音声認識システムにおける孤立語句コマンド認識及び接続語句コマンド認識の同時対応 |
JP2009521745A (ja) * | 2005-12-22 | 2009-06-04 | マイクロソフト コーポレーション | 音声で起動されるネットワーク動作 |
JP2007226649A (ja) * | 2006-02-24 | 2007-09-06 | Kenwood Corp | 検索装置及びプログラム |
KR100837542B1 (ko) * | 2006-10-27 | 2008-06-12 | 주식회사 케이티 | 정보 통신망을 이용한 음악 콘텐츠 제공 방법 및 그 시스템 |
JP2010048953A (ja) * | 2008-08-20 | 2010-03-04 | Toshiba Corp | 対話文生成装置 |
JP2010072578A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 対話文生成装置及び方法 |
US8856010B2 (en) | 2008-09-22 | 2014-10-07 | Kabushiki Kaisha Toshiba | Apparatus and method for dialogue generation in response to received text |
US11768081B2 (en) | 2009-10-28 | 2023-09-26 | Google Llc | Social messaging user interface |
KR101829855B1 (ko) | 2009-10-28 | 2018-03-29 | 구글 엘엘씨 | 컴퓨팅 디바이스 상에서의 음성 액션들 |
US10578450B2 (en) | 2009-10-28 | 2020-03-03 | Google Llc | Navigation queries |
KR20110086492A (ko) * | 2010-01-22 | 2011-07-28 | 구글 인코포레이티드 | 음성 명령의 다차원 명확화 |
KR101667006B1 (ko) * | 2010-01-22 | 2016-10-24 | 구글 인코포레이티드 | 음성 명령의 다차원 명확화 |
JP2011150682A (ja) * | 2010-01-22 | 2011-08-04 | Google Inc | 音声コマンドの多次元曖昧性解消 |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
JP2014507030A (ja) * | 2011-01-28 | 2014-03-20 | アマゾン テクノロジーズ インコーポレイテッド | オーディオ・ベースのアプリケーション・アーキテクチャ |
US10382509B2 (en) | 2011-01-28 | 2019-08-13 | Amazon Technologies, Inc. | Audio-based application architecture |
JP2013064777A (ja) * | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP2013088813A (ja) * | 2011-10-13 | 2013-05-13 | Hyundai Motor Co Ltd | 音源情報管理サービスシステム及び音源情報管理サービス方法 |
JP2013174644A (ja) * | 2012-02-23 | 2013-09-05 | Ntt Docomo Inc | 通信端末、制御方法及びプログラム |
US10210242B1 (en) | 2012-03-21 | 2019-02-19 | Google Llc | Presenting forked auto-completions |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
WO2014107097A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the display apparatus |
WO2014107102A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method of controlling display apparatus |
WO2014107076A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method of controlling a display apparatus in a voice recognition system |
WO2014107101A1 (en) * | 2013-01-07 | 2014-07-10 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the same |
US9880808B2 (en) | 2013-01-07 | 2018-01-30 | Samsung Electronics Co., Ltd. | Display apparatus and method of controlling a display apparatus in a voice recognition system |
US9520133B2 (en) | 2013-01-07 | 2016-12-13 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the display apparatus |
US9396737B2 (en) | 2013-01-07 | 2016-07-19 | Samsung Electronics Co., Ltd. | Display apparatus and method for controlling the display apparatus |
US9123345B2 (en) | 2013-03-14 | 2015-09-01 | Honda Motor Co., Ltd. | Voice interface systems and methods |
JP2014179067A (ja) * | 2013-03-14 | 2014-09-25 | Honda Motor Co Ltd | 音声インターフェースシステム及び方法 |
JPWO2014171144A1 (ja) * | 2013-04-19 | 2017-02-16 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
USRE48569E1 (en) | 2013-04-19 | 2021-05-25 | Panasonic Intellectual Property Corporation Of America | Control method for household electrical appliance, household electrical appliance control system, and gateway |
US9390716B2 (en) | 2013-04-19 | 2016-07-12 | Panasonic Intellectual Property Corporation Of America | Control method for household electrical appliance, household electrical appliance control system, and gateway |
WO2014171144A1 (ja) * | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
JP2018190436A (ja) * | 2013-04-19 | 2018-11-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器の制御方法、機器、及びプログラム |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
JP2015052945A (ja) * | 2013-09-06 | 2015-03-19 | 株式会社ユピテル | システム及びプログラム |
US20150081495A1 (en) * | 2013-09-19 | 2015-03-19 | Barclays Bank Plc | System and Method for Account Succession |
JP2015088108A (ja) * | 2013-11-01 | 2015-05-07 | 株式会社ユピテル | システム及びプログラム |
JP2015232868A (ja) * | 2014-05-13 | 2015-12-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
JP2019056913A (ja) * | 2014-05-13 | 2019-04-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
JP2020101822A (ja) * | 2014-05-13 | 2020-07-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識機能を用いた情報提供方法および機器の制御方法 |
JP2017182075A (ja) * | 2017-05-01 | 2017-10-05 | 株式会社ニコン | 情報処理装置 |
KR102045539B1 (ko) * | 2017-05-12 | 2019-11-15 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR20170055466A (ko) * | 2017-05-12 | 2017-05-19 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR102051480B1 (ko) * | 2018-04-26 | 2019-12-03 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR20180048510A (ko) * | 2018-04-26 | 2018-05-10 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
WO2021060575A1 (ko) * | 2019-09-24 | 2021-04-01 | 엘지전자 주식회사 | 인공 지능 서버 및 그의 동작 방법 |
KR20190128615A (ko) * | 2019-11-11 | 2019-11-18 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR102089593B1 (ko) * | 2019-11-11 | 2020-03-16 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR20200029422A (ko) * | 2020-03-10 | 2020-03-18 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR102124396B1 (ko) * | 2020-03-10 | 2020-06-18 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1300828A2 (en) | 2003-04-09 |
US20040199394A1 (en) | 2004-10-07 |
US6944593B2 (en) | 2005-09-13 |
JP3997459B2 (ja) | 2007-10-24 |
US7058579B2 (en) | 2006-06-06 |
US20050149332A1 (en) | 2005-07-07 |
EP1300828A3 (en) | 2006-06-07 |
US20030074200A1 (en) | 2003-04-17 |
US20030074199A1 (en) | 2003-04-17 |
US7299186B2 (en) | 2007-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3997459B2 (ja) | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 | |
US10534802B2 (en) | Nonstandard locality-based text entry | |
US10056077B2 (en) | Using speech recognition results based on an unstructured language model with a music system | |
US8880405B2 (en) | Application text entry in a mobile environment using a speech processing facility | |
US8949130B2 (en) | Internal and external speech recognition use with a mobile communication facility | |
US8886540B2 (en) | Using speech recognition results based on an unstructured language model in a mobile communication facility application | |
US20080221901A1 (en) | Mobile general search environment speech processing facility | |
US20090030687A1 (en) | Adapting an unstructured language model speech recognition system based on usage | |
US20090030685A1 (en) | Using speech recognition results based on an unstructured language model with a navigation system | |
US20090030697A1 (en) | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model | |
US20080312934A1 (en) | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility | |
US20090030691A1 (en) | Using an unstructured language model associated with an application of a mobile communication facility | |
US20090030696A1 (en) | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility | |
US20080288252A1 (en) | Speech recognition of speech recorded by a mobile communication facility | |
CN110827826B (zh) | 语音转换文字方法、电子设备 | |
JP2002123283A (ja) | 音声認識操作装置 | |
EP1376418B1 (en) | Service mediating apparatus | |
WO2009020272A1 (en) | Method and apparatus for distributed speech recognition using phonemic symbol | |
JPH10164249A (ja) | 情報処理装置 | |
JP2004295017A (ja) | マルチモーダルシステムおよび音声入力方法 | |
EP0986013A2 (en) | Information retrieval system | |
KR100679394B1 (ko) | 멀티모달 플랫폼을 이용한 정보검색 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3997459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130817 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |