JP2009519538A

JP2009519538A - デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置

Info

Publication number: JP2009519538A
Application number: JP2008545547A
Authority: JP
Inventors: チュー、チ、ファイ; チョン、ヒン、ファイ、ルイス; リー、チン、ワイ、ジミー; リョン、ホン、チュン; ウィー、デニス、チ、ワイ; ワン、ウェイ、ト、ウィリアム
Original assignee: クリエイティブ、テクノロジー、リミテッド
Priority date: 2005-12-12
Filing date: 2006-12-11
Publication date: 2009-05-14
Also published as: WO2007070013A1; AU2006325555A1; SG133419A1; TW200805251A; NZ569291A; ZA200805567B; KR20080083290A; CA2633505A1; US8015013B2; EP1969590A1; NO20083087L; AU2006325555B2; RU2008128440A; EP1969590A4; BRPI0619607A2; US20070136065A1; CN101341531A

Abstract

電子装置（ｅｌｅｃｔｒｏｎｉｃｄｅｖｉｃｅ）内の複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする方法であって、集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える１つのインデックス（ｉｎｄｅｘ）を生成し、集合情報内の各デジタル・ファイルは少なくとも１つの情報エントリにリンクされるステップと、音声受信モードの間に話し手（ｓｐｅａｋｅｒ）に依存しない音声（ｓｐｅｅｃｈ）入力を少なくとも１つの言語で受信するステップと、音声入力の言語を決定するステップと、音声受信モードを音声入力の言語に設定するステップと、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するステップとを含む方法が提供される。ファイルは、音声入力がインデックス内の少なくとも１つの情報エントリに一致する場合にアクセスされてもよいのが有利である。また、前述の方法を実行できる装置も開示される。

Description

本発明は、デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置に関し、特に、本発明は音声入力を使用したファイルのアクセスに関する。

音声作動型の（ｓｐｅｅｃｈａｃｔｉｖａｔｅｄ）制御機構体は、着実に人気が上昇しつつある。「音声ダイヤル（ｖｏｉｃｅｄｉａｌ）」付きの携帯電話や音声作動型のおもちゃは、今日容易に見つけることができる装置の一種である。

しかし、こうした装置は通常は音声入力を特定のエントリに関連付けるようにあらかじめプログラミングしておく必要がある（携帯電話の場合は、こうしたエントリは特定の実体の電話番号である）。たとえば、アドレス帳やメディア・ファイルの集合のように大量のエントリを含む場合は、これは単調で時間のかかる作業である。このことは、こうした不都合により、前述の機能をユーザーにとって望ましくないものにしている。

今日、一部の装置には、あらかじめプログラミングしておく必要がない音声認識機能が組み込まれている。しかし、まだ技術が十分には発達していないため、なまりの強い英語や不明瞭な英語を認識する上での問題を克服することはできない。さらに、英語は今日のデジタル時代において相互に接続されたグローバル・ヴィレッジ（ｇｌｏｂａｌｖｉｌｌａｇｅ）に向けて選択された言語であるが、使用されている唯一の言語ではない。中国やインドのように人口多い国では英語を話す国民は主流ではなく、こうした高度な（ｓｍａｒｔ）音声認識機能を備える装置はこうした国内に広く採用されてはいない。こうした巨大な消費者市場は、市場のニーズが特に適合しない場合は、企業にとって機会の喪失を意味する。

こうした「高度な」装置は、現在のところ複数の言語を認識する機能を備えていない。このように、こうした装置の製造元は市場向けの同じ製品に対して英語以外のさまざまな言語能力を備えるさまざまなバージョンを作成する必要があり、この結果、専用の生産ライン／設備が必要になるため、または他のバージョンを生産する必要がある場合に英語のバージョン用の生産ライン／設備が変更される必要があるために、不本意ながら各装置の製造費が増大する。

また、複数の言語を認識する機能を備える「高度な」装置にとって、英数字（Ａｎｇｌｏ−ａｌｐｈａｎｕｍｅｒｉｃ）用のＡＳＣＩＩ、繁体字中国語（ＴｒａｄｉｔｉｏｎａｌＣｈｉｎｅｓｅ）用のＢｉｇ−５、簡体字中国語（ＳｉｍｐｌｉｆｉｅｄＣｈｉｎｅｓｅ）用のＧＢ、日本語用のＪＩＳなどのさまざまな文字コード・セットを適切に管理することも難しい問題である。

本発明の第１の態様において、電子装置内の複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする方法であって、集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える１つのインデックスを生成し、集合の情報内の各デジタル・ファイルは少なくとも１つの情報エントリにリンクされるステップと、音声受信モードの間に話し手に依存しない音声入力を少なくとも１つの言語で受信するステップと、音声入力の言語を決定するステップと、音声受信モードを音声入力の言語に設定するステップと、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するステップとを含む方法が提供される。ファイルは、音声入力がインデックス内の少なくとも１つの情報エントリに一致する場合にアクセスされてもよいのが有利である。デジタル・ファイルは、電子装置、電子装置に機能的に接続されている任意の装置、または前述の組み合わせに格納されてもよい。少なくとも１つのデジタル・ファイルは、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークの中から選択されたソースから受信されてもよい。

デジタル・ファイルは、たとえば、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、画像ファイル、および動画ファイルなどのタイプでよいのが好ましい。また、情報エントリが少なくとも１つの単語を備えており、たとえば、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、翻訳された曲名、または代わりの曲名といった情報をデジタル・ファイルから取得するのも好ましい。情報エントリは、任意の言語でよい。

音声入力は、１つの言語でも少なくとも１つの言語のフレーズ（ｐｈｒａｓｅ）のいずれでもよい。音声受信モードは、手動で設定しても自動で設定してもよい。

電子装置は、デスクトップ・コンピュータ、ノートブック・コンピュータ、ＰＤＡ、ポータブル・メディア・プレーヤー、または携帯電話でよいのが好ましい。電子装置内の少なくとも１つのデジタル・ファイルにアクセスするファシリティ（ｆａｃｉｌｉｔｙ）は、所定のボタンを少なくとも１度押下することによって実行してもよい。

本発明の第２の態様において、装置内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする装置が提供される。本装置は、集合内の複数のデジタル・ファイルのそれぞれから得られる情報エントリを備えるインデックスを生成するためのインデクサ（ｉｎｄｅｘｅｒ）であって、集合の情報内の各デジタル・ファイルは少なくとも１つの情報エントリにリンクされるインデクサと、音声受信モードの間に話し手に依存しない音声入力を少なくとも１つの言語で受信するための音声受信手段と、音声入力の言語を決定するプロセッサと、音声受信モードの間に受信した音声入力をインデックス内のエントリと比較できるプロセッサとを含んでいる。ファイルは、音声入力がインデックス内の少なくとも１つの情報エントリに一致する場合にアクセスされるのが有利である。本装置は、デスクトップ・コンピュータ、ノートブック・コンピュータ、ＰＤＡ、ポータブル・メディア・プレーヤー、および携帯電話を備えるグループの中から選択されてもよい。

音声受信手段は、マイクロフォンであるのが好ましい。音声入力の言語は、自動で選択しても手動で選択してもよい。音声入力は、１つの言語でも、少なくとも１つの言語のフレーズでもよい。

情報エントリは、任意の言語による少なくとも１つの単語を備えていてもよいのが好ましい。情報エントリは、たとえば、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、翻訳された曲名、および代わりの曲名といった情報をデジタル・ファイルから取得してもよい。

本装置は、少なくとも１つのボタンを少なくとも１度押下することによってデジタル・ファイルにアクセスするファシリティを作動させる少なくとも１つのボタンを含んでいてもよい。本装置は、ディスプレイを含んでもよいのが好ましい。

本発明が十分に理解され、容易に実用化されるために、ここで本発明の好ましい実施形態は単に非限定的な実施例として説明されているものとし、こうした説明では例として添付の図面を参照する。

以下の説明は、本発明を実装できる適切なコンピューティング環境を簡単かつ一般的に説明することを目的としている。必須ではないが、本発明は、パーソナル・コンピュータで実行されるコンピュータ実行可能命令（たとえばプログラム・モジュール）といった一般的なコンテクストで説明されている。一般に、プログラム・モジュールは、特定のタスクを実行したり、特定の抽象データ型（ａｂｓｔｒａｃｔｄａｔａｔｙｐｅｓ）を実装したりするルーチン、プログラム、文字、コンポーネント、データ構造体を含む。当業者が理解するように、本発明は、ハンドヘルド装置、マルチプロセッサ・システム、マイクロプロセッサベースまたはプログラム可能な家庭用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータなどを含むその他のコンピュータ・システム構成で実施されてもよい。本発明は、通信ネットワークを経由してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されてもよい。分散コンピューティング環境では、プログラム・モジュールはローカルとリモートの両方のメモリ記憶装置内に配置されてもよい。

図１を参照すると、電子装置内に複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする方法の好ましい実施形態を示す流れ図が開示されている。電子装置は、たとえば、デスクトップ・コンピュータ、ノートブック・コンピュータ、ＰＤＡ、ポータブル・メディア・プレーヤー、または携帯電話でよい。集合内のデジタル・ファイルは、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、および動画ファイルを含んでいてもよい。図１に示されるこの実施形態において、集合内に格納されたデジタル・ファイルは、メディア・ファイル（画像、音楽、および動画のファイル）である。少なくとも１つのデジタル・ファイルは、たとえば、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークなどのソースから受信されてもよい。デジタル・ファイルの集合は、電子装置内のメモリ装置または電子装置に接続可能なメモリ装置に存在してもよい。メモリ装置は、不揮発性メモリでもよく、フラッシュ・メモリまたはハード・ディスク・ドライブのいずれでもよい。

第１に、電子装置内で音声受信モードを有効化するファシリティが作動する（２０）。電子装置は、このファシリティが選択可能であるメニューを表示するディスプレイを備えていてもよく、または、本装置は少なくとも１度押下されることによって音声受信モードを作動させるショートカット・スイッチ／ボタンを備えていてもよい。この時点で、ユーザーは音声入力用の特定の言語または複数の言語を手動で選択できてもよい（２２）。これは、音声入力を処理する上で本装置の助けになる。特定の言語の各方言、たとえば、とりわけ中国語の方言である広東語、潮州語、および福建語は、別の言語と見なされていることに留意すべきである。

音声受信モードを有効化した後で、電子装置内の集合の中からデジタル・ファイルにアクセスするシステムは初期化され（２４）、集合内のファイルにアクセスするための音声入力の着信に備える。初期化のプロセスには、集合内のファイルに関する情報を備える任意の情報インデックスが存在することを確認するためのチェックがある（２６）。

インデックスが見つからない場合、ほとんどデジタル・ファイルが検出されなかった（ファイルが削除された）場合、または新しいデジタル・ファイルが検出された場合は、電子装置および接続されている任意のメモリ装置内のメディア・ファイルが検索される（２８）。各ファイルから抽出され（２５）、インデックス付けされた情報は、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、および代わりの曲名の少なくとも１つを含んでいてもよい。また、前述の情報は、電子装置が代わりのソースに接続されている場合に、たとえばインターネットやホストといった代わりのソースから取得されてもよい（２９）。各情報エントリは、少なくとも１つの単語を備えているものとする。抽出された情報は、任意の言語でよく、英数アルファベット・ベースである必要はない。さまざまな形の中国語の文字（簡体字および繁体字）、さまざまな形の日本語の文字（漢字、ひらがな、かたかな）、ハングル文字（Ｋｏｒｅａｎｃｈａｒａｃｔｅｒｓ）、イスラム（Ｉｓｌａｍｉｃ）文字などは、すべて抽出可能であり、情報インデックスに格納されてもよい。さらに、前述の英語以外の文字を英語に翻字したものが情報インデックスに格納されてもよい。また、前述の英語以外の文字を英語に翻訳したものは、こうした情報がファイル・メタデータに含まれる場合に、情報インデックスに格納されてもよい。各デジタル・ファイルは、このファイルがたとえばアーティスト名、曲名、ファイル名などのさまざまな経路を介してアクセスされることができるように、情報インデックス内に複数の情報エントリを備えることができてもよい。ファイルがほとんど検出されなかった場合は、インデックス作成時に存在しないファイルの情報エントリが削除される。ユーザーはまた、特定の曲に代わりのタイトルを指定してもよく、こうした代わりのタイトルもインデックスに含まれていてもよい。メディア・ファイルに関するすべての情報が収集され、文字コードセット識別機能が各メディア・ファイルの情報を分析し、各ファイル内で使用されているコードセット（１つまたは複数）を識別する（２７）。

文字コードセットの情報を伴う電子装置および機能的に接続されている任意のメモリ装置内にある各デジタル・ファイルのすべての情報エントリインデックスが電子装置内に作成され（３０）、インデックス作成の後で、インデックス内のすべての情報エントリがアクセス可能になるように、インデックスが電子装置にロードされる（３２）。新しいデジタル・ファイルが検出されなかった場合および情報インデックスが作成された時にデジタル・ファイルが削除されていない場合は、情報インデックスが存在することを確認した（２６）後に情報インデックスがロードされてもよい（３２）。

前述のステップに必要な継続時間は、データ処理速度、メモリＩ／Ｏ速度、およびネットワーク／リモート・サーバーの待ち時間（ｌａｔｅｎｃｙ）によって変わることに留意すべきである。デジタル・ファイルが大きいほど、処理されるべきデータの容量により、前述のステップに必要な時間が長くなるのは明らかである。

この時点で、電子装置は音声入力を受信する準備が完了する。電子装置は、警報（ａｕｄｉｂｌｅａｌｅｒｔ）音を発したり視覚的な警告を表示したりして、音声受信モードで音声入力を受信する準備が完了していることをユーザーに通知してもよい。音声入力は、話し手には依存しない。あらかじめ録音する必要はなく、電子装置は基本的に「ピックアンドユース（ｐｉｃｋ−ａｎｄ−ｕｓｅ）」である。本方法における音声処理は、十分に堅牢（ｒｏｂｕｓｔ）であるため、特に強いなまりや不明瞭な発音があっても、音声入力を識別することができる。音声は電子装置に入力される（３４）。音声入力は、１つの言語でもよい。音声入力は、複数の言語を備えるフレーズでもよい。たとえば、「帝女ｆｌｏｗｅｒ」のような曲名は受理可能および処理可能であってもよい。そのメタデータに翻訳されたタイトルがあるデジタル・ファイルの場合は、元のタイトルと翻訳されたタイトルのいずれを使用しても同じデジタル・ファイルにアクセスできる。たとえば、「愛是不保留」または「ＮｏＲｅｓｅｒｖｅｉｎＬｏｖｅ」は同じデジタル・ファイルにアクセスできる。

音声が電子装置に入力された後で、音声が処理される（３６）。言語の選択が前に手動で実行されていない場合は（２２）、音声入力の言語が決定され、この音声入力の言語に対応する適切な音声受信モードが自動的に設定される。言語の選択が手動で設定されている場合は、その後それに応じてユーザーによって指定された言語モデルがロードされる。これで、音声入力の正確な決定が可能になる。図３を参照すると、音声が自動的に処理される順序が示されている。（２５）で取得されたメディアのヘッダー情報（３６１）、（２７）で得られた文字コードセット（３６２）、および（２９）でリモート・ソースから収集されたメディア情報（３６３）が言語認識識別機能（３６４）に入力されることによって、最適な音声認識言語モデル（１つまたは複数）（３６５）がロードされるようにできる。たとえば、メディア・ファイルで使用されるコードセットがＡＳＣＩＩおよびＧＢである一方で、発信国が米国（ＵＳＡ：ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ）および中国（ＰＲＣ：Ｐｅｏｐｌｅｓ' ＲｅｐｕｂｌｉｃｏｆＣｈｉｎａ）であることを言語認識識別機能が決定する場合は、音声認識用に米国英語（ＵＳＡＥｎｇｌｉｓｈｌａｎｇｕａｇｅ）モデルとＰＲＣプートンファ（Ｐｕｔｏｎｇｈｕａ）言語モデルの両方がロードされる。後で、意味のあるメディア情報（曲名、アーティスト、アルバムなど）が音声入力から抽出され、音声認識の題材として音声認識装置（ｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ）に提供された場合は、音声入力がさらに「フィルター（ｆｉｌｔｅｒｅｄ）」される（３６６）。たとえば、「Ｐｌａｙ愛是不保留ｂｙＳｈａｒｏｎＬａｕ」という音声入力の場合に、「愛是不保留」は曲名情報として抽出され、「ＳｈａｒｏｎＬａｕ」はアーティスト情報としてインテリジェントに抽出される。こうして抽出された情報は、次に音声認識プール（３６７）に追加される。手動による言語の選択が行われた場合は（２２）、さらに音声入力にフィルターが適用され、認識された音声プールへのエントリを決定する。

音声入力の処理と認識された音声プールへのエントリ確認の後で、入力がインデックス内の情報エントリと比較される（３８）。入力と少なくとも１つの情報エントリとの一致が得られる場合は、こうした情報エントリ（１つまたは複数）にリンクされたデジタル・ファイル（１つまたは複数）がユーザーの選択用として表示される（４０）。表示されるデジタル・ファイル（１つまたは複数）は結果一覧でもよく、ユーザーは希望する曲（４２）、希望するプレイリスト（４４）、または希望するアーティスト（４６）の曲を選択できてもよい。このようなオプションは、説明を目的とするものにすぎず、限定するものではない。

図２を参照すると、装置（５０）内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする装置（５０）が示されている。装置（５０）は、たとえば、デスクトップ・コンピュータ、ノートブック・コンピュータ、ＰＤＡ、ポータブル・メディア・プレーヤー、または携帯電話などの装置でもよい。デジタル・ファイルは、たとえば、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、または動画ファイルなどのファイルでもよい。少なくとも１つのデジタル・ファイルは、たとえば、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークなどのソースから受信されてもよい。デジタル・ファイルの集合は、装置（５０）内に含まれるメモリ装置（５８）内に存在してもよく、デジタル・ファイルは装置（５０）に接続可能な個別のメモリ装置内に存在してもよい。メモリ装置は、不揮発性メモリでもよく、フラッシュ・メモリまたはハード・ディスク・ドライブのいずれでもよい。デジタル・ファイルにアクセスするファシリティを作動させるために、装置（５０）はこのファシリティを有効化できるメニューを表示するディスプレイ（５４）を備えていてもよく、装置（５０）は少なくとも１度押下されることによってこのファシリティを作動させるショートカット・スイッチ／ボタン（図示せず）を備えていてもよい。

装置（５０）は、そのさまざまなコンポーネントを収納する筐体（ｈｏｕｓｉｎｇ）（５２）を備えていてもよい。装置（５０）は、装置（５０）に格納されたファイルまたは装置（５０）にアクセス可能なファイルに関する情報を含む装置（５０）に関する情報を表示するディスプレイ（５４）を備えていてもよい。集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備えるインデックスを生成するインデクサ（５６）が存在してもよい。集合情報内の各デジタル・ファイルは、少なくとも１つの情報エントリにリンクされていてもよい。情報エントリは、少なくとも１つの単語を備えていてもよく、任意の言語でよい。各ファイルから抽出され、インデックス付けされた情報は、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、曲名の一部、および代わりの曲名の少なくとも１つを含んでいてもよい。各情報エントリは、少なくとも１つの単語を備えているものとする。抽出された情報は任意の言語でよく、英数アルファベット・ベースである必要はない。さまざまな形の中国語の文字（簡体字および繁体字）、さまざまな形の日本語の文字（漢字、ひらがな、かたかな）、ハングル文字、イスラム文字などは、すべて抽出可能であってもよい。さらに、前述の英語以外の文字を英語に翻字したものを情報インデックスに格納してもよい。また、前述の英語以外の文字を英語に翻訳したものも、こうした情報がファイル・メタデータ内で検出される場合に、インデックスに格納されてもよい。各デジタル・ファイルは、このファイルがたとえばアーティスト名、曲名、ファイル名などのさまざまな経路を介してアクセスできるように、情報インデックス内に複数の情報エントリを備えることができてもよい。ユーザーはまた、特定の曲に代わりのタイトルを指定してもよく、こうした代わりのタイトルもインデックスに含まれていてもよい。

さらに、装置（５０）は、音声受信モードの間に少なくとも１つの言語で音声入力を受信するための音声受信手段（６０）を含んでいてもよい。音声受信手段は、マイクロフォンでも音声信号の入力が可能な他の任意の装置でもよい。音声受信手段（６０）は、音声入力をプロセッサ（６２）に渡す。音声入力は１つの言語でもよい。音声入力は複数の言語を備えるフレーズでもよい。たとえば、「帝女ｆｌｏｗｅｒ」のような曲名が理解されてもよい。そのメタデータに翻訳されたタイトルがあるデジタル・ファイルの場合は、いずれのタイトルを使用しても同じデジタル・ファイルにアクセスできる。たとえば、「愛是不保留」と「ＮｏＲｅｓｅｒｖｅｉｎＬｏｖｅ」は同じデジタル・ファイルにアクセスできる。プロセッサ（６２）は、音声入力の言語を自動的に決定できてもよい。また、装置（５０）は、プロセッサ（６２）がこの作業を自動的に実行する必要がなくなるように、音声入力の言語を手動で設定できてもよい。プロセッサ（６２）は、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するために使用されてもよい。音声入力は、話し手には依存しない。あらかじめ録音する必要はなく、装置（５０）は基本的に「ピックアンドユース」である。装置（５０）における音声認識モジュールは、十分に堅牢（ｒｏｂｕｓｔ）であるため、特に強いなまりや不明瞭な発音があっても、音声入力を識別することができる。

入力と少なくとも１つの情報エントリとの一致が得られる場合は、こうした情報エントリ（１つまたは複数）にリンクされたデジタル・ファイル（１つまたは複数）がユーザーの選択用としてディスプレイ（５４）に表示される。表示されたデジタル・ファイル（１つまたは複数）は結果一覧でもよく、ユーザーは希望する曲、希望するプレイリスト、または希望するアーティストの曲を選択できてもよい。このようなオプションは、説明を目的とするものにすぎず、限定するものではない。

図２の矢印は、装置（５０）のさまざまなコンポーネント間におけるデータ・フローの向きを表すことに留意すべきである。

本発明の好ましい実施形態に関して以上の記述で説明してきたが、本発明を逸脱することなく、設計または構成の細部にさまざまな変形または変更が行われてもよいことは、当業者には理解されよう。

本発明の好ましい実施形態のプロセスを示す流れ図である。本発明の好ましい実施形態の装置を示す概略図である。図１の音声処理プロセス３６の詳細を示す図である。

Claims

電子装置内の複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする方法であって、
前記集合内の前記複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える１つのインデックスを生成し、前記集合の情報内の各デジタル・ファイルは少なくとも１つの情報エントリにリンクされる、ステップと、
音声受信モードの間に話し手に依存しない音声入力を少なくとも１つの言語で受信することと、前記音声入力の言語を決定するステップと、
前記音声受信モードを前記音声入力の前記言語に設定するステップと、
前記音声受信モードの間に受信された前記音声入力を前記インデックス内の前記エントリと比較するステップとを含み、
前記ファイルは前記音声入力が前記インデックス内の前記情報エントリの少なくとも１つに一致する場合にアクセスされる方法。
前記デジタル・ファイルは、ドキュメントと、スプレッドシートと、プレイリストと、フォルダと、音楽ファイルと、画像ファイルと、動画ファイルとを備えるグループの中から選択される請求項１に記載の方法。
前記情報エントリは少なくとも１つの単語を備える請求項１に記載の方法。
前記情報エントリは、ファイル名と、ファイル拡張子と、ファイル・メタデータによる曲名と、ファイル・メタデータによるアーティスト名と、ファイル・メタデータによる曲名の一部と、ファイル・メタデータによるアーティスト名の一部と、翻訳された曲名と、代わりの曲名と、リモート・ソースによる前述の任意の情報とを備えるグループの中から選択されたデジタル・ファイルから情報を取得する請求項１に記載の方法。
前記情報エントリは任意の言語であり、少なくとも１つの文字コードセットに依存する請求項１に記載の方法。
前記音声入力は、１つの言語または少なくとも１つの言語のフレーズのいずれかによる請求項１に記載の方法。
前記デジタル・ファイルは、前記電子装置と、前記電子装置に機能的に接続されている任意の装置と、前述の組み合わせとを備えるグループの中から選択されたソースに格納される請求項１に記載の方法。
前記音声受信モードの前記言語は、手動選択と自動選択とを備えるグループの中から選択された手段によって設定される請求項１に記載の方法。
前記少なくとも１つのデジタル・ファイルは、メモリ装置と、有線コンピュータ・ネットワークと、無線コンピュータ・ネットワークとを備えるグループの中から選択されたソースから受信される請求項１に記載の方法。
前記電子装置は、デスクトップ・コンピュータと、ノートブック・コンピュータと、ＰＤＡと、ポータブル・メディア・プレーヤーと、携帯電話とを備えるグループの中から選択される請求項１に記載の方法。
前記音声入力はフィルターされる請求項１に記載の方法。
装置内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも１つのデジタル・ファイルにアクセスする前記装置であって、
前記集合内の前記複数のデジタル・ファイルのそれぞれから取得された情報エントリを備えるインデックスを生成し、前記集合の情報内の各デジタル・ファイルは少なくとも１つの情報エントリにリンクされるインデクサと、
音声受信モードの間に話し手に依存しない音声入力を少なくとも１つの言語で受信する音声受信手段と、
前記音声入力の言語を決定するプロセッサと、
前記音声受信モードの間に受信された前記音声入力を前記インデックス内の前記エントリと比較できる前記プロセッサとを含み、
前記ファイルは前記音声入力が前記インデックス内の前記情報エントリの少なくとも１つに一致する場合にアクセスされる装置。
前記装置は、デスクトップ・コンピュータと、ノートブック・コンピュータと、ＰＤＡと、ポータブル・メディア・プレーヤーと、携帯電話とを備えるグループの中から選択される請求項１２に記載の装置。
前記音声受信手段はマイクロフォンである請求項１２に記載の装置。
前記音声入力の言語を決定する前記手段は、自動と手動とを備えるグループの中から選択される請求項１２に記載の装置。
前記デジタル・ファイルは、ドキュメントと、スプレッドシートと、プレイリストと、フォルダと、音楽ファイルと、画像ファイルと、動画ファイルとを備えるグループの中から選択される請求項１２に記載の装置。
前記情報エントリは少なくとも１つの単語を備える請求項１２に記載の装置。
前記情報エントリは、ファイル名と、ファイル拡張子と、ファイル・メタデータによる曲名と、ファイル・メタデータによるアーティスト名と、ファイル・メタデータによる曲名の一部と、ファイル・メタデータによるアーティスト名の一部と、翻訳された曲名と、代わりの曲名と、リモート・ソースによる前述の任意の情報とを備えるグループの中から選択されたデジタル・ファイルから情報を取得する請求項１２に記載の装置。
前記情報エントリは任意の言語であり、少なくとも１つの文字コードセットに依存する請求項１２に記載の装置。
前記音声入力は、１つの言語または少なくとも１つの言語のフレーズのいずれかによる請求項１６に記載の装置。
前記少なくとも１つのデジタル・ファイルは、メモリ装置と、有線コンピュータ・ネットワークと、無線コンピュータ・ネットワークとを備えるグループの中から選択されたソースから受信される請求項１２に記載の装置。
ディスプレイをさらに含む請求項１２に記載の装置。
前記音声入力はフィルターされる請求項１２に記載の装置。