JP2009519538A - デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置 - Google Patents

デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置 Download PDF

Info

Publication number
JP2009519538A
JP2009519538A JP2008545547A JP2008545547A JP2009519538A JP 2009519538 A JP2009519538 A JP 2009519538A JP 2008545547 A JP2008545547 A JP 2008545547A JP 2008545547 A JP2008545547 A JP 2008545547A JP 2009519538 A JP2009519538 A JP 2009519538A
Authority
JP
Japan
Prior art keywords
file
information
language
digital
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008545547A
Other languages
English (en)
Inventor
チュー、チ、ファイ
チョン、ヒン、ファイ、ルイス
リー、チン、ワイ、ジミー
リョン、ホン、チュン
ウィー、デニス、チ、ワイ
ワン、ウェイ、ト、ウィリアム
Original Assignee
クリエイティブ、テクノロジー、リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クリエイティブ、テクノロジー、リミテッド filed Critical クリエイティブ、テクノロジー、リミテッド
Publication of JP2009519538A publication Critical patent/JP2009519538A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

電子装置(electronic device)内の複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする方法であって、集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える1つのインデックス(index)を生成し、集合情報内の各デジタル・ファイルは少なくとも1つの情報エントリにリンクされるステップと、音声受信モードの間に話し手(speaker)に依存しない音声(speech)入力を少なくとも1つの言語で受信するステップと、音声入力の言語を決定するステップと、音声受信モードを音声入力の言語に設定するステップと、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するステップとを含む方法が提供される。ファイルは、音声入力がインデックス内の少なくとも1つの情報エントリに一致する場合にアクセスされてもよいのが有利である。また、前述の方法を実行できる装置も開示される。

Description

本発明は、デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置に関し、特に、本発明は音声入力を使用したファイルのアクセスに関する。
音声作動型の(speech activated)制御機構体は、着実に人気が上昇しつつある。「音声ダイヤル(voice dial)」付きの携帯電話や音声作動型のおもちゃは、今日容易に見つけることができる装置の一種である。
しかし、こうした装置は通常は音声入力を特定のエントリに関連付けるようにあらかじめプログラミングしておく必要がある(携帯電話の場合は、こうしたエントリは特定の実体の電話番号である)。たとえば、アドレス帳やメディア・ファイルの集合のように大量のエントリを含む場合は、これは単調で時間のかかる作業である。このことは、こうした不都合により、前述の機能をユーザーにとって望ましくないものにしている。
今日、一部の装置には、あらかじめプログラミングしておく必要がない音声認識機能が組み込まれている。しかし、まだ技術が十分には発達していないため、なまりの強い英語や不明瞭な英語を認識する上での問題を克服することはできない。さらに、英語は今日のデジタル時代において相互に接続されたグローバル・ヴィレッジ(global village)に向けて選択された言語であるが、使用されている唯一の言語ではない。中国やインドのように人口多い国では英語を話す国民は主流ではなく、こうした高度な(smart)音声認識機能を備える装置はこうした国内に広く採用されてはいない。こうした巨大な消費者市場は、市場のニーズが特に適合しない場合は、企業にとって機会の喪失を意味する。
こうした「高度な」装置は、現在のところ複数の言語を認識する機能を備えていない。このように、こうした装置の製造元は市場向けの同じ製品に対して英語以外のさまざまな言語能力を備えるさまざまなバージョンを作成する必要があり、この結果、専用の生産ライン/設備が必要になるため、または他のバージョンを生産する必要がある場合に英語のバージョン用の生産ライン/設備が変更される必要があるために、不本意ながら各装置の製造費が増大する。
また、複数の言語を認識する機能を備える「高度な」装置にとって、英数字(Anglo−alphanumeric)用のASCII、繁体字中国語(Traditional Chinese)用のBig−5、簡体字中国語(Simplified Chinese)用のGB、日本語用のJISなどのさまざまな文字コード・セットを適切に管理することも難しい問題である。
本発明の第1の態様において、電子装置内の複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする方法であって、集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える1つのインデックスを生成し、集合の情報内の各デジタル・ファイルは少なくとも1つの情報エントリにリンクされるステップと、音声受信モードの間に話し手に依存しない音声入力を少なくとも1つの言語で受信するステップと、音声入力の言語を決定するステップと、音声受信モードを音声入力の言語に設定するステップと、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するステップとを含む方法が提供される。ファイルは、音声入力がインデックス内の少なくとも1つの情報エントリに一致する場合にアクセスされてもよいのが有利である。デジタル・ファイルは、電子装置、電子装置に機能的に接続されている任意の装置、または前述の組み合わせに格納されてもよい。少なくとも1つのデジタル・ファイルは、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークの中から選択されたソースから受信されてもよい。
デジタル・ファイルは、たとえば、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、画像ファイル、および動画ファイルなどのタイプでよいのが好ましい。また、情報エントリが少なくとも1つの単語を備えており、たとえば、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、翻訳された曲名、または代わりの曲名といった情報をデジタル・ファイルから取得するのも好ましい。情報エントリは、任意の言語でよい。
音声入力は、1つの言語でも少なくとも1つの言語のフレーズ(phrase)のいずれでもよい。音声受信モードは、手動で設定しても自動で設定してもよい。
電子装置は、デスクトップ・コンピュータ、ノートブック・コンピュータ、PDA、ポータブル・メディア・プレーヤー、または携帯電話でよいのが好ましい。電子装置内の少なくとも1つのデジタル・ファイルにアクセスするファシリティ(facility)は、所定のボタンを少なくとも1度押下することによって実行してもよい。
本発明の第2の態様において、装置内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする装置が提供される。本装置は、集合内の複数のデジタル・ファイルのそれぞれから得られる情報エントリを備えるインデックスを生成するためのインデクサ(indexer)であって、集合の情報内の各デジタル・ファイルは少なくとも1つの情報エントリにリンクされるインデクサと、音声受信モードの間に話し手に依存しない音声入力を少なくとも1つの言語で受信するための音声受信手段と、音声入力の言語を決定するプロセッサと、音声受信モードの間に受信した音声入力をインデックス内のエントリと比較できるプロセッサとを含んでいる。ファイルは、音声入力がインデックス内の少なくとも1つの情報エントリに一致する場合にアクセスされるのが有利である。本装置は、デスクトップ・コンピュータ、ノートブック・コンピュータ、PDA、ポータブル・メディア・プレーヤー、および携帯電話を備えるグループの中から選択されてもよい。
音声受信手段は、マイクロフォンであるのが好ましい。音声入力の言語は、自動で選択しても手動で選択してもよい。音声入力は、1つの言語でも、少なくとも1つの言語のフレーズでもよい。
情報エントリは、任意の言語による少なくとも1つの単語を備えていてもよいのが好ましい。情報エントリは、たとえば、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、翻訳された曲名、および代わりの曲名といった情報をデジタル・ファイルから取得してもよい。
本装置は、少なくとも1つのボタンを少なくとも1度押下することによってデジタル・ファイルにアクセスするファシリティを作動させる少なくとも1つのボタンを含んでいてもよい。本装置は、ディスプレイを含んでもよいのが好ましい。
本発明が十分に理解され、容易に実用化されるために、ここで本発明の好ましい実施形態は単に非限定的な実施例として説明されているものとし、こうした説明では例として添付の図面を参照する。
以下の説明は、本発明を実装できる適切なコンピューティング環境を簡単かつ一般的に説明することを目的としている。必須ではないが、本発明は、パーソナル・コンピュータで実行されるコンピュータ実行可能命令(たとえばプログラム・モジュール)といった一般的なコンテクストで説明されている。一般に、プログラム・モジュールは、特定のタスクを実行したり、特定の抽象データ型(abstract data types)を実装したりするルーチン、プログラム、文字、コンポーネント、データ構造体を含む。当業者が理解するように、本発明は、ハンドヘルド装置、マルチプロセッサ・システム、マイクロプロセッサベースまたはプログラム可能な家庭用電子機器、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータなどを含むその他のコンピュータ・システム構成で実施されてもよい。本発明は、通信ネットワークを経由してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境で実施されてもよい。分散コンピューティング環境では、プログラム・モジュールはローカルとリモートの両方のメモリ記憶装置内に配置されてもよい。
図1を参照すると、電子装置内に複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする方法の好ましい実施形態を示す流れ図が開示されている。電子装置は、たとえば、デスクトップ・コンピュータ、ノートブック・コンピュータ、PDA、ポータブル・メディア・プレーヤー、または携帯電話でよい。集合内のデジタル・ファイルは、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、および動画ファイルを含んでいてもよい。図1に示されるこの実施形態において、集合内に格納されたデジタル・ファイルは、メディア・ファイル(画像、音楽、および動画のファイル)である。少なくとも1つのデジタル・ファイルは、たとえば、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークなどのソースから受信されてもよい。デジタル・ファイルの集合は、電子装置内のメモリ装置または電子装置に接続可能なメモリ装置に存在してもよい。メモリ装置は、不揮発性メモリでもよく、フラッシュ・メモリまたはハード・ディスク・ドライブのいずれでもよい。
第1に、電子装置内で音声受信モードを有効化するファシリティが作動する(20)。電子装置は、このファシリティが選択可能であるメニューを表示するディスプレイを備えていてもよく、または、本装置は少なくとも1度押下されることによって音声受信モードを作動させるショートカット・スイッチ/ボタンを備えていてもよい。この時点で、ユーザーは音声入力用の特定の言語または複数の言語を手動で選択できてもよい(22)。これは、音声入力を処理する上で本装置の助けになる。特定の言語の各方言、たとえば、とりわけ中国語の方言である広東語、潮州語、および福建語は、別の言語と見なされていることに留意すべきである。
音声受信モードを有効化した後で、電子装置内の集合の中からデジタル・ファイルにアクセスするシステムは初期化され(24)、集合内のファイルにアクセスするための音声入力の着信に備える。初期化のプロセスには、集合内のファイルに関する情報を備える任意の情報インデックスが存在することを確認するためのチェックがある(26)。
インデックスが見つからない場合、ほとんどデジタル・ファイルが検出されなかった(ファイルが削除された)場合、または新しいデジタル・ファイルが検出された場合は、電子装置および接続されている任意のメモリ装置内のメディア・ファイルが検索される(28)。各ファイルから抽出され(25)、インデックス付けされた情報は、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、および代わりの曲名の少なくとも1つを含んでいてもよい。また、前述の情報は、電子装置が代わりのソースに接続されている場合に、たとえばインターネットやホストといった代わりのソースから取得されてもよい(29)。各情報エントリは、少なくとも1つの単語を備えているものとする。抽出された情報は、任意の言語でよく、英数アルファベット・ベースである必要はない。さまざまな形の中国語の文字(簡体字および繁体字)、さまざまな形の日本語の文字(漢字、ひらがな、かたかな)、ハングル文字(Korean characters)、イスラム(Islamic)文字などは、すべて抽出可能であり、情報インデックスに格納されてもよい。さらに、前述の英語以外の文字を英語に翻字したものが情報インデックスに格納されてもよい。また、前述の英語以外の文字を英語に翻訳したものは、こうした情報がファイル・メタデータに含まれる場合に、情報インデックスに格納されてもよい。各デジタル・ファイルは、このファイルがたとえばアーティスト名、曲名、ファイル名などのさまざまな経路を介してアクセスされることができるように、情報インデックス内に複数の情報エントリを備えることができてもよい。ファイルがほとんど検出されなかった場合は、インデックス作成時に存在しないファイルの情報エントリが削除される。ユーザーはまた、特定の曲に代わりのタイトルを指定してもよく、こうした代わりのタイトルもインデックスに含まれていてもよい。メディア・ファイルに関するすべての情報が収集され、文字コードセット識別機能が各メディア・ファイルの情報を分析し、各ファイル内で使用されているコードセット(1つまたは複数)を識別する(27)。
文字コードセットの情報を伴う電子装置および機能的に接続されている任意のメモリ装置内にある各デジタル・ファイルのすべての情報エントリインデックスが電子装置内に作成され(30)、インデックス作成の後で、インデックス内のすべての情報エントリがアクセス可能になるように、インデックスが電子装置にロードされる(32)。新しいデジタル・ファイルが検出されなかった場合および情報インデックスが作成された時にデジタル・ファイルが削除されていない場合は、情報インデックスが存在することを確認した(26)後に情報インデックスがロードされてもよい(32)。
前述のステップに必要な継続時間は、データ処理速度、メモリI/O速度、およびネットワーク/リモート・サーバーの待ち時間(latency)によって変わることに留意すべきである。デジタル・ファイルが大きいほど、処理されるべきデータの容量により、前述のステップに必要な時間が長くなるのは明らかである。
この時点で、電子装置は音声入力を受信する準備が完了する。電子装置は、警報(audible alert)音を発したり視覚的な警告を表示したりして、音声受信モードで音声入力を受信する準備が完了していることをユーザーに通知してもよい。音声入力は、話し手には依存しない。あらかじめ録音する必要はなく、電子装置は基本的に「ピックアンドユース(pick−and−use)」である。本方法における音声処理は、十分に堅牢(robust)であるため、特に強いなまりや不明瞭な発音があっても、音声入力を識別することができる。音声は電子装置に入力される(34)。音声入力は、1つの言語でもよい。音声入力は、複数の言語を備えるフレーズでもよい。たとえば、「帝女flower」のような曲名は受理可能および処理可能であってもよい。そのメタデータに翻訳されたタイトルがあるデジタル・ファイルの場合は、元のタイトルと翻訳されたタイトルのいずれを使用しても同じデジタル・ファイルにアクセスできる。たとえば、「愛是不保留」または「No Reserve in Love」は同じデジタル・ファイルにアクセスできる。
音声が電子装置に入力された後で、音声が処理される(36)。言語の選択が前に手動で実行されていない場合は(22)、音声入力の言語が決定され、この音声入力の言語に対応する適切な音声受信モードが自動的に設定される。言語の選択が手動で設定されている場合は、その後それに応じてユーザーによって指定された言語モデルがロードされる。これで、音声入力の正確な決定が可能になる。図3を参照すると、音声が自動的に処理される順序が示されている。(25)で取得されたメディアのヘッダー情報(361)、(27)で得られた文字コードセット(362)、および(29)でリモート・ソースから収集されたメディア情報(363)が言語認識識別機能(364)に入力されることによって、最適な音声認識言語モデル(1つまたは複数)(365)がロードされるようにできる。たとえば、メディア・ファイルで使用されるコードセットがASCIIおよびGBである一方で、発信国が米国(USA:United States of America)および中国(PRC:Peoples' Republic of China)であることを言語認識識別機能が決定する場合は、音声認識用に米国英語(USA English language)モデルとPRCプートンファ(Putonghua)言語モデルの両方がロードされる。後で、意味のあるメディア情報(曲名、アーティスト、アルバムなど)が音声入力から抽出され、音声認識の題材として音声認識装置(speech recognizer)に提供された場合は、音声入力がさらに「フィルター(filtered)」される(366)。たとえば、「Play愛是不保留by Sharon Lau」という音声入力の場合に、「愛是不保留」は曲名情報として抽出され、「Sharon Lau」はアーティスト情報としてインテリジェントに抽出される。こうして抽出された情報は、次に音声認識プール(367)に追加される。手動による言語の選択が行われた場合は(22)、さらに音声入力にフィルターが適用され、認識された音声プールへのエントリを決定する。
音声入力の処理と認識された音声プールへのエントリ確認の後で、入力がインデックス内の情報エントリと比較される(38)。入力と少なくとも1つの情報エントリとの一致が得られる場合は、こうした情報エントリ(1つまたは複数)にリンクされたデジタル・ファイル(1つまたは複数)がユーザーの選択用として表示される(40)。表示されるデジタル・ファイル(1つまたは複数)は結果一覧でもよく、ユーザーは希望する曲(42)、希望するプレイリスト(44)、または希望するアーティスト(46)の曲を選択できてもよい。このようなオプションは、説明を目的とするものにすぎず、限定するものではない。
図2を参照すると、装置(50)内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする装置(50)が示されている。装置(50)は、たとえば、デスクトップ・コンピュータ、ノートブック・コンピュータ、PDA、ポータブル・メディア・プレーヤー、または携帯電話などの装置でもよい。デジタル・ファイルは、たとえば、ドキュメント、スプレッドシート、プレイリスト、フォルダ、音楽ファイル、または動画ファイルなどのファイルでもよい。少なくとも1つのデジタル・ファイルは、たとえば、メモリ装置、有線コンピュータ・ネットワーク、または無線コンピュータ・ネットワークなどのソースから受信されてもよい。デジタル・ファイルの集合は、装置(50)内に含まれるメモリ装置(58)内に存在してもよく、デジタル・ファイルは装置(50)に接続可能な個別のメモリ装置内に存在してもよい。メモリ装置は、不揮発性メモリでもよく、フラッシュ・メモリまたはハード・ディスク・ドライブのいずれでもよい。デジタル・ファイルにアクセスするファシリティを作動させるために、装置(50)はこのファシリティを有効化できるメニューを表示するディスプレイ(54)を備えていてもよく、装置(50)は少なくとも1度押下されることによってこのファシリティを作動させるショートカット・スイッチ/ボタン(図示せず)を備えていてもよい。
装置(50)は、そのさまざまなコンポーネントを収納する筐体(housing)(52)を備えていてもよい。装置(50)は、装置(50)に格納されたファイルまたは装置(50)にアクセス可能なファイルに関する情報を含む装置(50)に関する情報を表示するディスプレイ(54)を備えていてもよい。集合内の複数のデジタル・ファイルのそれぞれから取得された情報エントリを備えるインデックスを生成するインデクサ(56)が存在してもよい。集合情報内の各デジタル・ファイルは、少なくとも1つの情報エントリにリンクされていてもよい。情報エントリは、少なくとも1つの単語を備えていてもよく、任意の言語でよい。各ファイルから抽出され、インデックス付けされた情報は、ファイル名、ファイル拡張子、ファイル・メタデータによる曲名、ファイル・メタデータによるアーティスト名、ファイル・メタデータによる曲名の一部、ファイル・メタデータによるアーティスト名の一部、曲名の一部、および代わりの曲名の少なくとも1つを含んでいてもよい。各情報エントリは、少なくとも1つの単語を備えているものとする。抽出された情報は任意の言語でよく、英数アルファベット・ベースである必要はない。さまざまな形の中国語の文字(簡体字および繁体字)、さまざまな形の日本語の文字(漢字、ひらがな、かたかな)、ハングル文字、イスラム文字などは、すべて抽出可能であってもよい。さらに、前述の英語以外の文字を英語に翻字したものを情報インデックスに格納してもよい。また、前述の英語以外の文字を英語に翻訳したものも、こうした情報がファイル・メタデータ内で検出される場合に、インデックスに格納されてもよい。各デジタル・ファイルは、このファイルがたとえばアーティスト名、曲名、ファイル名などのさまざまな経路を介してアクセスできるように、情報インデックス内に複数の情報エントリを備えることができてもよい。ユーザーはまた、特定の曲に代わりのタイトルを指定してもよく、こうした代わりのタイトルもインデックスに含まれていてもよい。
さらに、装置(50)は、音声受信モードの間に少なくとも1つの言語で音声入力を受信するための音声受信手段(60)を含んでいてもよい。音声受信手段は、マイクロフォンでも音声信号の入力が可能な他の任意の装置でもよい。音声受信手段(60)は、音声入力をプロセッサ(62)に渡す。音声入力は1つの言語でもよい。音声入力は複数の言語を備えるフレーズでもよい。たとえば、「帝女flower」のような曲名が理解されてもよい。そのメタデータに翻訳されたタイトルがあるデジタル・ファイルの場合は、いずれのタイトルを使用しても同じデジタル・ファイルにアクセスできる。たとえば、「愛是不保留」と「No Reserve in Love」は同じデジタル・ファイルにアクセスできる。プロセッサ(62)は、音声入力の言語を自動的に決定できてもよい。また、装置(50)は、プロセッサ(62)がこの作業を自動的に実行する必要がなくなるように、音声入力の言語を手動で設定できてもよい。プロセッサ(62)は、音声受信モードの間に受信された音声入力をインデックス内のエントリと比較するために使用されてもよい。音声入力は、話し手には依存しない。あらかじめ録音する必要はなく、装置(50)は基本的に「ピックアンドユース」である。装置(50)における音声認識モジュールは、十分に堅牢(robust)であるため、特に強いなまりや不明瞭な発音があっても、音声入力を識別することができる。
入力と少なくとも1つの情報エントリとの一致が得られる場合は、こうした情報エントリ(1つまたは複数)にリンクされたデジタル・ファイル(1つまたは複数)がユーザーの選択用としてディスプレイ(54)に表示される。表示されたデジタル・ファイル(1つまたは複数)は結果一覧でもよく、ユーザーは希望する曲、希望するプレイリスト、または希望するアーティストの曲を選択できてもよい。このようなオプションは、説明を目的とするものにすぎず、限定するものではない。
図2の矢印は、装置(50)のさまざまなコンポーネント間におけるデータ・フローの向きを表すことに留意すべきである。
本発明の好ましい実施形態に関して以上の記述で説明してきたが、本発明を逸脱することなく、設計または構成の細部にさまざまな変形または変更が行われてもよいことは、当業者には理解されよう。
本発明の好ましい実施形態のプロセスを示す流れ図である。 本発明の好ましい実施形態の装置を示す概略図である。 図1の音声処理プロセス36の詳細を示す図である。

Claims (23)

  1. 電子装置内の複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする方法であって、
    前記集合内の前記複数のデジタル・ファイルのそれぞれから取得された情報エントリを備える1つのインデックスを生成し、前記集合の情報内の各デジタル・ファイルは少なくとも1つの情報エントリにリンクされる、ステップと、
    音声受信モードの間に話し手に依存しない音声入力を少なくとも1つの言語で受信することと、前記音声入力の言語を決定するステップと、
    前記音声受信モードを前記音声入力の前記言語に設定するステップと、
    前記音声受信モードの間に受信された前記音声入力を前記インデックス内の前記エントリと比較するステップとを含み、
    前記ファイルは前記音声入力が前記インデックス内の前記情報エントリの少なくとも1つに一致する場合にアクセスされる方法。
  2. 前記デジタル・ファイルは、ドキュメントと、スプレッドシートと、プレイリストと、フォルダと、音楽ファイルと、画像ファイルと、動画ファイルとを備えるグループの中から選択される請求項1に記載の方法。
  3. 前記情報エントリは少なくとも1つの単語を備える請求項1に記載の方法。
  4. 前記情報エントリは、ファイル名と、ファイル拡張子と、ファイル・メタデータによる曲名と、ファイル・メタデータによるアーティスト名と、ファイル・メタデータによる曲名の一部と、ファイル・メタデータによるアーティスト名の一部と、翻訳された曲名と、代わりの曲名と、リモート・ソースによる前述の任意の情報とを備えるグループの中から選択されたデジタル・ファイルから情報を取得する請求項1に記載の方法。
  5. 前記情報エントリは任意の言語であり、少なくとも1つの文字コードセットに依存する請求項1に記載の方法。
  6. 前記音声入力は、1つの言語または少なくとも1つの言語のフレーズのいずれかによる請求項1に記載の方法。
  7. 前記デジタル・ファイルは、前記電子装置と、前記電子装置に機能的に接続されている任意の装置と、前述の組み合わせとを備えるグループの中から選択されたソースに格納される請求項1に記載の方法。
  8. 前記音声受信モードの前記言語は、手動選択と自動選択とを備えるグループの中から選択された手段によって設定される請求項1に記載の方法。
  9. 前記少なくとも1つのデジタル・ファイルは、メモリ装置と、有線コンピュータ・ネットワークと、無線コンピュータ・ネットワークとを備えるグループの中から選択されたソースから受信される請求項1に記載の方法。
  10. 前記電子装置は、デスクトップ・コンピュータと、ノートブック・コンピュータと、PDAと、ポータブル・メディア・プレーヤーと、携帯電話とを備えるグループの中から選択される請求項1に記載の方法。
  11. 前記音声入力はフィルターされる請求項1に記載の方法。
  12. 装置内に格納された複数のデジタル・ファイルを備える集合の中から少なくとも1つのデジタル・ファイルにアクセスする前記装置であって、
    前記集合内の前記複数のデジタル・ファイルのそれぞれから取得された情報エントリを備えるインデックスを生成し、前記集合の情報内の各デジタル・ファイルは少なくとも1つの情報エントリにリンクされるインデクサと、
    音声受信モードの間に話し手に依存しない音声入力を少なくとも1つの言語で受信する音声受信手段と、
    前記音声入力の言語を決定するプロセッサと、
    前記音声受信モードの間に受信された前記音声入力を前記インデックス内の前記エントリと比較できる前記プロセッサとを含み、
    前記ファイルは前記音声入力が前記インデックス内の前記情報エントリの少なくとも1つに一致する場合にアクセスされる装置。
  13. 前記装置は、デスクトップ・コンピュータと、ノートブック・コンピュータと、PDAと、ポータブル・メディア・プレーヤーと、携帯電話とを備えるグループの中から選択される請求項12に記載の装置。
  14. 前記音声受信手段はマイクロフォンである請求項12に記載の装置。
  15. 前記音声入力の言語を決定する前記手段は、自動と手動とを備えるグループの中から選択される請求項12に記載の装置。
  16. 前記デジタル・ファイルは、ドキュメントと、スプレッドシートと、プレイリストと、フォルダと、音楽ファイルと、画像ファイルと、動画ファイルとを備えるグループの中から選択される請求項12に記載の装置。
  17. 前記情報エントリは少なくとも1つの単語を備える請求項12に記載の装置。
  18. 前記情報エントリは、ファイル名と、ファイル拡張子と、ファイル・メタデータによる曲名と、ファイル・メタデータによるアーティスト名と、ファイル・メタデータによる曲名の一部と、ファイル・メタデータによるアーティスト名の一部と、翻訳された曲名と、代わりの曲名と、リモート・ソースによる前述の任意の情報とを備えるグループの中から選択されたデジタル・ファイルから情報を取得する請求項12に記載の装置。
  19. 前記情報エントリは任意の言語であり、少なくとも1つの文字コードセットに依存する請求項12に記載の装置。
  20. 前記音声入力は、1つの言語または少なくとも1つの言語のフレーズのいずれかによる請求項16に記載の装置。
  21. 前記少なくとも1つのデジタル・ファイルは、メモリ装置と、有線コンピュータ・ネットワークと、無線コンピュータ・ネットワークとを備えるグループの中から選択されたソースから受信される請求項12に記載の装置。
  22. ディスプレイをさらに含む請求項12に記載の装置。
  23. 前記音声入力はフィルターされる請求項12に記載の装置。
JP2008545547A 2005-12-12 2006-12-11 デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置 Pending JP2009519538A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG200508000-7A SG133419A1 (en) 2005-12-12 2005-12-12 A method and apparatus for accessing a digital file from a collection of digital files
PCT/SG2006/000384 WO2007070013A1 (en) 2005-12-12 2006-12-11 A method and apparatus for accessing a digital file from a collection of digital files

Publications (1)

Publication Number Publication Date
JP2009519538A true JP2009519538A (ja) 2009-05-14

Family

ID=38140537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008545547A Pending JP2009519538A (ja) 2005-12-12 2006-12-11 デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置

Country Status (15)

Country Link
US (1) US8015013B2 (ja)
EP (1) EP1969590A4 (ja)
JP (1) JP2009519538A (ja)
KR (1) KR20080083290A (ja)
CN (1) CN101341531A (ja)
AU (1) AU2006325555B2 (ja)
BR (1) BRPI0619607A2 (ja)
CA (1) CA2633505A1 (ja)
NO (1) NO20083087L (ja)
NZ (1) NZ569291A (ja)
RU (1) RU2008128440A (ja)
SG (1) SG133419A1 (ja)
TW (1) TW200805251A (ja)
WO (1) WO2007070013A1 (ja)
ZA (1) ZA200805567B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100197255A1 (en) * 2009-02-05 2010-08-05 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Method and apparatus for dynamic station preset configuration in a radio
US20120221319A1 (en) * 2011-02-28 2012-08-30 Andrew Trese Systems, Methods and Media for Translating Informational Content
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
US8983963B2 (en) * 2011-07-07 2015-03-17 Software Ag Techniques for comparing and clustering documents
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
KR102081925B1 (ko) * 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
KR102115397B1 (ko) 2013-04-01 2020-05-26 삼성전자주식회사 휴대 장치 및 휴대 장치의 재생목록 표시 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594512A (ja) * 1991-10-02 1993-04-16 Kobe Nippon Denki Software Kk 電子フアイリング装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム
JP2001285759A (ja) * 2000-03-28 2001-10-12 Pioneer Electronic Corp Av情報処理装置及びav情報処理用プログラムがコンピュータで読取り可能に記録された情報記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833714A (en) * 1983-09-30 1989-05-23 Mitsubishi Denki Kabushiki Kaisha Speech recognition apparatus
CA2115088A1 (en) 1993-02-08 1994-08-09 David Michael Boyle Multi-lingual voice response unit
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
JP4292646B2 (ja) * 1999-09-16 2009-07-08 株式会社デンソー ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US20020099533A1 (en) * 2001-01-23 2002-07-25 Evan Jaqua Data processing system for searching and communication
FI20010644A (fi) 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US7043431B2 (en) 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7974843B2 (en) 2002-01-17 2011-07-05 Siemens Aktiengesellschaft Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7188066B2 (en) 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US7046984B2 (en) * 2002-11-28 2006-05-16 Inventec Appliances Corp. Method for retrieving vocabulary entries in a mobile phone
US7321852B2 (en) * 2003-10-28 2008-01-22 International Business Machines Corporation System and method for transcribing audio files of various languages
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7711542B2 (en) * 2004-08-31 2010-05-04 Research In Motion Limited System and method for multilanguage text input in a handheld electronic device
US7376648B2 (en) * 2004-10-20 2008-05-20 Oracle International Corporation Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
TWI258087B (en) * 2004-12-31 2006-07-11 Delta Electronics Inc Voice input method and system for portable device
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0594512A (ja) * 1991-10-02 1993-04-16 Kobe Nippon Denki Software Kk 電子フアイリング装置
JPH11312073A (ja) * 1998-04-27 1999-11-09 Fujitsu Ltd 意味認識システム
JP2001285759A (ja) * 2000-03-28 2001-10-12 Pioneer Electronic Corp Av情報処理装置及びav情報処理用プログラムがコンピュータで読取り可能に記録された情報記録媒体

Also Published As

Publication number Publication date
WO2007070013A1 (en) 2007-06-21
AU2006325555A1 (en) 2007-06-21
SG133419A1 (en) 2007-07-30
TW200805251A (en) 2008-01-16
NZ569291A (en) 2010-03-26
ZA200805567B (en) 2009-06-24
KR20080083290A (ko) 2008-09-17
CA2633505A1 (en) 2007-06-21
US8015013B2 (en) 2011-09-06
EP1969590A1 (en) 2008-09-17
NO20083087L (no) 2008-09-01
AU2006325555B2 (en) 2012-03-08
RU2008128440A (ru) 2010-01-20
EP1969590A4 (en) 2010-01-06
BRPI0619607A2 (pt) 2011-10-11
US20070136065A1 (en) 2007-06-14
CN101341531A (zh) 2009-01-07

Similar Documents

Publication Publication Date Title
JP2009519538A (ja) デジタル・ファイルの集合の中からデジタル・ファイルにアクセスする方法および装置
US8620667B2 (en) Flexible speech-activated command and control
Huang et al. Spoken language processing: A guide to theory, algorithm, and system development
US8712776B2 (en) Systems and methods for selective text to speech synthesis
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US20080162472A1 (en) Method and apparatus for voice searching in a mobile communication device
CN104239382B (zh) 用于内容检索的上下文智能标记
KR20080000203A (ko) 음성인식을 이용한 음악 파일 검색 방법
EP2477186A1 (en) Information retrieving apparatus, information retrieving method and navigation system
JP2009505321A (ja) 再生装置の動作を制御する方法およびシステム
US8892565B2 (en) Method and apparatus for accessing an audio file from a collection of audio files using tonal matching
JP2013521567A (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US11048736B2 (en) Filtering search results using smart tags
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN102262471A (zh) 一种划屏智能感应系统
CN103631784B (zh) 页面内容检索方法和系统
KR101567449B1 (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
US20140372455A1 (en) Smart tags for content retrieval
WO2017157067A1 (zh) 一种电子书的翻页方法及装置
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
CN113593543A (zh) 智能音箱语音服务系统、方法、装置及设备
KR20120041051A (ko) 초성 기반의 음성검색 기능을 갖는 단말장치 및 그 동작 방법
KR20060125949A (ko) 오디오 파일의 정보 삽입 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120622