JP2005070645A - テキスト音声同期装置およびテキスト音声同期処理プログラム - Google Patents
テキスト音声同期装置およびテキスト音声同期処理プログラム Download PDFInfo
- Publication number
- JP2005070645A JP2005070645A JP2003303092A JP2003303092A JP2005070645A JP 2005070645 A JP2005070645 A JP 2005070645A JP 2003303092 A JP2003303092 A JP 2003303092A JP 2003303092 A JP2003303092 A JP 2003303092A JP 2005070645 A JP2005070645 A JP 2005070645A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- speech
- data
- synchronization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】テキスト音声同期装置であって、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成すること。
【解決手段】テキスト/音声同期付け画面G1の模範テキスト表示エリア44に表示される模範学習データのテキストデータに従って、当該模範テキストの模範的読み上げを行うと、その読み上げ音声入力と共に音声認識された音声波形および認識テキストがそれぞれ順次入力音声波形表示エリア47および認識テキスト表示エリア46に対応表示され、読み上げ音声認識単語毎にその読み上げ経過時間を記録したテキスト音声同期データが取得される。この際、模範テキストと読み上げ音声の認識テキストとが比較され、当該読み上げ音声に模範テキストに対する差異が生じているか判断され、認識テキスト表示エリア46上の差異抽出部分において当該差異の種類に応じた識別表示が行われる。
【選択図】 図6
【解決手段】テキスト/音声同期付け画面G1の模範テキスト表示エリア44に表示される模範学習データのテキストデータに従って、当該模範テキストの模範的読み上げを行うと、その読み上げ音声入力と共に音声認識された音声波形および認識テキストがそれぞれ順次入力音声波形表示エリア47および認識テキスト表示エリア46に対応表示され、読み上げ音声認識単語毎にその読み上げ経過時間を記録したテキスト音声同期データが取得される。この際、模範テキストと読み上げ音声の認識テキストとが比較され、当該読み上げ音声に模範テキストに対する差異が生じているか判断され、認識テキスト表示エリア46上の差異抽出部分において当該差異の種類に応じた識別表示が行われる。
【選択図】 図6
Description
本発明は、テキストデータと音声データを同期させるためのテキスト音声同期装置およびテキスト音声同期処理プログラムに関する。
従来、音楽,テキスト,画像などのファイルを同時並行して再生する技術としては、例えばMPEG-3により情報圧縮された音声ファイルのフレーム毎に、当該各フレームに設けられた付加データエリアに対して、音声ファイルに同期再生すべきテキストファイルや画像ファイルの同期情報を埋め込んでおくことにより、例えばカラオケの場合では、カラオケ音声とその歌詞のテキストおよびイメージ画像を同期再生するものがある。
また、番組画像とその音声に合わせて字幕を送出するタイミングを設定するための字幕送出タイミング検出装置として、番組音声の中から所定話者音声が存在する音声区間を識別し、当該所定話者音声の音声区間と字幕原稿文とを照合することにより、この字幕原稿文と音声との同期タイミングを検出設定するものも考えられている(例えば、特許文献1参照。)。
特開2002−244694号公報
しかしながら、このように従来行われているMPEGファイルの付加データエリアを利用した複数種類のファイルの同期再生技術では、同期情報の埋め込みが主たるMP3音声ファイルの各フレーム毎の付加データエリアに規定されるため、当該MP3音声ファイルを再生させない限り同期情報を取り出すことが出来ず、MP3ファイルの再生を軸としてしか他の種類のファイルの同期再生を行うことが出来ない。
このため、例えばMP3音声ファイルにテキストファイルの同期情報を埋め込んだ場合に、音声ファイルの再生を行わない期間にあっても無音声ファイルとして音声再生処理を継続的に行っていないと同期対象ファイルの再生を行うことが出来ない問題がある。
従って、従来この複数種類ファイルの同期再生処理は、MP3ファイルの再生処理をベースとして行われるため、再生装置のCPUにおける処理の負荷が重くなる問題がある。
一方、前記特許文献1に記載の装置は、MPEGファイルの付加データエリアを利用するものではなく、所定話者音声が存在する音声区間と字幕原稿文とを照合し、当該話者音声に対応する字幕文を関連付けて記憶しておくことで、所定話者音声の出力に伴い対応する字幕文を送出表示できるようにするものであるが、話者音声に対する字幕原稿文の関連付けは、音声発声の開始時間と字幕文の文頭、および発声終了時間と文末との関連付けにより行われるため、例えば語学学習のテキストとその読み上げ音声とを同期再生するなどのテキストの文字列とその個々の読み上げ音声との精密な同期付けが要求されるような場合に、前記処理負担の重いMPEG等によらないで、高精度に且つ容易に関連付け情報を生成することはできない。
本発明は、前記のような問題に鑑みてなされたもので、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供することを目的とする。
本発明の請求項1(請求項11)に係るテキスト音声同期装置(テキスト音声同期処理プログラム)では、テキスト記憶手段により記憶されたテキストを第1のテキスト表示手段により表示し、この第1のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を音声入力手段により入力すると、この音声入力手段により入力された読み上げ音声は音声認識手段によりテキストとして認識され、この音声認識手段により認識された読み上げ音声の認識テキストは第2のテキスト表示手段により表示される。すると、差異抽出手段によって前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストが比較されてその差異が抽出され、この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で差異報知手段によって報知される。そして、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの記述順番に対応付けされた同期データとして同期データ取得手段によって取得される。
本発明の請求項2に係るテキスト音声同期装置は、前記請求項1に係るテキスト音声同期装置にあって、前記差異抽出手段では、第1のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが単語毎に比較されてその差異が抽出され、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知され、前記同期データ取得手段では、テキスト記憶手段により記憶されたテキストと音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの単語毎の記述順番に対応付けられた同期データとして取得される。
本発明の請求項3に係るテキスト音声同期装置では、前記請求項1または請求項2に係るテキスト音声同期装置にあって、さらに、第1のテキスト音声波形表示手段によってテキスト記憶手段により記憶されたテキストに対応する音声波形が表示され、第2のテキスト音声波形表示手段によって音声入力手段により入力された読み上げ音声の音声波形が表示される。
本発明の請求項4に係るテキスト音声同期装置は、前記請求項1ないし請求項3の何れか1項に係るテキスト音声同期装置にあって、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示されて報知される。
本発明の請求項5に係るテキスト音声同期装置は、前記請求項1ないし請求項4の何れか1項に係るテキスト音声同期装置にあって、前記差異抽出手段では、前記第1のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが比較されてその追加,変更,削除による差異が抽出される。
本発明の請求項6に係るテキスト音声同期装置では、前記請求項1ないし請求項5の何れか1項に係るテキスト音声同期装置にあって、さらに、前記差異抽出手段により前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、同期修正手段によって前記同期データ取得手段により取得された同期データが修正される。
本発明の請求項7に係るテキスト音声同期装置では、前記請求項6に係るテキスト音声同期装置にあって、前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段とされる。
本発明の請求項8に係るテキスト音声同期装置では、前記請求項6に係るテキスト音声同期装置にあって、前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段とされる。
本発明の請求項9に係るテキスト音声同期装置では、前記請求項1ないし請求項8の何れか1項に係るテキスト音声同期装置にあって、さらに、前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成される。
本発明の請求項10に係るテキスト音声同期装置では、前記請求項9に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成される。
本発明の請求項1(請求項11)に係るテキスト音声同期装置(テキスト音声同期処理プログラム)によれば、テキスト記憶手段により記憶されたテキストを第1のテキスト表示手段により表示し、この第1のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を音声入力手段により入力すると、この音声入力手段により入力された読み上げ音声は音声認識手段によりテキストとして認識され、この音声認識手段により認識された読み上げ音声の認識テキストは第2のテキスト表示手段により表示される。すると、差異抽出手段によって前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストが比較されてその差異が抽出され、この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で差異報知手段によって報知される。そして、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの記述順番に対応付けされた同期データとして同期データ取得手段によって取得されるので、例えば模範の第1テキスト表示に対しその読み上げ音声認識テキストの差異を第2の認識テキスト表示上で容易且つ明確に知ることができ、読み上げ音声の再入力や同期データの修正を対策できるようになる。
本発明の請求項2に係るテキスト音声同期装置によれば、前記請求項1に係るテキスト音声同期装置にあって、前記差異抽出手段では、第1のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが単語毎に比較されてその差異が抽出され、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知され、前記同期データ取得手段では、テキスト記憶手段により記憶されたテキストと音声入力手段により入力された読み上げ音声の読み上げ時間情報とが当該テキストの単語毎の記述順番に対応付けられた同期データとして取得されるので、例えば模範の第1テキスト表示に対する読み上げ音声認識テキストの第2テキスト表示においてその差異抽出部分を単語単位で明確に知ることができ、またテキスト対読み上げ音声の同期データを単語毎の同期データとして取得できるようになる。
本発明の請求項3に係るテキスト音声同期装置によれば、前記請求項1または請求項2に係るテキスト音声同期装置にあって、さらに、第1のテキスト音声波形表示手段によってテキスト記憶手段により記憶されたテキストに対応する音声波形が表示され、第2のテキスト音声波形表示手段によって音声入力手段により入力された読み上げ音声の音声波形が表示されるので、例えば模範の第1テキスト表示に対する読み上げ音声を、その模範のテキストに対応する音声波形と自己の読み上げ音声に対応する音声波形とを対比参照しながら高精度に入力できるようになる。
本発明の請求項4に係るテキスト音声同期装置によれば、前記請求項1ないし請求項3の何れか1項に係るテキスト音声同期装置にあって、前記差異報知手段では、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分が第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示されて報知されるので、例えば模範の第1テキスト表示に対する読み上げ音声認識テキストの差異抽出部分をより明確且つ容易に知ることができ、読み上げ音声の再入力や同期データの修正を適切に対策できるようになる。
本発明の請求項5に係るテキスト音声同期装置によれば、前記請求項1ないし請求項4の何れか1項に係るテキスト音声同期装置にあって、前記差異抽出手段では、前記第1のテキスト表示手段により表示されたテキストに対し音声認識手段により認識された読み上げ音声の認識テキストが比較されてその追加,変更,削除による差異が抽出されるので、第1テキスト表示に対する読み上げ音声認識テキストの差異をその追加,変更,削除の種類に分けてより明確に知ることができ、読み上げ音声の再入力や同期データの修正に際し適切な内容の対策を実施できるようになる。
本発明の請求項6に係るテキスト音声同期装置によれば、前記請求項1ないし請求項5の何れか1項に係るテキスト音声同期装置にあって、さらに、前記差異抽出手段により前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、同期修正手段によって前記同期データ取得手段により取得された同期データが修正されるので、例えば模範の第1テキスト表示に対する読み上げ音声の入力に読み上げミスがあっても、これに対応する同期データの不具合を修正できるようになる。
本発明の請求項7に係るテキスト音声同期装置によれば、前記請求項6に係るテキスト音声同期装置にあって、前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段とされるので、例えば模範の第1テキスト表示に対する読み上げ音声の入力に読み上げミスがあっても、同期データにおいて対応付けされる読み上げ時間情報を模範のテキストに合わせた時間情報に修正できるようになる。
本発明の請求項8に係るテキスト音声同期装置によれば、前記請求項6に係るテキスト音声同期装置にあって、前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段とされるので、例えば模範の第1テキスト表示に対する読み上げ音声の入力に正しい差異が生じた場合は、同期データにおいて対応付けされるテキストを読み上げ音声の認識テキストに変更修正できるようになる。
本発明の請求項9に係るテキスト音声同期装置によれば、前記請求項1ないし請求項8の何れか1項に係るテキスト音声同期装置にあって、さらに、前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報が同期再生情報作成手段によって作成されるので、テキストとその読み上げ時間情報との同期データに基づいて当該テキストおよびその読み上げ音声の同期再生情報を容易且つ正確に作成できるようになる。
本発明の請求項10に係るテキスト音声同期装置によれば、前記請求項9に係るテキスト音声同期装置にあって、前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成されるので、テキストおよびその読み上げ音声の同期再生を、一定時間毎に読み出される命令コードの実行のみによって実現できるようになる。
よって、本発明によれば、テキストデータと音声データとを高精度に同期再生するための関連付け情報を容易に生成することが可能になるテキスト音声同期装置およびテキスト音声同期処理プログラムを提供できる。
以下図面により本発明の実施の形態について説明する。
図1は本発明のテキスト音声同期装置の実施形態に係る携帯機器10の電子回路の構成を示すブロック図である。
この携帯機器(PDA:personal digital assistants)10は、各種の記録媒体に記録されたプログラム、又は、通信伝送されたプログラムを読み込んで、その読み込んだプログラムによって動作が制御されるコンピュータによって構成され、その電子回路には、CPU(central processing unit)11が備えられる。
CPU11は、メモリ12内のROM12Aに予め記憶されたPDA(携帯機器)制御プログラム12a、あるいはROMカードなどの外部記録媒体13から記録媒体読取部14を介して前記メモリ12に読み込まれたPDA制御プログラム12a、あるいはインターネットなどの通信ネットワークN上の他のコンピュータ端末(30)から電送制御部15を介して前記メモリ12に読み込まれたPDA制御プログラム12aに応じて、回路各部の動作を制御するもので、前記メモリ12に記憶されたPDA制御プログラム12aは、スイッチやキーからなる入力部17aおよびマウスやタブレットからなる座標入力装置17bからのユーザ操作に応じた入力信号、あるいは電送制御部15に受信される通信ネットワークN上の他のコンピュータ端末(30)からの通信信号、あるいはBluetooth(R)による近距離無線接続や有線接続による通信部16を介して受信される外部の通信機器(PC:personal computer)20からの通信信号に応じて起動される。
前記CPU11には、前記メモリ12、記録媒体読取部14、電送制御部15、通信部16、入力部17a、座標入力装置17bが接続される他に、LCDからなる表示部18、マイクを備え音声を入力する音声入力部19a、スピーカを備え音声を出力する音声出力部19bなどが接続される。
また、CPU11には、処理時間計時用のタイマが内蔵される。
この携帯機器10のメモリ12は、ROM12A、FLASHメモリ(EEP-ROM)12B、RAM12Cを備えて構成される。
ROM12Aには、当該携帯機器10のPDA制御プログラム12aとして、その全体の動作を司るシステムプログラムや電送制御部15を介して通信ネットワークN上の各コンピュータ端末(Webサーバなど)(30)とデータ通信するためのネット通信プログラム、通信部16を介して外部の通信機器(PC)20とデータ通信するための外部機器通信プログラムが記憶される他に、スケジュール管理プログラムやアドレス管理プログラム、そして例えば英会話学習用のテキストデータに対して当該テキストを読み上げる音声データを同期付けするためのテキスト音声同期データ12f(図3参照)を取得する同期取得処理プログラム12a1、このテキスト対音声の同期処理に際して入力される読み上げ音声データを音声認識して読み上げテキストに変換する音声認識処理プログラム12a2、前記テキスト音声同期データ12fの取得に際して読み上げ音声に誤りが存在した場合に同期付けの修正を行うための同期修正処理プログラム12a3、音声・テキストなどの各種のデータを同期再生するための同期再生用タイムコードファイル12c(図14参照)を前記テキスト音声同期データ12fに基づき作成する同期データ作成処理プログラム12a4、これにより作成されたタイムコードファイル12cに従い音声・テキストなどの各種のデータを同期再生するための同期データ再生処理プログラム12a5など、種々のPDA制御プログラム12anが記憶される。
FLASHメモリ(EEP-ROM)12Bには、ROMカードなどの外部記録媒体13から記録媒体読取部14を介して取り込まれるか、あるいは通信ネットワーク(インターネット)N上のWebサーバ30から電送制御部15を介して取り込まれた、例えば英語学習用の模範学習データ12bが記憶される。
この模範学習データ12bは、例えば英語学習の模範のテキストデータ、この模範テキストを読み上げる模範的な発音の音声波形データからなる。
この他に、FLASHメモリ(EEP-ROM)12Bには、前記スケジュール管理プログラムやアドレス管理プログラムに基づき管理されるユーザのスケジュール及び友人・知人のアドレスなどが記憶される。
RAM12Cには、前記同期データ作成処理プログラム12a4に従い作成され、また前記同期データ再生処理プログラム12a5に従い再生処理の対象となる同期再生用タイムコードファイル12c(図14参照)が記憶されると共に、前記音声認識プログラム12a2に従い認識変換された音声認識テキストデータ(含む入力音声波形データ)12d、前記模範学習データ12bの模範テキストデータと当該模範テキストを読み上げた音声認識テキストデータ12dとの差異を抽出した模範/認識(テキスト)差異抽出データ12eが記憶される。
ここで、前記同期再生用タイムコードファイル12cは、例えば前記模範学習データ12bにネイティブによる模範的読み上げ音声データを同期付けて再生するためのファイルである。
この作成された同期再生用タイムコードファイル12cは、本携帯機器10によりその場で同期再生してユーザ自身あるいは第三者が利用する他に、例えばCD−ROMに記録して他の学習者に配布したり、電送制御部15を介して通信ネットワーク(インターネット)N上にある前記模範学習データ12bの提供元Webサーバ30へ転送し同様に他の学習者に配信して利用したりする。
同期再生用タイムコードファイル12c(図14参照)は、前記同期データ作成処理プログラム12a4に従い作成(作成処理については後述する)され、前記同期データ再生処理プログラム12a5に従い再生(再生処理については後述する)されるもので、再生命令の処理単位時間(12c1a)を記憶するヘッダ情報(12c1)、および後述する同期再生用テキストデータ(12c2)、同期再生用音声データ(12c3)を組み合わせて構成される。つまり、同期データ作成処理プログラム12a3による同期再生用タイムコードファイル12cの作成に従い、同期再生の対象となるテキストデータが同期再生用テキストデータ(12c2)として記憶され、同音声データが同期再生用音声データ(12c3)として記憶される。
そしてまた、RAM12Cには、テキストと音声を同期再生するための同期再生用タイムコードファイル12cを前記同期データ作成処理プログラム12a4に従い作成処理する過程において、前記同期取得処理プログラム12a1に従い生成されるテキストデータの単語No.(wn)と読み上げ音声時間(tn)とを同期付けたテキスト音声同期データ12fが記憶される。
さらに、RAM12Cには、その他各種の処理に応じてCPU11に入出力される種々のデータを一時記憶するためワークエリアが用意される。
図14で示す同期再生用タイムコードファイル12cには、個々のデータ毎に予め設定される一定時間間隔(例えば25ms)で各種データ同期再生のコマンド処理を行うためのタイムコードが記述配列されるもので、この各タイムコードは、命令を指示するコマンドコードと、当該コマンドに関わる再生対象データの内容を対応付けするための参照番号や指定数値からなるパラメータデータとの組み合わせにより構成される。
なお、このタイムコードに従い順次コマンド処理を行うための一定時間間隔は、当該タイムコードファイル12cのヘッダ情報12c1に処理単位時間12c1aとして記述設定される。
図2は前記携帯機器10の同期再生用タイムコードファイル12c(図14参照)にて記述される各種コマンドのコマンドコードとそのパラメータデータおよび同期データ再生処理プログラム12a5に基づき解析処理される命令内容を対応付けて示す図である。
同期再生用タイムコードファイル12cに使用されるコマンドとしては、標準コマンドと拡張コマンドがあり、標準コマンドには、LT(i番目テキストロード).VD(i番目テキスト文節表示).BL(文字カウンタリセット・i番目文節ブロック指定).HN(ハイライト無し・文字カウンタカウントアップ).HL(i番目文字までハイライト・文字カウント).LS(1行スクロール・文字カウンタカウントアップ).DH(i番目HTMLファイル表示).DI(i番目イメージファイル表示).PS(i番目サウンドファイルプレイ).CS(クリアオールファイル).PP(基本タイムi秒間停止).FN(処理終了).NP(無効)の各コマンドがある。
すなわち、この携帯機器(PDA)10のROM12Aに記憶されている同期データ再生処理プログラム12a5を起動させた際に、RAM12Cに記憶されている同期再生用タイムコードファイル12cが、例えば図14で示したファイル内容であり、一定時間毎のコマンド処理に伴い2番目のコマンドコード“PS”およびパラメータデータ“01”が読み込まれた場合には、このコマンド“PS”はi番目のサウンドファイル再生命令であるため、パラメータデータi=01からリンク付けられる同期再生用音声データ12c3における1番目の音声データが読み出されて表示される。
また、例えば同一定時間毎のコマンド処理に伴い4番目のコマンドコード“VD”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“VD”はi番目のテキスト文節表示命令であるため、パラメータデータi=00に従い、同期再生用テキストデータ12c2におけるテキストデータの0番目(最初)の文節(例えば1sentence)が表示される。
さらに、例えば同一定時間毎のコマンド処理に伴い6番目のコマンドコード“NP”およびパラメータデータ“00”が読み込まれた場合には、このコマンド“NP”は無効命令であるため、現状のデータ出力状態が維持される。
なお、このテキスト・音声の各データを同期再生するための図14で示した同期再生用タイムコードファイル12cの作成動作、およびこのタイムコードファイル12cによる各同期再生用データ12c2,12c3についての詳細な再生動作は、後述にて改めて説明する。
図3は前記携帯機器10の同期データ作成処理プログラム12a4に従いメモリ12に記憶されるテキスト音声同期データ12fを示す図である。
このテキスト音声同期データ12fは、模範学習テキストに模範の発声音声を対応付けて同期再生するための同期再生用タイムコードファイル12cの作成に伴う同期取得処理(図4参照)において、表示中の模範学習テキストの模範の読み上げ音声を入力・音声認識して当該テキストの読み上げ単語を認識して行くことで、当該各単語No.(wn)毎に模範の発声音声の読み上げ経過時間(tn)が対応付けされて生成される。
次に、前記構成の携帯機器10により、例えば模範学習データ12bである英会話テキストデータをネイティブにより模範的に読み上げる音声データを入力し、その同期再生を図るための同期再生用タイムコードファイル12cを作成するための同期データ作成機能について説明する。
図4は前記携帯機器10の同期取得処理プログラム12a1に従った同期取得処理を示すフローチャートである。
図5は前記携帯機器10の同期取得処理に伴う同期修正処理プログラム12a3に従った同期修正処理を示すフローチャートである。
図6は前記携帯機器10の同期取得処理およびこれに伴う同期修正処理を実施する場合の模範学習データと読み上げ音声データの同期付け状態を示す図であり、同図(A)はテキスト/音声同期付け画面G1の初期表示状態を示す図、同図(B)は同テキスト/音声同期付け画面G1における読み上げ音声入力中の表示状態を示す図である。
このテキスト/音声同期付け画面G1には、ガイドメッセージを表示するためのメッセージ表示エリア41、同期付け処理の開始/停止を指示するための開始ボタン(START)42/停止ボタン(STOP)43、模範学習テキストを表示するための模範テキスト表示エリア44、当該模範学習テキストに対応する模範音声波形を表示するための模範音声波形表示エリア45、模範学習テキスト(44)および模範音声波形(45)に合わせて入力された読み上げ音声データの音声認識テキストを表示するための認識テキスト表示エリア46、当該入力された読み上げ音声波形を表示するための入力音声波形表示エリア47が設けられる。
入力部17aの操作により、例えばインターネットN上のWebサーバ30から予めダウンロードされてFLASHメモリ12Bに記憶されている模範学習データ12bに基づき、模範の英語テキストに対して例えばネイティブによる模範の音声データを同期付けする場合に、図4における同期取得処理が起動されると、図6(A)に示すように、模範テキストの読み上げガイドメッセージ「テキストを読み上げてください。」がテキスト/音声同期付け画面G1上のメッセージ表示エリア41に表示される(ステップA0)。
これと共に、FLASHメモリ12Bに記憶されている模範学習データ12bが読み出され(ステップA1)、図6(A)に示すように、前記模範学習データ12bの英語テキストがテキスト/音声同期付け画面G1上の模範テキスト表示エリア44に表示され、さらに当該模範の英語テキストに対応する音声波形が模範音声波形表示エリア45に表示される(ステップA2)。
そして、模範テキスト・模範音声波形の表示に合わせたネイティブによる当該模範テキストの読み上げに伴う音声入力が行われると(ステップA3)、当該音声入力される模範テキストの読み上げに伴う発声音声が認識されると共に(ステップA4)、この読み上げ音声に対応するテキストデータ12dが抽出されRAM12Cに記憶される(ステップA5)。
すると、この音声認識されたテキスト12dの各単語wn毎に入力開始からの読み上げ経過時間tnがテキスト音声同期データ12f(図3参照)として順次RAM12C内に記憶される(ステップA6)。
図7は前記携帯機器10での同期取得処理に伴う模範学習テキストとその読み上げ音声認識テキストの時間同期状態を示す図であり、同図(A)は模範学習テキスト12bを示す図、同図(B)は読み上げ音声認識テキスト12dの読み上げ経過時間tnを示す図である。
図8は前記携帯機器10での同期取得処理に伴う読み上げ音声認識の各認識単語wnに対応する各読み上げ経過時間tnを示す図であり、同図(A)は読み上げられた各音声認識単語wnを示す図、同図(B)は各読み上げ単語wn認識時点での読み上げ経過時間tnを示す図である。
図9は前記携帯機器10での同期取得処理に伴う模範テキスト12bと読み上げ音声認識テキスト12dとの差異抽出データ12eを示す図であり、同図(A)は模範テキストとの差異ありと判断された読み上げ音声認識テキストの単語No.(wn)を示す図、同図(B)は差異ありと判断された読み上げ音声認識テキストwnにおける差異の種類データ(追加“add”/変更“def”/削除“no”)を示す図、同図(C)は差異ありと判断された読み上げ音声認識テキストwnにおける差異の内容データを示す図である。
すなわち、図7(A)で示すような模範学習データ12bに対して、図7(B)で示すように読み上げ音声が文字認識12dされ、図8に示すようにその認識単語wn毎にその読み上げ経過時間tnが同期付けされて、図3で示すようなテキスト音声同期データ12fとして作成取得されるもので、この際、読み上げ音声の認識単語毎に模範テキストとの比較処理が実施され(ステップA7)、その差異の有無が判断される(ステップA8)。
ここで、模範テキスト12bの単語と読み上げ音声認識テキスト12dの単語との差異がないと判断された場合には、図6(B)に示すように、当該認識単語単位でその読み上げ音声認識テキストデータ12dが前記テキスト/音声同期付け画面G1上の認識テキスト表示エリア46に順次ハイライト表示HLされて識別表示されると共に、その認識された読み上げ音声波形データが入力音声波形表示エリア47に順次表示される(ステップA8→A9)。
一方、模範テキスト12bの単語と読み上げ音声認識テキスト12dの単語との差異があると判断された場合には、図9(A)〜(C)で示すように当該差異の抽出データ12eが作成されてRAM12Cに記憶され(ステップA8→A10)、差異ありと判断された認識単語が前記テキスト/音声同期付け画面G1上の認識テキスト表示エリア46にその差異の種類(追加“add”/変更“def”/削除“no”)によって異なる表示形態によって識別表示されると共に、その読み上げ音声波形データが入力音声波形表示エリア47に表示される(ステップA9)。
ここで、模範テキスト12bとの差異ありと判断された読み上げ音声認識単語の差異の種類が、例えば図6(B)〜図9で示すように、“a”の「追加“add”」である場合には、当該読み上げ追加された音声認識単語“a”は青色にマーキングされて識別表示され、また“meditation→medication”の「変更“def”」である場合には、当該読み上げ変更された音声認識単語“medication”は枠に囲まれて識別表示され、また“a”の「削除“no”」である場合には、当該読み上げ削除されたテキスト表示部分は赤色にマーキングされて識別表示される。
これにより、模範学習データ12bのテキストデータを読み上げながらその音声入力を行い同期付け作業を行っている当該機器10のオペレータは、その読み上げ音声の内容に模範テキスト12bとどのような種類の差異が何処に生じたかを一目で簡単に確認することができる。
そして、読み上げ音声の認識に基づく認識テキスト単語が模範学習テキスト12bの最終単語と全く一致しないことで、当該模範テキスト12bの読み上げが終了してないと判断されると(ステップA11)、前記ステップA3からの処理に戻り、個々の読み上げ音声の認識単語wn毎にその読み上げ経過時間tnを対応付けたテキスト音声同期データ12fの作成が繰り返されると共に(ステップA3〜A6)、模範テキスト12bに対する認識単語との比較およびその差異抽出が行われ、この差異抽出の有無および差異の種類に応じた認識単語毎の識別表示が繰り返される(ステップA7〜A11)。
この後、読み上げ音声の認識に基づく認識テキスト単語が模範学習テキスト12bの最終単語と完全一致あるいは部分一致することで、当該模範テキスト12bの読み上げ終了と判断されると(ステップA11)、前記ステップS10において読み上げ音声認識テキスト12dの差異抽出データ12eが作成記憶されているか否か判断される(ステップA12)。
ここで、前記模範学習テキスト12bとその読み上げ音声認識テキスト12dとの間に差異はなく、差異抽出データ12eはないと判断されると、前記模範テキスト表示エリア44に表示された模範学習データ12bのテキストデータが同期再生用テキストデータ12c2として保存される(ステップA12→A13)と共に、前記音声入力部19aにより音声入力されて一時記憶された例えばネイティブのテキスト読み上げに伴う音声データが同期再生用音声データ12c3として保存される(ステップA14)。
一方、前記ステップA12において、前記模範学習テキスト12bとその読み上げ音声認識テキスト12dとの間に、例えば前記図9で示した差異抽出データ12eがあると判断されると、図6(B)で示すように、テキスト/音声同期付け画面G1のメッセージ表示エリア41に対して、同期データ修正を促すガイドメッセージ「同期修正しますか?」が表示されその有無が判断される(ステップA12→A15)。
ここで、模範学習データ12bのテキストデータに対して読み上げ音声認識テキストに差異が生じたことで、例えば当該模範テキスト12bの読み上げによる同期付け処理をもう一度やり直したい場合に、前記テキスト/音声同期付け画面G1の「NO」ボタン49が操作されると、前記一連の同期取得処理がステップA0から新たに実行される(ステップA15→A0)。
一方、模範学習データ12bのテキストデータに対して読み上げ音声認識テキストに差異が生じた場合でも、例えば模範のテキスト12bよりも今回のネイティブによる読み上げ音声を学習素材として優先使用したい場合に、前記テキスト/音声同期付け画面G1の「YES」ボタン48が操作されると、図5における同期修正処理に移行され、模範テキスト12bを基準にして前記各読み上げ認識単語wn毎の同期時間データtnの修正が図られるか、または読み上げ音声の認識テキストを基準にしたテキストの修正が図られる(ステップA15→AX)。
図5における同期修正処理が起動されると、まず、前記模範/認識(テキスト)差異抽出データ12eとして存在する差異あり単語No.(wn)およびその前後の単語No.(wn±1)それぞれの読み上げ時間tnがテキスト音声同期データ12f(図3・図8参照)に基づき検出される(ステップX1)。
すると、図6(B)に示すように、テキスト/音声同期付け画面G1上のメッセージ表示エリア41に隣接して、「時間修正」ボタン48aおよび「テキスト修正」ボタン48bが表示され、模範テキスト12bを基準とした各読み上げ認識単語wn毎の同期時間データtnの修正を行うか、または読み上げ音声の認識テキストを基準としたテキストの修正を行うかの判断がユーザに促される(ステップX2)。
ここで、模範テキスト12bを基準とした各読み上げ認識単語wn毎の同期時間データtnの修正を行うために「時間修正」ボタン48aが操作されると、前記テキスト音声同期データ12fの中で音声認識テキスト12dの差異のある単語wnに対応する前後の時間データtn±1が模範テキスト12bの各単語を基準にして修正される(ステップX2→X3)。
図10は前記携帯機器10での同期取得処理に伴う差異抽出データ12eの種類が「追加“add”」である場合のテキスト音声同期データ12fに対する時間データtnの具体的修正手順を示す図である。
すなわち、図10(A)に示すように、模範テキスト12bにおける第7,第8単語「w7“of”」「w8“meditation”」に対し、図10(B)に示すように、その読み上げ音声認識テキスト12dが「w7“of”」「w8“a”」「w9“medication”」となって“a”の「追加“add”」の差異が抽出され、図10(C)に示すように、その読み上げ時間が「t7“4.25”」「t8“4.50”」「t9“5.75”」としてテキスト音声同期データ12fに記録された場合は、図10(D)に示すように、模範テキスト12bの第7,第8単語「w7“of”」「w8“meditation”」に読み上げ時間「t7“4.25”」「t8“4.50”」を対応付けてテキスト音声同期データ12fの時間修正が図られる。
図11は前記携帯機器10での同期取得処理に伴う差異抽出データ12eの種類が「変更“def”」である場合のテキスト音声同期データ12fに対する時間データtnの具体的修正手順を示す図である。
すなわち、図11(A)に示すように、模範テキスト12bにおける第8単語「w8“meditation”」に対し、図11(B)に示すように、その読み上げ音声認識テキスト12dが「w8“a”」「w9“medication”」となって“meditation→medication”の「変更“def”」の差異が抽出され、図11(C)に示すように、その読み上げ時間が「t8“4.50”」「t9“5.75”」としてテキスト音声同期データ12fに記録された場合は、図11(D)に示すように、当該変更差異の生じた模範テキスト12bの単語“meditation”と読み上げ認識テキスト12dの単語“medication”との文字数比“1”(=10/10)に基づき、図11(E)に示すように、前記読み上げ認識単語“medication”と同じ速度で模範単語“meditation”を読み上げたと仮定した読み上げ時間“5.75”[=4.50+((5.75-4.50)*1)]が求められ、図11(F)に示すように、模範テキスト12bの第8単語「w8“meditation”」に読み上げ時間「t9“5.75”」を対応付けてテキスト音声同期データ12fの時間修正が図られる。
図12は前記携帯機器10での同期取得処理に伴う差異抽出データ12eの種類が「削除“no”」である場合のテキスト音声同期データ12fに対する時間データtnの具体的修正手順を示す図である。
すなわち、図12(A)に示すように、模範テキスト12bにおける第8〜第11単語「w8“meditation”」「w9“and”」「w10“a”」「w11“meerschaum”」に対し、図12(B)に示すように、その読み上げ音声認識テキスト12dが「w9“medication”」「w10“and”」「w11“meerschaum”」となって“a”の「削除“no”」の差異が抽出され、図12(C)に示すように、その読み上げ時間が「t9“5.75”」「t10“6.25”」「t11“8.00”」としてテキスト音声同期データ12fに記録された場合は、図12(D)(E)に示すように、削除差異として抽出された模範テキスト単語“a”の前後の各読み上げ認識単語「w10“and”」「w11“meerschaum”」間での1文字あたりの平均読み上げ時間“0.17”(=2.25/13)に基づき、図11(F)に示すように、前記削除の模範単語“a”を読み上げたと仮定した読み上げ時間“6.42”[=6.25+(0.17*1)]が求められ、図11(G)に示すように、模範テキスト12bの第10,第11単語「w10“a”」「w11“meerschaum”」に読み上げ時間“6.42”“8.17”[=6.42+(8.00-6.25)]を対応付けてテキスト音声同期データ12fの時間修正が図られる。
これにより、模範テキスト12bに対してその読み上げ音声認識テキスト12dとの間に差異が生じた場合に、当該模範テキスト12bを基準にして各読み上げ認識単語wn毎の同期時間データtnを容易に修正することができる。
こうして、模範テキスト12bを基準にしたテキスト音声同期データ12fにおける同期時間データtnの修正が行われると、前記同様に模範テキスト表示エリア44に表示された模範学習データ12bのテキストデータが同期再生用テキストデータ12c2として保存される(ステップA16→A13)と共に、前記音声入力部19aにより音声入力されて一時記憶された例えばネイティブのテキスト読み上げに伴う音声データが同期再生用音声データ12c3として保存される(ステップA14)。
一方、前記ステップX2において、読み上げ音声の認識テキストを基準にしたテキストの修正を行うために「テキスト修正」ボタン48bが操作されると、前記テキスト音声同期データ12fをそのままに音声認識テキスト12dの差異のある単語wnに合わせて本来同期付けすべき模範テキスト12bの各単語が修正される(ステップX2→X4)。
すなわち、この場合にはテキスト・音声の同期再生データとして作成すべきそのテキストデータを、前記模範学習データ12bのテキストデータではなく、これに従い例えばネイティブにより読み上げられた読み上げ音声認識テキスト12dそのものに設定するもので、これにより、音声認識テキストデータ12dが同期再生用テキストデータ12c2として保存される(ステップA16→A17)と共に、前記音声入力部19aにより音声入力されて一時記憶されたテキスト読み上げに伴う音声データが同期再生用音声データ12c3として保存される(ステップA14)。
このようにして、前記図3〜図12を主に参照して説明した同期取得処理が終了すると、これにより取得保存された各同期再生用データ12c2,12c3、およびテキスト音声同期データ12f(図3参照)に基づき、図13におけるタイムコードファイル作成処理に移行される(ステップB1〜B18)。
図13は前記携帯機器10の同期データ作成処理プログラム12a4に従った同期再生用タイムコードファイル12cの作成処理を示すフローチャートである。
図14は前記携帯機器10のタイムコードファイル作成処理に伴い作成された同期再生用タイムコードファイル12cを示す図である。
図15は前記携帯機器10のタイムコードファイル作成処理に伴う同期再生用テキストデータ12c2を音声認識テキストデータ12dとした場合の同期再生用音声データ12c3との対応同期イメージを示す図である。
本実施形態におけるタイムコードファイル作成処理の説明では、同期再生用テキストデータ12c2として音声認識テキストデータ12d(図7(B)・図8参照)が保存され、同期再生用音声データ12c3として同テキスト読み上げに伴う音声データが保存されている場合について説明する。
このタイムコードファイル作成処理が起動されると、まず、これから作成すべき同期再生用タイムコードファイル12c(図14参照)の処理単位時間12c1aがユーザ操作により基準時間(25ms/50ms/100ms/…)の中から選択され(ステップB1)、当該タイムコードファイル12cのヘッダ情報12c1として書き込まれる(ステップB2)。
すると、1番目の命令としてクリアスクリーン(全ファイルクリア)の命令が、コマンドコード“CS”およびパラメータデータ“00”として書き込まれる(ステップB3)。
そして、2番目の命令として指定音声のスタート命令が、コマンドコード“PS”およびパラメータデータ“01”として書き込まれ(ステップB4)、また、指定テキストの0番目文節(例えば1sentence)の表示命令が、3番目のテキスト指定命令[コマンドコード“LT”・パラメータデータ“01”]、4番目のテキスト文節表示命令[コマンドコード“VD”・パラメータデータ“00”]として書き込まれる(ステップB5)。
さらに、5番目の命令として文節中の文字カウンタリセット命令が、コマンドコード“BL”およびパラメータデータ“00”として書き込まれる(ステップB6)。
こうして、同期再生用タイムコードファイル12cの5番目の命令までに、全ファイルクリア、指定音声“1”(この場合は同期再生用音声データ12c3)の再生開始、指定テキスト“1”(この場合は同期再生用テキストデータ12c2)の表示、文字カウンタリセットの各コマンドコードおよびそのパラメータデータがセットされると、RAM12Cに保存されたテキスト音声同期データ12f(図3参照)が読み出されると共に(ステップB7)、指定のテキスト“1”が同期再生用テキストデータ12c2から読み出され(ステップB8)、当該テキスト上の単語番号wnが“1”に指定される(ステップB9)。
すると、当該指定の単語番号wn“1”に対応する単語「I」(含スペース)までの文字数が“2”としてカウントされると共に(ステップB10)、この指定の単語番号wn“1”に同期付けられる音声再生時間(読み上げ時間)tn(n=1)(この場合「…00:250」)が前記テキスト音声同期データ12fから読み出される(ステップB11)。
そして、前記指定の単語番号wnの音声再生時間tnを前記ステップB1にて選択された処理単位時間(基準時間)12c1aで割り算してタイムコードファイルの命令コード番号が求められ(ステップB12)、このコード番号は未使用か否か判断される(ステップB13)。
ここで、ステップB12にて求められた命令コード番号が既に使用されている場合には、その次のコード番号が指定される(ステップB14)。
すなわち、同期再生用タイムコードファイル12cによる同期データの再生処理開始から何番目の命令コードの位置に指定の単語番号wnに対応する読み上げ音声データの時間tnが到達しているか判断され、当該指定の単語までをハイライト(識別)表示させるタイミングの命令コード番号が求められるもので、この求められたコード番号が既に使用されていて次のコード番号が指定された場合に、その命令コード番号のタイミング遅れは、当該タイムコードファイル12c自体の処理単位時間(基準時間)12c1aが例えば[25ms]と極めて短いことから許容値として無視される。
すると、前記ステップB11〜B14において求められた命令コード番号の位置に、前記ステップB10にてカウントされた指定の単語までの文字数までをハイライト表示させるための命令が書き込まれる(ステップB15)。例えば指定の単語番号wn“1”である場合に当該単語「I」(含スペース)までの文字数(2文字)をハイライト表示する命令が、コード番号“11”の命令として、コマンドコード“HL”およびパラメータデータ“02”として書き込まれる。
すると、指定されているテキスト上の単語番号が(+1)されて“2”に指定され(ステップB16)、これに対応する単語「was」のデータ有りと判断されて(ステップB17)、ステップB10に戻り、当該単語番号wn“2”の単語「was」までの総文字数(6文字:含スペース)がカウントされる。
この後、前記ステップB10〜B17の処理が繰り返し実行されると、指定の単語番号wn“2”である場合に当該単語「was」までの文字数(6文字)をハイライト表示する命令が、コード番号“31”の命令として、コマンドコード“HL”およびパラメータデータ“06”として書き込まれる。
また、指定の単語番号wn“3”である場合には当該単語「enjoying」(含スペース)までの文字数(15文字)をハイライト表示する命令が、指定の単語番号wn“4”である場合には当該単語「the」までの文字数(19文字)をハイライト表示する命令が、それぞれ前記テキスト音声同期データ12fに記録されている音声再生時間(読み上げ時間)tn(n=3)(=4)に基づき各対応するコード番号の命令として、前記同様にコマンドコード“HL”およびパラメータデータ“15”“19”として書き込まれる。
さらにこの後同様の命令コード書き込み処理が繰り返され、指定の単語番号wn“7”である場合に当該単語「of」までの文字数(37文字)をハイライト表示する命令が、コード番号“171”の命令として、コマンドコード“HL”およびパラメータデータ“37”として書き込まれ、また指定の単語番号wn“8”である場合に当該単語「a」までの文字数(39文字)をハイライト表示する命令が、コード番号“181”の命令として、コマンドコード“HL”およびパラメータデータ“39”として書き込まれて行く。
なお、前記テキスト音声同期データ12fに基づいた当該テキスト中の各単語wn毎のハイライト表示命令“HL”が書き込まれた命令コード番号以外のコード番号の位置には、何れも無効命令としてのマンドコード“NP”およびパラメータデータ“00”が書き込まれる。
この後、前記ステップB17において、指定の単語番号wnに対応する単語のデータ無しと判断されると、次のコード番号の命令として処理終了の命令が、コマンドコード“FN”およびパラメータデータ“00”として書き込まれる(ステップB18)。
こうして、前記タイムコードファイル作成処理(ステップB1〜B18)により、前記同期再生用テキストデータ12c2・同期再生用音声データ12c3を再生対象データとするテキスト音声同期データ12fに基づいたタイムコードファイル12cが作成されると、このタイムコードファイル12cはRAM12C内に保存される。
こうして、模範学習データ12bに応じた例えばネイティブによる英語テキストの読み上げ状況をその発声音声の入力により収録保存してなるテキスト・音声の各データを、例えば図15に示すような表示イメージで同期付けて再生再現するための同期再生用タイムコードファイル12c(図14参照)が、前記同期データ作成処理に従い、ヘッダ情報12c1,同期再生用テキストデータ12c2,同期再生用音声データ12c3の組み合わせにより容易に作成されてRAM12Cに保存される。
このメモリ12に保存された同期再生用タイムコードファイル12cは、本携帯機器10により再生処理されて例えば語学学習教材として再生される他に、CD−Rなどの外部記録媒体13に記録して他の学習対象者へ配送して同再生させたり、電送制御部15からネットワークNを介して学習データ提供元のWebサーバ30に転送して他の学習対象者へ配信させたり、通信部16を介して外部通信機器(PC)20…に転送して同再生させたりすることで、当該同期再生用タイムコードファイル12cを作成した携帯機器10自身だけでなく、その他の各コンピュータ端末においても同様に模範学習テキストとその模範的読み上げ音声による学習教材の再生処理を実行することができる。
次に、前記構成の携帯機器10により作成された同期再生用タイムコードファイル12cに従い模範テキストとその模範的読み上げ音声による語学学習教材を再生するための同期データ再生機能について説明する。
図16は前記携帯機器10の同期データ再生処理プログラム12a5に従った同期データ再生処理を示すフローチャートである。
前記同期データ作成処理(12a4)により作成された同期再生用タイムコードファイル12cおよび各同期再生用のテキスト・音声データ12c2,12c3がRAM12Cに格納された状態において、入力部17aの操作によりこの同期再生用タイムコードファイル12cの再生が指示されると、まずユーザに対してスピーキング学習を行うのかまたはヒアリング学習を行うかの質問メッセージが表示される(ステップS01)。
つまり、同期再生用テキストデータ12c2であるテキストデータをその模範的読み上げ速度に同期付けた識別表示のみ行ってスピーキング練習を行うのか、または同期再生用音声データ12c3である当該模範的読み上げ音声も同期再生してヒアリング練習を行うのかの選択が促されるもので、ここで、“スピーキング”が選択された場合には、音声出力部19bの動作がオフされ、これ以後の同期再生処理に伴う音声の出力は強制的に阻止される(ステップS02)。
すると、RAM12C内の各ワークエリアのクリア処理やフラグリセット処理などのイニシャライズ処理が行われる(ステップS1)。
そして、RAM12Cに格納された同期再生用タイムコードファイル12c(図14参照)が読み込まれ(ステップS2)、当該タイムコードファイル12cのヘッダ情報12c1に記述された処理単位時間12c1a(例えば25ms)が、CPU11による当該タイムコードファイル12cの一定時間間隔の読み出し時間として設定される(ステップS3)。
そして、このタイムコードファイル12cの先頭に読み出しポインタがセットされ(ステップS4)、当該タイムコードファイル12cの再生処理タイミングを計時するためのタイマがスタートされる(ステップS5)。
このステップS5において、処理タイマがスタートされると、前記ステップS3にて設定されたタイムコードファイル12cに応じた処理単位時間(25ms)毎に、前記ステップS4にて設定された読み出しポインタの位置の当該タイムコードファイル12c(図14参照)のコマンドコードおよびそのパラメータデータが読み出される(ステップS6)。
そして、前記タイムコードファイル12c(図14参照)から読み出されたコマンドコードが、“FN”か否か判断され(ステップS7)、“FN”と判断された場合には、その時点で当該同期データ再生処理の停止処理が指示実行される(ステップS7→S8)。
一方、前記タイムコードファイル12c(図14参照)から読み出されたコマンドコードが、“FN”ではないと判断された場合には、各コマンドコードに応じたコマンド処理へ移行されてそのコマンド内容(図2参照)に対応する処理が実行される(ステップSC)。
すると、前記タイマによる計時時間が次の処理単位時間12c1aに到達したか否か判断され(ステップS9)、次の処理単位時間12c1aに到達したと判断された場合には、タイムコードファイル12cに対する読み出しポインタが次の位置に更新セットされ(ステップS9→S10)、前記ステップS6における当該読み出しポインタの位置のタイムコードファイル12c(図14参照)のコマンドコードおよびそのパラメータデータ読み出しからの処理が繰り返される(ステップS10→S6〜S9)。
すなわち、携帯機器10のCPU11は、ROM12Aに記憶された同期データ再生処理プログラム12a5に従って、同期再生用タイムコードファイル12cに予め設定記述されているコマンド処理の単位時間毎に、当該タイムコードファイル12cに配列されたコマンドコードおよびそのパラメータデータを読み出し、そのコマンドに対応する処理を指示するだけで、当該タイムコードファイル12cに記述された各コマンドに応じた各種同期再生用データ12c2,12c3の同期再生処理を実行できる。
ここで、前記同期データ作成処理プログラム12a4によって作成された図14で示す語学学習教材の同期再生用タイムコードファイル12cに基づいた、前記同期データ再生処理プログラム12a5による模範学習英語テキスト(12c2)・模範的読み上げ音声(12c3)の同期再生動作について詳細に説明する。
この英語学習教材の同期再生用タイムコードファイル12c(図14参照)は、そのヘッダ情報(12c1)に記述設定された処理単位時間(25ms)12c1a毎にコマンド処理が実行されるもので、まず、タイムコードファイル12cの第1コマンドコード“CS”(クリアオールファイル)およびそのパラメータデータ“00”が読み出されると、全ファイルの出力をクリアする指示が行われ、テキスト・音声ファイルの出力がクリアされる。
第2コマンドコード“PS”(i番目サウンドファイルプレイ)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードPSと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用音声データ12c3から読み出された読み上げ音声データの音声出力部19bへの出力が開始される。
第3コマンドコード“LT”(i番目テキストロード)およびそのパラメータデータ“01”が読み出されると、当該コマンドコードLTと共に読み出されたパラメータデータ(i=1)に応じて、同期再生用テキストデータ12c2から読み出された学習テキストデータがRAM12Cのワークエリアにロードされる。
第4コマンドコード“VD”(i番目テキスト文節表示)およびそのパラメータデータ“00”が読み出されると、当該コマンドコードVDと共に読み出されたパラメータデータ(i=0)に応じて、同期再生用テキストデータ12c2にて指定された学習テキストの第1文節(1sentence)が呼び出されて表示部18に表示される。
第5コマンドコード“BL”(文字カウンタリセット・i番目文節ブロック指定)およびそのパラメータデータ“00”が読み出されると、前記表示された学習テキストの文字カウンタがリセットされ、当該文節ブロックの1文字目が指定される。
第6コマンドコード“NP”が読み出されると、次に新たなコマンドコードが読み出されるまで現時点の状態が維持される。
そして、第11コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“02”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=2)に応じて、学習テキストデータの2番目の文字「I」(含スペース)までハイライト表示(強調表示)HLされる。
そして、文字カウンタが2番目の文字までカウントアップされる。
第12コマンドコード“NP”が読み出されると、現在の学習テキストデータおよび読み上げ音声データの同期出力状態が維持される。
続いて、第31コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“06”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=6)に応じて、学習テキストデータの6番目の文字「was」(含スペース)までハイライト表示(強調表示)HLされる。
続いて、前記同様にタイムコードファイル12cに従ったコマンド処理が行われることで、表示部18に表示されている学習テキストについて、15番目の文字「enjoying」(含スペース)までのハイライト表示(強調表示)HL、19番目の文字「the」(含スペース)までのハイライト表示(強調表示)HL、27番目の文字「twofold」(含スペース)までのハイライト表示(強調表示)HL、34番目の文字「luxury」(含スペース)までのハイライト表示(強調表示)HL、・・・と順次その読み上げ音声が同期出力されながら識別表示されるもので、さらに、第321コマンドコード“HL”(i番目文字までハイライト・文字カウント)およびそのパラメータデータ“65”が読み出されると、当該コマンドコードHLと共に読み出されたパラメータデータ(i=65)に応じて、学習テキストデータの65番目の文字「meerschaum.」までハイライト表示(強調表示)HLされる。
このように、前記同期データ作成処理プログラム12a4に従い作成された同期再生用タイムコードファイル12c(図14参照)・同期再生用テキストデータ12c2・同期再生用音声データ12c3に基づき、当該タイムコードファイル12cに予め設定された処理単位時間(25ms)毎のコマンド処理を、同期データ再生処理プログラム12a5によって行うことで、表示画面上に学習テキストデータが表示されると共に、音声出力部19bから表示中の学習テキストを読み上げる音声データが同期出力され、当該学習テキストの読み上げ文節が各文字(単語)毎に順次同期ハイライト(強調)表示HLされる。
この場合、携帯機器10のCPU11は、同期再生用タイムコードファイル12cに予め記述設定されたコマンド処理の単位時間毎に、当該コマンドコードおよびそのパラメータデータに従った各種コマンド処理を指示するだけで、テキストデータ、読み上げ音声データの同期再生処理を行うことができるので、CPUのメイン処理の負担が軽くなり、処理能力の比較的小さいCPUでも容易にテキスト・音声を含む同期再生処理が行える。
これにより、模範の学習テキスト12bとこれに対する模範的読み上げ音声とを高精度に同期再生するための同期再生用タイムコードファイル12cを容易に生成できるだけでなく、携帯機器10のユーザは模範学習データ12bによる当該学習テキストの模範的な読み上げ速度あるいはその読み上げ音声を参考にしてスピーキングあるいはヒアリング学習を行うことができ、しかも前記同期再生用タイムコードファイル12cおよびその同期再生用の各データ12c2,12c3を当該学習データ(12b)の提供元Webサーバ30へ転送したり、同提供元へCD−ROMなどの外部記憶媒体13に書き込んで配送したりすることで、他の学習対象者に対しても同様のテキスト・音声同期再生教材を提供できるようになる。
したがって、前記構成の携帯機器10による同期データ作成機能によれば、テキスト/音声同期付け画面G1の模範テキスト表示エリア44に表示される模範学習データ12bのテキストデータに従って、当該模範テキストの模範的読み上げを行うと、その読み上げ音声が音声入力部19aから入力されると共に、音声認識された音声波形データおよび認識テキストデータがそれぞれ順次入力音声波形表示エリア47および認識テキスト表示エリア46に対応表示され、読み上げ音声認識単語wn毎にその読み上げ経過時間tnを記録したテキスト音声同期データ12fが作成取得される。
この際、模範テキストデータ12bと読み上げ音声の認識データ12dとが比較され、当該読み上げ音声に模範テキストに対する追加,変更部分や削除部分などの差異が生じているか判断され、前記認識テキスト表示エリア46上の差異抽出部分において当該差異の種類に応じた識別表示が行われるので、模範テキストデータ12bに対し対応付けすべき読み上げ音声に生じた差異とその内容とをリアルタイムで容易且つ明確に知ることができ、改めて読み上げ音声を入力してテキスト音声同期データ12fの作成をやり直したり、あるいは模範テキストを基準にしてテキスト音声同期データ12fの時間情報tnを修正したり、あるいは当該時間情報tnをそのままに同期再生対象のテキスト自体を読み上げ音声の認識テキストに修正することができる。
そして、これにより得られたテキスト音声同期データ12fに基づき、テキストデータを各単語毎の読み上げ速度(時間)に応じて順次識別表示(ハイライト表示HL)させると共に、その読み上げ音声データを同期再生させるための同期再生用タイムコードファイル12cを容易に作成することができる。
なお、前記実施形態では、模範のテキストデータ12bに対する読み上げ音声認識テキストデータ12dの差異を抽出するのに、当該音声認識されたテキストそれ自体の比較によりその差異を抽出する構成としたが、模範学習データ12bとしてその模範テキストデータと共に記憶された模範テキストの音声波形データと前記音声認識された読み上げ音声の音声波形データとの比較により、その差異を抽出し対応テキスト部分を識別表示する構成としてもよい。
また、前記実施形態では、テキスト・音声の同期再生用タイムコードファイル12cを作成するためのテキスト音声同期データ12fを取得する過程において、模範テキスト表示エリア44に表示された模範テキストデータ12bを見ながらその模範的な読み上げ音声を入力することで、当該読み上げ音声の認識テキストをその認識単語毎に認識テキスト表示エリア46に順次ハイライト表示HLにより識別表示させ、模範テキストとの差異が抽出された場合にはその差異の生じたテキスト部分を差異の種類に応じて識別表示させる構成としたが、これはそのまま模範テキストの読み上げ練習を行う学習ユーザのために利用することで、リアルタイムに読み上げのミスやその内容を容易且つ明確に知ることができる。
なお、前記実施形態において記載した携帯機器10による各処理の手法、すなわち、図4のフローチャートに示す同期データ作成処理に伴う同期取得処理、図5のフローチャートに示す前記同期取得処理に伴う同期修正処理、図13のフローチャートに示す同期データ作成処理に伴うタイムコードファイル作成処理、そして、図16のフローチャートに示す同期データ再生処理などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記録媒体13に格納して配布することができる。そして、通信ネットワーク(インターネット)Nとの通信機能を備えた種々のコンピュータ端末は、この外部記録媒体13に記憶されたプログラムを記録媒体読取部14によってメモリ12に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した同期データ作成機能やその再生機能を実現し、前述した手法による同様の処理を実行することができる。
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(インターネット)N上を伝送させることができ、この通信ネットワーク(インターネット)Nに接続されたコンピュータ端末から前記のプログラムデータを取り込み、前述した同期データ作成機能やその再生機能を実現することもできる。
なお、本願発明は、前記各実施形態に限定されるものではなく、実施形態ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記各実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、各実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
10 …携帯機器
11 …CPU
12 …メモリ
12A…ROM
12B…FLASHメモリ
12C…RAM
12a…携帯機器(PDA)制御プログラム
12a1…同期取得処理プログラム
12a2…音声認識処理プログラム
12a3…同期修正処理プログラム
12a4…同期データ作成処理プログラム
12a5…同期データ再生処理プログラム
12b…模範学習データ(テキスト・音声波形)
12c…同期再生用タイムコードファイル
12c1…ヘッダ情報
12c1a…処理単位時間
12c2…同期再生用テキストデータ
12c3…同期再生用音声データ
12d…音声認識テキストデータ(波形データ)
12e…模範/認識(テキスト)差異抽出データ
12f…テキスト音声同期データ
13 …外部記録媒体
14 …記録媒体読取部
15 …電送制御部
16 …通信部
17a…入力部
17b…座標入力部(マウス/タブレット)
18 …表示部
19a…音声入力部
19b…音声出力部
20 …外部通信機器(PC)
30 …Webサーバ
41 …メッセージ表示エリア
42 …開始ボタン(START)
43 …停止ボタン(STOP)
44 …模範テキスト表示エリア
45 …模範音声波形表示エリア
46 …認識テキスト表示エリア
47 …入力音声波形表示エリア
48a…「時間修正」ボタン
48b…「テキスト修正」ボタン
N …通信ネットワーク(インターネット)
G1…テキスト/音声同期付け画面
HL…ハイライト(識別)表示
11 …CPU
12 …メモリ
12A…ROM
12B…FLASHメモリ
12C…RAM
12a…携帯機器(PDA)制御プログラム
12a1…同期取得処理プログラム
12a2…音声認識処理プログラム
12a3…同期修正処理プログラム
12a4…同期データ作成処理プログラム
12a5…同期データ再生処理プログラム
12b…模範学習データ(テキスト・音声波形)
12c…同期再生用タイムコードファイル
12c1…ヘッダ情報
12c1a…処理単位時間
12c2…同期再生用テキストデータ
12c3…同期再生用音声データ
12d…音声認識テキストデータ(波形データ)
12e…模範/認識(テキスト)差異抽出データ
12f…テキスト音声同期データ
13 …外部記録媒体
14 …記録媒体読取部
15 …電送制御部
16 …通信部
17a…入力部
17b…座標入力部(マウス/タブレット)
18 …表示部
19a…音声入力部
19b…音声出力部
20 …外部通信機器(PC)
30 …Webサーバ
41 …メッセージ表示エリア
42 …開始ボタン(START)
43 …停止ボタン(STOP)
44 …模範テキスト表示エリア
45 …模範音声波形表示エリア
46 …認識テキスト表示エリア
47 …入力音声波形表示エリア
48a…「時間修正」ボタン
48b…「テキスト修正」ボタン
N …通信ネットワーク(インターネット)
G1…テキスト/音声同期付け画面
HL…ハイライト(識別)表示
Claims (11)
- テキストを記憶するテキスト記憶手段と、
このテキスト記憶手段により記憶されたテキストを表示する第1のテキスト表示手段と、
この第1のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を入力する音声入力手段と、
この音声入力手段により入力された読み上げ音声をテキストとして認識する音声認識手段と、
この音声認識手段により認識された読み上げ音声の認識テキストを表示する第2のテキスト表示手段と、
前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその差異を抽出する差異抽出手段と、
この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で報知する差異報知手段と、
前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段と、
を備えたことを特徴とするテキスト音声同期装置。 - 前記差異抽出手段は、前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを単語毎に比較してその差異を抽出し、
前記差異報知手段は、差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で単語単位で報知し、
前記同期データ取得手段は、前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの単語毎の記述順番に対応付けた同期データとして取得する、
ことを特徴とする請求項1に記載のテキスト音声同期装置。 - 前記テキスト記憶手段により記憶されたテキストに対応する音声波形を表示する第1のテキスト音声波形表示手段と、
前記音声入力手段により入力された読み上げ音声の音声波形を表示する第2のテキスト音声波形表示手段と、
を備えたことを特徴とする請求項1または請求項2に記載のテキスト音声同期装置。 - 前記差異報知手段は、前記差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で識別表示して報知する、
ことを特徴とする請求項1ないし請求項3の何れか1項に記載のテキスト音声同期装置。 - 前記差異抽出手段は、前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその追加,変更,削除による差異を抽出する、
ことを特徴とする請求項1ないし請求項4の何れか1項に記載のテキスト音声同期装置。 - 前記差異抽出手段により前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストの差異が抽出された場合は、前記同期データ取得手段により取得された同期データを修正する同期修正手段を備えたことを特徴とする請求項1ないし請求項5の何れか1項に記載のテキスト音声同期装置。
- 前記同期修正手段は、前記差異抽出手段により抽出された前記読み上げ音声認識テキストの差異および前記同期データ取得手段により取得された同期データにおける前記読み上げ音声認識テキストに対応する読み上げ時間情報を基に、当該時間情報を前記テキスト記憶手段により記憶されたテキストに合わせて修正する同期時間の修正手段である、
ことを特徴とする請求項6に記載のテキスト音声同期装置。 - 前記同期修正手段は、前記同期データ取得手段により取得された同期データにおいて対応付けられたテキストを、前記音声認識手段により認識された読み上げ音声の認識テキスト合わせて修正するテキストの修正手段である、
ことを特徴とする請求項6に記載のテキスト音声同期装置。 - 前記同期データに基づいて、当該同期データにて対応付けられたテキストを同対応付けられた読み上げ時間情報に従って順次識別表示させるのに伴い、前記音声入力手段により入力された読み上げ音声を同期出力させるための同期再生情報を作成する同期再生情報作成手段を備えたことを特徴とする請求項1ないし請求項8の何れか1項に記載のテキスト音声同期装置。
- 前記同期再生情報は、予め設定された一定時間毎に読み出されて実行される命令コードの配列によって作成することを特徴とする請求項9に記載のテキスト音声同期装置。
- コンピュータを制御してテキストと音声を同期付けするためのテキスト音声同期処理プログラムであって、
前記コンピュータを、
テキストを記憶するテキスト記憶手段、
このテキスト記憶手段により記憶されたテキストを表示する第1のテキスト表示手段、
この第1のテキスト表示手段により表示されたテキストについて、当該テキストの読み上げに伴う音声を入力する音声入力手段、
この音声入力手段により入力された読み上げ音声をテキストとして認識する音声認識手段、
この音声認識手段により認識された読み上げ音声の認識テキストを表示する第2のテキスト表示手段、
前記第1のテキスト表示手段により表示されたテキストに対し前記音声認識手段により認識された読み上げ音声の認識テキストを比較してその差異を抽出する差異抽出手段、
この差異抽出手段により抽出された読み上げ音声認識テキストの差異抽出部分を前記第2のテキスト表示手段により表示される読み上げ音声の認識テキスト上で報知する差異報知手段、
前記テキスト記憶手段により記憶されたテキストと前記音声入力手段により入力された読み上げ音声の読み上げ時間情報とを当該テキストの記述順番に対応付けた同期データとして取得する同期データ取得手段、
として機能させるようにしたコンピュータ読み込み可能なテキスト音声同期処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003303092A JP2005070645A (ja) | 2003-08-27 | 2003-08-27 | テキスト音声同期装置およびテキスト音声同期処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003303092A JP2005070645A (ja) | 2003-08-27 | 2003-08-27 | テキスト音声同期装置およびテキスト音声同期処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005070645A true JP2005070645A (ja) | 2005-03-17 |
Family
ID=34407188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003303092A Pending JP2005070645A (ja) | 2003-08-27 | 2003-08-27 | テキスト音声同期装置およびテキスト音声同期処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005070645A (ja) |
Cited By (108)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264060A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | カラオケ装置およびカラオケ情報処理のプログラム |
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
CN102075611A (zh) * | 2009-11-23 | 2011-05-25 | 英业达股份有限公司 | 通话记录方法及手持式通信装置 |
CN103167118A (zh) * | 2012-07-05 | 2013-06-19 | 深圳市金立通信设备有限公司 | 手机通话过程中快速定位地点的系统及方法 |
CN103646645A (zh) * | 2013-12-13 | 2014-03-19 | 南京丰泰通信技术股份有限公司 | 一种基于语音转译电文输出的方法 |
JP2014132345A (ja) * | 2011-06-03 | 2014-07-17 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
JP2014519058A (ja) * | 2011-06-03 | 2014-08-07 | アップル インコーポレイテッド | テキストデータとオーディオデータとの間のマッピングの自動作成 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2017513049A (ja) * | 2014-03-17 | 2017-05-25 | シングオン オーユーSingon Oy | カラオケ曲の演奏に関するフィードバックをユーザに提供する方法 |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
JP2017156614A (ja) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | 対応付け編集装置、対応付け編集方法、及びプログラム |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
CN108364653A (zh) * | 2018-02-12 | 2018-08-03 | 王磊 | 语音数据处理方法及处理装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
CN109145149A (zh) * | 2018-08-16 | 2019-01-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
-
2003
- 2003-08-27 JP JP2003303092A patent/JP2005070645A/ja active Pending
Cited By (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2007264060A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | カラオケ装置およびカラオケ情報処理のプログラム |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009008884A (ja) * | 2007-06-28 | 2009-01-15 | Internatl Business Mach Corp <Ibm> | 音声の再生に同期して音声の内容を表示させる技術 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
CN102075611A (zh) * | 2009-11-23 | 2011-05-25 | 英业达股份有限公司 | 通话记录方法及手持式通信装置 |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
JP2014132345A (ja) * | 2011-06-03 | 2014-07-17 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
JP2014519058A (ja) * | 2011-06-03 | 2014-08-07 | アップル インコーポレイテッド | テキストデータとオーディオデータとの間のマッピングの自動作成 |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103167118A (zh) * | 2012-07-05 | 2013-06-19 | 深圳市金立通信设备有限公司 | 手机通话过程中快速定位地点的系统及方法 |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN103646645A (zh) * | 2013-12-13 | 2014-03-19 | 南京丰泰通信技术股份有限公司 | 一种基于语音转译电文输出的方法 |
JP2017513049A (ja) * | 2014-03-17 | 2017-05-25 | シングオン オーユーSingon Oy | カラオケ曲の演奏に関するフィードバックをユーザに提供する方法 |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017156614A (ja) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | 対応付け編集装置、対応付け編集方法、及びプログラム |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
CN108364653A (zh) * | 2018-02-12 | 2018-08-03 | 王磊 | 语音数据处理方法及处理装置 |
CN109145149A (zh) * | 2018-08-16 | 2019-01-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN109145149B (zh) * | 2018-08-16 | 2021-05-04 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005070645A (ja) | テキスト音声同期装置およびテキスト音声同期処理プログラム | |
JP4370811B2 (ja) | 音声表示出力制御装置、および音声表示出力制御処理プログラム | |
US20100324895A1 (en) | Synchronization for document narration | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
KR101955225B1 (ko) | 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치 | |
JP2004266576A (ja) | メディアデータ記憶装置、およびメディアデータ記憶処理プログラム | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
KR100405061B1 (ko) | 언어 학습장치 및 그것의 언어 분석방법 | |
JP6865701B2 (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP2005077678A (ja) | テキスト音声同期装置およびテキスト音声同期処理プログラム | |
KR101952106B1 (ko) | 전자의무기록 서비스를 제공하는 방법 및 장치 | |
JP2007041302A (ja) | 音声再生装置および音声再生処理プログラム | |
JP2008298933A (ja) | 失語症練習支援装置 | |
JP7013702B2 (ja) | 学習支援装置、学習支援方法、及び、プログラム | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
JP4591481B2 (ja) | 表示制御装置および表示制御処理プログラム | |
JP4277512B2 (ja) | 電子機器及びプログラム | |
JP4407119B2 (ja) | 命令コード作成装置 | |
KR101965575B1 (ko) | 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치 | |
JP4985714B2 (ja) | 音声表示出力制御装置、および音声表示出力制御処理プログラム | |
JP2012098753A (ja) | 音声表示出力制御装置、画像表示制御装置、および音声表示出力制御処理プログラム、画像表示制御処理プログラム | |
JP2004266577A (ja) | メディア同期再生装置、サーバ装置、およびメディア同期再生処理プログラム、サーバ処理プログラム | |
KR20180012233A (ko) | 모바일 영어 학습 방법 | |
JP2016004172A (ja) | 発音学習支援装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100302 |