JP2007206317A - オーサリング方法、オーサリング装置およびプログラム - Google Patents
オーサリング方法、オーサリング装置およびプログラム Download PDFInfo
- Publication number
- JP2007206317A JP2007206317A JP2006024320A JP2006024320A JP2007206317A JP 2007206317 A JP2007206317 A JP 2007206317A JP 2006024320 A JP2006024320 A JP 2006024320A JP 2006024320 A JP2006024320 A JP 2006024320A JP 2007206317 A JP2007206317 A JP 2007206317A
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- voice data
- time information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】語学学習システムで用いられるコンテンツを効率よく作成する技術を提供する。
【解決手段】コンピュータ装置1のCPU11は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成する。次に、CPU11は、各単語をそれぞれ、発音記号辞書から検索し、検索された単語と対応付けて記憶された発音記号を読み出す。続けて、CPU11は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。コンピュータ装置1のCPU11は、音声データと、テキストデータ、アクセント位置情報、単語開始時刻情報、発音記号の情報を所定のフォーマットのコンテンツデータとして出力する。
【選択図】図1
【解決手段】コンピュータ装置1のCPU11は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成する。次に、CPU11は、各単語をそれぞれ、発音記号辞書から検索し、検索された単語と対応付けて記憶された発音記号を読み出す。続けて、CPU11は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。コンピュータ装置1のCPU11は、音声データと、テキストデータ、アクセント位置情報、単語開始時刻情報、発音記号の情報を所定のフォーマットのコンテンツデータとして出力する。
【選択図】図1
Description
本発明は、語学学習用のコンテンツを作成するための技術に関する。
従来より、語学学習を支援する種々のシステムが提案されている。例えば、特許文献1には、音声データに時間軸情報や制御情報を付与したデータを用いた語学学習システムが開示されている。このシステムによれば、音声データの一部分を時間軸単位でランダムにアクセスすることができ、語学学習において文節単位で音声データを再生することが可能となり、効率的に学習ができるようになっている。
また、このように音声データと他の情報とを関連付ける方法として、例えば、特許文献2には、楽曲の音声データから歌詞と時間情報とを抽出し、表示すべき歌詞に表示時間情報を割り付けた表示歌詞データを作成するオーサリングシステムが開示されている。
特開2004−061788号公報
特開2001−175267号公報
また、このように音声データと他の情報とを関連付ける方法として、例えば、特許文献2には、楽曲の音声データから歌詞と時間情報とを抽出し、表示すべき歌詞に表示時間情報を割り付けた表示歌詞データを作成するオーサリングシステムが開示されている。
ところで、語学学習システムにおいては、模範となる音声を再生するとともにその音声と対応するテキストデータを表示させるものがある。このような語学学習システムの作成者は、音声データとテキストデータとを対応付けたデータ(以下、コンテンツという)や、単語の開始位置などを更に音声データ毎に付加したコンテンツを作成する必要があり、その作業は煩雑である。特に教材となる音声データの数が多いほど多大な時間を費やす必要がある。
本発明は上述した背景の下になされたものであり、語学学習システムで用いられるコンテンツを効率よく作成することのできる技術を提供することを目的とする。
上記課題を解決するため、本発明は、連続的に発音される複数の単語の音声を表す音声データを取得する第1の取得ステップと、前記音声データに対応するテキストデータを取得する第2の取得ステップと、前記第1の取得ステップにより取得した前記音声データと前記第2の取得ステップにより取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップとを備えることを特徴とするオーサリング方法を提供する。
また、本発明は、連続的に発音される複数の単語の音声を表す音声データを取得する取得ステップと、前記取得ステップにより取得した音声データに対して音声認識処理を行ってテキストデータを生成するステップと、前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップとを備えることを特徴とするオーサリング方法を提供する。
本発明の好ましい態様においては、前記時刻情報が生成されるキャラクタは前記単語の先頭のキャラクタであることを特徴とする。
また、本発明の別の好ましい態様においては、前記単語とその単語の発音記号とを対応付けて複数記憶する記憶手段から、前記テキストデータと対応付けて記憶された発音記号を読み出す発音記号読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記発音記号読出ステップにおいて読み出された前記発音記号を付加して出力することを特徴とする。
または、前記音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を示すアクセント位置情報を生成するステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記アクセント位置情報を付加して出力するようにしてもよい。
または、前記単語とその単語の発音における留意点を示す注意情報とを対応付けて記憶する記憶手段から、前記テキストデータと対応付けて記憶された注意情報を読み出す注意情報読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記注意情報読出ステップにおいて読み出された注意情報を付加して出力するようにしてもよい。
また、本発明は、連続的に発音される複数の単語の音声を表す音声データを取得する取得ステップと、前記取得ステップにより取得した音声データに対して音声認識処理を行ってテキストデータを生成するステップと、前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップとを備えることを特徴とするオーサリング方法を提供する。
本発明の好ましい態様においては、前記時刻情報が生成されるキャラクタは前記単語の先頭のキャラクタであることを特徴とする。
また、本発明の別の好ましい態様においては、前記単語とその単語の発音記号とを対応付けて複数記憶する記憶手段から、前記テキストデータと対応付けて記憶された発音記号を読み出す発音記号読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記発音記号読出ステップにおいて読み出された前記発音記号を付加して出力することを特徴とする。
または、前記音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を示すアクセント位置情報を生成するステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記アクセント位置情報を付加して出力するようにしてもよい。
または、前記単語とその単語の発音における留意点を示す注意情報とを対応付けて記憶する記憶手段から、前記テキストデータと対応付けて記憶された注意情報を読み出す注意情報読出ステップを備え、前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記注意情報読出ステップにおいて読み出された注意情報を付加して出力するようにしてもよい。
本発明によれば、語学学習システムで用いられるコンテンツを効率よく作成することができる。
<A:構成>
図1は、この発明の一実施形態であるコンピュータ装置1のハードウェア構成を例示したブロック図である。コンピュータ装置1は、例えばパーソナルコンピュータ等の装置である。図において、11はCPU(Central Processing Unit)である。12はROM(Read Only Memory)である。13はRAM(Random Access Memory)である。14は例えばハードディスクなどの大容量記憶装置で構成された記憶部である。CPU11は、ROM12または記憶部14に記憶されているコンピュータプログラムを読み出して実行することにより、バス15を介してコンピュータ装置1の各部を制御する。
16は例えば液晶ディスプレイ等で構成される表示部であり、CPU11の制御の下、文字列や各種メッセージ、コンピュータ装置1を操作するためのメニュー画面等を表示する。17はキーボードやマウス等の入力装置を備える操作部であり、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU11へ出力する。
図1は、この発明の一実施形態であるコンピュータ装置1のハードウェア構成を例示したブロック図である。コンピュータ装置1は、例えばパーソナルコンピュータ等の装置である。図において、11はCPU(Central Processing Unit)である。12はROM(Read Only Memory)である。13はRAM(Random Access Memory)である。14は例えばハードディスクなどの大容量記憶装置で構成された記憶部である。CPU11は、ROM12または記憶部14に記憶されているコンピュータプログラムを読み出して実行することにより、バス15を介してコンピュータ装置1の各部を制御する。
16は例えば液晶ディスプレイ等で構成される表示部であり、CPU11の制御の下、文字列や各種メッセージ、コンピュータ装置1を操作するためのメニュー画面等を表示する。17はキーボードやマウス等の入力装置を備える操作部であり、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU11へ出力する。
コンピュータ装置1の記憶部14は、図1に示すように、音声データ記憶領域14aと、発音記号辞書記憶領域14bと、コンテンツ記憶領域14cとを有している。音声データ記憶領域14aには、連続的に発音される複数の単語の音声を表す、例えばWAVE形式等の音声データがセンテンス(文)を単位として複数記憶されている。発音記号辞書記憶領域14bには、複数の単語について、単語とその単語の発音を表す発音記号とが対応付けられて構成された発音記号辞書が記憶されている。
ここで、発音記号辞書のデータ構造について、図2を参照しつつ以下に説明する。図2は、発音記号辞書のデータ構造の一例を示す図である。発音記号辞書は、図示のように、「単語」と「発音記号」との各項目が互いに関連付けて記憶している。これらの項目のうち、「単語」の項目には、各単語をあらわすテキストデータが記憶されている。「発音記号」の項目には、その単語の発音を表す片仮名のテキストデータや発音記号が記憶されている。
ここで、発音記号辞書のデータ構造について、図2を参照しつつ以下に説明する。図2は、発音記号辞書のデータ構造の一例を示す図である。発音記号辞書は、図示のように、「単語」と「発音記号」との各項目が互いに関連付けて記憶している。これらの項目のうち、「単語」の項目には、各単語をあらわすテキストデータが記憶されている。「発音記号」の項目には、その単語の発音を表す片仮名のテキストデータや発音記号が記憶されている。
次に、記憶部14のコンテンツ記憶領域14cには、後述するコンテンツ生成処理によって生成されるコンテンツが記憶される領域である。
ここで、コンテンツのデータ構造について、図3を参照しつつ以下に説明する。
図3は、コンテンツのデータ構造の一例を示す図である。コンテンツは音声データの各センテンス毎に生成される。コンテンツは、図示のように、「音声データ」と「テキストデータ」と「単語開始時刻情報」と「発音記号」と「アクセント位置」との各項目が互いに関連付けて構成される。「音声データ」の項目には、記憶部14に記憶された音声データが格納される。「テキストデータ」の項目には音声データに対応するテキストデータが格納される。「単語開始時刻情報」の項目には、音声データに含まれる各単語の開始時刻を示す情報が格納される。例えば、音声データが「One centimeter is ten millimeters.」の音声を表すデータである場合には、この音声データに含まれる各単語、すなわち「One」、「centimeter」、「is」、「ten」、「millimeters」のそれぞれの単語の発音を開始する時刻を示す情報が格納される。次に、「発音記号」の項目には、テキストデータの発音を表す発音記号または片仮名のテキストデータが格納される。「アクセント位置」の項目には、音声データにおけるアクセントの位置を示す情報が格納される。
ここで、コンテンツのデータ構造について、図3を参照しつつ以下に説明する。
図3は、コンテンツのデータ構造の一例を示す図である。コンテンツは音声データの各センテンス毎に生成される。コンテンツは、図示のように、「音声データ」と「テキストデータ」と「単語開始時刻情報」と「発音記号」と「アクセント位置」との各項目が互いに関連付けて構成される。「音声データ」の項目には、記憶部14に記憶された音声データが格納される。「テキストデータ」の項目には音声データに対応するテキストデータが格納される。「単語開始時刻情報」の項目には、音声データに含まれる各単語の開始時刻を示す情報が格納される。例えば、音声データが「One centimeter is ten millimeters.」の音声を表すデータである場合には、この音声データに含まれる各単語、すなわち「One」、「centimeter」、「is」、「ten」、「millimeters」のそれぞれの単語の発音を開始する時刻を示す情報が格納される。次に、「発音記号」の項目には、テキストデータの発音を表す発音記号または片仮名のテキストデータが格納される。「アクセント位置」の項目には、音声データにおけるアクセントの位置を示す情報が格納される。
次に、コンピュータ装置1のCPU11が記憶部14に記憶されたコンピュータプログラムを実行することによって実現するコンテンツ生成機能について説明する。
図4は、コンピュータ装置1のコンテンツ生成機能に係るソフトウェア構成を示す図である。なお、図において、音声認識部111、マッチング部112、発音記号検索部113および抑揚検出部114は、CPU11が記憶部14に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図において、音声認識部111は、記憶部14に記憶された音声データを読み出し(取得し)、読み出した音声データに対して音声認識処理を行ってテキストデータを生成する。この音声認識処理は、予め記憶されている様々な言葉に対応する音声の特徴量と、発声者により発声された音声の特徴量との間の類似度に基づき、発声者の発声した言葉を特定することによって行う。音声の特徴量の算出方法としては、例えば、MFCC(Mel-Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)を用いた方法がある。なお、この音声認識処理は従来の技術であるため、ここではその詳細な説明を省略する。
図4は、コンピュータ装置1のコンテンツ生成機能に係るソフトウェア構成を示す図である。なお、図において、音声認識部111、マッチング部112、発音記号検索部113および抑揚検出部114は、CPU11が記憶部14に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図において、音声認識部111は、記憶部14に記憶された音声データを読み出し(取得し)、読み出した音声データに対して音声認識処理を行ってテキストデータを生成する。この音声認識処理は、予め記憶されている様々な言葉に対応する音声の特徴量と、発声者により発声された音声の特徴量との間の類似度に基づき、発声者の発声した言葉を特定することによって行う。音声の特徴量の算出方法としては、例えば、MFCC(Mel-Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)を用いた方法がある。なお、この音声認識処理は従来の技術であるため、ここではその詳細な説明を省略する。
マッチング部112は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタ(文字)との対応関係を検出し、この対応関係に従って、単語の先頭のキャラクタに対応する時刻情報として開始時刻情報を生成する。この処理は、例えばCMU(Carnegie Mellon University)で開発されたSphinxツール等などによって行う。なお、この技術は従来の技術であるため、ここではその説明を省略する。
発音記号検索部113は、記憶部14に記憶された発音記号辞書を検索し、テキストデータに含まれる各単語と対応付けて記憶された発音記号を読み出す。抑揚検出部114は、音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。
発音記号検索部113は、記憶部14に記憶された発音記号辞書を検索し、テキストデータに含まれる各単語と対応付けて記憶された発音記号を読み出す。抑揚検出部114は、音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成する。
<B:動作>
次に、本実施形態の動作について、図5に示すフローチャートを参照しつつ説明する。
図5は、コンピュータ装置1のCPU11が行う処理の流れを示すフローチャートである。コンピュータ装置1のCPU11は、まず、音声データを記憶部14から読み出し(ステップSA1)、読み出した音声データに対して音声認識処理を行ってテキストデータを生成し、RAM13に記憶する(ステップSA2)。次に、CPU11は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成し、RAM13に記憶する(ステップSA3)。次に、音声データに含まれる各単語を発音記号辞書から検索し、各単語と対応付けて記憶された発音記号を読み出してRAM13に記憶する(ステップSA4)。続けて、CPU11は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成し、RAM13に記憶する(ステップSA5)。
次に、本実施形態の動作について、図5に示すフローチャートを参照しつつ説明する。
図5は、コンピュータ装置1のCPU11が行う処理の流れを示すフローチャートである。コンピュータ装置1のCPU11は、まず、音声データを記憶部14から読み出し(ステップSA1)、読み出した音声データに対して音声認識処理を行ってテキストデータを生成し、RAM13に記憶する(ステップSA2)。次に、CPU11は、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる各単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って、先頭のキャラクタに対応する時刻情報として開始時刻情報を生成し、RAM13に記憶する(ステップSA3)。次に、音声データに含まれる各単語を発音記号辞書から検索し、各単語と対応付けて記憶された発音記号を読み出してRAM13に記憶する(ステップSA4)。続けて、CPU11は、音声データに対してピッチ抽出処理等を行ってアクセント位置を検出し、検出したアクセント位置を表すアクセント位置情報を生成し、RAM13に記憶する(ステップSA5)。
図5のステップSA1からステップSA5までの処理を行うことによって、記憶部14から読み出した音声データに対して、その音声データと対応する、テキストデータ、アクセント位置情報、単語開始時刻情報、発音記号が生成される。
コンピュータ装置1のCPU11は、RAM13に記憶された音声データ、テキストデータ、アクセント位置情報、単語開始時刻情報および発音記号情報を、図3に示したフォーマットのコンテンツデータとして、記憶部14のコンテンツ記憶領域14cに記憶させる(ステップSA6)。
なお、このとき、記憶部14に記憶させるに代えて、通信ネットワーク等を介して他の装置にコンテンツを送信するようにしてもよい。要するに、音声データとテキストデータとに、開始時刻情報とアクセント位置情報と発音記号情報とを付加したコンテンツを出力するようにすればよい。
なお、このとき、記憶部14に記憶させるに代えて、通信ネットワーク等を介して他の装置にコンテンツを送信するようにしてもよい。要するに、音声データとテキストデータとに、開始時刻情報とアクセント位置情報と発音記号情報とを付加したコンテンツを出力するようにすればよい。
ところで、語学学習システムにおいては、音声データとテキストデータの対応付けや、その音声データの発音記号、注意ポイントなどを設定していく作業は煩雑であった。
これに対し本実施形態においては、音声データから、テキストデータ、単語開始時刻情報および発音記号を自動的に生成するので、語学学習システムで用いるコンテンツを効率よく作成することができる。
ここで、本実施形態で生成するコンテンツを用いた語学学習システムの具体例について、以下に説明する。
図6は、本実施形態で生成するコンテンツを用いた語学学習システム(語学学習ツール)において表示される画面の一例を示す図である。図6に示す画面においては、図3に具体例として例示したコンテンツが用いられている。具体的には、図6に示すように、各単語の発音時間長を示す帯状の図形B1〜B5が表示される。この帯状図形は、コンテンツに含まれる「単語開始時刻情報」に基づいてその帯の長さが決定されている。また、帯の内側には、その帯と対応する単語の「テキストデータ」と「発音記号」とが表示される。また、コンテンツに含まれる「アクセント位置」に基づいて、アクセント位置を示すアイコンI1が表示される。
このように、各単語の発音時間長やアクセント位置、発音記号などが表示されるので、語学学習システムを利用する学習者は、その例文における発音や注意箇所(アクセント位置)等を視覚的に把握することができ、学習者の学習効率を向上させることができる。
なお、本実施形態に係るコンテンツを用いた語学学習システムは、図6に例示するものに限定されるものではなく、他の語学学習システムにおいても好適に用いることが可能である。
これに対し本実施形態においては、音声データから、テキストデータ、単語開始時刻情報および発音記号を自動的に生成するので、語学学習システムで用いるコンテンツを効率よく作成することができる。
ここで、本実施形態で生成するコンテンツを用いた語学学習システムの具体例について、以下に説明する。
図6は、本実施形態で生成するコンテンツを用いた語学学習システム(語学学習ツール)において表示される画面の一例を示す図である。図6に示す画面においては、図3に具体例として例示したコンテンツが用いられている。具体的には、図6に示すように、各単語の発音時間長を示す帯状の図形B1〜B5が表示される。この帯状図形は、コンテンツに含まれる「単語開始時刻情報」に基づいてその帯の長さが決定されている。また、帯の内側には、その帯と対応する単語の「テキストデータ」と「発音記号」とが表示される。また、コンテンツに含まれる「アクセント位置」に基づいて、アクセント位置を示すアイコンI1が表示される。
このように、各単語の発音時間長やアクセント位置、発音記号などが表示されるので、語学学習システムを利用する学習者は、その例文における発音や注意箇所(アクセント位置)等を視覚的に把握することができ、学習者の学習効率を向上させることができる。
なお、本実施形態に係るコンテンツを用いた語学学習システムは、図6に例示するものに限定されるものではなく、他の語学学習システムにおいても好適に用いることが可能である。
また、従来の語学学習システムにおいては、教材として提供された音声データのみでしか学習を行うことができなかった。一方、例えば映画やラジオなどの音声を教材として学習者が独学で学習を行うことも可能ではあるが、この場合は、その音声に含まれる単語の発音や注意ポイントを学習者が知らない場合には効果的な学習を行うことができない場合があった。
これに対し本実施形態においては、音声データを取得して、その音声データと対応するテキストデータや、単語開始時刻情報、発音記号、注意ポイントなどを自動的に生成し、語学学習システムで利用可能なフォーマットで出力するので、学習者は、任意の音声データを用いて、その音声の発音記号や注意ポイントを確認しつつ学習を行うことができる。すなわち、例えば映画やラジオなどの音声を教材として、語学学習ツールを用いて学習を行うことができるので、学習者は、自身の趣向に即した語学学習を行うことが可能となる。
これに対し本実施形態においては、音声データを取得して、その音声データと対応するテキストデータや、単語開始時刻情報、発音記号、注意ポイントなどを自動的に生成し、語学学習システムで利用可能なフォーマットで出力するので、学習者は、任意の音声データを用いて、その音声の発音記号や注意ポイントを確認しつつ学習を行うことができる。すなわち、例えば映画やラジオなどの音声を教材として、語学学習ツールを用いて学習を行うことができるので、学習者は、自身の趣向に即した語学学習を行うことが可能となる。
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、コンピュータ装置1のCPU11が、音声データに対して音声認識処理を行ってテキストデータを生成するようにした。これに代えて、音声データと対応するテキストデータを予め記憶部(図1のテキストデータ記憶領域14d参照)に記憶させておくようにしてもよい。この場合は、コンピュータ装置のCPUは、音声認識処理を行わず、記憶部に記憶されたテキストデータを読み出して(取得して)、読み出したテキストデータを用いてコンテンツ生成処理を行うようにすればよい。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、コンピュータ装置1のCPU11が、音声データに対して音声認識処理を行ってテキストデータを生成するようにした。これに代えて、音声データと対応するテキストデータを予め記憶部(図1のテキストデータ記憶領域14d参照)に記憶させておくようにしてもよい。この場合は、コンピュータ装置のCPUは、音声認識処理を行わず、記憶部に記憶されたテキストデータを読み出して(取得して)、読み出したテキストデータを用いてコンテンツ生成処理を行うようにすればよい。
(2)上述した実施形態においては、コンピュータ装置1がコンテンツの生成をすべて自動的に行うようにしたが、これに代えて、例えば図7に示すような画面をコンピュータ装置の表示部16に表示させ、作業者が、操作部17を介してテキストデータなどを入力するようにしてもよい。または、単語の区切り位置を作業者が操作部を用いて変更できるようにしてもよい。このように、画面を表示させてコンテンツのデータの入力や微調整等を可能とすることによって、コンテンツのデータの精度を向上させることができる。なお、作業者がコンテンツの一部のデータを入力または変更するものの、コンテンツの大部分はコンピュータ装置1が自動的に生成するから、この場合であっても、作業者の作業効率を向上させることができる。
(3)上述した実施形態においては、発音記号辞書に単語とその単語の発音を表すカタカナ文字とを対応付けておくようにしたが、カタカナテキストデータに代えて、単語の発音を示す発音記号を、単語と対応付けて記憶させておくようにしてもよい。この場合は、単語と対応する発音記号を発音記号辞書から検索し、検索した発音記号をコンテンツに含めるようにすればよい。
または、単語と発音記号とに加えて、発音で留意すべき箇所を示す注意情報を対応付けて記憶しておき、単語と対応する注意情報もコンテンツに含めるようにしてもよい。具体的には、例えば、英語における「th」や「l」,「r」の発音は間違いやすいので、この発音が含まれる単語とその注意情報とを対応付けて記憶させておくようにすればよい。
または、単語と発音記号とに加えて、発音で留意すべき箇所を示す注意情報を対応付けて記憶しておき、単語と対応する注意情報もコンテンツに含めるようにしてもよい。具体的には、例えば、英語における「th」や「l」,「r」の発音は間違いやすいので、この発音が含まれる単語とその注意情報とを対応付けて記憶させておくようにすればよい。
(4)上述した実施形態においては、記憶部14に記憶される模範音声データはWAVE形式のデータとしたが、データの形式はこれに限定されるものではなく、音声を示すデータであればどのような形式のデータであってもよい。
なお、上述した実施形態においては、音声データを記憶部に記憶させて、コンピュータ装置1のCPU11が記憶部14から音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。
なお、上述した実施形態においては、音声データを記憶部に記憶させて、コンピュータ装置1のCPU11が記憶部14から音声データを読み出すようにしたが、これに代えて、通信ネットワークを介して音声データを受信するようにしてもよい。
(5)上述した実施形態においては、音声データとテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれる単語の先頭のキャラクタとの対応関係を検出し、この対応関係に従って単語の先頭キャラクタに対して時刻情報を生成するようにした。なお、対応関係を検出するキャラクタは単語の先頭のキャラクタに限定されるものではなく、音声データの再生時刻とテキストデータに含まれる全てのキャラクタとの対応関係を検出するようにしてもよい。このようにすれば、そのコンテンツを用いた語学学習ツールにおいて、例えば、音声データの再生時に音声データと対応するキャラクタの色を変える等して表示させれば、学習者はテキストデータのどの部分が発音されているのかを視覚的に把握することができる。または、所定の間隔毎にキャラクタとの対応関係を検出するようにしてもよい。
(6)上述した実施形態におけるコンピュータ装置1のCPU11によって実行されるプログラムは、磁気テープ、磁気ディスク、フロッピー(登録商標)ディスク、光記録媒体、光磁気記録媒体、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)、RAMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由でコンピュータ装置1にダウンロードさせることも可能である。
1…コンピュータ装置、11…CPU、12…ROM、13…RAM、14…記憶部、15…バス、16…表示部、17…操作部、111…音声認識部、112…マッチング部、113…発音記号検索部、114…抑揚検出部。
Claims (10)
- 連続的に発音される複数の単語の音声を表す音声データを取得する第1の取得ステップと、
前記音声データに対応するテキストデータを取得する第2の取得ステップと、
前記第1の取得ステップにより取得した前記音声データと前記第2の取得ステップにより取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップと
を備えることを特徴とするオーサリング方法。 - 連続的に発音される複数の単語の音声を表す音声データを取得する取得ステップと、
前記取得ステップにより取得した音声データに対して音声認識処理を行ってテキストデータを生成するステップと、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成するステップと、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力ステップと
を備えることを特徴とするオーサリング方法。 - 前記時刻情報が生成されるキャラクタは前記単語の先頭のキャラクタであることを特徴とする請求項1または2に記載のオーサリング方法。
- 前記単語とその単語の発音記号とを対応付けて複数記憶する記憶手段から、前記テキストデータと対応付けて記憶された発音記号を読み出す発音記号読出ステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記発音記号読出ステップにおいて読み出された前記発音記号を付加して出力することを特徴とする請求項1または2に記載のオーサリング方法。 - 前記音声データに対してピッチ抽出処理を行ってアクセント位置を検出し、検出したアクセント位置を示すアクセント位置情報を生成するステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記アクセント位置情報を付加して出力することを特徴とする請求項1または2に記載のオーサリング方法。 - 前記単語とその単語の発音における留意点を示す注意情報とを対応付けて記憶する記憶手段から、前記テキストデータと対応付けて記憶された注意情報を読み出す注意情報読出ステップを備え、
前記出力ステップは、前記音声データと前記テキストデータとに、前記時刻情報および前記注意情報読出ステップにおいて読み出された注意情報を付加して出力することを特徴とする請求項1または2に記載のオーサリング方法。 - 連続的に発音される複数の単語の音声を表す音声データを記憶する第1の記憶手段と、
前記音声データに対応するテキストデータを記憶する第2の記憶手段と、
前記第1の記憶手段に記憶された音声データと前記第2の記憶手段に記憶されたテキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する時刻情報生成手段と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力手段と
を備えることを特徴とするオーサリング装置。 - 連続的に発音される複数の単語の音声を表す音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データに対して音声認識処理を行ってテキストデータを生成するテキストデータ生成手段と、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタとの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する時刻情報生成手段と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力手段と
を備えることを特徴とするオーサリング装置。 - コンピュータに、
連続的に発音される複数の単語の音声を表す音声データを取得する第1の取得機能と、
前記音声データに対応するテキストデータを取得する第2の取得機能と、
前記第1の取得機能によって取得した前記音声データと前記第2の取得機能によって取得した前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する機能と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する出力機能と
を実現させるプログラム。 - コンピュータに、
連続的に発音される複数の単語の音声を表す音声データを取得する取得機能と、
前記取得機能によって取得した音声データに対して音声認識処理を行ってテキストデータを生成する機能と、
前記音声データと前記テキストデータとの相互の特徴から音声データの再生時刻とテキストデータに含まれるキャラクタの対応関係を検出し、この対応関係に従って前記キャラクタに対して時刻情報を生成する機能と、
前記音声データと前記テキストデータとに前記時刻情報を付加して出力する機能と
を実現させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006024320A JP2007206317A (ja) | 2006-02-01 | 2006-02-01 | オーサリング方法、オーサリング装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006024320A JP2007206317A (ja) | 2006-02-01 | 2006-02-01 | オーサリング方法、オーサリング装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007206317A true JP2007206317A (ja) | 2007-08-16 |
Family
ID=38485854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006024320A Pending JP2007206317A (ja) | 2006-02-01 | 2006-02-01 | オーサリング方法、オーサリング装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007206317A (ja) |
Cited By (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009122581A (ja) * | 2007-11-19 | 2009-06-04 | Kaori Otomo | 単語学習装置、対話型学習システムおよび単語学習プログラム |
JP2010262090A (ja) * | 2009-05-01 | 2010-11-18 | Nintendo Co Ltd | 学習支援プログラムおよび学習支援装置 |
JP2014132345A (ja) * | 2011-06-03 | 2014-07-17 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
JP5586754B1 (ja) * | 2013-08-15 | 2014-09-10 | 章利 小島 | 情報処理装置及びその制御方法、コンピュータプログラム |
JP2015125203A (ja) * | 2013-12-26 | 2015-07-06 | カシオ計算機株式会社 | 音声出力装置及び音声出力プログラム |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
-
2006
- 2006-02-01 JP JP2006024320A patent/JP2007206317A/ja active Pending
Cited By (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP2009122581A (ja) * | 2007-11-19 | 2009-06-04 | Kaori Otomo | 単語学習装置、対話型学習システムおよび単語学習プログラム |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
JP2010262090A (ja) * | 2009-05-01 | 2010-11-18 | Nintendo Co Ltd | 学習支援プログラムおよび学習支援装置 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
JP2014132345A (ja) * | 2011-06-03 | 2014-07-17 | Apple Inc | テキストデータとオーディオデータとの間のマッピングの自動作成 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP5586754B1 (ja) * | 2013-08-15 | 2014-09-10 | 章利 小島 | 情報処理装置及びその制御方法、コンピュータプログラム |
GB2532174A (en) * | 2013-08-15 | 2016-05-11 | Kojima Akitoshi | Information processing device, control method therefor, and computer program |
GB2532174B (en) * | 2013-08-15 | 2020-11-04 | Kojima Akitoshi | Information processing apparatus, control method, and computer program |
WO2015022992A1 (ja) * | 2013-08-15 | 2015-02-19 | Kojima Akitoshi | 情報処理装置及びその制御方法、コンピュータプログラム |
US10089898B2 (en) | 2013-08-15 | 2018-10-02 | Akitoshi Kojima | Information processing device, control method therefor, and computer program |
JP2015125203A (ja) * | 2013-12-26 | 2015-07-06 | カシオ計算機株式会社 | 音声出力装置及び音声出力プログラム |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007206317A (ja) | オーサリング方法、オーサリング装置およびプログラム | |
JP5257330B2 (ja) | 発言記録装置、発言記録方法、プログラム及び記録媒体 | |
US20060194181A1 (en) | Method and apparatus for electronic books with enhanced educational features | |
TWI554984B (zh) | 電子裝置 | |
JP2001188777A (ja) | 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 | |
JP4797597B2 (ja) | 語学学習装置 | |
WO2010133072A1 (zh) | 发音评测装置及其方法 | |
JP5083155B2 (ja) | 辞書機能を備えた電子装置およびプログラム | |
JP5404726B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
JP2019056791A (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP5088109B2 (ja) | 形態素解析装置、形態素解析方法、コンピュータプログラム、音声合成装置及び音声照合装置 | |
JP2004325905A (ja) | 外国語学習装置および外国語学習プログラム | |
JP2005031150A (ja) | 音声処理装置および方法 | |
JP2004171174A (ja) | 文章読み上げ装置、読み上げのためのプログラム及び記録媒体 | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2580565B2 (ja) | 音声情報辞書作成装置 | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP3284976B2 (ja) | 音声合成装置及びコンピュータ可読記録媒体 | |
JP6957069B1 (ja) | 学習支援システム | |
JP6221253B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 | |
JP2007094269A (ja) | 音声出力機能付き情報表示制御装置およびその制御プログラム | |
JP2009075526A (ja) | 音声合成利用の総合的英語学習システム |