JP2004152063A - Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof - Google Patents
Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof Download PDFInfo
- Publication number
- JP2004152063A JP2004152063A JP2002317244A JP2002317244A JP2004152063A JP 2004152063 A JP2004152063 A JP 2004152063A JP 2002317244 A JP2002317244 A JP 2002317244A JP 2002317244 A JP2002317244 A JP 2002317244A JP 2004152063 A JP2004152063 A JP 2004152063A
- Authority
- JP
- Japan
- Prior art keywords
- text information
- information
- time code
- text
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、関連する映像情報とテキスト情報とを対応付けるマルチメディアコンテンツ構造化方法、マルチメディアコンテンツ構造化方法およびマルチメディアコンテンツ構造化プログラム、ならびに、構造化されて記憶されている内容を、ユーザの要求に応じて検索して出力するマルチメディアコンテンツ提供方法に関する。
【0002】
【従来の技術】
近年、情報のマルチメディア化が進み、映像情報、音声情報およびテキスト情報等とを含むマルチメディアコンテンツの情報量は、急激に増大している。これらの情報を記憶し、後に必要に応じて再び呼び出すことにより、より有効に利用することができる。記憶されている複数種類の情報を有効に活用するには、それらの情報が対応付けられている必要がある。
【0003】
複数種類の情報を対応付けるシステムの一例として、原稿上の文字を文字認識して電子化した第1テキストと、音声情報を音声認識して電子化した第2テキストとから最適な第3テキストを生成して、デジタルデータのテキスト情報を得る電子化テキスト作成システムがある(例えば特許文献1。)。
【0004】
また、映像情報に付加されている音声情報にもとづいて音声認識を行い、音声認識結果であるテキスト情報と映像情報とを構造化するシステムがある(例えば特許文献2。)。
【0005】
さらに、映像情報、音声情報、テキスト情報等をデジタル化し、それらの情報と、それらの情報の時間的関連を示す時間情報とを保存するマルチメディア情報処理装置がある(例えば特許文献3。)。
【0006】
【特許文献1】
特開2001−282779号公報 (第3−8頁、第1図)
【特許文献2】
特開2002−189728号公報 (第3頁)
【特許文献3】
特開平8−253209号公報 (第3−8頁、第5図)
【0007】
【発明が解決しようとする課題】
特許文献1に記載されているシステムでは、原稿と音声認識処理結果のテキストとのマッチング処理を行うので、より正確なテキスト情報を自動的に作成することができる。しかし、特許文献1には、映像情報等の他の情報との対応付けに関する開示がないので、特許文献1に記載された技術を映像情報、音声情報およびテキスト情報の構造化処理に適用する場合には、人為的に構造化処理を行わなくてはならない。
【0008】
また、特許文献2に記載されているシステムでは、映像情報と映像情報に付加されている音声情報とを構造化することができるが、特許文献2には、さらにテキスト情報を構造化することに関して何ら開示されていない。
【0009】
さらに、特許文献3に記載されているマルチメディア情報処理装置では、映像情報、音声情報およびテキスト情報等の各情報間の構造化処理を、入力された時間における時間情報を用いて行っているが、時間情報は、映像情報、音声情報およびテキスト情報等を作成するときに付加されている必要がある。従って、時間情報が付加されていない場合には、テキスト情報、映像情報および音声情報を自動的に対応付けることはできず、対応付けのために人手を要することになる。
【0010】
そこで、本発明は、関連する映像情報とテキスト情報とを自動的に対応付けることができるマルチメディアコンテンツ構造化方法、マルチメディアコンテンツ構造化装置およびマルチメディアコンテンツ構造化プログラム、ならびに、ユーザの要求に応じて容易に所望の情報を提供することができるマルチメディアコンテンツ提供方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明によるマルチメディアコンテンツ構造化方法は、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、テキスト情報と映像情報とを対応付けるためのマルチメディアコンテンツ構造化方法であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の段落を示す情報等による区切り位置にもとづいて音声認識テキスト情報を各段落等の分割部分に分割し、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化することを特徴とする。なお、音声情報と映像情報とは関連しているので、音声情報(具体的には音声認識テキスト情報)にもとづいて生成されたタイムコードとテキスト情報とを対応付けることは、実質的にテキスト情報と映像情報とを対応付けることになる。
【0012】
マルチメディアコンテンツ構造化方法は、テキスト情報と映像情報とを格納手段に格納し、各分割部分のタイムコードをタイムコード格納手段に格納するように構成されていてもよい。そのような構成によれば、テキスト情報とタイムコード格納手段に格納されたタイムコードとによって、所望の映像情報を検索することができる。
【0013】
マルチメディアコンテンツ構造化方法は、映像情報を格納手段に格納し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述するように構成されていてもよい。そのような構成によれば、XML言語により映像情報とテキスト情報とを構造化することができる。
【0014】
本発明によるマルチメディアコンテンツ構造化装置は、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、テキスト情報と映像情報とを対応付けるためのマルチメディアコンテンツ構造化装置であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する音声認識手段と、音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報を生成するタイムコード生成手段と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割し、テキスト情報の区切り位置で区切られる分割部分と音声認識テキスト情報における分割部分とを対応付けるマッピング手段と、音声認識テキスト情報における分割部分に対応するタイムコードとテキスト情報とを所定の分割部分毎に対応付ける構造化手段とを備えたことを特徴とする。
【0015】
マルチメディアコンテンツ構造化装置は、テキスト情報と映像情報とを格納する格納手段と、各分割部分のタイムコードを格納するタイムコード格納手段とを備えていてもよい。そのような構成によれば、テキスト情報とタイムコード格納手段に格納されたタイムコードとによって、所望の映像情報を検索することができる。
【0016】
マルチメディアコンテンツ構造化装置は、映像情報を格納する格納手段を備え、構造化手段が、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述してXMLファイル格納手段に格納するように構成されていてもよい。そのような構成によれば、XML言語により映像情報とテキスト情報とを構造化することができる。
【0017】
マルチメディアコンテンツ構造化装置は、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定した分割部分に対応するタイムコードを抽出する検索制御手段と、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する同期手段とを備えていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望する映像情報を提供することができる。
【0018】
同期手段が、映像情報に対応するテキスト情報を、映像情報に連動させてユーザに提供するように構成されていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望するテキスト情報および映像情報を見やすい形式で提供することができる。
【0019】
本発明によるマルチメディアコンテンツ構造化プログラムは、コンピュータに、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化する処理とを実行させることを特徴とする。
【0020】
本発明によるマルチメディアコンテンツ提供方法は、ユーザが要求するテキスト情報、およびテキスト情報に対応する映像情報をユーザに提供するマルチメディアコンテンツ提供方法であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割し、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化し、テキスト情報と、映像情報と、タイムコードとを格納し、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定された分割部分に対応するタイムコードを抽出し、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供することを特徴とする。
【0021】
本発明によるマルチメディアコンテンツ提供方法は、映像情報をユーザに提供する際に、映像情報に対応するテキスト情報を映像情報に連動させてユーザに提供するように構成されていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望するテキスト情報および映像情報を見やすい形式で提供することができる。
【0022】
本発明によるマルチメディアコンテンツ提供プログラムは、コンピュータに、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化する処理と、テキスト情報と、映像情報と、タイムコードとを格納する処理と、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、特定された分割部分に対応するタイムコードを抽出する処理と、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供するする処理とを実行させることを特徴とする。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。図1は本発明の第1の実施の形態のマルチメディアコンテンツ構造化システムを示すブロック図である。図1に示すシステムにおいて、コンテンツホルダ1は、映像情報を記録した映像メディアと、映像情報に関連する文書が記載されているテキストメディアとを所有する。映像メディアには、映像情報と音声情報とが記録されている。
【0024】
テキスト情報、音声情報および映像情報を含むマルチメディアコンテンツの例として、テレビ放送におけるニュース番組がある。ニュース番組の場合には、ニュース原稿がテキストメディアであり、アナウンサが読み上げた音声が音声情報であり、映像情報は音声に関連した映像情報である。オペレータ2は、コンテンツホルダ1から映像メディアとテキストメディアとを受け取り、映像メディアとテキストメディアとをマルチメディアコンテンツ装置に入力する。
【0025】
マルチメディアコンテンツ装置は、同期データ生成手段3と同期データ利用手段5とを含む。同期データ生成手段3は、映像入力手段6と、テキスト入力手段7と、音声認識手段8と、タイムコード生成手段9と、マッピング手段10と、構造化手段11と、データ格納手段12とで構成される。またデータ格納手段12は映像メディア格納手段13と、テキストメディア格納手段14と、タイムコード格納手段15とで構成される。同期データ利用手段5は、入出力手段16と、検索制御手段17と、同期手段18とで構成される。ただし、図1に示す入出力手段16は、マルチメディアコンテンツ装置に含まれるものでなくてもよく、例えば、ユーザ4が有するパーソナルコンピュータにおけるキーボードなどの入出力手段である。
【0026】
映像入力手段6は、オペレータ2から映像メディアが入力されると、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報および音声情報を音声認識手段8に出力する。映像メディアがアナログ媒体であった場合には、映像入力手段6として、例えばビデオキャプチャ等を含み、アナログ映像情報およびアナログ音声情報をAVI形式やMPEG形式のデジタル情報に変換する機能を有するものが用いられる。そして、映像入力手段6は、映像メディアに記録されている映像情報および音声情報に対してデジタル変換を行ってデジタル化して、音声認識手段8に出力する。音声認識手段8は、入力された音声情報について音声認識処理を行い、音声認識処理の結果のテキスト情報である音声認識テキスト情報を生成する。また、音声認識手段8は、音声情報を各単語に分割する。
【0027】
タイムコード生成手段9は、音声情報における各単語の開始時刻と終了時刻との情報である単語タイムコードを音声認識手段8に出力する。音声認識手段8は、音声認識テキスト情報に単語タイムコードを付加して、映像情報とともにマッピング手段10に出力する。従って、この実施の形態では、タイムコード生成手段9は、音声認識テキスト情報を所定の複数の分割部分(例えば複数の段落)に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報として、単語タイムコードを生成する。
【0028】
テキスト入力手段7は、オペレータ2からテキストメディアを受け取る。テキスト入力手段7は、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段10に出力する。テキストメディアがアナログ媒体であった場合には、テキスト入力手段7は、例えばOCR(光学式文字読み取り)装置を含むものとして構成される。そして、テキストメディアに記録されているテキスト情報に対してデジタル変換を行って、デジタル化したテキスト情報をマッピング手段10に出力する。
【0029】
マッピング手段10は、テキスト情報を適当な間隔で分割部分に区切る。ここでは、例えば、改行やインデント等を検出することによって文の固まりである段落を検出し、改行箇所等を区切り位置としてテキスト情報を区切る。さらに、マッピング手段10は、テキスト情報と音声認識テキスト情報とを比較して、テキスト情報における区切り位置にもとづいて音声認識テキスト情報を区切り、段落音声認識テキスト情報を生成する。さらに、テキスト情報における各段落(区切られたテキスト情報)と各段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成する。そして、段落音声認識テキスト情報およびテキスト情報とともに対応情報を構造化手段11に出力する。
【0030】
構造化手段11は、段落音声認識テキスト情報における各単語に付加されている単語タイムコードから、各段落の開始時刻と終了時刻である各タイムコードを算出する。さらに構造化手段11は、タイムコードと対応情報とにもとづいて、テキスト情報の各段落と各タイムコードとの1対1の対応を示す情報である構造化情報を生成する。
【0031】
また、構造化手段11は、構造化情報にもとづいて、テキスト情報を保存するテキストメディアファイルおよびタイムコードを保存するタイムコードファイルを生成するとともに、映像情報を保存する映像メディアファイルとを生成する。
【0032】
例えば、テキストメディアファイルには各段落内のテキスト情報が段落順に格納され、タイムコードファイルには各段落に対応するタイムコードがテキスト情報における段落順と同順で格納される。なお、それぞれが各段落に対応した複数のテキストメディアファイルと、タイムコードファイルとを生成してもよい。
【0033】
次に、構造化手段11は、映像メディアファイルと、テキストメディアファイルと、タイムコードファイルとをデータ格納手段12に出力する。データ格納手段12内の映像メディア格納手段13は映像メディアファイルを記憶し、データ格納手段12内のテキストメディア格納手段14はテキストメディアファイルを記憶し、データ格納手段12内のタイムコード格納手段15はタイムコードファイルを記憶する。この例において、テキスト情報と映像情報とを格納する格納手段は、映像メディア格納手段13およびテキストメディア格納手段14に相当し、各分割部分のタイムコードを格納するタイムコード格納手段は、タイムコード格納手段15に相当する。
【0034】
なお、映像情報は、映像入力手段6から、音声認識手段8、マッピング手段10および構造化手段10を介してデータ格納手段12に供給されるようにしてもよいが、映像入力手段6から直接データ格納手段12に供給されるようにしてもよい。
【0035】
また、構造化手段11が、テキストメディアファイルにおけるテキスト情報の各段落の開始アドレスと終了アドレスと、タイムコードファイルにおける各段落のタイムコードの開始アドレスと終了アドレスとを、管理情報として生成してもよい。このとき、マルチメディアコンテンツ装置は、図2に示すように、データ格納手段12において管理情報を格納する管理ファイル格納手段23が含まれる構成になる。そして、構造化手段11は、管理情報を管理ファイル格納手段23に出力し、管理ファイル格納手段23は管理情報を記憶する。
【0036】
また、構造化手段11が、図5に示すような、テキスト情報とタイムコードとを結合した、タイムコードを含む構造化されたテキストメディアを生成してもよい。このとき、マルチメディアコンテンツ装置は、タイムコード格納手段15を持たず、データ変換手段12は図3に示す構成になる。
【0037】
さらに、構造化手段11が、図6に示すような、XML(エクステンシブルマークアップランゲージ)言語による、MPEG7(ムービングピクチャーエキスパートグループ7)形式の構造的記述によるXMLファイルを生成する方法もある。XMLファイルを生成する場合には、マルチメディアコンテンツ装置は、データ格納手段12にテキストメディア格納手段14とタイムコード格納手段15とが含まれず、XMLファイル格納手段24が含まれた図4に示す構成になる。そして、構造化手段11は、XMLファイルをXMLファイル格納手段24に出力し、XMLファイル格納手段24は、XMLファイルを記憶する。この例では、映像情報が格納される格納手段は映像メディア格納手段12に相当し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報を記述したXML言語が格納されるXMLファイル格納手段は、XMLファイル格納手段24に相当する。
【0038】
ユーザ4は、所望の映像情報およびテキスト情報を要求するときに、同期データ利用手段5にキーワードとなる語句を入力する。すると、入出力手段16は、ユーザ4が入力した語句を検索制御手段17に出力する。検索制御手段17は、その語句を含むテキスト情報の段落をテキストメディア格納手段14(図2,3に示す構成の場合)、またはXMLファイル格納手段24(図4に示す構成の場合)から検索し、該当するテキスト情報の段落を入出力手段16に出力する。さらに、ユーザ4が、あるテキスト情報の段落を選択した場合、入出力手段16は、ユーザ4が選択したテキスト情報と同期する映像情報の出力を検索制御手段17に要求する。
【0039】
検索制御手段17は、映像情報を映像メディア格納手段13から取り出し、ユーザ4が選択したテキスト情報の段落のタイムコードを、タイムコード格納手段15(図2に示す構成の場合)、テキストメディア格納手段14(図3に示す構成の場合)、またはXMLファイル格納手段24(図4に示す構成の場合)から抽出し、同期手段18に出力する。同期手段18は、タイムコードが示す開始時刻を映像情報の出力の先頭時間とし、タイムコードの示す終了時刻を映像情報の出力の最終時間として、入出力手段16に映像情報の出力を行う。また、同期手段18は、テキスト情報を、タイムコードにもとづいて加工して入出力手段16に出力する。このときの加工として、例えば、テキスト情報をスクロールさせるなどの方法がある。
【0040】
なお、同期データ生成手段3および同期データ利用手段5は、コンピュータシステムで実現できる。ただし、入出力手段16は、ユーザ側のマイクロコンピュータ等のキーボードや表示部などの入出力手段に相当する。同期データ生成手段3および同期データ利用手段5(入出力手段を除く。)がコンピュータシステムで実現される場合には、音声認識手段8、タイムコード生成手段9、マッピング手段10、構造化手段11、検索制御手段17および同期手段18は、ソフトウェアによって実現される。また、データ格納手段12は、コンピュータシステムにおける磁気ディスク等の記憶媒体によって実現される。
【0041】
具体的には、コンピュータシステムに実装されるソフトウェアは、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードによってテキスト情報と映像情報とを所定の分割部分毎に対応付けて構造化する処理と、テキスト情報と、映像情報と、タイムコードとを格納する処理とを実行し、また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、特定された分割部分に対応するタイムコードを抽出する処理と、抽出されたタイムコードに対応する映像情報を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する処理とを実行するプログラムを含む。
【0042】
次に、この実施の形態の動作について、図面を参照して説明する。図7、図9および図10は、この実施の形態の動作を説明するフローチャートである。図11および図12は入出力手段16が情報を入出力するときの表示例を示す説明図である。
【0043】
テレビ放送におけるニュース番組を例にすると、コンテンツホルダ1はニュース番組の制作会社に相当し、オペレータ2は制作会社内の管理部門やニュース配信の委託を受けた管理会社に相当する。また、ユーザ4は、例えばパーソナルコンピュータに搭載されるWebブラウザとインターネットとを介して同期データ利用手段5に情報を要求し、インターネットとWebブラウザとを介して所望の同期データ利用手段5から情報を受信する。
【0044】
まず、映像メディアファイル、タイムコードファイル、テキストメディアファイル、管理ファイル、あるいはXMLファイルを、データ格納手段12に格納するまでについて、図7を参照して説明する。コンテンツホルダ1からニュース番組の映像情報(音声情報を含む)を記録した映像メディアと、ニュース番組においてアナウンサが読んだ原稿を記録したテキストメディアとが、オペレータ2に送られたとする。映像メディアに記録されている音声情報は、原稿を読んだアナウンサの音声による音声情報である。すなわち、テキストメディアに記録されているテキスト情報と映像メディアに記録されている音声情報とは、同じ内容の情報である。オペレータ2は、映像メディアとテキストメディアとを同期データ生成手段3に入力する。
【0045】
同期データ生成手段3は、オペレータ2から映像メディアとテキストメディアとを受け取る(ステップS101)。テキストメディアは、テキスト入力手段7が受け取り、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段10に出力する。テキストメディアがデジタル媒体でなかった場合には、OCR等を用いてテキストメディアに記録されているテキスト情報をデジタル化して(ステップS102,S103)、マッピング手段10に出力する。マッピング手段10は、テキスト情報を一時格納する。具体的には、テキスト情報は、コンピュータシステムにおけるRAM等に格納される。
【0046】
映像メディアは、映像入力手段6に入力される。映像入力手段6は、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報(音声情報を含む)を音声認識手段8に出力し、デジタル媒体でなかった場合には、映像メディアに記録されている映像情報(音声情報を含む)デジタル化して(ステップS104,S105)、音声認識手段8に出力する。
【0047】
音声認識手段8は、映像メディアの音声トラックに記録されている音声情報について音声認識処理を行い、音声認識テキスト情報を生成する(ステップS106)。さらに、音声認識手段8は、音声認識テキスト情報に対して単語切り出し処理を行い、音声情報を各単語に分割する。音声認識手段8は、映像情報をタイムコード生成手段9に出力するとともに、音声情報の分割位置を示す情報をタイムコード生成手段9に出力する。タイムコード生成手段9は、映像情報および音声情報の再生開始タイミング、再生開始タイミングからの経過時間、および音声認識手段8からの音声情報の分割位置を示す情報にもとづいて、各単語の音声情報の開始時刻と終了時刻である単語タイムコードを各単語ごとに生成し、音声認識手段8に出力する。音声認識手段8は、各単語の単語タイムコードを各単語に割り付ける。そして、単語タイムコードを音声認識テキスト情報に付加して、映像情報とともにマッピング手段10に出力する(ステップS107、S108)。
【0048】
マッピング手段10は、テキスト情報から、例えば、改行やインデント等によって文の固まりである段落を検出し、テキスト情報を段落に区切る。また、テキスト情報と音声認識テキスト情報とを比較する。そして、テキスト情報の段落区切り位置にもとづいて音声認識テキスト情報を段落に区切り、段落音声認識テキスト情報を生成する。さらに、テキスト情報の各段落と、段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成し(ステップS109)、段落音声認識テキスト情報とテキスト情報とともに対応情報を構造化手段11に出力する。
【0049】
マッピング手段10による対応付けの一例を図8に示す。図8において、テキスト情報であるニュース原稿500における「こんばんは」、「7時」、「の」、「ニュース」および「です」と、音声認識結果510内の音声認識テキスト情報における「こんばんは」、「一次」、「の」、「ニュース」および「で」とを比較する。このように単語同士を順次比較していく。比較の手法としてDPマッチングの手法を用いることにより、単語の一致具合で、ニュース原稿500における区切り位置に対応する音声認識結果510における区切り位置を検出することができる。
【0050】
構造化手段11は、段落音声認識テキスト情報に付加された単語タイムコードから、段落音声認識テキスト情報における各段落の開始時刻と終了時刻であるタイムコードを算出する。各段落の最初の単語の開始時刻と最後の単語の終了時刻とから、各段落の開始時刻と終了時刻を算出することができる。さらに、構造化手段11は、タイムコードと対応情報とから、テキスト情報の各段落とタイムコードとの1対1の対応を示す情報である構造化情報を生成する(ステップS110)。
【0051】
構造化手段11は、構造化情報にもとづいて、テキスト情報を記憶するテキストメディアファイルとタイムコードを記憶するタイムコードファイルとを、各段落毎に対応付けて生成する。構造化手段11は、生成した各ファイルをデータ格納手段12に出力する。テキストメディア格納手段14は、テキストメディアファイルを格納し、タイムコード格納手段15は、タイムコードファイルを格納する、また、映像メディア格納手段13は、映像メディアファイルを格納する(ステップS111)。
【0052】
ここで、構造化手段11が、テキスト情報とタイムコードとを対応付けて、テキストメディアファイルと、タイムコードファイルとを生成する、構造化の方法について説明する。まず、各段落毎にテキストメディアファイルとタイムコードファイルとを生成する方法を説明する。例えば、第1段落のテキストメディアファイルのファイル名を「原稿1.txt」、第1段落のタイムコードファイルのファイル名「時間1.txt」とする。すると、第1段落のファイルは、拡張子を除いたファイル名の末尾が「1」という対応付けができる。同様に第2段落同士もそれぞれ「原稿2.txt」と「時間2.txt」とすることで、第2段落のファイルを対応付けることができる。同様に、第3、第4段落以降も対応付けることができる。
【0053】
また、テキストメディアファイルにおける各段落のテキスト情報の開始アドレスと終了アドレスと、タイムコードファイルにおける各段落のタイムコードの開始アドレスと終了アドレスとを、管理情報として生成する方法もある。そのような管理情報を参照すれば、テキスト情報とタイムコードの対応がわかる。このとき、マルチメディアコンテンツ装置の構成は、図2に示すように、データ格納手段12内に管理ファイル格納手段23が設けられた構成である。そして、構造化手段11は、テキストメディアファイル、タイムコードファイルおよび映像メディアファイルに加えて、管理情報をデータ格納手段12に出力する。テキストメディア格納手段14はテキストメディアファイルを格納し、タイムコード格納手段15はタイムコードファイルを格納し、映像メディア格納手段13は映像メディアファイルを格納し、管理ファイル格納手段23は管理情報を格納する。
【0054】
構造化手段11は、図5に示すように、テキスト情報とタイムコードとを結合して、タイムコードを含む構造化されたテキスト情報を生成してもよい。このとき、図3に示すように、マルチメディアコンテンツ装置において、タイムコード格納手段15は設けられない。構造化手段11は、テキストメディアファイルと映像メディアファイルとをデータ格納手段12に出力する。テキストメディア格納手段14はテキストメディアファイルを格納し、映像メディア格納手段13は映像メディアファイルを格納する。
【0055】
さらに、構造化手段11は、図6に示すように、XML言語による構造的な記述によるXMLファイルを生成してもよい。このとき、マルチメディアコンテンツ装置において、テキストメディア格納手段14とタイムコード格納手段15とは設けられず、XMLファイル格納手段24が設けられる。ここで、XML言語による構造的な記述によるXMLファイルを生成する方法について説明する。
【0056】
この方法では、構造化手段11が、XML言語によるMPEG7形式の記述による構造的記述を行う。構造化手段11の動作について図6、図8(A)および図9を参照して説明する。図6は構造的記述例を示す説明図である。図8(A)は、テキストメディアの一例のニュース原稿500の内容を示す説明図である。図9はXML言語を用いた構造化手段の動作を説明するためのフローチャートである。
【0057】
構造化手段11は、まず、<?xml>タグや<Mpeg7>といった、あらかじめMPEG7規格として定められているXMLテンプレートに対し、映像情報のコンピュータシステム内での格納位置(フォルダ位置)を<Media Locator>タグ、および<MediaUrl>タグを用いて挿入する(ステップS201)。ここでは、例えば「C:¥メタ情報¥映像データ¥ニュース映像020913.mpg」であるとする。なお、「C:¥メタ情報¥映像データ¥ニュース映像020913.mpg」は、構造化手段11が、映像情報を格納しようとする映像メディア格納手段13における格納位置に相当する。
【0058】
次に、テキストメディアに記載されている番組タイトル情報を、<CreationInformation>タグ内の<Title>タグを用いて挿入する(ステップS202)。図8(A)を例にすると、「ニュース番組020913」が挿入される。そして、段落毎の開始時間と終了時間の情報を<MediaTime>タグ、および<MediaRelTimePoint>タグ、および<MediaDuration>タグを用いて挿入する(ステップS203)。
【0059】
さらに、発言者情報を、<Name>タグ、および<GivenName>タグ、および<FamilyName>タグを用いて挿入する(ステップS204)。図8(A)を例にすると「アナウンサ」が挿入される。次に、テキスト情報を、<TextAnnotation>タグ、および<FreeTextAnnotation>タグを用いて挿入する(ステップS205)。ここで、各段落毎にテキスト情報を挿入する。図8(A)の例では「こんばんは、7時のニュースです。」を含む段落が挿入される。
【0060】
ここで、ステップS203で挿入した、段落の終了時間が、タイムコードの最終時間に到達していなければ、ステップS203に戻り、次の段落の各情報の挿入を行う(ステップS206)。段落の終了時間が、タイムコードの最終時間に到達していたら、XMLファイルをデータ格納手段12に出力する(ステップS207)。データ格納手段12内のXMLファイル格納手段23は、XMLファイルを格納する。
【0061】
次に、格納したデータを、ユーザ4が検索して抽出するときの動作について、図10に示すフローチャートを参照して説明する。ユーザ4は、図12に示すような、コンピュータ画面に表示された入出力手段16の検索条件入力画面を用いて所望の検索条件をキーボード等により入力する(ステップS301)。入出力手段16は、例えばユーザ4が有するパーソナルコンピュータのキーボード、表示部および通信手段等に相当する。入出力手段16は、インターネット等を介して検索条件を検索制御手段17に送信する。検索制御手段17は、ユーザ4が入力した検索条件にもとづいて、データ格納手段12から検索条件に合致するデータを有するテキスト情報の段落を特定する(ステップS302)。検索する際に、全文一致検索や、各検索条件によるアンド検索といった一般的な検索処理を用いることができる。
【0062】
検索の結果、該当データがなかった場合は、入出力手段16に、検索結果がなかったことを通知し、該当データが存在した場合には、データ格納手段12から、ユーザ4が入力した検索条件に合致するテキスト情報の段落をすべて抽出して、入出力手段16に出力する(ステップS303,S304)。ここで、テキスト情報の段落と対応する映像情報も抽出することが好ましい。
【0063】
映像情報も抽出する場合には、例えば図11に示すように、映像情報とテキスト情報とを表示することができる。図11には、テキスト情報とともに、代表的な画像がサムネイル画像として出力された場合の表示例が示されている。ここで、段落の開始時刻の部分の静止画を映像情報から抽出してサムネイル画像として出力してもよいし、段落の開始から終了までの間の最も代表的な静止画を抽出して出力してもよい。また、静止画によらず、段落の開始時刻から終了時刻までの動画を出力してもよい。
【0064】
図11に示された例では、ユーザ4からキーワードの語句として、「タマちゃん」が入力され、12件の検索結果が出力されたことを示している。次に、ユーザ4が、例えば「目撃者の遊覧船」を含む段落を、入出力手段16を用いて、例えばマウスでクリックすることによって選択すると、入出力手段16は、その旨を検索制御手段17に通知する。選択制御手段17は、ユーザ4が選択した段落のテキスト情報と、映像情報とをデータ格納手段12から抽出して同期手段18に出力する。同期手段18は、映像情報のうち、選択した段落のタイムコードの開始時間を映像情報の再生の先頭とすることを入出力手段16に通知し、また、選択された段落のテキスト情報を入出力手段16に出力する(ステップS305)。
【0065】
入出力手段16は、例えば図12に示す画面(巻戻し等のスイッチ部の表示を有する画面)を表示するとともに、映像情報を再生し、映像情報の再生のタイミングに合わせて、選択された段落のテキスト情報をスクロール表示する(ステップS306)。なお、巻戻し等のスイッチ部の表示やテキスト情報をスクロールする処理は、同期手段18によって実行されている。図12に示す例では、映像メディアの先頭から9秒97の位置から再生され、「目撃者の遊覧船」を含むテキスト情報の部分が、再生箇所であることを示すために斜体文字になっている。また、映像情報の再生状況に連動して、段落のテキスト情報のスクロールを行ってもよい。
【0066】
以上のように、抽出されたタイムコードに対応する映像情報の部分が特定され、特定された映像情報が入出力手段16を介してユーザ4に提供される。また、同期手段18は、映像情報に対応するテキスト情報を、映像情報に連動させてユーザに提供する。
【0067】
次に、本発明による第2の実施の形態について説明する。第1の実施の形態との構成の違いは、タイムコード生成手段19が構造化手段21に接続されていることであり、その他の構成は第1の実施例と同様である。また、第1の実施の形態との動作の違いは、音声認識テキスト情報における区切り位置の検出の方法である。音声認識テキスト情報における区切り位置の検出は、同期データ生成手段3の動作に関連する。具体的には、音声認識手段28、タイムコード生成手段19、マッピング手段20および構造化手段21の動作に関連する。そのため、第1の実施の形態と同様の動作の手段等については図1と同じ符号を付して説明を省略する。
【0068】
第2の実施の形態の構成について説明する。図13はこの実施の形態のブロック図である。この実施の形態では、タイムコード生成手段19は、音声認識手段28と、構造化手段21とに接続される。音声認識手段28は、音声情報において所定の無音区間が存在する箇所を文の終了位置すなわち文の区切りと判定する。また、音声認識手段28は、受け取った映像情報をタイムコード生成手段19に出力する。そして、音声認識手段28は、文の区切りを示す情報をタイムコード生成手段19に出力する。
【0069】
タイムコード生成手段19は、映像情報および音声情報の再生開始タイミング、再生開始タイミングからの経過時間、および音声認識手段28からの文区切りを示す情報にもとづいて、音声情報における各文の開始時刻と終了時刻の情報である文タイムコードを生成し構造化手段21に出力する。従って、この実施の形態では、タイムコード生成手段19は、音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報として、文タイムコードを生成する。
【0070】
次に第2の実施の形態の動作について説明する。図14はこの実施の形態を説明するフローチャートである。同期データ生成手段3は、オペレータ2から映像メディアとテキストメディアとを受け取る(ステップS401)。テキストメディアは、テキスト入力手段7に入力される。テキスト入力手段7は、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段20に出力し、テキストメディアがデジタル媒体でなかった場合には、OCR等を用いてテキストメディアに記録されているテキスト情報をデジタル化して(ステップS402,S403)、マッピング手段20に出力する。
【0071】
映像情報(音声情報を含む)は、映像入力手段6に入力される。映像入力手段6は、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報を音声認識手段28に出力し、デジタル媒体でなかった場合には、映像メディアに記録されている映像情報をデジタル化して(ステップS404,S405)、音声認識手段28に出力する。音声認識手段28は、映像メディアの音声トラックに記録されている音声情報について音声認識処理を行い(ステップS406)、音声認識テキスト情報を生成して、マッピング手段20に出力する。また、音声情報において所定の時間以上の無音期間があった場合には、その無音期間がテキスト情報の文の区切りである判定して、音声情報を区切り、文の区切りを示す情報をタイムコード生成手段19に出力する。
【0072】
タイムコード生成手段19は、音声情報における各文の開始時刻と終了時刻の情報である文タイムコードを生成して(ステップS407)、構造化手段21に出力する。
【0073】
マッピング手段20は、第1の実施の形態と同様にして、テキスト情報における区切り位置にもとづいて、音声認識テキスト情報における区切り位置を検出し、段落音声認識テキスト情報を生成する。このときの音声認識テキスト情報とテキスト情報との比較の方法は、DPマッチングの手法を用いる第1の実施の形態における方法と同様である。さらに、テキスト情報における各段落(区切られたテキスト情報)と各段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成する(ステップS408)。そして、段落音声認識テキスト情報とテキスト情報とともに対応情報を構造化手段21に出力する。なお、1つの段落音声認識テキスト情報には、複数の文すなわち音声認識手段28が検出した文の区切りが存在する場合もある。その場合には、マッピング手段20は、その旨を示す情報も構造化手段21に出力する。
【0074】
構造化手段21は、文タイムコードおよび対応情報から、テキスト情報とタイムコードとの段落ごとの1対1の対応を示す情報である構造化情報を生成する(ステップS409)。構造化手段21は、第1の実施の形態の場合と同様に、構造化情報にもとづいて、テキスト情報を記憶するテキストメディアファイルとタイムコードを記憶するタイムコードファイルとを、各段落毎に対応付けて生成する。
【0075】
テキスト情報とタイムコードとを対応付けてテキストメディアファイルとタイムコードファイルとを生成する構造化の方法は、第1の実施の形態と同様である。ただし、この実施の形態では、段落音声認識テキスト情報における最初の文の開始時刻と最後の文の終了時刻とから段落の開始時刻と終了時刻を算出する。構造化手段21は、生成した各ファイルをデータ格納手段12に出力する。映像メディア格納手段13は映像メディアファイルを格納し、テキストメディア格納手段14はテキストメディアファイルを格納し、タイムコード格納手段15はタイムコードファイルを格納する(ステップS410)。
【0076】
なお、この実施の形態では、タイムコード生成手段19は、構造化手段21に文タイムコードを出力したが、第1の実施の形態の場合と同様に、音声認識手段28に文タイムコードを出力するようにしてもよい。その場合には、段落音声認識テキスト情報における各文に、各文の開始時刻と終了時刻とを示す情報が付加される。
【0077】
【発明の効果】
以上のように、本発明によれば、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報のうちの音声情報とを比較することによって、タイムコードとテキスト情報を自動的に対応付けるので、タイムコードを介してテキスト情報と映像情報とを低コストで構造化することができる。
【0078】
また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定された分割部分に対応するタイムコードを抽出し、抽出されたタイムコードに対応する映像情報を特定して特定した映像情報をユーザに提供することによって、ユーザに、所望の映像情報を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図である。
【図2】本発明のデータ格納手段において、管理ファイル格納手段を含む場合の構成例を示すブロック図である。
【図3】本発明のデータ格納手段においてタイムコード格納手段を含まない場合の構成例を示すブロック図である。
【図4】本発明のデータ格納手段において、XMLファイル格納手段を含む場合の構成例を示すブロック図である。
【図5】構造化手段の出力例を示す説明図である。
【図6】XML言語による、MPEG7形式の構造的記述の例を示す説明図である。
【図7】本発明の第1の実施の形態における同期データ生成手段の動作を示すフローチャートである。
【図8】マッピング手段の動作を説明するための説明図である。
【図9】XML言語を用いた構造化手段の動作を説明するためのフローチャートである。
【図10】本発明の第1の実施の形態における同期データ利用手段の動作を示すフローチャートである。
【図11】入出力手段の検索条件入力画面の出力例を示す説明図である。
【図12】検索結果の出力例を示す説明図である。
【図13】本発明の第2の実施の形態を示すブロック図である。
【図14】本発明の第2の実施の動作における同期データ生成手段の動作を示すフローチャートである。
【符号の説明】
1 コンテンツホルダ
2 オペレータ
3 同期データ生成手段
4 ユーザ
5 同期データ利用手段
6 映像入力手段
7 テキスト入力手段
8 音声認識手段
9 タイムコード生成手段
10 マッピング手段
11 構造化手段
12 データ格納手段
13 映像メディア格納手段
14 テキストメディア格納手段
15 タイムコード格納手段
16 入出力手段
17 検索制御手段
18 同期手段
19 タイムコード生成手段
20 マッピング手段
21 構造化手段
23 管理ファイル格納手段
24 XMLファイル格納手段
28 音声認識手段
500 ニュース原稿
510 音声認識結果[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention provides a multimedia content structuring method for associating related video information and text information, a multimedia content structuring method and a multimedia content structuring program, and a structured content stored by a user. The present invention relates to a multimedia content providing method for searching and outputting according to a request.
[0002]
[Prior art]
2. Description of the Related Art In recent years, information has become more multimedia, and the amount of multimedia content including video information, audio information, text information, and the like has increased rapidly. By storing such information and recalling it later as needed, it can be used more effectively. In order to effectively utilize a plurality of types of stored information, the pieces of information need to be associated with each other.
[0003]
As an example of a system for associating a plurality of types of information, an optimal third text is generated from a first text digitized by character recognition of characters on a document and a second text digitized by speech recognition of voice information. Then, there is an electronic text creation system for obtaining text information of digital data (for example, Patent Document 1).
[0004]
There is also a system that performs voice recognition based on voice information added to video information and structures text information and video information that are voice recognition results (for example, Patent Document 2).
[0005]
Further, there is a multimedia information processing apparatus that digitizes video information, audio information, text information, and the like, and stores the information and time information indicating a temporal relationship between the information (for example, Patent Document 3).
[0006]
[Patent Document 1]
JP 2001-282779 A (Page 3-8, FIG. 1)
[Patent Document 2]
JP-A-2002-189728 (page 3)
[Patent Document 3]
JP-A-8-253209 (Page 3-8, FIG. 5)
[0007]
[Problems to be solved by the invention]
In the system described in Patent Literature 1, a matching process is performed between a manuscript and the text of the speech recognition processing result, so that more accurate text information can be automatically created. However, since Patent Document 1 does not disclose association with other information such as video information, the technique described in Patent Document 1 is applied to the structuring processing of video information, audio information, and text information. Must artificially perform a structuring process.
[0008]
Further, in the system described in Patent Literature 2, video information and audio information added to the video information can be structured. However, Patent Literature 2 discloses that text information is further structured. Nothing is disclosed.
[0009]
Further, in the multimedia information processing apparatus described in
[0010]
Therefore, the present invention provides a multimedia content structuring method, a multimedia content structuring apparatus and a multimedia content structuring program capable of automatically associating related video information and text information, and responding to a user request. It is an object of the present invention to provide a multimedia content providing method capable of providing desired information easily and easily.
[0011]
[Means for Solving the Problems]
A multimedia content structuring method according to the present invention is a multimedia content structuring method for inputting text information, audio information and video information corresponding to the text information, and associating the text information with the video information, Speech recognition processing is performed based on the speech information corresponding to the text information to generate speech recognition text information, the speech recognition text information is compared with the text information, and the speech recognition text information is compared with the text information. The speech recognition text information is divided into divided parts such as paragraphs, and a time code indicating a start time and an end time of each divided part is generated. The generated time code and text information are divided into predetermined divided parts. It is characterized by being associated with and structured. Since the audio information and the video information are related, associating the text information with the time code generated based on the audio information (specifically, the speech recognition text information) is substantially equivalent to the text information. It will be associated with video information.
[0012]
The multimedia content structuring method may be configured such that text information and video information are stored in a storage unit, and a time code of each divided part is stored in a time code storage unit. According to such a configuration, desired video information can be searched for based on the text information and the time code stored in the time code storage unit.
[0013]
The multimedia content structuring method may be configured such that video information is stored in a storage unit, and time code, text information, and information indicating a storage position of the video information are described in an XML language. According to such a configuration, video information and text information can be structured by the XML language.
[0014]
The multimedia content structuring device according to the present invention is a multimedia content structuring device for inputting text information, audio information and video information corresponding to the text information, and associating the text information with the video information, Speech recognition means for performing speech recognition processing based on speech information corresponding to text information to generate speech recognition text information, and start time and end of each divided part when the speech recognition text information is divided into predetermined divided parts Time code generating means for generating information for generating a time code indicating the time, and comparing the speech recognition text information with the text information, and dividing the speech recognition text information into divided parts based on the delimiter positions of the text information In addition, the speech recognition text information and the divided part separated by the text information That split portion and a mapping means for associating, characterized in that a structured means for associating the time code and text information for each predetermined divided portion corresponding to the divided portions of the speech recognition text information.
[0015]
The multimedia content structuring apparatus may include a storage unit that stores text information and video information, and a time code storage unit that stores a time code of each divided part. According to such a configuration, desired video information can be searched for based on the text information and the time code stored in the time code storage unit.
[0016]
The multimedia content structuring device includes storage means for storing video information, and the structuring means describes time code, text information, and information indicating a storage position of the video information in an XML language, and stores the information in an XML file storage means. It may be configured to store. According to such a configuration, video information and text information can be structured by the XML language.
[0017]
The multimedia content structuring apparatus includes: a search control unit that specifies a divided part in text information that matches a search condition input by a user and extracts a time code corresponding to the specified divided part; And a synchronizing means for specifying a portion of the video information to be provided and providing the specified video information to the user together with text information matching the search condition. According to such a configuration, video information desired by the user can be provided according to the user's request.
[0018]
The synchronization means may be configured to provide text information corresponding to the video information to the user in conjunction with the video information. According to such a configuration, it is possible to provide text information and video information desired by the user in a format that is easy to view according to the user's request.
[0019]
The multimedia content structuring program according to the present invention provides a computer that performs speech recognition processing based on speech information corresponding to text information to generate speech recognition text information, and compares the speech recognition text information with text information. Then, a process of dividing the speech recognition text information into divided portions based on a delimiter position of the text information, a process of generating a time code indicating a start time and an end time of each of the divided portions, And structuring the text information in association with each of the predetermined divided parts.
[0020]
A multimedia content providing method according to the present invention is a multimedia content providing method for providing text information requested by a user and video information corresponding to the text information to the user, wherein the audio is provided based on audio information corresponding to the text information. Performs recognition processing to generate speech recognition text information, compares the speech recognition text information with the text information, divides the speech recognition text information into divided parts based on the delimiter positions of the text information, and starts each divided part. A time code indicating a time and an end time is generated, and the generated time code and text information are structured in association with each predetermined divided portion, and the text information, the video information, and the time code are stored. Identify the segment in the text information that matches the search condition entered by the user, Extracting a time code corresponding to the divided portion, specifying a portion of video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching a search condition. .
[0021]
The multimedia content providing method according to the present invention may be configured such that, when providing video information to a user, text information corresponding to the video information is provided to the user in conjunction with the video information. According to such a configuration, it is possible to provide text information and video information desired by the user in a format that is easy to view according to the user's request.
[0022]
A multimedia content providing program according to the present invention provides a computer with a process of generating speech recognition text information by performing speech recognition processing based on speech information corresponding to text information, and comparing the speech recognition text information with the text information. Processing to divide the speech recognition text information into divided parts based on the delimiter positions of the text information, processing to generate time codes indicating the start time and end time of each divided part, and the generated time code and text Processing for associating information with each predetermined divided part, structuring text information, video information, and time code; and dividing divided parts of text information that matches a search condition input by a user. A process for specifying, a process for extracting a time code corresponding to the specified divided portion, and a process for extracting the time code. Identifying portions of the image information corresponding to the time code, the specified image information, characterized in that to execute a process of providing the user with the text data matching the search keyword.
[0023]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a multimedia content structuring system according to a first embodiment of the present invention. In the system shown in FIG. 1, the content holder 1 owns a video medium on which video information is recorded and a text media on which a document related to the video information is described. Video information and audio information are recorded on the video media.
[0024]
An example of a multimedia content including text information, audio information, and video information is a news program on a television broadcast. In the case of a news program, the news manuscript is text media, the audio read out by the announcer is audio information, and the video information is video information related to the audio. The operator 2 receives the video media and the text media from the content holder 1, and inputs the video media and the text media to the multimedia content device.
[0025]
The multimedia content device includes a synchronous
[0026]
When a video medium is input from the operator 2, the video input means 6 outputs video information and audio information recorded on the video medium to the voice recognition means 8 when the video medium is a digital medium. When the video medium is an analog medium, the video input means 6 includes, for example, a video capture and has a function of converting analog video information and analog audio information into AVI format or MPEG format digital information. Can be Then, the
[0027]
The time code generation means 9 outputs to the voice recognition means 8 a word time code which is information on the start time and end time of each word in the voice information. The
[0028]
The text input means 7 receives text media from the operator 2. If the text medium is a digital medium, the text input means 7 outputs text information recorded on the text medium to the mapping means 10. If the text medium is an analog medium, the text input means 7 is configured to include, for example, an OCR (optical character reading) device. Then, digital conversion is performed on the text information recorded on the text medium, and the digitized text information is output to the
[0029]
The mapping means 10 divides the text information into divided parts at appropriate intervals. Here, for example, paragraphs, which are a group of sentences, are detected by detecting line breaks, indents, and the like, and text information is delimited using a line feed point or the like as a delimiter. Further, the mapping means 10 compares the text information with the speech recognition text information, and separates the speech recognition text information based on a break position in the text information to generate paragraph speech recognition text information. Further, correspondence information that is information indicating one-to-one correspondence between each paragraph (delimited text information) and each paragraph speech recognition text information in the text information is generated. Then, the corresponding information is output to the
[0030]
The
[0031]
The
[0032]
For example, a text media file stores text information in each paragraph in the order of paragraphs, and a time code file stores time codes corresponding to each paragraph in the same order as the paragraphs in the text information. Note that a plurality of text media files, each corresponding to each paragraph, and a time code file may be generated.
[0033]
Next, the
[0034]
The video information may be supplied from the
[0035]
Further, even if the
[0036]
Alternatively, the
[0037]
Further, there is a method in which the
[0038]
When requesting desired video information and text information, the user 4 inputs a word serving as a keyword to the synchronous data using means 5. Then, the input /
[0039]
The
[0040]
Note that the synchronous data generating means 3 and the synchronous data using means 5 can be realized by a computer system. However, the input /
[0041]
Specifically, software implemented in the computer system performs a speech recognition process based on speech information corresponding to the text information to generate speech recognition text information, and compares the speech recognition text information with the text information. Processing for dividing the speech recognition text information into divided parts based on the delimiter positions of the text information, processing for generating time codes indicating the start time and end time of each of the divided parts, A process for structuring the text information and the video information in association with each predetermined divided portion, a process for storing the text information, the video information and the time code, and a search condition input by the user. Processing to specify the divided part in the text information that matches with, and extracting the time code corresponding to the specified divided part. Includes a process of, identifies the image information corresponding to the extracted time code, the identified image information, a program for executing the process of providing the user with the text data matching the search keyword.
[0042]
Next, the operation of this embodiment will be described with reference to the drawings. FIGS. 7, 9 and 10 are flowcharts for explaining the operation of this embodiment. 11 and 12 are explanatory diagrams showing display examples when the input / output means 16 inputs / outputs information.
[0043]
Taking a news program in a television broadcast as an example, the content holder 1 corresponds to a news program production company, and the operator 2 corresponds to a management department in the production company or a management company entrusted with news distribution. Also, the user 4 requests information from the synchronous data using means 5 via a Web browser mounted on a personal computer and the Internet, for example, and transmits information from a desired synchronous data using means 5 via the Internet and the Web browser. Receive.
[0044]
First, the process of storing a video media file, a time code file, a text media file, a management file, or an XML file in the
[0045]
The synchronous data generation means 3 receives the video media and the text media from the operator 2 (Step S101). The text medium is received by the text input means 7, and when the text medium is a digital medium, outputs text information recorded on the text medium to the mapping means 10. If the text medium is not a digital medium, the text information recorded on the text medium is digitized using OCR or the like (steps S102, S103) and output to the mapping means 10. The mapping means 10 temporarily stores text information. Specifically, the text information is stored in a RAM or the like in the computer system.
[0046]
The video media is input to the video input means 6. The video input means 6 outputs video information (including audio information) recorded on the video medium to the voice recognition means 8 when the video medium is a digital medium, and outputs the video information when the video medium is not a digital medium. Then, the video information (including audio information) recorded on the video media is digitized (steps S104 and S105) and output to the audio recognition means 8.
[0047]
The
[0048]
The
[0049]
FIG. 8 shows an example of the association by the mapping means 10. In FIG. 8, “Good evening”, “7 o'clock”, “No”, “News”, and “Is” in a news manuscript 500 that is text information, and “Good evening” and “Good evening” in speech recognition text information in a speech recognition result 510. Compare "primary", "of", "news" and "at". In this way, words are sequentially compared. By using the DP matching technique as the comparison technique, it is possible to detect the break position in the speech recognition result 510 corresponding to the break position in the news manuscript 500 according to the degree of word matching.
[0050]
The
[0051]
The
[0052]
Here, a structuring method in which the
[0053]
There is also a method of generating, as management information, a start address and an end address of text information of each paragraph in a text media file and a start address and an end address of time code of each paragraph in a time code file. The correspondence between the text information and the time code can be understood by referring to such management information. At this time, the configuration of the multimedia content device is a configuration in which a management
[0054]
The
[0055]
Further, as shown in FIG. 6, the
[0056]
In this method, the structuring means 11 performs a structural description in a description in the MPEG7 format in the XML language. The operation of the
[0057]
First, the
[0058]
Next, the program title information described in the text media is inserted using a <Title> tag within a <CreationInformation> tag (step S202). In the example of FIG. 8A, “news program 020913” is inserted. Then, information on the start time and end time for each paragraph is inserted using the <MediaTime> tag, <MediaRelTimePoint> tag, and <MediaDuration> tag (step S203).
[0059]
Furthermore, the speaker information is inserted using a <Name> tag, a <GivenName> tag, and a <FamilyName> tag (step S204). In the example of FIG. 8A, “announcer” is inserted. Next, text information is inserted using a <TextAnnotation> tag and a <FreeTextAnnotation> tag (step S205). Here, text information is inserted for each paragraph. In the example of FIG. 8A, a paragraph including "Good evening is news at 7 o'clock" is inserted.
[0060]
If the end time of the paragraph inserted in step S203 has not reached the end time of the time code, the process returns to step S203 and inserts information of the next paragraph (step S206). If the end time of the paragraph has reached the last time of the time code, the XML file is output to the data storage unit 12 (step S207). The XML file storage means 23 in the data storage means 12 stores the XML file.
[0061]
Next, the operation when the user 4 searches and extracts the stored data will be described with reference to the flowchart shown in FIG. The user 4 uses a keyboard or the like to input desired search conditions using a search condition input screen of the input /
[0062]
As a result of the search, if there is no corresponding data, the input /
[0063]
When video information is also extracted, video information and text information can be displayed, for example, as shown in FIG. FIG. 11 shows a display example when a representative image is output as a thumbnail image along with text information. Here, the still image at the start time of the paragraph may be extracted from the video information and output as a thumbnail image, or the most representative still image from the start to the end of the paragraph may be extracted and output. May be. In addition, a moving image from the start time to the end time of a paragraph may be output instead of a still image.
[0064]
The example illustrated in FIG. 11 indicates that “Tama-chan” has been input as the keyword phrase from the
[0065]
The input /
[0066]
As described above, the portion of the video information corresponding to the extracted time code is specified, and the specified video information is provided to the user 4 via the input /
[0067]
Next, a second embodiment according to the present invention will be described. The difference from the first embodiment is that the time
[0068]
The configuration of the second embodiment will be described. FIG. 13 is a block diagram of this embodiment. In this embodiment, the time
[0069]
The time
[0070]
Next, the operation of the second embodiment will be described. FIG. 14 is a flowchart for explaining this embodiment. The
[0071]
Video information (including audio information) is input to the video input means 6. The video input means 6 outputs video information recorded on the video medium to the audio recognition means 28 when the video medium is a digital medium, and outputs the video information when the video medium is not a digital medium. The video information is digitized (steps S404 and S405) and output to the voice recognition means 28. The
[0072]
The time code generation means 19 generates a sentence time code which is information on the start time and end time of each sentence in the voice information (step S407), and outputs it to the structuring means 21.
[0073]
As in the first embodiment, the mapping means 20 detects the break position in the speech recognition text information based on the break position in the text information, and generates paragraph speech recognition text information. The method of comparing the speech recognition text information and the text information at this time is the same as the method in the first embodiment using the DP matching technique. Further, correspondence information which is information indicating a one-to-one correspondence between each paragraph (delimited text information) and each paragraph speech recognition text information in the text information is generated (step S408). Then, the corresponding information is output to the
[0074]
The
[0075]
A structuring method for generating a text media file and a time code file by associating text information with a time code is the same as in the first embodiment. However, in this embodiment, the paragraph start time and the end time are calculated from the start time of the first sentence and the end time of the last sentence in the paragraph speech recognition text information. The
[0076]
In this embodiment, the time code generation means 19 outputs the sentence time code to the structuring means 21, but outputs the sentence time code to the speech recognition means 28 as in the first embodiment. You may make it. In that case, information indicating the start time and end time of each sentence is added to each sentence in the paragraph speech recognition text information.
[0077]
【The invention's effect】
As described above, according to the present invention, the text information is compared with the audio information of the audio information and the video information corresponding to the text information, so that the time code is automatically associated with the text information. Text information and video information can be structured at low cost via the time code.
[0078]
In addition, a divided part in the text information that matches the search condition input by the user is specified, a time code corresponding to the specified divided part is extracted, and video information corresponding to the extracted time code is specified and specified. By providing the video information to the user, desired video information can be provided to the user.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration example in a case where the data storage means of the present invention includes a management file storage means.
FIG. 3 is a block diagram showing a configuration example in a case where the data storage means of the present invention does not include a time code storage means.
FIG. 4 is a block diagram showing a configuration example in a case where an XML file storage unit is included in the data storage unit of the present invention.
FIG. 5 is an explanatory diagram showing an output example of a structuring unit.
FIG. 6 is an explanatory diagram showing an example of a structural description in an MPEG7 format in an XML language.
FIG. 7 is a flowchart illustrating an operation of a synchronous data generation unit according to the first embodiment of the present invention.
FIG. 8 is an explanatory diagram for explaining an operation of a mapping unit.
FIG. 9 is a flowchart for explaining the operation of the structuring unit using the XML language.
FIG. 10 is a flowchart illustrating an operation of a synchronous data using unit according to the first embodiment of the present invention.
FIG. 11 is an explanatory diagram showing an output example of a search condition input screen of the input / output means.
FIG. 12 is an explanatory diagram showing an output example of a search result.
FIG. 13 is a block diagram showing a second embodiment of the present invention.
FIG. 14 is a flowchart showing the operation of the synchronous data generation means in the operation of the second embodiment of the present invention.
[Explanation of symbols]
1 Content holder
2 Operator
3 Synchronous data generation means
4 users
5 Synchronous data utilization means
6 Image input means
7 Text input means
8 Voice recognition means
9 Time code generation means
10 Mapping means
11 structuring means
12 Data storage means
13 Video media storage means
14 Text media storage means
15 Time code storage means
16 Input / output means
17 Search control means
18 Synchronization means
19 Time code generation means
20 Mapping means
21 Structuring means
23 Management file storage means
24 XML file storage means
28 Voice Recognition Means
500 news manuscript
510 speech recognition result
Claims (12)
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割し、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する
ことを特徴とするマルチメディアコンテンツ構造化方法。Text information, audio information and video information corresponding to the text information is input, and in the multimedia content structuring method for associating the text information with the video information,
Performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Comparing the speech recognition text information and the text information, dividing the speech recognition text information into divided parts based on a delimiter position of the text information,
Generating a time code indicating a start time and an end time of each of the divided parts;
A multimedia content structuring method, wherein the generated time code and the text information are structured in association with each other for each predetermined divided portion.
請求項1記載のマルチメディアコンテンツ構造化方法。2. The multimedia content structuring method according to claim 1, wherein the text information and the video information are stored in the storage means, and the time code of each divided part is stored in the time code storage means.
請求項1記載のマルチメディアコンテンツ構造化方法。2. The multimedia content structuring method according to claim 1, wherein the video information is stored in a storage unit, and time code, text information, and information indicating a storage position of the video information are described in an XML language.
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する音声認識手段と、
前記音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報を生成するタイムコード生成手段と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を前記分割部分に分割し、前記テキスト情報の区切り位置で区切られる分割部分と前記音声認識テキスト情報における前記分割部分とを対応付けるマッピング手段と、
前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付ける構造化手段と
を備えたことを特徴とするマルチメディアコンテンツ構造化装置。Text information, audio information and video information corresponding to the text information is input, and in the multimedia content structuring apparatus for associating the text information with the video information,
Voice recognition means for performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Time code generation means for generating information for generating a time code indicating a start time and an end time of each divided part when the speech recognition text information is divided into predetermined divided parts,
The speech recognition text information is compared with the text information, and the speech recognition text information is divided into the divided portions based on a delimiter position of the text information. Mapping means for associating the divided part with the recognized text information,
A multimedia content structuring apparatus, comprising: structuring means for associating the time code with the text information for each predetermined divided portion.
請求項4記載のマルチメディアコンテンツ構造化装置。5. The multimedia content structuring apparatus according to claim 4, further comprising storage means for storing text information and video information, and time code storage means for storing a time code of each divided portion.
構造化手段は、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述してXMLファイル格納手段に格納する
請求項4記載のマルチメディアコンテンツ構造化装置。Storage means for storing video information,
5. The multimedia content structuring apparatus according to claim 4, wherein the structuring means describes information indicating a storage position of the time code, the text information, and the video information in an XML language and stores the information in the XML file storage means.
抽出された前記タイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する同期手段と
を備えた請求項4から請求項6のうちのいずれか1項に記載のマルチメディアコンテンツ構造化装置。Search control means for specifying a divided part in the text information that matches the search condition input by the user, and extracting a time code corresponding to the specified divided part;
7. Synchronizing means for identifying a portion of the video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching a search condition. The multimedia content structuring device according to any one of claims 1 to 4.
請求項7記載のマルチメディアコンテンツ構造化装置。The multimedia content structuring apparatus according to claim 7, wherein the synchronization means provides text information corresponding to the video information to the user in association with the video information.
コンピュータに、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割する処理と、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する処理と
を実行させるためのマルチメディアコンテンツ構造化プログラム。A multimedia content structuring program for causing a computer to execute a process for associating the video information with the text information in audio information and video information corresponding to text information,
On the computer,
A process of performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information;
Comparing the speech recognition text information and the text information, and dividing the speech recognition text information into divided parts based on a delimiter position of the text information;
A process of generating a time code indicating a start time and an end time of each of the divided parts;
A multimedia content structuring program for executing a process of structuring the generated time code and the text information in association with each other for each predetermined divided portion.
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割し、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化し、
前記テキスト情報と、前記映像情報と、前記タイムコードとを格納し、
ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、
特定された前記分割部分に対応するタイムコードを抽出し、
抽出された前記タイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する
ことを特徴とするマルチメディアコンテンツ提供方法。In a multimedia content providing method for providing a user with text information requested by a user and video information corresponding to the text information,
Performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Comparing the speech recognition text information and the text information, dividing the speech recognition text information into divided parts based on a delimiter position of the text information,
Generating a time code indicating a start time and an end time of each of the divided parts;
The generated time code and the text information are structured in association with each predetermined divided portion,
Storing the text information, the video information, and the time code,
Identify the segment in the text information that matches the search condition entered by the user,
Extracting a time code corresponding to the specified divided portion;
A multimedia content providing method comprising: specifying a portion of video information corresponding to the extracted time code; and providing the specified video information to a user together with text information matching search conditions.
請求項10記載のマルチメディアコンテンツ提供方法。The multimedia content providing method according to claim 10, wherein when providing the video information to the user, text information corresponding to the video information is provided to the user in conjunction with the video information.
コンピュータに、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割する処理と、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する処理と、
前記テキスト情報と、前記映像情報と、前記タイムコードとを格納する処理と、
ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、
特定された前記分割部分に対応するタイムコードを抽出する処理と、
抽出された前記タイムコードに対応する映像情報を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する処理と
を実行させるためのマルチメディアコンテンツ構造化プログラム。A multimedia content providing program for causing a computer to execute a process of providing video information and text information according to a user request,
On the computer,
A process of performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information;
Comparing the speech recognition text information and the text information, and dividing the speech recognition text information into divided parts based on a delimiter position of the text information;
A process of generating a time code indicating a start time and an end time of each of the divided parts;
A process of structuring the generated time code and the text information in association with each predetermined divided portion,
A process of storing the text information, the video information, and the time code;
A process of specifying a divided portion in text information that matches a search condition input by a user;
A process of extracting a time code corresponding to the specified divided portion;
A multimedia content structuring program for executing a process of specifying video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching search conditions.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002317244A JP2004152063A (en) | 2002-10-31 | 2002-10-31 | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002317244A JP2004152063A (en) | 2002-10-31 | 2002-10-31 | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004152063A true JP2004152063A (en) | 2004-05-27 |
Family
ID=32460689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002317244A Withdrawn JP2004152063A (en) | 2002-10-31 | 2002-10-31 | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004152063A (en) |
Cited By (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171096A (en) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | Continuous input speech recognition device and continuous input speech recognizing method |
JP2007011893A (en) * | 2005-07-01 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | Browsing method and device for rss document, program and storage medium storing program |
JP2007156286A (en) * | 2005-12-08 | 2007-06-21 | Hitachi Ltd | Information recognition device and information recognizing program |
JP2007293602A (en) * | 2006-04-25 | 2007-11-08 | Nec Corp | System and method for retrieving image and program |
WO2008066166A1 (en) * | 2006-11-30 | 2008-06-05 | National Institute Of Advanced Industrial Science And Technology | Web site system for voice data search |
CN101079301B (en) * | 2006-07-28 | 2010-06-09 | 埃里克·路易斯·汉森 | Time sequence mapping method for text to audio realized by computer |
CN102324191A (en) * | 2011-09-28 | 2012-01-18 | Tcl集团股份有限公司 | Method and system for synchronously displaying audio book word by word |
JP2013008357A (en) * | 2011-06-03 | 2013-01-10 | Apple Inc | Automatic creation of mapping between text data and audio data |
JP2014519058A (en) * | 2011-06-03 | 2014-08-07 | アップル インコーポレイテッド | Automatic creation of mapping between text data and audio data |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9190062B2 (en) | 2010-02-25 | 2015-11-17 | Apple Inc. | User profiling for voice input processing |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
JP2016522916A (en) * | 2013-03-26 | 2016-08-04 | サムスン エレクトロニクス カンパニー リミテッド | HTML page presentation apparatus and method |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
JP2016157176A (en) * | 2015-02-23 | 2016-09-01 | 株式会社プロフィールド | Data processing apparatus, data structure, data processing method, and program |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN106682060A (en) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | Structured Knowledge Modeling, Extraction and Localization from Images |
JP2017090921A (en) * | 2016-12-13 | 2017-05-25 | 株式会社プロフィールド | Data processing apparatus, data structure, data processing method, and program |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
CN108769638A (en) * | 2018-07-25 | 2018-11-06 | 京东方科技集团股份有限公司 | A kind of control method of projection, device, projection device and storage medium |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10805665B1 (en) | 2019-12-13 | 2020-10-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11350185B2 (en) | 2019-12-13 | 2022-05-31 | Bank Of America Corporation | Text-to-audio for interactive videos using a markup language |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
-
2002
- 2002-10-31 JP JP2002317244A patent/JP2004152063A/en not_active Withdrawn
Cited By (187)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2006171096A (en) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | Continuous input speech recognition device and continuous input speech recognizing method |
JP2007011893A (en) * | 2005-07-01 | 2007-01-18 | Nippon Telegr & Teleph Corp <Ntt> | Browsing method and device for rss document, program and storage medium storing program |
JP4586652B2 (en) * | 2005-07-01 | 2010-11-24 | 日本電信電話株式会社 | RSS document browsing method and apparatus, program, and storage medium storing program |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2007156286A (en) * | 2005-12-08 | 2007-06-21 | Hitachi Ltd | Information recognition device and information recognizing program |
JP2007293602A (en) * | 2006-04-25 | 2007-11-08 | Nec Corp | System and method for retrieving image and program |
CN101079301B (en) * | 2006-07-28 | 2010-06-09 | 埃里克·路易斯·汉森 | Time sequence mapping method for text to audio realized by computer |
US9117447B2 (en) | 2006-09-08 | 2015-08-25 | Apple Inc. | Using event alert text as input to an automated assistant |
US8942986B2 (en) | 2006-09-08 | 2015-01-27 | Apple Inc. | Determining user intent based on ontologies of domains |
US8930191B2 (en) | 2006-09-08 | 2015-01-06 | Apple Inc. | Paraphrasing of user requests and results by automated digital assistant |
GB2458238A (en) * | 2006-11-30 | 2009-09-16 | Aist | Web site system for voice data search |
GB2458238B (en) * | 2006-11-30 | 2011-03-23 | Nat Inst Of Advanced Ind Scien | Web site system for voice data search |
JP2008158511A (en) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | Web site system for voice data search |
WO2008066166A1 (en) * | 2006-11-30 | 2008-06-05 | National Institute Of Advanced Industrial Science And Technology | Web site system for voice data search |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8903716B2 (en) | 2010-01-18 | 2014-12-02 | Apple Inc. | Personalized vocabulary for digital assistant |
US8892446B2 (en) | 2010-01-18 | 2014-11-18 | Apple Inc. | Service orchestration for intelligent automated assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9190062B2 (en) | 2010-02-25 | 2015-11-17 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
KR101674851B1 (en) * | 2011-06-03 | 2016-11-09 | 애플 인크. | Automatically creating a mapping between text data and audio data |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
KR20150085115A (en) * | 2011-06-03 | 2015-07-22 | 애플 인크. | Automatically creating a mapping between text data and audio data |
JP2014519058A (en) * | 2011-06-03 | 2014-08-07 | アップル インコーポレイテッド | Automatic creation of mapping between text data and audio data |
JP2013008357A (en) * | 2011-06-03 | 2013-01-10 | Apple Inc | Automatic creation of mapping between text data and audio data |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
CN102324191A (en) * | 2011-09-28 | 2012-01-18 | Tcl集团股份有限公司 | Method and system for synchronously displaying audio book word by word |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9697822B1 (en) | 2013-03-15 | 2017-07-04 | Apple Inc. | System and method for updating an adaptive speech recognition model |
JP2016522916A (en) * | 2013-03-26 | 2016-08-04 | サムスン エレクトロニクス カンパニー リミテッド | HTML page presentation apparatus and method |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9300784B2 (en) | 2013-06-13 | 2016-03-29 | Apple Inc. | System and method for emergency calls initiated by voice command |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
JP2016157176A (en) * | 2015-02-23 | 2016-09-01 | 株式会社プロフィールド | Data processing apparatus, data structure, data processing method, and program |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN106682060A (en) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | Structured Knowledge Modeling, Extraction and Localization from Images |
CN106682060B (en) * | 2015-11-11 | 2022-03-15 | 奥多比公司 | Modeling, extracting, and localizing from structured knowledge of images |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
JP2017090921A (en) * | 2016-12-13 | 2017-05-25 | 株式会社プロフィールド | Data processing apparatus, data structure, data processing method, and program |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
CN108769638A (en) * | 2018-07-25 | 2018-11-06 | 京东方科技集团股份有限公司 | A kind of control method of projection, device, projection device and storage medium |
US11350185B2 (en) | 2019-12-13 | 2022-05-31 | Bank Of America Corporation | Text-to-audio for interactive videos using a markup language |
US11064244B2 (en) | 2019-12-13 | 2021-07-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
US10805665B1 (en) | 2019-12-13 | 2020-10-13 | Bank Of America Corporation | Synchronizing text-to-audio with interactive videos in the video framework |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004152063A (en) | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof | |
JP4127668B2 (en) | Information processing apparatus, information processing method, and program | |
US8374845B2 (en) | Retrieving apparatus, retrieving method, and computer program product | |
US6636238B1 (en) | System and method for linking an audio stream with accompanying text material | |
JP5588561B2 (en) | Media content providing method and apparatus | |
US20080177536A1 (en) | A/v content editing | |
US20050228665A1 (en) | Metadata preparing device, preparing method therefor and retrieving device | |
CN110781328A (en) | Video generation method, system, device and storage medium based on voice recognition | |
JP4354441B2 (en) | Video data management apparatus, method and program | |
US20110252447A1 (en) | Program information display apparatus and method | |
JP4192703B2 (en) | Content processing apparatus, content processing method, and program | |
JP2005115607A (en) | Video retrieving device | |
JP3781715B2 (en) | Metadata production device and search device | |
JP4734048B2 (en) | Information search device, information search method, and information search program | |
US20090083227A1 (en) | Retrieving apparatus, retrieving method, and computer program product | |
JP2006129122A (en) | Broadcast receiver, broadcast receiving method, broadcast reception program and program recording medium | |
JP2006186426A (en) | Information retrieval display apparatus, information retrieval display method, and information retrieval display program | |
JP2005092295A (en) | Meta information generating method and device, retrieval method and device | |
KR100451004B1 (en) | Apparatus and Method for Database Construction of News Video based on Closed Caption and Method of Content-based Retrieval/Serching It | |
JP2008252322A (en) | Apparatus and method for summary presentation | |
JP2007199315A (en) | Content providing apparatus | |
JP2008022292A (en) | Performer information search system, performer information obtaining apparatus, performer information searcher, method thereof and program | |
JP2010055259A (en) | Image processing apparatus, image processing program, and image processing method | |
JP2007293602A (en) | System and method for retrieving image and program | |
JP2004134909A (en) | Content comment data generating apparatus, and method and program thereof, and content comment data providing apparatus, and method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050822 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051117 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090310 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090410 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090511 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090522 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090619 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100419 |