JP2004152063A - Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof - Google Patents

Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof Download PDF

Info

Publication number
JP2004152063A
JP2004152063A JP2002317244A JP2002317244A JP2004152063A JP 2004152063 A JP2004152063 A JP 2004152063A JP 2002317244 A JP2002317244 A JP 2002317244A JP 2002317244 A JP2002317244 A JP 2002317244A JP 2004152063 A JP2004152063 A JP 2004152063A
Authority
JP
Japan
Prior art keywords
text information
information
time code
text
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002317244A
Other languages
Japanese (ja)
Inventor
Makoto Iwata
真琴 岩田
Naohiro Takeda
直博 竹田
Satoshi Nakazawa
聡 中澤
Riyouma Ooami
亮磨 大網
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002317244A priority Critical patent/JP2004152063A/en
Publication of JP2004152063A publication Critical patent/JP2004152063A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a means enabling the easy retrieval and display of a related image media by automatically structuring the image media in conformation with text information. <P>SOLUTION: A voice recognition means 8 divides voice information in an image media every sentence followed by voice recognition processing to generate voice recognition text information. A time code generation means 9 generates a time code that is the time information of start and end of each sentence. A mapping means 10 divides the text information to each sentence based on the dividing positions of the voice recognition text information, and conforms the voice recognition text information to the text information for every sentence. A structuring means 11 conforms the time code to the text information for every sentence. A data storage means 12 stores the image media, the time code and the text information. A retrieval control means 17 fetches the image media and text information matched to a retrieval condition inputted by a user 4, and outputs them to an input and output means 16 so that a related part can be displayed in conjugation by use of the time code. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、関連する映像情報とテキスト情報とを対応付けるマルチメディアコンテンツ構造化方法、マルチメディアコンテンツ構造化方法およびマルチメディアコンテンツ構造化プログラム、ならびに、構造化されて記憶されている内容を、ユーザの要求に応じて検索して出力するマルチメディアコンテンツ提供方法に関する。
【0002】
【従来の技術】
近年、情報のマルチメディア化が進み、映像情報、音声情報およびテキスト情報等とを含むマルチメディアコンテンツの情報量は、急激に増大している。これらの情報を記憶し、後に必要に応じて再び呼び出すことにより、より有効に利用することができる。記憶されている複数種類の情報を有効に活用するには、それらの情報が対応付けられている必要がある。
【0003】
複数種類の情報を対応付けるシステムの一例として、原稿上の文字を文字認識して電子化した第1テキストと、音声情報を音声認識して電子化した第2テキストとから最適な第3テキストを生成して、デジタルデータのテキスト情報を得る電子化テキスト作成システムがある(例えば特許文献1。)。
【0004】
また、映像情報に付加されている音声情報にもとづいて音声認識を行い、音声認識結果であるテキスト情報と映像情報とを構造化するシステムがある(例えば特許文献2。)。
【0005】
さらに、映像情報、音声情報、テキスト情報等をデジタル化し、それらの情報と、それらの情報の時間的関連を示す時間情報とを保存するマルチメディア情報処理装置がある(例えば特許文献3。)。
【0006】
【特許文献1】
特開2001−282779号公報 (第3−8頁、第1図)
【特許文献2】
特開2002−189728号公報 (第3頁)
【特許文献3】
特開平8−253209号公報 (第3−8頁、第5図)
【0007】
【発明が解決しようとする課題】
特許文献1に記載されているシステムでは、原稿と音声認識処理結果のテキストとのマッチング処理を行うので、より正確なテキスト情報を自動的に作成することができる。しかし、特許文献1には、映像情報等の他の情報との対応付けに関する開示がないので、特許文献1に記載された技術を映像情報、音声情報およびテキスト情報の構造化処理に適用する場合には、人為的に構造化処理を行わなくてはならない。
【0008】
また、特許文献2に記載されているシステムでは、映像情報と映像情報に付加されている音声情報とを構造化することができるが、特許文献2には、さらにテキスト情報を構造化することに関して何ら開示されていない。
【0009】
さらに、特許文献3に記載されているマルチメディア情報処理装置では、映像情報、音声情報およびテキスト情報等の各情報間の構造化処理を、入力された時間における時間情報を用いて行っているが、時間情報は、映像情報、音声情報およびテキスト情報等を作成するときに付加されている必要がある。従って、時間情報が付加されていない場合には、テキスト情報、映像情報および音声情報を自動的に対応付けることはできず、対応付けのために人手を要することになる。
【0010】
そこで、本発明は、関連する映像情報とテキスト情報とを自動的に対応付けることができるマルチメディアコンテンツ構造化方法、マルチメディアコンテンツ構造化装置およびマルチメディアコンテンツ構造化プログラム、ならびに、ユーザの要求に応じて容易に所望の情報を提供することができるマルチメディアコンテンツ提供方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明によるマルチメディアコンテンツ構造化方法は、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、テキスト情報と映像情報とを対応付けるためのマルチメディアコンテンツ構造化方法であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の段落を示す情報等による区切り位置にもとづいて音声認識テキスト情報を各段落等の分割部分に分割し、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化することを特徴とする。なお、音声情報と映像情報とは関連しているので、音声情報(具体的には音声認識テキスト情報)にもとづいて生成されたタイムコードとテキスト情報とを対応付けることは、実質的にテキスト情報と映像情報とを対応付けることになる。
【0012】
マルチメディアコンテンツ構造化方法は、テキスト情報と映像情報とを格納手段に格納し、各分割部分のタイムコードをタイムコード格納手段に格納するように構成されていてもよい。そのような構成によれば、テキスト情報とタイムコード格納手段に格納されたタイムコードとによって、所望の映像情報を検索することができる。
【0013】
マルチメディアコンテンツ構造化方法は、映像情報を格納手段に格納し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述するように構成されていてもよい。そのような構成によれば、XML言語により映像情報とテキスト情報とを構造化することができる。
【0014】
本発明によるマルチメディアコンテンツ構造化装置は、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、テキスト情報と映像情報とを対応付けるためのマルチメディアコンテンツ構造化装置であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する音声認識手段と、音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報を生成するタイムコード生成手段と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割し、テキスト情報の区切り位置で区切られる分割部分と音声認識テキスト情報における分割部分とを対応付けるマッピング手段と、音声認識テキスト情報における分割部分に対応するタイムコードとテキスト情報とを所定の分割部分毎に対応付ける構造化手段とを備えたことを特徴とする。
【0015】
マルチメディアコンテンツ構造化装置は、テキスト情報と映像情報とを格納する格納手段と、各分割部分のタイムコードを格納するタイムコード格納手段とを備えていてもよい。そのような構成によれば、テキスト情報とタイムコード格納手段に格納されたタイムコードとによって、所望の映像情報を検索することができる。
【0016】
マルチメディアコンテンツ構造化装置は、映像情報を格納する格納手段を備え、構造化手段が、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述してXMLファイル格納手段に格納するように構成されていてもよい。そのような構成によれば、XML言語により映像情報とテキスト情報とを構造化することができる。
【0017】
マルチメディアコンテンツ構造化装置は、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定した分割部分に対応するタイムコードを抽出する検索制御手段と、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する同期手段とを備えていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望する映像情報を提供することができる。
【0018】
同期手段が、映像情報に対応するテキスト情報を、映像情報に連動させてユーザに提供するように構成されていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望するテキスト情報および映像情報を見やすい形式で提供することができる。
【0019】
本発明によるマルチメディアコンテンツ構造化プログラムは、コンピュータに、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化する処理とを実行させることを特徴とする。
【0020】
本発明によるマルチメディアコンテンツ提供方法は、ユーザが要求するテキスト情報、およびテキスト情報に対応する映像情報をユーザに提供するマルチメディアコンテンツ提供方法であって、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割し、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化し、テキスト情報と、映像情報と、タイムコードとを格納し、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定された分割部分に対応するタイムコードを抽出し、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供することを特徴とする。
【0021】
本発明によるマルチメディアコンテンツ提供方法は、映像情報をユーザに提供する際に、映像情報に対応するテキスト情報を映像情報に連動させてユーザに提供するように構成されていてもよい。そのような構成によれば、ユーザの要求に応じて、ユーザが所望するテキスト情報および映像情報を見やすい形式で提供することができる。
【0022】
本発明によるマルチメディアコンテンツ提供プログラムは、コンピュータに、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードとテキスト情報とを所定の分割部分毎に対応付けて構造化する処理と、テキスト情報と、映像情報と、タイムコードとを格納する処理と、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、特定された分割部分に対応するタイムコードを抽出する処理と、抽出されたタイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供するする処理とを実行させることを特徴とする。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。図1は本発明の第1の実施の形態のマルチメディアコンテンツ構造化システムを示すブロック図である。図1に示すシステムにおいて、コンテンツホルダ1は、映像情報を記録した映像メディアと、映像情報に関連する文書が記載されているテキストメディアとを所有する。映像メディアには、映像情報と音声情報とが記録されている。
【0024】
テキスト情報、音声情報および映像情報を含むマルチメディアコンテンツの例として、テレビ放送におけるニュース番組がある。ニュース番組の場合には、ニュース原稿がテキストメディアであり、アナウンサが読み上げた音声が音声情報であり、映像情報は音声に関連した映像情報である。オペレータ2は、コンテンツホルダ1から映像メディアとテキストメディアとを受け取り、映像メディアとテキストメディアとをマルチメディアコンテンツ装置に入力する。
【0025】
マルチメディアコンテンツ装置は、同期データ生成手段3と同期データ利用手段5とを含む。同期データ生成手段3は、映像入力手段6と、テキスト入力手段7と、音声認識手段8と、タイムコード生成手段9と、マッピング手段10と、構造化手段11と、データ格納手段12とで構成される。またデータ格納手段12は映像メディア格納手段13と、テキストメディア格納手段14と、タイムコード格納手段15とで構成される。同期データ利用手段5は、入出力手段16と、検索制御手段17と、同期手段18とで構成される。ただし、図1に示す入出力手段16は、マルチメディアコンテンツ装置に含まれるものでなくてもよく、例えば、ユーザ4が有するパーソナルコンピュータにおけるキーボードなどの入出力手段である。
【0026】
映像入力手段6は、オペレータ2から映像メディアが入力されると、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報および音声情報を音声認識手段8に出力する。映像メディアがアナログ媒体であった場合には、映像入力手段6として、例えばビデオキャプチャ等を含み、アナログ映像情報およびアナログ音声情報をAVI形式やMPEG形式のデジタル情報に変換する機能を有するものが用いられる。そして、映像入力手段6は、映像メディアに記録されている映像情報および音声情報に対してデジタル変換を行ってデジタル化して、音声認識手段8に出力する。音声認識手段8は、入力された音声情報について音声認識処理を行い、音声認識処理の結果のテキスト情報である音声認識テキスト情報を生成する。また、音声認識手段8は、音声情報を各単語に分割する。
【0027】
タイムコード生成手段9は、音声情報における各単語の開始時刻と終了時刻との情報である単語タイムコードを音声認識手段8に出力する。音声認識手段8は、音声認識テキスト情報に単語タイムコードを付加して、映像情報とともにマッピング手段10に出力する。従って、この実施の形態では、タイムコード生成手段9は、音声認識テキスト情報を所定の複数の分割部分(例えば複数の段落)に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報として、単語タイムコードを生成する。
【0028】
テキスト入力手段7は、オペレータ2からテキストメディアを受け取る。テキスト入力手段7は、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段10に出力する。テキストメディアがアナログ媒体であった場合には、テキスト入力手段7は、例えばOCR(光学式文字読み取り)装置を含むものとして構成される。そして、テキストメディアに記録されているテキスト情報に対してデジタル変換を行って、デジタル化したテキスト情報をマッピング手段10に出力する。
【0029】
マッピング手段10は、テキスト情報を適当な間隔で分割部分に区切る。ここでは、例えば、改行やインデント等を検出することによって文の固まりである段落を検出し、改行箇所等を区切り位置としてテキスト情報を区切る。さらに、マッピング手段10は、テキスト情報と音声認識テキスト情報とを比較して、テキスト情報における区切り位置にもとづいて音声認識テキスト情報を区切り、段落音声認識テキスト情報を生成する。さらに、テキスト情報における各段落(区切られたテキスト情報)と各段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成する。そして、段落音声認識テキスト情報およびテキスト情報とともに対応情報を構造化手段11に出力する。
【0030】
構造化手段11は、段落音声認識テキスト情報における各単語に付加されている単語タイムコードから、各段落の開始時刻と終了時刻である各タイムコードを算出する。さらに構造化手段11は、タイムコードと対応情報とにもとづいて、テキスト情報の各段落と各タイムコードとの1対1の対応を示す情報である構造化情報を生成する。
【0031】
また、構造化手段11は、構造化情報にもとづいて、テキスト情報を保存するテキストメディアファイルおよびタイムコードを保存するタイムコードファイルを生成するとともに、映像情報を保存する映像メディアファイルとを生成する。
【0032】
例えば、テキストメディアファイルには各段落内のテキスト情報が段落順に格納され、タイムコードファイルには各段落に対応するタイムコードがテキスト情報における段落順と同順で格納される。なお、それぞれが各段落に対応した複数のテキストメディアファイルと、タイムコードファイルとを生成してもよい。
【0033】
次に、構造化手段11は、映像メディアファイルと、テキストメディアファイルと、タイムコードファイルとをデータ格納手段12に出力する。データ格納手段12内の映像メディア格納手段13は映像メディアファイルを記憶し、データ格納手段12内のテキストメディア格納手段14はテキストメディアファイルを記憶し、データ格納手段12内のタイムコード格納手段15はタイムコードファイルを記憶する。この例において、テキスト情報と映像情報とを格納する格納手段は、映像メディア格納手段13およびテキストメディア格納手段14に相当し、各分割部分のタイムコードを格納するタイムコード格納手段は、タイムコード格納手段15に相当する。
【0034】
なお、映像情報は、映像入力手段6から、音声認識手段8、マッピング手段10および構造化手段10を介してデータ格納手段12に供給されるようにしてもよいが、映像入力手段6から直接データ格納手段12に供給されるようにしてもよい。
【0035】
また、構造化手段11が、テキストメディアファイルにおけるテキスト情報の各段落の開始アドレスと終了アドレスと、タイムコードファイルにおける各段落のタイムコードの開始アドレスと終了アドレスとを、管理情報として生成してもよい。このとき、マルチメディアコンテンツ装置は、図2に示すように、データ格納手段12において管理情報を格納する管理ファイル格納手段23が含まれる構成になる。そして、構造化手段11は、管理情報を管理ファイル格納手段23に出力し、管理ファイル格納手段23は管理情報を記憶する。
【0036】
また、構造化手段11が、図5に示すような、テキスト情報とタイムコードとを結合した、タイムコードを含む構造化されたテキストメディアを生成してもよい。このとき、マルチメディアコンテンツ装置は、タイムコード格納手段15を持たず、データ変換手段12は図3に示す構成になる。
【0037】
さらに、構造化手段11が、図6に示すような、XML(エクステンシブルマークアップランゲージ)言語による、MPEG7(ムービングピクチャーエキスパートグループ7)形式の構造的記述によるXMLファイルを生成する方法もある。XMLファイルを生成する場合には、マルチメディアコンテンツ装置は、データ格納手段12にテキストメディア格納手段14とタイムコード格納手段15とが含まれず、XMLファイル格納手段24が含まれた図4に示す構成になる。そして、構造化手段11は、XMLファイルをXMLファイル格納手段24に出力し、XMLファイル格納手段24は、XMLファイルを記憶する。この例では、映像情報が格納される格納手段は映像メディア格納手段12に相当し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報を記述したXML言語が格納されるXMLファイル格納手段は、XMLファイル格納手段24に相当する。
【0038】
ユーザ4は、所望の映像情報およびテキスト情報を要求するときに、同期データ利用手段5にキーワードとなる語句を入力する。すると、入出力手段16は、ユーザ4が入力した語句を検索制御手段17に出力する。検索制御手段17は、その語句を含むテキスト情報の段落をテキストメディア格納手段14(図2,3に示す構成の場合)、またはXMLファイル格納手段24(図4に示す構成の場合)から検索し、該当するテキスト情報の段落を入出力手段16に出力する。さらに、ユーザ4が、あるテキスト情報の段落を選択した場合、入出力手段16は、ユーザ4が選択したテキスト情報と同期する映像情報の出力を検索制御手段17に要求する。
【0039】
検索制御手段17は、映像情報を映像メディア格納手段13から取り出し、ユーザ4が選択したテキスト情報の段落のタイムコードを、タイムコード格納手段15(図2に示す構成の場合)、テキストメディア格納手段14(図3に示す構成の場合)、またはXMLファイル格納手段24(図4に示す構成の場合)から抽出し、同期手段18に出力する。同期手段18は、タイムコードが示す開始時刻を映像情報の出力の先頭時間とし、タイムコードの示す終了時刻を映像情報の出力の最終時間として、入出力手段16に映像情報の出力を行う。また、同期手段18は、テキスト情報を、タイムコードにもとづいて加工して入出力手段16に出力する。このときの加工として、例えば、テキスト情報をスクロールさせるなどの方法がある。
【0040】
なお、同期データ生成手段3および同期データ利用手段5は、コンピュータシステムで実現できる。ただし、入出力手段16は、ユーザ側のマイクロコンピュータ等のキーボードや表示部などの入出力手段に相当する。同期データ生成手段3および同期データ利用手段5(入出力手段を除く。)がコンピュータシステムで実現される場合には、音声認識手段8、タイムコード生成手段9、マッピング手段10、構造化手段11、検索制御手段17および同期手段18は、ソフトウェアによって実現される。また、データ格納手段12は、コンピュータシステムにおける磁気ディスク等の記憶媒体によって実現される。
【0041】
具体的には、コンピュータシステムに実装されるソフトウェアは、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードによってテキスト情報と映像情報とを所定の分割部分毎に対応付けて構造化する処理と、テキスト情報と、映像情報と、タイムコードとを格納する処理とを実行し、また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、特定された分割部分に対応するタイムコードを抽出する処理と、抽出されたタイムコードに対応する映像情報を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する処理とを実行するプログラムを含む。
【0042】
次に、この実施の形態の動作について、図面を参照して説明する。図7、図9および図10は、この実施の形態の動作を説明するフローチャートである。図11および図12は入出力手段16が情報を入出力するときの表示例を示す説明図である。
【0043】
テレビ放送におけるニュース番組を例にすると、コンテンツホルダ1はニュース番組の制作会社に相当し、オペレータ2は制作会社内の管理部門やニュース配信の委託を受けた管理会社に相当する。また、ユーザ4は、例えばパーソナルコンピュータに搭載されるWebブラウザとインターネットとを介して同期データ利用手段5に情報を要求し、インターネットとWebブラウザとを介して所望の同期データ利用手段5から情報を受信する。
【0044】
まず、映像メディアファイル、タイムコードファイル、テキストメディアファイル、管理ファイル、あるいはXMLファイルを、データ格納手段12に格納するまでについて、図7を参照して説明する。コンテンツホルダ1からニュース番組の映像情報(音声情報を含む)を記録した映像メディアと、ニュース番組においてアナウンサが読んだ原稿を記録したテキストメディアとが、オペレータ2に送られたとする。映像メディアに記録されている音声情報は、原稿を読んだアナウンサの音声による音声情報である。すなわち、テキストメディアに記録されているテキスト情報と映像メディアに記録されている音声情報とは、同じ内容の情報である。オペレータ2は、映像メディアとテキストメディアとを同期データ生成手段3に入力する。
【0045】
同期データ生成手段3は、オペレータ2から映像メディアとテキストメディアとを受け取る(ステップS101)。テキストメディアは、テキスト入力手段7が受け取り、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段10に出力する。テキストメディアがデジタル媒体でなかった場合には、OCR等を用いてテキストメディアに記録されているテキスト情報をデジタル化して(ステップS102,S103)、マッピング手段10に出力する。マッピング手段10は、テキスト情報を一時格納する。具体的には、テキスト情報は、コンピュータシステムにおけるRAM等に格納される。
【0046】
映像メディアは、映像入力手段6に入力される。映像入力手段6は、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報(音声情報を含む)を音声認識手段8に出力し、デジタル媒体でなかった場合には、映像メディアに記録されている映像情報(音声情報を含む)デジタル化して(ステップS104,S105)、音声認識手段8に出力する。
【0047】
音声認識手段8は、映像メディアの音声トラックに記録されている音声情報について音声認識処理を行い、音声認識テキスト情報を生成する(ステップS106)。さらに、音声認識手段8は、音声認識テキスト情報に対して単語切り出し処理を行い、音声情報を各単語に分割する。音声認識手段8は、映像情報をタイムコード生成手段9に出力するとともに、音声情報の分割位置を示す情報をタイムコード生成手段9に出力する。タイムコード生成手段9は、映像情報および音声情報の再生開始タイミング、再生開始タイミングからの経過時間、および音声認識手段8からの音声情報の分割位置を示す情報にもとづいて、各単語の音声情報の開始時刻と終了時刻である単語タイムコードを各単語ごとに生成し、音声認識手段8に出力する。音声認識手段8は、各単語の単語タイムコードを各単語に割り付ける。そして、単語タイムコードを音声認識テキスト情報に付加して、映像情報とともにマッピング手段10に出力する(ステップS107、S108)。
【0048】
マッピング手段10は、テキスト情報から、例えば、改行やインデント等によって文の固まりである段落を検出し、テキスト情報を段落に区切る。また、テキスト情報と音声認識テキスト情報とを比較する。そして、テキスト情報の段落区切り位置にもとづいて音声認識テキスト情報を段落に区切り、段落音声認識テキスト情報を生成する。さらに、テキスト情報の各段落と、段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成し(ステップS109)、段落音声認識テキスト情報とテキスト情報とともに対応情報を構造化手段11に出力する。
【0049】
マッピング手段10による対応付けの一例を図8に示す。図8において、テキスト情報であるニュース原稿500における「こんばんは」、「7時」、「の」、「ニュース」および「です」と、音声認識結果510内の音声認識テキスト情報における「こんばんは」、「一次」、「の」、「ニュース」および「で」とを比較する。このように単語同士を順次比較していく。比較の手法としてDPマッチングの手法を用いることにより、単語の一致具合で、ニュース原稿500における区切り位置に対応する音声認識結果510における区切り位置を検出することができる。
【0050】
構造化手段11は、段落音声認識テキスト情報に付加された単語タイムコードから、段落音声認識テキスト情報における各段落の開始時刻と終了時刻であるタイムコードを算出する。各段落の最初の単語の開始時刻と最後の単語の終了時刻とから、各段落の開始時刻と終了時刻を算出することができる。さらに、構造化手段11は、タイムコードと対応情報とから、テキスト情報の各段落とタイムコードとの1対1の対応を示す情報である構造化情報を生成する(ステップS110)。
【0051】
構造化手段11は、構造化情報にもとづいて、テキスト情報を記憶するテキストメディアファイルとタイムコードを記憶するタイムコードファイルとを、各段落毎に対応付けて生成する。構造化手段11は、生成した各ファイルをデータ格納手段12に出力する。テキストメディア格納手段14は、テキストメディアファイルを格納し、タイムコード格納手段15は、タイムコードファイルを格納する、また、映像メディア格納手段13は、映像メディアファイルを格納する(ステップS111)。
【0052】
ここで、構造化手段11が、テキスト情報とタイムコードとを対応付けて、テキストメディアファイルと、タイムコードファイルとを生成する、構造化の方法について説明する。まず、各段落毎にテキストメディアファイルとタイムコードファイルとを生成する方法を説明する。例えば、第1段落のテキストメディアファイルのファイル名を「原稿1.txt」、第1段落のタイムコードファイルのファイル名「時間1.txt」とする。すると、第1段落のファイルは、拡張子を除いたファイル名の末尾が「1」という対応付けができる。同様に第2段落同士もそれぞれ「原稿2.txt」と「時間2.txt」とすることで、第2段落のファイルを対応付けることができる。同様に、第3、第4段落以降も対応付けることができる。
【0053】
また、テキストメディアファイルにおける各段落のテキスト情報の開始アドレスと終了アドレスと、タイムコードファイルにおける各段落のタイムコードの開始アドレスと終了アドレスとを、管理情報として生成する方法もある。そのような管理情報を参照すれば、テキスト情報とタイムコードの対応がわかる。このとき、マルチメディアコンテンツ装置の構成は、図2に示すように、データ格納手段12内に管理ファイル格納手段23が設けられた構成である。そして、構造化手段11は、テキストメディアファイル、タイムコードファイルおよび映像メディアファイルに加えて、管理情報をデータ格納手段12に出力する。テキストメディア格納手段14はテキストメディアファイルを格納し、タイムコード格納手段15はタイムコードファイルを格納し、映像メディア格納手段13は映像メディアファイルを格納し、管理ファイル格納手段23は管理情報を格納する。
【0054】
構造化手段11は、図5に示すように、テキスト情報とタイムコードとを結合して、タイムコードを含む構造化されたテキスト情報を生成してもよい。このとき、図3に示すように、マルチメディアコンテンツ装置において、タイムコード格納手段15は設けられない。構造化手段11は、テキストメディアファイルと映像メディアファイルとをデータ格納手段12に出力する。テキストメディア格納手段14はテキストメディアファイルを格納し、映像メディア格納手段13は映像メディアファイルを格納する。
【0055】
さらに、構造化手段11は、図6に示すように、XML言語による構造的な記述によるXMLファイルを生成してもよい。このとき、マルチメディアコンテンツ装置において、テキストメディア格納手段14とタイムコード格納手段15とは設けられず、XMLファイル格納手段24が設けられる。ここで、XML言語による構造的な記述によるXMLファイルを生成する方法について説明する。
【0056】
この方法では、構造化手段11が、XML言語によるMPEG7形式の記述による構造的記述を行う。構造化手段11の動作について図6、図8(A)および図9を参照して説明する。図6は構造的記述例を示す説明図である。図8(A)は、テキストメディアの一例のニュース原稿500の内容を示す説明図である。図9はXML言語を用いた構造化手段の動作を説明するためのフローチャートである。
【0057】
構造化手段11は、まず、<?xml>タグや<Mpeg7>といった、あらかじめMPEG7規格として定められているXMLテンプレートに対し、映像情報のコンピュータシステム内での格納位置(フォルダ位置)を<Media Locator>タグ、および<MediaUrl>タグを用いて挿入する(ステップS201)。ここでは、例えば「C:¥メタ情報¥映像データ¥ニュース映像020913.mpg」であるとする。なお、「C:¥メタ情報¥映像データ¥ニュース映像020913.mpg」は、構造化手段11が、映像情報を格納しようとする映像メディア格納手段13における格納位置に相当する。
【0058】
次に、テキストメディアに記載されている番組タイトル情報を、<CreationInformation>タグ内の<Title>タグを用いて挿入する(ステップS202)。図8(A)を例にすると、「ニュース番組020913」が挿入される。そして、段落毎の開始時間と終了時間の情報を<MediaTime>タグ、および<MediaRelTimePoint>タグ、および<MediaDuration>タグを用いて挿入する(ステップS203)。
【0059】
さらに、発言者情報を、<Name>タグ、および<GivenName>タグ、および<FamilyName>タグを用いて挿入する(ステップS204)。図8(A)を例にすると「アナウンサ」が挿入される。次に、テキスト情報を、<TextAnnotation>タグ、および<FreeTextAnnotation>タグを用いて挿入する(ステップS205)。ここで、各段落毎にテキスト情報を挿入する。図8(A)の例では「こんばんは、7時のニュースです。」を含む段落が挿入される。
【0060】
ここで、ステップS203で挿入した、段落の終了時間が、タイムコードの最終時間に到達していなければ、ステップS203に戻り、次の段落の各情報の挿入を行う(ステップS206)。段落の終了時間が、タイムコードの最終時間に到達していたら、XMLファイルをデータ格納手段12に出力する(ステップS207)。データ格納手段12内のXMLファイル格納手段23は、XMLファイルを格納する。
【0061】
次に、格納したデータを、ユーザ4が検索して抽出するときの動作について、図10に示すフローチャートを参照して説明する。ユーザ4は、図12に示すような、コンピュータ画面に表示された入出力手段16の検索条件入力画面を用いて所望の検索条件をキーボード等により入力する(ステップS301)。入出力手段16は、例えばユーザ4が有するパーソナルコンピュータのキーボード、表示部および通信手段等に相当する。入出力手段16は、インターネット等を介して検索条件を検索制御手段17に送信する。検索制御手段17は、ユーザ4が入力した検索条件にもとづいて、データ格納手段12から検索条件に合致するデータを有するテキスト情報の段落を特定する(ステップS302)。検索する際に、全文一致検索や、各検索条件によるアンド検索といった一般的な検索処理を用いることができる。
【0062】
検索の結果、該当データがなかった場合は、入出力手段16に、検索結果がなかったことを通知し、該当データが存在した場合には、データ格納手段12から、ユーザ4が入力した検索条件に合致するテキスト情報の段落をすべて抽出して、入出力手段16に出力する(ステップS303,S304)。ここで、テキスト情報の段落と対応する映像情報も抽出することが好ましい。
【0063】
映像情報も抽出する場合には、例えば図11に示すように、映像情報とテキスト情報とを表示することができる。図11には、テキスト情報とともに、代表的な画像がサムネイル画像として出力された場合の表示例が示されている。ここで、段落の開始時刻の部分の静止画を映像情報から抽出してサムネイル画像として出力してもよいし、段落の開始から終了までの間の最も代表的な静止画を抽出して出力してもよい。また、静止画によらず、段落の開始時刻から終了時刻までの動画を出力してもよい。
【0064】
図11に示された例では、ユーザ4からキーワードの語句として、「タマちゃん」が入力され、12件の検索結果が出力されたことを示している。次に、ユーザ4が、例えば「目撃者の遊覧船」を含む段落を、入出力手段16を用いて、例えばマウスでクリックすることによって選択すると、入出力手段16は、その旨を検索制御手段17に通知する。選択制御手段17は、ユーザ4が選択した段落のテキスト情報と、映像情報とをデータ格納手段12から抽出して同期手段18に出力する。同期手段18は、映像情報のうち、選択した段落のタイムコードの開始時間を映像情報の再生の先頭とすることを入出力手段16に通知し、また、選択された段落のテキスト情報を入出力手段16に出力する(ステップS305)。
【0065】
入出力手段16は、例えば図12に示す画面(巻戻し等のスイッチ部の表示を有する画面)を表示するとともに、映像情報を再生し、映像情報の再生のタイミングに合わせて、選択された段落のテキスト情報をスクロール表示する(ステップS306)。なお、巻戻し等のスイッチ部の表示やテキスト情報をスクロールする処理は、同期手段18によって実行されている。図12に示す例では、映像メディアの先頭から9秒97の位置から再生され、「目撃者の遊覧船」を含むテキスト情報の部分が、再生箇所であることを示すために斜体文字になっている。また、映像情報の再生状況に連動して、段落のテキスト情報のスクロールを行ってもよい。
【0066】
以上のように、抽出されたタイムコードに対応する映像情報の部分が特定され、特定された映像情報が入出力手段16を介してユーザ4に提供される。また、同期手段18は、映像情報に対応するテキスト情報を、映像情報に連動させてユーザに提供する。
【0067】
次に、本発明による第2の実施の形態について説明する。第1の実施の形態との構成の違いは、タイムコード生成手段19が構造化手段21に接続されていることであり、その他の構成は第1の実施例と同様である。また、第1の実施の形態との動作の違いは、音声認識テキスト情報における区切り位置の検出の方法である。音声認識テキスト情報における区切り位置の検出は、同期データ生成手段3の動作に関連する。具体的には、音声認識手段28、タイムコード生成手段19、マッピング手段20および構造化手段21の動作に関連する。そのため、第1の実施の形態と同様の動作の手段等については図1と同じ符号を付して説明を省略する。
【0068】
第2の実施の形態の構成について説明する。図13はこの実施の形態のブロック図である。この実施の形態では、タイムコード生成手段19は、音声認識手段28と、構造化手段21とに接続される。音声認識手段28は、音声情報において所定の無音区間が存在する箇所を文の終了位置すなわち文の区切りと判定する。また、音声認識手段28は、受け取った映像情報をタイムコード生成手段19に出力する。そして、音声認識手段28は、文の区切りを示す情報をタイムコード生成手段19に出力する。
【0069】
タイムコード生成手段19は、映像情報および音声情報の再生開始タイミング、再生開始タイミングからの経過時間、および音声認識手段28からの文区切りを示す情報にもとづいて、音声情報における各文の開始時刻と終了時刻の情報である文タイムコードを生成し構造化手段21に出力する。従って、この実施の形態では、タイムコード生成手段19は、音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報として、文タイムコードを生成する。
【0070】
次に第2の実施の形態の動作について説明する。図14はこの実施の形態を説明するフローチャートである。同期データ生成手段3は、オペレータ2から映像メディアとテキストメディアとを受け取る(ステップS401)。テキストメディアは、テキスト入力手段7に入力される。テキスト入力手段7は、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段20に出力し、テキストメディアがデジタル媒体でなかった場合には、OCR等を用いてテキストメディアに記録されているテキスト情報をデジタル化して(ステップS402,S403)、マッピング手段20に出力する。
【0071】
映像情報(音声情報を含む)は、映像入力手段6に入力される。映像入力手段6は、映像メディアがデジタル媒体であった場合には、映像メディアに記録されている映像情報を音声認識手段28に出力し、デジタル媒体でなかった場合には、映像メディアに記録されている映像情報をデジタル化して(ステップS404,S405)、音声認識手段28に出力する。音声認識手段28は、映像メディアの音声トラックに記録されている音声情報について音声認識処理を行い(ステップS406)、音声認識テキスト情報を生成して、マッピング手段20に出力する。また、音声情報において所定の時間以上の無音期間があった場合には、その無音期間がテキスト情報の文の区切りである判定して、音声情報を区切り、文の区切りを示す情報をタイムコード生成手段19に出力する。
【0072】
タイムコード生成手段19は、音声情報における各文の開始時刻と終了時刻の情報である文タイムコードを生成して(ステップS407)、構造化手段21に出力する。
【0073】
マッピング手段20は、第1の実施の形態と同様にして、テキスト情報における区切り位置にもとづいて、音声認識テキスト情報における区切り位置を検出し、段落音声認識テキスト情報を生成する。このときの音声認識テキスト情報とテキスト情報との比較の方法は、DPマッチングの手法を用いる第1の実施の形態における方法と同様である。さらに、テキスト情報における各段落(区切られたテキスト情報)と各段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成する(ステップS408)。そして、段落音声認識テキスト情報とテキスト情報とともに対応情報を構造化手段21に出力する。なお、1つの段落音声認識テキスト情報には、複数の文すなわち音声認識手段28が検出した文の区切りが存在する場合もある。その場合には、マッピング手段20は、その旨を示す情報も構造化手段21に出力する。
【0074】
構造化手段21は、文タイムコードおよび対応情報から、テキスト情報とタイムコードとの段落ごとの1対1の対応を示す情報である構造化情報を生成する(ステップS409)。構造化手段21は、第1の実施の形態の場合と同様に、構造化情報にもとづいて、テキスト情報を記憶するテキストメディアファイルとタイムコードを記憶するタイムコードファイルとを、各段落毎に対応付けて生成する。
【0075】
テキスト情報とタイムコードとを対応付けてテキストメディアファイルとタイムコードファイルとを生成する構造化の方法は、第1の実施の形態と同様である。ただし、この実施の形態では、段落音声認識テキスト情報における最初の文の開始時刻と最後の文の終了時刻とから段落の開始時刻と終了時刻を算出する。構造化手段21は、生成した各ファイルをデータ格納手段12に出力する。映像メディア格納手段13は映像メディアファイルを格納し、テキストメディア格納手段14はテキストメディアファイルを格納し、タイムコード格納手段15はタイムコードファイルを格納する(ステップS410)。
【0076】
なお、この実施の形態では、タイムコード生成手段19は、構造化手段21に文タイムコードを出力したが、第1の実施の形態の場合と同様に、音声認識手段28に文タイムコードを出力するようにしてもよい。その場合には、段落音声認識テキスト情報における各文に、各文の開始時刻と終了時刻とを示す情報が付加される。
【0077】
【発明の効果】
以上のように、本発明によれば、テキスト情報と、そのテキスト情報に対応する音声情報および映像情報のうちの音声情報とを比較することによって、タイムコードとテキスト情報を自動的に対応付けるので、タイムコードを介してテキスト情報と映像情報とを低コストで構造化することができる。
【0078】
また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定された分割部分に対応するタイムコードを抽出し、抽出されたタイムコードに対応する映像情報を特定して特定した映像情報をユーザに提供することによって、ユーザに、所望の映像情報を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示すブロック図である。
【図2】本発明のデータ格納手段において、管理ファイル格納手段を含む場合の構成例を示すブロック図である。
【図3】本発明のデータ格納手段においてタイムコード格納手段を含まない場合の構成例を示すブロック図である。
【図4】本発明のデータ格納手段において、XMLファイル格納手段を含む場合の構成例を示すブロック図である。
【図5】構造化手段の出力例を示す説明図である。
【図6】XML言語による、MPEG7形式の構造的記述の例を示す説明図である。
【図7】本発明の第1の実施の形態における同期データ生成手段の動作を示すフローチャートである。
【図8】マッピング手段の動作を説明するための説明図である。
【図9】XML言語を用いた構造化手段の動作を説明するためのフローチャートである。
【図10】本発明の第1の実施の形態における同期データ利用手段の動作を示すフローチャートである。
【図11】入出力手段の検索条件入力画面の出力例を示す説明図である。
【図12】検索結果の出力例を示す説明図である。
【図13】本発明の第2の実施の形態を示すブロック図である。
【図14】本発明の第2の実施の動作における同期データ生成手段の動作を示すフローチャートである。
【符号の説明】
1 コンテンツホルダ
2 オペレータ
3 同期データ生成手段
4 ユーザ
5 同期データ利用手段
6 映像入力手段
7 テキスト入力手段
8 音声認識手段
9 タイムコード生成手段
10 マッピング手段
11 構造化手段
12 データ格納手段
13 映像メディア格納手段
14 テキストメディア格納手段
15 タイムコード格納手段
16 入出力手段
17 検索制御手段
18 同期手段
19 タイムコード生成手段
20 マッピング手段
21 構造化手段
23 管理ファイル格納手段
24 XMLファイル格納手段
28 音声認識手段
500 ニュース原稿
510 音声認識結果
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention provides a multimedia content structuring method for associating related video information and text information, a multimedia content structuring method and a multimedia content structuring program, and a structured content stored by a user. The present invention relates to a multimedia content providing method for searching and outputting according to a request.
[0002]
[Prior art]
2. Description of the Related Art In recent years, information has become more multimedia, and the amount of multimedia content including video information, audio information, text information, and the like has increased rapidly. By storing such information and recalling it later as needed, it can be used more effectively. In order to effectively utilize a plurality of types of stored information, the pieces of information need to be associated with each other.
[0003]
As an example of a system for associating a plurality of types of information, an optimal third text is generated from a first text digitized by character recognition of characters on a document and a second text digitized by speech recognition of voice information. Then, there is an electronic text creation system for obtaining text information of digital data (for example, Patent Document 1).
[0004]
There is also a system that performs voice recognition based on voice information added to video information and structures text information and video information that are voice recognition results (for example, Patent Document 2).
[0005]
Further, there is a multimedia information processing apparatus that digitizes video information, audio information, text information, and the like, and stores the information and time information indicating a temporal relationship between the information (for example, Patent Document 3).
[0006]
[Patent Document 1]
JP 2001-282779 A (Page 3-8, FIG. 1)
[Patent Document 2]
JP-A-2002-189728 (page 3)
[Patent Document 3]
JP-A-8-253209 (Page 3-8, FIG. 5)
[0007]
[Problems to be solved by the invention]
In the system described in Patent Literature 1, a matching process is performed between a manuscript and the text of the speech recognition processing result, so that more accurate text information can be automatically created. However, since Patent Document 1 does not disclose association with other information such as video information, the technique described in Patent Document 1 is applied to the structuring processing of video information, audio information, and text information. Must artificially perform a structuring process.
[0008]
Further, in the system described in Patent Literature 2, video information and audio information added to the video information can be structured. However, Patent Literature 2 discloses that text information is further structured. Nothing is disclosed.
[0009]
Further, in the multimedia information processing apparatus described in Patent Literature 3, structuring processing between pieces of information such as video information, audio information, and text information is performed using time information at an input time. The time information needs to be added when creating video information, audio information, text information, and the like. Therefore, when the time information is not added, the text information, the video information, and the audio information cannot be automatically associated with each other, and the association requires human resources.
[0010]
Therefore, the present invention provides a multimedia content structuring method, a multimedia content structuring apparatus and a multimedia content structuring program capable of automatically associating related video information and text information, and responding to a user request. It is an object of the present invention to provide a multimedia content providing method capable of providing desired information easily and easily.
[0011]
[Means for Solving the Problems]
A multimedia content structuring method according to the present invention is a multimedia content structuring method for inputting text information, audio information and video information corresponding to the text information, and associating the text information with the video information, Speech recognition processing is performed based on the speech information corresponding to the text information to generate speech recognition text information, the speech recognition text information is compared with the text information, and the speech recognition text information is compared with the text information. The speech recognition text information is divided into divided parts such as paragraphs, and a time code indicating a start time and an end time of each divided part is generated. The generated time code and text information are divided into predetermined divided parts. It is characterized by being associated with and structured. Since the audio information and the video information are related, associating the text information with the time code generated based on the audio information (specifically, the speech recognition text information) is substantially equivalent to the text information. It will be associated with video information.
[0012]
The multimedia content structuring method may be configured such that text information and video information are stored in a storage unit, and a time code of each divided part is stored in a time code storage unit. According to such a configuration, desired video information can be searched for based on the text information and the time code stored in the time code storage unit.
[0013]
The multimedia content structuring method may be configured such that video information is stored in a storage unit, and time code, text information, and information indicating a storage position of the video information are described in an XML language. According to such a configuration, video information and text information can be structured by the XML language.
[0014]
The multimedia content structuring device according to the present invention is a multimedia content structuring device for inputting text information, audio information and video information corresponding to the text information, and associating the text information with the video information, Speech recognition means for performing speech recognition processing based on speech information corresponding to text information to generate speech recognition text information, and start time and end of each divided part when the speech recognition text information is divided into predetermined divided parts Time code generating means for generating information for generating a time code indicating the time, and comparing the speech recognition text information with the text information, and dividing the speech recognition text information into divided parts based on the delimiter positions of the text information In addition, the speech recognition text information and the divided part separated by the text information That split portion and a mapping means for associating, characterized in that a structured means for associating the time code and text information for each predetermined divided portion corresponding to the divided portions of the speech recognition text information.
[0015]
The multimedia content structuring apparatus may include a storage unit that stores text information and video information, and a time code storage unit that stores a time code of each divided part. According to such a configuration, desired video information can be searched for based on the text information and the time code stored in the time code storage unit.
[0016]
The multimedia content structuring device includes storage means for storing video information, and the structuring means describes time code, text information, and information indicating a storage position of the video information in an XML language, and stores the information in an XML file storage means. It may be configured to store. According to such a configuration, video information and text information can be structured by the XML language.
[0017]
The multimedia content structuring apparatus includes: a search control unit that specifies a divided part in text information that matches a search condition input by a user and extracts a time code corresponding to the specified divided part; And a synchronizing means for specifying a portion of the video information to be provided and providing the specified video information to the user together with text information matching the search condition. According to such a configuration, video information desired by the user can be provided according to the user's request.
[0018]
The synchronization means may be configured to provide text information corresponding to the video information to the user in conjunction with the video information. According to such a configuration, it is possible to provide text information and video information desired by the user in a format that is easy to view according to the user's request.
[0019]
The multimedia content structuring program according to the present invention provides a computer that performs speech recognition processing based on speech information corresponding to text information to generate speech recognition text information, and compares the speech recognition text information with text information. Then, a process of dividing the speech recognition text information into divided portions based on a delimiter position of the text information, a process of generating a time code indicating a start time and an end time of each of the divided portions, And structuring the text information in association with each of the predetermined divided parts.
[0020]
A multimedia content providing method according to the present invention is a multimedia content providing method for providing text information requested by a user and video information corresponding to the text information to the user, wherein the audio is provided based on audio information corresponding to the text information. Performs recognition processing to generate speech recognition text information, compares the speech recognition text information with the text information, divides the speech recognition text information into divided parts based on the delimiter positions of the text information, and starts each divided part. A time code indicating a time and an end time is generated, and the generated time code and text information are structured in association with each predetermined divided portion, and the text information, the video information, and the time code are stored. Identify the segment in the text information that matches the search condition entered by the user, Extracting a time code corresponding to the divided portion, specifying a portion of video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching a search condition. .
[0021]
The multimedia content providing method according to the present invention may be configured such that, when providing video information to a user, text information corresponding to the video information is provided to the user in conjunction with the video information. According to such a configuration, it is possible to provide text information and video information desired by the user in a format that is easy to view according to the user's request.
[0022]
A multimedia content providing program according to the present invention provides a computer with a process of generating speech recognition text information by performing speech recognition processing based on speech information corresponding to text information, and comparing the speech recognition text information with the text information. Processing to divide the speech recognition text information into divided parts based on the delimiter positions of the text information, processing to generate time codes indicating the start time and end time of each divided part, and the generated time code and text Processing for associating information with each predetermined divided part, structuring text information, video information, and time code; and dividing divided parts of text information that matches a search condition input by a user. A process for specifying, a process for extracting a time code corresponding to the specified divided portion, and a process for extracting the time code. Identifying portions of the image information corresponding to the time code, the specified image information, characterized in that to execute a process of providing the user with the text data matching the search keyword.
[0023]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a multimedia content structuring system according to a first embodiment of the present invention. In the system shown in FIG. 1, the content holder 1 owns a video medium on which video information is recorded and a text media on which a document related to the video information is described. Video information and audio information are recorded on the video media.
[0024]
An example of a multimedia content including text information, audio information, and video information is a news program on a television broadcast. In the case of a news program, the news manuscript is text media, the audio read out by the announcer is audio information, and the video information is video information related to the audio. The operator 2 receives the video media and the text media from the content holder 1, and inputs the video media and the text media to the multimedia content device.
[0025]
The multimedia content device includes a synchronous data generating unit 3 and a synchronous data using unit 5. The synchronous data generating means 3 includes a video input means 6, a text input means 7, a voice recognition means 8, a time code generating means 9, a mapping means 10, a structuring means 11, and a data storing means 12. Is done. The data storage unit 12 includes a video media storage unit 13, a text media storage unit 14, and a time code storage unit 15. The synchronous data using unit 5 includes an input / output unit 16, a search control unit 17, and a synchronizing unit 18. However, the input / output means 16 shown in FIG. 1 does not have to be included in the multimedia content device, and is, for example, an input / output means such as a keyboard of a personal computer of the user 4.
[0026]
When a video medium is input from the operator 2, the video input means 6 outputs video information and audio information recorded on the video medium to the voice recognition means 8 when the video medium is a digital medium. When the video medium is an analog medium, the video input means 6 includes, for example, a video capture and has a function of converting analog video information and analog audio information into AVI format or MPEG format digital information. Can be Then, the video input unit 6 performs digital conversion on the video information and the audio information recorded on the video media, digitizes the video information and the audio information, and outputs the digitized data to the voice recognition unit 8. The voice recognition unit 8 performs voice recognition processing on the input voice information, and generates voice recognition text information that is text information as a result of the voice recognition processing. Further, the voice recognition means 8 divides the voice information into each word.
[0027]
The time code generation means 9 outputs to the voice recognition means 8 a word time code which is information on the start time and end time of each word in the voice information. The voice recognition unit 8 adds a word time code to the voice recognition text information and outputs the text information together with the video information to the mapping unit 10. Therefore, in this embodiment, the time code generation means 9 sets the time indicating the start time and end time of each divided part when the speech recognition text information is divided into a plurality of divided parts (for example, a plurality of paragraphs). A word time code is generated as information for generating a code.
[0028]
The text input means 7 receives text media from the operator 2. If the text medium is a digital medium, the text input means 7 outputs text information recorded on the text medium to the mapping means 10. If the text medium is an analog medium, the text input means 7 is configured to include, for example, an OCR (optical character reading) device. Then, digital conversion is performed on the text information recorded on the text medium, and the digitized text information is output to the mapping unit 10.
[0029]
The mapping means 10 divides the text information into divided parts at appropriate intervals. Here, for example, paragraphs, which are a group of sentences, are detected by detecting line breaks, indents, and the like, and text information is delimited using a line feed point or the like as a delimiter. Further, the mapping means 10 compares the text information with the speech recognition text information, and separates the speech recognition text information based on a break position in the text information to generate paragraph speech recognition text information. Further, correspondence information that is information indicating one-to-one correspondence between each paragraph (delimited text information) and each paragraph speech recognition text information in the text information is generated. Then, the corresponding information is output to the structuring unit 11 together with the paragraph speech recognition text information and the text information.
[0030]
The structuring unit 11 calculates each time code that is a start time and an end time of each paragraph from the word time code added to each word in the paragraph speech recognition text information. Further, the structuring unit 11 generates structured information, which is information indicating a one-to-one correspondence between each paragraph of the text information and each time code, based on the time code and the correspondence information.
[0031]
The structuring unit 11 generates a text media file for storing text information and a time code file for storing time code based on the structured information, and also generates a video media file for storing video information.
[0032]
For example, a text media file stores text information in each paragraph in the order of paragraphs, and a time code file stores time codes corresponding to each paragraph in the same order as the paragraphs in the text information. Note that a plurality of text media files, each corresponding to each paragraph, and a time code file may be generated.
[0033]
Next, the structuring unit 11 outputs the video media file, the text media file, and the time code file to the data storage unit 12. The video media storage means 13 in the data storage means 12 stores a video media file, the text media storage means 14 in the data storage means 12 stores a text media file, and the time code storage means 15 in the data storage means 12 Store the time code file. In this example, the storage means for storing the text information and the video information correspond to the video media storage means 13 and the text media storage means 14, and the time code storage means for storing the time code of each divided portion is the time code storage means. It corresponds to the means 15.
[0034]
The video information may be supplied from the video input unit 6 to the data storage unit 12 via the voice recognition unit 8, the mapping unit 10, and the structuring unit 10. The information may be supplied to the storage unit 12.
[0035]
Further, even if the structuring unit 11 generates, as management information, a start address and an end address of each paragraph of the text information in the text media file and a start address and an end address of the time code of each paragraph in the time code file. Good. At this time, the multimedia content device has a configuration including a management file storage unit 23 for storing management information in the data storage unit 12, as shown in FIG. Then, the structuring unit 11 outputs the management information to the management file storage unit 23, and the management file storage unit 23 stores the management information.
[0036]
Alternatively, the structuring unit 11 may generate a structured text medium including a time code, which is a combination of text information and a time code, as shown in FIG. At this time, the multimedia content device does not have the time code storage means 15, and the data conversion means 12 has a configuration shown in FIG.
[0037]
Further, there is a method in which the structuring unit 11 generates an XML file having a structural description in an MPEG7 (moving picture expert group 7) format in an XML (extensible markup language) language as shown in FIG. In the case of generating an XML file, the multimedia content apparatus has a configuration shown in FIG. 4 in which the data storage unit 12 does not include the text media storage unit 14 and the time code storage unit 15, but includes the XML file storage unit 24. become. Then, the structuring unit 11 outputs the XML file to the XML file storage unit 24, and the XML file storage unit 24 stores the XML file. In this example, the storage means for storing the video information corresponds to the video media storage means 12, and the XML file storage means for storing the time code, the text information, and the XML language describing the information indicating the storage position of the video information. Corresponds to the XML file storage means 24.
[0038]
When requesting desired video information and text information, the user 4 inputs a word serving as a keyword to the synchronous data using means 5. Then, the input / output unit 16 outputs the phrase input by the user 4 to the search control unit 17. The search control unit 17 searches for the paragraph of the text information including the phrase from the text media storage unit 14 (in the configuration shown in FIGS. 2 and 3) or the XML file storage unit 24 (in the configuration shown in FIG. 4). The corresponding paragraph of text information is output to the input / output means 16. Further, when the user 4 selects a paragraph of certain text information, the input / output unit 16 requests the search control unit 17 to output video information synchronized with the text information selected by the user 4.
[0039]
The retrieval control unit 17 extracts the video information from the video media storage unit 13 and stores the time code of the paragraph of the text information selected by the user 4 in the time code storage unit 15 (in the case of the configuration shown in FIG. 2), the text media storage unit 14 (in the case of the configuration shown in FIG. 3) or from the XML file storage means 24 (in the case of the configuration shown in FIG. 4), and outputs it to the synchronization means 18. The synchronization unit 18 outputs the video information to the input / output unit 16 with the start time indicated by the time code as the start time of the output of the video information and the end time indicated by the time code as the end time of the output of the video information. Further, the synchronizing means 18 processes the text information based on the time code and outputs the processed text information to the input / output means 16. As a processing at this time, for example, there is a method of scrolling text information.
[0040]
Note that the synchronous data generating means 3 and the synchronous data using means 5 can be realized by a computer system. However, the input / output unit 16 corresponds to an input / output unit such as a keyboard or a display unit of a microcomputer on the user side. When the synchronous data generating means 3 and the synchronous data using means 5 (excluding the input / output means) are realized by a computer system, the voice recognition means 8, the time code generating means 9, the mapping means 10, the structuring means 11, The search control unit 17 and the synchronization unit 18 are realized by software. The data storage unit 12 is realized by a storage medium such as a magnetic disk in a computer system.
[0041]
Specifically, software implemented in the computer system performs a speech recognition process based on speech information corresponding to the text information to generate speech recognition text information, and compares the speech recognition text information with the text information. Processing for dividing the speech recognition text information into divided parts based on the delimiter positions of the text information, processing for generating time codes indicating the start time and end time of each of the divided parts, A process for structuring the text information and the video information in association with each predetermined divided portion, a process for storing the text information, the video information and the time code, and a search condition input by the user. Processing to specify the divided part in the text information that matches with, and extracting the time code corresponding to the specified divided part. Includes a process of, identifies the image information corresponding to the extracted time code, the identified image information, a program for executing the process of providing the user with the text data matching the search keyword.
[0042]
Next, the operation of this embodiment will be described with reference to the drawings. FIGS. 7, 9 and 10 are flowcharts for explaining the operation of this embodiment. 11 and 12 are explanatory diagrams showing display examples when the input / output means 16 inputs / outputs information.
[0043]
Taking a news program in a television broadcast as an example, the content holder 1 corresponds to a news program production company, and the operator 2 corresponds to a management department in the production company or a management company entrusted with news distribution. Also, the user 4 requests information from the synchronous data using means 5 via a Web browser mounted on a personal computer and the Internet, for example, and transmits information from a desired synchronous data using means 5 via the Internet and the Web browser. Receive.
[0044]
First, the process of storing a video media file, a time code file, a text media file, a management file, or an XML file in the data storage unit 12 will be described with reference to FIG. It is assumed that a video medium in which video information (including audio information) of a news program is recorded and a text medium in which a manuscript read by an announcer in a news program is transmitted from the content holder 1 to the operator 2. The audio information recorded on the video media is audio information based on the sound of the announcer who has read the original. That is, the text information recorded on the text media and the audio information recorded on the video media have the same contents. The operator 2 inputs the video media and the text media to the synchronous data generator 3.
[0045]
The synchronous data generation means 3 receives the video media and the text media from the operator 2 (Step S101). The text medium is received by the text input means 7, and when the text medium is a digital medium, outputs text information recorded on the text medium to the mapping means 10. If the text medium is not a digital medium, the text information recorded on the text medium is digitized using OCR or the like (steps S102, S103) and output to the mapping means 10. The mapping means 10 temporarily stores text information. Specifically, the text information is stored in a RAM or the like in the computer system.
[0046]
The video media is input to the video input means 6. The video input means 6 outputs video information (including audio information) recorded on the video medium to the voice recognition means 8 when the video medium is a digital medium, and outputs the video information when the video medium is not a digital medium. Then, the video information (including audio information) recorded on the video media is digitized (steps S104 and S105) and output to the audio recognition means 8.
[0047]
The voice recognition unit 8 performs voice recognition processing on voice information recorded on the voice track of the video media, and generates voice recognition text information (step S106). Further, the speech recognition unit 8 performs a word cutout process on the speech recognition text information, and divides the speech information into each word. The audio recognition unit 8 outputs the video information to the time code generation unit 9 and outputs information indicating the division position of the audio information to the time code generation unit 9. The time code generation unit 9 generates the audio information of each word based on the reproduction start timing of the video information and the audio information, the elapsed time from the reproduction start timing, and the information indicating the division position of the audio information from the audio recognition unit 8. A word time code, which is a start time and an end time, is generated for each word and output to the voice recognition means 8. The voice recognition means 8 assigns a word time code of each word to each word. Then, the word time code is added to the speech recognition text information and output to the mapping means 10 together with the video information (steps S107 and S108).
[0048]
The mapping unit 10 detects a paragraph, which is a group of sentences, from text information, for example, by line feed or indentation, and divides the text information into paragraphs. Further, the text information is compared with the speech recognition text information. Then, the speech recognition text information is divided into paragraphs based on the paragraph break positions of the text information, and paragraph speech recognition text information is generated. Further, correspondence information, which is information indicating a one-to-one correspondence between each paragraph of the text information and the paragraph speech recognition text information, is generated (step S109), and the correspondence information is structured together with the paragraph speech recognition text information and the text information. Output to means 11.
[0049]
FIG. 8 shows an example of the association by the mapping means 10. In FIG. 8, “Good evening”, “7 o'clock”, “No”, “News”, and “Is” in a news manuscript 500 that is text information, and “Good evening” and “Good evening” in speech recognition text information in a speech recognition result 510. Compare "primary", "of", "news" and "at". In this way, words are sequentially compared. By using the DP matching technique as the comparison technique, it is possible to detect the break position in the speech recognition result 510 corresponding to the break position in the news manuscript 500 according to the degree of word matching.
[0050]
The structuring unit 11 calculates a time code that is a start time and an end time of each paragraph in the paragraph speech recognition text information from the word time code added to the paragraph speech recognition text information. The start time and end time of each paragraph can be calculated from the start time of the first word and the end time of the last word of each paragraph. Further, the structuring unit 11 generates, from the time code and the correspondence information, structured information that is information indicating a one-to-one correspondence between each paragraph of the text information and the time code (step S110).
[0051]
The structuring unit 11 generates a text media file for storing text information and a time code file for storing a time code in association with each paragraph based on the structured information. The structuring unit 11 outputs each generated file to the data storage unit 12. The text media storage means 14 stores a text media file, the time code storage means 15 stores a time code file, and the video media storage means 13 stores a video media file (step S111).
[0052]
Here, a structuring method in which the structuring unit 11 associates text information with a time code to generate a text media file and a time code file will be described. First, a method of generating a text media file and a time code file for each paragraph will be described. For example, assume that the file name of the text media file in the first paragraph is “document 1.txt” and the file name of the time code file in the first paragraph is “time 1.txt”. Then, the file of the first paragraph can be associated with the file name excluding the extension with the end of “1”. Similarly, the files of the second paragraph can be associated with each other by setting “document 2.txt” and “time 2.txt” to each other. Similarly, the third and fourth paragraphs can be associated with each other.
[0053]
There is also a method of generating, as management information, a start address and an end address of text information of each paragraph in a text media file and a start address and an end address of time code of each paragraph in a time code file. The correspondence between the text information and the time code can be understood by referring to such management information. At this time, the configuration of the multimedia content device is a configuration in which a management file storage unit 23 is provided in the data storage unit 12, as shown in FIG. Then, the structuring unit 11 outputs management information to the data storage unit 12 in addition to the text media file, the time code file, and the video media file. The text media storage means 14 stores a text media file, the time code storage means 15 stores a time code file, the video media storage means 13 stores a video media file, and the management file storage means 23 stores management information. .
[0054]
The structuring unit 11 may combine the text information and the time code to generate structured text information including the time code, as shown in FIG. At this time, as shown in FIG. 3, the multimedia content device does not include the time code storage unit 15. The structuring unit 11 outputs the text media file and the video media file to the data storage unit 12. The text media storage means 14 stores a text media file, and the video media storage means 13 stores a video media file.
[0055]
Further, as shown in FIG. 6, the structuring unit 11 may generate an XML file with a structural description in the XML language. At this time, in the multimedia content device, the text media storage unit 14 and the time code storage unit 15 are not provided, but the XML file storage unit 24 is provided. Here, a method for generating an XML file with a structural description in the XML language will be described.
[0056]
In this method, the structuring means 11 performs a structural description in a description in the MPEG7 format in the XML language. The operation of the structuring unit 11 will be described with reference to FIGS. 6, 8A and 9. FIG. 6 is an explanatory diagram showing a structural description example. FIG. 8A is an explanatory diagram showing the contents of a news manuscript 500 as an example of a text medium. FIG. 9 is a flowchart for explaining the operation of the structuring means using the XML language.
[0057]
First, the structuring unit 11 sets the <? For XML templates such as the <xml> tag and the <Mpeg7>, which are defined in advance as the MPEG7 standard, the storage location (folder position) of video information in the computer system is determined using the <Media Locator> tag and the <MediaUrl> tag. (Step S201). Here, for example, it is assumed that “C: \ Meta information \ Video data \ News video 020913.mpg”. Note that "C: \ meta information \ video data \ news video 020913.mpg" corresponds to a storage position in the video media storage unit 13 where the structuring unit 11 intends to store video information.
[0058]
Next, the program title information described in the text media is inserted using a <Title> tag within a <CreationInformation> tag (step S202). In the example of FIG. 8A, “news program 020913” is inserted. Then, information on the start time and end time for each paragraph is inserted using the <MediaTime> tag, <MediaRelTimePoint> tag, and <MediaDuration> tag (step S203).
[0059]
Furthermore, the speaker information is inserted using a <Name> tag, a <GivenName> tag, and a <FamilyName> tag (step S204). In the example of FIG. 8A, “announcer” is inserted. Next, text information is inserted using a <TextAnnotation> tag and a <FreeTextAnnotation> tag (step S205). Here, text information is inserted for each paragraph. In the example of FIG. 8A, a paragraph including "Good evening is news at 7 o'clock" is inserted.
[0060]
If the end time of the paragraph inserted in step S203 has not reached the end time of the time code, the process returns to step S203 and inserts information of the next paragraph (step S206). If the end time of the paragraph has reached the last time of the time code, the XML file is output to the data storage unit 12 (step S207). The XML file storage means 23 in the data storage means 12 stores the XML file.
[0061]
Next, the operation when the user 4 searches and extracts the stored data will be described with reference to the flowchart shown in FIG. The user 4 uses a keyboard or the like to input desired search conditions using a search condition input screen of the input / output unit 16 displayed on the computer screen as shown in FIG. 12 (step S301). The input / output unit 16 corresponds to, for example, a keyboard, a display unit, and a communication unit of a personal computer of the user 4. The input / output unit 16 transmits the search condition to the search control unit 17 via the Internet or the like. The search control unit 17 specifies a paragraph of text information having data that matches the search condition from the data storage unit 12 based on the search condition input by the user 4 (step S302). When performing a search, a general search process such as a full-text match search or an AND search based on each search condition can be used.
[0062]
As a result of the search, if there is no corresponding data, the input / output unit 16 is notified that there is no search result. If there is the corresponding data, the search condition input by the user 4 is input from the data storage unit 12. Then, all the paragraphs of the text information that match with are extracted and output to the input / output means 16 (steps S303, S304). Here, it is preferable to extract video information corresponding to the paragraph of the text information.
[0063]
When video information is also extracted, video information and text information can be displayed, for example, as shown in FIG. FIG. 11 shows a display example when a representative image is output as a thumbnail image along with text information. Here, the still image at the start time of the paragraph may be extracted from the video information and output as a thumbnail image, or the most representative still image from the start to the end of the paragraph may be extracted and output. May be. In addition, a moving image from the start time to the end time of a paragraph may be output instead of a still image.
[0064]
The example illustrated in FIG. 11 indicates that “Tama-chan” has been input as the keyword phrase from the user 4, and 12 search results have been output. Next, when the user 4 selects a paragraph including, for example, “the sighting boat of the witness” by clicking the mouse with the input / output unit 16, the input / output unit 16 uses the search control unit. Notify 17. The selection control unit 17 extracts the text information of the paragraph selected by the user 4 and the video information from the data storage unit 12 and outputs the extracted information to the synchronization unit 18. The synchronization means 18 notifies the input / output means 16 that the start time of the time code of the selected paragraph in the video information is set as the head of the reproduction of the video information, and also inputs / outputs the text information of the selected paragraph. Output to the means 16 (step S305).
[0065]
The input / output unit 16 displays, for example, the screen shown in FIG. 12 (a screen having a display of a switch unit such as rewind), reproduces the video information, and selects the selected paragraph in accordance with the reproduction timing of the video information. Is scroll-displayed (step S306). The display of the switch unit such as rewinding and the process of scrolling the text information are executed by the synchronization unit 18. In the example shown in FIG. 12, the text information is reproduced from the position of 9 seconds 97 from the beginning of the video media, and the text information including “the sighting boat of the witness” is in italic characters to indicate that it is the reproduction position. I have. Further, the text information of the paragraph may be scrolled in conjunction with the reproduction status of the video information.
[0066]
As described above, the portion of the video information corresponding to the extracted time code is specified, and the specified video information is provided to the user 4 via the input / output unit 16. Further, the synchronization unit 18 provides the text information corresponding to the video information to the user in association with the video information.
[0067]
Next, a second embodiment according to the present invention will be described. The difference from the first embodiment is that the time code generation unit 19 is connected to the structuring unit 21, and the other configurations are the same as those of the first embodiment. The difference from the first embodiment is the method of detecting the break position in the speech recognition text information. The detection of the break position in the speech recognition text information is related to the operation of the synchronous data generating means 3. Specifically, it relates to the operation of the voice recognition unit 28, the time code generation unit 19, the mapping unit 20, and the structuring unit 21. Therefore, the same operation means as in the first embodiment are denoted by the same reference numerals as those in FIG. 1 and the description is omitted.
[0068]
The configuration of the second embodiment will be described. FIG. 13 is a block diagram of this embodiment. In this embodiment, the time code generation unit 19 is connected to the voice recognition unit 28 and the structuring unit 21. The voice recognition unit 28 determines that a location where a predetermined silent section exists in the voice information is a sentence end position, that is, a sentence break. Further, the voice recognition unit 28 outputs the received video information to the time code generation unit 19. Then, the voice recognition unit 28 outputs information indicating a sentence break to the time code generation unit 19.
[0069]
The time code generation unit 19 determines the start time of each sentence in the audio information based on the reproduction start timing of the video information and audio information, the elapsed time from the reproduction start timing, and the information indicating the sentence break from the audio recognition unit 28. A sentence time code, which is information on the end time, is generated and output to the structuring unit 21. Therefore, in this embodiment, the time code generating means 19 generates the time code indicating the start time and end time of each divided part when the speech recognition text information is divided into predetermined divided parts. Generate sentence timecode.
[0070]
Next, the operation of the second embodiment will be described. FIG. 14 is a flowchart for explaining this embodiment. The synchronous data generator 3 receives the video media and the text media from the operator 2 (Step S401). The text media is input to the text input unit 7. The text input means 7 outputs text information recorded on the text medium to the mapping means 20 when the text medium is a digital medium, and outputs OCR or the like when the text medium is not a digital medium. Then, the text information recorded on the text medium is digitized (steps S402 and S403) and output to the mapping means 20.
[0071]
Video information (including audio information) is input to the video input means 6. The video input means 6 outputs video information recorded on the video medium to the audio recognition means 28 when the video medium is a digital medium, and outputs the video information when the video medium is not a digital medium. The video information is digitized (steps S404 and S405) and output to the voice recognition means 28. The voice recognition unit 28 performs a voice recognition process on the voice information recorded on the voice track of the video media (step S406), generates voice recognition text information, and outputs it to the mapping unit 20. Also, if there is a silence period longer than a predetermined time in the audio information, it is determined that the silence period is a delimiter of a sentence of the text information, the audio information is delimited, and information indicating the delimiter of the sentence is generated by time code generation. Output to means 19.
[0072]
The time code generation means 19 generates a sentence time code which is information on the start time and end time of each sentence in the voice information (step S407), and outputs it to the structuring means 21.
[0073]
As in the first embodiment, the mapping means 20 detects the break position in the speech recognition text information based on the break position in the text information, and generates paragraph speech recognition text information. The method of comparing the speech recognition text information and the text information at this time is the same as the method in the first embodiment using the DP matching technique. Further, correspondence information which is information indicating a one-to-one correspondence between each paragraph (delimited text information) and each paragraph speech recognition text information in the text information is generated (step S408). Then, the corresponding information is output to the structuring unit 21 together with the paragraph speech recognition text information and the text information. It should be noted that a single paragraph speech recognition text information may include a plurality of sentences, that is, a sentence segment detected by the speech recognition unit 28. In that case, the mapping means 20 also outputs information indicating that to the structuring means 21.
[0074]
The structuring unit 21 generates, from the sentence time code and the correspondence information, structured information that is information indicating a one-to-one correspondence between the text information and the time code for each paragraph (step S409). As in the case of the first embodiment, the structuring unit 21 associates a text media file storing text information and a time code file storing time code with each paragraph based on the structured information. Generate it.
[0075]
A structuring method for generating a text media file and a time code file by associating text information with a time code is the same as in the first embodiment. However, in this embodiment, the paragraph start time and the end time are calculated from the start time of the first sentence and the end time of the last sentence in the paragraph speech recognition text information. The structuring unit 21 outputs the generated files to the data storage unit 12. The video media storage means 13 stores a video media file, the text media storage means 14 stores a text media file, and the time code storage means 15 stores a time code file (step S410).
[0076]
In this embodiment, the time code generation means 19 outputs the sentence time code to the structuring means 21, but outputs the sentence time code to the speech recognition means 28 as in the first embodiment. You may make it. In that case, information indicating the start time and end time of each sentence is added to each sentence in the paragraph speech recognition text information.
[0077]
【The invention's effect】
As described above, according to the present invention, the text information is compared with the audio information of the audio information and the video information corresponding to the text information, so that the time code is automatically associated with the text information. Text information and video information can be structured at low cost via the time code.
[0078]
In addition, a divided part in the text information that matches the search condition input by the user is specified, a time code corresponding to the specified divided part is extracted, and video information corresponding to the extracted time code is specified and specified. By providing the video information to the user, desired video information can be provided to the user.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration example in a case where the data storage means of the present invention includes a management file storage means.
FIG. 3 is a block diagram showing a configuration example in a case where the data storage means of the present invention does not include a time code storage means.
FIG. 4 is a block diagram showing a configuration example in a case where an XML file storage unit is included in the data storage unit of the present invention.
FIG. 5 is an explanatory diagram showing an output example of a structuring unit.
FIG. 6 is an explanatory diagram showing an example of a structural description in an MPEG7 format in an XML language.
FIG. 7 is a flowchart illustrating an operation of a synchronous data generation unit according to the first embodiment of the present invention.
FIG. 8 is an explanatory diagram for explaining an operation of a mapping unit.
FIG. 9 is a flowchart for explaining the operation of the structuring unit using the XML language.
FIG. 10 is a flowchart illustrating an operation of a synchronous data using unit according to the first embodiment of the present invention.
FIG. 11 is an explanatory diagram showing an output example of a search condition input screen of the input / output means.
FIG. 12 is an explanatory diagram showing an output example of a search result.
FIG. 13 is a block diagram showing a second embodiment of the present invention.
FIG. 14 is a flowchart showing the operation of the synchronous data generation means in the operation of the second embodiment of the present invention.
[Explanation of symbols]
1 Content holder
2 Operator
3 Synchronous data generation means
4 users
5 Synchronous data utilization means
6 Image input means
7 Text input means
8 Voice recognition means
9 Time code generation means
10 Mapping means
11 structuring means
12 Data storage means
13 Video media storage means
14 Text media storage means
15 Time code storage means
16 Input / output means
17 Search control means
18 Synchronization means
19 Time code generation means
20 Mapping means
21 Structuring means
23 Management file storage means
24 XML file storage means
28 Voice Recognition Means
500 news manuscript
510 speech recognition result

Claims (12)

テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、前記テキスト情報と前記映像情報とを対応付けるためのマルチメディアコンテンツ構造化方法において、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割し、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する
ことを特徴とするマルチメディアコンテンツ構造化方法。
Text information, audio information and video information corresponding to the text information is input, and in the multimedia content structuring method for associating the text information with the video information,
Performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Comparing the speech recognition text information and the text information, dividing the speech recognition text information into divided parts based on a delimiter position of the text information,
Generating a time code indicating a start time and an end time of each of the divided parts;
A multimedia content structuring method, wherein the generated time code and the text information are structured in association with each other for each predetermined divided portion.
テキスト情報と映像情報とを格納手段に格納し、各分割部分のタイムコードをタイムコード格納手段に格納する
請求項1記載のマルチメディアコンテンツ構造化方法。
2. The multimedia content structuring method according to claim 1, wherein the text information and the video information are stored in the storage means, and the time code of each divided part is stored in the time code storage means.
映像情報を格納手段に格納し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述する
請求項1記載のマルチメディアコンテンツ構造化方法。
2. The multimedia content structuring method according to claim 1, wherein the video information is stored in a storage unit, and time code, text information, and information indicating a storage position of the video information are described in an XML language.
テキスト情報と、そのテキスト情報に対応する音声情報および映像情報を入力し、前記テキスト情報と前記映像情報とを対応付けるためのマルチメディアコンテンツ構造化装置において、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する音声認識手段と、
前記音声認識テキスト情報を所定の分割部分に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報を生成するタイムコード生成手段と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を前記分割部分に分割し、前記テキスト情報の区切り位置で区切られる分割部分と前記音声認識テキスト情報における前記分割部分とを対応付けるマッピング手段と、
前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付ける構造化手段と
を備えたことを特徴とするマルチメディアコンテンツ構造化装置。
Text information, audio information and video information corresponding to the text information is input, and in the multimedia content structuring apparatus for associating the text information with the video information,
Voice recognition means for performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Time code generation means for generating information for generating a time code indicating a start time and an end time of each divided part when the speech recognition text information is divided into predetermined divided parts,
The speech recognition text information is compared with the text information, and the speech recognition text information is divided into the divided portions based on a delimiter position of the text information. Mapping means for associating the divided part with the recognized text information,
A multimedia content structuring apparatus, comprising: structuring means for associating the time code with the text information for each predetermined divided portion.
テキスト情報と映像情報とを格納する格納手段と、各分割部分のタイムコードを格納するタイムコード格納手段とを備えた
請求項4記載のマルチメディアコンテンツ構造化装置。
5. The multimedia content structuring apparatus according to claim 4, further comprising storage means for storing text information and video information, and time code storage means for storing a time code of each divided portion.
映像情報を格納する格納手段を備え、
構造化手段は、タイムコード、テキスト情報、および映像情報の格納位置を示す情報をXML言語で記述してXMLファイル格納手段に格納する
請求項4記載のマルチメディアコンテンツ構造化装置。
Storage means for storing video information,
5. The multimedia content structuring apparatus according to claim 4, wherein the structuring means describes information indicating a storage position of the time code, the text information, and the video information in an XML language and stores the information in the XML file storage means.
ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、特定した前記分割部分に対応するタイムコードを抽出する検索制御手段と、
抽出された前記タイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する同期手段と
を備えた請求項4から請求項6のうちのいずれか1項に記載のマルチメディアコンテンツ構造化装置。
Search control means for specifying a divided part in the text information that matches the search condition input by the user, and extracting a time code corresponding to the specified divided part;
7. Synchronizing means for identifying a portion of the video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching a search condition. The multimedia content structuring device according to any one of claims 1 to 4.
同期手段は、映像情報に対応するテキスト情報を、前記映像情報に連動させてユーザに提供する
請求項7記載のマルチメディアコンテンツ構造化装置。
The multimedia content structuring apparatus according to claim 7, wherein the synchronization means provides text information corresponding to the video information to the user in association with the video information.
コンピュータに、テキスト情報に対応する音声情報および映像情報における前記映像情報と前記テキスト情報とを対応付けるための処理を実行させるマルチメディアコンテンツ構造化プログラムであって、
コンピュータに、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割する処理と、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する処理と
を実行させるためのマルチメディアコンテンツ構造化プログラム。
A multimedia content structuring program for causing a computer to execute a process for associating the video information with the text information in audio information and video information corresponding to text information,
On the computer,
A process of performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information;
Comparing the speech recognition text information and the text information, and dividing the speech recognition text information into divided parts based on a delimiter position of the text information;
A process of generating a time code indicating a start time and an end time of each of the divided parts;
A multimedia content structuring program for executing a process of structuring the generated time code and the text information in association with each other for each predetermined divided portion.
ユーザが要求するテキスト情報、および前記テキスト情報に対応する映像情報をユーザに提供するマルチメディアコンテンツ提供方法において、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成し、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割し、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成し、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化し、
前記テキスト情報と、前記映像情報と、前記タイムコードとを格納し、
ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定し、
特定された前記分割部分に対応するタイムコードを抽出し、
抽出された前記タイムコードに対応する映像情報の部分を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する
ことを特徴とするマルチメディアコンテンツ提供方法。
In a multimedia content providing method for providing a user with text information requested by a user and video information corresponding to the text information,
Performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information,
Comparing the speech recognition text information and the text information, dividing the speech recognition text information into divided parts based on a delimiter position of the text information,
Generating a time code indicating a start time and an end time of each of the divided parts;
The generated time code and the text information are structured in association with each predetermined divided portion,
Storing the text information, the video information, and the time code,
Identify the segment in the text information that matches the search condition entered by the user,
Extracting a time code corresponding to the specified divided portion;
A multimedia content providing method comprising: specifying a portion of video information corresponding to the extracted time code; and providing the specified video information to a user together with text information matching search conditions.
映像情報をユーザに提供する際に、前記映像情報に対応するテキスト情報を前記映像情報に連動させてユーザに提供する
請求項10記載のマルチメディアコンテンツ提供方法。
The multimedia content providing method according to claim 10, wherein when providing the video information to the user, text information corresponding to the video information is provided to the user in conjunction with the video information.
コンピュータに、ユーザの要求に応じた映像情報とテキスト情報とを提供する処理を実行させるためのマルチメディアコンテンツ提供プログラムであって、
コンピュータに、
前記テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、
前記音声認識テキスト情報と前記テキスト情報とを比較し、前記テキスト情報の区切り位置にもとづいて前記音声認識テキスト情報を分割部分に分割する処理と、
それぞれの前記分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、
生成された前記タイムコードと前記テキスト情報とを所定の分割部分毎に対応付けて構造化する処理と、
前記テキスト情報と、前記映像情報と、前記タイムコードとを格納する処理と、
ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、
特定された前記分割部分に対応するタイムコードを抽出する処理と、
抽出された前記タイムコードに対応する映像情報を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する処理と
を実行させるためのマルチメディアコンテンツ構造化プログラム。
A multimedia content providing program for causing a computer to execute a process of providing video information and text information according to a user request,
On the computer,
A process of performing voice recognition processing based on voice information corresponding to the text information to generate voice recognition text information;
Comparing the speech recognition text information and the text information, and dividing the speech recognition text information into divided parts based on a delimiter position of the text information;
A process of generating a time code indicating a start time and an end time of each of the divided parts;
A process of structuring the generated time code and the text information in association with each predetermined divided portion,
A process of storing the text information, the video information, and the time code;
A process of specifying a divided portion in text information that matches a search condition input by a user;
A process of extracting a time code corresponding to the specified divided portion;
A multimedia content structuring program for executing a process of specifying video information corresponding to the extracted time code, and providing the specified video information to a user together with text information matching search conditions.
JP2002317244A 2002-10-31 2002-10-31 Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof Withdrawn JP2004152063A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002317244A JP2004152063A (en) 2002-10-31 2002-10-31 Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002317244A JP2004152063A (en) 2002-10-31 2002-10-31 Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof

Publications (1)

Publication Number Publication Date
JP2004152063A true JP2004152063A (en) 2004-05-27

Family

ID=32460689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002317244A Withdrawn JP2004152063A (en) 2002-10-31 2002-10-31 Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof

Country Status (1)

Country Link
JP (1) JP2004152063A (en)

Cited By (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171096A (en) * 2004-12-13 2006-06-29 Ntt Docomo Inc Continuous input speech recognition device and continuous input speech recognizing method
JP2007011893A (en) * 2005-07-01 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> Browsing method and device for rss document, program and storage medium storing program
JP2007156286A (en) * 2005-12-08 2007-06-21 Hitachi Ltd Information recognition device and information recognizing program
JP2007293602A (en) * 2006-04-25 2007-11-08 Nec Corp System and method for retrieving image and program
WO2008066166A1 (en) * 2006-11-30 2008-06-05 National Institute Of Advanced Industrial Science And Technology Web site system for voice data search
CN101079301B (en) * 2006-07-28 2010-06-09 埃里克·路易斯·汉森 Time sequence mapping method for text to audio realized by computer
CN102324191A (en) * 2011-09-28 2012-01-18 Tcl集团股份有限公司 Method and system for synchronously displaying audio book word by word
JP2013008357A (en) * 2011-06-03 2013-01-10 Apple Inc Automatic creation of mapping between text data and audio data
JP2014519058A (en) * 2011-06-03 2014-08-07 アップル インコーポレイテッド Automatic creation of mapping between text data and audio data
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9190062B2 (en) 2010-02-25 2015-11-17 Apple Inc. User profiling for voice input processing
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
JP2016522916A (en) * 2013-03-26 2016-08-04 サムスン エレクトロニクス カンパニー リミテッド HTML page presentation apparatus and method
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
JP2016157176A (en) * 2015-02-23 2016-09-01 株式会社プロフィールド Data processing apparatus, data structure, data processing method, and program
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
CN106682060A (en) * 2015-11-11 2017-05-17 奥多比公司 Structured Knowledge Modeling, Extraction and Localization from Images
JP2017090921A (en) * 2016-12-13 2017-05-25 株式会社プロフィールド Data processing apparatus, data structure, data processing method, and program
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
CN108769638A (en) * 2018-07-25 2018-11-06 京东方科技集团股份有限公司 A kind of control method of projection, device, projection device and storage medium
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Cited By (187)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
JP2006171096A (en) * 2004-12-13 2006-06-29 Ntt Docomo Inc Continuous input speech recognition device and continuous input speech recognizing method
JP2007011893A (en) * 2005-07-01 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> Browsing method and device for rss document, program and storage medium storing program
JP4586652B2 (en) * 2005-07-01 2010-11-24 日本電信電話株式会社 RSS document browsing method and apparatus, program, and storage medium storing program
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007156286A (en) * 2005-12-08 2007-06-21 Hitachi Ltd Information recognition device and information recognizing program
JP2007293602A (en) * 2006-04-25 2007-11-08 Nec Corp System and method for retrieving image and program
CN101079301B (en) * 2006-07-28 2010-06-09 埃里克·路易斯·汉森 Time sequence mapping method for text to audio realized by computer
US9117447B2 (en) 2006-09-08 2015-08-25 Apple Inc. Using event alert text as input to an automated assistant
US8942986B2 (en) 2006-09-08 2015-01-27 Apple Inc. Determining user intent based on ontologies of domains
US8930191B2 (en) 2006-09-08 2015-01-06 Apple Inc. Paraphrasing of user requests and results by automated digital assistant
GB2458238A (en) * 2006-11-30 2009-09-16 Aist Web site system for voice data search
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search
JP2008158511A (en) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology Web site system for voice data search
WO2008066166A1 (en) * 2006-11-30 2008-06-05 National Institute Of Advanced Industrial Science And Technology Web site system for voice data search
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8903716B2 (en) 2010-01-18 2014-12-02 Apple Inc. Personalized vocabulary for digital assistant
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9190062B2 (en) 2010-02-25 2015-11-17 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
KR101674851B1 (en) * 2011-06-03 2016-11-09 애플 인크. Automatically creating a mapping between text data and audio data
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
KR20150085115A (en) * 2011-06-03 2015-07-22 애플 인크. Automatically creating a mapping between text data and audio data
JP2014519058A (en) * 2011-06-03 2014-08-07 アップル インコーポレイテッド Automatic creation of mapping between text data and audio data
JP2013008357A (en) * 2011-06-03 2013-01-10 Apple Inc Automatic creation of mapping between text data and audio data
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
CN102324191A (en) * 2011-09-28 2012-01-18 Tcl集团股份有限公司 Method and system for synchronously displaying audio book word by word
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
JP2016522916A (en) * 2013-03-26 2016-08-04 サムスン エレクトロニクス カンパニー リミテッド HTML page presentation apparatus and method
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP2016157176A (en) * 2015-02-23 2016-09-01 株式会社プロフィールド Data processing apparatus, data structure, data processing method, and program
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN106682060A (en) * 2015-11-11 2017-05-17 奥多比公司 Structured Knowledge Modeling, Extraction and Localization from Images
CN106682060B (en) * 2015-11-11 2022-03-15 奥多比公司 Modeling, extracting, and localizing from structured knowledge of images
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
JP2017090921A (en) * 2016-12-13 2017-05-25 株式会社プロフィールド Data processing apparatus, data structure, data processing method, and program
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
CN108769638A (en) * 2018-07-25 2018-11-06 京东方科技集团股份有限公司 A kind of control method of projection, device, projection device and storage medium
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
US11064244B2 (en) 2019-12-13 2021-07-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework

Similar Documents

Publication Publication Date Title
JP2004152063A (en) Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof
JP4127668B2 (en) Information processing apparatus, information processing method, and program
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
US6636238B1 (en) System and method for linking an audio stream with accompanying text material
JP5588561B2 (en) Media content providing method and apparatus
US20080177536A1 (en) A/v content editing
US20050228665A1 (en) Metadata preparing device, preparing method therefor and retrieving device
CN110781328A (en) Video generation method, system, device and storage medium based on voice recognition
JP4354441B2 (en) Video data management apparatus, method and program
US20110252447A1 (en) Program information display apparatus and method
JP4192703B2 (en) Content processing apparatus, content processing method, and program
JP2005115607A (en) Video retrieving device
JP3781715B2 (en) Metadata production device and search device
JP4734048B2 (en) Information search device, information search method, and information search program
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
JP2006129122A (en) Broadcast receiver, broadcast receiving method, broadcast reception program and program recording medium
JP2006186426A (en) Information retrieval display apparatus, information retrieval display method, and information retrieval display program
JP2005092295A (en) Meta information generating method and device, retrieval method and device
KR100451004B1 (en) Apparatus and Method for Database Construction of News Video based on Closed Caption and Method of Content-based Retrieval/Serching It
JP2008252322A (en) Apparatus and method for summary presentation
JP2007199315A (en) Content providing apparatus
JP2008022292A (en) Performer information search system, performer information obtaining apparatus, performer information searcher, method thereof and program
JP2010055259A (en) Image processing apparatus, image processing program, and image processing method
JP2007293602A (en) System and method for retrieving image and program
JP2004134909A (en) Content comment data generating apparatus, and method and program thereof, and content comment data providing apparatus, and method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050822

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051117

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090310

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090410

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090522

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090619

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100419