CN1168035C - 多媒体数据检索装置和方法 - Google Patents
多媒体数据检索装置和方法 Download PDFInfo
- Publication number
- CN1168035C CN1168035C CNB991097130A CN99109713A CN1168035C CN 1168035 C CN1168035 C CN 1168035C CN B991097130 A CNB991097130 A CN B991097130A CN 99109713 A CN99109713 A CN 99109713A CN 1168035 C CN1168035 C CN 1168035C
- Authority
- CN
- China
- Prior art keywords
- characteristic
- content
- data
- retrieval
- client terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Abstract
本发明的多媒体数据检索装置包括有:用于存储多种压缩内容的内容存储部分;用于输入特征数据的客户机终端;用于由内容存储部分读取从至少一个压缩内容提取的特征数据和存储此至少一压缩内容的特征数据的特征数据存储部分;和用于从存储于特征数据存储部分的特征数据中选择接近于通过客户机终端输入的特征数据的特征数据和由该内容存储部分检索具有所选特征数据的内容的内容检索部分。
Description
技术领域
本发明是关于一被置于存储多种表述图象、声音等等的内容的服务器与希望检索内容的客户机之间的多媒体数据检索装置,此装置用于搜索其内容以检取客户机所希望的内容并将检取的内容提供给客户机,以及用于这样的检索装置的检索方法。
背景技术
通常的用于搜索多媒体内容的系统是生成表述各内容的轮廓的微缩图形。连同这样的微缩图形一起,表述内容的特征例如图象大小和主要色彩信息的数据被产生来作为特征数据。这样的特征数据被直接选下来检索对应于此选定特征数据的内容。
图17为一说明通常的多媒体内容检索系统的结构的视图。参看图17,多媒体内容被存储在安装在盘驱动器101的盘103上。此内容在文件服务器102的控制下由盘103进行读取,通过通信线路106传送到客户机方,并在一计算机105的显示器104上显示。
客户机输入一如图18中所示的对一所希望内容的特征关键词以简化所希望内容的检索。予先在盘103中以如图18中所示的表的形式存放表述盘103中所存的多种内容的特征的特性数据。计算机105将由客户机输入的特征关键词与存放在盘103中的特征数据相比较,选择一定数量的、按最近似到较欠近似的顺序接近此特征关键词的特征数据,和在显示器104上显示具有被选择特征数据的内容的微缩图形。客户机通过参照所显示的微缩图形来选择一合适的内容,由此来获取所希望的内容。
例如US专利No.5761655“图形文件存储和检索系统”中即揭示有上述检索技术。
上面的通常的检索技术具有这样的缺点,即,在内容于存储之前被以一编码方法压缩的情况下,必须首先对压缩数据进行去压缩以生成非压缩内容,再根据此非压缩内容生成特征数据。另一缺点是如果未予先生成特征数据就不可能进行高速度检索。
在上述通常的检索技术中,要求用户以低级关键词如颜色、宽度和高度来表达所希望内容的特征。当希望作高级检索时,客户机就不可能利用高级表达式,例如说采用“一个人在黄昏落日下奔跑的情景”。
发明内容
本发明的多媒体数据检索装置包括有:一种多媒体数据检索装置,包括:内容存储部分,用于存放多种压缩内容;客户机终端;特征数据存储部分,用于从内容存储部分读取从至少一个压缩内容提取的特征数据,并将该至少一个压缩内容的特征数据存储在一个特征数据存储器内;和内容检索部分,连接到上述客户机终端与特征数据存储部分,包括:数据变换部分,用于将由客户机输入的关键词变换为特征数据;特征提取检索引擎,连接到上述特征数据存储器,用于从存储在该特征数据存储器内的特征数据中选择与上述客户机终端输入的特征数据接近的特征数据,并且从上述内容存储部分中检索具有所选特征数据的内容。
在本发明一实施例中,每一压缩内容均包括有表述一图形形状的宏块,由此宏块所表述的图形形状被变换成至少由一比特(位)构成的值,和此比特被用作为由此内容所表述形状的特征数据。
本发明的另一实施例中,每一压缩内容包括有表述图形形状的网格编码数据,和此网格编码数据被用作为由内容所表述形状的特征数据。
本发明的再一实施例中,每一压缩内容包括有多个表述图形形状的宏块,对每一宏块得到辉度成分(Y)的DC成分与每个色度成分(Pb,Pr)的DC成分的平均,和此平均及DC成分被用作为由内容所表述的颜色信息和亮度信息特征数据。
本发明的又一实施例中,每一压缩内容包括有多个表述图形形状的宏块,读取由宏块运动信息所表述的对象的运动以得到对象的运动的平均,和此平均被用作为由内容所表述对象的运动信息的特征数据。
本发明的另一实施例中,每一压缩内容包括有多个表述图形形状的宏块,读取由宏块所表述的对象的辉度成分的DC成分和AC成分及色度的DC成分和AC成分,和得到各自成分的平均用作为由内容所表述的对象的结构信息的特征数据。
本发明的又一实施例中,每一压缩内容包括表述声音的帧,读取为各帧所记录的LPC系数,和得到LPC系数的平均用作为由多媒体内容所表述的音调信息的特征数据。
本发明的再一实施例中,每一压缩内容包括有表述声音的帧,读取为各帧所记录的频谱标准化系数,和得到对各予定时间周期的频谱标准化系数的平均并用作为音调信息的特征数据。
本发明的另一实施例中,每一压缩内容包括有表述声音的帧,读取为每帧所记录的予测残留,和将此予测残留用作为韵律信息的特征数据。
本发明的又一实施例中,每一压缩内容包括有表述声音的帧,读取在对各帧进行频谱标准化之后的频率成分,和此频率成分被用作为韵律信息的特征数据。
本发明的再一实施例中,每一压缩内容包括有表述声音的帧,读取对各帧所记录的LPC系数,和LPC系数的瞬时变化被用作为旋律信息的特征数据。
本发明的另一实施例中,每一压缩内容包括有表述声音的帧,读取为各帧所记录的频谱标准化系数,和将频谱标准化系数的瞬时变化用作为旋律信息的特征数据。
本发明的又一实施例中,每一压缩内容包括有多个对象,读取为各对象所记录的对象说明,和此对象说明中所用的一单词的出现概率以及一单词与其前面或后面单词的组合的出现频率被用作单词信息的特征数据。
按照本发明的另一方面,提出一种多媒体数据检索方法。此方法包括有步骤:存储多种压缩内容;经客户机终端输入特征数据;读取由压缩内容提取的特征数据和存储压缩内容的特征数据;和在所存储的特征数据中选择接近于由客户机终端输入的特征数据的特征数据,和由所存储内容检索具有所选特征数据的内容。
另一方面,本发明的一种多媒体数据检索装置,包括:内容存储部分,用于存储多种内容;客户机终端,用于输入特征说明文本;特征数据存储部分,用于从内容存储部分中读取上述内容的特征数据并将该内容的特征数据存储在一特征数据存储器内;和内容检索部分,连接到上述客户机终端与特征数据存储部分内,包括:连接到一关键词词典的关键词提取器/翻译器,用于从上述客户机终端输入的特征说明文本中提供关键词,并将该关键词转换为特征数据;特征提取/检索引擎,连接到上述特征数据存储器,用于在存储于特征数据存储器的特征数据中选择接近于关键词的特征数据的特征数据,并从上述内容存储部分检索具有所选择的特征数据的内容。
在本发明的一实施例中,内容检索部分包括有为将关键词变换成特征数据的关键词词典,和利用关键词词典把由特征说明文本提取的关键词变换成特征数据。
在本发明的另一实施例中,内容检索部分由特征说明文本提取要被用作关键词的语言的主要部分。
在本发明的再一实施例中,内容检索部分利用内容的形状信息作为特征数据。
本发明的又一实施例中,内容检索部分利用内容的颜色信息和亮度信息作为特征数据。
本发明的另一实施例中,内容检索部分利用内容的运动信息作为特征数据。
本发明的再一实施例中,内容检索部分利用压缩内容的结构信息作为特征数据。
另一方面,本发明的多媒体数据检索方法包括步骤:存储多种内容;通过客户机终端输入特征说明文本;读取内容的特征数据并存储此特征数据;和从通过客户机输入终端输入的特征说明文本提取关键词,将关键词变换成特征数据,在所存储的特征数据中选择近似于关键词的特征数据的特征数据,和由所存储内容检索具有所选特征数据的内容。
这样,此处描述的发明即能够具有优点:(1)提供能采用高级表达式高速度检索内容的多媒体数据检索装置;和(2)提供适用于这样一装置的检索方法。
附图说明
参照所列附图阅读和理解下述详细说明之后熟悉本技术领域的人员将完全清楚本发明的这些和其他优点。
图1为说明按照本发明的示例1的多媒体内容检索装置的结构的视图;
图2表示示例1中存储在特征数据存储器内的对象的特征数据项目;
图3表示示例1中压缩内容的数据结构;
图4为说明提取对象的形状作为特征数据的处理的视图;
图5为说明提取对象的形状作为特征数据的另一替代处理的视图;
图6为说明提取对象的亮度作为特征数据的处理的视图;
图7为说明提取对象的色彩作为特征数据的处理的视图;
图8为说明提取对象的运动信息作为特征数据的处理的视图;
图9为说明提取对象的结构信息作为特征数据的处理的视图;
图10为说明示例1中压缩音频内容的数据结构的视图;
图11为说明示例1中压缩音频内容的数据结构的视图;
图12为说明示例1中压缩多媒体内容的数据结构的视图;
图13为说明按照本发明示例2的多媒体内容检索装置的结构的视图;
图14为示例2中存储在特征数据存储器中的数据表;
图15为较详细说明示例2中内容检索部分的结构的视图;
图16为示例2中存储在关键词词典中的数据表;
图17为说明通常的多媒体内容检索系统的结构的视图;
图18为通常的系统中的数据表。
具体实施方式
(示例1)
图1为说明按照本发明示例1的多媒体内容检索装置,参看图1,多媒体内容检索装置10包括有内容存储部分1,内容检索部分2,客户机终端3,和通信线路41和42。内容存储部分1存储表述图象、声音等的多种编码压缩内容。内容检索部分2为检索内容访问内容存储部分1。客户机终端3请求内容检索部分2检索内容。正常情况,将多个内容存储部分1和多个客户机终端3通过通信线路连接以使得每一客房机终端3能通过内容检索部分2访问任一内容存储部分1。
内容存储部分1包括有一文件服务器12和一盘驱动器13。盘驱动器13在和由盘11上记录和再现多个编码压缩内容。文件服务器12控制盘驱动器13以控制在和由盘11上记录和再现内容,和通过通信线路41进行与外部终端的数据通信。
内容检索部分2包括有特征数据存储器21,特征提取/检索引擎22,和数据变换部分23。特征提取/检索引擎22通过通信线路41访问内容存储部分1,以便为各内容由每一个存放在盘11中的多个内容中所包括的多个对象提取特征数据,和将所提取的对象的特征数据存储在特征数据存储器21中。数据变换部分23通过通信线路42由客户机终端3接收数据和将所接收数据变换成特征数据。图2表示要被存放进特征数据存储器21的对象的特征数据的示范项目。此示范性特征数据项包括有对象的形状,颜色和亮度,运动,结构,音调,韵律,弦律,单字,等等。图2仅表示应以各自的格式表示的各个特征数据项的意义。至少一个特征数据项被按照对象的类型选作为用来作为对象的特征数据。
客户机终端3包括有计算机,键盘,存储器,显示器等。在由客户机操作键盘等接收到数据后,客户机终端3通过通信线路42将数据传送到内容检索部分2的数据变换部分23。数据变换部分23将数据变换成与存放在特征数据存储器21中的特征数据相同的格式,并将最后所得特征数据传送到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择最近似于所传送的特征数据的特征数据和因而具有所选择特征数据的对象,从而能确定包括有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12通过通信线路41检索所确定内容。文件服务器12由盘11读取内容,和通过内容检索部分2将内容提供给客户机终端3。客户机终端3显示、再生、或记录所检索内容。
图3为此例中一压缩内容的数据结构的视图。这一例中的内容为表述图象形状、声音等的多媒体内容,它经一压缩编码方法如MPEG压缩。在内容表述图象时,内容的数据结构包括有含有例如图象的大小和压缩方法的信息的标题,去压缩后的数据读取比特率和数据显示的帧率,和每次读取的数据量。
在MPEG方法中,对于以8×8象素作为一单位的每一数据块对图象的各帧作离散余弦变换(DCT)。由DCT得的系数被顺序编码成按由DC成分到AC较高频率成分的次序排列的可变长码。在颜色图象的情况下。采用4个相邻的数据块,以获得4个指示辉度成分(Y)数据块和每块指示色度成分(Pb,Pr),它们在数据结构中顺序排列并被称之为作为一单元的宏块。可使此宏块进行运动补偿予测偏码以便能对帧之间的运动进行补偿。在这种情况下,在一用于运动补偿的运动向量上的数据被插入在数据结构中各宏块的头部。
在MPEG4压缩方法中,帧中的图象被分成为一表述例如说在前景中的人物的层和一表述例如说在背景中的山之类的层。各层图象的最重要部分称之为对象,而且仅仅对应于此最重要部分的宏块才被加以记录。对象的形状可以由包括此对象的区域中象素的透明性加以鉴别的。对各宏块这样的形状数据被加以编码和被插入在运动向量数据前一位置上。
MPEG4的细节说明在ISO/IEC 14496-1,-2,-3,国际标准的最后委员会草案(May 1998)中。
下面将详细说明从经上述MPEG方法压缩的内容提取特征数据和利用特征数据检索内容的方法。
在提取一对象的形状作为特征数据的情况下,内容检索部分2的特征提取/检索引擎22顺序扫描存放在内容存储部分1的盘11中的压缩内容,以读取对应宏块中所表述对象的形状。同时,特征提取/检索引擎22为存储特征数据在特征数据存储器21中固定一个由与一帧中的宏块数相同的比特数组成的存储器区。例如,参看图4,如果一宏块MB中的所有象素都指示“0”(透明),则对应于这一宏块MB的特征数据位CB被设定在“0”。同样,如果宏块MB包括有指示“1”(不透明)的象素,亦即,如果宏块MB表述的一个对象,则将对应于这一宏块MB的特征数据位CB设定为“1”。就这样得到指明对象形状的特征数据。从而对所有存储在盘11中的多媒体内容提取对象的形状,并将指明对象的形状的特征数据被顺序存储在特征数据存储器21中。
当客户企图检索含有所希望形状的对象的内容时,客户输入指明所希望形状的数据到客户机终端3。客户机终端3将此指明形状的数据发送给内容检索部分2的数据据变换部分23。指明形状的数据可以是手写数据或者与存储在特征数据存储器21中的特征数据相同格式的数据。如果由客户机终端3发送的数据为手写数据,数据变换部分23判断由此数据指明的形状,将此被判定出的形状变换成特征数据,和将此经变换的特征数据传送到特征提取/检索引擎22。如果由客户机终端3发送的数据与存储在特征数据存储器21中的特征数据格式相同,数据变换部分23即将此特征数据传送到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择一具有最接近由客户机终端3所发送的特征数据的特征数据的对象,从而确定包括有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索被确定的内容。文件服务器12由盘11读取内容,并通过内容检索部分2将内容提供给客户机终端3。
用于取得最近似的特征数据的方法如下述。将由客户机终端3所发送的特征数据的各比特与存放在特征数据存储器21中的特征数据的对应比特相比较,以获得对所有比特位的对应二比特值之间的差的绝对值,然后计算机绝对值(差)的总和。这种计算对所有存放在特征数据存储器21中的形状特征数据进行,而将具有最小总和的特征数据指定作为最接近的特征数据。
在内容的形状由如图5中所示的计算机图形线—框模式的顶点的座标指明和该内容由MPEG4的网格编码方法压缩的情况下,内容检索部分2的特征提取/检索引擎22提取存储在内容存储部分1的盘11中的所有压缩内容的网格编码数据作为各自的特征数据,和将被提取的特征数据存储在特征数据存储器21中。
在由客户机终端3接收到网格编码数据作为特征数据后,特征提取/检索引擎22搜索特征数据存储器21以选择具有与由客户机终端3所发送的特征数据差别最小的特征数据和确定具有被选择特征数据的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索所确定的内容。文件服务器12由盘11读取内容,和将内容通过内容检索部分2提供给客户机终端3。
在提取对象的颜色和亮度作为特征数据的情况下,内容检索部分2的特征提取/检索引擎22扫描存放在内容存储部分1的盘11中的压缩内容,以对各宏块顺序地读取辉度成分(Y)的DC成分以及色度成分(Pb,Pr)的DC成分。同时,特征提取/检索引擎22为存放特征数据在特征数据存储器21中固定一个由三倍于对象中的宏块数量的位数所组成的区域。然后如图6中所示,计算例如对各宏块MB的各辉度成分(Y)的DC成分的平均,和将最后得的宏块MB的平均作为特征数据存储在存储在特征数据存储器21中。也如图7中所示,例如得到对各宏块MB的各色度(Pb,Pr)的DC成分作为特征数据并存储在特征数据存储器21中。这样,得到作为一对象的特征数据关于亮度和颜色的信息。以这种方式,对存储在盘11中的所有多媒体内容提取颜色和亮度信息,和顺次存储在特征数据存储器21中。
当客户企图检索一包括有所希望亮度和色彩的对象的内容时,客户输入指明所希望亮度和颜色的数据到客户终端3。客户终端3发送指明此亮度和颜色的数据到内容检索部分2的数据变换部分23。此指明亮度和颜色的数据可以是手写数据或者是与存储在特征数据存储器21中的特征数据相同格式的数据。如果由客户终端3发送的数据是手写数据,数据变换部分23判别被数据指明的亮度和颜色,将经判断的亮度和颜色变换成特征数据,和传送经变换的特征数据到特征提取/检索引擎22。如果由客户终端3发送的数据为与特征数据存储器21中存储的特征数据相同格式,数据变换部分23传送特征数据到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最近似于由客户终端3发送的指明亮度和颜色的特征数据的特征数据的对象来确定包括有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索所确定的内容。文件服务器12由盘11读取内容,并通过内容检索部分2将内容提供给客户终端3。
用于获取此最近似特征的方法如下。将由客户终端3发射的特征数据的各个比特与存放在特征数据存储器21中的特征数据的对应比特加以比较,以得到对所有比特的对应二比特间的差的绝对值,然后计算此绝对值的总和。对存储在特征数据存储器21中的所有特征数据进行这一计算,而将提供最小总和值的特征数据指定作为最接近特征数据。
在提取对象的运动作为特征数据的情况下,内容检索部分2的特征提取/检索引擎22顺序扫描存储在内容存储部分1的盘11中的压缩内容,以读取对各宏块MB的对象的运动的值,然后计算此值的平均,如图8中所示,如此来将暂时变化平均值存入特征数据存储器21作为运动信息的特征数据。
当客户企图检索含有所希望运动的对象的内容时,客户输入指明所希望运动的数据到客户终端3。客户终端3发送指明此运动的数据到内容检索部分2的数据变换部分23。此指明运动的数据可以是手写数据或者是与存放在特征数据存储器21中的特征数据相同格式的数据。如果由客户终端3发射的数据是手写数据,数据变换部分23判别由数据指明的运动,将被判断的运动变换成特征数据,并将变换的特征数据传送到特征提取/检索引擎22。如果由客户终端3发送的数据与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23将此特征数据传送到特征提取/检索引擎22。特征提取/检索引擎搜索特征数据存储器21以选择具有最接近由客户终端3发送的指明运动的特征数据的特征数据的对象和确定含有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索此内容。文件服务器12由盘11读取内容,并将内容通过内容检索部分2提供到客户终端3。
用于获取此最近似特征数据的方法如下。将由客户终端3发送的特征数据的各比特(位)与存放在特征数据存储器21中的特征数据的对应比特加以比较,以得到对所有比特的对应二比特值之间的差的绝对值,然后计算此绝对值的总和。以这种方式对存放在特征数据存储器21中的所有特征数据进行这种绝对值总和的计算,并将提供最小总和值的特征数据指定作为最近似的特征数据。
在提取对象的结构信息作为特征数据的情况下,内容检索部分2的特征提取/检索引擎22顺序扫描存放在内容存放部分1的盘11中的压缩内容以读取如图9所示的各宏块的辉度成分的DC成分和AC成分以及色度成分的DC成分和AC成分,来得到对整个对象的辉度成分的DC成分平均值和AC成分的平均值以及色度成分的DC成分平均值和AC成分平均值。所得结果平均值被作为结构信息的特征数据存储在特征数据存储器21中。以这种方式,对存放在盘11中的所有多媒体内容提取结构信息,顺序存储在特征数据存储器21中。
当客户企图检索包含具有所希望结构的对象的内容时,客户输入指明所希望结构的数据到客户机终端3。客户机终端3将指明结构的数据传送到内容检索部分2的数据变换部分23。此指明结构的数据可以是手写数据或者是与存放在特征数据存储器21中的特征数据相同格式的数据。如果由客户机终端3所发送的数据是手写数据,数据变换部分23判别由此数据指明的结构,将经判断的结构变换成特征数据,和传送变换的特征数据给特征提取/检索引擎22。如果由客户机终端3所发送数据与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23将此特征数据传送给特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户机终端3发送的指明此结构的特征数据的特征数据的对象并确定含有对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索此内容。文件服务器12由盘11读取此内容,并将此内容通过内容检索部分2提供给客户机终端3。
用于获取最近似特征数据的方法如下。将由客户机终端3所发送特征数据的各比特与存放在特征数据存储器21中的特征数据的对应比特相比较,以得到对所有比特的对应二比特值之间的差的绝对值然后计算绝对值的总和。对全部存放在特征数据存储器21中的所有特征数据进行这一计算,和指定提供最小总和值的特征数据作为最近似的特征数据。
图10为此例中一压缩音频内容的数据结构视图。音频数据结构包括有一包含如声音的长度和压缩方法的信息的标题,去压缩后数据读取比特率和再生数据的速度,和一次要读取的数据(帧)的量。在MPEG4受激线性予测音频编码(CELD)的代码中,在声音由线性予测编码(LPC)予测时所得到的予测系数被作为音调信息编码。予测误差被分开地作为声源信息(幅值信息)进行编码,并以予定的时间间隔(对各帧)与音调信息成对地配置。
现在说明由具有上述结构的压缩音频内容的数据提取特征数据的方法。
在提取一对象的音调信息作为特征数据的情况下,内容检索部分2顺序扫描存放在内容存储部分1的盘11中的压缩内容以读取针对各帧的每一内容的LPC系数,与取得对各帧的LPC系数的平均值和将此平均值作为音调信息的特征数据存入特征数据存储器21。以这种方式,对存储在盘11中的所有多媒体内容提取音调信息,顺序存放进特征数据存储器21。
当客户企图检索包含具有所希望音调的对象的内容时,客户输入指明所希望音调的数据到客户机终端3。客户机终端3将此指明音调的数据发送给内容检索部分2的数据变换部分23。此指明音调的数据可以是指明作蜂鸣音的音调或者是与存储在特征数据存储器21中的特征数据的相同格式的数据。如果由客户机终端3所发送数据为指明该音调的数据,数据变换部分23将此指明该音调的数据变换成特征数据,并传送经变换的特征数据到特征提取/检索引擎22。如果由客户机张端3发送的数据为与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23将此特征数据传送到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户机终端3所发送的指明该音调的特征数据的特征数据的对象并确定包含此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索所确定的内容。文件服务器12由盘11读取此内容,并通过内容检索部分2将此内容提供给客户机终端3。
用于获得此最近似的特征数据的方法如下。将由客户机终端3所发送的作为特征数据的各帧的LPC系数的平均值与作为特征数据存放在特征数据存储器21中的各帧的LPC系数的平均值加以比较,以得到对应二平均值之间的差的绝对值然后计算此绝对值的总和。对所有存放在特征数据存储器21中的特征数据进行这种计算,而指定提供最小总和(差值)的特征数据作为最近似的特征数据。
在提取对象的韵律信息作为特征数据的情况下,内容检索部分2顺序扫描存放在内容存储部分1的盘11中的压缩内容以读取对各帧的每一内容的予测残留值(幅度中的变化)和将此值作为韵律信息的特征值存储进特征存储器21。这样,对盘11中存储的所有多媒体内容提取韵律信息,顺次存储进特征数据存储器21。
当客户企图检索包含一具有所希望的韵律的对象的内容时,客户输入韵律信息到客户机终端3。客户机终端3发送此韵律信息到内容检索部分2的数据变换部分23。此韵律信息可以是指明一作蜂鸣韵律的数据或者是与存放在特征数据存储器21中的特征数据相同格式的数据。如果由客户机终端3发送的数据是指明韵律的数据,数据变换部分23将指明韵律的数据变换成特征数据,和将变换的特征数据传送到特征提取/检索引擎22。如果由客户机终端3发送的数据与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23传送此特征数据到特征提取/检索部分22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户机终端3所发送的指明韵律的特征数据的特征数据的对象并确定含有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索此内容。文件服务器12由盘11读取此内容,并将此内容通过内容检索部分2提供给客户机终端3。
用于获取此最接近特征数据的方法如下。将由客户机终端3所发送的作为特征数据的针对各帧的予测残留值(幅度中的变化)与作为特征数据存储在特征数据存储器21中的针对各帧的予测残留值(幅度中的变化)相比较,以得到对应二值间的差的绝对值然后计算此绝对值的总和。对所有存放在特征数据存储器21中的特征数据进行这种计算,而指定提供最小总和(差值)的特征数据作为最接近特征数据。
在提取一对象的旋律信息作为特征数据的情况下,内容检索部分2顺序扫描存放在内容存储部分1的盘11中的压缩内容以读取对各帧的内容的LPC系数,由此来取得对各帧的LPC系数的瞬时变化并将此瞬时变化作为旋律信息的特征数据存入特征数据存储器21。这样对所有存放在盘11中的多媒体内容提取旋律信息,并顺序存储进特征数据存储器21。
当客户企图检索含有具有一所希望旋律的对象的内容时,客户输入指明此旋律的数据到客户终端3。客户终端3将指明此旋律的数据发送到内容检索部分2的数据变换部分23。此指明旋律的数据可以是指明一作蜂鸣声旋律的数据或者是与存放在特征数据存储器21中的特征数据相同格式的数据。如果客户终端3所发送的数据是指明一旋律的数据,数据变换部分23将此指明旋律的数据变换成特征数据,并将变换的特征数据传送到特征提取/检索引擎22。如果由客户终端3发送的数据与存放在特征数据存储器21中的特征数据为格式相同,数据变换部分23将此特征数据传送到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户终端3所发送的指明旋律的特征数据的特征数据的对象和确定包含此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索所确定的内容。文件服务器12由盘11读取此内容,并通过内容检索部分2将此内容提供给客户终端3。
用于获取此最接近特征数据的方法如下。将作为特征数据由客户终端3所发送的对各帧的LPC系数的瞬时变化与作为特征数据被存放在特征数据存储器21中的对各帧的LPC系数的瞬时变化加以比较以得到对应二值间的差的绝对值,然后计算此绝对值的总和。对存放在特征数据存储器21中的所有特征数据进行这种计算,而指定提供最小总和(差值)的特征数据作为最接近特征数据。
图11说明此例中的压缩音频内容的数据结构。音频数据结构包括有包含如音频信号的采样频率和压缩方法等信息的标题,在去压缩后数据的读取的比特率和数据的再生速度,和一次要读取的数据量(帧)。在MPEG4的时间/频率变换编码中,音频信号的频谱由频率分析等进行分析以提取其频谱包络值。将此被提取的值加以编码作为频谱标准化系数。此所提取的值还被用来标准化频率成分。较具体说,通过对音频信号进行修正离散余弦变换(MDCT)得到一频率成分,以这一所提取值相除来标准化频率成分的幅值。以予测编码来降低标准化频率成分的瞬时冗余度,而在通道之间它们的冗余度则由通道间的予测编码来降低。经这样处理的频率成分被加以量化和可变长编码,而所得值被对各个时间周期(帧)连同频谱标准化系数作顺序排列。
现在说明从具有上述结构的压缩音频内容提取特征数据的方法。
在提取—对象的音调信息作为特征数据的情况下,内容检索部分2顺序扫描存放在内容存储部分1的盘11中的压缩内容以读取对各帧的每一个内容的频谱标准化系数,由此来得到对各予定时间期间的频谱标准化系数的平均值并将此平均值存储进特征数据存储器21作为音调信息的特征数据。这样,对盘11中存放的所有多媒体内容提取音调信息,顺序存储进特征数据存储器21。
当客户企图检索一包含具有所希望音调的对象的内容时,客户输入指明所希望音调的数据到客户机终端3。客户机终端3发送指明此音调的数据给内容检索部分2的数据变换部分23。此指明音调的数据可以是指明作蜂鸣的音调的数据或者是与存储在特征数据存储器21中的特征数据同一格式的数据。如果由客房机终端3所发送的数据是指明一音调的数据,数据变换部分23将此指明一音调的数据变换成特征数据,并将变换的特征数据传送到特征提取/检索引擎22。如果由客户机终端3发送的数据与存储在特征数据存储器21中的特征数据格式相同,数据变换部分23传送此特征数据给特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择一具有最接近由客户机终端3所发送的指明音调的特征数据的特征数据的对象并确定包含此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索被确定的内容。文件服务器12由盘11读取此内容,并将其通过内容检索部分2提供给客户机终端3。
用于获取最接近的特征数据方法如下。将作为特征数据由客户机终端3发送的在各予定时间期间内频谱标准化系数的平均值与作为特征值存储在特征数据存储器上的各预定时间期间的频谱标准化系数的平均值进行比较,以得到对应二平均值之间的差的绝对值,然后计算此绝对值的总和。对所有存储在此特征数据存储器21中的特征数据进行这一计算,而指定提供最小总和(差值)的特征数据作为最接近特征数据。
在提取一对象的韵律信息作为特征数据的情况下,内容检索部分2顺序扫描存储在内容存储部分1的盘11中的压缩内容以读取对各帧的每一内容的频谱标准化后的频率成分值(幅度中的变化)并将此频率成分值存储进特征数据存储器21作为韵律信息的特征数据。以这种方式,对所有存放在盘11中的多媒体内容提取韵律信息,顺序存储进特征数据存储器21。
当客户企图检索包含具有所希望韵律的对象的内容时客户输入韵律信息到客户机终端3。客户机终端3发送此韵律信息到内容检索部分2的数据变换部分23。此韵律信息可以是指明一作蜂鸣的韵律的数据或者是与存储在特征数据存储器21中的特征数据相同格式的的数据。如果由客户机终端3发送的数据为指明一韵律的数据,数据变换部分23将指明韵律的数据变换成特征数据,和将变换的特征数据传送给特征提取/检索引擎22。如果由客户机终端3发送的数据与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23传送此特征数据到特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户机终端3发送的指明韵律的特征数据的特征数据的对象并确定包含此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索此内容。文件服务器12由盘11读取此内容,并通过内容检索部分2将此内容提供给客户机终端3。
用于获得最接近特征数据的方法如下。将作为特征数据由客户机终端3所发送的对各帧的频谱标准化之后的频率成分值(幅度中的变化)与作为特征数据被存放在特征数据存储器21中的对各帧的频谱标准化后的频率成分值(幅度中的变化)加以比较,以得到对应二值间的差的绝对值,然后计算此绝对值的总和。对存放在特征数据存储器21中的所有特征数据进行这一计算,而指定提供最小总和(差值)的特征数据作为最近似的特征数据。
在提取一对象的旋律信息作为特征数据的情况下,内容检索部分2顺序扫描存放在内容存储部分1的盘11中的压缩内容以读取对各帧的内容的频谱标准化系数,由此来得到对各帧的频谱标准化系数的瞬时变化和将此瞬时变化存储进特征数据存储器21作为旋律信息的特征数据。这样,对所有存放在盘11中的多媒体内容提取旋律信息,顺序存储进特征数据存储器21。
当客户企图检索包含具有所希望旋律的对象的内容时,客户输入指明此旋律的数据到客户机终端3。客户机端3将此指明旋律的数据发送给内容检索部分2的数据变换部分23。此指明一旋律的数据可以是指明一作峰鸣的旋律的数据或者是与存放在特征数据存储器21中的特征数据相同格式的数据。如果由客户机终端3发送的数据是指明一旋律的数据,数据变换部分23将此指明旋律的数据变换成特征数据,并将变换的特征数据传送到特征提取/检索引擎22。如果由客户机终端3发送的数据与存放在特征数据存储器21中的特征数据格式相同,数据变换部分23将此特征数据传送给特征提取/检索引擎22。特征提取/检索引擎22搜索特征数据存储器21以选择具有最接近由客户机终端3发送的指明旋律的特征数据的特征数据的对象和确定含有此对象的内容。特征提取/检索引擎22指示内容存储部分1的文件服务器12检索所确定的内容。文件服务器12由盘11读取此内容,并通过内容检索部分2将此内容提供给客户机终端3。
用于获取最接近特征数据的方法如下。将作为特征数据由客户机终端3所发送的对各帧的频谱标准化系数的瞬时变化与作为特征数据存储在特征数据数据存储器21中的针对各帧的频谱标准化系数的瞬时变化加以比较,以得到对应二频谱标准化系数间之差的绝对值,然后计算对各特征数据的此绝对值的总和。对所有存放在特征数据存储器21中的特征数据进行之一计算,而指定提供最小总和(差值)的特征数据作为最接近特征数据。
图12说明这一示例中的压缩多媒体内容的数据结构。在MPEG4编码方法中,多媒体内容由多个对象组成,和各对象在压缩后加以记录。每一压缩对象数据均具有附着于它的对象说明,在此作为一文本说明对象的概要。
现在说明由具有上述结构的压缩内容提取特征数据的方法。
这里将说明提取对象说明中发现的单词信息作为特征数据的情况。内容检查部分2顺序扫描内容存储部分1的盘11中存储的压缩内容,读取各对象的对象说明。更具体说,确定此对象说明中所用单词的出现频率以及一单词与前面或随后单词的组合的出现频率,将这些出现频率作为单词信息的特征数据存入特征数据存储器21。这样,对所有存储在盘11中的多媒体内容由对象说明提取单词信息的特征数据,顺序存储在特征数据存储器21中。
当客户企图检索具有包括一所希望单词或单词组合的对象说明的多媒体内容时,客户输入此单词或单词组合到客户机终端3。客户机终端3发送此单词或单词组合给内容检索部分2的数据变换部分23。内容检索部分2将单词或单词组合顺序与存放在特征数据存储器21中的单词信息的特征数据相比较,以选择具有客户所希望的单词或单词组合的最高出现频率的单词信息的特征数据,和确定具有所选择特征数据的对象和因而包含此对象的内容。内容检索部分2指示内容存储部分1的文件服务器12发送所确定的内容。文件服务器12由盘11读取此内容,并通过内容检索部分2将此内容提供给客户机终端3。
上述的处理可以计算机程序的形式来实现。
这样,在此例中,通过从每一压缩内容直接提取可预先生成作为检索数据的特征数据。这使得容易检索和提取具有所希望特征的内容。
例如,可能根据形状检索一内容,实现直观检索和提取所希望内容。还能根据颜色和亮度检索一内容,实现难以用单词表示的多媒体内容的检索和提取。而且可能按运动检索一内容,实现除静止图形信息外检索和提取运动图形的内容。由结构检索一内容也是可能的,实现具有复杂的形态的多媒体内容的检索和提取。例如,可能以音调来检索一内容,实现根据声音检索和提取音乐或语音内容。可能以韵律来检索内容,实现直观的音乐或语音内容的检索和提取。而且,可能以旋律来检索内容,实现语音或音乐内容的直观检索和提取。而且,可通过内容描述中使用的单词进行内容的检索,实现根据说明性的术语来提取和检索多媒体内容。
(示例2)
图13为说明按照本发明的示例2的多媒体内容检索装置的结构的视图。参看图13,多媒体内容检索装置50包括有内容存储部分51,内容检索部分52,客户机终端53,和通信线路91和92。内容存储部分51存储表述图象、声音等多种压缩内容。内容检索部分52访问内容存储部分51以检索一内容。客户机终端53请求内容检索部分52检索一内容。正常情况,通过通信线路连接有多个内容存储部分51和多个客户机终端53从而使得每一客户机终端53能通过内容检索部分52访问任一内容存储部分51。
内容存储部分51包括有一文件服务器62和一盘驱动器63。盘驱动器在和从盘61上记录和再生多种压缩内容。文件服务器62控制盘驱动器63以控制在和从盘61上记录和再生内容,并执行通过通信线路91与外部终端的数据通信。
内容检索部分52通过通信线路91连接到内容存储部分51。内容检索部分52对存放在盘61中的所有内容提取被包括在一内容中的对象的特征,将将所提取的低级特征数据如形状、颜色、亮度、和运动等存入特征数据存储器71。
客户机终端53包括有计算机,键盘,存储器,显示器等。在接收到由客户操作键盘之类描述一所希望内容的特征的特征说明文本之后,客户机终端53通过通信线路92将特征说明文本发送到内容检索部分52。
内容检索部分52从所接收的特征说明文本提取关键词将其变换成低级特征数据。将所得的低级特征数据顺序与存放在特征数据存储器71中的特征数据相比较,以在特征数据存储器71中所存储的特征数据中选择最接近被变换的特征数据的特征数据,和确定具有所选特征数据的对象并因而包含此对象的内容。内容检索部分52由内容存储部分51检索所确定的内容和将所检索的内容或此内容在盘61上的记录的地址送至客户机终端53,从而实现为客户所希望内容的检索。
图5较详细说明内容检索部分52的结构。此内容检索部分52包括:连接到通信线路91的特征提取/检索引擎72;连接到特征提取/检索引擎72的特征数据存储器71;连接到通信线路92和特征提取/检索引擎72的关键词提取器/翻译器74;和连接到关键词提取器/翻译器74的关键词词典73。
当由客户机终端53将特征说明文本提取给内容检索部分52时,关键词提取器/翻译器74由特征说明文本提取关键词。作为关键词,由文本提取作为一名词、动作、形容词、副词等的单词或单词的组合。例如,当一表达式“a scene where a person is running in the eveningsun(一个人在夕阳中跑步的情景)”被作为一特征说明文本输入时,由此特征说明文本中提取例如“Person(人)”、“running(跑)”和“evening sun(夕阳)”将所提取的单词或单词组合与如图16中所示被注册在关键词词典73中的关键词相比较以查寻与每一个上述单词和单词组合相匹配的关键词。假定关键词“person”、“run”、“evening sun”等和如图16中所示被注册在关键词词典73中,与相应单词和单词组合相符的关键即被检索到。
关键词提取器/翻译器74将每一检索得的关键词利用关键词词典73变换成特征数据。例如,关键词“evening sun”被变换成5个特征数据[形状:圆形;颜色:红;亮度:192;运动:(0,-1),结构:平滑]。关键词“peson”被变换成4个特征数据[形状:象人的;颜色:肤色;亮度:128;结构:象皮肤]。关键词“run”被变换成一个特征数据[运动:(±10,0]。这些特征数据被送至特征提取/检索引擎72。
特征提取/检索引擎72将由关键词提取器/翻译器74提供的各关键词的特征数据与如图14中所示特征数据存储器71中所存放的各对象的特征数据相比较,选择具有最接近所提供的特征数据的特征数据的对象,确定包括有此对象的内容,和指示内容存储部分51的文件服务器62检索此内容。文件服务器62由盘61读取此内容,并通过内容检索部分52将此内容提供给客户机终端53。另一方面,特征提取/检索引擎72可提供此内容在内容存储部分51的盘61上的地址给客户机终端53。
对存放在特征数据存储器71中的内容的特征数据可以在产生此内容期间生成,或者可以从内容自动地提取和加以存储。
示例2中,如示例1那样,由于表述图象、声音等的多媒体内容的数据量极大,这些内容正常情况在被记录到内容存储部分51的盘61上之前均被如MPEG这样的压缩编码方法加以压缩。
因此,如在示例1中的特征提取/检索引擎22中那样,特征提取/检索引擎72有可能顺序扫描内容存储部分5 1的盘61中存储的压缩内容,以提取对各对象的形状、颜色和亮度、运动、结构等作为对象的特征数据和将此特征数据存储在特征数据存储器71中。以这种方式,可由所有存放在盘61中的多媒体内容提取特征数据和顺序存放进特征数据存储器71中,以便在特征数据存储器71中建立如图14中所示的数据存储。在图14和16中,对象项的形状1表述由图4中所示的宏块提取的特征数据的形状,和形状2表述由图5中所示的线一框模型提取的特征数据的形状。
在如图16中所示的关键词词典72中,为检索多媒体内容对所有予期会出现在特征说明文本中单词和单词组合予先注册关键词和特征数据。例如,对予期出现在特征说明文本中的单词组合“eveningsun”,在关键词词典73中注册关键词“evening sun”、表述形状的特征数据、表述颜色和亮度的特征数据、表述运动的特征数据、和表述结构的特征数据。所有这些特数据均以与存储在特征数据存储器71中的特征数据同样格式注册。
特征提取/检索引擎72,如在示例1中的特征提取/检索引擎22中那样,将由关键词提取器/翻译器74提供的特征数据与存放在特征数据存储器71中的对象的特征数据相比较,选择最接近所提供特征数据的特征数据。在示例2中,如示例1中那样,以按照各对象的形状、颜色和亮度、运动、结构等确定的各种方式选择存储在特征数据存储器71中的所有特征数据中选择最接近于所提供关键词的特征数据的特征数据。
在由通过客户机终端53输入的特征说明文本提取多个关键词的情况下,对各内容检索最接近关键词的特征数据的各自的特征数据,并对这些特征数据的差值进行总和来得到此内容与特征说明文本之间的整体差。通过检查所有内容的整体差,可检索到最接近客户所希望的特征说明的内容。
在MPEG4编码中,如上述,多媒体内容由对象组成,在压缩后各对象被加以记录。每一压缩对象数据包括有一对象说明,其中,对象的概要被作为一文本加以说明。
在上述MPEG4编码中,以下过程是可行的。也就是,内容检索部分52顺序扫描存放在内容存储部分51的盘61中的压缩内容,读取各对象的对象说明。较具体说,对象说明中所用单词的出现频率,以及一单词与其前一或随后的单词的出现频率被作为单词信息的特征数据存储在特征数据存储器71中。以这种方式,对所有存放在盘61的多媒体内容由对象说明提取单词信息的特征数据,顺序存放在特征数据存储器71中。
当客户企图根据一单词或单词的组合检索一所希望内容时,内容检索部分52由输入特征说明文本提取关键词(单词或单词组合),并将所提取的关键词与存放在特征数据存储器71中的单词信息顺序地进行比较而不查询关键词词典73,以选择对所提取关键词具有最高出现频率的单词信息的特征数据,和确定具有所选特征数据的对象而因此包括有此对象的内容。然后内容检索部分52指示内容存储部分51的文件服务器62检索确定的内容。文件服务器62由盘61读取此内容,并通过内容检索部分52将此内容提供给客户机终端53。
当由客户机终端53所提供的特征说明文本提取多个关键词时,对各内容计算各关键词的出现频率的总和,以选择具有最大的频率总和的内容。这使得能检索最接近由客户机终端53所提供的所希望内容的内容。
以上所述的处理可以用计算机程序的形式来实现。
这样,在此例中,即使在由客户机输入高级特征说明文本作为对内容的检索数据时,也能依靠利用直接由一压缩内容提取的低级特征数据很容易地检索和提取具有客户所希望的特征的内容。
例如,由特征说明文本提取的关键词能容易地被变换成遵循存放在特征数据存储器中的特征数据的格式的特征数据,实现更精确的检索和提取所希望的多媒体内容。
由特征说明文本提取的关键词能容易地被变换成遵循存放在特征数据存储器中的特征数据的格式的特征数据,实现更高成功概率的所希望多媒体内容的检索和提取。
在由特征说明文本提取形状信息的情况下,以更高成功概率实现所希望的多媒体内容的检索和提取。
在由特征说明文本提取颜色和亮度信息的情况下,能够根据颜色和亮度检索内容,实现更精确的检索和提取所希望多媒体内容。
在由特征说明文本提取运动信息的情况下,可根据运动检索内容,实现更精确的检索和提取所希望的多媒体内容。
在由特征说明文本提取有关一结构的关键词的情况下,可能根据结构信息检索内容,实现具有复杂形态的多媒体内容的较精确的检索和提取。
有可能根据内容说明中所用单词检索此内容,实现根据说明术语来检索和提取多媒体内容。
熟悉本技术领域的人将会理解并容易地实现各种其他的变型而不致背离本发明的范畴和精神实质。因而,不希望在此所附权利要求的范围将局限于这里所作说明,而是更加广泛地解释权利要求。
Claims (22)
1、一种多媒体数据检索装置,包括:
内容存储部分,用于存放多种压缩内容;
客户机终端;
特征数据存储部分,用于从内容存储部分读取从至少一个压缩内容提取的特征数据,并将该至少一个压缩内容的特征数据存储在一个特征数据存贮器内;和
内容检索部分,连接到上述客户机终端与特征数据存储部分,包括:
数据变换部分,用于将由客户机输入的关键词变换为特征
数据;
特征提取检索引擎,连接到上述特征数据存贮器,用于从
存储在该特征数据存贮器内的特征数据中选择与上述客户机终
端输入的特征数据接近的特征数据,并且从上述内容存储部分
中检索具有所选特征数据的内容。
2、按照权利要求1的多媒体数据检索装置,其特征在于每一压缩内容包括有表述图象形状的多个宏块,由宏块表述的图象形状被变换成由至少一比特(位)构成的值,和此比特被用作为由内容所表述形状的特征数据。
3、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述图象形状的网格编码数据,和此网格编码数据被用作为由内容所表述形状的特征数据。
4、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述图象形状的多个宏块,对各宏块取得辉度成分(Y)的DC成分平均值和每一色度成分(Pb,Pr)的DC成分,和此平均值和DC成分被用作为由内容所表述的颜色信息和亮度信息的特征数据。
5、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括表述图象形状的多个宏块,读取由宏块运动信息所表述的对象的运动以得到对象运动的平均值,和此平均值被用作由内容所表述对象的运动信息的特征数据。
6、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括表述图象形状的多个宏块,读取由宏块所表述的对象的辉度成分的DC成分和AC成分以及色度成分的DC成分和AC成分,并获取各成分的平均值并且作为由内容所表述对象的结构信息的特征数据。
7、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧所记录的LPC系数,和取得LPC系数的平均值并用作为由多媒体内容所表述音调信息的特征数据。
8、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧所记录的频谱标准化系数,和得到各预定时间期间内的频谱标准化系数的平均值并用作为音调信息的特征数据。
9、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧记录的予测残余,和将此予测残余用作为韵律信息的特征数据。
10、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧进行的频谱标准化后的频率成分,和此频率成分被用作为韵律信息的特征数据。
11、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧所记录的LPC系数,和将LPC系数的瞬时变化用作为旋律信息的特征数据。
12、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有表述声音的帧,读取对各帧所记录的频谱标准化系数,和将频谱标准化系数的瞬时变化作为旋律信息的特征数据。
13、按照权利要求1的多媒体数据检索装置,其特征是每一压缩内容包括有多个对象,读取对各对象所记录的对象说明,和将对象说明中所用的单词的出现频率以及单词与其前面或后随单词的组合的出现频率用作为单词信息的特征数据。
14、一种多媒体数据检索方法,包括步骤:
存储多种压缩内容;
通过客户机终端输入特征数据;
读取由压缩内容提取的特征数据和存储该压缩内容的特征数据;和
在所存储的特征数据中选择接近于通过客户机终端输入的特征数据的特征数据,和由所存储内容检索具有所选择特征数据的内容。
15、一种多媒体数据检索装置,包括:
内容存储部分,用于存储多种内容;
客户机终端,用于输入特征说明文本;
特征数据存储部分,用于从内容存储部分中读取上述内容的特征数据并将该内容的特征数据存储在一特征数据存贮器内;和
内容检索部分,连接到上述客户机终端与特征数据存储部分内,包括:
连接到一关键词词典的关键词提取器/翻译器,用于从上述
客户机终端输入的特征说明文本中提取关键词,并将该关键词
转换为特征数据;
特征提取/检索引擎,连接到上述特征数据存贮器,用于在
存储于特征数据存贮器的特征数据中选择接近于关键词的特征
数据的特征数据,并从上述内容存储部分检索具有所选择的特
征数据的内容。
16、按照权利要求15的多媒体内容检索装置,其特征是该内容检索部分包括有用于将关键词变换成特征数据的关键词词典,和利用该关键词词典将由特征说明文本提取的关键词变换成特征数据。
17、按照权利要求15的多媒体内容检索装置,其特征是内容检索部分由特征说明文本提取要用作为关键词的言语的主要部分。
18、按照权利要求15的多媒体内容检索装置,其特征是内容检索部分利用内容的形状信息作为特征数据。
19、按照权利要求15的多媒体内容检索装置,其特征是内容检索部分采用内容的颜色信息和亮度信息作为特征数据。
20、按照权利要求15的多媒体内容检索装置,其特征是内容检索部分采用内容的运动信息作为特征数据。
21、按照权利要求15的多媒体内容检索装置,其特征是内容检索部分采用压缩内容的结构信息作为特征数据。
22、一种多媒体数据检索方法,包括步骤:
存储多种内容;
通过客户机终端输入特征说明文本;
读取该内容的特征数据和存储该特征数据;和
由通过客户机终端输入的特征说明文本提取关键词,将此关键词变换成特征数据,在所存储的特征数据中选择接近于关键词的特征数据的特征数据,和由所存储内容检索具有所选择特征数据的内容。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP192539/1998 | 1998-07-08 | ||
JP10192539A JP2000029881A (ja) | 1998-07-08 | 1998-07-08 | マルチメディア・データ検索方法 |
JP10282437A JP2000112975A (ja) | 1998-10-05 | 1998-10-05 | マルチメディア・コンテンツ検索方法 |
JP282437/1998 | 1998-10-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1245317A CN1245317A (zh) | 2000-02-23 |
CN1168035C true CN1168035C (zh) | 2004-09-22 |
Family
ID=26507381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB991097130A Expired - Fee Related CN1168035C (zh) | 1998-07-08 | 1999-07-08 | 多媒体数据检索装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6785429B1 (zh) |
EP (1) | EP0971296A2 (zh) |
KR (1) | KR100327085B1 (zh) |
CN (1) | CN1168035C (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001036423A (ja) | 1999-05-20 | 2001-02-09 | Yamaha Corp | 番組再生システム及び番組再生方法 |
GB2362737B (en) * | 1999-05-20 | 2002-02-06 | Yamaha Corp | Program reproduction system and method using communication network |
US7490107B2 (en) | 2000-05-19 | 2009-02-10 | Nippon Telegraph & Telephone Corporation | Information search method and apparatus of time-series data using multi-dimensional time-series feature vector and program storage medium |
JP4107544B2 (ja) * | 2000-10-23 | 2008-06-25 | 三菱電機株式会社 | 画像信号の再符号化装置 |
JP4162181B2 (ja) | 2000-11-27 | 2008-10-08 | ヤマハ株式会社 | 番組作成再生装置及び番組作成再生方法並びに記憶媒体 |
US7409382B2 (en) | 2000-12-08 | 2008-08-05 | Fujitsu Limited | Information processing system, terminal device, method and medium |
KR100758897B1 (ko) * | 2001-01-09 | 2007-09-14 | 엘지전자 주식회사 | 멀티미디어 서비스 제공 방법 |
WO2002103562A1 (en) * | 2001-06-19 | 2002-12-27 | Whoi-Yul Kim | Method of extracting shape variation descriptor for retrieving image sequence |
KR20030059403A (ko) * | 2001-12-29 | 2003-07-10 | 엘지전자 주식회사 | 멀티미디어 검색방법 및 장치 |
KR100512143B1 (ko) * | 2002-02-08 | 2005-09-02 | 엘지전자 주식회사 | 멜로디 기반 음악 검색방법과 장치 |
KR100914459B1 (ko) * | 2002-11-23 | 2009-08-27 | 주식회사 포스코 | 코일 컨베이어의 코일위치 자동보정장치 |
JP2004234228A (ja) * | 2003-01-29 | 2004-08-19 | Seiko Epson Corp | 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム |
JP4405831B2 (ja) * | 2003-05-20 | 2010-01-27 | キヤノン株式会社 | 画像処理装置及びその制御方法、プログラム |
US20050180641A1 (en) * | 2004-02-02 | 2005-08-18 | Clark Adam L. | System and method for transmitting live audio/video information |
US20050207657A1 (en) * | 2004-02-02 | 2005-09-22 | Clark Adam L | System and method for encoding and decoding video |
US7505045B2 (en) * | 2004-02-02 | 2009-03-17 | Adams Platform Pty Ltd. | System and method for decoding live audio/video information |
US20050196049A1 (en) * | 2004-02-02 | 2005-09-08 | Clark Adam L. | System and method for encoding live audio/video information |
US7483576B2 (en) * | 2004-02-02 | 2009-01-27 | Adams Platform Pty Ltd. | System and method for decoding video |
US7010033B2 (en) * | 2004-02-02 | 2006-03-07 | Adams Platform Pty Ltd. | System and method for compressing and encoding video |
US20050169544A1 (en) * | 2004-02-02 | 2005-08-04 | Clark Adam L. | System and method for encoding and decoding video |
US6975767B1 (en) * | 2004-02-02 | 2005-12-13 | Adams Platform Pty Ltd. | System and method for encoding and decoding video |
US20050169365A1 (en) * | 2004-02-02 | 2005-08-04 | Clark Adam L. | Data encoding using multi-dimensional redundancies |
US20050256722A1 (en) * | 2004-05-14 | 2005-11-17 | Clark Adam L | System and method for lossless audio encoding and decoding |
JP2007180808A (ja) * | 2005-12-27 | 2007-07-12 | Toshiba Corp | 映像符号化装置、映像復号化装置、及び映像符号化方法 |
US20090024666A1 (en) * | 2006-02-10 | 2009-01-22 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating metadata |
CN101075233B (zh) * | 2006-05-17 | 2012-05-02 | 华为技术有限公司 | 多媒体内容收集部件、系统及其方法 |
JP5257330B2 (ja) * | 2009-11-06 | 2013-08-07 | 株式会社リコー | 発言記録装置、発言記録方法、プログラム及び記録媒体 |
WO2011155551A1 (ja) * | 2010-06-10 | 2011-12-15 | 日本電気株式会社 | ファイル記憶装置、ファイル記憶方法およびプログラム |
US9100261B2 (en) * | 2013-06-24 | 2015-08-04 | Freescale Semiconductor, Inc. | Frequency-domain amplitude normalization for symbol correlation in multi-carrier systems |
US9106499B2 (en) | 2013-06-24 | 2015-08-11 | Freescale Semiconductor, Inc. | Frequency-domain frame synchronization in multi-carrier systems |
US9282525B2 (en) | 2013-06-24 | 2016-03-08 | Freescale Semiconductor, Inc. | Frequency-domain symbol and frame synchronization in multi-carrier systems |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761655A (en) | 1990-06-06 | 1998-06-02 | Alphatronix, Inc. | Image file storage and retrieval system |
US6195497B1 (en) * | 1993-10-25 | 2001-02-27 | Hitachi, Ltd. | Associated image retrieving apparatus and method |
US5870754A (en) * | 1996-04-25 | 1999-02-09 | Philips Electronics North America Corporation | Video retrieval of MPEG compressed sequences using DC and motion signatures |
US6370543B2 (en) * | 1996-05-24 | 2002-04-09 | Magnifi, Inc. | Display of media previews |
-
1999
- 1999-07-06 US US09/347,383 patent/US6785429B1/en not_active Expired - Fee Related
- 1999-07-07 EP EP99113114A patent/EP0971296A2/en not_active Withdrawn
- 1999-07-08 KR KR1019990027535A patent/KR100327085B1/ko not_active IP Right Cessation
- 1999-07-08 CN CNB991097130A patent/CN1168035C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6785429B1 (en) | 2004-08-31 |
KR20000011581A (ko) | 2000-02-25 |
CN1245317A (zh) | 2000-02-23 |
EP0971296A2 (en) | 2000-01-12 |
KR100327085B1 (ko) | 2002-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1168035C (zh) | 多媒体数据检索装置和方法 | |
CN1196063C (zh) | 内容检索发布装置和内容检索发布方法 | |
JP3597025B2 (ja) | 頂点群をデータベースとする階層的形状符号化/復号方法並びに装置 | |
CN1168036C (zh) | 产生合成关键帧的方法和使用该方法的视频浏览系统 | |
CN1226867C (zh) | 推荐节目的方法及其系统 | |
CN1308913C (zh) | 编码设备、解码设备及其方法 | |
US8340498B1 (en) | Extraction of text elements from video content | |
Steinmetz et al. | Multimedia fundamentals, volume 1: media coding and content processing | |
CN1918571A (zh) | 信息检索装置 | |
CN1549206A (zh) | 对三维对象数据进行编码和解码的方法及装置 | |
CN1757236A (zh) | 操纵数据压缩参量的视频内容分析方法和系统 | |
CN1627807A (zh) | 节目提取方法与节目提取装置 | |
CN1930888A (zh) | 用于压缩域视频编辑的方法和设备 | |
EP2405365B1 (en) | Method and device for mnemonic contact image association | |
CN1285058C (zh) | 图像检索装置和图像检索方法 | |
WO2007146554A2 (en) | Apparatus and method for content item annotation | |
CN1623329A (zh) | 视频图像信息分发装置以及接收装置 | |
WO2021028236A1 (en) | Systems and methods for sound conversion | |
CN1453724A (zh) | 墨滴群集显式表示的二级图像压缩 | |
US20030016875A1 (en) | Image encoder, image encoding method, recording medium and computer data signal embodied in a carrier wave | |
JP5341523B2 (ja) | メタデータを生成する方法及び装置 | |
CN1461464A (zh) | 语言处理装置 | |
CN1745424A (zh) | 存储剧情的信息存储介质以及记录该剧情的设备和方法 | |
CN100341331C (zh) | 基于区域的规模可变的图像编码 | |
CN1275393C (zh) | 数据格式代码转换装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |