CN101174407B - 信息处理装置和方法、程序以及记录介质 - Google Patents

信息处理装置和方法、程序以及记录介质 Download PDF

Info

Publication number
CN101174407B
CN101174407B CN2007101615520A CN200710161552A CN101174407B CN 101174407 B CN101174407 B CN 101174407B CN 2007101615520 A CN2007101615520 A CN 2007101615520A CN 200710161552 A CN200710161552 A CN 200710161552A CN 101174407 B CN101174407 B CN 101174407B
Authority
CN
China
Prior art keywords
content
characteristic quantity
function
unit
many contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101615520A
Other languages
English (en)
Other versions
CN101174407A (zh
Inventor
斋藤真里
小林由幸
木村隆臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101174407A publication Critical patent/CN101174407A/zh
Application granted granted Critical
Publication of CN101174407B publication Critical patent/CN101174407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

本发明提供了信息处理装置和方法、程序以及记录介质。信息处理装置包括转换装置和检索装置,其中,转换装置使用函数来对内容特征量进行转换,所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离符合和用户输入的在所述多条内容之间的相似性关系相适应的距离,所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容映射到通过对所述多个特征量进行转换而得到的新的特征量空间中;而检索装置基于经转换的特征量来检索相似的内容。

Description

信息处理装置和方法、程序以及记录介质
技术领域
本发明涉及信息处理装置和方法、程序以及记录介质。特别地,本发明涉及用于处理内容的信息处理装置和方法、程序以及记录介质。
背景技术
将大量乐曲记录到硬盘或闪存中并再现所记录的乐曲的设备正变得越来越普及。正因为可以记录大量乐曲,所以产生了从所记录的那些乐曲中检索出相似乐曲的需要。
存在一种检索相似乐曲的现有技术,该技术基于乐曲的特征量来测量乐曲之间的距离,从而检索得到相似乐曲(例如参考,日本专利早期公开No.2004-171096,称作专利文献1)。
发明内容
但是,通常,如果基于乐曲的特征量之间的相关或距离来定义相似性,则这需要与所存在的乐曲组合一样多的计算。近年来,能够存储几百首到超过一千首乐曲的设备已经很普遍。越多的乐曲存在,则检索相似曲目所需要的处理时间就越长,因而导致大量的处理时间。
另一方面,单纯地选择其特征量之间的欧几里得距离(Euclideandistance)彼此相接近的乐曲,会导致得到不希望的曲目,也就是,将那些用户并不认为相似的曲目确定为相似。
基于欧几里得距离来得到用户认为相似的乐曲的一种可能方法是,创建能够利用基于用户测验中得到的乐曲之间的相似性的主坐标分析(principal coordinate analysis)或增量更新(incremental update)来很好地表示相似性的空间,然后例如通过回归分析(regression analysis)来从乐曲的特征量中估计各个轴的坐标。
但是,收集足够多的、表示乐曲之间相似性的用户测验数据、以便应用上述方法是非常困难,而且并不实际。例如,为了获得关于1450首乐曲之间的相似性程度的测验数据、以便能够应用主坐标分析,则必须输入指示1450首×1450首或两百一十万个模式(pattern)的相似或不相似的数据。
鉴于上述原因而实现了本发明,本发明的一个目的是以更简易、更快速且更精确的方式来识别相似内容。
根据本发明一个实施例的信息处理装置包括转换装置和检索装置。转换装置使用函数来对内容特征量进行转换。所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索装置基于经转换的特征量来检索出相似内容。
本发明还可以包括提取装置,用以提取内容特征量。
所述检索装置能够通过从已由所述函数转换过其特征量的内容的多个组中的同一组中检索内容,来检索出相似内容。
所述转换装置能够通过应用上述函数来转换内容特征量。所述函数是利用由遗传方法(genetic method)反复生成、直到预定世代数目都不再更新评估值为止而获得的。所述评估值是从两个值中计算得到的信息标准。所述两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似。所述两个值中的另一个是所述函数的自由参数的数目。
所述转换装置能够通过应用上述函数来转换内容特征量。所述函数是利用遗传方法反复生成、直到预定世代数目都不再更新评估值为止而获得的。所述评估值是根据表示分类程度的FDR(费希尔判别比)来计算得到的。
本发明还可以包括生成装置,用以利用遗传方法来生成所述函数,以使得所述转换装置能够通过应用所生成的函数来转换内容特征量。
本发明还可以包括计算装置,用以从两个值中计算得到作为信息标准的评估值,以使得所述生成装置能够利用遗传方法来生成所述函数,直到预定世代数目都不再更新评估值为止。上述两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似。另一个是所述函数的自由参数的数目。
所述计算装置根据表示所述分类程度的FDR来计算所述评估值。
本发明还可以包括获取装置,用以获取表示用户输入的、所述多条内容之间的相似性关系的数据,以使得所述计算装置能够使用所述表示用户输入的、所述多条内容之间的相似性关系的数据来计算评估值。
本发明还可以包括群集(clustering)装置,用于基于经转换的特征量来执行内容的群集操作。
本发明还可以包括识别装置,用于根据基于经转换的特征量、内容到群集的距离,来识别内容所属于的组。
根据本发明一个实施例的信息处理方法包括转换步骤和检索步骤。转换步骤使用函数来对内容特征量进行转换。所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索步骤基于经转换的特征量来检索相似的内容。
根据本发明一个实施例的程序使得计算机执行转换步骤和检索步骤。转换步骤使用函数来对内容特征量进行转换,所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索步骤基于经转换的特征量来检索相似的内容。
存储在根据本发明一个实施例的记录介质中的程序使得计算机执行转换步骤和检索步骤。转换步骤使用函数来对内容特征量进行转换,所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索步骤基于经转换的特征量来检索相似的内容。
在本发明的一个实施例中,使用函数来转换内容特征量。所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。相似内容是基于经转换的特征量来提取的。
如上所述,根据本发明的实施例,能够识别相似内容。
此外,根据本发明的实施例,能够以更简易、更快速且更精确的方式来识别相似内容。
附图说明
图1是示出了可操作于对内容特征量空间进行变换的信息处理装置的配置示例的框图;
图2是示出了空间变换单元的示例的框图;
图3是描述了空间变换的视图;
图4是描述了转换函数的视图;
图5是描述了经变换的空间的视图;
图6是描述了利用遗传方法来变换空间的视图;
图7是示出了利用遗传方法的空间变换的概念的视图;
图8是示出了在经变换的空间中的欧几里得距离与内容相似性之间的关系的视图;
图9是示出了在经变换的空间中相似内容或不相似内容的特征量间的欧几里得距离与FDR值之间的关系的视图;
图10是示出了在经变换的空间中相似内容或不相似内容的特征量间的欧几里得距离与所述FDR值之间的关系的视图;
图11是示出了在经变换的空间中相似内容或不相似内容的特征量间的欧几里得距离与所述FDR值之间的关系的视图;
图12是示出了自由参数的示例的视图;
图13是示出了相关值、相似性数据S和内容特征量间的距离之间的关系的视图;
图14是示出了相关值、相似性数据S和内容特征量间的距离之间的关系的视图;
图15是示出了相关值、相似性数据S和内容特征量间的距离之间的关系的视图;
图16是示出了群集数和匹配率的示例的视图;
图17是示出了使用相似性数据S的评估的示例的视图;
图18是示出了匹配率的示例的视图;
图19是示出了群集的示例的视图;
图20是示出了群集的示例的视图;
图21是示出了群集的示例的视图;
图22是示出了群集的示例的视图;
图23是描述了预处理的流程图;
图24是描述了空间变换处理的流程图;
图25是示出了可操作用于识别相似内容的信息处理装置的配置示例的框图;
图26是描述了内容加载处理的流程图;
图27是描述了相似内容检索处理的流程图;
图28是可操作用于通过对内容特征量空间进行变换来识别相似内容的信息处理装置的配置示例的框图;以及
图29是示出了个人计算机的配置示例的框图。
具体实施方式
在描述本发明的优选实施例之前,以下首先讨论本发明的构成要素与这里所述的实施例之间的关系。这种说明旨在确保支持本要求了权利的发明的实施例在这里得到描述。因此,即使一个实施例没有被描述为与本发明的某构成要素相关,那也并不一定意味着该实施例与本发明的所述构成要素无关。反过来,即使在这里将一个实施例描述为与本发明的某构成要素相关,那也并不一定意味着该实施例与本发明的其它构成要素无关。
根据本发明一个实施例的信息处理装置包括转换装置(例如,图25中的特征量转换单元131)和检索装置(例如,图25中的检索处理单元127)。转换装置使用函数来转换内容特征量。所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布(lay out)在由上述多个特征量限定的特征量空间中的多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索装置基于经转换的特征量来检索相似的内容。
本发明还可以包括用于提取内容特征量的提取装置(例如,图25中的特征量提取单元122)。
本发明还可以包括生成装置(例如,图28中的空间变换单元26),该生成装置用于通过遗传方法(genetic method)来生成函数,以使得转换装置可以通过应用所生成的函数来转换内容特征量。
本发明还可以包括计算装置(例如,如图2所示的、设在图28中的空间变换单元26中的函数评估值计算单元42),该计算装置用于根据两个值来计算作为信息标准的评估值,以使得生成装置可以通过遗传方法来生成所述函数,直到预定世代数目都不再更新所述评估值为止。上述的两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似。另一个是所述函数的自由参数的数目。
本发明还可以包括获取装置(例如,图28中的用户评估获取单元25),该获取装置用于获取表示用户输入的、所述多条内容之间的相似性关系的数据,以使得计算装置能够使用该表示用户输入的、所述多条内容之间的相似性关系的数据来计算评估值。
本发明还可以包括群集(clustering)装置(例如,图28中的群集单元27),该群集装置用于基于经转换的特征量来进行内容的群集操作。
本发明还可以包括识别装置(例如,图25中的内容组识别单元),该识别装置用于根据基于经转换的特征量、内容到群集的距离来识别内容所属的组。
根据本发明的实施例的信息处理方法和程序包括转换步骤(例如,图26中的步骤S54)和检索步骤(例如,图27中的步骤S72)。转换步骤使用函数来转换内容特征量。所述函数适用于对附在多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,与和用户输入的、所述多条内容之间的相似性关系相适应的距离相一致。所述函数还适用于将分布在由上述多个特征量限定的特征量空间中的多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。检索步骤基于经转换的特征量来检索相似内容。
图1是示出了可操作于变换内容特征量空间、并生成适用于在经变换的空间中获取特征量的转换函数的信息处理装置11的配置示例的框图。信息处理装置11包括样本内容加载单元21、内容数据库22、特征量提取单元23、特征量获取单元24、用户评估获取单元25、空间变换单元26、群集单元27和输出单元28。
样本内容加载单元21加载样本内容,所述样本内容是适合用于对内容特征量空间进行变换的内容的样本。样本内容加载单元21将样本内容提供给内容数据库22。
内容数据库22存储来自样本内容加载单元21的样本内容。
这里,内容包括乐曲(它们的数据)、运动或静止图像(它们的数据)等。
以下将对内容是乐曲的情况进行描述。
特征量提取单元23从存储在内容数据库22中的样本内容中提取特征量。特征量提取单元23例如通过分析样本内容(乐曲)的音频波形来提取样本内容的特征量。特征量提取单元23将所提取的特征量提供给内容数据库22。
特征量获取单元24获取样本内容的特征量。例如,特征量获取单元24获取由用户操作输入的特征量。或者,特征量获取单元24获取诸如对经由网络(未示出)从服务器读取的、对该内容的评论之类的样本内容的特征量。特征量获取单元24将所获得的特征量提供给内容数据库22。
用户评估获取单元25从内容数据库22获取用户评估。用户评估表示根据用户对存储在内容数据库22中的样本内容的主观判断而得到的多条样本内容之间的相似程度。例如,用户评估获取单元25获取由用户操作输入的评估。或者,用户评估获取单元25获取对经由网络(未示出)从服务器读取的样本内容的评估。用户评估获取单元25将所获得的评估提供给内容数据库22。
空间变换单元26对样本内容的特征量进行变换。空间变换单元26将适用于对样本内容的特征量空间进行变换的转换函数,提供给内容数据库22。
群集单元27执行在经变换的空间中的样本内容的群集操作。群集单元27找到群集距心(cluster centroid),以将在经变换的空间中的所述距心位置提供给内容数据库22。群集距心(位置)充当内容组的代表值。这里,术语“内容组”指的是彼此相似的多条内容的集合。
内容数据库22不仅存储样本内容,还存储由特征量提取单元23提取的样本内容特征量、由特征量获取单元24获取的样本内容特征量、由用户评估获取单元25获得的用户评估、由空间变换单元26获得的转换函数以及由群集单元27获得的群集距心位置。
输出单元28根据请求,向外部设备输出所获得的转换函数和存储在内容数据库22中的群集距心的位置。
图2是示出空间变换单元26的配置的框图。空间变换单元26包括转换函数生成单元41和函数评估值计算单元42。
转换函数生成单元41生成如下所述的函数:该函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由上述多个特征量限定的特征量空间中的多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。换言之,转换函数生成单元41通过遗传方法来生成函数,所述函数适用于将其中多个内容特征量中的每一个特征量都充当维度轴(dimensional axis)的空间,变换为根据从用户主观角度出发的多条内容之间的相似程度来设置各个位置之间的距离的空间,所述各个位置是由多条内容的各个特征量确定的。即,转换函数生成单元41通过遗传方法,来生成适用于将第一空间变换为第二空间的函数,在所述第一空间中,存储在内容数据库22中的样本内容的各个特征量都充当维度轴,而在所述第二空间中,多条样本内容的特征量之间的距离是根据用户对样本内容的评估来设置的。
函数评估值计算单元42根据两个值来计算作为信息标准的评估值。上述两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值。,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似。另一个是所述函数的自由参数的数目。即,函数评估值计算单元42根据两个值来计算评估值或信息标准。它们中的一个是表示基于样本内容的多条特征量之间的欧几里得距离的分类程度的值,所述样本内容在预先由用户评估所估计的相似性程度的那些样本内容中被主观上认为相似或不相似。另一个是转换函数的自有参数的数目。
转换函数生成单元41根据计算所得的评估值、通过遗传方法来反复地生成函数。
以下将参考图3到图15,来描述由空间变换单元26进行的对样本内容的特征量空间的变换。
术语“特征量空间”指的是其中作为特征量的各个变量充当维度轴的空间。另一方面,术语“空间变换”指的是出于给定目的而将初始空间变换为另一个空间。即,空间变换意味着至少将空间的多个维度轴中的一个维度轴,变换为与初始变量不相同的变量。
这里,假设变量X是构成在包含n维度(n是正整数)的初始空间中的维度的变量。假设变量X′是构成经变换的、包含m维度(m是正整数)的空间中的维度的变量。
如图3所示,例如,空间被变换以使得初始空间中的变量X的变量X1和X2被变换为变量X1′和X2′。在图3中,每一个黑色圆点表示空间中由单个内容特征量确定的位置。图3中在黑色圆点之间的每条线连接根据用户评估而被认为相似的多条内容的特征量所确定的位置处的那些黑色圆点,所述的用户评估表示根据用户的主观判断的多条内容之间的相似性程度。
在经变换的空间中的各个维度都是通过对初始空间中的变量进行给定的转换处理而生成的。
即,如公式(1)所示,通过对由初始空间中的变量X组成的向量X应用转换函数fj,就可以得到由构成经变换的空间中的维度的变量X′组成的向量Xj′。
向量Xj′=fj(向量X)...(1)
转换函数fj包括m个转换函数f1到fm。
公式(2)表示针对线性转换的转换函数f1的示例。
f1(向量X)=X1×0.5...(2)
公式(3)表示针对线性转换的转换函数f2的示例。
f2(向量X)=X1×0.1+X2×0.3...(3)
公式(4)表示针对使用核函数(kernel function)的非线性转换的转换函数f3的示例。
f3(向量X)=K(向量X,θ)...(4)
如图4所示,例如,包括m个转换函数f1到fm的转换函数fj被应用于作为具有n维度的初始空间的轴的变量X1到Xn。在图4的示例中,转换函数fm如公式(5)所示。
fm(向量X)=X4×0.1+X2×1.5...(5)
作为具有m维度的经转换的空间的轴的变量X1′到Xm′如公式(6)所示。
X1′=f1(向量X)
X2′=f2(向量X)
X3′=f3(向量X)
Xm′=fm(向量X)  ...(6)
通过遗传方法对转换函数fj进行反复优化,从而使得经变换的空间更接近于更符合所述目的的空间。
例如,随机地生成转换函数fj以生成预定数目的空间。即,生成多个转换函数fj。基于从函数评估函数得到的函数评估值,来对所有的生成空间进行评估。选择具有高评估值的几个空间,也就是,更符合所述目的的空间。或者,使得一个空间的转换函数fj的一部分和其它空间的转换函数fj的一部分相互交叉,以使得它们可以相互替换。又或者,使空间的转换函数fj的一部分发生突变(mutation),以使得其可以被随机地改变。又或者,将空间留给新的一代,以使得可以重新并随机地生成转换函数f1到fm中的任意一个函数。
通过选择、交叉、突变或随机生成的下一代空间的生成,以及评估及其函数评估值将被反复进行、直到函数评估值不再增大为止。
使用诸如AIC(Akaike Information Criterion)或BIC(Schwarz’sBayesian Information Criterion)之类的信息标准作为函数评估值,以防止超量学习(overlearning)。
例如,信息标准AIC是通过公式(7)而得到的。
AIC=-2x最大对数似然率+2x自由参数数目...(7)
例如,信息标准BIC是通过公式(8)而得到的。
BIC=-2x最大对数似然率+log(样本内容评估数)x自由参数数目                                        ...(8)
如图5所示,通过简单地测量欧几里得距离A,该空间就可以被变换,以使得可以基于符合用户主观观点的测量来计算多条内容之间的相似性程度。即,生成空间被变换,以使得由该空间中的两条内容的特征量表示的位置之间的欧几里得距离A表示它们之间的符合用户主观观点的相似性程度。
这里,将更详细地描述样本内容、关于样本内容的用户评估、特征量、转换函数和函数评估值。
首先,通过用户测验来准备作为教师数据的样本内容和关于其的用户评估。例如,准备内容相似性数据S、作为关于样本内容的用户评估。
用于测验的样本内容用M来表示,而用于测验的样本内容的数目用O(例如,1400)来表示。
如果两条样本内容M1和M2被用户评估为相似,则关于M1-M2组合(M1,M2)的相似性数据S被设定为0,而0意味着它们彼此相似。
如果两条样本内容M1和M3被用户评估为不相似,则关于M1-M3组合(M1,M3)的相似性数据S被设定为1,而1意味着它们是彼此不相似的。
类似地,如果两条样本内容M4和M6被用户评估为相似,则关于M4-M6组合(M4,M6)的相似性数据S被设定为0,而0意味着它们是彼此相似的。
这里,教师数据(所准备的样本内容和关于其的评估)的数目可以少于现有技术中的教师数据。此外,没有必要准备O条样本内容(例如,1400条内容)的所有可能组合的相似性数据S。
接下来,准备能正确表示样本内容的特征的特征量。这些特征量被用作组成初始空间(变换之前的空间)的变量。例如,通过获得预先从样本内容中提取的特征量或者通过从样本内容中提取特征量,来准备特征量。
以下将利用特征量Fki来表示充当组成初始空间的变量的特征量。这里,i是1到O(样本内容的条数)中的任意一个。
例如,特征量Fk1表示演奏速度,例如,BPM(每一分钟的拍子数(Beat Per Minute)),也就是音乐拍子(tempo)。例如,特征量Fk2表示指示乐曲快或慢的速度(speed)。这个速度是针对乐曲的主观观点,也就是,倾听该乐曲的用户所认为的速度。例如,存在越多的十六分音符,则乐曲就会被认为越快。
特征量Fk3表示音乐拍子波动的偏移量(dispersion)或范围。另一方面,特征量Fk4表示大调(major)或大和弦(major chord)。特征量Fk5表示音符(note)或每单位时间内的音符数。
此外,特征量Fkn表示低中频(LoMid),或音频频带内低域能量与中域能量之比。
如图6所示,其轴为特征量Fk1到Fkn的初始空间被一点一点地变形为由欧几里得距离表示多条内容之间的相似性程度的空间。
当由于转换函数fj的更新而使得空间被变换时,将计算得到函数评估值。信息标准被用作所述的函数评估值。所述信息标准是从两个值中计算得到的。它们中的一个是FDR(Fisher discriminant ratio,费希尔判别比),其代表基于在变形后的空间中的欧几里得距离的相似内容和不相似内容之间的分类程度。另一个值是转换函数的自由参数的数目。
图7示出了通过遗传方法的空间变换的概念。例如,在初始空间中的各个初始特征量是维度。因此,这些维度被表示为{Tempo,Speed,Dispersion,Major,Notes,PitchMove,...,LoMid}。
如果通过遗传方法使得初始空间进化到下一代(下文中称作第二代),则在第二代中的维度例如被表示为{Tempo,Speed,Dispersionx1.35,Major,Notes,...,LoMid}。从初始空间到第二代的进化中,“Dispersion”被扩展,而“PitchMove”却被删除。
此外,如果通过遗传方法使得空间从第二代进化到第三代,则在第三代中的维度例如被表示为{Tempo,Speed,Dispersionx1.35,K(Major,35),Notes,...,LoMid}。在从第二代到第三代的进化过程中,通过核函数“Major”被非线性地转换为“K(Major,35)”。
在生成空间的评估中,在新生成的空间中作为教师数据的一个样本内容组合的特征量之间的欧几里得距离D被计算得到。例如,通过公式(9)来计算得到样本内容Mk和Mi之间的欧几里得距离D。
[表达式1]
Figure S2007101615520D00131
其中,向量Fk是样本内容Mk的特征量向量,向量Fi是样本内容Mi的特征量向量,而T是转置。此外,仅针对可以获得相似性数据S的那些样本内容组合Mk和Mi来计算欧几里得距离D。
图8示出了特征量间的欧几里得距离与多条内容间的相似性之间的关系。在图8中,实线指示在经变换的空间中相似内容的特征量之间的欧几里得距离的概率分布,而虚线指示在经变换的空间中不相似内容的特征量之间的欧几里得距离的概率分布。
可以说,相似内容和不相似内容之间的距离相差越大,空间就可以更好地表示多条内容之间的相似性。
为了测量相似性内容特征量和不相似内容特征量的距离之间的差值,通过公式(10)针对两种类别来计算FDR(Fisher discriminant ratio),一个类别是针对相似内容的,而另一个是针对不相似内容的。
[表达式2]
Figure S2007101615520D00141
图9到图11示出了在经变换的空间中相似内容的特征量和不相似内容的特征量的欧几里得距离与FDR值之间的关系。在图9到图11中,实线指示在经变换的空间中相似内容的特征量之间的欧几里得距离的概率分布,而虚线指示在经变换的空间中不相似内容的特征量之间的欧几里得距离的概率分布。
如图9所示,如果相似内容的特征量的欧几里得距离与不相似内容的特征量的欧几里得距离的差值很小,则FDR也很小。如图10和图11所示,相似内容的特征量的欧几里得距离与不相似内容的特征量的欧几里得距离的差值越大,则FDR值也越大。即,相似内容的特征量的欧几里得距离与不相似内容的特征量的欧几里得距离的差异越明显,则FDR值越大。
例如,FDR被用作在计算信息标准AIC的公式(7)中的最大对数似然率。
图12示出了自由参数的示例。在图12中,虚线圆圈所围住的那些值是自由参数。在公式(7)中的自由参数数目例如被设置为图12中示出的数目。
例如,在转换函数“f1(向量X)=X1×0.5”中,“0.5”是自由参数。在转换函数“f2(向量X)=X3×0.4-X4×0.2”中,“0.4”和“0.2”是自由参数。在转换函数“f3(向量X)=exp(-sqr(X3×0.5)/0.5)×0.6”中,与X3相乘的“0.5”、除数“0.5”和“0.6”是自由参数。在转换函数“fm(向量X)=X4×0.1+X2×1.5”中,“0.1”和“1.5”是自由参数。
作为信息标准的AIC值越小,就越好。因此,在适用于创建下一代空间(也就是,生成用于下一代的转换函数)的一般操作中,AIC值越小,则其越有可能被选择。
应当注意,当使用信息标准BIC作为函数评估值时也是相同情况,因此省略对其的描述。
如上所述,转换函数生成单元41生成如下所述的函数,该函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适用于将分布在由上述多个特征量限定的特征量空间中的多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。其结果是,空间变换单元26变换了样本内容的特征量空间。
根据评估值通过遗传方法来反复地生成空间变换函数,所述评估值是从两个值中计算得到的信息标准。它们中的一个是由函数评估值计算单元42计算得到的值,其表示基于多条内容之间的欧几里得距离的分类程度,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似。另一个是所述函数的自由参数的数目。
以上,将内容相似性数据S描述为用于指示多条内容是否相似。但是,内容相似性数据S也可以是表示相似性程度的连续值。例如,内容相似性数据S是从0到1的任意实数,其中,0表示完全相同,而1表示完全不同。
例如,如果两条内容M1和M2被用户评估为有点相似,则关于组合(M1,M2)的相似性数据S被设置为0.3,0.3意味着它们彼此有点相似。
如果内容M1和M3被用户评估为不相似,则关于组合(M1,M3)的相似性数据S被设置为0.9,0.9意味着它们彼此不相似。
类似地,如果两条内容M4和M6被用户评估为既不是相似也不是不相似,则关于组合(M4,M6)的相似性数据S被设置为0.5,0.5意味着它们彼此既不相似也不是不相似。
在这种情况下,使用相似性数据S和欧几里得距离之间的相关而计算得到的AIC或其它信息标准被用作函数评估值。例如,在计算信息标准AIC的公式(7)中的最大对数似然率是根据相关值而计算得到的。
图13示出了当相关值为0.0时,相似性数据S与内容的特征量间的距离之间的关系。图14示出了当相关值为0.5时,相似性数据S与内容的特征量间的距离之间的关系。图15示出了当相关值为1.0时,相似性数据S与内容的特征量间的距离之间的关系。
如图13到图15所示,如果内容相似性数据S是表示相似性程度的连续值,则可以认为,空间中的特征量间的距离与相似性数据S之间的相关越高,该空间就能更好地表示多条内容之间的相似性。即,如图14所示相关值为0.5的空间,比如图13所示相关值为0.0的空间更好地表示了多条内容之间的相似性程度。此外,如图15所示相关值为1.0的空间,比如图14所示相关值为0.5的空间更好地表示了多条内容之间的相似性程度。
此外,群集单元27执行在样本内容的特征量已经被变换的空间中的样本内容的群集操作。
群集单元27通过基于内容的多个特征量间的欧几里得距离的分类(例如K-means方法),来执行样本内容的群集操作。
在样本内容的群集中,群集数是变化的。选择与相似性数据S相匹配的最小的群集数。即,在与相似性数据S相匹配的群集数中,选择最小的数。
如图16所示,例如,群集数连续地从1增大到36并超过36,以用于样本内容的群集操作。
求得各个群集数与相似性数据S的匹配率。在如图16所示的示例中,当群集数为1时,与相似性数据S的匹配率为0.45。当群集数为2时,与相似性数据S的匹配率是0.48。类似地,当群集数为35和36时,与相似性数据S的匹配率分别为0.95和0.88。
例如,我们假设当群集数为52(未示出)时,与相似性数据S的匹配率为0.95,并且当群集数为35时,与相似性数据S的匹配率为0.95。这种情况下,在最大匹配率为0.95的群集数中,选择比群集数52小的群集数35。
这里,将参考图17和图18来描述群集数与相似性数据S之间的匹配率。
为了获得匹配率,例如,首先将两个值加在一起。这两个值是:基于相似性数据S而被评估为彼此相似的两条内容属于同一个群集的情况的数目,以及基于相似性数据S而被评估为彼此不相似的两条内容属于不同群集的情况的数目。然后,这个和被除以基于相似性数据S的评估的数目。
在图17中,用圆圈标记的那些评估指示两条内容被用户评估为彼此相似。另一方面,用交叉号标记的那些评估指示两条内容被用户评估为彼此不相似。
接下来将描述以下情况。即,如图17所示,例如,内容A和内容B被用户评估为彼此相似。其结果是,关于(内容A,内容B)的相似性数据S被设置为意味着它们相似的0。内容A和内容C被用户评估为彼此不相似。其结果是,关于(内容A,内容C)的相似性数据S被设置为意味着它们不相似的1。内容A和内容D被用户评估为彼此不相似。其结果是,关于(内容A,内容D)的相似性数据S被设置为意味着它们不相似的1。内容B和内容C被用户评估为彼此不相似。其结果是,关于(内容B,内容C)的相似性数据S被设置为意味着它们不相似的1。内容B和内容D被用户评估为彼此不相似。其结果是,关于(内容B,内容D)的相似性数据S被设置为意味着它们不相似的1。内容C和内容D被用户评估为彼此相似。其结果是,关于(内容C,内容D)的相似性数据S被设置为意味着它们相似的0。
在图17中示出的示例中,基于相似性数据S的评估数目是6。
在图18中示出的示例中,仅存在一个群集。在这种情况下,如图19所示,从内容A到内容D的所有内容都属于一个群集。基于两个组合(也就是,内容A和内容B,以及内容C和内容D)的相似性数据S的评估与群集操作结果相匹配。另一方面,基于四个组合(也就是,内容A和内容C,内容A和内容D,内容B和内容C,内容B和内容D)的相似性数据S的评估与群集操作结果不匹配。其结果是,匹配率是2/6或33.3%。
在图20所示的示例中,存在两个群集。内容A和内容B属于一个群集,而内容C和内容D属于另一个群集。内容A属于与内容C和内容D所属于的群集不相同的群集。内容B属于与内容C和内容D所属于的群集不相同的群集。基于所有组合的相似性数据S的评估与群集操作结果相匹配。其结果是,匹配率为6/6或100%。
在图21所示的示例中,存在三个群集。内容A和内容B属于一个群集。内容C属于另一个群集。内容D属于又一个群集。内容C属于与内容A和内容B所属于的群集不相同的群集。内容D属于与内容A和内容B所属于的群集不相同的群集。内容C和内容D属于不同的群集。在这种情况下,基于五个组合(也就是,内容A和内容B,内容A和内容C,内容A和内容D,内容B和内容C,以及内容B和内容D)的相似性数据S的评估与群集操作结果相匹配。另一方面,基于一个组合(也就是,内容C和内容D)的相似性数据的评估与群集操作结果不匹配。其结果是,匹配率为5/6或83.3%。
在图22所示的示例中,存在四个群集。所有内容(也就是,内容A到内容D)都属于彼此不同的群集。在这种情况下,基于4个组合(也就是,内容A和内容C,内容A和内容D,内容B和内容C,以及内容B和内容D)的相似性数据S的评估与群集操作结果相匹配。另一方面,基于两个组合(也就是,内容A和内容B,以及内容C和内容D)的相似性数据S的评估与群集操作结果不匹配。其结果是,匹配率为4/6或66.6%。
在图17和图18中示出的示例中,选择了群集数为2的群集操作结果,原因在于它们提供了100%的匹配率,并因此与相似性数据S最一致。
应当注意,匹配率可以不必是通过以下运算所获得的值。即,基于相似性数据S而被评估为彼此相似的两条内容属于同一个群集的情况的数目,加上基于相似性数据S而被评估为彼此不相似的两条内容属于不同群集的情况的数目。然后,这个和被除以基于相似性数据S的评估的数目。匹配率只需要是使“相似性数据S与基于群集的内容分类相一致”清楚可见的标准。例如,如果使用来自多个用户的相似性数据S,则可以使用赋予给从两个或更多个用户所获得的相同评估的内容(即,多个用户做出相同评估的内容)的权重,来计算匹配率。
或者,可以使用相似内容的召回率(recall rate)和精确率(precisionrate)或者不相似内容的召回率和精确率,来选择群集操作结果。
接下来,将参考图23中的流程图来描述空间变换前的预处理。在步骤S11中,样本内容加载单元21加载样本内容。样本内容加载单元21将所加载的样本内容提供给内容数据库22。内容数据库22存储该样本内容。
在步骤S12中,特征量提取单元23提取所述样本内容的特征量。特征量提取单元23将所提取的特征量提供给内容数据库22。内容数据库22存储所提取的特征量。
应当注意,特征量获取单元24可以获取预先提取的样本内容的特征量。例如,特征量获取单元24通过从给定服务器获取特征量、或通过从给定的记录介质读取它们来预先提取样本内容的特征量。
在步骤S13中,用户评估获取单元25获取关于样本内容的用户评估。即,用户评估获取单元25获取作为关于样本内容的用户评估的相似性数据S。更具体地,用户评估获取单元25例如通过从诸如键盘或触摸屏之类的操作单元获得用户操作信号,来获取相似性数据S。此外,用户评估获取单元25例如通过从给定服务器获取相似性数据S或从给定记录介质读取相似性数据S,来获得关于样本内容的用户评估。
用户评估获取单元25将相似性数据S(即,关于样本内容的用户评估)提供给内容数据库22。内容数据库22存储该相似性数据S。
在步骤S14中,空间变换单元26执行空间变换处理。
图24是描述了空间变换处理的流程图。在步骤S31中,空间变换单元26的转换函数生成单元41生成转换函数,以随机地生成几个空间。即,转换函数生成单元41随机地生成多个转换函数fj。
在步骤S32中,空间变换单元26的函数评估值计算单元42利用评估函数来评估所有的生成空间。即,函数评估值计算单元42利用评估函数通过计算函数评估值,来评估各个生成空间。所述的函数评估值是从两个值中计算得到的信息标准。它们中的一个是表示基于样本内容之间的欧几里得距离的分类程度的值,所述样本内容在预先由用户评估所估计的相似性程度的那些样本内容中被主观上认为相似或不相似。另一个是转换函数fj的自由参数的数目。
在步骤S33中,转换函数生成单元41通过遗传方法利用选择、交叉或突变来随机地生成新的转换函数,以生成新一代的几个空间。即,在步骤S33中,转换函数生成单元41通过遗传方法来生成下一代的多个转换函数fj。
在步骤S34中,函数评估值计算单元42利用评估函数来评估在步骤S33中生成的所有空间。
在步骤S35中,函数评估值计算单元42对在步骤S32中计算所得的函数评估值与在步骤S34中计算所得的函数评估值进行比较,以判断函数评估值是否已经停止增长。如果函数评估值计算单元42判断得出函数评估值增大了,则控制返回到步骤S33,在步骤S33中重复执行上述处理,以使得下一代空间可以被生成。更具体地,函数评估值计算单元42判断之前的函数评估值与当前的函数评估值是否存在差异。通过判断所述函数评估值是否已经被更新了预定的世代数,函数评估值计算单元42判断该函数评估值是否已经停止增长。
在第二回合的重复之后的步骤S35中,函数评估值计算单元42对在上一回合的步骤S34中计算所得的函数评估值与在当前回合的步骤S34中计算所得的函数评估值进行比较,以判断所述函数评估值是否已经停止增长。即,在步骤S35中,对上一代空间的函数评估值与下一代空间的函数评估值进行比较,以判断该值是否已经停止增长。
如果,在步骤S35中,判断得出函数评估值已经停止增长,则空间变换单元26向内容数据库22输出所生成的转换函数,也就是,已经通过遗传方法反复生成、直到函数评估值不再改变为止时的那些函数。然后,空间变换单元26终止空间变换处理。
在如上所述的示例中,直到评估值有一世代不再更新为止,才生成函数。但是,也可以例如直到评估值有预定数目的世代(2个世代或3个世代)都不再更新为止,才生成所述函数。
内容数据库22存储来自空间变换单元26的转换函数。
返回来参考图23,在步骤S15中,输出单元28从内容数据库22输出所生成的转换函数。即,输出单元28从内容数据库22读取转换函数,该转换函数是通过利用遗传方法反复生成、直到函数评估值不再改变为止时得到的转换函数。然后,输出单元28输出所读取的函数。
空间变换单元26向内容数据库22输出特征量。该特征量已经经过输出到内容数据库22的转换函数的转换。内容数据库22存储来自空间变换单元26的特征量。
在步骤S16中,群集单元27执行在经变换的空间中的样本内容的群集操作,以根据群集和相似性数据来计算匹配率。即,群集单元27基于经转换的特征量来执行样本内容的群集操作。
应当注意,群集单元27可以使用存储在内容数据库22中的转换函数来转换样本内容的特征量。
在步骤S17中,群集单元27判断是否已经执行过在预定范围内变化的群集数的群集操作。如果群集单元27判断得出仍然还要执行如上所述的群集操作,则控制返回到步骤S16,在步骤S16中执行具有下一个群集数的群集操作以计算匹配率。步骤S16和步骤S17将被重复执行,直到在预定范围内变化的群集数的群集操作完成为止。
在步骤S17中,当群集单元27判断得出已经执行过在预定范围内变化的群集数的群集操作,则控制前进到步骤S18。在步骤S18中,群集单元27从具有最高匹配率的那些群集数中识别出最小群集数。然后,群集单元27识别所识别的群集数的群集距心位置。群集单元27将所述群集距心位置提供给内容数据库22。内容数据库22存储该距心位置。
在步骤S19中,输出单元28从内容数据库22读取在经变换的空间的坐标上的距心位置。然后输出单元28输出距心位置,从而终止处理。
如上所述,转换函数和距心位置被存储在内容数据库22中,并由输出单元28输出到外部。
关于从输出单元28输出的转换函数和距心位置的信息,用在由用户使用的信息处理装置101中,接下来将描述该信息处理装置101接下来,将描述信息处理装置101,信息处理装置101是可操作用于记录并再现内容以及识别相似内容的固定式设备(stationary equipment)。
图25是示出了信息处理装置101的结构示例的框图。信息处理装置101包括内容加载单元121、特征量提取单元122、内容数据库123、评估数据存储单元124、内容组识别单元125、操作单元126、检索处理单元127、呈现单元128和再现单元129。
内容加载单元121例如通过从CD(光盘)读取或经由网络从服务器下载,来加载内容。
特征量提取单元122提取由内容加载单元121加载的内容的特征量。特征量提取单元122提取与特征量提取单元23所提取的那些特征量一样的特征量。特征量提取单元122将所加载的内容和所提取的特征量提供给内容数据库123。
应当注意,操作单元126可以获取通过用户操作来输入的特征量。可替换地,获取单元(未示出)可以从经由网络来连接的服务器(未示出)读取特征量,从而获得那样的量。
内容数据库123将所提取的特征量与所加载的内容一起存储下来。
内容组识别单元125基于预先存储在评估数据存储单元124中的转换函数和距心位置,来识别加载的内容所属于的内容组。
内容组识别单元125包含特征量转换单元131。特征量转换单元131从所加载的内容中读取特征量。特征量转换单元131使用预先存储在评估数据存储单元124中的转换函数,来对所述特征量进行转换。
内容组识别单元125对由经转换的特征量表示的位置与预先存储在评估数据存储单元124中的距心位置进行比较。这样,内容组识别单元125就可以识别其距心最接近于所述特征量的组。内容组识别单元125将关于识别得到的内容组的信息提供给内容数据库123。
内容数据库123将关于由内容组识别单元125识别得到的内容组的信息,与所加载的内容及其特征量一起存储下来。
操作单元126包括键盘或遥控器。操作单元126从用户接受诸如内容选择或相似内容检索之类的操作指令。操作单元126将针对所接受的指令的信号提供给检索处理单元127。
响应于来自操作单元126的信号,检索处理单元127如用户选择或检索内容那样,提取特定组的内容。检索处理单元127在存储在内容数据库123中的那些内容中,检索出与用户所选择的内容相似的内容。
呈现单元128包括LCD(液晶显示器)、有机EL(电致发光)显示器或其它类型的显示器。呈现单元128呈现已经由检索处理单元127检索得到的内容、与用户选择的内容相相似的内容的列表。
再现单元129再现用户所选择的内容。例如,当用户指示再现乐曲内容时,再现单元129对数据形式的内容进行解码并将其再现,从而产生所述乐曲内容的音频输出。此外,当用户指示再现一组内容时,再现单元129再现该指定组的内容。
应当注意,内容数据库123可以设在信息处理装置101中,或者设在信息处理装置101之外的服务器中。在这种情况下,内容数据库123经由网络(未示出)而与信息处理装置101相连接。
接下来,将描述在内容读取过程中、针对所有内容而执行的内容加载处理。内容加载处理是在进行内容添加时对将被添加的内容执行的。
图26是描述了由信息处理装置101执行的内容加载处理的流程图。在步骤S51中,内容加载单元121例如通过从CD读取或者通过经由网络从服务器下载,来加载内容。在步骤S52中,特征量提取单元122提取在步骤S51中加载的内容的特征量。例如,特征量提取单元122提取诸如音乐拍子、速度、音乐拍子起伏范围、大和弦率、每单位时间内的音符数或者音频频带内的低域能量与中域能量之比之类的特征量。
在步骤S53中,特征量提取单元122将特征量与在内容数据库123中的内容一起存储下来。
在步骤S54中,内容组识别单元125的特征量转换单元131从内容数据库123读取所加载的内容的特征量。特征量转换单元131使用存储在评估数据存储单元124中的转换函数来对所读取的特征量进行转换。
在步骤S55中,内容组识别单元125计算经过所述转换函数转换的特征量与由存储在评估数据存储单元124中的信息指示的距心之间的距离。在步骤S56中,内容组识别单元125识别出所述内容所属于的内容组,以使得该加载内容的组是具有与所述特征量相距最短的距心的内容组。
在步骤S57中,内容组识别单元125使内容数据库123存储经转换的特征量和关于所识别出的内容组的信息。其结果是,内容组识别单元125将所述经转换的特征量和所述识别得到的内容组登记在内容数据库123中,从而终止处理。
如上所述,当一条内容被加载时,在经变换的空间中找到针对该条内容的特征量。然后,加载的那条内容所属于的内容组被从根据那些特征量来分类的内容组中识别出来。
当由信息处理装置101指定内容时,与该指定内容相似的内容被检索得到。
接下来将参考图27中的流程图来描述相似的内容检索处理。在步骤S71中,操作单元126从用户接收关于将被再现的内容的说明。响应于该用户操作,操作单元126将指示所指定的内容的信号提供给检索处理单元127。
在步骤S72中,检索处理单元127从内容数据库123中检索出与所指定的内容同属于一个内容组的内容。即,检索处理单元127检索出与所指定的内容同属于一个内容组的其它内容。
应当注意,在步骤S72中,检索处理单元127可以通过基于将转换的特征量的其它方法,来检索与所指定的内容相似的内容。例如,检索处理单元127基于存储在内容数据库123中的经转换的特征量,来检索其特征量与所指定的内容的特征量之间的欧几里得距离为最短的内容。
在步骤S73中,检索处理单元127生成检索得到的内容的列表。在步骤S73中,检索处理单元127生成了例如指示检索得到的内容的名称和演奏者或作曲者的列表。检索处理单元127经由内容数据库123、将所生成的列表提供给呈现单元128。
在步骤S74中,呈现单元128呈现由检索处理单元127生成的、检索得到的内容的列表。这个列表包括与所指定的内容相似的内容。
在步骤S75中,再现单元129再现用户所指定的内容,从而终止处理。
如上所述,当用户指定内容时,与该指定内容相似的内容的列表将被呈现。
在再现用户所指定的内容的过程中,将呈现一内容列表来作为候选,该候选与将被再现的内容相似。
应当注意,当用户指定一条内容并指示呈现与所指定的内容相似的内容的列表时,可以通过与步骤S72到步骤S74相似的处理,呈现存储在内容数据库123中的内容中那些与所指定的内容相似的内容的列表。
可替换地,可以利用识别出相似内容的那一侧来变换空间。
图28是示出了信息处理装置151的配置的框图,信息处理装置151可操作于通过执行参考图23中的流程图描述的预处理来变换空间。信息处理装置1 51还可操作于识别相似内容。在图28中,与图1中的组件相似的那些组件被指定相同标号,并省略对其的描述。
此外,在图28中,与图25中的组件相似的那些组件被指定相同标号,并省略对其的描述。
如图28所示配置并且由用户来使用的信息处理装置151包括用户评估获取单元25、空间变换单元26和群集单元27。信息处理装置151还包括特征量提取单元122、内容组识别单元125、操作单元126、检索处理单元127、呈现单元128和再现单元129、内容加载单元171、内容数据库172和评估数据获取单元173。
内容加载单元171加载充当内容样本的样本内容,以对样本内容的特征量空间进行变换。内容加载单元171例如通过从CD读取或通过经由网络从服务器下载,来加载内容。
内容数据库172存储样本内容、内容、样本内容或内容的特征量以及作为关于样本内容的用户评估的相似性数据S。
评估数据获取单元173从空间变换单元26获取转换函数。评估数据获取单元173还从群集单元27获取距心位置,并存储所述转换函数和所述距心位置。评估数据获取单元173将所存储的转换函数和距心位置提供给内容组识别单元125。
信息处理装置151所执行的预处理与参考图23中的流程图来描述的预处理相似,因此省略对其的描述。
信息处理装置151所执行的内容加载处理与参考图26中的流程图来描述的内容加载处理相似,因此省略对其的描述。
信息处理装置151所执行的相似内容检索处理与参考图27中的流程图来描述的相似内容检索处理相似,因此省略对其的描述。
如上所述,可操作用于识别相似内容的信息处理装置151对特征量空间进行变换,因而允许得到转换函数和距心位置。
在这种情况下,作为关于样本内容的用户评估的相似性数据S表示使用信息处理装置151的用户的主观观点。因此,特征量空间是根据使用信息处理装置151的用户的主观观点来变换的。其结果是,内容也是根据使用信息处理装置151的用户的主观观点来群集的。这允许检索出基于与根据用户的主观观点的相似性判断相接近的类比判断(analogydetermination)而被认为相似的内容。
如上所述,可以按简便、更快速且更准确的方式来识别相似内容。
当如相关技术中那样、使用内容特征量之间的距离来作为相似性程度时,每进行一次添加时都有必要重新计算在将被添加的内容的特征量与所有现存内容的特征量的每一个之间的距离。
但是,根据本发明,相似内容的组被识别。其结果是,针对各条内容仅有必要计算与典型值之间的距离,因而极大地减小了处理负荷。
此外,在相关技术中,为了得到多个内容组合之间的相似性程度,每进行一次添加时都有必要计算所有组合的特征之间的距离。
但是,根据本发明,组是预先被识别的。这使得不必为所有组合重新计算特征之间的距离。
可替换地,可以创建一空间,用以搜索相似类型的内容。这可以通过下述方式来实现:即,确定被冠以相同类型的内容是彼此相似的,而被冠以不同类型的那些内容是彼此不相似的。
类似地,对于乐曲内容来说,可以创建一空间,用以搜索利用相似的乐器组合来演奏的乐曲。这可以通过下述方式来实现:即,确定利用相似乐器来演奏的乐曲是彼此相似的,而利用大多数都不相同的乐器演奏的乐曲是彼此不相似的。
本发明不仅适用于内容特征量,而且还适用于出于给定目的而应当求得具有特征量的那些事物之间的相似性程度的任何情况。即,本发明不仅允许确定内容之间的相似性,而且还允许确定组成内容的要素之间的相似性。更具体地,本发明例如适用于计算在乐曲结构分析中的各个小节(measure)之间的相似性程度。
应当注意,信息处理装置11或151可以通过分析附于内容的元数据(metadata)来提取内容特征量。或者,信息处理装置11或151可以获取现有的内容元数据作为内容特征量。在这种情况下,所使用的元数据可以是数值元数据或者是通过包括主成分分析(principal component analysis)和PLSA(概率潜在语义分析:Probabilistic Latent Semantic Analysis)在内的方法而被转换为数值形式的文本元数据。
另一方面,信息处理装置101或151被描述为可操作于记录和再现内容并识别相似内容的固定式设备。但是,信息处理装置101或151并不限于此,而只需要是可操作于记录和再现内容的设备。信息处理装置101或151可以被配置为便携式设备、车载设备或移动电话。
如上所述,当被配置以基于特征量来检索相似内容时,信息处理装置允许识别相似内容。此外,当按如下所述来配置时,信息处理装置允许以更简易、更快速且更精确的方式来识别相似内容。即,该信息处理装置使用函数来转换内容特征量。所述函数适于对附于多条内容的多个特征量进行转换,以使得由所述多个特征量限定的内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离。所述函数还适于将分布在由上述多个特征量限定的特征量空间中的多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间。所述信息处理装置基于经转换的特征量来检索相似内容。
上述的一系列处理可以通过硬件或软件来执行。当通过软件来执行时,组成该软件的程序被从程序记录介质安装到嵌入在专用硬件中的计算机中,或者诸如安装了各种程序因而能够执行各种功能的个人计算机之类的计算机中。
图29是示出了可操作用于执行上述处理的个人计算机的配置示例的框图。CPU(中央处理单元)201根据存储在ROM(只读存储器)202或存储单元208中的程序来执行各种处理。RAM(随机存取存储器)203酌情存储将由CPU 201运行的程序和数据。CPU 201、ROM 202和RAM 203通过总线204而彼此相连接。
CPU 201还经由总线204而与I/O接口205相连接。I/O接口205与输入单元206和输出单元207相连接。输入单元206包括诸如键盘、鼠标和麦克风之类的设备。输出单元207包括诸如显示器和扬声器之类的设备。CPU 201响应于来自输入单元206的指令而执行各种处理。CPU 201将处理结果输出到输出单元207。
与I/O接口205相连接的存储单元208例如包括硬盘。存储单元208存储将由CPU 201运行的程序和各种数据。通信单元209经由诸如因特网或局域网之类的网络而与外部设备进行通信。
可替换地,程序可以经由通信单元209来获得并存储在存储单元208中。
与I/O接口205相连接的驱动器210在载入可移动介质211(例如,磁盘、光盘、磁性光盘或半导体存储器)的时候,驱动该可移动介质211。这样,驱动器210从介质211获得程序和数据。所获得的程序和数据按需而被传送到存储单元208,以将其存储下来。
如图29所示,可操作于存储安装在计算机中并从而转换为可执行形式的程序的程序记录介质,包括可移动介质211,可移动介质211是封装介质(package medium)并包括磁盘(包括软盘)、光盘(包括CD-ROM(只读光盘存储器)、DVD(数字多功能光盘)、磁性光盘)或半导体存储器。或者,所述程序记录介质包括暂时或永久地存储程序的ROM 202。又或者,所述程序记录介质包括包含存储单元208的硬盘或其它介质。程序在程序记录介质中的存储是经由作为诸如路由器或调制解调器之类的接口的通信单元209来按需实现的。所述程序是使用诸如局域网、因特网或数字卫星广播之类的有线或无线通信介质来存储的。
应当注意,在本说明书中,描述存储在程序记录介质中的程序的步骤不仅包括根据给定顺序来按时间顺序执行的处理,而且还包括不必按时间顺序而按并行方式或单独地执行的其它处理。
应当注意,本发明并不限于上述实施例,并且可以在本发明的精神的范围内进行各种修改。
相关申诸的交叉引用
本发明包含与2006年10月2日在日本专利局提出的日本专利申请No.2006-270962相关的主题,该申请的全部内容通过引用结合于此。

Claims (9)

1.一种信息处理装置,包括:
转换装置,所述转换装置用于使用函数来对内容特征量进行转换,所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离,所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间;
群集装置,所述群集装置用于基于经转换的特征量,来执行内容的群集操作;
识别装置,所述识别装置用于根据基于经转换的特征量的、内容到群集的距离,来识别内容所属的组;以及
检索装置,所述检索装置用于通过从由所述识别装置识别的多个组中的同一组中检索内容,来检索出相似的内容。
2.如权利要求1所述的信息处理装置,还包括:
提取装置,所述提取装置用于提取内容特征量。
3.如权利要求1所述的信息处理装置,其中
所述转换装置通过应用由遗传方法反复生成而获得的函数、直到预定世代数目都不再更新评估值为止,来转换内容特征量,所述评估值是从两个值中计算得到的信息标准,所述两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似,而所述两个值中的另一个是所述函数的自由参数的数目。
4.如权利要求3所述的信息处理装置,其中,
所述转换装置通过应用由遗传方法反复生成而获得的函数、直到预定世代数目都不再更新评估值为止,来转换内容特征量,所述评估值是根据表示分类程度的费希尔判别比来计算得到的。
5.如权利要求1所述的信息处理装置,还包括:
生成装置,所述生成装置用于利用遗传方法来生成所述函数,其中,
所述转换装置通过应用所生成的函数,来转换内容特征量。
6.如权利要求5所述的信息处理装置,还包括:
计算装置,所述计算装置用于从两个值中计算得到作为信息标准的评估值,所述两个值中的一个是表示基于多条内容之间的欧几里得距离的分类程度的值,所述多条内容被认为在由用户输入的、所述多条内容之间的相似性关系中是相似或不相似,而所述两个值中的另一个是所述函数的自由参数的数目,并且其中,
所述生成装置利用遗传方法来生成所述函数,直到预定世代数目都不再更新所述评估值为止。
7.如权利要求6所述的信息处理装置,其中
所述计算装置根据表示所述分类程度的费希尔判别比来计算所述评估值。
8.如权利要求6所述的信息处理装置,还包括:
获取装置,所述获取装置用于获取表示用户输入的、在所述多条内容之间的相似性关系的数据,其中,
所述计算装置使用所述表示用户输入的、在所述多条内容之间的相似性关系的数据来计算评估值。
9.一种信息处理方法,包括:
转换步骤,所述转换步骤使用函数来对内容特征量进行转换,所述函数适用于对附于多条内容上的多个特征量进行转换,以使得由所述多个特征量限定的多条内容之间的距离,符合与用户输入的、所述多条内容之间的相似性关系相适应的距离,所述函数还适用于将分布在由所述多个特征量限定的特征量空间中的所述多条内容,映射到通过对所述多个特征量进行转换而得到的新的特征量空间;
群集步骤,所述群集步骤基于经转换的特征量,来执行内容的群集操作;
识别步骤,所述识别步骤根据基于经转换的特征量的、内容到群集的距离,来识别内容所属的组;以及
检索步骤,所述检索步骤通过从由所述识别步骤识别的多个组中的同一组中检索内容,来检索出相似的内容。
CN2007101615520A 2006-10-02 2007-10-08 信息处理装置和方法、程序以及记录介质 Expired - Fee Related CN101174407B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-270962 2006-10-02
JP2006270962 2006-10-02
JP2006270962A JP4274221B2 (ja) 2006-10-02 2006-10-02 情報処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
CN101174407A CN101174407A (zh) 2008-05-07
CN101174407B true CN101174407B (zh) 2011-06-08

Family

ID=38786928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101615520A Expired - Fee Related CN101174407B (zh) 2006-10-02 2007-10-08 信息处理装置和方法、程序以及记录介质

Country Status (5)

Country Link
US (1) US7805389B2 (zh)
EP (1) EP1909201A3 (zh)
JP (1) JP4274221B2 (zh)
KR (1) KR20080030922A (zh)
CN (1) CN101174407B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7777122B2 (en) * 2008-06-16 2010-08-17 Tobias Hurwitz Musical note speedometer
JP4715898B2 (ja) * 2008-10-03 2011-07-06 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラム、情報提供装置、情報提供方法、情報提供プログラムおよび情報処理システム
US8135739B2 (en) * 2008-12-29 2012-03-13 Microsoft Corporation Online relevance engine
US7953679B2 (en) * 2009-07-22 2011-05-31 Xerox Corporation Scalable indexing for layout based document retrieval and ranking
US20110270864A1 (en) * 2010-04-29 2011-11-03 Microsoft Corporation Comparisons between entities of a particular type
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
JP5465689B2 (ja) * 2011-02-28 2014-04-09 株式会社日立製作所 高精度な類似検索システム
US9665643B2 (en) 2011-12-30 2017-05-30 Microsoft Technology Licensing, Llc Knowledge-based entity detection and disambiguation
US9864817B2 (en) 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
JP5994974B2 (ja) * 2012-05-31 2016-09-21 サターン ライセンシング エルエルシーSaturn Licensing LLC 情報処理装置、プログラム及び情報処理方法
WO2014167880A1 (ja) * 2013-04-09 2014-10-16 株式会社日立国際電気 画像検索装置、画像検索方法、および記録媒体
JP5952226B2 (ja) * 2013-06-26 2016-07-13 日本電信電話株式会社 情報処理装置、特徴量変換システム、変換ルール生成方法及び変換ルール生成プログラム
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN111373392B (zh) * 2017-11-22 2021-05-07 花王株式会社 文献分类装置
CN111489721B (zh) * 2020-03-23 2022-05-03 天津大学 一种信号帧矩阵化的音乐信息记录方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302412A (zh) * 1997-07-22 2001-07-04 微软公司 应用搜索结果的自然语言处理以改进整体精度的信息检索系统的设备和方法
EP1095326B1 (en) * 1998-07-10 2002-01-30 Fast Search & Transfer ASA A search system and method for retrieval of data, and the use thereof in a search engine

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239938A (ja) * 1994-02-28 1995-09-12 Matsushita Electric Ind Co Ltd 検査方法
US6115480A (en) * 1995-03-31 2000-09-05 Canon Kabushiki Kaisha Method and apparatus for processing visual information
JP3762835B2 (ja) * 1998-05-21 2006-04-05 富士通株式会社 データ分解装置、その方法、及び記録媒体
JP4302799B2 (ja) 1998-09-16 2009-07-29 シャープ株式会社 文書検索装置、方法および記録媒体
US6578031B1 (en) * 1998-09-30 2003-06-10 Canon Kabushiki Kaisha Apparatus and method for retrieving vector format data from database in accordance with similarity with input vector
US7130487B1 (en) * 1998-12-15 2006-10-31 Matsushita Electric Industrial Co., Ltd. Searching method, searching device, and recorded medium
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
JP2000339453A (ja) * 1999-05-28 2000-12-08 Olympus Optical Co Ltd 画像領域分割装置及びその方法と処理プログラムが記録された記録媒体
JP4302967B2 (ja) 2002-11-18 2009-07-29 パイオニア株式会社 楽曲検索方法、楽曲検索装置及び楽曲検索プログラム
JP5059297B2 (ja) * 2005-05-09 2012-10-24 株式会社日立ハイテクノロジーズ 電子線式観察装置
WO2007139070A1 (ja) * 2006-05-29 2007-12-06 Panasonic Corporation 光源推定装置、光源推定システムおよび光源推定方法、並びに、画像高解像度化装置および画像高解像度化方法
US7664608B2 (en) * 2006-07-14 2010-02-16 Hitachi High-Technologies Corporation Defect inspection method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302412A (zh) * 1997-07-22 2001-07-04 微软公司 应用搜索结果的自然语言处理以改进整体精度的信息检索系统的设备和方法
EP1095326B1 (en) * 1998-07-10 2002-01-30 Fast Search & Transfer ASA A search system and method for retrieval of data, and the use thereof in a search engine

Also Published As

Publication number Publication date
EP1909201A2 (en) 2008-04-09
US7805389B2 (en) 2010-09-28
JP4274221B2 (ja) 2009-06-03
US20080082506A1 (en) 2008-04-03
CN101174407A (zh) 2008-05-07
JP2008090612A (ja) 2008-04-17
KR20080030922A (ko) 2008-04-07
EP1909201A3 (en) 2012-02-01

Similar Documents

Publication Publication Date Title
CN101174407B (zh) 信息处理装置和方法、程序以及记录介质
US8073854B2 (en) Determining the similarity of music using cultural and acoustic information
Typke et al. A survey of music information retrieval systems
Sturm The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use
US7613736B2 (en) Sharing music essence in a recommendation system
Pachet et al. Hit Song Science Is Not Yet a Science.
Rauber et al. Automatically analyzing and organizing music archives
US20170300567A1 (en) Media content items sequencing
US20060224260A1 (en) Scan shuffle for building playlists
JP2007519092A (ja) メロディデータベースの検索
Jensen et al. Evaluation of distance measures between Gaussian mixture models of MFCCs
US9576050B1 (en) Generating a playlist based on input acoustic information
JP2007525697A (ja) オーディオフィンガープリントシステム及びオーディオフィンガープリント方法
JP2012511189A (ja) コレクションプロファイルの生成及びコレクションプロファイルに基づく通信のための装置及び方法
US10623480B2 (en) Music categorization using rhythm, texture and pitch
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
Gurjar et al. Comparative Analysis of Music Similarity Measures in Music Information Retrieval Systems.
West et al. Incorporating machine-learning into music similarity estimation
EP3996085A1 (en) Relations between music items
Tzanetakis et al. Music analysis and retrieval systems for audio signals
Doğan et al. A flexible and scalable audio information retrieval system for mixed‐type audio signals
You et al. Predicting Classification Accuracy of Unlabeled Datasets Using Multiple Deep Neural Networks
Williamson Automatic Music Similarity Assessment and Recommendation
EP3996084B1 (en) Determining relations between music items
CN113127676B (zh) 信息匹配方法、系统、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110608

Termination date: 20151008

EXPY Termination of patent right or utility model