CN101533401A

CN101533401A - 声音数据检索系统以及声音数据的检索方法

Info

Publication number: CN101533401A
Application number: CN200810176181A
Authority: CN
Inventors: 神田直之; 住吉贵志; 大渊康成
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-03-11
Filing date: 2008-11-14
Publication date: 2009-09-16
Anticipated expiration: 2028-11-14
Also published as: CN101533401B; JP5142769B2; US20090234854A1; JP2009216986A

Abstract

本发明提供一种声音数据检索系统以及声音数据的检索方法，降低用户检索声音数据时的键输入的劳力。抽取表现附加了元数据的声音数据的声学信息特征量。然后，在所得到的声学信息特征量的子集合中，仅从元数据中包含的声音数据抽取特定的单词，而抽取不从除此以外的声音数据抽取那样的声学信息特征量集合。将该单词与上述抽取的声学信息特征量的集合对应关联地存储。在所输入的检索键中存在与上述单词一致的单词的情况下，输出与该单词对应的声学信息特征量的集合。

Description

声音数据检索系统以及声音数据的检索方法

技术领域

本发明涉及从附随TV节目或照相机影像的声音数据、呼叫中心或会议录等中收录的声音数据中，用户根据检索关键字检测发声了期望的声音的区间的声音检测装置及其接口。

背景技术

伴随近年来的存储设备的大容量化，而可以积蓄大量的声音数据。在以往的大多数的声音数据库中，为了对声音数据进行管理而附加对声音进行录音的时刻的信息，并根据该信息检索期望的声音数据。但是，在基于时刻信息的检索中，需要预先知道发声了期望的声音的时刻，而无法用于检索进行了特定发声的声音。在检索进行了特定发声的声音的情况下，需要从开始到结束为止听取声音。

因此，需要对声音数据库中的发声了特定的关键字的位置进行检测的技术。例如知道如下技术：通过针对表示关键字的声学性特征的声学特征向量和声音数据库的声学特征向量采用考虑了时间伸缩的对准，而在声音数据库中对发声了关键字的位置进行检测(专利文献1等)。

另外，还知道如下技术：不将利用者所发声的声音直接作为关键字而用于检索，而将存储在关键字候补存储部中的声音模式作为关键字而进行声音数据的检索(例如专利文献2)。

作为其它公知的方法，还实现了通过利用声音识别装置将声音数据变换成单词网格(lattice)表现，并在所生成的单词网格上检索关键字，而在声音数据库上检索发声了关键字的位置的系统。

在如此对发声了关键字的位置进行检测的声音检索系统中，用户向系统输入似乎在期望的声音区间中发声的单词而作为检索关键字。例如具有“希望搜索Ichiro接受采访时的声音”这样的请求的用户通过作为检索键而进行“Ichiro采访”这样的输入，并进行声音检索，而检测声音区间。

专利文献1：日本特开昭55-2205号

专利文献2：日本特开2001-290496号

发明内容

但是，在如上述以往例子那样对发声了关键字的位置进行检测的声音检索系统中，用户作为关键字而输入的关键字未必在用户所期望的声音区间中被发声。在上述例子中，考虑在“Ichiro接受采访”时的声音中“采访”这样的发声一次也没有进行这样的情况。在这样的情况下，即使用户输入了“Ichiro采访”这样的检索关键字，在对进行了“Ichiro”、“采访”这样的发声的区间进行检测的系统中，用户也无法得到期望的“Ichiro接受采访”的声音区间。

以往在这样的情况下，用户只能尝试性地输入似乎在期望的声音区间中被发声的关键字而进行检索，存在直到检索出期望的声音区间为止的劳力较大这样的问题。在上述例子中，用户只能尝试性地输入似乎在“Ichiro接受采访”时发声的单词(例如“广播席广播席”、“辛苦了”等)而进行检索。

本发明是鉴于上述问题点而完成的，其目的在于，通过向用户提示与所输入的检索关键字对应的声学信息特征量，而降低用户检索声音数据时的键输入的劳力。

本发明具备：声音数据库，存储声音数据；检索数据生成部，在进行上述声音数据的检索之前，从上述声音数据生成检索用的检索数据；以及检索部，根据上述预先设定的条件检索上述检索数据，上述声音数据库将与上述声音数据对应的元数据附加到上述声音数据而进行存储，上述检索数据生成部具有：声学信息特征量抽取部，从上述声音数据抽取每个发声的声学信息特征量；对应关系生成部，在对上述抽取的声学信息特征量进行成簇之后，生成该成簇后的声学信息特征量和包含在上述元数据中的单词的对应关系而作为上述检索数据；以及对应关系存储部，存储上述生成的对应关系。

另外，上述检索部具备：检索键输入部，输入用于检索上述声音数据库的检索键而作为上述条件；声音数据检索部，检测在上述声音数据中被发声了上述检索键的位置；单词/声学信息特征量检索部，从上述检索数据检索与上述检索键对应的声学信息特征量；以及提示部，输出上述声音数据检索部的检索结果和上述单词/声学信息特征量检索部的检索结果。

因此，本发明在输入了检索键时，通过向用户提示与该检索键对应的声学信息特征量，可以降低用户检索声音数据时的键输入的劳力。

附图说明

图1示出第1实施方式，是应用本发明的计算机系统的框图。

图2示出第1实施方式，是示出声音检索应用程序10的功能要素的框图。

图3是示出EPG信息的一个例子的说明图。

图4示出第1实施方式，是详细示出声学信息特征量抽取部的功能要素的框图。

图5示出第1实施方式，是示出由声音检索应用程序执行的单词/声学信息特征量对应关系的生成处理的一个例子的结构化流程图。

图6示出第1实施方式，是示出由声音检索应用程序执行的检索处理的一个例子的结构化流程图。

图7示出第1实施方式，是示出声学信息特征量的种类和特征量的一个例子的说明图。

图8示出第1实施方式，是示出所生成的单词/声学信息特征量对应关系的一个例子的说明图，示出单词与声学信息特征量的对应关系。

图9示出第1实施方式，是示出针对关键字的检索结果的画面图像。

图10示出第1实施方式，示出无针对关键字的检索结果时的推荐关键字的画面图像。

图11示出第2实施方式，是应用本发明的计算机系统的框图。

图12示出第2实施方式，是示出与声音数据相关的信息的一个例子的说明图。

图13示出第2实施方式，是示出元数据单词串中的单词与声学信息特征量的对应关系的说明图。

图14示出第2实施方式，是示出关键字输入部所提供的用户接口的一个例子的画面图像。

图15示出第2实施方式，是示出针对检索键的检索结果的画面图像。

图16示出第1实施方式，是示出无针对检索键的检索结果时的推荐键的画面图像。

标号说明

1 计算机

6 声音数据积蓄装置

10 声音检索应用程序

100 声音数据库

101 声音数据

102 元数据单词串

103 声学信息特征量抽取部

106 单词/声学信息特征量对应保管部

110 单词/声学信息特征量检索部

111 声学信息特征量提示部

具体实施方式

以下，根据附图对本发明的一个实施方式进行说明。

图1示出第1实施方式，是示出应用本发明的计算机系统的结构的框图。

本实施方式的计算机系统示出构成记录电视(TV)节目的影像以及声音数据，并从声音数据检索包括用户所指定的检索关键字的声音区间的声音检索系统的例子。在图1中，计算机系统具备计算机1，该计算机1具备：存储程序、数据的存储器3；和执行存储在存储器3中的程序而进行运算处理的处理器(CPU)2。在计算机1上，连接有接收TV广播的TV调谐器7、记录所接收到的TV广播的声音数据和附属数据的声音数据积蓄装置6、输入检索关键字和指令等的键盘4、和显示检索关键字和检索结果等的显示装置5。在存储器3中载入有声音检索应用程序10，并利用处理器2执行，该声音检索应用程序10从键盘4接收检索关键字，并从存储在声音数据积蓄装置6中的声音数据检索出检索关键字的声音区间。另外，声音检索应用程序10如后所述包括声学信息特征量抽取部103和声学信息特征量提示部111。

声音数据积蓄装置6具备存储TV调谐器7所接收到的TV节目的声音数据的声音数据库100，声音数据库100如后所述，存储包含在TV广播中的声音数据101，并存储包含在TV广播中的附属数据而作为元数据单词串102。另外，声音数据积蓄装置6如后所述，具备单词/声学信息特征量对应保管部106，该单词/声学信息特征量对应保管部106存储表示声音检索应用程序10所生成的声音数据101的声学特征量与元数据单词串102的对应关系的单词/声学信息特征量对应关系。

另外，TV调谐器7所接收到的TV节目的声音数据101是通过计算机1的未图示的应用程序从TV广播抽取声音数据101以及元数据单词串102并写入到声音数据积蓄装置6的声音数据库100而进行的。

由计算机1执行的声音检索应用程序10通过用户利用键盘4指定检索关键字而使用存储在声音数据积蓄装置6中的TV节目中的声音数据101，对发声了检索关键字的位置(声音区间)进行检测，利用显示装置5向用户提示检索结果。另外，在本实施方式中，例如将包括表示节目内容的文本数据的EPG(Electronic Program Guide，电子节目指南)信息用作TV广播的附属数据。

声音检索应用程序10从作为元数据单词串102积蓄到声音数据积蓄装置6中的EPG信息抽取检索关键字，从声音数据101抽取与该检索关键字对应的声学信息特征量，生成表示声音数据101的声学特征量与元数据单词串102的对应关系的单词/声学信息特征量对应关系并存储到单词/声学信息特征量对应保管部106。然后，声音检索应用程序10如果从键盘4接收到关键字，则从单词/声学信息特征量对应保管部106的检索关键字提示相应的检索关键字，恰当地引导用户的检索请求。另外，在以下的例子中作为元数据利用了EPG信息，但在对节目附加了更详细的元数据信息的情况下，还可以利用该详细的元数据信息。

在本实施方式中处理的声音数据库100由从多个TV节目抽取的声音数据101构成，各个声音数据101中附有附加在抽取出该声音数据的TV节目中EPG信息而作为元数据单词串102。

EPG信息201如图3所示，由多个关键字、字幕信息等文章构成。由声音检索应用程序10使用词素分析处理将这些字符串变换成单词串。其结果，抽取出“激烈辩论”202、“参议院竞选”203、“采访”204等而作为元数据单词串。由声音检索应用程序10进行的词素分析处理使用公知或周知的方法即可，所以此处省略详细说明。

接下来，图2是示出声音检索应用程序10的功能要素的框图。声音检索应用程序10以规定的定时(例如录音完成的时刻等)，根据声音数据101和元数据单词串102生成单词/声学信息特征量对应关系并存储到声音数据积蓄装置6的单词/声学信息特征量对应保管部106。

声音检索应用程序10被大致分成生成单词/声学信息特征量对应关系的模块(103～106)和使用单词/声学信息特征量对应关系来进行声音数据101的检索的模块(107～111)。

生成单词/声学信息特征量对应关系的模块包括：声学信息特征量抽取部103，将声音数据101分割成发声单位，抽取各发声的声学特征量；发声/声学信息特征量保管部104，存储发声单位的声学信息特征量；单词/声学信息特征量对应部105，抽取每个发声的声学信息特征量与EPG信息的元数据单词串102的关系；以及单词/声学信息特征量对应保管部106，存储所抽取的元数据单词串102和声学信息特征量。

进行检索的模块包括：关键字输入部107，提供接收用户从键盘4输入的检索关键字(或者声音检索请求)的接口；声音检索部108，对在声音数据101上发声了用户所输入的关键字的位置进行检测；声音检索结果提示部109，在检测到在声音数据101上发声了关键字的位置的情况下向显示装置5输出该位置；单词/声学信息特征量检索部110，在未检测到在声音数据101上发声了关键字的位置的情况下，从单词/声学信息特征量对应保管部106检索与关键字对应的元数据单词串102和声学信息特征量；以及声学信息特征量提示部111，向显示装置5输出与关键字相应的元数据单词串102和声学信息特征量。

以下，对声音检索应用程序10的各部进行说明。

首先，将声音数据101分割成发声单位，并抽取各发声的声学信息特征量的声学信息特征量抽取部103如图4所示构成。

在声学信息特征量抽取部103中，声音分割部301从声音数据库100读入所指定的声音数据101并针对每个发声进行分割。将声音数据101分割成发声单位的处理可以通过当声音的功率在一定期间中成为一定值以下时视为发声结束而实现。

接下来，声学信息特征量抽取部103针对各发声的每一个，抽取声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、讲话音量信息、背景音信息中的任意一个、或其组合而作为声学信息特征量，并保存到发声/声学信息特征量保管部104。以下叙述用于取得各个信息的单元和特征量的形式。

声音识别结果信息是通过利用声音识别器302将声音数据101变换成单词串而得到的。声音识别回到在将声音数据101的声音波形设为X，并将元数据单词串102的单词串设为W时用下式表示的后验概率最大化搜索问题。

式(1)

\max_{W} P (W | X) = \max_{W} \frac{P (X | W) P (W)}{P (X)} = \max_{W} P (X | W) P (W)

上述式根据从大量的学习数据学习的声学模型和语言模型进行搜索。另外，关于这些声音识别的方法，恰当使用公知或周知的技术即可，所以此处省略说明。

将利用声音识别器302得到的单词串的各单词的存在频度用作声学信息特征量(声音识别结果信息)。另外，也可以与使用声音识别器302得到的单词串附随地抽取并利用发声整体的声音识别评分、各单词的每一个的可靠性等。进而还可以将“广播席广播席”这样的多个单词的组合用作声学信息特征量。

声学性讲话者特征信息是利用讲话者信息特征量抽取部303得到的。讲话者信息特征量抽取部303预先收录多个(N人的)讲话者的声音，并利用混合高斯分布模型GMM(Gaussian Mixture Model)来对这些声音进行模型化。如果输入了发声X，则讲话者信息特征量抽取部303针对各个混合高斯分布模型GMM_i(i＝1、...、N)的每一个，根据各混合高斯分布模型GMM_i求出生成了发声的概率P(X|GMM_i)，而得到N维的特征量。讲话者信息特征量抽取部303将其作为该发声的声学性讲话者特征信息而输出。

发声长度信息是通过利用发声长度抽取部304针对各发声的每一个测量该发声所继续的时间而得到的。另外，还可以将比某值短的发声分类成“短”、将比某值长的发声分类成“长”、将除此以外的发声分类成“通常”，由此设为3值的特征量。

韵律特征量信息是通过利用韵律信息抽取部306抽取该发声的基本频率分量之后，分类成基本频率分量在发声的词尾是上升、还是下降、还是平坦的3值并设为特征量而得到的。基本频率分量的抽取处理应用公知或周知的方法即可，所以省略详细说明。另外，还可以使用离散性参数来表现该发声的韵律特征。

讲话者更换信息是利用讲话者更换信息抽取部307得到的。讲话者更换信息是表现该发声前的发声是否为同一人物的特征量，详细而言是通过如果表现声学性讲话者特征信息的N维特征量在该发声和之前的发声中相差规定的阈值以上则判定成不同的人物、否则判定成同一人物而得到的。另外，还可以利用与上述同样的方法得到该发声与之后的发声是否为同一人物，而可以用作特征量。进而，还可以将在该发声前后一定区间内是否存在什么人的发声这样的信息用作特征量。

发声音量信息是由发声音量抽取部305利用该发声的最大功率与该声音数据101中包含的发声的最大功率的平均之比来表现的。当然也可以对该发声的平均功率与该声音数据中的发声的平均功率进行比较等。

背景音信息是利用背景音抽取部309得到的。作为背景音，利用表示在该发声中是否发生了鼓掌音、欢呼声、音乐、无音等这样的信息、表示是否在该发声的前时刻、后时刻发生这样的信息。此处，为了判定鼓掌音、欢呼声、音乐、无音等的存在，首先准备各个音，并使用混合高斯分布模型GMM等进行模型化。如果输入了声音，则根据各个混合高斯分布模型GMM求出生成上述声音的概率P(X|GMM_i)，在该值超过一定值的情况下，背景音抽取部309判定为存在该背景音。背景音抽取部309针对鼓掌音、欢呼声、音乐、无音分别输出存在/不存在的信息而作为表示背景音信息的特征量。

在声学信息特征量抽取部103中，通过实施上述处理，针对声音数据库100内的声音数据101，得到发声和表示该发声的声学信息特征量的组。使用声学信息特征量抽取部103得到的特征量如图7所示。在图7中，声学信息特征量的种类与所抽取的特征量401成对，而存储到发声/声学信息特征量保管部104。另外，当然还可以利用上述中未记述的声学信息特征量。

接下来，图2所示的单词/声学信息特征量对应部105抽取使用上述声学信息特征量抽取部103得到的声学信息特征量与抽取了EPG信息的元数据单词串102中的单词的对应。

在以下的说明中作为元数据单词串102的一个例子，在EPG信息中单词/声学信息特征量对应部105注目于任意选择的单词(以下称为“注目单词”)，抽取注目单词与声学信息特征量的对应。另外在本实施方式中作为注目单词而选择了EPG信息中的一个单词，但其也可以是EPG信息中的单词的组。

在单词/声学信息特征量对应部105中，首先以发声单位对使用上述声学信息特征量抽取部103得到的每个发声的声学信息特征量进行成簇。成簇可以使用层次性成簇方法。以下示出使用单词/声学信息特征量对应部105进行的成簇的处理步骤的一个例子。

(i)将所有发声设为一个簇，将从该发声得到的声学信息特征量设为代表该发声的声学信息特征量。

(ii)求出各簇的声学信息特征量的向量间的距离，对这些向量中距离最短的簇进行合并。此处簇间的距离可以使用代表簇的声学信息特征量集合间的余弦距离等。另外如果全部特征量被数值化，则还可以使用马哈拉诺比斯(Mahalanobis)距离等。将合并前的2个簇中共用的声学信息特征量设为代表合并后的簇的声学信息特征量。

(iii)重复上述(ii)，在所有各簇间的距离成为一定值(规定值)以上的时刻结束合并。

接下来，单词/声学信息特征量对应部105抽取通过上述操作得到的簇中的仅由“在EPG信息中包括注目单词的声音发声”构成的簇。单词/声学信息特征量对应部105生成将注目单词与代表所抽取的簇的声学信息特征量集合对应关联的信息而作为单词/声学信息特征量对应关系，存储到单词/声学信息特征量对应保管部106。单词/声学信息特征量对应部105针对成为对象的声音数据101的元数据单词串102(EPG信息)的所有单词，将各个作为注目单词而进行上述处理，而生成单词/声学信息特征量对应关系。此时，在单词/声学信息特征量对应保管部106中如图8所示保存有单词/声学信息特征量对应关系的数据。在图8中，单词/声学信息特征量对应关系501存储了与元数据单词串102的单词对应的声学信息特征量，所以声学信息特征量如上所述，包括声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、发声音量信息、背景音信息中的任意一个。

另外，在上述中，示出了对成为对象的声音数据101的元数据单词串102的所有单词进行上述处理的例子，但也可以对元数据单词串102的单词的一部分进行上述处理。

通过以上处理，声音检索应用程序10生成从声音数据库100的声音数据101抽取的每个发声的声学信息特征量与元数据单词串102的EPG信息中包含的单词的对应关系而作为单词/声学信息特征量对应关系501，并存储到单词/声学信息特征量对应保管部106。声音检索应用程序10进行上述处理而作为利用声音检索系统的预处理。

图5是表示上述声音检索应用程序10所执行的单词/声学信息特征量对应关系的生成处理的步骤的一个例子的PAD(ProblemAnalysis Diagram，问题分析图)。该处理是在成为规定的定时(声音数据的录音完成或用户的指令)时执行的。

首先，在步骤S103中，声学信息特征量抽取部103从声音数据库100读入利用图4所示的声音分割部301指定的声音数据101并针对每个发声进行分割，针对各发声的每一个作为声学信息特征量，抽取声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、发声音量信息、背景音信息中的任意一个、或其组合。接下来，在步骤S104中，声学信息特征量抽取部103向发声/声学信息特征量保管部104保存所抽取的每个发声的声学信息特征量。

接下来，在步骤S105中，上述图2所示的单词/声学信息特征量对应部105抽取存储在发声/声学信息特征量保管部104中的每个发声的声学信息特征量与抽取出EPG信息的元数据单词串102中的单词的对应关系。该步骤S105的处理是在上述单词/声学信息特征量对应部105中叙述的处理，由以发声单位层次性地对每个发声的声学信息特征量进行成簇的处理(步骤S310)、和生成将上述的元数据单词串102中的注目单词与代表簇的声学信息特征量集合对应关联的信息而作为单词/声学信息特征量对应关系的处理(步骤S311)构成。然后，声音检索应用程序10向单词/声学信息特征量对应保管部106存储所生成的单词/声学信息特征量对应关系。

通过以上处理，声音检索应用程序10针对每个声音数据101将所检索的单词信息与声学信息特征量相关联。

在以下的说明中，对用户输入了检索关键字时的声音检索应用程序10的处理进行叙述。

关键字输入部107接收用户从键盘4输入的关键字和检索对象的声音数据101，如下所述进行处理。另外，作为此处的关键字输入部107，除了从键盘4输入的文本数据以外，还可以利用声音识别器。

首先，声音检索部108取得用户从关键字输入部107输入的关键字和声音数据101，从声音数据库100读入所指定的声音数据101。然后，声音检索部108对在声音数据101上发声了用户的关键字的位置(发声位置)进行检测。在对关键字输入部107输入了多个关键字的情况下，声音检索部108检测出这些关键字在时间轴上比预先规定的时间范围更近的时刻发生的区间而作为发声位置。关键字的发声位置检测例如可以使用上述专利文献1等中记载的公知或周知的方法来进行。

另外，在发声/声学信息特征量保管部104中作为声音识别信息特征量而针对每个发声包含有进行声音识别的结果的单词，声音检索部108也可以将该声音识别结果与关键字相一致的发声作为检索结果。

在声音检索部108中，在从声音数据101检测出发声了用户所输入的关键字的位置的情况下，利用声音检索结果提示部109向显示装置5输出发声位置而向用户提示该位置。声音检索结果提示部109向显示装置5输出的内容如图9所示，显示用户所输入的关键字“Ichiro采访”和所检索到的发声位置。在该例子中，示出使用包括发声位置的声音区间的声音识别信息特征量即声音识别来进行显示的情况。

另一方面，在声音检索部108中，在无法从声音数据101上检测出发声了从用户指定的关键字的位置的情况下，单词/声学信息特征量检索部110针对各个关键字的每一个，对单词/声学信息特征量对应保管部106进行检索，如果用户所输入的关键字已登记在单词/声学信息特征量对应关系，则进行抽取。

此处，在单词/声学信息特征量检索部110从单词/声学信息特征量对应保管部106检测出与用户指定的关键字对应的声学信息特征量(声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、发声音量信息、背景音信息)的情况下，声学信息特征量提示部111向用户提示所检测出的声学信息特征量而作为所推荐的检索关键字。例如，在相对“采访”这样的单词，作为声学信息特征量而包含有“广播席广播席”、“辛苦了”这样的单词对的情况下，声学信息特征量提示部111在显示装置5上如图10所示向用户提示该单词对。

另外，在提示与关键字对应的声学信息特征量时，根据各个声学信息特征量进行声音数据的检索，优先向用户提示声音数据库100中存在的概率高的声学信息特征量即可。

用户可以根据利用声学信息特征量提示部111向显示装置5提示的信息来追加检索关键字，可以高效地进行声音数据的检索。

声学信息特征量提示部111优选具有用户可以容易地指定各个声学信息特征量的接口，并在用户指定了某个声学信息特征量时，在检索请求中包含该声学信息特征量。

另外声学信息特征量提示部111在抽取出与用户的检索请求一致的声音数据101的情况下，也可以提示与用户的检索关键字对应的声学信息特征量。

另外，如果在声音检索应用程序10中具备图8所示的对单词与声学信息特征量的组进行编辑的单词/声学信息特征量编辑部，则用户可以登记自己经常检索的单词与声学信息特征量的组，可以提高操作性。

图6是示出声音检索应用程序10所执行的上述关键字输入部107～声学信息特征量提示部111的处理步骤的一个例子的PAD(结构化流程图)。

首先，在步骤S107中，声音检索应用程序10接收从键盘4输入的关键字和检索对象的声音数据101。

接下来，在步骤S108中声音检索应用程序10利用上述的声音检索部108，针对用户所输入的关键字，对在声音数据101上发声的位置(发声位置)进行检测。

在从声音数据101检测出发声了用户所输入的关键字的位置的情况下，声音检索应用程序10在步骤S109中，利用声音检索结果提示部109向显示装置5输出发声位置而向用户提示该位置。

另一方面，在步骤S110中，在声音检索应用程序10无法在声音数据101上检测出发声了从用户指定的关键字的位置的情况下，上述的单词/声学信息特征量检索部110针对各个关键字的每一个，对单词/声学信息特征量对应保管部106进行检索，而扫描用户所输入的关键字是否登记在单词/声学信息特征量对应关系中。

在声音检索应用程序10在从单词/声学信息特征量对应保管部106利用单词/声学信息特征量检索部110检测出与由用户指定的关键字对应的声学信息特征量(声音识别结果)的情况下，进入到步骤S111，向用户提示使用上述的声学信息特征量提示部111检测出的声学信息特征量而作为所推荐的检索关键字。

通过以上处理，可以针对用户所输入的检索关键字，向用户提示元数据单词串102的EPG信息中包含的单词而作为推荐关键字。

这样，在本发明中，向声音数据库100存储附加了元数据单词串102的多个声音数据101，检索应用程序10抽取声音识别结果信息、声学性讲话者特征信息、发声长信息、韵律特征信息、讲话者更换信息、发声音量信息、背景音信息等而作为表现声音数据101的声学信息特征量。然后，检索应用程序10在所得到的声学信息特征量的子集合中，仅从元数据单词串102中包含的声音数据101抽取特定的单词，而抽取不从除此以外的声音数据101抽取那样的声学信息特征量的集合。将该特定的单词与上述中抽取的声学信息特征量的集合对应关联而作为单词/声学信息特征量对应关系并保管。针对元数据中的所有单词进行针对上述特定单词的声学信息特征量的集合抽取，求出这些单词与声学信息特征量的集合的组合而作为单词/声学信息特征量对应关系，并存储到单词/声学信息特征量对应保管部106。在用户所输入的检索关键字中存在与使用单词/声学信息特征量对应关系求出的单词一致的单词的情况下，向用户提示与该单词对应的声学信息特征量的集合。

由此，在对发声了检索键关键字的位置进行检测的声音检索系统中，用户作为检索键而输入的关键字未必在用户所期望的声音区间中被发声，但通过使用本发明，无需尝试性地输入检索关键字，而通过利用与对显示装置5提示的单词对应的声学信息特征量的集合，可以大幅降低声音数据的检索所需的劳力。

(第2实施方式)

在上述实施方式1中，输入关键字而作为检索键，在声学信息特征量提示部111中，向显示装置5进行声音识别结果信息特征量的提示。与其相对，在第2实施方式中，示出如下的声音检索系统：作为检索键，除了关键字以外，还输入声学性讲话者特征信息、发声长度、韵律特征量、讲话者更换信息、发声音量信息、背景音信息中的任意一个，使用这些检索键来进行声学信息特征量的检索。

本实施方式的声音检索系统示出如图11所示代替上述实施方式1的图1所示的TV调谐器7，而从经由网络8与计算机1连接的服务器9取得声音数据101的例子。计算机1根据用户的指示从服务器9取得声音数据101，并存储到声音数据积蓄装置6。

在本实施方式中，将会议录声音用作声音数据101。在会议录声音中如图12所示，分别附加有文件名702、出席者名703和声音ID701。通过针对该声音数据101进行词素分析处理，可以抽取“产品A”702、“山田太郎”703这样的单词。以下，示出将通过词素分析处理从声音数据101抽取的单词用作元数据单词串102的例子。另外，还可以在会议录声音收录时发声文件名或出席者名，通过利用上述第1实施方式中示出的声音识别处理将该发声变换成单词串而抽取文件名702和出席者名703，而通过与上述同样的处理来抽取元数据单词串102。

声学信息特征量抽取部103在用户输入检索键信息之前与上述第1实施方式同样地，从声音数据101针对各发声的每一个抽取声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、发声音量信息、背景音信息中的任意一个、或其组合而作为声学信息特征量。进而，单词/声学信息特征量对应部105抽取使用上述声学信息特征量抽取部103得到的声学信息特征量与元数据单词串102中的单词的对应，保管到单词/声学信息特征量对应保管部106。它们的详细内容与上述第1实施方式中示出的内容相同，所以省略重复的说明。

其结果，得到图13所示的元数据单词串102中的单词与声学信息特征量的对应关系，并保管到单词/声学特征量对应保管部106。

在本实施方式中，除了单词/声学信息特征量对应关系以外，还将上述发声与声学信息特征量的组保管到发声/声学信息特征量保管部104。

到此为止是在用户输入检索键以前结束的处理。以下，对用户输入了检索键时的声音检索应用程序10的处理进行叙述。

除了关键字以外，用户还可以输入声学性讲话者特征信息、发声长度、韵律特征量、讲话者更换信息、发声音量信息、背景音信息中的任意一个而作为检索键。因此，例如关键字输入部107具备图14所示的接口。

如果用户从图14中示出的用户接口输入了检索键，则声音检索应用程序10使用声音检索部108检测出与该检索键最符合的声音区间。为此，在发声/声学信息特征量保管部104中，搜索保管成检索键的声学信息量所符合的发声即可。

如果检测出与检索键符合的发声，则声音检索应用程序10将该发声作为检索结果而从显示装置5向用户提示如图15中示出的输出。

另一方面，声音检索应用程序10在未检测出与检索键符合的发声、且该检索键中包含有单词的情况下，对单词/声学信息特征量对应保管部106进行检索，而检索出与该检索键中的单词对应的声学信息特征量。在检索出与所输入的检索键符合的声学信息特征量的情况下，通过如图16中所示向显示装置5输出该声学信息特征量而向用户提示。

这样，用户通过指定声音检索系统向显示装置5提示的如图16中示出的声学信息特征量，可以检索出期望的声音区间，可以省略如上述以往例那样尝试性地输入检索键的麻烦。

(产业上的可利用性)

如上所述，根据本发明，可以应用于检索声音数据的声音检索系统，进而可以应用于内容的录像装置、会议系统等利用声音数据的装置。

Claims

1.一种声音数据检索系统，其特征在于，具备：

声音数据库，存储声音数据；

检索数据生成部，在进行上述声音数据的检索之前，从上述声音数据生成检索用的检索数据；以及

检索部，根据上述预先设定的条件检索上述检索数据，

上述声音数据库将与上述声音数据对应的元数据附加到上述声音数据而进行存储，

上述检索数据生成部具有：

声学信息特征量抽取部，从上述声音数据抽取每个发声的声学信息特征量；

对应关系生成部，在对上述抽取的声学信息特征量进行成簇之后，生成该成簇后的声学信息特征量和包含在上述元数据中的单词的对应关系而作为上述检索数据；以及

对应关系存储部，存储上述生成的对应关系。

2.根据权利要求1所述的声音数据检索系统，其特征在于，上述检索部具备：

检索键输入部，输入用于检索上述声音数据库的检索键而作为上述条件；

声音数据检索部，检测在上述声音数据中被发声了上述检索键的位置；

单词/声学信息特征量检索部，从上述检索数据检索与上述检索键对应的声学信息特征量；以及

提示部，输出上述声音数据检索部的检索结果和上述单词/声学信息特征量检索部的检索结果。

3.根据权利要求1所述的声音数据检索系统，其特征在于，

上述声学信息特征量抽取部具有：

声音分割部，针对每个发声分割上述声音数据；

声音识别部，针对上述每个发声对上述声音数据进行声音识别，作为声音识别结果信息而输出单词串；

讲话者信息特征量抽取部，将预先设定的声音模型与上述声音数据进行比较，抽取包含在声音数据中的每个发声的讲话者的特征量而作为声学性讲话者特征信息；

发声长度抽取部，抽取包含在上述声音数据中的发声的长度而作为发声长度信息；

韵律信息抽取部，抽取包含在上述声音数据中的每个发声的韵律而作为韵律信息；

讲话者更换信息抽取部，作为表示上述声音数据中的发声是否为同一人物的特征量从上述声音数据抽取讲话者更换信息；

发声音量抽取部，抽取包含在上述声音数据中的每个发声的音量而作为发声音量信息；以及

背景音抽取部，抽取包含在上述声音数据中的背景音而作为背景音信息，

输出上述声音识别结果信息、声学性讲话者特征信息、发声长度信息、韵律信息、讲话者更换信息、发声音量信息、背景音信息中的至少一个。

4.根据权利要求2所述的声音数据检索系统，其特征在于，上述提示部具有声学信息特征量提示部，该声学信息特征量提示部输出由上述单词/声学信息特征量检索部检索出的声学信息特征量。

5.根据权利要求4所述的声音数据检索系统，其特征在于，上述声学信息特征量提示部包括声学信息特征量提示部，优先输出由上述单词/声学信息特征量检索部检索出的声学信息特征量中的、上述声音数据中存在的概率高的声学信息特征量。

6.根据权利要求5所述的声音数据检索系统，其特征在于，还具备指定作为检索对象的声音数据的声音数据指定部，

上述声学信息特征量提示部优先输出由上述单词/声学信息特征量检索部检索出的声学信息特征量中的、被指定成检索对象的声音数据中存在的概率高的声学信息特征量。

7.根据权利要求1所述的声音数据检索系统，其特征在于，上述单词/声学信息特征量保管部具有对上述声学信息特征量的组进行追加、删除、编辑的单词/声学信息特征量编辑部。

8.根据权利要求3所述的声音数据检索系统，其特征在于，上述检索部具有输入用于检索上述声音数据库的检索键的检索键输入部，

上述检索键输入部接收关键字、上述声学性讲话者特征信息、上述发声长度信息、上述韵律信息、上述讲话者更换信息、上述发声音量信息和上述背景音信息中的至少一个。

9.一种声音数据的检索方法，其是计算机以预先设定的条件针对存储在声音数据库中的声音数据进行上述声音数据的检索的声音数据的检索方法，其特征在于，包括如下的步骤：

在进行上述声音数据的检索之前，计算机从上述声音数据生成检索用的检索数据的步骤；以及

上述计算机根据上述预先设定的条件检索上述检索数据的步骤，

从上述声音数据生成检索用的检索数据的步骤包括：

从上述声音数据抽取每个发声的声学信息特征量的步骤；

在对上述抽取的声学信息特征量进行成簇之后，生成该成簇后的声学信息特征量与包含在上述元数据中的单词的对应关系而作为上述检索数据的步骤；以及

存储上述生成的对应关系的步骤。

10.根据权利要求9所述的声音数据的检索方法，其特征在于，上述计算机根据上述预先设定的条件检索上述检索数据的步骤具备：

输入用于检索上述声音数据库的检索键而作为上述条件的步骤；

在上述声音数据中检测被发声了上述检索键的位置的步骤；

从上述检索数据检索与上述检索键对应的声学信息特征量的步骤；以及

输出上述声音数据的检索结果和上述声学信息特征量的检索结果的步骤。

11.根据权利要求9所述的声音数据的检索方法，其特征在于，

抽取上述声学信息特征量的步骤包括：

针对每个发声分割上述声音数据的步骤；

针对上述每个发声对上述声音数据进行声音识别，作为声音识别结果信息而输出单词串的步骤；

对预先设定的声音模型与上述声音数据进行比较，抽取包含在声音数据中的每个发声的讲话者的特征量而作为声学性讲话者特征信息的步骤；

抽取包含在上述声音数据中的发声的长度而作为发声长度信息的步骤；

抽取包含在上述声音数据中的每个发声的韵律而作为韵律信息的步骤；

作为表示上述声音数据中的发声是否为同一人物的特征量从上述声音数据抽取讲话者更换信息的步骤；

抽取包含在上述声音数据中的每个发声的音量而作为发声音量信息的步骤；以及

抽取包含在上述声音数据中的背景音而作为背景音信息的步骤，

12.根据权利要求10所述的声音数据的检索方法，其特征在于，在输出上述声音数据的检索结果和上述声学信息特征量的检索结果的步骤中，输出上述检索出的声学信息特征量。

13.根据权利要求12所述的声音数据的检索方法，其特征在于，在输出上述声音数据的检索结果和上述声学信息特征量的检索结果的步骤中，优先输出上述检索出的声学信息特征量中的、上述声音数据中存在的概率高的声学信息特征量。

14.根据权利要求13所述的声音数据的检索方法，其特征在于，还包括指定作为检索对象的声音数据的步骤，

在输出上述声音数据的检索结果和上述声学信息特征量的检索结果的步骤中，优先输出上述检索出的声学信息特征量中的、被指定成检索对象的声音数据中存在的概率高的声学信息特征量。

15.根据权利要求9所述的声音数据的检索方法，其特征在于，还包括对上述声学信息特征量的组进行追加、删除、编辑的步骤。

16.根据权利要求11所述的声音数据的检索方法，其特征在于，上述计算机根据上述预先设定的条件检索上述检索数据的步骤包括输入用于检索上述声音数据库的检索键的步骤，

在输入上述检索键的步骤中，接收关键字、上述声学性讲话者特征信息、上述发声长度信息、上述韵律信息、上述讲话者更换信息、上述发声音量信息和上述背景音信息中的至少一个。