CN104252464A

CN104252464A - 信息处理方法和装置

Info

Publication number: CN104252464A
Application number: CN201310258480.7A
Authority: CN
Inventors: 杨元庆; 孙艳庆
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2014-12-31
Anticipated expiration: 2033-06-26
Also published as: CN104252464B

Abstract

本发明公开了一种信息处理方法和装置。所述方法包括：获得多媒体数据；从所述多媒体数据中提取用于表征用户身份的特征信息；将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及如果所述第一相似度小于第一阈值，则生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。因此，在本发明中，可以对多媒体数据进行自动整理和标识，从而避免了用户的任何手工操作，节约了多媒体数据的归档时间，充分提高了用户体验。

Description

信息处理方法和装置

技术领域

本发明涉及计算机技术领域，更具体地，本发明涉及一种信息处理方法和装置。

背景技术

近年来，诸如笔记本计算机、台式计算机、平板电脑（PAD）、移动电话、多媒体播放器、个人数字助理（PDA）之类的电子设备越发普及。并且，随着电子技术的不断进步，这些电子设备的功能也日益提升，存储容量也不断增加。于是，在人们的工作和生活中，往往需要在这些电子设备中存储并处理大量的多媒体数据和文档，并且需要在各种电子设备相互之间对它们不断进行分享。因而，如何高效地对这些多媒体数据和文档进行归档和搜索愈发成为一个亟待解决的问题。

在现有技术中，为了能够搜索多媒体数据，人们只能简单地逐个地对各个多媒体数据和文档进行人工归档和整理，并且向它们添加用户自己可识别的标签，以便随后该用户能够通过将标签作为关键字进行手工搜索，从而定位自己所需的信息。

然而，显然，由于在这种方式中需要人为地整理并添加标签，这就使得当在电子设备中存储有海量的多媒体数据和文档时，用户将耗费大量的精力进行这些手动操作，这无疑是费时费力的。

因此，需要一种新型的信息处理方法和装置来解决上述问题。

发明内容

为了解决上述技术问题，根据本发明的一个方面，提供了一种信息处理方法，所述方法包括：获得多媒体数据；从所述多媒体数据中提取用于表征用户身份的特征信息；将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及如果所述第一相似度小于第一阈值，则生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。

此外，根据本发明的另一方面，提供了一种信息处理装置，所述装置包括：数据获得单元，用于获得多媒体数据；特征提取单元，用于从所述多媒体数据中提取用于表征用户身份的特征信息；相似度确定单元，用于将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及标识生成单元，用于如果所述第一相似度小于第一阈值，则生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。

与现有技术相比，采用根据本发明的信息处理方法和装置，可以获得多媒体数据，在所述多媒体数据的不同时间提取用于表征用户身份的特征信息，并且确定不同时间的特征信息之间的相似度，当该相似度小于预设阈值时，生成第一用户标识信息，所述第一用户标识信息用于将所述多媒体数据至少在所述第一时间与第一用户相关联。因此，在本发明中，可以对多媒体数据进行自动整理和标识，从而避免了用户的任何手工操作，节约了多媒体数据的归档时间，充分提高了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1图示了根据本发明的信息处理方法。

图2图示了根据本发明的信息处理装置。

图3图示了根据本发明第一实施例的信息处理方法。

图4图示了根据本发明第一实施例的信息处理装置。

图5图示了根据本发明第二实施例的信息处理方法。

图6图示了根据本发明第二实施例的信息处理装置。

图7图示了根据本发明第三实施例的信息处理方法。

图8图示了根据本发明第三实施例的信息处理装置。

具体实施方式

将参照附图详细描述根据本发明的各个实施例。这里，需要注意的是，在附图中，将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分，并且将省略关于它们的重复描述。

在下文中，将参考图1和图2来描述根据本发明的信息处理方法和装置。

图1图示了根据本发明的信息处理方法，而图2图示了根据本发明的信息处理装置。

图1所图示的信息处理方法应用于电子设备，并且所述方法通过图2所图示的信息处理装置来实现。具体地，所述信息处理装置100包括：数据获得单元110、特征提取单元120、相似度确定单元130、和标识生成单元140。

如图1所图示的，所述信息处理方法包括：

在步骤S110中，数据获得单元110获得多媒体数据；

在步骤S120中，特征提取单元120从所述多媒体数据中提取用于表征用户身份的特征信息；

在步骤S130中，相似度确定单元130将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及

在步骤S140中，如果所述第一相似度小于第一阈值，则标识生成单元140生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。

由此可见，采用根据本发明的信息处理方法和装置，可以获得多媒体数据，在所述多媒体数据的不同时间提取用于表征用户身份的特征信息，并且确定不同时间的特征信息之间的相似度，当该相似度小于预设阈值时，生成第一用户标识信息，所述第一用户标识信息用于将所述多媒体数据至少在所述第一时间与第一用户相关联。因此，在本发明中，可以对多媒体数据进行自动整理和标识，从而避免了用户的任何手工操作，节约了多媒体数据的归档时间，充分提高了用户体验。

例如，根据本发明的信息处理装置100可以用于对一个或多个电子设备进行信息处理。为此，该信息处理装置100可以通过任何方式与该电子设备进行通信。

在一个示例中，该信息处理装置100可以作为一个软件模块和/或硬件模块而集成到该电子设备中，换言之，该电子设备可以包括该信息处理装置100。例如，当电子设备是移动电话时，该信息处理装置100可以是该移动电话的操作系统中的一个软件模块，或者可以是针对于该移动电话所开发的一个应用程序；当然，该信息处理装置100同样可以是该移动电话的众多硬件模块之一。

替换地，在另一示例中，该信息处理装置100与该电子设备也可以是分离的设备，并且该信息处理装置100可以通过有线和/或无线网络连接到该电子设备，并且按照约定的数据格式来传输交互信息。

在下文中，将参考图3和图4在以下场景中具体地描述根据本发明第一实施例的信息处理方法和装置，在该场景中仅仅包括一个电子设备，并且将移动电话作为电子设备的示例，该电子设备用于接收多媒体信息，此时，该信息处理装置100用于对电子设备接收到的多媒体信息进行自动识别和标签添加，以便在电子设备中对该多媒体信息进行归档。

然而，需要说明的是，该电子设备可以是任何类型的电子设备，其包括但不限于：台式计算机、笔记本计算机、平板电脑、电子阅读器、多媒体播放器、和个人数字助理等。此外，还可以将本发明应用于信息处理装置与电子设备之间的其他交互过程。

图3图示了根据本发明第一实施例的信息处理方法，而图4图示了根据本发明第一实施例的信息处理装置100。

图3所图示的根据本发明第一实施例的信息处理方法可以通过图4所图示的信息处理装置100来实现。如图4所图示的，与图2中相似地，该信息处理装置100可以包括：数据获得单元110、特征提取单元120、相似度确定单元130、和标识生成单元140。此外，优选地，该信息处理装置100还可以包括：标识添加单元150和/或身份确定单元160。

如图3所图示的，根据本发明第一实施例的信息处理方法包括：

在步骤S310中，从电子设备获得多媒体信息。

在第一实施例中，电子设备（例如，移动电话）可以接收多媒体信息，所述多媒体信息例如是当前电子设备从一个或多个对端电子设备接收到的多媒体短消息、语音信箱留言、经由即时通信工具（例如，QQ、MSN、微信等）接收的多媒体消息、通过有线和/或无线通信方式接收的诸如音视频文件的多媒体文档，甚至是混合文档包等，该混合文档包是封装有普通文件（即非多媒体文件）以及该普通文件的分享者/创作者生成的、关于该文件内容的一段语音说明的文档包。

为了利用用户身份来对接收到的多媒体信息进行自动识别和添加标签，移动电话将该多媒体信息发送到信息处理装置100，其中，数据获得单元110获得该多媒体信息。

在步骤S320中，从多媒体信息中提取用于表征用户身份的特征信息。

在数据获得单元110获得该多媒体信息之后，特征提取单元120从所述多媒体信息中提取用于表征用户身份的特征信息。

例如，在多媒体信息是多媒体文件（例如，语音留言）的情况下，该特征提取单元120可以对所述多媒体信息直接进行声纹识别；而在多媒体信息是混合文档包的情况下，该特征提取单元120可以首先从该混合文档包中提取其分享者/创作者生成的一段语音说明，然后对该语音说明进行声提取纹识别。

具体地，该特征提取单元120可以从多媒体信息中提取声音轨道，并且在时间轴上根据声音的存在与否来将该声音轨道划分为与不同时间对应的多个片段，对于每个片段，根据各种声音特性（例如，声调、能量、频谱等），使用各种语音信号分析和声纹识别算法（例如，线性预测算法、Mel尺度倒谱算法、动态时间规整算法、模式分类算法等）来进行语音特征和声纹信息提取，从而获得与多个时间对应的多个声纹信息。

在步骤S330中，对特征信息进行比较，以确定它们之间的相似度。

相似度确定单元130从特征提取单元120接收与多媒体信息多个片段分别对应的多个声纹信息，并且对它们进行比较。

为了便于说明，假设该多媒体信息被划分为包括第一时间和第二时间的两个片段，则相似度确定单元130将第一时间的第一声纹信息与第二时间的第二声纹信息进行比较，以确定所述第一声纹信息与所述第二声纹信息之间的相似度，并且将该相似度与一个预设的阈值进行比较，以判断整个多媒体信息是只包括一个用户的声纹信息，还是包括与多个用户对应的多个声纹信息。

在步骤S340中，如果相似度大于或等于阈值，则为整个多媒体信息生成唯一的用户标识信息。

如果相似度确定单元130确定出第一声纹信息与所述第二声纹信息之间的相似度大于或等于预设的阈值，则这说明整个多媒体信息是只包括一个用户的声纹信息，即整个多媒体信息是由同一个用户生成的。

这时，标识生成单元140可以为整个多媒体信息生成唯一的用户标识信息。

例如，该标识生成单元140可以仅仅生成一个抽象的用户标识信息，其用于表明所述多媒体信息与一个用户相关联，以在电子设备中简单地区分于被标识为与不同于上述用户的另一用户相关联的多媒体信息。

替换地，该标识生成单元140还可以生成一个具体的用户标识信息，其用于在电子设备中表明所述多媒体信息与具体的哪一个用户（例如，第一用户AAA还是第二用户BBB）相关联。

为此，信息处理装置100可以优选地包括身份确定单元160，用于确定与某一声纹信息对应的用户标识信息（例如，用户名称）。

具体地，该身份确定单元160可以接收特征提取单元120所提取的声纹信息，并且根据该声纹信息来判断当前在数据库中是否存在已有的样本声纹信息。

如果存在这样的一个或多个样本声纹信息，则该身份确定单元160可以对多媒体信息的声纹信息与所述多个样本声纹信息进行比较，并且执行打分判断操作。

例如，该身份确定单元160从数据库中获得所述样本声纹信息，其中，每一个样本声纹信息已经被预先地标识为与唯一的用户身份相关联。然后，该身份确定单元160分别将多媒体信息的声纹信息与所述多个样本声纹信息进行比较，以确定它们之间的多个相似度，并且根据与相似度为最大值的样本声纹信息相关联的用户身份来确定与多媒体信息相关联的具体用户身份。

如果该声音缺乏对应的样本声纹信息（例如当刚开始使用声纹识别系统的初期），则该身份确定单元160可以寻找并使用在所述电子设备中可用的各种身份信息来确定与多媒体信息相关联的具体用户身份。

例如，当所述多媒体信息是从对端电子设备接收到的多媒体短消息、语音信箱留言时，该身份确定单元160可以使用该对端电子设备的电话号码、联系人信息来确定该用户身份。又如，当所述多媒体信息是经由即时通信工具（例如，QQ、MSN、微信等）接收的多媒体消息时，该身份确定单元160可以使用对方用户的即时通信账号来确定该用户身份。另外，当所述多媒体信息是通过有线和/或无线通信方式接收的诸如音视频文件的多媒体文档，甚至是混合文档包时，该身份确定单元160可以使用相应文档或文档包属性信息中的作者或所有者信息来确定该用户身份。

然后，优选地，该身份确定单元160可以通过在数据库中建立新的模型，来将该多媒体信息的声纹信息作为新的样本声纹信息，添加到数据库中，以便对声纹识别系统进行扩充。

另外，如果通过上述几种方式仍然无法自动地确定与该多媒体信息相关联的具体用户身份，则身份确定单元160还可以向用户显示当前声纹识别系统中存在的样本不足，并且提示用户执行辅助标记。这时，用户可以根据提示，通过各种输入方式（例如，音频、手写、键盘等）手动地输入相关信息。

同样地，然后，优选地，该身份确定单元160可以根据用户的辅助标记来将该多媒体信息的声纹信息作为新的样本声纹信息，添加到数据库中。

显然，该身份确定单元160同样也可以在自动确定与该多媒体信息相关联的具体用户身份之后，提示用户进行确认和修改，以保证自动识别的正确率，从而，可以实现声纹识别系统的自动学习过程，使得随着用户的语音标记数据越来越多，自动标记变得越来越准确。

在步骤S350中，向多媒体信息添加用户标识信息。

在标识生成单元140生成用户标识信息之后，标识添加单元150向所述多媒体信息添加该用户标识信息。

例如，该标识添加单元150可以将标识生成单元140生成的用户标识信息添加到多媒体信息的已有属性项目中，或者为其新建一个属性项目。

或者，该标识添加单元150还可以对多媒体信息的原始文件名进行修改，向其中添加标识生成单元140生成的用户标识信息。例如，当该多媒体信息的原始文件名称是“123”时，可以将其修改为“第一用户AAA的123”。

甚至，在该标识添加单元150还可以对多媒体信息的图标进行修改，例如，添加角标，以体现出该多媒体信息与哪一个用户相关联。

这样，根据信息处理装置100所添加的用户标识信息，可以容易地对在电子设备中存储的海量多媒体数据和文档进行归档，构建索引，并生成供检索的数据库，以便在稍后进行的检索操作中，用户能够快速、准确且高效地定位到自己所需的数据和文档。

由此可见，采用根据本发明第一实施例的信息处理方法和装置，可以在单机电子设备接收多媒体信息的场景中，获得多媒体数据，从其中提取用于表征用户身份的唯一特征信息，根据该特征信息来为整个多媒体数据生成唯一的用户标识信息，并且向该多媒体数据添加该用户标识信息。

需要说明的是，尽管在上文中举例说明了对多媒体信息进行分段、提取多个特征信息、以及对它们进行比较和阈值判断的过程，但是，本发明不限于此。考虑到单纯的多媒体信息往往是由单个用户生成（即，它往往仅仅包含一个用户的声纹信息）的普遍特性，在实现本发明的第一实施例时，也可以省略上述各个分段、提取、比较和阈值判断的操作，而在判断出当前多媒体数据属于多媒体信息时，简单地对该多媒体信息提取一个特征信息，并且根据该特征信息来对整个多媒体信息添加唯一的用户标识信息。

在下文中，将参考图5和图6在以下场景中具体地描述根据本发明第二实施例的信息处理方法和装置，在该场景包括第一电子设备和第二电子设备两个电子设备，并且将移动电话作为第一电子设备的示例，所述第一电子设备与第二电子设备进行双方音频通话，并且自动地录制该音频通话，以生成并存储该音频通话的音频流数据，此时，该信息处理装置100用于对移动电话录制的音频流数据进行自动识别和标签添加，以便在移动电话中对该音频流数据进行归档。

图5图示了根据本发明第二实施例的信息处理方法，而图6图示了根据本发明第二实施例的信息处理装置100。

图5所图示的根据本发明第二实施例的信息处理方法可以通过图6所图示的信息处理装置100来实现。如图6所图示的，与图2中相似地，该信息处理装置100可以包括：数据获得单元110、特征提取单元120、相似度确定单元130、和标识生成单元140。此外，优选地，该信息处理装置100还可以包括：标识添加单元150、身份确定单元160、和/或数据搜索单元170。

如图5所图示的，根据本发明第二实施例的信息处理方法包括：

在步骤S510中，从第一电子设备获得音频流数据。

在第二实施例中，第一用户可以通过第一电子设备（例如，移动电话）来与第二电子设备（例如，固定电话）的第二用户进行多媒体通信，例如音频通话。第一电子设备可以通过本地的麦克风来接收第一用户的声音，并且将它作为通信信号通过通信信道传送到第二电子设备；同时通过通信信道从第二电子设备接收通信信号，通过本地的音频处理电路将该通信信号还原为第二用户的声音，并且通过耳机或扬声器向第一用户输出。

此外，为了便于第一用户对这段通话进行归档和整理，该第一电子设备还可以自动地录制、生成并存储该音频通话的音频流数据，以便信息处理装置100对它进行特征分析（例如，声纹识别），并且向该音频流数据添加用户可以识别的标识信息。

显然，替换地，该信息处理装置100也可以先对音频流数据进行标识添加，然后再由第一电子设备直接存储带有标识的音频流数据。

在上述任一情况下，为了利用用户身份来对所录制的音频流数据进行自动识别和添加标签，移动电话将该音频流数据发送到信息处理装置100，其中，数据获得单元110获得该音频流数据。

在步骤S520中，从音频流数据中提取用于表征用户身份的特征信息。

由于该音频流数据中包括第一用户和第二用户两个用户的声纹信息，所以在对该音频流数据进行标识之前，优选地，特征提取单元120可以将该音频流数据划分为多个片段。

如第一实施例中一样地，该特征提取单元120可以在时间轴上根据声音的存在与否来将该声音轨道划分为与不同时间对应的多个片段。然而，这种处理方式只能简单地将音频流数据划分为多个存在音频的部分，而无法区分出哪个部分中存在单一用户的声音，而哪个部分同时存在两个用户的声音交叠（例如，由于两个用户同时说话时产生）。

优选地，特征提取单元120可以与第一电子设备进行通信，获取音频流数据的来源信道，并且依次对该音频流数据进行精细划分。例如，当判断出该音频流数据中的一部分声音数据源自于第一电子设备麦克风的采集操作时，该特征提取单元120可以将其划分为属于第一用户的片段；而在其他情况下，例如当判断出该音频流数据中的一部分声音数据源自于第一电子设备音频处理电路的还原操作时，该特征提取单元120可以将其划分为属于第二用户的片段。这样，就实现了更加准确可靠的音频流数据的分段操作。

然后，该特征提取单元120可以对于每个片段进行声纹信息提取，从而获得与多个时间对应的多个声纹信息。

在步骤S530中，对特征信息进行比较，以确定它们之间的相似度。

相似度确定单元130对从特征提取单元120接收的多个声纹信息进行比较，以确定在整个音频流数据中哪些片段属于一个用户，而哪些片段属于另一个用户。

在一个简单示例中，假设该音频流数据被划分为包括第一时间、第二时间、第三时间的三个片段，则相似度确定单元130将第一时间的第一声纹信息与第二时间的第二声纹信息和第三时间的第三声纹信息进行比较，以确定三个声纹信息之间的相似度，并且将该相似度与一个预设的阈值进行比较，以区分哪些时间片段属于一个用户，而哪些时间片段属于另一个用户。

在步骤S540中，如果相似度小于阈值，则为整个音频流数据生成与第二电子设备相关联的用户标识信息。

例如，如果相似度确定单元130确定出第一声纹信息与所述第二声纹信息之间的相似度小于预设的阈值，则这说明第一时间的音频流数据属于一个用户，而第二时间的音频流数据属于另一个用户。如果相似度确定单元130确定出第一声纹信息与所述第二声纹信息之间的相似度大于或等于预设的阈值，则这说明第一时间的音频流数据和第二时间的音频数据属于同一个用户。以此类推，可以标识出整个音频流数据中的每一个时间片段属于两个用户中的哪一个。

在生成用户标识信息时，优选地，考虑到第一电子设备中的多媒体数据和文档通常都会与第一用户相关联，所以第一用户在进行整理归档时，往往仅仅期望了解这些文件还与其他哪些用户相关联。为此，标识生成单元140可以利用非本机机主（即，除了第一用户之外的第二用户）的标识信息来对整个音频流数据添加标识。

为此，该标识生成单元140首先获得一个参考特征信息，该参考特征信息例如是本机机主的声纹信息，然后将特征提取单元120提取出的两个声纹信息之一与机主声纹信息进行比较，以确定它们之间的相似度。

如果该相似度大于或等于预设的阈值，则说明当前比较的声纹信息属于机主（即，第一用户），这时，该标识生成单元140使用另一个声纹信息（第二用户的声纹信息）来对整个音频流数据进行标识添加。如果该相似度小于预设的阈值，则说明当前比较的声纹信息属于非机主（即，第二用户），这时，该标识生成单元140直接使用当前的声纹信息来生成为整个音频流数据生成用户标识信息。

如第一实施例中一样地，例如，该标识生成单元140可以仅仅生成一个抽象的用户标识信息，其用于表明所述音频流数据与一个非机主用户相关联，或者还可以生成一个具体的用户标识信息（例如，第二用户的姓名BBB），其用于在电子设备中表明所述音频流数据与具体的哪一个非机主用户相关联。

为此，信息处理装置100可以优选地包括身份确定单元160，用于通过在数据库中检索与非机主用户声纹匹配的声纹信息，使用在第一电子设备中存储的、与第二电子设备相关联的用户身份（例如，电话本中的联系人信息），或者提示用户辅助指定，来确定与某一声纹信息对应的用户标识信息（例如，用户名称）。然后，该信息处理装置100还可以通过最终确定的用户标识信息来更新声纹识别系统的数据库，以便协助该声纹识别系统进行自动学习。

在步骤S550中，向音频流数据添加用户标识信息。

在标识生成单元140生成用户标识信息之后，标识添加单元150向所述音频流数据添加该用户标识信息。

在步骤S560中，根据用户标识信息来对音频流数据进行检索。

通过上述操作，在第一电子设备中可以根据信息处理装置100所添加的用户标识信息，对所存储的海量多媒体数据和文档进行归档，构建索引，并生成供检索的数据库。

当需要在第一电子设备中的数据库中搜索在与第二用户通话时所存储的音频流数据时，第一用户可以向第一电子设备输入要搜索的关键字。这时，在信息处理装置100中，数据搜索单元170获得用于该关键字，搜索包括所述关键字作为用户标识信息的多媒体数据，并且返回所述多媒体数据。

具体地，该数据搜索单元170可以接收用户通过各种方式输入的输入信息，例如该输入信息可以是通过麦克风接收的语音输入、通过触摸屏接收的手写输入、或通过键盘接收的文字输入等。然后，该数据搜索单元170对输入信息进行文字识别（例如，语义识别），并且根据所识别的结果来从所述输入信息中提取所述关键字，例如第二用户的姓名。接下来，该数据搜索单元170可以在数据库中查找具有第二用户姓名作为用户标识信息的音频流数据，并且向第一用户进行呈现，例如对它进行播放。

替换地或者除此之外，该数据搜索单元170还可以在音频流数据被打开的同时，向用户呈现该音频流数据的用户标识信息，以便用户可以得知该音频流数据是由谁提供的或者是谁在讲话。

另外，还可能存在以下情况，即第二用户希望在第一终端中检索跟自己相关的音频流数据，但他/她并不知道第一用户是通过什么信息来对它们进行标识的。这时，优选地，可以通过声纹识别来实现这个检索过程。

具体地，该数据搜索单元170可以接收第二用户通过麦克风输入的输入信息，从该输入信息中提取第二用户的声纹信息，从声纹识别系统的数据库中查找是否存在匹配的声纹。例如，该数据搜索单元170获得多个样本声纹信息，所述多个样本声纹信息中的每一个已经在预先的身份标识过程中与唯一的用户身份相关联。然后，该数据搜索单元170分别将在输入信息中提取的第二用户的声纹信息与所述多个样本声纹信息进行比较，以确定所述输入信息与所述多个样本声纹信息之间的多个相似度，并且根据与相似度为最大值的样本声纹信息相关联的用户身份来确定在搜索时使用的关键字。例如，该关键字可能是第二用户的姓名、第一用户为第二用户指定的昵称、甚至是抽象的用户标识信息等。接下来，该数据搜索单元170可以在数据库中查找具有该关键字作为用户标识信息的音频流数据，并且向第二用户呈现。

由此可见，采用根据本发明第二实施例的信息处理方法和装置，可以在两个电子设备进行双方多媒体通信的场景中，获得多媒体数据，从其中提取用于表征用户身份的多个特征信息，利用属于非本机机主的特征信息来为整个多媒体数据生成唯一的用户标识信息，向该多媒体数据添加该用户标识信息，并且随后根据用户期望的关键字进行准确且高效的数据检索。

需要说明的是，尽管在上文中举例说明了使用非本机机主的特征信息来对音频流数据添加标识的过程，但是，本发明不限于此。考虑到具体的用户需求，在实现本发明的第二实施例时，也可以分别使用机主的特征信息和非本机机主的特征信息来对在整个音频流数据中属于不同用户的不同时间部分添加标识，以便该音频流数据的标识信息更加丰富且标识更加准确。

在下文中，将参考图7和图8在以下场景中具体地描述根据本发明第三实施例的信息处理方法和装置，在该场景至少包括第一电子设备和第二电子设备两个电子设备，其中将移动电话作为第一电子设备的示例，所述第一电子设备与第二电子设备进行多方视频电话会议，并且自动地录制该视频通话，以生成并存储该视频通话的音视频流数据，此时，该信息处理装置100用于对移动电话录制的音视频流数据进行自动识别和标签添加，以便在移动电话中对该音视频流数据进行归档。

图7图示了根据本发明第三实施例的信息处理方法，而图8图示了根据本发明第三实施例的信息处理装置100。

图7所图示的根据本发明第三实施例的信息处理方法可以通过图8所图示的信息处理装置100来实现。如图6所图示的，与图2中相似地，该信息处理装置100可以包括：数据获得单元110、特征提取单元120、相似度确定单元130、和标识生成单元140。此外，优选地，该信息处理装置100还可以包括：标识添加单元150、身份确定单元160、数据搜索单元170、命令生成单元180、命令接收单元190、和/或文本生成单元200。

如图7所图示的，根据本发明第三实施例的信息处理方法包括：

在步骤S710中，从第一电子设备获得音视频流数据。

在第三实施例中，一个或多个用户（例如，第一用户）可以通过第一电子设备（例如，移动电话）来与第二电子设备（例如，固定电话）的一个或多个用户（例如，第二用户和第三用户）进行多媒体通信，例如音视频通话。

需要说明的是，尽管这里以两个电子设备为例来描述该多方视频电话会议的进行，但是，本发明不限于此。显然，还可以包括第三电子设备，使得更多的用户利用第三电子设备加入此音视频通话，或者也可以使得第三用户独自使用第三电子设备来与第一用户和第二用户进行音视频通话，而不是与第二用户共享该第二电子设备。

此外，为了便于第一用户对这段通话进行归档和整理，该第一电子设备还可以自动地录制、生成并存储该音视频通话的音视频流数据，并且将该音视频流数据发送到信息处理装置100，以便信息处理装置100对它进行特征分析（例如，声纹识别、面部识别、手势识别、身体特征识别、姿态识别等），并且向该音视频流数据添加用户可以识别的标识信息。

具体地，在信息处理装置100中，数据获得单元110从第一电子设备获得该音视频流数据。

在步骤S720中，根据标识触发命令来启动对音视频流数据的标识操作。

考虑到第一用户可能由于各种原因（例如，用户可能不期望录下会议开始前的准备工作、或者用户仅仅关注于会议中的一小部分内容等）而无需对整个音视频通话过程进行标识，优选地，在第三实施例中，特征提取单元120只有在命令接收单元190接收到标识触发命令之后，才开始执行特征信息提取操作，也就是说，信息处理装置100可以仅仅对音视频流数据中的至少一部分添加标识，甚至是，该信息处理装置100可以在获得标识触发命令之后才通知第一电子设备开始记录该音视频通话。

为此，在信息处理装置100中包括一个命令生成单元180，以用于当用户期望对音视频流数据中的一部分进行标识时，根据用户的输入来生成一个标识触发命令。

具体地，用户可以预先设置一个命令样本数据，该命令样本数据可以是某一个或多个用户的声纹信息、面部特征信息、手势信息、身体特征信息、姿态信息等、或者是它们的各种组合。然后，该命令生成单元180可以获得该命令样本数据，将音视频流数据与所述命令样本数据进行比较，并且当所述音视频流数据与所述命令样本数据匹配时，生成所述标识触发命令。

在一个示例中，用户可能期望当音视频流数据中出现会议组织者时，才开始标识操作。为此，该用户可以将会议组织者的面部图像设置为该命令样本数据。这时，该命令生成单元180首先获取该预设的面部图像，并且将它与数据获得单元110获得的音视频流数据进行实时比对，以确定该音视频流数据中的视频图像中是否出现会议组织者的面部。当出现时，该命令生成单元180生成用于启动标识操作的所述标识触发命令。

在另一示例中，用户可能期望当音视频流数据中出现特定声音信号时，才开始标识操作。为此，该用户可以将任一参会用户发出的声音信息“现在会议开始”设置为该命令样本数据。这时，该命令生成单元180首先获取该预设的声音信息，并且对数据获得单元110获得的音视频流数据进行实时语义分析，以确定该音视频流数据中的音频内容中是否出现这样的话语当出现时，该命令生成单元180生成用于启动标识操作的所述标识触发命令。

更进一步地，在又一示例中，用户还可以将由会议组织者发出声音信息“现在会议开始”同时做出某一手势动作（例如，请大家安静的手势）设置为该命令样本数据。这时，该命令生成单元180不但要对音视频流数据中的音频内容进行实时语义分析，而且还需要对该音频内容进行实时声纹分析，并且同时对于该音视频流数据中的视频图像进行手势识别。

接下来，命令接收单元190检测当前是否接收到命令生成单元180生成的标识触发命令，并且在接收到该命令之后，通知特征提取单元120开始执行特征信息提取操作。

在步骤S730中，从音视频流数据中提取用于表征用户身份的特征信息。

该特征提取单元120可以从音视频流数据中提取声音轨道和视频图像，根据各种可能的特征信息来在时间轴上将音视频流数据划分为与不同时间对应的多个片段。然后，该特征提取单元120可以对于每个片段进行特征信息提取，从而获得与多个时间对应的多个特征信息。

如第一和第二实施例中一样地，该特征信息可以是各个用户的声纹信息。此外，该特征信息也可以是各个用户的面部特征信息、身体特征信息、和手势信息等。

在步骤S740中，对特征信息进行比较，以确定它们之间的相似度。

相似度确定单元130从特征提取单元120接收与音视频流数据中多个片段分别对应的多个声纹信息，并且对它们进行比较。

为了便于说明，假设该音视频流数据被划分为包括三个片段，其中第一时间与第一用户的发言过程对应，第二时间与第二用户的发言过程对应，并且第三时间与第三用户的发言过程对应。

在步骤S750中，如果相似度小于阈值，则为音视频流数据生成多个用户标识信息。

基于上述假设，当执行比较操作时，相似度确定单元130可以确定出第一时间的第一特征信息与接下来的第二时间的第二特征信息之间的相似度小于预设的阈值，则这说明第一时间的音视频流数据属于一个用户，而第二时间的音视频流数据属于另一个用户。继续地，相似度确定单元130还可以确定出第二时间的第二特征信息与接下来的第三时间的第三特征信息之间的相似度小于预设的阈值、并且第三时间的第三特征信息与之前的第一时间的第一特征信息之间的相似度也小于预设的阈值，则这说明第三时间的音视频流数据属于除了之前两个用户的又一个用户。

以此类推，可以标识出整个音视频流数据中的每一个时间片段属于三个用户中的哪一个。接下来，该标识生成单元140可以为属于不同用户的时间片段，添加不同的用户标识信息，由此可以清楚地标识出电话会议中正在发言用户的切换。

例如，与第一实施例和第二实施例中一样地，在生成用户标识信息时，该标识生成单元140可以抽象地对各个时间片段标识为分别与三个不同的用户相关联，或者也可以通过身份确定单元160来具体地对这三个不同用户的身份进行确定。

在后者情况下，该身份确定单元160可以首先确定当前采用的特征信息的格式，并且根据该特征信息的格式来在数据库中寻找对应的样本特征信息，以便比较并确定每个时间片段的具体用户身份。例如，身份确定单元160可以根据当前采样的特征信息来选择与唯一用户身份相关联的声纹信息、面部特征信息、身体特征信息、和手势信息等来完成上述操作。

在步骤S760中，向音视频流数据添加用户标识信息。

在标识生成单元140生成用户标识信息之后，标识添加单元150向所述音视频流数据添加该用户标识信息，从而使得数据搜索单元170可以根据标识添加单元150所添加的用户标识信息，定位到用户所需的数据和文档。

在第三实施例中，优选地，在第一用户使用第二用户的姓名来搜索与第二用户相关联的多媒体数据的情况下，当在数据搜索单元170搜索到包括第二用户姓名作为用户标识信息的多媒体数据之后、返回所述多媒体数据时，该数据搜索单元170进一步将多媒体数据跳转到以下多媒体部分，所述多媒体部分是在所述多媒体数据中、与作为用户标识信息的第二用户姓名对应时间的多媒体数据，并且呈现所述多媒体数据中的所述多媒体部分。

例如，该数据搜索单元170可以在向用户呈现上述音视频流数据时，进一步在时间轴上将该音视频流数据定位在第二用户出现和/或发言的部分，以便用户可以直接跳转到自己所关注的音视频部分，从而显著地提高了用户的检索体验。

在步骤S770中，将音视频流数据转换为文本数据，并且为文本数据生成多个用户标识信息。

除了能够对音视频流数据进行自动识别和标签添加之外，该信息处理装置100还可以对该音视频流数据进行文本转换，并且对转换后的文本进行自动识别和标签添加。

为此，该信息处理装置100还可以包括文本生成单元200，用于对多媒体数据进行文本识别，并且生成与所述多媒体数据对应的文本数据。这时，标识添加单元150在所述文本数据中确定与所述第一时间、第二时间和第三时间的多媒体数据分别对应的第一文本部分、第二文本部分和第三文本部分，并且分别使用在步骤S750中生成的多个来标识第一文本部分到第三文本部分。

在一个简单示例中，该文本生成单元200可以对音视频流数据中的声音轨道执行语义识别，以便将各个用户的发言转换为文本脚本，便于用户进行归档和查看。

优选地，在另一示例中，该文本生成单元200还可以首先对该音视频流数据中进行格式识别，根据不同的格式来对该音视频流数据执行不同处理。例如，该文本生成单元200可以对音视频流数据中的声音轨道执行语义识别，同时对视频图像执行图像识别，以便在将各个用户的发言转换为会议纪要的同时，还可以将视频图像中出现的文字部分（例如，当图像中出现演示文稿时）填入到会议纪要的相应位置，或者简单地将当前显示的演示文稿，以图像形式添加到会议纪要的相应位置，以便充实会议纪要的内容，真实再现会议中出现的场景。

然后，该标识添加单元150可以与音视频流数据的标记添加对应地，向所述文本数据（即，会议纪要脚本）添加用户标识信息，从而使得数据搜索单元170可以根据标识添加单元150所添加的用户标识信息，不但定位到该视频通话的音视频流数据，而且还可以定位到会议纪要的文本数据。

在步骤S780中，根据用户标识信息来对文本数据进行检索。

当用户期望对归档的各个文档和数据执行检索操作时，除了该视频会议的音视频流数据之外，数据搜索单元170可以根据标识添加单元150所添加的用户标识信息，定位到该视频会议的文本数据，并且根据用户的选择来返回该文本数据。

此外，与在步骤S760中一样地，在第三实施例中，优选地，在第一用户使用第二用户的姓名来搜索与第二用户相关联的各类数据的情况下，当在数据搜索单元170搜索到包括第二用户姓名作为用户标识信息的文本数据之后、返回所述文本数据时，该数据搜索单元170进一步将文本数据跳转到以下文本部分，所述文本部分是在所述文本数据中、与作为用户标识信息的第二用户姓名对应位置的文本数据，并且呈现所述文本数据中的所述文本部分。

例如，该数据搜索单元170可以在向用户呈现归档后的上述会议纪要文本数据时，进一步将该文本数据定位在与第二用户发言对应的文字部分，以便用户可以直接观看到自己所关注的文本部分，从而显著地提高了用户的检索体验。

由此可见，采用根据本发明第三实施例的信息处理方法和装置，可以在两个或更多电子设备进行多方多媒体通信的场景中，获得多媒体数据，从其中提取用于表征用户身份的多个特征信息，利用与每个用户对应的特征信息来为多媒体数据生成多个用户标识信息，向该多媒体数据添加该用户标识信息，此外，还可以将该多媒体数据转换为文本数据，利用与每个用户对应的特征信息来为文本数据中各个用户发言的文字部分生成多个用户标识信息，向该文本数据添加该用户标识信息，以便随后根据用户期望的关键字进行准确、高效且类型更为丰富的数据检索。

需要说明的是，尽管在上文中举例说明了对多方视频通话进行实时录制和添加标识，但是，本发明不限于此。显然，信息处理方法和装置同样可以用于对已录制好的音视频流数据进行自动整理和标识处理。

在上文中，在三个单独的实施例中对根据本发明的信息处理方法和装置进行描述，然而，显然的是，这些实施例以及其中的步骤不但可以单独实施，也可以相互组合地进行实施。

此外，尽管此处将上述的各个单元作为各个步骤的执行主体来说明本发明的各个实施例，但是，各个步骤的执行主体可以由其他的一个或多个设备、装置、单元、甚至模块来担任。例如，上述的数据获得单元110、特征提取单元120、相似度确定单元130、标识生成单元140、标识添加单元150、身份确定单元160、数据搜索单元170、命令生成单元180、命令接收单元190、和/或文本生成单元200中一个或多个所执行的各个步骤可以统一地由电子设备中的中央处理单元（CPU）来实现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助于软件加必需的硬件平台的方式来实现，当然也可以全部通过软件、或硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

在上面详细描述了本发明的各个实施例。然而，本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本发明的范围内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获得多媒体数据；

从所述多媒体数据中提取用于表征用户身份的特征信息；

将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及

如果所述第一相似度小于第一阈值，则生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。

2.根据权利要求1的方法，其特征在于，所述方法还包括：

向所述多媒体数据添加所述第一用户标识信息。

3.根据权利要求1的方法，其特征在于，所述方法还包括：

生成第二用户标识信息，所述第二用户标识信息用于表明所述多媒体数据在所述第二时间与第二用户相关联，并且

其中，所述第一用户标识信息用于表明所述多媒体数据在所述第一时间与第一用户相关联。

4.根据权利要求3的方法，其特征在于，所述方法还包括：

对所述多媒体数据进行文本识别；以及

生成与所述多媒体数据对应的文本数据。

5.根据权利要求4的方法，其特征在于，所述方法还包括：

在所述文本数据中确定与所述第一时间的多媒体数据和所述第二时间的多媒体数据分别对应的第一文本部分和第二文本部分；以及

分别使用所述第一用户标识信息和所述第二用户标记信息来标识所述第一文本部分和所述第二文本部分。

6.根据权利要求1的方法，其特征在于，在所述生成第一用户标识信息的步骤之前，所述方法还包括：

获得多个样本特征信息，所述多个样本特征信息中的每一个与唯一的用户身份相关联；

分别将所述第一特征信息与所述多个样本特征信息进行比较，以确定所述第一特征信息与所述多个样本特征信息之间的多个相似度；以及

根据与相似度为最大值的样本特征信息相关联的用户身份来确定所述第一用户的身份。

7.根据权利要求6的方法，其特征在于，所述第一特征信息和所述多个样本特征信息包括以下各项中的至少一个：声纹信息、面部特征信息、身体特征信息、和手势信息。

8.根据权利要求1的方法，其特征在于，在所述从所述多媒体数据中提取用于表征用户身份的特征信息的步骤之前，所述方法还包括：

接收标识触发命令，所述标识触发命令用于触发对所述多媒体数据中至少第一时间的标识操作。

9.根据权利要求8的方法，其特征在于，在所述接收标识触发命令的步骤之前，所述方法还包括：

获得命令样本数据；

将所述多媒体数据与所述命令样本数据进行比较；以及

当所述多媒体数据与所述命令样本数据匹配时，生成所述标识触发命令。

10.根据权利要求1的方法，其特征在于，所述生成第一用户标识信息的步骤包括：

获得参考特征信息；

将所述第一特征信息与所述参考特征信息进行比较，以确定所述第一特征信息与所述参考特征信息之间的第二相似度；以及

如果所述第二相似度小于第二阈值，则生成所述第一用户标识信息，

其中，所述第一用户标识信息用于表明整个所述多媒体数据与第一用户相关联。

11.根据权利要求1的方法，其特征在于，所述方法应用于第一电子设备，所述第一电子设备与第二电子设备进行多媒体通信，并且

在所述生成第一用户标识信息的步骤之前，所述方法还包括：

使用在所述第一电子设备中存储的、与所述第二电子设备相关联的用户身份来确定所述第一用户的身份。

12.根据权利要求1的方法，其特征在于，所述方法还包括：

如果所述第一相似度大于或等于所述第一阈值，则生成第三用户标识信息，所述第三用户标识信息用于表明所述多媒体数据与所述第一用户相关联。

13.根据权利要求1的方法，其特征在于，所述方法还包括：

获得用于进行搜索的关键字；

搜索包括所述关键字作为用户标识信息的多媒体数据；以及

返回所述多媒体数据。

14.根据权利要求13的方法，其特征在于，所述返回所述多媒体数据的步骤包括：

将所述多媒体数据跳转到多媒体部分，所述多媒体部分是在所述多媒体数据中、与作为用户标识信息的所述关键字对应时间的多媒体数据；以及

呈现所述多媒体数据中的所述多媒体部分。

15.根据权利要求13的方法，其特征在于，所述获得用于进行搜索的关键字的步骤包括：

接收输入信息；

对所述输入信息进行文本识别；以及

根据所识别的结果来从所述输入信息中提取所述关键字。

16.根据权利要求13的方法，其特征在于，所述获得用于进行搜索的关键字的步骤包括：

接收输入信息；

分别将所述输入信息与所述多个样本特征信息进行比较，以确定所述输入信息与所述多个样本特征信息之间的多个相似度；以及

根据与相似度为最大值的样本特征信息相关联的用户身份来确定所述关键字。

17.一种信息处理装置，其特征在于，所述装置包括：

数据获得单元，用于获得多媒体数据；

特征提取单元，用于从所述多媒体数据中提取用于表征用户身份的特征信息；

相似度确定单元，用于将第一时间的第一特征信息与第二时间的第二特征信息进行比较，以确定所述第一特征信息与所述第二特征信息之间的第一相似度；以及

标识生成单元，用于如果所述第一相似度小于第一阈值，则生成第一用户标识信息，所述第一用户标识信息用于表明所述多媒体数据至少在所述第一时间与第一用户相关联。

18.根据权利要求17的装置，其特征在于，所述装置还包括：

标识添加单元，用于向所述多媒体数据添加所述第一用户标识信息。

19.根据权利要求17的装置，其特征在于，所述标识生成单元还用于生成第二用户标识信息，所述第二用户标识信息用于表明所述多媒体数据在所述第二时间与第二用户相关联，并且

20.根据权利要求17的装置，其特征在于，所述装置还包括：文本生成单元，用于对所述多媒体数据进行文本识别，并且生成与所述多媒体数据对应的文本数据。

21.根据权利要求20的装置，其特征在于，所述装置还包括：标识添加单元，用于在所述文本数据中确定与所述第一时间的多媒体数据和所述第二时间的多媒体数据分别对应的第一文本部分和第二文本部分，并且分别使用所述第一用户标识信息和所述第二用户标记信息来标识所述第一文本部分和所述第二文本部分。

22.根据权利要求17的装置，其特征在于，所述装置还包括：身份确定单元，用于在所述标识生成单元生成第一用户标识信息之前，获得多个样本特征信息，所述多个样本特征信息中的每一个与唯一的用户身份相关联，分别将所述第一特征信息与所述多个样本特征信息进行比较，以确定所述第一特征信息与所述多个样本特征信息之间的多个相似度，并且根据与相似度为最大值的样本特征信息相关联的用户身份来确定所述第一用户的身份。

23.根据权利要求22的装置，其特征在于，所述第一特征信息和所述多个样本特征信息包括以下各项中的至少一个：声纹信息、面部特征信息、身体特征信息、和手势信息。

24.根据权利要求17的装置，其特征在于，所述装置还包括：命令接收单元，用于在所述特征提取单元从所述多媒体数据中提取用于表征用户身份的特征信息之前，接收标识触发命令，所述标识触发命令用于触发对所述多媒体数据中至少第一时间的标识操作。

25.根据权利要求24的装置，其特征在于，所述装置还包括：命令生成单元，用于在所述命令接收单元接收标识触发命令之前，获得命令样本数据，将所述多媒体数据与所述命令样本数据进行比较，并且当所述多媒体数据与所述命令样本数据匹配时，生成所述标识触发命令。

26.根据权利要求17的装置，其特征在于，所述标识生成单元获得参考特征信息，将所述第一特征信息与所述参考特征信息进行比较，以确定所述第一特征信息与所述参考特征信息之间的第二相似度，并且如果所述第二相似度小于第二阈值，则生成所述第一用户标识信息，

27.根据权利要求17的装置，其特征在于，所述装置应用于第一电子设备，所述第一电子设备与第二电子设备进行多媒体通信，并且

所述装置还包括：身份确定单元，用于在所述标识生成单元生成第一用户标识信息之前，使用在所述第一电子设备中存储的、与所述第二电子设备相关联的用户身份来确定所述第一用户的身份。

28.根据权利要求17的装置，其特征在于，所述标识生成单元还用于如果所述第一相似度大于或等于所述第一阈值，则生成第三用户标识信息，所述第三用户标识信息用于表明所述多媒体数据与所述第一用户相关联。

29.根据权利要求17的装置，其特征在于，所述装置还包括：数据搜索单元，用于获得用于进行搜索的关键字，搜索包括所述关键字作为用户标识信息的多媒体数据，并且返回所述多媒体数据。

30.根据权利要求29的装置，其特征在于，所述数据搜索单元将所述多媒体数据跳转到多媒体部分，所述多媒体部分是在所述多媒体数据中、与作为用户标识信息的所述关键字对应时间的多媒体数据，并且呈现所述多媒体数据中的所述多媒体部分。

31.根据权利要求29的装置，其特征在于，所述数据搜索单元接收输入信息，对所述输入信息进行文本识别，并且根据所识别的结果来从所述输入信息中提取所述关键字。

32.根据权利要求29的装置，其特征在于，所述数据搜索单元接收输入信息，获得多个样本特征信息，所述多个样本特征信息中的每一个与唯一的用户身份相关联，分别将所述输入信息与所述多个样本特征信息进行比较，以确定所述输入信息与所述多个样本特征信息之间的多个相似度，并且根据与相似度为最大值的样本特征信息相关联的用户身份来确定所述关键字。