CN104932665B

CN104932665B - 一种信息处理方法以及一种电子设备

Info

Publication number: CN104932665B
Application number: CN201410103442.9A
Authority: CN
Inventors: 朱振宇; 孙林; 李众庆
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2018-07-06
Anticipated expiration: 2034-03-19
Also published as: CN104932665A

Abstract

本发明公开了一种信息处理方法以及一种电子设备，当有第一语音出现时，通过语音采集单元检测第一语音的出现方向，在第一语音的持续过程中，控制图像采集单元在第一语音的出现方向持续采集发出第一语音的第一用户的第一体征信息；当有不同于第一语音的第二语音出现时，通过语音采集单元检测第二语音的出现方向，在第二语音的持续过程中，控制图像采集单元在第二语音的出现方向持续采集发出第二语音的第二用户的第二体征信息；在采集语音结束之后，获得语音文件；按照第一语音的出现及结束时间，第二语音的出现及结束时间分割语音文件，获得第一语音片段及第二语音片段；将语音片段和用户的体征信息进行匹配。

Description

一种信息处理方法以及一种电子设备

技术领域

本发明涉及电子技术领域，特别涉及一种信息处理方法以及一种电子设备。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，进而产生了各式各样的电子设备，比如：平板电脑、笔记本电脑、一体机等等。这些电子设备可以应用到各个场合中。例如，在召开会议时，用户可以利用录音设备将当时会议中的语音进行全程录音保存下来，方便用户在后面的工作中进行参考。而本发明人实现本发明的过程中发现，现有技术的这种方式，虽然保留了会议录音，却并不能够区分出录音中哪个用户说了哪些话。例如用户A、用户B、用户C三个用户召开会议并且都进行发言。在后续参考时，虽然电子设备能够利用声纹识别大概区分出有几个用户说话，而由于不能获知用户的体征信息，因此不能够区分出哪个用户到底发表了哪些内容，如不能够获知用户A发表了哪些内容。虽然采用人工方式可以识别不同人的语音，但如果对发言人不熟悉，会产生误判的问题。且需要消耗大量的人力。

因此，现有技术存在的技术问题是：现有技术中的方案无法确定语音和用户的对应关系。

发明内容

本发明提供一种信息处理方法以及一种电子设备，用以解决现有技术中存在的无法确定语音和用户的对应关系的技术问题。

一方面，本发明通过本申请的一个实施例，提供如下技术方案：

一种信息处理方法，所述方法应用于电子设备，所述电子设备包括语音采集单元和图像采集单元，所述方法包括：当有第一语音出现时，通过所述语音采集单元检测所述第一语音的出现方向，然后在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息；当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息；在采集语音结束之后，获得语音文件；按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段；将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系。

优选的，所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第一语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向；转动所述图像采集单元，使所述图像采集单元能够采集到所述第二语音的出现方向的图像，在所述第一语音的持续过程中，持续采集包含所述第二用户的图像；分析所述图像，以获得所述第二体征信息。

优选的，所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体包括：获得采集所述第一体征信息时所用的第一时间段，以及获得采集所述第二体征信息时所用的第二时间段；其中，所述第一时间段的开始时间是所述图像采集单元在所述第一语音的出现方向开始采集的时间，所述第一时间段的结束时间是所述图像采集单元转动离开所述第一语音的出现方向的时间；将所述第一语音片段的出现及结束时间、所述第二语音片段的出现及结束时间，与所述第一时间段、所述第二时间段进行匹配，以确定出所述第一语音片段对应的用户和所述第二语音片段对应的用户。

优选的，所述获得采集所述第二体征信息时所用的第二时间段，具体为：记录所述图像采集单元从所述第一用户转动到所述第二用户耗费的转动时间；记录所述图像采集单元开始采集所述第二用户的体征信息直到所述图像采集单元转动离开所述第二用户耗费的采集时间；将所述转动时间和所述采集时间的合并为所述第二时间段。

优选的，在所述获得语音文件之后，所述方法还包括：将所述语音文件转换成文字文件；所述按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段，具体为：按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述文字文件，获得第一文字片段和第二文字片段；所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体为：将文字片段和用户的体征信息进行匹配，以确定出所述文字片段和用户的对应关系。

优选的，在所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系之后，所述方法还包括：将所述语音片段转换成文字片段，以确定出所述文字片段和用户的对应关系。

优选的，在所述确定出所述文字片段和用户的对应关系之后，所述方法还包括：按照所述语音片段的开始时间排列所述文字片段。

优选的，在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息，具体为：在所述第一语音的持续过程中，使用全景图像采集单元在所述第一语音的出现方向持续采集所述第一体征信息；在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：在所述第二语音的持续过程中，使用全景图像采集单元在所述第二语音的出现方向持续采集所述第二体征信息。

另一方面，本发明通过本申请的另一个实施例提供：

一种电子设备，所述电子设备包括语音采集单元和图像采集单元，所述电子设备包括：所述语音采集单元，一般采用两个以上声音传感器的阵列式麦克风，可以根据声音的大小相位来判定方向或方位，用于当有第一语音出现时，检测所述第一语音的出现方向；所述图像采集单元，用于在所述第一语音的持续过程中，在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息；所述语音采集单元，还用于当有不同于第一语音的第二语音出现时，检测所述第二语音的出现方向；所述图像采集单元，还用于在所述第二语音的持续过程中，在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息；处理单元，用于在采集语音结束之后，获得语音文件；所述处理单元，还用于按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段；

匹配单元，用于将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系。

优选的，所述语音采集单元，具体用于当有不同于第一语音的第二语音出现时，检测所述第二语音的出现方向；所述处理单元，还用于控制所述图像采集单元进行转动，以使所述图像采集单元能够采集到所述第二语音的出现方向的图像，在所述第一语音的持续过程中，持续采集包含所述第二用户的图像；所述电子设备还包括：分析单元，用于分析所述图像，以获得所述第二体征信息。

优选的，所述匹配单元，具体包括：获得单元，用于获得采集所述第一体征信息时所用的第一时间段，以及获得采集所述第二体征信息时所用的第二时间段；其中，所述第一时间段的开始时间是所述图像采集单元在所述第一语音的出现方向开始采集的时间，所述第一时间段的结束时间是所述图像采集单元转动离开所述第一语音的出现方向的时间；匹配子单元，用于将所述第一语音片段的出现及结束时间、所述第二语音片段的出现及结束时间，与所述第一时间段、所述第二时间段进行匹配，以确定出所述第一语音片段对应的用户和所述第二语音片段对应的用户。

优选的，所述获得单元，具体用于：记录所述图像采集单元从所述第一用户转动到所述第二用户耗费的转动时间；记录所述图像采集单元开始采集所述第二用户的体征信息直到所述图像采集单元转动离开所述第二用户耗费的采集时间；将所述转动时间和所述采集时间的合并为所述第二时间段。

上述技术方案中的一个或多个技术方案，具有如下技术效果或优点：

在本发明技术方案中，描述了如何确定语音和用户的对应关系。具体的步骤如下：当有第一语音出现时，通过语音采集单元检测第一语音的出现方向，然后在第一语音的持续过程中，控制图像采集单元在第一语音的出现方向持续采集发出第一语音的第一用户的第一体征信息；当有不同于第一语音的第二语音出现时，通过语音采集单元检测第二语音的出现方向，然后在第二语音的持续过程中，控制图像采集单元在第二语音的出现方向持续采集发出第二语音的第二用户的第二体征信息；在采集语音结束之后，获得语音文件；按照第一语音的出现及结束时间，第二语音的出现及结束时间分割语音文件，获得第一语音片段及第二语音片段；将语音片段和用户的体征信息进行匹配，以确定出语音片段和用户的对应关系。因此，在本发明技术方案中，通过语音采集单元检测语音的方向变化，控制图像采集单元采集发出语音的体征信息，然后基于时间来分割语音获得语音片段，以及获得用户的体征信息，并且将语音片段和用户的体征信息进行匹配，进而解决了现有技术中无法确定语音和用户的对应关系的技术问题，能够确定出语音片段和用户的对应关系。

附图说明

图1为本申请实施例中信息处理方法的过程图；

图2为本申请实施例中三个用户召开圆桌会议的示意图；

图3为本申请实施例中语音片段的示意图；

图4为本申请实施例中电子设备的示意图。

具体实施方式

为了解决现有技术中存在的无法确定语音和用户的对应关系的技术问题，本发明实施例提出了一种信息处理方法以及一种电子设备，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例和实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一：

在本申请实施例中，提供了一种信息处理方法。该方法主要应用于电子设备，本发明涉及的电子设备可以有多种，如电脑（包含笔记本电脑、台式电脑、一体机等等），移动终端（如手机终端、PAD等等），电视等等电子设备。另外，本发明的电子设备包括了语音采集单元，和图像采集单元。语音采集单元包括但不限于是麦克风，图像采集单元包括但不限于是摄像头。为了便于理解，在下面的实施例中，语音采集单元则以麦克风为例，而图像采集单元以摄像头为例。

下面请参看图1，本发明的信息处理方法的具体实施过程如下：

S101，当有第一语音出现时，通过语音采集单元检测第一语音的出现方向，然后在第一语音的持续过程中，控制图像采集单元在第一语音的出现方向持续采集发出第一语音的第一用户的第一体征信息。

在具体的实施过程中，第一语音由第一用户发出，可以是第一用户发表的演讲，当然也可以是会议上第一用户的发言内容等。当第一用户发出第一语音时，麦克风能够通过接收第一语音，能够检测到第一语音的出现方向（即第一用户的方向）。此时，图像采集单元则会相应转动到第一用户的方向，以便于采集第一体征信息，第一体征信息是第一用户自身特有的体征信息，区别于其他用户。第一体征信息可以是多种信息，例如人脸信息，头像信息、四肢信息，服饰信息等等。为了便于区别，会优先采集人脸信息。当然，采集其他用户的体征信息时，一般也会优先采集人脸信息。而在第一语音的持续过程中，即第一用户在发表演讲的过程中，摄像头会一直持续采集第一体征信息，直到第一用户发表演讲完毕，摄像头则会停止针对第一体征信息的采集，并采集其他用户的体征信息。

进一步的，摄像头分为多种类型，例如普通摄像头，360°全景摄像头等。在采集第一体征信息时，可以使用普通摄像头采集，也可以使用全景摄像头采集。此时，S101中采集第一体征信息的具体实施过程如下：在第一语音的持续过程中，使用全景图像采集单元（即：全景摄像头）在第一语音的出现方向持续采集第一体征信息。

无论使用普通摄像头采集第一体征信息，或者是使用全景摄像头采集第一体征信息，在采集的具体过程中，首先通过麦克风检测第一语音的出现方向。然后控制摄像头转动（若全景摄像头则无需旋转），使其能够采集到第一语音的出现方向的图像。而第一语音的出现方向正是第一用户所在的方向。因此，摄像头会采集到包含了第一用户的图像。随后，电子设备会分析该图像，进而获得第一体征信息。而在第一语音的持续过程中，摄像头会持续采集包含第一用户的图像并传送给处理器进行分析，以获得第一体征信息。

S102，当有不同于第一语音的第二语音出现时，通过语音采集单元检测第二语音的出现方向，然后在第二语音的持续过程中，控制图像采集单元在第二语音的出现方向持续采集发出第二语音的第二用户的第二体征信息。

在具体的实施过程中，第一语音和第二语言由不同的用户发出，例如第一用户在发表完演讲之后，第二用户开始发表演讲，此时第二用户发表的演讲内容就是第二语音。当第二语音出现时，麦克风通过接收第二语音，能够检测到第二语音的出现方向（即第二用户的方向）。此时，摄像头会相应转动到第二用户的方向，以便于采集第二体征信息，第二体征信息是第二用户特有的体征信息，用以区别其他用户。在采集第二体征信息时，也会优先采集人脸信息。而在第二语音的持续过程中，即第二用户在发表演讲的过程中，摄像头会一直持续采集第二体征信息，直到第二用户发表演讲完毕，摄像头则会停止针对第二体征信息的采集，并采集其他用户的体征信息。

进一步的，在采集第二体征信息时，本发明可以使用普通摄像头采集，也可以使用全景摄像头采集。此时，S102中采集第二体征信息的具体实施过程如下：在第二语音的持续过程中，使用全景图像采集单元在第二语音的出现方向持续采集第二体征信息。

无论使用普通摄像头采集第二体征信息，或者使用全景摄像头采集第二体征信息，在采集的具体过程中，会具有下面的实施过程：当有不同于第一语音的第二语音出现时，通过语音采集单元检测第二语音的出现方向。转动图像采集单元，使其能够采集到第二语音的出现方向的图像，在第一语音的持续过程中，持续采集包含第二用户的图像。分析图像，以获得第二体征信息。

下面进行具体说明，首先通过麦克风检测第二语音的出现方向。然后转动摄像头，使其能够采集到第二语音的出现方向的图像。而第二语音的出现方向正是第二用户所在的方向。因此，摄像头会采集到包含了第二用户的图像。随后，电子设备会分析该图像，进而获得第二体征信息。而在第二语音的持续过程中，摄像头会持续采集包含第二用户的图像并传送给处理器进行分析，以获得第二体征信息。

S103，在采集语音结束之后，获得语音文件。

其中，在第一用户和第二用户发表演讲的时候，麦克风会一直持续采集语音，在采集语音结束之后，则会获得语音文件。此时的语音文件包含了第一用户和第二用户发表演讲的内容。当然，此处获得的语音文件仅仅是整场演讲的录音而已，虽然根据声纹能够大概区分出有几个用户发表演讲，但是用户的具体生理特征并不清楚。为了确定语音文件和用户的对应关系，在处理语音文件的过程中，则会执行下面的步骤。

S104，按照第一语音的出现及结束时间，第二语音的出现及结束时间分割语音文件，获得第一语音片段及第二语音片段。

其中，在麦克风采集语音的同时，电子设备会记录每段语音的出现时间和结束时间，并根据这两个时间点来对语音文件进行分段。在确定每段语音的出现时间和结束时间的过程中，是依赖于语音的方向变化来确定的，例如第一语音和第二语音的出现方向不相同。以第二语言为例：在第一语音结束，第二语音开始时，麦克风会检测到第二语音是在不同方向发出的语音（即：和第一语音的出现方向不同），进而会将这一消息反馈给处理器，处理器则会记录第二语音的开始时间。而在记录结束时间时，则是麦克风在检测不到第二语音之后反馈给处理器，进而获得第二语音的结束时间。

下面使用具体的例子进行说明，假设第一用户发表演讲的时间是12:00分，演讲3分钟，结束演讲的时间是12:03分。那么第一语音的出现时间是12:00分，第一语音的结束时间是12:03分。而在第一用户发表演讲完毕之后，第二用户开始发表演讲，演讲5分钟。那么第二语言的出现时间是：12:03，第二语音的结束时间时：12:08。按照这两个时间段分割语音文件。则会将语音文件分割为第一语音文件和第二语音文件。

S105，将语音片段和用户的体征信息进行匹配，以确定出语音片段和用户的对应关系。

在具体的实施过程中，需要获得采集第一体征信息时所用的第一时间段，以及获得采集第二体征信息时所用的第二时间段。其中，第一时间段的开始时间是图像采集单元在第一语音的出现方向开始采集的时间，第一时间段的结束时间是图像采集单元转动离开第一语音的出现方向的时间。例如，在第一用户开始演讲时，摄像头便开始采集第一体征信息，摄像头开始采集第一体征信息的这个时间，作为第一时间段的开始时间。而在第一用户演讲完毕之后，第二用户会开始发表演讲。因此，摄像头会转动离开第一用户，离开第一用户的时间作为第一时间段的结束时间。而在确定第二时间段的过程中，有如下步骤：首先，记录图像采集单元从第一用户转动到第二用户耗费的转动时间。然后，记录图像采集单元开始采集第二用户的体征信息直到图像采集单元转动离开第二用户耗费的采集时间。最后，将转动时间和采集时间的合并为第二时间段。在具体实施过程中，由于第一用户和第二用户处于不同的方向，因此，摄像头在离开第一用户之后，会需要转动一定时间才能够到达第二用户，而转动耗费的时间也会算作第二时间段的一部分。因此，第二时间段的开始时间，实际上是摄像头离开第一用户的时间。而当摄像头转动离开第二用户时，离开第二用户的时间则作为第二时间段的结束时间。若摄像头是瞬时转动的，即离开第一用户之后瞬时达到了第二用户，那么在计算第二时间段时，则不考虑摄像头转动的耗时。

下面通过具体的例子进行说明，承接上面的例子，假设第一用户发表演讲的时间是12:00分，演讲3分钟，结束演讲的时间是12:03分。而摄像头的镜头此时刚好面向第一用户的方向，因此，在第一用户开始发表演讲时，摄像头便会开始采集第一体征信息，并记录开始采集的时间。由于第一用户发表演讲的同时，摄像头便开始采集第一体征信息，因此，摄像头开始采集第一体征信息的开始时间是12:00分。在另外的情况中，例如，第一用户开始演讲的时候，摄像头处于其他用户处，那么则会从其他用户处转动到第一用户处，然后再采集第一体征信息。因而在计算第一时间段时，会将摄像头的转动时间考虑其中。即：此时的第一时间段的开始时间是摄像头离开其他用户的时间。当第一用户演讲完毕，第二用户开始发表演讲，此时摄像头会转动离开第一用户，并将摄像头转动离开第一用户的时间作为第一时间段的结束时间。而摄像头转动离开第一用户需要的转动时间较短，可以忽略不计，因此，可以将摄像头转动离开第一用户的时间模糊为第一用户演讲完毕的时间，即将第一用户演讲完毕的时间作为第一时间段的结束时间。此时，第一时间段是【12:00，12:03】。当第一用户演讲完毕之后，第二用户开始发表演讲，假设第二用户发表演讲的时间是5分钟。在第二用户开始发表演讲的同时，摄像头则会离开第一用户并转动到第二用户，此时在摄像头转动时，第二用户实际上已经在发表演讲。因此，为了获得准确的第二时间段，会将摄像头的耗时考虑其中。因此，第二时间段的开始时间则是摄像头离开第一用户的时间，即12:03。而第二时间段的结束时间，则是摄像头转动离开第二用户的时间，和确定第一时间段的结束时间类似，此时的第二时间段的结束时间是：12:08。因此，第二时间段是【12:03，12:08】。

当确定出第一时间段和第二时间段之后，则会执行下面的步骤：将第一语音片段的出现及结束时间、第二语音片段的出现及结束时间，与第一时间段、第二时间段进行匹配，以确定出第一语音片段对应的用户和第二语音片段对应的用户。在具体的实施过程中，承接上面的例子，第一语音的出现时间为：12:00，第一语音的结束时间为：12:03，那么则会以第一语音片段的出现时间和结束时间确定出一个时间段。第二语音的出现时间为：12:03，第二语言的结束时间为12:08，那么则会以第二语音片段的出现时间和结束时间确定出一个时间段。第一时间段是【12:00，12:03】。第二时间段是【12:03，12:08】。在相互匹配之后，则会确定出：第一时间段和“以第一语音片段的出现时间和结束时间确定出的时间段”匹配，而由于第一时间段采集的是第一体征信息，因此，可以进一步确定出第一语音片段对应第一用户。第二时间段的匹配过程类似，不再赘述。因此，上面的实施过程能够得出如下结果：第一语音片段对应第一用户，第二语音片段对应第二用户的结果。

在实际情况中，还会出现下面的情况，第一用户在发表演讲完毕之后，相隔一段时间之后（例如30分钟），第二用户再发表演讲。例如，第一用户开始发表演讲的时间是12:00，演讲3分钟，结束时间时12:03。半个小时之后第二用户开始演讲，演讲5分钟，此时的演讲开始时间是12:33，结束时间时12:38。而摄像头采集第一体征信息之后，由于第一用户的演讲和第二用户的演讲间隔了半个小时，在这半小时内摄像头还停留在第一用户处，因此，第一时间段则是【12:00，12:33】，当第二用户发表演讲时，摄像头则会从第一用户处转向第二用户，因此，第二时间段是【12:33，12:38】。当进行匹配时，第一语音的开始时间和结束时间都包含在第一时间段内，因此则会将第一时间段和“以第一语音的开始时间和结束时间确定出的时间段”匹配，进而得出如下结果：第一时间段对应第一用户，第二时间段对应第二用户。

在上述实施例中，描述了如何确定语音文件中的语音片段和用户的对应关系。在下面的实施例中，将具体介绍文字片段和用户的对应过程。在具体的实施过程中，可以有两种方式：第一种方式，先将语音文件转换成文字文件，再将文字文件分割，并确定文字片段与用户的对应关系；第二种方式，先确定语音片段和用户的对应关系，再将语音片段转换成文字片段，进而获得文字片段和用户的对应关系。

下面进行具体的介绍。

第一种方式：首先，在获得语音文件之后，将语音文件转换成文字文件。然后，按照第一语音的出现及结束时间，第二语音的出现及结束时间分割文字文件，获得第一文字片段和第二文字片段。最后，将文字片段和用户的体征信息进行匹配，以确定出文字片段和用户的对应关系。在匹配过程中，也需要先获得第一时间段和第二时间段，此时第一时间段和第二时间段的确定方式和上面的实施例类似，在此本发明不再赘述。然后，将第一文字片段的出现及结束时间、第二文字片段的出现及结束时间，与第一时间段、第二时间段进行匹配，以确定出第一文字片段对应的用户和第二文字片段对应的用户。而具体的匹配过程也和上面的实施例类似，在此本发明亦不再赘述。

第二种方式：在将语音片段和用户的体征信息进行匹配，以确定出语音片段和用户的对应关系之后，将语音片段转换成文字片段，以确定出文字片段和用户的对应关系。在此过程中，已经获得了语音片段和用户的对应关系，因此，只需将语音片段转换成文字，便能够进一步获得文字片段和用户的对应关系。

上面两种方式都描述了如何确定文字片段和用户的对应关系，在确定出文字片段和用户的对应关系之后，还可以按照语音片段的开始时间排列文字片段。

在上面的实施例中，为了便于说明和解释本发明，以第一用户和第二用户为例详细描述了“如何确定语音片段和用户的对应关系”以及“如何确定文字片段和用户的对应关系”。而在具体的情况中，还会出现多个用户发表演讲或者参加会议的情况，当具有多个用户出现时，具体的实施过程也和上面的实施过程类似，在此本发明不再赘述。

下面使用具体的例子对上面的过程进行说明。

在实际的例子中，语音采集单元以麦克风为例，图像采集单元以摄像头为例，此时的摄像头是普通摄像头，体征信息使用人脸信息为例。

下面请参看图2，图2表示三个用户在召开圆桌会议。这三个用户处于不同的方向，用户A处于A方向，用户B处于B方向。用户C处于C方向。

会议开始时间是12:00分，此时用户A开始发言。麦克风通过检测语音的方向，获知用户A发言，则会反馈给处理器。处理器控制摄像头转动到方向A，并控制摄像头采集用户A的人脸信息并进行识别。而在用户A发言的过程中，摄像头会持续采集用户A的人脸信息。假设用户A发言3分钟，之后用户B开始发言，当用户A发言完毕之后，电子设备可以获知用户A发言的开始时间是12:00分，结束时间是12:03分。另外，电子设备能够确定出摄像头采集用户A的人脸信息的时间段是【12:00，12:03】。

用户A发言完毕，用户B开始发言（此时时间是12:03分）。

当麦克风检测到方向B具有语音时，反馈给处理器，处理器控制摄像头从方向A转动到方向B。由于摄像头从方向A开始转动时，用户B已经开始发言。因此，在计算采集用户B的人脸信息的时间段时，则会从摄像头转动离开用户A的时间算起。用户B当摄像头转动到方向B时，处理器则会控制摄像头采集用户B的人脸信息。当采集到用户B的人脸信息之后，处理器会对其进行人脸识别。而在用户B发言的过程中，摄像头会持续采集用户B的人脸信息。假设用户B发言5分钟，之后用户C开始发言。那么在用户B发言完毕之后，电子设备可以获知用户B发言的开始时间是12:03分，结束时间是12:08分。另外，电子设备能够确定出摄像头采集用户B的人脸信息的时间段是【12:03，12:08】。

用户B发言完毕之后，用户C开始发言（此时时间是12:08）。

当麦克风检测到方向C有语音，处理器会控制摄像头从方向B转到方向C，并控制摄像头采集用户C的人脸信息并进行识别。而在用户C发言的过程中，摄像头会持续采集用户C的人脸信息。和用户B类似，在计算采集用户C的人脸信息的时间段时，则会从摄像头转动离开用户B的时间算起。假设用户C发言5分钟，在用户C发言完毕之后，电子设备能够获知用户C发言的开始时间是12:08分，结束时间是12:13分。另外，电子设备能够确定出摄像头采集用户C的人脸信息的时间段是【12:08，12:13】。

在采集语音结束之后，获得语音文件。然后按照用户A发言的开始时间和结束时间，用户B发言的开始时间和结束时间，用户C发言的开始时间和结束时间，分割语音文件，请参看图3，会将语音文件分割成3个语音片段。

这3个语音片段的时间分别是：

语音片段1：【12:00，12:03】

语音片段2：【12:03，12:08】

语音片段3：【12:08，12:13】

而获得的时间段有三段，分别是：

时间片段1：【12:00，12:03】

时间片段2：【12:03，12:08】

时间片段3：【12:08，12:13】

在匹配的过程中，会将由各个语音片段携带的时间参数，与时间片段相匹配，进而确定出如下结果：语音片段1对应用户A；语音片段2对应用户B；语音片段C对应用户C。

然后再将语音片段翻译成文字片段，进而获得文字片段和用户的对应关系。在另外的实施例中，也可以想将语音文件翻译成文字文件，然后对文字文件进行分段，再确定出文字片段和用户的对应关系。

当同一方向有两个人分时说话时，可以采用图像分析说话者嘴部运动来判断说话者，自然也可以将该时间段的语言片段分配给说话者。

基于同一发明构思，下面的实施例介绍一种电子设备。

实施例二：

在本发明实施例中，描述了一种电子设备，本发明涉及的电子设备可以有多种，如电脑（包含笔记本电脑、台式电脑、一体机等等），移动终端（如手机终端、PAD等等），电视等等电子设备。另外，本发明的电子设备包括了语音采集单元，和图像采集单元。语音采集单元包括但不限于是麦克风，图像采集单元包括但不限于是摄像头。

下面请参看图4，描述了一种电子设备。

下面介绍电子设备中的各个单元的功能。

语音采集单元401，用于当有第一语音出现时，检测第一语音的出现方向；图像采集单元402，用于在第一语音的持续过程中，在第一语音的出现方向持续采集发出第一语音的第一用户的第一体征信息；

语音采集单元401，还用于当有不同于第一语音的第二语音出现时，检测第二语音的出现方向；图像采集单元402，还用于在第二语音的持续过程中，在第二语音的出现方向持续采集发出第二语音的第二用户的第二体征信息；

处理单元403，用于在采集语音结束之后，获得语音文件；

处理单元403，还用于按照第一语音的出现及结束时间，第二语音的出现及结束时间分割语音文件，获得第一语音片段及第二语音片段；

匹配单元404，用于将语音片段和用户的体征信息进行匹配，以确定出语音片段和用户的对应关系。

进一步的，语音采集单元401，具体用于当有不同于第一语音的第二语音出现时，检测第二语音的出现方向；

处理单元403，还用于控制图像采集单元402进行转动，以使图像采集单元402能够采集到第二语音的出现方向的图像，在第一语音的持续过程中，持续采集包含第二用户的图像；

电子设备还包括：分析单元，用于分析图像，以获得第二体征信息。

进一步的，获得单元，用于获得采集第一体征信息时所用的第一时间段，以及获得采集第二体征信息时所用的第二时间段；其中，第一时间段的开始时间是图像采集单元402在第一语音的出现方向开始采集的时间，第一时间段的结束时间是图像采集单元402转动离开第一语音的出现方向的时间；

匹配子单元，用于将第一语音片段的出现及结束时间、第二语音片段的出现及结束时间，与第一时间段、第二时间段进行匹配，以确定出第一语音片段对应的用户和第二语音片段对应的用户。

进一步的，获得单元，具体用于：记录图像采集单元402从第一用户转动到第二用户耗费的转动时间；记录图像采集单元402开始采集第二用户的体征信息直到图像采集单元402转动离开第二用户耗费的采集时间；将转动时间和采集时间的合并为第二时间段。

通过本发明的一个或多个实施例，可以实现如下技术效果：

在本发明实施例中，描述了如何确定语音和用户的对应关系。具体的步骤如下：当有第一语音出现时，通过语音采集单元检测第一语音的出现方向，然后在第一语音的持续过程中，控制图像采集单元在第一语音的出现方向持续采集发出第一语音的第一用户的第一体征信息；当有不同于第一语音的第二语音出现时，通过语音采集单元检测第二语音的出现方向，然后在第二语音的持续过程中，控制图像采集单元在第二语音的出现方向持续采集发出第二语音的第二用户的第二体征信息；在采集语音结束之后，获得语音文件；按照第一语音的出现及结束时间，第二语音的出现及结束时间分割语音文件，获得第一语音片段及第二语音片段；将语音片段和用户的体征信息进行匹配，以确定出语音片段和用户的对应关系。因此，在本发明实施例中，通过语音采集单元检测语音的方向变化，控制图像采集单元采集发出语音的体征信息，然后基于时间来分割语音获得语音片段，以及获得用户的体征信息，并且将语音片段和用户的体征信息进行匹配，进而解决了现有技术中无法确定语音和用户的对应关系的技术问题，能够确定出语音片段和用户的对应关系。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的单元。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令单元的制造品，该指令单元实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

具体来讲，本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时，包括如下步骤：当有第一语音出现时，通过所述语音采集单元检测所述第一语音的出现方向，然后在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息；当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息；在采集语音结束之后，获得语音文件；按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段；将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系。

进一步的，所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第一语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向；转动所述图像采集单元，使所述图像采集单元能够采集到所述第二语音的出现方向的图像，在所述第一语音的持续过程中，持续采集包含所述第二用户的图像；分析所述图像，以获得所述第二体征信息。

进一步的，所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体包括：获得采集所述第一体征信息时所用的第一时间段，以及获得采集所述第二体征信息时所用的第二时间段；其中，所述第一时间段的开始时间是所述图像采集单元在所述第一语音的出现方向开始采集的时间，所述第一时间段的结束时间是所述图像采集单元转动离开所述第一语音的出现方向的时间；将所述第一语音片段的出现及结束时间、所述第二语音片段的出现及结束时间，与所述第一时间段、所述第二时间段进行匹配，以确定出所述第一语音片段对应的用户和所述第二语音片段对应的用户。

进一步的，记录所述图像采集单元从所述第一用户转动到所述第二用户耗费的转动时间；记录所述图像采集单元开始采集所述第二用户的体征信息直到所述图像采集单元转动离开所述第二用户耗费的采集时间；将所述转动时间和所述采集时间的合并为所述第二时间段。

进一步的，在所述获得语音文件之后，所述方法还包括：将所述语音文件转换成文字文件；所述按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段，具体为：按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述文字文件，获得第一文字片段和第二文字片段；所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体为：将文字片段和用户的体征信息进行匹配，以确定出所述文字片段和用户的对应关系。

进一步的，在所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系之后，所述方法还包括：将所述语音片段转换成文字片段，以确定出所述文字片段和用户的对应关系。

进一步的，在所述确定出所述文字片段和用户的对应关系之后，所述方法还包括：按照所述语音片段的开始时间排列所述文字片段。

进一步的，在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息，具体为：在所述第一语音的持续过程中，使用全景图像采集单元在所述第一语音的出现方向持续采集所述第一体征信息；在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：在所述第二语音的持续过程中，使用全景图像采集单元在所述第二语音的出现方向持续采集所述第二体征信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，所述方法应用于电子设备，所述电子设备包括语音采集单元和图像采集单元，所述方法包括：

当有第一语音出现时，通过所述语音采集单元检测所述第一语音的出现方向，然后在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息；

当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息；

在采集语音结束之后，获得语音文件；

按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段；

将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系。

2.如权利要求1所述的方法，其特征在于，所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向，然后在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：

所述当有不同于第一语音的第二语音出现时，通过所述语音采集单元检测所述第二语音的出现方向；

转动所述图像采集单元，使所述图像采集单元能够采集到所述第二语音的出现方向的图像，在所述第二语音的持续过程中，持续采集包含所述第二用户的图像；

分析所述图像，以获得所述第二体征信息。

3.如权利要求1所述的方法，其特征在于，所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体包括：

获得采集所述第一体征信息时所用的第一时间段，以及获得采集所述第二体征信息时所用的第二时间段；其中，所述第一时间段的开始时间是所述图像采集单元在所述第一语音的出现方向开始采集的时间，所述第一时间段的结束时间是所述图像采集单元转动离开所述第一语音的出现方向的时间；

将所述第一语音片段的出现及结束时间、所述第二语音片段的出现及结束时间，与所述第一时间段、所述第二时间段进行匹配，以确定出所述第一语音片段对应的用户和所述第二语音片段对应的用户。

4.如权利要求3所述的方法，其特征在于，所述获得采集所述第二体征信息时所用的第二时间段，具体为：

记录所述图像采集单元从所述第一用户转动到所述第二用户耗费的转动时间；

记录所述图像采集单元开始采集所述第二用户的体征信息直到所述图像采集单元转动离开所述第二用户耗费的采集时间；

将所述转动时间和所述采集时间的合并为所述第二时间段。

5.如权利要求1所述的方法，其特征在于，

在所述获得语音文件之后，所述方法还包括：

将所述语音文件转换成文字文件；

所述按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段，具体为：

按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述文字文件，获得第一文字片段和第二文字片段；

所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系，具体为：

将文字片段和用户的体征信息进行匹配，以确定出所述文字片段和用户的对应关系。

6.如权利要求1所述的方法，其特征在于，在所述将语音片段和用户的体征信息进行匹配，以确定出所述语音片段和用户的对应关系之后，所述方法还包括：

将所述语音片段转换成文字片段，以确定出所述文字片段和用户的对应关系。

7.如权利要求5或6所述的方法，其特征在于，在所述确定出所述文字片段和用户的对应关系之后，所述方法还包括：

按照所述语音片段的开始时间排列所述文字片段。

8.如权利要求1所述的方法，其特征在于，

在所述第一语音的持续过程中，控制所述图像采集单元在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息，具体为：

在所述第一语音的持续过程中，使用全景图像采集单元在所述第一语音的出现方向持续采集所述第一体征信息；

在所述第二语音的持续过程中，控制所述图像采集单元在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息，具体为：

在所述第二语音的持续过程中，使用全景图像采集单元在所述第二语音的出现方向持续采集所述第二体征信息。

9.一种电子设备，所述电子设备包括语音采集单元和图像采集单元，所述电子设备包括：

所述语音采集单元，用于当有第一语音出现时，检测所述第一语音的出现方向；所述图像采集单元，用于在所述第一语音的持续过程中，在所述第一语音的出现方向持续采集发出所述第一语音的第一用户的第一体征信息；

所述语音采集单元，还用于当有不同于第一语音的第二语音出现时，检测所述第二语音的出现方向；所述图像采集单元，还用于在所述第二语音的持续过程中，在所述第二语音的出现方向持续采集发出所述第二语音的第二用户的第二体征信息；

处理单元，用于在采集语音结束之后，获得语音文件；

所述处理单元，还用于按照所述第一语音的出现及结束时间，所述第二语音的出现及结束时间分割所述语音文件，获得第一语音片段及第二语音片段；

10.如权利要求9所述的电子设备，其特征在于，

所述语音采集单元，具体用于当有不同于第一语音的第二语音出现时，检测所述第二语音的出现方向；

所述处理单元，还用于控制所述图像采集单元进行转动，以使所述图像采集单元能够采集到所述第二语音的出现方向的图像，在所述第二语音的持续过程中，持续采集包含所述第二用户的图像；

所述电子设备还包括：分析单元，用于分析所述图像，以获得所述第二体征信息。

11.如权利要求9所述的电子设备，其特征在于，所述匹配单元，具体包括：

获得单元，用于获得采集所述第一体征信息时所用的第一时间段，以及获得采集所述第二体征信息时所用的第二时间段；其中，所述第一时间段的开始时间是所述图像采集单元在所述第一语音的出现方向开始采集的时间，所述第一时间段的结束时间是所述图像采集单元转动离开所述第一语音的出现方向的时间；

匹配子单元，用于将所述第一语音片段的出现及结束时间、所述第二语音片段的出现及结束时间，与所述第一时间段、所述第二时间段进行匹配，以确定出所述第一语音片段对应的用户和所述第二语音片段对应的用户。

12.如权利要求11所述的电子设备，其特征在于，所述获得单元，具体用于：记录所述图像采集单元从所述第一用户转动到所述第二用户耗费的转动时间；记录所述图像采集单元开始采集所述第二用户的体征信息直到所述图像采集单元转动离开所述第二用户耗费的采集时间；将所述转动时间和所述采集时间的合并为所述第二时间段。