CN101454827A

CN101454827A - 语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统

Info

Publication number: CN101454827A
Application number: CNA2007800192601A
Authority: CN
Inventors: 畑纪行
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-05-25
Filing date: 2007-05-21
Publication date: 2009-06-10
Anticipated expiration: 2027-05-21
Also published as: JP2007318438A; EP2026329A4; CN101454827B; WO2007139040A1; EP2026329A1; US20090198495A1

Abstract

一种语音状况数据生成装置，用于在用户使用从声源采集来并按时间记录下来的语音数据时很方便地向用户提供数据。控制单元(1)的方向/说话者识别部分(3)观测从语音通信数据获取的方向数据中的变化，并且如果表示单方向的方向数据或表示多个方向的方向数据在预定时期内不变化，则在说话者识别数据中设置单方向数据和与多个方向的组合相关的组合方向数据。如果预定时期内发生了任何变化，方向/说话者识别部分(3)则从说话者语音DB(53)中读取语音特征值数据Sc，通过把语音特征值数据Sc与由语音数据分析部分(2)所分析出来的语音特征值进行比较来识别出说话者，并且在识别出说话者时在说话者识别数据中设置说话者姓名数据，在未识别出说话者时在说话者识别数据中设置方向未检出数据。语音状况数据生成部分(4)根据说话者识别数据随着时间的变化来生成语音状况数据。

Description

语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统

技术领域

本发明涉及语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统，它们均被用于记录和利用会议语音或其它语音。

背景技术

传统上，已经设计出了用于在通过网络连接的多个地点之间举行语音会议的各种语音会议系统(例如参见日本专利申请公开No.2005-80110以及日本专利公开No.2816163)。

这种语音会议系统包括布置在会议举行地点(会议室)处的语音会议装置，并且每个语音会议装置周围均有一个或多个与会者。每个语音会议装置均对放置了该语音会议装置的会议室内的与会者的语音进行拾取，将所拾取的语音转换成语音数据，并且经由网络将语音数据发送至各个对方语音会议装置。并且，每个语音会议装置均从各个对方语音会议装置接收语音数据，将所接收到的语音数据转换成语音声音，并且发出这些语音声音。

日本专利申请公开No.2005-80110公开了一种包括RFID标签和麦克风的语音会议系统，其中每个麦克风均被布置在相应的一个与会者的附近。在任意的一些麦克风拾取到声音时，语音会议装置将所拾取的语音信号与通过相应的RFID标签所获取的与会者信息关联起来，并且将语音信号和与之相关联的会议信息一起进行发送。

该语音会议系统还包括声音记录服务器，并且与会者信息与存储在该服务器中的所拾取的语音信号相关联。

日本专利公开No.2816163公开了一种说话者验证方法，其中语音会议装置执行用于在预定时期单位的基础上对输入语音信号进行划分以及用于在每个语音片段的特征值的基础上检查说话者的处理。

利用日本专利申请公开No.2005-80110所公开的语音会议系统，当某个与会者在会议结束之后为了准备会议记录而将个人计算机等连接至声音记录服务器并且对所记录的语音数据进行再现时，显示与所拾取的语音信号相关联的与会者信息。

但是，利用日本专利申请公开No.2005-80110所公开的语音会议系统，语音数据只是简单地以时序的方式存储在声音记录服务器中，因此只有在选择出相应的语音数据之后才能确定各个与会者。因此，提取特定与会者的语音以及掌握所记录的会议的整个流程(状况)并不容易。

并且，不能进行诸如根据从语音数据或会议信息获得的语音状况(会议状况)来将语音数据分成片段之类的编辑，并且不能存储语音状况。

因此，在会议结束之后，用户很难使用存储在声音记录服务器中的语音数据。

利用日本专利公开No.2816163所公开的说话者验证方法，必须在分析说话者语音的同时执行朝向目的地的发送，因此处理负担很重。如果为了减小负担而简化语音分析，则会降低说话者检测的精确度，从而使得获取精确的说话者信息变得困难。

本发明的一个目的是提供语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、语音数据再现装置以及语音通信系统，它们能够利用简单处理来检测与语音数据相关的说话者识别信息并且将其与语音数据进行相关联地存储，从而以对用户来说很方便的方式提供数据，该数据中以时序的方式记录了来自多个声源的语音数据，并且例如在多点语音会议结束之后，该数据被利用来准备会议记录。

发明内容

为了实现上述目的，根据本发明的第一方面，提供了一种语音状况数据生成装置，包括：数据获取装置，用于按时序获取语音数据和方向数据，该方向数据表示语音数据到来的方向；说话者语音特征数据库，存储了各个说话者的语音特征值；方向/说话者识别装置，用于在所获取的方向数据表示单方向并且在预定时期内保持不变时在说话者识别数据中设置作为单方向数据的方向数据，所述方向/说话者识别装置用于在所获取的方向数据表示多个方向的同一组合并且在预定时期内保持不变时在说话者识别数据中设置作为组合方向数据的方向数据，所述方向/说话者识别装置用于在该说话者识别数据既不是单方向数据也不是组合方向数据时，从语音数据中提取语音特征值，并且将所提取的语音特征值与说话者语音特征数据库中所存储的语音特征值进行比较从而执行说话者识别，并且，如果识别出说话者，所述方向/说话者识别装置则在该说话者识别数据中设置与所识别出来的说话者相对应的说话者姓名数据，如果未识别出说话者，所述方向/说话者识别装置则在该说话者识别数据中设置方向未检出数据；语音状况数据生成装置，用于通过分析与说话者识别数据相关的确定结果的时间分布来生成语音状况数据；以及存储装置，用于存储语音数据以及语音状况数据。

利用以上结构，首先根据方向数据来执行说话者识别，并且随后根据语音特征值来执行说话者识别。因此，与仅仅根据语音特征值来执行分析的情况相比较而言，可以更简单更精确地执行说话者识别。

具体地说，在语音会议记录准备的情况下，可以相对容易地获取说话者信息并将其与语音内容(语音数据)相关联地存储。当会议记录准备人员在会议结束后使用这些数据时，根据方向数据和说话者姓名数据来识别每个与会者，并且根据时间数据来识别说话时间。因此，可以很容易地识别说话的时序，而不用考虑说话者的数量为单个还是多个，也不用考虑一个或多个说话者是否移动。还可以很容易地识别整个会议(会议流程)期间的说话状况。

根据本发明的优选方面，所述方向/说话者识别装置在需要时根据由通信期间输入的说话者语音所获取的语音特征值来更新说话者语音特征数据库。

利用该结构，即使事先没有构建说话者语音特征数据库，也可通过更新和存储来构建说话者语音特征数据库。

根据本发明的第二方面，提供了一种语音状况可视化装置，包括：根据本发明的语音状况数据生成装置；以及显示装置，用于根据语音状况数据来基于说话者按时序图像化地表示语音数据的时间分布，并且用于显示图像化表示的时间分布。

利用该结构，显示装置基于方向和说话者来按时序图像化地显示基于时间来分段的语音数据，从而将语音状况可视化地提供给用户。具体地说，显示装置包括诸如液晶显示器之类的显示装置，并且包括控制单元和显示应用程序，它们被用来在显示装置上显示图像。在控制单元执行显示应用程序时，根据语音状况数据来按照时序图的形式显示分段语音数据，这些分段语音数据是通过基于方向和说话者来将整个语音数据进行分段所形成的。因此，可以更清楚地将语音状况提供给用户。

具体地说，在语音会议记录准备的情况下，显示了整个会议期间的与会者说话时序以及说话状况，例如以时序图的形式进行显示，从而将其可视化地提供给会议记录准备人员。因此，可以更清楚地将会议期间的说话状况等提供给会议记录准备人员。

根据本发明的第三方面，提供了一种语音状况数据编辑装置，包括：根据本发明的语音状况可视化装置；操作接受装置，用于接受用来编辑语音状况数据的操作输入；以及数据编辑装置，用于分析所述操作接受装置所接受的编辑的内容，并且对语音状况数据进行编辑。

利用该结构，通过数据编辑装置改变了各项语音状况数据。这时，操作接受装置对用户操作进行接受。在例如方向和说话者之间的关系已知的情况下，希望将方向名称改变为说话者姓名的用户执行操作以便通过操作接受装置来改变方向名称。操作接受装置接受用户操作并将其提供给数据编辑装置。数据编辑装置具有数据编辑应用程序，其致使控制单元执行数据编辑应用程序以便根据所指示的内容来将方向名称改变为说话者姓名，并且更新并记录语音状况数据。

具体地说，在语音会议记录准备的情况下，可执行例如用于将方向名称改变为与会者姓名的操作。于是，显示了与会者姓名，而不显示没有直接表明与会者的方向名称，从而可以准备更易于理解的会议记录。

根据本发明的第四方面，提供了一种语音数据再现装置，包括：根据本发明的语音状况数据编辑装置；以及再现装置，用于对所述操作接受装置从所有语音数据中选择出来的说话者语音数据进行选择和再现。

利用该结构，在通过对操作接受装置进行操作来选择分段语音数据时，再现装置对所选的分段语音数据进行再现。因此，可以在会议结束之后再次听到分段语音数据。在编辑时，通过聆听基于分段语音数据而再现的声音，可以在听觉上进行说话者识别。

具体地说，在语音会议记录准备的情况下，通过选择和再现分段语音数据，即使在会议结束之后，也可在听觉上识别出各个与会者并且可靠地确定哪个与会者在说话。

根据本发明的第五方面，提供了一种语音通信系统，包括用于经由网络来在彼此间交流语音数据的多个声音发射/拾取装置，其中：根据本发明的语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、以及语音数据再现装置中的任意一个均与该多个声音发射/拾取装置分开且与所述网络连接，并且所述数据获取装置获取在该多个声音发射/拾取装置之间交流的语音数据和方向数据。

利用该结构，经由网络将每个声音发射/拾取装置所拾取的语音数据输入至语音状况数据生成装置、语音状况可视化编辑装置以及语音数据再现装置(下文中将它们总称为语音数据处理装置)。由于声音发射/拾取装置以及语音数据处理装置被构建成彼此分开，所以要求大存储容量的语音数据处理装置没有必要安装在要求相对较小的尺寸的声音发射/拾取装置上。

根据本发明的第六方面，提供了一种语音通信系统，包括用于经由网络来在彼此间交流语音数据的多个声音发射/拾取装置，其中：根据本发明的语音状况数据生成装置、语音状况可视化装置、语音状况数据编辑装置、以及语音数据再现装置中的任意一个均被并入到该多个声音发射/拾取装置中的任意一个中，并且所述数据获取装置获取发送给包含语音数据处理装置的声音发射/拾取装置并被其接收的语音数据和方向数据。

利用该结构，语音数据处理装置被布置在声音发射/拾取装置中，从而可以在没有服务器的情况下记录语音通信。

根据本发明的优选方面，所述声音发射/拾取装置包括麦克风阵列，所述声音发射/拾取装置基于通过麦克风阵列的麦克风所拾取的语音信号来产生在不同方向上具有很强指向性的多个拾取声束信号，将该多个拾取声束信号进行相互比较以便选择具有最强信号强度的拾取声束信号，检测与所选择的拾取声束信号相对应的方向，并且将所选择的拾取声束信号以及所检测出来的方向分别作为语音数据和方向数据输出。

利用该结构，声音发射/拾取装置根据麦克风阵列的麦克风所拾取的语音信号来产生多个拾取声束信号，选择信号强度最大的拾取声束信号，并且检测与该拾取声束信号相对应的方向。随后，声音发射/拾取装置将所选拾取声束信号和所检出的方向分别输出为语音数据和方向数据。于是，与现有技术不同的是，并不需要用于识别与会者的RFID标签等，因此，可以更简单地构建语音通信系统。由于没有执行基于语音特征值的处理，所以用于识别的负担可降低，并且由于没有使用方向信息，所以识别精确度提高。

附图说明

图1是示意性地示出了根据本发明的一个实施例的会议记录准备系统的结构的示图；

图2是示出了图1中的语音会议装置的主要结构的框图；

图3是示出了图1中的声音记录服务器的主要结构的框图；

图4是示出了说话者语音DB的结构的示意图；

图5是示出了图1中的声音记录服务器中的声音记录处理流程的流程图；

图6A是示出了地点a处的说话者A在说话的情况的示图，而图6B是示出了地点a处的说话者A和E同时在说话的情况的示图；

图7是示出了地点a处的说话者E在移动的同时说话的情况的示图；

图8是记录在图1所示的声音记录服务器中的语音文件和语音状况数据的示意图；

图9是会议记录准备时的语音通信系统的结构示图；

图10是示出了图9中的声音记录服务器和个人计算机的主要结构的框图；

图11A是示出了在编辑应用程序的执行过程中显示在个人计算机的显示部分上的初始显示图像的示例的示图，而图11B是示出了编辑后的显示图像的示例的示图；

图12A和图12B是示出了在执行编辑应用程序的时候初始显示图像的其它示例的示图；

图13A是示出了包括方向数据在内的说话者语音DB的结构的示意图，而图13B是示出了使用图13A所示的说话者语音DB的情况下的编辑屏幕的示例的示图；

图14是示出了又作为声音记录服务器的个人计算机的主要结构的框图；以及

图15是示出了其中并入了声音记录服务器的语音会议装置的结构的框图。

具体实施方式

在下面的实施例中，将给出对会议记录准备系统的描述来作为一个具体的示例系统。

将参考附图来描述根据本发明实施例的会议记录准备系统。

图1是示意性地示出了本实施例的会议记录准备系统的结构的示图。图2是示出了图1中的语音会议装置111、112的主要结构的框图。图3是示出了图1中的声音记录服务器101的主要结构的框图。

本实施例的会议记录准备系统包括语音会议装置111、112以及声音记录服务器101，它们均连接至网络100。

语音会议装置111、112分别放置在彼此相距一定距离的地点a和地点b。在地点a放置了语音会议装置111，并且说话者A至E五人分别处于相对于语音会议装置111的方向Dir11、Dir12、Dir14、Dir15和Dir18上以便围绕语音会议装置111。在地点b放置了语音会议装置112，并且与会者F至I四人分别处于相对于语音会议装置112的方向Dir21、Dir24、Dir26和Dir28上以便围绕语音会议装置112。

如图2所示，语音会议装置111、112均包括控制单元11、输入/输出I/F12、发声指向性控制单元13、D/A转换器14、发声放大器15、扬声器SP1至SP16、麦克风MIC101至116或201至216、拾取声音放大器16、A/D转换器17、拾取声束产生部分18、拾取声束选择部分19、回声消除电路20、操作部分31以及显示部分32。控制单元11控制整个语音会议装置111或112。输入/输出I/F12连接至网络100，将经由网络100从对方装置输入的语音文件(该文件是网络格式数据)转换成通用的语音信号，并且经由回声消除电路20将语音信号输出至发声指向性控制单元13。这时，控制单元11获取附于输入语音信号上的方向数据，并且对发声指向性控制单元13执行发声控制。

根据发声控制的内容，发声指向性控制单元13产生用于扬声器SP1至SP16的发声语音信号。用于扬声器SP1至SP16的发声语音信号是通过对输入语音信号执行诸如延迟控制以及幅度控制之类的信号控制处理而产生的。D/A转换器14各自将数字形式的发声语音信号转换成模拟形式，并且发声放大器15对发声语音信号进行放大并且将放大后的信号提供给扬声器SP1至SP16。扬声器SP1至SP16对发声语音信号执行语音转换并发出声音。于是，通过网络连接的对方装置附近的与会者的语音被发射至语音会议装置附近的与会者。

麦克风MIC 101至116或201至216拾取包括语音会议装置周围的与会者的语音声在内的环绕声，并且将所拾取的声音转换成电信号以便产生拾取语音信号。拾取声音放大器16放大拾取语音信号，并且A/D转换器17以预定采样间隔依次将模拟形式的拾取语音信号转换成数字形式。

拾取声束产生部分18对麦克风MIC101至116或201至216所拾取的声音信号执行延迟处理等，以便产生拾取声束语音信号MB1至MB8，这些拾取声束语音信号均在预定方向上具有很强的指向性。拾取声束语音信号MB1至MB8被设置为在不同方向上具有很强的指向性。具体地说，图1中的语音会议装置111中的设置使得信号MB1、MB2、MB3、MB4、MB5、MB6、MB7和MB8分别在方向Dir11、Dir12、Dir13、Dir14、Dir15、Dir16、Dir17和Dir18上具有很强的指向性。另一方面，语音会议装置112中的设置使得信号MB1、MB2、MB3、MB4、MB5、MB6、MB7和MB8分别在方向Dir21、Dir22、Dir23、Dir24、Dir25、Dir26、Dir27和Dir28上具有很强的指向性。

拾取声束选择部分19将拾取声束语音信号MB1至MB8的信号强度进行相互比较，从而选择具有最高强度的拾取声束语音信号，并且将所选择的信号作为拾取声束语音信号MB输出至回声消除电路20。拾取声束选择部分19检测与所选的拾取声束语音信号MB相对应的方向Dir，并且将所检测到的方向通知给控制单元11。回声消除电路20根据输入语音信号来使自适应滤波器21产生伪环绕声音信号，并且使后置处理器22从拾取声束语音信号MB中提取伪回归声音信号，从而抑制从扬声器SP绕射至麦克风MIC的声音。输入/输出I/F12将回声消除电路20所提供的拾取声束语音信号MB转换成具有预定数据长度的网络格式的语音文件，并且将其中附有从控制单元11获取的方向数据及拾取声音时间数据的语音文件依次输出至网络100。包括语音文件、方向数据、拾取声音时间数据、以及表示语音会议装置的装置数据在内的所发送的数据将被称为通信语音数据。

利用上述配置，可以通过经由网络100连接的语音会议装置111、112来举行多点会议。

声音记录服务器101包括控制单元1、记录部分5以及网络I/F6。可将声音记录服务器101放置在与分别放置语音会议装置111、112的地点之一相同或者与之均不相同的地点。

控制单元1包括语音数据分析部分2、方向/说话者识别部分3、以及语音状况数据生成部分4，控制单元1对整个声音记录服务器101进行控制，例如对网络I/F 6进行网络通信控制以及对记录部分进行记录控制。例如，控制单元1包括运算处理芯片、ROM、作为运算存储器的RAM等等，并且执行存储在ROM中的语音数据分析程序、方向/说话者识别程序、以及语音状况数据生成程序，从而行使语音数据分析部分2、方向/说话者识别部分3、以及语音状况数据生成部分4的功能。

语音数据分析部分2通过网络I/F 6获取在语音会议装置之间交流的通信语音数据并对其进行分析。语音数据分析部分2获取语音文件，并且从通信语音数据中拾取声音时间数据、方向数据以及装置数据。

根据预定时期内方向数据的变化，方向/说话者识别部分3将所获取的方向数据和说话者姓名数据或将方向未检出数据提供给语音状况数据生成部分4。

根据所提供的方向数据、说话者姓名数据以及方向未检出数据随着时间的变化，语音状况数据生成部分4生成与语音文件的相关部分相关联的语音状况数据。

随后将参考图4来描述语音数据分析部分2、方向/说话者识别部分3以及语音状况数据生成部分4所进行的处理的具体内容，即控制单元1所进行的处理的具体内容。

记录部分5包括大容量硬盘单元等，并且包括语音文件记录部分51、语音状况数据记录部分52以及说话者语音DB53。语音文件记录部分51对语音数据分析部分2所获取的语音文件进行顺次记录，而语音状况数据记录部分52对语音状况数据生成部分4所生成的语音状况数据进行顺次记录。

在说话者语音DB 53中，参与通信会议的与会者(说话者)的语音特征值被存入数据库并存储下来。

图4是示出了图3中的说话者语音DB 53的结构的示意图。

如图4所示，说话者语音DB 53存储了说话者姓名数据Si、语音特征值数据Sc、以及装置数据Ap，它们彼此关联。例如，在图1所示的会议的情况下，存在赋给地点a处的各个说话者A至E的说话者姓名数据SiA至SiE以及赋予给语音会议装置111的装置数据Ap111。随后对说话者A至E的语音进行分析以便获取语音特征值(共振峰等)，并且语音特征值被存储为语音特征值数据ScA至ScE以便与各个说话者A至E(说话者姓名数据SiA至SiE)相对应。还存储了分别赋给地点b处的各个说话者F至I的说话者姓名数据SiF至SiI以及赋给语音会议装置112的装置数据Ap112。把通过对说话者F至I的语音进行分析而获取的语音特征值(共振峰等)存储为语音特征值数据ScF至ScI以便与各个说话者F至I(说话者姓名数据SiF至SiI)相对应。

可以在会议之前通过登记说话者姓名和分别由与会者说出的语音声音来实现上述关联。还可以在会议期间由声音记录服务器101的语音数据分析部分2通过自动地依次将说话者姓名数据Si与语音特征值数据Sc进行关联来更新和记录说话者语音DB 53，从而实现上述关联。

接下来将参考图5和图6来描述声音记录服务器101的声音记录流程。

图5是示出了图1中的声音记录服务器101的声音记录处理流程的流程图。图6A是示出了地点a处的说话者A在说话的情况的示图，而图6B是示出了地点a处的说话者A和E同时在说话的情况的示图。

图7是示出了地点a处的说话者E在移动的同时说话的情况的示图。图8是记录在图1所示的声音记录服务器101中的语音文件和语音状况数据的示意图。

声音记录服务器101监视网络100中的通信语音数据，并且在检测到会议开始触发时启动声音记录(S1→S2)。这时，通过检测到通信语音数据被发送至网络100并被其接收来获取会议启动触发。例如，在按下会议启动开关时通过声音记录服务器101对语音会议装置111或112所产生的会议启动脉冲的检测来获取会议启动触发。还可以在按下布置在声音记录服务器101中的记录启动开关时来获取会议启动触发。

一旦开始声音记录，声音记录服务器101(控制单元1)就获取一个记录启动时间，并且语音状况数据生成部分4将记录启动时间存储为一个语音状况数据的标题(S3)。

语音数据分析部分2从顺次获取的通信语音数据中恢复语音文件，并且将语音文件记录在记录部分5的语音文件记录部分51中(S4)。

这时候，语音数据分析部分2从所获取的通信语音数据获取装置数据，并且将装置数据提供给存储部分5。根据所提供的装置数据，存储部分5顺次地按照装置来将语音文件记录在语音文件记录部分51中。由于语音会议装置111、112同时将语音文件输出至网络，所以声音记录服务器101被配置成能够执行多任务处理以便同时存储这些语音文件。

语音数据分析部分2从通信语音数据中获取装置数据、方向数据以及拾取声音时间数据，并且将它们提供给方向/说话者识别部分3(S5)。

方向/说话者识别部分3观测顺次输入的方向数据的变化。当检测到方向数据表示单方向并且方向数据在预定时期内保持不变时，将这个方向数据(单方向数据)作为说话者识别数据提供给语音状况数据生成部分4(S6→S7)。这时，在与相应的语音文件的部分相关联的状态下将由单方向数据组成的说话者识别数据提供给语音状况数据生成部分4。

例如，如图6A所示，在地点a处的说话者A不停说话的情况下，根据单方向数据来识别出方向数据Dir11，并且将方向数据Dir11作为说话者识别数据提供给语音状况数据生成部分4。

在确定方向数据不是单方向数据(随着时间变化的单方向)时，方向/说话者识别部分3确定是否存在与语音文件相对应的多个方向数据。在确定组合方向数据包括相同的组合并且在预定时期内保持不变时，方向/说话者识别部分3将该组合方向数据作为说话者识别数据提供给语音状况数据生成部分4(S6→S8→S10)。同样地，这时，在与相应的语音文件的部分相关联的状态下将由组合方向数据组成的说话者识别数据提供给语音状况数据生成部分4。

在例如图6B所示的地点a处的说话者A、E不断同时说话的情况下，基于组合方向数据来识别出方向数据Dir11和Dir18的组合，并且将方向数据Dir11和Dir18的组合作为说话者识别数据提供给语音状况数据生成部分4。

在检测到方向数据在预定时期内变化(不同于上述两种情况)时，方向/说话者识别部分3读取说话者语音DB 53并执行说话者识别。具体地说，当选择说话者识别处理时，方向/说话者识别部分3使语音数据分析部分2分析所获取的语音文件，并获取语音文件中的语音特征值数据(共振峰等)。方向/说话者识别部分3对所分析出来并获取的语音特征值数据与记录在说话者语音DB 53中的多个语音特征值数据Sc进行比较，并且，如果其中存在与之相一致的语音特征值数据Sc，则选择与该语音特征值数据Sc相对应的说话者姓名数据Si。方向/说话者识别部分3将所选择的说话者姓名数据Si作为说话者识别数据提供给语音状况数据生成部分4(S6→S8→S9→S11)。同样在这个时候，在与相应的语音文件的部分相关联的状态下，将由说话者姓名数据Si所组成的说话者识别数据提供给语音状况数据生成部分4。

例如，如图7所示，在位于地点a处的说话者E说话且同时从方向Dir18移动到方向Dir16的情况下，不将方向数据识别为说话者识别数据，而是将通过说话者识别获得的说话者姓名数据SiE作为说话者识别数据提供给语音状况数据生成部分4。尽管已经在该例中描述了说话者E移动的情况，但是，在多个说话者在说话的同时移动的情况下，将多个说话者姓名数据的组合提供给语音状况数据生成部分4。

在确定不属于上述情况中的任意一种情况时，方向/说话者识别部分3将方向未检出数据作为说话者识别数据提供给给语音状况数据生成部分4(S6→S8→S9→S12)。

语音状况数据生成部分4将依次从方向/说话者识别部分3提供来的说话者识别数据与各个相对应的语音文件关联起来，从而生成语音状况数据，该语音状况数据的形式为按时序布置数据。随后，语音状况数据生成部分4在记录部分5的语音状况数据记录部分52中记录语音状况数据(S13)。

重复上述方向/说话者识别、用于生成和记录语音状况数据的处理、以及用于记录语音文件的处理，直到检测到记录结束触发(S14→S4)。

当检测到记录结束触发时，控制单元1就执行记录结束处理(S14→S15)。记录结束触发是通过检测到按压了与网络100相连接的每个语音会议装置111、112的记录结束开关、关闭了电源等而获得的。控制单元1生成并记录最终语音状况数据，生成成组指令数据，并且将成组指令数据记录在语音状况数据记录部分52中。根据成组指令数据，根据声音记录开始时获取的标题来将记录在语音状况数据记录部分52中的语音状况数据进行编组。

根据上述结构和处理，将在时间上连续的语音文件按照装置记录在语音文件记录部分51中，如图8所示。这时，各个语音文件均被按照说话者识别数据来进行分段。记录在语音状况数据记录部分52中的语音状况数据中包含有说话者识别数据。具体地说，根据方向数据、说话者姓名数据以及方向未检出数据来对每个语音文件进行分段。下文中，各个分段后的语音文件将被称为分段语音文件。

例如，位置a处的语音文件被分段为由方向数据Dir11至Dir18中的任意一个组成的单方向数据的语音文件、由方向数据Dir11至Dir18中的任意一些组成的组合方向数据的语音文件、由说话者姓名数据SiA至SiE中的任意一个组成的说话者姓名数据的语音文件、方向未检出数据UnKnown的语音文件、以及与不存在有效拾取声音的静音部分相对应的语音文件。并且，每个分段语音文件均与段启动时间数据相关联。在图8所示的示例中，语音会议装置111被五个与会者使用，但是所记录的方向数据的数量为四个(Dir11、Dir12、Dir15以及Dir18)，说话者姓名数据的数量为一个(SiE)、并且方向未检出数据的数量为一个。只有这些数据被记录在语音状况数据中。具体地说，在语音状况数据中没有记录与没有说话的说话者相关的说话者识别数据。

如上所述，利用本实施例的结构和处理，可以在通过方向(单方向或组合方向)、说话者姓名、以及方向未检出信息(该信息表示存在方向和说话者姓名未知的语音)来按照说话者进行可靠区分的状态下记录与会者的语音。

相较于通过分析语音特征值并将分析出来的值与数据库进行比较来产生说话者识别数据，在通过使用作为说话者识别元素并被包含在通信语音数据中的方向数据来产生说话者识别数据时，可以更简单并更快地执行说话者识别处理。因此，相较于使用仅仅基于语音特征值来进行识别的传统方法，通过使用本实施例的结构，可以更快地生成说话者识别数据，并且可以改进实时识别性能。

由于表示会议期间的过去时间点的时间数据和与各个语音相关的分段语音文件是相关联的，所以可以根据每个与会者和每个地点来记录包括会议进程状况在内的会议记录。于是，在执行下述会议记录准备处理的情况下，可以提供对会议记录准备人员来说很方便的会议记录数据。

接下来，将给出对会议记录准备时的结构和处理的描述。

图9是会议记录准备时的语音通信系统的结构示图。图10是示出了图9中的声音记录服务器和个人计算机102的主要结构的框图。图11A是示出了在编辑应用程序的执行过程中显示在个人计算机102的显示部分123上的初始显示图像的示例的示图，图11B是示出了编辑后的显示图像的示例的示图。

如图9所示，在会议记录准备时，会议记录准备人员将个人计算机102连接至网络100。这时候，处于ON状态的声音记录服务器101连接至网络100，但是语音会议装置111、112并没有连接至网络100。应该注意的是，语音会议装置111、112可能是连接至网络的，但是这种连接与不连接并没有任何实质区别，这是因为该连接与会议记录准备处理无关。

个人计算机102包括CPU 121、存储部分122(例如硬盘)、显示部分123、操作输入部分124、网络I/F125、以及扬声器126。

CPU 121执行普通个人计算机所执行的处理控制，并且读取并执行存储在存储部分122中的编辑应用程序和再现应用程序，从而作为用于对时序表形式的语音状况数据的内容进行显示的显示装置、用于编辑语音状况数据的编辑装置、以及用于再现语音文件的装置。

存储部分122包括硬盘或其它磁盘或存储器，其存储编辑应用程序和再现应用程序，并且当CPU 121执行各种功能时存储部分122还被CPU 121用作工作部分。应该注意的是，本实施例中的编辑应用程序包括显示应用程序，但是显示应用程序也可从编辑应用程序中分离出来。

显示部分123包括液晶显示器。当CPU 121执行编辑应用程序时，编辑应用程序中的显示应用程序被启动，并且CPU 121向显示部分123提供有显示图像信息，并且显示部分123显示如图11A所示的图像。

操作输入部分124包括键盘和鼠标，其接受用户(会议记录准备人员)的操作输入，并且将操作输入提供给CPU 121。例如，当光标跟着鼠标在显示屏上移动并且鼠标在适当位置进行点击时，点击信息被提供给CPU 121。CPU 121根据点击位置以及点击状况来确定操作输入的内容，并且执行预定的编辑/再现处理，这些将在下文予以描述。

网络I/F 125作为用于对个人计算机102和网络100进行连接的功能部分。在CPU 121的通信控制下，网络I/F 125对来自CPU 121的控制信号以及来自声音记录服务器101的语音状况数据和语音文件进行传达。

扬声器126在CPU 121的控制下根据语音文件来发出声音。

接下来，将参考图11来详细描述用于编辑语音状况数据的方法。

当会议记录准备人员在会议结束之后操作个人计算机102来执行编辑应用程序时，个人计算机102从声音记录服务器101获取语音状况数据并且显示图11A所示的屏幕。

如图11A所示，编辑屏幕包括标题显示部分201以及时序图显示部分202。时序图显示部分202包括表示语音文件的条形图203、说话者识别信息显示部分204、装置/位置显示部分205以及内容显示部分206。

(1)标题显示部分201

在初始状态下，如图11A所示，在标题显示部分201上显示与语音状况文件的文件名相对应的对会议进行记录的年月日。当会议记录准备人员利用鼠标来对标题显示部分201进行选择时，标题显示部分201变得可编辑。当会议记录准备人员通过键盘等输入“产品销售回顾会议”时，标题显示部分201上显示如图11B所示的名称“产品销售回顾会议”。完成编辑应用程序之后，CPU 121确认该变化是否应该有效，如果进行了变化有效的选择，则将名称“产品销售回顾会议”与语音状况文件进行关联。这时，语音状况文件名称可能直接变为“产品销售回顾会议”，并且变化后的名称可存入声音记录服务器101。于是，标题从仅仅为年月日的表示改变为会议名称的具体表示，从而以后可以容易地识别会议记录。

(2)时序图显示部分202

根据从语音状况文件获取的有关分段的信息，时序图显示部分202基于说话者识别信息按时序来布置分段语音文件，并且对条形图203形式的布置后的分段语音文件进行显示。在这种情况下，每个条形图203的长度代表了相应的分段语音文件的时间长度。说话者识别信息显示部分204中显示了说话者识别信息。

如图11A所示，从语音状况文件获取的方向数据(Dir11、Dir11+Dir18、Dir15、Dir12、Dir21、Dir24、Dir26和Dir28)、说话者姓名数据(SiE)以及方向未检出数据(UnKnown)以其初始状态显示在各个说话者识别信息显示部分204中。当会议记录准备人员利用鼠标选择了任意一个说话者识别信息显示部分204时，所选的说话者识别信息显示部分204变得可编辑。

当会议记录准备人员利用鼠标在任一分段语音文件上执行诸如双击之类的操作时，CPU 121识别该操作，从声音记录服务器101中读取相应的分段语音文件，并且再现分段语音文件。再现的声音被扬声器126发送至会议记录准备人员。会议记录准备人员聆听声音并且从而能够在听觉上掌握与分段语音文件相对应的说话者。

当会议记录准备人员基于所再现的声音而经由键盘等输入与说话者识别数据分别对应的与会者(说话者)姓名时，在说话者识别信息显示部分204上显示与说话者识别数据相对应的说话者姓名(说话者A至I)，如图11B所示。在完成编辑应用程序之前，CPU 121确定该变化是否应该有效，并且如果进行变化有效的选择，则利用所输入的说话者姓名来替换说话者识别数据，并且将说话者姓名存入声音记录服务器101。这时，可将说话者识别数据和所输入的说话者姓名进行彼此关联的记录，从而使得可以根据说话者姓名(可以按照姓名来清楚地了解这些说话者姓名)来识别分段语音文件。

应该注意的是，在上述再现中，当利用鼠标来双击说话者识别信息显示部分204的说话者识别数据部分时，CPU 121对其进行识别，并且能够从声音记录服务器101读出与所选择的说话者识别信息显示部分204的说话者识别数据部分相对应的分段语音文件并对其进行再现。利用该方法，还可以识别说话者姓名。此外，利用该方法，只有所要求的说话者语音可被提取或捕获，而无需再次查询整个会议。

如图11A所示，以初始状态在装置/位置显示部分205上显示从语音状况文件获取的装置数据(Ap111和Ap112)。当会议记录准备人员利用鼠标选择任意一个装置/位置显示部分205时，装置/位置显示部分205变得可编辑。当会议记录准备人员通过键盘等输入各个装置所安装的地点时，在装置/位置显示部分205上显示地点名称(“总部”和“大阪分部”)，如图11B所示。在完成编辑应用程序之前，CPU 121确认该变化是否应该有效，并且如果进行使改变有效的选择，则将地点和相应的装置数据进行关联。在这种情况下，装置数据可直接由地点名称数据代替，并且地点名称数据可被存储在声音记录服务器101中，从而随后可以很容易地识别出会议的举行地点。

如图11A所示，在初始状态中，内容显示部分206中仅仅显示框架。当会议记录准备人员利用鼠标选择任一内容显示部分206时，内容显示部分206变得可编辑。当会议记录准备人员利用键盘等输入会议内容时，内容显示部分206中显示会议的内容(“会议目的确认”、“成本估计”、以及“市场”)，如图11B所示。这时，以不同颜色或不同模式显示各个内容显示部分206。在选择任一内容显示部分206的状态下，当选择分段语音文件的条形图203时，这些所选的条形图203与所选的内容显示部分206相关联并且以与之相同的颜色或模式被显示。在完成编辑应用程序之前，CPU 121确认该变化是否应该有效，并且如果进行使改变有效的选择，则将会议内容和相应的内容显示部分206进行关联存储，并且将分段语音文件和会议内容进行关联存储。应该注意的是，这些信息被添加至语音状况文件。于是，可以很容易地识别分段语音文件的内容。

在关联完成之后，在利用鼠标双击任一内容显示部分206时，CPU 121对其进行识别，并且从声音记录服务器101中读取与所选内容显示部分206相关的分段语音文件，并且对其进行再现。于是，只有所要求的内容部分可被提取或捕获，而无需再次查询整个会议。

利用上述结构和处理，可以很容易地准备更易理解的会议记录，并且只有所需会议部分可被很容易地再次获取。

会议记录的初始显示模式并不限于图11A所示的模式，而是可以是图12A和图12B所示的模式或者通过将图12A和图12B结合在一起而获得的模式。

图12A和图12B是示出了在执行编辑应用程序的时候初始显示图像的其它示例的示图。

在图11A所示的方法中，说话者识别数据的布置和显示与方向是单方向还是组合方向无关。但是如图12A所示，组合方向可被划分成多个方向并被条形图203显示。可选地，如图12B所示，可以在显示顺序方面给予说话者识别数据更高的优先级的同时显示条形图203。

可将方向数据添加至如图13A所示的说话者语音DB53，从而使得即使在初始状态下也可以仅仅根据说话者姓名来显示说话者识别信息，如图13B所示。

图13A是示出了包括方向数据在内的说话者语音DB53的结构的示意图，而图13B是示出了使用图13A所示的说话者语音DB的情况下的编辑屏幕的示例的示图。

如图13A所示，说话者语音DB53中记录着说话者姓名数据SiA至SiE、语音特征值数据ScA至ScI以及装置数据Ap111和Ap112，并且与说话者姓名数据SiA至SiI相关联地记录着与各个说话者姓名数据SiA至SiI相对应的方向数据Dir11、Dir12、Dir14、Dir15、Dir18、Dir21、Dir24、Dir26和Dir28。

可在会议之前通过记录由与会者分别说出的与会者语音并记录座位位置(方向)来实现说话者姓名数据Si和方向数据Dir之间的关联。还可以由声音记录服务器101的语音分析部分在会议期间通过依次自动检测出说话者姓名数据Si和方向数据Dir之间的关系并更新和记录说话者语音DB53来实现该关联。

在执行编辑应用程序时，个人计算机102的CPU 121从语音状况数据中读出说话者识别数据，并且还读出如图13A所示的说话者语音DB53，并且利用说话者姓名数据Si来代替方向数据Dir。随后，在说话者识别信息显示部分204中显示说话者姓名数据Si，如图13B所示。利用该方法，根据说话者姓名来显示除了方向未检出数据之外的数据，从而可以以方便会议记录准备人员便于查找说话者的方式显示会议记录屏幕。用于将方向数据Dir转换成说话者姓名数据Si的处理并不限于在编辑的时候进行，而是可以在语音状况数据的生成时进行。

应该注意的是，在声音记录服务器101经网络连接至作为上述语音状况文件显示/编辑装置以及语音文件再现装置的个人计算机102的情况下，个人计算机102可被配置成与声音记录服务器101合并。

图14是示出了又作为声音记录服务器的个人计算机的主要结构的框图。

如图14所示，又作为声音记录服务器的个人计算机包括控制单元(CPU)1(控制单元1包括语音数据分析部分2、方向/说话者识别部分3、以及语音状况数据生成部分4)，该个人计算机还包括记录部分5、网络I/F 6、扬声器7、操作输入部分8以及显示部分9。记录部分5起声音记录服务器的记录部分(图3中的记录部分5)和用于存储个人计算机所实施的应用程序的存储部分(图10中的存储部分122)两者的作用。网络I/F 6起声音记录服务器的网络I/F(图3中的网络I/F6)和个人计算机的网络I/F(图10中的网络I/F 125)两者的作用。控制单元1是个人计算机的控制单元(CPU)，并且起声音记录服务器的控制单元的作用。扬声器7、操作输入部分8以及显示部分9与上述个人计算机102的扬声器126、操作输入部分124以及显示部分123相同。

利用该结构，可以将声音记录服务器(用于记录语音文件以及产生和记录语音状况文件的装置)、用于可视化语音状况(会议中的说话者状况)的装置、语音状况数据编辑装置以及语音文件再现装置进行统一。记录部分可以是并入个人计算机的磁记录装置或者可以是外部记录装置。

上文中，已经描述了声音记录服务器101与语音会议装置111、112彼此分开构建的情况。但是，可以将声音记录服务器并入与网络100相连接的至少一个语音会议装置。

如图15所示，并有声音记录服务器的语音会议装置包括图2所示的布置以及加入该布置中的存储部分30。

存储部分30输入来自回声消除电路20的拾取声束语音信号MB以及来自输入/输出I/F 12的输入语音信号。存储部分30将它们存储为语音文件。当拾取声束语音信号被输入存储部分30时，控制单元10将信号按照其自身的装置数据、从拾取声束选择部分19获取的方向数据、以及拾取声音时间数据(这些数据附于拾取声束语音信号中)进行存储。控制单元10还执行上述方向/说话者识别以便产生语音状况数据，并且将所产生的数据存储在存储部分30中。当将输入语音信号输入存储部分30时，控制单元10从输入/输出I/F12获取附于输入语音信号上的装置数据(表示接收侧装置)、方向数据以及拾取声音时间数据，执行方向/说话者识别，并且更新存储部分30中的语音状况数据。这时，如果还没有产生并存储语音状况数据，则产生并存储语音状况数据。

利用该结构，则没有必要单独地提供声音记录服务器，从而可以利用更简单的结构来实现会议记录准备系统。不仅可将存储部分布置在连接至网络的仅仅一个语音会议装置中，还可以将其布置在多个装置中。

布置在语音会议装置中的存储部分的大小没有限制，从而可以将存储部分布置在语音会议装置中，并且可以单独地提供声音记录服务器。在这种情况下，只要可在其中制造存储部分，则可将语音文件以及语音状况数据存储至语音会议装置的存储部分中，并且在到达存储部分的存储容量时或到达存储装置的存储容量之后可将语音文件以及语音状况数据转移至声音记录服务器。

在上文中，已经描述了在连接至网络的多个语音会议装置之间举行多点会议的情况。但是，即使在只有单个语音会议装置被使用的情况下，还是可以通过同时检测拾取语音和方向并且将其相互关联来实现类似的功能和优点。

在上文中，已经给出了将会议记录准备作为示例的描述。在多点间的其它通信语音被装置(系统)记录的情况下也可以实现类似的功能和优点。

工业实用性

根据本发明，可以以对用户来说方便的方式利用相对简单的处理来产生和提供其中按时序记录了来自多个声源的语音数据的用于利用的数据。作为具体示例，在通过多点会议系统记录与会者的谈话的情况下可以以例如时序图的形式这样的更容易理解的形式向会议记录准备人员提供与会者的谈话。

根据本发明，可以通过使用用于根据拾取声音信号来自动检测说话者方向的声音发射/拾取装置、利用比传统结构简单的结构来实现语音通信系统和在该系统中传递的语音数据的记录。

Claims

1.一种语音状况数据生成装置，包括：

数据获取装置，用于按时序获取语音数据和方向数据，该方向数据表示语音数据到来的方向；

说话者语音特征数据库，存储了各个说话者的语音特征值；

方向/说话者识别装置，用于在所获取的方向数据表示单方向并且在预定时期内保持不变时在说话者识别数据中设置作为单方向数据的方向数据，所述方向/说话者识别装置用于在所获取的方向数据表示多个方向的同一组合并且在预定时期内保持不变时在说话者识别数据中设置作为组合方向数据的方向数据，

所述方向/说话者识别装置用于在该说话者识别数据既不是单方向数据也不是组合方向数据时，从语音数据中提取语音特征值并将所提取的语音特征值与说话者语音特征数据库中所存储的语音特征值进行比较从而执行说话者识别，并且，如果识别出说话者，所述方向/说话者识别装置则在该说话者识别数据中设置与所识别出来的说话者相对应的说话者姓名数据，如果未识别出说话者，所述方向/说话者识别装置则在该说话者识别数据中设置方向未检出数据；

语音状况数据生成装置，用于通过分析与说话者识别数据相关的确定结果的时间分布来生成语音状况数据；以及

存储装置，用于存储语音数据以及语音状况数据。

2.如权利要求1所述的语音状况数据生成装置，其中所述方向/说话者识别装置在需要时根据由通信期间输入的说话者语音所获取的语音特征值来更新说话者语音特征数据库。

3.一种语音状况可视化装置，包括：

如权利要求1所述的语音状况数据生成装置；以及

显示装置，用于根据语音状况数据来基于说话者按时序图像化地表示语音数据的时间分布，并且用于显示所述图像化表示的时间分布。

4.一种语音状况数据编辑装置，包括：

如权利要求3所述的语音状况可视化装置；

操作接受装置，用于接受用来编辑语音状况数据的操作输入；以及

数据编辑装置，用于分析所述操作接受装置所接受的编辑的内容，并且对语音状况数据进行编辑。

5.一种语音数据再现装置，包括：

如权利要求4所述的语音状况数据编辑装置；以及

再现装置，用于对所述操作接受装置从所有语音数据中选择出来的说话者语音数据进行选择和再现。

6.一种语音通信系统，包括多个声音发射/拾取装置，所述多个声音发射/拾取装置用于经由网络来在彼此间交流语音数据，其中：

如权利要求1所述的语音状况数据生成装置、如权利要求3所述的语音状况可视化装置、如权利要求4所述的语音状况数据编辑装置、以及如权利要求5所述的语音数据再现装置中的任意一个均与所述多个声音发射/拾取装置分开且与所述网络连接，并且

所述数据获取装置获取在所述多个声音发射/拾取装置之间交流的语音数据和方向数据。

7.一种语音通信系统，包括多个声音发射/拾取装置，所述多个声音发射/拾取装置用于经由网络来在彼此间交流语音数据，其中：

如权利要求1所述的语音状况数据生成装置、如权利要求3所述的语音状况可视化装置、如权利要求4所述的语音状况数据编辑装置、以及如权利要求5所述的语音数据再现装置中的任意一个均被并入到所述多个声音发射/拾取装置中的任意一个中，并且

所述数据获取装置获取发送给包含语音数据处理装置的声音发射/拾取装置并被该声音发射/拾取装置接收的语音数据和方向数据。

8.如权利要求6所述的语音通信系统，其中所述声音发射/拾取装置包括麦克风阵列，所述声音发射/拾取装置基于通过麦克风阵列的麦克风所拾取的语音信号来产生在不同方向上具有很强指向性的多个拾取声束信号，将该多个拾取声束信号进行相互比较以便选择具有最强信号强度的拾取声束信号，检测与所选择的拾取声束信号相对应的方向，并且将所选择的拾取声束信号以及所检测出来的方向分别作为语音数据和方向数据输出。