CN1333363C - 音频信号处理设备和音频信号处理方法 - Google Patents

音频信号处理设备和音频信号处理方法 Download PDF

Info

Publication number
CN1333363C
CN1333363C CNB2005100601004A CN200510060100A CN1333363C CN 1333363 C CN1333363 C CN 1333363C CN B2005100601004 A CNB2005100601004 A CN B2005100601004A CN 200510060100 A CN200510060100 A CN 200510060100A CN 1333363 C CN1333363 C CN 1333363C
Authority
CN
China
Prior art keywords
spokesman
information
sound
change
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100601004A
Other languages
English (en)
Other versions
CN1652205A (zh
Inventor
田中出
饭田健一
三原悟史
山田荣一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1652205A publication Critical patent/CN1652205A/zh
Application granted granted Critical
Publication of CN1333363C publication Critical patent/CN1333363C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41FPRINTING MACHINES OR PRESSES
    • B41F16/00Transfer printing apparatus
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41FPRINTING MACHINES OR PRESSES
    • B41F19/00Apparatus or machines for carrying out printing operations combined with other operations
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自动检测要处理的音频信号中的改变点的音频特征分析器。中央处理单元(CPU)获得指示音频信号内的改变点位置的改变点信息,该改变点信息被记录在数据存储装置上。CPU根据用户通过按键操作单元输入的指令识别改变点信息,定位对应于该识别的改变点信息的音频数据,从而可以从那里开始诸如播放要处理的音频数据等的处理。

Description

音频信号处理设备和音频信号处理方法
技术领域
本发明涉及处理音频信号的多种设备,例如IC(集成电路)录音机、MD(迷你盘)录音机或个人计算机,以及涉及在这些设备中使用的方法。
背景技术
如在日本未审查的专利申请第2-206825号中所公开的,已经提出用于对记录的音频数据执行语音识别以将音频数据转换为文本数据的,从而自动创建记录的记录准备设备。这种技术允许快速地自动准备会议记录。然而,在某些情况中,期望准备仅仅重要部分的记录而非基于所有记录的音频数据来准备记录。在此种情况中,需要从记录的音频数据中寻找到感兴趣的部分。
例如,当使用IC录音机、MD录音机等记录下较长会议的进行时,为了从记录的音频数据中找到感兴趣的部分,需要播放音频数据并听取播放的声音。虽然能使用快进或快退找到感兴趣的部分,但这通常需要付出劳动和时间。因此,已提出能嵌入(分配)促进在记录的数据中搜索的标记的记录设备。例如,在MD录音机中,此种功能被实现为附加磁道标记功能。
然而,附加促进对音频数据的搜索的标记的功能如上所述是由用户手动操作的,因此没有用户操作就不能分配标记。因此,甚至记录期间当用户试图执行附加标记到用户认为是重要的部分中的操作时,如当用户专注于会议进行时也会忘记执行附加标记的操作。
此外,甚至当用户对感兴趣的讲话分配了标记,由于是在听取感兴趣的讲话期间执行嵌入标记的操作,也可能在感兴趣的讲话之后才记录该标记。因此,为了听取感兴趣的讲话,用户必须执行将播放位置移到该标记并稍后再向后移动的操作。如果用户操作到感兴趣的部分之前或之后并不得不重复这一操作,这对用户来说是麻烦和紧迫的。
此外,具有标记的这部分的内容是未知的,直至听取之后。如果听取后发现这部分不是感兴趣的那一部分,必须重复移到下一标记的操作,直至发现感兴趣的部分,而这样是很费力的。如上所述,虽然分配帮助搜索音频数据的标记的功能十分便利,但是当例如用户不习惯该操作时,就不能很好的利用分配标记给感兴趣的音频数据这一功能。
发明内容
因此,本发明的一个目的是提供一种设备和方法,易于允许用户快速地在要处理的音频信号中找到和使用感兴趣的部分。
为实现这一目的,根据本发明的一个方面,提供一种音频信号处理设备。该音频信号处理设备包括:第一检测单元,用于在要处理的音频信号中根据该音频信号基于具有预定尺寸的各个处理单元来检测发言人的改变;获取单元,用于获得其中第一检测单元已检测到发言人改变的音频信号的位置的改变点信息;以及保存单元,用于保存由获取单元获取的改变点信息。
在该音频信号处理设备中,检测单元自动检测在要被处理的音频信号中的改变点,获取单元获取指示在音频信号中的改变点的位置的改变点信息,保存单元保存该改变点信息。保存指示改变点的位置的改变点信息等同于在要被处理的音频信号中给改变点分配标记。
如上所述检测和保存的改变点信息使得能够定位对应于该改变点信息的音频信号,从而可以从该位置开始诸如播放要被处理的音频信号的处理。因此,允许用户参考自动分配给该音频信号中的改变点的标记,从音频信号中快速地找出感兴趣的部分,而无需执行麻烦的操作。
优选地,第一检测单元能基于各个处理单元提取音频信号的特征,并根据提取的特征检测从非话音段到话音段的改变点以及话音段中的发言人改变的点。
因此,检测单元基于具有预定尺寸的各个处理单元检测要被处理的音频信号的特征,并执行诸如将特征和先前所检测到的特征进行比较的处理。因此,检测单元能检测从无声段或噪声段到话音段的改变点以及话音段内的发言人改变点。
因此,标记被至少分配给发言人改变的点,以便能参考发言人改变点快速地从音频数据中找到感兴趣的部分。
该音频信号处理设备可以进一步包括:存储单元,用于存储表示一个或多个发言人的语音特征的一个或多个特征信息,以及所述一个或多个发言人的一个或多个识别信息,特征信息以及识别信息相互关联;还包括识别单元,用于通过比较由第一检测单元提取的特征和存储在存储单元内的特征信息来识别发言人。在此情况中。保存单元保存改变点信息以及由识别单元识别的发言人的识别信息,该改变点信息和识别信息相互关联。
在该音频信号处理设备中,代表发言人的语音特征的特征信息以及发言人的识别信息被相互关联地存储在存储单元内。识别单元通过比较由第一检测单元提取的特征和存储在存储单元内的特征信息在改变点识别发言人。保存单元保存改变点信息以及识别的发言人的识别信息。
因此,能播放或提取对应于特定发言人的语音的部分,以及根据在各个改变点的发言人的识别从音频数据中快速地找到感兴趣的部分。
该音频信号处理设备可以进一步包括:第二检测单元,用于通过分析分别与多个麦克风相关联的多个音频信道的多个音频信号来检测发言人位置。在此情况中,获取单元根据由第二检测单元检测到的发言人位置中的改变来识别改变点,并获取对应于所识别的改变点的改变点信息。
在该音频信号处理设备中,第二检测单元通过分析各个音频信道的多个音频信号、检测要被处理的音频信号中的改变点来检测发言人的位置。获取单元根据由第一检测单元检测到的改变点和由第二检测单元检测到的改变点来识别实际使用的改变点,并获取指示所识别的改变点的位置的改变点信息。
因此,根据由第二检测单元检测到的改变点,能更精确和更可靠地检测出音频信号中的改变点,允许从音频数据中搜索出感兴趣的部分。
该音频信号处理设备可进一步包括:发言人信息存储单元,用于存储基于分别与多个麦克风相关联的多个音频信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置的发言人的识别信息,该发言人位置和识别信息相互关联;以及发言人信息获取单元,用于从发言人信息存储单元获取与通过分析多个音频信道的多个音频信号而确定的发言人位置相关联的发言人的识别信息。在此情况中,识别单元根据由发言人信息获取单元所获取的识别信息来识别发言人。
在该音频信号处理设备中,发言人信息存储单元存储基于分别与多个麦克风相关联的多个音频信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置的发言人的识别信息。即,基于提供各个麦克风的位置来确定发言人的位置。例如,距离第一麦克风位置最近的发言人是A,距离第二麦克风位置最近的发言人是B。因此,例如基于哪个麦克风与具有最高电平的音频数据的音频信道相关联,能够确定当前发言人与哪个麦克风相关联。
发言人信息获取单元分析各个音频信道的音频数据,根据与主要用于收集声音的麦克风相关联的那个音频信道来识别发言人的位置。识别单元根据以上述方式获得的标识来识别在改变点的发言人。因此,可以使用准确的信息从要被处理的音频数据中搜索感兴趣的部分,从而提高发言人识别的精确性。
音频信号处理设备可进一步包括:显示信息处理单元。在该种情况中,存储单元存储分别与对应各个识别信息的发言人相关的多个信息,该信息分别和各个识别信息相关,显示信息处理单元显示音频信号中的改变点的位置以及与由识别单元识别的发言人相关的信息。
在音频信号处理设备中,存储单元存储分别与对应于各个识别信息的发言人相关的信息,例如,不同的图像数据或图形数据,如与各个识别信息相关的面部图片数据、图标数据、标记图像数据或动画图像数据。显示信息处理单元显示改变点的位置以及与由识别单元所识别的发言人相关的信息。
因此,用户可以直观地在要被处理的音频数据中找到对应于各个发言人的讲话的部分。因此,用户可以快速地在要被处理的音频数据中找到感兴趣的部分。
在音频信号处理设备中,第一检测单元可以根据通过分析各个音频信道的多个音频信号而确定的发言人位置来检测发言人的改变,其中该音频信号由不同麦克风收集。
在音频信号处理设备中,通过分析各个音频信道的多个音频信号来识别发言人位置,发言人位置中的改变点被检测为改变点。
因此,通过分析各个音频信道的音频信号,可以容易并准确地检测出要被处理的音频信号中的改变点,以及可将标记分配给发言人改变的点。此外,还能参考发言人改变的点来快速地从音频数据中找到感兴趣的部分。
优选地,在音频信号处理设备中,保存单元保存改变点信息以及指示由第一检测单元所检测到的发言人位置的信息,改变点信息和指示发言人位置的信息相互关联。
在音频信号处理设备中,可将保存在保存单元内的信息提供给用户。因此,允许用户寻找在每个改变点发言的发言人的发言人位置,并从要被处理的音频数据中寻找感兴趣的部分。
音频信号处理设备可进一步包括:发言人信息存储单元,用于存储根据分别与多个麦克风相关的多个音频信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置的发言人的识别信息,多个发言人位置分别与多个识别信息分别相关联;以及发言人信息获取单元,从发言人信息存储单元获得与发言人位置相关联的发言人的识别信息,所述发言人位置是通过分析多个音频信道的多个音频信号来确定的。在此种情况中,保存单元保存改变点信息以及由发言人信息获取单元所获取的识别信息,所述改变点信息和所述识别信息相互关联。
在音频信号处理设备中,发言人信息存储单元存储根据麦克风位置确定的发言人位置以及在各个发言人位置的发言人的识别信息,所述发言人位置与所述识别信息相互关联。发言人信息获取装置通过分析各个音频信道的多个音频信号来识别发言人位置。保存单元保存改变点信息以及发言人信息获取单元获取的识别信息,所述改变点信息和所述识别信息相互关联。
因此,能够在各个改变点识别发言人,以及将该信息提供给用户。因此,能容易并准确地从要被处理的音频数据中找到感兴趣的部分。
音频信号处理设备还可以包括显示信息处理单元。在此种情况中,发言人信息存储单元存储分别与对应于各个识别信息的发言人相关的信息,所述信息分别与各个识别信息相关联,显示信息处理单元显示音频信号内的改变点的位置以及与关联于所确定的发言人位置的发言人相关的信息。
在音频信号处理设备中,发言人信息存储装置存储分别与对应于各个识别信息的发言人相关的多个信息,例如,与各个识别信息相关的不同的图像数据或图形数据,如面部图片数据、图标数据、标记图像数据、或动画图像数据。显示信息处理单元显示改变点的位置以及关于由识别单元识别的发言人的信息。
因此,用户可以直观地在要被处理的音频数据中找到对应于各个发言人的讲话的部分。因此,用户能够快速地在要被处理的音频数据中找到感兴趣的部分。
根据本发明的另一方面,提供一种音频信号处理方法。该音频信号处理方法包括:第一检测步骤,基于具有不同尺寸的各个处理单元,根据音频信号来检测要被处理的音频信号中的发言人改变;获取步骤,获取指示在第一检测步骤中检测到发言人改变的音频信号的位置的改变点信息;以及存储步骤,存储在获取步骤获取的改变点信息到记录介质上。
根据本发明,甚至当记录较长会议时,每当发言人改变发生时就自动分配发言人改变标记。这样更易于在准备会议记录过程中搜索讲话,允许容易和快速地重复播放对应于感兴趣的发言人的讲话的部分。
此外,能在音频数据的改变点识别发言人以及管理指示与改变点相关联的发言人的信息。因此,能够容易和快速地找到对应于特定发言人的讲话的部分而无需播放该音频数据。
此外,对创建会议记录的人的记忆力的依赖降低了。这有助于提高准备会议记录的工作的效率,其中准备会议记录曾经是费力的和耗时的。此外,还能将记录的数据用作音频数据形式的会议记录,而无需创建会议记录。这使搜索更容易。
附图说明
图1是根据本发明实施例的记录/播放设备的框图;
图2是用于解释给由记录/播放设备记录的所收集的音频信号中的改变点分配标记的处理方案的图;
图3是示出在播放记录的音频信号期间将播放位置设定到标记时,LCD上所显示的信息是如何根据这些操作改变的图;
图4是图1所示的记录/播放设备所执行的记录处理的流程图;
图5是图1所示的记录/播放设备所执行的播放处理的流程图;
图6是示出在图1所示的记录/播放设备的外部存储装置的存储区域内创建的音频特征数据库的例子的图;
图7是用于解释在图1所示达到记录/播放设备内的用于分配标记给收集到的音频信号的处理方案的图;
图8是示出在播放记录的音频信号期间将播放位置设定到标记时,LCD上所显示的信息是如何根据这些操作改变的图;
图9是在记录处理之后给记录的音频信号中的改变点分配标记的处理流程图;
图10是示出根据从图1所示的记录/播放设备传输到个人计算机的数据,在显示器的屏幕上显示的改变点信息的例子的图;
图11是示出根据从图1所示的记录/播放设备传输到个人计算机的数据,在显示器的屏幕上显示的改变点信息的例子的图;
图12是根据本发明的另一实施例的记录/播放设备的框图;
图13是示出麦克风和音频信号处理器的例子的图;
图14是示出麦克风和音频信号处理器的另一例子的图;
图15A和15B是用于解释在记录处理之后给记录的音频信号内的改变点分配标记的处理的图;
图16是示出发言人位置数据库的例子的图;
图17A和17B是用于解释根据从麦克风输出的信号通过识别发言人位置来识别发言人的其他示例方案的图;和
图18是根据本发明的另一实施例的记录/播放设备的框图。
具体实施方式
现在,将参考附图说明根据本发明实施例的设备、方法以及程序。将以实例来说明实施例,在实例中,将本发明应用到IC录音机中,所述IC录音机是用于记录并播放音频信号的设备。
第一实施例
IC录音机结构和操作概览
图1是IC录音机的框图,该录音机是根据本发明第一实施例的记录/播放设备。参考图1,根据第一实施例的IC录音机包括用微计算机实现的控制器100。控制器100包括:中央处理单元(CPU)101,存储程序和各种数据的只读存储器(ROM)102,主要用作工作区域的随机访问存储器(RAM)103,这些部件经CPU总线104相互连接。如下面将要说明的,RAM 103包括压缩数据区域103(1)和PCM(脉码调制)数据区域103(2)。
控制器100经文件处理器110被连接到数据存储装置111,并经输入处理器120被连接到按键操作单元121。此外,控制器100经模拟/数字转换器(下文中简写为A/D转换器)132被连接到麦克风131,并经数字/模拟转换器(下文中简写为D/A转换器)134连接到扬声器133。此外,控制器100还连接到液晶显示器(LCD)135。在此实施例中,LCD 135包括LCD控制器的功能。
此外,控制器100连接到数据压缩器141、数据扩展器142、音频特征分析器143以及通信接口(下文中简写为通信I/F)144。数据压缩器141、数据扩展器142以及音频特征分析器143的功能由图1中的双线指示,也可在控制器100的CPU 101执行的软件(例如程序)内实现。
在第一实施例中,通信I/F144是数字接口,诸如USB(通用串行总线)或IEEE(电子和电气工程师协会)-1394接口。通信I/F144允许与连接到连接终端145,如个人计算机或数字照相机的各种电子装置交换数据。
在根据第一实施例的IC录音机中,当按下按键操作单元121的REC按键(录音按键)211时,CPU 101控制相关部件执行记录处理。在记录处理中,麦克风131收集声音,收集的声音由A/D转换器132进行A/D转换,所得到的数字数据由数据压缩器141压缩,经文件处理器110将所获得的音频信号记录在数据存储装置111的预定存储区域。
第一实施例中的数据存储装置111是闪存或包括闪存的存储器卡。如下面要说明的,数据存储装置111包括数据库区域111(1)和音频文件111(2)。
在记录处理中,根据第一实施例的IC录音机,由音频特征分析器143的功能分别分析具有预定尺寸的每一处理单元的所记录的收集到的音频信号的特征。当检测到特征改变时,IC录音机分配标记到该改变点。这些标记允许从记录的音频信号中快速搜索到期望的音频信号段。
图2是用于解释在记录的收集音频信号内的改变点处分配标记的处理方案的图。如上所述,在根据第一实施例的IC录音机中,分别分析由麦克风131收集到的具有预定尺寸的每一处理单元的音频信号的特征。
通过比较当前处理单元的特征分析结果和前一处理单元的特征分析结果,检测到从静默段或噪声段到话音段的改变点或在某话音段内发言人改变的点,标识音频信号内改变的时间位置。然后,在数据存储装置111内将识别的位置存储为改变点信息(标记信息)。这样,通过存储指示音频信号内的改变点位置的改变点信息来实现标记所记录的收集到的音频信号。
作为例子,可以考虑记录会议进行的例子。假设在记录开始之后10秒钟A开始讲话,如图2所示。在此情况中,在A开始讲话之前,收集的是静默,或纯语音之外的无意义的声音,即诸如干扰的噪声、拉椅子的声音、或某个物品撞击桌面的声音。当A开始讲话并收集A的讲话时,收集到的音频信号特征分析结果与A开始讲话之前的结果明显不相同。
通过音频特征分析器143检测到记录的收集音频信号中的改变点,识别(获得)音频信号中改变点的位置,在数据存储装置111内将指示音频信号内的识别位置的改变点信息存储为图2中的标记MK1。图2显示将记录开始之后过去的时间存储为改变点信息的例子。
进一步假定B在A结束讲话之后不久开始讲话。在B开始讲话之前的时间段是静默段或噪声段。在此例子中一样,当B开始讲话并且收集B的讲话时,对收集的音频信号的特征分析结果明显和B开始讲话之前的不同。因此,如图2标记MK2所示,在数据存储装置111内存储改变点信息(标记MK2),从而将标记分配给B讲话的开始点。
此外,当B讲话时可能发生C插话的情况。在此情况中,由于B的声音和C的声音不同,对收集的音频信号的分析结果在B、C之间不同。因此,如图2标记MK3所示,在数据存储装置111内存储改变点信息(标记MK3),从而将标记分配给C讲话的起始点。
如上所述,在根据第一实施例的IC录音机的记录处理中,分析收集的音频信号的特征,并存储音频信号特征中的改变点。因此,可将标记分配给音频信号特征内的改变点。
参考图2,标记MK1、MK2、MK3的“其他”部分允许与该标记相联系地存储相关信息。例如,如果通过语音识别将语音转换为文本数据,则该文本数据和相关标记一起存储。
在根据第一实施例的IC录音机中,当按下按键操作单元121的PLAY按键(播放按键)212时,CPU 101控制相关部件执行播放处理。更具体地,经文件处理器110读取记录在数据存储装置111预定存储区域的压缩数字音频信号,由数据扩展器142扩展该数字音频信号,借此恢复压缩之前的原始数字音频信号。恢复的数字音频信号被D/A转换器134转换为模拟音频信号,将该模拟信号提供到扬声器133。因此,产生要播放的对应于记录的音频信号的声音。
在根据第一实施例的IC录音机的播放处理中,当操作按键操作单元121的NEXT按键(用于定位下一标记的按键)214或PREV按键(用于定位前一标记的按键)215时,播放位置被快速地设定到相关标记的位置,从而播放从那里开始。
图3是示出根据操作在LCD 135上所显示的信息的改变的图,该图用于解释当播放记录的音频信号时,用于定位记录的音频信号上的由标记所指示的位置的操作。参考图3,当按下PLAY按键211时,如前所述,CPU 101控制相关部件从指定的记录音频信号的开头开始播放。
在对应于A的讲话的部分,根据参考图2所述在记录处理中分配的标记MK1,显示A讲话开始的时刻,以及指示该标记是在开始记录之后所分配的第一个标记的“序列号1”,如图3A部分所示。
当播放继续并且对应B讲话的部分开始播放时,显示B讲话的开始时刻,以及指示该标记是在开始记录之后所分配的第二个标记的“序列号2”,如图3B部分所示。然后,当按下PREV按键215时,CPU 101将播放位置设定到A讲话的起始点,即标记MK1指示的开始点之后的10秒(0分钟,10秒),从而播放从那里重新开始,如图3C部分所示。
然后,当按下NEXT按键214时,CPU 101将播放位置设定到B的讲话的开始点,即在由标记MK2指示的开始点之后的1分钟25秒,从而播放从那里恢复,如图3D部分所示。当再次按下NEXT按键214时,CPU 101将播放位置设定到C的讲话的起始点,即由标记MK3指示的开始点后的2分钟30秒,播放从那里恢复,如图3E部分所示。
如上所述,在根据第一实施例的IC录音机中,在记录处理中,自动分析收集的音频信号的特征,并分配标记到特征内的改变点。此外,在播放处理中,通过操作NEXT按键214或PREV按键215,可将播放位置快速地设定到由分配的标记指示的记录音频信号的点,从而播放可以从那里开始。
这允许用户将播放位置快速地设定到感兴趣的发言人的讲话,并播放和收听记录的音频信号的这一部分。因此,用户可以快速地准备关于感兴趣的讲话的会议记录。
虽然为简化起见,在第一实施例中将指示从记录开始过去的时间的信息用作改变点信息,但不限于此,例如,记录在数据存储装置111的记录介质上的音频信号的地址也可用作改变点信息。
IC录音机操作详细说明
下面,参考图4和5所示的流程图详细说明根据第一实施例的IC录音机所执行的记录处理和播放处理。
记录处理
首先,将说明记录处理。图4是显示由根据第一实施例的IC录音机所执行的记录处理的流程图。图4所示处理由控制相关部件的CPU 101执行。
当被供电但未操作时,根据第一实施例的IC录音机等待用户的输入操作(步骤S101)。当用户按下操作单元121的操作按键时,输入处理器120检测到该操作,并通知CPU 101该操作。CPU 101确定所接受的操作是否是按下REC按键211(步骤S102)。
如果在步骤S102中确定接受的操作不是REC按键211的按下,CPU 101执行对应于用户操作的按键的处理,例如,对应PLAY按键212的播放处理,对应NEXT按键124的定位下一标记的处理,或对应PREV按键215的定位前一标记的处理(步骤S103)。显然,也允许快速前进或快速后退。
如果在步骤S102确定按下REC按键,CPU 101命令文件处理器110执行文件记录处理。响应于该命令,文件处理器110在数据存储装置111内创建音频文件111(2)(步骤S104)。
然后,CPU 101确定按键操作单元121的STOP按键213是否被按下(步骤S105)。如果在步骤S105确定按下了STOP按键213,则执行如后面所述的预定终止处理(步骤S114),并退出图4所示的处理。
如果在步骤S105确定没有按下STOP按键213,CPU 101命令A/D转换器132将经麦克风131输入的模拟音频信号转换为数字音频信号,从而收集的声音是数字化的(步骤S106)。
响应于该命令,A/D转换器132将经麦克风131输入的模拟音频信号转换为规则周期(即对于具有预定尺寸的每一处理单元)的数字音频信号,将数字音频信号写入到RAM 103的PCM-数据区域103(2),并通知CPU 101该写入(步骤S107)。
响应于该通知,CPU 101命令数据压缩器141压缩存储在RAM 103的PCM数据区域103(2)内的数字音频信号(PCM数据)(步骤S108)。响应于该命令,数据压缩器141压缩RAM 103的PCM数据区域103(2)内的数字音频信号,并将压缩的数字音频信号写入到RAM 103的压缩数据区域103(1)(步骤S109)。
然后,CPU 101命令文件处理器110将RAM 103的压缩数据区域103(1)内的压缩数字音频信号写入到创建在数据存储装置111中的音频文件111(2)内。因此,文件处理器110将RAM 103的压缩数据区域103(1)内的压缩数字音频信号写入到数据存储装置111中的音频文件111(2)内(步骤S110)。
当完成将压缩数字音频信号写入到音频文件111(2)后,文件处理器110通知CPU 101该完成。然后,CPU 101命令音频特征分析器143分析先前记录在RAM 103的PCM数据区域103(2)的数字音频信号的特征,从而音频特征分析器143提取RAM 103的PCM数据区域103(2)内的数字音频信号的特征(步骤S111)。
音频特征分析器143的数字音频信号的特征分析(特征提取)可以基于不同方法,例如,声波纹分析、语音速率分析、停顿分析、或重音分析。为简化说明起见,在此假定根据第一实施例的IC录音机的音频特征分析器143使用声波纹分析来提取要分析的数字音频信号的特征。
音频特征分析器143比较当前提取的音频特征(声波纹数据)和先前提取的声波纹数据,以确定从输入音频信号提取的特征是否已从先前的特征发生改变,并通知CPU 101该结果。基于该结果,CPU 101确定收集的声音的特征是否改变(步骤S112)。
如果在步骤S112确定特征未改变,则CPU 101在下一时段(下一处理单元)重复从步骤S105到步骤S112对音频信号的处理。
如果在步骤S112确定特征已经改变,则CPU 101确定发言人已改变,并命令文件处理器110分配标记到要处理的音频信号的特征中的改变点(步骤S113)。响应于该命令,文件处理器110将指示关于音频文件111(2)的音频特征中的改变点的信息,如指示从音频文件111(2)开始的时间的信息或指示记录地址的信息写入到数据存储装置111的数据库区域111(1)。此时,音频文件111(2)和指示音频特征改变点的信息相互关联的存储。
在步骤S113之后,CPU 101在下一时段(下一处理单元)重复从步骤S105到步骤S112的对音频信号的处理。
如果在步骤S105确定用户按下了STOP按键213,则CPU 101执行预定的终止处理,所述处理包括:命令文件处理器110停止将数据写入到数据存储装置111的音频文件111(2)内;命令数据压缩器141停止压缩以及命令A/D转换器132停止到数字信号的转换(步骤S114)。然后退出图4所示处理。
音频特征分析器143通过保持先前提取的音频特征数据(声波纹数据),并将先前的音频特征数据和最近提取的音频特征数据(声波纹数据)比较,来确定音频特征是否改变。如果它满足将最近提取的特征数据仅和前一组特征数据比较,则音频特征分析器就能恒定地仅保持前一组特征数据。如果要将最近提取的特征数据和两组或三组先前的特征数据比较以提高精确性,即当观察到来自先前两组或三组特征数据之一不同时确定特征已改变,则必须保持两组或三组先前的特征数据。
如上所述,在根据第一实施例的IC录音机中,能分析记录的收集音频信号的特征,检测收集的音频信号的特征内的改变点,并分配标记到收集的音频信号中的改变点的位置。
播放处理
下面,将说明播放处理。图5是显示由根据第一实施例的IC录音机执行的播放处理的流程图。图5所示处理由控制相关部件的CPU 101执行。
在根据第一实施例的IC录音机的播放处理中,能够使用如参考图4所述的在记录处理中分配到所收集和记录的音频信号的特征中的改变点的标记,从记录的音频信号中快速地找到期望的音频信号段。
当被供电但不操作时,根据第一实施例的IC录音机等待用户的输入操作(步骤S201)。当用户按下按键操作单元121的操作按键时,输入处理器120检测到该操作,并通知CPU 101该操作。CPU 101确定接受的操作是否是按下PLAY按键212(步骤S202)。
如果在步骤S202确定接受的操作不是PLAY按键212的按下,CPU 101执行对应于用户操作的按键的处理,例如,对应REC按键212的记录处理、对应NEXT按键124的定位下一标记的处理或对应PREV按键215的定位前一标记的处理(步骤S203)。显然,也允许快速前进或快速向后。
如果在步骤S202确定接受的操作是播放按键212的按下,CPU 101命令文件处理器110读取数据存储装置111上的音频文件111(2)(步骤S204)。然后,CPU 101确定是否按下了按键操作单元121的STOP按键213(步骤S205)。
如果在步骤S205确定操作了STOP按键213,则将执行如后所述的终止处理(步骤S219)。然后退出图5所示处理。
如果在步骤S205确定没有操作STOP按键213,则CPU 101命令文件处理器110读取存储在数据存储装置111的音频文件111(2)内的压缩数字音频信号的数量,所述数量对应于系统所规定的处理单元的尺寸,并将该数字音频信号写入到RAM 103的压缩数据区域103(1)(步骤S206)。
当完成写入时,通知CPU 101该完成。然后,CPU 101命令数据扩展器142扩展RAM 103的压缩数据区域103(1)内的压缩数字音频信号。然后,数据扩展器142扩展压缩数字音频信号,并将扩展后的数字音频信号写入到RAM 103的PCM数据区域103(2)(步骤S207)。
当完成写入时,通知CPU 101该完成。然后,CPU 101命令D/A转换器134将RAM 103的PCM数据区域103(2)内的扩展数字音频信号转换为模拟信号,并提供该模拟信号到扬声器133。
因此,对应于存储在数据存储装置111的音频文件111(2)内的数字音频信号的声音从扬声器133输出。然后,D/A转换器134通知CPU 101已经输出通过D/A转换获得的模拟音频信号。然后,CPU 101确定是否操作了按键操作单元121的操作按键(步骤S209)。
如果在步骤S209确定没有操作任何操作按键,则重复从步骤S205的处理从而继续播放数据存储装置111的音频文件111(2)内的数字音频信号。
如果在步骤S209确定操作了操作按键,CPU 101确定被操作的按键是否是PREV按键215(步骤S210)。如果在步骤S210确定操作了PREV按键215,则CPU 101命令文件处理器110停止从音频文件111(2)内读取数字音频信号,命令数据扩展器142停止扩展,并命令D/A转换器134停止到模拟信号的转换(步骤S211)。
然后,CPU 101命令文件处理器110从数据存储装置111的数据库区域111(1)读取当前播放位置之前一个的标记信息(改变点信息),从而将播放位置设定到由该标记信息指示的音频信号位置,并从这里开始播放(步骤S212)。此时,如参考图3所述的,显示对应于该用于设定播放位置的标记信息的播放位置信息(步骤S213)。然后,处理从步骤S205重复。
如果在步骤S210确定被操作的按键不是PREV按键215,则CPU 101确定操作的按键是否是NEXT按键214(步骤S214)。如果在步骤S214确定操作了NEXT按键214,则CPU 101命令文件处理器110停止从音频文件111(2)读取数字音频信号,命令数据扩展器142停止扩展,并命令D/A转换器134停止到模拟信号的转换(步骤S215)。
然后,CPU 101命令文件处理器110从数据存储装置111的数据库区域111(1)读取当前播放位置之后一个的标记信息(改变点信息),从而将播放位置设定到由该标记信息指示的音频信号位置,并从这里开始播放(步骤S216)。此时,如参考图3所述的,显示对应于该用于设定播放位置的标记信息的播放位置信息(步骤S217)。然后,处理从步骤S205重复。
如果在步骤S214确定操作的按键不是NEXT按键214,则CPU 101执行对应于操作的按键的处理,例如快进或快退。然后,处理从步骤S205重复。
如上所述,在记录处理中,当检测到音频特征改变时,IC录音机假定发言人改变,并自动分配标记到该改变点。因此,在播放处理中,允许用户仅仅通过按下PREV按键215或NEXT按键214到达各个讲话的开始。这极大的促进了会议记录的准备,例如,当重复播放特定讲话或当搜索重要讲话时。也就是说,能够快速地从记录的音频信号中找到期望的段。
此外,自动检测收集的音频信号的特征中的改变点,并自动分配标记到改变点。因此,无需用户的任何操作就将标记分配给改变点。
第一实施例的修改
当记录会议进行并根据该记录准备会议记录时,如果能够不用播放记录的声音就找到谁在讲话会更加方便。因此,在根据第一实施例的修改的IC录音机中,通过分析会议参加者的声音特征而获得的声波纹数据与符号相联系地存储,其中所述符号用于识别各个参加者,由此分配允许识别发言人的标记。
根据该修改的IC录音机和图1所示根据第一实施例的IC录音机结构相类似。然而,在根据修改的IC录音机中,例如在数据存储装置111或RAM103的存储区域中创建关于会议参加者的音频特征数据库。在下面的说明中,假定在数据存储装置111的存储区域内创建音频特征数据库。
图6是显示在根据修改的IC录音机的数据存储装置111的存储区域内创建的音频特征数据库的例子的图。如图6所示,该例中的音频特征数据库包括:用于识别会议参加者的识别符(例如根据注册顺序的序列号)、会议参加者的姓名、通过分析会议参加者的声音特征获取的声波纹数据、诸如会议参加者面部图像的图像数据、分配给各个会议参加者的图标数据、以及诸如文本数据的其他数据。
声波纹数据、图像数据、图标数据以及其他数据的每一个都以文件形式存储在数据存储装置111内,将各个会议参加者的识别符作为关键信息(联合信息)。通过特征分析获得的声波纹数据是在会议之前通过收集会议参加者的声音并分析这些声音的特征预先获得的。
即,根据修改的IC录音机具有音频特征数据库创建模式。当选择音频特征数据库创建模式时,收集会议参加者的声音,分析收集的声音的特征以获得声波纹数据。在数据存储装置111的存储区域内与诸如序列号码的识别符相关联地存储该声波纹数据。
除了识别符以及声波纹数据的其他信息,例如姓名、图像数据、以及图标数据经连接到连接终端145的个人计算机等提供给根据修改的IC录音机,并和识别符以及声波纹数据相关联地存储,如图6所示。显然,例如,可通过操作提供在IC录音机按键操作单元121上的操作按键来输入姓名,并可用连接到连接终端145的数字照相机捕获图像数据。
如参考图1,2和4所述,在根据修改的IC录音机中也分析收集的声音的特征来检测声波纹数据内的改变点,并自动分配标记到对应于改变点的音频信号位置。当检测到改变点时,检查最近收集的声音的声波纹数据以及音频特征数据库内的声波纹数据的匹配,在分配的标记中包括具有匹配声波纹数据的参加者的识别符。
图7是用于解释分配标记给根据修改的IC录音机记录并收集的音频信号的处理方案的图。该分配标记的处理基本上和参考图2所述的相同。然而,将发言人的识别符附加到标记上。
作为例子,将考虑记录会议进行的情况。假定A在开始记录之后10秒开始讲话,如图2所示。在此情况中,在A开始讲话之前,收集的是静默,或纯语音之外的无意义的声音,即诸如干扰的噪声、拉椅子的声音、或某个物品撞击桌面的声音。因此,收集到的音频信号特征分析结果与A开始讲话之前的结果明显不相同。标识(获取)在音频信号中的改变点的位置,将识别的改变点信息存储为图7中的标记MK1。
在此情况中,检查最近的声波纹数据和音频特征数据库的声波纹数据之间的匹配,并在标记MK1中包括具有匹配声波纹数据的发言人的识别符(会议参加者)。图7还显示将从记录开始之后过去的时间存储为改变点信息的例子。
进一步假定在A停止讲话后不久B开始讲话,B开始讲话之前的一小段时间段是静默或噪声段。在此情况中,同样,当B开始讲话并收集B的声音时,收集的音频信号的特征分析结果和B开始讲话之前明显不相同。因此,如图7中标记MK2所示,存储改变点信息(标记MK2),以便将标记分配给B讲话的起始点。
在此情况中,同样的,检查最近的声波纹数据和音频特征数据库的声波纹数据之间的匹配,并在标记MK2中包括具有匹配声波纹数据的发言人的识别符(会议参加者)。
此外,还可能出现当B讲话时C插话的情况。在此情况下,由于B的声音不同于C的声音,收集的音频信号的分析结果在B、C之间不同。因此,如图7中标记MK3所示,在数据存储装置111内存储改变点信息(标记MK3),从而将标记分配给C讲话的起始点。
在此情况中,同样的,检查最近的声波纹数据和音频特征数据库的声波纹数据之间的匹配,并在标记MK3中包括具有匹配声波纹数据的发言人的识别符(会议参加者)。
这样,能够识别记录的音频信号中的哪一部分是谁的讲话。例如,能够轻易地仅播放A的讲话并概括A的讲话。
对于该修改中的标记的其他信息,例如收集的声音通过语音识别被转换为文本数据,将该文本数据以文本数据文件的形式存储为其他信息。通过使用该文本数据文件,能快速地准备会议记录或讲话概要。
在根据修改的IC录音机中,能以类似参考图1、3和5所述的方式播放记录的声音。此外,在根据修改的IC录音机的情况中,能无需播放记录的声音就能识别记录的声音中的每一发言人的讲话。
图8是显示LCD 135上显示的信息是怎样随着操作而改变的图,该图用于说明当播放记录的音频信号时,将播放位置设定到标记位置的操作。如图8所示,当按下PLAY按键211时,如前所述,CPU 101控制相关部件,从而从指定的所记录的音频信号的起始处开始播放。
在对应于A的讲话的部分,根据如参考图7所述的记录处理中分配的标记MK1,显示关于A的讲话的开始时刻D(1)、对应于发言人图像数据的面部图片D(2)、发言人姓名D(3)、以及该讲话起始部分的文本数据D(4),并显示播放标记D(5),如图8的A部分所示。
然后,继续播放,当开始播放对应于B的讲话的部分时,根据记录处理中分配的播放标记MK2,显示关于B的讲话的开始时刻D(1)、对应于发言人的图像数据的面部图片D(2)、发言人姓名D(3)、以及该讲话起始部分的文本数据D(4),和显示播放标记D(5),如图8的B部分所示。
然后,当按下PREV按键215时,CPU 101将播放位置设定到由标记MK1指示的A讲话的起始点,即开始之后的10秒(0分钟,10秒),因此播放从那里开始,如图8的C部分所示。在此情况中,与图8A部分所示情况类似地显示关于A的讲话的开始时刻D(1)、对应于发言人的图像数据的面部图片D(2)、发言人姓名D(3)、以及该讲话起始部分的文本数据D(4),并显示播放标记D(5)。
然后,当按下NEXT按键214时,CPU 101将播放位置设定到B的讲话的起始点,即由标记MK2指示的开始之后的1分钟25秒,从而播放从那里开始,如图8的D部分所示。在此情况中,与图8B部分所示情况类似地显示关于B的讲话的开始时刻D(1)、对应于发言人的图像数据的面部图片D(2)、发言人姓名D(3)、以及该讲话起始部分的文本数据D(4),并显示播放标记D(5)。
当再次按下NEXT按键214,CPU 101将播放位置设定到C的讲话的起始点,即由标记MK3指示的开始之后的2分钟30秒,从而播放从那里开始,如图8的E部分所示。在此情况中,显示关于C的讲话的开始时刻D(1)、对应于发言人的图像数据的面部图片D(2)、发言人姓名D(3)、以及该讲话起始部分的文本数据D(4),并显示播放标记D(5)。
在该修改中,可以提供一种模式,在该模式中,当快速地按下NEXT按键214或PREV按键215两次,例如,当正播放A的讲话时,播放位置被设定到对应于A的讲话的下一段或前一段,从而播放从那里开始。即,通过重复该操作,能以向前或向后的顺序仅仅播放对应于A的讲话的部分。显然,除了NEXT按键214或PREV按键215,可以提供专用于该模式的操作按键。此时,可以按序自动播放对应于A的讲话的部分。
如上所述,在根据修改的IC录音机中,在记录处理期间,自动分析收集的音频信号的特征,并对特征中的改变点分配标记。在播放处理中,通过操作NEXT按键214或PREV按键215,可将播放位置快速设定到分配的标记所指示的记录音频信号的位置,从而从那里开始播放。
此外,在记录音频信号的改变点,能够通过显示发言人的姓名或面部图片来阐明发言人的标识。因此,易于快速地找到感兴趣的发言人,仅播放对应于特定发言人的讲话的部分等。显然,作为识别发言人的信息,可以显示对应特定于每一发言人的图标数据的图标。此外,能够显示讲话开始部分的文本数据,该文本数据用于区分是否是感兴趣的讲话。
此外,根据该修改的IC录音机的用户被允许通过使用播放时显示的信息快速地将播放位置设定到感兴趣的人的讲话,播放并收听记录的音频信号。因此,用户可以快速地准备关于感兴趣的讲话的会议记录。
即,能够无需播放记录的音频信号就直观地认出是谁在发言,从而易于找到特定发言人的讲话。由于可以使用便于识别发言人的信息,如发言人的面部图片,而不是文本字符串或符号,因此改进了搜索的容易性。
此外,当没有识别出一个发言人时,即当该发言人未注册或当即使该发言人早已注册,但IC录音机未能识别出该发言人时,与该未识别发言人的讲话相关联地分配指示未识别发言人的符号,从而易于找到这一部分。在此情况中,准备会议记录的人播放该未识别发言人的讲话,并识别该发言人。
当将未识别的发言人识别为注册发言人时,可将和该发言人相关的符号分配为标记。当未识别的发言人被识别为未注册发言人时,可执行注册新发言人的操作。从记录的语音中提取该发言人语音的特征,由于该符号与之相关联,可以使用在IC录音机中预先注册的符号或输入到IC录音机的文本字符串、(如果提供的话)由IC录音机的照相机图像形成功能捕获的图像、从外部装置获得的图像数据等。
根据该修改的IC录音机内执行的记录处理与参考图4所述的记录处理类似。然而,当在步骤S113分配指示发言人改变的标记MK1,MK2,MK3,...时,检查和音频特征数据库内d声波纹数据的匹配以分配相关发言人的识别符。当没有对应的声波纹数据时,分配指示缺少对应声波纹数据的标记。
在根据修改的IC录音机内执行的播放处理与参考图5所述的播放处理类似。然而,当在步骤S217显示指示播放位置的信息时,显示发言人的面部图像、发言人姓名以及代表讲话内容的文本数据等。
虽然从记录起始点过去的时间在根据修改的IC录音机内被用作改变点信息,但不限于此,在数据存储装置111的记录介质上的记录音频信号的地址也可被用作改变点信息。
用于分配标记的执行处理过程定时
在根据第一实施例的IC录音机以及根据第一实施例修改的IC录音机中,检测收集的声音内的改变点,并在记录处理中分配标记给对应于改变点的音频信号的位置。然而,不限于第一实施例及其修改,可在记录处理完成之后分配标记。即,可在播放处理中分配标记,或可单独地执行标记分配处理。
图9是在记录处理完成之后用于分配标记给记录的音频信号内的改变点的处理流程图。即,在播放处理期间给记录的声音内的改变点分配标记时或当单独执行给记录的声音内的改变点分配标记的处理时执行图9所示处理。图9所示处理也由IC录音机的控制相关部件的CPU 101执行。
CPU 101命令文件处理器110以预定尺寸的单元读取存储在数据存储装置111的音频文件内的压缩记录音频信号(步骤S301),并确定是否读取了所有记录的音频信号(步骤S302)。
如果在步骤S302确定没有读取全部记录的音频信号,CPU 101命令数据扩展器142扩展压缩的记录音频信号(步骤S303)。然后,CPU 101命令音频特征分析器143分析扩展音频信号的特征以获得声波纹数据,并比较该声波纹数据和先前获得的声波纹数据,由此确定记录的音频信号的特征是否改变(步骤S305)。
如果在步骤S305确定记录的音频信号的特征没有改变,从步骤S301重复该处理。如果在步骤S305确定记录的音频信号的特征改变了,CPU 101确定发言人已经改变,并命令文件处理器110分配标记给音频特征改变的点(步骤S306)。
因此,文件处理器110将指示从文件起始处过去的时间的信息或指示对应记录位置的地址的信息写入到数据存储装置111的数据库区域111(1),作为指示关于音频文件111(2)的音频特征中的改变点的信息。在此情况中,音频文件以及指示音频特征中的改变点的信息相互关联的存储。
在步骤S306之后,CPU 101对下一时段(下一处理单元)的音频信号重复从步骤S301的步骤。然后,如果在步骤S302确定读取了所有的记录音频信号,执行预定的终止处理(步骤S307),退出图9所示处理。
因此,在记录处理之后,能够在播放处理期间检测到记录的声音内的改变点,并为记录的声音分配标记,或独立执行分配标记给记录的声音的处理。当在播放处理中分配标记时,如9所示在步骤S303扩展的音频信号被D/A转换,得到的模拟音频信号被提供给扬声器133。
如上所述,通过在记录之后给记录的音频信号的特征中的改变点分配标记,可以降低用于记录的处理负载以及功耗。此外,由于用户可能不希望在每个记录中自动分配标记,允许设定是否在记录期间自动分配标记。当用户关闭自动标记分配功能来执行记录时,如果稍后希望分配标记,则允许用户甚至如上所述在记录处理之后分配标记给记录的音频信号,这是非常方便的。
此外,由于可如上所述分配标记给记录的音频信号,应用到不具有记录功能但具有信号处理功能的设备是可能的。例如,该实施例可被应用于用在个人计算机的应用软件。在此情况下,由音频记录设备记录的音频信号被传送到个人计算机,从而可由运行在个人计算机上的信号处理应用软件来分配标记。
此外,通过网络等共享由根据本实施例的设备创建的数据,能够将数据自身用作会议记录而无需转录该数据。
因此,本实施例可应用于能进行信号处理的各种电子设备,而不仅仅限于记录设备。因此,使用根据本实施例的电子装置来处理音频信号,对于已经记录的音频信号可以获得类似结果。即,可以更有效地准备会议记录。
此外,如前所述,图1所示根据第一实施例的IC录音机包括通信I/F144,从而该IC录音机能连接到电子设备,诸如个人计算机。因此,通过传送由该IC录音机记录的数字音频信号,包括分配给改变点的标记到个人计算机,能够在具有较大屏幕的个人计算机的显示器上显示更详细的信息。这允许快速搜索感兴趣的发言人的讲话。
图10和11是显示基于从根据第一实施例的IC录音机传送到给个人计算机的记录信号以及分配给记录信号的改变点信息(标记信息),在连接到个人计算机的显示器200的显示屏幕上显示的改变点信息的例子。
在图10所示例子中,显示与记录的音频信号相关的时间范围指示201,以及在时间范围指示201的适当位置上显示标记(改变点)MK1、MK2、MK3、MK4...。因此,能一眼就认出多个改变点的位置。此外,例如使用诸如鼠标的点击装置通过放置其上的光标点击某个标记,能够从那里播放记录的声音。
在图11所示的例子中,在显示器200的显示屏幕上同时显示图8所示的多组项。更具体的,显示发言人的面部图片211(1)、211(2)、211(3)...,以及对应于讲话内容的文本数据212(1)、212(2)、212(3)...,允许快速搜索感兴趣的发言人的讲话。此外,还能使用个人计算机的功能显示标题指示210。
在图11所示的例子中,左侧的“00”、“01”、“02”、“03”...指示从记录声音的开始点过去的时间。显然,可以实现多种显示模式,例如显示图8所示的多个组的项的模式。
通过将数据传送到诸如个人计算机的具有较大显示器的设备,在该数据中,用识别发言人的信息(符号)来识别记录的讲话,能够无需转录音频数据就准备好会议记录。即,由根据第一实施例的IC录音机记录的数据被直接用作会议记录。
此外,使用诸如插入件从而使数据在网页上变得可用并可通过网页浏览器浏览的软件,能通过网络共享会议记录。这有助于极大地降低用于共享信息,例如使信息有效可用的劳动以及时间。
第二实施例
IC录音机的结构和操作概览
图12是根据本发明第二实施例的记录/播放设备IC录音机的框图。除了提供两个麦克风131(1)和131(2)以及一个音频信号处理器136之外,根据第二实施例的IC录音机和图1所示根据第一实施例的IC录音机的构成相同,该处理器用于处理从两个麦克风131(1)和131(2)输入的音频信号。因此,对于根据第二实施例的IC录音机,用相同标号表示那些对应于根据第一实施例的IC录音机的部分,省略对它们的详细说明。
在根据第二实施例的IC录音机中,从两个麦克风131(1)和131(2)输入的收集的音频信号由音频信号处理器136处理,以识别发言人位置(音源位置),从而可以考虑发言人的位置来识别收集的音频信号中的改变点(发言人改变点)。即,当使用由音频分析而获得的声波纹数据检测到收集的音频信号内的改变点时,根据两个麦克风收集的声音的发言人位置被用作辅助信息,从而可以更准确的识别发言人或改变点。
图13是显示麦克风131(1)和131(2)以及音频信号处理器136的结构例子的图。在图13所示的例子中,两个麦克风131(1)和131(2)中的每一个都是单向的,如图13所示。麦克风131(1)和131(2)背靠背相互靠近的分布,从而它们方向性的主方向是相对的。因此,麦克风131(1)优选地收集发言人A的讲话,而麦克风131(2)优选地收集发言人B的讲话。
如图13所示,音频信号处理器136包括:加法器1361、比较器1362、以及A/D转换器1363。由麦克风131(1)和131(2)的每一个收集的音频信号被提供给加法器1361以及比较器1362。
加法器1361将麦克风131(1)收集的音频信号和麦克风131(2)收集的音频信号相加,将音频信号之和提供给A/D转换器1363。麦克风131(1)收集的音频信号和麦克风131(2)收集的音频信号之和可用下面的等式(1)表示,等效于由一个无方向性麦克风收集的音频信号。
((1+cosθ)/2)+((1-cosθ)/2)=1    (1)
比较器1362比较麦克风131(1)收集的音频信号和麦克风131(2)收集的音频信号。当麦克风131(1)收集的音频信号电平较高时,比较器1362确定主要是发言人A在讲话,并提供具有值为“1”(高电平)的发言人区别信号给控制器100。另一方面,当麦克风131(2)收集的音频信号电平较高时,比较器1362确定主要是发言人B在讲话,提供具有值为“0”(低电平)的发言人区别信号给控制器100。
因此,根据麦克风131(1)收集的音频信号和麦克风131(2)收集的音频信号确定发言人位置,允许区分发言人A的讲话和发言人B的讲话。
如果第三发言人C从穿过麦克风131(1)和麦克风131(2)的方向性的主方向的方向讲话,即,从斜对发言人A和B的位置(图13的横向方向),麦克风131(1)和131(2)收集的音频信号的电平实际相等。
为处理在此位置的发言人C的讲话,可为比较器1362定义两个阈值,确定当电平差在±V之内时发言人是位于横向方向的发言人C,当电平差高于+V时发言人是发言人A,而当电平差低于-V时发言人是发言人B。
通过预先认出在麦克风131(1)的方向性方向上的发言人、麦克风131(2)方向性方向上的发言人、横贯麦克风131(1)和麦克风131(2)方向性方向上的发言人,使得可识别发言人。因此,当根据通过分析收集的声音的特征获得的声波纹数据来检测到改变点时,可通过考虑由麦克风收集到的声音电平来更准确地识别发言人。
麦克风和音频信号处理器的另一个例子
可选的,麦克风131(1)和131(2)以及音频信号处理器136可如图14的构成。图14是显示麦克风131(1)和131(2)以及音频信号处理器136的另一种示范结构的图。在图14所示例子中,两个麦克风131(1)和131(2)是无方向性的,如图14所示。麦克风131(1)和131(2)相互临近分布,例如中间的缝隙大约为1厘米。
如图14所示,本例中的音频信号处理器136包括加法器1361、A/D转换器1363、减法器1364、以及相位比较器1365。由麦克风131(1)和131(2)中的每一个收集的音频信号被提供给加法器1361和减法器1364。
从加法器1361输出的和信号等效于无方向性麦克风的输出,从减法器1364输出的减法信号等效于双向性(8-figure directivity)麦克风的输出。双向性麦克风的输出的相位根据声波的入射方向为正或负。因此,加法器1361的和输出(无方向性输出)的相位与减法器1364的减法输出相位由相位比较器1365比较,以确定减法器1364的减法输出的极性,从而识别发言人。
即,当减法器1364的减法输出的极性是正时,确定收集的是A发言人的讲话。另一方面,当减法器1364的减法输出的极性是负时,确定收集的是B发言人的讲话。
此外,与参考图13所述的例子相同,当处理斜对发言人A和B(在图14的横向方向上)的发言人C的讲话时,对应发言人C的讲话的收集的音频信号的减法输出电平较小。因此,通过检查加法器1361的和输出以及减法器1364的减法输出电平,能够识别发言人C的讲话。
虽然图14所示音频信号处理器136包括加法器1361,加法器1361不是必需的部件。例如,麦克风131(1)和131(2)之一的输出信号可以被提供给A/D转换器1363以及相位比较器1365。
如上所述,在图13和14所示的例子中,在记录处理中,能够使用两个麦克风131(1)和131(2)收集的声音的电平或极性来识别发言人的位置。此外,通过考虑该识别结果,能检测收集的声音内的改变点,并准确地识别发言人。
当播放处理期间给记录的声音分配标记时或当独立执行给记录的声音分配标记的处理时能够采用图13和14所示的方案。
例如,当在记录处理后应用参考图13说明的方案时,单向麦克风131(1)和131(2)收集的音频信号由2-信道立体声录音来记录,如图15A所示。而在播放处理或独立执行分配标记的处理时,扩展从数据存储装置111读取的两个信道的压缩音频信号,然后两个信道的扩展音频信号被输入到具有和图13所示比较器1362相同功能的比较器中。
因此,能够确定是主要使用麦克风131(1)收集的音频信号还是主要使用麦克风131(2)收集的音频信号。因此,能够根据该确定结果以及预先知道的相对于每一麦克风的发言人的位置来识别发言人。
类似地,在记录处理之后应用参考图14说明的方案时,由2-信道立体声录音记录从麦克风131(1)和131(2)输出的信号,并在播放处理期间或独立执行分配标记的处理时,可通过由图14所示的音频信号处理器136执行的相同处理来识别发言人。
当使用从麦克风131(1)和131(2)的输出信号识别发言人时,预先准备的指示发言人相对于每一麦克风131(1)和131(2)的位置的信息存储在IC录音机中,例如以图16所示的发言人位置数据库的形式。
图16是显示发言人位置数据库的例子的图。在此例中,发言人位置数据库包括:对应于来自IC录音机的音频信号处理器136的识别结果的发言人区别信号、与各个发言人区别信号相关的麦克风的识别信息、以及主要使用麦克风的候选发言人的发言人识别符。如图16所示,能够与单个麦克风相联系地登记多个麦克风。
图16所示的发言人位置数据库最好在会议之前预先创建。通常,会议参加者以及这些参加者的座位是预先确定的。因此,考虑设定IC录音机的位置,能够在会议之前创建发言人位置数据库。
当会议参加人改变而没有提前通知时,或在会议期间座位改变,例如,没有使用基于麦克风收集的声音的发言人的识别时,仅仅根据音频分析获得的声波纹数据来检测改变点。可选地,在记录处理后可将发言人位置数据库调整为准确的,并重新分配标记给记录的声音。
通过使用图16所示的发言人位置数据库,能够识别发言人位置以及识别在该发言人位置的发言人。
虽然在第二实施例中使用两个麦克风131(1)和131(2)以及涉及两个或三个发言人,但是麦克风的数目不限于2,发言人的数目也不限于3。使用大量麦克风能够识别较大数目的发言人。
此外,通过从麦克风输出的信号来识别发言人的位置进而识别发言人的方案不限于参考图13和14所述的。例如,也可以使用相邻放置的四点麦克风方法或相邻放置的三点麦克风方法。
在相邻放置的四点麦克风方法中,相邻放置四个麦克风M0、M1、M2和M3,从而麦克风之一不在其他三个麦克风所限定的平面上,如图17A所示。考虑到在由四个麦克风M0、M1、M2和M3收集的音频信号的时间结构上的细微差异,由短期相关、声强等计算诸如声源位置或规模的空间信息。这样,通过使用至少四个麦克风,能够准确地识别发言人位置,并根据该发言人位置(座位位置)识别发言人。
当发言人实际是在一个水平平面的假设可以接受时,则在一个水平平面内提供相互邻近的三个麦克风就足够了,如图17B所示。
此外,麦克风的配置无需像图17A和17B所示的是正交的。例如,在图17B所示相邻配置的三点麦克风方法中,麦克风的配置可以是这样的,三个麦克风分布在等边三角形的顶点。
第二实施例的修改
在如上所述根据第二实施例的IC录音机中,当使用音频分析获得的声波纹数据来检测收集的音频信号内的改变点时,根据从两个麦克风收集的声音来考虑主要使用的麦克风的区分的结果,从而改进检测音频信号内的改变点的精确性。然而,其他配置也是可能的。
例如,可能提供包括两个麦克风131(1)和131(2)以及音频信号处理器136但不包括音频特征分析器143的IC录音机,如图18所示。即,除了不提供音频特征分析器143,如18所示的IC录音机和图12所示的根据第二实施例的IC录音机的结构相同。
能够仅根据主要使用的麦克风的区别的结果,两个麦克风131(1)和131(2)收集的声音来检测出发言人改变点,根据主要使用的麦克风的区别的结果检测发言人改变,并分配标记到对应于该改变点的音频信号的位置。在该例中,无需分析音频特征的处理,因此降低了CPU 101的负载。
虽然在上述实施例中给要处理的音频信号内的改变点分配标记,但是还能仅给发言人的改变点分配标记,从而更有效的搜索变为可能。例如,根据要处理的音频信号的信号电平或声波纹数据,话音段与其他段,例如噪声被非常清楚区分,仅对话音段的起始点分配标记。
此外,根据音频信号频率特征数据或声波纹数据,能够区分发言人是男还是女,报告在改变点的发言人的性别的区别。
此外,根据以如上方式分配的标记信息,能够提供例如,仅用于搜索的搜索模式;用于改变分配的标记的位置、删除标记或增加标记的标记编辑模式;或用于仅播放基于分配的标记所指定的发言人的讲话的特定播放模式,例如仅仅是A的讲话。通过添加代码到CPU 101执行的程序中可以相对比较容易地实现这些模式。
此外,可提供数据库更新功能,从而例如可以用用于检测改变点的声波纹数据更新图6所示的音频特征数据库内的声波纹数据,以此改进音频特征数据库的准确性。例如,甚至在比较声波纹数据的处理中某发言人的声波纹数据未发现匹配时,如果该发言人的声波纹数据实际上存在于该音频特征数据库内,则用最近获得的声波纹数据来替换音频特征数据库内的声波纹数据。
此外,当比较处理中某发言人的声波纹数据和另一个发言人的声波纹数据匹配时,可以做出设置,从而在比较处理中不使用该不同的发言人的声波纹数据。
当声波纹数据和多个发言人的声波纹数据匹配时,定义使用的声波纹数据的优先级,从而该声波纹数据仅和正确的发言人的声波纹数据匹配。
此外,可给讲话的结束点以及起始点都分配标记。此外,分配标记的位置可以改变,例如,考虑各个用户的方便性,在起始点之前或之后几秒。
此外,如前所述,可使用一种或多种不同方法来分析音频信号的特征,而不限制于声波纹分析,以便可以获得精确的分析数据。
虽然以上主要以使用两个麦克风的情况来说明第二实施例,但是麦克风的数目不限于此,可以是不小于2的任何数。使用诸如信号电平、极性、或各个麦克风收集声音的延迟时间等不同参数来识别发言人位置,使得能够根据该发言人位置来识别发言人。
此外,虽然第一和第二实施例都是以将本发明应用于记录并播放音频信号的设备——IC录音机的情况来说明的,但是本发明的应用并不限于IC录音机。例如,本发明可应用于记录设备、播放设备以及和不同记录介质一起使用的记录/播放设备,例如诸如硬盘的磁光盘,以及MD或诸如DVD的光盘。
软件实施
本发明还可以用程序实现,当由CPU 101执行时,实现根据上述实施例的音频特征分析器143、音频信号处理器136以及IC录音机的其他处理单元的功能,并有效连接这些功能。即,本发明可通过准备用于执行如图4和5所示的流程的程序以及由CPU 101执行该程序来实现。
此外,与上述实施例类似,由录音机记录的音频数据可由个人计算机捕获,该个人计算机内部具有实现音频特征分析器143的功能的程序,以便该个人计算机能够检测发言人改变。

Claims (20)

1、一种音频信号处理设备,包括:
第一检测装置,用于基于具有预定尺寸的各个处理单元,根据音频信号来检测在要处理的音频信号中的发言人改变;
获取装置,用于获取指示其中所述第一检测单元已检测到发言人改变的音频信号的位置的改变点信息;以及
保存装置,用于保存由获取装置获取的改变点信息。
2、根据权利要求1所述的音频信号处理设备,其中第一检测装置能基于各个处理单元来提取该音频信号的特征,并根据所提取的特征来检测从非话音段到话音段的改变点以及话音段内的发言人改变点。
3、根据权利要求2所述的音频信号处理设备,进一步包括:
存储装置,用于存储代表一个或多个发言人的语音特征的一个或多个特征信息,以及所述一个或多个发言人的一个或多个识别信息,所述多个特征信息和多个识别信息是分别相互关联的;以及
识别装置,用于通过比较第一检测装置提取的特征和存储在存储装置内的所述多个特征信息来识别发言人;
其中该保存装置保存改变点信息以及由识别装置识别的发言人的识别信息,所述改变点信息和所述识别信息相互联系。
4、根据权利要求2所述的音频信号处理设备,进一步包括:第二检测装置,用于通过分析分别与多个麦克风相关联的多个音频信道的多个音频信号来检测发言人的位置,其中所述获取装置根据第二检测装置检测到的发言人位置中的改变来识别改变点,并获取对应于所识别的改变点的改变点信息。
5、根据权利要求3所述的音频信号处理设备,进一步包括:
发言人信息存储装置,用于存储根据分别与多个麦克风相关联的多个音频信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置的多个发言人的多个识别信息,所述多个发言人位置分别与所述多个识别信息相关联;以及
发言人信息获取装置,用于从发言人信息存储装置获取与发言人位置相关联的识别信息,该发言人位置是通过分析多个音频信道的多个音频信号来确定的;
其中该识别装置根据由发言人信息获取装置获取的识别信息来识别该发言人。
6、根据权利要求3所述的音频信号处理设备,进一步包括显示信息处理装置,其中存储装置存储分别与对应于各个识别信息的发言人相关联的多个信息,所述多个信息分别与各个识别信息相关联,以及该显示信息处理装置显示音频信号中的改变点的位置以及与由识别装置识别的发言人相关的信息。
7、根据权利要求1所述的音频信号处理设备,其中第一检测装置根据发言人位置来检测发言人改变,其中所述发言人位置是通过分析各个音频信道的多个音频信号而确定的,所述音频信号是由不同麦克风收集的。
8、根据权利要求7所述的音频信号处理设备,其中保存装置保存改变点信息以及指示由第一检测装置检测到的发言人位置的信息,该改变点信息与指示发言人位置的信息相互关联。
9、根据权利要求7所述的音频信号处理设备,进一步包括:
发言人信息存储装置,用于存储根据分别与多个麦克风相关联的多个信道的多个音频信号而确定的发言人位置,以及在各个发言人位置的发言人的多个识别信息,所述多个发言人位置分别与所述多个识别信息相互关联;以及
发言人信息获取装置,用于从发言人信息存储装置获取与发言人位置相关联的发言人的识别信息,该发言人位置是通过分析多个音频信道的多个音频信号来确定的;
其中保存装置保存改变点信息以及由发言人信息获取装置获取的识别信息,所述改变点信息与所述识别信息相互关联。
10、根据权利要求9所述的音频信号处理设备,进一步包括显示信息处理装置,其中发言人信息存储装置存储分别与对应于各个识别信息的发言人相关的多个信息,所述多个信息分别与各个识别信息相关联,以及该显示信息处理装置显示音频信号中的改变点的位置,以及与所确定的发言人位置相联系的、与发言人相关的信息。
11、一种音频信号处理方法,包括:
第一检测步骤,根据音频信号,基于具有预定尺寸的各个处理单元,检测要处理的音频信号中的发言人改变;
获取步骤,获取指示已在第一检测步骤中检测到发言人改变的音频信号的位置的改变点信息;以及
存储步骤,在记录介质上存储在获取步骤获取的改变点信息。
12、根据权利要求11所述的音频信号处理方法,其中在第一检测步骤中,基于各个处理单元提取该音频信号的特征,并根据提取的特征来检测从非话音段到话音段的改变点以及话音段内的发言人的改变点。
13、根据权利要求12所述的音频信号处理方法,进一步包括识别步骤,通过比较在第一检测步骤中提取的特征和表示一个或多个发言人的语音特征的一个或多个特征信息来识别发言人,所述多个特征信息和所述一个或多个发言人的一个或多个识别信息相互关联地存储在记录介质上,其中改变点信息和在识别步骤中识别的发言人的识别信息在存储步骤中被相互关联地存储在该记录介质上。
14、根据权利要求12所述的音频信号处理方法,进一步包括:第二检测步骤,通过分析分别与多个麦克风相关联的多个音频信道的多个音频信号来检测发言人位置,其中在获取步骤中,根据在第二检测步骤中检测到的发言人位置中的改变来识别改变点,并获取对应于所识别的改变点的改变点信息。
15、根据权利要求13所述的音频信号处理方法,进一步包括:
发言人信息存储步骤,在发言人信息存储装置上预先存储根据分别与多个麦克风相关联的多个音频信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置上的多个发言人的多个识别信息,所述多个发言人位置分别与所述多个识别信息相关联;以及
发言人信息获取步骤,从发言人信息存储装置获取与发言人位置相关联的发言人识别信息,该发言人位置是通过分析多个音频信道的多个音频信号来确定的;
其中在该识别步骤中,根据在发言人信息获取步骤获取的识别信息来识别该发言人。
16、根据权利要求13所述的音频信号处理方法,进一步包括显示信息处理步骤,其中在记录介质上分别与各个识别信息相关联地存储分别与对应于各个识别信息的多个发言人相关的多个信息,以及在显示信息处理步骤中显示音频信号中的改变点的位置和与在识别步骤中所识别的发言人相关的信息。
17、根据权利要求11所述的音频信号处理方法,其中在第一检测步骤中,根据通过分析各个音频信道的多个音频信号而确定的发言人位置来检测改变点,该音频信号是由不同麦克风收集的。
18、根据权利要求17所述的音频信号处理方法,其中在存储步骤中相互关联地存储改变点信息和在第一检测步骤中检测到的指示发言人位置的信息。
19、根据权利要求17所述的音频信号处理方法,进一步包括:
发言人信息存储步骤,在发言人信息存储装置上预先存储根据分别与多个麦克风相关联的多个信道的多个音频信号而确定的多个发言人位置,以及在各个发言人位置的多个发言人的多个识别信息,所述多个发言人位置分别与多个识别信息相关联;以及
发言人信息获取步骤,从发言人信息存储装置获取与发言人位置相关联的发言人的识别信息,该发言人位置是通过分析多个音频信道的多个音频信号来确定的;
其中在存储步骤中相互关联地存储改变点信息和在发言人信息获取步骤中获取的识别信息。
20、根据权利要求19所述的音频信号处理方法,进一步包括显示信息处理步骤,其中存储装置存储分别与对应于各个识别信息的多个发言人相关的多个信息,所述多个信息分别与各个识别信息相关联,以及在显示信息处理步骤中显示音频信号中的改变点的位置,以及与所确定的发言人位置相关联的发言人有关的信息。
CNB2005100601004A 2004-01-14 2005-01-14 音频信号处理设备和音频信号处理方法 Expired - Fee Related CN1333363C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004006456A JP2005202014A (ja) 2004-01-14 2004-01-14 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP006456/2004 2004-01-14
JP006456/04 2004-01-14

Publications (2)

Publication Number Publication Date
CN1652205A CN1652205A (zh) 2005-08-10
CN1333363C true CN1333363C (zh) 2007-08-22

Family

ID=34820412

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100601004A Expired - Fee Related CN1333363C (zh) 2004-01-14 2005-01-14 音频信号处理设备和音频信号处理方法

Country Status (4)

Country Link
US (1) US20050182627A1 (zh)
JP (1) JP2005202014A (zh)
KR (1) KR20050074920A (zh)
CN (1) CN1333363C (zh)

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US9300790B2 (en) 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070286358A1 (en) * 2006-04-29 2007-12-13 Msystems Ltd. Digital audio recorder
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2008032825A (ja) * 2006-07-26 2008-02-14 Fujitsu Fsas Inc 発言者表示システム、発言者表示方法および発言者表示プログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008170588A (ja) * 2007-01-10 2008-07-24 Kenwood Corp 音声記録装置及び音声記録方法
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4909854B2 (ja) 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP5156934B2 (ja) * 2008-03-07 2013-03-06 学校法人日本大学 音響測定装置
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090313010A1 (en) * 2008-06-11 2009-12-17 International Business Machines Corporation Automatic playback of a speech segment for media devices capable of pausing a media stream in response to environmental cues
JP5093702B2 (ja) * 2008-06-20 2012-12-12 学校法人日本大学 音響エネルギ計測装置並びにこれを用いた音響性能評価装置及び音響情報計測装置
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP4964204B2 (ja) * 2008-08-27 2012-06-27 日本電信電話株式会社 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP2505001A1 (en) * 2009-11-24 2012-10-03 Nokia Corp. An apparatus
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
CN102934107B (zh) 2010-02-18 2016-09-14 株式会社尼康 信息处理装置、便携式装置以及信息处理系统
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
JP5330551B2 (ja) * 2012-01-13 2013-10-30 株式会社東芝 電子機器および表示処理方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
WO2015128960A1 (ja) * 2014-02-26 2015-09-03 三菱電機株式会社 車載制御装置および車載制御方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
JP6340926B2 (ja) * 2014-06-09 2018-06-13 株式会社リコー 情報処理システム、情報処理装置およびプログラム
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
KR102224568B1 (ko) 2014-08-27 2021-03-08 삼성전자주식회사 오디오 데이터 처리 방법과 이를 지원하는 전자 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
KR101888391B1 (ko) * 2014-09-01 2018-08-14 삼성전자 주식회사 음성 신호 관리 방법 및 이를 제공하는 전자 장치
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP6509516B2 (ja) * 2014-09-29 2019-05-08 Dynabook株式会社 電子機器、方法及びプログラム
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
CN104751846B (zh) * 2015-03-20 2019-03-01 努比亚技术有限公司 语音到文本转换的方法及装置
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10089061B2 (en) * 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN108885869B (zh) * 2016-03-16 2023-07-18 索尼移动通讯有限公司 控制包含语音的音频数据的回放的方法、计算设备和介质
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106356067A (zh) * 2016-08-25 2017-01-25 乐视控股(北京)有限公司 录音方法、装置及终端
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR101818980B1 (ko) * 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10650813B2 (en) * 2017-05-25 2020-05-12 International Business Machines Corporation Analysis of content written on a board
CN107729441B (zh) * 2017-09-30 2022-04-08 北京酷我科技有限公司 一种音频文件的处理方法及系统
CN108172213B (zh) * 2017-12-26 2022-09-30 北京百度网讯科技有限公司 娇喘音频识别方法、装置、设备及计算机可读介质
WO2020142567A1 (en) * 2018-12-31 2020-07-09 Hed Technologies Sarl Systems and methods for voice identification and analysis
CN111046216B (zh) * 2019-12-06 2024-02-09 广州国音智能科技有限公司 音频信息存取方法、装置、设备及计算机可读存储介质
US11609738B1 (en) 2020-11-24 2023-03-21 Spotify Ab Audio segment recommendation
CN115394304B (zh) * 2021-03-30 2024-09-20 北京百度网讯科技有限公司 声纹判定方法、装置、系统、设备和存储介质
CN113299319B (zh) * 2021-05-25 2023-01-24 华晨鑫源重庆汽车有限公司 基于边缘ai芯片的声音识别模块及识别方法
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム
CN1422494A (zh) * 2000-12-05 2003-06-04 皇家菲利浦电子有限公司 在电视会议和其他应用中预测事件的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
GB9925297D0 (en) * 1999-10-27 1999-12-29 Ibm Voice processing system
US20040163034A1 (en) * 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
KR20050081470A (ko) * 2004-02-13 2005-08-19 주식회사 엑스텔테크놀러지 음성인식 가능한 메시지 녹음/재생방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2002014691A (ja) * 2000-05-11 2002-01-18 Fuji Xerox Co Ltd ソース音声信号内の新規点の識別方法
CN1422494A (zh) * 2000-12-05 2003-06-04 皇家菲利浦电子有限公司 在电视会议和其他应用中预测事件的方法和装置
JP2002333897A (ja) * 2001-03-08 2002-11-22 Matsushita Electric Ind Co Ltd 韻律生成装置および韻律生成方法並びにプログラム

Also Published As

Publication number Publication date
CN1652205A (zh) 2005-08-10
JP2005202014A (ja) 2005-07-28
US20050182627A1 (en) 2005-08-18
KR20050074920A (ko) 2005-07-19

Similar Documents

Publication Publication Date Title
CN1333363C (zh) 音频信号处理设备和音频信号处理方法
CN108305632B (zh) 一种会议的语音摘要形成方法及系统
CN108346034B (zh) 一种会议智能管理方法及系统
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
US10977299B2 (en) Systems and methods for consolidating recorded content
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US6434520B1 (en) System and method for indexing and querying audio archives
US11315366B2 (en) Conference recording method and data processing device employing the same
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
WO2016197708A1 (zh) 一种录音方法及终端
CN102982572A (zh) 一种智能化图像编辑方法和装置
CN105895102A (zh) 录音编辑方法及录音装置
CN116246610A (zh) 基于多模态识别的会议记录生成方法及系统
CN206672635U (zh) 一种基于图书服务机器人的语音交互装置
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN109635151A (zh) 建立音频检索索引的方法、装置及计算机设备
CN113761986A (zh) 文本获取、直播方法、设备及存储介质
JP3234083B2 (ja) 検索装置
CN111369969A (zh) 一种新闻资讯编播的方法及其终端
CN114974255A (zh) 基于酒店场景的声纹识别方法、系统、设备及存储介质
CN104350545A (zh) 自动记录装置
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
Liu et al. Major cast detection in video using both audio and visual information
JP2008102538A (ja) 記憶再生装置及び記憶再生装置の制御方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070822

Termination date: 20100222