CN101185115A

CN101185115A - 语音编辑装置、语音编辑方法和语音编辑程序

Info

Publication number: CN101185115A
Application number: CNA2006800185552A
Authority: CN
Inventors: 寺西利之; 幡野浩司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2005-05-27
Filing date: 2006-05-25
Publication date: 2008-05-21
Anticipated expiration: 2026-05-25
Also published as: JPWO2006126649A1; EP1884923A1; WO2006126649A1; US20090106027A1; EP1884923A4; CN101185115B; US8438027B2; JP5094120B2

Abstract

可以方便地丰富登记在语音识别装置中的标准模式并且有效地扩充可以以语音识别的词的数量。通过部分地变更现存标准模式而有效地生成新标准模式，而不是从零开始来生成新标准模式。变更部分指定单元(14)中的模式匹配单元(16)执行匹配处理来标识将要变更的现存标准模式中的一部分。标准模式生成单元(18)通过剪切掉将要变更的标准模式的该部分上的语音数据、删除它以及用另一语音数据置换它或者将其与另一语音数据组合来生成新标准模式。标准模式数据库更新单元(20)添加新标准模式到标准模式数据库(24)。

Description

语音编辑装置、语音编辑方法和语音编辑程序

技术领域

本发明涉及语音编辑装置、语音编辑方法和语音编辑程序。

背景技术

一般来说，当编辑者编辑已记录语音数据时，该编辑者在聆听所播放的语音的同时指定并剪切编辑点(editing point)。

在专利文献5中，当编辑者生成语音卡(这是通过将语音记录在卡并将图片贴在卡上来生成的)时，编辑者利用高级语音编辑程序将语音表示在计算机屏幕上的编辑窗口中，并使用诸如鼠标之类的工具来删除、剪切或组合语音的组成部分。

此外，语音识别装置将语音标准模式(以下称为“标准模式”)用作语音识别词典(voice recognition dictionary)以识别语音。然而，标准模式需要进行扩充以增加可以以语音识别(voice-recognize)的词(word)的数量。在这种情况下，可以删除或剪切现存标准模式的组成部分。

现在描述在语音识别装置中作为语音识别词典的标准模式的编辑。

语音识别装置将目标语音分割为预定时间间隔(帧)，提取指示每一帧的语音波形的特征的多维特征参数(倒谱(cepstrum))，将特征参数的时间序列模式与在语音识别装置中累积的标准模式(作为语音识别的基本单元的多个词的特征参数的时间序列模式)进行比较，确定它们之间的相似度，并将具有最高相似度的词输出作为识别结果。

通过将语音信号以约20到40毫秒的时间帧分开以获得倒谱(特征参数)，其使用与该时间帧对应的语音信号的快速傅立叶变换(FFT)，获得幅度谱的对数，并使用该对数的频谱的离散傅立叶逆变换(IDFT)。

由FFT获得的该语音的频谱包括该语音的近似结构信息(指示音位性质的包络信息)以及微振荡分量的信息(指示声音的音调的微结构信息)。在语音识别的情况下，提取语音的音素(即估计语音的声音)很重要，而微结构信息不是很重要。因此，通过使用对数的频谱的IDFT将包络信息和微结构信息彼此分开。

当使用IDFT时，包络信息被集中在类频率(quefrency)轴(水平轴)的左边，而微结构信息被集中在类频率轴的右边。因此，包络信息和微结构信息可以有效地彼此分开。这就是倒谱。对于语音分析，可以用LPC(线性预测编码)代替FFT。

Mel暗示根据人类听觉性能将类频率轴转换为对数函数。

在该发明中，“倒谱”包括“Mel倒谱”，其主要被表示为“特征参数”。“倒谱”或“特征参数”可以被表示为“语音数据”。上位概念(super ordinateconcept)“语音数据”除了语音的特征参数外(倒谱)外，还包括“被转换为文本的语音”和“语音数据(波形数据)”。

语音识别装置具有多个标准模式(即关于作为识别单元的每一个词的例谱：指示该词的声音的特征的特征参数)作为识别词典。该语音识别装置需要具有许多标准模式以增加可以识别的词的数量。

专利文献1公开了通过输入词的文本并自动生成词的标准模式生成用于语音识别的新标准模式的方法。

专利文献2提出了将音素词典用来代替标准模式。专利文献2公开了这样的音频识别技术：为了生成用于非特定个人的识别词典，将少量人发音的词的特征参数与基于大量人的语音生成的普通标准模式进行比较，以便根据比较结果生成音素词典并用于音频识别。

专利文献3公开了用以控制配备有语音识别装置的移动终端(移动终端等)的操作的识别语音的技术。

专利文献4公开了在配备有语音识别装置和文本转换装置的移动终端(移动终端、PDA等)中将输入语音自动转换为文本数据的技术。

由于移动终端需要小巧和廉价，因此实际上移动终端配备具有简单识别词典(标准模式)的相对廉价的语音识别装置。在这种情况下，用户根据其情形更新移动终端的识别词典(即用户定制识别词典)。

当用户定制安装在移动终端上的识别词典时，如果其过程或操作太复杂，则会给移动终端用户造成不便。因此，需要不给用户使用造成困难并允许用户轻松地扩充识别词典(标准模式)的技术。此外，例如，当编辑大量语音数据的组成部分时，由于从其开头输入大量语音数据的操作会导致非常低的效率，因此需要方便地编辑语音数据的技术。

专利文献1：JP-A-11-190997

专利文献2：JP-A-5-188988

专利文献3：JP-A-2004-153306

专利文献4：JP-A-2003-188948

专利文献5：JP-A-2000-276184

发明内容

在专利文献1所描述的生成标准模式(语音数据)的方法中，被登记为标准模式的所有词都需要以文本形式输入，这不方便。具体地说，因为移动终端的输入键小，所以在移动终端中输入文本很困难。

在专利文献2所描述的生成标准模式(语音数据)的方法中，要添加的词应该精确地发音。因此，不容易精确地发音大量词。

在专利文献5所描述的语音编辑方法中，使用高级语音编辑程序编辑语音数据。然后，配备有高级语音编辑程序的移动终端很贵。此外，以高级语音编辑程序编辑语音数据的操作需要复杂的鼠标操作，这会花很长时间。

本发明提供方便廉价地在移动终端上编辑语音数据的技术。本发明还提供可以通过增加登记在语音识别装置中的标准模式来有效地增加可以以语音识别的词的数量的语音识别装置、标准模式生成方法和标准模式生成程序。

根据本发明的一方面，提供使用现存语音数据生成另一语音数据的语音编辑装置，包括：变更部分指定单元，其在现存语音数据之中的使用源(usage-source)语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源语音数据的至少一部分指定为变更部分；以及语音数据生成单元，其将该变更部分指定单元所指定的变更部分语音数据用于生成另一语音数据。

该语音数据生成单元可以生成通过用不同语音数据置换由变更部分指定单元指定的使用源语音数据的变更部分语音数据而获得的语音数据，作为另一语音数据。

该语音数据生成单元可以生成通过将由变更部分指定单元指定的变更部分语音数据与不同语音数据组合而获得的语音数据，作为另一语音数据。

结果，通过编辑现存语音数据生成新语音数据，通过使用模式匹配处理自动指定变更部分编辑语音数据简单(即语音识别装置的语音识别功能也用于编辑语音数据)。也就是说，容易通过将一部分语音插入现存语音来剪切或组合语音。例如，假设在移动终端中存储了现存语音数据“I entered the‘A’company on April 1，2005”。编辑该现存语音数据的方法如下。首先，当语句“请发音要剪切的部分”显示在移动终端的显示单元上时，用户发音“on April1，2005”。用户的语音被输入移动终端。然后，在现存语音数据和新输入的语音之间执行模式匹配处理，并剪切匹配的部分。结果，获得“I entered the‘A’company”。此外，本发明可以用于将现存语音数据分割成多个语句。例如，假设在移动终端中存储了语音数据“the meeting will take place at 10 o’clock inthe first conference room”。当语句“请发音要分割的语音部分”显示在移动终端的显示单元上时，用户发音“in”。然后，语音“in”被输入移动终端，并通过在其与现存语音数据之间执行模式匹配处理来将其与现存语音数据比较。结果，将现存语音数据“the meeting will take place at 10o’clock in the firstconference room”分割成两个语音数据，即“the meeting will take place at 10o’clock”和“in the first conference room”。因此，根据本发明的实施方式，可以方便地使用移动终端编辑语音数据。结果，可以有效而且廉价地生成各种语音数据。

用以在语音编辑装置中生成另一语音数据的不同语音数据可以包括从外部输入到语音编辑装置的语音数据、从现存语音数据中被剪切出的语音数据或者现存语音数据。

因此，因为各种语音数据都被用于编辑语音数据，因此可以有效地生成新语音数据。

根据本发明的另一方面，根据本发明的另一实施方式提供使用现存标准模式借助语音编辑装置生成另一标准模式的语音识别装置，包括：变更部分指定单元，其在现存标准模式之中的使用源标准模式和用于指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源标准模式的至少一部分指定为变更部分；以及语音数据生成单元，其将该变更部分指定单元所指定的变更部分语音数据用于生成另一标准模式。

由于使用现存标准模式生成新标准模式，所以可以通过使用模式匹配处理自动指定变更部分来有效地生成有用的标准模式(即语音识别装置的语音识别功能也用于编辑语音数据)。当移动终端配备有语音识别装置并且移动终端的操作通过语音识别进行控制时，可能需要具有典型语音模式的一组词。例如，假设移动终端在诸如影剧院、医院、车站、建筑物之类的公共场合中通过识别所广播的通知而自动关闭。首先，将移动终端配置成在影剧院识别通告“在该影剧院请关闭你的移动终端”的通知(即，词“在该影剧院请关闭你的移动终端”的标准模式事先登记在移动终端的语音识别词典中)。然后，可以用“在该医院”、“在该车站”或“在该建筑物”置换标准模式中的“在该影剧院”部分，使得标准模式可以有效地用于在不同场合关闭移动终端。此外，当变更使用源标准模式的“在该影剧院”部分时，该部分可以简单地使用语音识别的匹配处理自动指定。例如，可以容易地通过经由移动终端的麦克风输入语音“在该影剧院”、执行与使用源标准模式(语句“在该影剧院请关闭你的移动终端”的标准模式)的匹配处理并将匹配的部分(即“在该影剧院”部分)设置为变更部分，来指定将要变更的使用源标准模式的部分。可以通过更新用语音数据(例如通过用语音数据“在该医院”、“在该车站”或“在该建筑物”置换语音数据“在该影剧院”)有效地生成多个用于自动关闭控制的新标准模式。

语音识别识别还可以包括标准模式数据库更新单元，其通过将使用源标准模式置换为语音数据生成单元所生成的其他标准模式或通过将该其他标准模式添加为不同于使用源标准模式的标准模式，来更新标准模式。

新标准模式被置换为使用源标准模式(在这种情况下是删除使用源标准模式)或者被作为不同于使用源标准模式的标准模式(在这种情况下，使用源标准模式和新标准模式一起存在)添加到语音识别词典(标准模式数据库)，从而更新标准模式数据库。

在根据本发明的实施方式的语音识别装置中，变更部分指定单元可以在用于提取使用源标准模式的语音数据和具有多个现存标准模式的语音数据之间执行匹配处理，并且提取包含在用于提取使用源标准模式的语音数据和具有多个现存标准模式的语音数据之间的匹配部分的现存标准模式，作为使用源标准模式。

也就是说，在使用使用源标准模式的情况下也执行该匹配处理。因此，可以通过使用语音识别装置的语音识别功能迅速提取和指定目标使用源标准模式，来选择使用源标准模式。

根据本发明的另一方面，提供配备有根据本发明的实施方式的语音编辑装置或语音识别装置的电子设备。

根据本发明的实施方式的语音编辑装置或语音识别装置可以通过编辑现存标准模式来有效地增加新语音数据(包括标准模式)量，并且可以迅速扩充语音识别词典的语音数据或词。因此，用户可以有效地在所述电子设备中定制语音数据(包括标准模式)。

根据本发明的另一方面，提供配备有根据本发明的实施方式的语音编辑装置或语音识别装置的移动终端。

由于根据本发明的实施方式的语音编辑装置或语音识别装置生成大多数现存功能或语音数据，因此其小巧而且廉价，并且可以集成到移动终端中。此外，由于用户可以轻松地定制语音数据，因此用户可以方便地根据其情况使用语音编辑功能(包括编辑标准模式的功能)。因此，所述移动终端可以具有各种各样的功能。

根据本发明的另一方面，提供使用现存语音数据生成另一语音数据的语音编辑方法，包括：在使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源语音数据的至少一部分指定为变更部分；以及将该指定的变更部分语音数据用于生成另一语音数据。

根据本发明的另一方面，提供使用现存标准模式生成另一标准模式的语音识别方法，包括：在使用源标准模式和用于指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源标准模式的至少一部分指定为变更部分；以及将该指定的变更部分语音数据用于生成另一标准模式。

因此，可以轻松有效地扩充新的有用语音数据(标准模式)。

根据本发明的另一方面，提供在计算机上执行根据本发明的实施方式的语音编辑方法的语音编辑程序。

根据本发明的另一方面，提供在计算机上执行根据本发明的实施方式的语音识别方法的语音识别程序。

因此，可以在各种电子设备中方便而廉价地编辑语音数据(包括标准模式)。

由于语音编辑装置通过编辑现存语音数据来生成新语音数据(包括标准模式作为语音识别词典)，所以可以通过使用模式匹配处理自动指定变更部分来轻松地编辑语音数据，即通过使用语音识别装置的语音识别功能来编辑语音数据。

也就是说，可以简单地编辑语音数据，即，因为语音数据部分地输入到现存语音中，所以可以简单地剪切或组合语音数据。

因此，可以使用移动终端简单地编辑语音数据，以使得可以有效而且廉价地生成各种语音数据。例如，在变更移动终端中所存储的一部分语音数据时，可以通过指定变更部分并用另一语音数据置换它来编辑语音数据。

具体地说，可以通过将语音编辑装置、语音编辑方法和语音编辑程序用作语音识别装置、标准模式生成方法和标准模式生成程序，来从现存标准模式中有效地生成各种标准模式。此外，可以通过经由模式匹配处理自动指定变更部分，来有效地生成有用的标准模式，即通过使用语音识别装置的语音识别功能生成标准模式。因此，可以轻松迅速地扩充可以以语音识别的词的数量。

当通过语音识别控制移动终端的操作或通过将输入的语音信号转换成文本数据来有效地生成电子邮件时，识别不同的语音部分很重要。因此，根据本发明的实施方式的、通过变更现存标准模式的组成部分生成新标准模式的方法很有效。

此外，可以通过模式匹配处理在现存标准模式中简单地指定变更部分。也就是说，由于在本发明中语音识别装置的匹配处理功能也用于生成标准模式，所以可以减少所需的硬件数量。因此，可见降低成本。

此外，用于更新使用源的现存标准模式基的更新用语音数据包括用户输入的语音的语音数据、通过剪切现存标准模式所获得的语音数据或现存标准模式的语音数据。由于可以使用各种语音数据，所以可以有效地生成新标准模式。

此外，由于语音编辑装置(包括语音识别装置)可以轻松地定制语音数据，同时还小巧和廉价，所以语音编辑装置可以轻松地被包含在电子设备中。

此外，根据按照本发明的实施方式的语音编辑方法(包括标准模式生成方法)，可以轻松有效地扩充新的有用的语音数据(标准模式)。

而且，根据本发明的实施方式的语音编辑程序，可以方便而且廉价地编辑语音数据(包括标准模式)。

附图说明

图1是根据本发明的实施方式的语音识别装置(其使用用于语音识别的语音编辑装置)的方框图。

图2是示出在图1所示的语音识别装置中从现存标准模式生成新标准模式并更新标准模式数据库的操作的流程图。

图3是图解拥有配备了根据本发明的实施方式的语音识别单元的移动终端的用户生成标准模式的序列的视图。

图4(a)至图4(d)是图解当根据图3的序列生成标准模式时的信号处理的视图。

图5是根据本发明的示例性实施方式的语音识别装置的方框图。

图6是示出图5的语音识别装置的每个单元的操作序列和数据(信号)交换序列的序列图。

图7是图解通过语音识别选择标准模式“改变电子邮件接收的显示设置”并从所选标准模式删除“电子邮件接收的”部分以生成新标准模式的序列的视图。

图8(a)至图8(d)是图解根据图7所示的序列生成标准模式时的信号处理的视图。

图9是根据本发明的实施方式的语音识别装置(其执行图7和图8所示的控制操作)的方框图。

图10是示出图9所示的语音识别装置的每个单元的操作序列和数据(信号)交换序列的序列图。

图11是配备有根据本发明的实施方式的语音识别装置的移动终端的外部结构的透视图。

图12是图11所示的移动终端的内部结构的方框图。

附图标记和符号说明

10：声音分析单元

12：特征参数提取单元

14：变更部分指定单元

16：用于执行指定变更部分的匹配处理的模式匹配单元

18：标准模式生成单元

20：标准模式数据库更新单元

22：用于执行语音识别模式匹配处理的模式匹配单元

24：标准模式数据库(语音识别词典文件)

26：控制单元

28：显示接口

30：显示单元

32：使用源标准模式提取单元

34：用于执行提取使用源标准模式的匹配处理的模式匹配单元

550：移动终端

700：无线单元

701：语音编解码器

702：数字信号处理器

703：转换器

704：扬声器

705：麦克风

706：控制器

707：语音记录器

708：声音分析单元

709：特征参数提取单元

710：变更部分指定单元

711：用于执行识别语音并指定使用源标准模式的匹配处理的模式匹配单元

712：标准模式生成单元

713：标准模式数据库更新单元

714：标准模式数据库(语音识别词典文件)

715：媒体接口

717：文本转换器

1000：移动终端

1002：上层包装

1004：下层包装

1006：显示单元

1008：操作键

1010：插入孔

1012：记录媒体

AN：天线

具体实施方式

将参照附图描述根据本发明的示范性实施方式。

本发明涉及可以编辑和处理语音并可以用于其他应用中的语音编辑装置和语音编辑方法。

例如，可以通过将根据本发明的语音编辑装置用作语音识别装置来有效地扩充标准模式作为语音识别词典。

第一至第四实施方式描述被用作语音识别装置来扩充标准模式的语音编辑装置。第五实施方式描述除了用于语音识别的语音编辑装置的用途外被用于编辑和处理语音的语音编辑装置。

(第一实施方式)

图1是根据本发明的实施方式的语音识别装置(其使用根据本发明的、用于语音识别的语音编辑装置)的方框图。

该语音识别装置包括声音分析单元10、特征参数提取单元12、变更部分指定单元14(包括用于指定变更部分的模式匹配单元16)、标准模式生成单元18、标准模式数据库更新单元20、模式匹配单元(用于语音识别的语音识别装置的语音识别单元)22以及标准模式数据库(语音识别词典文件)24。在标准模式数据库24中存储的数据类型可以是“特征参数(倒谱(cepstrum))”、“转换为文本形式的语音(作为字符串的词典数据)”或“语音数据(波形数据)”。在以下描述中，假设“特征参数(倒谱)”在标准模式数据库24中被存储为标准模式。

在图1中，独立地描述变更部分指定单元14中的模式匹配单元16和执行该语音识别装置的语音识别功能的模式匹配单元(语音识别单元)22。然而，本发明不限于此，而是可以在第一至第五实施方式使用公用模式匹配单元。

图1中的声音分析单元10将输入的语音信号以大约20-40毫秒的时间帧分开，并使用与时间帧对应的语音信号的快速傅立叶变换(FFT)。

特征参数提取单元12获得声音分析结果(即频谱幅度)的绝对值的对数，使用对数的离散傅立叶逆变换(IDFT)，并且获得Mel倒谱(特征参数)。将该特征参数发送到变更部分指定单元14和标准模式生成单元18。

变更部分指定单元14从标准模式数据库24中提取成为使用源的现存标准模式的特征参数。模式匹配单元16在用于指定变更部分的语音数据的特征参数(例如，用户用麦克风输入语音)与使用源的现存标准模式的特征参数之间执行匹配处理，并将匹配部分或不匹配部分指定为变更部分。将指示变更部分的位置的变更部分位置信号发送到标准模式生成单元18。

标准模式生成单元18通过剪切、删除、置换或组合使用源标准模式来生成新标准模式。也就是说，将通过剪切使用源标准模式的变更部分的语音数据所获得的语音数据(即剪切语音数据之后的剩余部分的语音的特征参数＝通过剪切变更部分的语音所获得的语音的特征参数)、被剪切的语音数据、通过以变更部分的语音数据置换另一语音数据(例如，由用户通过麦克风输入的语音数据)所获得的语音数据的语音数据以及通过将另一语音数据与被剪切的语音数据的头或尾组合而获得的语音数据之一设置为新标准模式。

标准模式数据库更新单元20更新标准模式数据库(语音识别词典文件)24。也就是说，标准模式数据库更新单元20用新标准模式置换使用源的现存标准模式，或添加该新标准模式到标准模式数据库24。当将新标准模式添加到标准模式数据库24时，使用源的现存标准模式和新标准模式共存。

图2是示出在图1所示的语音识别装置中从现存标准模式生成新标准模式并更新标准模式数据库的操作的流程图。在图2中，为了方便解释，以字母表示语音数据的时间序列模式(语音的特征参数)。

执行指定使用源的现存标准模式的变更部分的操作(步骤S100)。

变更部分指定单元14中的模式匹配单元16在用于指定变更部分的语音数据(“cd”)与使用源的标准模式(“abcdef”)之间执行模式匹配(步骤S101)。将匹配部分(“cd”)设置为变更部分(步骤S102)，或者将将不匹配部分(“abef”)设置为变更部分(步骤S103)。

标准模式生成单元18生成新标准模式(步骤200)。

也就是说，从步骤S100所指定的变更部分中剪切出语音数据(步骤102和步骤103)(步骤201和步骤202)。

可以将剪切出的语音数据“abef”或“cd”设置为新标准模式(步骤301和步骤302)。语音数据“abef”是步骤S101中匹配的部分之外的部分，其通过从使用源的标准模式中删除匹配部分的语音数据获得。

接下来，执行置换或组合处理(步骤201和步骤202)。在步骤S201，用更新用语音数据“QRS”置换在步骤S102中所指定的变更部分的语音数据“cd”。在步骤S204，将更新用语音数据“QRS”与步骤S201中剪切出的语音数据“cd”的头或尾组合。更新用语音数据“QRS”是从麦克风输入的语音的语音数据、在步骤201或步骤202中剪切出的语音数据或现存标准模式的语音数据。

也就是说，在步骤S203，通过用“QRS”置换“abOOef”中的OO部分获得“abQRSef” (即用“QRS”置换使用源标准模式的“cd”)。

在步骤S204，将“QRS”与“cd”的头或尾组合获得“QRScd”或“cdQRS”。

可以将“cd(剪切出的数据)”、“abef(通过删除匹配部分的语音数据所获得的数据)”、“abQRSef(通过置换所获得的数据)”、“QRScd或cdQRS(通过组合所获得的数据)”设置为新标准模式。

标准模式数据库更新单元20更新标准模式数据库24(步骤300)。更新处理包括“置换(步骤S301)”和“添加(步骤S302)”。

也就是说，在“置换”(步骤S301)情况下，用新标准模式置换使用源的现存标准模式。在“添加”(步骤S302)情况下，将新标准模式添加到标准模式数据库24。在这种情况下，使用源的现存标准模式与新标准模式一起存在。

也就是说，根据本发明的第一实施方式，由于从现存标准模式生成新标准模式并且通过模式匹配处理自动指定变更部分(语音识别装置的语音识别功能用于生成标准模式)，所以可以有效地生成有用的标准模式。因此，可以容易而且迅速地增加可以以语音识别的词的数量。

(第二实施方式)

第二实施方式描述语音识别装置的结构和操作以及生成标准模式的序列。在该实施方式中，使用各种标准模式来识别在火车或地铁中广播的通知。

例如，乘火车或地铁往返的通勤乘客(commuter)可能错过其该下车的车站(例如涉谷车站)。在这种情况下，当通勤乘客携带了配备有语音识别装置的移动终端时，移动终端可以识别火车或地铁中广播的“本站是涉谷”的通知，并在识别到该通知时激活振动器来提醒通勤乘客，从而提供方便。因此，可以防止通勤乘客忘记下车。当通勤乘客经常在“横滨”下车的情况下，可以将移动终端配置成当其识别到“本站是横滨”时就激活振动器。

在标准模式“本站是涉谷”被记录在语音识别装置中的情况下，可以通过在该标准模式中用“横滨”置换“涉谷”而有效地生成需要的标准模式。

图3是用于解释拥有配备了根据本发明的实施方式的语音识别单元的移动终端的用户生成标准模式的序列的视图。

该用户通过移动终端550的麦克风2记录通知“本站是涉谷”，分析该通知的声音以提取特征参数，并将所提取的特征参数作为标准模式登记在移动终端550中(步骤S1)。

在移动终端550的显示单元(LCD等)30上显示消息“发音要变更的部分”(步骤S2)。

接下来，用户P发音“涉谷”。通过麦克风2在移动终端550中记录语音“涉谷”，并分析该语音“涉谷”以提取特征参数。在使用源标准模式(即语句“本站是涉谷”的特征参数)与用于指定变更部分的语音数据“涉谷”的特征参数之间执行匹配处理(步骤S4)。在这种情况下，将匹配部分指定为变更部分。

接下来，在移动终端550的显示单元30上显示消息“发音要置换的词”(步骤S5)。

当用户P说“横滨”时，通过麦克风2在移动终端550中记录语音“横滨”，并进行声音分析以提取特征参数。

为了防止生成错误的标准模式，在显示单元30上显示新标准模式(“本站是横滨”)，以便用户P可以确认该新标准模式是否正确。用户查看该新标准模式并选择“是”(步骤S7)。

自动生成由语句“本站是横滨”的特征参数构成的标准模式，并更新标准模式数据库24(步骤S8)。也就是说，用“横滨”的特征参数置换在步骤S4中指定的变更部分的语音数据(“涉谷”的特征参数)，以便生成由语句“本站是横滨”的特征参数构成的新标准模式，并将该新标准模式添加到标准模式数据库(图1的附图标记24)。

在图4(a)中，在使用源标准模式的语音数据“下一站是涉谷”与用于指定变更部分的语音数据“涉谷”之间执行匹配处理。

在图4(b)中，将使用源标准模式的“涉谷”部分指定为变更部分(用两个粗箭头指定)，并用“横滨”置换“涉谷”。

在图4(c)中，将更新语音“下一站是横滨”(即新标准模式)添加到累积在语音存储单元(图1的附图标记24)中的标准模式的现存组(“下一站是横滨”、“火车不久将到达横滨”和“火车马上将到达横滨”)中。

在图4(d)示出已更新标准模式组。

图5是根据本发明的示例性实施方式的语音识别装置的方框图。相同附图标记在图1和图5中表示相同的单元。

参照图5，语音识别装置还包括麦克风2、语音记录累积单元4、正常控制语音识别装置的操作的控制单元、显示接口28和显示单元30。上面参照图1描述了该语音识别装置的操作。

控制控制单元26，使得在显示单元30上显示使用源的语音的选择屏幕，以便用户可以选择使用源的语音数据(步骤S400)。在这种情况下，如图3所示，由于已经在语音记录累积单元4中记录并累积了火车通知“火车马上将到达横滨”，所以用户选择该通知。

接下来，声音分析单元10分析该语音(步骤S401)，而特征参数提取单元12提取特征参数(步骤S402)。将所提取的特征参数发送到变更部分指定单元14和标准模式生成单元18(步骤S403和步骤S404)。

此外，控制单元26在显示单元30上显示提示用户输入指定变更部分的语音的消息(步骤S405)。接下来，通过声音分析操作(步骤S406)和特征参数提取操作(步骤S407)提取特征参数。将该特征参数发送到变更部分指定单元14和标准模式生成单元18(步骤S408和步骤S409)，并指定变更部分(步骤S410)。将指示变更部分的位置的信号发送到标准模式生成单元18(步骤S411)。

接下来，用户输入更新用语音(“横滨”)来代替变更部分(步骤S412)。然后，通过声音分析操作(步骤S413)、特征参数提取操作(步骤S414)和将特征参数传送到标准模式生成单元18的操作(步骤S415)生成新标准模式(步骤S416)。

将新标准模式发送到标准模式数据库更新单元20(步骤S417)和显示单元30(步骤S418)。当用户确认了更新(步骤S419)时，更新标准模式数据库24(步骤S420)。

(第三实施方式)

第三实施方式描述生成新标准模式以通过用户语音控制配备有语音识别装置的移动终端的设置(例如，接收到电子邮件时的设置)的序列。

用户可以改变接收到电子邮件时其移动终端的显示单元上显示的屏幕或响铃铃声，并选择累积电子邮件的文件夹。

一般来说，通过操作输入键来改变接收到邮件时的屏幕或铃声。然而，由于移动终端的操作键很小，所以用户不方便操作这种键。因此，通过输入语音而不是键来改变屏幕或铃声很方便。

术语“显示设置”除了电子邮件的显示设置外，还包括电话的待机屏幕的显示设置和下载的游戏的显示设置。一般来说，当改变移动终端的设置时，改变上位概念的菜单项“改变显示设置”，然后选择下位概念的菜单项“改变电子邮件接收的显示设置”。

当用语音选择菜单项“改变显示设置”时，需要识别用户的语音“改变显示设置”。因此，需要事先登记语句“改变显示设置”的语音的标准模式。

假设在移动终端中登记了标准模式“改变电子邮件接收的显示设置”。当删除“电子邮件接收的”的语音数据时，可以轻松地生成标准模式“改变显示设置”。

图7是示出通过语音识别选择标准模式“改变电子邮件接收的显示设置”并从所选标准模式中删除“电子邮件接收的”部分以生成新标准模式的序列的视图。

在移动终端550的显示单元30上显示消息“发音要变更的词”(步骤S1)。

用户P发音作为检索使用源的标准模式的关键词的“电子邮件接收”(步骤S2)。

然后，通过语音识别提取具有与“电子邮件接收”匹配的部分的标准模式。也就是说，从登记为标准模式的词中提取包含关键词“电子邮件接收”的词(“1.改变电子邮件接收的显示设置”、“2.改变电子邮件接收的声音设置”和“3.改变电子邮件接收的分布设置”)作为使用源标准模式的候选者，并显示在显示单元30上(步骤S4)。

困此，当选择使用源标准模式时，可以通过使用语音识别装置的语音识别功能有效地检索使用源标准模式。

接下来，用户P选择“1.改变电子邮件接收的显示设置” (步骤S5)。

接下来，在移动终端550的显示单元30上显示消息“发音要变更的词”(步骤S6)。

用户P发音“电子邮件接收的”。在移动终端550上记录该语音，通过声音分析提取特征参数，并在“电子邮件接收的”与在步骤S5中选择的标准模式“改变电子邮件接收的显示设置”的特征参数之间执行匹配处理，使得“电子邮件接收的”部分被指定为变更部分(步骤8)。

接下来，在移动终端550的显示单元30上显示查询变更标准模式的方法的消息。即，显示两个项“1.删除目标部分”和“2.变更目标部分”(步骤S9)。

在这种情况下，用户P选择“1.删除目标部分”。在显示单元30上显示确认屏幕来确认是否删除目标部分。当用户P选择“是”时，生成词(words)“改变显示设置”的标准模式(步骤S11)。

通过从使用源标准模式中删除语音数据“电子邮件接收的”来生成新标准模式。然而，通过从作为使用源标准模式的语音数据“改变电子邮件接收的显示设置”中剪切掉变更部分的语音数据(“电子邮件接收的”)并将剩余部分(“改变显示设置”)设置为新标准模式来执行该处理。

在图8(a)中，已经指定了作为使用源标准模式的语音数据“改变电子邮件接收的显示设置”，并且在标准模式与用于指定变更部分的语音数据“电子邮件接收的”之间执行匹配处理。

在图8(b)中，将“电子邮件接收的”部分指定为使用源标准模式的变更部分(用两个粗箭头指定该变更部分)。

在图8(c)中，从作为使用源标准模式的“改变电子邮件接收的显示设置”中删除“电子邮件接收的”来生成新标准模式“改变显示设置”。

将该新标准模式添加到被登记在标准模式数据库(图1的附图标记24)中的标准模式组(也就是，“改变电子邮件接收的显示设置”、“改变电子邮件接收的自动设置”和“改变电子邮件接收的分布设置”)中。

在图8(d)示出已更新标准模式组。

图9是根据本发明的实施方式的语音识别装置(其执行图7和图8所示的控制操作)的方框图。在图1、5和9中，相同的附图标记表示相同的单元。

在图9中，该语音识别装置不包括图5的结构中的语音记录累积单元4，但进一步包括了使用源标准模式提取单元32(其包括模式匹配单元34并且提取具有与输入的关键词匹配的现存标准模式作为使用源标准模式的候选者)。

使用源标准模式提取单元32中的模式匹配单元34将从标准模式生成单元20发送出来的现存标准模式的特征参数与从特征参数提取单元12发送出来的关键词“电子邮件接收的”的特征参数比较，以确定它们之间的匹配度，并提取具有与输入的关键词匹配的模式的现存标准模式作为使用源标准模式的候选者。

上面参照图1和5描述了图9所示的语音识别装置的操作。

控制单元26在显示单元30上显示提示用户输入选择使用源语音的关键词的语音的屏幕，并且用户输入关键词的语音(“电子邮件接收”)(步骤S600)。

接下来，执行声音分析操作(步骤S601)和特征参数提取操作(步骤S602)，并在输入的关键词的语音(“电子邮件接收”)的特征参数与现存标准模式组的每一个特征参数之间执行匹配处理(步骤S603)，以提取具有匹配部分的标准模式。

接下来，将所提取的标准模式的信息发送到显示单元30(步骤S604)，在显示单元30上显示该信息，并且用户选择成为使用源的标准模式“改变电子邮件接收的分布设置”(步骤S605)，从而指定使用源标准模式。

接下来，将存储在标准模式数据库24中的使用源的标准模式的特征参数发送到变更部分指定单元14和标准模式生成单元18(步骤S606和步骤S607)。

接下来，用户输入指定变更部分的语音(即，“电子邮件接收的”)(步骤S608)。

接下来，执行声音分析操作(步骤S609)，执行特征参数提取操作(步骤S610)，并将所提取的特征参数发送到变更部分指定单元14和标准模式生成单元18(步骤S611和步骤S612)。

变更部分指定单元14通过模式匹配操作指定变更部分(步骤S613)。将指示变更部分的位置的信号发送到标准模式生成单元18(步骤S614)。

接下来，用户选择删除操作(步骤S615)。因此，从使用源的标准模式“改变电子邮件接收的分布设置”中删除“电子邮件接收的”，以便生成新标准模式(“改变显示设置”)(步骤S616)。

将新标准模式的信息发送到显示单元30，以便用户可以确认该新标准模式是否被添加到标准模式数据库24(步骤S618)。

当用户同意添加该新标准模式时，标准模式数据库更新单元20将该标准模式添加到标准模式数据库24，以便更新标准模式数据库(语音识别词典文件)(步骤S620)。

(第四实施方式)

第四实施方式描述了配备有根据本发明的语音识别装置的移动终端的结构和操作。

移动终端1000包括天线AN、上层包装1002、下层包装1004、显示单元1006、操作键1008、插入存储标准模式的记录媒体1012的插入孔1010、扬声器704和麦克风705。

图12是图11所示的移动终端的内部结构的方框图。

移动终端1000包括天线AN、无线单元700、语音编解码器701、数字信号处理器702、A/D转换器和D/A转换器703、扬声器704、麦克风705、控制器706、语音记录器707、声音分析单元708、特征参数提取单元709、变更部分指定单元710(包括模式匹配单元711)、标准模式生成单元712、标准模式数据库更新单元713、标准模式数据库714、用作记录标准模式的记录媒体1012的数据接口的媒体接口715、模式匹配单元(其执行语音识别装置的语音识别并且在必要时提取使用源的标准模式的候选者)716和语音/文本转换器717。

可以用语音控制这样配置的移动终端的操作和设置。

此外，可以由语音/文本转换器717将语音自动转换成文本。因此，容易生成电子邮件。

如上所述，当用语音控制移动终端的操作时，识别通过用其他语音置换典型语音模式的组成部分生成的各种语音很重要。

例如，假设移动终端在诸如影剧院、医院、车站、建筑物之类的公共场合中通过识别所广播的通知而自动关闭。首先，将移动终端配置成在影剧院中识别通告“在该影剧院请关闭你的移动终端”的通知(即，词“在该影剧院请关闭你的移动终端”的标准模式事先登记在移动终端的语音识别词典中)。然后，可以用“在该医院”、“在该车站”或“在该建筑物”置换标准模式中的“在该影剧院”部分，使得标准模式可以布效地用于在不同场合关闭移动终端。

此外，当借助语音/文本转操作通过输入语音来写电子邮件时，识别通过用其他语音置换典型语音模式的组成部分生成的各种语音变得很重要。

移动终端的电子邮件经常用于与朋友或其他人交流。特别地，例如，电子邮件经常被用于改变用户的约会。

例如，当准备标准模式“让我们星期一下午6点在涉谷的Hachiko会面”时，“星期一”可以用其他日子置换，“下午6点”可以用其他时间置换，或“在涉谷的Hachiko”可以用其他地点置换。因此，可以有效地生成用于语音识别的标准模式。

用以在根据本发明的实施方式的语音识别装置中添加新标准模式的、变更现存标准模式的组成部分的方法，作为扩充集成在移动终端中的语音识别装置的识别词典的方法，是很有效的。

(第五实施方式)

虽然上述实施方式描述了语音识别装置(根据本发明的用于语音识别的语音编辑装置)，但该语音编辑装置可以用于不同的目的。例如，该语音编辑装置可以用于处理或编辑语音。

例如，假设用户在其移动终端中记录其语音数据(例如，准备将要通过电子邮件发送的语音数据)。当用户由于某种原因需要变更语音数据的组成部分时，再次输入整个语音数据导致效率不高。

在这种情况下，通过模式匹配指定变更部分并将该变更部分的语音数据变更为另一语音数据效率高。

也就是说，通过从现存的语音数据生成新语音数据，并在编辑该语音数据时通过模式匹配处理自动指定变更部分(即，语音识别装置的语音识别功能也用于编辑语音)，使语音数据的编辑操作变得简单。因此，可以通过将语音的组成部分插入现存语音，轻松地剪切或组合语音。

例如，假设在移动终端中存储了现存语音数据“Ientered the‘A’companyon April 1，2005”。

编辑该现存语音数据的方法如下。首先，当语句“请发音要剪切的部分”显示在移动终端的显示单元上时，用户发音“on April 1，2005”。用户的语音被输入移动终端。然后，在现存语音数据和新输入的语音之间执行模式匹配处理，并剪切掉匹配的部分。结果，获得“Ientered the‘A’company”。

此外，本发明可以用于将现存语音数据分割成多个语句。

例如，假设在移动终端中存储了语音数据“the meeting will take place a 10o’clock in the first conference room”。当语句“请发音要分割的语音部分”显示在移动终端的显示单元上时，用户发音“in”。然后，语音“in”被输入移动终端，并通过在其与现存语音数据之间执行模式匹配处理来将其与现存语音数据比较。

结果，将现存语音数据“the meeting will take place at 10 o’clock in the firstconference room”分割成两个语音数据，即“the meeting will take place at 10o’clock”和“in the first conference room”。

编辑语音数据的配置与上述实施方式的配置相同。也就是说，可以通过利用Mel倒谱数据的匹配处理来指定现存语音数据的变更部分(由于Mel倒谱数据通过分析预定片断(section)中的语音数据生成，所以可以指定关于语音的变更部分)。

此外，可以基于该变更部分的信息，方便地编辑语音，也就是说，、可以方便地剪切语音、插入新语音或组合剪切出的语音。

因此，根据按照本发明的实施方式的语音编辑装置，可以方便地使用移动终端编辑语音数据。结果，可以有效而且廉价地生成各种语音数据。

因此，根据本发明的实施方式，可以使用移动终端简单地编辑语音数据，以使得可以有效而且廉价地生成各种语音数据。例如，在变更移动终端中所存储的一部分语音数据时，可以通过指定变更部分并用另一语音数据置换它来编辑语音数据。

具体地说，可以通过将语音编辑装置、语音编辑方法和语音编辑程序用作语音识别装置、标准模式生成方法和标准模式生成程序，来从现存标准模式中有效地生成各种标准模式。

此外，可以通过经由模式匹配处理自动指定变更部分，来有效地生成有用的标准模式，即通过使用语音识别装置的语音识别功能生成标准模式。因此，可以轻松迅速地扩充可以以语音识别的词的数量。

可以使用用户输入的语音、通过剪切现存标准模式所获得的语音数据或现存标准模式本身的语音数据作为更新现存标准模式的更新用语音数据。由于使用各种语音数据，使得新标准模式创建处理更有效。

本领域普通技术人员应该明白，可以在不脱离本发明的精神或范围的情况下，在本发明中进行各种变更和变型。因此，本发明打算覆盖在所附权利要求及其同等物的范围提供的该发明的变更和变型。

该申请要求于2005年5月27日提交的日本专利申请第2005-156205的优先权，该专利申请将通过引用、像其全部在本文提出那样合并在此。

工业实用性

根据本发明，可以方便地使用移动终端编辑语音数据。具体地说，当本发明用作语音识别装置时，可以轻松有效地扩充可以以语音识别的词的数量。因此，例如，适合用于集成在电子设备或移动终端(移动电话、PDA等)中的紧致廉价语音编辑装置(包括语音识别装置)。

Claims

1.一种使用现存语音数据生成另一语音数据的语音编辑装置，该装置包括：

变更部分指定单元，其在该现存语音数据之中的使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源语音数据的至少一部分指定为变更部分；以及

语音数据生成单元，其将该变更部分指定单元所指定的该变更部分语音数据用于生成另一语音数据。

2.如权利要求1所述的语音编辑装置，其中，该语音数据生成单元生成通过用不同语音数据置换由该变更部分指定单元指定的该使用源语音数据的该变更部分语音数据而获得的语音数据，作为另一语音数据。

3.如权利要求1所述的语音编辑装置，其中，该语音数据生成单元生成通过将由该变更部分指定单元指定的该变更部分语音数据与不同语音数据组合而获得的语音数据，作为另一语音数据。

4.如权利要求2或3所述的语音编辑装置，其中，用以生成另一语音数据的该不同语音数据包括从外部输入到该语音编辑装置的语音数据、从该现存语音数据中被剪切出的语音数据或者该现存语音数据。

5.一种使用现存标准模式来借助如权利要求1至4之一所述的该语音编辑装置生成另一标准模式的语音识别装置，该语音识别装置包括：

变更部分指定单元，其在该现存标准模式之中的使用源标准模式和用于指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源标准模式的至少一部分指定为变更部分；以及

6.如权利要求5所述的语音识别装置，还包括标准模式数据库更新单元，其通过将该使用源标准模式置换为该语音数据生成单元所生成的该其他标准模式或通过将该其他标准模式添加为不同于该使用源标准模式的标准模式，来更新标准模式数据库。

7.如权利要求5或6所述的语音识别装置，其中，该变更部分指定单元在用于提取该使用源标准模式的该语音数据和具有多个现存标准模式的该语音数据之间执行匹配处理，并且提取包含在用于提取该使用源标准模式的该语音数据和具有多个现存标准模式的该语音数据之间的匹配部分的该现存标准模式，作为该使用源标准模式。

8.一种配备有如权利要求1至4之一所述的语音编辑装置或如权利要求5至7之一所述的语音识别装置的电子设备。

9.一种配备有如权利要求1至4之一所述的语音编辑装置或如权利要求5至7之一所述的语音识别装置的移动终端。

10.一种使用现存语音数据生成另一语音数据的语音编辑方法，该方法包括：

在使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源语音数据的至少一部分指定为变更部分；以及

将该指定的变更部分语音数据用于生成另一语音数据。

11.一种使用现存标准模式生成另一标准模式的语音识别方法，该方法包括：

在使用源标准模式和用于指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理，并且将该使用源标准模式的至少一部分指定为变更部分；以及

将该指定的变更部分语音数据用于生成另一语音数据。

12.一种用以在计算机上执行如权利要求10所述的语音编辑方法的语音编辑程序。

13.一种用以在计算机上执行如权利要求11所述的语音编辑方法的语音识别程序。