CN101996627B

CN101996627B - 语音处理装置、语音处理方法和程序

Info

Publication number: CN101996627B
Application number: CN2010102547575A
Authority: CN
Inventors: 池田哲男; 宫下健; 梨子田辰志
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-08-21
Filing date: 2010-08-13
Publication date: 2012-10-03
Anticipated expiration: 2030-08-13
Also published as: US9659572B2; EP2302621B1; US8983842B2; EP2302621A1; US20170229114A1; US20110046955A1; US10229669B2; JP2011043710A; CN101996627A; US20150120286A1

Abstract

本发明提供了一种语音处理装置、语音处理方法和程序，所述语音处理装置包括：数据获取单元，用于获取定义音乐进行中一个或更多个时间点或者一个或更多个时间段的特性的音乐进行数据；确定单元，用于通过采用数据获取单元获取的音乐进行数据确定要在播放音乐期间输出语音的输出时间点；以及音频输出单元，用于在播放音乐期间在确定单元确定的输出时间点输出语音。

Description

语音处理装置、语音处理方法和程序

技术领域

本发明涉及语音处理装置、语音处理方法和程序。

背景技术

近年来，越来越多的用户将数字化音乐数据存储到个人计算机(PC)和便携式音频播放器中并通过根据存储的音乐数据播放音乐来欣赏。基于具有表列音乐数据的播放列表按顺序执行这种音乐播放。当总是单纯地按同样的次序播放音乐时，可能用户不久就会厌烦音乐播放。因此，用于音频播放器的一些软件具有按从播放列表中随机选择的次序执行音乐播放的功能。

日本专利申请公开No.10-104010中公开了一种自动识别音乐的间歇期并在间歇期以语音的形式输出导航信息的导航装置。除了单纯地播放音乐之外，导航装置可以在用户欣赏其播放的音乐与其它音乐之间的间歇期向用户提供有用的信息。

发明内容

日本专利申请公开No.10-104010中公开的导航装置主要目的是插入导航信息而不覆盖音乐播放，并非旨在改变欣赏音乐的用户的体验质量。如果可以不仅在间歇期而且在音乐进行中的各个时间点输出多样化的语音，则可以针对娱乐性和真实感改进用户的体验质量。

鉴于上述内容，期望提供一种新型的和改进的语音处理装置、语音处理方法和程序，能够在音乐进行中的各个时间点输出多样化的语音。

根据本发明的一个实施例，提供了一种语音处理装置，包括：数据获取单元，用于获取定义音乐进行中一个或更多个时间点或者一个或更多个时间段的特性的音乐进行数据；确定单元，用于通过采用数据获取单元获取的音乐进行数据确定要在播放音乐期间输出语音的输出时间点；以及音频输出单元，用于在播放音乐期间在确定单元确定的输出时间点输出语音。

采用以上配置，动态地确定与音乐进行中一个或更多个时间点或者一个或更多个时间段相关联的输出时间点，并且在音乐播放期间在输出时间点输出语音。

数据获取单元还可以获取用于定义与特性由音乐进行数据定义的一个或更多个时间点或者一个或更多个时间段中的任何一个相关联的语音输出时刻的时刻数据，以及，确定单元可以通过采用音乐进行数据和时刻数据确定输出时间点。

数据获取单元还可以获取定义语音内容的模板，以及，语音处理装置还可以包括：合成单元，用于通过采用数据获取单元获取的模板合成语音。

模板可以包含以文本格式描述语音内容的文本数据，并且文本数据可以具有表示要插入音乐的属性值的位置的特定符号。

数据获取单元还可以获取表示音乐的属性值的属性数据，并且合成单元可以在根据数据获取单元获取的属性数据在特定符号所表示的位置插入音乐的属性值之后通过采用模板中包含的文本数据合成语音。

语音处理装置还可以包括：存储器单元，用于存储被定义为分别与音乐播放相关的多个主题中的任何一个主题相关联的多个模板，其中，数据获取单元可以从存储器单元处存储的多个模板中获取与指定主题对应的一个或更多个模板。

至少一个模板可以包含被插入音乐的标题或艺术家姓名作为属性值的文本数据。

至少一个模板可以包含被插入与音乐的排名相关的属性值的文本数据。

语音处理装置还可以包括：历史日志单元，用于记录音乐播放的历史，其中至少一个模板可以包含被插入基于历史日志单元记录的历史设置的属性值的文本数据。

至少一个模板可以包含被插入基于音乐收听者或者与收听者不同的用户的音乐播放历史设置的属性值的文本数据。

音乐进行数据定义的一个或更多个时间点或者一个或更多个时间段的特性可以包含在该时间点或时间段处演唱的存在、旋律的类型、节拍的存在、音符的类型、音调的类型以及演奏的乐器的类型中的至少一个。

根据本发明的另一个实施例，提供了一种采用语音处理装置的语音处理方法，包括如下步骤：从布置在语音处理装置内部或外部的存储介质获取定义音乐进行中一个或更多个时间点或者一个或更多个时间段的特性的音乐进行数据；通过采用获取的音乐进行数据确定要在播放音乐期间输出语音的输出时间点；并且在播放音乐期间在确定的输出时间点输出语音。

根据本发明的另一个实施例，提供了一种程序，用于使控制语音处理装置的计算机用作：数据获取单元，用于获取定义音乐进行中一个或更多个时间点或者一个或更多个时间段的特性的音乐进行数据；确定单元，用于通过采用数据获取单元获取的音乐进行数据确定要在播放音乐期间输出语音的输出时间点；以及音频输出单元，用于在播放音乐期间在确定单元确定的输出时间点输出语音。

如上所述，采用根据本发明的语音处理装置、语音处理方法和程序，可以在音乐进行中的各个时间点输出多样化的语音。

附图说明

图1是示出了根据本发明的实施例的语音处理装置的概要的示意图；

图2是示出了属性数据的示例的说明图；

图3是示出了音乐进行数据的示例的第一说明图；

图4是示出了音乐进行数据的示例的第二说明图；

图5是示出了主题、模板与时刻数据之间的关系的说明图；

图6是示出了主题、模板和时刻数据的示例的说明图；

图7是示出了发音描述数据的示例的说明图；

图8是示出了播放历史数据的示例的说明图；

图9是示出了根据第一实施例的语音处理装置的配置的示例的框图；

图10是示出了根据第一实施例的合成单元的详细配置的示例的框图；

图11是描述了根据第一实施例的语音处理流程的示例的流程图；

图12是示出了与第一主题对应的语音的示例的说明图；

图13是示出了属于第二主题的模板和时刻数据的示例的说明图；

图14是示出了与第二主题对应的语音的示例的说明图；

图15是示出了属于第三主题的模板和时刻数据的示例的说明图；

图16是示出了与第三主题对应的语音的示例的说明图；

图17是示出了根据第二实施例的语音处理装置的配置的示例的框图；

图18是示出了属于第四主题的模板和时刻数据的示例的说明图；

图19是示出了与第四主题对应的语音的示例的说明图；

图20是示出了根据第三实施例的语音处理装置的概要的示意图；

图21是示出了根据第三实施例的语音处理装置的配置的示例的框图；

图22是示出了属于第五主题的模板和时刻数据的示例的说明图；

图23是示出了与第五主题对应的语音的示例的说明图；以及

图24是示出了根据本发明的实施例的语音处理装置的硬件配置的示例的框图。

具体实施方式

在下文中，将参照附图详细描述本发明的优选实施例。注意，在本说明书和附图中，用相同的参考标号表示功能和结构基本上相同的结构元件，并且省略对这些结构元件的重复说明。

将按如下顺序对本发明的实施例进行描述。

1.语音处理装置的概要

2.对语音处理装置管理的数据的描述

2-1.音乐数据

2-2.属性数据

2-3.音乐进行数据

2-4.主题、模板和时刻数据

2-5.发音描述数据

2-6.播放历史数据

3.对第一实施例的描述

3-1.语音处理装置的配置示例

3-2.处理流程的示例

3-3.主题的示例

3-4.第一实施例的结论

4.对第二实施例的描述

4-1.语音处理装置的配置示例

4-2.主题的示例

4-3.第二实施例的结论

5.对第三实施例的描述

5-1.语音处理装置的配置示例

5-2.主题的示例

5-3.第三实施例的结论

<1.语音处理装置的概要>

首先，将参照图1描述根据本发明的实施例的语音处理装置的概要。图1是示出了根据本发明的实施例的语音处理装置的概要的示意图。图1示出了语音处理装置100a、语音处理装置100b、网络102和外部数据库104。

语音处理装置100a是根据本发明的实施例的语音处理装置的示例。例如，语音处理装置100a可以是诸如PC和工作站等的信息处理装置、诸如数字音频播放器和数字电视接收机等数字家用电器、车辆导航设备等。示范性地，语音处理装置100a能够经由网络102访问外部数据库104。

语音处理装置100b也是根据本发明的实施例的语音处理装置的示例。此处，示出了便携式音频播放器作为语音处理装置100b。例如，语音处理装置100b能够通过采用无线通信功能访问外部数据库104。

语音处理装置100a和100b例如读取集成或可拆卸可连接存储介质中存储的音乐数据并播放音乐。语音处理装置100a和100b例如可以包括播放列表功能。在此情形中，也可以按播放列表定义的顺序播放音乐。另外，如后面详细描述的，语音处理装置100a和100b在要播放的音乐进行中的多个时间点执行附加的语音输出。可以对应于用户或系统要指定的主题和/或按照音乐属性动态地生成语音处理装置100a和100b要输出的语音的内容。

在下文中，当不明确需要相互区分时，在本说明书的以下描述中缩略每个标号末尾的字母而将语音处理装置100a和语音处理装置100b统称为语音处理装置100。

网络102是连接语音处理装置100a和外部数据库104的通信网络。例如，网络102可以是任意通信网络，诸如互联网、电话通信网、互联网协议-虚拟专用网(IP-VPN)、局域网(LAN)或广域网(WAN)等。另外，网络102是有线的还是无线的均没有关系。

外部数据库104是响应于来自语音处理装置100的请求向语音处理装置100提供数据的数据库。外部数据库104提供的数据包括例如音乐属性数据、音乐进行数据和发音描述数据的一部分。然而，不限于以上内容，可以从外部数据库104提供其它类型的数据。另外，可以把在本说明书中描述成从外部数据库104提供的数据预先存储在语音处理装置100内部。

<2.对语音处理装置管理的数据的描述>

接下来，将描述本发明的实施例中的语音处理装置100使用的主要数据。

[2-1.音乐数据]

音乐数据是通过将音乐编码成数字形式获取的数据。音乐数据可以以压缩类型或非压缩类型的任意格式形成，诸如WAV、AIFF、MP3和ATRAC等。后面描述的属性数据和音乐进行数据与音乐数据相关联。

[2-2.属性数据]

在本说明书中，属性数据是表示音乐属性值的数据。图2示出了属性数据的示例。如图2中所示，属性数据(ATT)包括从致密盘(CD)的内容表(TOC)、MP3的ID3标签或播放列表中获取的数据(在下文中，称为TOC数据)以及从外部数据库104获取的数据(在下文中，称为外部数据)。此处，TOC数据包括音乐标题、艺术家姓名、流派、长度、序数位置(即，播放列表中的第几首音乐)等。外部数据例如可以包括表示按每周或每月排名音乐的序号的数据。如后所述，可以把这种属性数据的值插入到要在语音处理装置100的音乐播放期间输出的语音内容中包括的预定位置。

[2-3.音乐进行数据]

音乐进行数据是定义音乐进行中一个或更多个时间点或者一个或更多个时间段的属性的数据。音乐进行数据通过分析音乐数据生成，并且例如预先保存在外部数据库104处。例如，可以采用SMFMF格式作为音乐进行数据的数据格式。例如，GraceNote(注册商标)公司的压缩盘数据库(CDDB，注册商标)提供市场上SMFMF格式的大量音乐的音乐进行数据。语音处理装置100可以使用这种数据。

图3示出了以SMFMF格式描述的音乐进行数据的示例。如图3中所示，音乐进行数据(MP)包括一般数据(GD)和时间线数据(TL)。

一般数据是描述整个音乐的特性的数据。在图3的示例中，示出了音乐的格调(即欢快、寂寞等)和每分钟的节拍(BPM：表示音乐的节奏)作为一般数据的数据项。可以把这种一般数据作为音乐属性数据处理。

时间线数据是描述音乐进行中一个或更多个时间点或者一个或更多个时间段的属性的数据。在图3的示例中，时间线数据包括“位置”、“类别”和“子类别”三个数据项。此处，“位置”例如通过采用其开始点在开始音乐演奏的时间点的时间范围(例如，在毫秒等的数量级上)定义音乐进行中的某个时间点。另外，“类别”和“子类别”表示在“位置”定义的时间点或者从该时间点开始的局部时间段中演奏的音乐的属性。更具体地，例如当“类别”为“旋律”时，“子类别”表示演奏的旋律的类型(即前奏、A调、B调、符尾和弦(hook-line)、间奏等)。例如当“类别”为“音符”时，“子类别”表示演奏的音符的类型(即CMaj、Cm、C7等)。例如当“类别”为“节拍”时，“子类别”表示在该时间点演奏的节拍的类型(即大节拍、小节拍等)。例如当“类别”为“乐器”时，“子类别”表示演奏的乐器的类型(即吉他、贝司、鼓、男歌手、女歌手等)。此处，“类别”和“子类别”的分类不限于这些示例。例如，“男歌手”、“女歌手”等可以在属于被定义成与类别“乐器”不同的类别(例如，“歌手”)的子类别中。

图4是进一步描述音乐进行数据之中的时间线数据的说明图。图4上面的部分采用时间轴示出了音乐进行中演奏的旋律类型、音符类型、音调类型、乐器类型。例如，在图4的音乐中，旋律类型按“前奏”、“A调”、“B调”、“符尾和弦”、“间奏”、“B调”和“符尾和弦”的次序进行。音符类型按“CMaj”、“Cm”、“CMaj”、“Cm”和“C#Maj”的次序进行。音调类型按“C”和“C#”的次序进行。另外，男歌手在除了“前奏”和“间奏”以外的旋律部分出现(即男歌手在这些时段中演唱)。此外，在整个音乐过程中演奏鼓。

图4下面的部分示出了五个时间线数据TL1至TL5作为以上音乐进行中的示例。时间线数据TL1表示自开始演奏的时间点之后的位置20000(即，时间点20000毫秒(＝20秒))起演奏的旋律为“A调”。时间线数据TL2表示男歌手在位置21000处开始演唱。时间线数据TL3表示自位置45000起演奏的音符为“CMaj”。时间线数据TL4表示在位置60000处演奏大节拍。时间线数据TL5表示自位置63000起演奏的音符为“Cm”。

通过采用这种音乐进行数据，语音处理装置100可以识别在音乐进行中的一个或更多个时间点或者一个或更多个时间段之中歌声何时出现(歌手何时演唱)，识别在演奏中何时出现何种类型的旋律、音符、音调或乐器，或者识别何时演奏节拍。

[2-4.主题、模板和时刻数据]

图5是示出了主题、模板与时刻数据之间的关系的说明图。如图5中所示，一个或更多个模板(TP)以及一个或更多个时刻数据(TM)与一个主题数据(TH)相关联地存在。即，模板和时刻数据与任何一个主题数据相关联。主题数据表示分别与音乐播放相关的主题并把提供的多对模板和时刻数据分类成数个组。例如，主题数据包括主题标识符(ID)和主题名称两个数据项。此处，主题ID是唯一标识各个主题的标识符。主题名称例如是用户用来从多个主题中选择期望的主题的主题的名称。

模板是定义要在音乐播放期间输出的语音内容的数据。模板包括以文本格式描述语音内容的文本数据。例如，语音合成引擎读出文本数据，以使得模板定义的内容被转换成语音。另外，如后所述，文本数据包括表示要插入音乐属性数据中包含的属性值的位置的特定符号。

时刻数据是定义与从音乐进行数据识别的一个或更多个时间点或者一个或更多个时间段相关联的要在音乐播放期间输出语音的输出时刻的数据。例如，时刻数据包括类型、基准和偏移量三个数据项。此处，例如，类型用于指定包括对音乐进行数据的时间线数据的类别或子类别的引用的至少一个时间线数据。另外，基准和偏移量定义由类型指定的时间线数据所表示的时间轴上的位置和相对于语音输出时间点的位置关系。在对本实施例的描述中，为一个模板提供一个时刻数据。或者，可以为一个模板提供多个时刻数据。

图6是示出了主题、模板和时刻数据的示例的说明图。如图6中所示，多对(对1、对2、...)模板和时刻数据与具有主题ID为“主题1”和主题名称为“电台DJ”这些数据项的主题数据TH1相关联。

对1包含模板TP1和时刻数据TM1。模板TP1包含文本数据“音乐是${ARTIST}的${TITLE}！”。此处，文本数据中的“${ARTIST}”是表示要插入音乐属性值之中的艺术家姓名的位置的符号。另外，“${TITLE}”是表示要插入音乐属性值之中的标题的位置的符号。在本说明书中，要插入音乐属性值的位置用“${...}”表示。然而，不限于此，可以使用其他符号。另外，作为与模板TP1对应的时刻数据TM1的各个数据值，类型为“最初的歌声”、基准为“开头”、偏移量为“-10000”。以上定义了要自音乐进行中最初的歌声的时间段的开头以前十秒的位置起输出模板TP1定义的语音内容。

另外，对2包含模板TP2和时刻数据TM2。模板TP2包含文本数据“下一首音乐是${NEXT_ARTIST}的${NEXT_TITLE}！”。此处，文本数据中的“${NEXT_ARTIST}”是表示要插入下一首音乐的艺术家姓名的位置的符号。另外，“${NEXT_TITLE}”是表示要插入下一首音乐的标题的位置的符号。另外，作为与模板TP2对应的时刻数据TM2的各个数据值，类型为“间奏”、基准为“开头”、偏移量为“+2000”。以上定义了要自间奏的时间段的开头之后两秒的位置起输出模板TP2定义的语音内容。

通过准备针对每个主题分类的多个模板和时刻数据，可以根据用户或系统指定的主题在音乐进行中的各个时间点输出多样化的语音内容。各个主题的语音内容的一些示例将在后面进一步描述。

[2-5.发音描述数据]

发音描述数据是通过采用标准化符号描述词语和语句的准确发音(即，如何恰当读出)的数据。例如，用于描述词语和语句发音的系统可以采用国际音标(IPA)、语音评估方法音标(SAMPA)、扩展SAM音标(X-SAMPA)等。在本说明书中，通过采用能够仅通过ASCII字符表达所有符号的X-SAMPA的示例进行描述。

图7是通过采用X-SAMPA示出了发音描述数据的示例的说明图。图7中示出了三个文本数据TX1至TX3以及分别与之对应的三个发音描述数据PD1至PD3。此处，文本数据TX1表示音乐标题“Mamma Mia”。为了精确，要将音乐标题发音为“mamma miea”。然而，当单纯地将文本数据输入到用于读出文本的文本到语音(TTS)引擎时，可能会把音乐标题错误地发音为“mamma maia”。另外，发音描述数据PD1遵照X-SAMPA把文本数据TX1的准确发音描述为“”mA.m”mi.”。当将发音描述数据PD1输入到能够支持X-SAMPA的TTS引擎时，合成准确发音的语音“mamma miea”。

类似地，文本数据TX2表示音乐标题“Gimme！Gimme！Gimme！”。当向TTS引擎直接输入文本数据TX2时，符号“！”被解释成表示祈使句，使得可能将不必要的空白时间段插入到标题发音中。另外，通过基于“”gI.mi#”gI.mi#”gI.mi#””的发音描述数据PD2合成语音，合成准确发音的语音而没有不必要的空白时间段。

文本数据TX3表示除了日语的中文字符之外还包含字符串“～negai”的音乐标题。当向TTS引擎直接输入文本数据TX3时，可能会把没有必要读出的符号“～”读出为“波浪线”。另外，通过基于“ne.”Na.i”的发音描述数据PD3合成语音，合成准确发音的语音“negai”。

市场上许多音乐标题和艺术家姓名的这种发音描述数据例如由上述GraceNote(注册商标)公司的CDDB(注册商标)提供。相应地，语音处理装置100可以采用这些数据。

[2-6.播放历史数据]

播放历史数据是保存用户或设备播放音乐的历史的数据。播放历史数据可以以按时间顺序累积播放什么音乐以及何时播放音乐的信息的格式形成或者可以在进行处理以进行一些概括之后形成。

图8是示出了播放历史数据的示例的说明图。图8中示出了形式相互不同的播放历史数据HIST1、HIST2。播放历史数据HIST1是按时间顺序累积包含唯一地指定音乐的音乐ID以及播放音乐ID指定的音乐的日期和时间的记录的数据。另外，播放历史数据HIST2例如是通过总结播放历史数据HIST1获得的数据。播放历史数据HIST2表示针对每个音乐ID在预定时间段(例如一周或一个月等)内的播放数量。在图8的示例中，音乐“M001”的播放数量为十次，音乐“M002”的播放数量为一次，播放音乐“M123”的数量为五次。与音乐属性值类似，可以将从诸如各个音乐的播放数量等播放历史数据中总结的值、在按降序存储的情形中的序数位置插入到语音处理装置100合成的语音内容中。

接下来，将对采用以上数据在音乐进行中的各个时间点输出多样化语音内容的语音处理装置100的配置进行具体描述。

<3.对第一实施例的描述>

[3-1.语音处理装置的配置示例]

图9是示出了根据本发明的第一实施例的语音处理装置100的配置的示例的框图。如图9中所示，语音处理装置100包括存储器单元110、数据获取单元120、时刻确定单元130、合成单元150、音乐处理单元170和音频输出单元180。

存储器单元110例如通过采用诸如硬盘和半导体存储器等存储介质存储用于语音处理装置100的处理的数据。存储器单元110要存储的数据包含音乐数据、与音乐数据相关联的属性数据以及针对每个主题分类的模板和时刻数据。此处，在音乐播放期间将这些数据之中的音乐数据输出到音乐处理单元170。通过数据获取单元120获取并分别向时刻确定单元130和合成单元150输出属性数据、模板和时刻数据。

数据获取单元120从存储器单元110或外部数据库104获取时刻确定单元130和合成单元150要使用的数据。更具体地，数据获取单元120例如从存储器单元110获取要播放的音乐的属性数据的一部分以及与主题对应的模板和时刻数据并将时刻数据输出到时刻确定单元130以及把属性数据和模板输出到合成单元150。另外，例如，数据获取单元120例如从外部数据库104中获取要播放的音乐的属性数据的一部分、音乐进行数据和发音描述数据，并把音乐进行数据输出到时刻确定单元130以及把属性数据和发音描述数据输出到合成单元150。

时刻确定单元130通过采用数据获取单元120获取的音乐进行数据和时刻数据确定音乐进行中要输出语音的输出时间点。例如，假定图4中示例的音乐进行数据以及图6中示例的时刻数据TM1输入到时刻确定单元130中。在此情形中，首先，时刻确定单元130从音乐进行数据中查找时刻数据TM1的类型“最初的歌声”指定的时间线数据。随后，指定图4中示例的时间线数据TL2为表示音乐的最初的歌声时间段的开头时间点的数据。相应地，时刻确定单元130通过把时刻数据TM1的偏移量值“-10000”加到时间线数据TL2的位置“21000”来确定根据模板TP1合成的语音的输出时间点为位置“11000”。

以此方式，时刻确定单元130分别针对可能从数据获取单元120输入的多个时刻数据确定与每个时刻数据对应的根据模板合成的语音的输出时间点。然后，时刻确定单元130将针对每个模板确定的输出时间点输出到合成单元150。

此处，根据音乐进行数据的内容，可以确定对于一些模板不存在语音输出时间点(即，不输出语音)。还可以想到对于单个时刻数据存在输出时间点的多个候选。例如，针对图6中示例的时刻数据TM2指定输出时间点为间奏的开头之后两秒。此处，当在单个音乐中多次演奏间奏时，也根据时刻数据TM2指定输出时间点为多个。在此情形中，时刻确定单元130可以从多个输出时间点之中确定第一个输出时间点为根据与时刻数据TM2对应的模板TP2合成的语音的输出时间点。或者，时刻确定单元130可以确定要在多个输出时间点重复输出语音。

合成单元150通过采用数据获取单元120获取的属性数据、模板和发音描述数据合成要在音乐播放期间输出的语音。在模板的文本数据具有表示要插入音乐属性值的位置的符号的情形中，合成单元150把属性数据代表的音乐属性值插入到该位置。

图10是示出了合成单元150的详细配置的示例的框图。参照图10，合成单元150包括发音内容生成单元152、发音转换单元154和语音合成引擎156。

发音内容生成单元152把音乐属性值插入到从数据获取单元120输入的模板的文本数据中并生成要在音乐播放期间输出的语音的发音内容。例如，假定图6中示例的模板TP1输入到发音内容生成单元152中。在此情形中，发音内容生成单元152识别模板TP1的文本数据中的符号${ARTIST}。随后，发音内容生成单元152从属性数据中提取并向符号${ARTIST}的位置插入要播放的音乐的艺术家姓名。类似地，发音内容生成单元152识别模板TP1的文本数据中的符号${TITLE}。随后，发音内容生成单元152从属性数据中提取并向符号${TITLE}的位置插入要播放的音乐的标题。结果，当要播放的音乐的标题为“T1”且艺术家姓名为“A1”时，基于模板TP1生成发音内容“音乐是A1的T1！”。

发音转换单元154通过采用发音描述数据对发音内容生成单元152生成的发音内容之中在单纯读出诸如音乐标题和艺术家姓名等文本数据时可能引起错误发音的部分的发音内容进行转换。例如，在发音内容生成单元152生成的发音内容中包含音乐标题“Mamma Mia”的情形中，发音转换单元154从自数据获取单元120输入的发音描述数据中提取例如图7中示例的发音描述数据PD1并把“Mamma Mia”转换成“”mA.m”mi.”。结果，生成消除了错误发音可能性的发音内容。

示例性地，语音合成引擎156是除了正常文本之外还能够读出以X-SAMPA格式描述的符号的TTS引擎。语音合成引擎156合成语音以根据从发音转换单元154输入的发音内容读出发音内容。可以以诸如脉冲编码调制(PCM)和自适应差分脉冲编码调制(ADPCM)等任意格式形成语音合成引擎156合成的语音的信号。语音合成引擎156合成的语音与时刻确定单元130确定的输出时间点相关联地输出到音频输出单元180。

此处，存在针对单个音乐向合成单元150输入多个模板的可能性。当在此情形中同时执行音乐播放和语音合成时，优选地，合成单元150按从较早起的输出时间点的时间顺序对模板执行处理。相应地，使得能够减小输出时间点在完成语音合成的时间点之前过去的可能性。

下面，参照图9继续对语音处理装置100的配置的描述。

为了播放音乐，音乐处理单元170从存储器单元110获取音乐数据并且例如在执行诸如流分离和解码等处理之后生成PCM格式或ADPCM格式的音频信号。另外，音乐处理单元170例如可以根据用户或系统指定的主题只对从音乐数据中提取的一部分执行处理。音乐处理单元170生成的音频信号输出到音频输出单元180。

合成单元150合成的语音以及音乐处理单元170生成的音乐(即其音频信号)输入到音频输出单元180。示例性地，通过采用能够并行处理的两个或更多个声道(或缓存器)保存语音和音乐。音频输出单元180在时刻确定单元130确定的时间点输出合成单元150合成的语音并同时顺序输出音乐音频信号。此处，在语音处理装置100设置有扬声器的情形中，音频输出单元180可以将音乐和语音输出到扬声器或者可以将音乐和语音(即其音频信号)输出到外部设备。

至此，参照图9和图10对语音处理装置100的配置的示例进行了描述。示例性地，在以上语音处理装置100的各个单元之中，采用软件实现并通过诸如中央处理单元(CPU)和数字信号处理器(DSP)等运算设备执行数据获取单元120、时刻确定单元130、合成单元150和音乐处理单元170的处理。除了运算设备之外，音频输出单元180还可以设置有DA转换电路和模拟电路以对要输入的语音和音乐执行处理。另外，如上所述，存储器单元110可以被配置为采用诸如硬盘和半导体存储器等存储介质。

[3-2.处理流程的示例]

接下来，将参照图11描述语音处理装置100所进行的语音处理的流程的示例。图11是示出了语音处理装置100所进行的语音处理流程的示例的流程图。

参照图11，首先，音乐处理单元170从存储器单元110获取要播放音乐的音乐数据(步骤S102)。然后，音乐处理单元170例如把用以指定要播放的音乐的音乐ID等通知给数据获取单元120。

接下来，数据获取单元120从存储器单元110获取要播放音乐的属性数据的一部分(例如，TOC数据)以及与主题对应的模板和时刻数据(步骤S104)。随后，数据获取单元120把时刻数据输出到时刻确定单元130并把属性数据和模板输出到合成单元150。

接下来，数据获取单元120从外部数据库104获取要播放音乐的属性数据的一部分(例如，外部数据)、音乐进行数据和发音描述数据(步骤S106)。随后，数据获取单元120把音乐进行数据输出到时刻确定单元130并把属性数据和发音描述数据输出到合成单元150。

接下来，时刻确定单元130通过采用音乐进行数据和时刻数据确定要输出根据模板合成的语音的输出时间点(步骤S108)。随后，时刻确定单元130把确定的输出时间点输出到合成单元150。

接下来，合成单元150的发音内容生成单元152根据模板和属性数据生成文本格式的发音内容(步骤S110)。另外，发音转换单元154通过采用发音描述数据用根据X-SAMPA格式的符号替代发音内容中包含的音乐标题和艺术家姓名(步骤S112)。随后，语音合成引擎156根据发音内容合成要输出的语音(步骤S114)。重复步骤S110至步骤S114的处理，直到针对时刻确定单元130确定输出时间点的所有模板完成语音合成为止(步骤S116)。

当针对输出时间点确定的所有模板完成语音合成时，图11的流程图完成。

此处，语音处理装置100可以与诸如音乐处理单元170对音乐数据的解码等处理并行地执行图11的语音处理。在此情形中，优选地，语音处理装置100例如首先开始图11的语音处理并在与播放列表中第一首音乐有关的语音合成(或者与音乐有关的语音之中与最早输出时间点对应的语音合成)完成之后开始对音乐数据的解码等。

[3-3.主题的示例]

接下来，将参照图12至图16针对三种类型的主题对根据本实施例的语音处理装置100提供的多样化语音的示例进行描述。

(第一主题：电台DJ)

图12是示出了与第一主题对应的语音的示例的说明图。第一主题的主题名称为“电台DJ”。图6中示出了属于第一主题的模板和时刻数据的示例。

如图12中所示，基于包含文本数据“音乐是${ARTIST}的${TITLE}！”的模板TP1以及属性数据ATT1合成语音V1“音乐是A1的T1！”。另外，基于时刻数据TM1确定语音V1的输出时间点在音乐进行数据所表示的最初的歌声的时间段的开头之前十秒处。相应地，紧邻最初的歌声开始之前输出具有真实感的电台DJ状的语音“音乐是A1的T1！”而不覆盖歌声。

类似地，基于图6的模板TP2合成语音V2“下一首音乐是A2的T2！”。另外，基于时刻数据TM2确定语音V2的输出时间点在音乐进行数据所表示的间奏的时间段的开头之后两秒处。相应地，紧邻符尾和弦结束和间奏开始之后输出具有真实感的电台DJ状的语音“下一首音乐是A2的T2！”而不覆盖歌声。

(第二主题：官方倒计时(countdown))

图13是示出了属于第二主题的模板和时刻数据的示例的说明图。如图13中所示，多对模板和时刻数据(即，对1、对2、...)与具有主题ID为“主题2”且主题名称为“官方倒计时”数据项的主题数据TH2相关联。

对1包含模板TP3和时刻数据TM3。模板TP3包含文本数据“本周排名第${RANKING}位，${ARTIST}的${TITLE}”。此处，文本数据中的“${RANKING}”例如是表示音乐属性值之中要插入音乐的每周销售排名的序数位置的位置的符号。另外，作为与模板TP3对应的时刻数据TM3的各个数据值，类型为“符尾和弦”、基准为“开头”、偏移量为“-10000”。

另外，对2包含模板TP4和时刻数据TM4。模板TP4包含文本数据“排名从上周上升${RANKING_DIFF}，${ARTIST}的${TITLE}”。此处，文本数据中的“${RANKING_DIFF}”例如是表示音乐属性值之中要插入音乐的每周销售排名从上周的变化的位置的符号。另外，作为与模板TP4对应的时刻数据TM4的各个数据值，类型为“符尾和弦”、基准为“结尾”、偏移量为“+2000”。

图14是示出了与第二主题对应的语音的示例的说明图。

如图14中所示，基于图13的模板TP3合成语音V3“本周排名第三位，A3的T3”。另外，基于时刻数据TM3确定语音V3的输出时间点在音乐进行数据所表示的符尾和弦的时间段的开头之前十秒处。相应地，紧邻演奏符尾和弦前输出销售排名倒计时状的语音“本周排名第三位，A3的T3”。

类似地，基于图13的模板TP4合成语音V4“排名从上周上升六位，A3的T3”。另外，基于时刻数据TM4确定语音V4的输出时间点在音乐进行数据所表示的符尾和弦的时间段的结尾之后两秒处。相应地，紧邻符尾和弦结束后输出销售排名倒计时状的语音“排名从上周上升六位，A3的T3”。

当主题是这种官方倒计时时，音乐处理单元170可以提取并向音频输出单元180输出包含符尾和弦的音乐的一部分，而不是把整个音乐输出到音频输出单元180。在此情形中，时刻确定单元130确定的语音输出时间点可能根据音乐处理单元170提取的部分移动。采用该主题，例如可以通过根据被获取作为外部数据的排名数据以倒计时方式接连播放仅符尾和弦部分的音乐来向用户提供新的娱乐特性。

(第三主题：信息提供)

图15是示出了属于第三主题的模板和时刻数据的示例的说明图。如图15中所示，多对模板和时刻数据(即，对1、对2、...)与具有主题ID为“主题3”且主题名称为“信息提供”数据项的主题数据TH3相关联。

对1包含模板TP5和时刻数据TM5。模板TP5包含文本数据“${INFO1}”。作为与模板TP5对应的时刻数据TM5的各个数据值，类型为“最初的歌声”、基准为“开头”、偏移量为“-10000”。

对2包含模板TP6和时刻数据TM6。模板TP6包含文本数据“${INFO2}”。作为与模板TP6对应的时刻数据TM6的各个数据值，类型为“间奏”、基准为“开头”、偏移量为“+2000”。

此处，文本数据中的“${INFO1}”和“${INFO2}”是表示分别插入与一些情况对应的由数据获取单元120获取的第一和第二信息的位置的符号。第一和第二信息可以是新闻、天气预报或广告。另外，新闻和广告可以与音乐或艺术家有关或者可以与之无关。例如，可以通过数据获取单元120从外部数据库104获取信息。

图16是示出了与第三主题对应的语音的示例的说明图。

参照图16，基于模板TP5合成用于读新闻的语音V5。另外，基于时刻数据TM5确定语音V5的输出时间点在音乐进行数据所表示的最初的歌声的时间段的开头之前十秒处。相应地，紧邻最初的歌声开始之前输出用于读新闻的语音。

类似地，基于模板TP6合成用于读天气预报的语音V6。另外，基于时刻数据TM6确定语音V6的输出时间点在音乐进行数据所表示的间奏的开头之后两秒处。相应地，紧邻符尾和弦结束和间奏开始之后输出用于读天气预报的语音。

采用该主题，由于例如在不出现歌声的前奏或间奏的时间段中向用户提供诸如新闻和天气预报等信息，因此用户可以在欣赏音乐的同时有效地利用时间。

[3-4.第一实施例的结论]

至此，参照图9至图16对根据本发明第一实施例的语音处理装置100进行了描述。根据本实施例，通过采用定义音乐进行中一个或更多个时间点或者一个或更多个时间段的属性的音乐进行数据动态地确定要在音乐播放期间输出语音的输出时间点。随后，在音乐播放期间在确定的输出时间点输出语音。相应地，语音处理装置100能够在音乐进行中的各个时间点输出语音。这时，采用定义与一个或更多个时间点或者一个或更多个时间段相关联的语音输出时刻的时刻数据。相应地，可以根据时刻数据的定义灵活地设置或改变语音输出时间点。

另外，根据本实施例，使用模板以文本格式描述要输出的语音内容。文本数据具有表示要插入音乐属性值的位置的特定符号。随后，可以把音乐属性值动态地插入到特定符号的位置。相应地，可以容易地提供各种类型的语音内容，并且语音处理装置100可以在音乐进行中输出多样化的语音。另外，根据本实施例，通过新定义模板来随后添加要输出的语音内容也是容易的。

此外，根据本实施例，准备与音乐播放有关的多个主题，分别与多个主题中的任意一个主题相关联地定义以上模板。相应地，由于根据主题的选择输出不同的语音内容，语音处理装置100能够长期娱乐用户。

此处，在对本实施例的描述中，在音乐进行中输出语音。另外，语音处理装置100可以输出诸如叮当声以及与之伴随的有效声音等短音乐。

<4.对第二实施例的描述>

[4-1.语音处理装置的配置示例]

图17是示出了根据本发明的第二实施例的语音处理装置200的配置的示例的框图。参照图17，语音处理装置200包括存储器单元110、数据获取单元220、时刻确定单元130、合成单元150、音乐处理单元270、历史日志单元272和音频输出单元180。

与根据第一实施例的数据获取单元120类似，数据获取单元220从存储器单元110或外部数据库104中获取时刻确定单元130或合成单元150使用的数据。另外，在本实施例中，数据获取单元220获取由后面提及的历史日志单元272记录的播放历史数据作为音乐属性数据的一部分并输出到合成单元150。相应地，合成单元150变得能够把基于音乐播放历史设置的属性值插入到模板中包含的文本数据的预定位置。

与根据第一实施例的音乐处理单元170类似，音乐处理单元270从存储器单元110获取音乐数据以播放音乐并且通过执行诸如流分离和解码等处理生成音频信号。音乐处理单元270例如可以根据用户或系统指定的主题只对从音乐数据提取的一部分执行处理。把音乐处理单元270生成的音频信号输出到音频输出单元180。另外，在本实施例中，音乐处理单元270把音乐播放的历史输出到历史日志单元272。

历史日志单元272例如通过采用诸如硬盘和半导体存储器等存储介质以参照图8描述的播放历史数据HIST1和/或HIST2的形式记录从音乐处理单元270输入的音乐播放历史。随后，历史日志单元272根据需要把由此记载的音乐播放历史输出到数据获取单元220。

语音处理装置200的配置使得能够基于如下描述的第四主题输出语音。

[4-2.主题的示例]

(第四主题：个人倒计时)

图18是示出了属于第四主题的模板和时刻数据的示例的说明图。参照图18，多对模板和时刻数据(即，对1、对2、...)与具有主题ID为“主题4”且主题名称为“个人倒计时”数据项的主题数据TH4相关联。

对1包含模板TP7和时刻数据TM7。模板TP7包含文本数据“本周播放${FREQUENCY}次，${ARTIST}的${TITLE}！”。此处，文本数据中的“${FREQUENCY}”例如是表示基于音乐播放历史设置的音乐属性值中要插入上周音乐播放次数的位置的符号。例如，这一播放次数包含在图8的播放历史数据HIST2中。另外，作为与模板TP7对应的时刻数据TM7的各个数据值，类型为“符尾和弦”、基准为“开头”、偏移量为“-10000”。

另外，对2包含模板TP8和时刻数据TM8。模板TP8包含文本数据“连续${DURATION}周第${P_RANKING}位，你最喜爱的音乐${TITLE}”。此处，文本数据中的“${DURATION}”例如是表示基于音乐播放历史设置的音乐属性值中要插入表示音乐在排名的同一序数位置中停留了多少周的数值的位置的符号。文本数据中的“${P_RANKING}”例如是表示基于音乐播放历史设置的音乐属性值中要插入音乐在播放数量排名上的序数位置的位置的符号。另外，作为与模板TP8对应的时刻数据TM8的各个数据值，类型为“符尾和弦”、基准为“结尾”、偏移量为“+2000”。

图19是示出了与第四主题对应的语音的示例的说明图。

参照图19，基于图18的模板TP7合成语音V7“本周播放八次，A7的T7！”。另外，基于时刻数据TM7确定语音V7的输出时间点在音乐进行数据所表示的符尾和弦的时间段的开头之前十秒处。相应地，紧邻演奏符尾和弦之前输出每个用户或每个语音处理装置100的关于播放数量排名的倒计时状的语音“本周播放八次，A7的T7！”。

类似地，基于图18的模板TP8合成语音V8“连续三周第一位，你最喜爱的音乐T7”。另外，基于时刻数据TM8确定语音V8的输出时间点在音乐进行数据所表示的符尾和弦的时间段的结尾之后两秒处。相应地，紧邻符尾和弦结束之后输出关于播放数量排名的倒计时状的语音“连续三周第一位，你最喜爱的音乐T7”。

在本实施例中，音乐处理单元270也可以提取并向音频输出单元180输出包含符尾和弦的音乐的一部分，而不是把整个音乐输出到音频输出单元180。在此情形中，可以根据音乐处理单元270所提取的部分移动时刻确定单元130确定的语音输出时间点。

[4-3.第二实施例的结论]

至此，参照图17至图19对根据本发明第二实施例的语音处理装置200进行了描述。根据本实施例，也通过采用定义音乐进行中一个或更多个时间点或者一个或更多个时间段的属性的音乐进行数据动态地确定要在音乐播放期间输出语音的输出时间点。然后，在音乐播放期间输出的语音内容可以包含基于音乐播放历史设置的属性值。相应地，增进了可以在音乐进行中各个时间点输出各种语音。

另外，采用以上第四主题(“个人倒计时”)，可以为用户或系统播放的音乐进行关于播放数量排名的倒计时状的音乐介绍。相应地，由于当播放倾向不同时向具有同样音乐组的用户提供不同的语音，因此预期进一步提高用户要体验的娱乐特性。

<5.对第三实施例的描述>

在描述为本发明的第三实施例的示例中，通过采用第二实施例的历史日志单元272记录的音乐播放历史通过多个用户(或多个装置)之间的合作增进要输出的各种语音。

[5-1.语音处理装置的配置示例]

图20是示出了根据本发明的第三实施例的语音处理装置300的概要的示意图。图20示出了语音处理装置300a、语音处理装置300b、网络102和外部数据库104。

语音处理装置300a和300b能够经由网络102相互通信。语音处理装置300a和300b是本实施例的语音处理装置的示例，可以是信息处理装置、数字家用电器、车辆导航设备等，与根据第一实施例的语音处理装置100类似。下面，把语音处理装置300a和300b统称为语音处理装置300。

图21是示出了根据本实施例的语音处理装置300的配置的示例的框图。如图21中所示，语音处理装置300包括存储器单元110、数据获取单元320、时刻确定单元130、合成单元150、音乐处理单元370、历史日志单元272、推荐单元374和音频输出单元180。

与根据第二实施例的数据获取单元220类似，数据获取单元320从存储器单元110、外部数据库104或历史日志单元272获取时刻确定单元130或合成单元150要使用的数据。另外，在本实施例中，当输入用以唯一地标识后述推荐单元374所推荐音乐的音乐ID时，数据获取单元320从外部数据库104等获取与音乐ID相关的属性数据并输出到合成单元150。相应地，合成单元150变得能够将与推荐音乐相关的属性值插入到模板中包含的文本数据的预定位置。

与根据第二实施例的音乐处理单元270类似，音乐处理单元370从存储器单元110获取音乐数据以播放音乐并通过执行诸如流分离和解码等处理生成音频信号。另外，音乐处理单元370把音乐播放历史输出到历史日志单元272。另外，在本实施例中，当推荐单元374推荐音乐时，音乐处理单元370例如从存储器单元110(或者未示出的其他源)获取所推荐音乐的音乐数据并执行诸如生成以上音频信号等处理。

推荐单元374基于历史日志单元272记录的音乐播放历史确定要向语音处理装置300的用户推荐的音乐并把唯一地指定该音乐的音乐ID输出到数据获取单元320和音乐处理单元370。例如，推荐单元374可以把历史日志单元272记录的音乐播放历史中播放数量大的音乐的艺术家的其他音乐确定为要推荐的音乐。另外，例如，推荐单元374可以通过与其他语音处理装置300交换音乐播放历史并采用诸如基于内容过滤(CBF)和协同过滤(CF)等方法确定要推荐的音乐。另外，推荐单元374可以经由网络102获取新音乐的信息并把新音乐确定为要推荐的音乐。另外，推荐单元374可以经由网络102将自身的历史日志单元272记录的播放历史数据或者被推荐音乐的音乐ID发送到其他语音处理装置300。

语音处理装置300的配置使得能够基于下面描述的第五主题输出语音。

[5-2.主题的示例]

(第五主题：推荐)

图22是示出了属于第五主题的模板和时刻数据的示例的说明图。参照图22，多对模板和时刻数据(即，对1、对2、对3...)与具有主题ID为“主题5”且主题名称为“推荐”数据项的主题数据TH5相关联。

对1包含模板TP9和时刻数据TM9。模板TP9包含文本数据“为常常收听${P_MOST_PLAYED}的你推荐${R_ARTIST}的${R_TITLE}”。此处，文本数据中的“${P_MOST_PLAYED}”例如是表示要插入历史日志单元272记录的音乐播放历史中播放次数最大的音乐标题的位置的符号。“${R_TITLE}”和“${R_ARTIST}”是分别表示插入推荐单元374所推荐音乐的标题和艺术家姓名的位置的符号。另外，作为与模板TP9对应的时刻数据TM9的各个数据值，类型为“第一A调”、基准为“开头”、偏移量为“-10000”。

另外，对2包含模板TP10和时刻数据TM10。模板TP10包含文本数据“你朋友的排名第${F_RANKING}位，${R_ARTIST}的${R_TITLE}”。此处，文本数据中的“${F_RANKING}”是表示推荐单元374从其它语音处理装置300接收的音乐播放历史中插入表示推荐单元374所推荐音乐的序数位置的数值的位置的符号。

另外，对3包含模板TP11和时刻数据TM11。模板TP11包含文本数据“将在${RELEASE_DATE}发行${R_ARTIST}的${R_TITLE}”。此处，文本数据中的“${RELEASE_DATE}”例如是表示要插入推荐单元374所推荐音乐的发行日期的位置的符号。

图23是示出了与第五主题对应的语音的示例的说明图。

参照图23，基于图22的模板TP9合成语音V9“为常常收听T9的你推荐A9的T9+”。另外，基于时刻数据TM9确定语音V9的输出时间点在音乐进行数据所表示的第一A调的时间段的开头之前十秒处。相应地，紧邻演奏音乐的第一A调之前输出用以介绍所推荐音乐的语音V9。

类似地，基于图22的模板TP10合成语音V10“你朋友的排名第一位，A10的T10”。也确定语音V10的输出时间点在音乐进行数据所表示的第一A调的时间段的开头之前十秒处。

类似地，基于图22的模板TP11合成语音V11“将在9月1日发行A11的T11”。也确定语音V11的输出时间点在音乐进行数据所表示的第一A调的时间段的开头之前十秒处。

在本实施例中，音乐处理单元370可以提取并向音频输出单元180输出仅包含从第一A调直到第一符尾和弦(即，有时称为音乐的“第一和弦”)为止的音乐的一部分，而不是将整个音乐输出到音频输出单元180。

[4-3.第三实施例的结论]

至此，参照图20至图23对根据本发明的第三实施例的语音处理装置300进行了描述。根据本实施例，也通过采用定义音乐进行中一个或更多个时间点或者一个或更多个时间段的属性的音乐进行数据动态地确定要在音乐播放期间输出语音的输出时间点。然后，在音乐播放期间输出的语音内容可以包含与基于音乐收听者(收听用户)或者与收听者不同的用户的播放历史数据所推荐的音乐相关的属性值。相应地，可以通过连同对音乐的介绍一起播放与采用普通播放列表要播放的音乐不同的未预见到的音乐进一步提高用户的体验质量，诸如促进遇到新的音乐等。

此处，本说明书中描述的语音处理装置100、200、或者300可以实施为例如具有图24中所示的硬件配置的装置。

在图24中，CPU 902控制硬件的整体操作。只读存储器(ROM)904存储描述一系列处理的一部分或全部的程序或数据。随机存取存储器(RAM)906暂时存储CPU 902在执行处理期间要使用的程序、数据等。

CPU 902、ROM 904和RAM 906经由总线910相互连接。总线910还连接到输入/输出接口912。输入/输出接口912是将CPU 902、ROM 904和RAM 906连接到输入设备920、音频输出设备922、存储设备924、通信设备926和驱动器930的接口。

输入设备920经由诸如按钮、开关、控制杆、鼠标和键盘等用户接口从用户接收指令和信息的输入(例如，主题指定)。音频输出设备922例如对应于扬声器等并用于音乐播放和语音输出。

存储设备924例如由硬盘、半导体存储器等构建并存储程序和各种数据。通信设备926支持经由网络与外部数据库104或其他设备的通信处理。例如根据需要布置驱动器930并且可以把可移除介质932装配到驱动器930。

本领域的技术人员应当理解，根据设计要求和其它因素，可以进行各种修改、组合、子组合和改变，只要这些修改、组合、子组合和改变在所附权利要求或其等价内容的范围内。

例如，不一定按照流程图中描述的次序执行参照图11描述的语音处理。各个处理步骤可以包括同时或单独执行的处理。

本申请包含与2009年8月21日提交于日本专利局的日本在先专利申请JP 2009-192399中公开的主题相关的主题，所述日本在先专利申请JP2009-192399全部内容通过引用合并于此。

Claims

1.一种语音处理装置，包括：

数据获取单元，用于获取音乐进行数据，所述音乐进行数据包括描述整个音乐的特性的数据以及描述音乐进行中一个或更多个时间点或时间段的特性的数据；

确定单元，用于通过采用所述数据获取单元获取的音乐进行数据来确定要在播放音乐期间输出语音的输出时间点；以及

音频输出单元，用于在播放音乐期间在所述确定单元确定的所述输出时间点输出语音。

2.根据权利要求1所述的语音处理装置，

其中，所述数据获取单元还获取时刻数据，所述时刻数据用于定义与特性由所述音乐进行数据定义的一个或更多个时间点或者一个或更多个时间段中的任何一个相关联的语音的输出时刻，以及

所述确定单元通过采用所述音乐进行数据和所述时刻数据确定所述输出时间点。

3.根据权利要求2所述的语音处理装置，

其中，所述数据获取单元还获取定义语音内容的模板，以及

所述语音处理装置还包括：

合成单元，用于通过采用所述数据获取单元获取的模板合成语音。

4.根据权利要求3所述的语音处理装置，

其中，所述模板包含以文本格式描述所述语音内容的文本数据，以及

所述文本数据具有表示要插入音乐的属性值的位置的特定符号。

5.根据权利要求4所述的语音处理装置，

其中，所述数据获取单元还获取表示音乐的属性值的属性数据，以及

所述合成单元在根据所述数据获取单元获取的属性数据在由所述特定符号所表示的位置插入音乐的属性值之后采用所述模板中包含的文本数据合成语音。

6.根据权利要求3所述的语音处理装置，还包括：

存储器单元，用于存储被定义为分别与音乐播放相关的多个主题中的任何一个主题相关联的多个模板，

其中，所述数据获取单元从所述存储器单元所存储的多个模板中获取与指定主题对应的一个或更多个模板。

7.根据权利要求4所述的语音处理装置，

其中，至少一个所述模板包含被插入音乐的标题或艺术家姓名作为属性值的文本数据。

8.根据权利要求4所述的语音处理装置，

其中，至少一个所述模板包含被插入与音乐的排名相关的属性值的文本数据。

9.根据权利要求4所述的语音处理装置，还包括：

历史日志单元，用于记录音乐播放的历史，

其中，至少一个所述模板包含被插入基于所述历史日志单元记录的历史设置的属性值的文本数据。

10.根据权利要求4所述的语音处理装置，

其中，至少一个所述模板包含被插入基于音乐收听者或者与收听者不同的用户的音乐播放历史设置的属性值的文本数据。

11.根据权利要求1所述的语音处理装置，

其中，所述音乐进行数据定义的一个或更多个时间点或者一个或更多个时间段的特性包含在所述时间点或时间段处演唱的存在、旋律的类型、节拍的存在、音符的类型、音调的类型以及演奏乐器的类型的至少一个。

12.一种采用语音处理装置的语音处理方法，包括如下步骤：

从布置在语音处理装置内部或外部的存储介质获取音乐进行数据，所述音乐进行数据包括描述整个音乐的特性的数据以及描述音乐进行中一个或更多个时间点或时间段的特性的数据；

通过采用所获取的音乐进行数据来确定要在播放音乐期间输出语音的输出时间点；并且

在播放音乐期间在所确定的输出时间点输出语音。