CN107077840B

CN107077840B - 语音合成装置和方法

Info

Publication number: CN107077840B
Application number: CN201580056851.0A
Authority: CN
Inventors: 嘉山启; 松原弘明
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-10-20
Filing date: 2015-10-20
Publication date: 2021-06-01
Anticipated expiration: 2035-10-20
Also published as: EP3211637A1; US20190139535A1; CN107077840A; US10217452B2; EP3211637A4; EP3211637B1; JP2016080944A; US10789937B2; US20170221470A1; WO2016063879A1; JP6446993B2

Abstract

本发明是用于针对由说话者(用户)说出的语音自动地生成口语回应的技术的改进，并且其特征在于：根据说话者的语音的音高控制口语回应的音高。接收说话者说出的话语(例如，问题)的语音信号(102)，并且检测话语的代表性部分的音高(例如，最高音高)(106)。适当地获取对话语的回应的语音数据(110、124)，并且获取基于所获取的口语回应语音数据的音高(例如，平均音高)。确定用于将获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量(114)。当基于回应语音数据来合成口语回应时，根据音高偏移量将合成的口语回应的音高进行偏移。

Description

语音合成装置和方法

技术领域

本发明涉及一种语音合成装置和方法以及一种用于执行语音合成方法的程序。

背景技术

近年来，提出了以下话音或语音合成技术。这些提出的话音或语音合成技术包括如下两种技术：其中，一种技术合成和输出与用户的说话的音调和语音质量相对应的语音，从而产生更接近真实人声的语音(例如，见专利文献1)，另一种技术分析用户的语音以评价用户的心理状况和健康状况等(例如，见专利文献2)。近年来还提出了一种语音交互系统，其通过在合成的语音中输出由情景指定的内容的同时识别由用户输入的语音来实现与用户的语音交互(例如，见专利文献3)。

现有技术文献：

专利文献：

专利文献1：日本专利申请公开出版物No.2003-271194

专利文献2：日本专利No.4495907

专利文献3：日本专利No.4832097

现在，我们假设这样一种交互系统，其将前述语音合成技术和语音交互系统进行组合，并且针对通过用户的语音而给出的问题以通过话音或语音合成而合成的语音的形式来输出应答。然而，这种假设的交互系统有时会给用户这样一种感觉，就好像机器在说出回应一样。

发明内容

鉴于以上内容，因此本发明的一个目的为提供一种语音合成装置和一种语音合成方法，其能够响应于问题自动地合成语音，在不会给用户带来不自然的感觉的同时防止语音的听觉质量变差，此外，本发明还公开了一种用于存储用以实现这种语音合成方法的程序的存储介质。

在研发通过话音或语音合成来输出针对用户提出的问题的回应的人机系统的过程中，首先要考虑的是在人员之间进行了何种对话，重点关注除语言信息之外的信息，尤其是使对话具有特征的声音音高(频率)。作为人员之间的示例对话，考虑这样一种情况，其中一个人员(“人员b”)针对另一人员(“人员a”)给出的话语(例如，问题)而做出回应。在这种情况下，当“人员a”说出问题时，“人员a”和“人员b”通常对于问题的特定部分的音高具有强烈印象。当“人员b”带有赞同、赞成、肯定等的倾向来回应问题时，“人员b”以回应中的具有特征的部分的音高与上述带来印象(给人员带来强烈印象)的音高具有特定关系(更具体地说，协和音程关系)的方式说出回应的语音(回应语音)。因为“人员a”的问题的印象深的音高与“人员b”的回应中的具有特征的部分的音高具有上述关系，所以听到回应的“人员a”可能对“人员b”的回应具有良好的、舒服的和安心的印象。也就是说，在人员之间的实际对话中，可以认为问题的音高与对问题的回应的音高具有上述特定关系而不是彼此无关。因此，根据前述考虑，为了实现上述目的，本发明的发明人研发了一种语音合成装置形式的交互系统，该语音合成装置按照以下方式构造为通过话音或语音合成输出对用户提出的问题的回应。

也就是说，为了实现上述目的，本发明提供了一种改进的语音合成装置，该语音合成装置包括：接收部分，其接收话语的语音信号；音高检测部分，其基于由接收部分接收到的语音信号来检测话语的代表性部分的音高；回应获取部分，其获取对话语的回应的语音数据；回应音高获取部分，其获取基于由回应获取部分获取的回应的语音数据的音高；音高偏移量确定部分，其确定用于将由回应音高获取部分获取的音高偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量；以及回应合成部分，其基于回应的语音数据来合成回应的语音，回应合成部分配置为根据音高偏移量来将待合成的回应的语音的音高进行偏移。

根据本发明，检测接收到的话语的代表性部分的音高，根据与检测到的代表性部分的音高具有特定关系的目标音高来确定音高偏移量，随后根据所确定的音高偏移量来将待合成的回应的语音的音高进行偏移。因此，本发明可合成针对接收到的话语(例如，用户说出的问题)的语音的回应的语音，其具有与话语(问题)的音高具有特定关系的音高。以这种方式，本发明可合成(再现)不会不自然并且高质量的回应语音。应该注意，在本发明中，从说话者(用户)接收到的话语的语音信号表示一句话、一个或几个词语、一条语音等的语言学语音。

还应该注意，上述回应不一定限于对话语(问题)的内容的特定回应。除人声之外，回应的示例可包括仅反馈语回复(叹词)和动物的叫声(诸如“汪汪”和“喵”)。也就是说，术语“回应”和“语音”是指不仅包括人说出的语音而且包括动物的叫声的这样的概念。

此外，“接收到的话语的代表性部分的音高”是指表示与音高相关特征和接收到的话语的特征的音高。例如，“接收到的话语的代表性部分的音高”是话语中的通过话语的意向或倾向来强烈地吸引听众的那部分的音高；具体地说，其可为话语中的音量为预定值或更高的那部分的最高音高，或者为话语(问题)的结尾部分的音高。

此外，由音高获取部分获取的“基于回应的语音数据的音高”可为当在标准音高范围内再现回应的语音数据时回应的特征部分的音高，并且例如，“特征部分的音高”可为回应的开始部分的音高、回应中的音量最高的那部分的音高、回应的平均音高等。

在本发明的一个实施例中，音高偏移量确定部分可将与代表性部分的音高具有协和音程关系的音高确定为目标音高。“协和音程”是指同时生成的多个音调彼此混合以彼此良好协调的关系，并且将这些音调之间的这种音程关系称作“协和音程关系”。两个音调之间的频率比越简单，音调之间的协调程度越高。

在本发明的一个实施例中，音高偏移量确定部分可确定目标音高以使得目标音高落入距离所获取的音高的预定范围内。在语音数据偏移了音高偏移量的情况下，如果音高偏移量较大，则偏移了音高后的语音数据的质量将变差。然而，本发明可以通过确定目标音高以使得目标音高落入距离所获取的音高的预定范围内来避免这种变差。在一个实施例中，音高偏移量确定部分可逐八度音地调整目标音高以使得目标音高落入距离所获取的音高的预定范围内。

此外，在本发明的一个实施例中，音高检测部分可检测接收到的语音信号中的音量为预定值或更大的那部分的最高音高，并将其作为代表性部分的音高。可利用滞后特性和/或可通过音高检测部分检测一些音高的额外条件来做出关于音量是否为预定值或更大的判断。

本发明不仅可以被构造和实现为上面讨论的设备发明，还可被构造和实现为方法发明。另外，本发明可布置和实现为由处理器(诸如计算机或者数字信号处理器(DSP))执行的软件程序，以及存储这种软件程序的非暂时计算机可读存储介质。在这种情况下，可将程序以存储介质的形式供应至用户并且随后安装至用户的计算机中，或者以其它方式从服务器设备经通信网络递送至客户的计算机并且随后安装至客户的计算机中。此外，本发明中采用的处理器可为设有专用硬件逻辑电路的专用处理器，而不仅限于计算机或者能够运行期望的软件程序的其它通用处理器。

附图说明

下文中将参照附图仅通过举例的方式详细描述本发明的某些优选实施例。

图1是示出根据本发明的实施例的语音合成装置的框图；

图2是示出语音合成装置的操作的流程图；

图3是示出语音合成装置的操作的流程图；

图4是示出用户输入的问题与通过语音合成装置合成的应答之间的音高关系的示图；

图5是关于应用示例的各种前提(premises)的说明图；

图6是示出第一应用示例中的处理的主要部分的示图；

图7是示出第二应用示例中的处理的主要部分的示图；

图8是示出第三应用示例中的处理的主要部分的示图；

图9是示出第四应用示例中的处理的主要部分的示图。

具体实施方式

图1是示出根据本发明的实施例的语音合成装置10的示图。将语音合成装置10结合到毛绒娃娃或玩具中，并且按照以下方式对其进行配置：当说话人(用户)向毛绒玩具说出问题时，其针对该问题自动地合成并输出回应(诸如，反馈语回复(backchannelfeedback))。语音合成装置10包括中央处理单元(CPU)、语音接收部分102、扬声器142等，并且通过CPU执行预先安装的应用程序来构建如下多个功能块。也就是说，在语音合成装置10中构建了语音特征量获取部分106、回应选择部分110、回应音高获取部分112、音高偏移量确定部分114和回应合成部分116。

虽然附图中未特别示出，但是语音合成装置10还包括显示部分、操作输入部分等，使得管理员或用户可检查语音合成装置的各种状态、向语音合成装置输入各种操作、作出各种设置等。此外，语音合成装置10除了能被结合到诸如毛绒玩具的玩具中以外，语音合成装置10还可应用于所谓的宠物机器人、诸如便携式电话的终端装置、平板式个人计算机等。

语音接收部分102包括：麦克风，其接收指示由说话人(用户)说出的语音的语音信号，并且将语音信号转换为电信号；以及A/D转换器部分，其将转换的语音信号转换为数字信号。

语音特征量获取部分(音高检测部分)106对由语音接收部分102接收的语音信号(经转换的数字语音信号)执行分析处理，以将语音信号划分为话语部分和非话语部分。另外，语音特征量获取部分106检测话语部分的有声部分(voiced section)的特定部分的音高，随后将表示检测到的音高的数据供应至回应选择部分110和音高偏移量确定部分114。这里，术语“话语部分”是指例如其中语音信号的音量达到预定阈值或以上的部分，而术语“非话语部分”是指其中语音信号的音量小于预定阈值的部分。此外，术语“有声部分”是指话语部分中的其中语音信号的音高是可检测的那一部分。这种音高可检测部分意味着语音信号具有周期部分并且该周期部分可被检测到。

所述特定部分(所接收到的语音信号的该特定部分的音高将通过语音特征量获取部分106来进行检测)是由语音信号表示的话语的代表性部分。这种特定部分(代表性部分)可为整个话语部分或其一部分，只要其表示话语(例如，问题)的特征即可。在示出的示例中，例如，将接收到的语音信号的话语部分中的结尾部分设为特定部分(代表性部分)，并且将所检测到结尾部分中的最高音高作为待检测的音高。作为一个示例，结尾部分是结束点与领先该结束点预定时间(例如，180毫秒)的时间点之间的部分，即结束点与领先有声部分的结束点预定时间宽度(例如，180毫秒宽)的时间点之间的部分。对于有声部分，可利用两个(或者三个或更多个)阈值来确定语音信号的音量，这将在稍后进行描述。此外，除最高音高之外，可检测特定部分(代表性部分)中的最低音高、平均音高等。

回应库124预先存储对由用户给出的各种话语(例如，问题)的各种回应的多个语音数据。这种回应的语音数据(即，回应语音数据)是合适的模特人员的语音的记录，其可包括多种类型的回应模式，诸如常规的或者一般的回答和反馈语回复(比如，作为对问题的回应的“是的”、“不”、“呃”、“这个嘛……”和“我明白了”)。按照诸如wav或者mp3的合适的格式来存储回应的语音数据(回应语音数据)。更具体地说，对于每个回应，当以标准方式再现回应时，在回应的波形的每周期或者每多个周期检测音高，预先确定这些音高的平均值，并且将表示平均音高(即，基于应答的音高)的数据与语音数据关联地预存储在回应库124中。应该注意，“按照标准方式再现语音数据”意味着在与记录语音数据时的条件相同的条件下(即，按照相同采样频率)再现语音数据。

一旦从语音特征量获取部分106输出表示平均音高的数据，回应选择部分(应答获取部分)110就从回应库124中选择对接收到的语音(话语)的一个回应的语音数据并读出和输出选择的回应的语音数据以及表示平均音高的关联数据。回应选择部分110可根据任何期望规则从所述多个语音数据中选择一个回应的语音数据(即，一个应答语音数据)；例如，回应选择部分110可按照随机方式选择一个回应语音数据或者选择其平均音高最接近话语(问题)的代表性部分的音高的一个回应语音数据。在这种情况下，虽然在当前实施例中所选择的回应中未反映用户说出的话语(问题)的语义内容，但是如果将语音合成装置10看作是仅回复作为对用户发出的问题的回应的反馈语回复等的装置，则仅选择不反映话语(问题)的语义内容的回应就足够了。然而，可替换地，可设置语言分析部分108以使得语言分析部分108分析由接收到的语音信号指示的话语(例如，问题)的语义内容，并且随后选择或生成适合话语(例如，问题)的语义内容的回应，如图1中的虚线所示。

回应音高获取部分112被配置为获取基于获取的回应语音数据的音高(代表性音高)。作为一个示例，回应音高获取部分112从通过回应选择部分110读出的数据中提取表示回应的平均音高的数据，并且获取提取的数据作为基于获取的回应语音数据的音高(代表性音高)。将表示通过回应音高获取部分112获取的回应的平均音高的数据供应至音高偏移量确定部分114。

音高偏移量确定部分114确定用于将通过回应音高获取部分112获取的音高(回应的平均音高)偏移至与代表性部分的音高具有特定关系的目标音高的音高偏移量。在优选实施方式中，音高偏移量确定部分114根据所获取的音高(应答的平均音高)来确定目标音高，以使得目标音高落入预定范围内。也就是说，音高偏移量确定部分114基于从语音特征量获取部分106输出的语音信号中的代表性部分的音高与从回应音高获取部分112输出的回应的平均音高之间的差异并且按照将在稍后描述的方式来确定用于控制再现回应(回应语音数据)语音数据的音高的音高偏移量。

回应合成部分116基于从回应库124读出的回应语音数据来再现(合成)回应的语音，在这期间，回应合成部分116根据通过音高偏移量确定部分114确定的音高偏移量来将待被再现(合成)的回应的语音的音高进行偏移。注意，音高进行如上偏移后的回应语音信号经由未示出的D/A转换器部分而被转换为模拟信号，并且随后通过扬声器142可听地生成。

应该注意，基于由回应音高获取部分112获取的回应语音数据的音高(代表性音高)不一定限于回应的平均音高，也可以是任何其它合适的音高，诸如回应语音数据的音高的中间值或者回应语音数据的预定部分中的平均音高。作为一个示例，这种中间值或者回应语音数据的预定部分中的平均音高可与对应的回应语音数据关联地预存储在回应库124中，并且可被音高偏移量确定部分114使用以确定音高偏移量。

接着，将描述关于语音合成装置10的操作。图2是示出语音合成装置10的示例操作流程的流程图。流程图所示的操作流程响应于用户向具有应用了语音合成装置10的毛绒玩具说出问题而开始。为了方便起见，在下文中将关于这样一种情况来对操作序列进行描述，在该情况中，响应于用户说出的语音(问题)的回应语音数据具有相对高的音高。

首先，在步骤Sa11，将由语音接收部分102接收的语音信号供应至语音特征量获取部分106。然后，在步骤Sa12，语音特征量获取部分106对由语音接收部分102供应的语音信号执行分析处理，即，执行用于对用户说出的语音(问题)的代表性部分的音高进行检测的处理。在步骤Sa13，就回应合成部分116当前是否正在再现任何回应来进行判断。

如果在步骤Sa13处，回应合成部分116当前未再现任何回应(即，步骤Sa13的确定为“否”)，则语音特征量获取部分106在步骤Sa14处进一步确定由从语音接收部分102接收的语音信号指示的问题(话语)是否已经结束。更具体地说，通过确定语音信号的音量小于预定阈值的状态是否持续了预定时间来确定由从语音接收部分102接收的语音信号指示的问题(话语)是否已结束。

如果问题还未结束(即，步骤Sa14的确定为“否”)，则操作序列返回至步骤Sa11，使得语音特征量获取部分106继续对由语音接收部分102供应的语音信号执行分析处理。

另一方面，如果问题已结束(即，步骤Sa14的确定为“是”)，则音高偏移量确定部分114在步骤Sa15处按照以下方式确定待用于再现由回应选择部分110选择的回应语音数据的音高偏移量。

然后，音高偏移量确定部分114向回应合成部分116通知所确定的音高偏移量，并且在步骤Sa16处命令回应合成部分116再现由回应选择部分110选择的回应语音数据。根据由音高偏移量确定部分114给出的这种指令，在步骤Sa17，回应合成部分116在步骤Sa17处以偏移了由音高偏移量确定部分114确定的音高偏移量的音高来再现回应语音数据。

应该注意，例如，当在响应于提出的问题正再现一个回应的同时用户说出下一问题时，步骤Sa13确定回应合成部分116当前正在再现任何回应(即，步骤Sa13的确定为“是”)。在这种情况下，操作序列前进至步骤Sa17而不是采取步骤Sa14和Sa11的路径，因此，回应的再现具有优先级。

此外，图3是示出图2中的步骤Sa15的处理(即，用于确定回应语音数据的音高偏移量的处理)细节的流程图。应该注意，待被执行的该音高偏移量确定处理的先决条件是回应合成部分116当前未再现任何回应(步骤Sa13的确定为“否”)以及用户已经结束了对问题的输入(步骤Sa14的确定为“是”)。首先，在音高偏移量确定处理中，在步骤Sb11，通过回应合成部分116来检测用户说出的问题(话语)的代表性部分的音高。

回应选择部分110针对用户说出的问题从回应库124中选择所选择的回应的语音数据(选择的回应语音数据)并且读出所选择的回应语音数据以及表示与所选择的回应语音数据关联的平均音高的数据。然后，在步骤Sb12，回应音高获取部分112从读出的数据中获取表示作为基于所选择的回应语音数据的音高(代表性音高)的平均音高的数据。

然后，在步骤Sb13，音高偏移量确定部分114暂时将与在步骤Sb11中通过语音特征量获取部分106检测到的问题(话语)的代表性部分的音高具有预定关系(例如，低五个半音)的音高确定为使用所选择的回应语音数据来对问题(话语)做出回应的目标音高。

然后，在步骤Sb14，音高偏移量确定部分114计算从由回应音高获取部分112获取的回应的平均音高至在步骤Sb13暂时确定的目标音高(或者至在上述步骤Sb16或Sb18处改变的音高)的音高偏移量。然后，在步骤Sb15，音高偏移量确定部分114确定通过将回应的平均音高偏移音高偏移量而计算出的目标音高(即，偏移后的目标音高)是否低于下限阈值。这里，下限阈值是指示容许比回应的平均音高低至多少音高的阈值，这将在后文详细描述。

如果偏移后的目标音高低于下限阈值(即，步骤Sa15的确定为“是”)，则在步骤Sb16，音高偏移量确定部分114使暂时确定的回应的目标音高升高一个八度音，并且将这个升高了一个八度音的音高暂时确定为伴随语音数据来进行回应的目标音高。然后，操作序列返回至步骤Sb14，从而再次计算音高偏移量，然后在步骤Sb15和Sb17再次进行判断。

如果偏移后的目标音高不低于下限阈值(即，步骤Sa15的确定为“否”)，则在步骤Sb17，音高偏移量确定部分114进一步判断偏移后的目标音高是否高于上限阈值。这里，上限阈值是指示容许比回应的平均音高高至多少音高的阈值，这将在后文详细描述。

如果在步骤Sb17处确定了偏移后的目标音高高于上限阈值(即，步骤Sa17的确定为“是”)，则在步骤Sb18，音高偏移量确定部分114使暂时确定的回应的目标音高降低一个八度音，并且将这个降低了一个八度音的音高暂时确定为伴随语音数据来进行回应的目标音高。然后，操作序列返回至步骤Sb14，从而再次计算音高偏移量，并且随后在步骤Sb15和Sb17处进行判断。

如果偏移后的目标音高不高于上限阈值(即，步骤Sa17的确定为“否”)，则这意味着偏移后的目标音高落入到大于等于下限阈值且小于等于上限阈值的预定音高范围内。因此，操作序列前进至步骤Sb19，在此处音高偏移量确定部分114正式确定当前处于暂时确定阶段的目标音高，然后向回应合成部分116通知与正式确定的目标音高相对应的音高偏移量。

图4是示出用户输入的语音中的问题(话语)与待由语音合成装置10合成的回应之间的关系的示图，其中纵轴表示音高，横轴表示时间。在图4中，由附图标记T1表示的直实线示意性地示出了用户说出的问题的音高变化。附图标记P1表示问题T1的特定部分的音高。此外，由附图标记A1表示的实线示意性地示出了当按照标准方式再现响应于问题T1而选择的回应语音数据时的音高变化。附图标记P2表示音高变化的平均音高。

如果是在不对回应A1的音高进行偏移的情况下来响应于问题T1再现回应A1，则往往给人机械感。因此，作为第一措施，当前实施例被配置为再现回应A1-1，该回应A1-1是通过将回应A1的音高偏移至与作为问题T1的特征和深刻印象部分的代表性部分(词语的结尾)的音高P1具有协和音程关系(例如低五个半音)的音高P2-1而获得。图4中的附图标记D1表示音高P1与音高P2-1之间的差。然而，如果回应A1-1相对于回应A1的音高偏移量D2过大，则当再现回应A1-1时，音高偏移后的回应A1-1的听觉质量将变差。具体地说，当问题的特定部分的音高与回应的平均音高之间存在很大的差异时(例如，当说出问题的用户是男性而响应于问题的模特是女性时)，并且如果是在将音高沿着音高降低方向进行偏移之后再现回应A1-1，则回应A-1往往变得不自然并且质量明显变差。

因此，作为第二措施，当前实施例被构造为将回应A1-1的音高P2-1逐八度音地逐步偏移，直至音高P2-1落在距离原始回应A1的平均音高P2的预定范围内，同时保持待由回应合成部分116合成的回应的目标音高与音高P1具有特定关系。在图4的示出的示例中，作为示例，回应A1-4的音高是通过以下方式而获得的示例：音高从回应A1-1向上升高三个八度音，历经回应A1-2和回应A1-3直至音高落入基于回应A1的平均音高P2的预定音高范围内。

对于基于图4中的回应A1的平均音高P2而设置的音高范围，通过附图标记T_L来表示从平均音高P2至下限阈值Pth_L的音高差，并且通过附图标记T_H表示从平均音高P2至上限阈值Pth_H的音高差。下限阈值Pth_L是基于回应A1的平均音高P2通过音高差T_L所限定的相对值，相似地，上限阈值Pth_H是基于回应A1的平均音高P2通过音高差T_H所限定的相对值。因为在回应库124中预存储了多个回应的语音数据(多个回应语音数据)，因此，下限阈值Pth_L和上限阈值Pth_H对于每一个回应有所不同。然而，将下限阈值Pth_L和上限阈值Pth_H相对地定义为如上所述的基于平均音高P2的音高差值可不必将下限阈值Pth_L和上限阈值Pth_H与每个回应语音数据进行关联地预存储。

应该注意，音高P2-1与问题T1的音高P1成协和音程关系，并且音高P2-4比音高P2-1高三个八度音。因此，音高P2-4的频率和音高P2-1的频率彼此保持整数比的关系，因此，音高P1和音高P2-4彼此保持实质的协和音程关系。

有时，例如，可将回应A1-2正式确定并且随后再现。然而，因为通过仅将回应A1-1的音高偏移一个更高的八度音而获得的回应A1-2相对于原始回应A1的音高偏移量很大，所以回应A1-2往往变得不自然并且呈现听觉质量的不可忽视的变差。因此，在当前实施例中，执行控制以使得回应的音高落入如上所述的预定音高范围内。

根据按照前述方式构造的当前实施例，可针对用户说出的问题合成(再现)非机械式并且没有不自然的说话语调的回应，同时避免使听觉质量变差。另外，当前实施例可不必为回应的语音数据赋予指示回应语音是来自女性还是男性的属性信息以及根据这种属性信息确定音高偏移量。

此外，根据按照前述方式构造的当前实施例，可按照下面示出的方式合成被赋予了各种感情的回应，诸如愤怒的回应和冷淡的回应。图5是解释以下术语的示图。图5中的(a)和(b)中的横轴代表时间，图5中的(a)中的纵轴代表音高，而图5中的(b)中的纵轴代表音量。在图中，附图标记Av表示回应A1的音高变化宽度，附图标记d表示从问题T1的结束至当开始再现回应A1时的时间点的时间间隔，并且附图标记Ad表示回应A1的再现的时长或持续时间。此外，附图标记Tg表示问题T1的随时间变化的音量变化，并且附图标记Ag表示回应A1的随时间变化的音量变化。

在图6所示的第一应用示例中，回应A1以如回应A11所示的增大的速度再现，并且从问题T1的结束至当开始再现回应A11时的时间点的时间间隔d11比上述时间间隔d更短，并且回应A11的音量Ag11大于上述音量Ag。按照这种方式，可输出表达愤怒的回应。因为与回应A1的再现速度相比，回应A11的再现速度增加了，所以回应A11的再现时长Ad11比回应A1的再现时长Ad更短。

此外，在图7所示的第二应用示例中，回应A1以如回应A12所示的减小的速度再现，并且从问题T1的结束至当开始再现回应A12时的时间点的时间间隔d12比上述时间间隔d更长，并且回应A12的音量Ag12小于上述音量Ag。按照这种方式，可输出表达冷淡感觉的回应。因为与回应A1的再现速度相比，回应A12的再现速度降低了，所以回应A12的再现时长Ad12比回应A1的再现时长Ad更长。

此外，在图8所示的第三应用示例中，回应A1以如回应A13所示的音高沿着回应结束的方向增大或升高的方式再现；也就是说，回应A13以使得音高增大了音高变化宽度Av13的方式再现。按照这种方式，可输出对用户的话语(问题)提出反问的回应。

当前实施例可按照以下方式构造，在如上所述合成具有一些感情的回应的过程中，允许用户经上述操作输入部分设置对问题T1的回应的音高变化宽度(例如，在音高升高/降低方向上)、从问题T1结束至开始再现回应的时间间隔、回应的再现音量、回应的再现速度等。此外，当前实施例可被构造为允许用户从各种类型的回应中选择想要的一种，诸如愤怒的回应、冷淡的回应和好似提出反问的回应。

此外，可按照以下方式从用户说出的话语(问题)的语音信号中检测话语部分、有声部分等。图9是示出在第四应用示例中话语部分、非话语部分和有声部分的检测与音量的阈值之间的关系的图。在该图中，用户的话语(问题)的随时间变化的音高变化示于(a)中，而随时间变化的音量变化示于(b)中。更具体地说，图9示出了音高和音量先逐渐增大然后转而下降。

这里，当可从用户的问题的语音信号中检测音高并且用户的问题的音量处于上升方向时应用阈值Thvg_H，并且当音量升高至阈值Thvg_H或以上时检测到话语部分和有声部分的开始。当可从用户的问题的语音信号中检测到音高并且用户的问题的音量处于下降方向时应用阈值Thvg_L，并且当音量降低至阈值Thvg_L以下时检测到有声部分的结束。

在实际话语中，即使音量降低至阈值Thvg_L以下也可出现音量的反向摇摆。因此，在当前示出的示例中，设置下限阈值Thuvg，利用该下限阈值Thuvg可检测问题的语音信号的音高，并且当问题的音量处于下降方向并且已经降低至阈值Thvg_L以下并且接着低于下限阈值Thuvg时，检测到话语部分的结束(非话语部分的开始)。应该注意，阈值Thvg_H、Thvg_L和Thuvg的关系为Thvg_H＞Thvg_L＞Thuvg。

可对利用阈值Thvg_H和Thvg_L检测到的有声部分中的最高音高值进行监测并将其作为话语(问题)中的代表性部分的音高。假设在按照这种方式检测到的有声部分具有相对短的时长或持续时间的情况下，噪声将会被当作语音信号而被拾取。因此，当可从语音信号中检测到一些音高并且问题的音量处于上升方向时，以及在已经达到阈值Thvg_H或更大的音量保持在阈值Thvg_H或更大的状态持续超过预定时间的情况下，可设置用于检测这种有声部分的条件以检测有声部分。

此外，还假设在无声(寂静)部分具有相对短的时长或持续时间的情况下，用户的话语(问题)还未结束。因此，当可从语音信号中检测到一些音高并且问题的音量处于下降方向时，以及在已经降至阈值Thvg_L以下的音量保持在阈值Thvg_L以下的状态持续超过预定时间的情况下，可设置用于检测这种无声部分的条件以检测无声部分。当然，当在基于音量保持在阈值Thvg_H或更大的状态持续超过预定时间的前述条件检测有声部分之后，基于音量保持在阈值Thvg_L以下的状态持续超过预定时间的前述条件检测无声部分时，可检测前面的有声部分中的最高音高值并将其作为问题中的特定部分的音高。

还应该注意，如果有声部分中的被设为代表性部分的结尾部分是由说话人(用户)发出的话语(问题)中的无声的声音(即，不涉及声带的震动的声音)，则可根据先于无声的声音部分的有声的声音部分来估计无声的声音部分的音高。还应该注意，虽然以上已经将当前实施例描述为将有声部分的结尾部分设为言说者(用户)的话语(问题)的代表性部分，但是本发明不限于此。本发明可以替代方式被构造为允许用户根据期望选择应该将话语(问题)的哪个部分设为代表性部分。作为另一替代方式，可仅将音量和音高中的任一个而非将音量和音高二者用于有声部分检测，并且可由用户选择应该将音量和音高中的哪一个用于有声部分检测。

作为修改形式，可将多个人员A、B、C、…中的各个人针对相同或共同内容说出的不同类型的回应语音预先存储为回库124中的回应的语音数据。例如，人员A、B、C、…可为著名人员(知名人士)、有才人士、歌手等，并且可将这些回应语音数据与这些不同人员按照对应关系预存储在回应库124中。如上所述，为了将回应语音数据以与这些不同人员相对应的方式进行存储，可将回应语音数据通过诸如存储卡的存储介质预存储在回应库124中，或者可替换地，语音合成装置10可配有网络连接功能，以可从特定服务器下载回应语音数据并且将其存储到回应库124中。此外，可基于免费或付费的方式获取回应语音数据。此外，可进行这样的安排：在提供话语(问题)时，用户可经操作输入部分等选择应该将哪个人员作为回应语音模特来回应。此外，可进行用于以下目的的安排：针对各种不同条件(日期、周、月等)中的每一个自由地确定回应语音模特。

作为另一修改形式，可将经语音接收部分102的麦克风记录(或者经另一装置转换为数据)的用户自己以及用户的家庭成员和熟人的语音预存储在库中。因此，当针对用户提出的话语(问题)用这些亲密的人员的语音作出回应时，用户可以具有与该亲密的人对话的感觉。

作为另一修改形式，回应语音可包括动物(诸如狗和猫)的叫声，可作出用以允许选择期望类型(诸如狗这种类型等)的动物的布置方式。利用包括像这样的动物叫声的回应语音，可获得一种好像用户与期望的一种动物进行对话的治愈效果。

作为另一修改形式，回应语音获取部分112可被配置为分析通过回应选择部分110确定的回应语音数据，从而当按照标准方式再现回应语音数据时获得回应语音数据的平均音高，并且随后将表示平均音高的数据供应至音高偏移量确定部分114。这种布置方式可去除对基于回应语音数据来将音高指示数据与该回应语音数据进行相关联地预存储的需要。

虽然上面已经结合其中回应语音数据的音高范围响应于扬声器(用户)的话语(问题)的音高而上升的情况描述了本发明的实施例，但是本发明不限于此，也可按照回应语音数据的音高范围响应于扬声器(用户)的话语(问题)的音高而下降的方式来构造本发明。此外，虽然上面已经结合其中通过语音输入部分(接收部分)102接收的话语的说话者是用户的情况描述了本发明的实施例，但是说话者可为第三人员或者自动语音生成器装置。例如，说话者说的语音可为通过第三人员经通信网络产生的或者通过另一话音或语音合成装置产生的语音。

Claims

1.一种语音合成装置，包括：

接收部分，其接收话语的语音信号；

音高检测部分，其基于由所述接收部分接收到的语音信号来检测所述话语的代表性部分的音高；

回应获取部分，其获取对所述话语的回应的语音数据；

回应音高获取部分，其获取基于由所述回应获取部分获取的回应的语音数据的音高；

音高偏移量确定部分，其确定用于将由所述回应音高获取部分获取的音高偏移至与所述代表性部分的音高具有特定关系的目标音高的音高偏移量；以及

回应合成部分，其基于所述回应的语音数据来合成所述回应的语音，所述回应合成部分配置为根据所述音高偏移量来对待合成的所述回应的语音的音高进行偏移。

2.根据权利要求1所述的语音合成装置，其中，所述音高偏移量确定部分确定所述目标音高以使得所述目标音高落入距离获取的音高的预定范围内。

3.根据权利要求2所述的语音合成装置，其中，所述音高偏移量确定部分逐八度音地调整所述目标音高，以使得所述目标音高落在距离获取的音高的预定范围内。

4.根据权利要求1所述的语音合成装置，其中，所述音高检测部分检测所接收到的语音信号中的音量为预定值或更大的部分的最高音高作为所述代表性部分的音高。

5.根据权利要求2所述的语音合成装置，其中，所述音高检测部分检测所接收到的语音信号中的音量为预定值或更大的部分的最高音高作为所述代表性部分的音高。

6.根据权利要求3所述的语音合成装置，其中，所述音高检测部分检测所接收到的语音信号中的音量为预定值或更大的部分的最高音高作为所述代表性部分的音高。

7.根据权利要求1至6中的任一项所述的语音合成装置，其中，所述音高检测部分检测所接收到的语音信号的结尾部分中的音高作为所述代表性部分的音高。

8.根据权利要求1至6中的任一项所述的语音合成装置，其中，所述音高偏移量确定部分确定与所述代表性部分的音高具有协和音程关系的音高作为所述目标音高。

9.根据权利要求7所述的语音合成装置，其中，所述音高偏移量确定部分确定与所述代表性部分的音高具有协和音程关系的音高作为所述目标音高。

10.根据权利要求8所述的语音合成装置，其中，所述音高偏移量确定部分确定比所述代表性部分的音高低五个半音的音高作为所述目标音高。

11.根据权利要求9所述的语音合成装置，其中，所述音高偏移量确定部分确定比所述代表性部分的音高低五个半音的音高作为所述目标音高。

12.根据权利要求1至6中的任一项所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

13.根据权利要求7所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

14.根据权利要求8所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

15.根据权利要求9所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

16.根据权利要求10所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

17.根据权利要求11所述的语音合成装置，其中，所述回应合成部分配置为可变地控制待合成的回应的语音的再现速度。

18.根据权利要求1至6中的任一项所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

19.根据权利要求7所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

20.根据权利要求8所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

21.根据权利要求9所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

22.根据权利要求10所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

23.根据权利要求11所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

24.根据权利要求12所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

25.根据权利要求13所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

26.根据权利要求14所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

27.根据权利要求15所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

28.根据权利要求16所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

29.根据权利要求17所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音量。

30.根据权利要求1至6中的任一项所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

31.根据权利要求7所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

32.根据权利要求8所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

33.根据权利要求9所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

34.根据权利要求10所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

35.根据权利要求11所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

36.根据权利要求12所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

37.根据权利要求13所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

38.根据权利要求14所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

39.根据权利要求15所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

40.根据权利要求16所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

41.根据权利要求17所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

42.根据权利要求18所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

43.根据权利要求19所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

44.根据权利要求20所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

45.根据权利要求21所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

46.根据权利要求22所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

47.根据权利要求23所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

48.根据权利要求24所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

49.根据权利要求25所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

50.根据权利要求26所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

51.根据权利要求27所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

52.根据权利要求28所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

53.根据权利要求29所述的语音合成装置，其中，所述回应合成部分进一步配置为随着时间的推移控制待合成的回应的语音的音高。

54.一种语音合成方法，包括：

接收话语的语音信号；

基于接收到的语音信号检测所述话语的代表性部分的音高；

获取对所述话语的回应的语音数据；

获取基于获取的所述回应的语音数据的音高；

确定用于将获取的音高偏移至与所述代表性部分的音高具有特定关系的目标音高的音高偏移量音高；以及

基于所述回应的语音数据合成所述回应的语音，并且根据所述音高偏移量对待合成的所述回应的语音的音高进行偏移。

55.一种非暂时性计算机可读存储介质，其存储用于实现语音合成方法的处理器可执行的一组指令，所述语音合成方法包括：

接收话语的语音信号；

基于接收到的语音信号检测所述话语的代表性部分的音高；

获取对所述话语的回应的语音数据；

获取基于获取的所述回应的语音数据的音高；

确定用于将获取的音高偏移至与所述代表性部分的音高具有特定关系的目标音高的音高偏移量；以及