CN106486121A

CN106486121A - 应用于智能机器人的语音优化方法及装置

Info

Publication number: CN106486121A
Application number: CN201610956424.4A
Authority: CN
Inventors: 谢文静
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-03-08
Anticipated expiration: 2036-10-28
Also published as: CN106486121B

Abstract

本发明公开了一种应用于智能机器人的语音优化方法及装置，该方法包括：获取用户的多模态输入数据；响应该多模态输入数据生成文本信息；在确定满足设定的触发规则时，对所述文本信息进行文本分析，并根据分析结果查询相应的媒体文件和应答信息；将所述媒体文件与TTS系统生成的响应所述应答信息的TTS语音按设定规则输出。本发明通过将媒体文件与TTS语音相结合输出，使机器人语音输出更具有人类语言的特点、韵律良好，让用户感觉舒服，提高机器人能力，满足用户的交互需求。

Description

应用于智能机器人的语音优化方法及装置

技术领域

本发明涉及智能机器人领域，尤其涉及一种应用于智能机器人的语音优化方法及装置。

背景技术

随着智能机器人产品的逐渐普及，更多的智能机器人走进家庭，成为孩子的玩伴和大人的管家。

现有的智能机器人已经能够与用户通过语言交流的方式回答用户的问题或者进行简单的聊天，但是由于技术上的限制，机器人在与用户进行语言交流时发出的声音还是以机器声音为主，声音较为强硬且不带有感情，因此，现有的人机交互过程会给用户带来不好的体验。

因此，亟需提供一种解决方案，该方案能够优化声音体验，让与机器人进行交互的用户感觉舒服，提高智能机器人的交互能力，满足用户的交互需求。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够优化声音体验，使机器人语音输出更具有人类语言的特点，提高智能机器人的交互能力的应用于智能机器人的语音优化方法及装置。

为了解决上述技术问题，本申请的实施例首先提供了一种应用于智能机器人的语音优化方法，包括：获取用户的多模态输入数据；响应该多模态输入数据生成文本信息；对所述文本信息进行文本分析，并根据分析结果查询相应的应答信息；在确定满足设定的触发规则时，将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

优选地，在如下情况下，确定满足所述设定的触发规则：

在接收到来自用户的特定语句信息时；或者，

满足设定播放媒体文件的播放时间。

优选地，将所述媒体文件与TTS语音合成后输出。

优选地，在输出TTS语音之前输出所述媒体文件。

根据本发明的另一方面，还提供了一种应用于智能机器人的语音优化装置，包括：多模态输入单元，其用于获取用户的多模态输入数据；响应单元，其用于响应该多模态输入数据生成文本信息；分析单元，其用于对所述文本信息进行文本分析，并根据分析结果查询相应的应答信息；语音输出单元，其用于在确定满足设定的触发规则时，将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

优选地，在如下情况下，确定满足所述设定的触发规则：在接收到来自用户的特定语句信息时；或者，满足设定播放媒体文件的播放时间。

优选地，所述语音输出单元进一步将所述媒体文件与TTS语音合成后输出。

优选地，所述语音输出单元进一步在输出TTS语音之前输出所述媒体文件。，

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例通过对多模态输入数据进行文本分析，在确定满足设定的触发规则时，获取相应的媒体文件，并将媒体文件与TTS语音按照设定规则输出，能够使机器人语音输出更加具备人类语言的特点，韵律良好，提高用户与智能机器人的交互体验度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1是根据本发明的应用于智能机器人的语音优化方法示例一的流程示意图。

图2是根据本发明的应用于智能机器人的语音优化方法示例二的流程示意图。

图3是根据本发明的应用于智能机器人的语音优化装置的实施例的结构框图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在现有技术中，智能机器人与用户进行多模态语音交互时，往往仅是根据TTS系统生成语音交互信息，该语音较为机器化，且较为生硬，给人的感觉不舒服。因此，为了使智能机器人发出的声音具备人类声音的特点，具有韵律，本发明实施例提供了一种应用于智能机器人的语音优化方法。

第一实施例

图1是根据本发明实施例的应用于智能机器人的语音优化方法示例一的流程示意图。下面参考图1对本实施例方法的各个步骤进行说明。

在步骤S110中，获取用户的多模态输入数据。

需要说明的是，多模态输入数据主要包括音频数据、视频数据、图像数据以及用于使机器人能够输出一定动作或执行软件或硬件的程序指令。多模态输入数据的组合比较复杂，通过对多模态输入数据进行分析能够得到可靠或是有意义的结果，确定多模态数据发出者的真实意图。

在本例中，可以通过智能机器人的图像采集系统(例如摄像头)、语音输入系统(例如麦克风)等来获取多模态输入数据。例如，在用户与机器人进行语音交互时，用户向机器人发出语音信息，未知语音信号经麦克风、话筒之类的语音信号采集设备变换成电信号后输入到识别系统的输入端再进行处理。

在步骤S120中，响应该多模态输入数据生成文本信息。

由于本例针对的是如何对语音进行优化，因此，此处以用户发出的语音信息作为多模态输入数据为例，来说明后面的步骤流程。

首先，对多模态输入数据进行例如去噪之类的预处理，然后将预处理后的语音信息进行语音识别的综合分析，生成与语音信息对应的文本信息。需要说明的是，语音识别，对于人来说接收到的语音可以立马转换为文字信息，但是对于机器人来说接收到的则是数字信号而已。当有人提问“你好吗？”时，“Ni”这个发音可以是“泥”也可以是“逆”，所以最终要确定是哪个字还需要语音识别技术来实现计算概率的最大化。在本步骤中，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。在识别过程中要根据语音识别的模型，将预先存储的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出识别结果。

当然，在其他特殊情况下，多模态输入数据可以是用户输入的图像数据，在本步骤中，可以利用文本扫描器对用户输入的图像数据进行扫描，转换得到与图像中的文字内容对应的文本信息。

在步骤S130中，对文本信息进行文本分析，并根据分析结果查询相应的应答信息。

在获取识别结果之后，利用自然语言处理技术对识别结果进行语义解析。语义分析，指的是将给定的自然语言转化为反映其意义的某种形式化表示，也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言，做到人与机器的互相沟通。

在获得解析结果后，计算该解析结果与已设定的知识库中的内容的语义相似度(问题和问题的相似度)，从而在知识库中搜索与解析结果相匹配的数据。然后，根据匹配结果，在语音交互应答数据库中查找与该文本信息相应的应答信息。语音交互应答数据库中存储了对应各种主题的信息内容，通过将文本分析结果中的特定词汇与数据库中的内容进行比对，能够找到相应的应答信息。

例如，在对文本信息进行解析后的到“天气真好啊”，其中含有名词“天气”，则可以从语音交互应答数据库中查找到当前时间、当前地点的天气状况信息，例如“今天北京的天气是晴，体感温度24°，微风”，并将该信息作为应答信息。

在步骤S140中，在接收到来自用户的特定语句信息时，将相应的媒体文件与TTS系统生成的响应应答信息的TTS语音按照设定规则输出。

通过在步骤S130对文本信息进行文本分析后，若分析得到的语义信息属于特定语句信息库的内容，也就是说接收到来自用户的特定语句信息，则调取相应的媒体文件，进行语音输出。

在一个示例中，预先存储了包含特定语句信息的特定语句数据库，在将获取的语音识别后的文本信息与该特定语句数据库中的内容进行对比，若文本信息与数据库中某一内容匹配，则确定满足设定的触发规则。例如，用户与机器人聊天时说：“今天天气真好啊”，通过语音识别技术得到文本信息“今天天气真好啊”，将该文本信息与特定语句数据库中的内容进行对比，由于该数据库中存储了“天气真好”，则计算机认为匹配成功，则确定用户的这一语句满足设定的触发规则。

媒体文件一般是指文本、动画、视频和音频格式的文件，本发明实施例主要是类似AVI、MPG、WAV、MID、MP3等格式的音频格式的文件。在一个例子中，媒体文件可以是语音片段(例如短句、词或音节)的音频文件，例如，该音频文件可以发出感叹词“啊”、“哇”、“嗯”、“哎呀”等声音，或者可以发出“么么哒”的表示亲吻的拟声声音、“呵呵呵”、“哈哈哈”表示笑声的拟声声音。

在一个例子中，在获取媒体文件的过程中，可以根据预设的文本-媒体对应列表，查找相应的媒体文件。具体来说，预设的文本-媒体对应列表中，关联存储文本和媒体文件，在该列表中的文本一般包含用户的语气助词，或者形容词，而对应这些语气助词或者形容词的媒体文件可以是仅包含语气助词的文件或者表达机器人情绪的语言的文件。例如，在对文本信息进行解析后得到，“天气真好啊”，其中含有形容词“好”和语气助词“啊”则通过查找得到对应的媒体文件是包含语气助词“啊～～～”在内的媒体文件。

在满足了触发规则后，将相应的媒体文件与TTS系统生成的响应应答信息的TTS语音按照设定规则输出。下面说明如何通过TTS系统生成与应答信息对应的TTS语音，对应答信息进行文本解析，解析过程包括文本结构检测、韵律产生和单元选择等步骤，

文本结构检测，主要是根据标点符号进行断句，并可以确定句子的语气，如：陈述句、感叹句、疑问句等。第二是需要对文本规范化，文本规范化就是将文本中的非发音符号变成可发音的文字过程，如数学符号：2/3、123、12％等。第三，是分词和词性标注，这一步是采用自然语言处理技术，对规范化的文本进行语法词分词和词性标注，比如：句子“美国会通过一项新法案”中的“美国会”，它可能产生“美\国会”和“美国\会”这两种切分结果。第四是停顿处理，在TTS系统中如果合成语音时没有停顿，或者在错误的地方有停顿，将会导致音质的不自然，甚至会造成句子理解上的错误。如:“大熊猫想吃#苹果”若变成“大熊猫想#吃苹果”，由于停顿位置不对，造成了句子表达上的错误。第五是字音转换，就是根据上下文环境给出字母或汉字以正确的发音，如多音字“恶“的发音:“e3”,“e4”，“wu4”，就需要根据上下文给出正确读音。

韵律产生，主要是表征韵律特征的参数，如基频、时长和能量将被计算或预测，利用的数据是从文本分析部分获得的上下文信息。

单元选择，根据待合成的拼音串(音素串)以及它的上下文信息、韵律信息，遵循某一准则，从语料库中挑选一组最佳的语音单元作为合成基元用于波形拼接。这里的准确其实就是使某一代价函数的值为最小，这个代价函数的值将受到某些因素的影响，比如：韵律的不一致、谱差异和上下文环境的不匹配等。

最后，TTS系统根据发音需要从音库中选择合适的声学参数，然后根据从韵律模型中得到的韵律参数，通过合成算法产生TTS语音。在这个过程中涉及波形合成，该合成通常采用两种策略，一是拼接时不需要韵律修改，另一个是需要韵律修改。如果语料库的容量很大，包含丰富的语音信息，即各种音段和韵律信息都有，经过单元选择后，基元和目标单元的差异会很小，在这种情况下，无需韵律修改直接拼接就可以获得高清晰度和高自然度的合成语言。如果语料库的容量小，合成基元的韵律信息就有限，那么就首先需要利用信号处理技术对基元进行韵律修改，然后再拼接生成语音。

在生成TTS语音后，将查询到的相应的媒体文件与TTS语音按照设定规则输出。

在一种情况下，可以在输出TTS语音之前输出媒体文件。如，用户说“今天天气真好啊”，机器人根据决策获得待回复的应答信息为：今天北京的天气是晴，体感温度24°，微风。由于用户触发了“天气真好啊”这一特定语句，机器人则在回答前加上舒服的“啊～～～”语气助词。

在另外一种情况下，可以将媒体文件与TTS语音合成后输出。可以对TTS语音进行剪裁、压缩或拉伸处理，将媒体文件插入或拼接到TTS语音中的任何位置，产生合成后的语音文件。

本发明实施例通过将TTS语音与媒体文件相结合输出，有助于增加输出语言的自然度和灵活度，输出的语音与人类的自然语音更加类似，表达出了单独合成的TTS语音不能表达出的情感和情绪，提高了用户与智能机器人的交互体验。

第二实施例

另外，本发明还提供了一个实施例，图2是根据本发明的应用于智能机器人的语音优化方法示例二的流程示意图。

本实施例方法的步骤S110、S120和S130与第一实施例的前三个步骤类似，与第一实施例不同点在于步骤S140’。与图1相同的步骤，本例中使用相同的标号来表示，且不再赘述，仅对二者的不同点——步骤S140’进行说明。

在步骤S140’中，在满足设定播放媒体文件的播放时间时，将相应的媒体文件与TTS系统生成的响应应答信息的TTS语音按照设定规则输出。

在本实施例中，预先设定了播放媒体文件的播放时间，例如设定为在TTS语音播放后的3秒播放媒体文件。如，在机器人根据决策回复用户语音信息只是一个字“是”，则在播放TTS语音后3s，播放包含表示亲吻的拟声词“么么哒”的媒体文件。上面的时间可以根据实际情况进行设定。

第三实施例

图3是根据本发明的应用于智能机器人的语音优化装置200的实施例的结构框图。如图3所示，该装置包括：多模态输入单元210、响应单元220、分析单元230和语音输出单元240。下面参考图3来说明本装置的各个组成部分。

多模态输入单元210，其用于获取用户的多模态输入数据。

在本例中，多模态输入单元210可以是智能机器人的图像采集系统(例如摄像头)、语音输入系统(例如麦克风)等，通过这些系统来获取多模态输入数据。例如，在用户与机器人进行语音交互时，用户向机器人发出语音信息，未知语音信号经麦克风、话筒之类的语音信号采集设备变换成电信号后输入到识别系统的输入端再进行处理。

响应单元220，其用于响应该多模态输入数据生成文本信息。

首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。在识别过程中相应单元220要根据语音识别的模型，将预先存储的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出识别结果。

分析单元230，其用于对文本信息进行文本分析，并根据分析结果查询相应的应答信息。

在获取识别结果之后，分析单元230利用自然语言处理技术对识别结果进行语义解析。语义分析，指的是将给定的自然语言转化为反映其意义的某种形式化表示，也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言，做到人与机器的互相沟通。

在获得解析结果后，分析单元230计算该解析结果与已设定的知识库中的内容的语义相似度(问题和问题的相似度)，从而在知识库中搜索与解析结果相匹配的数据。然后，根据匹配结果，在语音交互应答数据库中查找与该文本信息相应的应答信息。语音交互应答数据库中存储了对应各种主题的信息内容，通过将文本分析结果中的特定词汇与数据库中的内容进行比对，能够找到相应的应答信息。

语音输出单元240，其用于在确定满足设定的触发规则时，将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

在如下情况下，确定满足所述设定的触发规则：在接收到来自用户的特定语句信息时；或者，满足设定播放媒体文件的播放时间。

语音输出单元240进一步将媒体文件与TTS语音合成后输出。或者，语音输出单元进一步在输出TTS语音之前输出媒体文件。

本领域的技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括以上全部或部分步骤，所述的存储介质，如：ROM/RAM、磁碟、光盘等。

Claims

1.一种应用于智能机器人的语音优化方法，包括：

获取用户的多模态输入数据；

响应该多模态输入数据生成文本信息；

对所述文本信息进行文本分析，并根据分析结果查询相应的应答信息；

在确定满足设定的触发规则时，将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

2.根据权利要求1所述的语音优化方法，其特征在于，在如下情况下，确定满足所述设定的触发规则：

在接收到来自用户的特定语句信息时；

或者，

满足设定播放媒体文件的播放时间。

3.根据权利要求1或2所述的语音优化方法，其特征在于，

将所述媒体文件与TTS语音合成后输出。

4.根据权利要求1或2所述的语音优化方法，其特征在于，

在输出TTS语音之前输出所述媒体文件。

5.一种应用于智能机器人的语音优化装置，包括：

多模态输入单元，其用于获取用户的多模态输入数据；

响应单元，其用于响应该多模态输入数据生成文本信息；

分析单元，其用于对所述文本信息进行文本分析，并根据分析结果查询相应的应答信息；

语音输出单元，其用于在确定满足设定的触发规则时，将相应的媒体文件与TTS系统生成的响应所述应答信息的TTS语音按照设定规则输出。

6.根据权利要求5所述的语音优化装置，其特征在于，在如下情况下，确定满足所述设定的触发规则：

在接收到来自用户的特定语句信息时；

或者，

满足设定播放媒体文件的播放时间。

7.根据权利要求5或6所述的语音优化装置，其特征在于，

所述语音输出单元进一步将所述媒体文件与TTS语音合成后输出。

8.根据权利要求5或6所述的语音优化装置，其特征在于，

所述语音输出单元进一步在输出TTS语音之前输出所述媒体文件。