CN103674012A

CN103674012A - 语音定制方法及其装置、语音识别方法及其装置

Info

Publication number: CN103674012A
Application number: CN201210357114.2A
Authority: CN
Inventors: 潘袁园
Original assignee: Autonavi Software Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2014-03-26
Anticipated expiration: 2032-09-21
Also published as: CN103674012B

Abstract

本发明公开了一种语音制定方法及其装置、语音识别方法及其装置，以针对同一语音，在不同应用场景中为其关联不同的应用指令，从而实现一次语音的制定，实现多个应用场景的应用，从而提高了语音制定效率和利用率。语音制定方法包括：录制语音；对所述语音进行识别，得到语音信息；建立用户从预置的应用指令集中为所述语音选择的应用指令与所述语音信息的关联关系，并存储所述关联关系，所述应用指令集中的一个应用指令对应一种应用场景。

Description

语音定制方法及其装置、语音识别方法及其装置

技术领域

本发明涉及通信领域，尤其涉及一种语音定制方法及其装置、语音识别方法及其装置。

背景技术

目前，在语音定制过程中，语音识别系统只能简单的对用户的语音特质进行分析，并将分析结果与预设的语料库进行匹配以识别出录制的语音，在识别成功之后为该语音分配唯一对应的应用指令。

现有技术提供的语音定制方法，存在以下技术缺陷：

技术缺陷1、针对一个语音，为其分配唯一对应的应用指令，因此，应用场景较为单一；针对不同的应用指令需要分别录制唯一对应的语音，当应用指令数量庞大时，语音录制工作较为繁杂，效率和利用率较低。

技术缺陷2、语音识别系统对用户的语音特质进行分析，并将分析结果与预设的语料库进行匹配来识别出语音，该种识别方式，需要语音识别系统花费较长的时间来进行训练，才能达到一定的语音识别率，并且如果录制的语音中夹杂的外界环境噪声较大时，难以准确的识别出语音，所以语音识别率较低。

发明内容

本发明实施例提供一种语音定制方法及装置，针对同一语音，在不同应用场景中为其关联不同的应用指令，从而实现一次语音的制定，实现多个应用场景的应用，从而在一定程度上提高了语音制定效率和利用率。

本发明实施例提供一种语音定制方法，该方法包括：

录制语音；

对所述语音进行识别，得到语音信息；

建立用户从预置的应用指令集中为所述语音选择的应用指令与所述语音信息的关联关系，并存储所述关联关系，所述应用指令集中的一个应用指令对应一种应用场景。

优选地，为进一步提高语音识别准确率，在对所述语音进行识别之前，还包括：

去除所述语音的背景噪声。

优选地，为进一步提高语音识别准确率，提高语音定制有效性，在对所述语音进行识别之后，还包括：

将识别出的语音信息返回给用户确认；

接收用户输入的确认结果，若用户确认录制语音错误，则重新执行所述录制语音的步骤。

优选地，所述预置的应用指令集中的应用指令包括：

与导航应用场景对应的导航指令，所述导航指令为：从用户当前位置导航到用户语音描述位置；

与公交查询应用场景对应的公交站点查询指令，所述公交站点查询指令为：以用户语音描述位置为中心周边搜索公交站点；

与兴趣点查询应用场景对应的兴趣点查询指令，所述兴趣点查询指令为：获取用户语音描述的兴趣点的属性信息和基本信息，并展示查询到的兴趣点的属性信息和基本信息；

与天气信息查询应用场景对应的天气查询指令，所述天气查询指令为：查询用户语音描述兴趣点所在行政区域的天气信息；

与兴趣点周边搜索应用场景对应的兴趣点周边搜索指令，所述兴趣点周边搜索指令为：以用户当前位置为中心，搜索用户当前位置周边的与用户语音描述的兴趣点对应的兴趣点。

本发明实施例还提供一种语音识别方法，该方法包括：

接收用户语音；

对所述用户语音进行识别，得到语音信息；

从存储的语音信息与应用指令的关联关系中，获取所述语音信息对应的应用指令；

判断应用程序当前的应用场景，从获取出的应用指令中，获取当前的应用场景对应的应用指令，启动所述应用程序执行所述当前的应用场景对应的应用指令。

优选地，为进一步提高语音识别率，在对所述用户语音进行识别之前，还包括：

去除所述用户语音的背景噪音。

优选地，若所述应用程序为导航应用程序，则判断应用程序当前的应用场景，从所述语音信息对应的应用指令中，获取当前的应用场景对应的应用指令，具体包括：

根据导航应用程序的当前的界面，判断所述导航应用程序的应用场景；

当界面为导航界面时，所述导航应用程序的应用场景判断为导航应用场景，从所述语音信息对应的应用指令中获取导航应用指令，启动所述导航应用程序执行从当前位置导航到所述语音信息描述位置的指令；

当界面为公交查询界面时，所述导航应用程序的应用场景判断为公交查询应用场景，从所述语音信息对应的应用指令中获取公交查询指令，启动所述导航应用程序执行以用户语音描述位置为中心周边搜索公交站点的指令；

当界面为兴趣点查询界面时，所述导航应用程序的应用场景判断为兴趣点查询应用场景时，从所述语音信息对应的应用指令中获取兴趣点查询指令，启动所述导航应用程序执行获取用户语音描述的兴趣点的属性信息和基本信息并展示查询到的兴趣点的属性信息和基本信息的指令；

当界面为天气信息查询界面时，所述导航应用程序的应用场景判断为天气信息查询应用场景，从所述语音信息对应的应用指令中获取天气查询指令，启动所述导航应用程序执行查询用户语音描述兴趣点所在行政区域的天气信息；

当界面为兴趣点周边搜索时，所述导航应用程序的应用场景判断为兴趣点周边搜索应用场景，从所述语音信息对应的应用指令中获取兴趣点周边搜索指令，启动所述导航应用程序执行以用户当前位置为中心搜索用户当前位置周边的与用户语音描述的兴趣点对应的兴趣点的指令。

基于前述语音定制方法，本发明实施例还提供一种语音定制装置，该装置包括：

语音录制单元，用于录制语音；

语音识别单元，用于对所述语音录制单元录制的语音进行识别，得到语音信息；

关联关系建立单元，用于建立用户从预置的应用指令集中为所述语音选择的应用指令与所述语音信息的关联关系，并存储所述关联关系，所述应用指令集中的一个应用指令对应一种应用场景。

优选地，前述装置还包括：

噪声去除单元，用于在所述语音识别单元对所述语音进行识别之前，去除所述语音的背景噪声。

优选地，前述装置还包括：

语音确认单元，用于将所述语音识别单元识别出的语音信息返回给用户确认；以及，接收用户输入的确认结果，在用户确认录制语音错误时，触发所述语音录制单元重新录制语音。

优选地，所述预置的应用指令集中的应用指令包括：

基于前述语音识别方法，本发明实施例还提供一种语音识别装置，该装置包括：

接收单元，用于接收用户语音；

识别单元，用于对所述用户语音进行识别，得到语音信息；

应用指令获取单元，用于从存储的语音信息与应用指令的关联关系中，获取所述语音信息对应的应用指令；

应用指令执行单元，用于判断应用程序当前的应用场景，从获取出的应用指令中，获取当前的应用场景对应的应用指令，启动所述应用程序执行所述当前的应用场景对应的应用指令。

优选地，为进一步提高语音识别准确率和成功率，前述装置还包括：

噪声去除单元，用于在所述语音识别单元对所述语音进行识别之前，去除所述用户语音的背景噪音。

优选地，若所述应用程序为导航应用程序，则判断应用程序当前的应用场景，从所述语音信息对应的应用指令中，获取当前的应用场景对应的应用指令，应用指令执行单元，具体用于：

本发明实施例中，一方面，在录制语音之后，从应用指令集中为该语音选择至少一个应用指令，并存储该语音的语音信息与选择的应用指令的关联关系，指令集中的一个应用指令对应一种应用场景，因此，采用本发明技术方案，针对录制的语音可以分配至少一个应用指令，即一段录音可以应用到多个应用场景，从而实现一次语音应用到多个应用场景，提高了语音制定效率和利用率。另一方面，在录制语音之后，将该语音中的背景噪声去除，从而提高语音的可识别率，提高语音识别的准确率和成功率。

附图说明

图1为本发明实施例中定制语音的方法流程图之一；

图2为本发明实施例中定制语音的方法流程图之二；

图3为本发明实施例中定制语音的方法流程图之三；

图4为本发明实施例中定制语音的方法流程图之四；

图5为本发明实施例中建立的语音与应用指令之间的关联关系的示意图；

图6为本发明实施例识别语音的方法流程图之一；

图7为本发明实施例识别语音的方法流程图之二；

图8A为本发明实施例中移动智能手机的应用程序的应用场景为导航应用场景时，应用程序执行导航应用指令的结果示意图；

图8B为本发明实施例中移动智能手机的应用程序的应用场景为公交查询应用场景时，应用程序执行公交查询指令的结果示意图；

图8C为本发明实施例中移动智能手机的应用程序的应用场景为兴趣点查询应用场景时，应用程序执行兴趣点查询指令的结果示意图；

图8D为本发明实施例中移动智能手机的应用程序的应用场景为天气信息查询应用场景时，应用程序执行天气查询指令的结果示意图；

图8E为本发明实施例中移动智能手机的应用程序的应用场景为兴趣点周边搜索，应用程序执行兴趣点周边搜索指令的结果示意图；

图9为本发明实施例中语音定制装置的结构示意图之一；

图10为本发明实施例中语音定制装置的结构示意图之二；

图11为本发明实施例中语音定制装置的结构示意图之三；

图12为本发明实施例中语音定制装置的结构示意图之四；

图13为本发明实施例中语音识别装置的结构示意图之一；

图14为本发明实施例中语音识别装置的结构示意图之二。

具体实施方式

针对现有技术存在的技术问题，本发明实施例提供一种语音定制方法和一种语音识别方法，以针对同一语音，在不同应用场景中为其关联不同的应用指令，从而实现一次语音的制定，实现多个应用场景的应用，从而在一定程度上提高了语音制定效率和利用率。

为便于技术人员理解本技术方案，下面结合说明书附图对本发明技术方案进行详细的描述。

参见图1，为本发明实施例中定制语音的方法流程图，该方法包括：

步骤101、录制语音。

步骤102、对所述语音进行识别，得到语音信息。

步骤103、建立用户从预置的应用指令集中为所述语音选择的应用指令与所述语音信息的关联关系，并存储所述关联关系，所述应用指令集中的一个应用指令对应一种应用场景。

本发明实施例中，可以根据需要灵活的对存储的语音信息与应用指令之间的关联关系进行调整，如可以增加、修改、删除语音信息与应用指令之间的关联关系。

优选地，为提高语音识别率和成功率，在上述步骤101与步骤102之间，还可包括步骤101A，如图2所示：

步骤101A、去除所述语音的背景噪声。

此时，步骤102中的语音为去除背景噪声后的语音。

优选地，为进一步确保录制的语音符合用户的意图，提高录制的语音的准确性，本发明实施例中，在上述图1和图2的步骤102与步骤103之间还可包括步骤102A，分别如图3和图4所示。

步骤102A、将识别出的语音信息返回给用户确认；以及，接收用户输入的确认结果，若用户确认录制语音错误，则重新执行所述录制语音的步骤。

本发明实施例中，将识别出的语音信息返回给用户确认，可以通过语音广播的方式播报语音信息，以便用户确认。

在电子地图或电子导航领域，前述预置的应用指令集中的应用指令可以包括以下几种应用指令：

与导航应用场景对应的导航指令，所述导航指令（为后续的应用指令A）为：从用户当前位置导航到用户语音描述位置；

与公交查询应用场景对应的公交站点查询指令（为后续的应用指令B），所述公交站点查询指令为：以用户语音描述位置为中心周边搜索公交站点；

与兴趣点查询应用场景对应的兴趣点查询指令（为后续的应用指令C），所述兴趣点查询指令为：获取用户语音描述的兴趣点的属性信息和基本信息，并展示查询到的兴趣点的属性信息和基本信息；

与天气信息查询应用场景对应的天气查询指令（为后续的应用指令D），所述天气查询指令为：查询用户语音描述兴趣点所在行政区域的天气信息；

与兴趣点周边搜索应用场景对应的兴趣点周边搜索指令（为后续的应用指令E），所述兴趣点周边搜索指令为：以用户当前位置为中心，搜索用户当前位置周边的与用户语音描述的兴趣点对应的兴趣点。

以具体的实例进行详细的说明，该技术方案应用在移动智能手机中，该移动智能手机安装有导航软件（即前述的导航应用程序）。假设用户通过该移动智能手机进行语音录制，录制的语音的为“方恒国际中心”，识别出该语音的语音信息为方恒国际中心，即一个POI名称，此时，可以将语音指令集中的以下应用指令A～应用指令E分配给该语音，并建立“方恒国际中心”与应用指令A～应用指令E的关联关系，如图5所示。具体地，针对导航应用场景，为该“方恒国际中心”分配的应用指令A为从用户当前位置导航到方恒国际中心的指令；针对公交查询应用场景，为该“方恒国际中心”分配的应用指令B为以方恒国际中心为中心点，周边搜索公交站点；针对POI查询应用场景，为该“方恒国际中心”分配的应用指令C为获取方恒国际中心在电子地图中的属性信息和基本信息并展示查询得到的属性信息和基本信息的指令；针对天气信息查询应用场景，为该“方恒国际中心”分配的应用指令D为查询该方恒国际中心所在行政区域（即望京）的天气信息；针对POI周边搜索应用场景，为该“方恒国际中心”分配的应用指令E为以用户当前所在位置为中心搜索当前位置周边的方恒国际中心。

基于前述语音的定制方法，本发明实施例还提供一种语音识别方法，该方法流程可参见图6，具体包括：

步骤601、接收用户语音。

步骤602、对所述语音进行识别，得到语音信息。

步骤603、从存储的语音信息与应用指令的对应关系中，获取所述语音信息对应的语音指令。

步骤604、判断应用程序当前的应用场景，从获取出的应用指令中获取当前的应用场景对应的应用指令，启动所述应用程序执行所述当前的应用场景对应的应用指令。

优选地，为进一步提高语音识别率和准确性，本发明实施例中，在前述步骤601与步骤602之间还可包括步骤601A，如图7所示：

步骤601A、去除所述用户语音的背景噪音。此时，前述步骤602的语音为经过步骤601A去除背景噪音的语音。

以前述语音为“方恒国际中心”为例，假设，移动智能手机安装有导航软件（即前述导航应用程序）。移动智能手机接收到的语音为“方恒国际中心”，则对该语音进行识别得到语音信息为方恒国际中心；根据移动智能手机中导航应用程序当前的界面判断导航应用程序当前的应用场景，并根据该应用场景，从图5所示的关联关系中确定出与该语音场景对应的应用指令，并通过导航应用程序执行该应用指令。如图8A所示，当界面为导航界面时，判断导航软件的应用场景为导航应用场景时，获取前述应用指令A，启动导航软件从当前位置导航到方恒国际中心；如图8B所示，当界面为公交查询界面时，判断导航软件的应用场景为公交查询应用场景，获取前述应用指令B，启动导航软件以方恒国际中心为中心周边搜索公交站点；如图8C所示，当界面为兴趣点查询界面时，判断导航软件的应用场景为POI查询应用场景，获取前述应用指令C，启动导航软件获取方恒国际中心在电子地图中的属性信息和基本信息，并展示获取的属性信息和基本信息；如图8D所示，当界面为天气信息查询界面时，判断导航软件的应用场景为天气信息查询应用场景，获取前述应用指令D，启动导航软件查询朝阳区望京的天气信息；如图8E所示，界面为兴趣点周边搜索时，判断导航软件的应用场景为POI周边搜索应用场景，获取前述应用指令E，启动导航软件以用户当前所在位置为中心搜索方恒国际中心。

基于前述语音定制方法，本发明实施例还提供一种语音定制装置，该装置的结构可如图9所示，包括：

语音录制单元91，用于录制语音；

语音识别单元92，用于对所述语音录制单元91录制的语音进行识别，得到语音信息；

关联关系建立单元93，用于建立用户从预置的应用指令集中为所述语音选择的应用指令与所述语音信息的关联关系，并存储所述关联关系，所述应用指令集中的一个应用指令对应一种应用场景。

优选地，为提高录制的语音的可识别率，前述装置还可包括噪声去除单元94，如图10所示：

噪声去除单元94，用于在所述语音识别单元92对所述语音进行识别之前，去除所述语音的背景噪声。

优选地，为进一步确保录制的语音符合用户意图，提高语音录制的准确性，在前述图9或图10所示的装置中，还可包括语音确认单元95。如图11所示，为在图9所示的装置中，还设置有语音确认单元95；图12所示为在图10所示的装置中，还设置有语音确认单元95。

语音确认单元95，用于将所述语音识别单元92识别出的语音信息返回给用户确认；以及，接收用户输入的确认结果，在用户确认录制语音错误时，触发所述语音录制单元91重新录制语音。

优选地，当语音录制单元91录制的语音为兴趣点POI名称；

本发明实施例提供的技术方案应用到电子地图、电子导航领域时，前述预置的应用指令集中可包括以下应用指令：

基于前述语音识别方法，本发明实施例还提供一种语音识别装置，该装置的结构可如图13所示，包括：

接收单元1301，用于接收用户语音；

识别单元1302，用于对所述用户语音进行识别，得到语音信息；

应用指令获取单元1303，用于从存储的语音信息与应用指令的关联关系中，获取所述语音信息对应的应用指令；

应用指令执行单元1304，用于判断应用程序当前的应用场景，从获取出的应用指令中，获取当前的应用场景对应的应用指令，启动所述应用程序执行所述当前的应用场景对应的应用指令。

优选地，为进一步提高语音识别成功率和准确率，前述装置还可包括噪声去除单元1305，如图14所示：

噪声去除单元1305，用于在所述语音识别单元1302对所述语音进行识别之前，去除所述用户语音的背景噪音。

本发明实施例中，若前述应用程序为导航应用程序，则判断应用程序当前的应用场景，从所述语音信息对应的应用指令中，获取当前的应用场景对应的应用指令，应用指令执行单元1304，具体用于：

本发明实施例中，一方面，在录制语音之后，从应用指令集中为该语音选择至少一个应用指令，并存储该语音的语音信息与选择的应用指令的关联关系，指令集中的一个应用指令对应一种应用场景，因此，采用本发明技术方案，针对录制的语音可以分配至少一个应用指令，即一段录音可以应用到多个应用场景，从而实现一次语音应用到多个应用场景，提高了语音制定效率和利用率。另一方面，在录制语音之后，将该语音中的背景噪声去除，从而提高语音的可识别率，提高语音识别的准确率和成功率。再一方面，还可以是在识别出语音之后，将识别的语音返回给用户确认，在用户确认语音识别正确时继续后续步骤，从而更进一步的确保录制的语音符合用户的真实意图，进一步提高语音定制的有效性和准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音定制方法，其特征在于，包括：

录制语音；

对所述语音进行识别，得到语音信息；

2.根据权利要求1所述的方法，其特征在于，在对所述语音进行识别之前，还包括：

去除所述语音的背景噪声。

3.根据权利要求1所述的方法，其特征在于，对所述语音进行识别之后，还包括：

将识别出的语音信息返回给用户确认；

4.根据权利要求1~3任一项所述的方法，其特征在于，所述预置的应用指令集中的应用指令包括：

5.一种语音识别方法，其特征在于，包括：

接收用户语音；

对所述用户语音进行识别，得到语音信息；

6.根据权利要求5所述的方法，其特征在于，在对所述用户语音进行识别之前，还包括：

去除所述用户语音的背景噪音。

7.根据权利要求5或6所述的方法，其特征在于，若所述应用程序为导航应用程序，则判断应用程序当前的应用场景，从所述语音信息对应的应用指令中，获取当前的应用场景对应的应用指令，具体包括：

8.一种语音定制装置，其特征在于，包括：

语音录制单元，用于录制语音；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，还包括：

11.根据权利要求8~10任一项所述的装置，其特征在于，所述预置的应用指令集中的应用指令包括：

12.一种语音识别装置，其特征在于，包括：

接收单元，用于接收用户语音；

识别单元，用于对所述用户语音进行识别，得到语音信息；

13.根据权利要求12所述的装置，其特征在于，还包括：

14.根据权利要求12或13所述的装置，其特征在于，若所述应用程序为导航应用程序，则判断应用程序当前的应用场景，从所述语音信息对应的应用指令中，获取当前的应用场景对应的应用指令，应用指令执行单元，具体用于：