CN108039175B

CN108039175B - 语音识别方法、装置及服务器

Info

Publication number: CN108039175B
Application number: CN201810085826.0A
Authority: CN
Inventors: 王知践; 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2021-03-26
Anticipated expiration: 2038-01-29
Also published as: JP7158217B2; US11398228B2; JP2019133127A; CN108039175A; US20190237071A1

Abstract

本发明提出了一种语音识别方法、装置及服务器。所述方法包括：接收客户端发送的用户语音；根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音；将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音。本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识，以使得在语音识别时跳过标有静音标识的唤醒词的发音，这样在采用复杂的解码算法对语音进行识别时，避免对与用户指示无关的唤醒词进行识别，减小了解码算法的数据处理量，提高了语音识别的效率。

Description

语音识别方法、装置及服务器

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及服务器。

背景技术

随着电子设备的不断发展，作为电子设备的重要组成部分-------电子设备的控制系统，例如，语音控制系统，也在不断地发展，随着语音识别技术迅速发展成熟，各种语音识别软件纷纷亮相，使得人与电子设备的交流变得简单、有趣。为了避免人与电子设备进行语音控制时产生误操作，可以设置唤醒词，当电子设备接收到与自身匹配的唤醒词时，才会接收外界的语音控制信息，并依据语音控制信息执行相应的操作。

用户每次与电子设备进行语音交互时，电子设备接收到用户的语音，将用户的语音传送至服务端，由服务端来进行语音识别，然后按照用户的指示进行操作。但是，用户的语音中包含的信息较多，服务端在对用户语音进行识别时，需要对整段语音都进行识别，再筛选出与用户指示相关的有用信息，再执行用户的指示。这样使得语音识别的过程数据处理量较大，降低了语音识别的效率。

发明内容

本发明实施例提供一种语音识别方法、装置及服务器，以解决或缓解背景技术中的一项或多项以上技术问题，至少提供一种有益的选择。

第一方面，本发明实施例提供了一种语音识别方法，包括：

接收客户端发送的用户语音；

根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音；

将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音。

结合第一方面，本发明在第一方面的第一种实施方式中，

根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音，包括：

将所述发音与识别路径中预先存储的唤配词匹配；若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配，则将所述一段语音识别为唤醒词。

结合第一方面，本发明在第一方面的第二实施方式中，将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音，包括：

当采用解码算法识别所述标注静音标识的唤醒词时，保持静音，直至所述唤醒词发音结束。

结合第一方面，本发明在第一方面的第三实施方式中，所述唤醒词的发音的行首标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音之后，所述方法还包括：

采用解码算法识别所述语音中的除唤醒词以外的其他语音。

第二方面，本发明实施例提供了一种语音识别装置，所述装置包括：

接收模块，配置为接收客户端发送的用户语音；

第一识别模块，根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音；

静音模块，配置为将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音。

结合第二方面，本发明在第二方面的第一实施方式中，所述第一识别模块包括：

匹配子模块，配置为将所述发音与识别路径中预先存储的唤配词匹配；若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配，则将所述一段语音识别为唤醒词。

结合第二方面，本发明在第二方面的第二实施方式中，所述静音模块包括：

静音子模块，配置为当采用解码算法识别所述标注静音标识的唤醒词时，保持静音，直至所述唤醒词发音结束。

结合第二方面，本发明在第二方面的第三实施方式中，所述装置还包括：

第二识别模块，配置为当所述唤醒词的发音的行首标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音完成之后，采用解码算法识别所述语音中的除唤醒词以外的其他语音。

第三方面，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中语音识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语音识别装置所用的计算机软件指令，其包括用于执行上述第一方面中语音识别方法为语音识别装置所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识，以使得在语音识别时跳过标有静音标识的唤醒词的发音，这样在采用复杂的解码算法对语音进行识别时，避免对与用户指示无关的唤醒词进行识别，减小了解码算法的数据处理量，提高了语音识别的效率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的语音识别方法的流程图；

图2为本发明实施例二的语音识别方法的流程图；

图3为本发明实施例三的语音识别装置的示意图；

图4为本发明实施例四的服务器的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

一语即达(one-shot)是目前比较热门一种语音交互技术。这种技术采用“唤醒词+语音语义识别”一体化方式，实现唤醒词与语音操控之间零间隔、零延迟、无缝对接，摒弃传统的一问一答的形式，极大减少用户语音操控的步骤，实现信息反馈，化繁为简，实现简便操作。one-shot的一大特点是识别唤醒与语义理解一体化，保证语音交互的统一性与连贯性，完成操控。举个简单的例子来讲，过去智能语音的交互方式为一问一答，用户发出唤醒词指令，需要设备反馈待机信息，然后才能开始交互，例如：

用户：你好小度(用户发送唤醒词以唤醒设备)。

设备：有什么可以帮您？(电子设备对唤醒词进行反馈，表示处于信息接收状态)

用户：我要去机场。

设备：开始为您导航去机场。

One-shot技术却可以一语即中，实现“唤醒词+语音语义识别”一体化，比如实现这样的交互：

用户：你好小度，我要去机场。

设备：开始为您导航去机场。

相比传统的语音交互技术，这样的体验似乎更具效率。

语音唤醒和常用的语音识别指令存储在本地，客户端(或电子设备)接收用户语音，并对用户语音能够准确及时的响应。与此同时，将用户语音发送至云服务器，由云服务器处理语音识别和语义理解。客户端加云服务器的混合引擎处理，既保证了响应速度也确保了交互的精准。但是传统技术中客户端将用户语音发送至服务器，服务器需要对用户的全部语音进行识别，而且这段语音中可能存在一些与用户指示不相关的信息。为此，本发明实施例提供一种语音识别方法，在云服务器进行语音识别时，将与用户指示不相关的唤醒词过滤掉，以提高云服务器的语音识别效率。

实施例一

本发明实施例提供一种语音识别方法。如图1所示，为本发明实施例的语音识别方法的流程图。本发明实施例的语音识别方法包括如下步骤：

S101，接收客户端发送的用户语音。

如上所述，本发明实施例的执行主体为云服务器。

其中，客户端可以包括一些具备语音交互功能的电子设备，如音响、具备语音交互功能的机器人、车载语音交互系统、具备语音交互功能的查询类应用程序和地图应用程序等等。

当客户端检测到用户语音，可以根据客户端本地存储的语音唤醒和常用的语音识别指令确定存在唤醒词，这时客户端被唤醒。然后客户端将用户语音发送至云服务器。

S102，根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音。

其中，声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程。例如，可以采用基音检测和线性预测分析方法对声学特征进行提取。

S103，将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音。

其中，在一种实施方式中，在语音交互中，静音标识以符号<s>来表示，其含义是silence。如果在识别过程中，遇到这个符号，就表示不会有结果出现，或者说相当于出现了空的结果。

例如，将“xiaoduxiaodu”这个唤醒词前加上<s>，其识别过程如下：

<s>(01)D$[wb]x_T0iao_T3d_T0u_T4x_T0iao_T3d_T0u_T4[wb]

对于真正的静音识别过程如下：

<s>(02)D$[wb]

二者所输出的结果是等同的，即都是静音。

本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识，以使得在语音识别时跳过标有静音标识的唤醒词的发音，这样在采用复杂的解码算法对语音进行识别时，避免对与用户指示无关的唤醒词进行识别，减小了解码算法的数据处理量，提高了语音识别的效率。

实施例二

在实施例一的基础上，本发明实施例提供一种语音识别方法。如图2所示，为本发明实施例的语音识别方法的流程图。本发明实施例的语音识别方法包括如下步骤：

S201，接收客户端发送的用户语音。

S202，将所述发音与识别路径中预先存储的唤配词匹配；若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配，则将所述一段语音识别为唤醒词。

具体的，云服务器可以预先存储唤醒词对应的语音，然后根据语音识别的规则，将所接收的语音与预先存储的唤醒词对应的语音进行匹配，如果语音中存在一段语音与唤醒词相匹配，可以在该唤醒词前标注静音符号<s>，这个符号的含义是静音(silence)。由于唤醒词的发音一般是差异比较大的两个字的叠字发音，这样的发音正常的语音中很少出现，通常不会影响正常的识别结果。

此步骤对应实施例一的步骤S102。

S203，当采用解码算法识别所述标注静音标识的唤醒词时，保持静音，直至所述唤醒词发音结束。

其中，对语音进行识别的过程就是在给定声学特征的情况下，最找到最可能对应的词组的过程。例如，可以根据机器学习算法事先建立声学模型，将提取的声学特征发送至声学模型进行处理，然后由声学模型输出所识别的语音对应的符号串。

此步骤对应实施例一的步骤S103。

S204，采用解码算法识别所述语音中的除唤醒词以外的其他语音。

一般来说，利用解码算法进行语音识别是语音交互技术的核心技术之一。其任务是对输入的语音，根据声学、语言模型及词典，寻找能够最大概率输出该语音的词串。

本发明实施例当完成过滤唤醒词后，可以根据解码算法继续识别唤醒词后面的其他的语音，例如，当用户发送指示“小度小度，我要去机场”，这时将“小度小度”过滤掉，开始识别“我要去机场”。

本发明实施例还有一个效果是：由于汉语中存在着音同字不同的情况，在唤醒时容易造成误操作。例如，唤醒词为“小度小度”，在精确匹配的时候可能会识别为“小杜小杜”。在模糊匹配的时候，如果识别时丢了个别字，那么强制过滤就会把正常的结果的头几个字也处理掉，这样导致过滤失败。本发明实施例将唤醒词过滤掉，不识别，就可以避免引起这些问题。

实施例三

本发明实施例提供一种语音识别装置。如图3所示，为本发明实施例的语音识别装置的示意图。本发明实施例的语音识别装置包括：

所述装置包括：

接收模块31，配置为接收客户端发送的用户语音；

第一识别模块32，根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音；

静音模块33，配置为将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音。

具体地，所述第一识别模块32包括：

匹配子模块321，配置为将所述发音与识别路径中预先存储的唤配词匹配；若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配，则将所述一段语音识别为唤醒词。

具体地，所述静音模块33包括：

静音子模块331，配置为当采用解码算法识别所述标注静音标识的唤醒词时，保持静音，直至所述唤醒词发音结束。

进一步地，所述装置还包括：

第二识别模块34，配置为当所述唤醒词的发音的行首标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音完成之后，采用解码算法识别所述语音中的除唤醒词以外的其他语音。

本发明实施例的技术方案可以实现避免对与用户指示无关的唤醒词进行识别，减小了解码算法的数据处理量，提高了语音识别的效率，有益效果与实施例一相同，在此不再赘述。

实施例四

本发明实施例五提供一种信息分类设备，如图4所示，该设备包括：存储器41和处理器42，存储器41内存储有可在处理器42上运行的计算机程序。处理器42执行所述计算机程序时实现上述实施例中的信息分类方法。存储器41和处理器42的数量可以为一个或多个。

该设备还包括：

通信接口43，用于存储器41和处理器42与外部设备之间的通信。

存储器41可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器41、处理器42和通信接口43独立实现，则存储器41、处理器42和通信接口43可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，ExtendedIndustry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器41、处理器42及通信接口43集成在一块芯片上，则存储器41、处理器44及通信接口43可以通过内部接口完成相互间的通信。

实施例五

一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如图1至2中任一实施例所示的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

接收客户端发送的包含唤醒词的用户语音；

2.根据权利要求1所述的方法，其特征在于，根据所述语音的声学特征，识别所述语音中的唤醒词对应的发音，包括：

3.根据权利要求1所述的方法，其特征在于，将所述唤醒词的发音标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音，包括：

4.根据权利要求1所述的方法，其特征在于，所述唤醒词的发音的行首标注静音标识，使得在语音识别时跳过标有静音标识的唤醒词的发音之后，所述方法还包括：

采用解码算法识别所述语音中的除唤醒词以外的其他语音。

5.一种语音识别装置，其特征在于，所述装置包括：

接收模块，配置为接收客户端发送的包含唤醒词的用户语音；

6.根据权利要求5所述的装置，其特征在于，所述第一识别模块包括：

7.根据权利要求5所述的装置，其特征在于，所述静音模块包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。