CN105895090A

CN105895090A - 语音信号处理方法及装置

Info

Publication number: CN105895090A
Application number: CN201610193074.0A
Authority: CN
Inventors: 王育军
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2016-08-24
Also published as: WO2017166649A1

Abstract

本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括：接收客户端发送的语音信号；对语音信号进行语音识别，以获得文本数据；对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；将初始解析结果中的实体词转换为拼音流，以获得中间解析结果；将中间解析结果发送给客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。采用本发明实施例对语音信号进行语义解析，可以提高语义解析的准确度。

Description

语音信号处理方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

随着语音识别技术的发展，基于语音识别的应用越来越多，例如语音拨号、语音导航、语音播放控制、语音信息检索等。在基于语音识别的应用中，都需要对语音信号进行语义解析，提取语音信号所表达的用户意图，并转换成机器能够理解的结构化数据格式。

现有技术主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多，但实际上语义解析模板的数量是有限的，而语音信号的表达方式又是多种多样，所以经常出现一些无法精准匹配的情况，导致无法准确解析语音信号的语义。

发明内容

本发明实施例提供一种语音信号处理方法及装置，用以对语音信号进行语义解析，提高语义解析的准确度。

本发明实施例提供一种语音信号处理方法，包括：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。

本发明实施例提供另一种语音信号处理方法，包括：

向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例提供一种语音信号处理装置，位于服务端实现，所述装置包括：

接收模块，用于接收客户端发送的语音信号；

语音识别模块，用于对所述语音信号进行语音识别，以获得文本数据；

语义解析模块，用于对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

转换模块，用于将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

发送模块，用于将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。

本发明实施例提供另一种语音信号处理装置，位于客户端实现，所述装置包括：

发送模块，用于向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收模块，用于接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

修正模块，用于利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例提供的语音信号处理方法及装置，在服务端，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，在客户端，利用本地信息库对接收到的中间解析结果中的拼音流进行修正，以获得最终解析结果。本发明实施例将服务端解析与客户端修正相结合，充分发挥客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音信号处理方法的流程示意图；

图2为本发明另一实施例提供的语音信号处理方法的流程示意图；

图3为本发明又一实施例提供的语音信号处理装置的结构示意图；

图4为本发明又一实施例提供的语音信号处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多，但实际上语义解析模板的数量是有限的，而语音信号的表达方式又是多种多样，所以经常出现一些无法精准匹配的情况，导致无法准确解析语音信号的语义。以语音拨号为例，可能有语音信号“请给张三拨打电话”对应的语义解析模板，但可能没有语音信号“请给李四打电话”的语义解析模板，所以“请给李四打电话”可能无法准备解析出语音信号“请给李四打电话”的语义。

针对上述问题，本发明实施例提供一种解决方案，主要原理是：在服务端，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，实体词的不确定性较高，因此将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，在客户端，利用本地信息库对接收到的中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例将服务端解析与客户端修正相结合，充分发挥客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

下面通过具体实施例对本发明技术方案进行详细说明。

图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示，该方法包括：

101、接收客户端发送的语音信号。

102、对语音信号进行语音识别，以获得文本数据。

103、对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

104、将初始解析结果中的实体词转换为拼音流，以获得中间解析结果。

105、将中间解析结果发送给所述客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。

本实施例提供一种语音信号处理方法，可由语音信号处理装置来执行，用以对语音信号进行语义解析，提高语义解析的准确度。

本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景，例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中，语音信号处理装置可位于各应用场景中的服务端实现。

具体的，在各应用场景中，客户端采集用户的语音信号，例如对用户的语音进行录制，从而获取用户的语音信号，然后将语音信号发送给服务端，具体来说是发送给服务端的语音信号处理装置。语音信号处理装置接收客户端发送的语音信号。

可选的，客户端发送语音信号之前，可以对语音信号进行模数转换、编码、压缩等处理。相应的，语音信号处理装置接收到语音信号之后，可以对语音信号经解压缩、解码等处理，并针对处理后的语音信号进行语义解析处理。

在获得语音信号之后，语音信号处理装置可以对语音信号进行语音识别，以获得文本数据。举例说明，假设用户输入的语音信号为“我要给张三打电话”，则可以将该语音信号识别为对应的文本数据。其中，对语音信号进行语音识别的具体方案可以参见现有技术，在此不做详述。

在获得语音信号对应的文本数据之后，语音信号处理装置可以对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。本实施例中的固定句式语义解析不同于现有技术中的通用语义解析。其中，通用语义解析是指利用预设的通用语义解析模板与文本数据进行匹配以获得文本数据对应的语义的方案。而本实施例的固定句式语义解析是指利用预设的固定句式解析模板与文本数据进行匹配，以获得文本数据对应的语义的方案。

在本实施例中，固定句式解析模板包括固定表达部分和待定表达部分。固定表达部分是比较固定的，在相同应用场景的不同请求中一般不会发生变化，而待定表达部分是不固定的，在相同应用场景的不同请求中往往会发生变化。

例如，“请给xxx打电话”为一固定句式解析模板，其中“请给…打电话”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指姓名，在不同拨号请求中，请求呼叫的对象姓名经常是不同的。

又例如，“请播放歌曲xxx”为另一固定句式解析模板，其中“请播放歌曲…”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指歌曲名，在不同播放请求中，请求播放的歌曲经常是不同的。

又例如，“请搜索歌曲xxx的歌词”为又一固定句式解析模板，其中“请搜索歌曲…的歌词”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指歌曲名，在不同搜索请求中，请求搜索的歌词经常是不同歌曲的。

基于上述，语音信号处理装置具体可以利用预设的固定句式解析模板与上述语音信号对应的文本数据进行匹配，以获得该文本数据匹配中的固定句式解析模板，为便于描述，将文本数据匹配中的固定句式解析模板称为目标固定句式解析模板。该目标固定句式解析模板也包括固定表达部分和待定表达部分。之后，语音信号处理装置将文本数据中对应目标固定句式解析模板中的固定表达部分的内容作为初始解析结果中的固定句式，将文本数据中对应目标固定句式解析模板中的待定表达部分的内容作为初始解析结果中的实体词。

例如，假设语音信号对应的文本数据为“请给张三打电话”，则与该文本数据匹配中的目标固定句式解析模板为“请给xxx打电话”，则可以将固定表达部分“请给…打电话”作为初始解析结果中的固定句式，将“张三”作为初始解析结果中的实体词。

又例如，假设语音信号对应的文本数据为“请播放歌曲小燕子”，则与该文本数据匹配中的目标固定句式解析模板为“请播放歌曲xxx”，则可以将固定表达部分“请播放歌曲…”作为初始解析结果中的固定句式，将“小燕子”作为初始解析结果中的实体词。

又例如，假设语音信号对应的文本数据为“请搜索歌曲童年的歌词”，则与该文本数据匹配中的目标固定句式解析模板为“请搜索歌曲xxx的歌词”，则可以将固定表达部分“请搜索歌曲…的歌词”作为初始解析结果中的固定句式，将“童年”作为初始解析结果中的实体词。

在一可选实施方式中，在对语音信号对应的文本数据进行固定句式语义解析之前，可以先对文本数据进行通用语义解析。具体的，语音信号处理装置可以先利用预设的通用语义解析模板与所述文本数据进行匹配；若未匹配中通用语义解析模板，语音信号处理装置可以继续对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

进一步，若匹配中通用语义解析模板，则根据匹配中的通用语义解析模板获得文本数据的解析结果并返回给客户端，以供客户端根据该解析结果执行相应操作。

在本实施例中，在获得文本数据对应的初始解析结果之后，并不是像现有技术那样直接将初始解析结果返回给客户端。考虑到初始解析结果中实体词的不确定性，有可能语音识别出的是错误的，例如语音信号中的“张三”，可以被识别为“张伞”，为提高对实体词的识别结果，语音信号处理装置将初始解析结果中的实体词转换为拼音流，例如将“张伞”转换为“zhang san”，从而获得中间解析结果。举例说明，初始解析结果为“请给张伞打电话”，经过拼音流转换后的中间解析结果为“请给zhang san打电话”。

在获得中间解析结果之后，语音信号处理装置将中间解析结果发送给客户端。对客户端来说，接收语音信号处理装置发送的中间解析结果，利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。具体的，客户端可以将该拼音流在本地信息库中进行匹配，例如可以采用最小编辑距离匹配算法，以获得该拼音流对应的实体词，进而用该实体词替换拼音流，获得最终解析结果。

值得说明的是，客户端的本地信息库实际上是与客户端所属应用场景相关的信息库，例如若客户端属于语音拨号场景，则本地信息库可以是通讯录，若客户端属于语音播放控制场景，则本地信息库可以是本地音乐库。

本实施例通过将不确定性较强的实体词转换为拼音流并发送给客户端，有利于客户端根据本地与应用场景相关的信息库准确确定该拼音流对应的实体词，提高最终解析结果的准确度。另外，由于不确定性较强的实体词交由客户端根据具体应用场景来确定，使得服务端只需存储固定句式解析模板即可，不用像现有技术中存储每个实体词对应的通用语义解析模板，有利于减少解析模板的数量。

图2为本发明另一实施例提供的语音信号处理方法的流程示意图。如图2所示，该方法包括：

201、向服务端发送语音信号，以供服务端对语音信号进行语义解析。

202、接收服务端返回的中间解析结果，中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的，中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。

203、利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景，例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中，语音信号处理装置可位于各应用场景中的客户端实现。

具体的，在各应用场景中，语音信号处理装置采集用户的语音信号，例如对用户的语音进行录制，从而获取用户的语音信号，然后将语音信号发送给服务端，以供服务端对语音信号进行语义解析。

其中，服务端对语音信号进行语义解析的过程可参见图1所示实施例的描述，在此不再赘述。

在将语音信号发送给服务端之后，语音信号处理装置等待接收服务端返回的中间解析结果，在接收到中间解析结果后，利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

具体的，语音信号处理装置将拼音流在本地信息库中进行匹配，以获得拼音流对应的实体词；将中间解析结果中的固定句式与拼音流对应的实体词进行组合，以获得最终解析结果。

例如，语音信号处理装置可以采用最小编辑距离匹配算法，将该拼音流在本地信息库中进行匹配，以获得该拼音流对应的实体词。

值得说明的是，语音信号处理装置的本地信息库实际上是与应用场景相关的信息库，例如若是语音拨号场景，则本地信息库可以是通讯录，若是语音播放控制场景，则本地信息库可以是本地音乐库、本地视频库等。

另外，语音信号处理装置在获得最终解析结果后，可以根据最终解析结果进行相应操作，例如根据最终解析结果进行拨号控制，或者根据最终解析结果进行播放控制，或者根据最终解析结果进行搜索等。

在此说明，若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词，语音信号处理装置可以直接拒绝用户的相应请求，例如拒绝拨号、拒绝播放歌曲或拒绝搜索歌词等。或者，若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词，语音信号处理装置可以通过与用户交互的方式进行处理，例如向用户输出提示信息，以供用户确定是否继续执行相应操作，并根据用户的指示执行相应操作。

在本实施例中，语音信号处理装置与服务端相配合，根据本地与应用场景相关的信息库，能够对不确定性较高的实体词对应的拼音流进行准确识别，有利于提高最终解析结果的准确度，同时有利于减少解析模板的数量。

图3为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于服务端中实现。如图3所示，该装置包括：接收模块31、语音识别模块32、语义解析模块33、转换模块34和发送模块35。

接收模块31，用于接收客户端发送的语音信号。

语音识别模块32，用于对语音信号进行语音识别，以获得文本数据。

语义解析模块33，用于对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

转换模块34，用于将初始解析结果中的实体词转换为拼音流，以获得中间解析结果。

发送模块35，用于将中间解析结果发送给客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。

在一可选实施方式中，语义解析模块33具体用于：

利用预设的固定句式解析模板与文本数据进行匹配，以获得文本数据匹配中的目标固定句式解析模板，目标固定句式解析模板包括固定表达部分和待定表达部分；

将文本数据中对应固定表达部分的内容作为初始解析结果中的固定句式，将文本数据中对应待定表达部分的内容作为初始解析结果中的实体词。

在一可选实施方式中，语义解析模块33具体用于：利用预设的通用语义解析模板与文本数据进行匹配，并在未匹配中通用语义解析模板时，触发执行对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果的操作。

本实施例提供的语音信号处理装置，位于服务端实现，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，使得客户端可以利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果，充分发挥了客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

图4为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于客户端实现，如图4所示，该装置包括：发送模块41、接收模块42和修正模块43。

发送模块41，用于向服务端发送语音信号，以供服务端对语音信号进行语义解析。

接收模块42，用于接收服务端返回的中间解析结果，中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的，中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。

修正模块43，用于利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

在一可选实施方式中，修正模块43具体用于：

将拼音流在本地信息库中进行匹配，以获得拼音流对应的实体词；

将固定句式与拼音流对应的实体词进行组合，以获得最终解析结果。

例如，修正模块43具体可以采用最小编辑距离匹配算法，将该拼音流在本地信息库中进行匹配，以获得该拼音流对应的实体词。

本实施例提供的语音信号处理装置，位于客户端实现，与服务端相配合，根据本地与应用场景相关的信息库，能够对不确定性较高的实体词对应的拼音流进行准确识别，有利于提高最终解析结果的准确度，同时有利于减少解析模板的数量。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果，包括：

利用预设的固定句式解析模板与所述文本数据进行匹配，以获得所述文本数据匹配中的目标固定句式解析模板，所述目标固定句式解析模板包括固定表达部分和待定表达部分；

将所述文本数据中对应所述固定表达部分的内容作为所述初始解析结果中的固定句式，将所述文本数据中对应所述待定表达部分的内容作为所述初始解析结果中的实体词。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果之前，包括：

利用预设的通用语义解析模板与所述文本数据进行匹配，并在未匹配中通用语义解析模板时，触发执行对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果的操作。

4.一种语音信号处理方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果，包括：

将所述拼音流在所述本地信息库中进行匹配，以获得所述拼音流对应的实体词；

将所述固定句式与所述拼音流对应的实体词进行组合，以获得所述最终解析结果。

6.一种语音信号处理装置，位于服务端实现，其特征在于，所述装置包括：

接收模块，用于接收客户端发送的语音信号；

7.根据权利要求6所述的装置，其特征在于，所述语义解析模块具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述语义解析模块具体用于：

9.一种语音信号处理装置，位于客户端实现，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述修正模块具体用于：