CN105895090A - 语音信号处理方法及装置 - Google Patents
语音信号处理方法及装置 Download PDFInfo
- Publication number
- CN105895090A CN105895090A CN201610193074.0A CN201610193074A CN105895090A CN 105895090 A CN105895090 A CN 105895090A CN 201610193074 A CN201610193074 A CN 201610193074A CN 105895090 A CN105895090 A CN 105895090A
- Authority
- CN
- China
- Prior art keywords
- analysis result
- clause
- fixing
- text data
- entity word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 158
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000013011 mating Effects 0.000 claims description 5
- 239000007787 solid Substances 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种语音信号处理方法及装置。语音信号处理方法包括:接收客户端发送的语音信号;对语音信号进行语音识别,以获得文本数据;对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;将初始解析结果中的实体词转换为拼音流,以获得中间解析结果;将中间解析结果发送给客户端,以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。采用本发明实施例对语音信号进行语义解析,可以提高语义解析的准确度。
Description
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音信号处理方法及装置。
背景技术
随着语音识别技术的发展,基于语音识别的应用越来越多,例如语音拨号、语音导航、语音播放控制、语音信息检索等。在基于语音识别的应用中,都需要对语音信号进行语义解析,提取语音信号所表达的用户意图,并转换成机器能够理解的结构化数据格式。
现有技术主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多,但实际上语义解析模板的数量是有限的,而语音信号的表达方式又是多种多样,所以经常出现一些无法精准匹配的情况,导致无法准确解析语音信号的语义。
发明内容
本发明实施例提供一种语音信号处理方法及装置,用以对语音信号进行语义解析,提高语义解析的准确度。
本发明实施例提供一种语音信号处理方法,包括:
接收客户端发送的语音信号;
对所述语音信号进行语音识别,以获得文本数据;
对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;
将所述初始解析结果中的实体词转换为拼音流,以获得中间解析结果;
将所述中间解析结果发送给所述客户端,以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
本发明实施例提供另一种语音信号处理方法,包括:
向服务端发送语音信号,以供所述服务端对所述语音信号进行语义解析;
接收所述服务端返回的中间解析结果,所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的,所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流;
利用本地信息库对所述中间解析结果中的拼音流进行修正,以获得最终解析结果。
本发明实施例提供一种语音信号处理装置,位于服务端实现,所述装置包括:
接收模块,用于接收客户端发送的语音信号;
语音识别模块,用于对所述语音信号进行语音识别,以获得文本数据;
语义解析模块,用于对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;
转换模块,用于将所述初始解析结果中的实体词转换为拼音流,以获得中间解析结果;
发送模块,用于将所述中间解析结果发送给所述客户端,以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
本发明实施例提供另一种语音信号处理装置,位于客户端实现,所述装置包括:
发送模块,用于向服务端发送语音信号,以供所述服务端对所述语音信号进行语义解析;
接收模块,用于接收所述服务端返回的中间解析结果,所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的,所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流;
修正模块,用于利用本地信息库对所述中间解析结果中的拼音流进行修正,以获得最终解析结果。
本发明实施例提供的语音信号处理方法及装置,在服务端,采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析,获得包括固定句式和实体词的初始解析结果,将初始解析结果中的实体词转换为拼音流,以获得中间解析结果,将中间解析结果发送给客户端,在客户端,利用本地信息库对接收到的中间解析结果中的拼音流进行修正,以获得最终解析结果。本发明实施例将服务端解析与客户端修正相结合,充分发挥客户端本地信息库对部分实体词在语义解析上的作用,对服务端无法准确解析的结果进行修正,提高了语义解析的准确度,同时有利于减少服务端存储的语义解析模板的数量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的语音信号处理方法的流程示意图;
图2为本发明另一实施例提供的语音信号处理方法的流程示意图;
图3为本发明又一实施例提供的语音信号处理装置的结构示意图;
图4为本发明又一实施例提供的语音信号处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有技术中,主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多,但实际上语义解析模板的数量是有限的,而语音信号的表达方式又是多种多样,所以经常出现一些无法精准匹配的情况,导致无法准确解析语音信号的语义。以语音拨号为例,可能有语音信号“请给张三拨打电话”对应的语义解析模板,但可能没有语音信号“请给李四打电话”的语义解析模板,所以“请给李四打电话”可能无法准备解析出语音信号“请给李四打电话”的语义。
针对上述问题,本发明实施例提供一种解决方案,主要原理是:在服务端,采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析,获得包括固定句式和实体词的初始解析结果,实体词的不确定性较高,因此将初始解析结果中的实体词转换为拼音流,以获得中间解析结果,将中间解析结果发送给客户端,在客户端,利用本地信息库对接收到的中间解析结果中的拼音流进行修正,以获得最终解析结果。
本发明实施例将服务端解析与客户端修正相结合,充分发挥客户端本地信息库对部分实体词在语义解析上的作用,对服务端无法准确解析的结果进行修正,提高了语义解析的准确度,同时有利于减少服务端存储的语义解析模板的数量。
下面通过具体实施例对本发明技术方案进行详细说明。
图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示,该方法包括:
101、接收客户端发送的语音信号。
102、对语音信号进行语音识别,以获得文本数据。
103、对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果。
104、将初始解析结果中的实体词转换为拼音流,以获得中间解析结果。
105、将中间解析结果发送给所述客户端,以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。
本实施例提供一种语音信号处理方法,可由语音信号处理装置来执行,用以对语音信号进行语义解析,提高语义解析的准确度。
本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景,例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中,语音信号处理装置可位于各应用场景中的服务端实现。
具体的,在各应用场景中,客户端采集用户的语音信号,例如对用户的语音进行录制,从而获取用户的语音信号,然后将语音信号发送给服务端,具体来说是发送给服务端的语音信号处理装置。语音信号处理装置接收客户端发送的语音信号。
可选的,客户端发送语音信号之前,可以对语音信号进行模数转换、编码、压缩等处理。相应的,语音信号处理装置接收到语音信号之后,可以对语音信号经解压缩、解码等处理,并针对处理后的语音信号进行语义解析处理。
在获得语音信号之后,语音信号处理装置可以对语音信号进行语音识别,以获得文本数据。举例说明,假设用户输入的语音信号为“我要给张三打电话”,则可以将该语音信号识别为对应的文本数据。其中,对语音信号进行语音识别的具体方案可以参见现有技术,在此不做详述。
在获得语音信号对应的文本数据之后,语音信号处理装置可以对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果。本实施例中的固定句式语义解析不同于现有技术中的通用语义解析。其中,通用语义解析是指利用预设的通用语义解析模板与文本数据进行匹配以获得文本数据对应的语义的方案。而本实施例的固定句式语义解析是指利用预设的固定句式解析模板与文本数据进行匹配,以获得文本数据对应的语义的方案。
在本实施例中,固定句式解析模板包括固定表达部分和待定表达部分。固定表达部分是比较固定的,在相同应用场景的不同请求中一般不会发生变化,而待定表达部分是不固定的,在相同应用场景的不同请求中往往会发生变化。
例如,“请给xxx打电话”为一固定句式解析模板,其中“请给…打电话”是该固定句式解析模板中的固定表达部分,而其中的“xxx”是该固定句式解析模板中的待定表达部分,在该固定句式解析模板中,待定表达部分主要指姓名,在不同拨号请求中,请求呼叫的对象姓名经常是不同的。
又例如,“请播放歌曲xxx”为另一固定句式解析模板,其中“请播放歌曲…”是该固定句式解析模板中的固定表达部分,而其中的“xxx”是该固定句式解析模板中的待定表达部分,在该固定句式解析模板中,待定表达部分主要指歌曲名,在不同播放请求中,请求播放的歌曲经常是不同的。
又例如,“请搜索歌曲xxx的歌词”为又一固定句式解析模板,其中“请搜索歌曲…的歌词”是该固定句式解析模板中的固定表达部分,而其中的“xxx”是该固定句式解析模板中的待定表达部分,在该固定句式解析模板中,待定表达部分主要指歌曲名,在不同搜索请求中,请求搜索的歌词经常是不同歌曲的。
基于上述,语音信号处理装置具体可以利用预设的固定句式解析模板与上述语音信号对应的文本数据进行匹配,以获得该文本数据匹配中的固定句式解析模板,为便于描述,将文本数据匹配中的固定句式解析模板称为目标固定句式解析模板。该目标固定句式解析模板也包括固定表达部分和待定表达部分。之后,语音信号处理装置将文本数据中对应目标固定句式解析模板中的固定表达部分的内容作为初始解析结果中的固定句式,将文本数据中对应目标固定句式解析模板中的待定表达部分的内容作为初始解析结果中的实体词。
例如,假设语音信号对应的文本数据为“请给张三打电话”,则与该文本数据匹配中的目标固定句式解析模板为“请给xxx打电话”,则可以将固定表达部分“请给…打电话”作为初始解析结果中的固定句式,将“张三”作为初始解析结果中的实体词。
又例如,假设语音信号对应的文本数据为“请播放歌曲小燕子”,则与该文本数据匹配中的目标固定句式解析模板为“请播放歌曲xxx”,则可以将固定表达部分“请播放歌曲…”作为初始解析结果中的固定句式,将“小燕子”作为初始解析结果中的实体词。
又例如,假设语音信号对应的文本数据为“请搜索歌曲童年的歌词”,则与该文本数据匹配中的目标固定句式解析模板为“请搜索歌曲xxx的歌词”,则可以将固定表达部分“请搜索歌曲…的歌词”作为初始解析结果中的固定句式,将“童年”作为初始解析结果中的实体词。
在一可选实施方式中,在对语音信号对应的文本数据进行固定句式语义解析之前,可以先对文本数据进行通用语义解析。具体的,语音信号处理装置可以先利用预设的通用语义解析模板与所述文本数据进行匹配;若未匹配中通用语义解析模板,语音信号处理装置可以继续对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果。
进一步,若匹配中通用语义解析模板,则根据匹配中的通用语义解析模板获得文本数据的解析结果并返回给客户端,以供客户端根据该解析结果执行相应操作。
在本实施例中,在获得文本数据对应的初始解析结果之后,并不是像现有技术那样直接将初始解析结果返回给客户端。考虑到初始解析结果中实体词的不确定性,有可能语音识别出的是错误的,例如语音信号中的“张三”,可以被识别为“张伞”,为提高对实体词的识别结果,语音信号处理装置将初始解析结果中的实体词转换为拼音流,例如将“张伞”转换为“zhang san”,从而获得中间解析结果。举例说明,初始解析结果为“请给张伞打电话”,经过拼音流转换后的中间解析结果为“请给zhang san打电话”。
在获得中间解析结果之后,语音信号处理装置将中间解析结果发送给客户端。对客户端来说,接收语音信号处理装置发送的中间解析结果,利用本地信息库对中间解析结果中的拼音流进行修正,以获得最终解析结果。具体的,客户端可以将该拼音流在本地信息库中进行匹配,例如可以采用最小编辑距离匹配算法,以获得该拼音流对应的实体词,进而用该实体词替换拼音流,获得最终解析结果。
值得说明的是,客户端的本地信息库实际上是与客户端所属应用场景相关的信息库,例如若客户端属于语音拨号场景,则本地信息库可以是通讯录,若客户端属于语音播放控制场景,则本地信息库可以是本地音乐库。
本实施例通过将不确定性较强的实体词转换为拼音流并发送给客户端,有利于客户端根据本地与应用场景相关的信息库准确确定该拼音流对应的实体词,提高最终解析结果的准确度。另外,由于不确定性较强的实体词交由客户端根据具体应用场景来确定,使得服务端只需存储固定句式解析模板即可,不用像现有技术中存储每个实体词对应的通用语义解析模板,有利于减少解析模板的数量。
图2为本发明另一实施例提供的语音信号处理方法的流程示意图。如图2所示,该方法包括:
201、向服务端发送语音信号,以供服务端对语音信号进行语义解析。
202、接收服务端返回的中间解析结果,中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的,中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。
203、利用本地信息库对中间解析结果中的拼音流进行修正,以获得最终解析结果。
本实施例提供一种语音信号处理方法,可由语音信号处理装置来执行,用以对语音信号进行语义解析,提高语义解析的准确度。
本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景,例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中,语音信号处理装置可位于各应用场景中的客户端实现。
具体的,在各应用场景中,语音信号处理装置采集用户的语音信号,例如对用户的语音进行录制,从而获取用户的语音信号,然后将语音信号发送给服务端,以供服务端对语音信号进行语义解析。
其中,服务端对语音信号进行语义解析的过程可参见图1所示实施例的描述,在此不再赘述。
在将语音信号发送给服务端之后,语音信号处理装置等待接收服务端返回的中间解析结果,在接收到中间解析结果后,利用本地信息库对中间解析结果中的拼音流进行修正,以获得最终解析结果。
具体的,语音信号处理装置将拼音流在本地信息库中进行匹配,以获得拼音流对应的实体词;将中间解析结果中的固定句式与拼音流对应的实体词进行组合,以获得最终解析结果。
例如,语音信号处理装置可以采用最小编辑距离匹配算法,将该拼音流在本地信息库中进行匹配,以获得该拼音流对应的实体词。
值得说明的是,语音信号处理装置的本地信息库实际上是与应用场景相关的信息库,例如若是语音拨号场景,则本地信息库可以是通讯录,若是语音播放控制场景,则本地信息库可以是本地音乐库、本地视频库等。
另外,语音信号处理装置在获得最终解析结果后,可以根据最终解析结果进行相应操作,例如根据最终解析结果进行拨号控制,或者根据最终解析结果进行播放控制,或者根据最终解析结果进行搜索等。
在此说明,若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词,语音信号处理装置可以直接拒绝用户的相应请求,例如拒绝拨号、拒绝播放歌曲或拒绝搜索歌词等。或者,若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词,语音信号处理装置可以通过与用户交互的方式进行处理,例如向用户输出提示信息,以供用户确定是否继续执行相应操作,并根据用户的指示执行相应操作。
在本实施例中,语音信号处理装置与服务端相配合,根据本地与应用场景相关的信息库,能够对不确定性较高的实体词对应的拼音流进行准确识别,有利于提高最终解析结果的准确度,同时有利于减少解析模板的数量。
图3为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于服务端中实现。如图3所示,该装置包括:接收模块31、语音识别模块32、语义解析模块33、转换模块34和发送模块35。
接收模块31,用于接收客户端发送的语音信号。
语音识别模块32,用于对语音信号进行语音识别,以获得文本数据。
语义解析模块33,用于对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果。
转换模块34,用于将初始解析结果中的实体词转换为拼音流,以获得中间解析结果。
发送模块35,用于将中间解析结果发送给客户端,以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。
在一可选实施方式中,语义解析模块33具体用于:
利用预设的固定句式解析模板与文本数据进行匹配,以获得文本数据匹配中的目标固定句式解析模板,目标固定句式解析模板包括固定表达部分和待定表达部分;
将文本数据中对应固定表达部分的内容作为初始解析结果中的固定句式,将文本数据中对应待定表达部分的内容作为初始解析结果中的实体词。
在本实施例中,固定句式解析模板包括固定表达部分和待定表达部分。固定表达部分是比较固定的,在相同应用场景的不同请求中一般不会发生变化,而待定表达部分是不固定的,在相同应用场景的不同请求中往往会发生变化。
在一可选实施方式中,语义解析模块33具体用于:利用预设的通用语义解析模板与文本数据进行匹配,并在未匹配中通用语义解析模板时,触发执行对文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果的操作。
本实施例提供的语音信号处理装置,位于服务端实现,采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析,获得包括固定句式和实体词的初始解析结果,将初始解析结果中的实体词转换为拼音流,以获得中间解析结果,将中间解析结果发送给客户端,使得客户端可以利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果,充分发挥了客户端本地信息库对部分实体词在语义解析上的作用,对服务端无法准确解析的结果进行修正,提高了语义解析的准确度,同时有利于减少服务端存储的语义解析模板的数量。
图4为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于客户端实现,如图4所示,该装置包括:发送模块41、接收模块42和修正模块43。
发送模块41,用于向服务端发送语音信号,以供服务端对语音信号进行语义解析。
接收模块42,用于接收服务端返回的中间解析结果,中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的,中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。
修正模块43,用于利用本地信息库对中间解析结果中的拼音流进行修正,以获得最终解析结果。
在一可选实施方式中,修正模块43具体用于:
将拼音流在本地信息库中进行匹配,以获得拼音流对应的实体词;
将固定句式与拼音流对应的实体词进行组合,以获得最终解析结果。
例如,修正模块43具体可以采用最小编辑距离匹配算法,将该拼音流在本地信息库中进行匹配,以获得该拼音流对应的实体词。
值得说明的是,语音信号处理装置的本地信息库实际上是与应用场景相关的信息库,例如若是语音拨号场景,则本地信息库可以是通讯录,若是语音播放控制场景,则本地信息库可以是本地音乐库、本地视频库等。
本实施例提供的语音信号处理装置,位于客户端实现,与服务端相配合,根据本地与应用场景相关的信息库,能够对不确定性较高的实体词对应的拼音流进行准确识别,有利于提高最终解析结果的准确度,同时有利于减少解析模板的数量。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音信号处理方法,其特征在于,包括:
接收客户端发送的语音信号;
对所述语音信号进行语音识别,以获得文本数据;
对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;
将所述初始解析结果中的实体词转换为拼音流,以获得中间解析结果;
将所述中间解析结果发送给所述客户端,以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果,包括:
利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;
将所述文本数据中对应所述固定表达部分的内容作为所述初始解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述初始解析结果中的实体词。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果之前,包括:
利用预设的通用语义解析模板与所述文本数据进行匹配,并在未匹配中通用语义解析模板时,触发执行对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果的操作。
4.一种语音信号处理方法,其特征在于,包括:
向服务端发送语音信号,以供所述服务端对所述语音信号进行语义解析;
接收所述服务端返回的中间解析结果,所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的,所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流;
利用本地信息库对所述中间解析结果中的拼音流进行修正,以获得最终解析结果。
5.根据权利要求4所述的方法,其特征在于,所述利用本地信息库对所述中间解析结果中的拼音流进行修正,以获得最终解析结果,包括:
将所述拼音流在所述本地信息库中进行匹配,以获得所述拼音流对应的实体词;
将所述固定句式与所述拼音流对应的实体词进行组合,以获得所述最终解析结果。
6.一种语音信号处理装置,位于服务端实现,其特征在于,所述装置包括:
接收模块,用于接收客户端发送的语音信号;
语音识别模块,用于对所述语音信号进行语音识别,以获得文本数据;
语义解析模块,用于对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果;
转换模块,用于将所述初始解析结果中的实体词转换为拼音流,以获得中间解析结果;
发送模块,用于将所述中间解析结果发送给所述客户端,以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
7.根据权利要求6所述的装置,其特征在于,所述语义解析模块具体用于:
利用预设的固定句式解析模板与所述文本数据进行匹配,以获得所述文本数据匹配中的目标固定句式解析模板,所述目标固定句式解析模板包括固定表达部分和待定表达部分;
将所述文本数据中对应所述固定表达部分的内容作为所述初始解析结果中的固定句式,将所述文本数据中对应所述待定表达部分的内容作为所述初始解析结果中的实体词。
8.根据权利要求6或7所述的装置,其特征在于,所述语义解析模块具体用于:
利用预设的通用语义解析模板与所述文本数据进行匹配,并在未匹配中通用语义解析模板时,触发执行对所述文本数据进行固定句式语义解析,以获得包括固定句式和实体词的初始解析结果的操作。
9.一种语音信号处理装置,位于客户端实现,其特征在于,所述装置包括:
发送模块,用于向服务端发送语音信号,以供所述服务端对所述语音信号进行语义解析;
接收模块,用于接收所述服务端返回的中间解析结果,所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的,所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流;
修正模块,用于利用本地信息库对所述中间解析结果中的拼音流进行修正,以获得最终解析结果。
10.根据权利要求9所述的装置,其特征在于,所述修正模块具体用于:
将所述拼音流在所述本地信息库中进行匹配,以获得所述拼音流对应的实体词;
将所述固定句式与所述拼音流对应的实体词进行组合,以获得所述最终解析结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610193074.0A CN105895090A (zh) | 2016-03-30 | 2016-03-30 | 语音信号处理方法及装置 |
PCT/CN2016/096984 WO2017166649A1 (zh) | 2016-03-30 | 2016-08-26 | 语音信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610193074.0A CN105895090A (zh) | 2016-03-30 | 2016-03-30 | 语音信号处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105895090A true CN105895090A (zh) | 2016-08-24 |
Family
ID=57014826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610193074.0A Pending CN105895090A (zh) | 2016-03-30 | 2016-03-30 | 语音信号处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105895090A (zh) |
WO (1) | WO2017166649A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106412678A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 一种视频新闻实时转写存储方法及系统 |
CN107016070A (zh) * | 2017-03-22 | 2017-08-04 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机对话方法及装置 |
WO2017166649A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN107273364A (zh) * | 2017-05-15 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 一种语音翻译方法和装置 |
CN108010525A (zh) * | 2017-12-07 | 2018-05-08 | 横琴七弦琴知识产权服务有限公司 | 一种语音控制智能抽屉系统 |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN108228191A (zh) * | 2018-02-06 | 2018-06-29 | 威盛电子股份有限公司 | 语法编译系统以及语法编译方法 |
CN109147784A (zh) * | 2018-09-10 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法、设备以及存储介质 |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
CN109977405A (zh) * | 2019-03-26 | 2019-07-05 | 北京博瑞彤芸文化传播股份有限公司 | 一种智能语义匹配方法 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110767219A (zh) * | 2019-09-17 | 2020-02-07 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN111292751A (zh) * | 2018-11-21 | 2020-06-16 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN111554295A (zh) * | 2020-04-24 | 2020-08-18 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
CN113076397A (zh) * | 2021-03-29 | 2021-07-06 | Oppo广东移动通信有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN113127610A (zh) * | 2019-12-31 | 2021-07-16 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN115294976A (zh) * | 2022-06-23 | 2022-11-04 | 中国第一汽车股份有限公司 | 一种基于车载语音场景的纠错交互方法、系统及其车辆 |
CN110164435B (zh) * | 2019-04-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091408A (zh) * | 2020-08-04 | 2022-02-25 | 科沃斯商用机器人有限公司 | 文本纠正、模型训练方法、纠正模型、设备及机器人 |
CN115662430B (zh) * | 2022-10-28 | 2024-03-29 | 阿波罗智联(北京)科技有限公司 | 输入数据解析方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1674091A (zh) * | 2005-04-18 | 2005-09-28 | 南京师范大学 | 地理信息的语音识别方法及其在导航系统中的应用 |
CN102682763A (zh) * | 2011-03-10 | 2012-09-19 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN103594085A (zh) * | 2012-08-16 | 2014-02-19 | 百度在线网络技术(北京)有限公司 | 一种提供语音识别结果的方法及系统 |
CN103680505A (zh) * | 2013-09-03 | 2014-03-26 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN104485106A (zh) * | 2014-12-08 | 2015-04-01 | 畅捷通信息技术股份有限公司 | 语音识别方法、语音识别系统和语音识别设备 |
CN105206274A (zh) * | 2015-10-30 | 2015-12-30 | 北京奇艺世纪科技有限公司 | 一种语音识别的后处理方法及装置和语音识别系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
-
2016
- 2016-03-30 CN CN201610193074.0A patent/CN105895090A/zh active Pending
- 2016-08-26 WO PCT/CN2016/096984 patent/WO2017166649A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1674091A (zh) * | 2005-04-18 | 2005-09-28 | 南京师范大学 | 地理信息的语音识别方法及其在导航系统中的应用 |
CN102682763A (zh) * | 2011-03-10 | 2012-09-19 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN103594085A (zh) * | 2012-08-16 | 2014-02-19 | 百度在线网络技术(北京)有限公司 | 一种提供语音识别结果的方法及系统 |
CN103680505A (zh) * | 2013-09-03 | 2014-03-26 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN104485106A (zh) * | 2014-12-08 | 2015-04-01 | 畅捷通信息技术股份有限公司 | 语音识别方法、语音识别系统和语音识别设备 |
CN105206274A (zh) * | 2015-10-30 | 2015-12-30 | 北京奇艺世纪科技有限公司 | 一种语音识别的后处理方法及装置和语音识别系统 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166649A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106412678A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 一种视频新闻实时转写存储方法及系统 |
CN107016070B (zh) * | 2017-03-22 | 2020-06-02 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机对话方法及装置 |
CN107016070A (zh) * | 2017-03-22 | 2017-08-04 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机对话方法及装置 |
CN107273364A (zh) * | 2017-05-15 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 一种语音翻译方法和装置 |
CN108010525A (zh) * | 2017-12-07 | 2018-05-08 | 横琴七弦琴知识产权服务有限公司 | 一种语音控制智能抽屉系统 |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN108009303B (zh) * | 2017-12-30 | 2021-09-14 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN108228191A (zh) * | 2018-02-06 | 2018-06-29 | 威盛电子股份有限公司 | 语法编译系统以及语法编译方法 |
CN108228191B (zh) * | 2018-02-06 | 2022-01-25 | 威盛电子股份有限公司 | 语法编译系统以及语法编译方法 |
CN109147784A (zh) * | 2018-09-10 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法、设备以及存储介质 |
CN109147784B (zh) * | 2018-09-10 | 2021-06-08 | 百度在线网络技术(北京)有限公司 | 语音交互方法、设备以及存储介质 |
US11176938B2 (en) | 2018-09-10 | 2021-11-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device and storage medium for controlling game execution using voice intelligent interactive system |
CN109256125B (zh) * | 2018-09-29 | 2022-10-14 | 阿波罗智联(北京)科技有限公司 | 语音的离线识别方法、装置与存储介质 |
CN109256125A (zh) * | 2018-09-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音的离线识别方法、装置与存储介质 |
CN111292751A (zh) * | 2018-11-21 | 2020-06-16 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN111292751B (zh) * | 2018-11-21 | 2023-02-28 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN109977405A (zh) * | 2019-03-26 | 2019-07-05 | 北京博瑞彤芸文化传播股份有限公司 | 一种智能语义匹配方法 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
WO2020215554A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110164435B (zh) * | 2019-04-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110767219B (zh) * | 2019-09-17 | 2021-12-28 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN110767219A (zh) * | 2019-09-17 | 2020-02-07 | 中国第一汽车股份有限公司 | 语义更新方法、装置、服务器和存储介质 |
CN113127610B (zh) * | 2019-12-31 | 2024-04-19 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN113127610A (zh) * | 2019-12-31 | 2021-07-16 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN111554295A (zh) * | 2020-04-24 | 2020-08-18 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
CN111554295B (zh) * | 2020-04-24 | 2021-06-22 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
CN113076397A (zh) * | 2021-03-29 | 2021-07-06 | Oppo广东移动通信有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN115294976A (zh) * | 2022-06-23 | 2022-11-04 | 中国第一汽车股份有限公司 | 一种基于车载语音场景的纠错交互方法、系统及其车辆 |
Also Published As
Publication number | Publication date |
---|---|
WO2017166649A1 (zh) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105895090A (zh) | 语音信号处理方法及装置 | |
EP0954856B1 (en) | Context dependent phoneme networks for encoding speech information | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
CN1971554A (zh) | 使用样例来翻译语音输入的设备和方法 | |
CN101681365A (zh) | 用于分布式语音搜索的方法和装置 | |
JP2018017936A (ja) | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム | |
CN104158945A (zh) | 通话信息获取方法、装置及系统 | |
EP2747464A1 (en) | Sent message playing method, system and related device | |
CN110600004A (zh) | 一种语音合成播放方法、装置和存储介质 | |
CN113066480A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN115115984A (zh) | 视频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN103064885A (zh) | 一种实现多关键词同步输入系统及方法 | |
KR101482148B1 (ko) | 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 | |
CN109300472A (zh) | 一种语音识别方法、装置、设备及介质 | |
CN111477212A (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN112686059B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 | |
CN115048102A (zh) | 代码生成方法、装置、设备和存储介质 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN106339454A (zh) | 查询命令转化方法及装置 | |
CN112686060A (zh) | 文本翻译方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |
|
WD01 | Invention patent application deemed withdrawn after publication |