CN109410927A - 离线命令词与云端解析结合的语音识别方法、装置和系统 - Google Patents
离线命令词与云端解析结合的语音识别方法、装置和系统 Download PDFInfo
- Publication number
- CN109410927A CN109410927A CN201811439285.3A CN201811439285A CN109410927A CN 109410927 A CN109410927 A CN 109410927A CN 201811439285 A CN201811439285 A CN 201811439285A CN 109410927 A CN109410927 A CN 109410927A
- Authority
- CN
- China
- Prior art keywords
- user
- text
- cloud
- parsing
- local command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000005194 fractionation Methods 0.000 claims description 16
- 239000003550 marker Substances 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 238000011835 investigation Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 26
- 238000012797 qualification Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 8
- 238000004378 air conditioning Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000002354 daily effect Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 206010022998 Irritability Diseases 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000005191 phase separation Methods 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 206010062519 Poor quality sleep Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种离线命令词与云端解析相结合的语音识别方法,包括:接收用户的语音输入;对接收到的语音进行识别;输出识别结果;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;根据语义解析结果生成指令;执行指令。通过本地命令词库的构建和对语音输入、文本结果的识别,根据识别结果选择调用本地命令词库进行语义解析或发送到云端进行语义解析,能够提高语音识别、语义解析的响应速度,并且为不同用户定制不同的本地命令词库,以提供定制化的语音识别服务。
Description
技术领域
本发明实施例涉及人工智能领域,特别涉及人工智能领域中的语音识别技术。
背景技术
人工智能(Artificial Intelligence)研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,为了执行人的指令,高效、准确的人机交互是必需的。语音识别是目前应用最多的人机交互方式之一,传统的语音交互方式通常是通过用户终端在本地完成语音识别,识别后的文本传输到云端,通过云端进行语义解析并生成指令或对话,将指令或对话传输回用户终端。这样的模式响应速度慢。本地存储离线命令库的方法能够提高响应速度,但是由于本地存储空间的有限性,本地存储离线命令库无法像云端解析一样实现各类命令的解析。因此,亟需离线命令词与云端解析相结合的语音识别方法。
发明内容
本发明实施例提供了一种离线命令词与云端解析相结合的语音识别方法,包括:接收用户的语音输入;对接收到的语音进行识别;输出识别结果;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;根据语义解析结果生成指令;执行指令。
其中,识别结果包括用户的属性信息。用户的属性信息指用户是特定用户,还是非特定用户。特定用户包括但不限于:家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户等。非特定用户包括但不限于:访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户等。
根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果用户属于特定用户,则调用本地命令词库进行解析,如果用户属于非特定用户,则将识别后的文本发送到云端进行解析。
进一步包括,特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。
如果用户属于特定用户,则进一步包括,调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。
如果用户属于非特定用户,则进一步包括,允许非特定用户被授权构建3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后,可以根据3D用户画像调用相应的本地命令词库进行解析。
其中,识别结果还包括语音识别后的文本的长度,如果文本的长度大于设定值,则将文本进行拆分,部分调用本地命令词库进行解析,部分上传云端进行解析,解析完成后回传本地,在本地对两部分解析结果进行合成并输出指令。
其中,如果识别出现无法进行本地语义解析的命令词,则将命令词及其邻近的上下文信息上传云端进行解析,解析完成后回传本地,在本地对两部分解析结果进行合并后输出控制指令。
进一步包括,当需要进行拆分时,在拆分处,或在无法解析的命令词的上文和下文处插入标记,所述在本地对两部分解析结果进行合并时根据插入的标记位进行合并。
进一步包括,判断用户是否特定用户,如果用户属于特定用户,则将上述无法解析的命令词的解析结果加入到对应的本地命令词库中。
其中,识别结果为语音识别中评估的难度级别,根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为,难度级别大于等于预定值一时,进行云端解析,小于等于预定值二时调用本地命令词库进行解析;难度级别处于预定值一和预定值二之间时,采用本地命令词库和云端解析相结合的方式。
其中,识别结果包括语音输入的控制对象信息;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。
控制对象信息进一步包括,控制对象是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。
进一步包括,如果控制对象是本地应用,则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。
其中,识别结果为语义识别后的文本中是否包含特定词。根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。
进一步包括,上述特定词的位置在文本后n位,n为设定的自然数。
进一步包括,上述特定词的位置在文本的任意位置。
本发明实施例提供了一种离线命令词与云端解析相结合的语音识别装置,所述装置包括输入模块11,语音识别模块21,判断模块31,解析模块41。其中,输入模块11,用于接收用户的语音输入,并将该语音输入发送到语音识别模块21;语音识别模块21与输入模块11相连,对从语音输入模块11接收的语音进行识别,生成文本信息,并生成识别结果,将文本信息和识别结果发送给判断模块31;判断模块31根据语音识别模块21的识别结果,将文本信息发送给解析模块41;解析模块41用于调用相应的本地命令词库进行语义解析并生成指令发送给控制对象。
上述语音识别模块21进一步包括,语音鉴定模块211、文本生成模块221和文本鉴定模块231,语音鉴定模块211用于识别语音输入信息的特性,包括但不限于声纹特征、语速、频率、时长、情绪等与声音相关的特征信息,以及语音识别的难易度信息等;文本生成模块221用于将用户输入的语音信息转换为文本信息;文本鉴定模块231用于识别文本相关的特征信息,包括但不限于文本长度、特定字符、语义解析难易度等。
上述解析模块41包括,语义解析模块411和指令生成模块431,语义解析模块411用于对文本进行语义解析,指令生成模块431用于根据语义解析结果生成并输出操作指令,以使操作对象执行所述指令。
其中,语音识别装置1的解析模块41还包括标记模块421和合并模块422,标记模块421用于在需要拆分文本处生成并插入拆分标记位,合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。
其中,判断模块31在识别结果满足前述离线命令词与云端解析相结合的语音识别方法中所述的本地解析的相关条件时,将文本信息发送给解析模块41。
判断模块31根据识别结果,将文本信息发送给云解析服务器进行解析。
其中,识别结果包括用户的属性信息。用户的属性信息指用户是特定用户,还是非特定用户。特定用户包括但不限于:家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户等。非特定用户包括但不限于:访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户等。
判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果用户属于特定用户,则调用本地命令词库进行解析,如果用户属于非特定用户,则将识别后的文本发送到云端进行解析。
进一步包括,特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。
如果用户属于特定用户,则进一步包括,调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。
如果用户属于非特定用户,则进一步包括,允许非特定用户被授权构建3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后,可以根据3D用户画像调用相应的本地命令词库进行解析。
其中,识别结果还包括语音识别后的文本的长度,如果识别结果为文本的长度大于设定值,则标记模块421将文本进行拆分,部分调用本地命令词库进行解析,部分上传云解析服务器2进行解析,云解析服务器2解析完成后回传本地,合并模块422在本地对两部分解析结果进行合成以输出控制指令。
其中,解析模块41如果识别出现无法进行本地语义解析的命令词,则将该无法解析的命令词及其邻近的上下文信息上传云解析服务器2进行解析,解析完成后回传本地,在本地将云端回传的解析结果和本地解析结果进行合并,由指令生成模块431生成控制指令并输出。
进一步包括,当需要进行拆分时,标记模块421在拆分处,或在无法解析的命令词的上文和下文处插入标记,标记信息发送给合并模块422,合并模块422在本地对两部分解析结果进行合并时根据插入的标记位进行合并。
进一步包括,判断用户是否特定用户,如果用户属于特定用户,则将上述无法解析的命令词的解析结果加入到对应的本地命令词库中。
其中,识别结果为语音识别中评估的难度级别,判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为,难度级别大于等于预定值一时,进行云端解析,小于等于预定值二时调用本地命令词库进行解析;难度级别处于预定值一和预定值二之间时,采用本地命令词库和云端解析相结合的方式。
其中,识别结果包括语音输入的控制对象信息;判断模块31根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。
控制对象信息进一步包括,控制对象是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。
进一步包括,如果控制对象是本地应用,则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。
其中,识别结果为语义识别后的文本中是否包含特定词。判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。
进一步包括,上述特定词的位置在文本后n位,n为设定的自然数。
进一步包括,上述特定词的位置在文本的任意位置。
本发明实施例还提供了一种离线命令词与云端解析相结合的语音识别系统,包括语音识别装置1和云解析服务器2。其中,当语音识别装置1的判断模块31在识别结果满足前述离线命令词与云端解析相结合的语音识别方法中所述的云端解析的相关条件时,将文本信息发送给云解析服务器2,并接收云解析服务2返回的指令,或语义解析结果。
其中,语音识别装置1的解析模块41还包括标记模块421和合并模块422,标记模块421用于在需要拆分的文本处生成并插入拆分标记位,合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。
本发明还提供了一种终端,包括上述离线命令词与云端解析相结合的语音识别装置1。
本发明还提供了一种计算机可读介质,所述计算机可读介质存储有程序,当所述程序被执行时,能够实现实施例一所述的离线命令词与云端解析相结合的语音识别方法。
附图说明
图1是本发明实施例的离线命令词与云端解析相结合的语音识别方法流程。
图2是本发明实施例的离线命令词与云端解析相结合的语音识别装置图。
图3是本发明实施例的离线命令词与云端解析相结合的语音识别系统图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例一提供了一种离线命令词与云端解析相结合的语音识别方法,参照附图1,包括以下步骤:
步骤101、接收用户的语音输入;
步骤102、对接收到的语音进行识别;
步骤103、输出识别结果;
步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;
步骤105、根据语义解析结果生成指令;
步骤106、执行指令。
上述方法具体为,用户通过输入设备输入一段语音,该语音包括但不限于控制某些应用或某些设备的命令性语句,例如:用户在驾驶过程中,发出语音命令:打开空调;对接收到的语音进行语音识别,这里采用本领域通用的语音识别技术,以生成相应的文本信息,在生成文本信息之前,或生成文本信息的同时,或者生成文本信息之后,还提取与输入的语音和/或识别后的文本相关的其他信息,形成识别结果,该识别结果包括下面举例的一项或多项,如:经过语音识别得到文本信息“打开空调”,同时还提取了该语音信息是由车的主人发出的,该语音信息的时间长度为2秒,该语音信息的语速是中速,该文本信息包含特定的关键词“空调”,该文本的长度为4个汉字字符,该语音的感情色彩为“客观”,该文本的解析难度级别为“容易”,该文本的控制对象为车载空调等;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析,例如当识别结果包括文本的解析难度为“容易”,则调用本地命令词库进行解析;根据语义解析结果生成空调开启指令;将指令输出到车载空调,以控制车载空调打开。又例如,当识别结果包括语音信息的感情色彩为“急躁”或语速较快,表明用户的需求比较紧急,则优先调用本地命令词库进行解析。
其中,本地命令词库是在本地存储空间内存储的多个命令词库,该命令词库可以定时与云端或网络进行交互,以更新其命令词,本地命令词库可以被编辑,该编辑包括但不限于创建、更改、删除、合并、拆分、命名、分类、排序、组合等。本地命令词库的创建可以根据应用或设备创建,例如:创建家居设备命令词库,包括对冰箱、洗衣机、电视、照明设备的开启、关闭、运转速度、运转时间、模式等的控制命令;或者针对儿童教育类APP创建命令词库,包括对讲故事软件、在线英语教学、识字软件的控制命令。本地命令词库的创建还可以根据内容进行创建,例如:音乐命令词库,包括流行音乐命令词子库、古典音乐命令词字库等。本地命令词库的创建还可以根据用户的使用习惯来进行创建,例如对于特定用户A,其典型的一日作息包括:开灯起床、打开电饭煲做饭、开车上班路上听音乐、午饭叫外卖、开车下班通过导航查看是否拥堵、路上听音乐、晚上洗澡、熄灯睡觉。则根据用户日常使用的设备、软件或APP建立该特定用户A的专属命令库,该专属命令库可以包括命令词:开灯、开电饭煲、打开车载收音机、103.9、美团、饿了么、鱼香肉丝、披萨、打开高德、关灯等。上述列出的方式不应视为对本发明的本地命令词库的限制,本发明可以根据需要设置任意的本地命令库。
其中,上述指令包括但不限于查询类指令、控制类指令等,将指令输出到相应的应用、设备或对象以执行指令。
其中,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析,识别结果包括是一项或多项;如果识别结果包括多项时,应预设对应的判断逻辑,例如:对多项识别结果的优先级进行约定,根据优先级别高的识别结果项进行语义解析的选择;当所有的识别结果均指向本地命令库时才调用本地命令库进行解析;当所有的识别结果均指向云端解析时,才将文本发送到云端进行解析;更多的识别结果项指向本地命令库时调用本地命令库;更多的识别结果指向云端解析时,将文本发送到云端进行语义解析。
实施例二
本发明实施例二提供了一种离线命令词与云端解析相结合的语音识别方法,包括如实施例一的步骤。其中步骤步骤102、对接收到的语音进行识别;包括通过对用户的声纹特征进行识别,识别出用户是特定用户还是非特定用户,特定用户包括但不限于:家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户,等等。非特定用户包括但不限于:访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户,等等。步骤103、输出识别结果;该识别结果就包括用户的身份信息。
以授权用户为例,可以建立授权用户列表,列表存有用户Master,当通过语音识别识别出发出语音命令的用户是授权用户列表中的用户Master时,步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:根据用户是授权用户Master这一识别结果调用本地命令词库进行语义解析。
进一步的,当识别出用户是授权用户Master时,还可以调用Master的专属命令词库来进行语义解析,例如,用户Master是相声爱好者,每天都要听相声节目,以及查询与相声相关的信息,那么Master的专属命令词库可以包括与相声相关的命令词,并且该命令词库可以定时与云端交互,获取最新的相声节目等命令词更新到本地的命令词中。该专属命令词可以一进步细分细化,例如根据用户Master的生活习惯和作息规律,建立对应于某一时间段和/或所处位置的的命令词库,根据识别结果结合其他信息,例如时间信息、位置信息等调用相应的命令词库,例如周一的早上10点,Master的位置是在泸沽湖,可以对应的调用Master专属的旅游命令词库,也可以调用通用的包含旅游命令词库的本地命令词库进行语义解析。
为了进一步提升特定用户的用户体验,还可以为特定用户建立3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。当识别结果显示用户属于特定用户时,调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。
本发明中,特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。
如果用户属于非特定用户,通常会对用户的输入进行云端语义解析。但是,也可以允许非特定用户被授权使用特定用户的的3D用户画像,或者被授权构建3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后,也可以根据自身的3D用户画像调用相应的本地命令词库进行解析。
例如,3D用户画像显示用户身份是教授,或者学历是硕士及以上,习惯用书面语,则调用书面语离线命令词库进行解析;例如,3D用户画像显示用户喜欢听相声,则调用与相声相关的本地命令词库进行解析。
实施例三
本发明实施例三提供了一种离线命令词与云端解析相结合的语音识别方法,包括如实施例一的步骤。其中,识别结果还包括语音识别后的文字的特性进行鉴定的结果。具体的,步骤102、对接收到的语音进行识别;包括步骤102a、对接收到的语音的声纹特征进行识别,判断用户的属性;步骤102b、对接收到的语音进行语音识别,输出对应的文本信息;步骤102c、对文本信息进行鉴定,输入鉴定结果。步骤103、输出识别结果;其中识别结果包括步骤102中一个或多个方面。步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。其中,步骤102c对本文信息进行鉴定,包括但不限于对文本的长度、难度级别、是否包含特定词等特性进行鉴定。鉴定方法可以采用本领域通用的方法,不是本发明保护的重点,在此不再具体展开。
当文本长度小于等于预设值时,步骤104具体为根据识别结果调用本地命令词库进行语义解析。当文本长度大于预设值时,判断该文本的语义解析较为复杂,可以根据该识别结果将文本发送到云端进行解析,则步骤104具体为:根据识别结果将识别后的文本发送到云端进行语义解析。
进一步包括,将文本进行拆分,部分调用本地命令词库进行语义解析,其余部分发送到云端进行语义解析,并根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并。步骤104根据识别结果调用本地命令词库和将识别后的文本发送到云端进行语义解析,进一步具体为:当识别结果为文本长度大于预设值时,将文本进行拆分,并在拆分时插入拆分标记位,拆分标记位标识文本拆分的位置,拆分后的文本部分调用本地命令词库进行语义解析,其余部分发送到云端进行语义解析,并根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并。
文本的拆分解析方法还可以包括,首先调用本地命令词库进行语义解析,如果识别出现无法进行本地语义解析的命令词,则将命令词及其邻近的上下文信息上传云端进行解析,解析完成后回传本地,在本地对两部分解析结果进行合并后输出控制指令。进行文本拆分时,在无法解析的命令词的上文和下文处插入标记,以便在本地对各个解析结果进行合并时根据插入的标记位进行合并。
还可以对文本语义解析的难度级别进行鉴定,根据鉴定结果选择本地解析还是云端解析。例如,当鉴定结果显示文本的语义解析难度高时,将文本上传都云端进行解析;或者当鉴定结果显示文本的语义解析难度为高时,按照上述的文本拆分方法进行本地和云端的合作解析。当鉴定结果显示文本的语义解析难度较低时,调用离线命令词进行离线语义解析。
另外,针对某些生僻词,或者用户特定的语言习惯,或者用户的特殊爱好建立本地的特殊命令词库,上述根据文本的语义解析的难度级别选择解析方式,还可以包括,当鉴定结果显示文本的语义解析难度非常高时,调用本地的特殊命令词库进行语义解析。
还可以对文本是否含有特定词进行鉴定,则识别结果为语义识别后的文本中是否包含特定词。根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。例如,语音识别后的文本为:播放张雨生的歌曲大海。通过文本鉴定出“张雨生”这个特定词,同时用户声纹识别出用户是特定用户Master,则直接调用本地存储的该用户的定制命令词库进行语义解析。例如,语音识别后的文本为:每天都进行饮食控制和锻炼,但是瘦身效果却很一般,到底应该怎么减肥呀。通过文本鉴定出文本的后3个字符包含疑问语气词“呀”,判断该命令是查询式命令,可能需要调用网络应用,则将其发送到云端进行解析。或者语音识别后的文本为:导航到四平市。文本鉴定的结果是第3~6个字符包含四平市,四平市是常用地名,则调用本地存储的导航命令词库进行语义解析。上述文本鉴定可以是对文本的特定位置进行鉴定,例如结尾的1~n个字符,n为设定的自然数,或者第n1~n2位进行鉴定,也可以是对文本的任意位置进行鉴定或对全部文本进行鉴定。
实施例四
本发明实施例四提供了一种离线命令词与云端解析相结合的语音识别方法,包括如实施例一的步骤。其中,识别结果还包括语音识别后的文字的特性。
其中,识别结果包括语音输入的控制对象信息;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。
例如,用户希望调用名称为“智能家居”的应用来远程打开电饭煲,语音识别后的文本为:智能家居打开电饭煲,文本鉴定结果显示控制对象是电饭煲,调用的程序为智能家居,电饭煲为固定对象,也即控制对象为固定对象,判断则根据识别结果调用本地命令词对该文本进行语义解析。例如,用户希望调用名称为“新奇妙想”的应用来查询一个信息,语音识别后的文本为:奇思妙想告诉我哪里能买到自我浇灌的花盆。文本鉴定结果显示调用的应用是“奇思妙想”这一网络应用,则根据识别这一识别结果将文本发送到云端进行语义识别,以生成指令。
通过被控对象进行判定和通过调用的应用进行判断是两种不同的方式,二者之间有交叉也有不同。控制对象信息包括被控的设备、软件、APP、应用等信息,当被控对象为设备、控制类软件等,调用本地命令词库进行语义解析;当被控的对象为交互类软件、查询类APP时,发送到云端进行语义解析。判断调用的应用是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。
如果控制对象是固定对象,或调用的应用为本地应用,则进一步可以调用该控制对象或应用的本地专属命令词库对语音识别后的文本进行语义解析。
实施例五
本发明实施例五提供了一种离线命令词与云端解析相结合的语音识别装置1,参照附图2,该装置包括输入模块11,语音识别模块21,判断模块31,解析模块41。其中,输入模块11,用于接收用户的语音输入,并将该语音输入发送到语音识别模块21;语音识别模块21与输入模块11相连,对从语音输入模块11接收的语音进行识别,生成文本信息,并生成识别结果,将文本信息和识别结果发送给判断模块31;判断模块31根据语音识别模块21的识别结果,将文本信息发送给解析模块41;解析模块41用于调用相应的本地命令词库进行语义解析并生成指令发送给控制对象。语音识别模块21还包括语音鉴定模块211、文本生成模块221和文本鉴定模块231,语音鉴定模块211用于识别语音输入信息的特性,包括但不限于声纹特征、语速、频率、时长、情绪等与声音相关的特征信息,以及语音识别的难易度信息等;文本生成模块221用于将用户输入的语音信息转换为文本信息;文本鉴定模块231用于识别文本相关的特征信息,包括但不限于文本长度、特定字符、语义解析难易度等。解析模块41包括,语义解析模块411和指令生成模块431,语义解析模块411用于对文本进行语义解析,指令生成模块431用于根据语义解析结果生成并输出操作指令,以使操作对象执行所述指令。
其中,判断模块31在识别结果满足实施例一所述的相关条件时,将文本信息发送给解析模块41。
判断模块31对识别结果的判断具体包括:用户通过输入模块11输入一段语音,该语音包括但不限于控制某些应用或某些设备的命令性语句,语音识别模块21对接收到的语音进行语音识别,这里采用本领域通用的语音识别技术,由文本生成模块221生成相应的文本信息,在生成文本信息之前,或生成文本信息的同时,或者生成文本信息之后,还提取与输入的语音和/或识别后的文本相关的其他信息,形成识别结果,具体由语音鉴定模块211对语音信息进行识别,例如:提取了该语音的声纹信息与存储的声纹信息进行比对,鉴定出该语音信息是由车的主人发出的,该语音信息的时间长度为2秒,该语音信息的语速是中速,该语音的感情色彩为“客观”,除了上述内容外,还可以利用现有的识别技术对语音的其他特征进行鉴定,得到针对语音的识别结果;以声纹特征鉴定为例,语音鉴定模块211鉴定用户是特定用户还是非特定用户,特定用户包括但不限于:家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户,等等。非特定用户包括但不限于:访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户,等等。此时,语音识别模块21输出的识别结果就包括用户的身份信息。当用户身份信息为授权用户时,可以建立授权用户列表,列表存有用户Master,当通过语音识别识别出发出语音命令的用户是授权用户列表中的用户Master时,判断模块31根据用户是授权用户Master这一识别结果将文本信息发送到解析模块41以调用本地命令词库进行离线语义解析。
由文本鉴定模块231对生成的文本信息进行鉴定得到识别结果,该识别结果可以是:该文本信息包含特定的关键词“空调”,该文本的长度为4个汉字字符,该文本的解析难度级别为“容易”,该文本的控制对象为车载空调,该文本调用的应用是手机中的导航APP,除了上述内容外,还可以利用现有的文本鉴定技术对文本的其他特征进行鉴定,得到针对文本的识别结果;判断模块31根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析,例如当识别结果包括文本的解析难度为“容易”,则调用本地命令词库进行解析;根据语义解析结果生成空调开启指令;将指令输出到车载空调,以控制车载空调打开。又例如,当输出的识别结果包括语音信息的感情色彩为“急躁”或语速较快,判断模块31判断出用户的需求比较紧急,则优先调用本地命令词库进行解析。又例如:当文本鉴定模块231鉴定出文本长度小于等于预设值时,判断模块31根据该识别结果将文本发送到解析模块41以调用本地命令词库进行本地语义解析。
文本鉴定模块231还可以对文本是否含有特定词进行鉴定,则识别结果为语义识别后的文本中是否包含特定词。如果判断模块31判断出识别结果包含特定词,则文本发送到解析模块41以调用本地命令词库进行本地语义解析;判断模块31判断出识别结果不包含特定词,则将识别后的文本发送到云端进行解析。例如,语音识别后的文本为:播放张雨生的歌曲大海。通过文本鉴定出“张雨生”这个特定词,同时用户声纹识别出用户是特定用户Master,则直接调用本地存储的该用户的定制命令词库进行语义解析。例如,语音识别后的文本为:每天都进行饮食控制和锻炼,但是瘦身效果却很一般,到底应该怎么减肥呀。通过文本鉴定出文本的后3个字符包含疑问语气词“呀”,判断该命令是查询式命令,可能需要调用网络应用,则将其发送到云端进行解析。或者语音识别后的文本为:导航到四平市。文本鉴定的结果是第3~6个字符包含四平市,四平市是常用地名,则调用本地存储的导航命令词库进行语义解析。上述文本鉴定可以是对文本的特定位置进行鉴定,例如结尾的1~n个字符,n为设定的自然数,或者第n1~n2位进行鉴定,也可以是对文本的任意位置进行鉴定或对全部文本进行鉴定。
文本鉴定模块231还可以对控制对象信息进行鉴定,例如,用户希望调用名称为“智能家居”的应用来远程打开电饭煲,语音识别后的文本为:智能家居打开电饭煲,文本鉴定结果显示控制对象是电饭煲,调用的程序为智能家居,电饭煲为固定对象,也即控制对象为固定对象,判断则根据识别结果调用本地命令词对该文本进行语义解析。例如,用户希望调用名称为“新奇妙想”的应用来查询一个信息,语音识别后的文本为:奇思妙想告诉我哪里能买到自我浇灌的花盆。文本鉴定结果显示调用的应用是“奇思妙想”这一网络应用,则判断模块31根据识别这一识别结果将文本发送到云端进行语义识别,以生成指令。
通过被控对象进行判定和通过调用的应用进行判断是两种不同的方式,二者之间有交叉也有不同。控制对象信息包括被控的设备、软件、APP、应用等信息,当被控对象为设备、控制类软件等,调用本地命令词库进行语义解析;当被控的对象为交互类软件、查询类APP时,发送到云端进行语义解析。判断模块31判断调用的应用是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则将文本发送到解析模块41以调用本地命令词库对语音识别后的文本进行语义解析。如果控制对象是固定对象,或调用的应用为本地应用,则进一步可以调用该控制对象或应用的本地专属命令词库对语音识别后的文本进行语义解析。
其中,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析,识别结果包括是一项或多项;如果识别结果包括多项时,应预设对应的判断逻辑,例如:对多项识别结果的优先级进行约定,根据优先级别高的识别结果项进行语义解析的选择;当所有的识别结果均指向本地命令库时才调用本地命令库进行解析;当所有的识别结果均指向云端解析时,才将文本发送到云端进行解析;更多的识别结果项指向本地命令库时调用本地命令库;更多的识别结果指向云端解析时,将文本发送到云端进行语义解析。
本发明实施例五还提供了一种离线命令词与云端解析相结合的语音识别系统,参照附图3,包括语音识别装置1和云解析服务器2。其中,当语音识别装置1的判断模块31在识别结果满足实施例一所述的相关条件时,将文本信息发送给云解析服务器2,并接收云解析服务2返回的指令,或语义解析结果。其中,语音识别装置1的解析模块41还包括标记模块421和合并模块422,标记模块421用于在需要截断文本处生成并插入拆分标记位,合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。
当判断模块31判断出文本长度大于预设值时,判断该文本的语义解析较为复杂,可以根据该识别结果将文本发送到云端进行解析。或者解析模块41的标记模块421可以将文本进行拆分,拆分时生成标记位信息以标记拆分的位置,部分文本发送到语义解析模块411调用本地命令词库进行语义解析,其余部分发送到云端进行语义解析,合并模块422根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并,解析模块根据合并后的结果生成操作指令。
文本的拆分解析方法还可以包括,首先调用本地命令词库进行语义解析,如果识别出现无法进行本地语义解析的命令词,则将命令词及其邻近的上下文信息上传云端进行解析,解析完成后回传本地,在本地对两部分解析结果进行合并后输出控制指令。进行文本拆分时,在无法解析的命令词的上文和下文处插入标记,以便在本地对各个解析结果进行合并时根据插入的标记位进行合并。
还可以对文本语义解析的难度级别进行鉴定,根据鉴定结果选择本地解析还是云端解析。例如,当鉴定结果显示文本的语义解析难度高时,将文本上传都云端进行解析;或者当鉴定结果显示文本的语义解析难度为高时,按照上述的文本拆分方法进行本地和云端的合作解析。当鉴定结果显示文本的语义解析难度较低时,调用离线命令词进行离线语义解析。
另外,针对某些生僻词,或者用户特定的语言习惯,或者用户的特殊爱好建立本地的特殊命令词库,上述根据文本的语义解析的难度级别选择解析方式,还可以包括,当鉴定结果显示文本的语义解析难度非常高时,调用本地的特殊命令词库进行语义解析。
本发明实施例五的离线命令词与云端解析相结合的语音识别装置1还包括本地命令词库51,也叫作离线命令词库51,该本地命令词51保存在本地存储空间内,由用户创建,本地命令词库51是在本地存储空间内存储的多个命令词库51n,n为大于等于1的自然数,本地命令词库51可以定时与云解析服务器或网络进行交互,以更新其命令词,本地命令词库51可以被编辑,该编辑包括但不限于创建、更改、删除、合并、拆分、命名、分类、排序、组合等。本地命令词库51的创建可以根据应用或设备创建,例如:创建家居设备命令词库511,包括对冰箱、洗衣机、电视、照明设备的开启、关闭、运转速度、运转时间、模式等的语音解析命令词;或者针对儿童教育类APP创建命令词库512,包括对讲故事软件、在线英语教学、识字软件的语义解析命令词。本地命令词库51的创建还可以根据内容进行创建,例如:音乐命令词库513,包括流行音乐命令词子库5131、古典音乐命令词字库5132等。本地命令词库51的创建还可以根据用户的使用习惯来进行创建,例如对于特定用户A,其典型的一日作息包括:开灯起床、打开电饭煲做饭、开车上班路上听音乐、午饭叫外卖、开车下班通过导航查看是否拥堵、路上听音乐、晚上洗澡、熄灯睡觉。则根据用户日常使用的设备、软件或APP建立该特定用户A的专属命令库,该专属命令库514可以包括命令词:开灯、开电饭煲、打开车载收音机、103.9、美团、饿了么、鱼香肉丝、披萨、打开高德、关灯等。本发明允许用户根据需要创建不同类别的命令词库,上述列出的方式不应视为对本发明的本地命令词库的限制,本发明可以根据需要设置任意的本地命令库。
本地命令词库51还可以是专属命令词库,例如,为授权用户Master创建专属命令词库的方法如下:用户Master是相声爱好者,每天都要听相声节目,以及查询与相声相关的信息,那么Master的专属命令词库可以包括与相声相关的命令词,并且该命令词库可以定时与云端交互,获取最新的相声节目等命令词更新到本地的命令词中。该专属命令词库可以一进步细分细化,例如根据用户Master的生活习惯和作息规律,建立对应于某一时间段和/或所处位置的的命令词库,根据识别结果结合其他信息,例如时间信息、位置信息等调用相应的命令词库,例如周一的早上10点,Master的位置是在泸沽湖,可以对应的调用Master专属的旅游命令词库,也可以调用通用的包含旅游命令词库的本地命令词库进行语义解析。
为了进一步提升特定用户的用户体验,还可以为特定用户建立3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。当识别结果显示用户属于特定用户时,调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。
本发明中,特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。
如果用户属于非特定用户,通常会对用户的输入进行云端语义解析。但是,也可以允许非特定用户被授权使用特定用户的的3D用户画像,或者被授权构建3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后,也可以根据自身的3D用户画像调用相应的本地命令词库进行解析。
例如,3D用户画像显示用户身份是教授,或者学历是硕士及以上,习惯用书面语,则调用书面语离线命令词库进行解析;例如,3D用户画像显示用户喜欢听相声,则调用与相声相关的本地命令词库进行解析。
本发明实施例还提供了一种终端,包括实施例五所述的离线命令词与云端解析相结合的语音识别装置1,并能够与云解析服务器2进行交互,以在满足条件时通过云解析服务器2进行语义解析。
本发明实施例还提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现以下步骤:步骤101、接收用户的语音输入;
步骤102、对接收到的语音进行识别;
步骤103、输出识别结果;
步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;
步骤105、根据语义解析结果生成指令;
步骤106、执行指令。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,所述计算机可执行指令被执行时实现本公开各实施例中所述的离线命令词与云端解析相结合的语音识别方法。
以上仅为本发明的示例性实施例。在不背离本发明的精神及其实质的情况下,本领域技术人员应当根据本发明做出各种相应的变形和改变,这些变形和改变都应落入本发明的权利要求书的保护范围内。
Claims (20)
1.一种离线命令词与云端解析相结合的语音识别方法,其特征在于,所述方法包括:步骤101、接收用户的语音输入;步骤102、对接收到的语音进行识别;步骤103、输出识别结果;步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;步骤105、根据语义解析结果生成指令;步骤106、执行指令。
2.根据权利要求1所述的语音识别方法,其特征在于:识别结果包括用户的属性信息。
3.根据权利要求2所述的语音识别方法,其特征在于:用户的属性信息指用户是特定用户,还是非特定用户。
4.根据权利要求3所述的语音识别方法,其特征在于:特定用户包括家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户之一;非特定用户包括访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户之一。
5.根据权利要求1所述的语音识别方法,其特征在于:根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果用户属于特定用户,则调用本地命令词库进行解析,如果用户属于非特定用户,则将识别后的文本发送到云端进行解析。
6.根据权利要求5所述的语音识别方法,其特征在于:特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。
7.根据权利要求6所述的语音识别方法,其特征在于:如果用户属于特定用户,则调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。
8.根据权利要求6所述的语音识别方法,其特征在于:如果用户属于非特定用户,则允许非特定用户被授权构建3D用户画像,非特定用户被授权构建3D用户画像后,可以根据3D用户画像调用相应的本地命令词库进行解析。
9.根据权利要求7或8所述的语音识别方法,其特征在于:3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的至少之一,3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。
10.根据权利要求1所述的语音识别方法,其特征在于:识别结果还包括语音识别后的文本的长度,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:如果识别结果为文本的长度大于设定值,则将文本进行拆分,部分调用本地命令词库进行解析,部分上传云端进行解析,云端解析完成后回传本地,在本地对两部分解析结果进行合成并输出控制指令。
11.根据权利要求1-10之一所述的语音识别方法,其特征在于:如果调用本地命令词库进行解析时出现无法进行解析的命令词,则将该无法解析的命令词及其邻近的上下文信息上传云端进行解析,解析完成后回传本地,在本地将云端回传的解析结果和本地解析结果进行合并后输出控制指令。
12.根据权利要求10-11之一所述的语音识别方法,其特征在于:在拆分处,或在无法解析的命令词的上文和下文处插入标记,所述在本地对两部分解析结果进行合并时根据插入的标记位进行合并。
13.根据权利要求12所述的语音识别方法,其特征在于:判断用户是否特定用户,如果用户属于特定用户,则将所述无法解析的命令词的解析结果加入到对应的本地命令词库中。
14.根据权利要求1所述的语音识别方法,其特征在于:识别结果为语音识别中评估的难度级别,根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为:难度级别大于等于预定值一时,进行云端解析,小于等于预定值二时调用本地命令词库进行解析;难度级别处于预定值一和预定值二之间时,采用本地命令词库和云端解析相结合的方式。
15.根据权利要求1所述的语音识别方法,其特征在于:识别结果包括语音输入的控制对象信息;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。
16.根据权利要求15所述的语音识别方法,其特征在于:控制对象信息包括,控制对象是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。
17.根据权利要求16所述的语音识别方法,其特征在于:如果控制对象是本地应用,则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。
18.根据权利要求1所述的语音识别方法,其特征在于:识别结果为语义识别后的文本中是否包含特定词,根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。
19.根据权利要求18所述的语音识别方法,其特征在于:所述特定词的位置在文本后n位,n为设定的自然数。
20.根据权利要求18所述的语音识别方法,其特征在于:所述特定词的位置在文本的任意位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811439285.3A CN109410927B (zh) | 2018-11-29 | 2018-11-29 | 离线命令词与云端解析结合的语音识别方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811439285.3A CN109410927B (zh) | 2018-11-29 | 2018-11-29 | 离线命令词与云端解析结合的语音识别方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109410927A true CN109410927A (zh) | 2019-03-01 |
CN109410927B CN109410927B (zh) | 2020-04-03 |
Family
ID=65456060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811439285.3A Active CN109410927B (zh) | 2018-11-29 | 2018-11-29 | 离线命令词与云端解析结合的语音识别方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410927B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961792A (zh) * | 2019-03-04 | 2019-07-02 | 百度在线网络技术(北京)有限公司 | 用于识别语音的方法和装置 |
CN110211453A (zh) * | 2019-05-26 | 2019-09-06 | 韶关市启之信息技术有限公司 | 一种结合环境隐私辅助远程结对编程的方法 |
CN110211577A (zh) * | 2019-07-19 | 2019-09-06 | 宁波方太厨具有限公司 | 终端设备及其语音交互方法 |
CN110826730A (zh) * | 2019-10-10 | 2020-02-21 | 国网江西省电力有限公司电力科学研究院 | 一种基于离线语音识别的就地化保护信息查看方法 |
CN110910886A (zh) * | 2019-12-17 | 2020-03-24 | 广州三星通信技术研究有限公司 | 人机交互方法及装置 |
CN111009244A (zh) * | 2019-12-06 | 2020-04-14 | 贵州电网有限责任公司 | 语音识别方法及系统 |
CN111292750A (zh) * | 2020-03-09 | 2020-06-16 | 成都启英泰伦科技有限公司 | 一种基于云端改善的本地语音识别方法 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN111916084A (zh) * | 2020-09-09 | 2020-11-10 | 深圳创维-Rgb电子有限公司 | 智能家居语音控制方法及装置、设备、存储介质 |
CN112185371A (zh) * | 2019-07-05 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机存储介质 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112669848A (zh) * | 2020-12-14 | 2021-04-16 | 深圳市优必选科技股份有限公司 | 一种离线语音识别方法、装置、电子设备及存储介质 |
CN113241070A (zh) * | 2021-04-28 | 2021-08-10 | 北京字跳网络技术有限公司 | 热词召回及更新方法、装置、存储介质和热词系统 |
CN113593565A (zh) * | 2021-09-29 | 2021-11-02 | 深圳大生活家科技有限公司 | 一种智能家庭设备管控方法和系统 |
CN113963695A (zh) * | 2021-10-13 | 2022-01-21 | 深圳市欧瑞博科技股份有限公司 | 一种智能设备的唤醒方法、装置、设备及存储介质 |
WO2022134025A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 一种离线语音识别方法和装置、电子设备和可读存储介质 |
CN115567336A (zh) * | 2022-09-28 | 2023-01-03 | 四川启睿克科技有限公司 | 一种基于智慧家居的无唤醒语音控制系统及方法 |
WO2023246151A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 显示设备和控制方法 |
EP4318464A4 (en) * | 2021-04-17 | 2024-05-08 | Huawei Tech Co Ltd | VOICE INTERACTION METHOD AND DEVICE |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646646A (zh) * | 2013-11-27 | 2014-03-19 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN103700369A (zh) * | 2013-11-26 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 语音导航方法及系统 |
CN103730119A (zh) * | 2013-12-18 | 2014-04-16 | 惠州市车仆电子科技有限公司 | 车载人机语音交互系统 |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105374355A (zh) * | 2015-12-17 | 2016-03-02 | 厦门科牧智能技术有限公司 | 一种电子坐便器的语音控制、交互系统及方法和电子坐便器 |
US20160179831A1 (en) * | 2013-07-15 | 2016-06-23 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
CN106560892A (zh) * | 2015-09-30 | 2017-04-12 | 深圳光启合众科技有限公司 | 智能机器人及其云端交互方法、云端交互系统 |
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN108399919A (zh) * | 2017-02-06 | 2018-08-14 | 中兴通讯股份有限公司 | 一种语义识别方法和装置 |
-
2018
- 2018-11-29 CN CN201811439285.3A patent/CN109410927B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160179831A1 (en) * | 2013-07-15 | 2016-06-23 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
CN103700369A (zh) * | 2013-11-26 | 2014-04-02 | 安徽科大讯飞信息科技股份有限公司 | 语音导航方法及系统 |
CN103646646A (zh) * | 2013-11-27 | 2014-03-19 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN103730119A (zh) * | 2013-12-18 | 2014-04-16 | 惠州市车仆电子科技有限公司 | 车载人机语音交互系统 |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106560892A (zh) * | 2015-09-30 | 2017-04-12 | 深圳光启合众科技有限公司 | 智能机器人及其云端交互方法、云端交互系统 |
CN105374355A (zh) * | 2015-12-17 | 2016-03-02 | 厦门科牧智能技术有限公司 | 一种电子坐便器的语音控制、交互系统及方法和电子坐便器 |
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN108399919A (zh) * | 2017-02-06 | 2018-08-14 | 中兴通讯股份有限公司 | 一种语义识别方法和装置 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961792A (zh) * | 2019-03-04 | 2019-07-02 | 百度在线网络技术(北京)有限公司 | 用于识别语音的方法和装置 |
CN109961792B (zh) * | 2019-03-04 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
CN110211453A (zh) * | 2019-05-26 | 2019-09-06 | 韶关市启之信息技术有限公司 | 一种结合环境隐私辅助远程结对编程的方法 |
CN110211453B (zh) * | 2019-05-26 | 2021-06-08 | 深圳市天天来玩科技有限公司 | 一种结合环境隐私辅助远程结对编程的方法 |
CN112185371A (zh) * | 2019-07-05 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机存储介质 |
CN110211577A (zh) * | 2019-07-19 | 2019-09-06 | 宁波方太厨具有限公司 | 终端设备及其语音交互方法 |
CN110211577B (zh) * | 2019-07-19 | 2021-06-04 | 宁波方太厨具有限公司 | 终端设备及其语音交互方法 |
CN110826730A (zh) * | 2019-10-10 | 2020-02-21 | 国网江西省电力有限公司电力科学研究院 | 一种基于离线语音识别的就地化保护信息查看方法 |
CN110826730B (zh) * | 2019-10-10 | 2022-04-12 | 国网江西省电力有限公司电力科学研究院 | 一种基于离线语音识别的就地化保护信息查看方法 |
CN111009244A (zh) * | 2019-12-06 | 2020-04-14 | 贵州电网有限责任公司 | 语音识别方法及系统 |
CN110910886A (zh) * | 2019-12-17 | 2020-03-24 | 广州三星通信技术研究有限公司 | 人机交互方法及装置 |
CN111354363A (zh) * | 2020-02-21 | 2020-06-30 | 镁佳(北京)科技有限公司 | 车载语音识别方法、装置、可读存储介质及电子设备 |
CN111292750A (zh) * | 2020-03-09 | 2020-06-16 | 成都启英泰伦科技有限公司 | 一种基于云端改善的本地语音识别方法 |
CN111916084A (zh) * | 2020-09-09 | 2020-11-10 | 深圳创维-Rgb电子有限公司 | 智能家居语音控制方法及装置、设备、存储介质 |
CN112309399A (zh) * | 2020-10-30 | 2021-02-02 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112309399B (zh) * | 2020-10-30 | 2023-02-24 | 上海淇玥信息技术有限公司 | 一种基于语音执行任务的方法、装置和电子设备 |
CN112669848B (zh) * | 2020-12-14 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 一种离线语音识别方法、装置、电子设备及存储介质 |
CN112669848A (zh) * | 2020-12-14 | 2021-04-16 | 深圳市优必选科技股份有限公司 | 一种离线语音识别方法、装置、电子设备及存储介质 |
WO2022134025A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 一种离线语音识别方法和装置、电子设备和可读存储介质 |
EP4318464A4 (en) * | 2021-04-17 | 2024-05-08 | Huawei Tech Co Ltd | VOICE INTERACTION METHOD AND DEVICE |
CN113241070A (zh) * | 2021-04-28 | 2021-08-10 | 北京字跳网络技术有限公司 | 热词召回及更新方法、装置、存储介质和热词系统 |
CN113241070B (zh) * | 2021-04-28 | 2024-02-27 | 北京字跳网络技术有限公司 | 热词召回及更新方法、装置、存储介质和热词系统 |
CN113593565B (zh) * | 2021-09-29 | 2021-12-17 | 深圳大生活家科技有限公司 | 一种智能家庭设备管控方法和系统 |
CN113593565A (zh) * | 2021-09-29 | 2021-11-02 | 深圳大生活家科技有限公司 | 一种智能家庭设备管控方法和系统 |
CN113963695A (zh) * | 2021-10-13 | 2022-01-21 | 深圳市欧瑞博科技股份有限公司 | 一种智能设备的唤醒方法、装置、设备及存储介质 |
WO2023246151A1 (zh) * | 2022-06-22 | 2023-12-28 | 海信视像科技股份有限公司 | 显示设备和控制方法 |
CN115567336A (zh) * | 2022-09-28 | 2023-01-03 | 四川启睿克科技有限公司 | 一种基于智慧家居的无唤醒语音控制系统及方法 |
CN115567336B (zh) * | 2022-09-28 | 2024-04-16 | 四川启睿克科技有限公司 | 一种基于智慧家居的无唤醒语音控制系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109410927B (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410927A (zh) | 离线命令词与云端解析结合的语音识别方法、装置和系统 | |
CN108000526B (zh) | 用于智能机器人的对话交互方法及系统 | |
CN107943998B (zh) | 一种基于知识图谱的人机对话控制系统及方法 | |
US20190286996A1 (en) | Human-machine interactive method and device based on artificial intelligence | |
CN106548773B (zh) | 基于人工智能的儿童用户搜索方法及装置 | |
US20210225380A1 (en) | Voiceprint recognition method and apparatus | |
CN105843381B (zh) | 用于实现多模态交互的数据处理方法及多模态交互系统 | |
KR102012968B1 (ko) | 인터렉션 로봇의 제어 방법 및 제어 서버 | |
CN109710748B (zh) | 一种面向智能机器人的绘本阅读交互方法和系统 | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN107895577A (zh) | 使用长尾语音命令的任务发起 | |
CN105068661A (zh) | 基于人工智能的人机交互方法和系统 | |
CN111145721A (zh) | 个性化提示语生成方法、装置和设备 | |
CN108922540B (zh) | 与老人用户进行连续ai对话的方法及系统 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
US10504512B1 (en) | Natural language speech processing application selection | |
CN111414506B (zh) | 基于人工智能情绪处理方法、装置、电子设备及存储介质 | |
US11797629B2 (en) | Content generation framework | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
KR102117287B1 (ko) | 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치 | |
CN116401354A (zh) | 一种文本处理方法、装置、存储介质及设备 | |
CN116821307B (zh) | 内容交互方法、装置、电子设备和存储介质 | |
CN111427444B (zh) | 一种智能设备的控制方法和设备 | |
WO2023102889A1 (zh) | 语音交互的方法和装置 | |
US20210337274A1 (en) | Artificial intelligence apparatus and method for providing visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |