CN107146602A - 一种语音识别方法、装置及电子设备 - Google Patents

一种语音识别方法、装置及电子设备 Download PDF

Info

Publication number
CN107146602A
CN107146602A CN201710229218.8A CN201710229218A CN107146602A CN 107146602 A CN107146602 A CN 107146602A CN 201710229218 A CN201710229218 A CN 201710229218A CN 107146602 A CN107146602 A CN 107146602A
Authority
CN
China
Prior art keywords
voice
spliced
recognition information
identified
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710229218.8A
Other languages
English (en)
Other versions
CN107146602B (zh
Inventor
陈君宇
贾磊
韩伟
吴震
郭启行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201710229218.8A priority Critical patent/CN107146602B/zh
Publication of CN107146602A publication Critical patent/CN107146602A/zh
Priority to PCT/CN2018/082525 priority patent/WO2018188591A1/zh
Application granted granted Critical
Publication of CN107146602B publication Critical patent/CN107146602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种语音识别方法、装置及电子设备,所述方法包括:获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行获得待识别语音信息的步骤。本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。

Description

一种语音识别方法、装置及电子设备
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法、装置及电子设备。
背景技术
目前,很多智能设备具有语音识别功能。通常语音识别的功能可以通过以下2种方式来实现:
一种是:由智能设备接收语音指令信息,并对语音指令信息进行识别,获得识别出的指令信息,针对识别出的指令信息进行响应。
另一种是:由智能设备接收语音指令信息,并将该语音执行信息发送至云端服务器,由云端服务器对语音指令信息进行识别,获得识别出的指令信息,针对识别出的指令信息进行响应,将响应信息返回给智能设备。
现实生活中,用户在说出语音指令信息的时候,经常会由于犹豫不决而说话不连贯。例如,用户在想听音乐但不一时想不起具体的歌曲时,经常会说出类似于“我想听…那个…嗯…忘情水”的话。
这种情况下,不论是上述那种语音识别的方式都会出错。这是因为,现有技术通常只对连续的语音进行识别,中间出现停顿,就会认为该句话已经说完,就进行语音识别。如上述情况,只会识别出“我想听”,后面的话都被忽略掉了。这样,智能设备会输出“语音指令错误,请重新输入”或“对不起,没听懂”等类似的报错提示。
也就是说,由于不连贯语音中静音片段的存在,现有的语音识别方法在识别此类不连贯的语音时,通常会出导致识别出的语意不完整,影响语音识别效果。
发明内容
本发明的目的在于提供一种语音识别方法、装置及电子设备,以提高不连贯语音的语音识别效果。
为达到上述目的,本发明实施例提供了一种语音识别方法,应用于电子设备,所述方法包括:
获得待识别语音信息;
对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
判断是否存在已保存的待拼接语音识别信息;
如果存在,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
确定所述拼接后的语音识别信息是否有完整的语义;
如果是,则将所述拼接后的语音识别信息确定为语音识别结果;
如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。
可选地,所述方法还包括:
若判断出不存在已保存的语音识别信息,则判断当前语音识别信息是否有完整的语义;
如果有,则将当前语音识别信息确定为语音识别结果;
如果没有,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。
可选地,所述确定所述拼接后的语音识别信息是否有完整的语义的步骤,包括:
对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;
将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;
从所述意图库中获得所述用户意图对应的响应信息;
判断所述响应信息是否为不能提供服务的提示信息;
如果所述响应信息是不能提供服务的提示信息,则确定所述拼接后的语音识别信息没有完整的语义;
如果所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。
可选地,所述的意图库为树形结构意图库;
所述对所述拼接后的语音识别信息进行语义解析,获得语义解析结果的步骤,包括;
按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
所述将所述语义解析结果与预设的意图库中存储的意图进行匹配,获得用户意图的步骤,包括:
将第一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;
若是,则将当前意图确定为用户意图;
若否,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
返回所述将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图的步骤。
可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;
向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。
可选地,所述电子设备为智能设备;
所述获得待识别语音信息的步骤,包括:
实时检测语音信息;
在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述获得待识别语音信息的步骤,包括:接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
本发明实施例还提供了一种语音识别装置,应用于电子设备,所述装置包括:
获取模块,用于获得待识别语音信息;
识别模块,用于对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
第一判断模块,用于判断是否存在已保存的待拼接语音识别信息;
拼接模块,用于当所述判断模块的判断结果为存在时,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
第一确定模块,用于确定所述拼接后的语音识别信息是否有完整的语义;
第二确定模块,用于当所述第一确定模块的确定结果为是时,则将所述拼接后的语音识别信息确定为语音识别结果;
第三确定模块,用于当所述第一确定模块的确定结果为否时,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块。
可选地,所述装置还包括:
第二判断模块,用于当所述第一判断模块判断出不存在已保存的语音识别信息时,则判断当前语音识别信息是否有完整的语义;
第四确定模块,用于当所述第二判断模块的判断结果为有时,则将当前语音识别信息确定为语音识别结果;
第五确定模块,用于当所述第二判断模块的判断结果为没有时,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块。
可选地,所述第一确定模块,包括:
解析单元,用于对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;
匹配单元,用于将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;
获取单元,用于从所述意图库中获得所述用户意图对应的响应信息;
判断单元,用于判断所述响应信息是否为不能提供服务的提示信息;
第一确定单元,用于当判断单元的判断出所述响应信息是不能提供服务的提示信息时,则确定所述拼接后的语音识别信息没有完整的语义;
第二确定单元,用于当判断单元的判断出所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。
可选地,所述的意图库为树形结构意图库;
所述解析单元,具体用于按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
所述匹配单元,包括:
第一确定子单元,用于将第一级别对应的特征文字确定为当前级别的特征文字;
第二确定子单元,用于将所述树形结构意图库中第一级别的所有意图确定为候选意图;
匹配子单元,用于将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;
判断子单元,用于判断是否所有特征文字匹配完成;
第三确定子单元,用于当所述判断子单元的判断结果为是时,则将当前意图确定为用户意图;
第四确定子单元,用于当所述判断子单元的判断结果为否时,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;触发所述匹配子单元。
可选地,所述装置还包括:
解析模块,用于若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;
第一输出模块,用于向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
可选地,所述装置还包括:
第二输出模块,用于若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。
可选地,所述电子设备为智能设备;
所述获取模块,包括:
检测单元,用于实时检测语音信息;
第三确定单元,用于在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述获取模块,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
本发明实施例还提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行所述的语音识别方法。
本发明实施例提供的一种语音识别方法、装置及电子设备,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。
本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语义的完整性,提高了不连贯语音的语音识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别方法的流程图;
图2为本发明实施例提供的确定拼接后的语音识别信息是否有完整的语义的流程图;
图3为本发明实施例提供的语音识别装置的结构示意图;
图4为本发明实施例提供的第一确定模块的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为达到上述目的,本发明实施例提供了一种语音识别方法,该方法可以应用于电子设备,该电子设备可以为智能设备,也可以为与智能设备通信连接的云端服务器。本发明实施例中,智能设备可以是智能手机、智能音箱、智能机器人或智能平板电脑等带有语音识别功能的设备。
图1为本发明实施例提供的语音识别方法的流程图,该方法包括:
S110,获得待识别语音信息。
本实施例中,语音信息为包含用户发出语音的语音信息。
具体地,电子设备可监听其周围的声音,获取相应的语音信息并将其作为待识别语音信息。
在本发明实施例的一种具体实现方式中,当电子设备为智能设备时,步骤S110可以包括:
A1、实时检测语音信息。
A2、在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。
具体地,智能设备监控到用户的唤醒语音(包含预设的用于唤醒智能设备的唤醒词的语音)被激活以后,实时检测周围的语音信息。设初始时刻周围的声音的音量较小,此时处于静音状态,当突然检测到声音的音量大与某一个预设值的时候,则可确定当前有用户输入语音信息,此时进入语音阶段,智能设备采集语音阶段的语音信息。经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,当进入静音阶段达到第二预设时长时,将用户输入的语音信息(即智能设备采集到的语音信息)确定为待识别语音信息。本实施例中,第二预设时长可自由设定,第二预设时长优选优选为500毫秒。
在本发明实施例的另一种具体实现方式中,当电子设备为与智能设备通信连接的云端服务器时,步骤S110可以包括:
接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
具体地,当智能设备在检测到声音的音量大与某一个预设值的时候,开始获取语音信息,经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,且静音达到第二预设时长时,智能设备停止获取语音信息,并将已经获取的语音信息确定为待识别语音信息后,将其发送给云端服务器,云端服务器接收智能设备发送的待识别语音信息。
S120,对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息。
具体地,在获取了待识别语音信息后,电子设备对其进行语音识别,得到该待识别语音信息对应的语音识别信息(由于待识别语音信息可以为任一时间段的待识别语音信息,而并非为电子设备接收到的第一个待识别语音信息,因此,可将得到的语音识别信息定义为当前语音识别信息)。本实施例中,语音识别的具体过程为现有技术此处不再赘述。
S130,判断是否存在已保存的待拼接语音识别信息;如果存在,执行步骤S140;如果不存在,执行步骤S180。
S140,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息。
本实施例中,所谓待拼接语音识别信息指的是没有完整语义的语音识别信息,仍需要进一步的拼接语音识别信息方能达到完整的语义。
具体地,当电子设备获得当前语音识别信息后,判断是否存在已保存的待拼接语音识别信息,如果存在,说明用户发出的语音是不连贯的,且当前语音识别信息不是电子设备接收到的第一个语音识别信息,需要与之前的已保存的待拼接语音识别信息进一步的拼接,得到拼接后的语音识别信息。
举例而言,当用户发送的语音为“我想听…那个…”的时候,令当前的语音识别信息为“那个”,则语意词为“嗯”,待拼接语音识别信息为“我想听”,则得到的拼接后的语音识别信息为“我想听+那个”。
具体地,如果不存在已保存的待拼接语音识别信息,说明当前语音识别信息是电子设备接收到的第一个语音识别信息,则执行步骤S180。
S150,确定所述拼接后的语音识别信息是否有完整的语义。如果是,执行步骤S160;如果否,执行步骤S170。
S160,将所述拼接后的语音识别信息确定为语音识别结果。
S170,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述步骤S110。
具体地,电子设备在得到的拼接后的语音识别信息,确定其是否有完整的意义,如果有完整的语义,则识别过程成功,将拼接后的语音识别信息确定为语音识别结果。如果没有完整的语义,则将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续等待并获取下一个到达的待识别语音信息,从而保证了用户发出的语音完整的被电子设备获取到,提高了不连贯语音的语音识别效果。
S180,若判断出不存在已保存的语音识别信息,则判断当前语音识别信息是否有完整的语义。如果有,执行步骤S190;如果没有,执行步骤S1100。
S190,将当前语音识别信息确定为语音识别结果。
S1100,将当前语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述步骤S110。
具体地,如果不存在已保存的待拼接语音识别信息,说明当前语音识别信息是电子设备接收到的第一个语音识别信息,则直接判断当前语音识别信息是否有完整的语义。如果有完整的语义,则表明用户当前发出的语音是连贯的,则将当前语音识别信息确定为语音识别结果。如果有完整的语义,则表明用户当前发出的语音是不连贯的,当前语音识别信息确定为待拼接语音识别信息进行保存,并继续等待并获取下一个到达的待识别语音信息,进一步保证了用户发出的语音完整的被电子设备获取到,提高了不连贯语音的语音识别效果。
本发明实施例提供的语音识别方法,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。
本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。
在本发明实施例的一种具体实现方式中,步骤S150可包括如下步骤:
B1、对所述拼接后的语音识别信息进行语义解析,获得语义解析结果。
B2、将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图。
B3、从所述意图库中获得所述用户意图对应的响应信息。
B4、判断所述响应信息是否为不能提供服务的提示信息;如果所述响应信息是不能提供服务的提示信息,则执行步骤B5;如果所述响应信息不是不能提供服务的提示信息,则执行步骤B6。
B5、确定所述拼接后的语音识别信息没有完整的语义。
B6、确定所述拼接后的语音识别信息有完整的语义。
本实施例中,通过将所述语义解析结果与预设的意图库中存储的意图进行匹配获得用户意图,并从所述意图库中获得所述用户意图对应的响应信息,判断所述响应信息是否为不能提供服务的提示信息,从而确定语音识别信息是否有完整语义。本实施例可使确定语音识别信息是否有完整语义的过程更加易于实现。
为了对上述步骤S150进一步解释,步骤S150可包括如图2所示的步骤。图2为本发明实施例提供的确定所述拼接后的语音识别信息是否有完整的语义的流程图。其中,步骤B1与步骤S210对应,步骤B2与步骤S220~步骤S270对应,步骤B3与步骤S280对应,步骤B4与步骤S290对应,步骤B5与步骤S2100对应,步骤B6与步骤S2110对应。
S210,按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应。
具体地,可将该语音识别信息输入预设的特征文字提取模型,获得特征文字提取模型输出的各个级别的多段特征文字。
其中,特征文字提取模型,用于对所述语音识别信息进行语义解析,获得与树形结构意图库中各个级别对应的特征文字。本实施例中,树形结构意图库中的所有级别可以只对应一个总的特征文字提取模型。在输入时,将语音识别结果输入该总的特征文字提取模型,获得该总的特征文字提取模型输出的各个级别的多段特征文字。
S220,将第一级别对应的特征文字确定为当前级别的特征文字。
S230,将所述树形结构意图库中第一级别的所有意图确定为候选意图;
具体地,在匹配时,从第一级别的特征文字与树形结构意图库中第一级别的所有意图的匹配开始执行,然后将第二级别的特征文字与树形结构意图库中匹配成功的第二级别的所有意图进行匹配,将第三级别的特征文字与树形结构意图库中匹配成功的第三级别的所有意图进行匹配,依此规律逐级执行匹配过程,直至所有级别的特征文字匹配完成。
S240,将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图。
具体地,获得当前意图时,可以直接将匹配成功的候选意图作为当前意图。可以理解的是,当前意图为本次匹配成功的候选意图以及在本次匹配之前所有匹配成功的各级别意图共同构成的意图。
S250,判断是否所有特征文字匹配完成;若是,则执行步骤S260;若否,则执行步骤S270。
S260,将当前意图确定为用户意图;
S270,将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;返回步骤S240。
可以理解的是,当所有特征文字均匹配完成时,当前意图即构成了最终确定的用户意图。
具体地,所述意图库中包含所有意图和响应信息的对应关系,电子设备将所述语义解析结果与预设的意图库中存储的意图进行匹配,获得用户意图。当电子设备获得了用户意图,就知道用户需要怎样的服务,从而根据意图和响应信息的对应关系,也就是意图与提供服务的对应关系,来为用户提供相应的服务,或输出相应的响应信息。响应信息中包括:与用户意图对应的服务响应信息,以及用户意图不完整而确定的不能提供服务的提示信息。例如:获得的用户意图为“我想”,则获得的响应信息可以是“对不起,指令不完整无法提供服务”等类似的提示信息。
S280,从所述意图库中获得所述用户意图对应的响应信息。
S290,判断所述响应信息是否为不能提供服务的提示信息;如果所述响应信息是不能提供服务的提示信息,则执行步骤S2100;如果所述响应信息不是不能提供服务的提示信息,则执行步骤S2110。
S2100,确定所述拼接后的语音识别信息没有完整的语义;
S2110,确定所述拼接后的语音识别信息有完整的语义。
具体地,在获得了用户意图后,电子设备可从意图库中获得该用户意图对应的响应信息。判断该响应信息是否为不能提供服务的提示信息,如果所述响应信息是不能提供服务的提示信息,则确定所述拼接后的语音识别信息没有完整的语义;如果所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。
可选地,当用户长时间犹豫不决,不能想到请求的服务内容时,电子设备还可以带有提醒功能,因此,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
本实施例中,第一预设时长可以用于表示从用户发出语音信息的开始时刻到当前时刻之间的时间长度的衡量标准。当从用户发出语音信息的开始时刻到当前时刻的时间长度大于第一预设时长时,电子设备未获得待识别语音信息,则说明用户为了想说一句完整的话而犹豫了较长的时间。例如,用户发出的语音信息为“我想听…那个…嗯……”,则此时的第一预设时长可以表示从“我想听”的开始时刻到“恩”之后时刻(即当前时刻)的衡量标准。
另外,第一预设时长还可以用于表示用户从上一次发出语音信息的时刻到当前时刻之间的时间长度的衡量标准。当用户从上一次发出语音信息的时刻到当前时刻之间的时间长度大于第一预设时长时,电子设备未获得待识别语音信息,说明用户为了想说一句话中的部分词而犹豫了较长的时间。例如,用户发出的语音信息为“我想听…那个…嗯……”,则此时的第一预设时长可以表示从用户发出“恩”的开始时刻到之后时刻(即当前时刻)的时间长度的衡量标准。
第一预设时长可以自由设定,第一预设时长越长说明服务器可等待用户的犹豫的时间越长。优选地,第一预设时长可以为4秒。
具体地,当电子设备在第一预设时长达到时,未获得待识别语音信息,此时电子设备可能已保存过待拼接语音识别信息,说明用户并没有说完一句完整的话或没有说出一句可被识别为有完整语义的话,电子设备无法做出针对性的处理响应,则电子设备对已保存的待拼接语音识别信息进行语义解析获得语义解析结果,并向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
举例而言,电子设备中可以预设关于“我想听”的服务提示语音信息,该服务提示语音信息可以为“您是想听歌吗,请您这样告诉我‘我想听忘情水’”,当用户发出的语音为“我想听…那个…嗯……”,电子设备得到的待拼接语音识别信息为“我想听+那个+嗯”,当电子设备在第一预设时长达到时,未获得待识别语音信息会向用户输出上述服务提示语音信息。
本实施例中,当用户长时间犹豫不决时,电子设备还可以带有服务提示功能,增加了电子设备的智能性,提高了用户的体验。
可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。
具体地,当电子设备在第一预设时长达到时,未获得待识别语音信息,此时用户很长时间无法说出具体的服务内容,可能的由于想不到具体的服务内容而不会再继续发出语音,电子设备也无需继续等待可能到来的待识别语音信息的,则电子设备向用户输出语音识别失败提示语音信息。举例而言,语音识别失败提示语音信息可以为“对不起,我没听懂”。
进一步的,为了节省能耗,电子设备在向用户输出语音识别失败提示语音信息后还可以进入低功耗待机状态。
本实施例中,电子设备还可以带有输出语音识别失败提示语音信息的功能,增加了电子设备的智能性,提高了用户的体验。
需要说明的是,在确定了语音识别结果后,电子设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。
举例而言,若电子设备为智能设备,在确定了语音识别结果后,智能设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放智能设备中音频的指令,则执行该指令,播放相应的音频。
再例如:若电子设备为与智能设备通信连接的云端服务器,在确定了语音识别结果后,云端服务器可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放云端服务器中音频的指令,则执行该指令,将相应的音频发送至所述智能设备进行播放。
与方法实施例相对应的,本发明还提供了一种语音识别装置,该装置可应用于电子设备。图3为本发明实施例提供的语音识别装置的结构示意图,该装置包括:
获取模块310,用于获得待识别语音信息;
识别模块320,用于对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
第一判断模块330,用于判断是否存在已保存的待拼接语音识别信息;
拼接模块340,用于当所述第一判断模块330的判断结果为存在时,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
第一确定模块350,用于确定所述拼接后的语音识别信息是否有完整的语义;
第二确定模块360,用于当所述第一确定模块350的确定结果为是时,则将所述拼接后的语音识别信息确定为语音识别结果;
第三确定模块370,用于当所述第一确定模块350的确定结果为否时,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块310。
本发明实施例提供的语音识别装置,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。
本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。
进一步地,所述装置还包括:
第二判断模块380,用于当所述第一判断模块370判断出不存在已保存的语音识别信息时,则判断当前语音识别信息是否有完整的语义;
第四确定模块390,用于当所述第二判断模块380的判断结果为有时,则将当前语音识别信息确定为语音识别结果;
第五确定模块3100,用于当所述第二判断模块380的判断结果为没有时,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块310。
图4为本发明实施例提供的第一确定模块的结构示意图,所述第一确定模块350,包括:
解析单元351,用于对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;
匹配单元352,用于将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;
获取单元352,用于从所述意图库中获得所述用户意图对应的响应信息;
判断单元354,用于判断所述响应信息是否为不能提供服务的提示信息;
第一确定单元355,用于当判断单元的判断出所述响应信息是不能提供服务的提示信息时,则确定所述拼接后的语音识别信息没有完整的语义;
第二确定单元356,用于当判断单元的判断出所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。
本实施例中,通过将所述语义解析结果与预设的意图库中存储的意图进行匹配获得用户意图,并从所述意图库中获得所述用户意图对应的响应信息,判断所述响应信息是否为不能提供服务的提示信息,从而确定语音识别信息是否有完整语义。本实施例可使确定语音识别信息是否有完整语义的过程更加易于实现。
进一步地,所述的意图库为树形结构意图库;
所述解析单元351,具体用于按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
所述匹配单元352,包括:
第一确定子单元3521,用于将第一级别对应的特征文字确定为当前级别的特征文字;
第二确定子单元3522,用于将所述树形结构意图库中第一级别的所有意图确定为候选意图;
匹配子单元3523,用于将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;
判断子单元3524,用于判断是否所有特征文字匹配完成;
第三确定子单元3525,用于当所述判断子单元的判断结果为是时,则将当前意图确定为用户意图;
第四确定子单元3526,用于当所述判断子单元的判断结果为否时,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;触发所述匹配子单元3523。
进一步地,所述装置还包括:第三判断模块3110,用于判断在第一预设时长达到时,是否获得待识别语音信息;
解析模块3120,用于当所述第三判断模块判断出在第一预设时长达到时,未获得待识别语音信息时,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;
第一输出模块,用于向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
进一步地,所述装置还包括:
第二输出模块,用于若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。
进一步地,所述电子设备为智能设备;
所述获取模块,包括:
检测单元,用于实时检测语音信息;
第三确定单元,用于在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。
进一步地,所述电子设备为与智能设备通信连接的云端服务器;
所述获取模块,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图5为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:
壳体510、处理器520、存储器530、电路板540和电源电路550,其中,电路板540安置在壳体510围成的空间内部,处理器520和存储器530设置在电路板540上;电源电路550,用于为电子设备的各个电路或器件供电;存储器530用于存储可执行程序代码;处理器520通过读取存储器530中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述方法实施例中所述的语音识别方法。
一种实现方式中,上述语音识别方法可以包括:
获得待识别语音信息;
对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
判断是否存在已保存的待拼接语音识别信息;
如果存在,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
确定所述拼接后的语音识别信息是否有完整的语义;
如果是,则将所述拼接后的语音识别信息确定为语音识别结果;
如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。
上述语音识别方法的其他实现方式参见前述方法实施例部分的说明,这里不再赘述。
处理器520对上述步骤及上述语音信号处理方法的其他实现方式的具体执行过程以及处理器520通过运行可执行程序代码来进一步执行的过程,可以参见本发明实施例中图1至图4所示实施例的描述,在此不再赘述。
需要说明的是,该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
可见,本发明实施例所提供的方案中,电子设备的处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。
本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。
对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语音识别方法,其特征在于,应用于电子设备,所述方法包括:
获得待识别语音信息;
对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
判断是否存在已保存的待拼接语音识别信息;
如果存在,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
确定所述拼接后的语音识别信息是否有完整的语义;
如果是,则将所述拼接后的语音识别信息确定为语音识别结果;
如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若判断出不存在已保存的语音识别信息,则判断当前语音识别信息是否有完整的语义;
如果有,则将当前语音识别信息确定为语音识别结果;
如果没有,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。
3.根据权利要求1所述的方法,其特征在于,所述确定所述拼接后的语音识别信息是否有完整的语义的步骤,包括:
对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;
将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;
从所述意图库中获得所述用户意图对应的响应信息;
判断所述响应信息是否为不能提供服务的提示信息;
如果所述响应信息是不能提供服务的提示信息,则确定所述拼接后的语音识别信息没有完整的语义;
如果所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。
4.根据权利要求3所述的方法,其特征在于,所述的意图库为树形结构意图库;
所述对所述拼接后的语音识别信息进行语义解析,获得语义解析结果的步骤,包括;
按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;
所述将所述语义解析结果与预设的意图库中存储的意图进行匹配,获得用户意图的步骤,包括:
将第一级别对应的特征文字确定为当前级别的特征文字;
将所述树形结构意图库中第一级别的所有意图确定为候选意图;
将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;
判断是否所有特征文字匹配完成;
若是,则将当前意图确定为用户意图;
若否,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;
返回所述将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图的步骤。
5.根据权利要求1所述的方法,其特征在于,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;
向用户输出预设的与所述语义解析结果对应的服务提示语音信息。
6.根据权利要求1所述的方法,其特征在于,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:
若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。
7.根据权利要求1~6任一项所述的方法,其特征在于,所述电子设备为智能设备;
所述获得待识别语音信息的步骤,包括:
实时检测语音信息;
在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。
8.根据权利要求1~6任一项所述的方法,其特征在于,所述电子设备为与智能设备通信连接的云端服务器;
所述获得待识别语音信息的步骤,包括:接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
9.一种语音识别装置,其特征在于,应用于电子设备,所述装置包括:
获取模块,用于获得待识别语音信息;
识别模块,用于对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;
第一判断模块,用于判断是否存在已保存的待拼接语音识别信息;
拼接模块,用于当所述判断模块的判断结果为存在时,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;
第一确定模块,用于确定所述拼接后的语音识别信息是否有完整的语义;
第二确定模块,用于当所述第一确定模块的确定结果为是时,则将所述拼接后的语音识别信息确定为语音识别结果;
第三确定模块,用于当所述第一确定模块的确定结果为否时,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块。
10.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行权利要求1~8中任一项所述的语音识别方法。
CN201710229218.8A 2017-04-10 2017-04-10 一种语音识别方法、装置及电子设备 Active CN107146602B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710229218.8A CN107146602B (zh) 2017-04-10 2017-04-10 一种语音识别方法、装置及电子设备
PCT/CN2018/082525 WO2018188591A1 (zh) 2017-04-10 2018-04-10 一种语音识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710229218.8A CN107146602B (zh) 2017-04-10 2017-04-10 一种语音识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107146602A true CN107146602A (zh) 2017-09-08
CN107146602B CN107146602B (zh) 2020-10-02

Family

ID=59773625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710229218.8A Active CN107146602B (zh) 2017-04-10 2017-04-10 一种语音识别方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN107146602B (zh)
WO (1) WO2018188591A1 (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
WO2018188591A1 (zh) * 2017-04-10 2018-10-18 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN108847236A (zh) * 2018-07-26 2018-11-20 珠海格力电器股份有限公司 语音信息的接收方法及装置、语音信息的解析方法及装置
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
CN108962262A (zh) * 2018-08-14 2018-12-07 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109473104A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 语音识别网络延时优化方法及装置
CN110162176A (zh) * 2019-05-20 2019-08-23 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110287303A (zh) * 2019-06-28 2019-09-27 北京猎户星空科技有限公司 人机对话处理方法、装置、电子设备及存储介质
CN110517673A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN110808031A (zh) * 2019-11-22 2020-02-18 大众问问(北京)信息科技有限公司 一种语音识别方法、装置和计算机设备
CN111402866A (zh) * 2020-03-23 2020-07-10 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111627463A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN111785259A (zh) * 2019-04-04 2020-10-16 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111916082A (zh) * 2020-08-14 2020-11-10 腾讯科技(深圳)有限公司 语音交互方法、装置、计算机设备和存储介质
CN112242139A (zh) * 2019-07-19 2021-01-19 北京儒博科技有限公司 语音交互方法、装置、设备和介质
WO2021063101A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN112908316A (zh) * 2019-12-02 2021-06-04 浙江思考者科技有限公司 Ai智能语音流采集
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置
CN114078478A (zh) * 2021-11-12 2022-02-22 北京百度网讯科技有限公司 语音交互的方法、装置、电子设备及存储介质
CN114582333A (zh) * 2022-02-21 2022-06-03 中国第一汽车股份有限公司 语音识别方法、装置、电子设备及存储介质
CN114648984A (zh) * 2022-05-23 2022-06-21 深圳华策辉弘科技有限公司 音频断句方法、装置、计算机设备及存储介质
CN115512687A (zh) * 2022-11-08 2022-12-23 之江实验室 一种语音断句方法、装置、存储介质及电子设备
CN117524199A (zh) * 2024-01-04 2024-02-06 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN112700769B (zh) * 2020-12-26 2024-07-05 中国科学技术大学 一种语义理解方法、装置、设备以及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393845A (zh) * 2021-06-11 2021-09-14 上海明略人工智能(集团)有限公司 用于说话人识别的方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1252592A (zh) * 1998-10-28 2000-05-10 国际商业机器公司 会话自然语言的命令边界鉴别器
JP2002041082A (ja) * 2000-07-28 2002-02-08 Hitachi Ltd 音声認識装置
US20070225982A1 (en) * 2006-03-22 2007-09-27 Fujitsu Limited Speech recognition apparatus, speech recognition method, and recording medium recorded a computer program
CN103035243A (zh) * 2012-12-18 2013-04-10 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
CN104267922A (zh) * 2014-09-16 2015-01-07 联想(北京)有限公司 一种信息处理方法及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
CN105100460A (zh) * 2015-07-09 2015-11-25 上海斐讯数据通信技术有限公司 一种声音操控智能终端的方法及系统
US10339917B2 (en) * 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
CN107146602B (zh) * 2017-04-10 2020-10-02 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1252592A (zh) * 1998-10-28 2000-05-10 国际商业机器公司 会话自然语言的命令边界鉴别器
JP2002041082A (ja) * 2000-07-28 2002-02-08 Hitachi Ltd 音声認識装置
US20070225982A1 (en) * 2006-03-22 2007-09-27 Fujitsu Limited Speech recognition apparatus, speech recognition method, and recording medium recorded a computer program
CN103035243A (zh) * 2012-12-18 2013-04-10 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
CN104267922A (zh) * 2014-09-16 2015-01-07 联想(北京)有限公司 一种信息处理方法及电子设备

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188591A1 (zh) * 2017-04-10 2018-10-18 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108847236A (zh) * 2018-07-26 2018-11-20 珠海格力电器股份有限公司 语音信息的接收方法及装置、语音信息的解析方法及装置
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
CN108962262A (zh) * 2018-08-14 2018-12-07 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109473104A (zh) * 2018-11-07 2019-03-15 苏州思必驰信息科技有限公司 语音识别网络延时优化方法及装置
CN109473104B (zh) * 2018-11-07 2021-11-30 思必驰科技股份有限公司 语音识别网络延时优化方法及装置
CN111627463A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN111627463B (zh) * 2019-02-28 2024-01-16 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN111785259A (zh) * 2019-04-04 2020-10-16 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110162176A (zh) * 2019-05-20 2019-08-23 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110162176B (zh) * 2019-05-20 2022-04-26 北京百度网讯科技有限公司 语音指令的挖掘方法和装置终端、计算机可读介质
CN110287303A (zh) * 2019-06-28 2019-09-27 北京猎户星空科技有限公司 人机对话处理方法、装置、电子设备及存储介质
CN110287303B (zh) * 2019-06-28 2021-08-20 北京猎户星空科技有限公司 人机对话处理方法、装置、电子设备及存储介质
CN110517673A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
WO2021008035A1 (zh) * 2019-07-18 2021-01-21 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110517673B (zh) * 2019-07-18 2023-08-18 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN112242139B (zh) * 2019-07-19 2024-01-23 北京如布科技有限公司 语音交互方法、装置、设备和介质
CN112242139A (zh) * 2019-07-19 2021-01-19 北京儒博科技有限公司 语音交互方法、装置、设备和介质
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
WO2021063101A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN110767240B (zh) * 2019-10-31 2021-12-03 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN110808031A (zh) * 2019-11-22 2020-02-18 大众问问(北京)信息科技有限公司 一种语音识别方法、装置和计算机设备
CN112908316A (zh) * 2019-12-02 2021-06-04 浙江思考者科技有限公司 Ai智能语音流采集
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置
US11416687B2 (en) 2020-03-04 2022-08-16 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus for recognizing speech
CN111402866A (zh) * 2020-03-23 2020-07-10 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111402866B (zh) * 2020-03-23 2024-04-05 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111916082A (zh) * 2020-08-14 2020-11-10 腾讯科技(深圳)有限公司 语音交互方法、装置、计算机设备和存储介质
CN112700769B (zh) * 2020-12-26 2024-07-05 中国科学技术大学 一种语义理解方法、装置、设备以及计算机可读存储介质
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN114078478A (zh) * 2021-11-12 2022-02-22 北京百度网讯科技有限公司 语音交互的方法、装置、电子设备及存储介质
CN114582333A (zh) * 2022-02-21 2022-06-03 中国第一汽车股份有限公司 语音识别方法、装置、电子设备及存储介质
CN114648984A (zh) * 2022-05-23 2022-06-21 深圳华策辉弘科技有限公司 音频断句方法、装置、计算机设备及存储介质
CN114648984B (zh) * 2022-05-23 2022-08-19 深圳华策辉弘科技有限公司 音频断句方法、装置、计算机设备及存储介质
CN115512687A (zh) * 2022-11-08 2022-12-23 之江实验室 一种语音断句方法、装置、存储介质及电子设备
CN117524199A (zh) * 2024-01-04 2024-02-06 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN117524199B (zh) * 2024-01-04 2024-04-16 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆

Also Published As

Publication number Publication date
CN107146602B (zh) 2020-10-02
WO2018188591A1 (zh) 2018-10-18

Similar Documents

Publication Publication Date Title
CN107146602A (zh) 一种语音识别方法、装置及电子设备
CN107147618A (zh) 一种用户注册方法、装置及电子设备
CN107909998B (zh) 语音指令处理方法、装置、计算机设备和存储介质
CN108962233B (zh) 用于语音对话平台的语音对话处理方法及系统
CN105070290A (zh) 人机语音交互方法及系统
CN108958810A (zh) 一种基于声纹的用户识别方法、装置及设备
US20150179170A1 (en) Discriminative Policy Training for Dialog Systems
CN108694940A (zh) 一种语音识别方法、装置及电子设备
CN107146612A (zh) 语音引导方法、装置、智能设备及服务器
CN106297801A (zh) 语音处理方法及装置
CN111049996A (zh) 多场景语音识别方法及装置、和应用其的智能客服系统
CN102847325B (zh) 基于移动通讯终端语音交互的玩具控制方法及系统
CN108039175B (zh) 语音识别方法、装置及服务器
CN110019687A (zh) 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN105635492A (zh) 电子设备中闹钟的实现方法、装置及电子设备
US11721328B2 (en) Method and apparatus for awakening skills by speech
CN107146605A (zh) 一种语音识别方法、装置及电子设备
CN111627423A (zh) Vad尾点检测方法、装置、服务器和计算机可读介质
WO2023109129A1 (zh) 语音数据的处理方法及装置
US20210158816A1 (en) Method and apparatus for voice interaction, device and computer readable storate medium
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN110889008B (zh) 一种音乐推荐方法、装置、计算装置和存储介质
CN110473524B (zh) 语音识别系统的构建方法和装置
CN111508481A (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN114999457A (zh) 语音系统的测试方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant