CN112185371A - 语音交互的方法、装置、设备和计算机存储介质 - Google Patents

语音交互的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN112185371A
CN112185371A CN201910604759.3A CN201910604759A CN112185371A CN 112185371 A CN112185371 A CN 112185371A CN 201910604759 A CN201910604759 A CN 201910604759A CN 112185371 A CN112185371 A CN 112185371A
Authority
CN
China
Prior art keywords
command word
recognition result
text recognition
word list
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910604759.3A
Other languages
English (en)
Inventor
范冰冰
梁浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910604759.3A priority Critical patent/CN112185371A/zh
Publication of CN112185371A publication Critical patent/CN112185371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种语音交互的方法、装置、设备和计算机存储介质,所述方法包括:智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果;分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令;结束所述录音,执行与所述指令相对应的操作。本发明能够缩短用户与智能设备进行语音交互所需的时间,提升语音交互的效率。

Description

语音交互的方法、装置、设备和计算机存储介质
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种语音交互的方法、装置、设备和计算机存储介质。
【背景技术】
在现有技术中,智能设备在进行语音交互时,需要首先获取用户所输入的语音内容,进而对所获取的语音内容进行识别后再执行相应的操作。但现有的智能设备通常采用预先设置固定的录音时间的方式,来获取用户所输入的语音内容。因此,现有技术存在以下缺点:即使用户在录音结束前完成了语音输入,但智能设备仍然会保持录音状态,直至录音时间结束,从而导致用户与智能设备之间语音交互的耗时较长,语音交互的效率较低。
【发明内容】
有鉴于此,本发明提供了一种语音交互的方法、装置、设备和计算机存储介质,用于缩短语音交互的时间,提升语音交互的效率。
本发明为解决技术所采用的技术方案是提供一种语音交互的方法,所述方法包括:智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果;分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令;结束所述录音,执行与所述指令相对应的操作。
根据本发明一优选实施例,所述获取用户所输入的语音内容及其对应的文本识别结果包括:确定用户语音输入的结束时间;获取录音的开启时间与所述结束时间之间的语音内容作为所述用户所输入的语音内容;对所述语音内容进行文本转换,得到所述文本识别结果。
根据本发明一优选实施例,所述从中选取满足预设选取条件的解析结果作为指令包括:从两个解析结果中选取返回速度较快的解析结果作为指令。
根据本发明一优选实施例,利用本地命令词列表对所述文本识别结果进行指令解析包括:将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词;获取与所确定的命令词相对应的指令作为解析结果。
根据本发明一优选实施例,所述将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词包括:计算所述文本识别结果与本地命令词列表中各命令词之间的语义相似度;将语义相似度满足预设匹配条件的命令词作为与所述文本识别结果相匹配的命令词。
根据本发明一优选实施例,所述本地命令词列表为预设命令词列表以及动态命令词列表中的至少一个。
根据本发明一优选实施例,所述预设命令词列表通过以下方式预先建立:记录用户各次输入的语音内容所对应的文本;确定满足预设频次条件的各文本作为命令词,并根据所确定的命令词建立预设命令词列表。
根据本发明一优选实施例,所述动态命令词列表通过以下方式实时建立:确定当前页面中的各可点击选项;根据所述各可点击选项对应的文本确定命令词;根据所确定的命令词建立对应当前页面的动态命令词列表
本发明为解决技术问题所采用的技术方案是提供一种语音交互的装置,所述装置位于智能设备,包括:获取单元,用于智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果;解析单元,用于分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令;处理单元,用于结束所述录音,执行与所述指令相对应的操作。
根据本发明一优选实施例,所述获取单元在获取用户所输入的语音内容及其对应的文本识别结果时,具体执行:确定用户语音输入的结束时间;获取录音的开启时间与所述结束时间之间的语音内容作为所述用户所输入的语音内容;对所述语音内容进行文本转换,得到所述文本识别结果。
根据本发明一优选实施例,所述解析单元在从中选取满足预设选取条件的解析结果作为指令时,具体执行:从两个解析结果中选取返回速度较快的解析结果作为指令。
根据本发明一优选实施例,所述解析单元在利用本地命令词列表对所述文本识别结果进行指令解析时,具体执行:将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词;获取与所确定的命令词相对应的指令作为解析结果。
根据本发明一优选实施例,所述解析单元在将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词时,具体执行:计算所述文本识别结果与本地命令词列表中各命令词之间的语义相似度;将语义相似度满足预设匹配条件的命令词作为与所述文本识别结果相匹配的命令词。
根据本发明一优选实施例,所述本地命令词列表为预设命令词列表以及动态命令词列表中的至少一个。
根据本发明一优选实施例,所述装置还包括建立单元,用于通过以下方式预先建立所述预设命令词列表:记录用户各次输入的语音内容所对应的文本;确定满足预设频次条件的各文本作为命令词,并根据所确定的命令词建立预设命令词列表。
根据本发明一优选实施例,所述解析单元还用于通过以下方式实时建立所述动态命令词列表:确定当前页面中的各可点击选项;根据所述各可点击选项对应的文本确定命令词;根据所确定的命令词建立对应当前页面的动态命令词列表。
由以上技术方案可以看出,本发明通过在智能设备进行语音交互而开启录音之后,利用本地命令词列表以及云端服务器对与用户输入的语音内容所对应的文本识别结果进行指令解析,并在获取满足预设选取条件的解析结果作为指令之后,直接结束录音而执行相应的操作,从而避免了智能设备只有在固定的录音时间结束之后才能够响应指令的问题,从而缩短了语音交互所需的时间,提升了语音交互的效率。
【附图说明】
图1为本发明一实施例提供的一种语音交互的方法流程图;
图2为本发明一实施例提供的智能电视中某一电视剧的影视详情页面的示意图;
图3为本发明一实施例提供的一种语音交互的装置结构图;
图4为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明一实施例提供的一种语音交互的方法流程图,如图1中所示,所述方法包括:
在101中,智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果。
在本步骤中,在智能设备与用户进行语音交互时开启录音,并在获取用户所输入的语音内容之后,再获取该语音内容所对应的文本识别结果。
其中,本发明中的智能设备为具有与用户进行语音交互能力的设备,例如智能手机、智能家电、智能汽车、智能穿戴设备等。
具体地,本步骤在获取用户所输入的语音内容及其对应的文本识别结果时,可以采用以下方式:确定用户语音输入的结束时间,例如可以采用VAD(Voice ActivityDetection,语音活性检测)技术来检测用户是否结束语音输入;获取录音的开启时间与所确定的结束时间之间的语音内容作为用户输入的语音内容;对所获取的语音内容进行文本转换,得到文本识别结果。
在102中,分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令。
在本步骤中,将步骤101中所获取的文本识别结果分别利用本地命令词列表以及云端服务器进行指令解析,以获取本地命令词列表以及云端服务器针对该文本识别结果所返回的解析结果,最后从中选取满足预设条件的解析结果作为指令。其中,本步骤中的指令包括但不限于查询指令、控制指令等。
可以理解的是,若本步骤无法获取本地命令词列表以及云端服务器所返回的解析结果,则智能设备按照常规的语音交互过程,在录音结束之后,再根据用户所输入的语音内容获取相应的指令。
具体地,本步骤中满足预设选取条件的解析结果可以为两个解析结果中返回速度较快的解析结果。也就是说,本步骤通过选取返回速度较快的解析结果作为指令的方式,能够进一步提升终端设备的语音交互速度。
举例来说,若利用本地命令词列表率先返回了解析结果,则本步骤选取该解析结果作为指令,并舍弃云端服务器返回的解析结果;同理可得,若利用云端服务器率先返回了解析结果,则本步骤选取该解析结果作为指令,并舍弃本地命令词列表返回的解析结果。
可以理解的是,本步骤中满足预设条件的解析结果还可以为两个解析结果中置信度较高的解析结果。例如,在本地命令词列表与云端服务器同时返回了解析结果的情况下,本步骤可以将两个解析结果中置信度较高的解析结果作为指令,并舍弃另一个置信度较低的解析结果。
另外,由于云端服务器的数据处理性能更为强大,在本地命令词列表与云端服务器同时返回了解析结果的情况下,则本步骤可以直接将云端服务器返回的解析结果作为指令,并舍弃本地命令词列表返回的解析结果。
具体地,本步骤在利用本地命令词列表对文本识别结果进行指令解析时,可以采用以下方式:将所获取的文本识别结果在本地命令词列表中进行匹配,确定与该文本识别结果相匹配的命令词;获取与所确定的命令词相对应的指令作为解析结果。
其中,本步骤在将文本识别结果在本地命令词列表中进行匹配时,可以采用以下方式:计算文本识别结果与本地命令词列表中各命令词之间的语义相似度;将语义相似度满足预设匹配条件的命令词作为与文本识别结果相匹配的命令词。其中,本步骤中的预设匹配条件可以为语义相似度的计算结果最高的命令词。
具体地,本步骤中的本地命令词列表可以为预设命令词列表以及动态命令词列表中的至少一个。其中,预设命令词列表是根据用户的输入习惯而预先建立的,而动态命令词列表则是根据用户当前所处页面来实时建立的。
对于预设命令词列表,本步骤可以采用以下方式预先建立:记录用户各次输入的语音内容所对应的文本;确定满足预设频次条件的各文本作为命令词;根据所确定的命令词建立预设命令词列表。
其中,本步骤中的预设频次条件可以为输入频次超过预设阈值的文本;也可以为输入频次排在前N位的文本,其中N为大于等于1的正整数。
举例来说,若用户在日常与终端设备的语音交互过程中,经常说“暂停”、“下一个”、“大点声”等语音内容,则可以将上述语音内容所对应的各文本作为命令词,从而建立预设命令词列表。
对于动态命令词列表,本步骤可以采用以下方式实时建立:确定当前页面中的各可点击选项,可点击选项即为当前页面中可由用户选择以进行操作的选项;根据所确定的各可点击选项对应的文本确定命令词,其中智能设备对应的服务器会保存该智能设备的各页面中可点击选项及其对应的文本,因此本步骤可以通过访问相应的服务器来获取可点击选项对应的文本;根据所确定的命令词建立对应当前页面的动态命令词列表。
举例来说,图2为本发明一实施例提供的智能电视中某一电视剧的影视详情页面的示意图,如图2中所示,若该页面中的可点击选项为“播放第1集”、“收藏”、“购买会员”、“选集”、“剧情透视”、“演员表”、“精彩片花”、“猜你喜欢”等,则可以根据上述可点击选项对应的文本确定该页面的各命令词,从而建立当前页面的动态命令词列表。
可以理解的是,本步骤在根据所确定的各可点击选项对应的文本确定命令词时,可以直接将各可点击选项对应的文本作为各命令词。本步骤也可以按照预设策略对各可点击选项对应的文本进行处理之后,将各文本的处理结果作为各命令词。举例来说,对于“收藏”所对应的命令词,可以为“点击收藏”、“加入收藏”或者“打开收藏”等。
另外,本步骤中的本地命令词列表中除了包含有各命令词之外,还可以包含有与各命令词所对应的指令。因此,本步骤在获取与文本识别结果相匹配的命令词后,再从本地命令词列表中获取与所匹配的命令词对应的指令。
举例来说,若本地命令词列表中包含有“返回”、“后退”、“回去”以及“退回”这4个命令词,则该本地命令词列表中还分别包含有上述四个命令词所对应的控制指令“返回”,即无论用户发出“返回”还是“后退”的语音,其对应的控制指令均为“返回”。
可以理解的是,本步骤还可以另外设置指令集合,该指令集合中包含有各指令及其所属的命令词。也就是说,本步骤在通过本地命令词列表确定命令词之后,根据该指令集合再获取与所确定的命令词对应的指令
举例来说,若指令集合中存在“下页”的控制指令,若该控制指令所属的命令词包含“往下翻”、“下一页”以及“翻到下页”,则无论用户发出“往下翻”还是“下一页”的语音,其对应的控制指令均为“下页”。
在103中,结束所述录音,执行与所述指令相对应的操作。
在本步骤中,在根据步骤102获取了相应的指令之后,则智能设备结束录音,直接根据所获取的指令执行相应的操作。例如,智能设备在结束录音之后,根据查询指令进行查询操作或者根据控制指令进行控制操作。
也就是说,本步骤在获取到指令之后,便无需再耗费剩余的录音时间,直接结束录音以快速地对所获取的指令进行响应,从而缩短了语音交互所需的时间,提升了语音交互的效率。
图3为本发明一实施例提供的一种语音交互的装置结构图,如图3中所示,所述装置位于智能设备,包括:获取单元31、解析单元32、处理单元33以及建立单元34。
获取单元31,用于在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果。
获取单元31在智能设备与用户进行语音交互时开启录音,并在获取用户所输入的语音内容之后,再获取该语音内容所对应的文本识别结果。
具体地,获取单元31在获取用户所输入的语音内容及其对应的文本识别结果时,可以采用以下方式:确定用户语音输入的结束时间;获取录音的开启时间与所确定的结束时间之间的语音内容作为用户输入的语音内容;对所获取的语音内容进行文本转换,得到文本识别结果。
解析单元32,用于分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令。
解析单元32将获取单元31所获取的文本识别结果分别利用本地命令词列表以及云端服务器进行指令解析,以获取本地命令词列表以及云端服务器针对该文本识别结果所返回的解析结果,最后从中选取满足预设条件的解析结果作为指令。解析单元32中的指令包括但不限于查询指令、控制指令等。
可以理解的是,若解析单元32无法获取本地命令词列表以及云端服务器所返回的解析结果,则智能设备按照常规的语音交互过程,在录音结束之后,再根据用户所输入的语音内容获取相应的指令。
具体地,解析单元32中满足预设选取条件的解析结果可以为两个解析结果中返回速度较快的解析结果。也就是说,解析单元32通过选取返回速度较快的解析结果作为指令的方式,能够进一步提升终端设备的语音交互速度。
可以理解的是,解析单元32中满足预设条件的解析结果还可以为两个解析结果中置信度较高的解析结果。另外,由于云端服务器的数据处理性能更为强大,在本地命令词列表与云端服务器同时返回了解析结果的情况下,则解析单元32还可以直接将云端服务器返回的解析结果作为指令,并舍弃本地命令词列表返回的解析结果。
具体地,解析单元32在利用本地命令词列表对文本识别结果进行指令解析时,可以采用以下方式:将所获取的文本识别结果在本地命令词列表中进行匹配,确定与该文本识别结果相匹配的命令词;获取与所确定的命令词相对应的指令作为解析结果。
其中,解析单元32在将文本识别结果在本地命令词列表中进行匹配时,可以采用以下方式:计算文本识别结果与本地命令词列表中各命令词之间的语义相似度;将语义相似度满足预设匹配条件的命令词作为与文本识别结果相匹配的命令词。其中,解析单元32中的预设匹配条件可以为语义相似度的计算结果最高的命令词。
具体地,解析单元32中的本地命令词列表可以为预设命令词列表以及动态命令词列表中的至少一个。其中,预设命令词列表是根据用户的输入习惯预先建立的,而动态命令词列表则是根据用户当前所处页面来实时建立的。
对于预设命令词列表,由建立单元34采用以下方式预先建立:记录用户各次输入的语音内容所对应的文本;确定满足预设频次条件的各文本作为命令词;根据所确定的命令词建立预设命令词列表。
其中,建立单元34中的预设频次条件可以为输入频次超过预设阈值的文本;也可以为输入频次排在前N位的文本,其中N为大于等于1的正整数。
对于动态命令词列表,由解析单元32采用以下方式实时建立:确定当前页面中的各可点击选项;根据所确定的各可点击选项对应的文本确定命令词;根据所确定的命令词建立对应当前页面的动态命令词列表。
可以理解的是,解析单元32在根据所确定的各可点击选项对应的文本确定命令词时,可以直接将各可点击选项对应的文本作为各命令词。解析单元32也可以按照预设策略对各可点击选项对应的文本进行处理之后,将各文本的处理结果作为各命令词。
另外,解析单元32中的本地命令词列表中除了包含有各命令词之外,还可以包含有与各命令词所对应的指令。因此,解析单元32在获取与文本识别结果相匹配的命令词后,再从本地命令词列表中获取与所匹配的命令词对应的指令。
可以理解的是,解析单元32还可以另外设置指令集合,该指令集合中包含有各指令及其所属的命令词。也就是说,解析单元32在通过本地命令词列表确定命令词之后,根据该指令集合再获取与所确定的命令词对应的指令
处理单元33,用于结束所述录音,执行与所述指令相对应的操作。
处理单元33在根据解析单元32获取了相应的指令之后,则控制智能设备结束录音,直接根据所获取的指令执行相应的操作。
也就是说,处理单元33在获取到指令之后,便无需再耗费剩余的录音时间,直接结束录音以快速地对所获取的指令进行响应,从而缩短了语音交互所需的时间,提升了语音交互的效率。
如图4所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,通过在智能设备进行语音交互而开启录音之后,利用本地命令词列表以及云端服务器对与用户输入的语音内容所对应的文本识别结果进行指令解析,并在获取满足预设选取条件的解析结果作为指令之后,直接结束录音而执行相应的操作,从而避免了智能设备只有在固定的录音时间结束之后才能够响应指令的问题,从而缩短了语音交互所需的时间,提升了语音交互的效率。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种语音交互的方法,其特征在于,所述方法包括:
智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果;
分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令;
结束所述录音,执行与所述指令相对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述获取用户所输入的语音内容及其对应的文本识别结果包括:
确定用户语音输入的结束时间;
获取录音的开启时间与所述结束时间之间的语音内容作为所述用户所输入的语音内容;
对所述语音内容进行文本转换,得到所述文本识别结果。
3.根据权利要求1所述的方法,其特征在于,所述从中选取满足预设选取条件的解析结果作为指令包括:
从两个解析结果中选取返回速度较快的解析结果作为指令。
4.根据权利要求1所述的方法,其特征在于,利用本地命令词列表对所述文本识别结果进行指令解析包括:
将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词;
获取与所确定的命令词相对应的指令作为解析结果。
5.根据权利要求4所述的方法,其特征在于,所述将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词包括:
计算所述文本识别结果与本地命令词列表中各命令词之间的语义相似度;
将语义相似度满足预设匹配条件的命令词作为与所述文本识别结果相匹配的命令词。
6.根据权利要求1所述的方法,其特征在于,所述本地命令词列表为预设命令词列表以及动态命令词列表中的至少一个。
7.根据权利要求6所述的方法,其特征在于,所述预设命令词列表通过以下方式预先建立:
记录用户各次输入的语音内容所对应的文本;
确定满足预设频次条件的各文本作为命令词,并根据所确定的命令词建立预设命令词列表。
8.根据权利要求6所述的方法,其特征在于,所述动态命令词列表通过以下方式实时建立:
确定当前页面中的各可点击选项;
根据所述各可点击选项对应的文本确定命令词;
根据所确定的命令词建立对应当前页面的动态命令词列表。
9.一种语音交互的装置,其特征在于,所述装置包括:
获取单元,用于智能设备在进行语音交互时开启录音,获取用户所输入的语音内容及其对应的文本识别结果;
解析单元,用于分别利用本地命令词列表以及云端服务器对所述文本识别结果进行指令解析,并从中选取满足预设选取条件的解析结果作为指令;
处理单元,用于结束所述录音,执行与所述指令相对应的操作。
10.根据权利要求9所述的装置,其特征在于,所述获取单元在获取用户所输入的语音内容及其对应的文本识别结果时,具体执行:
确定用户语音输入的结束时间;
获取录音的开启时间与所述结束时间之间的语音内容作为所述用户所输入的语音内容;
对所述语音内容进行文本转换,得到所述文本识别结果。
11.根据权利要求9所述的装置,其特征在于,所述解析单元在从中选取满足预设选取条件的解析结果作为指令时,具体执行:
从两个解析结果中选取返回速度较快的解析结果作为指令。
12.根据权利要求9所述的装置,其特征在于,所述解析单元在利用本地命令词列表对所述文本识别结果进行指令解析时,具体执行:
将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词;
获取与所确定的命令词相对应的指令作为解析结果。
13.根据权利要求12所述的装置,其特征在于,所述解析单元在将所述文本识别结果在本地命令词列表中进行匹配,确定与所述文本识别结果相匹配的命令词时,具体执行:
计算所述文本识别结果与本地命令词列表中各命令词之间的语义相似度;
将语义相似度满足预设匹配条件的命令词作为与所述文本识别结果相匹配的命令词。
14.根据权利要求9所述的装置,其特征在于,所述本地命令词列表为预设命令词列表以及动态命令词列表中的至少一个。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括建立单元,用于通过以下方式预先建立所述预设命令词列表:
记录用户各次输入的语音内容所对应的文本;
确定满足预设频次条件的各文本作为命令词,并根据所确定的命令词建立预设命令词列表。
16.根据权利要求14所述的装置,其特征在于,所述解析单元还用于通过以下方式实时建立所述动态命令词列表:
确定当前页面中的各可点击选项;
根据所述各可点击选项对应的文本确定命令词;
根据所确定的命令词建立对应当前页面的动态命令词列表。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
CN201910604759.3A 2019-07-05 2019-07-05 语音交互的方法、装置、设备和计算机存储介质 Pending CN112185371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910604759.3A CN112185371A (zh) 2019-07-05 2019-07-05 语音交互的方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910604759.3A CN112185371A (zh) 2019-07-05 2019-07-05 语音交互的方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN112185371A true CN112185371A (zh) 2021-01-05

Family

ID=73915998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910604759.3A Pending CN112185371A (zh) 2019-07-05 2019-07-05 语音交互的方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN112185371A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109410927A (zh) * 2018-11-29 2019-03-01 北京蓦然认知科技有限公司 离线命令词与云端解析结合的语音识别方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109410927A (zh) * 2018-11-29 2019-03-01 北京蓦然认知科技有限公司 离线命令词与云端解析结合的语音识别方法、装置和系统

Similar Documents

Publication Publication Date Title
CN108376543B (zh) 一种电器设备的控制方法、装置、设备和存储介质
CN109637519B (zh) 语音交互实现方法、装置、计算机设备及存储介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
US11024332B2 (en) Cloud-based speech processing method and apparatus
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN109346074B (zh) 一种语音处理方法及系统
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
CN107943834B (zh) 人机对话的实现方法、装置、设备及存储介质
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
CN109003611B (zh) 用于车辆语音控制的方法、装置、设备和介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
US10891945B2 (en) Method and apparatus for judging termination of sound reception and terminal device
US11893988B2 (en) Speech control method, electronic device, and storage medium
CN112652302B (zh) 语音控制方法、装置、终端及存储介质
CN108959520A (zh) 基于人工智能的搜索方法、装置、设备和存储介质
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
CN111400463B (zh) 对话响应方法、装置、设备和介质
US11574632B2 (en) In-cloud wake-up method and system, terminal and computer-readable storage medium
CN114582333A (zh) 语音识别方法、装置、电子设备及存储介质
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN111261157A (zh) 一种短视频的控制方法、装置、设备及存储介质
CN112185371A (zh) 语音交互的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210514

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.