CN109979437A - 语音识别方法、装置、设备和存储介质 - Google Patents

语音识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109979437A
CN109979437A CN201910156924.3A CN201910156924A CN109979437A CN 109979437 A CN109979437 A CN 109979437A CN 201910156924 A CN201910156924 A CN 201910156924A CN 109979437 A CN109979437 A CN 109979437A
Authority
CN
China
Prior art keywords
information
voice
recognition result
missing
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910156924.3A
Other languages
English (en)
Other versions
CN109979437B (zh
Inventor
张腾飞
陈建哲
向伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910156924.3A priority Critical patent/CN109979437B/zh
Publication of CN109979437A publication Critical patent/CN109979437A/zh
Application granted granted Critical
Publication of CN109979437B publication Critical patent/CN109979437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种语音识别方法、装置、设备和存储介质。该方法包括:对第一语音进行语义识别,得到第一识别结果;对比所述第一识别结果和参考信息,得到缺失信息;根据所述缺失信息获取第二语音;对所述第二语音进行语义识别,得到第二识别结果;拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。本发明实施例的技术方案可以提高指令解析的准确度,提升解析到完整语义的效率,优化用户体验。

Description

语音识别方法、装置、设备和存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备和存储介质。
背景技术
目前,在语音识别过程中,存在一些不够智能的问题。例如:如果不能正确解析出用户语音指令中的完整语义,需要提醒用户重说指令。这种方式缺少有效容错机制,会造成指令解析的浪费,交互体验差。或者,用户没有讲完语音指令,语音指令就被发送到语义解析模块进行解析。这样会中断语音识别过程,影响用户体验。
发明内容
本发明实施例提供一种语音识别方法、装置、设备和存储介质,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种语音识别方法,包括:
对第一语音进行语义识别,得到第一识别结果;
对比所述第一识别结果和参考信息,得到缺失信息;
根据所述缺失信息获取第二语音;
对所述第二语音进行语义识别,得到第二识别结果;
拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
在一种实施方式中,根据所述缺失信息获取第二语音,包括:
判断所述缺失信息是否包括所述参考信息中的尾部信息;
如果是,则获取所述第二语音。
在一种实施方式中,根据所述缺失信息获取第二语音,还包括:
如果否,则判断所述缺失信息是否包括所述参考信息中的中间信息;
如果所述缺失信息包括所述中间信息,则发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,根据所述缺失信息获取第二语音,包括:
判断所述缺失信息是否包括所述参考信息中的中间信息;
如果是,则发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,根据所述缺失信息获取第二语音,包括:
发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,所述参考信息是执行指令信息,所述对比所述第一识别结果和参考信息,得到缺失信息,包括:
根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;
对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
在一种实施方式中,所述语音识别方法还包括:
接收语音数据流;
对所述语音数据流进行尾点检测,得到所述第一语音或所述第二语音。
第二方面,本发明实施例提供一种语音识别装置,包括:
第一识别模块,用于对第一语音进行语义识别,得到第一识别结果;
对比模块,用于对比所述第一识别结果和参考信息,得到缺失信息;
获取模块,用于根据所述缺失信息获取第二语音;
第二识别模块,用于对所述第二语音进行语义识别,得到第二识别结果;
拼接模块,用于拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
在一种实施方式中,所述获取模块包括:
第一判断子模块,用于判断所述缺失信息是否包括所述参考信息中的尾部信息;
获取子模块,用于当所述缺失信息包括所述尾部信息时,获取所述第二语音。
在一种实施方式中,所述获取模块还包括:
第二判断子模块,用于当所述缺失信息不包括所述尾部信息时,判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,所述获取模块包括:
判断子模块,用于判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,所述获取模块包括:
发送子模块,用于发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,所述参考信息是执行指令信息,所述对比模块包括:
确定子模块,用于根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;
对比子模块,用于对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
在一种实施方式中,所述语音识别装置还包括:
接收模块,用于接收语音数据流;
尾点检测模块,用于对所述语音数据流进行尾点检测,得到所述第一语音或所述第二语音。
第三方面,本发明实施例提供了一种语音识别设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音识别装置所用的计算机软件指令,其包括用于执行上述方法所涉及的程序。
上述技术方案通过对比参考信息和第一轮语音识别的结果,确定缺失信息,并根据缺失信息,采用不同的方式进行第二轮语音识别。例如:当缺失信息包括尾部信息时,可以不提示用户直接进行下一轮语音识别;当缺失信息包括中间信息时,提示用户输入中间信息,然后进行下一轮语音识别。进一步地,拼接两轮语音识别的结果,可以得到用户语音指令的解析结果。本发明实施例的方法可以提高指令解析的准确度,提升解析到完整语义的效率,优化用户体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的语音识别方法的流程图。
图2示出根据本发明实施例一种实施方式的语音识别方法的流程图。
图3示出根据本发明实施例另一种实施方式的语音识别方法的流程图。
图4示出根据本发明实施例又一种实施方式的语音识别方法的流程图。
图5示出根据本发明实施例再一种实施方式的语音识别方法的流程图。
图6示出根据本发明实施例的语音识别装置的结构框图。
图7示出根据本发明实施例一种实施方式的语音识别装置的结构框图。
图8示出根据本发明实施例另一种实施方式的语音识别装置的结构框图。
图9示出根据本发明实施例又一种实施方式的语音识别装置的结构框图。
图10示出根据本发明实施例再一种实施方式的语音识别装置的结构框图。
图11示出根据本发明实施例的语音识别设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的语音识别方法的流程图。如图1所示,该方法可以包括以下步骤:
步骤S101、对第一语音进行语义识别,得到第一识别结果;
步骤S102、对比所述第一识别结果和参考信息,得到缺失信息;
步骤S103、根据所述缺失信息获取第二语音;
步骤S104、对所述第二语音进行语义识别,得到第二识别结果;
步骤S105、拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
在一种实施方式中,可以接收语音数据流,对该语音数据流进行尾点检测,得到第一语音或第二语音。其中,第一语音和第二语音可以是语音片段。例如:接收用户输入的语音指令“我要导航去西单”(语音数据流)。如果检测到在音节“西单”后没有语音输入,则计时无语音输入的时长。当检测到无语音输入的时长超过预设时长(如490毫秒)时,可以将最后一个音节“西单”作为尾点,截断语音数据流,进而得到语音片段“我要导航去西单”。
第一识别结果、第二识别结果和第三识别结果均可以包括文本形式。例如:对第一语音“我要导航去”进行语义识别,得到文本形式的第一识别结果“我要导航去”。又如:对第一语音“我要西单”进行语义识别,得到文本形式的第一识别结果“我要西单”。
参考信息可以作为判断第一识别结果是否为完整语义的参考标准。参考信息中可以包括中间信息和尾部信息。其中,尾部信息可以用于预测用户是否会直接输入第二语音。
在一个示例中,可以将参考信息划分为首字段、中间字段和尾字段。尾字段可以作为尾部信息,中间字段可以作为中间信息。在一个示例中,参考信息中除尾部信息外的信息均可以作为中间信息。例如:参考信息为“导航+目的地”,其中,“导航”为中间信息,“目的地”为尾部信息。
对比第一识别结果和参考信息,可以得到缺失信息。对比第一识别结果“我要导航去”和参考信息“导航+目的地”,可以得到缺失信息为“目的地”,以及缺失信息中包括尾部信息。又如:参考信息为“导航+目的地”,对比第一识别结果“我要西单”和参考信息,可以得到缺失信息为“导航”,以及缺失信息中包括中间信息。
根据缺失信息的不同,可以采用不同的获取方式得到第二语音。下面结合图2、图3、图4和图5分别介绍本发明实施例中,根据缺失信息获取第二语音的方法示例。
在一种实施方式中,如图2所示,在步骤S103中可以包括:
步骤S201、判断所述缺失信息是否包括所述参考信息中的尾部信息;如果是,则进入步骤S202;
步骤S202、获取所述第二语音。
在一个示例中,缺失信息包括参考信息中的尾部信息,则可以判定第一识别结果不完整,即第一语音的语义不完整,并且可以预测用户将继续输入语音指令。这种情况下,可以直接进行第二语音的获取。在一个示例中,可以对用户继续输入的语音指令进行尾点检测,得到第二语音。
在一种实施方式中,如图3所示,在步骤S103中可以包括:
步骤S301、判断所述缺失信息是否包括所述参考信息中的中间信息;如果是,则进入步骤S302;
步骤S302、发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一个示例中,缺失信息包括参考信息中的中间信息,则可以判定第一识别结果不完整,即第一语音的语义不完整,并且可以预测用户已经完成语音指令的输入,但可能受环境噪音等因素的影响,第一识别结果并不是完整语义。这种情况下,可以提示用户输入缺失的中间信息。用户可以根据提示,输入与中间信息对应的语音指令。在一个示例中,可以对用户输入的与中间信息对应的语音指令进行尾点检测,得到第二语音。
在一种实施方式中,如图4所示,在步骤S103中可以包括:
步骤S201、判断所述缺失信息是否包括所述参考信息中的尾部信息;如果是,则进入步骤S202;如果否,则进入步骤S401;
步骤S202、获取所述第二语音;
步骤S401、判断所述缺失信息是否包括所述参考信息中的中间信息;如果是,则进入步骤S402;
步骤S402、发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一个示例中,可以首先判断缺失信息是否包括尾部信息,即预测用户是否已经完成一条语音指令的输入。如果缺失信息包括尾部信息,则可以判断用户未完成语音指令的输入,将继续输入语音指令。此时,可以等待用户继续输入语音指令,以获取第二语音。如果缺失信息不包括尾部信息,则可以继续判断缺失信息是否包括中间信息。如果缺失信息包括中间信息,则可以提示用户输入中间信息,以获取第二语音。
在一种实施方式中,如图5所示,在步骤S103中可以包括:
步骤S501、发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
在一个示例中,可以提示用户输入缺失信息。用户可以根据提示,输入与“缺失信息”对应的语音指令。进一步地,可以对用户输入的与“缺失信息”对应的语音指令进行尾点检测,得到第二语音。
进一步地,可以对第二语音进行语义识别,得到第二识别结果。拼接第一识别结果和第二识别结果,得到的第三识别结果可以包括与参考信息对应的完整语义。例如:第一识别结果为“导航去”,第二识别结果为“西单”,拼接第一识别结果和第二识别结果,可以得到第三识别结果“导航去西单”。又如:第一识别结果为“去西单”,第二识别结果为“导航”,拼接第一识别结果和第二识别结果,可以得到第三识别结果“导航去西单”。将第三识别结果作为对用户语音指令的解析结果,并基于该解析结果生成对应的执行指令。
在一种实施方式中,参考信息可以是执行指令信息。在步骤S102中,可以包括:根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
其中,执行指令信息可以为与执行指令相关的参数信息。例如:与导航指令相关的参数信息包括“导航”和“目的地”,那么导航指令的执行指令信息可以为“导航+目的地”。执行指令可以用于触发相应的组件。例如:导航指令,该执行指令用于触发导航组件。
本发明实施例中,关键词可以是单词或汉语词汇;关键词可以包括一个字,也可以包括多个字。在一个示例中,可以采用关键词命中的方法,从多个垂类的多个执行指令信息中,确定与第一识别结果匹配的执行指令信息。例如:第一识别结果“去西单”中的关键词“西单”为地址信息。在多个执行指令信息中,导航指令的执行指令信息与第一识别结果最匹配,则可以将导航指令的执行指令信息作为参考信息。又例如:第一识别结果“导航去西单”中的关键词包括“导航”和“西单”,利于“导航”和“西单”均可以匹配到导航指令的执行指令信息,则可以将导航指令的执行指令信息作为参考信息。
对比第一识别结果与执行指令信息,以判断第一识别结果是否为完整的导航指令。如果不完整,则可以通过对比第一识别结果与执行指令信息,得到缺失信息。
执行指令信息可以分为中间信息和尾部信息。例如:导航指令的指令执行信息“导航+目的地”中,“导航”为中间信息,“目的地”为尾部信息。如果缺失信息为尾部信息,则可以不提示用户,并等待用户语音输入,以进行第二语音和第二识别结果的获取。如果缺失信息为中间信息,则可以提示用户输入缺失信息,以进行第二语音和第二识别结果的获取。
综上所述,本发明实施例的语音识别方法通过对比参考信息和第一轮语音识别的结果,确定缺失信息,并根据缺失信息,采用不同的方式进行第二轮语音识别。例如:当缺失信息包括尾部信息时,可以不提示用户直接进行下一轮语音识别;当缺失信息包括中间信息时,提示用户输入中间信息,然后进行下一轮语音识别。进一步地,拼接两轮语音识别的结果,可以得到用户语音指令的解析结果。本发明实施例的方法可以提高指令解析的准确度,提升解析到完整语义的效率,优化用户体验。
图6示出根据本发明实施例的语音识别装置的结构框图。如图6所示,该装置可以包括:
第一识别模块601,用于对第一语音进行语义识别,得到第一识别结果;
对比模块602,用于对比所述第一识别结果和参考信息,得到缺失信息;
获取模块603,用于根据所述缺失信息获取第二语音;
第二识别模块604,用于对所述第二语音进行语义识别,得到第二识别结果;
拼接模块604,用于拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
在一种实施方式中,如图7所示,获取模块603可以包括:
第一判断子模块701,用于判断所述缺失信息是否包括所述参考信息中的尾部信息;
获取子模块702,用于当所述缺失信息包括所述尾部信息时,获取所述第二语音。
在一种实施方式中,如图7所示,获取模块603还可以包括:
第二判断子模块703,用于当所述缺失信息不包括所述尾部信息时,判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块704,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,如图8所示,获取模块603可以包括:
判断子模块801,用于判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块802,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,如图9所示,获取模块603可以包括:
发送子模块901,用于发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
在一种实施方式中,所述参考信息可以是执行指令信息,如图10所示,对比模块602可以包括:
确定子模块1001,用于根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;
对比子模块1002,用于对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
在一种实施方式中,本发明实施例的语音识别装置还可以包括:接收模块,用于接收语音数据流;尾点检测模块,用于对所述语音数据流进行尾点检测,得到所述第一语音或所述第二语音。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图11示出根据本发明实施例的语音识别设备的结构框图。如图11所示,该设备包括:存储器1101和处理器1102,存储器1101内存储有可在处理器1102上执行的计算机程序。所述处理器1102执行所述计算机程序时实现上述实施例中的语音识别方法。所述存储器1101和处理器1102的数量可以为一个或多个。
该设备还包括:
通信接口1103,用于与外界设备进行通信,进行数据交互传输。
存储器1101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1101、处理器1102和通信接口1103独立实现,则存储器1101、处理器1102和通信接口1103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component Interconnect)总线或扩展工业标准体系结构(EISA,ExtendedIndustry Standard Component)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1101、处理器1102及通信接口1103集成在一块芯片上,则存储器1101、处理器1102及通信接口1103可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种语音识别方法,其特征在于,包括:
对第一语音进行语义识别,得到第一识别结果;
对比所述第一识别结果和参考信息,得到缺失信息;
根据所述缺失信息获取第二语音;
对所述第二语音进行语义识别,得到第二识别结果;
拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
2.根据权利要求1所述的方法,其特征在于,根据所述缺失信息获取第二语音,包括:
判断所述缺失信息是否包括所述参考信息中的尾部信息;
如果是,则获取所述第二语音。
3.根据权利要求2所述的方法,其特征在于,根据所述缺失信息获取第二语音,还包括:
如果否,则判断所述缺失信息是否包括所述参考信息中的中间信息;
如果所述缺失信息包括所述中间信息,则发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
4.根据权利要求1所述的方法,其特征在于,根据所述缺失信息获取第二语音,包括:
判断所述缺失信息是否包括所述参考信息中的中间信息;
如果是,则发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
5.根据权利要求1所述的方法,其特征在于,根据所述缺失信息获取第二语音,包括:
发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述参考信息是执行指令信息,所述对比所述第一识别结果和参考信息,得到缺失信息,包括:
根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;
对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
7.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
接收语音数据流;
对所述语音数据流进行尾点检测,得到所述第一语音或所述第二语音。
8.一种语音识别装置,其特征在于,包括:
第一识别模块,用于对第一语音进行语义识别,得到第一识别结果;
对比模块,用于对比所述第一识别结果和参考信息,得到缺失信息;
获取模块,用于根据所述缺失信息获取第二语音;
第二识别模块,用于对所述第二语音进行语义识别,得到第二识别结果;
拼接模块,用于拼接所述第一识别结果和所述第二识别结果,得到第三识别结果。
9.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
第一判断子模块,用于判断所述缺失信息是否包括所述参考信息中的尾部信息;
获取子模块,用于当所述缺失信息包括所述尾部信息时,获取所述第二语音。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还包括:
第二判断子模块,用于当所述缺失信息不包括所述尾部信息时,判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
11.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
判断子模块,用于判断所述缺失信息是否包括所述参考信息中的中间信息;
发送子模块,用于当所述缺失信息包括所述中间信息时,发送所述中间信息的输入提示,并获取与所述输入提示对应的第二语音。
12.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
发送子模块,用于发送所述缺失信息的输入提示,并获取与所述输入提示对应的第二语音。
13.根据权利要求8至12任一项所述的装置,其特征在于,所述参考信息是执行指令信息,所述对比模块包括:
确定子模块,用于根据所述第一识别结果中的关键词,确定与所述第一识别结果匹配的执行指令信息;
对比子模块,用于对比所述第一识别结果和所匹配的执行指令信息,确定所述缺失信息。
14.根据权利要求8至12任一项所述的装置,其特征在于,还包括:
接收模块,用于接收语音数据流;
尾点检测模块,用于对所述语音数据流进行尾点检测,得到所述第一语音或所述第二语音。
15.一种语音识别设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201910156924.3A 2019-03-01 2019-03-01 语音识别方法、装置、设备和存储介质 Active CN109979437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910156924.3A CN109979437B (zh) 2019-03-01 2019-03-01 语音识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910156924.3A CN109979437B (zh) 2019-03-01 2019-03-01 语音识别方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109979437A true CN109979437A (zh) 2019-07-05
CN109979437B CN109979437B (zh) 2022-05-20

Family

ID=67077731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910156924.3A Active CN109979437B (zh) 2019-03-01 2019-03-01 语音识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109979437B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674277A (zh) * 2019-09-29 2020-01-10 北京金山安全软件有限公司 交互数据有效性识别方法和装置
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN112583865A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种控制方法、设备及存储介质
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957202A (zh) * 2009-07-15 2011-01-26 常州市新科汽车电子有限公司 导航仪的用户待办事件存储及提醒方法
CN102456346A (zh) * 2010-10-19 2012-05-16 盛乐信息技术(上海)有限公司 拼接语音检测系统及方法
CN103903617A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音识别方法及电子设备
US20140379347A1 (en) * 2013-06-25 2014-12-25 Keith Kintzley System and method for efficient signal processing to identify and understand speech
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN107195303A (zh) * 2017-06-16 2017-09-22 北京云知声信息技术有限公司 语音处理方法及装置
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957202A (zh) * 2009-07-15 2011-01-26 常州市新科汽车电子有限公司 导航仪的用户待办事件存储及提醒方法
CN102456346A (zh) * 2010-10-19 2012-05-16 盛乐信息技术(上海)有限公司 拼接语音检测系统及方法
CN103903617A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音识别方法及电子设备
US20140379347A1 (en) * 2013-06-25 2014-12-25 Keith Kintzley System and method for efficient signal processing to identify and understand speech
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN107195303A (zh) * 2017-06-16 2017-09-22 北京云知声信息技术有限公司 语音处理方法及装置
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112583865A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种控制方法、设备及存储介质
CN110674277A (zh) * 2019-09-29 2020-01-10 北京金山安全软件有限公司 交互数据有效性识别方法和装置
CN110767240A (zh) * 2019-10-31 2020-02-07 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN110767240B (zh) * 2019-10-31 2021-12-03 广东美的制冷设备有限公司 儿童口音识别的设备控制方法、设备、存储介质及装置
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置
US11416687B2 (en) 2020-03-04 2022-08-16 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus for recognizing speech

Also Published As

Publication number Publication date
CN109979437B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN109979437A (zh) 语音识别方法、装置、设备和存储介质
CN109003602B (zh) 语音产品的测试方法、装置、设备及计算机可读介质
US11176141B2 (en) Preserving emotion of user input
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
CN110377716A (zh) 对话的交互方法、装置及计算机可读存储介质
US9454525B2 (en) Information extraction in a natural language understanding system
US10467340B2 (en) Grammar correcting method and apparatus
CN110085261A (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN108039175B (zh) 语音识别方法、装置及服务器
US20200286486A1 (en) Voice identification method, device, apparatus, and storage medium
US8909528B2 (en) Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
CN109754788B (zh) 一种语音控制方法、装置、设备及存储介质
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
CN109754809A (zh) 语音识别方法、装置、电子设备及存储介质
JP6073881B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
CN107886944A (zh) 一种语音识别方法、装置、设备及存储介质
CN110188353A (zh) 文本纠错方法及装置
CN109346074A (zh) 一种语音处理方法及系统
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
US8676580B2 (en) Automatic speech and concept recognition
JP2020109475A (ja) 音声対話方法、装置、設備、及び記憶媒体
CN110175242B (zh) 基于知识图谱的人机交互联想方法、装置及介质
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
US9984688B2 (en) Dynamically adjusting a voice recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211013

Address after: 100176 Room 101, 1st floor, building 1, yard 7, Ruihe West 2nd Road, economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant