CN107895573B - 用于识别信息的方法及装置 - Google Patents

用于识别信息的方法及装置 Download PDF

Info

Publication number
CN107895573B
CN107895573B CN201711128321.XA CN201711128321A CN107895573B CN 107895573 B CN107895573 B CN 107895573B CN 201711128321 A CN201711128321 A CN 201711128321A CN 107895573 B CN107895573 B CN 107895573B
Authority
CN
China
Prior art keywords
audio
processed
data processing
awakening word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711128321.XA
Other languages
English (en)
Other versions
CN107895573A (zh
Inventor
陈晓健
赵立峰
李俊
曹玉树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711128321.XA priority Critical patent/CN107895573B/zh
Priority to US15/857,008 priority patent/US10803861B2/en
Publication of CN107895573A publication Critical patent/CN107895573A/zh
Priority to JP2018174155A priority patent/JP2019091012A/ja
Application granted granted Critical
Publication of CN107895573B publication Critical patent/CN107895573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本申请实施例公开了用于识别信息的方法及装置。该方法的一具体实施方式包括:实时采集待处理音频;对待处理音频进行音频识别;当识别到唤醒词的音频时,对待处理音频进行数据处理,上述唤醒词用于指示对待处理音频进行数据处理。该实施方式能够从实时获取的待处理音频中识别出关键词后直接对待处理音频进行数据处理,提高了获取待处理音频的完整性和对待处理音频进行数据处理的准确性。

Description

用于识别信息的方法及装置
技术领域
本申请实施例涉及数据处理技术领域,具体涉及语音识别技术领域,尤其涉及用于识别信息的方法及装置。
背景技术
随着人工智能的发展和语音识别技术的不断完善,以语音方式进行的数据处理变得越来越智能化。人们可以通过语音完成过去需要手动才能实现的数据处理,为人们提供了更多获取信息的方式,也提高了人们获取信息的效率。例如,用户在使用支持语音识别技术的终端设备时,可以先通过唤醒词来唤醒终端设备;终端设备被唤醒后,通过声音或文字等方式告知用户终端设备处于唤醒状态,并提示用户输入语音信息;之后,用户向终端设备发送语音信息,终端设备开始采集用户输入的语音信息,并对语音信息进行处理,进而获取到对应的结果信息,最后,将结果信息反馈给用户。
发明内容
本申请实施例的目的在于提出了用于识别信息的方法及装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种用于识别信息的方法,该方法包括:实时采集待处理音频;对待处理音频进行音频识别;当识别到唤醒词的音频时,对待处理音频进行数据处理,上述唤醒词用于指示对待处理音频进行数据处理。
在一些实施例中,上述对待处理音频进行音频识别包括:通过预先设置的唤醒词音频对待处理音频进行音频识别。
在一些实施例中,上述方法还包括对上述唤醒词的音频的识别准确度进行判断的步骤,上述对上述唤醒词的音频的识别准确度进行判断的步骤包括:对检测到的唤醒词的音频进行音频分析得到待识别音频信息;将上述待识别音频信息与上述预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当上述准确度大于设定值时,判断上述唤醒词的音频为准确,否则,判断上述唤醒词的音频为不准确。
在一些实施例中,上述对待处理音频进行数据处理包括:当上述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
在一些实施例中,上述对待处理音频进行数据处理包括:当上述唤醒词的音频为不准确时,将待处理音频发送至服务器,上述服务器用于对上述唤醒词的音频进行识别;接收上述服务器发来的对应上述待处理音频的识别信息;当上述识别信息指示上述待处理音频包含唤醒词时,对待处理音频进行数据处理。
第二方面,本申请实施例提供了一种用于识别信息的装置,上述该装置包括:音频采集单元,用于实时采集待处理音频;音频识别单元,用于对待处理音频进行音频识别;数据处理单元,用于在识别到唤醒词的音频时,对待处理音频进行数据处理,上述唤醒词用于指示对待处理音频进行数据处理。
在一些实施例中,上述音频识别单元包括:通过预先设置的唤醒词音频对待处理音频进行音频识别。
在一些实施例中,上述装置还包括准确度判断单元,用于对上述唤醒词的音频的识别准确度进行判断,上述准确度判断单元包括:待识别音频信息获取子单元,用于对检测到的唤醒词的音频进行音频分析得到待识别音频信息;准确度判断子单元,用于将上述待识别音频信息与上述预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当上述准确度大于设定值时,判断上述唤醒词的音频为准确,否则,判断上述唤醒词的音频为不准确。
在一些实施例中,上述数据处理单元包括:当上述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
在一些实施例中,上述数据处理单元包括:信息发送子单元,用于在上述唤醒词的音频为不准确时,将待处理音频发送至服务器,上述服务器用于对上述唤醒词的音频进行识别;识别信息接收子单元,用于接收上述服务器发来的对应上述待处理音频的识别信息;数据处理子单元,用于在上述识别信息指示上述待处理音频包含唤醒词时,对待处理音频进行数据处理。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于识别信息的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面的用于识别信息的方法。
本申请实施例提供的用于识别信息的方法及装置,实时采集待处理音频,当从待处理音频中识别对应关键词的关键词音频时,对待处理音频进行数据处理。能够从实时获取的待处理音频中识别出关键词后直接对待处理音频进行数据处理,提高了获取待处理音频的完整性和对待处理音频进行数据处理的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于识别信息的方法的一个实施例的流程图;
图3是根据本申请的用于识别信息的方法的一个应用场景的示意图;
图4是根据本申请的用于识别信息的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于识别信息的方法或用于识别信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以发送待处理音频或接收对应待处理音频的结果信息等。终端设备101、102、103上可以安装有各种数据处理应用,例如音频处理应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发来的唤醒词的音频进行识别的服务器。服务器可以对唤醒词的音频进行识别,进而判断唤醒词的音频的准确性,并将准确性结果返回给终端设备101、102、103;终端设备101、102、103根据接收的准确性结果对待处理音频进行相应的处理。
需要说明的是,本申请实施例所提供的用于识别信息的方法一般由终端设备101、102、103执行,相应地,用于识别信息的装置一般设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于识别信息的方法的一个实施例的流程200。该用于识别信息的方法包括以下步骤:
步骤201,实时采集待处理音频。
在本实施例中,用于识别信息的方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以接收用户的待处理音频。
当用户需要通过终端设备101、102、103进行数据查询或调用其他程序时,通常需要向终端设备101、102、103发出待处理音频。由上述描述可知,现有方法需要用户先唤醒终端设备101、102、103,终端设备101、102、103被唤醒后,提示用户可以继续输入音频。可见,现有方法中终端设备101、102、103被唤醒的过程需要先唤醒终端设备101、102、103,等终端设备101、102、103处于工作状态时用户再输入需要进行数据处理的音频。即,用户在向终端设备101、102、103输入音频时存在中断过程(终端设备101、102、103被唤醒的过程),这就导致用户体验不好;并且,在终端设备101、102、103唤醒的过程中,由于时间上的延迟,可能会导致终端设备101、102、103遗漏部分的音频,进而使得后续对音频的数据处理不准确或错误。
为此,本申请的终端设备101、102、103可以实时采集用户输入的待处理音频,即,终端设备101、102、103采集的待处理音频是用户输入的完整音频,采集的待处理音频没有上述的中断过程。需要说明的是,在后续对待处理音频进行识别,以及对待处理音频进行数据处理的过程中,终端设备101、102、103一直处于实时采集待处理音频的过程中。即,待处理音频包含的音频信息在整个过程中一直在增加,即上述的实时采集的含义。
步骤202,对待处理音频进行音频识别。
实际中,终端设备101、102、103采集到的待处理音频可能是需要进行数据处理的音频(例如可以是用户输入的音频),还有可能是其它不需要进行数据处理的音频(例如可以是录入的杂音或其他干扰信号)。为此,终端设备101、102、103采集到待处理音频后,需要对待处理音频进行音频识别,以确定待处理音频是否需要进行数据处理。
在本实施例的一些可选的实现方式中,上述对待处理音频进行音频识别可以包括:通过预先设置的唤醒词音频对待处理音频进行音频识别。
为了识别待处理音频是否需要进行数据处理,可以预先在终端设备101、102、103上设置唤醒词音频。当对待处理音频进行音频识别,并识别出唤醒词音频时,认为待处理音频需要终端设备101、102、103进行数据处理;否则,认为待处理音频不需要终端设备101、102、103进行数据处理。
步骤203,当识别到唤醒词的音频时,对待处理音频进行数据处理。
当从待处理音频中识别到唤醒词的音频时,说明该待处理音频为需要进行数据处理的音频信息。因此,终端设备101、102、103可以对待处理音频进行数据处理。由于待处理音频是实时采集的,包含了用户输入的全部音频信息,因此,避免了上述现有技术中存在的中断过程,保证了待处理音频的完整(现有技术通常是对唤醒词之后的音频进行的数据处理,而不是对采集的全部音频进行数据处理),避免了对待处理音频进行数据处理时的信息遗漏,能够对待处理音频进行完整的数据处理,从而提高了对待处理音频进行数据处理的准确性。其中,上述唤醒词用于指示对待处理音频进行数据处理。唤醒词可以是终端设备101、102、103上设置的,也可以用户自定义,具体视实际需要而定。
在本实施例的一些可选的实现方式中,上述方法还包括对上述唤醒词的音频的识别准确度进行判断的步骤,上述对上述唤醒词的音频的识别准确度进行判断的步骤可以包括:
第一步,对检测到的唤醒词的音频进行音频分析得到待识别音频信息。
用户向终端设备101、102、103输入的待处理音频中,可能包含与唤醒词近似发音的非唤醒词的音频。因此,需要对检测到的唤醒词的音频进行进一步的音频分析,通过音频分析得到的待识别音频信息对检测到的唤醒词的音频进行判断。
第二步,将上述待识别音频信息与上述预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当上述准确度大于设定值时,判断上述唤醒词的音频为准确,否则,判断上述唤醒词的音频为不准确。
得到待识别音频信息后,可以将待识别音频信息与预先设置的唤醒词音频的音频信息进行对比,从而得到唤醒词的音频相对于预先设置的唤醒词音频的准确度。当准确度大于某一设定值(例如可以是80%)时,可以是认为检测到的唤醒词的音频与预先设置的唤醒词音频相同;否则,认为检测到的唤醒词的音频与预先设置的唤醒词音频不相同。
在本实施例的一些可选的实现方式中,上述对待处理音频进行数据处理可以包括:当上述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
当唤醒词的音频准确时,终端设备101、102、103可以对待处理音频进行数据处理,并得到对应待处理音频的应答信息。此外,当待处理音频用于指示打开其他应用时,终端设备101、102、103还可以开启对应的应用。
在本实施例的一些可选的实现方式中,上述对待处理音频进行数据处理可以包括以下步骤:
第一步,当上述唤醒词的音频为不准确时,将待处理音频发送至服务器。
由于用户的口音、环境干扰等因素,终端设备101、102、103可以无法准确地从采集到的待处理音频中识别出唤醒词。因此,当上述唤醒词的音频为不准确时,不能直接判定待处理音频不需要进行数据处理。此时,可以将待处理音频发送给服务器进行音频检测。通过服务器上的音频检测应用,可以对唤醒词进行更加准确的识别,提高了对唤醒词识别的准确度,也提高了终端设备101、102、103对待处理音频的处理效率。其中,上述服务器用于对上述唤醒词的音频进行识别。
通常,终端设备101、102、103可以通过有线或无线的方式与服务器105进行数据传递。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
第二步,接收上述服务器发来的对应上述待处理音频的识别信息。
服务器上可以存储有用于对音频进行检测的,不宜存储在终端设备101、102、103上的程序。这类音频处理程序通常会占用较大对存储空间,且对处理器对要求较高,不宜存储在终端设备101、102、103上;此外,大多数情况下,终端设备101、102、103能够对待处理音频做出较为准确对识别,因此,这类音频处理程序更适合存储在服务器105上。当服务器105接收到待处理音频后,可以对待处理音频中是否包含唤醒词的音频进行检测。
第三步,当上述识别信息指示上述待处理音频包含唤醒词时,对待处理音频进行数据处理。
当识别信息指示待处理音频包含唤醒词时,终端设备101、102、103可以对待处理音频进行相应的数据处理。
继续参见图3,图3是根据本实施例的用于识别信息的方法的应用场景的一个示意图。在图3的应用场景中,当用户向终端设备102发出音频信号时,终端设备102可以实时采集到对应到待处理音频;之后,终端设备102对待处理音频进行音频识别;当从待处理音频中识别到唤醒词到音频时,终端设备102可以对待处理音频进行数据处理。
本申请的上述实施例提供的方法实时采集待处理音频,当从待处理音频中识别对应关键词的关键词音频时,对待处理音频进行数据处理。能够从实时获取的待处理音频中识别出关键词后直接对待处理音频进行数据处理,提高了获取待处理音频的完整性和对待处理音频进行数据处理的准确性。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于识别信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于识别信息的装置400可以包括:音频采集单元401、音频识别单元402和数据处理单元403。其中,音频采集单元401用于实时采集待处理音频;音频识别单元402用于对待处理音频进行音频识别;数据处理单元403用于在识别到唤醒词的音频时,对待处理音频进行数据处理,上述唤醒词用于指示对待处理音频进行数据处理。
在本实施例的一些可选的实现方式中,上述音频识别单元402可以包括:通过预先设置的唤醒词音频对待处理音频进行音频识别。
在本实施例的一些可选的实现方式中,用于识别信息的装置400还可以包括准确度判断单元(图中未示出),用于对上述唤醒词的音频的识别准确度进行判断,上述准确度判断单元可以包括:待识别音频信息获取子单元(图中未示出)和准确度判断子单元(图中未示出)。其中,待识别音频信息获取子单元用于对检测到的唤醒词的音频进行音频分析得到待识别音频信息;准确度判断子单元用于将上述待识别音频信息与上述预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当上述准确度大于设定值时,判断上述唤醒词的音频为准确,否则,判断上述唤醒词的音频为不准确。
在本实施例的一些可选的实现方式中,上述数据处理单元403可以包括:当上述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
在本实施例的一些可选的实现方式中,上述数据处理单元403还可以包括:信息发送子单元(图中未示出)、识别信息接收子单元(图中未示出)和数据处理子单元(图中未示出)。其中,信息发送子单元用于在上述唤醒词的音频为不准确时,将待处理音频发送至服务器,上述服务器用于对上述唤醒词的音频进行识别;识别信息接收子单元用于接收上述服务器发来的对应上述待处理音频的识别信息;数据处理子单元用于在上述识别信息指示上述待处理音频包含唤醒词时,对待处理音频进行数据处理。
本实施例还提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的用于识别信息的方法。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的用于识别信息的方法。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。图5示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括音频采集单元、音频识别单元和数据处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据处理单元还可以被描述为“用于对待处理音频进行数据处理的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:实时采集待处理音频;对待处理音频进行音频识别;当识别到唤醒词的音频时,对待处理音频进行数据处理,上述唤醒词用于指示对待处理音频进行数据处理。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于识别信息的方法,其特征在于,所述方法包括:
实时采集待处理音频;
对待处理音频进行音频识别;
当识别到唤醒词的音频时,对待处理音频进行数据处理,所述唤醒词用于指示对待处理音频进行数据处理;
所述方法还包括:
对检测到的唤醒词的音频进行音频分析得到待识别音频信息;
将所述待识别音频信息与预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当所述准确度大于设定值时,判断所述唤醒词的音频为准确,否则,判断所述唤醒词的音频为不准确。
2.根据权利要求1所述的方法,其特征在于,所述对待处理音频进行音频识别包括:
通过预先设置的唤醒词音频对待处理音频进行音频识别。
3.根据权利要求1所述的方法,其特征在于,所述对待处理音频进行数据处理包括:
当所述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
4.根据权利要求1所述的方法,其特征在于,所述对待处理音频进行数据处理包括:
当所述唤醒词的音频为不准确时,将待处理音频发送至服务器,所述服务器用于对所述唤醒词的音频进行识别;
接收所述服务器发来的对应所述待处理音频的识别信息;
当所述识别信息指示所述待处理音频包含唤醒词时,对待处理音频进行数据处理。
5.一种用于识别信息的装置,其特征在于,所述装置包括:
音频采集单元,用于实时采集待处理音频;
音频识别单元,用于对待处理音频进行音频识别;
数据处理单元,用于在识别到唤醒词的音频时,对待处理音频进行数据处理,所述唤醒词用于指示对待处理音频进行数据处理;
准确度判断单元,用于对检测到的唤醒词的音频进行音频分析得到待识别音频信息;将所述待识别音频信息与预先设置的唤醒词音频的音频信息进行对比得到待识别音频的准确度,当所述准确度大于设定值时,判断所述唤醒词的音频为准确,否则,判断所述唤醒词的音频为不准确。
6.根据权利要求5所述的装置,其特征在于,所述音频识别单元包括:
通过预先设置的唤醒词音频对待处理音频进行音频识别。
7.根据权利要求5所述的装置,其特征在于,所述数据处理单元包括:
当所述唤醒词的音频为准确时,对待处理音频进行数据处理,得到对应待处理音频的应答信息。
8.根据权利要求5所述的装置,其特征在于,所述数据处理单元包括:
信息发送子单元,用于在所述唤醒词的音频为不准确时,将待处理音频发送至服务器,所述服务器用于对所述唤醒词的音频进行识别;
识别信息接收子单元,用于接收所述服务器发来的对应所述待处理音频的识别信息;
数据处理子单元,用于在所述识别信息指示所述待处理音频包含唤醒词时,对待处理音频进行数据处理。
9.一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1至4中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN201711128321.XA 2017-11-15 2017-11-15 用于识别信息的方法及装置 Active CN107895573B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711128321.XA CN107895573B (zh) 2017-11-15 2017-11-15 用于识别信息的方法及装置
US15/857,008 US10803861B2 (en) 2017-11-15 2017-12-28 Method and apparatus for identifying information
JP2018174155A JP2019091012A (ja) 2017-11-15 2018-09-18 情報認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711128321.XA CN107895573B (zh) 2017-11-15 2017-11-15 用于识别信息的方法及装置

Publications (2)

Publication Number Publication Date
CN107895573A CN107895573A (zh) 2018-04-10
CN107895573B true CN107895573B (zh) 2021-08-24

Family

ID=61805301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711128321.XA Active CN107895573B (zh) 2017-11-15 2017-11-15 用于识别信息的方法及装置

Country Status (3)

Country Link
US (1) US10803861B2 (zh)
JP (1) JP2019091012A (zh)
CN (1) CN107895573B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN112908330B (zh) * 2021-03-04 2022-08-09 深圳市云希谷科技有限公司 终端设备的语音唤醒方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN104219388A (zh) * 2014-08-28 2014-12-17 小米科技有限责任公司 语音控制方法和装置
CN106448663A (zh) * 2016-10-17 2017-02-22 海信集团有限公司 语音唤醒方法及语音交互装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003222132A1 (en) * 2002-03-28 2003-10-13 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
EP3726530A1 (en) * 2010-12-24 2020-10-21 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP3748631B1 (en) * 2011-12-07 2024-04-03 QUALCOMM Incorporated Low power integrated circuit to analyze a digitized audio stream
US9173041B2 (en) * 2012-05-31 2015-10-27 Purdue Research Foundation Enhancing perception of frequency-lowered speech
US8515750B1 (en) * 2012-06-05 2013-08-20 Google Inc. Realtime acoustic adaptation using stability measures
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
JP2015011170A (ja) 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
WO2015145219A1 (en) * 2014-03-28 2015-10-01 Navaratnam Ratnakumar Systems for remote service of customers using virtual and physical mannequins
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
CN105869637B (zh) * 2016-05-26 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN106782529B (zh) * 2016-12-23 2020-03-10 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
CN107145329A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 设备控制方法、装置及智能设备
US10069976B1 (en) * 2017-06-13 2018-09-04 Harman International Industries, Incorporated Voice agent forwarding
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN104219388A (zh) * 2014-08-28 2014-12-17 小米科技有限责任公司 语音控制方法和装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN106448663A (zh) * 2016-10-17 2017-02-22 海信集团有限公司 语音唤醒方法及语音交互装置

Also Published As

Publication number Publication date
CN107895573A (zh) 2018-04-10
US10803861B2 (en) 2020-10-13
US20190147860A1 (en) 2019-05-16
JP2019091012A (ja) 2019-06-13

Similar Documents

Publication Publication Date Title
US10210865B2 (en) Method and apparatus for inputting information
CN107731229B (zh) 用于识别语音的方法和装置
CN110084317B (zh) 用于识别图像的方法和装置
CN107832720B (zh) 基于人工智能的信息处理方法和装置
CN111243595B (zh) 信息处理方法和装置
CN107895573B (zh) 用于识别信息的方法及装置
CN113380238A (zh) 处理音频信号的方法、模型训练方法、装置、设备和介质
CN109410920B (zh) 用于获取信息的方法及装置
CN113204695B (zh) 网站识别方法和装置
CN112214770B (zh) 恶意样本的识别方法、装置、计算设备以及介质
CN110223694B (zh) 语音处理方法、系统和装置
CN107622766B (zh) 用于搜索信息的方法和装置
CN111259698B (zh) 用于获取图像的方法及装置
CN111026849A (zh) 数据处理方法和装置
CN113488050B (zh) 语音唤醒方法、装置、存储介质及电子设备
CN113360590B (zh) 兴趣点信息的更新方法、装置、电子设备及存储介质
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN114171063A (zh) 一种实时话务客户情绪分析辅助方法及系统
CN111312243B (zh) 设备交互方法和装置
CN114297380A (zh) 一种数据处理方法、装置、设备及存储介质
CN110084298B (zh) 用于检测图像相似度的方法及装置
CN110046229B (zh) 用于获取信息的方法及装置
CN114141236A (zh) 语言模型更新方法、装置、电子设备及存储介质
CN111899718A (zh) 用于识别合成语音的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210507

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant