CN109634554A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN109634554A
CN109634554A CN201811553279.0A CN201811553279A CN109634554A CN 109634554 A CN109634554 A CN 109634554A CN 201811553279 A CN201811553279 A CN 201811553279A CN 109634554 A CN109634554 A CN 109634554A
Authority
CN
China
Prior art keywords
vocal print
information
keyword
target audio
warning information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811553279.0A
Other languages
English (en)
Other versions
CN109634554B (zh
Inventor
樊杰
杨建军
董传成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201811553279.0A priority Critical patent/CN109634554B/zh
Publication of CN109634554A publication Critical patent/CN109634554A/zh
Application granted granted Critical
Publication of CN109634554B publication Critical patent/CN109634554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了用于输出信息的方法和装置。上述方法的一具体实施方式包括:获取目标音频;提取目标音频的声纹特征,得到目标声纹;将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;对目标音频进行处理,得到目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;基于匹配结果、得到的处理结果,输出预警信息。该实施方式实现了利用智能音箱实现安全预警。

Description

用于输出信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
随着互联网技术的发展,智能音箱越来越普及。目前,智能音箱的功能主要是娱乐、购物以及家庭控制等方面。智能音箱相对于智能监控来说,具有隐蔽性好、不受光线干扰的优点,能够应用于家庭安防领域。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:获取目标音频;提取上述目标音频的声纹特征,得到目标声纹;将上述目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;对上述目标音频进行处理,得到上述目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;基于上述匹配结果、得到的处理结果,输出预警信息。
在一些实施例中,上述基于上述匹配结果、得到的处理结果,输出预警信息,包括:根据上述匹配结果、上述处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况,其中,上述紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系;响应于确定为紧急情况,输出预警信息。
在一些实施例中,处理结果包括目标音频对应的文本和/或关键词;以及上述响应于确定为紧急情况,输出预警信息,包括:根据文本和/或关键词,生成预警信息;响应于确定为紧急情况,将所生成的预警信息输出。
在一些实施例中,上述基于上述匹配结果、得到的处理结果,输出预警信息,包括:响应于确定上述目标声纹与上述声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
在一些实施例中,上述基于上述匹配结果、得到的处理结果,输出预警信息,包括:响应于确定上述目标声纹与上述声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
在一些实施例中,上述基于上述匹配结果、得到的处理结果,输出预警信息,包括:基于上述匹配结果、得到的处理结果,确定预警等级;通过与上述预警等级对应的通信方式输出与上述预警等级对应的预警信息。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:音频获取单元,被配置成获取目标音频;声纹提取单元,被配置成提取上述目标音频的声纹特征,得到目标声纹;声纹匹配单元,被配置成将上述目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;音频处理单元,被配置成对上述目标音频进行处理,得到上述目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;信息输出单元,被配置成基于上述匹配结果、得到的处理结果,输出预警信息。
在一些实施例中,上述信息输出单元进一步被配置成:根据上述匹配结果、上述处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况,其中,上述紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系;响应于确定为紧急情况,输出预警信息。
在一些实施例中,处理结果包括目标音频对应的文本和/或关键词;以及上述信息输出单元进一步被配置成:根据文本和/或关键词,生成预警信息;响应于确定为紧急情况,将所生成的预警信息输出。
在一些实施例中,上述信息输出单元进一步被配置成:响应于确定上述目标声纹与上述声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
在一些实施例中,上述信息输出单元进一步被配置成:响应于确定上述目标声纹与上述声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
在一些实施例中,上述信息输出单元包括:等级确定模块,被配置成基于上述匹配结果、得到的处理结果,确定预警等级;信息输出模块,被配置成通过与上述预警等级对应的通信方式输出与上述预警等级对应的预警信息。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面任一实施例所描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一实施例所描述的方法。
本申请的上述实施例提供的用于输出信息的方法和装置,在获取目标音频后,可以提取目标音频的声纹特征,得到目标声纹。然后,将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。同时,还可以对目标音频进行处理,得到目标音频对应的文本、目标音频对应的关键词、目标音频的语速以及目标音频的分贝中的至少一项。最后,基于上述匹配结果、处理结果,输出预警信息。从而能够利用智能音箱实现安全预警。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括智能音箱101,终端设备102、103,网络104和服务器105。网络104用以在智能音箱101,终端设备102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
智能音箱101可以录制监控场景的音频,然后通过网络104与服务器105交互,以接收或发送音频。例如,将录制的音频发送给服务器105,或者接收服务器105发送的音频格式的预警信息。
用户可以使用终端设备102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备102、103可以是硬件,也可以是软件。当终端设备102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对智能音箱101录制的音频进行处理的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如预警信息)反馈给终端设备102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的智能音箱、终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的智能音箱、终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。本实施例的用于输出信息的方法,包括以下步骤:
步骤201,获取目标音频。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从音频录制设备(例如图1所示的智能音箱101)处获取目标音频。上述目标音频可以是录制的监控场景的音频。上述监控场景可以是家庭的客厅、卧室等。上述目标音频可以是在预设时间段内的目标音频。上述目标时间段可以是用户根据自身的生活习惯设置的,例如可以是早上8点-下午6点。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,提取目标音频的声纹特征,得到目标声纹。
执行主体在得到目标音频后,可以利用声纹提取算法提取目标音频的声纹特征,得到目标声纹。由于人们在发音时需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素):音质、音长、音强、音高。这些物理量因人而异,因而语音在声纹图谱上呈现不同的声纹特征,根据这些声纹特征参数,我们不但可以区分语声,而且可以认定同一人的语声。可以理解的是,声纹提取是目前研究比较广泛的技术,此处不再赘述。在提取声纹特征后,可以得到目标声纹。
步骤203,将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。
在得到目标声纹后,可以将其与预设的声纹集合中的声纹进行匹配,得到匹配结果。此处,预设的声纹集合中的声纹可以是信任的用户的声纹。对于家庭来说,上述声纹集合可以是家庭成员的声纹的集合。如果目标声纹与预设的声纹集合中的声纹匹配,则说明目标音频中的声音为家庭某一成员的声纹。如果不匹配,则说明目标音频中的声音不是来自于家庭成员。家庭成员可以预先通过智能音箱注册,并在注册时输入自身的语音。智能音箱可以将注册时的语音发送至执行主体,以供执行主体提取语音的声纹特征,得到声纹集合。
步骤204,对目标音频进行处理,得到目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量。
执行主体还可以对目标进行各种处理,以得到目标音频的多种参数,包括但不限于语速、音量等等。还可以对目标音频进行语音识别或自然语言处理,得到目标音频对应的文本和关键词。执行主体可以通过计算单位时间内目标音频中包括的字数,将上述字数作为语速。就汉语来说,一般人的正常语速是每分钟150个字。如果目标音频中用户的语速明显大于正常语速,可能说明用户的情绪比较焦急。执行主体可以根据目标音频中声音数据的峰值,来计算目标音频的平均音量。一般来说,正常讲话的音量在40-60分贝。音量大于80分贝时,属于非常吵闹的情况。如果目标音频的音量大于80分贝,可以确定目标音频中用户的情绪是非正常的。
步骤205,基于匹配结果、得到的处理结果,输出预警信息。
执行主体在得到匹配结果和处理结果后,可以对二者进行综合分析,以输出预警信息。本实施例中,在处理结果一定时,不同的匹配结果,执行主体可能会输出不同的预警信息。例如,处理结果中包括关键词“打你”,当匹配结果确定目标音频中的声纹为家庭成员的声纹时,执行主体认定当前情况不属于紧急情况,不会输出预警信息。当匹配结果确定目标音频中的声纹不为家庭成员的声纹时,执行主体认定当前情况认定当前情况属于紧急情况,会输出预警信息。执行主体可以向指定的终端输出预警信息。例如,执行主体根据电话号码、邮件地址等向指定的终端输出预警信息。
在本实施例的一些可选的实现方式中,在获取目标音频后,执行主体可以对目标音频进行去噪处理,以去除环境噪音以及回音。上述去噪处理还可以包括去除电子设备发出的声音,例如去除电视、扬声器等发出的声音。可以理解的是,电子设备发出的声音的声纹与真人发出的声音的声纹不同,可以根据声纹将电子设备发出的声音去除。本实现方式的去噪步骤可以由用于输出信息的方法的执行主体来执行,也可以由声音采集装置(如智能音箱)来执行。
在本实施例的一些可选的实现方式中,上述步骤205具体可以通过图2中未示出的以下步骤来实现:响应于确定目标声纹与声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
本实现方式中,执行主体可以预先设置对应信任用户的多个阈值以及对应非信任用户的多个阈值。此处的信任用户可以是指声纹集合中的声纹指示的用户,非信任用户可以是指声纹集合之外的声纹指示的用户。如果执行主体确定目标声纹与声纹集合中的声纹不匹配,则认定目标音频中的声音为非信任用户的声音。则执行主体可以将处理结果中的语速与第一预设语速阈值、音量与第一预设分贝阈值、关键词与预设的第一关键词集合来比较。并确定以下条件是否满足:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。如果执行主体确定上述至少一项条件满足,则输出预警信息。
在本实施例的一些可选的实现方式中,上述步骤205具体可以通过图2中未示出的以下步骤来实现:响应于确定目标声纹与声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
本实现方式中,如果执行主体确定目标声纹与声纹集合中的声纹匹配,则认定目标音频中的声音为信任用户的声音。则执行主体可以将处理结果中的语速与第二预设语速阈值、音量与第二预设分贝阈值、关键词与预设的第二关键词集合来比较。并确定以下条件是否满足:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。如果执行主体确定上述至少一项条件满足,则输出预警信息。
可以理解的是,上述第一关键词集合以及第二关键词集合中的关键词为与紧急情况相关的关键词,例如,报警、打你、动手等等。
在本实施例的一些可选的实现方式中,上述步骤205具体可以通过图2中未示出的以下步骤来实现:根据匹配结果、处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况。响应于确定为紧急情况,输出预警信息。
其中,紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系。本实现方式中,执行主体可以将匹配结果以及处理得到的各项参数、文本或关键词输入紧急情况判断模型,得到紧急情况的判断结果。判断结果可以由不同的标识来表示,例如,“1”表示紧急情况,“0”表示非紧急情况。上述紧急情况判断模型可以由机器学习算法(如卷积神经网络、决策树、K临近算法等等)来实现。在确定为紧急情况后,执行主体可以输出预警信息。
在本实施例的一些可选的实现方式中,上述紧急情况判断模型可以通过以下步骤训练得到:获取训练样本集合,训练样本包括样本音频、样本音频中用户是否为可信任用户以及样本音频对应的紧急情况确定结果。样本音频集合中的音频进行处理,得到以下至少一项:对应的文本、对应的关键词、语速、音量。将用户是否为可信任用户的结果以及上述处理结果作为输入,将紧急情况确定结果作为期望输出,训练得到紧急情况判断模型。
可以理解的是,本实现方式中,用于训练紧急情况判断模型的执行主体可以与本申请的用于输出信息的方法的执行主体相同,也可以不相同。在不相同的情况下,用于训练紧急情况判断模型的执行主体可以将训练后的紧急情况判断模型发送给用于输出信息的方法的执行主体。
在本实施例的一些可选的实现方式中,用于输出信息的方法的执行主体还可以通过其它方式获取与目标音频对应的紧急情况判断结果。并将获取到的判断结果与紧急情况判断模型输出的判断结果进行对比。在二者不相同时,用于输出信息的方法的执行主体可以将获取到的判断结果发送给用于训练紧急情况判断模型的执行主体。同时还可以根据步骤203得到的匹配结果确定目标音频指示的用户是否属于可信任用户,并将所确定的结果以及目标音频发送给用于训练紧急情况判断模型的执行主体。以供用于训练紧急情况判断模型的执行主体将目标音频作为样本音频,并利用目标音频指示的用户是否属于可信任用户的确定结果以及获取到的判断结果继续训练紧急情况判断模型,以提高紧急情况判断模型的准确度。
在本实施例的一些可选的实现方式中,步骤204得到的处理结果中包括目标音频对应的文本和/或关键词。上述步骤205具体可以通过图2中未示出的以下步骤来实现:根据文本和/或关键词,生成预警信息;响应于确定为紧急情况,将所生成的预警信息输出。
本实现方式中,执行主体可以首先根据文本和/或关键词,生成预警信息。例如,执行主体可以直接将目标音频对应的文本作为预警信息。或者,执行主体可以直接将目标音频对应的关键词作为预警信息。执行主体在确定为紧急情况时,可以将所生成的预警信息输出。
继续参见图3,图3是根据本实施例的用于输出信息的方法的一个应用场景的示意图。在图3的应用场景中,陌生人A进入用户B的家中后,与用户B发生激烈争吵。用户B家中的智能音箱在采集到包括上述争吵内容的音频后发送给服务器。服务器在对音频进行分析后,确定当前情况属于紧急情况,生成预警信息。并向用户B的家属用户C发送预警信息。
本申请的上述实施例提供的用于输出信息的方法,在获取目标音频后,可以提取目标音频的声纹特征,得到目标声纹。然后,将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。同时,还可以对目标音频进行处理,得到目标音频对应的文本、目标音频对应的关键词、目标音频的语速以及目标音频的分贝中的至少一项。最后,基于上述匹配结果、处理结果,输出预警信息。从而能够利用智能音箱实现安全预警。
继续参见图4,其示出了根据本申请的用于输出信息的方法的另一个实施例的流程400。如图4所示,本实施例的方法,包括以下步骤:
步骤401,获取目标音频。
步骤402,提取目标音频的声纹特征,得到目标声纹。
步骤403,将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。
步骤404,对目标音频进行处理,得到目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量。
本实施例中,步骤401~404的原理与步骤201~204的原理相同,此处不再赘述。
步骤405,基于匹配结果、得到的处理结果,确定预警等级。
执行主体在得到匹配结果和处理结果后,可以通过多种方式确定预警等级。例如,执行主体可以预先设置对应不同预警等级的阈值,通过将语速、音量与对应的阈值比较,确定预警等级。或者,执行主体可以根据目标音频对应的关键词中,与第一关键词集合或者第二关键词集合中关键词匹配的数量,来确定预警等级。或者,执行主体可以利用训练好的机器学习算法来确定预警等级。
步骤406,通过与预警等级对应的通信方式输出与预警等级对应的预警信息。
执行主体还可以为不同的预警等级设置不同的通信方式以及对应的预警信息。在确定预警等级后,执行主体可以通过与预警等级对应的通信方式输出与预警等级对应的预警信息。举例来说,执行主体可以将预警等级划分为三个等级,分别为初级、中级和高级。初级对应的通信方式为发送短信到指定联系人,对应的预警信息为文本“发生紧急情况,请处理”。中级对应的通信方式为拨打电话到指定联系人,对应的预警信息为音频“请速速赶往监控现场,发生紧急情况”。高级对应的通信方式为同时拨打指定电话以及发送短信报警,对应的预警信息包括为“XX地点发生紧急情况:YY”。其中,YY为目标音频对应的文本。或者,不同的预警等级对应不同数量的通信方式。执行主体可以按照预警等级对应的各种通信方式依次输出预警信息。
本申请的上述实施例提供的用于输出信息的方法,可以根据匹配结果和处理结果,确定预警等级,并根据预警等级,以不同的通信方式输出不同的预警信息。从而可以提高监控场景的安全性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:音频获取单元501、声纹提取单元502、声纹匹配单元503、音频处理单元504以及信息输出单元505。
音频获取单元501,被配置成获取目标音频。
声纹提取单元502,被配置成提取目标音频的声纹特征,得到目标声纹。
声纹匹配单元503,被配置成将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。
音频处理单元504,被配置成对目标音频进行处理,得到目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量。
信息输出单元505,被配置成基于匹配结果、得到的处理结果,输出预警信息。
在本实施例的一些可选的实现方式中,信息输出单元505可以进一步被配置成:响应于确定目标声纹与声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
在本实施例的一些可选的实现方式中,信息输出单元505可以进一步被配置成:响应于确定目标声纹与声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
在本实施例的一些可选的实现方式中,信息输出单元505可以进一步被配置成:根据匹配结果、处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况,其中,紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系;响应于确定为紧急情况,输出预警信息。
在本实施例的一些可选的实现方式中,处理结果包括目标音频对应的文本和/或关键词。以及信息输出单元505可以进一步被配置成:根据文本和/或关键词,生成预警信息;响应于确定为紧急情况,将所生成的预警信息输出。
在本实施例的一些可选的实现方式中,信息输出单元505可以进一步包括图5中未示出的等级确定模块和信息输出模块。
等级确定模块,被配置成基于匹配结果、得到的处理结果,确定预警等级。
信息输出模块,被配置成通过与预警等级对应的通信方式输出与预警等级对应的预警信息。
本申请的上述实施例提供的用于输出信息的装置,在获取目标音频后,可以提取目标音频的声纹特征,得到目标声纹。然后,将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果。同时,还可以对目标音频进行处理,得到目标音频对应的文本、目标音频对应的关键词、目标音频的语速以及目标音频的分贝中的至少一项。最后,基于上述匹配结果、处理结果,输出预警信息。从而能够利用智能音箱实现安全预警。
应当理解,用于输出信息的装置500中记载的单元501至单元505分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于输出信息的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括音频获取单元、声纹提取单元、声纹匹配单元、音频处理单元和信息输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,音频获取单元还可以被描述为“获取目标音频的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取目标音频;提取目标音频的声纹特征,得到目标声纹;将目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;对目标音频进行处理,得到目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;基于匹配结果、得到的处理结果,输出预警信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种用于输出信息的方法,包括:
获取目标音频;
提取所述目标音频的声纹特征,得到目标声纹;
将所述目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;
对所述目标音频进行处理,得到所述目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;
基于所述匹配结果、得到的处理结果,输出预警信息。
2.根据权利要求1所述的方法,其中,所述基于所述匹配结果、得到的处理结果,输出预警信息,包括:
根据所述匹配结果、所述处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况,其中,所述紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系;
响应于确定为紧急情况,输出预警信息。
3.根据权利要求2所述的方法,其中,处理结果包括目标音频对应的文本和/或关键词;以及
所述响应于确定为紧急情况,输出预警信息,包括:
根据文本和/或关键词,生成预警信息;
响应于确定为紧急情况,将所生成的预警信息输出。
4.根据权利要求1所述的方法,其中,所述基于所述匹配结果、得到的处理结果,输出预警信息,包括:
响应于确定所述目标声纹与所述声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
5.根据权利要求1所述的方法,其中,所述基于所述匹配结果、得到的处理结果,输出预警信息,包括:
响应于确定所述目标声纹与所述声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
6.根据权利要求1-5任一项所述的方法,其中,所述基于所述匹配结果、得到的处理结果,输出预警信息,包括:
基于所述匹配结果、得到的处理结果,确定预警等级;
通过与所述预警等级对应的通信方式输出与所述预警等级对应的预警信息。
7.一种用于输出信息的装置,包括:
音频获取单元,被配置成获取目标音频;
声纹提取单元,被配置成提取所述目标音频的声纹特征,得到目标声纹;
声纹匹配单元,被配置成将所述目标声纹与预设的声纹集合中的声纹进行匹配,得到匹配结果;
音频处理单元,被配置成对所述目标音频进行处理,得到所述目标音频的以下至少一项:对应的文本、对应的关键词、语速、音量;
信息输出单元,被配置成基于所述匹配结果、得到的处理结果,输出预警信息。
8.根据权利要求7所述的装置,其中,所述信息输出单元进一步被配置成:
根据所述匹配结果、所述处理结果以及预先建立的紧急情况判断模型,确定是否为紧急情况,其中,所述紧急情况判断模型用于表征匹配结果、处理结果与紧急情况的对应关系;
响应于确定为紧急情况,输出预警信息。
9.根据权利要求8所述的装置,其中,处理结果包括目标音频对应的文本和/或关键词;以及
所述信息输出单元进一步被配置成:
根据文本和/或关键词,生成预警信息;
响应于确定为紧急情况,将所生成的预警信息输出。
10.根据权利要求7所述的装置,其中,所述信息输出单元进一步被配置成:
响应于确定所述目标声纹与所述声纹集合中的声纹不匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第一预设语速阈值、音量大于第一预设分贝阈值、关键词属于预设的第一关键词集合。
11.根据权利要求7所述的装置,其中,所述信息输出单元进一步被配置成:
响应于确定所述目标声纹与所述声纹集合中的声纹匹配以及检测到以下至少一项条件满足,输出预警信息:语速大于第二预设语速阈值、音量大于第二预设分贝阈值、关键词属于预设的第二关键词集合。
12.根据权利要求7-11任一项所述的装置,其中,所述信息输出单元包括:
等级确定模块,被配置成基于所述匹配结果、得到的处理结果,确定预警等级;
信息输出模块,被配置成通过与所述预警等级对应的通信方式输出与所述预警等级对应的预警信息。
13.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201811553279.0A 2018-12-18 2018-12-18 用于输出信息的方法和装置 Active CN109634554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811553279.0A CN109634554B (zh) 2018-12-18 2018-12-18 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811553279.0A CN109634554B (zh) 2018-12-18 2018-12-18 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
CN109634554A true CN109634554A (zh) 2019-04-16
CN109634554B CN109634554B (zh) 2023-05-26

Family

ID=66075348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811553279.0A Active CN109634554B (zh) 2018-12-18 2018-12-18 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109634554B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580390A (zh) * 2019-09-27 2021-03-30 百度在线网络技术(北京)有限公司 基于智能音箱的安防监控方法、装置、音箱和介质
WO2024082865A1 (zh) * 2022-10-17 2024-04-25 广西翰霖科技有限公司 预警方法、装置、电子设备及存储介质
WO2024197594A1 (zh) * 2023-03-28 2024-10-03 京东方科技集团股份有限公司 音频监护方法、系统、设备以及计算机存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
US20130339019A1 (en) * 2012-06-13 2013-12-19 Phillip A. Giancarlo Systems and methods for managing an emergency situation
CN105321514A (zh) * 2014-05-28 2016-02-10 西安中兴新软件有限责任公司 一种告警方法和终端
CN105516473A (zh) * 2015-11-30 2016-04-20 广东小天才科技有限公司 具有呼救功能的便携设备及其运行方法
CN106991072A (zh) * 2016-01-21 2017-07-28 杭州海康威视数字技术股份有限公司 在线自学习事件检测模型更新方法及装置
CN107371085A (zh) * 2017-09-01 2017-11-21 深圳市沃特沃德股份有限公司 安全防护方法、装置和智能音箱
CN107423683A (zh) * 2017-06-11 2017-12-01 广州市迪士普音响科技有限公司 基于语音识别和人脸识别的报警求助处理方法和装置
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN107888774A (zh) * 2017-11-13 2018-04-06 平安科技(深圳)有限公司 一种求救方法、装置、设备及计算机可读存储介质
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108563633A (zh) * 2018-03-29 2018-09-21 腾讯科技(深圳)有限公司 一种语音处理方法和服务器
CN108597506A (zh) * 2018-03-13 2018-09-28 广州势必可赢网络科技有限公司 一种智能穿戴设备警示方法及智能穿戴设备
CN108694958A (zh) * 2018-04-26 2018-10-23 广州国音科技有限公司 一种安防报警方法及装置
CN108766439A (zh) * 2018-04-27 2018-11-06 广州国音科技有限公司 一种基于声纹识别的监控方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
US20130339019A1 (en) * 2012-06-13 2013-12-19 Phillip A. Giancarlo Systems and methods for managing an emergency situation
US20160155454A1 (en) * 2012-06-13 2016-06-02 Wearsafe Labs Llc Systems and methods for managing an emergency situation
CN105321514A (zh) * 2014-05-28 2016-02-10 西安中兴新软件有限责任公司 一种告警方法和终端
CN105516473A (zh) * 2015-11-30 2016-04-20 广东小天才科技有限公司 具有呼救功能的便携设备及其运行方法
CN106991072A (zh) * 2016-01-21 2017-07-28 杭州海康威视数字技术股份有限公司 在线自学习事件检测模型更新方法及装置
CN107423683A (zh) * 2017-06-11 2017-12-01 广州市迪士普音响科技有限公司 基于语音识别和人脸识别的报警求助处理方法和装置
CN107371085A (zh) * 2017-09-01 2017-11-21 深圳市沃特沃德股份有限公司 安全防护方法、装置和智能音箱
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN107888774A (zh) * 2017-11-13 2018-04-06 平安科技(深圳)有限公司 一种求救方法、装置、设备及计算机可读存储介质
CN108197115A (zh) * 2018-01-26 2018-06-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108597506A (zh) * 2018-03-13 2018-09-28 广州势必可赢网络科技有限公司 一种智能穿戴设备警示方法及智能穿戴设备
CN108563633A (zh) * 2018-03-29 2018-09-21 腾讯科技(深圳)有限公司 一种语音处理方法和服务器
CN108694958A (zh) * 2018-04-26 2018-10-23 广州国音科技有限公司 一种安防报警方法及装置
CN108766439A (zh) * 2018-04-27 2018-11-06 广州国音科技有限公司 一种基于声纹识别的监控方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580390A (zh) * 2019-09-27 2021-03-30 百度在线网络技术(北京)有限公司 基于智能音箱的安防监控方法、装置、音箱和介质
CN112580390B (zh) * 2019-09-27 2023-10-17 百度在线网络技术(北京)有限公司 基于智能音箱的安防监控方法、装置、音箱和介质
WO2024082865A1 (zh) * 2022-10-17 2024-04-25 广西翰霖科技有限公司 预警方法、装置、电子设备及存储介质
WO2024197594A1 (zh) * 2023-03-28 2024-10-03 京东方科技集团股份有限公司 音频监护方法、系统、设备以及计算机存储介质

Also Published As

Publication number Publication date
CN109634554B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US10832686B2 (en) Method and apparatus for pushing information
CN112863547B (zh) 虚拟资源转移处理方法、装置、存储介质及计算机设备
US20200075024A1 (en) Response method and apparatus thereof
CN107395352B (zh) 基于声纹的身份识别方法及装置
CN103650035B (zh) 经由社交图谱、语音模型和用户情境识别接近移动装置用户的人
CN108305626A (zh) 应用程序的语音控制方法和装置
CN107844586A (zh) 新闻推荐方法和装置
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN107147618A (zh) 一种用户注册方法、装置及电子设备
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN109545192A (zh) 用于生成模型的方法和装置
US11127399B2 (en) Method and apparatus for pushing information
CN107393541A (zh) 信息验证方法和装置
KR20190031167A (ko) 전자 장치 및 이의 제어 방법
CN107506166A (zh) 信息提示方法及装置、计算机装置及可读存储介质
CN112820291A (zh) 智能家居控制方法、系统和存储介质
CN109634554A (zh) 用于输出信息的方法和装置
CN109545193A (zh) 用于生成模型的方法和装置
CN107733722A (zh) 用于配置语音服务的方法和装置
CN109934191A (zh) 信息处理方法和装置
CN106992008A (zh) 处理方法及电子设备
CN109671435A (zh) 用于唤醒智能设备的方法和装置
CN110473552A (zh) 语音识别认证方法及系统
CN108521516A (zh) 用于终端设备的控制方法和装置
CN110933225A (zh) 通话信息获取方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant