CN111223487B - 一种信息处理方法及电子设备 - Google Patents
一种信息处理方法及电子设备 Download PDFInfo
- Publication number
- CN111223487B CN111223487B CN201911424331.7A CN201911424331A CN111223487B CN 111223487 B CN111223487 B CN 111223487B CN 201911424331 A CN201911424331 A CN 201911424331A CN 111223487 B CN111223487 B CN 111223487B
- Authority
- CN
- China
- Prior art keywords
- voice data
- target
- information
- determining
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种信息处理方法及电子设备,所述方法及电子设备在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
Description
技术领域
本申请属于智能语音处理领域,尤其涉及一种信息处理方法及电子设备。
背景技术
一直以来,提高会议效率、实现会议纪要实时发布,被各行业视为提高行政能力的重点。
在语音输入、语音智能处理变得越来越广泛的今天,如何基于语音智能处理手段,有效提炼出会议等多人讲话场景中的讲话重点、纪要信息已成为一个值得研究的方向。
发明内容
有鉴于此,本申请的目的在于提供一种信息处理方法及电子设备,用于通过对会议等多人讲话场景中的语音数据进行智能处理,来有效提炼并记录该多人讲话场景中的讲话重点、纪要信息。
为此,本申请公开如下技术方案:
一种信息处理方法,包括:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;
根据所述语音数据确定出所述至少一个发音对象;
确定符合对象条件的至少一个目标发音对象;
确定所述语音数据中对应于所述目标发音对象的语音数据;
根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据。
上述方法,优选的,所述根据所述语音数据确定出所述至少一个发音对象,包括:
获得所述语音数据中不同数据的声纹信息;
将所述不同数据的声纹信息,分别与至少一个基准声纹进行匹配;不同的基准声纹对应不同的发音对象;
根据匹配结果,确定出所述至少一个发音对象。
上述方法,优选的,所述对象条件为数量条件或指示信息;
所述确定符合对象条件的至少一个目标发音对象,包括:
确定发音对象对应的语音数据中包括的关键词的数量;确定对应的语音数据中关键词数量符合所述数量条件的至少一个目标发音对象;
或者,
确定符合指示信息的至少一个目标发音对象。
上述方法,优选的,所述确定发音对象对应的语音数据中包括的关键词的数量,包括:
确定发音对象对应的语音数据中与预置关键词相匹配的词语的数量;
其中,所述预置关键词包括:在所述信息处理之前预先配置的至少一个关键词,和/或在所述信息处理的过程中配置的关键词,和/或从预先设定的主题信息中提取出的关键词。
上述方法,优选的,所述确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象,包括:
确定对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象。
上述方法,优选的,所述根据数据条件确定目标语音数据,包括:
确定目标发音对象对应的语音数据中具有关键词的语音数据,作为所述目标语音数据。
上述方法,优选的,所述记录目标发音对象对应的目标语音数据的数据信息,包括:
记录目标发音对象对应的目标语音数据的音频信息和/或文本信息。
上述方法,优选的,该方法还包括:
在所述信息处理的过程中,若检测到与预置关键词不匹配且满足词频条件的词语,则生成并显示提示信息;该提示信息用于提示是否将该词语设置为关键词;
若检测到预定操作信息,则设置该词语为关键词;所述预定操作信息用于指示将该词语设置为关键词。
一种电子设备,包括:
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;
根据所述语音数据确定出所述至少一个发音对象;
确定符合对象条件的至少一个目标发音对象;
确定所述语音数据中对应于所述目标发音对象的语音数据;
根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据。
上述电子设备,优选的,所述对象条件为数量条件或指示信息;
所述处理器确定符合对象条件的至少一个目标发音对象,包括:
确定发音对象对应的语音数据中包括的关键词的数量;确定对应的语音数据中关键词数量符合所述数量条件的至少一个目标发音对象;
或者,
确定符合指示信息的至少一个目标发音对象。
由以上方案可知,本申请提供的信息处理方法及电子设备,在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的信息处理方法的一种流程示意图;
图2是本申请实施例提供的信息处理方法的另一种流程示意图;
图3是本申请实施例提供的针对会议场景进行会议纪要提炼与记录的一种处理逻辑示意图;
图4是本申请实施例提供的信息处理方法的又一种流程示意图;
图5是本申请实施例提供的针对会议场景进行会议纪要提炼与记录的另一种处理逻辑示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请一可选实施例中,公开了一种信息处理方法,目的在于通过对会议等多人讲话场景中的语音数据进行智能处理,来有效提炼并记录该多人讲话场景中的讲话重点、纪要信息。该信息处理方法可应用于但不限于录音笔、录音棒、录音仪等录音设备,或者还可以应用于智能手机、平板电脑、个人数字助理等便携式终端,或者还可以应用于通用/专用计算或配置环境中的便携式计算机(如笔记本)、台式计算机、一体式计算机、或服务器等设备。
参阅图1,示出了本申请实施例中该信息处理方法的流程示意图,如图1所示,在本实施例中,该信息处理方法包括:
步骤101、获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据。
所述至少一个发音对象,可以是但不限于讲座、会议、课堂等场景中的一个或多个讲话人。所述语音数据,则可以是对上述任意一场景进行语音音频采集所得的数据,其包括至少一个发音对象所产生的语音音频。
具体实施中,可使用录音笔、录音仪或mic(麦克风)、具备mic的便携式终端或计算机等声音采集装置对上述场景中的语音进行采集,得到至少一个发音对象的语音数据,并在执行端设备获取采集的该语音数据,为后续在执行端设备针对该语音数据进行信息处理做好准备。
该执行端设备可以与所述声音采集装置为同一设备或不同设备,如执行端设备即为录音笔、录音仪或直接现场采音的计算机终端本身,或者执行端设备为后台服务器等。
且具体地,作为一种可选实施方式,所获得的该语音数据,可以为针对讲座、会议、课堂等场景的一完整录音文件,在该方式下,声音采集装置在完成对上述场景(如一次会议、一场讲座)的语音音频采集得到相应的录音文件后,再将该完整的录音文件输送给执行端设备(若执行端设备与声音采集装置为同一设备,则为设备内传输),以便执行端设备对其进行信息处理;作为另一种实施方式,所获得的该语音数据,还可以为针对上述场景通过实时录音所得的一句/多句语音音频,或者一段/多段语音音频,在该方式下,声音采集装置一边在上述场景中现场采集语音音频,一边将所采集的一句/多句或者一段/多段语音音频实时输送给执行端设备,以便于执行端设备对其进行实时的信息处理。
步骤102、根据所述语音数据确定出所述至少一个发音对象。
执行端设备在获取所述语音数据后,进一步确定出所述语音数据对应的至少一个发音对象,如通过声纹识别技术,确定出所述语音数据中的不同语音音频对应的一个或多个发音对象等。
其中,如果该语音数据为一完整的录音文件,则确定该完整的录音文件中不同的语音音频对应的至少一个发音对象;相类似地,如果该语音数据为在现场录音时实时输送的一句/多句或者一段/多段音频,则确定该一句/多句或者一段/多段音频对应的至少一个发音对象。
步骤103、确定符合对象条件的至少一个目标发音对象。
之后,进一步确定出符合对象条件的至少一个目标发音对象。
其中,本步骤确定出符合对象条件的至少一个目标发音对象,目的在于针对讲座、会议、课堂等场景,确定出至少一个重要讲话人或主讲人。
实际实施中,可选地,可以利用相应选择策略从所述至少一个发音对象中选择出符合对象条件的一个或多个发音对象,作为所述至少一个目标发音对象;或者,还可以基于指定方式,指定一个或多个发音对象,作为所述至少一个目标发音对象。容易理解的是,该选择策略或指定方式的根本目的,在于能够确定出重要讲话人或主讲人,所述对象条件则可以是对应于该选择策略或指定方式所设定的条件。
步骤104、确定所述语音数据中对应于所述目标发音对象的语音数据。
承前述,在确定出符合对象条件的至少一个目标发音对象后,从所述语音数据中筛选出与目标发音对象相对应的语音数据。如,从所述完整的录音文件中筛选出与每个目标发音对象相对应的语音数据,或者,从所述一句/多句或者一段/多段音频中筛选出与每个目标发音对象相对应的语音数据等(当然,若该一句/多句或者一段/多段音频中不存在目标发音对象的语音数据,则筛选失败,可继续针对下一句/多句或者下一段/多段音频执行该处理)。
步骤105、根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据。
在从获得的语音数据,如完整的录音文件或者一句/多句、一段/多段音频中确定出至少一个目标发音数据对应的语音数据后,进一步从至少一个目标发音对象对应的语音数据中确定出符合数据条件的目标语音数据。
相类似的,该符合数据条件的目标语音数据的确定,目的在于能从目标发音对象对应的语音数据中进一步筛选并提炼出出重要语音信息,如从重要讲话人或主讲人的讲话信息中筛选出重要讲话或者纪要信息等。
实施中,该目标语音数据的确定,具体可基于但不限于关键字/词匹配等技术来实现,该部分将在下文的实施例中详细说明,具体可参阅下文相关实施例的描述。
由以上方案可知,本实施例提供的信息处理方法,在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
在本申请一可选实施中,参阅图2,所述信息处理方法可进一步通过以下的处理过程实现:
步骤201、获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据。
作为一种可选实施方式,所获得的该语音数据,可以为针对讲座、会议、课堂等场景的一完整录音文件,在该方式下,声音采集装置完成对上述场景(如一次会议、一场讲座)的语音音频采集得到相应录音文件后,再将该完整的录音文件输送给执行端设备(若执行端设备与声音采集装置为同一设备,则为设备内传输),以便执行端设备对其进行信息处理;作为另一种种实施方式,所获得的该语音数据,还可以为针对上述场景通过实时录音所得的一句/多句语音音频,或者一段/多段语音音频,在该方式下,声音采集装置一边在上述场景中现场采集语音音频,一边将所采集的一句/多句或者一段/多段语音音频实时输送给执行端设备,以便于执行端设备对其进行实时的信息处理。
步骤202、获得所述语音数据中不同数据的声纹信息。
不同发音对象具有不同的声纹特征,在获得对至少一个发音对象的音频进行采集所得的所述语音数据后,可提取该语音数据中的至少一种声纹信息,提取的声纹信息中携带有相应发音对象的声纹特征,之后可将提取的携带有声纹特征的声纹信息应用于发音对象的识别中。
步骤203、将所述不同数据的声纹信息,分别与至少一个基准声纹进行匹配;不同的基准声纹对应不同的发音对象。
可选地,本申请实施例中预先注册并存储了至少一个发音对象的声纹信息,并将其作为基准声纹应用于发音对象识别时的声纹特征匹配中。
这样,当从获得的语音数据中提取出一个或多个声纹信息后,可将所提取出的声纹信息与预先注册并存储的各个基准声纹进行声纹特征匹配,通过声纹特征的匹配,来识别语音数据所对应的至少一个发音对象。
以下举例说明:
针对会议(如学术研讨会,企业内部会议等)、讲座、课堂等场景,为了实现记录重要讲话人的讲话重点信息、提炼讲话纪要,可预先注册多个参会人员、或不同讲师、演讲人的声纹信息,并作为基准声纹,之后,在从获得的语音数据中提取出相应的声纹信息后,可通过将提取的声纹信息与所注册的基准声纹进行声纹特征匹配,来识别语音数据所对应的至少一个发音对象的身份信息。
示例性地,如对于企业,可预先注册各个员工的声纹,之后在每次会议中,可直接将已经注册的各个员工的声纹作为基准声纹,来识别语音数据中发音对象的身份信息。
基于该实现方式,可准确识别出语音数据中不同发音对象的具体身份,如识别出一个录音文件(或句子/段落级别的语音音频等)的发音对象包括普通员工A、普通员工B、主管C等。
需要说明的是,以上通过预先注册基准声纹以进行发音对象身份识别的方式,仅为本申请实施例提供的示例性说明,实际实施中,并不限定于该特定方式,例如,可选地,还可以并不预先注册基准声纹,相应地在从语音数据中提取出至少一个声纹信息后,也不再进一步基于提取的声纹信息通过声纹特征匹配进行发音对象实际身份的识别,而是仅将声纹信息的提取应用于语音数据中不同发音对象所对应的不同语音数据的区分,以便于后续针对不同的发音对象,能够整理出其各自发出的语音数据,进而便于进一步从中提取重要讲话人的重要讲话信息。当然基于该方式,最终在提取出“重要讲话人”的重要讲话信息时,并未真正识别出讲话人的实际身份,而是可以采用虚拟身份标识,如“重要讲话人1”、“重要讲话人2”等。
步骤204、根据匹配结果,确定出所述至少一个发音对象。
在将从语音数据中提取出的至少一个声纹信息与预先注册的基准声纹进行声纹特征匹配后,可确定出所提取的至少一个声纹信息对应的至少一个发音对象的具体身份,如识别出一个录音文件对应的发音对象包括技术人员1、技术人员2、产品经理3,或者识别出一句/段语音音频对应的发音对象包括技术主管4等。
步骤205、确定发音对象对应的语音数据中包括的关键词的数量,确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象;或者,确定符合指示信息的至少一个目标发音对象。
之后,进一步确定出至少一个目标发音对象,如上文所述,作为一种可选的实施方式,可以利用相应选择策略从所述至少一个发音对象中选择出符合对象条件的一个或多个发音对象,作为所述至少一个目标发音对象。
其中,具体地,可将所述对象条件设定为需满足的关键词数量条件。在此基础上,从所述至少一个发音对象中确定出满足关键词数量条件的发音对象作为目标发音对象。
示例性地,比如,可确定每个发音对象对应的语音数据中与预置关键词相匹配的词语的数量,并确定对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象。所述预置关键词包括:在所述信息处理之前预先设定的至少一个关键词,和/或在所述信息处理的过程中设定的关键词,和/或从预先设定的主题信息中提取出的关键词。
为便于理解,以下以会议场景为例举例说明。
在会议开始之前,如图3所示,可以预设一组关键词,和/或,预设一个/一组会议主题,如针对一个技术性研讨会,可以预先设定一组重要或关键的技术词汇,同时还可以根据需要设定一个或一组技术主题,并可将所设定的技术词汇作为预置关键词存储至关键词词库中,同时,若一并设定了一个或一组会议主题,还可以从所设定的会议主题中提取出所需的词汇(如技术词汇)作为预置关键词并保存到关键词词库中。
在此基础上,可通过将发音对象对应的语音数据与关键词词库中的各个关键词进行匹配,来确定出每个发音对象对应的语音数据中与词库中的预置关键词相匹配的词语的数量,容易理解的是,发音对象对应的语音数据中与预置关键词相匹配的词语的数量越多,则发音对象对应的语音数据越贴合会议需求或主题,相应地,发音对象及其讲话语音在本次会议中的重要程度越高。基于这一特点,在确定出每个发音对象对应的语音数据中与预置关键词相匹配的词语的数量后,可按相匹配的词语的数量对各个发音对象进行排序,如按相匹配的词语的数量以降序或升序的方式对各个发音对象进行排序等,并从中选择出对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象,具体地,如从中选择出对应的语音数据中关键词数量最多的一个发音对象(通常为主讲人),作为所述目标发音对象,或者选择出对应的语音数据中关键词数量top k(k为自然数)的几个发音对象(通常为几个主要发言人/重要与会人),作为所述目标发音对象等。
作为另一种可选的实施方式,还可以基于指定方式,确定出符合指示信息的发音对象,作为符合对象条件的所述目标发音对象。此种情况下,则所述对象条件即为所述指示信息。
其中,可选地,所述指示信息可以是指定的讲话人身份信息,比如可以根据实际需求,在会议开始之前指定几个主要发言人作为所述目标发音对象,或者在讲座开始之前指定本次讲座的主讲人作为所述目标发音对象等。或者,可选地,所述指示信息还可以是摄像头采集的讲话人图像,示例性地,比如预先设定会议或讲座的主讲位置,并采集主讲位置上讲话人的图像,通过对主讲位置上讲话人的图像进行图像识别,来识别出主讲人身份,并将其作为所述目标发音对象。
步骤206、确定所述语音数据中对应于所述目标发音对象的语音数据。
在确定出符合对象条件的至少一个目标发音对象后,可进一步基于声纹特征匹配技术,从所述语音数据中匹配出与目标发音对象相对应的语音数据。如,从所述完整的录音文件中匹配出符合目标发音对象的声纹特征的各语音句,或者,从所述一句/多句或者一段/多段音频中匹配出符合目标发音对象的声纹特征的各个语音句等。
步骤207、确定目标发音对象对应的语音数据中具有关键词的语音数据,作为符合所述数据条件的目标语音数据。
本实施例中,将所述数据条件设定为:语音数据中具有关键词。
在一次会议或一场讲座中,主讲人或主要发言人所产生的语音数据,通常既包括具有关键词的重要讲话信息(纪要信息),也包括不具有关键词的非重要讲话信息(非纪要信息)。
针对这一特点,本实施例中,当确定出至少一个目标发音对象,以及确定出所获得的语音数据中对应于所述目标发音对象的语音数据后,参阅图3,进一步基于上述数据条件,从目标发音对象对应的语音数据中确定出具有关键词的语音数据,如确定出具有关键词的语音句子或者段落等会议纪要,作为该目标发音对象的目标语音数据。而对于目标发音对象的语音数据中不具有关键词的语音句子或者段落,则相应被过滤掉。这样,针对目标发音对象,可从录音文件或实时采集并传输的音频句/音频段中有效提炼出其重要讲话信息(纪要信息)。
步骤208、记录目标发音对象对应的目标语音数据的音频信息和/或文本信息。
最终,可记录目标发音对象对应的目标语音数据的数据信息。其中,在对目标发音对象的目标语音数据(重要讲话人的重要讲话信息/讲话纪要)进行记录时,可记录其音频信息,或者,还可以将其转换为文本信息进行记录,或者,还可以一并记录其音频信息与文本信息,本实施例不限定信息记录时的具体实现方式。
实际实施中,基于本申请方案,可在针对一次会议或一场讲座完成音频采集得到完整的录音文件后,再对录音文件进行信息处理,从中提炼出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,以此得到至少一个重要讲话人的重要讲话信息,并最终对应记录重要讲话人与其重要讲话信息,实现会议纪要的提炼;或者,还可以一边进行音频采集,一边将所采集的一句/多句、一段/多段音频信息输送给执行端设备实时地进行信息处理,并针对一句/多句、一段/多段音频信息提炼出其中目标发音对象的目标语音数据(当然若该一句/多句、一段/多段音频信息中不具备目标发音对象的目标语音数据,则将其过滤掉,并继续对下一句/多句、下一段/多段音频进行该处理),并将提炼出的目标语音数据添加记录至其所属的目标发音对象的重要讲话信息中,直至处理完毕,即可得到一次会议、一场讲座中每个重要讲话人的重要讲话信息。
由此,在最终记录的信息中可包括对应于每个目标发音对象(重要讲话人)的一组目标语音数据(重要讲话信息)。
本实施例中,在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
在本申请一可选实施例中,参阅图4示出的信息处理方法的流程示意图,该信息处理方法还可以包括以下处理:
步骤106、在所述信息处理的过程中,若检测到与预置关键词不匹配且满足词频条件的词语,则生成并显示提示信息;该提示信息用于提示是否将该词语设置为关键词;
所述词频条件,可以是但不限于达到设定的词频值。
本申请实施例中,在对所获得的语音数据进行信息处理的过程中,还检测该语音数据中与预置关键词不匹配的各个词语对应的词频,若该语音数据中与预置关键词不匹配的某一词语(如某一技术词汇)的词频满足设定的词频条件,比如达到设定的词频数值,则表示该词语频繁出现,虽然未被预置为关键词,但实际上极有可能是这次会议或讲座中的一个关键词,在该情形下,本实施例生成并显示提示信息,以用于提示用户是否将该词语设置为关键词。
具体实施中,可以按设定的时长周期性地提示新发现的符合词频条件的词语,如图5所示,具体可以每5min/10min提示一次等(当然,若在该周期内未检测出符合词频条件的词语则不提示),或者,还可以在每次检测到符合词频条件的词语时,实时显示提示信息。
步骤107、若检测到将该词语设置为关键词的操作信息,则设置该词语为关键词。
其中,若检测到将该词语设置为关键词的操作信息,比如,检测到使用者对“是”按钮的选择点击操作信息,则设置该词语为关键词,并将该词语添加进关键词词库中,在后续的信息处理过程中,该新添加的关键词与词库中的原有关键词一起作为基准关键词参与所需的关键词匹配过程,以确定出目标发音对象所对应的目标语音数据。
反之,若检测到不将该词语设置为关键词的操作信息(如,检测到使用者对“否”按钮的选择点击操作信息),或者,在设定的等待时长内未检测到任何操作信息,则不设置该词语为关键词。
本实施例通过在信息处理过程中检测与预置关键词不匹配的词语的词频,针对符合词频条件的与预置关键词不匹配的词语进行信息提示,并在使用者的允许下,将其设置为关键词,可进一步基于发音对象的实际语音内容挖掘其中的未被置入关键词词库中的潜在关键词,从而,能够进一步提升从语音数据中提炼目标发音对象的目标语音数据的准确性。
对应于上述的信息处理方法,本申请实施例还公开了一种电子设备,该电子设备可以是但不限于录音笔、录音棒、录音仪等录音设备,或者还可以是智能手机、平板电脑、个人数字助理等便携式终端,或者还可以是通用/专用计算或配置环境中的便携式计算机(如笔记本)、台式计算机、一体式计算机、或服务器等设备。
参阅图6示出的电子设备的结构示意图,该电子设备至少包括:
存储器601,用于至少存储一组指令集;
处理器602,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;
根据所述语音数据确定出所述至少一个发音对象;
确定符合对象条件的至少一个目标发音对象;
确定所述语音数据中对应于所述目标发音对象的语音数据;
根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据。
具体实施中,可使用录音笔、录音仪或mic(麦克风)、具备mic的便携式终端或计算机等声音采集装置对上述场景中的语音进行采集,得到至少一个发音对象的语音数据,并由电子设备获取采集的该语音数据,为后续在该电子设备上针对该语音数据进行信息处理做好准备。
该电子设备可以与所述声音采集装置为同一设备或不同设备,如电子设备即为录音笔、录音仪或直接现场采音的计算机终端本身,或者电子设备为后台服务器等。
且具体地,作为一种可选实施方式,所获得的该语音数据,可以为针对讲座、会议、课堂等场景的一完整录音文件,在该方式下,声音采集装置在完成对上述场景(如一次会议、一场讲座)的语音音频采集得到相应的录音文件后,再将该完整的录音文件输送给电子设备(若电子设备与声音采集装置为同一设备,则为设备内传输),以便电子设备对其进行信息处理;作为另一种实施方式,所获得的该语音数据,还可以为针对上述场景通过实时录音所得的一句/多句语音音频,或者一段/多段语音音频,在该方式下,声音采集装置一边在上述场景中现场采集语音音频,一边将所采集的一句/多句或者一段/多段语音音频实时输送给电子设备,以便于电子设备对其进行实时的信息处理。
电子设备在获取所述语音数据后,进一步确定出所述语音数据对应的至少一个发音对象,如通过声纹识别技术,确定出所述语音数据中的不同语音音频对应的一个或多个发音对象等。
其中,如果该语音数据为一完整的录音文件,则确定该完整的录音文件中不同的语音音频对应的至少一个发音对象;相类似地,如果该语音数据为在现场录音时实时输送的一句/多句或者一段/多段音频,则确定该一句/多句或者一段/多段音频对应的至少一个发音对象。
之后,进一步确定出符合对象条件的至少一个目标发音对象。
其中,本步骤确定出符合对象条件的至少一个目标发音对象,目的在于针对讲座、会议、课堂等场景,确定出至少一个重要讲话人或主讲人。
实际实施中,可选地,可以利用相应选择策略从所述至少一个发音对象中选择出符合对象条件的一个或多个发音对象,作为所述至少一个目标发音对象;或者,还可以基于指定方式,指定一个或多个发音对象,作为所述至少一个目标发音对象。容易理解的是,该选择策略或指定方式的根本目的,在于能够确定出重要讲话人或主讲人,所述对象条件则可以是对应于该选择策略或指定方式所设定的条件。
承前述,在确定出符合对象条件的至少一个目标发音对象后,从所述语音数据中筛选出与目标发音对象相对应的语音数据。如,从所述完整的录音文件中筛选出与每个目标发音对象相对应的语音数据,或者,从所述一句/多句或者一段/多段音频中筛选出与每个目标发音对象相对应的语音数据等(当然,若该一句/多句或者一段/多段音频中不存在目标发音对象的语音数据,则筛选失败,可继续针对下一句/多句或者下一段/多段音频执行该处理)。
在从获得的语音数据,如完整的录音文件或者一句/多句、一段/多段音频中确定出至少一个目标发音数据对应的语音数据后,进一步从至少一个目标发音对象对应的语音数据中确定出符合数据条件的目标语音数据。
相类似的,该符合数据条件的目标语音数据的确定,目的在于能从目标发音对象对应的语音数据中进一步筛选并提炼出出重要语音信息,如从重要讲话人或主讲人的讲话信息中筛选出重要讲话或者纪要信息等。
实施中,该目标语音数据的确定,具体可基于但不限于关键字/词匹配等技术来实现,该部分将在下文的实施例中详细说明,具体可参阅下文相关实施例的描述。
由以上方案可知,本实施例提供的电子设备,在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
在本申请一可选实施例中,所述电子设备中的处理器602可进一步通过以下处理过程实现其功能:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;获得所述语音数据中不同数据的声纹信息;将所述不同数据的声纹信息,分别与至少一个基准声纹进行匹配;不同的基准声纹对应不同的发音对象;根据匹配结果,确定出所述至少一个发音对象;确定发音对象对应的语音数据中包括的关键词的数量,确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象;或者,确定符合指示信息的至少一个目标发音对象;确定所述语音数据中对应于所述目标发音对象的语音数据;确定目标发音对象对应的语音数据中具有关键词的语音数据,作为符合所述数据条件的目标语音数据;记录目标发音对象对应的目标语音数据的音频信息和/或文本信息。
具体地,作为一种可选实施方式,所获得的该语音数据,可以为针对讲座、会议、课堂等场景的一完整录音文件,在该方式下,声音采集装置完成对上述场景(如一次会议、一场讲座)的语音音频采集得到相应录音文件后,再将该完整的录音文件输送给执行端设备(若执行端设备与声音采集装置为同一设备,则为设备内传输),以便执行端设备对其进行信息处理;作为另一种种实施方式,所获得的该语音数据,还可以为针对上述场景通过实时录音所得的一句/多句语音音频,或者一段/多段语音音频,在该方式下,声音采集装置一边在上述场景中现场采集语音音频,一边将所采集的一句/多句或者一段/多段语音音频实时输送给执行端设备,以便于执行端设备对其进行实时的信息处理。
不同发音对象具有不同的声纹特征,在获得对至少一个发音对象的音频进行采集所得的所述语音数据后,可提取该语音数据中的至少一种声纹信息,提取的声纹信息中携带有相应发音对象的声纹特征,之后可将提取的携带有声纹特征的声纹信息应用于发音对象的识别中。
可选地,本申请实施例中预先注册并存储了至少一个发音对象的声纹信息,并将其作为基准声纹应用于发音对象识别时的声纹特征匹配中。
这样,当从获得的语音数据中提取出一个或多个声纹信息后,可将所提取出的声纹信息与预先注册并存储的各个基准声纹进行声纹特征匹配,通过声纹特征的匹配,来识别语音数据所对应的至少一个发音对象。
以下举例说明:
针对会议(如学术研讨会,企业内部会议等)、讲座、课堂等场景,为了实现记录重要讲话人的讲话重点信息、提炼讲话纪要,可预先注册多个参会人员、或不同讲师、演讲人的声纹信息,并作为基准声纹,之后,在从获得的语音数据中提取出相应的声纹信息后,可通过将提取的声纹信息与所注册的基准声纹进行声纹特征匹配,来识别语音数据所对应的至少一个发音对象的身份信息。
示例性地,如对于企业,可预先注册各个员工的声纹,之后在每次会议中,可直接将已经注册的各个员工的声纹作为基准声纹,来识别语音数据中发音对象的身份信息。
基于该实现方式,可准确识别出语音数据中不同发音对象的具体身份,如识别出一个录音文件(或句子/段落级别的语音音频等)的发音对象包括普通员工A、普通员工B、主管C等。
需要说明的是,以上通过预先注册基准声纹以进行发音对象身份识别的方式,仅为本申请实施例提供的示例性说明,实际实施中,并不限定于该特定方式,例如,可选地,还可以并不预先注册基准声纹,相应地在从语音数据中提取出至少一个声纹信息后,也不再进一步基于提取的声纹信息通过声纹特征匹配进行发音对象实际身份的识别,而是仅将声纹信息的提取应用于语音数据中不同发音对象所对应的不同语音数据的区分,以便于后续针对不同的发音对象,能够整理出其各自发出的语音数据,进而便于进一步从中提取重要讲话人的重要讲话信息。当然基于该方式,最终在提取出“重要讲话人”的重要讲话信息时,并未真正识别出讲话人的实际身份,而是可以采用虚拟身份标识,如“重要讲话人1”、“重要讲话人2”等。
在将从语音数据中提取出的至少一个声纹信息与预先注册的基准声纹进行声纹特征匹配后,可确定出所提取的至少一个声纹信息对应的至少一个发音对象的具体身份,如识别出一个录音文件对应的发音对象包括技术人员1、技术人员2、产品经理3,或者识别出一句/段语音音频对应的发音对象包括技术主管4等。
之后,进一步确定出至少一个目标发音对象,如上文所述,作为一种可选的实施方式,可以利用相应选择策略从所述至少一个发音对象中选择出符合对象条件的一个或多个发音对象,作为所述至少一个目标发音对象。
其中,具体地,可将所述对象条件设定为需满足的关键词数量条件。在此基础上,从所述至少一个发音对象中确定出满足关键词数量条件的发音对象作为目标发音对象。
示例性地,比如,可确定每个发音对象对应的语音数据中与预置关键词相匹配的词语的数量,并确定对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象。所述预置关键词包括:在所述信息处理之前预先设定的至少一个关键词,和/或在所述信息处理的过程中设定的关键词,和/或从预先设定的主题信息中提取出的关键词。
为便于理解,以下以会议场景为例举例说明。
在会议开始之前,如图3所示,可以预设一组关键词,和/或,预设一个/一组会议主题,如针对一个技术性研讨会,可以预先设定一组重要或关键的技术词汇,同时还可以根据需要设定一个或一组技术主题,并可将所设定的技术词汇作为预置关键词存储至关键词词库中,同时,若一并设定了一个或一组会议主题,还可以从所设定的会议主题中提取出所需的词汇(如技术词汇)作为预置关键词并保存到关键词词库中。
在此基础上,可通过将发音对象对应的语音数据与关键词词库中的各个关键词进行匹配,来确定出每个发音对象对应的语音数据中与词库中的预置关键词相匹配的词语的数量,容易理解的是,发音对象对应的语音数据中与预置关键词相匹配的词语的数量越多,则发音对象对应的语音数据越贴合会议需求或主题,相应地,发音对象及其讲话语音在本次会议中的重要程度越高。基于这一特点,在确定出每个发音对象对应的语音数据中与预置关键词相匹配的词语的数量后,可按相匹配的词语的数量对各个发音对象进行排序,如按相匹配的词语的数量以降序或升序的方式对各个发音对象进行排序等,并从中选择出对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象,具体地,如从中选择出对应的语音数据中关键词数量最多的一个发音对象(通常为主讲人),作为所述目标发音对象,或者选择出对应的语音数据中关键词数量top k(k为自然数)的几个发音对象(通常为几个主要发言人/重要与会人),作为所述目标发音对象等。
作为另一种可选的实施方式,还可以基于指定方式,确定出符合指示信息的发音对象,作为符合对象条件的所述目标发音对象。此种情况下,则所述对象条件即为所述指示信息。
其中,可选地,所述指示信息可以是指定的讲话人身份信息,比如可以根据实际需求,在会议开始之前指定几个主要发言人作为所述目标发音对象,或者在讲座开始之前指定本次讲座的主讲人作为所述目标发音对象等。或者,可选地,所述指示信息还可以是摄像头采集的讲话人图像,示例性地,比如预先设定会议或讲座的主讲位置,并采集主讲位置上讲话人的图像,通过对主讲位置上讲话人的图像进行图像识别,来识别出主讲人身份,并将其作为所述目标发音对象。
在确定出符合对象条件的至少一个目标发音对象后,可进一步基于声纹特征匹配技术,从所述语音数据中匹配出与目标发音对象相对应的语音数据。如,从所述完整的录音文件中匹配出符合目标发音对象的声纹特征的各语音句,或者,从所述一句/多句或者一段/多段音频中匹配出符合目标发音对象的声纹特征的各个语音句等。
本实施例中,将所述数据条件设定为:语音数据中具有关键词。
在一次会议或一场讲座中,主讲人或主要发言人所产生的语音数据,通常既包括具有关键词的重要讲话信息(纪要信息),也包括不具有关键词的非重要讲话信息(非纪要信息)。
针对这一特点,本实施例中,当确定出至少一个目标发音对象,以及确定出所获得的语音数据中对应于所述目标发音对象的语音数据后,参阅图3,进一步基于上述数据条件,从目标发音对象对应的语音数据中确定出具有关键词的语音数据,如确定出具有关键词的语音句子或者段落等会议纪要,作为该目标发音对象的目标语音数据。而对于目标发音对象的语音数据中不具有关键词的语音句子或者段落,则相应被过滤掉。这样,针对目标发音对象,可从录音文件或实时采集并传输的音频句/音频段中有效提炼出其重要讲话信息(纪要信息)。
最终,可记录目标发音对象对应的目标语音数据的数据信息。其中,在对目标发音对象的目标语音数据(重要讲话人的重要讲话信息/讲话纪要)进行记录时,可记录其音频信息,或者,还可以将其转换为文本信息进行记录,或者,还可以一并记录其音频信息与文本信息,本实施例不限定信息记录时的具体实现方式。
实际实施中,基于本申请方案,可在针对一次会议或一场讲座完成音频采集得到完整的录音文件后,再对录音文件进行信息处理,从中提炼出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,以此得到至少一个重要讲话人的重要讲话信息,并最终对应记录重要讲话人与其重要讲话信息,实现会议纪要的提炼;或者,还可以一边进行音频采集,一边将所采集的一句/多句、一段/多段音频信息输送给执行端设备实时地进行信息处理,并针对一句/多句、一段/多段音频信息提炼出其中目标发音对象的目标语音数据(当然若该一句/多句、一段/多段音频信息中不具备目标发音对象的目标语音数据,则将其过滤掉,并继续对下一句/多句、下一段/多段音频进行该处理),并将提炼出的目标语音数据添加记录至其所属的目标发音对象的重要讲话信息中,直至处理完毕,即可得到一次会议、一场讲座中每个重要讲话人的重要讲话信息。
由此,在最终记录的信息中可包括对应于每个目标发音对象(重要讲话人)的一组目标语音数据(重要讲话信息)。
本实施例中,在获得对至少一个发音对象产生的音频进行采集所得的语音数据后,可从中确定出符合对象条件的至少一个目标发音对象所对应的符合数据条件的目标语音数据,并对确定出的目标发音对象的目标语音数据进行数据信息记录,从而,针对会议等多人讲话场景,基于本申请方案,可实现从多个讲话人发出的语音数据中提炼出重要讲话人的讲话纪要,能有针对性地抓取重要讲话人的语音数据中的重点信息,为会议等多人讲话场景中重要讲话人的讲话重点、纪要信息的有效提炼与实时发布提供了方便。
在本申请一可选实施例中,所述电子设备中的处理器602还可以用于执行以下处理:
在所述信息处理的过程中,若检测到与预置关键词不匹配且满足词频条件的词语,则生成并显示提示信息;该提示信息用于提示是否将该词语设置为关键词;若检测到将该词语设置为关键词的操作信息,则设置该词语为关键词。
所述词频条件,可以是但不限于达到设定的词频值。
本申请实施例中,在对所获得的语音数据进行信息处理的过程中,还检测该语音数据中与预置关键词不匹配的各个词语对应的词频,若该语音数据中与预置关键词不匹配的某一词语(如某一技术词汇)的词频满足设定的词频条件,比如达到设定的词频数值,则表示该词语频繁出现,虽然未被预置为关键词,但实际上极有可能是这次会议或讲座中的一个关键词,在该情形下,本实施例生成并显示提示信息,以用于提示用户是否将该词语设置为关键词。
具体实施中,可以按设定的时长周期性地提示新发现的符合词频条件的词语,如图5所示,具体可以每5min/10min提示一次等(当然,若在该周期内未检测出符合词频条件的词语则不提示),或者,还可以在每次检测到符合词频条件的词语时,实时显示提示信息。
其中,若检测到将该词语设置为关键词的操作信息,比如,检测到使用者对“是”按钮的选择点击操作信息,则设置该词语为关键词,并将该词语添加进关键词词库中,在后续的信息处理过程中,该新添加的关键词与词库中的原有关键词一起作为基准关键词参与所需的关键词匹配过程,以确定出目标发音对象所对应的目标语音数据。
反之,若检测到不将该词语设置为关键词的操作信息(如,检测到使用者对“否”按钮的选择点击操作信息),或者,在设定的等待时长内未检测到任何操作信息,则不设置该词语为关键词。
本实施例通过在信息处理过程中检测与预置关键词不匹配的词语的词频,针对符合词频条件的与预置关键词不匹配的词语进行信息提示,并在使用者的允许下,将其设置为关键词,可进一步基于发音对象的实际语音内容挖掘其中的未被置入关键词词库中的潜在关键词,从而,能够进一步提升从语音数据中提炼目标发音对象的目标语音数据的准确性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种信息处理方法,包括:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;
根据所述语音数据确定出所述至少一个发音对象;
确定符合对象条件的至少一个目标发音对象;
确定所述语音数据中对应于所述目标发音对象的语音数据;
根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据;
其中,所述确定符合对象条件的至少一个目标发音对象,包括:
确定发音对象对应的语音数据中包括的关键词的数量;确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象。
2.根据权利要求1所述的方法,所述根据所述语音数据确定出所述至少一个发音对象,包括:
获得所述语音数据中不同数据的声纹信息;
将所述不同数据的声纹信息,分别与至少一个基准声纹进行匹配;不同的基准声纹对应不同的发音对象;
根据匹配结果,确定出所述至少一个发音对象。
3.根据权利要求1所述的方法,所述确定发音对象对应的语音数据中包括的关键词的数量,包括:
确定发音对象对应的语音数据中与预置关键词相匹配的词语的数量;
其中,所述预置关键词包括:在所述信息处理之前预先配置的至少一个关键词,和/或在所述信息处理的过程中配置的关键词,和/或从预先设定的主题信息中提取出的关键词。
4.根据权利要求1所述的方法,所述确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象,包括:
确定对应的语音数据中关键词数量最多的前预定数目的发音对象,作为所述至少一个目标发音对象。
5.根据权利要求1所述的方法,所述根据数据条件确定目标语音数据,包括:
确定目标发音对象对应的语音数据中具有关键词的语音数据,作为所述目标语音数据。
6.根据权利要求1所述的方法,所述记录目标发音对象对应的目标语音数据的数据信息,包括:
记录目标发音对象对应的目标语音数据的音频信息和/或文本信息。
7.根据权利要求3所述的方法,该方法还包括:
在所述信息处理的过程中,若检测到与预置关键词不匹配且满足词频条件的词语,则生成并显示提示信息;该提示信息用于提示是否将该词语设置为关键词;
若检测到预定操作信息,则设置该词语为关键词;所述预定操作信息用于指示将该词语设置为关键词。
8.一种电子设备,包括:
存储器,用于至少存储一组指令集;
处理器,用于调用并执行所述存储器中的所述指令集,通过执行所述指令集进行以下操作:
获得语音数据;所述语音数据为对至少一个发音对象产生的音频进行采集所得的数据;
根据所述语音数据确定出所述至少一个发音对象;
确定符合对象条件的至少一个目标发音对象;
确定所述语音数据中对应于所述目标发音对象的语音数据;
根据数据条件确定目标语音数据,并记录所述目标语音数据的数据信息;所述目标语音数据为所述对应于所述目标发音对象的语音数据中符合所述数据条件的数据;
其中,所述确定符合对象条件的至少一个目标发音对象,包括:
确定发音对象对应的语音数据中包括的关键词的数量;确定对应的语音数据中关键词数量符合数量条件的至少一个目标发音对象。
9.根据权利要求8所述的电子设备,所述对象条件为数量条件或指示信息;
所述处理器确定符合对象条件的至少一个目标发音对象,包括:
确定发音对象对应的语音数据中包括的关键词的数量;确定对应的语音数据中关键词数量符合所述数量条件的至少一个目标发音对象;
或者,
确定符合指示信息的至少一个目标发音对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424331.7A CN111223487B (zh) | 2019-12-31 | 2019-12-31 | 一种信息处理方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911424331.7A CN111223487B (zh) | 2019-12-31 | 2019-12-31 | 一种信息处理方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111223487A CN111223487A (zh) | 2020-06-02 |
CN111223487B true CN111223487B (zh) | 2023-06-23 |
Family
ID=70828065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911424331.7A Active CN111223487B (zh) | 2019-12-31 | 2019-12-31 | 一种信息处理方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111223487B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754990A (zh) * | 2020-06-24 | 2020-10-09 | 杨文龙 | 语音聊天协同处理方法及装置 |
CN112732869B (zh) * | 2020-12-31 | 2024-03-19 | 的卢技术有限公司 | 车载语音信息管理方法、装置、计算机设备和存储介质 |
CN114783420A (zh) * | 2022-06-22 | 2022-07-22 | 成都博点科技有限公司 | 一种数据处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039383A (ja) * | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006251545A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | 音声対話システム及びコンピュータプログラム |
US8612211B1 (en) * | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
JP2018013529A (ja) * | 2016-07-19 | 2018-01-25 | 岩崎通信機株式会社 | 特定会話検知装置、方法およびプログラム |
CN110287376A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于剧本和字幕分析的抽取重要电影片段的方法 |
JP2019175382A (ja) * | 2018-03-29 | 2019-10-10 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300944A1 (en) * | 2007-05-31 | 2008-12-04 | Cisco Technology, Inc. | Relevant invitee list for conference system |
CN101068271A (zh) * | 2007-06-26 | 2007-11-07 | 华为技术有限公司 | 电话纪要生成系统、通信终端、媒体服务器及方法 |
CN106487757A (zh) * | 2015-08-28 | 2017-03-08 | 华为技术有限公司 | 进行语音会议的方法、会议客户端和系统 |
CN105979395A (zh) * | 2016-04-22 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种反馈信息统计方法及装置 |
US10936969B2 (en) * | 2016-09-26 | 2021-03-02 | Shabaz Basheer Patel | Method and system for an end-to-end artificial intelligence workflow |
CN107995098A (zh) * | 2017-11-24 | 2018-05-04 | 福建中金在线信息科技有限公司 | 信息推送方法及装置 |
CN110022454B (zh) * | 2018-01-10 | 2021-02-23 | 华为技术有限公司 | 一种在视频会议中识别身份的方法及相关设备 |
CN108305632B (zh) * | 2018-02-02 | 2020-03-27 | 深圳市鹰硕技术有限公司 | 一种会议的语音摘要形成方法及系统 |
CN110211590B (zh) * | 2019-06-24 | 2021-12-03 | 新华智云科技有限公司 | 一种会议热点的处理方法、装置、终端设备及存储介质 |
-
2019
- 2019-12-31 CN CN201911424331.7A patent/CN111223487B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039383A (ja) * | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006251545A (ja) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | 音声対話システム及びコンピュータプログラム |
US8612211B1 (en) * | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
JP2018013529A (ja) * | 2016-07-19 | 2018-01-25 | 岩崎通信機株式会社 | 特定会話検知装置、方法およびプログラム |
JP2019175382A (ja) * | 2018-03-29 | 2019-10-10 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
CN110287376A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于剧本和字幕分析的抽取重要电影片段的方法 |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
于拾全,景新幸,刘志国.关键词检出技术在家庭语音智能控制系统中的应用.电子工程师.2005,(第02期),全文. * |
黄康泉 ; 陈壁金 ; 郑博 ; 徐芝琦 ; .Kinect在视频会议系统中的应用.广西大学学报(自然科学版).2011,(第S1期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111223487A (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI536365B (zh) | 聲紋辨識 | |
US20180197548A1 (en) | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction | |
US10586541B2 (en) | Communicating metadata that identifies a current speaker | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
CN107211058A (zh) | 基于会话动态的会议分段 | |
US9037461B2 (en) | Methods and systems for dictation and transcription | |
CN107210045A (zh) | 会议搜索以及搜索结果的回放 | |
CN104252464B (zh) | 信息处理方法和装置 | |
CN107211027A (zh) | 感知质量比会议中原始听到的更高的后会议回放系统 | |
CN107210034A (zh) | 选择性会议摘要 | |
CN107430851B (zh) | 发言提示装置及发言提示方法 | |
CN103165131A (zh) | 语音处理系统及语音处理方法 | |
CN107210036A (zh) | 会议词语云 | |
US20200137224A1 (en) | Comprehensive log derivation using a cognitive system | |
US11017073B2 (en) | Information processing apparatus, information processing system, and method of processing information | |
CN111063355A (zh) | 会议记录的生成方法及记录终端 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
JP5030868B2 (ja) | 会議音声録音システム | |
CN110751950A (zh) | 基于大数据的警用谈话语音识别方法及系统 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN114240342A (zh) | 一种会议控制的方法和装置 | |
US20160260435A1 (en) | Assigning voice characteristics to a contact information record of a person | |
CN110428184B (zh) | 待办事项分发方法、装置、设备及计算机可读存储介质 | |
CN115376517A (zh) | 一种会议场景下的说话内容的显示方法和装置 | |
CN117251595A (zh) | 视频录像处理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |