CN111580773B - 信息处理方法、装置及存储介质 - Google Patents
信息处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111580773B CN111580773B CN202010293278.8A CN202010293278A CN111580773B CN 111580773 B CN111580773 B CN 111580773B CN 202010293278 A CN202010293278 A CN 202010293278A CN 111580773 B CN111580773 B CN 111580773B
- Authority
- CN
- China
- Prior art keywords
- voice information
- voice
- preset
- information
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 35
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 abstract description 21
- 230000004044 response Effects 0.000 abstract description 19
- 238000004458 analytical method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开是关于一种信息处理方法、装置及存储介质。该方法应用于电子设备,包括:接收当前语音信息并获取所述语音信息的预设语音参数;确定获取的所述预设语音参数是否满足设定拒识条件;如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。本公开中的技术方案,在响应当前语音之前,就能够根据设定拒识条件确定出不需要进行响应的当前语音信息,这样,不仅可以提高电子设备响应的精确度,还能提升人机交互的智能性。
Description
技术领域
本公开涉及计算机通信领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
全双工通信技术是指同步双向的对话传输技术,目前,在人机对话过程中,全双工主要是指为了达到流畅、自然以及拟人化对话体验而使用的技术手段。
在基于人机对话方法及系统进行人机交互的过程中,由于电子设备接收到的语音请求量极大,且并不是所有接收到的语音请求都是用户真实想要表达的请求,这时,可能会存在误唤醒、对接收到无关的语音请求以及用户无意识的自言自语进行响应等误响应的情况。
发明内容
本公开提供一种信息处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种信息处理方法,应用于电子设备,包括:
接收当前语音信息并获取所述语音信息的预设语音参数;
确定获取的所述预设语音参数是否满足设定拒识条件;
如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。
可选的,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
根据本公开实施例的第二方面,提供一种信息处理装置,应用于电子设备,包括:
接收模块,配置为接收当前语音信息并获取所述语音信息的预设语音参数;
确定模块,配置为确定获取的所述预设语音参数是否满足设定拒识条件;
拒识模块,配置为如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。
可选的,所述确定模块,还配置为:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
可选的,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
根据本公开实施例的第三方面,提供一种信息处理装置,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述第一方面中的信息处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述第一方面中的信息处理方法中的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开在人机交互之前,可以根据接收到的当前语音信息确定当前语音信息的预设语音参数,并在预设语音参数满足设定拒识条件时,拒绝识别当前语音信息。本公开中的技术方案,在响应当前语音之前,就根据设定拒识条件确定出不需要进行响应的当前语音信息。这样,第一方面,不仅可以提高电子设备响应的精确度,还能提升人机交互的智能性;第二方面,通过拒绝识别预设语音参数满足设定拒识条件的当前语音信息,而不需要对拒绝识别的当前语音信息进行响应,不仅能够降低误响应的概率,还能够减少不必要的语义分析过程。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息处理方法的流程图。
图2是根据一示例性实施例示出的另一种信息处理方法的流程图。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图。
图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
图5是根据一示例性实施例示出的信息处理装置框图。
图6是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息处理方法的流程图,如图1所示,该方法主要包括以下步骤:
在步骤101中,接收当前语音信息并获取所述语音信息的预设语音参数;
在步骤102中,确定获取的所述预设语音参数是否满足设定拒识条件;
在步骤103中,如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。
本公开实施例中的信息处理方法可以应用于电子设备,其中,电子设备包括移动终端和固定终端。这里,移动终端包括手机、笔记本电脑、平板电脑、可穿戴式电子设备、智能音箱等,固定终端包括个人计算机、电视等。
本公开实施例中,可以在电子设备上安装可以用于进行人机交互的应用程序,在使用的过程中,当该应用程序接收到用户输入的交互请求时,可以基于电子设备上的语音采集组件采集当前语音信息,其中,当前语音信息可以是用户输入的语音请求信息,用于进行人机交互的应用程序包括语音助手。
例如,以电子设备是智能音箱为例,可以基于智能音箱所包含的语音采集组件采集用户输入的当前语音信息,并基于智能音箱所包含的处理器判断该当前语音信息的预设语音参数是否满足设定拒识条件,当预设语音参数满足设定拒识条件时,则拒绝识别该当前语音信息;当预设语音参数不满足设定拒识条件时,则基于处理器对当前语音信息进行语义分析,得到分析结果,并基于智能音箱所包含的语音输出组件输出与分析结果对应的响应信息。
再例如,以电子设备是手机、用于进行人机交互的应用程序是手机语音助手为例,可以在手机上安装手机语音助手,在手机接收到唤醒手机语音助手的唤醒指令时,则唤醒手机语音助手,在唤醒手机语音助手之后,可以基于手机所包含的语音采集组件采集当前语音信息并对当前语音信息进行语义分析,确定出当前语音信息所包含的内容,例如当前语音信息所包含的语音内容可以为“请帮我定明天早晨的闹钟......”等。
在电子设备接收到当前语音信息之后,可以获取当前语音信息的预设语音参数,这里,预设语音参数用于表征当前语音信息的属性,当前语音信息的属性包括以下至少之一:当前语音信息的采集属性,如,采集当前语音信息的速率、语音信息的输入速率、所采集的当前语音信息的音量等;当前语音信息的语义属性,如,当前语音信息所要表达的含义、语音信息的长度;当前语音信息与被拒绝的历史语音信息的相似度;设定时间内检测到当前语音信息的次数。在获取到当前语音信息的预设语音参数之后,可以判断该预设语音参数是否满足设定拒识条件,并在预设语音参数满足设定拒识条件的情况下,拒绝识别当前语音信息。
例如,接收到当前语音信息之后,可以确定当前语音信息的音量,并获取发出该当前语音信息的声源与电子设备之间的距离;然后确定当前语音信息的音量是否大于或者等于设定音量阈值,并确定声源与电子设备之间的距离是否小于或者等于设定距离阈值;当所述音量大于或者等于设定音量阈值,且所述距离小于或者等于设定距离阈值时,拒绝识别该当前语音信息。再例如,在电子设备进行音乐播放过程中,如果检测到当前语音信息,可以对当前语音信息进行语义分析,获取当前语音信息所要表达的含义,并确定当前语音信息所要表达的含义与当前所播放的音乐是否有关联;如果确定当前语音信息所要表达的含义与当前所播放的音乐有关联,则响应该当前语音信息;如果确定当前语音信息所要表达的含义与当前所播放的音乐没有关联,则拒绝识别该当前语音信息。比如,如果当前语音信息所要表达的含义是“请切换至下一首”,则可以直接将当前所播放的音乐切换至下一首;如果当前语音信息所要表达的含义是“今天午饭吃什么”,则拒绝识别当前语音信息。
再例如,在电子设备进行音乐播放过程中,如果检测到当前语音信息,可以确定当前语音信息的音量,并获取发出该当前语音信息的声源与电子设备之间的距离;当所述音量大于或者等于设定音量阈值,且所述距离小于或者等于设定距离阈值时,拒绝识别该当前语音信息,继续当前音乐的播放。当所述音量小于设定音量阈值,且所述距离大于设定距离阈值时,则对当前语音信息进行语义分析,并基于分析结果响应所述当前语音信息,例如,当前语义信息所表达的含义是“暂停当前音乐的播放”,则可以响应该当前语音信息,直接暂停当前所播放的音乐。以上是对满足设定拒识条件的情况进行举例说明,在其他可选的实施例中,也可以以其他的方式确定当前语音的预设语音参数是否满足设定拒识条件,在此不做具体限定。
本公开实施例中,在人机交互之前,可以根据接收到的当前语音信息确定当前语音信息的预设语音参数,并在预设语音参数满足设定拒识条件时,拒绝识别当前语音信息。这样,在响应当前语音之前,就能够根据设定拒识条件确定出不需要进行响应的当前语音信息,不仅可以提高电子设备响应的精确度,还能提升人机交互的智能性。
在其他可选的实施例中,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
这里,以当前语音信息的预设语音参数是语音信息的输入速率为例,在用户与电子设备进行语音交互的过程中,可以根据所输入的当前语音信息输入长度和输入时长确定当前语音信息的输入速率,并判断输入速率是否位于设定速率范围内,进而确定预设语音参数是否满足设定拒识条件,即当输入速率位于设定速率范围内时,则确定预设语音参数满足设定拒识条件时,则拒绝识别当前语音信息。其中,设定速率范围可以包括输入速率大于第一速率阈值或小于第二速率阈值的范围。在其他可选的实施例中,设定速率范围也可以包括其它范围,可以根据用户需要设置,在此不作具体限定。
在进行人机交互的过程中,如果当前语音信息的输入速率过快,即使基于语音采集组件采集到了当前语音信息,在对该当前语音信息进行语义分析时,也可能无法清晰地确定出当前语音信息所包含的各个字词以及各个字词的含义,进而会影响电子设备响应的精确度;如果当前语音信息的输入速率过慢,电子设备在获取到当前语音信息所包含的部分内容的设定时长内,可能就直接针对所获取到的部分内容进行响应,而不能及时获取当前语音信息所包含的其他字词,更无法将当前语音信息的前后文相结合进行语义分析,进而会得到不准确的分析结果,增大误响应的概率。
这个逻辑不对,就因为分析不了,为了减少误响应就不响应,不响应也是一种用户体验差的现象了。主要由于设备能力的问题,用户日常和用户的交流中,用户已经知晓了设备支持的语速和传长度,如果和设备说话,就会控制语速和长度,如果没有控制就可默认为跟人说话等情况。
这里,以设定速率范围是输入速率大于第一速率阈值或小于第二速率阈值的范围为例,当输入速率大于第一速率阈值或小于第二速率阈值时,则可以确定预设语音参数满足设定拒识条件,也就是说,当输入当前语音的输入速率过大或者过小,都可能会使预设语音参数满足设定拒识条件,进而导致当前语音信息被拒绝识别。由于在当前语音信息的输入速率过快时,即使基于语音采集组件采集到了当前语音信息,电子设备也无法准确分析出当前语音信息的含义,对应地,对该当前语音信息所作出的响应可能也是不准确的。
本公开实施例中,可以直接根据当前语义信息的输入速率确定是否拒绝识别当前语音信息,当输入速率过快时,语音采集组件所采集到的当前语音信息是无法被解析的,这时,可以直接拒绝识别当前语音信息,而不用响应该当前语音信息,不仅能够提高电子设备响应的精确度,还能提升人机交互的智能性,进而提高用户的使用体验感。
在其他可选的实施例中,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
这里,可以基于自动语音识别技术(Automatic Speech Recognition,ASR)对当前语音信息进行处理,得到候选列表,其中,候选列表中存储有针对当前语音信息设定的候选语音信息,候选语音信息用于表征当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度,其中,置信度用于表征候选语音信息的可靠度。在实现的过程中,可以将候选列表中置信度最高的候选语音信息确定为对当前语音信息的语义分析结果。例如,可以对候选列表中的各个候选语音信息的置信度按照从大到小的顺序进行排序,并确定出排在初始位置的候选语音信息,即置信度最高的候选语音信息,然后确定当前语音信息与置信度最高的候选语音信息之间的第一相似度,当第一相似度小于或者等于述第一相似度阈值时,确定预设语音参数满足设定拒识条件。
本公开实施例中,可以确定候选列表中置信度最高的候选语音信息与当前语音信息的第一相似度,当第一相似度小于或者等于设定的第一相似度阈值,即当前语音信息与候选语音信息之间的差异较大时,可以直接拒绝识别当前语音信息,通过拒绝识别可靠性较低的当前语音信息,而不对可靠性较低的当前语音信息进行进一步分析甚至进行响应,能够在提高电子设备响应的精确度的基础上,节约人机交互所需消耗的系统资源。
在其他可选的实施例中,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
这里,预设长度范围可以包括小于或者等于设定长度的范围,当前语音信息的语音长度可以包括当前语音信息所对应的当前文本的字数长度。例如,可以基于ASR将当前语音信息由语音格式转换为文本格式,得到当前文本;在得到当前文本之后,可以获得当前文本所包含的字数长度,并判断该字数长度是否小于或者等于设定字数长度,当该字数长度小于或者等于设定字数长度时,则拒绝识别当前语音信息。例如,如果获取的当前文本所包含的自述长度为1,且设定系数长度为1,则可以拒绝识别该当前文本所对应的当前语音信息。在其他可选的实施例中,可以根据用户与电子设备的历史交互数据,确定预设长度范围。例如,可以根据用户与电子设备交互的历史语音长度确定预设长度范围。
本公开实施例中,通过设置预设长度范围,并在语音长度位于该预设长度范围内时,能够拒绝识别当前语音信息,通过本公开实施例中的方式,可以直接拒绝识别单字或者语气词等不需要电子设备进行响应的语音信息等,这样,就不需要对这些语音信息进行进一步处理,能够在实现人机交互的智能化的基础上,减少不必要的响应。
在其他可选的实施例中,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
这里,虚词是指没有完整意义,但有语法意义或功能的词,例如,“啊”,“呀”等。在获取到当前语音信息之后,可以确定当前语音信息所对应的语句含义,并基于该语句含义确定该语句是否由虚词构成,当确定出当前语音信息的语句由虚词构成时,则可以确定预设语音参数满足设定拒识条件,这时,可以拒绝识别当前语音信息。
在其他可选的实施例中,可以预先设定存储有设定虚词的虚构词列表,在确定出当前语音信息的语句时,可以将该语句与设定虚词列表中的设定虚词进行匹配,并基于匹配结果确定当前语音信息的语句是否由虚词构成,当确定当前语音信息的语句是由虚词构成时,则确定当前语音信息的预设语音参数满足设定拒识条件。
本公开实施例中,通过确定当前语音信息对应的语句是否由虚词构成,并在当前语音信息对应的语句由虚词构成时,拒绝识别当前语音信息,通过本公开实施例中的方式,可以直接拒绝识别无意义的语音信息等,这样,就不需要对无意义的语音信息进行进一步处理,能够在实现人机交互的智能化的基础上,减少不必要的响应。
在其他可选的实施例中,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
这里,在确定出需要拒绝识别的语音信息之后,可以存储被拒绝识别的语音信息,得到拒识的历史语音信息。在接收到当前语音信息之后,可以确定当前语音信息和历史语音信息之间的第二相似度,并确定第二相似度是否小于第二相似度阈值,在第二相似度小于第二相似度阈值时,则拒绝识别当前语音信息;在第二相似度大于或者等于第二相似度阈值时,则响应当前语音信息。
本公开实施例中,可以基于当前语音信息和被拒绝识别的历史语音数据的相似度确定是否识别当前语音信息,在当前语音信息与历史语音之间的差异比较大时,则表示当前语音信息不是用户所要表达的意思,可以拒绝识别当前语音信息;在当前语音信息与历史语音之间的差异比较小时,则表示当前语音信息即是用户所要表达的意思,可以响应该当前语音信息。通过上述方式,能够充分利用历史语音信息,确定出用户所要表达的真实意思,能够减少误拒识的概率。
图2是根据一示例性实施例示出的另一种信息处理方法的流程图,如图2所示,可以将当前语音信息分别输入拒识模块201和接收模块202。基于拒识模块201确定是否对当前语音信息进行拒绝识别,当拒识模块201确定拒绝识别当前语音信息时,则拒绝识别当前语音信息;基于接收模块202确定是否对当前语音信息进行响应,当接收模块202确定响应当前语音信息时,则可以对当前语音信息进行语义分析,并根据分析结果确定对应的响应信息。
在其他可选的实施例中,该信息处理方法能够适用于多个应用场景中,例如,可以用于对用户的身份进行识别、对音乐的播放进行调节、对视频的播放进行调节以及对电台的播放进行调节等各个应用场景。在各个场景下,用户的语音请求量会达到很高,但并不是所有接收到的语音请求都是用户真实想要请求的,可能会存在误唤醒、无关的人声、以及用户无意识的自言自语等,无效的语音请求占比甚至高达10%。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图,如图3所示,在将当前语音信息输入语音端点检测模块301(Voice Activity Detection,VAD)之后,可以基于VAD技术过滤掉非人声;然后再将过滤掉非人声的语音信息输入声纹拒识模块302进行声纹认证,并在声纹认证失败时拒绝识别语音信息;在声纹认证成功时,将认证成功的语音信息输入ASR拒识模块303,并基于ASR拒识模块303过滤掉不清晰和置信度低于设定置信度的语音信息;将基于ASR拒识模块303过滤的语音信息输入语音拒识模块304和语义拒识模块305,并基于语音拒识模块304和语义拒识模块305过滤掉不相关的语音信息、无意义的语音信息以及无意图的语音信息,这样,就能得到拒识/响应结果。如图4所示,图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
本公开实施例中,通过设置拒识模块,能够解决该不该响应用户的问题,在原来能够听得清、听得懂、结果满足用户需求的基础上,更加智能化的实现不乱搭话。在其他可选的实施例中,经过日志的挖掘,发现在连续对话的应用场景下,不相关的人声占比大约15%,而基于本公开实施例所提出的技术方案,能够减少不相关的人声的输入,且本公开实施例所提及的拒识模块还能减少误唤醒的概率。
本公开实施例所提及的拒识方法主要包括:策略拒识,即基于有效特征,进行策略的设计,其中有效的特征包括自然语言理解技术(natural language understanding,NLU)确定的文本特征和语音特征。其中,基于文本特征的策略包括:基于文本长度的拒识,无意义的文本的拒识等策略。基于文本长度的拒识主要是基于文本所包含的字数长度判断是否应该拒识当前语音信息,如单字、语气词等。无意义文本拒识,主要是针对无意义的,电子设备无法解析的文本进行检测。
基于语音特征的策略包括:根据语音的输入速率确定的策略和基于候选语音信息确定的策略,即根据不同的输入速率来判断是否应该拒绝识别当前语音信息;以及基于ASR技术确定候选列表,计算当前语音信息与置信度最高的候选语音信息之间的第一相似度,第一相似度小于或者等于述第一相似度阈值时,拒绝识别当前语音信息。基于策略进行语音信息的拒识,不仅直观、解释性强,而且实现起来比较直接,见效也快。
图5是根据一示例性实施例示出的信息处理装置框图。如图5所示,所述装置应用于电子设备,该信息处理装置50主要包括:
接收模块51,配置为接收当前语音信息并获取所述语音信息的预设语音参数;
确定模块52,配置为确定获取的所述预设语音参数是否满足设定拒识条件;
拒识模块53,配置为如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。
在其他可选的实施例中,所述确定模块52,还配置为:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
在其他可选的实施例中,所述确定模块52,还配置为:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
在其他可选的实施例中,所述确定模块52,还配置为:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
在其他可选的实施例中,所述确定模块52,还配置为:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
在其他可选的实施例中,所述确定模块52,还配置为:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WI-FI,2G或6G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得信息处理装置能够执行一种信息处理方法,所述方法应用于电子设备,包括:
接收当前语音信息并获取所述语音信息的预设语音参数;
确定获取的所述预设语音参数是否满足设定拒识条件;
如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种信息处理方法,其特征在于,应用于电子设备,包括:
接收当前语音信息并获取所述语音信息的预设语音参数;
确定获取的所述预设语音参数是否满足设定拒识条件;
如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息;
所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
2.根据权利要求1所述的方法,其特征在于,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
3.根据权利要求1所述的方法,其特征在于,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
4.根据权利要求1所述的方法,其特征在于,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
5.根据权利要求1所述的方法,其特征在于,所述确定获取的所述预设语音参数是否满足设定拒识条件,包括:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
6.一种信息处理装置,其特征在于,应用于电子设备,包括:
接收模块,配置为接收当前语音信息并获取所述语音信息的预设语音参数;
确定模块,配置为确定获取的所述预设语音参数是否满足设定拒识条件;
拒识模块,配置为如果所述预设语音参数满足所述设定拒识条件,则拒绝识别所述当前语音信息;
所述确定模块,还配置为:
当所述预设语音参数为输入速率时,确定所述当前语音信息的输入速率是否位于设定速率范围内;
如果所述输入速率位于所述设定速率范围内,则确定所述预设语音参数满足所述设定拒识条件。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息与候选语音信息之间的第一相似度时,确定所述第一相似度是否小于或者等于设定的第一相似度阈值;其中,所述候选语音信息用于表征所述当前语音信息所要表达的含义,且各个候选语音信息有对应的置信度;
如果所述第一相似度小于或者等于所述第一相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息的语音长度时,确定所述当前语音信息的语音长度是否位于预设长度范围内;
如果所述语音长度位于所述预设长度范围内,则确定所述预设语音参数满足所述设定拒识条件。
9.根据权利要求6所述的装置,其特征在于,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息对应的语句时,确定所述当前语音信息对应的语句是否由虚词构成;
如果所述当前语音信息的语句由虚词构成,则确定所述预设语音参数满足所述设定拒识条件。
10.根据权利要求6所述的装置,其特征在于,所述确定模块,还配置为:
当所述预设语音参数为所述当前语音信息与拒识的历史语音信息之间的第二相似度时,确定所述第二相似度是否小于设定的第二相似度阈值;
如果所述第二相似度小于所述第二相似度阈值,则确定所述预设语音参数满足所述设定拒识条件。
11.一种信息处理装置,其特征在于,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述权利要求1至5中任一种信息处理方法中的步骤。
12.一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述权利要求1至5中任一种信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293278.8A CN111580773B (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293278.8A CN111580773B (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111580773A CN111580773A (zh) | 2020-08-25 |
CN111580773B true CN111580773B (zh) | 2023-11-14 |
Family
ID=72122370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293278.8A Active CN111580773B (zh) | 2020-04-15 | 2020-04-15 | 信息处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111580773B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113330513A (zh) * | 2021-04-20 | 2021-08-31 | 华为技术有限公司 | 语音信息处理方法及设备 |
CN114299950B (zh) * | 2021-12-30 | 2023-07-14 | 北京字跳网络技术有限公司 | 一种字幕生成方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN107886951A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音检测方法、装置及设备 |
WO2019007245A1 (zh) * | 2017-07-04 | 2019-01-10 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN110444229A (zh) * | 2019-06-17 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
-
2020
- 2020-04-15 CN CN202010293278.8A patent/CN111580773B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN107886951A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音检测方法、装置及设备 |
WO2019007245A1 (zh) * | 2017-07-04 | 2019-01-10 | 阿里巴巴集团控股有限公司 | 一种处理方法、控制方法、识别方法及其装置和电子设备 |
CN110444229A (zh) * | 2019-06-17 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 |
CN110570861A (zh) * | 2019-09-24 | 2019-12-13 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
Multi-frame rate based multiple-model training for robust speaker identification of disguised voice;Swati Prasad;IEEE;全文 * |
基于置信度的非特定人语音识别拒识算法的研究;贲俊, 万旺根, 余小清;计算机应用研究(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111580773A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2649294C2 (ru) | Способ и устройство для построения шаблона и способ и устройство для идентификации информации | |
CN111583907B (zh) | 信息处理方法、装置及存储介质 | |
EP3855360A1 (en) | Method and device for training image recognition model, and storage medium | |
CN111583919B (zh) | 信息处理方法、装置及存储介质 | |
EP4184506A1 (en) | Audio processing | |
CN111583923B (zh) | 信息控制方法及装置、存储介质 | |
CN109599104B (zh) | 多波束选取方法及装置 | |
EP3933570A1 (en) | Method and apparatus for controlling a voice assistant, and computer-readable storage medium | |
CN111696553B (zh) | 一种语音处理方法、装置及可读介质 | |
CN111580773B (zh) | 信息处理方法、装置及存储介质 | |
CN112562675A (zh) | 语音信息处理方法、装置及存储介质 | |
CN110213062B (zh) | 处理消息的方法及装置 | |
CN113936697A (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN112863499B (zh) | 语音识别方法及装置、存储介质 | |
CN111580775B (zh) | 信息控制方法及装置、存储介质 | |
CN111968680A (zh) | 一种语音处理方法、装置及存储介质 | |
CN111241284B (zh) | 文章内容识别方法、装置及计算机存储介质 | |
CN104699668B (zh) | 确定词语相似度的方法及装置 | |
CN113726952A (zh) | 通话过程中的同声传译方法及装置、电子设备、存储介质 | |
CN113035189A (zh) | 一种文档演示的控制方法、装置和设备 | |
CN111221710B (zh) | 一种识别用户类型的方法、装置和设备 | |
CN112863511A (zh) | 信号处理方法、装置以及存储介质 | |
CN111816174A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN113127613B (zh) | 聊天信息处理方法及装置 | |
CN111401048B (zh) | 一种意图识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |