CN103794214A - 一种信息处理方法、装置和电子设备 - Google Patents
一种信息处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN103794214A CN103794214A CN201410083622.5A CN201410083622A CN103794214A CN 103794214 A CN103794214 A CN 103794214A CN 201410083622 A CN201410083622 A CN 201410083622A CN 103794214 A CN103794214 A CN 103794214A
- Authority
- CN
- China
- Prior art keywords
- matching result
- phonetic entry
- user
- matching
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本方面提供了一种信息处理方法,应用于电子设备,该方法中,对用户的语音输入进行识别时,根据语音识别引擎对该语音输入进行匹配得到多个匹配结果,当接收到用户反馈的选择时,确定用户选择的为第一匹配结果,记录该语音输入、多个匹配结果以及该用户选择的第一匹配结果,并且依据记录的内容对语音识别引擎的模型进行自适应训练,以使的下一次基于该语音识别引擎对所述语音输入进行匹配时产生该第一匹配结果。在该处理方法中,结合了用户匹配结果的选择,提高了语音输入和用户选择的识别结果的匹配度,进而提高了识别引擎的语音识别精度,优化识别性能,提高用户体验。
Description
技术领域
本发明属于语音识别领域,尤其涉及一种信息处理方法、装置和电子设备。
背景技术
随着电子技术的发展,电子设备进行语音识别已成为一种常用的技术。
用户输入一段语音信息,电子设备中的识别引擎自动识别该语音信息,并显示识别该语音信息的结果。
但是,现有技术中,根据用户输入的语音信息识别进行识别,得到的结果为多个,用户根据需求从多个结果中选择目标结果。在该识别过程中,可能显示在首位的不是用户的目标结果,而是其他的混淆结果,此时,用户需要手动选择目标结果,交互效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种语音识别的方法,识别引擎结合用户的选择对识别结果进行调整,提高识别引擎的语音识别精度。
一种信息处理方法,所述方法应用于电子设备,所述电子设备中设置有语音采集单元,该方法包括:
接收所述语音采集单元采集的语音输入;
基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
输出所述匹配结果组;
接收用户反馈的输入操作;
依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
记录所述语音输入、所述匹配结果组和所述第一匹配结果;
对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对所述语音输入进行匹配时产生所述第一匹配结果。
上述的方法,优选的,接收所述语音采集单元采集的语音输入之前,还包括:
获取进行所述语音输入的用户的身份信息。
上述的方法,优选的,还包括:
在记录所述语音输入、所述匹配结果组和所述第一匹配结果的同时,记录所述语音输入的用户的身份信息,以使得所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述用户的身份信息用于所述语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
上述的方法,优选的,所述对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练包括:
基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值;
其中,所述第一值大于所述第二值。
上述的方法,优选的,所述依据所述输入操作从所述匹配结果组中确定一个第一匹配结果之后,所述记录所述语音输入、所述匹配结果组和所述第一匹配结果之前,还包括:
依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
当完成时,执行所述记录所述语音输入、所述匹配结果组和所述第一匹配结果步骤。
一种信息处理装置,应用于电子设备,所述电子设备中设置有语音采集单元,所述装置包括:
第一接收模块,用于接收所述语音采集单元采集的语音输入;
匹配模块,用于基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
输出模块,用于输出所述匹配结果组;
第二接收模块,用于接收用户反馈的输入操作;
选择模块,用于依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
记录模块,用于记录所述语音输入、所述匹配结果组和所述第一匹配结果;
训练模块,用于对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对搜索语音输入进行匹配时产生所述第一匹配结果。
上述的装置,优选的,还包括:
获取模块,用于获取进行所述语音输入的用户的身份信息。
上述的装置,优选的,所述记录模块,在记录所述语音输入、所述匹配结果组和所述第一匹配结果的同时,还记录所述语音输入的用户的身份信息,以使得所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述用户的身份信息用于所述语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
上述的装置,优选的,所述训练模块包括:
分类单元,用于基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
第一修改单元,用于将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
第二修改单元,用于将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值;
其中,所述第一值大于所述第二值。
上述的装置,优选的,还包括:
判断模块,用于依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
当完成时,触发记录模块。
一种电子设备,包括:如上述任一项所述的信息处理装置和对所述电子设备的语音输入进行采集的语音采集单元。
经由上述的技术方案可知,本申请一种信息处理方法,所述方法应用于电子设备,该方法中,对用户的语音输入进行识别时,根据语音识别引擎对该语音输入进行匹配得到多个匹配结果,当接收到用户反馈的选择时,确定用户选择的为第一匹配结果,记录该语音输入、多个匹配结果以及该用户选择的第一匹配结果,并且依据记录的内容对语音识别引擎的模型进行自适应训练,以使的下一次基于该语音识别引擎对所述语音输入进行匹配时产生该第一匹配结果。在该处理方法中,结合了用户匹配结果的选择,提高了语音输入和用户选择的识别结果的匹配度,进而提高了识别引擎的语音识别精度,优化识别性能,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种信息处理方法实施例1的流程图;
图2是本申请提供的一种信息处理方法实施例2的流程图;
图3是本申请提供的一种信息处理方法实施例3的流程图;
图4是本申请提供的一种信息处理方法实施例4的流程图;
图5是本申请提供的一种信息处理方法实施例5的流程图;
图6是本申请提供的一种信息处理装置实施例1的结构示意图;
图7是本申请提供的一种信息处理装置实施例2的结构示意图;
图8是本申请提供的一种信息处理装置实施例3的结构示意图;
图9是本申请提供的一种信息处理装置实施例4的结构示意图;
图10是本申请提供的一种信息处理装置实施例5的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更加特定地强调实施的独立性,本说明书涉及许多模块或单元。举例而言,模块或单元可由硬件电路实现,该硬件电路包括特制VLSI电路或门阵列,比如逻辑芯片、晶体管,或其它组件。模块或单元也可在可编程的硬设备中实现,比如场效可编程门阵列、可编程阵列逻辑、可编程逻辑设备等等。
模块或单元也可在藉由各种形式的处理器所执行的软件中实现。比如说,一可执行码模块可包括一个或多个实体的或逻辑的计算机指令区块,该区块可能形成为,比如说,对象、程序或函数。然而,鉴别模块或单元的可执行部分不需要物理上放置在一起,但可由存于不同位置的不同指令所组成,当逻辑上组合在一起时,形成模块或单元且达到该模块或单元所要求的目的。
实际上,可执行码模块或单元可以是一单一指令或多个指令,甚至可以分布在位于不同的程序中的数个不同的码区段,并且横跨数个存储设备。同样地,操作数据可被辨识及显示于此模块或单元中,并且可以以任何合适的形式实施且在任何合适的数据结构形式内组织。操作数据可以集合成单一数据集,或可分布在具有不同的存储设备的不同的位置,且至少部分地只以电子信号方式存在于一系统或网络。
本说明书所提及的“实施例”或类似用语表示与实施例有关的特性、结构或特征,包括在本发明的至少一实施例中。因此,本说明书所出现的用语“在一实施例中”、“在实施例中”以及类似用语可能但不必然都指向相同实施例。
再者,本发明所述特性、结构或特征可以以任何方式结合在一个或多个实施例中。以下说明将提供许多特定的细节,比如编程序、软件模块、用户选择、网络交易、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等例子,以提供对本发明实施例的了解。然而相关领域的普通技术人员将看出本发明,即使没有利用其中一个或多个特定细节,或利用其它方法、组件、材料等亦可实施。另一方面,为避免混淆本发明,公知的结构、材料或操作并没有详细描述。
如图1示出的本申请提供的一种信息处理方法实施例1的流程图,所述方法可以应用于一电子设备,所述电子设备可以是台式机、笔记本、平板电脑、手机、智能电视、智能手表、穿戴式设备等电子设备,所述电子设备中设置有语音采集单元,用于对外界环境中的语音进行采集,在本申请中该外界环境中的语音尤其指使用该电子设备的用户发出的语音。
步骤S101:接收所述语音采集单元采集的语音输入;
其中,该语音输入为用户发出的用于搜索的语音,该语音可以包括:电话号码、数字组合等数字内容,也可为名字等文字内容,甚至为文字和数字的组合,本实施例中不做限制。
其中,该语音采集单元可以为实时采集语音输入,也可为等待用户开启后再进行采集。
其中,当该语音单元为实时采集语音输入时,该语音输入中可包含启动语音识别进行搜索的启动指令。
具体的,该启动指令可以预设的一个或一组触发语音信号,当该语音输入与该触发语音信号一致时,启动该语音识别引擎,执行步骤S102对语音输入进行匹配。
步骤S102:基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
其中,该语音识别引擎对语音输入进行匹配的方式有两种:一种为在有限的备选内容中进行匹配;另一种为对该语音输入进行识别,直接生成与该语音输入相关的多个识别结果。
其中,在本实施例中,该有限的备选内容可以为电子设备中存储的内容,具体包括:通讯录中联系人姓名、文件名称等。
其中,当用户在电子设备中搜索联系人姓名时,该语音识别引擎对语音输入进行匹配的方式可采用在有限的备选内容中进行匹配。
其中,当用户在电子设备通过输入语音信息使用网络搜索某些内容时,由于网络中资源众多,所以该语音识别引擎对语音输入进行匹配的方式可以采用直接生成与该语音输入相关的多个识别结果的方式,再由用户在其中选择需要的识别结果,以根据该识别结果进行网络搜索。
具体的,在接收到语音输入时,基于预设的语音识别引擎对该语音输入进行识别匹配,得到至少2个匹配结果,该匹配结果为与该语音输入相关的内容,并且,将该得到的匹配结果作为匹配结果组。
需要说明的是,该语音识别可以在本地识别也可在与该电子设备相关联的云服务器进行。
其中,当该语音识别是在与电子设备相关联的云服务器进行时,该电子设备设置有网络单元,当接收到该语音输入时,通过该网络单元将该语音输入上传到云服务器中进行识别匹配,并且在云服务器识别匹配得到匹配结果组并反馈时,该电子设备通过网络单元接收该匹配结果组。
步骤S103:输出所述匹配结果组;
其中,该匹配结果组中含有多个匹配结果,需要用户从中选择一个与用户的输入语音对应的目标结果。
具体的,该输出的匹配结果组的内容可在该电子设备的显示单元中进行显示。
其中,该匹配结果组中,可对各个匹配结果按照与该语音输入的匹配率的高低进行排序,使匹配率较高的匹配结果排序在前,以使得用户首先看到该排序靠前的匹配结果。
步骤S104:接收用户反馈的输入操作;
其中,用户反馈的输入操作表示用户在该多个匹配结果中选择的一个匹配结果。
其中,该用户反馈的输入操作可通过多种方式实现。
比如,当该电子设备中设置有触摸屏时,在触摸屏上显示该匹配得到的多个匹配结果,用户在该触摸屏中选择一个目标结果,该选择的操作作为用户反馈的输入操作,电子设备通过该触摸屏接收该用户反馈的输入操作;
比如,当该电子设备中采用键盘按键时,在显示屏幕上显示的多个匹配结果,用户根据在该键盘按键的操作选定一个目标结果,该通过键盘选择的操作也可作为用户反馈的输入操作,电子设备通过该触摸屏接收该用户反馈的输入操作;
或者,该电子设备中采用鼠标选择时,采用鼠标在显示屏幕上显示的多个匹配结果进行选择,选定一个目标结果,该鼠标选择的操作也可作为用户反馈的输入操作;
或者,用户通过语音控制选择,如用户输入“选择第二个”的语音信号,使得电子设备获取该语音信号,并对该语音信号进行识别得出选择第二个作为目标结果,该通过语音选择的操作也可作为用户反馈的输入操作。
步骤S105:依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
其中,依据该用户反馈的输入操作,从该匹配结果组中确定与该输入操作对应的一个匹配结果作为第一匹配结果。
其中,该第一匹配结果为本次语音识别过程中,用户选择的目标结果。
实际实施中,当确定该第一匹配结果后,电子设备对该第一匹配结果进行响应,开始执行与该第一匹配结果相应的操作。
例如,当该语音输入用于查询通讯录联系人时,确定第一匹配结果即目标联系人后,可执行拨打该目标联系人电话的操作。
例如,当该语音输入用于网络查询某内容时,当确定第一匹配结果即搜索关键词后,可依据该搜索关键词进行网络搜索。
步骤S106:记录所述语音输入、所述匹配结果组和所述第一匹配结果;
其中,对本次输入的语音进行识别匹配的结果进行记录,包括记录该语音输入、匹配结果组和第一匹配结果。
需要说明的是,当该语音识别为在云服务器中执行时,可通过电子设备的网络单元将该语音输入、匹配结果组和第一匹配结果上传到云服务器中存储。
步骤S107:对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对所述语音输入进行匹配时产生所述第一匹配结果。
其中,由于本次基于该语音识别引擎对该语音输入进行识别的结果为多个与该语音输入相关的匹配结果,该语音识别引擎对该语音输入的识别准确度不够精确,因此,将该语音输入、匹配结果组和该第一匹配结果作为输入,对该语音识别引擎的模型进行自适应训练,以增加该第一匹配结果与该语音输入的关联度,提高该语音识别引擎对该语音输入的识别匹配的准确度。
所以,基于语音识别引擎的模型自适应训练,使得下一次基于该语音识别引擎对该语音输入进行匹配时,能够准确识别匹配,得到该第一匹配结果,用户无需从多个匹配结果中再次选择,简化了用户的操作流程,提高用户体验。
需要说明的是,该对语音识别引擎模型的自适应训练,可以在本地实现也可在与该电子设备相关联的云服务器进行。
其中,当该对语音识别引擎模型的自适应训练是在与电子设备相关联的云服务器进行时,该电子设备设置有网络单元,将记录的所述语音输入、所述匹配结果组和所述第一匹配结果,通过该网络单元上传到云服务器中,对设置在该云服务器中的语音识别引擎模型进行自适应训练。
需要说明的是,还可根据电子设备的姿态判断用户使用该电子设备的操作,如该电子设备为手持终端时,手持终端的姿态表明用户的操作为打电话时,则直接使用该语音识别引擎对该语音输入和通讯录中联系人进行匹配,减小识别匹配该语音输入的范围。
具体的,该用户使用该手持终端打电话时,该手持终端的姿态可以包括:该手持终端与竖直方向的夹角满足预设的夹角范围、或者,该手持终端的表面温度值满足预设的温度范围,或者,该手持终端检测到的距离值在预设的距离内等条件,也可为其中的两个组合,或者满足全部条件。
由于每个人的发音习惯不同,则在对用户进行语音识别匹配时,还需要针对该用户的发音习惯。
参见图2,为本发明提供的一种信息处理方法实施例2流程图。
步骤S201:获取进行所述语音输入的用户的身份信息;
其中,每个用户的身份信息唯一,获取该语音输入的用户的信息,用于对该用户进行针对性的识别匹配,以得到针对该用户的匹配结果。
其中,该用户的身份信息可以通过多种方式获取,包括:人脸识别、声纹识别、指纹识别和信息录入等方式。
比如,当该身份信息通过人脸识别方式获取时,用户将电子设备放置在距离用户面部预设距离范围内的区域,电子设备对该用户面部特征进行获取,以确定该用户的身份信息。
又如,当该身份信息通过信息录入方式获取时,在该电子设备中预设区域设置登录对话框,用户在该对话框中填入表示身份的信息,实现对该用户的身份信息的确定。
或者,当该身份信息通过指纹识别方式获取时,用户将识别对应的手指放置在电子设备中指纹采集区域,电子设备对该用户的指纹特征进行获取,以确定该用户的身份信息。
或者,当该身份信息通过声纹识别方式获取时,用户对该电子设备发出测试声音,以使该电子设备对该用户的声音进行获取,并进行识别,以确定该用户的身份信息。
需要说明的是,当采用声纹识别方式获取该用户的身份信息时,可在语音采集单元采集语音输入后,接收该语音输入时,对该语音进行声纹识别,以使得根据用户的身份信息采用相应的语音识别引擎的模型对该语音输入进行识别匹配。
步骤S202:接收所述语音采集单元采集的语音输入;
步骤S203:基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
步骤S204:输出所述匹配结果组;
步骤S205:接收用户反馈的输入操作;
步骤S206:依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
其中,步骤S202-206与实施例1中步骤S101-105一致,本实施例中不再赘述。
步骤S207:记录所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息;
其中,将所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息作为本次识别的结果,对该结果进行记录。
需要说明的是,当该语音识别为在云服务器中执行时,可通过电子设备的网络单元将该语音输入、匹配结果组、第一匹配结果语音输入的用户的身份信息上传到云服务器中存储。
步骤S208:对所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息进行语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
其中,本次识别匹配是针对该用户的语音输入进行的识别匹配,产生多个匹配结果,所以,该语音识别引擎针对该用户的语音输入的识别准确不够精确,将该语音输入、匹配结果组、第一匹配结果和语音输入的用户的身份信息作为输入,对该语音识别引擎进行针对该用户的发音方式进行针对性的模型自适应训练,增加该第一匹配结果与该用户输入的该语音输入的关联度,提高该语音识别引擎对该用户的这一语音输入的识别匹配的准确度。
例如,当在该电子设备已登录的用户李四的语音输入为“zhangshan”,语音识别引擎匹配得到的匹配结果依次为“张山”、“张三”、“张栓”三个匹配结果,而用户发音不标准,其目标结果为“张三”,即根据用户的选择确定第一匹配结果为“张三”,此时,电子设备记录该语音输入“zhangshan”、“张山”“张三”“张栓”三个匹配结果、第一匹配结果“张三”以及该用户李四的身份信息作为本次识别匹配的结果,依据该识别匹配结果对语音识别引擎针对用户李四的发音方式进行针对性的模型自适应训练。当用户李四下一次的语音输入为“zhangshan”时,语音识别引擎匹配得到的匹配结果“张三”,而不必再从多个匹配结果中进行再次选取,简化用户的操作,提高了用户体验。
需要说明的是,当该用户为非首次进行语音输入识别匹配时,将获取到的用户身份信息与存储的历史信息进行比对,判断得到该用户的为已记录的用户,并且在由语音识别引擎对该用户的语音输入进行识别时,采用与该用户对应的语音识别引擎模型,该语音识别引擎模型已经过上次用户语音输入的训练,该语音识别引擎模型能够针对该用户的发音方式进行针对性识别,识别准确度更高。
需要说明的是,当某一非登录用户使用该电子设备时,可对该用户的语音输入进行识别匹配,但不记录其识别匹配结果。
进一步的,该电子设备的所有者用户,还可设置使用权限,当没有获得使用权限的用户使用该电子设备时,该用户未能通过权限识别,则不对该用户的语音输入进行识别匹配。
参见图3,为本发明提供的一种信息处理方法实施例3的流程图。
步骤S301:接收所述语音采集单元采集的语音输入;
步骤S302:基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
步骤S303:输出所述匹配结果组;
步骤S304:接收用户反馈的输入操作;
步骤S305:依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
步骤S306:记录所述语音输入、所述匹配结果组和所述第一匹配结果;
其中,步骤S301-306与上述实施例1中的步骤S101-106一致,本实施例中不再赘述。
步骤S307:基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
其中,该匹配结果组中有至少2个匹配结果,其中一个为第一匹配结果,剩余的为第二匹配结果。
如,上述例子中该匹配结果组为“张山”、“张三”和“张栓”,该“张三”为第一匹配结果,剩余的“张山”和“张栓”为第二匹配结果。
骤S308:将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
其中,在语音识别引擎对该语音输入进行识别时,对每个匹配结果中都标注有其与该语音输入的匹配率,该匹配结果的发音与该语音输入越接近,其匹配率越高。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,因此,将该第一匹配结果与该语音输入的匹配率的数值在当前值的基础上提高为第一值。
步骤S309:将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,而其他的匹配结果为不满足用户需要的,因此,还要将第二匹配结果与该语音输入的匹配率的数值在当前值的基础上降低为第二值。
其中,所述第一值大于所述第二值。
因此,在该匹配率的数值调整之后,该第一匹配结果与该语音输入的匹配率的数值为最高的,第二匹配结果与该语音输入的匹配率较低,使得第一匹配结果和第二匹配结果的匹配率之间的差距较大,更利于下次再对用户的语音输入进行识别时能够找到唯一的该第一匹配结果。
如上述例子中,当识别该语音输入“zhangshan”,得到的匹配结果“张山”、“张三”、“张栓”的匹配率分别为90%、75%和40%,当用户选择的第一匹配结果为“张三”时,在训练该语音识别引擎的模型时,提高该“张三”的匹配率,如提高至95%,降低其他两个匹配结果的匹配率,如降为40%。当语音输入“zhangshan”时,经过训练的语音识别引擎的模型对该语音输入进行识别匹配,得到匹配结果“张三”。
当然,降低该其他匹配结果的匹配率可采用其他方式,如,分别降低某一数值,使得该最初为最高匹配率的匹配结果的最终匹配率低于该第一匹配结果的最终匹配率。
参见图4,为本发明提供的一种信息处理方法实施例4的流程图。
步骤S401:获取进行所述语音输入的用户的身份信息;
步骤S402:接收所述语音采集单元采集的语音输入;
步骤S403:基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
步骤S404:输出所述匹配结果组;
步骤S405:接收用户反馈的输入操作;
步骤S406:依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
步骤S407:记录所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息;
其中,步骤S401-407与上述实施例2中的步骤S201-206一致,本实施例中不再赘述。
步骤S408:基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
其中,该获取用户身份信息的用户可视为登录的用户。所以,本实施例中针对该登录用户的发音,对该语音识别引擎的模型进行训练。
其中,该语音该匹配结果组中有至少2个匹配结果,其中一个为第一匹配结果,剩余的为第二匹配结果。
如,上述例子中该匹配结果组为“张山”、“张三”和“张栓”,由于该登录用户的发音问题,该“张三”被确认为第一匹配结果,剩余的“张山”和“张栓”为第二匹配结果。
步骤S409:将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
其中,在语音识别引擎对该语音输入进行识别时,对每个匹配结果中都标注有其与该语音输入的匹配率,该匹配结果的发音与该语音输入越接近,其匹配率越高。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,因此,将该第一匹配结果与该语音输入的匹配率的数值在当前值的基础上提高为第一值。
步骤S410:将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值。
其中,所述第一值大于所述第二值。
其中,当根据该登录用户的选择确定了第一匹配结果时,表示该登录用户的该语音输入与其选择的第一匹配结果对应的发音,对于该登录用户来讲为最接近的,而其他的匹配结果为不满足用户需要的,因此,还要将第二匹配结果与该语音输入的匹配率的数值在当前值的基础上降低为第二值。
因此,在该匹配率的数值调整之后,该第一匹配结果与该语音输入的匹配率的数值为最高的,第二匹配结果与该语音输入的匹配率较低,下次再对该登录用户的语音输入进行识别时能够找到唯一的该第一匹配结果。
由于本实施例中,该对语音识别引擎的模型进行自适应训练为针对该登录用户所做,那么当其他用户使用该电子设备进行语音输入时,不再使用该针对登录用户进行训练过的语音识别引擎的模型进行识别匹配,当该其他用户未登录过时,可采用未被进行自适应训练过的模型进行识别;当该用户是历史登录过的用户时,可采用该历史登录过的用户的身份信息找到与其对应的语音识别引擎的模型,该与其对应的语音识别引擎的模型也是经过该历史登录过的用户的发音方式的训练的。
然而,实际实施中,用户可能会出现错选的操作。
参见图5,为本发明提供的一种信息处理方法实施例5的流程图。
步骤S501:接收所述语音采集单元采集的语音输入;
步骤S502:基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
步骤S503:输出所述匹配结果组;
步骤S504:接收用户反馈的输入操作;
步骤S505:依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
其中,步骤S501-505与实施例1中的步骤S101-105一致,本实施例中不再赘述。
步骤S506:依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
其中,所述语音输入对应的操作是指用户的目标操作,则该第一匹配结果响应所述语音输入对应的操作包括:根据该第一匹配结果响应该用户的目标操作。
比如,当用户采用语音输入以实现通讯录联系人搜索,则该语音输入对应的操作是指用户与该搜索得到的第一匹配结果对应的联系人建立通话或者正常通话结束;
又如,当用户采用语音输入以实现网络搜索时,该语音输入对应的操作是指用户采用该第一匹配结果对应的内容在网络中进行搜索操作或者搜索完成;
或者,当该用户采用语音输入以实现短信息等内容输入时,该语音输入对应的操作是指用户采用该第一匹配结果生成短信息并发送。
具体的,当该响应为依据该第一匹配结果的联系人进行打电话时,当对方接起电话,或者接通超过预设时间阈值,则判定操作完成;否则未完成。
当完成时,执行步骤S507,否则,结束,不记录该识别匹配结果。
具体的,当用户选择某一匹配结果后,该电子设备根据该选择确定该匹配结果为第一匹配结果,但是,用户在预设的时间内取消了该匹配结果对应的响应操作,则可判定根据该用户反馈的输入操作确定的该第一匹配结果为非目标结果,即,用户的选择动作为误操作,则不对本次的识别匹配结果进行记录,以防止用户的误操作导致语音识别引擎的模型的自适应训练受到影响。
其余操作对应的响应方式类似。
步骤S507:当完成时,记录所述语音输入、所述匹配结果组和所述第一匹配结果;
步骤S508:对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对所述语音输入进行匹配时产生所述第一匹配结果。
其中,步骤S507-508与实施例1中的步骤S106-107一致,本实施例中不再赘述。
与本申请提供的一种信息处理方法实施例相对应的,本申请还提供了一种信息处理装置实施例。
参见图6,示出了本申请提供的一种信息处理装置实施例1的结构示意图,所述装置可以应用于一电子设备,所述电子设备可以是台式机、笔记本、平板电脑、手机、智能电视、智能手表、穿戴式设备等电子设备,所述电子设备中设置有语音采集单元,用于对外界环境中的语音进行采集,在本申请中该外界环境中的语音尤其指使用该电子设备的用户发出的语音。
该装置包括:第一接收模块601、匹配模块602、输出模块603、第二接收模块604、选择模块605、记录模块606和训练模块607;
第一接收模块601,用于接收所述语音采集单元采集的语音输入;
其中,该语音输入为用户发出的用于搜索的语音,该语音可以包括:电话号码、数字组合等数字内容,也可为名字等文字内容,甚至为文字和数字的组合,本实施例中不做限制。
其中,该语音采集单元可以为实时采集语音输入,也可为等待用户开启后再进行采集。
其中,当该语音单元为实时采集语音输入时,该语音输入中可包含启动语音识别进行搜索的启动指令,该电子设备中还可包括启动模块,该启动模块可用于对语音输入和预设的指令语音进行比对,当二者一致时,依据该预设的指令进行执行响应动作。
具体的,该启动指令可以预设的一个或一组触发语音信号,当第一接收模块601接收所述语音采集单元采集的语音输入后,启动模块判断该语音输入与该触发语音信号一致时,启动该语音识别引擎,触发匹配模块602对语音输入进行匹配。
匹配模块602,用于基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
其中,该语音识别引擎对语音输入进行匹配的方式有两种:一种为在有限的备选内容中进行匹配;另一种为对该语音输入进行识别,直接生成与该语音输入相关的多个识别结果。
其中,在本实施例中,该有限的备选内容可以为电子设备中存储的内容,具体包括:通讯录中联系人姓名、文件名称等。
其中,当用户在电子设备中搜索联系人姓名时,该匹配模块602的语音识别引擎对语音输入进行匹配的方式可采用在有限的备选内容中进行匹配。
其中,当用户在电子设备通过输入语音信息使用网络搜索某些内容时,由于网络中资源众多,所以该语音识别引擎对语音输入进行匹配的方式可以采用直接生成与该语音输入相关的多个识别结果的方式,再由用户在其中选择需要的识别结果,以根据该识别结果进行网络搜索。
具体的,在接收到语音输入时,匹配模块602基于预设的语音识别引擎对该语音输入进行识别匹配,得到至少2个匹配结果,该匹配结果为与该语音输入相关的内容,并且,将该得到的匹配结果作为匹配结果组。
需要说明的是,该语音识别可以在本地识别也可在与该电子设备相关联的云服务器进行,即该匹配模块602可以在电子设备中,也可设置在与该电子设备相关联的云服务器。
其中,当该语音识别是在与电子设备相关联的云服务器进行时,该电子设备设置有网络单元,当接收到该语音输入时,通过该网络单元将该语音输入上传到云服务器中进行识别匹配,并且在云服务器识别匹配得到匹配结果组并反馈时,该电子设备通过网络单元接收该匹配结果组。
输出模块603,用于输出所述匹配结果组;
其中,该匹配结果组中含有多个匹配结果,需要用户从中选择一个与用户的输入语音对应的目标结果。
具体的,输出模块603将该匹配结果组输出,该输出的匹配结果组的内容可在该电子设备的显示单元中进行显示。
其中,该匹配结果组中,可对各个匹配结果按照与该语音输入的匹配率的高低进行排序,使匹配率较高的匹配结果排序在前,以使得用户首先看到该排序靠前的匹配结果。
第二接收模块604,用于接收用户反馈的输入操作;
其中,用户反馈的输入操作表示用户在该多个匹配结果中选择的一个匹配结果。
其中,该用户反馈的输入操作可通过多种方式实现。
比如,当该电子设备中设置有触摸屏时,在触摸屏上显示该匹配得到的多个匹配结果,用户在该触摸屏中选择一个目标结果,该选择的操作作为用户反馈的输入操作,电子设备通过该触摸屏接收该用户反馈的输入操作;
比如,当该电子设备中采用键盘按键时,在显示屏幕上显示的多个匹配结果,用户根据在该键盘按键的操作选定一个目标结果,该通过键盘选择的操作也可作为用户反馈的输入操作,电子设备通过该触摸屏接收该用户反馈的输入操作;
或者,该电子设备中采用鼠标选择时,采用鼠标在显示屏幕上显示的多个匹配结果进行选择,选定一个目标结果,该鼠标选择的操作也可作为用户反馈的输入操作;
或者,用户通过语音控制选择,如用户输入“选择第二个”的语音信号,使得电子设备获取该语音信号,并对该语音信号进行识别得出选择第二个作为目标结果,该通过语音选择的操作也可作为用户反馈的输入操作。
选择模块605,用于依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
其中,依据该用户反馈的输入操作,选择模块605从该匹配结果组中确定与该输入操作对应的一个匹配结果作为第一匹配结果。
其中,该第一匹配结果为本次语音识别过程中,用户选择的目标结果。
实际实施中,当确定该第一匹配结果后,电子设备对该第一匹配结果进行响应,开始执行与该第一匹配结果相应的操作。
例如,当该语音输入用于查询通讯录联系人时,确定第一匹配结果即目标联系人后,可执行拨打该目标联系人电话的操作。
例如,当该语音输入用于网络查询某内容时,当确定第一匹配结果即搜索关键词后,可依据该搜索关键词进行网络搜索。
记录模块606,用于记录所述语音输入、所述匹配结果组和所述第一匹配结果;
其中,记录模块606对本次输入的语音进行识别匹配的结果进行记录,包括记录该语音输入、匹配结果组和第一匹配结果。
需要说明的是,当该语音识别为在云服务器中执行时,可通过电子设备的网络单元将该语音输入、匹配结果组和第一匹配结果上传到云服务器中存储。
训练模块607,用于对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对搜索语音输入进行匹配时产生所述第一匹配结果。
其中,由于本次基于该语音识别引擎对该语音输入进行识别的结果为多个与该语音输入相关的匹配结果,该语音识别引擎对该语音输入的识别准确度不够精确,因此,训练模块607将该语音输入、匹配结果组和该第一匹配结果作为输入,对该语音识别引擎的模型进行自适应训练,以增加该第一匹配结果与该语音输入的关联度,提高该语音识别引擎对该语音输入的识别匹配的准确度。
所以,基于语音识别引擎的模型自适应训练,使得下一次基于该语音识别引擎对该语音输入进行匹配时,能够准确识别匹配,得到该第一匹配结果,用户无需从多个匹配结果中再次选择,简化了用户的操作流程,提高用户体验。
需要说明的是,该对语音识别引擎模型的自适应训练,可以在本地实现也可在与该电子设备相关联的云服务器进行。
其中,当该对语音识别引擎模型的自适应训练是在与电子设备相关联的云服务器进行时,该电子设备设置有网络单元,将记录的所述语音输入、所述匹配结果组和所述第一匹配结果,通过该网络单元上传到云服务器中,对设置在该云服务器中的语音识别引擎模型进行自适应训练。
需要说明的是,还可根据电子设备的姿态判断用户使用该电子设备的操作,如该电子设备为手持终端时,手持终端的姿态表明用户的操作为打电话时,则直接使用该语音识别引擎对该语音输入和通讯录中联系人进行匹配,减小识别匹配该语音输入的范围。
具体的,该用户使用该手持终端打电话时,该手持终端的姿态可以包括:该手持终端与竖直方向的夹角满足预设的夹角范围、或者,该手持终端的表面温度值满足预设的温度范围,或者,该手持终端检测到的距离值在预设的距离内等条件,也可为其中的两个组合,或者满足全部条件。
由于每个人的发音习惯不同,则在对用户进行语音识别匹配时,还需要针对该用户的发音习惯。
参见图7,为本发明提供的一种信息处理装置实施例2的结构示意图,包括:获取模块701、第一接收模块702、匹配模块703、输出模块704、第二接收模块705、选择模块706、记录模块707和训练模块708;
其中,该第一接收模块702、匹配模块703、输出模块704、第二接收模块705、选择模块706、与实施例1中相应结构功能相同,本实施例中不再赘述。
获取模块701,用于获取进行所述语音输入的用户的身份信息;
其中,每个用户的身份信息唯一,获取模块701获取该语音输入的用户的信息,用于对该用户进行针对性的识别匹配,以得到针对该用户的匹配结果。
其中,该用户的身份信息可以通过多种方式获取,包括:人脸识别、声纹识别、指纹识别和信息录入等方式。
比如,当该身份信息通过人脸识别方式获取时,用户将电子设备放置在距离用户面部预设距离范围内的区域,电子设备的摄像头作为获取模块701对该用户面部特征进行获取,以确定该用户的身份信息。
又如,当该身份信息通过信息录入方式获取时,在该电子设备中预设区域设置登录对话框,用户在该对话框中填入表示身份的信息,实现对该用户的身份信息的确定。
或者,当该身份信息通过指纹识别方式获取时,用户将识别对应的手指放置在电子设备中指纹采集区域,电子设备对该用户的指纹特征进行获取,以确定该用户的身份信息。
或者,当该身份信息通过声纹识别方式获取时,用户对该电子设备发出测试声音,以使该电子设备对该用户的声音进行获取,并进行识别,以确定该用户的身份信息。
需要说明的是,当采用声纹识别方式获取该用户的身份信息时,可在语音采集单元采集语音输入后,接收该语音输入时,对该语音进行声纹识别,以使得根据用户的身份信息采用相应的语音识别引擎的模型对该语音输入进行识别匹配。
记录模块707,用于记录所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息;
其中,记录模块707将所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息作为本次识别的结果,对该结果进行记录。
需要说明的是,当该语音识别为在云服务器中执行时,可通过电子设备的网络单元将该语音输入、匹配结果组、第一匹配结果语音输入的用户的身份信息上传到云服务器中存储。
训练模块708,用于对所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述语音输入的用户的身份信息进行语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
其中,本次识别匹配是针对该用户的语音输入进行的识别匹配,产生多个匹配结果,所以,该语音识别引擎针对该用户的语音输入的识别准确不够精确,因此,训练模块708将该语音输入、匹配结果组、第一匹配结果和语音输入的用户的身份信息作为输入,对该语音识别引擎进行针对该用户的发音方式进行针对性的模型自适应训练,增加该第一匹配结果与该用户输入的该语音输入的关联度,提高该语音识别引擎对该用户的这一语音输入的识别匹配的准确度。
例如,当在该电子设备已登录的用户李四的语音输入为“zhangshan”,语音识别引擎匹配得到的匹配结果依次为“张山”、“张三”、“张栓”三个匹配结果,而用户发音不标准,其目标结果为“张三”,即根据用户的选择确定第一匹配结果为“张三”,此时,电子设备记录该语音输入“zhangshan”、“张山”“张三”“张栓”三个匹配结果、第一匹配结果“张三”以及该用户李四的身份信息作为本次识别匹配的结果,依据该识别匹配结果对语音识别引擎针对用户李四的发音方式进行针对性的模型自适应训练。当用户李四下一次的语音输入为“zhangshan”时,语音识别引擎匹配得到的匹配结果“张三”,而不必再从多个匹配结果中进行再次选取,简化用户的操作,提高了用户体验。
需要说明的是,当该用户为非首次进行语音输入识别匹配时,将获取到的用户身份信息与存储的历史信息进行比对,判断得到该用户的为已记录的用户,并且在由语音识别引擎对该用户的语音输入进行识别时,采用与该用户对应的语音识别引擎模型,该语音识别引擎模型已经过上次用户语音输入的训练,该语音识别引擎模型能够针对该用户的发音方式进行针对性识别,识别准确度更高。
需要说明的是,当某一非登录用户使用该电子设备时,可对该用户的语音输入进行识别匹配,但不记录其识别匹配结果。
进一步的,该电子设备的所有者用户,还可设置使用权限,当没有获得使用权限的用户使用该电子设备时,该用户未能通过权限识别,则不对该用户的语音输入进行识别匹配。
参见图8,为本发明提供的一种信息处理装置实施例,3的结构示意图,包括:第一接收模块801、匹配模块802、输出模块803、第二接收模块804、选择模块805、记录模块806和训练模块807;其中,训练模块807包括:分类单元808、第一修改单元809和第二修改单元810。
其中,第一接收模块801、匹配模块802、输出模块803、第二接收模块804、选择模块805、记录模块806和实施例1中相应结构功能一致,本实施例中不再赘述。
分类单元808,用于基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
其中,该匹配结果组中有至少2个匹配结果,其中一个为第一匹配结果,分类单元808确定剩余的为第二匹配结果。
如,上述例子中该匹配结果组为“张山”、“张三”和“张栓”,该“张三”为第一匹配结果,剩余的“张山”和“张栓”为第二匹配结果。
第一修改单元809,用于将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
其中,在语音识别引擎对该语音输入进行识别时,对每个匹配结果中都标注有其与该语音输入的匹配率,该匹配结果的发音与该语音输入越接近,其匹配率越高。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,因此,第一修改单元809将该第一匹配结果与该语音输入的匹配率的数值在当前值的基础上提高为第一值。
第二修改单元810,用于将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值。
其中,所述第一值大于所述第二值。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,而其他的匹配结果为不满足用户需要的,因此,还要第二修改单元810将第二匹配结果与该语音输入的匹配率的数值在当前值的基础上降低为第二值。
因此,在该匹配率的数值调整之后,该第一匹配结果与该语音输入的匹配率的数值为最高的,第二匹配结果与该语音输入的匹配率较低,使得第一匹配结果和第二匹配结果的匹配率之间的差距较大,更利于下次再对用户的语音输入进行识别时能够找到唯一的该第一匹配结果。
如上述例子中,当识别该语音输入“zhangshan”,得到的匹配结果“张山”、“张三”、“张栓”的匹配率分别为90%、75%和40%,当用户选择的第一匹配结果为“张三”时,在训练该语音识别引擎的模型时,提高该“张三”的匹配率,如提高至95%,降低其他两个匹配结果的匹配率,如降为40%。当语音输入“zhangshan”时,经过训练的语音识别引擎的模型对该语音输入进行识别匹配,得到匹配结果“张三”。
当然,降低该其他匹配结果的匹配率可采用其他方式,如,分别降低某一数值,使得该最初为最高匹配率的匹配结果的最终匹配率低于该第一匹配结果的最终匹配率。
参见图9,为本发明提供的一种信息处理装置实施例4的结构示意图,包括:获取模块901、第一接收模块902、匹配模块903、输出模块904、第二接收模块905、选择模块906、记录模块907和训练模块908;其中,训练模块908包括:分类单元909、第一修改单元910和第二修改单元911。
其中,获取模块901、第一接收模块902、匹配模块903、输出模块904、第二接收模块905、选择模块906、记录模块907和实施例2中相应结构功能一致,本实施例中不再赘述。
分类单元909,用于基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
其中,该获取用户身份信息的用户可视为登录的用户。所以,本实施例中针对该登录用户的发音,对该语音识别引擎的模型进行训练。
其中,该语音该匹配结果组中有至少2个匹配结果,其中一个为第一匹配结果,分类单元909确定剩余的为第二匹配结果。
如,上述例子中该匹配结果组为“张山”、“张三”和“张栓”,由于该登录用户的发音问题,该“张三”被确认为第一匹配结果,剩余的“张山”和“张栓”为第二匹配结果。
第一修改单元910,用于将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
其中,在语音识别引擎对该语音输入进行识别时,对每个匹配结果中都标注有其与该语音输入的匹配率,该匹配结果的发音与该语音输入越接近,其匹配率越高。
其中,当根据用户的选择确定了第一匹配结果时,表示用户的该语音输入与其选择的第一匹配结果对应的发音,对于用户来讲为最接近的,因此,第一修改单元910将该第一匹配结果与该语音输入的匹配率的数值在当前值的基础上提高为第一值。
第二修改单元911,用于将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值;
其中,所述第一值大于所述第二值。
其中,当根据该登录用户的选择确定了第一匹配结果时,表示该登录用户的该语音输入与其选择的第一匹配结果对应的发音,对于该登录用户来讲为最接近的,而其他的匹配结果为不满足用户需要的,因此,还要第二修改单元911将第二匹配结果与该语音输入的匹配率的数值在当前值的基础上降低为第二值。
因此,在该匹配率的数值调整之后,该第一匹配结果与该语音输入的匹配率的数值为最高的,第二匹配结果与该语音输入的匹配率较低,下次再对该登录用户的语音输入进行识别时能够找到唯一的该第一匹配结果。
由于本实施例中,该对语音识别引擎的模型进行自适应训练为针对该登录用户所做,那么当其他用户使用该电子设备进行语音输入时,不再使用该针对登录用户进行训练过的语音识别引擎的模型进行识别匹配,当该其他用户未登录过时,可采用未被进行自适应训练过的模型进行识别;当该用户是历史登录过的用户时,可采用该历史登录过的用户的身份信息找到与其对应的语音识别引擎的模型,该与其对应的语音识别引擎的模型也是经过该历史登录过的用户的发音方式的训练的。
然而,实际实施中,用户可能会出现错选的操作。
参见图10,为本发明提供的一种信息处理装置实施例5的结构示意图,包括:获取模块1001、第一接收模块1002、匹配模块1003、输出模块1004、第二接收模块1005、选择模块1006、判断模块1007、记录模块1008和训练模块1009;
其中,获取模块1001、第一接收模块1002、匹配模块1003、输出模块1004、第二接收模块1005、选择模块1006、记录模块1008和训练模块1009与实施例1中相应的结构功能一致,本实施例中不再赘述。
判断模块1007,用于依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
其中,所述语音输入对应的操作是指用户的目标操作,则该第一匹配结果响应所述语音输入对应的操作包括:根据该第一匹配结果响应该用户的目标操作。
比如,当用户采用语音输入以实现通讯录联系人搜索,则该语音输入对应的操作是指用户与该搜索得到的第一匹配结果对应的联系人建立通话或者正常通话结束;
又如,当用户采用语音输入以实现网络搜索时,该语音输入对应的操作是指用户采用该第一匹配结果对应的内容在网络中进行搜索操作或者搜索完成;
或者,当该用户采用语音输入以实现短信息等内容输入时,该语音输入对应的操作是指用户采用该第一匹配结果生成短信息并发送。
具体的,当该响应为依据该第一匹配结果的联系人进行打电话时,当对方接起电话,或者接通超过预设时间阈值,则判断模块1007判定操作完成;否则未完成。
当完成时,触发记录模块;否则,结束,不记录该识别匹配结果。
具体的,当用户选择某一匹配结果后,该电子设备根据该选择确定该匹配结果为第一匹配结果,但是,用户在预设的时间内取消了该匹配结果对应的响应操作,则判断模块1007可判定根据该用户反馈的输入操作确定的该第一匹配结果为非目标结果,即,用户的选择动作为误操作,则不对本次的识别匹配结果进行记录,以防止用户的误操作导致语音识别引擎的模型的自适应训练受到影响。
其余操作对应的响应方式类似。
本申请中还提供了一种电子设备,该电子设备包括语音采集单元和上述实施例中的信息处理装置,该信息处理装置包括:第一接收模块、匹配模块、输出模块、第二接收模块、选择模块、记录模块和训练模块。
其中,该信息处理装置各个组成模块的功能与上述的一种信息处理装置实施例中相应结构的功能一致,本实施例中不再赘述。
优选的,该电子设备的信息处理装置中还包括:获取模块,用于获取进行所述语音输入的用户的身份信息;
同时,该记录模块,在记录所述语音输入、所述匹配结果组和所述第一匹配结果的同时,还记录所述语音输入的用户的身份信息,以使得所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述用户的身份信息用于所述语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
其中,该信息处理装置各个组成模块的功能与上述的一种信息处理装置实施例中相应结构的功能一致,本实施例中不再赘述。
优选的,该电子设备的信息处理装置中,所述训练模块包括:分类单元、第一修改单元和第二修改单元;
其中,该信息处理装置各个组成模块单元的功能与上述的一种信息处理装置实施例中相应结构的功能一致,本实施例中不再赘述。
优选的,该电子设备的信息处理装置中还包括:判断模块,用于依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;完成时,触发记录模块。
其中,该信息处理装置各个组成模块的功能与上述的一种信息处理装置实施例中相应结构的功能一致,本实施例中不再赘述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种信息处理方法,其特征在于,所述方法应用于电子设备,所述电子设备中设置有语音采集单元,该方法包括:
接收所述语音采集单元采集的语音输入;
基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
输出所述匹配结果组;
接收用户反馈的输入操作;
依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
记录所述语音输入、所述匹配结果组和所述第一匹配结果;
对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对所述语音输入进行匹配时产生所述第一匹配结果。
2.根据权利要求1所述的方法,其特征在于,接收所述语音采集单元采集的语音输入之前,还包括:
获取进行所述语音输入的用户的身份信息。
3.根据权利要求2所述的方法,其特征在于,还包括:
在记录所述语音输入、所述匹配结果组和所述第一匹配结果的同时,记录所述语音输入的用户的身份信息,以使得所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述用户的身份信息用于所述语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
4.根据权利要求1或3所述的方法,其特征在于,所述对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练包括:
基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值;
其中,所述第一值大于所述第二值。
5.根据权利要求1所述的方法,其特征在于,所述依据所述输入操作从所述匹配结果组中确定一个第一匹配结果之后,所述记录所述语音输入、所述匹配结果组和所述第一匹配结果之前,还包括:
依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
当完成时,执行所述记录所述语音输入、所述匹配结果组和所述第一匹配结果步骤。
6.一种信息处理装置,其特征在于,应用于电子设备,所述电子设备中设置有语音采集单元,所述装置包括:
第一接收模块,用于接收所述语音采集单元采集的语音输入;
匹配模块,用于基于语音识别引擎对所述语音输入匹配,得到与所述语音输入相关的由至少2个匹配结果组成的匹配结果组;
输出模块,用于输出所述匹配结果组;
第二接收模块,用于接收用户反馈的输入操作;
选择模块,用于依据所述输入操作从所述匹配结果组中确定一个第一匹配结果;
记录模块,用于记录所述语音输入、所述匹配结果组和所述第一匹配结果;
训练模块,用于对所述记录的所述语音输入、所述匹配结果组和所述第一匹配结果进行语音识别引擎的模型自适应训练,以使得下一次基于所述语音识别引擎对搜索语音输入进行匹配时产生所述第一匹配结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
获取模块,用于获取进行所述语音输入的用户的身份信息。
8.根据权利要求7所述的装置,其特征在于,
所述记录模块,在记录所述语音输入、所述匹配结果组和所述第一匹配结果的同时,还记录所述语音输入的用户的身份信息,以使得所述记录的所述语音输入、所述匹配结果组、所述第一匹配结果和所述用户的身份信息用于所述语音识别引擎针对所述用户的发音方式进行针对性的模型自适应训练,以使得下一次基于所述语音识别引擎对所述用户输入的所述语音输入进行匹配时产生所述第一匹配结果。
9.根据权利要求6或8所述的装置,其特征在于,所述训练模块包括:
分类单元,用于基于所述匹配结果组和所述第一匹配结果,确定除所述第一匹配结果的第二匹配结果;
第一修改单元,用于将所述第一匹配结果与所述语音输入的匹配率的数值在当前值的基础上提高为第一值;
第二修改单元,用于将所述第二匹配结果与所述语音输入的匹配率的数值在当前值的基础上降低为第二值;
其中,所述第一值大于所述第二值。
10.根据权利要求6所述的装置,其特征在于,还包括:
判断模块,用于依据预设条件判断所述第一匹配结果响应所述语音输入对应的操作是否完成;
当完成时,触发记录模块。
11.一种电子设备,其特征在于,包括:如权利要求6-10任一项所述的信息处理装置和对所述电子设备的语音输入进行采集的语音采集单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410083622.5A CN103794214A (zh) | 2014-03-07 | 2014-03-07 | 一种信息处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410083622.5A CN103794214A (zh) | 2014-03-07 | 2014-03-07 | 一种信息处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103794214A true CN103794214A (zh) | 2014-05-14 |
Family
ID=50669801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410083622.5A Pending CN103794214A (zh) | 2014-03-07 | 2014-03-07 | 一种信息处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103794214A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN104112092A (zh) * | 2014-07-07 | 2014-10-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
WO2017020794A1 (zh) * | 2015-07-31 | 2017-02-09 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107195300A (zh) * | 2017-05-15 | 2017-09-22 | 珠海格力电器股份有限公司 | 语音控制方法和系统 |
CN107408385A (zh) * | 2015-04-22 | 2017-11-28 | 谷歌公司 | 开发者语音动作系统 |
WO2018121192A1 (zh) * | 2016-12-30 | 2018-07-05 | 深圳市国华识别科技开发有限公司 | 呼叫提示方法与系统 |
CN108536682A (zh) * | 2018-04-17 | 2018-09-14 | 南京创客汇网络信息技术有限公司 | 一种应用于服务业撮合交易的识别分类系统 |
CN109243449A (zh) * | 2018-10-18 | 2019-01-18 | 深圳供电局有限公司 | 一种语音识别方法和系统 |
CN110246486A (zh) * | 2019-06-03 | 2019-09-17 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110322876A (zh) * | 2018-03-30 | 2019-10-11 | 中华映管股份有限公司 | 语音应用系统及其方法 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN112053693A (zh) * | 2020-03-11 | 2020-12-08 | 河南紫联物联网技术有限公司 | 基于新冠疫情的智能语音测温方法、装置和系统 |
CN112508093A (zh) * | 2020-12-03 | 2021-03-16 | 北京百度网讯科技有限公司 | 一种自训练方法、装置、电子设备和可读存储介质 |
CN112562674A (zh) * | 2021-02-19 | 2021-03-26 | 智道网联科技(北京)有限公司 | 车联网智能语音处理方法及相关装置 |
WO2021134546A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 提高语音识别率的输入法 |
CN114254076A (zh) * | 2021-12-16 | 2022-03-29 | 天翼爱音乐文化科技有限公司 | 一种多媒体教学的音频处理方法、系统及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别系统、装置、声音识别方法以及声音识别程序 |
CN1453767A (zh) * | 2002-04-26 | 2003-11-05 | 日本先锋公司 | 语音识别装置以及语音识别方法 |
US20030216918A1 (en) * | 2002-05-15 | 2003-11-20 | Pioneer Corporation | Voice recognition apparatus and voice recognition program |
CN101609673A (zh) * | 2009-07-09 | 2009-12-23 | 交通银行股份有限公司 | 一种基于电话银行的用户语音处理方法及服务器 |
CN102262524A (zh) * | 2010-05-27 | 2011-11-30 | 鼎亿数码科技(上海)有限公司 | 基于无线输入设备的声音识别输入方法及实现装置 |
CN103077713A (zh) * | 2012-12-25 | 2013-05-01 | 青岛海信电器股份有限公司 | 一种语音处理方法及装置 |
CN103578469A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种展示语音识别结果的方法及装置 |
-
2014
- 2014-03-07 CN CN201410083622.5A patent/CN103794214A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别系统、装置、声音识别方法以及声音识别程序 |
CN1453767A (zh) * | 2002-04-26 | 2003-11-05 | 日本先锋公司 | 语音识别装置以及语音识别方法 |
US20030216918A1 (en) * | 2002-05-15 | 2003-11-20 | Pioneer Corporation | Voice recognition apparatus and voice recognition program |
CN101609673A (zh) * | 2009-07-09 | 2009-12-23 | 交通银行股份有限公司 | 一种基于电话银行的用户语音处理方法及服务器 |
CN102262524A (zh) * | 2010-05-27 | 2011-11-30 | 鼎亿数码科技(上海)有限公司 | 基于无线输入设备的声音识别输入方法及实现装置 |
CN103578469A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种展示语音识别结果的方法及装置 |
CN103077713A (zh) * | 2012-12-25 | 2013-05-01 | 青岛海信电器股份有限公司 | 一种语音处理方法及装置 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021786B (zh) * | 2014-05-15 | 2017-05-24 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN104021786A (zh) * | 2014-05-15 | 2014-09-03 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
CN104112092A (zh) * | 2014-07-07 | 2014-10-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106463114A (zh) * | 2015-03-31 | 2017-02-22 | 索尼公司 | 信息处理设备、控制方法及程序 |
CN106463114B (zh) * | 2015-03-31 | 2020-10-27 | 索尼公司 | 信息处理设备、控制方法及程序存储单元 |
CN107408385B (zh) * | 2015-04-22 | 2021-09-21 | 谷歌公司 | 开发者语音动作系统 |
US10839799B2 (en) | 2015-04-22 | 2020-11-17 | Google Llc | Developer voice actions system |
CN107408385A (zh) * | 2015-04-22 | 2017-11-28 | 谷歌公司 | 开发者语音动作系统 |
US11657816B2 (en) | 2015-04-22 | 2023-05-23 | Google Llc | Developer voice actions system |
WO2017020794A1 (zh) * | 2015-07-31 | 2017-02-09 | 北京奇虎科技有限公司 | 一种交互系统的语音识别方法和装置 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US11664020B2 (en) | 2015-11-06 | 2023-05-30 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
WO2018121192A1 (zh) * | 2016-12-30 | 2018-07-05 | 深圳市国华识别科技开发有限公司 | 呼叫提示方法与系统 |
CN107195300B (zh) * | 2017-05-15 | 2019-03-19 | 珠海格力电器股份有限公司 | 语音控制方法和系统 |
CN107195300A (zh) * | 2017-05-15 | 2017-09-22 | 珠海格力电器股份有限公司 | 语音控制方法和系统 |
CN110322876A (zh) * | 2018-03-30 | 2019-10-11 | 中华映管股份有限公司 | 语音应用系统及其方法 |
CN108536682B (zh) * | 2018-04-17 | 2021-09-17 | 南京创客汇网络信息技术有限公司 | 一种应用于服务业撮合交易的识别分类系统 |
CN108536682A (zh) * | 2018-04-17 | 2018-09-14 | 南京创客汇网络信息技术有限公司 | 一种应用于服务业撮合交易的识别分类系统 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN109243449A (zh) * | 2018-10-18 | 2019-01-18 | 深圳供电局有限公司 | 一种语音识别方法和系统 |
CN110246486B (zh) * | 2019-06-03 | 2021-07-13 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110246486A (zh) * | 2019-06-03 | 2019-09-17 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
WO2021134546A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 提高语音识别率的输入法 |
CN112053693A (zh) * | 2020-03-11 | 2020-12-08 | 河南紫联物联网技术有限公司 | 基于新冠疫情的智能语音测温方法、装置和系统 |
CN112508093A (zh) * | 2020-12-03 | 2021-03-16 | 北京百度网讯科技有限公司 | 一种自训练方法、装置、电子设备和可读存储介质 |
CN112562674A (zh) * | 2021-02-19 | 2021-03-26 | 智道网联科技(北京)有限公司 | 车联网智能语音处理方法及相关装置 |
CN114254076A (zh) * | 2021-12-16 | 2022-03-29 | 天翼爱音乐文化科技有限公司 | 一种多媒体教学的音频处理方法、系统及存储介质 |
CN114254076B (zh) * | 2021-12-16 | 2023-03-07 | 天翼爱音乐文化科技有限公司 | 一种多媒体教学的音频处理方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103794214A (zh) | 一种信息处理方法、装置和电子设备 | |
JP6415554B2 (ja) | 迷惑電話番号確定方法、装置及びシステム | |
CN104838339B (zh) | 便携终端装置以及信息处理系统 | |
CN104077516A (zh) | 一种生物认证方法及终端 | |
CN106204186B (zh) | 订单信息确定方法及装置 | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
CN104049721A (zh) | 信息处理方法及电子设备 | |
CN105320726A (zh) | 降低对手动开始/结束点和触发短语的需求 | |
CN104123937A (zh) | 提醒设置方法、装置和系统 | |
CN103699530A (zh) | 根据语音输入信息在目标应用中输入文本的方法与设备 | |
CN103703481A (zh) | 一种日历事项制定、提醒及导航方法及其系统 | |
CN104808794A (zh) | 一种唇语输入方法和系统 | |
CN112634897B (zh) | 设备唤醒方法、装置和存储介质及电子装置 | |
CN107077845A (zh) | 一种语音输出方法及装置 | |
CN104883299A (zh) | 路由器配置方法、系统及路由器 | |
CN105702255A (zh) | 农业数据采集方法、装置及移动终端 | |
CN110334242B (zh) | 一种语音指令建议信息的生成方法、装置及电子设备 | |
CN102298617A (zh) | 一种用于获取目标页面的方法与设备 | |
CN105827409A (zh) | 一种身份验证的方法及装置 | |
CN106911845A (zh) | 来电提醒方法及装置 | |
CN105635041A (zh) | 基于人脸识别的整合登录系统及方法 | |
CN107910006A (zh) | 语音识别方法、装置和多信源语音区分识别系统 | |
CN117609618B (zh) | 职位信息的推荐方法、装置、电子设备及存储介质 | |
CN114203176A (zh) | 智能设备的控制方法、装置、存储介质及电子装置 | |
CN117609617A (zh) | 职位信息的推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140514 |
|
RJ01 | Rejection of invention patent application after publication |