CN109920408B - 基于语音识别的字典项设置方法、装置、设备和存储介质 - Google Patents
基于语音识别的字典项设置方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN109920408B CN109920408B CN201910046746.9A CN201910046746A CN109920408B CN 109920408 B CN109920408 B CN 109920408B CN 201910046746 A CN201910046746 A CN 201910046746A CN 109920408 B CN109920408 B CN 109920408B
- Authority
- CN
- China
- Prior art keywords
- setting
- dictionary
- item
- voice
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012790 confirmation Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 241001672694 Citrus reticulata Species 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 238000009432 framing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001575999 Hakka Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于语音识别的字典项设置方法,包括以下步骤:在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;接收所述用户输入的确认指令,完成所述目标软件的字典项设置。本发明还公开了一种基于语音识别的字典项设置装置、设备和存储介质。本发明中将语音识别应用到软件设置中,终端识别用户的语音信息,得到用户的设置意图以进行字典项设置,提高了字典项设置的便捷性和效率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及基于语音识别的字典项设置方法、装置、设备和存储介质。
背景技术
为了软件自身的功能需求或者用户使用需求,应用软件通常设置有字典栏,用户可以对字典栏中的各个字典项进行设置以满足个性化使用需求。
但是在实际的软件使用过程中,用户需要多次按键才能调出相应的软件中的字典栏,再在字典栏中查找需要设置的字典项,并对该字典项进行相应设置,这样的字典项设置很不方便,尤其是软件中当字典栏层次较多时,需要逐层进入多个页面,操作的复杂度更高。
发明内容
本发明的主要目的在于提供一种基于语音识别的字典项设置方法、装置、设备和存储介质,旨在解决当前字典项设置操作复杂的问题,以使的用户操作更加便捷。
为实现上述目的,本发明提供基于语音识别的字典项设置方法,所述基于语音识别的字典项设置方法包括以下步骤:
在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;
在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;
若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;
接收所述用户输入的确认指令,完成所述目标软件的字典项设置。
可选地,所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之前,包括:
分别采集通过不同方言和普通话的语音样本,按预处理规则处理所述语音样本,并提取经预处理后的所述语音样本的语音特征数据;
利用所述语音特征数据迭代训练预设的初始语音识别模型,得到预设语音识别模型;
所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤,包括:
在终端处于字典项设置模式时,采集用户的语音信息;
将所述语音信息输入至所述预设语音识别模型,通过所述语音识别模型处理所述语音信息,得到所述语音信息对应的文本信息。
可选地,所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之后,包括:
按预设分词法处理所述文本信息,得到所述文本信息中包含的关键字,并将各所述关键字组合形成关键字集合;
在所述关键字集合中包含与预设字段匹配的目标关键字时,则判定所述文本信息中包含设置项。
可选地,所述在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏之后,包括:
若所述字典栏中不存在与所述设置项匹配的目标字典项,则获取所述字典栏中的各字典项;
计算所述设置项与各所述字典项的相似度,获取与所述设置项相似度高于预设阈值的相似字典项;
输出所述相似字典项对应的设置界面,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。
可选地,所述若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置的步骤,包括:
若所述字典栏中存在与所述设置项匹配的目标字典项,则输出所述目标字典项对应的设置界面,并获取所述文本信息中设置指令及所述设置指令中的设置量;
按所述设置指令调整所述设置界面中所述目标字典项,使所述目标字典项到达所述设置量并输出,以供所述用户确认。
可选地,所述接收所述用户输入的确认指令,完成所述目标软件的字典项设置的步骤之后,包括:
获取所述文本信息中设置指令,将所述设置指令与所述设置项进行关联作为所述目标软件的历史设置记录;
在得到所述历史设置记录之后,提取所述语音信息中的声纹特征;
查询预设声纹数据库,获取所述声纹特征对应的个人设置表,并将所述历史设置记录添加至所述个人设置表中,以对所述个人设置表进行更新。
可选地,所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之后,包括:
在所述文本信息中不包含设置项时,提取所述语音信息中的声纹特征,并查询预设声纹数据库,以获取所述声纹特征对应的个人设置表;
获取所述个人设置表中的历史设置记录,及所述历史设置记录中的设置项,并获取当前运行的目标软件,及所述目标软件的字典栏;
在所述字典栏中存在与所述设置项匹配的目标字典项时,获取所述历史设置记录中所述设置项关联的设置指令,并按所述设置指令设置所述目标软件。
此外,为实现上述目的,本发明还提供一种基于语音识别的字典项设置装置,所述基于语音识别的字典项设置装置包括:
采集分析模块,用于在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;
信息获取模块,用于在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;
输出设置模块,用于若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;
设置确认模块,用于接收所述用户输入的确认指令,完成所述目标软件的字典项设置。
此外,为实现上述目的,本发明还提供一种基于语音识别的字典项设置设备;
所述基于语音识别的字典项设置设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如上所述的基于语音识别的字典项设置方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于语音识别的字典项设置方法的步骤。
本发明实施例提出的一种基于语音识别的字典项设置方法、装置、设备和存储介质,在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;接收所述用户输入的确认指令,完成所述目标软件的字典项设置。本发明中通过对用户的语音信息进行识别,得到语音信息对应的文本信息,并对文本信息进行处理,判断文本信息中是否包含设置项,若文本信息中包含设置项,则获取待设置的目标软件,及所述目标软件的字典栏,并根据设置项与字典栏中字典项的比对,来判断软件中是否存在设置项匹配的字典项,若软件中存在设置项匹配的字典项,则进行字典项的设置,使得字典项的设置更加便捷和高效。此外,在软件中不存在与设置项匹配的字典项,则终端还可以将与设置项相近的字典项进行展示,提高字典项设置的准确性和灵活性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明基于语音识别的字典项设置方法第一实施例的流程示意图;
图3为本发明基于语音识别的字典项设置方法第三实施例的流程示意图;
图4为本发明基于语音识别的字典项设置装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端(又叫基于语音识别的字典项设置设备,其中,基于语音识别的字典项设置设备可以是由单独的基于语音识别的字典项设置装置构成,也可以是由其他装置与基于语音识别的字典项设置装置组合形成)结构示意图。
本发明实施例终端可以固定终端,也可以是移动终端,如,带联网功能的智能空调、智能电灯、智能电源、智能音箱、自动驾驶汽车、PC(personal computer)个人计算机、智能手机、平板电脑、电子书阅读器、便携计算机等。
如图1所示,该终端可以包括:处理器1001,例如,中央处理器Central ProcessingUnit,CPU),网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WIFI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如,磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块;输入单元,比显示屏,触摸屏;网络接口可选除无线接口中除WiFi外,蓝牙、探针等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,该计算机软件产品存储在一个存储介质(存储介质:又叫计算机存储介质、计算机介质、可读介质、可读存储介质、计算机可读存储介质或者直接叫介质等,存储介质可以是非易失性可读存储介质,如RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,并执行本发明以下实施例提供的基于语音识别的字典项设置方法中的步骤。
本发明中基于语音识别的字典项设置方法应用于如图1所示的终端,本发明中涉及的字典项,包括但不仅限于软件中的索引菜单和软件中的产品信息;本发明中基于语音识别的字典项设置方法的具体应用场景较多,例如,1、应用在终端在一个软件上,即,对一个软件中的字典项进行设置(基于语音识别设置视频播放软件的音量);2、应用在终端的软件管理平台,软件管理平台上包含有不同的软件,即,对终端中安装的全部软件进行字典项设置;3、应用在终端的软件开发平台,软件开发平台上包含开发中的软件,即,对终端中开发中软件的产品信息进行字典项设置(在开发软件为一个金融软件,用户基于语音识别在金融软件中增加一个金融产品)。
本实施例提出了一种基于语音识别的字典项设置方法。
参照图2,在本发明基于语音识别的字典项设置方法的第一实施例中,所述基于语音识别的字典项设置方法包括:
步骤S11,在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息。
终端首先确定当前所处的模式,即,终端可以设置不同的模式,在终端处于字典项设置模式时,终端上预设的语音采集装置(例如,麦克风或者语音信号处理器)自动进行用户语音信息的采集,终端对采集的语音信息进行识别,得到用户语音信息对应的文本信息,具体地,包括:
终端对语音信息进行预处理(包括预加重、加窗分帧处理、端点检测和降噪处理),然后提取经过预处理的声语音信息的语音特征数据,然后将该语音特征数据输入预设语音识别模型(预设语音识别模型是指预先设置的语音识别算法),通过训练好的预设语音识别模型处理语音特征数据,即可得到对应的语音信息识别结果,该语音识别结果包括通过训练好的语音识别模型识别出的文字信息。
在得到语音信息对应的文本信息之后,终端判断文本信息中包含设置项,即,终端根据文本信息判断语音信息中是否涉及到字典项设置相关的信息,例如,用户是否通过语音调整当前视频软件的音量,具体地,包括:
步骤a1,按预设分词法处理所述文本信息,得到所述文本信息中包含的关键字,并将各所述关键字组合形成关键字集合;
步骤b1,在所述关键字集合中包含与预设字段匹配的目标关键字时,则判定所述文本信息中包含设置项。
即,终端将文本信息按预设的分词算法(预设的分词算法是指预先设置的是将一个汉字序列切分成一个个单独的词,然后,将连续的字序列按照一定的规范重新组合成词序列的算法)进行分词处理,得到文本信息中的关键字,终端将各关键字组合形成关键字集合,终端将关键字集合中的各个关键字与各个预设字段进行比对,其中,预设字段是指预先设置的字典项字段,例如,字典项名称或者字典项设置指令,终端在确定所述关键字集合中包含与预设字段匹配的目标关键字时,则判定所述文本信息中包含设置项。
步骤S12,在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏。
在所述文本信息中包含设置项时,即,终端基于语音识别确定用户具有字典项设置意图,然后,终端触发字典项设置指令,终端获取待设置的目标软件,其中,待设置的目标软件可以是终端当前运行的软件,还可以是语音信息中包含的软件;在终端确定待设置的目标软件之后,终端获取目标软件的字典栏,其中,字典栏是指软件中可设置字典项信息的集合,例如,金融软件的字典栏中包含一级字典项:保险产品A、保险产品B和保险产品C,还包含二级字典项的中包含有各个一级字典项的分支,如:“险种”“意健险”等;需要补充说明的是,本发明中的字典栏可以包含不同等级,即,字典栏中包含一级字典项,一级字典项之后还包括二级字典项等等,字典栏还可以是相同等级的不同字典项。
步骤S13,若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置。
然后,终端将所述文本信息中的设置项与字典栏中的各字典项进行比对,若所述字典栏中存在与所述设置项匹配的目标字典项,则终端对目标字典项进行设置,具体地,包括:
步骤a2,若所述字典栏中存在与所述设置项匹配的目标字典项,则输出所述目标字典项对应的设置界面,并获取所述文本信息中设置指令及所述设置指令中的设置量。
步骤b2,按所述设置指令调整所述设置界面中所述目标字典项,使所述目标字典项到达所述设置量并输出,以供所述用户确认。
即,例如,文本信息为:在xxx基金到期之后自动转入下一期,终端确定文本信息中包含设置项:“xxx基金”,终端将“xxx基金”与金融软件中字典栏的各个字典项进行比较,终端字典栏中存在与“xxx基金”匹配的目标字典项“xxx基金”,则终端输出“xxx基金”对应的设置界面,并获取所述文本信息中设置指令及所述设置指令中的设置量“自动转入下一期”;终端按所述设置指令调整所述设置界面中“xxx基金”的时间,以供所述用户确认。
步骤S14,接收所述用户输入的确认指令,完成所述目标软件的字典项设置。
终端在字典项设置完成之后,终端输出设置结果确认的提示信息,以提示用户确认,用户输入的确认指令可以是语音确认指令,还可以是其他形式,终端接收所述用户输入的确认指令,完成所述目标软件的字典项设置。
在本实施例中通过对用户的语音信息进行识别,得到语音信息对应的文本信息,并对文本信息进行处理,判断文本信息中是否包含设置项,若文本信息中包含设置项,则获取待设置的目标软件,及所述目标软件的字典栏,并根据设置项与字典栏中字典项的比对,来判断软件中是否存在设置项匹配的字典项,若软件中存在设置项匹配的字典项,则进行字典项的设置,使得字典项的设置更加便捷和高效。
进一步地,在本发明第一实施例的基础上,提出了本发明基于语音识别的字典项设置方法的第二实施例。
本实施例是第一实施例中步骤S11的细化,本实施例中具体说明了语音识别的步骤,本实施例中的语音识别是通过预设语音识别模型实现的,在进行语音识别之前,需要预先设置语音识别模型,具体包括:
步骤S21,分别采集通过不同方言和普通话的语音样本,按预处理规则处理所述语音样本,并提取经预处理后的所述语音样本的语音特征数据。
其中,在建立语音识别模型之前需要首先采集普通话、北京话、东北方言、吴方言、赣方言、湘方言、客家方言、闽方言、粤方言和蜀方言的语音信息(又叫语音样本),终端将采集到的语音信息按预处理规则进行处理得到语音特征数据,接着,终端提取经预处理后的语音特征数据。
其中,预处理主要包括预加重、加窗分帧处理、端点检测和降噪处理四个过程。预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理,对语音的高频部分进行加重,去除口鼻辐射的影响,增加语音的高频分辨率。加窗分帧处理包括加窗和分帧,其中,一般的分帧方法为交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,而分帧是采用可移动的有限长度的窗口进行加权的方法来实现的,即用一定的窗函数,从而形成加窗语音信号,其中窗函数一般采用汉明窗和矩形窗。端点检测是从一段给定的语音信号中找出语音的起始点和结束点,正确、有效的进行端点检测不仅可以减少计算量和缩短处理时间,而且还能排除无声段的噪声干扰、提高语音识别的正确率。
步骤S22,利用所述语音特征数据迭代训练预设的初始语音识别模型,得到预设语音识别模型。
终端利用语音特征数据对初始语音识别模型进行训练,初始语音识别模型是基于HMM(Hidden Markov Model,隐马尔可夫模型)建立的,隐马尔可夫模型实质就是对语音特征数据中表征语音信息的特征进行建模,通过对语音特征数据中的语音特征进行了大量的统计而得到模型参数,而迭代算法可以采用Baum–Welch(鲍姆韦尔奇)算法,也可以采用经K均值算法改进后的Baum–Welch算法,可提高模型的准确性。
具体的,语音识别模型的训练过程如下:1)基于HMM模型构建语音是被模型,并设置语音识别模型的参数初始值,参数初始值可以通过等划分状态或者根据经验估计设置;2)设置最大的迭代次数和收敛阈值;3)采用Viterbi算法(Viterbi Algorithm,维特比算法)对输入的语音特征数据进行状态的分段操作;4)通过迭代算法(Baum-welch算法)对该语音识别模型的参数进行更新,并对语音特征数据进行迭代训练,不断地循环迭代,直到达到先前设置的迭代次数或已经收敛,此时,可得到该语音识别模型的最优模型参数,进而根据该最优模型参数获得训练好的预设语音识别模型。在本实施例中通过训练语音识别模型实现客户语音信息的准确识别。
在训练得到预设语音识别模型之后,终端将预设语音识别模型应用于本发明第一实施例的步骤S11中,以识别用户语音信息,具体地:
步骤S111,在终端处于字典项设置模式时,采集用户的语音信息。
在终端处于字典项设置模式时,终端开启预设的语音采集装置,通过语音采集装置采集用户的语音信息。
步骤S112,将所述语音信息输入至所述预设语音识别模型,通过所述语音识别模型处理所述语音信息,得到所述语音信息对应的文本信息。
终端将语音信息输入至所述预设语音识别模型,预设语音识别模型通过利用信号处理技术对对客户语音信息进行处理,降低环境噪声、信道、说话人等因素,以提取客户语音信息中的语音特征数据,进一步地,预设语音识别模型根据声学、语言模型及词典,寻找能够以最大概率输出该语音特征数据对应的词串,并将词串作为语音信息对应的文本信息。在本实施例中利用预设语音识别模型对语音信息进行识别,得到语音信息对应的文本信息,以实现机器识别客户意图的目的,使得语音信息识别更加准确。
进一步地,参照图3,在上述实施例的基础上,提出了本发明基于语音识别的字典项设置方法的第三实施例。
本实施例是第一实施例中步骤S12之后的细化,本实施例与第一实施例的区别在于,本实施例中在文本信息中包含设置项时(即,用户语音信息需要对字典项进行设置),但是终端没有匹配到设置项对应的字典项时,所述语音识别的字典项设置方法,具体地,包括:
步骤S31,若所述字典栏中不存在与所述设置项匹配的目标字典项,则获取所述字典栏中的各字典项;
若所述字典栏中不存在与所述设置项匹配的目标字典项,即,终端没有匹配到设置项匹配的目标字典项,则终端获取所述字典栏中的各字典项,以将设置项与各所述字典项进行比较,以计算设置项与各所述字典项的相似度,具体地:
步骤S32,计算所述设置项与各所述字典项的相似度,获取与所述设置项相似度高于预设阈值的相似字典项。
终端计算所述设置项与各所述字典项的相似度,其中,计算设置项与各所述字典项的相似度的具体方式不作限定,例如,终端通过预设哈希算法进行计算,即,终端将文本信息中的设置项转换为一个目标哈希值,终端将各字典项转换为对应的字典项哈希值,终端确定目标哈希值与字典项哈希值的比值,并将目标哈希值与字典项哈希值的比值作为设置项与字典项的相似度,然后,终端将计算得到的相似度与预设阈值进行比较,其中,预设阈值是指预先设置的相似度临界值,例如设置为80%,终端获取与所述设置项相似度高于预设阈值的相似字典项。
步骤S33,输出所述相似字典项对应的设置界面,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。
终端输出所述相似字典项对应的设置界面,即,本实施例中可以将设置项对应的相似字典项进行展示,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。本实施例中在软件中不存在与设置项匹配的字典项,则终端还可以将与设置项相近的字典项进行展示,提高字典项设置的准确性和灵活性。
进一步地,在上述实施例的基础上提出了本发明基于语音识别的字典项设置方法的第四实施例。
本实施例是第一实施例中步骤S14之后的细化,在本实施例中,终端将字典项设置记录进行保存,以根据保存的历史字典项设置记录进行自动调整字典项,具体包括:
步骤S41,获取所述文本信息中设置指令,将所述设置指令与所述设置项进行关联作为所述目标软件的历史设置记录。
在字典项设置完成之后,终端获取所述文本信息中设置指令,终端将所述设置指令与所述设置项进行关联作为所述目标软件的历史设置记录,即,历史设置记录中包含设置项和设置指令,例如,历史设置记录为:音量调节至40分贝。
步骤S42,在得到所述历史设置记录之后,提取所述语音信息中的声纹特征。
在得到所述历史设置记录之后,终端提取所述语音信息中的声纹特征,声纹特征是语音信息中的声波频谱,由于声纹具有相对稳定性的特点,本实施例中声纹特征可以作为用户的身份标识,使得终端根据声纹特征将历史设置记录添加至预先设置的该用户的个人设置表,具体地:
步骤S43,查询预设声纹数据库,获取所述声纹特征对应的个人设置表,并将所述历史设置记录添加至所述个人设置表中,以对所述个人设置表进行更新。
终端查询预设声纹数据库,其中,预设声纹数据库设置预先设置的包含多个历史设置记录的数据库,在预设声纹数据库中的各个历史设置记录按照用户声纹特征分别保存,例如,预设声纹数据库中包含王xx声纹特征对应的个人设置表,王xx的个人设置表中包含王xx各次的历史设置记录;终端通过查询预设声纹数据库,获取所述声纹特征对应的个人设置表,并将所述历史设置记录添加至所述个人设置表中,以对所述个人设置表进行更新。在本实施例中将历史设置记录添加至预设声纹数据库中的个人设置表中,实现了历史设置记录进行分类保存更新,以便查询使用。
进一步地,在上述实施例的基础上,提出了本发明基于语音识别的字典项设置方法的第五实施例。
本实施例可以与上述任意一个或者多个实施例结合,本实施例在用户语音信息对应的文本信息中不包含设置项时,终端可以进行字典项的自动设置,具体地,基于语音识别的字典项设置方法包括:
步骤S51,在所述文本信息中不包含设置项时,提取所述语音信息中的声纹特征,并查询预设声纹数据库,以获取所述声纹特征对应的个人设置表。
在终端确定所述文本信息中不包含设置项时,为了防止终端语音识别错误的情况,或者使得终端字典项设置更加智能,终端自动提取所述语音信息中的声纹特征,并查询预设声纹数据库(本实施例中的预设声纹数据库与第四实施例中的预设声纹数据库相同,本实施例中不作赘述),以获取所述声纹特征对应的个人设置表,即,本实施例中终端根据声纹特征查询预设声纹数据库,终端可以获取该声纹特征对应的历史设置记录,以根据历史设置记录进行字典设置,具体地:
步骤S52,获取所述个人设置表中的历史设置记录,及所述历史设置记录中的设置项,并获取当前运行的目标软件,及所述目标软件的字典栏。
终端获取所述个人设置表中的历史设置记录,及所述历史设置记录中的设置项,即,终端根据声纹识别查询到编号为001的个人设置表,终端获取编号为001的个人设置表中的历史设置记录,进一步地,终端获取当前运行的目标软件,然后,终端获取目标软件的字典栏。
步骤S53,在所述字典栏中存在与所述设置项匹配的目标字典项时,获取所述历史设置记录中所述设置项关联的设置指令,并按所述设置指令设置所述目标软件。
终端将历史设置记录中的设置项与字典栏中的各个字典项进行比较,终端确定字典栏中存在与所述设置项匹配的目标字典项时,终端获取所述历史设置记录中所述设置项关联的设置指令,并按所述设置指令设置所述目标软件。
例如,用户使用视频软件播放视频,终端采集到用户的语音信息,终端对用户语音信息进行识别,得到语音信息对应为文本信息为:这个广告真长,终端确定文本信息中不包含设置项,终端提取用户的声纹特征,终端查询预设声纹数据库,以获取所述声纹特征对应的个人设置表,终端获取个人设置表中各个历史设置记录,其中,历史设置记录中包含:将xxx视频的声音减小,终端获取视频软件中字典栏,终端确定所述字典栏中存在与所述“xxx视频”匹配的目标字典项,终端自动地获取所述历史设置记录中所述设置项关联的设置指令“xxx视频的声音减小”,并按所述设置指令设置所述目标软件。本实施例中终端根据历史设置记录进行字典项的字典设置,使得字典项设置更加智能。
此外,参照图4,本发明实施例还提出基于语音识别的字典项设置装置,所述基于语音识别的字典项设置装置包括:
采集分析模块10,用于在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;
信息获取模块20,用于在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;
输出设置模块30,用于若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;
设置确认模块40,用于接收所述用户输入的确认指令,完成所述目标软件的字典项设置。
可选地,基于语音识别的字典项设置装置,包括:
样本采集模块,用于分别采集通过不同方言和普通话的语音样本,按预处理规则处理所述语音样本,并提取经预处理后的所述语音样本的语音特征数据;
模型训练模块,用于利用所述语音特征数据迭代训练预设的初始语音识别模型,得到预设语音识别模型;
所述采集分析模块10,包括:
语音采集单元,用于在终端处于字典项设置模式时,采集用户的语音信息;
语音分析单元,用于将所述语音信息输入至所述预设语音识别模型,通过所述语音识别模型处理所述语音信息,得到所述语音信息对应的文本信息。
可选地,基于语音识别的字典项设置装置,包括:
分词处理模块,用于按预设分词法处理所述文本信息,得到所述文本信息中包含的关键字,并将各所述关键字组合形成关键字集合;
信息判定模块,用于在所述关键字集合中包含与预设字段匹配的目标关键字时,则判定所述文本信息中包含设置项。
可选地,基于语音识别的字典项设置装置,包括:
字典项获取模块,用于若所述字典栏中不存在与所述设置项匹配的目标字典项,则获取所述字典栏中的各字典项;
相似度技术模块,用于计算所述设置项与各所述字典项的相似度,获取与所述设置项相似度高于预设阈值的相似字典项;
输出显示模块,用于输出所述相似字典项对应的设置界面,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。
可选地,所述输出设置模块30,包括:
输出获取单元,用于若所述字典栏中存在与所述设置项匹配的目标字典项,则输出所述目标字典项对应的设置界面,并获取所述文本信息中设置指令及所述设置指令中的设置量;
设置输出单元,用于按所述设置指令调整所述设置界面中所述目标字典项,使所述目标字典项到达所述设置量并输出,以供所述用户确认。
可选地,基于语音识别的字典项设置装置,包括:
历史记录模块,用于获取所述文本信息中设置指令,将所述设置指令与所述设置项进行关联作为所述目标软件的历史设置记录;
声纹提取模块,用于在得到所述历史设置记录之后,提取所述语音信息中的声纹特征;
信息更新模块,用于查询预设声纹数据库,获取所述声纹特征对应的个人设置表,并将所述历史设置记录添加至所述个人设置表中,以对所述个人设置表进行更新。
可选地,基于语音识别的字典项设置装置,包括:
数据查询模块,用于在所述文本信息中不包含设置项时,提取所述语音信息中的声纹特征,并查询预设声纹数据库,以获取所述声纹特征对应的个人设置表;
记录获取模块,用于获取所述个人设置表中的历史设置记录,及所述历史设置记录中的设置项,并获取当前运行的目标软件,及所述目标软件的字典栏;
项目设置模块,用于在所述字典栏中存在与所述设置项匹配的目标字典项时,获取所述历史设置记录中所述设置项关联的设置指令,并按所述设置指令设置所述目标软件。
其中,基于语音识别的字典项设置装置的各个功能模块实现的步骤可参照本发明基于语音识别的字典项设置方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机存储介质。
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的基于语音识别的字典项设置方法中的操作。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于语音识别的字典项设置方法,其特征在于,所述基于语音识别的字典项设置方法包括以下步骤:
在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;
在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;
若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;
接收所述用户输入的确认指令,完成所述目标软件的字典项设置;
其中,所述在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏之后,还包括:
若所述字典栏中不存在与所述设置项匹配的目标字典项,则获取所述字典栏中的各字典项;
计算所述设置项与各所述字典项的相似度,获取与所述设置项相似度高于预设阈值的相似字典项;
输出所述相似字典项对应的设置界面,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。
2.如权利要求1所述的基于语音识别的字典项设置方法,其特征在于,
所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之前,包括:
分别采集通过不同方言和普通话的语音样本,按预处理规则处理所述语音样本,并提取经预处理后的所述语音样本的语音特征数据;
利用所述语音特征数据迭代训练预设的初始语音识别模型,得到预设语音识别模型;
所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤,包括:
在终端处于字典项设置模式时,采集用户的语音信息;
将所述语音信息输入至所述预设语音识别模型,通过所述语音识别模型处理所述语音信息,得到所述语音信息对应的文本信息。
3.如权利要求1所述的基于语音识别的字典项设置方法,其特征在于,所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之后,包括:
按预设分词法处理所述文本信息,得到所述文本信息中包含的关键字,并将各所述关键字组合形成关键字集合;
在所述关键字集合中包含与预设字段匹配的目标关键字时,则判定所述文本信息中包含设置项。
4.如权利要求1所述的基于语音识别的字典项设置方法,其特征在于,所述若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置的步骤,包括:
若所述字典栏中存在与所述设置项匹配的目标字典项,则输出所述目标字典项对应的设置界面,并获取所述文本信息中设置指令及所述设置指令中的设置量;
按所述设置指令调整所述设置界面中所述目标字典项,使所述目标字典项到达所述设置量并输出,以供所述用户确认。
5.如权利要求1所述的基于语音识别的字典项设置方法,其特征在于,所述接收所述用户输入的确认指令,完成所述目标软件的字典项设置的步骤之后,包括:
获取所述文本信息中设置指令,将所述设置指令与所述设置项进行关联作为所述目标软件的历史设置记录;
在得到所述历史设置记录之后,提取所述语音信息中的声纹特征;
查询预设声纹数据库,获取所述声纹特征对应的个人设置表,并将所述历史设置记录添加至所述个人设置表中,以对所述个人设置表进行更新。
6.如权利要求5所述的基于语音识别的字典项设置方法,其特征在于,所述在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息的步骤之后,包括:
在所述文本信息中不包含设置项时,提取所述语音信息中的声纹特征,并查询预设声纹数据库,以获取所述声纹特征对应的个人设置表;
获取所述个人设置表中的历史设置记录,及所述历史设置记录中的设置项,并获取当前运行的目标软件,及所述目标软件的字典栏;
在所述字典栏中存在与所述设置项匹配的目标字典项时,获取所述历史设置记录中所述设置项关联的设置指令,并按所述设置指令设置所述目标软件。
7.一种基于语音识别的字典项设置装置,其特征在于,所述基于语音识别的字典项设置装置包括:
采集分析模块,用于在终端处于字典项设置模式时,采集用户的语音信息并识别所述语音信息,得到所述语音信息对应的文本信息;
信息获取模块,用于在所述文本信息中包含设置项时,获取待设置的目标软件,及所述目标软件的字典栏;
输出设置模块,用于若所述字典栏中存在与所述设置项匹配的目标字典项,则按所述文本信息中的设置量对所述目标字典项进行设置;
设置确认模块,用于接收所述用户输入的确认指令,完成所述目标软件的字典项设置;
字典项获取模块,用于若所述字典栏中不存在与所述设置项匹配的目标字典项,则获取所述字典栏中的各字典项;
相似度技术模块,用于计算所述设置项与各所述字典项的相似度,获取与所述设置项相似度高于预设阈值的相似字典项;
输出显示模块,用于输出所述相似字典项对应的设置界面,以供所述用户从所述相似字典项中选择目标字典项进行字典项设置。
8.一种基于语音识别的字典项设置设备,其特征在于,所述基于语音识别的字典项设置设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于语音识别的字典项设置方法的步骤。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于语音识别的字典项设置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910046746.9A CN109920408B (zh) | 2019-01-17 | 2019-01-17 | 基于语音识别的字典项设置方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910046746.9A CN109920408B (zh) | 2019-01-17 | 2019-01-17 | 基于语音识别的字典项设置方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109920408A CN109920408A (zh) | 2019-06-21 |
CN109920408B true CN109920408B (zh) | 2024-05-28 |
Family
ID=66960378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910046746.9A Active CN109920408B (zh) | 2019-01-17 | 2019-01-17 | 基于语音识别的字典项设置方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109920408B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527970B (zh) * | 2020-12-24 | 2022-11-15 | 上海浦东发展银行股份有限公司 | 数据字典标准化处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251872A (zh) * | 2016-08-09 | 2016-12-21 | 北京千安哲信息技术有限公司 | 一种病例录入方法及系统 |
CN106683673A (zh) * | 2016-12-30 | 2017-05-17 | 智车优行科技(北京)有限公司 | 驾驶模式的调整方法、装置和系统、车辆 |
CN107193391A (zh) * | 2017-04-25 | 2017-09-22 | 北京百度网讯科技有限公司 | 一种上屏显示文本信息的方法和装置 |
CN107591155A (zh) * | 2017-08-29 | 2018-01-16 | 珠海市魅族科技有限公司 | 语音识别方法及装置、终端及计算机可读存储介质 |
CN107785021A (zh) * | 2017-08-02 | 2018-03-09 | 上海壹账通金融科技有限公司 | 语音输入方法、装置、计算机设备和介质 |
-
2019
- 2019-01-17 CN CN201910046746.9A patent/CN109920408B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251872A (zh) * | 2016-08-09 | 2016-12-21 | 北京千安哲信息技术有限公司 | 一种病例录入方法及系统 |
CN106683673A (zh) * | 2016-12-30 | 2017-05-17 | 智车优行科技(北京)有限公司 | 驾驶模式的调整方法、装置和系统、车辆 |
CN107193391A (zh) * | 2017-04-25 | 2017-09-22 | 北京百度网讯科技有限公司 | 一种上屏显示文本信息的方法和装置 |
CN107785021A (zh) * | 2017-08-02 | 2018-03-09 | 上海壹账通金融科技有限公司 | 语音输入方法、装置、计算机设备和介质 |
CN107591155A (zh) * | 2017-08-29 | 2018-01-16 | 珠海市魅族科技有限公司 | 语音识别方法及装置、终端及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109920408A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389971B (zh) | 基于语音识别的保险录音质检方法、装置、设备和介质 | |
US11030998B2 (en) | Acoustic model training method, speech recognition method, apparatus, device and medium | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US20170164049A1 (en) | Recommending method and device thereof | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
US9966077B2 (en) | Speech recognition device and method | |
CN109192213A (zh) | 庭审语音实时转写方法、装置、计算机设备及存储介质 | |
CN110019741B (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
CN109961786B (zh) | 基于语音分析的产品推荐方法、装置、设备和存储介质 | |
CN109920415A (zh) | 基于语音识别的人机问答方法、装置、设备和存储介质 | |
CN103956169A (zh) | 一种语音输入方法、装置和系统 | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
JPWO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN110910903A (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111159987A (zh) | 数据图表绘制方法、装置、设备和计算机可读存储介质 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN108322770B (zh) | 视频节目识别方法、相关装置、设备和系统 | |
US8407047B2 (en) | Guidance information display device, guidance information display method and recording medium | |
US11948567B2 (en) | Electronic device and control method therefor | |
CN109920408B (zh) | 基于语音识别的字典项设置方法、装置、设备和存储介质 | |
JP5844375B2 (ja) | 物体検索システムおよび物体検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |