CN109256116A - 通过语音识别键盘功能的方法、系统、设备及存储介质 - Google Patents
通过语音识别键盘功能的方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN109256116A CN109256116A CN201811132293.3A CN201811132293A CN109256116A CN 109256116 A CN109256116 A CN 109256116A CN 201811132293 A CN201811132293 A CN 201811132293A CN 109256116 A CN109256116 A CN 109256116A
- Authority
- CN
- China
- Prior art keywords
- instruction
- languages
- voice
- key
- operational order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 53
- 230000003993 interaction Effects 0.000 claims description 14
- 238000012790 confirmation Methods 0.000 claims description 11
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003825 pressing Methods 0.000 abstract description 5
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 12
- 150000001875 compounds Chemical class 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种通过语音识别键盘功能的方法、系统、设备及存储介质,其方法包括:接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;将同一语种的训练语音所对应的所有可操作指令归集生成指令列表;将各语种对应的指令列表归集生成语音库。接收语音指令,调用语音库中对应语种的指令列表对语音指令进行解析;生成对应的执行指令并完成指定功能。本发明将接收的语音指令通过对应语种的指令列表进行解析生成对应的执行指令并完成指定功能,从而实现用语音指令触发按键以替代传统的触摸或按压触发按键的作用;此外,使用者可采用个性化的训练语音生成对应的可操作指令,从而确保语音指令解析的准确性,即确保语音识别的准确性。
Description
技术领域
本发明涉及电子设备技术领域,尤其涉及一种通过语音识别键盘功能的方法、系统、设备及存储介质。
背景技术
随着科技日益发展,各电子产品层出不穷,现有技术在电脑、手机、电视、投影仪等电子产品上输入信息主要通过两种方式完成,一种是通过标准键盘和鼠标来完成,另一种是通过语音方式完成。标准键盘使用需要一定熟练基础,产品体积一般较大且需要放置在工作台面上才能进行操作。另有一种虚拟键盘安装在电脑、手机等产品系统上,通过鼠标或手指点击完成。由于手写屏尺寸有限,按键的尺寸无法做到足够大,因此,用户在点击使用时容易出现误操作的情况,也会导致点击的速度慢。
现有的语音输入实现的技术方法,采用的是将语音采样转换成数字信号后上传至云端服务器,通过神经网络算法的方法识别语音信息,从而实现信息的输入。但是,这种方法存在一定的缺陷,语音信息识别,采用字词联想方式完成,单个字或同音字无法识别准确,识别率无法做到100%准确。
鉴于以上弊端,实有必要提供一种通过通过语音识别键盘功能的方法、系统、设备及存储介质。
发明内容
本发明的目的在于提供一种通过通过语音识别键盘功能的方法、系统、设备及存储介质以解决背景技术中至少一处不足。
为了实现上述目的,本发明提出一种通过语音识别键盘功能的方法,包括如下步骤:
接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;
将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
将各语种对应的指令列表归集生成语音库。
接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
生成对应的执行指令并完成指定功能。
在一个优选实施方式中,在所述接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令的步骤,包括如下步骤:
接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;
根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;
判断使用者对所述询问指令的反馈是否为确认;
若是,则保留所述可操作指令;若否,则删除所述可操作指令。
在一个优选实施方式中,所述接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析的步骤,包括如下步骤:
判断所述语音指令的语种是否为所述语音库中现有的语种;
若是,调用对应语种的指令列表对所述语音指令进行解析。
在一个优选实施方式中,所述判断所述语音指令的语种是否为所述语音库中现有的语种的步骤之后,还包括如下步骤:
若否,则调用默认语种的指令列表对所述语音指令进行解析。
在一个优选实施方式中,所述生成对应的执行指令的步骤,包括如下步骤:
生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;
接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令。
在一个优选实施方式中,所述同一语种的指令列表包括若干可操作指令,且每个所述可操作指令与所属键盘的按键一一对应。
在一个优选实施方式中,所述键盘的按键包括英文字母按键、拼音按键、数字按键及功能按键。
为了实现上述目的,本发明提出一种通过语音识别键盘功能的系统,包括:
训练语音接收模块,用于接收按键选择指令及对应的训练语音并生成对应的可操作指令;
指令列表生成模块,用于将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
语音库生成模块,用于将各语种对应的指令列表归集生成语音库;
语音指令接收模块,用于接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
触发执行模块,用于生成对应的执行指令并完成指定功能。
为了实现上述目的,本发明提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,上述处理器执行上述程序时实现如上述实施例中任意一项上述的方法。
为了实现上述目的,本发明提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中任意一项上述的方法。
与现有技术相比,本发明的通过语音识别键盘功能的方法、系统、设备及存储介质的有益效果在于:语音库包括若干语种的指令列表,同一语种的指令列表包括与键盘的按键一一对应的可操作指令,将接收的语音指令通过对应语种的指令列表进行解析生成对应的执行指令并完成指定功能,从而实现用语音指令触发按键以替代传统的触摸或按压触发按键的作用;此外,使用者可采用个性化的训练语音生成对应的可操作指令,从而确保语音指令解析的准确性,即确保语音识别的准确性。
附图说明
图1为本发明一实施例的通过语音识别键盘功能的方法的流程示意图;
图2为本发明一实施例的通过语音识别键盘功能的方法的流程示意图;
图3为本发明一实施例生成可操作指令的实现方案;
图4为本发明一实施例的通过语音识别键盘功能的方法的流程示意图;
图5为本发明一实施例与输入法结合使用的其中一种实现方式;
图6为本发明一实施例与输入法结合使用的另一种实现方式;
图7为本发明一实施例的通过语音识别键盘功能的系统的模块示意图;
图8为本发明一实施例的通过语音识别键盘功能的系统的模块示意图;
图9为本发明一实施例的通过语音识别键盘功能的系统的模块示意图;
图10为本发明一实施例的一种计算机设备的结构示意图。
100、训练语音接收模块;101、训练语音解析单元;102、可操作指令生成单元;103、反馈判断单元;104、可操作指令保存单元;200、指令列表生成模块;300、语音库生成模块;400、语音指令接收模块;500、触发执行模块;501、反馈选择单元;502、执行指令生成单元;12、计算机设备;14、外部设备;16、处理单元;18、总线;20、网络适配器;22、(I/O)接口;24、显示器;28、系统存储器;30、随机存取存储器(RAM);32、高速缓存存储器;34、存储系统;40、程序/实用工具;42、程序模块。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
另外,在本发明中涉及“第一”“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参照图1,本发明提供一种通过语音识别键盘功能的方法,包括如下步骤:
S01、接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;
S02、将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
S03、将各语种对应的指令列表归集生成语音库;
S04、接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
S05、生成对应的执行指令并完成指定功能。
如所述步骤S01,接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;所述键盘的按键包括英文字母按键、拼音按键、数字按键及功能按键。所述训练语音默认为标准的中英文语音,具体的,所述键盘的英文字母按键的每个按键对应一个英文语音,即字母的发音;所述键盘的拼音按键、数字按键及功能按键的每个按键对应一个中文语音,例如,拼音按键包括声母按键、韵母按键和整体认读音节按键,每个声母按键对应声母的发音,每个韵母按键对应韵母的发音,每个整体认读音节的按键对应整体认读音节的发音。需要说明的是,若使用者发音不标准,可以设置个性化的训练语音,个性化的训练语音和对应的按键选择指令生成对应的可操作指令,即个性化的可操作指令。
如所述步骤S02,将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;所述同一语种的指令列表包括若干可操作指令,且每个所述可操作指令与所属键盘的按键一一对应。所述语种包括标准的中英文和个性化的语音。所述个性化的语音包括个人专属的语音以及其他国家的语音或地区的方言。需要说明的是,若所述训练语音为个性化的训练语音,且个性化的训练语音只和键盘的部分按键对应生成个性化的可操作指令,那么,键盘剩余的另一部分按键则引用默认的中英文语音对应的可操作指令作为当前个性化训练语音对应的可操作指令,将上述的两类同一个性化训练语音对应的可操作指令归集生成指令列表,即为该个性化训练语音的指令列表。此外,还包括对同一语种的指令列表进行命名,以方便使用者对指定的语种的指令表进行修改和使用。
如所述步骤S03,将各语种对应的指令列表归集生成语音库;所述语音库至少包括标准的中英文语音的指令列表。一般的,所述语音库包括标准的中英文语音的指令列表和个性化语音的指令列表。
如所述步骤S04,接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;所述接收语音指令的步骤包括将接收的语音进行降噪处理,以提高有用信号的清晰度。对语音进行降噪处理的方法可以参照专利申请号为:CN201310027559.9的专利文献。
所述接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析的步骤,包括如下步骤:
判断所述语音指令的语种是否为所述语音库中现有的语种;
若是,调用对应语种的指令列表对所述语音指令进行解析;
若否,则调用默认语种的指令列表对所述语音指令进行解析。
所述调用对应语种的指令列表对所述语音指令进行解析的步骤,包括将所述语音指令与对应语种的生成可操作指令集的每个训练语音进行对比匹配;当所述语音指令与对应的任一训练语音相匹配时,该训练语音对应的可操作指令即为所述语音指令对应的指令,因此,可触发对应的键盘按键,相当于在键盘输入模式下,点击对应的按键,即输出标准数据键盘码。所述调用默认语种的指令列表对所述语音指令进行解析的步骤同理,此处不再赘述。
如所述步骤S05,生成对应的执行指令并完成指定功能;在实际应用中,键盘的一个按键被触发可能对应两个及以上的功能,每一个功能由对应的执行指令控制实现,从而确保通过语音实现键盘功能的准确性。
请参照图2,所述通过语音识别键盘功能的方法中,所述接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令的步骤,包括如下步骤:
S11、接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;
S12、根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;
S13、判断使用者对所述询问指令的反馈是否为确认;
S14、若是,则保留所述可操作指令;若否,则删除所述可操作指令。
如所述步骤S11,接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;当按键被选中且持续时间大于或等于T时,接收的训练语音为有效语音,避免在使用或者设置阶段因误触按键而接收不需要的训练语音。一般情况下,T的时间长度为2s,即当按键被选中的时间持续达到2s时,开始接收训练语音。所述训练语音包括至少一个,一般为多个,以便提高使用时的识别能力。所述语音特征包括音调、清浊辅音、平翘舌等特征。此外,在接收训练语音的步骤中包括将接收的训练语音进行降噪处理,以提高有用信号的清晰度。对训练语音进行降噪处理的方法可以参照专利专利号为:CN201310027559.9的专利文献。
如所述步骤S12,根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;所述训练语音用于调用对应的可操作指令,所述可操作指令用于触发对应的按键,因此,使用者可以根据自己的发音情况设定个性化的训练语音,在使用时,可以使用个性化的语音指令调用对应的可操作指令以触发对应的按键。为了避免使用者在生成个性化的可操作指令的过程中误选按键或发错音,在生成可操作指令的同时还生成询问指令,以供使用者进行确认。
如所述步骤S13,判断使用者对所述询问指令的反馈是否为确认;及所述步骤S14,若是,则保留所述可操作指令;若否,则删除所述可操作指令。通过使用者对所述询问指令的反馈,确保生成的可操作指令的准确性。
请参照图3,以字母“C”的按键为例实施所述生成对应的可操作指令的步骤。首先,选中字母“C”的按键持续2s及以上,然后,使用者向话筒等声音输入装置发出字母“C”的按键的训练语音,例如,发“洗”的音;接着,通过屏幕等人机交互界面显示“确认”和“放弃”的选项,最后,使用者选择“确认”即保存所述字母“C”的按键和训练语音“洗”生成的可操作指令。若使用者选择“放弃”即删除所述字母“C”的按键和训练语音“洗”生成的可操作指令,相当于没有生成对应的可操作指令,则无法使用。当使用者选择“确认”后便可生成对应的可操作指令,使用时,当使用者发“洗”的音即可调用字母“C”的按键对应的可操作指令,即触发字母“C”的按键。因此,通过个性化的训练语音和对应的按键生成对应的可操作指令,建立个性化的指令列表,从而提高语音信号识别的准确性,对提高发音不标准的人群的语音识别的准确性更为显著。
请参照图4,所述通过语音识别键盘功能的方法中,所述接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析的步骤,包括如下步骤:
S51、生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;
S52、接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令。
如所述步骤S51,生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;在实际应用中,触发键盘的一个按键可能对应两个及以上的功能,所述反馈选择指令中包含对应按键的所有功能;通过人机交互信号的形式反馈至使用者,以便使用者根据实际需求进行选择。
如所述步骤S52,接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令。通过和其他软件程序的配合实现指定的功能,具体的,当本发明提供的通过语音识别键盘功能的方法与输入法结合使用时,以实现文本“中”的输入为例,常用以下两种方式:
方式一:通过键盘的拼音按键和数字按键实现,如图5所示,发出声母“zh”的按键对应的语音指令,显示屏即出现“1.在2.这3.找4.着5.做6.之”;再接着,发出韵母“ong”的按键对应的语音指令,显示屏即出现“1.钟2.众3.种4.重5.中6.终”;最后,发出“5”的按键对应的语音指令即选中“中”输出到文本中,语音识别的准确率可以达到100%。
方式二:通过键盘的英文字母按键和数字按键实现,如图6所示,发出字母“Z”的按键对应的语音指令,显示屏即出现“1.在2.这3.找4.着5.做6.之”;再接着,发出字母“H”的按键对应的语音指令,显示屏即出现“1.钟2.中3.种4.重5.众6.终”;最后,发出“2”的按键对应的语音指令即选中“中”输出到文本中,语音识别的准确率可以达到100%。
请参照图7,本发明提供一种通过语音识别键盘功能的系统,包括
训练语音接收模块100,用于接收按键选择指令及对应的训练语音并生成对应的可操作指令;
指令列表生成模块200,用于将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
语音库生成模块300,用于将各语种对应的指令列表归集生成语音库;
语音指令接收模块400,用于接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
触发执行模块500,用于生成对应的执行指令并完成指定功能。
所述训练语音接收模块100,用于接收按键选择指令及对应的训练语音并生成对应的可操作指令;所述键盘的按键包括英文字母按键、拼音按键、数字按键及功能按键。所述训练语音默认为标准的中英文语音,具体的,所述键盘的英文字母按键的每个按键对应一个英文语音,即字母的发音;所述键盘的拼音按键、数字按键及功能按键的每个按键对应一个中文语音,例如,拼音按键包括声母按键、韵母按键和整体认读音节按键,每个声母按键对应声母的发音,每个韵母按键对应韵母的发音,每个整体认读音节的按键对应整体认读音节的发音。需要说明的是,若使用者发音不标准,可以设置个性化的训练语音,个性化的训练语音和对应的按键选择指令生成对应的可操作指令,即个性化的可操作指令。
所述指令列表生成模块200,用于将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;所述同一语种的指令列表包括若干可操作指令,且每个所述可操作指令与所属键盘的按键一一对应。所述语种包括标准的中英文和个性化的语音。所述个性化的语音包括个人专属的语音以及其他国家的语音或地区的方言。需要说明的是,若所述训练语音为个性化的训练语音,且个性化的训练语音只和键盘的部分按键对应生成个性化的可操作指令,那么,键盘剩余的另一部分按键则引用默认的中英文语音对应的可操作指令作为当前个性化训练语音对应的可操作指令,将上述的两类同一个性化训练语音对应的可操作指令归集生成指令列表,即为该个性化训练语音的指令列表。此外,还包括对同一语种的指令列表进行命名,以方便使用者对指定的语种的指令表进行修改和使用。
所述语音库生成模块300,用于将各语种对应的指令列表归集生成语音库;所述语音库至少包括标准的中英文语音的指令列表。一般的,所述语音库包括标准的中英文语音的指令列表和个性化语音的指令列表。
所述语音指令接收模块400,用于接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;所述语音指令接收模块100将所述语音指令与对应语种的生成可操作指令集的每个训练语音进行对比匹配;当所述语音指令与对应的任一训练语音相匹配时,该训练语音对应的可操作指令即为所述语音指令对应的指令,因此,可触发对应的键盘按键,相当于在键盘输入模式下,点击对应的按键,即输出标准数据键盘码。此外,所述语音指令接收模块400包括降噪处理单元,所述降噪处理单元用于提高有用信号的清晰度。
所述触发执行模块500,用于生成对应的执行指令并完成指定功能。在实际应用中,键盘的一个按键被触发可能对应两个及以上的功能,每一个功能由对应的执行指令控制实现,从而确保通过语音实现键盘功能的准确性。
请参照图8,所述通过语音识别键盘功能的系统中,所述训练语音接收模块100,包括:
训练语音解析单元101,用于接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;
可操作指令生成单元102,用于根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;
反馈判断单元103,用于判断使用者对所述询问指令的反馈是否为确认;
可操作指令保存单元104,用于当所述反馈判断模块103获取的结果为确认时,保存所述可操作指令。反之,若否,当所述反馈判断模块103获取的结果为放弃时,删除所述可操作指令。
所述训练语音解析单元101,用于接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;当按键被选中且持续时间大于或等于T时,接收的训练语音为有效语音,避免在使用或者设置阶段因误触按键而接收不需要的训练语音。一般情况下,T的时间长度为2s,即当按键被选中的时间持续达到2s时,开始接收训练语音。所述训练语音包括至少一个,一般为多个,以便提高使用时的识别能力。
所述可操作指令生成单元102,用于根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;所述训练语音用于调用对应的可操作指令,所述可操作指令用于触发对应的按键,因此,使用者可以根据自己的发音情况设定个性化的训练语音,在使用时,可以使用个性化的语音指令调用对应的可操作指令以触发对应的按键。为了避免使用者在生成个性化的可操作指令的过程中误选按键或发错音,在生成可操作指令的同时还生成询问指令,以供使用者进行确认。
所述反馈判断单元103,用于判断使用者对所述询问指令的反馈是否为确认;及所述可操作指令保存单元104,用于当所述反馈判断模块103获取的结果为确认时,保存所述可操作指令。反之,若否,当所述反馈判断模块103获取的结果为放弃时,删除所述可操作指令。通过使用者对所述询问指令的反馈,确保生成的可操作指令的准确性。
请参照图9,所述通过语音识别键盘功能的系统中,所述触发执行模块500,包括:
反馈选择单元501,用于生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;
执行指令生成单元502,用于接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令。
所述反馈选择单元501,用于生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;在实际应用中,触发键盘的一个按键可能对应两个及以上的功能,所述反馈选择指令中包含对应按键的所有功能;通过人机交互信号的形式反馈至使用者,以便使用者根据实际需求进行选择。
所述执行指令生成单元502,用于接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令;所述执行指令用于实现特点的功能。
本发明提供的通过语音识别键盘功能的系统,语音库中默认包括标准的中英文语音的指令列表以方便中英文发音标准的使用者直接使用。对于中英文发音不标准的使用者,可以通过训练语音接收模块100用专属的个性化的语音生成对应的可操作指令,即实现用个性化的语音实现键盘功能,从而提高语音识别的准确率。
参照图10,在本发明实施例中,本发明还提供一种计算机设备,上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD~ROM,DVD~ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图8中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的处理音视频的方法。
也即,上述处理单元16执行上述程序时实现:接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;将各语种对应的指令列表归集生成语音库。接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;生成对应的执行指令并完成指定功能。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的处理音视频的方法:
也即,该程序被处理器执行时实现:接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;将各语种对应的指令列表归集生成语音库。接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;生成对应的执行指令并完成指定功能。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD~ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,改计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明提供的通过语音识别键盘功能的方法、系统、设备及存储介质,语音库包括若干语种的指令列表,同一语种的指令列表包括与键盘的按键一一对应的可操作指令,将接收的语音指令通过对应语种的指令列表进行解析生成对应的执行指令并完成指定功能,从而实现用语音指令触发按键以替代传统的触摸或按压触发按键的作用;此外,使用者可采用个性化的训练语音生成对应的可操作指令,从而确保语音指令解析的准确性,即确保语音识别的准确性。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种通过语音识别键盘功能的方法,其特征在于,包括如下步骤:
接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令;
将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
将各语种对应的指令列表归集生成语音库。
接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
生成对应的执行指令并完成指定功能。
2.如权利要求1所述的通过语音识别键盘功能的方法,其特征在于,在所述接收键盘的按键选择指令及对应的训练语音并生成对应的可操作指令的步骤,包括如下步骤:
接收所述按键选择指令和训练语音,并解析所述训练语音的语音特征;
根据所述训练语音的语音特征生成所述可操作指令及询问指令,并将所述询问指令以人机交互信号的形式反馈至使用者;
判断使用者对所述询问指令的反馈是否为确认;
若是,则保留所述可操作指令;若否,则删除所述可操作指令。
3.如权利要求1所述的通过语音识别键盘功能的方法,其特征在于,所述接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析的步骤,包括如下步骤:
判断所述语音指令的语种是否为所述语音库中现有的语种;
若是,调用对应语种的指令列表对所述语音指令进行解析。
4.如权利要求3所述的通过语音识别键盘功能的方法,其特征在于,所述判断所述语音指令的语种是否为所述语音库中现有的语种的步骤之后,还包括如下步骤:
若否,则调用默认语种的指令列表对所述语音指令进行解析。
5.如权利要求1所述的通过语音识别键盘功能的方法,其特征在于,所述生成对应的执行指令的步骤,包括如下步骤:
生成对应的反馈选择指令,并将所述反馈选择指令以人机交互信号的形式反馈至使用者;
接收所述反馈选择指令的选择结果,根据所述选择结果生成对应的执行指令。
6.如权利要求1所述的通过语音识别键盘功能的方法,其特征在于,所述同一语种的指令列表包括若干可操作指令,且每个所述可操作指令与所属键盘的按键一一对应。
7.如权利要求1所述的通过语音识别键盘功能的方法,其特征在于,所述键盘的按键包括英文字母按键、拼音按键、数字按键及功能按键。
8.一种通过语音识别键盘功能的系统,其特征在于,包括:
训练语音接收模块,用于接收按键选择指令及对应的训练语音并生成对应的可操作指令;
指令列表生成模块,用于将同一语种的训练语音所对应的所有所述可操作指令归集生成指令列表;
语音库生成模块,用于将各语种对应的指令列表归集生成语音库;
语音指令接收模块,用于接收语音指令,调用所述语音库中对应语种的指令列表对所述语音指令进行解析;
触发执行模块,用于生成对应的执行指令并完成指定功能。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132293.3A CN109256116A (zh) | 2018-09-27 | 2018-09-27 | 通过语音识别键盘功能的方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811132293.3A CN109256116A (zh) | 2018-09-27 | 2018-09-27 | 通过语音识别键盘功能的方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109256116A true CN109256116A (zh) | 2019-01-22 |
Family
ID=65047018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811132293.3A Pending CN109256116A (zh) | 2018-09-27 | 2018-09-27 | 通过语音识别键盘功能的方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256116A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105795A (zh) * | 2019-12-16 | 2020-05-05 | 青岛海信智慧家居系统股份有限公司 | 一种智能家居训练离线语音固件的方法及装置 |
CN112102820A (zh) * | 2019-06-18 | 2020-12-18 | 北京京东尚科信息技术有限公司 | 交互方法、交互装置、电子设备和介质 |
CN112420034A (zh) * | 2020-09-14 | 2021-02-26 | 当趣网络科技(杭州)有限公司 | 语音识别的方法、系统、电子装置和存储介质 |
CN112463105A (zh) * | 2020-11-10 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN112992134A (zh) * | 2019-12-16 | 2021-06-18 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于离线语音识别的测量系统输入方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186232A (zh) * | 2011-12-30 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 语音键盘装置 |
CN103294370A (zh) * | 2012-03-05 | 2013-09-11 | 北京千橡网景科技发展有限公司 | 触发按键操作的方法和设备 |
CN104750257A (zh) * | 2013-12-30 | 2015-07-01 | 鸿富锦精密工业(武汉)有限公司 | 键盘组合及语音识别方法 |
CN106896933A (zh) * | 2017-01-19 | 2017-06-27 | 黄玉玲 | 将语音输入转换成文本输入的方法、装置和语音输入设备 |
KR20170135780A (ko) * | 2017-11-20 | 2017-12-08 | 오영범 | 천부인을 제작하는 방법으로 만든 대한인 자판과 전자만물운용체계인 천부인 |
-
2018
- 2018-09-27 CN CN201811132293.3A patent/CN109256116A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186232A (zh) * | 2011-12-30 | 2013-07-03 | 上海博泰悦臻电子设备制造有限公司 | 语音键盘装置 |
CN103294370A (zh) * | 2012-03-05 | 2013-09-11 | 北京千橡网景科技发展有限公司 | 触发按键操作的方法和设备 |
CN104750257A (zh) * | 2013-12-30 | 2015-07-01 | 鸿富锦精密工业(武汉)有限公司 | 键盘组合及语音识别方法 |
CN106896933A (zh) * | 2017-01-19 | 2017-06-27 | 黄玉玲 | 将语音输入转换成文本输入的方法、装置和语音输入设备 |
KR20170135780A (ko) * | 2017-11-20 | 2017-12-08 | 오영범 | 천부인을 제작하는 방법으로 만든 대한인 자판과 전자만물운용체계인 천부인 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102820A (zh) * | 2019-06-18 | 2020-12-18 | 北京京东尚科信息技术有限公司 | 交互方法、交互装置、电子设备和介质 |
CN111105795A (zh) * | 2019-12-16 | 2020-05-05 | 青岛海信智慧家居系统股份有限公司 | 一种智能家居训练离线语音固件的方法及装置 |
CN112992134A (zh) * | 2019-12-16 | 2021-06-18 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于离线语音识别的测量系统输入方法 |
CN111105795B (zh) * | 2019-12-16 | 2022-12-16 | 青岛海信智慧生活科技股份有限公司 | 一种智能家居训练离线语音固件的方法及装置 |
CN112420034A (zh) * | 2020-09-14 | 2021-02-26 | 当趣网络科技(杭州)有限公司 | 语音识别的方法、系统、电子装置和存储介质 |
CN112463105A (zh) * | 2020-11-10 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN109256116A (zh) | 通过语音识别键盘功能的方法、系统、设备及存储介质 | |
AU2015375326B2 (en) | Headless task completion within digital personal assistants | |
KR102222122B1 (ko) | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
US7548859B2 (en) | Method and system for assisting users in interacting with multi-modal dialog systems | |
CN106251869B (zh) | 语音处理方法及装置 | |
JP2021103328A (ja) | 音声変換方法、装置及び電子機器 | |
CN107040452B (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN112040263A (zh) | 视频处理方法、视频播放方法、装置、存储介质和设备 | |
CN104485105A (zh) | 一种电子病历生成方法和电子病历系统 | |
CN108289244A (zh) | 视频字幕处理方法、移动终端及计算机可读存储介质 | |
WO2001045088A1 (en) | Electronic translator for assisting communications | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN107155121B (zh) | 语音控制文本的显示方法及装置 | |
CN110047484A (zh) | 一种语音识别交互方法、系统、设备和存储介质 | |
WO2018079332A1 (ja) | 情報処理装置及び情報処理方法 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN108874266A (zh) | 文本播放方法、客户端、终端和存储介质 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
JP2024516570A (ja) | データ処理方法、装置、コンピュータ機器及びコンピュータプログラム | |
JP2010026686A (ja) | 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |
|
RJ01 | Rejection of invention patent application after publication |