CN109871128A - 一种题型识别方法及装置 - Google Patents
一种题型识别方法及装置 Download PDFInfo
- Publication number
- CN109871128A CN109871128A CN201910186430.XA CN201910186430A CN109871128A CN 109871128 A CN109871128 A CN 109871128A CN 201910186430 A CN201910186430 A CN 201910186430A CN 109871128 A CN109871128 A CN 109871128A
- Authority
- CN
- China
- Prior art keywords
- topic type
- user
- topic
- image
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 6
- 238000004519 manufacturing process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种题型识别方法及装置,其中,题型识别方法包括:采集用户的语音信息;判断语音信息是否是识别触发信息;当判定语音信息为识别触发信息时,获取用户的动作信息;根据用户的动作信息,获取待识别的题型图像;对待识别的题型图像进行图像处理,得到题型图像中的题型文字信息;将题型文字信息输入训练好的题型识别模型,识别输出题型对应的考查意图。通过本发明解决了用户对于不认识字词或无法把握考查的内容时,无法准确用语音来表达或不知如何表达,导致语音产品在解析语义过程中使用受限,无法准确获取题型考查意图的技术问题。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种题型识别方法及装置。
背景技术
随着人工智能的发展,智能设备产品渐渐走进人们的生活,其智能化和便捷性也越来越得到用户的认可。
目前市场上有很多语音设备产品,用户只需通过语音发出指令,该语音设备收到指令后便会按照用户的语音产品来执行命令。然而,人类语言具有多样化表达方式和复杂的结构特性,同样的含义可以有很多种表达,同一种表达在不同环境下还可以有很多含义。尤其针对小孩使用的语音电子产品,比如学习机,小孩在作业过程中使用该语音产品会产生一个弊端,对于不认识字词或无法把握考查的内容时,无法准确用语音来表达或不知如何表达,导致语音产品在解析语义过程中使用受限,无法准确获得题型的考查意图。
发明内容
为解决上述技术问题,本发明提供一种题型识别方法及装置,具体的,技术方案如下:
一方面,本发明公开了一种题型识别方法,包括:
采集用户的语音信息;
判断所述语音信息是否是识别触发信息;
当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
根据所述用户的动作信息,获取待识别的题型图像;
对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
进一步地,在采集用户的语音信息之前还包括:利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。
进一步地,所述利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型包括:
建立题型库,所述题型库中包含各类题型;
提取每一类题型的特征,获取每类题型的关键词和考查意图;
根据各类题型的关键词及考查意图,建立题型意图分类,
利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型。
进一步地,所述根据所述用户的动作信息,获取待识别的题型图像包括:
根据所述用户的动作信息,识别所述用户的手势动作;
判断所述用户的手势动作是否为预设的手势动作;
当判定所述用户的手势动作为预设的手势动作时,根据所述用户的手势动作,获取所述用户指向的待识别题型图像。
进一步地,所述题型识别方法还包括:收集题型训练样本,完成题型识别模型的升级。
另一方面,本发明还公开了一种题型识别装置,包括:语音采集模块,用于采集用户的语音信息;判断处理模块,用于判断所述语音信息是否是识别触发信息;图像获取模块,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;并根据所述用户的动作信息,获取待识别的题型图像;图像处理模块,用于对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;题型识别模块,用于将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
进一步地,所述题型识别装置,还包括:题型训练模块,用于利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。
进一步地,所述题型训练模块包括:存储子模块,用于存储题型库,所述题型库中包含若干用户的各类题型;特征提取子模块,用于提取每一类题型的特征,获取每类题型的关键词和考查意图;意图分类子模块,根据各类题型的关键词及考查意图,建立题型意图分类;训练子模块,用于利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型。
进一步地,所述图像获取模块包括:图像拍摄子模块,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息图像;动作识别子模块,用于根据所述用户的动作信息图像,识别所述用户的手势动作;动作判断子模块,用于判断所述用户的手势动作是否为预设的手势动作信息;所述图像拍摄子模块,还用于当判定所述用户的动作信息为预设的手势动作信息时,根据所述用户的手势动作信息,获取所述用户指向的待识别题型图像。
进一步地,所述题型识别装置还包括:模型升级模块,用于收集题型训练样本,完成题型识别模型的升级。
本发明至少具备以下一项技术效果:
(1)通过本发明解决了用户对于不认识字词或无法把握考查的内容时,无法准确用语音来表达或不知如何表达,导致语音产品在解析语义过程中使用受限,无法准确获取题型考查意图的技术问题。
(2)本发明通过机器学习获得题型识别模型,该题型识别模型是通过移动大量题型训练样本进行训练后获得的,只要输入题型文字信息便可识别输出题型该题型考查意图,智能化程度高。
(3)本发明可在语音触发后再拍摄获取用户的手势动作图像,而不一定需要让摄像头一直处于拍摄状态,如此可大大降低了设备的功耗,节省了电能,同时,由于摄像头可只在语音触发后进行拍摄,那么也不需要很大的内存来进行存储拍摄的图像,大大降低了对设备内存的要求。
(4)本发明在获取到用户的动作信息后,会根据该动作信息识别用户的手势动作,只有在判断用户的手势动作为预设的手势动作时,才会进行后续的题型图像获取及识别操作,如此,通过手势动作识别与判断,可避免用户的误触发及误操作引起的设备识别动作,减少了设备功耗。
(5)本发明的题型识别装置的题型识别模型可在后期进行升级,通过学习新的题型和关键词及考查意图,可让该题型识别模型的识别功能更为强大,满足用户的需求,提高用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种题型识别方法实施例一的流程图;
图2为本发明一种题型识别方法实施例二的流程图;
图3为本发明一种题型识别方法实施例三的流程图;
图4为本发明一种题型识别方法实施例四的流程图;
图5为本发明一种题型识别方法实施例五的流程图;
图6为本发明一种题型识别方法实施例六的流程图;
图7为本发明一种题型识别方法实施例七的流程图;
图8为本发明一种题型识别装置实施例八的框图;
图9为本发明一种题型识别装置实施例九的框图;
图10为本发明一种题型识别装置实施例十的框图。
附图标记:
10--语音采集模块;20--判断处理模块;30--图像获取模块;31--图像拍摄子模块;32--动作识别子模块;33--动作判断子模块;40--图像处理模块;50--题型识别模块;60--题型训练模块;61--存储子模块;62--特征提取子模块;63--意图分类子模块;64--训练子模块;70--模型升级模块。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
本发明公开了一种题型识别方法,实施例一如图1所示,包括:
S101集用户的语音信息;
S102判断所述语音信息是否是识别触发信息;
S103当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S104根据所述用户的动作信息,获取待识别的题型图像;
S105对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S106将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
本方案基于机器学习获取题型识别模型,再通过该题型识别模型来识别题型的考查意图。具体的,用户在使用时,会采集用户的语音信息,判断该语音信息是否是识别触发信息。如果该语音信息是识别触发信息的话,那么就会触发进一步获取用户的动作信息及待识别的题型图像。然后对题型图像进行图像处理,识别出待识别题型的文字信息,然后将该文字信息输入到训练好的题型识别模型,从而输出获得该题型的考查意图。通过本实施例的方法,解决了用户对于不认识字词或无法把握考查的内容时,无法准确用语音来表达或不知如何表达,导致语音产品在解析语义过程中使用受限,无法准确获得题型考查意图的技术问题。
上述实施例中,对于识别触发信息的判断,可以采用不同的技术方案,具体的:
(1)预设识别触发信息。也就是说提前在智能语音设备中预设了一个用于触发的识别触发信息。当用户在使用过程中,采集到用户的语音信息,然后将该用户的语音信息与预设的识别触发信息进行比对,如果二者一致,那么就触发获取用户的动作信息,进而获取用户指向的待识别题型图像信息。具体的,比如预设的识别触发信息为“小天才,求助!”,那么,只要采集到用户说了“小天才,求助”这一语音后,便会触发获取用户的动作信息及对应的待识别题型图像信息,根据题型图像信息获取题型文字信息,然后利用题型识别模型来进行识别,得到待识别题型的考查意图。
预设识别触发信息,一般的,厂家在生产时便可进行预设,固定触发题型识别的识别触发信息。另一方案是用户也可在后面使用阶段根据用户个人喜好进行更改,用户自行设置或更改预设的识别触发信息,满足产品的灵活性和多样性。特别的,对于低年级孩子而言,可以设置他们喜欢的语音作为触发语音,这样不会忘记,也让该智能语音设备更为人性化。
(2)与方案(1)不同的是,不提前预设用于触发的识别触发信息,而是在采集到用户的语音信息后,进行语音分析处理,获取该语音信息的语义,然后根据获取的语义来确定是否触发获取用户的动作信息及题型图像。相对于方案(1),该方案更为智能,也更符合孩子们的特性。尤其对于低龄孩子,对于同一意思的表达,他们有自己的方式,并不固定于单一的某一种语音信息。比如,用户在使用过程中,需要使用该智能语音设备来识别题型考查意图,用户可以说:“我不知道这道题”;或者说“请求帮助”;或者说“这是什么意思”等等。只要识别到用户不理解,需要帮助的语义后,便可智能触发后续方案来智能识别题型,给予用户帮助。
当然,也可以采用其它不同方案来实现语音触发,本发明不局限于上述两种方案。
此外,对于用户动作信息及题型图像信息的获取,是通过智能语音设备上的摄像头来获取的,而对于具体的获取方式,也可以采用以下不同方案:
(1)智能语音设备上的摄像头在使用阶段一直开启,用于拍摄用户及用户学习区域。而在判断出采集的用户语音信息是触发识别信息后,再截取当前时间拍摄的包含用户动作信息及学习区域的图像,根据用户动作信息图像中的手势动作,提取获得用户指向的学习区域中的具体题型图像。最后对该题型图像进行处理及识别,获得题型文字信息,再利用训练好的题型识别模型来进行识别,获得题型考查意图。此方案的智能语音语音设备的摄像头在使用阶段一直处于开启状态,也就是一直在拍摄用户及学习区域视频,而在语音触发后,再根据触发时间点去截取动作信息图像,进而获得待识别的题型图像,便于后续处理。
(2)该方案中,智能语音设备的摄像头不是一直处于开启工作状态,在语音触发之前可处于休眠状态,而在语音触发之后,则再进行图像拍摄,获得用户及学习区域的图像。具体的,获得包含用户动作信息的图像后,根据用户的手势动作,进一步获得用户指向的具体题型图像,然后再对该题型图像进行图像处理,获得题型对应的文字信息,便于后续题型识别模型的识别输出。该方案相对于前面所说的摄像头一直处于开启阶段,更为节能。由于只有在语音触发之后才开启拍摄,而在未触发之前均处于休眠状态,且在拍摄获得有用的动作及题型图像后续便关闭,摄像头恢复休眠状态,等待下一次的语音开启。由于摄像头一直处于拍摄阶段会大大增加功耗,且一直处于拍摄阶段的话,则要求该智能语音设备有较大的内存用于存储拍摄的视频。而本方案由于只在语音触发时进行了拍摄工作,因而大大节省了设备功耗,且降低了对设备内存的要求。
用户通过本发明的题型识别方法来进行题型识别,方便便捷。具体的,比如,某语音设备内设置了该题型识别装置,用户在做作业时,该语音设备可通过支架放置在作业桌上,语音设备的前置摄像头便可拍摄到用户及桌上(学习区域)的情况。比如用户在作业过程中有一道题目为:请填写以下词语的近义词,查询--();然后如果用户不知道怎么读“查询”二字,那么就可以先通过语音触发该语音设备,比如说:“我不知道怎么做”,然后用手指指向寻求帮助的这道题,语音设备采集到用户这一语音后,会解析获得该语音的语义,知道用户此时出现了难题,需要帮助。通过语音触发后,该语音设备便会通过摄像头获取拍摄的用户手指指向题目的图像,获得具体指向题目的图像。然后再对该题目图像进行图像处理,获得对应的文字信息。最后将该文字信息输入到题型识别模型中,语音设备通过题型识别模型便会输出:本题为填空题,考查近义词,查询的近义词为查找。当然,学习机的输出可以通过语音播放作为输出,也可以通过语音设备的屏幕显示来输出,顺便可以输出查询及查找二者的拼音及含义等,并进行举例说明。
实施例二
在上述实施例的基础上,在用户使用智能语音设备进行题型识别之前,还需要通过机器学习,获得题型识别模型。而机器学习则可以利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。具体的,如图2所示,包括:
S201利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型;
S202集用户的语音信息;
S203判断所述语音信息是否是识别触发信息;
S204当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S205根据所述用户的动作信息,获取待识别的题型图像;
S206对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S207将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
上述实施例中,需要先收集大量用于题型识别训练的样本,也就是说需要大量收集各类题型的题目,分析各类题型题目的特征及考查意图,然后再将其纳入题型训练样本集,用这些训练样本来对初始的题型识别模型进行训练,最后获得训练好的题型识别模型,而将训练好的识别模型植入智能语音设备后,该智能语音设备便具备了题型识别功能。
实施例三
本发明方法的另一实施例,在上述方法实施例的基础上,对于步骤S201利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型进行了细化。具体的,如图3所示,本实施例的题型识别方法包括:
S301建立题型库,所述题型库中包含各类题型;
S302提取每一类题型的特征,获取每类题型的关键词和考查意图;
S303根据各类题型的关键词及考查意图,建立题型意图分类,
S304利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型;
S305集用户的语音信息;
S306判断所述语音信息是否是识别触发信息;
S307当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S308根据所述用户的动作信息,获取待识别的题型图像;
S309对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S310将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
本实施例中,对于如何获得题型识别模型进行了细化,具体的,先建立题型库,里面包含了各种各样的题型,然后提取每一类题型的特征,获取每类题型的关键词和考查意图。每一类题型里面有很多题目,当然,关键词也不会只有一个,考查意图也可能不尽相同。比如,有的是考近义词,有的是考查反义词等。收集到各类题型的题目,及对应的关键词及考查意图后,便可建立题型意图分类,然后用于题型识别模型的训练。初始题型识别模型通过大量学习训练后便可具备题型识别功能,用于题型识别。
实施例四
本实施例在上述任一实施例的基础上,对于所述根据所述用户的动作信息,获取待识别的题型图像进行了展开,具体阐述了如何获得待识别题型图像,从而进行后续的题型是不是。具体的的,如图所示4所示,包括:
S401集用户的语音信息;
S402判断所述语音信息是否是识别触发信息;
S403当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S404根据所述用户的动作信息,识别所述用户的手势动作;
S405判断所述用户的手势动作是否为预设的手势动作;
S406当判定所述用户的手势动作为预设的手势动作时,根据所述用户的手势动作,获取所述用户指向的待识别题型图像。
S407对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S408将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
本实施例中,语音触发后,便会获取到用户的动作信息,这里获取用户的动作信息可以有多种方式,比如语音触发摄像头来拍摄图像,拍到用户的动作图像,再根据用户的手势动作指向来获取到对应的待识别题型图像,进而进行图像识别,获取题型的文字信息,最后将这些文字信息输入到训练好的题型识别模型中,输出得到该题型对应的考查意图。这里的摄像头可以平时处于休眠状态,只有语音触发后才进行拍摄,获取到题型图像后再回复到休眠状态。当然,摄像头也可以随着智能语音设备的开启一直处于工作状态,也就是说用户在使用该智能语音设备时,智能语音设备上的前置摄像头便开启拍摄用户及用户学习区域的视频并进行保存,当用户进行语音触发后,再根据触发的时间点去视频中截取该时间点对应的视频图像,从而获得想要获取的用户手势动作图像及手势动作指向的学习区域的具体题目图像。
此外,本实施例中,获取到用户的动作信息,也就是包含用户手势动作的图像后,对图像进行图像识别,识别出用户的手势动作,然后判断该手势动作是否是预设的手势动作,具体的,比如预设的手势动作是用手指向学习区域,那么在语音触发后只要获取到用户用手指向学习区域的图像,便可根据该手势动作进一步获取到指向的具体题目的图像,然后对该具体题目图像进行图像处理,识别出图像中的题目的文字信息,最后将获取的文字信息输入到训练好的题型识别模型,从而获得题型识别结果,输出该题型的考查意图。
实施例五
本实施例在上述任一实施例的基础上,增加了题型识别模型升级的步骤,随着时间的推移,不断有新的题型,新的题目出现,考查意图也会随之有所变化,而如果还是用老的题型识别模型的话,则用户在使用过程中则可能出现无法识别或者识别不够准确的情况。因此,为了更好的服务用户,也为了更好的完善产品的性能,题型识别模型需要进行升级,让其识别功能越来越强大,从而可以与时俱进,识别出新的题型及其考查意图。具体的,本发明方法的实施例五如图5所示,包括:
S501集用户的语音信息;
S502判断所述语音信息是否是识别触发信息;
S503当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S504根据所述用户的动作信息,获取待识别的题型图像;
S505对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S506将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图;
S507收集题型训练样本,完成题型识别模型的升级。
本实施例中,通过对题型识别模型升级可以大大增强智能语音设备的识别功能,当然,该题型识别模型的升级一般是通过厂家在后台来进行升级推送。定期维护及对题型识别模型进行升级,不仅可以增强产品性能,还可以大大提高用户体验。
实施例六
本实施例中,先通过机器学习,训练题型识别模型,然后再在用户使用该智能语音设备的时,采集用户需要识别的题型,最后通过该题型识别模型来进行识别,输出题型考查意图。具体的,题型识别模型的训练阶段,收集用户作业过程中的各种题型,通过分析题型的特征,获取每个题目的关键词和考查意图,建立题型意图分类,并进行训练生成模型。智能语音产品使用阶段,通过启动语音设备中的摄像头,收集用户在学习过程中的手指点击或眼睛看的动作及产生的时间点,对各个时间点所对应的图像进行采集保存;而当用户在学习中通过语音触发语音产品时,通过语音触发的时间点查看此时产生的图像信息,通过图像的文字识别和模型分析,输出停留的题型所对应的意图,给出结果。具体的,如图6所示,包括:
S601收集用户作业过程中的各种题型,通过分析题型的特征,获取每个题目的关键词和考查意图,建立题型意图分类,并进行训练生成题型识别模型;
S602启动语音设备中的摄像头,收集用户在学习过程中的手指点击或眼睛看的动作及产生的时间点,对各个时间点所对应的图像并进行采集保存;
S603当用户在学习中通过语音触发该语音设备时,通过语音触发的时间点查看此时产生的图像信息;
S604对图像信息进行处理,获取用户手指点击的学习区域的待识别题型的文字信息;
S605将获取的待识别题型的文字信息输入到题型识别模型,输出该待识别题型所对应的考查意图,给出结果。
实施例七
本实施例提供了一个较为优化的题型识别方法实施例,具体的,如图7所示,主要包括三个阶段:机器学习阶段:步骤S701--S704;题型识别运用阶段:步骤S705--S712;模型升级阶段:步骤S713。前期的机器学习阶段及后期的模型升级阶段都是为了更好的服务于题型识别。这三个阶段具体步骤如下:
S701建立题型库,所述题型库中包含各类题型;
S702提取每一类题型的特征,获取每类题型的关键词和考查意图;
S703根据各类题型的关键词及考查意图,建立题型意图分类,
S704利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型;
S705集用户的语音信息;
S706判断所述语音信息是否是识别触发信息;
S707当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
S708根据所述用户的动作信息,识别所述用户的手势动作;
S709判断所述用户的手势动作是否为预设的手势动作;
S710当判定所述用户的手势动作为预设的手势动作时,根据所述用户的手势动作,获取所述用户指向的待识别题型图像。
S711对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
S712将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图;
S713收集题型训练样本,完成题型识别模型的升级。
实施例八
基于相同的技术构思,本发明还公开了一种题型识别装置,该题型识别装置可采用本发明实施例的题型识别方法来进行题型识别,具体的,如图8所示,包括:语音采集模块10,用于采集用户的语音信息;判断处理模块20,用于判断所述语音信息是否是识别触发信息;图像获取模块30,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;并根据所述用户的动作信息,获取待识别的题型图像;图像处理模块40,用于对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;题型识别模块50,用于将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
本实施例通过题型识别模块50中训练好的题型识别模型来识别题型的考查意图。具体的,比如用户在使用智能语音设备时,会通过该智能语音设备中的题型识别装置中的语音采集模块10来采集用户的语音信息,然后再通过判断处理模块20来判断该语音信息是否是识别触发信息。如果该语音信息是识别触发信息的话,那么就会触发图像获取模块30进一步获取用户的动作信息及待识别的题型图像。然后通过图像处理模块40对题型图像进行图像处理,识别出待识别题型的文字信息,然后题型识别模块50将该文字信息输入到训练好的题型识别模型,从而输出获得该题型的考查意图。通过本实施例的方法,解决了用户对于不认识字词或无法把握考查的内容时,无法准确用语音来表达或不知如何表达考查重点,导致语音产品在解析语义过程中使用受限的技术问题。
关于本实施例中的题型识别装置的判断处理模块判断用户的语音信息是否是识别触发信息可以采用不同的技术方案。比如,可以预设识别触发信息。也就是说提前在智能语音设备中预设了一个用于触发的识别触发信息。当用户在使用过程中,采集到用户的语音信息,然后将该用户的语音信息与预设的识别触发信息进行比对,如果二者一致,那么就触发获取用户的动作信息,进而获取用户指向的待识别题型图像信息。具体的,比如预设的识别触发信息为“help!”,那么,只要采集到用户说了“help”这一语音后,便会触发获取用户的动作信息及对应的待识别题型图像信息,根据题型图像信息获取题型文字信息,然后利用题型识别模型来进行识别,得到待识别题型的考查意图。预设识别触发信息,一般的,厂家在生产时便可进行预设,固定触发题型识别的识别触发信息。另一方案是用户也可在后面使用阶段根据用户个人喜好进行更改,用户自行设置或更改预设的识别触发信息,满足产品的灵活性和多样性。特别的,对于低年级孩子而言,可以设置他们喜欢的语音作为触发语音,这样不会忘记,也让该智能语音设备更为人性化。当然,除此之外,也可以不提前预设用于触发的识别触发信息,而是在采集到用户的语音信息后,进行语音分析处理,获取该语音信息的语义,然后根据获取的语义来确定是否触发获取用户的动作信息及题型图像。相对于预设触发信息,该方案更为智能,也更符合孩子们的特性。尤其对于低龄孩子,对于同一意思的表达,他们有自己的方式,并不固定于单一的某一种语音信息。比如,用户在使用过程中,需要使用该智能语音设备来识别题型考查意图,用户可以说:“我不知道这道题”;或者说“请求帮助”;或者说“这是什么意思”等等。只要识别到用户不理解,需要帮助的语义后,便可智能触发后续方案来智能识别题型,给予用户帮助。当然,也可以采用其它不同方案来实现语音触发,本发明不局限于上述两种方案。
此外,本实施例中题型识别装置的图像获取模块可以是摄像头,通过摄像头来获取模块用户动作信息及题型图像信息,而对于具体的获取方式,也可以采用不同方案。比如,智能语音设备上的摄像头在使用阶段一直开启,用于拍摄用户及用户学习区域。而在判断出采集的用户语音信息是触发识别信息后,再截取当前时间拍摄的包含用户动作信息及学习区域的图像,根据用户动作信息图像中的手势动作,提取获得用户指向的学习区域中的具体题型图像。最后对该题型图像进行处理及识别,获得题型文字信息,再利用训练好的题型识别模型来进行识别,获得题型考查意图。此方案的智能语音语音设备的摄像头在使用阶段一直处于开启状态,也就是一直在拍摄用户及学习区域视频,而在语音触发后,再根据触发时间点去截取动作信息图像,进而获得待识别的题型图像,便于后续处理。当然,另一方案则是智能语音设备的摄像头不是一直处于开启工作状态,在语音触发之前可处于休眠状态,而在语音触发之后,则再进行图像拍摄,获得用户及学习区域的图像。具体的,获得包含用户动作信息的图像后,根据用户的手势动作,进一步获得用户指向的具体题型图像,然后再对该题型图像进行图像处理,获得题型对应的文字信息,便于后续题型识别模型的识别输出。该方案相对于前面所说的摄像头一直处于开启阶段,更为节能。由于只有在语音触发之后才开启拍摄,而在未触发之前均处于休眠状态,且在拍摄获得有用的动作及题型图像后续便关闭,摄像头恢复休眠状态,等待下一次的语音开启。由于摄像头一直处于拍摄阶段会大大增加功耗,且一直处于拍摄阶段的话,则要求该智能语音设备有较大的内存用于存储拍摄的视频。而本方案由于只在语音触发时进行了拍摄工作,因而大大节省了设备功耗,且降低了对设备内存的要求。
实施例九
如图9所示,本实施例在实施例八的基础上,增加了题型训练模块60,用于利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。具体的,所述题型训练模块60包括:存储子模块61,用于存储题型库,所述题型库中包含若干用户的各类题型;特征提取子模块62,用于提取每一类题型的特征,获取每类题型的关键词和考查意图;意图分类子模块63,根据各类题型的关键词及考查意图,建立题型意图分类;训练子模块64,用于利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型。
本实施例中,对于题型训练模块60如何训练题型识别模型进行了细化,具体的,先通过存储子模块61存储建立的题型库,题型库里面包含了各种各样的题型,然后通过特征提取子模块62提取每一类题型的特征,获取每类题型的关键词和考查意图。每一类题型里面有很多题目,当然,关键词也不会只有一个,考查意图也可能不尽相同。比如,有的是考近义词,有的是考查反义词等。收集到各类题型的题目,及对应的关键词及考查意图后,便可通过意图分类子模块63建立题型意图分类,然后通过训练子模块64来对初始的题型识别模型进行训练。初始题型识别模型通过大量学习训练后便可具备题型识别功能,用于题型识别。
实施例十
本实施例在上述任一实施例的基础上,对图像获取模块进行了细化,具体的,如图10所示,所述图像获取模块30包括:图像拍摄子模块31,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息图像;动作识别子模块32,用于根据所述用户的动作信息图像,识别所述用户的手势动作;动作判断子模块33,用于判断所述用户的手势动作是否为预设的手势动作信息;所述图像拍摄子模块31,还用于当判定所述用户的动作信息为预设的手势动作信息时,根据所述用户的手势动作信息,获取所述用户指向的待识别题型图像。
本实施例中,图像拍摄子模块31获取到用户的动作信息图像,也就是包含用户手势动作的图像后,动作识别子模块32对该图像进行图像识别,识别出用户的手势动作,然后通过动作判断子模块33判断该手势动作是否是预设的手势动作,具体的,比如预设的手势动作是用手指向学习区域,那么在语音触发后只要通过图像拍摄子模块31获取到用户用手指向学习区域的图像,便可根据该手势动作进一步获取到指向的具体题目的图像,然后图像处理模块40对该具体题目图像进行图像处理,识别出图像中的题目的文字信息,最后题型识别模块50将获取的文字信息输入到训练好的题型识别模型,从而获得题型识别结果,输出该题型的考查意图。
较佳的,在上述任一实施例基础上,所述题型识别装置还包括:模型升级模块70,用于收集题型训练样本,完成题型识别模型的升级。
本实施例中,通过对题型识别模型升级可以大大增强智能语音设备的识别功能,随着时间的推移,不断有新的题型,新的题目出现,考查意图也会随之有所变化,而如果还是用老的题型识别模型的话,则用户在使用过程中则可能出现无法识别或者识别不够准确的情况。因此,为了更好的服务用户,也为了更好的完善产品的性能,题型识别模型需要进行升级,让其识别功能越来越强大,从而可以与时俱进,识别出新的题型及其考查意图。
本发明的题型识别装置可针对用户语音表达不准确时,通过获取题型图像,利用题型输出模型准确获取题型考查意图。具体的,比如,某学习机内设置了该题型识别装置,用户在做作业时,该学习机可通过支架放置在作业桌上,学习机的前置摄像头便可拍摄到用户及桌上(学习区域)的情况。比如用户在作业过程中有一道题目为:请填写以下词语的反义词,前进--();然后如果用户不知道怎么读“前进”二字,那么就可以先通过语音触发该学习机,比如说:“这个题怎么做?”,然后用手指指向寻求帮助的这道题,学习机采集到用户这一语音后,会解析获得该语音的语义,知道用户此时出现了难题,需要帮助。通过语音触发后,该学习机便会通过摄像头获取拍摄的用户手指指向题目的图像,获得具体指向题目的图像。然后再对该题目图像进行图像处理,获得对应的文字信息。最后将该文字信息输入到题型识别模型中,学习机通过题型识别模型便会输出:本题为填空题,考查反义词,前进的反义词是后退。当然,学习机的输出可以通过语音播放作为输出,也可以通过学习机的屏幕显示来输出,此外,还可以输出前进及后退二者的拼音及含义等,帮助用户掌握该题。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种题型识别方法,其特征在于,包括:
采集用户的语音信息;
判断所述语音信息是否是识别触发信息;
当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;
根据所述用户的动作信息,获取待识别的题型图像;
对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
2.根据权利要求1所述的一种题型识别方法,其特征在于,在采集用户的语音信息之前还包括:
利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。
3.根据权利要求2所述的一种题型识别方法,其特征在于,所述利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型包括:
建立题型库,所述题型库中包含各类题型;
提取每一类题型的特征,获取每类题型的关键词和考查意图;
根据各类题型的关键词及考查意图,建立题型意图分类,
利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型。
4.根据权利要求1所述的一种题型识别方法,其特征在于,所述根据所述用户的动作信息,获取待识别的题型图像包括:
根据所述用户的动作信息,识别所述用户的手势动作;
判断所述用户的手势动作是否为预设的手势动作;
当判定所述用户的手势动作为预设的手势动作时,根据所述用户的手势动作,获取所述用户指向的待识别的题型图像。
5.根据权利要求1-4任一项所述的一种题型识别方法,其特征在于,还包括:
收集题型训练样本,完成题型识别模型的升级。
6.一种题型识别装置,其特征在于,包括:
语音采集模块,用于采集用户的语音信息;
判断处理模块,用于判断所述语音信息是否是识别触发信息;
图像获取模块,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息;并根据所述用户的动作信息,获取待识别的题型图像;
图像处理模块,用于对所述待识别的题型图像进行图像处理,得到所述待识别的题型图像中的题型文字信息;
题型识别模块,用于将所述题型文字信息输入训练好的题型识别模型,识别输出所述题型对应的考查意图。
7.根据权利要求6所述的一种题型识别装置,其特征在于,还包括:
题型训练模块,用于利用获取的题型训练样本集对初始题型识别模型进行训练,得到训练好的题型识别模型。
8.根据权利要求7所述的一种题型识别装置,其特征在于,所述题型训练模块包括:
存储子模块,用于存储题型库,所述题型库中包含若干用户的各类题型;
特征提取子模块,用于提取每一类题型的特征,获取每类题型的关键词和考查意图;
意图分类子模块,根据各类题型的关键词及考查意图,建立题型意图分类;
训练子模块,用于利用所述题型库中的题型及题型意图分类,对初始题型识别模型进行训练,得到题型识别模型。
9.根据权利要求6所述的一种题型识别装置,其特征在于,所述图像获取模块包括:
图像拍摄子模块,用于当判定所述语音信息为识别触发信息时,获取所述用户的动作信息图像;
动作识别子模块,用于根据所述用户的动作信息图像,识别所述用户的手势动作;
动作判断子模块,用于判断所述用户的手势动作是否为预设的手势动作信息;
所述图像拍摄子模块,还用于当判定所述用户的动作信息为预设的手势动作信息时,根据所述用户的手势动作信息,获取所述用户指向的待识别的题型图像。
10.根据权利要求6-9任一项所述的一种题型识别装置,其特征在于,还包括:
模型升级模块,用于收集题型训练样本,完成题型识别模型的升级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186430.XA CN109871128B (zh) | 2019-03-13 | 2019-03-13 | 一种题型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186430.XA CN109871128B (zh) | 2019-03-13 | 2019-03-13 | 一种题型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871128A true CN109871128A (zh) | 2019-06-11 |
CN109871128B CN109871128B (zh) | 2022-07-01 |
Family
ID=66920207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910186430.XA Active CN109871128B (zh) | 2019-03-13 | 2019-03-13 | 一种题型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871128B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307249A (zh) * | 2020-03-05 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 音频信息播放方法和装置 |
CN113473161A (zh) * | 2020-03-31 | 2021-10-01 | 腾讯科技(成都)有限公司 | 直播方法、装置、设备及计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132131A (ja) * | 2000-10-24 | 2002-05-09 | Chuoh Publishing Co Ltd | 遠隔教育方法及び遠隔教育用ホストコンピュータ並びに受講者用コンピュータ並びに画像情報合成方法 |
US20120290300A1 (en) * | 2009-12-16 | 2012-11-15 | Postech Academy- Industry Foundation | Apparatus and method for foreign language study |
CN106695826A (zh) * | 2016-12-26 | 2017-05-24 | 深圳前海勇艺达机器人有限公司 | 具有扫描以及朗读功能的机器人装置 |
CN108446286A (zh) * | 2017-02-16 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108932508A (zh) * | 2018-08-13 | 2018-12-04 | 杭州大拿科技股份有限公司 | 一种题目智能识别、批改的方法和系统 |
CN109191939A (zh) * | 2018-08-31 | 2019-01-11 | 广东小天才科技有限公司 | 一种基于智能设备的三维投影交互方法及智能设备 |
-
2019
- 2019-03-13 CN CN201910186430.XA patent/CN109871128B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132131A (ja) * | 2000-10-24 | 2002-05-09 | Chuoh Publishing Co Ltd | 遠隔教育方法及び遠隔教育用ホストコンピュータ並びに受講者用コンピュータ並びに画像情報合成方法 |
US20120290300A1 (en) * | 2009-12-16 | 2012-11-15 | Postech Academy- Industry Foundation | Apparatus and method for foreign language study |
CN106695826A (zh) * | 2016-12-26 | 2017-05-24 | 深圳前海勇艺达机器人有限公司 | 具有扫描以及朗读功能的机器人装置 |
CN108446286A (zh) * | 2017-02-16 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108932508A (zh) * | 2018-08-13 | 2018-12-04 | 杭州大拿科技股份有限公司 | 一种题目智能识别、批改的方法和系统 |
CN109191939A (zh) * | 2018-08-31 | 2019-01-11 | 广东小天才科技有限公司 | 一种基于智能设备的三维投影交互方法及智能设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307249A (zh) * | 2020-03-05 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 音频信息播放方法和装置 |
CN113473161A (zh) * | 2020-03-31 | 2021-10-01 | 腾讯科技(成都)有限公司 | 直播方法、装置、设备及计算机存储介质 |
CN113473161B (zh) * | 2020-03-31 | 2024-05-24 | 腾讯科技(成都)有限公司 | 直播方法、装置、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109871128B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407178B (zh) | 一种会话摘要生成方法、装置、服务器设备以及终端设备 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN104484411B (zh) | 一种基于词典的语义知识库的构建方法 | |
CN104461525B (zh) | 一种可自定义的智能咨询平台生成系统 | |
CN110489755A (zh) | 文本生成方法和装置 | |
CN110444191A (zh) | 一种韵律层级标注的方法、模型训练的方法及装置 | |
CN110490213A (zh) | 图像识别方法、装置及存储介质 | |
CN108305632A (zh) | 一种会议的语音摘要形成方法及系统 | |
CN106328147A (zh) | 语音识别方法和装置 | |
CN108009521A (zh) | 人脸图像匹配方法、装置、终端及存储介质 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN107169430A (zh) | 基于图像处理语义分析的阅读环境音效增强系统及方法 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN107632980A (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN111401268B (zh) | 一种面向开放环境的多模态情感识别方法及装置 | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN107972028A (zh) | 人机交互方法、装置及电子设备 | |
CN109783624A (zh) | 基于知识库的答案生成方法、装置和智能会话系统 | |
CN109635080A (zh) | 应答策略生成方法及装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN113035311A (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |