CN109783822A - 一种基于验证码的数据样本识别系统及其方法 - Google Patents

一种基于验证码的数据样本识别系统及其方法 Download PDF

Info

Publication number
CN109783822A
CN109783822A CN201910065908.3A CN201910065908A CN109783822A CN 109783822 A CN109783822 A CN 109783822A CN 201910065908 A CN201910065908 A CN 201910065908A CN 109783822 A CN109783822 A CN 109783822A
Authority
CN
China
Prior art keywords
sample
data sample
data
user
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910065908.3A
Other languages
English (en)
Other versions
CN109783822B (zh
Inventor
陈杨
刘作
陈星辰
韦云
张其卿
廖景航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Asean Information Port Ltd By Share Ltd
Original Assignee
China Asean Information Port Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Asean Information Port Ltd By Share Ltd filed Critical China Asean Information Port Ltd By Share Ltd
Priority to CN201910065908.3A priority Critical patent/CN109783822B/zh
Publication of CN109783822A publication Critical patent/CN109783822A/zh
Application granted granted Critical
Publication of CN109783822B publication Critical patent/CN109783822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于验证码的数据样本识别系统及其方法,用户通过用户终端与数据样本识别模块连接,实现两者的信息互交,用户通过用户终端发起校验请求,通过主要由采集服务器、样本数据库、呼叫终端和放音模块构成的所述数据样本识别模块为用户终端提供验证与识别服务。使用时,数据样本识别模块根据校验请求调取相应的数据样本,用户根据指令通过用户终端输入验证码和识别结果;数据样本识别模块对调取的数据样本和用户输入的样本进行验证对比,对比成功则表示识别成功,将该数据样本存入样本数据库,否则丢弃。整个过程,只需用户验证参与即可,无需人工现场识别,与传统人工识别的做法相比,具有数据样本识别工作量少、识别成本低的特点。

Description

一种基于验证码的数据样本识别系统及其方法
技术领域
本发明涉及一种数据样本识别技术,特别是一种基于验证码的数据样本识别系统及其方法。
背景技术
随着人工智能和大数据的迅猛发展,数据样本的识别与处理显得越来越重要。越来越多领域采用人工智能来对数据样本进行识别。虽然现有人工智识别技术较为成熟,但也只能识别大多数常用的文字/语音样本。因此,现有人工智能识别还是存在部分人工智能无法处理的边边角角(例如带有方言、或个人口音的语音样本,亦或者是在人工识别系统暂未训练存储的样本等),均需要人工参与来识别,识别范围存在局限性。对于带有方言或带有个人口音的语音样本的识别,现有技术中常常会寻找具有同一特点或技术人员去到现场来进行现场问答,以得到准确的识别结果。在数据识别过程,人工参与度高,数据样本的识别成本较高。特别是将识别后的语音样本进行标记也存在着极大的挑战。
验证码(CAPTCHA)是“Completely Automated Public Turing test to tellComputers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。用户在第三平台上使用时可防止:恶意破解密码、刷票、论坛灌水、身份核实等功能,验证码已成为很多网站/平台通行的方式。因此,基于第三平台并通过验证码技术实现数据样本的识别成为数据识别领域的一大挑战。
发明内容
本发明的发明目的是,针对上述问题,提供一种基于验证码的数据样本识别系统,本发明基于为第三方平台提供验证码服务的途径,通过用户验证码的方式识别语音数据对应的文字样本,从而大量节约成本。
为达到上述目的,本发明所采用的技术方案是:
一种基于验证码的数据样本识别系统,包括用户终端和数据样本识别模块,所述用户终端与数据样本识别模块连接,用以向数据样本识别模块发起校验请求,并显示数据样本识别模块发来的验证码;
所述验证码包括真实校验码和数据样本,所述真实校验码由数据样本识别模块根据调取数据样本的标签生成,用于校验对比,为用户提供验证服务;所述数据样本与真实校验码绑定关联为一体,用于数据采集;
所述真实校验码显示在用户终端上,以使用户根据该真实校验码输入数据样本的识别结果,用户终端将所述识别结果、真实校验码和数据样本关联为一体,生成一识别验证码并发送给数据样本识别模块;
所述数据样本识别模块与用户终端连接,用以接收用户终端的校验请求,所述数据样本识别模块对数据样本识别时,先是接收用户终端发来的识别验证码;然后将该识别验证码依次拆分为数据样本和含有识别结果的真实校验码;接着先对比真实校验码,若正确则将数据样本添加至数据样本标签,并存储该数据样本;反之,若真实校验码错误,则返回错误并丢弃该数据样本;
所述数据样本为图文样本或语音样本。
上述方案中,当所述数据样本为图文样本时,作为优选实施方式,所述数据样本识别模块包括采集服务器和样本数据库,
所述用户终端与采集服务器连接,用于与采集服务器进行信息交互并向采集服务器发起验证请求,同时供用户终端向采集服务器输入待识别样本数据的识别结果;
所述采集服务器与样本数据库连接,用于调取样本数据库中的数据样本以及该数据样本的编号;所述采集服务器还用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对,以向用户终端提供验证服务;
所述样本数据库,用于向采集服务器提供数据样本的编号以及存储识别的样本标签;其中所述数据样本为图文样本。
上述方案中,当所述数据样本为语音样本时,作为优选实施方式,所述数据样本识别模块还包括呼叫终端和放音模块,
所述呼叫终端与用户终端连接,用于向用户终端发起呼叫;所述呼叫终端还与采集服务器连接,用于接收采集服务器的呼叫控制请求;所述呼叫终端还与放音模块连接,用于控制放音模块向用户终端播放数据样本;
所述放音模块与呼叫终端连接,用于接收呼叫终端的控制指令;所述放音模块还与样本数据库连接,用于调取样本数据库中的数据样本;其中所述数据样本为语音样本。
上述方案中,所述数据样本识别系统还可包括第三方平台,所述第三方平台与采集服务器连接,用以接收采集服务器发来的验证结果;第三方平台与用户终端连接,用于与用户终端进行信息交互,使所述用户终端基于第三方平台进行数据样本的验证与识别。
上述方案中,进一步地,所述图文样本为人工智能识别机器无法识别的图文,所述语音样本为人工智能识别机器无法识别的语音。
上述方案中,进一步地,所述样本数据库为每个数据样本添加标签堆栈,所述标签为用户输入的识别结果的数据,通过对统一数据样本标签进行占比排序,占比最多为优选数据。
本发明还提供了一种基于验证码的数据样本识别方法,所述数据样本为图文样本数据,识别过程包括如下步骤:
W1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,用户通过用户终端向所述采集服务器发送校验请求;
W2、所述采集服务器收到来自用户终端的校验请求后,向所述样本数据库调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的图文样本数据;
W3、所述采集服务器将图文样本数据中的文字样本和编号作为数据样本,所述数据样本与所述采集服务器生成的真实校验码绑定为一体,共同组成验证码,然后将该验证码发送给用户终端;
W4、用户终端收到含文字样本的数据样本后,先向采集服务器返回接收成功的消息,然后用户向用户终端输入由步骤W3得到的验证码,接着用户对文字样本进行识别,并将识别结果输入用户终端,所述用户终端将用户输入的识别结果和步骤W3得到的验证码进行绑定并发送给采集服务器;
W5、所述采集服务器对用户终端发来的验证码进行截取,先是将返回的验证码依次拆分为数据样本和含有识别结果的真实校验码,然后将该拆分提取得到的真实校验码的内容进行验证,若验证结果正确,则向第三方平台推送用户验证成功消息,同时继续向样本数据库中返回数据样本内容,并将该数据样本的内容与样本数据库中该样本的标签进行比较,若内容已存在,则在该标签次数添加1,并重新排序;若该数据样本的内容不存在,则追加在标签末尾,当标签满时,则选取次数最多的标签作为正确识别结果;
W6、若上述步骤W5中的验证失败,则丢弃返回的数据样本和含有识别结果的真实校验码,并重新启动验证流程,同时向第三方平台推送用户验证失败消息。
本发明还提供了一种基于验证码的数据样本识别方法,所述数据样本为语音样本数据,识别过程包括如下步骤:
S1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,所述用户终端为具有物联网、语音接听和文字输入功能的移动智能手机,用户基于手机号码并通过移动智能手机向采集服务器发送校验请求;
S2、所述采集服务器收到用户终端的校验请求后,向样本数据库发送调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的语音样本数据;所述语音样本数据包括语音样本和该语音样本的编号,所述语音样本包括真实语音校验样本和待采集语音数据样本;
S3、所述采集服务器基于步骤S1的手机号码和步骤S2的语音样本的编号,向呼叫终端发起呼叫验证请求;
S4、呼叫终端基于采集服务器发来的手机号码,向用户终端发起呼叫;
S5、用户振铃,并摘机;
S6、用户摘机后,用户终端自动向呼叫终端返回已摘机信令,呼叫终端基于语音样本的编号向放音模块请求播放该语音样本的指令;
S7、所述放音模块基于语音样本的编号向样本数据库请求获取语音样本数据,并得到语音放音样本;
S8、所述放音模块基于语音样本通过呼叫终端向用户放音;
S9、用户通过用户终端听取放音提示和语音样本的内容后,挂机;
S10、呼叫终端得到挂机信令后,通知采集服务器放音结束;
S11、所述采集服务器收到呼叫终端发来的放音结束的信息后,提示用户终端输入听到的数据样本;
S12、用户通过用户终端将听到的语音样本内容输入,得到含有识别结果的语音样本,所述语音样本包括真实语音校验样本和用户输入的语音样本内容,并发送给采集服务器;
S13、所述采集服务器首先比对语音样本中的真实语音校验样本,若匹配成功,则向用户终端发送验证成功消息,同时向第三方平台推送用户验证成功消息,并且将语音样本中其余部分的语音样本内容以标签形式添加到数据样本的标签中;若该结果已存在,则在累积次数加1处理并重新排序,若没有该结果,则追加在标签末尾,当标签满时则选取次数最多的标签为正确识别结果;所述其余部分为待采集语音数据样本;
S14、若上述步骤S13验证失败,则丢弃返回的验证结果,向第三方平台推送验证失败消息,并重新启动验证流程。
作为优选实施方式,步骤S9中,所述用户终端对放音模块放出的语音样本进行录制,以供用户反复听取。
由于采用上述技术方案,本发明具有以下有益效果:
1.用户通过用户终端与数据样本识别模块连接,实现两者之间的信息互交,用户通过用户终端发起校验请求,所述数据样本识别模块主要由采集服务器、样本数据库、呼叫终端和放音模块构成,为用户终端提供验证与识别服务。在使用时,用户通过用户终端发出验证请求,数据样本识别模块根据校验请求调取相应的数据样本,用户根据指令通过用户终端输入验证码和识别结果;数据样本识别模块对调取的数据样本和用户输入的样本进行验证对比,对比成功则表示识别成功,将该数据样本存入样本数据库,否则丢弃。整个过程,只需用户验证参与即可,无需人工现场识别,与传统人工识别的做法相比,具有数据样本识别工作量少、识别成本低的有益效果。
2.本发明对于数据样本的识别方法充分利用了用户在验证码服务中的广泛参与,不管在哪一个区域/地域的用户均可通过第三方平台和用户终端来与数据样本识别系统进行对话,当用户精通或熟悉待识别的语音样本或文字样本时,其向数据样本识别系统输入的识别结果的准确性将得到提高。但是,即使第一批用户不精通、也不熟悉,但随着用户参与量的不断增加所述识别结果的准确性也会不断提高,且用户在用户终端和第三方平台上在线识别根据指令操作即可,无需现场的识别,大量节约成本。
3.所识别的数据样本为图文样本或语音样本,并且所述图文样本为人工智能识别机器无法识别的图文,所述语音样本为人工智能识别机器无法识别的语音,一方面避免了数据重复识别的同时,还填充了人工智能机器无法识别的文字和声音;另一方面识别出的数据样本还可以用于训练语音转文字的机器学习,有助于不断完善人工智能识别机器的识别准确性。
附图说明
图1是本发明基于验证码的数据样本识别系统的一种系统组成框图。
图2是本发明基于验证码的数据样本识别系统的另一种系统组成框图。
图3是基于图1的数据样本识别方法的时序图。
图4是基于图2的数据样本识别方法的时序图。
图5为所述数据样本的堆栈示意框图。
图6为所述验证码的组成框图。
具体实施方式
以下结合附图对发明的具体实施进一步说明。
一种基于验证码的数据样本识别系统,包括用户终端和数据样本识别模块,所述用户终端与数据样本识别模块连接,用以向数据样本识别模块发起校验请求,并显示数据样本识别模块发来的验证码;
如图6所示,所述验证码包括真实校验码和数据样本,所述真实校验码由数据样本识别模块根据调取数据样本的标签生成,用于校验对比,为用户提供验证服务;所述数据样本与真实校验码绑定关联为一体,用于数据采集。
所述真实校验码显示在用户终端上,以使用户根据该真实校验码输入数据样本的识别结果。所述真实校验码由数字组成,所述数据样本以图文形式或语音形式由用户终端展示给用户查看,用户根据看到的或听到的向用户终端输入识别结果,所述识别结果由数字代码构成。用户终端将所述识别结果、真实校验码和数据样本关联为一体,生成一识别验证码并发送给数据样本识别模块。
所述数据样本识别模块重复用以接收用户终端的校验请求,所述数据样本识别模块对数据样本识别时,先是接收用户终端发来的识别验证码;然后将该识别验证码依次拆分为数据样本和含有识别结果的真实校验码;接着先对比真实校验码,若正确则将数据样本添加至数据样本标签,并存储该数据样本;反之,若真实校验码错误,则返回错误并丢弃该数据样本。
所述数据样本为图文样本或语音样本。即本系统识别的对象为图文样本或语音样本。所述图文样本为人工智能识别机器无法识别的图文,所述语音样本为人工智能识别机器无法识别的语音。
将对图文样本或语音样本的识别服务对接第三方平台,具体是在第三方平台上配置有校验系统的IP地址和端口,当发起校验请求时,用户终端直接发出校验请求给系统,系统校验成功后,返回校验结果给用户终端和第三方平台,表示校验成功,在过程中则采集了数据。
针对数据样本不同,所述数据样本识别模块的组成和系统的识别步骤均有所不同,具体如下:
实施例1
如图1所示,当识别的数据样本为图文样本时,一种基于验证码的数据样本识别系统,包括用户终端、数据样本识别模块和第三方平台。所述数据样本识别模块包括采集服务器和样本数据库。
其中,所述用户终端与采集服务器连接,用于与采集服务器进行信息交互并向采集服务器发起验证请求,同时供用户终端向采集服务器输入待识别样本数据的识别结果。
所述采集服务器与样本数据库连接,用于调取样本数据库中的数据样本以及该数据样本的编号;所述采集服务器还与用户终端连接,用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对,以向用户终端提供验证服务。
所述样本数据库用于向采集服务器提供数据样本的编号以及存储识别的样本标签。如图5所示,所述样本数据库为每个数据样本添加标签堆栈,所述标签为用户输入的识别结果的数据,通过对统一数据样本标签进行占比排序,占比最多为优选数据。即通过占比排序可随识别数据的增多来不断获得优选数据来提高识别的准确率。
所述第三方平台与采集服务器连接,用以接收采集服务器发来的验证结果。第三方平台与用户终端连接,用于与用户终端进行信息交互,使所述用户终端基于第三方平台进行数据样本的验证与识别。
所述图文样本为人工智能识别机器无法识别的图文。
如图3所示,本发明还提供了一种基于验证码的数据样本识别方法,所述数据样本为图文样本数据,识别过程包括如下步骤:
W1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,用户通过用户终端向所述采集服务器发送校验请求;
W2、所述采集服务器收到来自用户终端的校验请求后,向所述样本数据库调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的图文样本数据;
W3、所述采集服务器将图文样本数据中的文字样本和编号作为数据样本,所述数据样本与所述采集服务器生成的真实校验码绑定为一体,共同组成验证码,然后将该验证码发送给用户终端;
W4、用户终端收到含文字样本的数据样本后,先向采集服务器返回接收成功的消息,然后用户向用户终端输入由步骤W3得到的验证码,具体是输入验证码中的真实校验码。接着用户对文字样本进行识别,用户输入真实校验码后即可在用户终端上看到文字样本。用户按照用户终端上的指示对看到的文字样本进行识别,所述识别结果以数字的形式体现,并由用户输入至用户终端。所述用户终端将用户输入的识别结果和步骤W3得到的验证码进行绑定并发送给采集服务器;
W5、所述采集服务器对用户终端发来的验证码进行截取,先是将返回的验证码依次拆分为数据样本和含有识别结果的真实校验码,然后将该拆分提取得到的真实校验码的内容进行验证,若验证结果正确,则向第三方平台推送用户验证成功消息,同时继续向样本数据库中返回数据样本内容,并将该数据样本的内容与样本数据库中该样本的标签进行比较,若内容已存在,则在该标签次数添加1,并重新排序;若该数据样本的内容不存在,则追加在标签末尾,当标签满时,则选取次数最多的标签作为正确识别结果;
W6、若上述步骤W5中的验证失败,则丢弃返回的数据样本和含有识别结果的真实校验码,并重新启动验证流程,同时向第三方平台推送用户验证失败消息。
实施例2
如图2所示,当识别的对象为语音样本数据时,一种基于验证码的数据样本识别系统,
包括用户终端、数据样本识别模块和第三方平台。所述数据样本识别模块包括采集服务器、样本数据库、呼叫终端和放音模块。
所述呼叫终端与用户终端连接,用于向用户终端发起呼叫。所述呼叫终端还与采集服务器连接,用于接收采集服务器的呼叫控制请求。所述呼叫终端还与放音模块连接,用于控制放音模块向用户终端播放数据样本。
所述放音模块与呼叫终端连接,用于接收呼叫终端的控制指令;所述放音模块还与样本数据库连接,用于调取样本数据库中的数据样本。其中所述数据样本为语音样本。
如图4所示,当所述数据样本为语音样本数据时,一种基于验证码的数据样本识别方法,包括如下步骤:
S1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,所述用户终端为具有物联网、语音接听和文字输入功能的移动智能手机,用户基于手机号码并通过移动智能手机向采集服务器发送校验请求。
S2、所述采集服务器收到用户终端的校验请求后,向样本数据库发送调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的语音样本数据;所述语音样本数据包括语音样本和该语音样本的编号,所述语音样本包括真实语音校验样本和待采集语音数据样本;
S3、所述采集服务器基于步骤S1的手机号码和步骤S2的语音样本的编号,向呼叫终端发起呼叫验证请求;
S4、呼叫终端基于采集服务器发来的手机号码,向用户终端发起呼叫;
S5、用户振铃,并摘机;
S6、用户摘机后,用户终端自动向呼叫终端返回已摘机信令,呼叫终端基于语音样本的编号向放音模块请求播放该语音样本的指令;
S7、所述放音模块基于语音样本的编号向样本数据库请求获取语音样本数据,并得到语音放音样本;
S8、所述放音模块基于语音样本通过呼叫终端向用户放音;
S9、用户通过用户终端听取放音提示和语音样本的内容后,挂机;
S10、呼叫终端得到挂机信令后,通知采集服务器放音结束;
S11、所述采集服务器收到呼叫终端发来的放音结束的信息后,提示用户终端输入听到的数据样本;
S12、用户通过用户终端将听到的语音样本内容输入,得到含有识别结果的语音样本,所述语音样本包括真实语音校验样本和用户输入的语音样本内容,并发送给采集服务器;
S13、所述采集服务器首先比对语音样本中的真实语音校验样本,若匹配成功,则向用户终端发送验证成功消息,同时向第三方平台推送用户验证成功消息,并且将语音样本中其余部分的语音样本内容以标签形式添加到数据样本的标签中;若该结果已存在,则在累积次数加1处理并重新排序,若没有该结果,则追加在标签末尾,当标签满时则选取次数最多的标签为正确识别结果;所述其余部分为待采集语音数据样本;
S14、若上述步骤S13验证失败,则丢弃返回的验证结果,向第三方平台推送验证失败消息,并重新启动验证流程。
作为优选实施方式,步骤S9中,所述用户终端对放音模块放出的语音样本进行录制,以供用户反复听取。
本发明对于数据样本的识别方法充分利用了用户在验证码服务中的广泛参与,不管在哪一个区域/地域的用户均可通过第三方平台和用户终端来与数据样本识别系统进行对话,当用户精通或熟悉待识别的语音样本或文字样本时,其向数据样本识别系统输入的识别结果的准确性将得到提高。但是,即使第一批用户不精通、也不熟悉,但随着用户参与量的不断增加所述识别结果的准确性也会不断提高,且用户在用户终端和第三方平台上在线识别根据指令操作即可,无需现场的识别,大量节约成本。
上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所提示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。

Claims (9)

1.一种基于验证码的数据样本识别系统,其特征在于:包括用户终端和数据样本识别模块,所述用户终端与数据样本识别模块连接,用以向数据样本识别模块发起校验请求,并显示数据样本识别模块发来的验证码;
所述验证码包括真实校验码和数据样本,所述真实校验码由数据样本识别模块根据调取数据样本的标签生成,用于校验对比,为用户提供验证服务;所述数据样本与真实校验码绑定关联为一体,用于数据采集;
所述真实校验码显示在用户终端上,以使用户根据该真实校验码输入数据样本的识别结果,用户终端将所述识别结果、真实校验码和数据样本关联为一体,生成一识别验证码并发送给数据样本识别模块;
所述数据样本识别模块与用户终端连接,用以接收用户终端的校验请求,所述数据样本识别模块对数据样本识别时,先是接收用户终端发来的识别验证码;然后将该识别验证码依次拆分为数据样本和含有识别结果的真实校验码;接着先对比真实校验码,若正确则将数据样本添加至数据样本标签,并存储该数据样本;反之,若真实校验码错误,则返回错误并丢弃该数据样本;
所述数据样本为图文样本或语音样本。
2.根据权利要求1所述的一种基于验证码的数据样本识别系统,其特征在于:所述数据样本识别模块包括采集服务器和样本数据库,
所述用户终端与采集服务器连接,用于与采集服务器进行信息交互并向采集服务器发起验证请求,同时供用户终端向采集服务器输入待识别样本数据的识别结果;
所述采集服务器与样本数据库连接,用于调取样本数据库中的数据样本以及该数据样本的编号;所述采集服务器用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对,以向用户终端提供验证服务;
所述样本数据库用于向采集服务器提供数据样本的编号以及存储识别的样本标签;其中所述数据样本为图文样本。
3.根据权利要求2所述的一种基于验证码的数据样本识别系统,其特征在于:所述数据样本识别模块还包括呼叫终端和放音模块,
所述呼叫终端与用户终端连接,用于向用户终端发起呼叫;所述呼叫终端还与采集服务器连接,用于接收采集服务器的呼叫控制请求;所述呼叫终端还与放音模块连接,用于控制放音模块向用户终端播放数据样本;
所述放音模块与呼叫终端连接,用于接收呼叫终端的控制指令;所述放音模块还与样本数据库连接,用于调取样本数据库中的数据样本;其中所述数据样本为语音样本。
4.根据权利要求2所述的一种基于验证码的数据样本识别系统,其特征在于:还包括第三方平台,所述第三方平台与采集服务器连接,用以接收采集服务器发来的验证结果;第三方平台与用户终端连接,用于与用户终端进行信息交互,使所述用户终端基于第三方平台进行数据样本的验证与识别。
5.根据权利要求1所述的一种基于验证码的数据样本识别系统,其特征在于:所述图文样本为人工智能识别机器无法识别的图文,所述语音样本为人工智能识别机器无法识别的语音。
6.根据权利要求1所述的一种基于验证码的数据样本识别系统,其特征在于:所述样本数据库为每个数据样本添加标签堆栈,所述标签为用户输入的识别结果的数据,通过对统一数据样本标签进行占比排序,占比最多为优选数据。
7.一种基于验证码的数据样本识别方法,其特征在于,所述数据样本为图文样本数据,识别过程包括如下步骤:
W1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,用户通过用户终端向所述采集服务器发送校验请求;
W2、所述采集服务器收到来自用户终端的校验请求后,向所述样本数据库调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的图文样本数据;
W3、所述采集服务器将图文样本数据中的文字样本和编号作为数据样本,所述数据样本与所述采集服务器生成的真实校验码绑定为一体,共同组成验证码,然后将该验证码发送给用户终端;
W4、用户终端收到含文字样本的数据样本后,先向采集服务器返回接收成功的消息,然后用户向用户终端输入由步骤W3得到的验证码,接着用户对文字样本进行识别,并将识别结果输入用户终端,所述用户终端将用户输入的识别结果和步骤W3得到的验证码进行绑定并发送给采集服务器;
W5、所述采集服务器对用户终端发来的验证码进行截取,先是将返回的验证码依次拆分为数据样本和含有识别结果的真实校验码,然后将该拆分提取得到的真实校验码的内容进行验证,若验证结果正确,则向第三方平台推送用户验证成功消息,同时继续向样本数据库中返回数据样本内容,并将该数据样本的内容与样本数据库中该样本的标签进行比较,若内容已存在,则在该标签次数添加1,并重新排序;若该数据样本的内容不存在,则追加在标签末尾,当标签满时,则选取次数最多的标签作为正确识别结果;
W6、若上述步骤W5中的验证失败,则丢弃返回的数据样本和含有识别结果的真实校验码,并重新启动验证流程,同时向第三方平台推送用户验证失败消息。
8.一种基于验证码的数据样本识别方法,其特征在于,所述数据样本为语音样本数据,识别过程包括如下步骤:
S1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务,所述用户终端为具有物联网、语音接听和文字输入功能的移动智能手机,用户基于手机号码并通过移动智能手机向采集服务器发送校验请求;
S2、所述采集服务器收到用户终端的校验请求后,向样本数据库发送调取数据样本的请求,得到样本数据库的响应后,获得含有待识别的语音样本数据;所述语音样本数据包括语音样本和该语音样本的编号,所述语音样本包括真实语音校验样本和待采集语音数据样本;
S3、所述采集服务器基于步骤S1的手机号码和步骤S2的语音样本的编号,向呼叫终端发起呼叫验证请求;
S4、呼叫终端基于采集服务器发来的手机号码,向用户终端发起呼叫;
S5、用户振铃,并摘机;
S6、用户摘机后,用户终端自动向呼叫终端返回已摘机信令,呼叫终端基于语音样本的编号向放音模块请求播放该语音样本的指令;
S7、所述放音模块基于语音样本的编号向样本数据库请求获取语音样本数据,并得到语音放音样本;
S8、所述放音模块基于语音样本通过呼叫终端向用户放音;
S9、用户通过用户终端听取放音提示和语音样本的内容后,挂机;
S10、呼叫终端得到挂机信令后,通知采集服务器放音结束;
S11、所述采集服务器收到呼叫终端发来的放音结束的信息后,提示用户终端输入听到的数据样本;
S12、用户通过用户终端将听到的语音样本内容输入,得到含有识别结果的语音样本,所述语音样本包括真实语音校验样本和用户输入的语音样本内容,并发送给采集服务器;
S13、所述采集服务器首先比对语音样本中的真实语音校验样本,若匹配成功,则向用户终端发送验证成功消息,同时向第三方平台推送用户验证成功消息,并且将语音样本中其余部分的语音样本内容以标签形式添加到数据样本的标签中;若该结果已存在,则在累积次数加1处理并重新排序,若没有该结果,则追加在标签末尾,当标签满时则选取次数最多的标签为正确识别结果;所述其余部分为待采集语音数据样本;
S14、若上述步骤S13验证失败,则丢弃返回的验证结果,向第三方平台推送验证失败消息,并重新启动验证流程。
9.根据权利要求8一种基于验证码的数据样本识别方法,其特征在于:步骤S9中,所述用户终端对放音模块放出的语音样本进行录制,以供用户反复听取。
CN201910065908.3A 2019-01-24 2019-01-24 一种基于验证码的数据样本识别系统及其方法 Active CN109783822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910065908.3A CN109783822B (zh) 2019-01-24 2019-01-24 一种基于验证码的数据样本识别系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910065908.3A CN109783822B (zh) 2019-01-24 2019-01-24 一种基于验证码的数据样本识别系统及其方法

Publications (2)

Publication Number Publication Date
CN109783822A true CN109783822A (zh) 2019-05-21
CN109783822B CN109783822B (zh) 2023-04-18

Family

ID=66502215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910065908.3A Active CN109783822B (zh) 2019-01-24 2019-01-24 一种基于验证码的数据样本识别系统及其方法

Country Status (1)

Country Link
CN (1) CN109783822B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704226A (zh) * 2019-09-19 2020-01-17 贝壳技术有限公司 数据校验方法、装置及存储介质
CN111461825A (zh) * 2020-03-30 2020-07-28 京东数字科技控股有限公司 一种虚拟资源的生成方法、装置、电子设备及存储介质
CN116647727A (zh) * 2023-07-27 2023-08-25 中邮消费金融有限公司 录屏信息收集方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050144133A1 (en) * 1994-11-28 2005-06-30 Ned Hoffman System and method for processing tokenless biometric electronic transmissions using an electronic rule module clearinghouse
US20140337434A1 (en) * 2012-01-25 2014-11-13 Innovative Timing Systems, Llc Timing system and method with integrated event participant tracking management services
CN105447475A (zh) * 2015-12-21 2016-03-30 安徽大学 一种基于独立分量分析的扫视信号样本优化方法
CN105450592A (zh) * 2014-08-05 2016-03-30 阿里巴巴集团控股有限公司 安全校验方法、装置、服务器及终端
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN107833033A (zh) * 2017-11-01 2018-03-23 深圳位置网科技有限公司 一种与天网系统对接记录卡交易违法行为的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050144133A1 (en) * 1994-11-28 2005-06-30 Ned Hoffman System and method for processing tokenless biometric electronic transmissions using an electronic rule module clearinghouse
US20140337434A1 (en) * 2012-01-25 2014-11-13 Innovative Timing Systems, Llc Timing system and method with integrated event participant tracking management services
CN105450592A (zh) * 2014-08-05 2016-03-30 阿里巴巴集团控股有限公司 安全校验方法、装置、服务器及终端
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN105447475A (zh) * 2015-12-21 2016-03-30 安徽大学 一种基于独立分量分析的扫视信号样本优化方法
CN107833033A (zh) * 2017-11-01 2018-03-23 深圳位置网科技有限公司 一种与天网系统对接记录卡交易违法行为的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704226A (zh) * 2019-09-19 2020-01-17 贝壳技术有限公司 数据校验方法、装置及存储介质
CN110704226B (zh) * 2019-09-19 2023-02-17 贝壳技术有限公司 数据校验方法、装置及存储介质
CN111461825A (zh) * 2020-03-30 2020-07-28 京东数字科技控股有限公司 一种虚拟资源的生成方法、装置、电子设备及存储介质
CN111461825B (zh) * 2020-03-30 2024-04-09 京东科技控股股份有限公司 一种虚拟资源的生成方法、装置、电子设备及存储介质
CN116647727A (zh) * 2023-07-27 2023-08-25 中邮消费金融有限公司 录屏信息收集方法、装置、设备及存储介质
CN116647727B (zh) * 2023-07-27 2024-02-06 中邮消费金融有限公司 录屏信息收集方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109783822B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109672786B (zh) 一种来电接听方法及装置
EP3485492B1 (en) Multi-user authentication on a device
CN110891124B (zh) 一种人工智能代接来电的系统
CN110266899B (zh) 客户意图的识别方法和客服系统
CN109981910B (zh) 业务推荐方法及设备
US6948129B1 (en) Multi-modal, multi-path user interface for simultaneous access to internet data over multiple media
CN109783822A (zh) 一种基于验证码的数据样本识别系统及其方法
CN109510806B (zh) 鉴权方法及装置
CN109005303A (zh) 交互语音应答方法及装置
US8724779B2 (en) Persisting customer identity validation during agent-to-agent transfers in call center transactions
US8417791B1 (en) Hosted calling service
CN111583931A (zh) 业务数据处理方法及装置
CN109325091A (zh) 兴趣点属性信息的更新方法、装置、设备及介质
CN108391020A (zh) 一种通话控制方法、装置、设备及存储介质
US20040156490A1 (en) Methods and apparatus for routing and accounting of revenue generating calls using natural language voice recognition
CN109271503A (zh) 智能问答方法、装置、设备及存储介质
CN102572741A (zh) 一种在移动通讯系统中显示主叫人信息的控制方法
JP2008015439A (ja) 音声認識システム
CN107690038A (zh) 业务语音导航方法和装置
CN112866086A (zh) 智能外呼的信息推送方法、装置、设备及存储介质
CN108540677A (zh) 语音处理方法及系统
US20230403328A1 (en) Arrangements for detecting bi-directional artificial intelligence (ai) voice communications and negotiating direct digital communications
CN110047473B (zh) 一种人机协作交互方法及系统
WO2008044039A1 (en) Communications systems
CN101848282B (zh) 质检处理方法、装置及系统、质检员客户端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant