CN109783822A

CN109783822A - 一种基于验证码的数据样本识别系统及其方法

Info

Publication number: CN109783822A
Application number: CN201910065908.3A
Authority: CN
Inventors: 陈杨; 刘作; 陈星辰; 韦云; 张其卿; 廖景航
Original assignee: China Asean Information Port Ltd By Share Ltd
Current assignee: China Asean Information Port Ltd By Share Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-05-21
Anticipated expiration: 2039-01-24
Also published as: CN109783822B

Abstract

本发明公开了一种基于验证码的数据样本识别系统及其方法，用户通过用户终端与数据样本识别模块连接，实现两者的信息互交，用户通过用户终端发起校验请求，通过主要由采集服务器、样本数据库、呼叫终端和放音模块构成的所述数据样本识别模块为用户终端提供验证与识别服务。使用时，数据样本识别模块根据校验请求调取相应的数据样本，用户根据指令通过用户终端输入验证码和识别结果；数据样本识别模块对调取的数据样本和用户输入的样本进行验证对比，对比成功则表示识别成功，将该数据样本存入样本数据库，否则丢弃。整个过程，只需用户验证参与即可，无需人工现场识别，与传统人工识别的做法相比，具有数据样本识别工作量少、识别成本低的特点。

Description

一种基于验证码的数据样本识别系统及其方法

技术领域

本发明涉及一种数据样本识别技术，特别是一种基于验证码的数据样本识别系统及其方法。

背景技术

随着人工智能和大数据的迅猛发展，数据样本的识别与处理显得越来越重要。越来越多领域采用人工智能来对数据样本进行识别。虽然现有人工智识别技术较为成熟，但也只能识别大多数常用的文字/语音样本。因此，现有人工智能识别还是存在部分人工智能无法处理的边边角角(例如带有方言、或个人口音的语音样本，亦或者是在人工识别系统暂未训练存储的样本等)，均需要人工参与来识别，识别范围存在局限性。对于带有方言或带有个人口音的语音样本的识别，现有技术中常常会寻找具有同一特点或技术人员去到现场来进行现场问答，以得到准确的识别结果。在数据识别过程,人工参与度高，数据样本的识别成本较高。特别是将识别后的语音样本进行标记也存在着极大的挑战。

验证码(CAPTCHA)是“Completely Automated Public Turing test to tellComputers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写，是一种区分用户是计算机还是人的公共全自动程序。用户在第三平台上使用时可防止：恶意破解密码、刷票、论坛灌水、身份核实等功能，验证码已成为很多网站/平台通行的方式。因此，基于第三平台并通过验证码技术实现数据样本的识别成为数据识别领域的一大挑战。

发明内容

本发明的发明目的是，针对上述问题，提供一种基于验证码的数据样本识别系统，本发明基于为第三方平台提供验证码服务的途径，通过用户验证码的方式识别语音数据对应的文字样本，从而大量节约成本。

为达到上述目的，本发明所采用的技术方案是：

一种基于验证码的数据样本识别系统，包括用户终端和数据样本识别模块，所述用户终端与数据样本识别模块连接，用以向数据样本识别模块发起校验请求，并显示数据样本识别模块发来的验证码；

所述验证码包括真实校验码和数据样本，所述真实校验码由数据样本识别模块根据调取数据样本的标签生成，用于校验对比，为用户提供验证服务；所述数据样本与真实校验码绑定关联为一体，用于数据采集；

所述真实校验码显示在用户终端上，以使用户根据该真实校验码输入数据样本的识别结果，用户终端将所述识别结果、真实校验码和数据样本关联为一体，生成一识别验证码并发送给数据样本识别模块；

所述数据样本识别模块与用户终端连接，用以接收用户终端的校验请求，所述数据样本识别模块对数据样本识别时，先是接收用户终端发来的识别验证码；然后将该识别验证码依次拆分为数据样本和含有识别结果的真实校验码；接着先对比真实校验码，若正确则将数据样本添加至数据样本标签，并存储该数据样本；反之，若真实校验码错误，则返回错误并丢弃该数据样本；

所述数据样本为图文样本或语音样本。

上述方案中，当所述数据样本为图文样本时，作为优选实施方式，所述数据样本识别模块包括采集服务器和样本数据库，

所述用户终端与采集服务器连接，用于与采集服务器进行信息交互并向采集服务器发起验证请求，同时供用户终端向采集服务器输入待识别样本数据的识别结果；

所述采集服务器与样本数据库连接，用于调取样本数据库中的数据样本以及该数据样本的编号；所述采集服务器还用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对，以向用户终端提供验证服务；

所述样本数据库，用于向采集服务器提供数据样本的编号以及存储识别的样本标签；其中所述数据样本为图文样本。

上述方案中，当所述数据样本为语音样本时，作为优选实施方式，所述数据样本识别模块还包括呼叫终端和放音模块，

所述呼叫终端与用户终端连接，用于向用户终端发起呼叫；所述呼叫终端还与采集服务器连接，用于接收采集服务器的呼叫控制请求；所述呼叫终端还与放音模块连接，用于控制放音模块向用户终端播放数据样本；

所述放音模块与呼叫终端连接，用于接收呼叫终端的控制指令；所述放音模块还与样本数据库连接，用于调取样本数据库中的数据样本；其中所述数据样本为语音样本。

上述方案中，所述数据样本识别系统还可包括第三方平台，所述第三方平台与采集服务器连接，用以接收采集服务器发来的验证结果；第三方平台与用户终端连接，用于与用户终端进行信息交互，使所述用户终端基于第三方平台进行数据样本的验证与识别。

上述方案中，进一步地，所述图文样本为人工智能识别机器无法识别的图文，所述语音样本为人工智能识别机器无法识别的语音。

上述方案中，进一步地，所述样本数据库为每个数据样本添加标签堆栈，所述标签为用户输入的识别结果的数据，通过对统一数据样本标签进行占比排序，占比最多为优选数据。

本发明还提供了一种基于验证码的数据样本识别方法，所述数据样本为图文样本数据，识别过程包括如下步骤：

W1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务，用户通过用户终端向所述采集服务器发送校验请求；

W2、所述采集服务器收到来自用户终端的校验请求后，向所述样本数据库调取数据样本的请求，得到样本数据库的响应后，获得含有待识别的图文样本数据；

W3、所述采集服务器将图文样本数据中的文字样本和编号作为数据样本，所述数据样本与所述采集服务器生成的真实校验码绑定为一体，共同组成验证码，然后将该验证码发送给用户终端；

W4、用户终端收到含文字样本的数据样本后，先向采集服务器返回接收成功的消息，然后用户向用户终端输入由步骤W3得到的验证码，接着用户对文字样本进行识别，并将识别结果输入用户终端，所述用户终端将用户输入的识别结果和步骤W3得到的验证码进行绑定并发送给采集服务器；

W5、所述采集服务器对用户终端发来的验证码进行截取，先是将返回的验证码依次拆分为数据样本和含有识别结果的真实校验码，然后将该拆分提取得到的真实校验码的内容进行验证，若验证结果正确，则向第三方平台推送用户验证成功消息，同时继续向样本数据库中返回数据样本内容，并将该数据样本的内容与样本数据库中该样本的标签进行比较，若内容已存在，则在该标签次数添加1，并重新排序；若该数据样本的内容不存在，则追加在标签末尾，当标签满时，则选取次数最多的标签作为正确识别结果；

W6、若上述步骤W5中的验证失败，则丢弃返回的数据样本和含有识别结果的真实校验码，并重新启动验证流程，同时向第三方平台推送用户验证失败消息。

本发明还提供了一种基于验证码的数据样本识别方法，所述数据样本为语音样本数据，识别过程包括如下步骤：

S1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务，所述用户终端为具有物联网、语音接听和文字输入功能的移动智能手机，用户基于手机号码并通过移动智能手机向采集服务器发送校验请求；

S2、所述采集服务器收到用户终端的校验请求后，向样本数据库发送调取数据样本的请求，得到样本数据库的响应后，获得含有待识别的语音样本数据；所述语音样本数据包括语音样本和该语音样本的编号，所述语音样本包括真实语音校验样本和待采集语音数据样本；

S3、所述采集服务器基于步骤S1的手机号码和步骤S2的语音样本的编号，向呼叫终端发起呼叫验证请求；

S4、呼叫终端基于采集服务器发来的手机号码，向用户终端发起呼叫；

S5、用户振铃，并摘机；

S6、用户摘机后，用户终端自动向呼叫终端返回已摘机信令，呼叫终端基于语音样本的编号向放音模块请求播放该语音样本的指令；

S7、所述放音模块基于语音样本的编号向样本数据库请求获取语音样本数据，并得到语音放音样本；

S8、所述放音模块基于语音样本通过呼叫终端向用户放音；

S9、用户通过用户终端听取放音提示和语音样本的内容后，挂机；

S10、呼叫终端得到挂机信令后，通知采集服务器放音结束；

S11、所述采集服务器收到呼叫终端发来的放音结束的信息后，提示用户终端输入听到的数据样本；

S12、用户通过用户终端将听到的语音样本内容输入，得到含有识别结果的语音样本，所述语音样本包括真实语音校验样本和用户输入的语音样本内容，并发送给采集服务器；

S13、所述采集服务器首先比对语音样本中的真实语音校验样本，若匹配成功，则向用户终端发送验证成功消息，同时向第三方平台推送用户验证成功消息，并且将语音样本中其余部分的语音样本内容以标签形式添加到数据样本的标签中；若该结果已存在，则在累积次数加1处理并重新排序，若没有该结果，则追加在标签末尾，当标签满时则选取次数最多的标签为正确识别结果；所述其余部分为待采集语音数据样本；

S14、若上述步骤S13验证失败，则丢弃返回的验证结果，向第三方平台推送验证失败消息，并重新启动验证流程。

作为优选实施方式，步骤S9中，所述用户终端对放音模块放出的语音样本进行录制，以供用户反复听取。

由于采用上述技术方案，本发明具有以下有益效果：

1.用户通过用户终端与数据样本识别模块连接，实现两者之间的信息互交，用户通过用户终端发起校验请求，所述数据样本识别模块主要由采集服务器、样本数据库、呼叫终端和放音模块构成，为用户终端提供验证与识别服务。在使用时，用户通过用户终端发出验证请求，数据样本识别模块根据校验请求调取相应的数据样本，用户根据指令通过用户终端输入验证码和识别结果；数据样本识别模块对调取的数据样本和用户输入的样本进行验证对比，对比成功则表示识别成功，将该数据样本存入样本数据库，否则丢弃。整个过程，只需用户验证参与即可，无需人工现场识别，与传统人工识别的做法相比，具有数据样本识别工作量少、识别成本低的有益效果。

2.本发明对于数据样本的识别方法充分利用了用户在验证码服务中的广泛参与，不管在哪一个区域/地域的用户均可通过第三方平台和用户终端来与数据样本识别系统进行对话，当用户精通或熟悉待识别的语音样本或文字样本时，其向数据样本识别系统输入的识别结果的准确性将得到提高。但是，即使第一批用户不精通、也不熟悉，但随着用户参与量的不断增加所述识别结果的准确性也会不断提高，且用户在用户终端和第三方平台上在线识别根据指令操作即可，无需现场的识别，大量节约成本。

3.所识别的数据样本为图文样本或语音样本，并且所述图文样本为人工智能识别机器无法识别的图文，所述语音样本为人工智能识别机器无法识别的语音，一方面避免了数据重复识别的同时，还填充了人工智能机器无法识别的文字和声音；另一方面识别出的数据样本还可以用于训练语音转文字的机器学习，有助于不断完善人工智能识别机器的识别准确性。

附图说明

图1是本发明基于验证码的数据样本识别系统的一种系统组成框图。

图2是本发明基于验证码的数据样本识别系统的另一种系统组成框图。

图3是基于图1的数据样本识别方法的时序图。

图4是基于图2的数据样本识别方法的时序图。

图5为所述数据样本的堆栈示意框图。

图6为所述验证码的组成框图。

具体实施方式

以下结合附图对发明的具体实施进一步说明。

如图6所示，所述验证码包括真实校验码和数据样本，所述真实校验码由数据样本识别模块根据调取数据样本的标签生成，用于校验对比，为用户提供验证服务；所述数据样本与真实校验码绑定关联为一体，用于数据采集。

所述真实校验码显示在用户终端上，以使用户根据该真实校验码输入数据样本的识别结果。所述真实校验码由数字组成，所述数据样本以图文形式或语音形式由用户终端展示给用户查看，用户根据看到的或听到的向用户终端输入识别结果，所述识别结果由数字代码构成。用户终端将所述识别结果、真实校验码和数据样本关联为一体，生成一识别验证码并发送给数据样本识别模块。

所述数据样本识别模块重复用以接收用户终端的校验请求，所述数据样本识别模块对数据样本识别时，先是接收用户终端发来的识别验证码；然后将该识别验证码依次拆分为数据样本和含有识别结果的真实校验码；接着先对比真实校验码，若正确则将数据样本添加至数据样本标签，并存储该数据样本；反之，若真实校验码错误，则返回错误并丢弃该数据样本。

所述数据样本为图文样本或语音样本。即本系统识别的对象为图文样本或语音样本。所述图文样本为人工智能识别机器无法识别的图文，所述语音样本为人工智能识别机器无法识别的语音。

将对图文样本或语音样本的识别服务对接第三方平台，具体是在第三方平台上配置有校验系统的IP地址和端口，当发起校验请求时，用户终端直接发出校验请求给系统，系统校验成功后，返回校验结果给用户终端和第三方平台，表示校验成功，在过程中则采集了数据。

针对数据样本不同，所述数据样本识别模块的组成和系统的识别步骤均有所不同，具体如下：

实施例1

如图1所示，当识别的数据样本为图文样本时，一种基于验证码的数据样本识别系统，包括用户终端、数据样本识别模块和第三方平台。所述数据样本识别模块包括采集服务器和样本数据库。

其中，所述用户终端与采集服务器连接，用于与采集服务器进行信息交互并向采集服务器发起验证请求，同时供用户终端向采集服务器输入待识别样本数据的识别结果。

所述采集服务器与样本数据库连接，用于调取样本数据库中的数据样本以及该数据样本的编号；所述采集服务器还与用户终端连接，用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对，以向用户终端提供验证服务。

所述样本数据库用于向采集服务器提供数据样本的编号以及存储识别的样本标签。如图5所示，所述样本数据库为每个数据样本添加标签堆栈，所述标签为用户输入的识别结果的数据，通过对统一数据样本标签进行占比排序，占比最多为优选数据。即通过占比排序可随识别数据的增多来不断获得优选数据来提高识别的准确率。

所述第三方平台与采集服务器连接，用以接收采集服务器发来的验证结果。第三方平台与用户终端连接，用于与用户终端进行信息交互，使所述用户终端基于第三方平台进行数据样本的验证与识别。

所述图文样本为人工智能识别机器无法识别的图文。

如图3所示，本发明还提供了一种基于验证码的数据样本识别方法，所述数据样本为图文样本数据，识别过程包括如下步骤：

W4、用户终端收到含文字样本的数据样本后，先向采集服务器返回接收成功的消息，然后用户向用户终端输入由步骤W3得到的验证码，具体是输入验证码中的真实校验码。接着用户对文字样本进行识别，用户输入真实校验码后即可在用户终端上看到文字样本。用户按照用户终端上的指示对看到的文字样本进行识别，所述识别结果以数字的形式体现，并由用户输入至用户终端。所述用户终端将用户输入的识别结果和步骤W3得到的验证码进行绑定并发送给采集服务器；

实施例2

如图2所示，当识别的对象为语音样本数据时，一种基于验证码的数据样本识别系统，

包括用户终端、数据样本识别模块和第三方平台。所述数据样本识别模块包括采集服务器、样本数据库、呼叫终端和放音模块。

所述呼叫终端与用户终端连接，用于向用户终端发起呼叫。所述呼叫终端还与采集服务器连接，用于接收采集服务器的呼叫控制请求。所述呼叫终端还与放音模块连接，用于控制放音模块向用户终端播放数据样本。

所述放音模块与呼叫终端连接，用于接收呼叫终端的控制指令；所述放音模块还与样本数据库连接，用于调取样本数据库中的数据样本。其中所述数据样本为语音样本。

如图4所示，当所述数据样本为语音样本数据时，一种基于验证码的数据样本识别方法，包括如下步骤：

S1、所述采集服务器为用户与第三方平台之间的信息互交提供验证服务，所述用户终端为具有物联网、语音接听和文字输入功能的移动智能手机，用户基于手机号码并通过移动智能手机向采集服务器发送校验请求。

S5、用户振铃，并摘机；

S8、所述放音模块基于语音样本通过呼叫终端向用户放音；

S10、呼叫终端得到挂机信令后，通知采集服务器放音结束；

本发明对于数据样本的识别方法充分利用了用户在验证码服务中的广泛参与，不管在哪一个区域/地域的用户均可通过第三方平台和用户终端来与数据样本识别系统进行对话，当用户精通或熟悉待识别的语音样本或文字样本时，其向数据样本识别系统输入的识别结果的准确性将得到提高。但是，即使第一批用户不精通、也不熟悉，但随着用户参与量的不断增加所述识别结果的准确性也会不断提高，且用户在用户终端和第三方平台上在线识别根据指令操作即可，无需现场的识别，大量节约成本。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于验证码的数据样本识别系统，其特征在于：包括用户终端和数据样本识别模块，所述用户终端与数据样本识别模块连接，用以向数据样本识别模块发起校验请求，并显示数据样本识别模块发来的验证码；

所述数据样本为图文样本或语音样本。

2.根据权利要求1所述的一种基于验证码的数据样本识别系统，其特征在于：所述数据样本识别模块包括采集服务器和样本数据库，

所述采集服务器与样本数据库连接，用于调取样本数据库中的数据样本以及该数据样本的编号；所述采集服务器用于接收用户终端发来的验证请求并通过验证码对数据样本进行校验比对，以向用户终端提供验证服务；

所述样本数据库用于向采集服务器提供数据样本的编号以及存储识别的样本标签；其中所述数据样本为图文样本。

3.根据权利要求2所述的一种基于验证码的数据样本识别系统，其特征在于：所述数据样本识别模块还包括呼叫终端和放音模块，

4.根据权利要求2所述的一种基于验证码的数据样本识别系统，其特征在于：还包括第三方平台，所述第三方平台与采集服务器连接，用以接收采集服务器发来的验证结果；第三方平台与用户终端连接，用于与用户终端进行信息交互，使所述用户终端基于第三方平台进行数据样本的验证与识别。

5.根据权利要求1所述的一种基于验证码的数据样本识别系统，其特征在于：所述图文样本为人工智能识别机器无法识别的图文，所述语音样本为人工智能识别机器无法识别的语音。

6.根据权利要求1所述的一种基于验证码的数据样本识别系统，其特征在于：所述样本数据库为每个数据样本添加标签堆栈，所述标签为用户输入的识别结果的数据，通过对统一数据样本标签进行占比排序，占比最多为优选数据。

7.一种基于验证码的数据样本识别方法，其特征在于，所述数据样本为图文样本数据，识别过程包括如下步骤：

8.一种基于验证码的数据样本识别方法，其特征在于，所述数据样本为语音样本数据，识别过程包括如下步骤：

S5、用户振铃，并摘机；

S8、所述放音模块基于语音样本通过呼叫终端向用户放音；

S10、呼叫终端得到挂机信令后，通知采集服务器放音结束；

9.根据权利要求8一种基于验证码的数据样本识别方法，其特征在于：步骤S9中，所述用户终端对放音模块放出的语音样本进行录制，以供用户反复听取。