CN112231655A - 一种数据处理方法、计算机设备、存储介质 - Google Patents
一种数据处理方法、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN112231655A CN112231655A CN201910637487.7A CN201910637487A CN112231655A CN 112231655 A CN112231655 A CN 112231655A CN 201910637487 A CN201910637487 A CN 201910637487A CN 112231655 A CN112231655 A CN 112231655A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- elements
- semantic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000012795 verification Methods 0.000 claims abstract description 271
- 238000000034 method Methods 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 17
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000005336 cracking Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种数据处理方法。所述方法包括:获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;根据所述至少两个目标文本元素及其语义关系,生成验证问题,并提供所述验证问题,从而将文本中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、一种计算机设备、一种计算机可读存储介质。
背景技术
验证码是一种区分计算机和人类的自动测试方法,可以用于防止恶意破解密码、刷票、论坛灌水、针对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。在测试中会提供一个问题由用户来解答,这个问题可以由计算机生成并评判,但是需要只有人类才能解答。由于计算机无法解答这个问题,所以回答出问题的用户就可以被认为是人类。
目前,常见的验证码实现系统主要有图片验证码、手机短信、手机语音、视频验证码和行为式验证码等。
申请人经研究发现,手机短信和语音验证码较为繁琐,会增加用户的回答成本。而随着图像处理技术的发展,特别是深度学习技术的兴起,图片和视频验证码安全性越来越差。随着图像目标检测相关技术的发展,例如,基于ImageNet(一种可视化数据库)的Faster-rcnn(Faster Region-based Convolutional Neural Networks,目标检测方法甚高速卷积神经网络),识别图中事物已经变得比较简单。随着ORC(Optical CharacterRecognition,光学字符识别)相关技术的发展,例如主流的CNN(Convolutional NeuralNetworks,卷积神经网络)+BLSTM(Bidirectional Long Short Term Memory,双向长短时记忆)+CTC(Connectionist Temporal Classification,连接时序类分类)架构,识别图中文字也不再是什么难事。而行为类验证码只能依靠基于行为的大数据分析,以及端上的安全防控,与破解者形成“拉锯战”。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、以及计算机设备、计算机可读存储介质。
依据本申请的一个方面,提供了一种数据处理方法,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案;
展示所述验证问题;
接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
依据本申请的另一个方面,提供了一种数据处理方法,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题;
提供所述验证问题。
可选地,所述语义关系包括相关关系,所述确定所述文本元素之间的语义关系包括:
确定在所述文本数据中文本元素之间的相关性数据;
根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
可选地,所述确定所述文本数据中文本元素之间的相关性数据包括:
为所述文本数据中的文本元素构建元素向量;
计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
可选地,所述语义关系包括同义关系或上下位关系,所述确定所述文本元素之间的语义关系包括:
获取外部语义关系库;
根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
可选地,所述方法还包括:
从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。
可选地,在所述根据所述语义关系选取至少两个目标文本元素之前,所述方法还包括:
确定所述文本元素在文本数据中的频率信息;
将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
可选地,所述方法还包括:
识别违规的候选文本元素;
从所述候选文本元素中剔除所述违规的候选文本元素;
可选地,所述验证问题包括题目信息和第一候选信息,所述根据所述语义关系选取至少两个目标文本元素包括:
选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
可选地,所述验证问题还包括第二候选信息,所述根据所述语义关系选取至少两个目标文本元素还包括:
选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
可选地,所述根据所述至少两个目标文本元素及其语义关系,生成验证问题包括:
根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板;
将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
可选地,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;
将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
可选地,所述候选信息包括第一候选信息和第二候选信息,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
根据所述验证问题模板,添加答案标记到所述验证问题的第一候选信息或第二候选信息。
依据本申请的另一个方面,提供了一种数据处理方法,包括:
获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种;
确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素;
根据所述至少两个目标数据元素及其元素关系,生成验证问题;
提供所述验证问题。
依据本申请的另一个方面,提供了一种数据处理方法,包括:
获取搜索关键词;
根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
展示与所述广告文本元素对应的推荐信息。
依据本申请的另一个方面,提供了一种数据处理方法,包括:
获取主题关键词;
根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
提供所述主题文本元素。
依据本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述一个或多个的方法。
依据本申请的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一个或多个的方法。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;根据所述至少两个目标文本元素及其语义关系,生成验证问题,并提供所述验证问题,从而将文本中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
进一步,通过确定所述文本元素在文本数据中的频率信息,将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素,从而筛选出热门或常见的文本元素作为候选,避免用户不知道验证问题所涉及的知识,提高生成的验证问题的可用率,解决用户需要多次答题才能通过验证的耗时过多的问题。
进一步,通过识别违规的候选文本元素,从所述候选文本元素中剔除所述违规的候选文本元素,防止验证问题出现违规的内容,避免给使用的平台或验证的用户带来风险。
进一步,通过从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。获取的同义文本元素、上位文本元素/下位文本元素可以补充原本的文本元素,从而扩充了更多的文本元素以及文本元素之间的语义关系,使得可以生成更多数量和类型的验证问题,验证问题更加多样可以提高破解难度,继而提高了验证的安全性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了验证过程的示意图;
图2示出了根据本申请实施例一的一种数据处理方法实施例的流程图;
图3示出了登录验证业务的示意图;
图4示出了根据本申请实施例二的一种数据处理方法实施例的流程图;
图5示出了根据本申请实施例三的一种数据处理方法实施例的流程图;
图6示出了根据本申请实施例四的一种数据处理方法实施例的流程图;
图7示出了根据本申请实施例五的一种数据处理方法实施例的流程图;
图8示出了根据本申请实施例六的一种数据处理方法实施例的流程图;
图9示出了根据本申请实施例七的一种数据处理装置实施例的结构框图;
图10示出了根据本申请实施例八的一种数据处理装置实施例的结构框图;
图11示出了根据本申请实施例九的一种数据处理装置实施例的结构框图;
图12示出了根据本申请实施例十的一种数据处理装置实施例的结构框图;
图13示出了根据本申请实施例十一的一种数据处理装置实施例的结构框图;
图14示出了可被用于实现本公开中所述的各个实施例的示例性系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
文本数据包括文本形式存在的数据,例如,为了生成验证问题,收集多个领域的大规模语料,包括百科网站、微型博客、视频服务平台、电子商务平台等中的文本形式的数据作为语料。
文本数据由文本元素组成,从文本数据中可以解析出一种或多种文本元素,例如,通过分词处理可以得到词语,或者通过命名实体识别(Named Entity Recognition,NER)可以得到具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,或者其他任意适用的解析方式得到的文本元素,本申请实施例对此不做限制。
文本数据是根据一定语义规律组织在一起的,因此文本数据中的文本元素之间会具有语义关系。语义关系包括但不限于相关关系、同义关系、上下位关系等,本申请实施例对此不做限制。例如,以体育新闻作为文本数据,从中解析出“网球”、“张三”等文本元素,虽然从字面上看“网球”是一个物品,而“张三”是一个人名,但由于这两个文本元素会经常出现在体育新闻的同一篇文章、或同一段话、或同一句话中,因此从文本数据中可以得出这两个文本元素之间是具有相关关系的。
在本申请中,选取出至少两个文本元素,记为目标文本元素。选取的两个或更多的目标文本元素之间可以具有语义关系,还可以另外再选取与前者不具有语义关系的目标文本元素。例如,选取两个具有语义关系的目标文本元素“网球”和“张三”,再选取两个与“网球”不具有语义关系的目标文本元素“李四”和“飞机”。在根据语义关系选取目标文本元素时,可以根据实际需要选取任意适用的目标文本元素,本申请实施例对此不做限制。
根据选取的至少两个目标文本元素,以及目标文本元素之间的语义关系,可以生成验证问题,以提供给用户,只有当用户回答正确时,即可认为该用户是人类,则验证通过。验证问题包括选择题、填空题、判断题等形式,或者其他任意适用的形式,本申请实施例对此不做限制。本申请生成的验证问题的本质是在询问文本元素之间的语义关系。
例如,验证问题可以包括:选取“网球”、“张三”、“李四”、“飞机”四个目标文本元素,可以生成选择题“以下和网球相关的人或物有哪些?A、张三,B、李四,C、飞机”;或选取“网球”以及所有与“网球”相关的多个人名作为目标文本元素,可以生成填空题“填写一个你知道的网球明星球员?”;或选取“网球”和“李四”两个目标文本元素,可以生成判断题“网球和李四是相关的吗?”。
在本申请的一种可选实施例中,语义关系包括相关关系,相关关系用于表征两个文本元素之间具有关联。在确定文本数据中的文本元素之间具有相关关系时,可以先确定文本数据中文本元素之间的相关性数据,只有当两个文本元素之间的相关性数据在设定范围内,才认为两个文本元素之间具有相关关系。
相关性数据用于表征在文本数据中文本元素之间的相关程度,可以认为文本数据中经常出现在一起的文本元素之间的相关程度比不经常出现在一起的文本元素之间的相关程度更高。例如,文本数据一共由10000句话组成,其中,第一文本元素和第二文本元素一同出现在其中100句话中,而第一文本元素和第三文本元素仅一同出现在其中1句话中,那么一种简单的方式可以确定第一文本元素和第二文本元素之间的相关性数据为数值100,而第一文本元素和第三文本元素之间的相关性数据为数值1,若设定范围为相关性数据要超过10,则第一文本元素和第二文本元素之间具有相关关系,而第一文本元素和第三文本元素之间不具有相关关系。
在本申请的一种可选实施例中,确定文本数据中文本元素之间的相关性数据的一种实现方式中,需要先为文本数据中的文本元素构建元素向量,然后计算元素向量之间的相关性数据,作为文本元素之间的相关性数据。
在机器处理文本时,要想让机器识别文本,就需要将文本抽象表示成可被机器理解的形式,一种方式就是把文本进行向量化。将所有这些元素向量放在一起形成一个元素向量空间,而每一元素向量则为该空间中的一个点,空间中点之间具有距离,计算点之间的距离来表征它们之间的语义上的相关性,也就是计算元素向量之间的相关性数据。例如,采用word2vec(word to vector,词语转向量)算法训练生成文本数据中每个文本元素的词向量,即元素向量。
在本申请的一种可选实施例中,语义关系包括同义关系或上下位关系。同义关系包括等义关系、近义关系,例如,两个词语意义完全相同,则两个词语为等义词,两个词语意思相近,但不完全相同,则两个词语为近义关系。上下位关系为上位词和下位词之间的关系,概括性较强的单词A叫做特定性较强的单词B的上位词,特定性较强的单词B叫做概括性较强的单词A的下位词,在本申请中,两个文本元素之间具有上下位关系,还要明确其中的上位词和下位词。
在确定文本元素之间的同义关系或上下位关系的一种实现方式中,需要引入外部语义关系库,例如,从Hownet(知网)知识库获取词语之间的同义关系或上下位关系。
在本申请的一种可选实施例中,除了文本数据中解析出的文本元素外,还可以从外部语义关系库中补充一些其他的文本元素,例如,与文本数据中的文本元素具有同义关系的同义文本元素,或文本数据中的文本元素具有上下位关系的上位文本元素/下位文本元素。
在本申请的一种可选实施例中,有些文本元素并不适合用作生成验证问题,例如,一些冷门或不常见的词语不适合让用户去作答。为了选出一些候选文本元素,需要考虑文本元素在文本数据中出现的频率作为选取依据。频率信息包括文本元素在文本数据中与频率相关的信息,例如,计算tf-idf(term frequency–inverse document frequency,词频-逆向文件频率)值作为文本元素在文本数据中的频率信息。具体可以包括任意适用的频率信息,本申请实施例对此不做限制。
在本申请的一种可选实施例中,验证问题包括题目信息和候选信息,例如,单选题或多选题中包括一个题目信息“以下和网球相关的人或物有哪些?”和多个候选信息“A、张三,B、李四,C、飞机”。候选信息包括多个,有些候选信息可以由与题目信息中的目标文本元素具有语义关系的目标文本元素生成,有些候选信息可以由与题目信息中的目标文本元素不具有语义关系的目标文本元素生成,具体可以根据实际需要确定候选信息,本申请实施例对此不做限制。
将选取的具有语义关系的目标文本元素,记为第一目标文本元素和第二目标文本元素。当然在具体实现时,并不限制只选取两个目标文本元素,还可以由三个、四个或更多的具有语义关系的目标文本元素。选择其中的一个目标文本元素,不妨以第一目标文本元素为例,用于生成题目信息,而将第二目标文本元素用于生成第一候选信息。第一目标文本元素和第二目标文本元素之间具有语义关系,因而第一候选信息和题目信息之间也具有语义关系,但具体第一候选信息是否为答案项取决于具体的题目,如题目为“以下和第一目标文本元素相关的人或物有哪些?”,则第一候选信息为答案项,如题目为“以下和第一目标文本元素不相关的人或物有哪些?”,则第一候选信息就不是答案项。
在本申请的一种可选实施例中,区别于第一候选信息,验证问题还还包括第二候选信息,在选取至少两个目标文本元素时,还可以选取与第一目标文本元素没有语义关系的目标文本元素,记为第三目标文本元素。当然在具体实现时,并不限制只选取一个目标文本元素,还可以有第四目标文本元素或更多的与第一目标文本元素没有语义关系的目标文本元素。选取第三目标文本元素用于生成第二候选信息。同上,第二候选信息是否为答案项也取决于具体的题目。
在本申请的一种可选实施例中,在生成验证问题的一种实现方式中,可以先选取预先存在的验证问题模板,将目标文本元素添加到验证问题模板中,就可以得到验证问题。在选取验证问题模板时,可以考虑以目标文本元素之间的语义关系的关系类型为依据,例如,相关关系、同义关系、上下位关系、也可以是没有语义关系,多个目标文本元素之间还可以有多种语义关系。一种关系类型可以与一个或多个验证问题模板相对应。
在本申请的一种可选实施例中,候选信息包括第一候选信息和第二候选信息,其中,第一候选信息可以包括一个或多个,第二候选信息也可以包括一个或多个。在多个候选信息中可以由一个或多个作为正确答案,在得到验证问题时,添加答案标记到第一候选信息或第二候选信息,以在用户针对验证问题提交答案后,对用户提交的结果进行验证。
根据本申请的一种实施例,在现有的各种验证码中,手机短信和语音验证码会增加用户的回答成本,而图片和视频验证码安全性越来越差,行为类验证码也存在被破解的风险,都存在着一定的问题。如图1所示的数据处理过程的示意图,本申请提供了一种数据处理机制,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;根据所述至少两个目标文本元素及其语义关系,生成验证问题,并提供所述验证问题,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。本申请适用但不局限于上述应用场景。
参照图2,示出了根据本申请实施例一的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤101,获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素。
在本申请实施例中,为了生成基于语义关系的验证问题,需要先从文本数据中学习文本元素之间的语义关系。首先获取文本数据,并对文本数据进行解析,获得组成文本数据的多个文本元素。例如,收集大规模的多个领域的语料数据,包括百科网站、微型博客、视频服务平台、电子商务平台等中的语料数据。
解析文本数据获得组成所述文本数据的多个文本元素的实现方式可以包括多种,例如,可以对文本数据进行分词处理,得到对应的多个词作为文本元素,还可以对文本数据进行命名实体识别,将命名实体识别的结果作为文本元素,例如,基于Tensorflow(一个基于数据流编程的符号数学系统)以BiLSTM-CRF(Bi-directional Long Short-TermMemory-conditional random field,双向长短期记忆网络-条件随机场)算法进行命名实体识别,或者其他任意适用的实现方式,本申请实施例对此不做限制。
步骤102,确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素。
在本申请实施例中,确定文本元素之间的语义关系的实现方式可以包括多种,例如,确定在所述文本数据中文本元素之间的相关性数据,根据所述相关性数据,确定语义相关的文本元素之间具有相关关系,或者获取外部语义关系库,根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系,或者其他任意适用的实现方式,本申请实施例对此不做限制。
在一种实现方式中,在将解析出的文本元素之间的语义关系都确定后,可以得到文本元素组成的语义关系网,这个语义关系网中的节点数据就是文本元素,具有语义关系的文本元素的节点之间具有边,边数据就是语义关系,若需要区分多种语义关系,可以在边数据中记录语义关系的关系类型。
确定语义关系后,可以根据语义关系选取至少两个目标文本元素。选取至少两个目标文本元素时,可以采取随机选取的方式,也可以采取顺序选取的方式,或者其他任意适用的选取方式。例如,随机选取具有语义关系的两个目标文本元素,以及一个与这两个目标文本元素都没有语义关系的目标文本元素。对于选取的目标文本元素的数量、选取方式、是否具有语义关系、具有何种语义关系,本申请实施例对此不做限制。
在本申请实施例中,根据所述语义关系选取至少两个目标文本元素的实现方式可以包括多种,例如,选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息,或者选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息,或者其他任意适用的实现方式,本申请实施例对此不做限制。
步骤103,根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案。
在本申请实施例中,至少两个目标文本元素及其语义关系确定后,可以用于生成验证问题及答案,具体的实现方式可以包括多种,例如,根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板,将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题及答案,或者随机选取一个验证问题模板,将目标文本元素添加到所述验证问题模版中,得到所述验证问题及答案。
例如,选择的验证问题模板为“以下和”W位置”相关的人或物有哪些?A、”X位置”,B、”Y位置”,C、”Z位置””,将选取的目标文本元素“网球”添加到”W位置”、“张三”添加到”X位置”、“李四”添加到”Y位置”、“飞机”添加到”Z位置”,得到验证问题,由于该问题模板是选择相关的人或物,则将具有语义关系的选项确定为该验证问题的答案,即与“网球”具有语义关系的“张三”可以确定为答案。
步骤104,展示所述验证问题。
在本申请实施例中,将验证问题进行展示,例如,服务器生成了验证问题和答案后,将验证问题发送至客户端,并在客户端上展示验证问题,或者将验证问题和答案都发送至客户端,但仅在客户端上展示验证问题,具体可以采用任意适用的方式展示验证问题,本申请实施例对此不做限制。
步骤105,接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
在本申请实施例中,客户端上可以输入针对验证问题的回答,客户端可以将输入发送到服务器,服务器接收来自客户端的输入。服务器基于验证问题的答案,确定接收到的输入是否通过验证。
例如,如图3所示的登录验证业务的示意图,在登录或注册等业务中,人机验证这一步骤通常是必需的。获取大量的新闻类文本数据,从中解析出文本元素,并确定语义关系。在用户输入完登录密码后,选取目标文本元素,然后根据目标文本元素及其语义关系,生成验证问题和答案。在客户端上进行展示验证问题,用户进行输入后,将输入发送至服务器进行验证,如果用户的输入与答案一致,则验证通过,用户登录成功或者可以继续下一步操作。
在本申请实施例中,基于所述答案,确定所述输入是否通过验证的实现方式可以包括多种,例如,若输入与答案完全一致,则确定输入通过验证,或者针对多选题可以设置一个预设百分比,当超过预设百分比的输入的选项与答案的选项一致时,则确定输入通过验证,或者针对填空题可以设置一个预设匹配度,当输入的内容与答案的内容的匹配度超过预设匹配度(例如,输入的词语和答案的词语的意思越相近,计算出两者的匹配度越高),则确定输入通过验证,具体可以采用任意适用的实现方式,本申请实施例对此不做限制。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素,确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素,根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案,展示所述验证问题,接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图4,示出了根据本申请实施例二的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤201,获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素。
步骤202,确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素。
步骤203,根据所述至少两个目标文本元素及其语义关系,生成验证问题。
在本申请实施例中,至少两个目标文本元素及其语义关系确定后,可以用于生成验证问题,具体的实现方式可以包括多种,例如,根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板,将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题,或者随机选取一个验证问题模板,将目标文本元素添加到所述验证问题模版中,得到所述验证问题。
例如,验证问题模板包括“以下和”W位置”相关的人或物有哪些?A、”X位置”,B、”Y位置”,C、”Z位置””和“以下和”W位置”不相关的人或物有哪些?A、”X位置”,B、”Y位置”,C、”Z位置””,随机选择一个验证问题模板,将选取的目标文本元素“网球”添加到”W位置”、“张三”添加到”X位置”、“李四”添加到”Y位置”、“飞机”添加到”Z位置”,得到验证问题。
步骤204,提供所述验证问题。
在本申请实施例中,在生成验证问题后,将验证问题提供给使用者,例如,提供给需要进行人机验证的网页或客户端,以供进行人机验证。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;根据所述至少两个目标文本元素及其语义关系,生成验证问题,并提供所述验证问题,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图5,示出了根据本申请实施例三的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤301,获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素。
步骤302,确定在所述文本数据中文本元素之间的相关性数据。
在本申请实施例中,语义关系包括相关关系,为了确定文本元素之间的相关关系,先需要确定在文本数据中文本元素之间的相关性数据。相关性数据是与文本数据相关的,根据不同的文本数据可能会得到文本元素之间不同的相关性数据。
在本申请实施例中,可选地,确定所述文本数据中文本元素之间的相关性数据的一种实现方式可以包括:为所述文本数据中的文本元素构建元素向量;计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
步骤303,根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
在本申请实施例中,在得到各个文本元素之间的相关性数据后,所有的文本元素都具有相关关系是不可行的,需要将语义相关的文本元素找出来,确定两者之间具有相关关系。
例如,假若相关性数据为数值,且数值越大表明相关程度越高。将相关性数据高于预设阈值的文本元素确定为语义相关的文本元素,确定文本元素之间具有相关关系。
步骤304,获取外部语义关系库。
步骤305,根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
在本申请实施例中,可选地,从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。获取的同义文本元素、上位文本元素/下位文本元素可以补充原本的文本元素,从而扩充了更多的文本元素以及文本元素之间的语义关系,使得可以生成更多数量和类型的验证问题,验证问题更加多样可以提高破解难度,继而提高了验证的安全性。
例如,从文本数据中解析得到的文本元素有“网球”、“足球”、“羽毛球”、“飞机”等,从外部语义关系库中获得“网球”、“足球”、“羽毛球”这三个文本元素的上位文本元素“球”,那么选择这几个文本元素作为目标文本元素,就可以生成验证问题“以下哪几个不属于球?A、网球、B、足球、C、羽毛球、D、飞机”。
步骤306,确定所述文本元素在文本数据中的频率信息。
步骤307,将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
步骤308,识别违规的候选文本元素。
步骤309,从所述候选文本元素中剔除所述违规的候选文本元素。
步骤310,选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
例如,选取具有相关关系的第一目标文本元素“网球”和第二目标文本元素“张三”。
在本申请实施例中,可选地,所述验证问题还包括第二候选信息,所述根据所述语义关系选取至少两个目标文本元素还包括:选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
例如,选取与“网球”没有语义关系的第三目标文本元素“李四”和“飞机”。
步骤311,根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板。
在本申请实施例中,根据不同的关系类型,可以选取与关系类型对应的验证问题模板,例如,目标文本元素中有的语义关系的关系类型为相关关系,则选取与相关关系对应的验证问题模板“以下和”W位置”相关的人或物有哪些?”或“以下和”W位置”不相关的人或物有哪些?”;或者目标文本元素中有的语义关系的关系类型为同义关系,则选取与同义关系对应的验证问题模板“以下和”W位置”是同义词语有哪些?”。
步骤312,将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
在本申请实施例中,目标文本元素有多个,将其中一个或多个目标文本元素添加到所述验证问题模版中,可以得到验证问题。例如,将一个目标文本元素添加到填空题的设定位置,得到一个填空题;或者将一个目标文本元素添加到选择题的题目信息中,将其他目标文本元素添加到候选信息中。
在本申请实施例中,可选地,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
步骤313,提供所述验证问题。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素,确定在所述文本数据中文本元素之间的相关性数据,根据所述相关性数据,确定语义相关的文本元素之间具有相关关系,获取外部语义关系库,根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系,选取具有语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息,根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板,将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
进一步,通过确定所述文本元素在文本数据中的频率信息,将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素,从而筛选出热门或常见的文本元素作为候选,避免用户不知道验证问题所涉及的知识,提高生成的验证问题的可用率,解决用户需要多次答题才能通过验证的耗时过多的问题。
进一步,通过识别违规的候选文本元素,从所述候选文本元素中剔除所述违规的候选文本元素,防止验证问题出现违规的内容,避免给使用的平台或验证的用户带来风险。
参照图6,示出了根据本申请实施例四的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤401,获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种。
在本申请实施例中,目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种。
目标数据为音频数据时,解析音频数据的方式可以包括多种,例如,将音频数据转成文本数据,采用上述文本数据的解析方式,得到文本元素,再根据文本元素,从音频数据中提取出与各个文本元素对应的音频数据元素。具体解析音频数据的方式还可以包括多种,本申请实施例对此不做限制。
目标数据为图片数据时,解析图片数据的方式可以包括多种,例如,对图片数据进行目标检测并进行实例分割,图片数据的分割可以作为图片数据元素。具体解析图片数据的方式还可以包括多种,本申请实施例对此不做限制。
目标数据为视频数据时,解析视频数据的方式可以包括多种,例如,将视频数据的每一帧进行目标检测并进行实例分割,对视频数据中音频采用音频数据的解析方式,将每一帧的分割和/或音频数据元素作为视频数据元素。具体解析视频数据的方式还可以包括多种,本申请实施例对此不做限制。
步骤402,确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素。
在本申请实施例中,数据元素之间的元素关系取决于目标数据。确定数据元素之间的元素关系的实现方式可以包括多种,例如,将数据元素转换成元素向量,计算元素向量之间的相关性数据,根据相关性数据,确定数据元素之间的元素关系,或者数据元素同时出现在同一图片数据中,则确定数据元素之间具有元素关系,或者数据元素同时出现在同一视频数据中,则确定数据元素之间具有元素关系,或者其他任意适用的实现方式,本申请实施例对此不做限制。
在本申请实施例中,根据元素关系选取至少两个目标数据元素的实现方式可以包括多种,例如,随机选取两个具有元素关系的目标数据元素,以及一个与这两个目标数据元素都没有元素关系的目标数据元素,或者选取三个相互之间具有元素关系的目标数据元素,具体可以根据实际需要选取,本申请实施例对此不做限制。
步骤403,根据所述至少两个目标数据元素及其元素关系,生成验证问题。
在本申请实施例中,根据至少两个目标数据元素及其元素关系,生成验证问题的实现方式可以包括多种,例如,将其中一个目标数据元素添加到验证问题模板的题目信息的设定位置,得到题目信息,将其他目标数据元素作为验证问题的候选信息,得到验证问题,或者其他任意适用的实现方式,本申请实施例对此不做限制。
步骤404,提供所述验证问题。
依据本申请实施例,通过获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种,确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素,根据所述至少两个目标数据元素及其元素关系,生成验证问题,并提供所述验证问题,从而将目标数据中数据元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对目标数据进行学习的情况下,是难以理解数据元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图7,示出了根据本申请实施例五的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤501,获取搜索关键词。
在本申请实施例中,搜索关键词包括输入或选择的能够最大程度概括用户所要查找的信息内容,例如,用户在搜索框内输入“手机”这一搜索关键词,具体可以包括任意适用的搜索关键词,本申请实施例对此不做限制。
步骤502,根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
在本申请实施例中,先获取文本数据,从文本数据中可以解析得到组成文本数据的多个文本元素,再确定文本元素之间的语义关系。其中,文本元素中可以包括广告文本元素,广告文本元素为预先设定的,例如,将文本元素中的“某品牌”设定为广告文本元素。
根据文本元素之间的语义关系进行查找,查找与搜索关键词具有语义关系的广告文本元素。例如,搜索关键词为“手机”,根据语义关系查找到“某品牌”与“手机”具有语义关系,因此,查找到广告文本元素“某品牌”。
步骤503,展示与所述广告文本元素对应的推荐信息。
在本申请实施例中,在设定广告文本元素时,还需建立广告文本元素与推荐信息之间的对应关系。推荐信息包括用于推荐的文字、图片、视频等多种形式的信息,例如,“某品牌”的广告视频即为一种“某品牌”对应的推荐信息。在查找到广告文本元素后,展示与该广告文本元素对应的推荐信息。
依据本申请实施例,通过获取搜索关键词,根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定,展示与所述广告文本元素对应的推荐信息,从而将文本数据中文本元素之间的语义关系巧妙地应用到推荐信息的展示过程,实现了自动化展示基于语义关系的推荐信息,提高了展示推荐信息的准确性。
参照图8,示出了根据本申请实施例六的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤601,获取主题关键词。
在本申请实施例中,主题关键词包括输入的用户想要的主题的关键词,例如,用户想要设置操作系统的效果主题,输入主题关键词“生日”,或者用户想要设置文档的主题标签,输入主题关键词“高兴”,具体可以包括任意适用的主题关键词,本申请实施例对此不做限制。
步骤602,根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
在本申请实施例中,先获取文本数据,从文本数据中可以解析得到组成文本数据的多个文本元素,再确定文本元素之间的语义关系。其中,文本元素中可以包括主题文本元素,主题文本元素为预先设定的,例如,将文本元素中的“愉快”设定为主题文本元素。
根据文本元素之间的语义关系进行查找,查找与主题关键词具有语义关系的主题文本元素。例如,主题关键词为“生日”,根据语义关系查找到“愉快”与“生日”具有语义关系,因此,查找到主题文本元素“愉快”,或者主题关键词为“高兴”,根据语义关系查找到“愉快”与“高兴”具有语义关系,因此,查找到主题文本元素“愉快”。
步骤603,提供所述主题文本元素。
在本申请实施例中,提供查找到的主题文本元素,以供确定最终所需的主题。例如,用户想要设置操作系统的效果主题,输入主题关键词“生日”,查找到主题文本元素为“愉快”,将操作系统的效果主题设置为“愉快”对应的效果,或者用户想要设置文档的主题标签,输入主题关键词“高兴”,查找到主题文本元素为“愉快”,将文本的主题标签设置为“愉快”。主题文本元素还可以作为任意适用的主题,本申请实施例对此不做限制。
依据本申请实施例,通过获取主题关键词,根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定,提供所述主题文本元素,从而将文本数据中文本元素之间的语义关系巧妙地应用到主题文本元素的确定过程,实现了自动化基于语义关系确定主题,避免输入的主题关键词无法成为主题时需要反复重新输入的问题。
参照图9,示出了根据本申请实施例七的一种数据处理装置实施例的结构框图,具体可以包括:
解析模块701,用于获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
选取模块702,用于确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
生成模块703,用于根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案;
展示模块704,用于展示所述验证问题;
确定模块705,用于接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素,确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素,根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案,展示所述验证问题,接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图10,示出了根据本申请实施例八的一种数据处理装置实施例的结构框图,具体可以包括:
文本元素解析模块801,用于获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
文本元素选取模块802,用于确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
验证问题生成模块803,用于根据所述至少两个目标文本元素及其语义关系,生成验证问题。
问题提供模块804,用于提供所述验证问题。
在本申请实施例中,可选地,所述语义关系包括相关关系,所述文本元素选取模块包括:
相关性数据确定子模块,用于确定在所述文本数据中文本元素之间的相关性数据;
第一关系确定子模块,用于根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
在本申请实施例中,可选地,所述相关性数据确定子模块包括:
向量构建单元,用于为所述文本数据中的文本元素构建元素向量;
相关性数据确定单元,用于计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
在本申请实施例中,可选地,所述语义关系包括同义关系或上下位关系,所述文本元素选取模块包括:
关系库获取子模块,用于获取外部语义关系库;
第二关系确定子模块,用于根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
在本申请实施例中,可选地,所述装置还包括:
元素获取模块,用于从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。
在本申请实施例中,可选地,所述装置还包括:
频率确定模块,用于在所述根据所述语义关系选取至少两个目标文本元素之前,确定所述文本元素在文本数据中的频率信息;
候选确定模块,用于将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
在本申请实施例中,可选地,所述装置还包括:
违规识别模块,用于识别违规的候选文本元素;
违规剔除模块,用于从所述候选文本元素中剔除所述违规的候选文本元素;
在本申请实施例中,可选地,所述验证问题包括题目信息和第一候选信息,所述文本元素选取模块包括:
第一选取子模块,用于选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
在本申请实施例中,可选地,所述验证问题还包括第二候选信息,所述文本元素选取模块还包括:
第二选取子模块,用于选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
在本申请实施例中,可选地,所述验证问题生成模块包括:
模板选取子模块,用于根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板;
添加子模块,用于将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
在本申请实施例中,可选地,所述添加子模块包括:
添加单元,用于添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;
确定单元,用于将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
在本申请实施例中,可选地,所述候选信息包括第一候选信息和第二候选信息,所述添加单元包括:
添加子单元,用于根据所述验证问题模板,添加答案标记到所述验证问题的第一候选信息或第二候选信息。
依据本申请实施例,通过获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;根据所述至少两个目标文本元素及其语义关系,生成验证问题,并提供所述验证问题,从而将文本数据中文本元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对文本数据进行学习的情况下,是难以理解文本元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图11,示出了根据本申请实施例九的一种数据处理装置实施例的结构框图,具体可以包括:
元素解析模块901,用于获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种;
元素选取模块902,用于确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素;
问题生成模块903,用于根据所述至少两个目标数据元素及其元素关系,生成验证问题;
问题提供模块904,用于提供所述验证问题。
依据本申请实施例,通过获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种,确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素,根据所述至少两个目标数据元素及其元素关系,生成验证问题,并提供所述验证问题,从而将目标数据中数据元素之间的语义关系巧妙地应用到验证问题的生成过程,实现了自动化生成基于语义关系的验证问题,对于机器来说,在没有对目标数据进行学习的情况下,是难以理解数据元素的语义关系的,因此,避免了验证问题被破解的问题,提高了人机验证的安全性。
参照图12,示出了根据本申请实施例十的一种数据处理装置实施例的结构框图,具体可以包括:
获取模块1001,用于获取搜索关键词。
查找模块1002,用于根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
信息展示模块1003,用于展示与所述广告文本元素对应的推荐信息。
依据本申请实施例,通过获取搜索关键词,根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定,展示与所述广告文本元素对应的推荐信息,从而将文本数据中文本元素之间的语义关系巧妙地应用到推荐信息的展示过程,实现了自动化展示基于语义关系的推荐信息,提高了展示推荐信息的准确性。
参照图13,示出了根据本申请实施例十一的一种数据处理装置实施例的结构框图,具体可以包括:
获取模块1101,用于获取主题关键词。
查找模块1102,用于根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
主题提供模块1103,用于提供所述主题文本元素。
依据本申请实施例,通过获取主题关键词,根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定,提供所述主题文本元素,从而将文本数据中文本元素之间的语义关系巧妙地应用到主题文本元素的确定过程,实现了自动化基于语义关系确定主题,避免输入的主题关键词无法成为主题时需要反复重新输入的问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图14示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)1200。
对于一个实施例,图14示出了示例性系统1200,该系统具有一个或多个处理器1202、被耦合到(一个或多个)处理器1202中的至少一个的系统控制模块(芯片组)1204、被耦合到系统控制模块1204的系统存储器1206、被耦合到系统控制模块1204的非易失性存储器(NVM)/存储设备1208、被耦合到系统控制模块1204的一个或多个输入/输出设备1210,以及被耦合到系统控制模块1206的网络接口1212。
处理器1202可包括一个或多个单核或多核处理器,处理器1202可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统1200能够作为本申请实施例中所述的浏览器。
在一些实施例中,系统1200可包括具有指令的一个或多个计算机可读介质(例如,系统存储器1206或NVM/存储设备1208)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器1202。
对于一个实施例,系统控制模块1204可包括任意适当的接口控制器,以向(一个或多个)处理器1202中的至少一个和/或与系统控制模块1204通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1204可包括存储器控制器模块,以向系统存储器1206提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器1206可被用于例如为系统1200加载和存储数据和/或指令。对于一个实施例,系统存储器1206可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1206可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1204可包括一个或多个输入/输出控制器,以向NVM/存储设备1208及(一个或多个)输入/输出设备1210提供接口。
例如,NVM/存储设备1208可被用于存储数据和/或指令。NVM/存储设备1208可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1208可包括在物理上作为系统1200被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1208可通过网络经由(一个或多个)输入/输出设备1210进行访问。
(一个或多个)输入/输出设备1210可为系统1200提供接口以与任意其他适当的设备通信,输入/输出设备1210可以包括通信组件、音频组件、传感器组件等。网络接口1212可为系统1200提供接口以通过一个或多个网络通信,系统1200可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1202中的至少一个可与系统控制模块1204的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1202中的至少一个可与系统控制模块1204的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1202中的至少一个可与系统控制模块1204的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1202中的至少一个可与系统控制模块1204的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1200可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1200可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1200包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
本申请实施例公开了一种验证方法和装置,示例1包括一种数据处理方法,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案;
展示所述验证问题;
接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
示例2包括一种数据处理方法,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题;
提供所述验证问题。
示例3可包括示例2所述的方法,其中,所述语义关系包括相关关系,所述确定所述文本元素之间的语义关系包括:
确定在所述文本数据中文本元素之间的相关性数据;
根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
示例4可包括示例2和/或示例3所述的方法,其中,所述确定所述文本数据中文本元素之间的相关性数据包括:
为所述文本数据中的文本元素构建元素向量;
计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
示例5可包括示例2-示例4一个或多个所述的方法,其中,所述语义关系包括同义关系或上下位关系,所述确定所述文本元素之间的语义关系包括:
获取外部语义关系库;
根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
示例6可包括示例2-示例5一个或多个所述的方法,其中,所述方法还包括:
从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。
示例7可包括示例2-示例6一个或多个所述的方法,其中,在所述根据所述语义关系选取至少两个目标文本元素之前,所述方法还包括:
确定所述文本元素在文本数据中的频率信息;
将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
示例8可包括示例2-示例7一个或多个所述的方法,其中,所述方法还包括:
识别违规的候选文本元素;
从所述候选文本元素中剔除所述违规的候选文本元素;
示例9可包括示例2-示例8一个或多个所述的方法,其中,所述验证问题包括题目信息和第一候选信息,所述根据所述语义关系选取至少两个目标文本元素包括:
选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
示例10可包括示例2-示例9一个或多个所述的方法,其中,所述验证问题还包括第二候选信息,所述根据所述语义关系选取至少两个目标文本元素还包括:
选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
示例11可包括示例2-示例10一个或多个所述的方法,其中,所述根据所述至少两个目标文本元素及其语义关系,生成验证问题包括:
根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板;
将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
示例12可包括示例2-示例11一个或多个所述的方法,其中,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;
将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
示例13可包括示例2-示例12一个或多个所述的方法,其中,所述候选信息包括第一候选信息和第二候选信息,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
根据所述验证问题模板,添加答案标记到所述验证问题的第一候选信息或第二候选信息。
示例14包括一种数据处理方法,包括:
获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种;
确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素;
根据所述至少两个目标数据元素及其元素关系,生成验证问题;
提供所述验证问题。
示例15包括一种数据处理方法,包括:
获取搜索关键词;
根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
展示与所述广告文本元素对应的推荐信息。
示例16包括一种数据处理方法,包括:
获取主题关键词;
根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
提供所述主题文本元素。
示例17包括一种数据处理装置,包括:
解析模块,用于获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
选取模块,用于确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
生成模块,用于根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案;
展示模块,用于展示所述验证问题;
确定模块,用于接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
示例18包括一种数据处理装置,包括:
文本元素解析模块,用于获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
文本元素选取模块,用于确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
验证问题生成模块,用于根据所述至少两个目标文本元素及其语义关系,生成验证问题。
问题提供模块,用于提供所述验证问题。
示例19可包括示例18所述的装置,其中,所述语义关系包括相关关系,所述文本元素选取模块包括:
相关性数据确定子模块,用于确定在所述文本数据中文本元素之间的相关性数据;
第一关系确定子模块,用于根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
示例20可包括示例18和/或示例19所述的装置,其中,所述相关性数据确定子模块包括:
向量构建单元,用于为所述文本数据中的文本元素构建元素向量;
相关性数据确定单元,用于计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
示例21可包括示例18-示例20一个或多个所述的装置,其中,所述语义关系包括同义关系或上下位关系,所述文本元素选取模块包括:
关系库获取子模块,用于获取外部语义关系库;
第二关系确定子模块,用于根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
示例22可包括示例18-示例21一个或多个所述的装置,其中,所述装置还包括:
元素获取模块,用于从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。
示例23可包括示例18-示例22一个或多个所述的装置,其中,所述装置还包括:
频率确定模块,用于在所述根据所述语义关系选取至少两个目标文本元素之前,确定所述文本元素在文本数据中的频率信息;
候选确定模块,用于将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
示例24可包括示例18-示例23一个或多个所述的装置,其中,所述装置还包括:
违规识别模块,用于识别违规的候选文本元素;
违规剔除模块,用于从所述候选文本元素中剔除所述违规的候选文本元素;
示例25可包括示例18-示例24一个或多个所述的装置,其中,所述验证问题包括题目信息和第一候选信息,所述文本元素选取模块包括:
第一选取子模块,用于选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
示例26可包括示例18-示例25一个或多个所述的装置,其中,所述验证问题还包括第二候选信息,所述文本元素选取模块还包括:
第二选取子模块,用于选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
示例27可包括示例18-示例26一个或多个所述的装置,其中,所述验证问题生成模块包括:
模板选取子模块,用于根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板;
添加子模块,用于将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
示例28可包括示例18-示例27一个或多个所述的装置,其中,所述添加子模块包括:
添加单元,用于添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;
确定单元,用于将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
示例29可包括示例18-示例28一个或多个所述的装置,其中,所述候选信息包括第一候选信息和第二候选信息,所述添加单元包括:
添加子单元,用于根据所述验证问题模板,添加答案标记到所述验证问题的第一候选信息或第二候选信息。
示例30包括一种数据处理装置,包括:
元素解析模块,用于获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种;
元素选取模块,用于确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素;
问题生成模块,用于根据所述至少两个目标数据元素及其元素关系,生成验证问题;
问题提供模块,用于提供所述验证问题。
示例31包括一种数据处理装置,包括:
获取模块,用于获取搜索关键词。
查找模块,用于根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
信息展示模块,用于展示与所述广告文本元素对应的推荐信息。
示例32包括一种数据处理装置,包括:
获取模块,用于获取主题关键词。
查找模块,用于根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定。
主题提供模块,用于提供所述主题文本元素。
示例33包括一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如示例1-16一个或多个的方法。
示例34包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如示例1-16一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。
Claims (18)
1.一种数据处理方法,其特征在于,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题及答案;
展示所述验证问题;
接收来自客户端的输入,基于所述答案,确定所述输入是否通过验证。
2.一种数据处理方法,其特征在于,包括:
获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素;
确定所述文本元素之间的语义关系,根据所述语义关系选取至少两个目标文本元素;
根据所述至少两个目标文本元素及其语义关系,生成验证问题;
提供所述验证问题。
3.根据权利要求2所述的方法,其特征在于,所述语义关系包括相关关系,所述确定所述文本元素之间的语义关系包括:
确定在所述文本数据中文本元素之间的相关性数据;
根据所述相关性数据,确定语义相关的文本元素之间具有相关关系。
4.根据权利要求3所述的方法,其特征在于,所述确定所述文本数据中文本元素之间的相关性数据包括:
为所述文本数据中的文本元素构建元素向量;
计算所述元素向量之间的相关性数据,确定为所述文本数据中文本元素之间的相关性数据。
5.根据权利要求2所述的方法,其特征在于,所述语义关系包括同义关系或上下位关系,所述确定所述文本元素之间的语义关系包括:
获取外部语义关系库;
根据所述外部语义关系库,确定所述文本元素之间具有的同义关系或上下位关系。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
从所述外部语义关系库中,获取与所述文本数据中的文本元素具有同义关系的同义文本元素或具有上下位关系的上位文本元素/下位文本元素。
7.根据权利要求2所述的方法,其特征在于,在所述根据所述语义关系选取至少两个目标文本元素之前,所述方法还包括:
确定所述文本元素在文本数据中的频率信息;
将所述频率信息符合预设要求的文本元素确定为候选文本元素,以便从中选取所述目标文本元素。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
识别违规的候选文本元素;
从所述候选文本元素中剔除所述违规的候选文本元素。
9.根据权利要求2所述的方法,其特征在于,所述验证问题包括题目信息和第一候选信息,所述根据所述语义关系选取至少两个目标文本元素包括:
选取具有所述语义关系的第一目标文本元素和第二目标文本元素,其中,所述第一目标文本元素用于生成所述题目信息,所述第二目标文本元素用于生成所述第一候选信息。
10.根据权利要求9所述的方法,其特征在于,所述验证问题还包括第二候选信息,所述根据所述语义关系选取至少两个目标文本元素还包括:
选取与所述第一目标文本元素没有语义关系的第三目标文本元素,其中,所述第三目标文本元素用于生成所述第二候选信息。
11.根据权利要求2所述的方法,其特征在于,所述根据所述至少两个目标文本元素及其语义关系,生成验证问题包括:
根据所述目标文本元素之间的语义关系的关系类型,选取与所述关系类型对应的验证问题模板;
将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题。
12.根据权利要求11所述的方法,其特征在于,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
添加选取的第一目标文本元素到所述验证问题模板的设定位置,得到所述验证问题的题目信息;
将选取的与所述第一目标文本元素具有语义关系的第二目标文本元素,确定为所述验证问题的第一候选信息。
13.根据权利要求11所述的方法,其特征在于,所述候选信息包括第一候选信息和第二候选信息,所述将所述目标文本元素添加到所述验证问题模版中,得到所述验证问题包括:
根据所述验证问题模板,添加答案标记到所述验证问题的第一候选信息或第二候选信息。
14.一种数据处理方法,其特征在于,包括:
获取目标数据,解析所述目标数据获得组成所述目标数据的多个数据元素,其中,所述目标数据包括文本数据、音频数据、图片数据、视频数据中至少一种;
确定所述数据元素之间的元素关系,根据所述元素关系选取至少两个目标数据元素;
根据所述至少两个目标数据元素及其元素关系,生成验证问题;
提供所述验证问题。
15.一种数据处理方法,其特征在于,包括:
获取搜索关键词;
根据文本元素之间的语义关系,查找与所述搜索关键词具有语义关系的广告文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
展示与所述广告文本元素对应的推荐信息。
16.一种数据处理方法,其特征在于,包括:
获取主题关键词;
根据文本元素之间的语义关系,查找与所述主题关键词具有语义关系的主题文本元素,所述语义关系在获取文本数据,解析所述文本数据获得组成所述文本数据的多个文本元素之后确定;
提供所述主题文本元素。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-16一个或多个的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-16一个或多个的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637487.7A CN112231655B (zh) | 2019-07-15 | 2019-07-15 | 一种数据处理方法、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910637487.7A CN112231655B (zh) | 2019-07-15 | 2019-07-15 | 一种数据处理方法、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231655A true CN112231655A (zh) | 2021-01-15 |
CN112231655B CN112231655B (zh) | 2024-07-23 |
Family
ID=74111500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910637487.7A Active CN112231655B (zh) | 2019-07-15 | 2019-07-15 | 一种数据处理方法、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231655B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918923A (zh) * | 2021-10-29 | 2022-01-11 | 北京达佳互联信息技术有限公司 | 对象验证方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385765B1 (en) * | 1996-07-02 | 2002-05-07 | The Research Foundation | Specification and verification for concurrent systems with graphical and textual editors |
US20060053000A1 (en) * | 2004-05-11 | 2006-03-09 | Moldovan Dan I | Natural language question answering system and method utilizing multi-modal logic |
CN101179381A (zh) * | 2006-11-07 | 2008-05-14 | 阿里巴巴公司 | 一种验证信息的方法和装置 |
CN103530541A (zh) * | 2013-10-09 | 2014-01-22 | 绍兴数能网络技术开发有限公司 | 一种验证码生成方法及装置 |
CN103701600A (zh) * | 2013-12-13 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 一种输入验证方法及装置 |
CN104038502A (zh) * | 2014-06-24 | 2014-09-10 | 五八同城信息技术有限公司 | 一种验证方法及系统 |
US20150193428A1 (en) * | 2014-01-08 | 2015-07-09 | Electronics And Telecommunications Research Institute | Semantic frame operating method based on text big-data and electronic device supporting the same |
CN106340049A (zh) * | 2015-07-15 | 2017-01-18 | 中国传媒大学 | 一种基于动画语义的验证码产生方法 |
CN109033798A (zh) * | 2018-09-14 | 2018-12-18 | 北京金堤科技有限公司 | 一种基于语义的点选验证码识别方法及其装置 |
CN109815658A (zh) * | 2018-12-14 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种验证方法和装置、计算机设备以及计算机存储介质 |
-
2019
- 2019-07-15 CN CN201910637487.7A patent/CN112231655B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385765B1 (en) * | 1996-07-02 | 2002-05-07 | The Research Foundation | Specification and verification for concurrent systems with graphical and textual editors |
US20060053000A1 (en) * | 2004-05-11 | 2006-03-09 | Moldovan Dan I | Natural language question answering system and method utilizing multi-modal logic |
CN101179381A (zh) * | 2006-11-07 | 2008-05-14 | 阿里巴巴公司 | 一种验证信息的方法和装置 |
CN103530541A (zh) * | 2013-10-09 | 2014-01-22 | 绍兴数能网络技术开发有限公司 | 一种验证码生成方法及装置 |
CN103701600A (zh) * | 2013-12-13 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 一种输入验证方法及装置 |
US20150193428A1 (en) * | 2014-01-08 | 2015-07-09 | Electronics And Telecommunications Research Institute | Semantic frame operating method based on text big-data and electronic device supporting the same |
CN104038502A (zh) * | 2014-06-24 | 2014-09-10 | 五八同城信息技术有限公司 | 一种验证方法及系统 |
CN106340049A (zh) * | 2015-07-15 | 2017-01-18 | 中国传媒大学 | 一种基于动画语义的验证码产生方法 |
CN109033798A (zh) * | 2018-09-14 | 2018-12-18 | 北京金堤科技有限公司 | 一种基于语义的点选验证码识别方法及其装置 |
CN109815658A (zh) * | 2018-12-14 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种验证方法和装置、计算机设备以及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
杨梁彬: "文本检索的潜在语义索引法初探", 大学图书馆学报, no. 06 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918923A (zh) * | 2021-10-29 | 2022-01-11 | 北京达佳互联信息技术有限公司 | 对象验证方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112231655B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
CN109800386A (zh) | 突出显示文档内文本的关键部分 | |
US12026194B1 (en) | Query modification based on non-textual resource context | |
US9483462B2 (en) | Generating training data for disambiguation | |
US8538957B1 (en) | Validating translations using visual similarity between visual media search results | |
CN110991187A (zh) | 一种实体链接的方法、装置、电子设备及介质 | |
US10803614B1 (en) | Using multiple image verification challenges to determine object location in an image | |
CN110532469B (zh) | 一种信息推荐方法、装置、设备及存储介质 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN112732974A (zh) | 一种数据处理方法、电子设备及存储介质 | |
US10296635B2 (en) | Auditing and augmenting user-generated tags for digital content | |
CN113705792A (zh) | 基于深度学习模型的个性化推荐方法、装置、设备及介质 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
CN112231655B (zh) | 一种数据处理方法、计算机设备、存储介质 | |
CN110858244B (zh) | 一种验证方法、数据处理方法、计算机设备、存储介质 | |
CN114443938A (zh) | 多媒体信息的处理方法、装置、存储介质和处理器 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
CN113821677A (zh) | 一种生成封面图像的方法、装置、设备及存储介质 | |
CN113076453A (zh) | 域名分类方法、设备及计算机可读存储介质 | |
CN116483946B (zh) | 数据处理方法、装置、设备及计算机程序产品 | |
KR100882227B1 (ko) | 웹 페이지에 포함된 화상 데이터에 기초하여 인물 정보를제공하기 위한 방법, 시스템, 단말 장치 및 컴퓨터 판독가능한 기록 매체 | |
CN112445921A (zh) | 摘要生成方法和装置 | |
JP2020016960A (ja) | 推定装置、推定方法及び推定プログラム | |
CN112015999A (zh) | 风险提示方法、信息提示方法、计算机设备、存储介质 | |
CN110502698B (zh) | 一种信息推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |