CN105574038B - 基于反识别渲染的文本内容识别率测试方法及装置 - Google Patents

基于反识别渲染的文本内容识别率测试方法及装置 Download PDF

Info

Publication number
CN105574038B
CN105574038B CN201410549089.7A CN201410549089A CN105574038B CN 105574038 B CN105574038 B CN 105574038B CN 201410549089 A CN201410549089 A CN 201410549089A CN 105574038 B CN105574038 B CN 105574038B
Authority
CN
China
Prior art keywords
keyword
test sample
content
discrimination
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410549089.7A
Other languages
English (en)
Other versions
CN105574038A (zh
Inventor
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410549089.7A priority Critical patent/CN105574038B/zh
Publication of CN105574038A publication Critical patent/CN105574038A/zh
Application granted granted Critical
Publication of CN105574038B publication Critical patent/CN105574038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种基于反识别渲染的文本内容识别率测试方法及装置,所述方法包括:接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。本发明的基于反识别渲染的文本内容识别率测试方法及装置,可实时地对文本内容识别的有效性算法进行测试评估,以通过该测试结果对文本内容识别算法进行优化,不仅提升了文本内容识别算法优化的及时性,也大大的节约了人力成本。

Description

基于反识别渲染的文本内容识别率测试方法及装置
技术领域
本发明属于计算机技术领域,具体涉及一种基于反识别渲染的文本内容识别率测试方法及装置。
背景技术
随着计算机技术的飞速发展,互联网技术应用中,很多场景都需要对文本内容进行识别,例如舆情识别,其用于收集各种社交媒体渠道的实时信息,并对信息的文本内容进行识别。
然而,在现有技术中,缺少对文本内容识别算法的测试体系,尤其是对反识别渲染后的文本内容识别算法缺少测试体系,导致每次对文本内容识别算法优化后,无法测试其识别效果是否提升,只能依靠人为的经验对其做出判断后,不断尝试对文本内容识别算法进行修改,费时费力。
发明内容
本发明的目的在于提供一种基于反识别渲染的文本内容识别率测试方法及装置。
为实现上述发明目的之一,本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试方法,其包括:
接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;
通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
“接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合”具体包括:
接收关键词;
根据反识别模板将所述关键词渲染为识别率测试样本,所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。
作为本发明一实施方式的进一步改进,所述方法还包括:
接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;
通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
作为本发明一实施方式的进一步改进,“接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括:
接收与所述关键词对应的误报关键词;
根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
作为本发明一实施方式的进一步改进,“接收与所述关键词对应的误报关键词”具体包括:
对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。
作为本发明一实施方式的进一步改进,所述方法还包括计算所述反识别渲染文本内容的识别有效性,
所述识别有效性=[识别率+(1-误报率)]/2。
为实现上述发明目的之一,本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试装置,其包括:样本获取模块,用于接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;
计算模块,用于通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
作为本发明一实施方式的进一步改进,所述样本获取模块用于:接收关键词;
根据反识别模板将所述关键词渲染为识别率测试样本,所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。
作为本发明一实施方式的进一步改进,所述样本获取模块还用于:
接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;
所述计算模块还用于:通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
作为本发明一实施方式的进一步改进,所述样本获取模块还具体用于:接收与所述关键词对应的误报关键词;
根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
作为本发明一实施方式的进一步改进,所述样本获取模块还具体用于:对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。
作为本发明一实施方式的进一步改进,所述计算模块还用于:计算所述反识别渲染文本内容的识别有效性,所述识别有效性=[识别率+(1-误报率)]/2。
与现有技术相比,本发明的有益效果是:本发明的基于反识别渲染的文本内容识别率测试方法及装置,可实时地对文本内容识别的有效性算法进行测试评估,以通过该测试结果对文本内容识别算法进行优化,不仅提升了文本内容识别算法优化的及时性,也大大的节约了人力成本。
附图说明
图1是本发明一实施方式中基于反识别渲染的文本内容识别率测试方法的流程示意图;
图2是本发明一实施方式的基于反识别渲染的文本内容识别率测试装置的模块示意图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,在本发明一实施方式中,所述基于反识别渲染的文本内容识别率测试方法包括:
接收关键词和与所述关键词对应的识别率测试样本。
具体的,接收关键词;所述关键词为一些网络上的出现的词汇,例如敏感词汇,当其在网络上出现时,可通过网络抓取或人为添加获得该关键词。例如:所述关键词为“支付宝”“发票”“老虎”“迷药”“办证”“六四”等。
在通过网络自动获得关键词后,可将这些关键词存储至关键词数据库,通常情况下,所述关键词数据库中存储的关键词越多,最终对识别率、误报率、算法有效性的评测就越精确。
在本实施方式中,所述识别率测试样本为所述关键词和反识别元素的组合。
具体的,根据反识别模板可将所述关键词渲染为识别率测试样本。其中,所述反识别模板是模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中,采用反识别数据库来存储所述反识别模板,所述反识别数据库可通过人为进行扩充,所述反识别模板越多,最终的算法有效性的评测就越精确。同时,采用关键字与反识别模版渲染的方式,可模拟未来可能出现的多种“反识别”模式,指导文本内容识别算法能够在问题爆发前,就进行调优。
以下列举一具体示例进行说明。
例如:原始内容为:“通过支付宝进行交易,联系电话【138XXXXXXXX,张】”;为了避免识别出“支付宝”这个关键词后将该内容屏蔽或处理,发布上述内容方会对其进行反识别渲染形成反识别内容,例如:“通过*#&支%@.付.&¥宝进行交易,联系电话【138XXXXXXXX,张】”,相应的,该反识别内容的反识别模板为:*#&{0}%@.{1-}.&¥{2-},其中,“*”“#”“&”“%”“@”“.”“¥”为反识别元素,所述反识别元素与所述关键词的对应关系解析为:“{}”中的内容分别对应所述关键词中的字或词。如此,根据所述反识别模板“*#&{0}%@.{1-}.&¥{2-}”将所述关键词“支付宝”进行渲染后,即可形成的识别率测试样本为:“*#&支%@.付.&¥宝”。如此可知,通过构建多个反识别模板,即可对一个关键词获得多个识别率测试样本。
进一步的,通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
例如:关键字为:“支付宝”,反识别模板为:*#&{0}%@.{1-}.&¥{2-},相应的,生成的识别率测试样本为:“*#&支%@.付.&¥宝”,通过文本内容识别算法计算后,判断识别率测试样本为:“*#&支%@.付.&¥宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,识别率测试样本被成功识别;相应的,所述成功识别数量相应增加。
举例说明,按照上述算法,对一个关键词随机抽取20个识别率测试样本,通过文本内容识别算法计算后,其中有17个识别率测试样本中的关键字被还原,那么,所述成功识别数为17,识别率测试样本的数量为20;所述识别率为17/20。进一步的,在本实施方式中,所述基于反识别渲染的文本内容识别率测试方法还包括:
接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本。
具体的,可对接收到的关键词进行组词,以将所述关键词生成为至少一个误报关键词。
在本实施方式中,可将所述关键词进行拆分,再对各个字或词进行组词造句,生成误报关键词。例如:关键词为:“支付宝”,通过解析,将“支”扩展为“支持”,将“付”扩展为“赔付”,将“报”扩展为“夺宝”,之后将上述词语进行组后,得出关键词“支付宝”对应的其中一个误报关键词为:“支持赔付夺宝”。进一步的,采用误报关键词数据库存储所述误报关键词,通常情况下,所述误报关键词数据库中存储的误报关键词越多,最终的算法的误报率、有效性的测试结果就越精确。
优选的,所述误报率测试样本为所述误报关键词和反识别元素的组合。
具体的,根据反识别模板将所述误报关键词渲染为误报率测试样本。
相应的,所述反识别模板模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述误报关键词的对应关系。
例如:反识别模板为:*#&{0}%@.{1-}.&¥{2-},其中,“*”“#”“&”“%”“@”“.”“¥”为反识别元素,所述反识别元素与所述误报关键词的对应关系解析为:“{}”中的内容分别对应所述误报关键词中的字或词。如此,根据所述反识别模板“*#&{0}%@.{1-}.&¥{2-}”将所述误报关键词“支持赔付夺宝”进行渲染后,形成的误报率测试样本为:“*#&支%@.持.&¥赔付夺宝”。
进一步的,可通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
例如:关键字为:“支付宝”,通过解析后,其对应的其中一个误报关键词为“支持赔付夺宝”,反识别模板为:*#&{0}%@.{1-}.&¥{2-},相应的,生成的误报率测试样本为:“*#&支%@.持.&¥赔付夺宝”,通过文本内容识别算法计算后,判断识别率测试样本:“*#&支%@.持.&¥赔付夺宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,误报率测试样本被成功识别;相应的,所述误识别数量相应增加。
举例说明,按照上述算法,对一个误报关键词随机抽取20个误报率测试样本,通过文本内容识别算法计算后,其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字,那么,所述误识别数为2,误报率测试样本的数量为20;所述误报率为2/20。
进一步的,在本实施方式中,还可计算所述反识别渲染文本内容的识别有效性,所述识别有效性=[识别率+(1-误报率)]/2。
如上述例子,所述识别有效性=[17/20+(1-2/20)]/2。
进一步的,可以设置一系统阈值,将所述识别有效性与所述系统阈值做比较,若所述识别有效性大于所述系统阈值,则判断运行正常;若所述识别有效性小于所述系统阈值,则可对所述文本内容识别算法进行相应修改。
通过上述基于反识别渲染的文本内容识别率测试方法,可在每次文本内容识别算法优化后,检测其客观的优化程度,同时,还可分析未成功识别的识别率测试样本和成功识别的误报率测试样本,以进一步地更新所述文本内容识别算法。
结合图2所示,本发明一实施方式中,所述基于反识别渲染的文本内容识别率测试装置包括:样本获取模块100,计算模块200。
样本获取模块100用于接收关键词和与所述关键词对应的识别率测试样本。
具体的,样本获取模块100接收关键词;所述关键词为一些网络上的出现的词汇,例如敏感词汇,当其在网络上出现时,可通过网络抓取或人为添加获得该关键词。例如:所述关键词为“支付宝”“发票”“老虎”“迷药”“办证”“六四”等。
样本获取模块100在通过网络自动获得关键词后,可将这些关键词存储至关键词数据库,通常情况下,所述关键词数据库中存储的关键词越多,最终对识别率、误报率、算法有效性的评测就越精确。
在本实施方式中,所述识别率测试样本为所述关键词和反识别元素的组合。
具体的,样本获取模块100用于根据反识别模板可将所述关键词渲染为识别率测试样本。其中,所述反识别模板是模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中,采用反识别数据库来存储所述反识别模板,所述反识别数据库可通过人为进行扩充,所述反识别模板越多,最终的算法有效性的评测就越精确。同时,采用关键词与反识别模版渲染的方式,可模拟未来可能出现的多种“反识别”模式,指导文本内容识别算法能够在问题爆发前,就进行调优。
以下列举一具体示例进行说明。
例如:原始内容为:“通过支付宝进行交易,联系电话【138XXXXXXXX,张】”;为了避免识别出“支付宝”这个关键词后将该内容屏蔽或处理,发布上述内容方会对其进行反识别渲染形成反识别内容,例如:“通过*#&支%@.付.&¥宝进行交易,联系电话【138XXXXXXXX,张】”,相应的,该反识别内容的反识别模板为:*#&{0}%@.{1-}.&¥{2-},其中,“*”“#”“&”“%”“@”“.”“¥”为反识别元素,所述反识别元素与所述关键词的对应关系解析为:“{}”中的内容分别对应所述关键词中的字或词。如此,根据所述反识别模板“*#&{0}%@.{1-}.&¥{2-}”将所述关键词“支付宝”进行渲染后,即可形成的识别率测试样本为:“*#&支%@.付.&¥宝”。如此可知,通过构建多个反识别模板,即可对一个关键词获得多个识别率测试样本。
进一步的,计算模块200通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
例如:关键字为:“支付宝”,反识别模板为:*#&{0}%@.{1-}.&¥{2-},相应的,生成的识别率测试样本为:“*#&支%@.付.&¥宝”,通过文本内容识别算法计算后,判断识别率测试样本为:“*#&支%@.付.&¥宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,识别率测试样本被成功识别;所述成功识别数量相应增加。
举例说明,例如:计算模块200对一个关键词随机抽取20个识别率测试样本,通过文本内容识别算法计算后,其中有17个识别率测试样本中的关键字被还原,那么,所述成功识别数为17,识别率测试样本的数量为20;所述识别率为17/20。
进一步的,样本获取模块100还用于接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本。
具体的,样本获取模块100可对接收到的关键词进行组词,以将所述关键词生成为至少一个误报关键词。
在本实施方式中,样本获取模块100可将所述关键词进行拆分后,再对各个字或词进行组词造句,生成误报关键词。例如:关键词为:“支付宝”,通过解析,将“支”扩展为“支持”,将“付”扩展为“赔付”,将“报”扩展为“夺宝”,之后将上述词语进行组后,得出关键词“支付宝”对应的其中一个误报关键词为:“支持赔付夺宝”。进一步的,采用误报关键词数据库存储所述误报关键词,通常情况下,所述误报关键词数据库中存储的误报关键词越多,最终的算法的误报率、有效性的测试结果就越精确。
优选的,所述误报率测试样本为所述误报关键词和反识别元素的组合。
具体的,样本获取模块100用于根据反识别模板将所述误报关键词渲染为误报率测试样本。
相应的,所述反识别模板模拟针对文本内容的反识别行为,其包括反识别元素及反识别元素与所述误报关键词的对应关系。
例如:反识别模板为:*#&{0}%@.{1-}.&¥{2-},其中,“*”“#”“&”“%”“@”“.”“¥”为反识别元素,所述反识别元素与所述误报关键词的对应关系解析为:“{}”中的内容分别对应所述误报关键词中的字或词。如此,根据所述反识别模板“*#&{0}%@.{1-}.&¥{2-}”将所述误报关键词“支持赔付夺宝”进行渲染后,形成的误报率测试样本为:“*#&支%@.持.&¥赔付夺宝”
进一步的,计算模块200还可用于通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
例如:关键字为:“支付宝”,通过解析后,其对应的其中一个误报关键词为“支持赔付夺宝”,反识别模板为:*#&{0}%@.{1-}.&¥{2-},相应的,生成的误报率测试样本为:“*#&支%@.持.&¥赔付夺宝”,通过文本内容识别算法计算后,判断识别率测试样本:“*#&支%@.持.&¥赔付夺宝”是否被识别为关键词“支付宝”,如果识别为“支付宝”,则表示通过文本内容识别算法计算后,误报率测试样本被成功识别;相应的,所述误识别数量相应增加。
举例说明,例如:计算模块200对一个误报关键词随机抽取20个误报率测试样本,通过文本内容识别算法计算后,其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字,那么,所述误识别数为2,误报率测试样本的数量为20;所述误报率为2/20。
进一步的,在本实施方式中,计算模块200还可用于计算所述反识别渲染文本内容的识别有效性,所述识别有效性=[识别率+(1-误报率)]/2。
如上述例子中,所述识别有效性=[17/20+(1-2/20)]/2。
进一步的,可以设置一系统阈值,将所述识别有效性与所述系统阈值做比较,若所述识别有效性大于所述系统阈值,则判断运行正常;若所述识别有效性小于所述系统阈值,则可对所述文本内容识别算法进行相应修改。
综上所述,本发明的基于反识别渲染的文本内容识别率测试方法及装置,可实时地对文本内容识别的有效性算法进行测试评估,以通过该测试结果对文本内容识别算法进行优化,不仅提升了文本内容识别算法优化的及时性,也大大的节约了人力成本。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以2个或2个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施方式所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims (12)

1.一种基于反识别渲染的文本内容识别率测试方法,其特征在于,所述方法包括:
接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合,所述反识别元素为避免识别出所述关键词所添加的字符;
通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
2.根据权利要求1所述的基于反识别渲染的文本内容识别率测试方法,其特征在于,“接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合”具体包括:
接收关键词;
根据反识别模板将所述关键词渲染为识别率测试样本,所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。
3.根据权利要求1所述的基于反识别渲染的文本内容识别率测试方法,其特征在于,所述方法还包括:
接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;
通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
4.根据权利要求3所述的基于反识别渲染的文本内容识别率测试方法,其特征在于,“接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括:
接收与所述关键词对应的误报关键词;
根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
5.根据权利要求4所述的基于反识别渲染的文本内容识别率测试方法,其特征在于,“接收与所述关键词对应的误报关键词”具体包括:
对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。
6.根据权利要求3所述的基于反识别渲染的文本内容识别率测试方法,其特征在于,所述方法还包括计算所述反识别渲染文本内容的识别有效性,
所述识别有效性=[识别率+(1-误报率)]/2。
7.一种基于反识别渲染的文本内容识别率测试装置,其特征在于,所述装置包括:
样本获取模块,用于接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合,所述反识别元素为避免识别出所述关键词所添加的字符;
计算模块,用于通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。
8.根据权利要求7所述的基于反识别渲染的文本内容识别率测试装置,其特征在于,所述样本获取模块用于:
接收关键词;
根据反识别模板将反识别元素及反识别元素与所述关键词的对应关系。
9.根据权利要求7所述的基于反识别渲染的文本内容识别率测试装置,其特征在于,
所述样本获取模块还用于:接收与所述关键词对应的误报关键所述关键词渲染为识别率测试样本,所述反识别模板包括
词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;
所述计算模块还用于:通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。
10.根据权利要求9所述的基于反识别渲染的文本内容识别率测试装置,其特征在于,所述样本获取模块还具体用于:
接收与所述关键词对应的误报关键词;
根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。
11.根据权利要求10所述的基于反识别渲染的文本内容识别率测试装置,其特征在于,所述样本获取模块还具体用于:
对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。
12.根据权利要求11所述的基于反识别渲染的文本内容识别率测试装置,其特征在于,所述计算模块还用于:
计算所述反识别渲染文本内容的识别有效性,所述识别有效性=[识别率+(1-误报率)]/2。
CN201410549089.7A 2014-10-16 2014-10-16 基于反识别渲染的文本内容识别率测试方法及装置 Active CN105574038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410549089.7A CN105574038B (zh) 2014-10-16 2014-10-16 基于反识别渲染的文本内容识别率测试方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410549089.7A CN105574038B (zh) 2014-10-16 2014-10-16 基于反识别渲染的文本内容识别率测试方法及装置

Publications (2)

Publication Number Publication Date
CN105574038A CN105574038A (zh) 2016-05-11
CN105574038B true CN105574038B (zh) 2019-03-01

Family

ID=55884181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410549089.7A Active CN105574038B (zh) 2014-10-16 2014-10-16 基于反识别渲染的文本内容识别率测试方法及装置

Country Status (1)

Country Link
CN (1) CN105574038B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516370A (zh) * 2017-08-25 2017-12-26 四川长虹电器股份有限公司 一种票据识别的自动化测试及评价方法
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
US8489689B1 (en) * 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
CN103514393A (zh) * 2012-06-20 2014-01-15 上海市上海中学 一种三维验证码的实现方法
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489689B1 (en) * 2006-05-31 2013-07-16 Proofpoint, Inc. Apparatus and method for obfuscation detection within a spam filtering model
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
CN103514393A (zh) * 2012-06-20 2014-01-15 上海市上海中学 一种三维验证码的实现方法
CN103605658A (zh) * 2013-10-14 2014-02-26 北京航空航天大学 一种基于文本情感分析的搜索引擎系统
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及系统

Also Published As

Publication number Publication date
CN105574038A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN111784502B (zh) 异常交易账户群体识别方法及装置
CN110992167B (zh) 银行客户业务意图识别方法及装置
CN111107048B (zh) 一种钓鱼网站检测方法、装置和存储介质
CN109410036A (zh) 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN107563757B (zh) 数据风险识别的方法及装置
CN106296195A (zh) 一种风险识别方法及装置
CN106372132A (zh) 基于人工智能的查询意图预测方法和装置
CN111199474A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111222976A (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN110609908A (zh) 案件串并方法及装置
CN111221960A (zh) 文本检测方法、相似度计算方法、模型训练方法及装置
CN113205403A (zh) 一种企业信用等级的计算方法、装置、存储介质及终端
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN107944866B (zh) 交易记录排重方法及计算机可读存储介质
CN117036843A (zh) 目标检测模型训练方法、目标检测方法和装置
CN117688155A (zh) 业务问题的回复方法、装置、存储介质以及电子设备
CN112241458A (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN105574038B (zh) 基于反识别渲染的文本内容识别率测试方法及装置
CN110633919A (zh) 经营实体的评估方法及其装置
CN112819175B (zh) 非法所得合法化账户识别方法、装置、设备及存储介质
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN110032596B (zh) 流量异常用户识别方法及系统
CN113469816A (zh) 基于多组学技术的数字货币识别方法、系统和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right