CN105574038B

CN105574038B - 基于反识别渲染的文本内容识别率测试方法及装置

Info

Publication number: CN105574038B
Application number: CN201410549089.7A
Authority: CN
Inventors: 张翔
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2014-10-16
Filing date: 2014-10-16
Publication date: 2019-03-01
Anticipated expiration: 2034-10-16
Also published as: CN105574038A

Abstract

本发明提供一种基于反识别渲染的文本内容识别率测试方法及装置，所述方法包括：接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合；通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率＝成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。本发明的基于反识别渲染的文本内容识别率测试方法及装置，可实时地对文本内容识别的有效性算法进行测试评估，以通过该测试结果对文本内容识别算法进行优化，不仅提升了文本内容识别算法优化的及时性，也大大的节约了人力成本。

Description

基于反识别渲染的文本内容识别率测试方法及装置

技术领域

本发明属于计算机技术领域，具体涉及一种基于反识别渲染的文本内容识别率测试方法及装置。

背景技术

随着计算机技术的飞速发展，互联网技术应用中，很多场景都需要对文本内容进行识别，例如舆情识别，其用于收集各种社交媒体渠道的实时信息，并对信息的文本内容进行识别。

然而，在现有技术中，缺少对文本内容识别算法的测试体系，尤其是对反识别渲染后的文本内容识别算法缺少测试体系，导致每次对文本内容识别算法优化后，无法测试其识别效果是否提升，只能依靠人为的经验对其做出判断后，不断尝试对文本内容识别算法进行修改，费时费力。

发明内容

本发明的目的在于提供一种基于反识别渲染的文本内容识别率测试方法及装置。

为实现上述发明目的之一，本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试方法，其包括：

接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合；

通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率＝成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。

“接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合”具体包括：

接收关键词；

根据反识别模板将所述关键词渲染为识别率测试样本，所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。

作为本发明一实施方式的进一步改进，所述方法还包括：

接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合；

通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率＝误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。

作为本发明一实施方式的进一步改进，“接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括：

接收与所述关键词对应的误报关键词；

根据反识别模板将所述误报关键词渲染为误报率测试样本，所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。

作为本发明一实施方式的进一步改进，“接收与所述关键词对应的误报关键词”具体包括：

对所述关键词中的至少一个字进行组词，以将所述关键词生成为至少一个误报关键词。

作为本发明一实施方式的进一步改进，所述方法还包括计算所述反识别渲染文本内容的识别有效性，

所述识别有效性＝[识别率+(1-误报率)]/2。

为实现上述发明目的之一，本发明一实施方式提供了一种基于反识别渲染的文本内容识别率测试装置，其包括：样本获取模块，用于接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合；

计算模块，用于通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率＝成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。

作为本发明一实施方式的进一步改进，所述样本获取模块用于：接收关键词；

作为本发明一实施方式的进一步改进，所述样本获取模块还用于：

所述计算模块还用于：通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率＝误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。

作为本发明一实施方式的进一步改进，所述样本获取模块还具体用于：接收与所述关键词对应的误报关键词；

作为本发明一实施方式的进一步改进，所述样本获取模块还具体用于：对所述关键词中的至少一个字进行组词，以将所述关键词生成为至少一个误报关键词。

作为本发明一实施方式的进一步改进，所述计算模块还用于：计算所述反识别渲染文本内容的识别有效性，所述识别有效性＝[识别率+(1-误报率)]/2。

与现有技术相比，本发明的有益效果是：本发明的基于反识别渲染的文本内容识别率测试方法及装置，可实时地对文本内容识别的有效性算法进行测试评估，以通过该测试结果对文本内容识别算法进行优化，不仅提升了文本内容识别算法优化的及时性，也大大的节约了人力成本。

附图说明

图1是本发明一实施方式中基于反识别渲染的文本内容识别率测试方法的流程示意图；

图2是本发明一实施方式的基于反识别渲染的文本内容识别率测试装置的模块示意图。

具体实施方式

以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，在本发明一实施方式中，所述基于反识别渲染的文本内容识别率测试方法包括：

接收关键词和与所述关键词对应的识别率测试样本。

具体的，接收关键词；所述关键词为一些网络上的出现的词汇，例如敏感词汇，当其在网络上出现时，可通过网络抓取或人为添加获得该关键词。例如：所述关键词为“支付宝”“发票”“老虎”“迷药”“办证”“六四”等。

在通过网络自动获得关键词后，可将这些关键词存储至关键词数据库，通常情况下，所述关键词数据库中存储的关键词越多，最终对识别率、误报率、算法有效性的评测就越精确。

在本实施方式中，所述识别率测试样本为所述关键词和反识别元素的组合。

具体的，根据反识别模板可将所述关键词渲染为识别率测试样本。其中，所述反识别模板是模拟针对文本内容的反识别行为，其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中，采用反识别数据库来存储所述反识别模板，所述反识别数据库可通过人为进行扩充，所述反识别模板越多，最终的算法有效性的评测就越精确。同时，采用关键字与反识别模版渲染的方式，可模拟未来可能出现的多种“反识别”模式，指导文本内容识别算法能够在问题爆发前，就进行调优。

以下列举一具体示例进行说明。

例如：原始内容为：“通过支付宝进行交易，联系电话【138XXXXXXXX，张】”；为了避免识别出“支付宝”这个关键词后将该内容屏蔽或处理，发布上述内容方会对其进行反识别渲染形成反识别内容，例如：“通过*#&支％@.付.&￥宝进行交易，联系电话【138XXXXXXXX，张】”，相应的，该反识别内容的反识别模板为：*#&{0}％@.{1-}.&￥{2-}，其中，“*”“#”“&”“％”“@”“.”“￥”为反识别元素，所述反识别元素与所述关键词的对应关系解析为：“{}”中的内容分别对应所述关键词中的字或词。如此，根据所述反识别模板“*#&{0}％@.{1-}.&￥{2-}”将所述关键词“支付宝”进行渲染后，即可形成的识别率测试样本为：“*#&支％@.付.&￥宝”。如此可知，通过构建多个反识别模板，即可对一个关键词获得多个识别率测试样本。

进一步的，通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率＝成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。

例如：关键字为：“支付宝”，反识别模板为：*#&{0}％@.{1-}.&￥{2-}，相应的，生成的识别率测试样本为：“*#&支％@.付.&￥宝”，通过文本内容识别算法计算后，判断识别率测试样本为：“*#&支％@.付.&￥宝”是否被识别为关键词“支付宝”，如果识别为“支付宝”，则表示通过文本内容识别算法计算后，识别率测试样本被成功识别；相应的，所述成功识别数量相应增加。

举例说明，按照上述算法，对一个关键词随机抽取20个识别率测试样本，通过文本内容识别算法计算后，其中有17个识别率测试样本中的关键字被还原，那么，所述成功识别数为17，识别率测试样本的数量为20；所述识别率为17/20。进一步的，在本实施方式中，所述基于反识别渲染的文本内容识别率测试方法还包括：

接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本。

具体的，可对接收到的关键词进行组词，以将所述关键词生成为至少一个误报关键词。

在本实施方式中，可将所述关键词进行拆分，再对各个字或词进行组词造句，生成误报关键词。例如：关键词为：“支付宝”，通过解析，将“支”扩展为“支持”，将“付”扩展为“赔付”，将“报”扩展为“夺宝”，之后将上述词语进行组后，得出关键词“支付宝”对应的其中一个误报关键词为：“支持赔付夺宝”。进一步的，采用误报关键词数据库存储所述误报关键词，通常情况下，所述误报关键词数据库中存储的误报关键词越多，最终的算法的误报率、有效性的测试结果就越精确。

优选的，所述误报率测试样本为所述误报关键词和反识别元素的组合。

具体的，根据反识别模板将所述误报关键词渲染为误报率测试样本。

相应的，所述反识别模板模拟针对文本内容的反识别行为，其包括反识别元素及反识别元素与所述误报关键词的对应关系。

例如：反识别模板为：*#&{0}％@.{1-}.&￥{2-}，其中，“*”“#”“&”“％”“@”“.”“￥”为反识别元素，所述反识别元素与所述误报关键词的对应关系解析为：“{}”中的内容分别对应所述误报关键词中的字或词。如此，根据所述反识别模板“*#&{0}％@.{1-}.&￥{2-}”将所述误报关键词“支持赔付夺宝”进行渲染后，形成的误报率测试样本为：“*#&支％@.持.&￥赔付夺宝”。

进一步的，可通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率＝误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。

例如：关键字为：“支付宝”，通过解析后，其对应的其中一个误报关键词为“支持赔付夺宝”，反识别模板为：*#&{0}％@.{1-}.&￥{2-}，相应的，生成的误报率测试样本为：“*#&支％@.持.&￥赔付夺宝”，通过文本内容识别算法计算后，判断识别率测试样本：“*#&支％@.持.&￥赔付夺宝”是否被识别为关键词“支付宝”，如果识别为“支付宝”，则表示通过文本内容识别算法计算后，误报率测试样本被成功识别；相应的，所述误识别数量相应增加。

举例说明，按照上述算法，对一个误报关键词随机抽取20个误报率测试样本，通过文本内容识别算法计算后，其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字，那么，所述误识别数为2，误报率测试样本的数量为20；所述误报率为2/20。

进一步的，在本实施方式中，还可计算所述反识别渲染文本内容的识别有效性，所述识别有效性＝[识别率+(1-误报率)]/2。

如上述例子，所述识别有效性＝[17/20+(1-2/20)]/2。

进一步的，可以设置一系统阈值，将所述识别有效性与所述系统阈值做比较，若所述识别有效性大于所述系统阈值，则判断运行正常；若所述识别有效性小于所述系统阈值，则可对所述文本内容识别算法进行相应修改。

通过上述基于反识别渲染的文本内容识别率测试方法，可在每次文本内容识别算法优化后，检测其客观的优化程度，同时，还可分析未成功识别的识别率测试样本和成功识别的误报率测试样本，以进一步地更新所述文本内容识别算法。

结合图2所示，本发明一实施方式中，所述基于反识别渲染的文本内容识别率测试装置包括：样本获取模块100，计算模块200。

样本获取模块100用于接收关键词和与所述关键词对应的识别率测试样本。

具体的，样本获取模块100接收关键词；所述关键词为一些网络上的出现的词汇，例如敏感词汇，当其在网络上出现时，可通过网络抓取或人为添加获得该关键词。例如：所述关键词为“支付宝”“发票”“老虎”“迷药”“办证”“六四”等。

样本获取模块100在通过网络自动获得关键词后，可将这些关键词存储至关键词数据库，通常情况下，所述关键词数据库中存储的关键词越多，最终对识别率、误报率、算法有效性的评测就越精确。

具体的，样本获取模块100用于根据反识别模板可将所述关键词渲染为识别率测试样本。其中，所述反识别模板是模拟针对文本内容的反识别行为，其包括反识别元素及反识别元素与所述关键词的对应关系。本发明一实施方式中，采用反识别数据库来存储所述反识别模板，所述反识别数据库可通过人为进行扩充，所述反识别模板越多，最终的算法有效性的评测就越精确。同时，采用关键词与反识别模版渲染的方式，可模拟未来可能出现的多种“反识别”模式，指导文本内容识别算法能够在问题爆发前，就进行调优。

以下列举一具体示例进行说明。

进一步的，计算模块200通过文本内容识别算法计算所述识别率测试样本，以获得所述关键词对应的识别率，其中，所述识别率＝成功识别数/识别率测试样本的数量，所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。

例如：关键字为：“支付宝”，反识别模板为：*#&{0}％@.{1-}.&￥{2-}，相应的，生成的识别率测试样本为：“*#&支％@.付.&￥宝”，通过文本内容识别算法计算后，判断识别率测试样本为：“*#&支％@.付.&￥宝”是否被识别为关键词“支付宝”，如果识别为“支付宝”，则表示通过文本内容识别算法计算后，识别率测试样本被成功识别；所述成功识别数量相应增加。

举例说明，例如：计算模块200对一个关键词随机抽取20个识别率测试样本，通过文本内容识别算法计算后，其中有17个识别率测试样本中的关键字被还原，那么，所述成功识别数为17，识别率测试样本的数量为20；所述识别率为17/20。

进一步的，样本获取模块100还用于接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本。

具体的，样本获取模块100可对接收到的关键词进行组词，以将所述关键词生成为至少一个误报关键词。

在本实施方式中，样本获取模块100可将所述关键词进行拆分后，再对各个字或词进行组词造句，生成误报关键词。例如：关键词为：“支付宝”，通过解析，将“支”扩展为“支持”，将“付”扩展为“赔付”，将“报”扩展为“夺宝”，之后将上述词语进行组后，得出关键词“支付宝”对应的其中一个误报关键词为：“支持赔付夺宝”。进一步的，采用误报关键词数据库存储所述误报关键词，通常情况下，所述误报关键词数据库中存储的误报关键词越多，最终的算法的误报率、有效性的测试结果就越精确。

具体的，样本获取模块100用于根据反识别模板将所述误报关键词渲染为误报率测试样本。

例如：反识别模板为：*#&{0}％@.{1-}.&￥{2-}，其中，“*”“#”“&”“％”“@”“.”“￥”为反识别元素，所述反识别元素与所述误报关键词的对应关系解析为：“{}”中的内容分别对应所述误报关键词中的字或词。如此，根据所述反识别模板“*#&{0}％@.{1-}.&￥{2-}”将所述误报关键词“支持赔付夺宝”进行渲染后，形成的误报率测试样本为：“*#&支％@.持.&￥赔付夺宝”

进一步的，计算模块200还可用于通过文本内容识别算法计算所述误报率测试样本，以获得所述关键词对应的误报率，其中，所述误报率＝误识别数/误报率测试样本的数量，所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。

举例说明，例如：计算模块200对一个误报关键词随机抽取20个误报率测试样本，通过文本内容识别算法计算后，其中有2个误报率测试样本中的所述误报关键字被还原为所述关键字，那么，所述误识别数为2，误报率测试样本的数量为20；所述误报率为2/20。

进一步的，在本实施方式中，计算模块200还可用于计算所述反识别渲染文本内容的识别有效性，所述识别有效性＝[识别率+(1-误报率)]/2。

如上述例子中，所述识别有效性＝[17/20+(1-2/20)]/2。

综上所述，本发明的基于反识别渲染的文本内容识别率测试方法及装置，可实时地对文本内容识别的有效性算法进行测试评估，以通过该测试结果对文本内容识别算法进行优化，不仅提升了文本内容识别算法优化的及时性，也大大的节约了人力成本。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以2个或2个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施方式所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种基于反识别渲染的文本内容识别率测试方法，其特征在于，所述方法包括：

接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合，所述反识别元素为避免识别出所述关键词所添加的字符；

2.根据权利要求1所述的基于反识别渲染的文本内容识别率测试方法，其特征在于，“接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合”具体包括：

接收关键词；

3.根据权利要求1所述的基于反识别渲染的文本内容识别率测试方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的基于反识别渲染的文本内容识别率测试方法，其特征在于，“接收与所述关键词对应的误报关键词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括：

接收与所述关键词对应的误报关键词；

5.根据权利要求4所述的基于反识别渲染的文本内容识别率测试方法，其特征在于，“接收与所述关键词对应的误报关键词”具体包括：

6.根据权利要求3所述的基于反识别渲染的文本内容识别率测试方法，其特征在于，所述方法还包括计算所述反识别渲染文本内容的识别有效性，

所述识别有效性＝[识别率+(1-误报率)]/2。

7.一种基于反识别渲染的文本内容识别率测试装置，其特征在于，所述装置包括：

样本获取模块，用于接收关键词和与所述关键词对应的识别率测试样本，所述识别率测试样本为所述关键词和反识别元素的组合，所述反识别元素为避免识别出所述关键词所添加的字符；

8.根据权利要求7所述的基于反识别渲染的文本内容识别率测试装置，其特征在于，所述样本获取模块用于：

接收关键词；

根据反识别模板将反识别元素及反识别元素与所述关键词的对应关系。

9.根据权利要求7所述的基于反识别渲染的文本内容识别率测试装置，其特征在于，

所述样本获取模块还用于：接收与所述关键词对应的误报关键所述关键词渲染为识别率测试样本，所述反识别模板包括

词，以及与所述误报关键词对应的误报率测试样本，所述误报率测试样本为所述误报关键词和反识别元素的组合；

10.根据权利要求9所述的基于反识别渲染的文本内容识别率测试装置，其特征在于，所述样本获取模块还具体用于：

接收与所述关键词对应的误报关键词；

11.根据权利要求10所述的基于反识别渲染的文本内容识别率测试装置，其特征在于，所述样本获取模块还具体用于：

12.根据权利要求11所述的基于反识别渲染的文本内容识别率测试装置，其特征在于，所述计算模块还用于：

计算所述反识别渲染文本内容的识别有效性，所述识别有效性＝[识别率+(1-误报率)]/2。