CN115186095B - 一种未成年人文本识别方法及装置 - Google Patents

一种未成年人文本识别方法及装置 Download PDF

Info

Publication number
CN115186095B
CN115186095B CN202211107466.2A CN202211107466A CN115186095B CN 115186095 B CN115186095 B CN 115186095B CN 202211107466 A CN202211107466 A CN 202211107466A CN 115186095 B CN115186095 B CN 115186095B
Authority
CN
China
Prior art keywords
sentence
mark
minor
recognition
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211107466.2A
Other languages
English (en)
Other versions
CN115186095A (zh
Inventor
邓其春
马金龙
吴文亮
黎子骏
张政统
王伟喆
曾锐鸿
盘子圣
焦南凯
兰翔
徐志坚
谢睿
陈光尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quwan Network Technology Co Ltd
Original Assignee
Guangzhou Quwan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quwan Network Technology Co Ltd filed Critical Guangzhou Quwan Network Technology Co Ltd
Priority to CN202211107466.2A priority Critical patent/CN115186095B/zh
Publication of CN115186095A publication Critical patent/CN115186095A/zh
Application granted granted Critical
Publication of CN115186095B publication Critical patent/CN115186095B/zh
Priority to PCT/CN2023/092437 priority patent/WO2024055603A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请公开了一种未成年人文本识别方法及装置,方法包括:获取包含若干个语句的文本,对于文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别语句,得到带有一个关键词标记的中间标记语句,分析关键词标记以标上未成年人判别标记,得到带有标记的目标语句,若带有未成年人标记的第一分数与带有高疑似未成年人标记的第二分数之和大于预设分数阈值,确定待识别文本为未成年人文本。可见,通过对待识别文本的内容逐层分析,对每个与未成年人性质有关的关键词赋予标记,综合分析每一语句的未成年人可疑程度并贴上标签,从而有效且可靠地分析出待识别文本是否属于未成年人。

Description

一种未成年人文本识别方法及装置
技术领域
本申请涉及文本识别领域,更具体的说,是涉及一种未成年人文本识别方法及装置。
背景技术
随着科技的不断发展,网络技术日渐发达,越来越多未成年人参进网络世界。对于未成年人群体而言,网络却是一把双刃剑,部分未成年人能合理使用网络令他们健康成长,但更多的未成年人由于自制力尚未成熟,使得他们沉迷网络而难以自拔,因此在监管未成年人使用网络的工作上任重而道远。
如今未成年人使用网络所留下的信息众多,如打游戏时的聊天对话,qq或微信聊天的对话,作业传输中的作业文件,以上所示的信息都涉及到文本。因此可以通过对文本进行识别,以判断该文本是否属于未成年人,从而追溯未成年人的网络账号,实行对未成年人使用网络的管控。
目前对未成年人文本识别一般采用关键词匹配加模型预测,功能过于单一,且缺乏对文本内容与未成年人性质之间的关系的分析过程,显然对未成年人文本的识别准确率不可靠。
发明内容
鉴于上述问题,提出了本申请以便提供一种未成年人文本识别方法及装置,以提高对未成年人文本识别准确率的可靠性。
为了实现上述目的,现提出具体方案如下:
一种未成年人文本识别方法,包括:
获取包含若干个语句的待识别文本;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章;
统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
可选的,对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,包括:
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合中的,利用了多模式AC算法加速的语句匹配算法,匹配所述语句中的各个关键词;
在所述待识别文本中的每个语句中,对被每个识别组合中的关键词印章命中的关键词标上关键词标记;
确定通过各个识别组合标上关键词标记后的,带有一个关键词标记的中间标记语句。
可选的,所述语句识别模组中若干个识别组合中的每个识别组合还包括提前结束动作;
该方法还包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在关键词命中当前识别组合中的提前结束动作时,跳过优先级低于所述当前识别组合的识别组合,确定提前结束识别的带有一个关键词标记的中间标记语句。
可选的,所述语句识别模组中若干个识别组合中的每个识别组合还包括一个或多个过滤条件;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,包括:
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到条件过滤后的带有一个关键词标记的中间标记语句。
可选的,所述语句识别模组中若干个识别组合中的每个识别组合还包括空闲占位动作;
该方法还包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在目标关键词命中当前识别组合中的空闲占位动作时,生成用于覆盖所述目标关键词的临时遮罩层,以使优先级低于所述当前识别组合的识别组合在识别所述语句时,跳过所述目标关键词,直至所述语句识别模组中所有识别组合对所述语句识别结束后,取消覆盖所述目标关键词的临时遮罩层。
可选的,所述语句识别模组中若干个识别组合中的每个识别组合还包括重分析动作;
该方法还包括:
对于所述待识别文本中的每个语句,当通过含有重分析动作的识别组合分析所述语句时,检测并临时去除所述语句中的停用词,直至含有重分析动作的识别组合对所述语句识别结束后,还原所述临时去除所述语句中的停用词。
可选的,所述关键词标记为模型推理标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的模型推理标记,将所述中间标记语句输入至已有的未成年人预测模型,输出得到所述中间标记语句的未成年人判别标记;
对所述中间标记语句标上输出得到的未成年人判别标记,得到带有所述输出得到的未成年人判别标记的目标语句。
可选的,所述关键词标记为黑名单标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的黑名单标记,确定对所述中间标记语句标注的未成年人判别标记为未成年人标记;
对所述中间标记语句标上所述未成年人标记,得到带有所述未成年人标记的目标语句。
可选的,所述关键词标记为高疑似标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的高疑似标记,确定对所述中间标记语句标注的未成年人判别标记为高疑似未成年人标记;
对所述中间标记语句标上所述高疑似未成年人标记,得到带有所述高疑似未成年人标记的目标语句。
可选的,在分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句之后,还包括:
显示带有所述未成年人判别标记的目标语句。
一种未成年人文本识别装置,包括:
识别文本获取单元,用于获取包含若干个语句的待识别文本;
目标语句标记单元,用于对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章;
第一分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
第二分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
未成年人文本确认单元,用于若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
借由上述技术方案,本申请通过获取包含若干个语句的待识别文本,对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章,统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数,统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数,若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。由此可见,通过对待识别文本的内容逐层分析,对每个与未成年人性质有关的关键词赋予标记,综合分析每一语句的未成年人可疑程度并贴上标签,从而有效且可靠地分析出待识别文本是否属于未成年人。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种未成年人文本识别的流程示意图;
图2为本申请实施例提供的一种语句识别模组的识别组合优先级执行顺序示意图;
图3为本申请实施例提供的一种识别与分析语句的流程示意图;
图4为本申请实施例提供的一种语句识别模组识别语句过程中提前结束动作的示意图;
图5为本申请实施例提供的一种语句识别模组识别语句过程中过滤条件的示意图;
图6为本申请实施例提供的一种语句识别模组识别语句过程中空闲占位动作的示意图;
图7为本申请实施例提供的一种未成年人文本识别的装置结构示意图;
图8为本申请实施例提供的一种未成年人文本识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是电脑、服务器、云端等。
接下来,结合图1所述,本申请的未成年人文本识别方法可以包括以下步骤:
步骤S110、获取包含若干个语句的待识别文本。
具体的,待识别文本可以为线上实时聊天的文本,也可以为用户离线的历史记录文本。
步骤S120、对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句。
具体的,所述语句识别模组可以包含多个不同优先级的识别组合,每个识别组合可以包括语句匹配算法和关键词印章。
优先级高的识别组合可以表示对待识别文本通过该识别组合中的语句匹配算法进行匹配的优先度较高,使得通过该识别组合识别的结果更具有代表性。
语句匹配算法可以为对语句识别分析的算法,如全文匹配算法、子句匹配算法、原文匹配算法、智能语义匹配算法等。关键词印章可以为未成年人语句标识的标签,当通过语句匹配算法对待识别文本匹配上时,可以对匹配上的文本或部分文本赋予关键词标记,如黑名单标记、白名单标记、高疑似标记、模型推理标记等。
示例如图2,图2示出了包括语句匹配算法和关键词印章的6个不同优先级的识别组合,这6个识别组合构成了语句识别模组。因此使得对于每个语句,可以依次通过优先级第1(以全文匹配的方式匹配该语句,并以黑名单字段样本为匹配目标匹配该语句)、优先级第2……直至优先级第6(以原文匹配的方式匹配该语句,并以模型推理字段样本为匹配目标匹配该语句),从而得到带有一个关键词标记的中间标记语句。
示例如图3,图3示出了经6个识别组合标记后得到的中间标记语句进入综合分析,通过对中间标记语句进行综合分析,可以确定由关键词印章标上的标记对应的未成年人判别标记,从而判断该语句是否出自未成年人。
步骤S130、统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数。
具体的,所述第一分数可以为所述第一数量乘以未成年人标记对应的比例系数,未成年人标记对应的比例系数可以为预先设定的值,如取值为1。
步骤S140、统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数。
具体的,所述第二分数可以为所述第二数量乘以高疑似未成年人标记对应的比例系数,高疑似未成年人标记对应的比例系数可以为预先设定的值,可以比未成年人标记对应的比例系数小,如取值为0.5。
步骤S150、若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
具体的,所述预设分数阈值可以表示高疑似未成年人标记和未成年人标记的句子所在的文本判定为未成年人文本的最低指标,预设分数阈值可以自定义。
除此之外,若所述第一分数超过第一预设子分数阈值,可以确定所述待识别文本为未成年人的文本。若所述第二分数超过第三预设子分数阈值,可以确定所述待识别文本为未成年人的文本。
其中,第三预设子分数阈值可以低于预设分数阈值,第二预设子分数阈值可以低于第三预设子分数阈值。
可以理解的是,一份待识别文本中含有多个语句,在含有较多语句的待识别文本中,个别或极少被识别并标有未成年人标记或高疑似未成年人标记的语句,不足以说明这份待识别文本出自未成年人,可能会意外事件。因此需要设定预设的分数阈值,当待识别文本的语句量增大时,允许标为高疑似未成年人标记和未成年人标记的句子量也增大,使得第一分数与第二分数之和也随之提高。
示例如,预设分数阈值定义为30,未成年人标记对应的比例系数为1,高疑似未成年人标记对应的比例系数为0.5,当一份含有100个语句的待识别文本中,其中有20个语句被标有未成年人标记,以及有30个语句被标有高疑似未成年人标记,那么第一分数为20*1=20,第二分数为30*0.5=15,那么第一分数与第二分数之和为20+15=35,大于预设分数阈值,因此可以确定该待识别文本为未成年人的文本。
本实施例提供的未成年人文本识别方法,通过获取包含若干个语句的待识别文本,对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章,统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数,统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数,若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。由此可见,通过对待识别文本的内容逐层分析,对每个与未成年人性质有关的关键词赋予标记,综合分析每一语句的未成年人可疑程度并贴上标签,从而有效且可靠地分析出待识别文本是否属于未成年人。
本申请的一些实施例中,对上述实施例提到的、对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句的过程进行介绍,该过程可以包括:
S1、对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合中的,利用了多模式AC算法加速的语句匹配算法,匹配所述语句中的各个关键词。
可以理解的是,语句识别模组中每个识别组合执行的顺序为串行顺序,使得整体时间复杂度较高,基于此,语句匹配算法如全文匹配算法、子句匹配算法、原文匹配算法、智能语义匹配算法等,均可以通过多模式AC算法快速匹配关键词,提升匹配速度。
S2、在所述待识别文本中的每个语句中,对被每个识别组合中的关键词印章命中的关键词标上关键词标记。
具体的,被关键词印章命中的条件可以是待识别文本中的每个语句中,存在与关键词印章命对应的样本字段匹配的字段。
S3、确定通过各个识别组合标上关键词标记后的,带有一个关键词标记的中间标记语句。
具体的,通过各个识别组合识别并标记之后,可能对每个语句标上零个、一个或多个关键词标记,最终需要的中间标记语句为仅带有一个关键词标记的语句。
其中,若存在语句没有标上关键词标记,那么这些语句可以判断为非未成年人语句,也即可以不作为中间标记语句。若存在语句标上一个关键词标记,那么这些语句可以作为中间标记语句。若存在语句标上多个关键词标记,那么这些语句中的每个语句可以选取由优先度较高的识别组合中的关键词印章命中的关键词对应的关键词标记,作为该语句的唯一关键词标记,然后将该语句作为中间标记语句。
本实施例提供的未成年人文本识别方法,通过多模式AC算法加速语句匹配算法,能够有效地减缓未成年人文本识别过程的时间复杂度。
考虑到优化文本识别过程中语句匹配算法时间复杂度,以节省文本识别的时间,加快文本识别的速度,每个语句可以在得到关键词标记后,直接进入综合分析,本申请的一些实施例中,所提供的未成年人文本识别方法还可以包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在关键词命中当前识别组合中的提前结束动作时,跳过优先级低于所述当前识别组合的识别组合,确定提前结束识别的带有一个关键词标记的中间标记语句。
具体的,语句识别模组中的若干识别组合可以还包含提前结束动作,每个语句当命中提前结束动作的条件时,可以直接进入综合分析。
其中,每个语句当命中提前结束动作的条件可以是该语句命中了这个提前结束动作所在识别组合中的关键词印章。
示例如图4,从上往下(优先级顺序)的第1、第2、第4个识别组合中均包含了提前结束动作,即当每个语句命中了黑名单标记时,触发提前结束动作,可以直接进入综合分析。
本实施例提供的未成年人文本识别方法,通过添加提前结束动作这一特定动作,能够在每个语句获得黑名单标记后,直接进入综合分析,优化了文本识别过程中语句匹配算法时间复杂度。
考虑到优化语句匹配算法的匹配准确率,更精准地识别未成年人文本,本申请的一些实施例中,语句识别模组的一些识别组合中还可以包括一个或多个过滤条件,过滤条件可以包括非第一人称过滤、疑问过滤、过去时间过滤、距离过滤等,基于此,对上述实施例提到的、对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句的过程进行介绍,该过程可以包括:
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到条件过滤后的带有一个关键词标记的中间标记语句。
示例如图5,第5和第6个识别组合中均包含了非第一人称过滤、疑问过滤和过去时间过滤,即当进行第5个识别组合的语义匹配,以及第6个识别组合的原文匹配时,加入这三种过滤条件以优化匹配算法。
可以理解的是,通过过滤掉语句中的逻辑,以免利用语句匹配算法机械匹配,可以有效提高匹配准确率。
示例如,对于“我弟今天上课”在语义匹配时,可以使用非第一人称过滤,虽然匹配到“上课”为黑名单标记的样本字段,但由于非第一人称过滤的因素,这个语句不会被标为黑名单标记。对于“我们放暑假多了好多作业”,通过距离过滤匹配到“我们-假-作业”为黑名单标记的样本字段。对于“我们记得那时候挺小的,当时放假有好多作业”,虽然匹配到“我们-假-作业”为黑名单标记的样本字段,但由于过去时间过滤的因素,这个语句不会被标为黑名单标记。
本实施例提供的未成年人文本识别方法,通过添加过滤条件,能够优化语句匹配算法的匹配准确率,更精准地识别未成年人文本。
考虑到语句中一些特殊字段本意不是未成年人所言,但涉及到需要黑名单标记的信息,需要及时特殊处理,以保证优先级靠后的识别组合合理匹配,因此语句识别模组中的一些识别组合中的每个识别组合,还可以包括空闲占位动作,减少其它优先级较低的识别组合错误识别,基于此,本申请的一些实施例中,所提到的未成年人文本识别方法还可以包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在目标关键词命中当前识别组合中的空闲占位动作时,生成用于覆盖所述目标关键词的临时遮罩层,以使优先级低于所述当前识别组合的识别组合在识别所述语句时,跳过所述目标关键词,直至所述语句识别模组中所有识别组合对所述语句识别结束后,取消覆盖所述目标关键词的临时遮罩层。
如图6所示,在第3个识别组合中包含了空闲占位动作,可以在命中白名单标记时触发。示例如语句“13岁的时候”,其中“13岁”为未成年人黑名单字段,但这个语句则不为未成年人的含义,因此当“13岁的时候”触发了第3个识别组合中的白名单标记时,确定“13岁的时候”为目标关键词,生成临时遮罩层覆盖“13岁的时候”这一字段,使得在执行第4、第5和第6个识别组合时跳过“13岁的时候”这一字段,直至“13岁的时候”所在的语句被语句识别模组识别结束后,取消临时遮罩层。
本实施例提供的未成年人文本识别方法,通过在识别组合中添加空闲占位动作,保证优先级靠后的识别组合能够对语句合理匹配或识别。
考虑到语句中可能存在较多语气词,将实质内容间隔较远距离,语句匹配算法无法准确识别出语句实际含义,基于此,语句识别模组中若干个识别组合中的每个识别组合还可以包括重分析动作,本申请的一些实施例中,所提供的未成年人文本识别方法还可以包括:
对于所述待识别文本中的每个语句,当通过含有重分析动作的识别组合分析所述语句时,检测并临时去除所述语句中的停用词,直至含有重分析动作的识别组合对所述语句识别结束后,还原所述临时去除所述语句中的停用词。
示例如语句“我真的也就这么个15岁吧”,可以理解到该语句来自未成年人,但通过原文匹配只能命中“15岁”,由于缺少主语,最后输出高疑似标记,但通过重分析动作,可以将该语句临时去除停用词/语气词至“我15岁”,那么可以直接命中黑名单标记。
本实施例提供的未成年人文本识别方法,通过在识别组合中添加重分析动作,能够将一些高疑似标记的语句转为黑名单标记的语句,对未成年人文本识别更加严格。
在本申请的一些实施例中,标上语句的关键词标记可以为模型推理标记,可以为黑名单标记,也可以为高疑似标记,基于此,对上述实施例提到的、分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句的过程进行介绍,该过程可以根据不同的关键词标记分为以下几种情况:
第一种、当关键词标记为黑名单标记时,可以包括以下步骤:
S11、根据所述中间标记语句带有的黑名单标记,确定对所述中间标记语句标注的未成年人判别标记为未成年人标记。
S12、对所述中间标记语句标上所述未成年人标记,得到带有所述未成年人标记的目标语句。
第二种、当关键词标记为高疑似标记时,可以包括以下步骤:
S21、根据所述中间标记语句带有的高疑似标记,确定对所述中间标记语句标注的未成年人判别标记为高疑似未成年人标记。
S22、对所述中间标记语句标上所述高疑似未成年人标记,得到带有所述高疑似未成年人标记的目标语句。
第三种、当关键词标记为模型推理标记时,可以包括以下步骤:
S31、根据所述中间标记语句带有的模型推理标记,将所述中间标记语句输入至已有的未成年人预测模型,输出得到所述中间标记语句的未成年人判别标记。
具体的,未成年人预测模型通过接收输入的中间标记语句,所输出的未成年人判别标记可以为黑名单标记,也可以为高疑似标记,也可以为合格标记。
其中,合格标记可以表示该中间标记语句没有未成年人相关的内容。
S32、对所述中间标记语句标上输出得到的未成年人判别标记,得到带有所述输出得到的未成年人判别标记的目标语句。
进一步地,每当每个语句在得到相应的带有未成年人判别标记的目标语句之后,可以显示带有未成年人判别标记的目标语句,使得应用于线上聊天时可以及时分析每句话的内容是否为未成年人内容,也使得在应用于离线挖掘检测未成年人账号的场景下能够更方便地监测文本识别工作的进度。
下面对本申请实施例提供的实现未成年人文本识别的装置进行描述,下文描述的实现未成年人文本识别的装置与上文描述的实现未成年人文本识别方法可相互对应参照。
参见图7,图7为本申请实施例公开的一种实现未成年人文本识别的装置结构示意图。
如图7所示,该装置可以包括:
识别文本获取单元,用于获取包含若干个语句的待识别文本;
目标语句标记单元,用于对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章;
第一分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
第二分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
未成年人文本确认单元,用于若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
本申请实施例提供的未成年人文本识别的装置可应用于未成年人文本识别设备,如终端:手机、电脑等。可选的,图8示出了未成年人文本识别设备的硬件结构框图,参照图8,未成年人文本识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取包含若干个语句的待识别文本;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章;
统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取包含若干个语句的待识别文本;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章;
统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种未成年人文本识别方法,其特征在于,包括:
获取包含若干个语句的待识别文本;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章,所述中间标记语句所带有的关键词标记为,所述语句被各个识别组合识别所标记的若干关键词标记中的,优先级较高的识别组合的关键词印章所命中的关键词对应的关键词标记;
统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
2.根据权利要求1所述的方法,其特征在于,对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,包括:
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合中的,利用了多模式AC算法加速的语句匹配算法,匹配所述语句中的各个关键词;
在所述待识别文本中的每个语句中,对被每个识别组合中的关键词印章命中的关键词标上关键词标记;
确定通过各个识别组合标上关键词标记后的,带有一个关键词标记的中间标记语句。
3.根据权利要求2所述的方法,其特征在于,所述语句识别模组中若干个识别组合中的每个识别组合还包括提前结束动作;
该方法还包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在关键词命中当前识别组合中的提前结束动作时,跳过优先级低于所述当前识别组合的识别组合,确定提前结束识别的带有一个关键词标记的中间标记语句。
4.根据权利要求3所述的方法,其特征在于,所述语句识别模组中若干个识别组合中的每个识别组合还包括一个或多个过滤条件;
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,包括:
对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到条件过滤后的带有一个关键词标记的中间标记语句。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述语句识别模组中若干个识别组合中的每个识别组合还包括空闲占位动作;
该方法还包括:
对于所述待识别文本中的每个语句,在按照所述语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句的过程中,当所述语句中存在目标关键词命中当前识别组合中的空闲占位动作时,生成用于覆盖所述目标关键词的临时遮罩层,以使优先级低于所述当前识别组合的识别组合在识别所述语句时,跳过所述目标关键词,直至所述语句识别模组中所有识别组合对所述语句识别结束后,取消覆盖所述目标关键词的临时遮罩层。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述语句识别模组中若干个识别组合中的每个识别组合还包括重分析动作;
该方法还包括:
对于所述待识别文本中的每个语句,当通过含有重分析动作的识别组合分析所述语句时,检测并临时去除所述语句中的停用词,直至含有重分析动作的识别组合对所述语句识别结束后,还原所述临时去除所述语句中的停用词。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述关键词标记为模型推理标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的模型推理标记,将所述中间标记语句输入至已有的未成年人预测模型,输出得到所述中间标记语句的未成年人判别标记;
对所述中间标记语句标上输出得到的未成年人判别标记,得到带有所述输出得到的未成年人判别标记的目标语句。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述关键词标记为黑名单标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的黑名单标记,确定对所述中间标记语句标注的未成年人判别标记为未成年人标记;
对所述中间标记语句标上所述未成年人标记,得到带有所述未成年人标记的目标语句。
9.根据权利要求1-4任一项所述的方法,其特征在于,所述关键词标记为高疑似标记;
分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,包括:
根据所述中间标记语句带有的高疑似标记,确定对所述中间标记语句标注的未成年人判别标记为高疑似未成年人标记;
对所述中间标记语句标上所述高疑似未成年人标记,得到带有所述高疑似未成年人标记的目标语句。
10.根据权利要求1-4任一项所述的方法,其特征在于,在分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句之后,还包括:
显示带有所述未成年人判别标记的目标语句。
11.一种未成年人文本识别装置,其特征在于,包括:
识别文本获取单元,用于获取包含若干个语句的待识别文本;
目标语句标记单元,用于对于所述待识别文本中的每个语句,按照预先建立的语句识别模组中各个识别组合的优先级由高到低的顺序,依次通过每个识别组合识别所述语句,得到带有一个关键词标记的中间标记语句,分析所述中间标记语句带有的关键词标记,对所述中间标记语句标上未成年人判别标记,得到带有所述未成年人判别标记的目标语句,所述语句识别模组包含多个不同优先级的识别组合,每个识别组合包括语句匹配算法和关键词印章,所述中间标记语句所带有的关键词标记为,所述语句被各个识别组合识别所标记的若干关键词标记中的,优先级较高的识别组合的关键词印章所命中的关键词对应的关键词标记;
第一分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为未成年人标记的目标语句的数量,确定为第一数量,并根据所述第一数量计算得到第一分数;
第二分数统计单元,用于统计所述待识别文本中带有未成年人判别标记为高疑似未成年人标记的目标语句的数量,确定为第二数量,并根据所述第二数量计算得到第二分数;
未成年人文本确认单元,用于若所述第一分数与所述第二分数之和大于预设分数阈值,确定所述待识别文本为未成年人的文本。
CN202211107466.2A 2022-09-13 2022-09-13 一种未成年人文本识别方法及装置 Active CN115186095B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211107466.2A CN115186095B (zh) 2022-09-13 2022-09-13 一种未成年人文本识别方法及装置
PCT/CN2023/092437 WO2024055603A1 (zh) 2022-09-13 2023-05-06 一种未成年人文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211107466.2A CN115186095B (zh) 2022-09-13 2022-09-13 一种未成年人文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN115186095A CN115186095A (zh) 2022-10-14
CN115186095B true CN115186095B (zh) 2022-12-13

Family

ID=83524563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211107466.2A Active CN115186095B (zh) 2022-09-13 2022-09-13 一种未成年人文本识别方法及装置

Country Status (2)

Country Link
CN (1) CN115186095B (zh)
WO (1) WO2024055603A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186095B (zh) * 2022-09-13 2022-12-13 广州趣丸网络科技有限公司 一种未成年人文本识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257400A (ja) * 2009-04-28 2010-11-11 Nec Soft Ltd 年齢推定装置及び方法並びにプログラム
CN104809236A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于微博的用户年龄分类方法及系统
CN108108354A (zh) * 2017-06-18 2018-06-01 北京理工大学 一种基于深度学习的微博用户性别预测方法
CN110196945A (zh) * 2019-05-27 2019-09-03 北京理工大学 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN113850290A (zh) * 2021-08-18 2021-12-28 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
US9471944B2 (en) * 2013-10-25 2016-10-18 The Mitre Corporation Decoders for predicting author age, gender, location from short texts
CN106354872B (zh) * 2016-09-18 2020-02-07 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN110597988B (zh) * 2019-08-28 2024-03-19 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
WO2021237550A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太科技有限公司 文本处理方法、电子设备和计算机可读存储介质
CN111651600B (zh) * 2020-06-02 2023-04-07 携程计算机技术(上海)有限公司 语句多意图识别方法、系统、电子设备及存储介质
CN115186095B (zh) * 2022-09-13 2022-12-13 广州趣丸网络科技有限公司 一种未成年人文本识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257400A (ja) * 2009-04-28 2010-11-11 Nec Soft Ltd 年齢推定装置及び方法並びにプログラム
CN104809236A (zh) * 2015-05-11 2015-07-29 苏州大学 一种基于微博的用户年龄分类方法及系统
CN108108354A (zh) * 2017-06-18 2018-06-01 北京理工大学 一种基于深度学习的微博用户性别预测方法
CN110196945A (zh) * 2019-05-27 2019-09-03 北京理工大学 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN113850290A (zh) * 2021-08-18 2021-12-28 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Age and Gender Identification by SMS Text Messages;Ahmad Jamal KHDR.etal;《2018 International Conference on Artificial Intelligence and Data Processing (IDAP)》;20190124;第1-5页 *
Effect of different feature types on age based classification of short texts;Avar Pentel;《2015 6th International Conference on Information, Intelligence, Systems and Applications (IISA)》;20150708;第1-7页 *
基于双通道LSTM的用户年龄识别方法;陈敬等;《山东大学学报理学版》;20170730;第91-96,116页 *
网络言语特征识别;刘 进;《江苏警官学院学报 》;20090930;第174-177页 *

Also Published As

Publication number Publication date
CN115186095A (zh) 2022-10-14
WO2024055603A1 (zh) 2024-03-21

Similar Documents

Publication Publication Date Title
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
CN112149420A (zh) 实体识别模型训练方法、威胁情报实体提取方法及装置
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN109446393B (zh) 一种网络社区话题分类方法及装置
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN115186095B (zh) 一种未成年人文本识别方法及装置
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN114357190A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113220847A (zh) 基于神经网络的知识掌握程度测评方法、装置及相关设备
CN110059189B (zh) 一种游戏平台消息的分类系统及方法
CN110580899A (zh) 语音识别方法及装置、存储介质、计算设备
CN115994531A (zh) 一种多维度文本综合辨识方法
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
CN110674269A (zh) 一种线索信息管控方法及系统
CN111369975A (zh) 基于人工智能的大学音乐评分方法、装置、设备及存储介质
CN113807099B (zh) 实体信息识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant