CN117195046A - 异常文本识别方法及相关设备 - Google Patents

异常文本识别方法及相关设备 Download PDF

Info

Publication number
CN117195046A
CN117195046A CN202311136303.1A CN202311136303A CN117195046A CN 117195046 A CN117195046 A CN 117195046A CN 202311136303 A CN202311136303 A CN 202311136303A CN 117195046 A CN117195046 A CN 117195046A
Authority
CN
China
Prior art keywords
text
word
sample
sample text
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311136303.1A
Other languages
English (en)
Inventor
黄自豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311136303.1A priority Critical patent/CN117195046A/zh
Publication of CN117195046A publication Critical patent/CN117195046A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种异常文本识别方法及相关设备,可应用于自然语言处理领域;本申请可以获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括第一样本文本集和第二样本文本集;对样本文本进行分词处理,得到至少一个样本文本词;计算样本文本词在第一样本文本集的第一出现频率、以及在第二样本文本集的第二出现频率;若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集;基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果;本申请可以快速高效地进行异常文本识别。

Description

异常文本识别方法及相关设备
技术领域
本申请涉及计算机技术领域,具体涉及一种异常文本识别方法及相关设备。
背景技术
文本可以承载丰富的信息和数据,使其成为日常生活中常见的信息交互载体,比如电子转账时添加文本备注信息、与在线客服进行文字沟通等,随着计算机技术的蓬勃发展,如何运行代码等方式进行自动文本识别以得到其蕴含的信息,逐步成为相关从业人员的研究热点,比如,可以基于机器学习、深度学习等领域的相关技术构建并训练模型,通过训练后的模型进行文本分类。
然而由于文本本身较为抽象,且存在多义、非标准文本等多种特殊情况,需要构建高复杂度的模型以满足文本识别准确性的要求,但是针对高复杂度模型的训练过程和应用过程均需消耗较多资源、耗费较多时间,导致整体的文本识别过程效率较低、实时性较差。
发明内容
本申请实施例提供一种异常文本识别方法以及相关设备,相关设备可以包括异常文本识别装置、计算机设备及计算机可读存储介质,可以快速高效地进行异常文本识别。
本申请实施例提供一种异常文本识别方法,包括:
获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;对样本文本进行分词处理,得到至少一个样本文本词;计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率;若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词;基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
相应地,本申请实施例还提供了一种异常文本识别装置,包括:
样本模块,用于获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;
分词模块,用于对样本文本进行分词处理,得到至少一个样本文本词;
频率模块,用于计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率;
特征模块,用于若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词;
结果模块,用于基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
相应地,本申请实施例还提供一种计算机设备,包括处理器和存储器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以实现本申请实施例提供的异常文本识别方法中的步骤。
相应地,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行以实现本申请实施例提供的异常文本识别方法中的步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行以实现本申请实施例提供的异常文本识别方法中的步骤。
本申请实施例可以首先获取目标场景的至少两个样本文本集,然后可以分别计算样本文本在不同样本文本集中的出现概率,如样本文本词在第一样本文本集中的第一出现频率、以及在第二样本文本集中的第二出现频率,不同的样本文本集中可以保存目标场景的不同类型的样本文本,如果样本文本词为某一类型的样本文本中典型的文本词,该样本文本词在该类型的样本文本集中的出现概率会显著区别于其在其他类型的样本文本集中的出现概率,则可以根据样本文本词的至少两个出现概率之间的数值关系,确定此样本文本词是否为目标场景的特征文本词,如若第一出现频率和第二出现频率满足预设数值关系,可确定此样本文本词为特征文本词,进而得到目标场景的特征文本词集,最终基于包含多个特征文本词的特征文本词集对待识别文本进行异常识别,特征文本词集易于部署和使用,基于异常文本词集的异常文本识别过程简单易行,使得本申请可以快速高效地进行异常文本识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的异常文本识别方法的场景示意图;
图2是本申请实施例提供的异常文本识别方法的流程示意图;
图3是本申请实施例提供的异常文本识别装置的另一流程示意图;
图4是本申请实施例提供的异常文本识别装置的另一流程示意图;
图5是本申请实施例提供的异常文本识别装置的结构示意图;
图6是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可以理解的是,在本申请的若干实施例中,涉及到用户信息(如样本文本、待识别文本)等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应”于以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供的异常文本识别方法涉及人工智能领域的自然语言处理等方向。比如,基于自然语言处理的相关技术对样本文本进行分词处理,得到其包含的至少一个样本文本词。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。是一门融语言学、计算机科学、数学。于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例了提供一种异常文本识别方法及相关设备,相关设备可以包括异常文本识别装置、计算机设备及计算机可读存储介质。异常文本识别装置可以集成在异常文本识别系统中,异常文本识别系统可以集成在至少一个计算机设备上,该计算机设备可以包括终端、服务器在内的至少一种。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能会议设备、智能屏幕等等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
比如,参见图1,图1公开了本申请的一个场景示意图,其中,异常文本识别系统集成在计算机设备,计算机设备可以包括终端、服务器等,计算机设备可以对获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括第一样本文本集和第二样本文本集;对样本文本进行分词处理,得到至少一个样本文本词;计算样本文本词在第一样本文本集的第一出现频率、以及在第二样本文本集的第二出现频率;若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集可以包括多个特征文本词,还可以基于此特征文本词集对待识别文本进行异常识别,得到待识别文本在目标场景的异常识别结果。
图1为本申请的异常文本识别系统的应用场景的一个示例,主要用于介绍而非本申请的异常文本识别系统,在实际应用本申请实施例所描述的技术方案的过程中,可以对异常文本识别系统所包含的计算机设备、以及各个计算机设备所执行的步骤进行灵活调整,并不局限于图1中描述的内容。
在本申请的一些实施例中,异常文本识别系统也可以包含终端和服务器,服务器可以获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括第一样本文本集和第二样本文本集,对样本文本进行分词处理,得到至少一个样本文本词,计算样本文本词在第一样本文本集的第一出现频率、以及在第二样本文本集的第二出现频率,若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,服务器可以向终端发送此特征文本词集,终端可以基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
在本申请的一些实施例中,也可以由终端向服务器发送待识别文本,由服务器基于特征文本词集对待识别文本进行异常识别,得到待识别文本在目标场景的异常识别结果,以及向终端发送该异常识别结果。
下面将结合实施例对本申请的异常文本识别方法进行进一步介绍。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
图2示出了本申请的异常文本识别方法的一个流程示意图,如图2,异常文本识别方法可以包括:
110、获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集。
其中,目标场景可以包括需要对文本进行异常识别的场景,目标场景下进行异常识别的文本包括用户输出的文本,该文本可以包括常见语种的文本,如中文文本、英文文本等,该文本可以包括自然语言,也即用户通过该文本可以输出其思维和想法,可以与其他人交流。该文本可以包括样本文本、以及待识别文本等。
目标场景下的文本可以属于某类别,目标场景下可以包括至少两个类别,如第一类别和至少一个第二类别,本申请实施例的异常文本识别可以转化为识别文本是否属于特定类别,从目标场景对应的至少两个类别中确定特定类别的过程可以根据实际需求灵活确定,如确定第一类别为特定类别,对文本的异常识别即为确定文本是否属于第一类别,若属于第一类别则确定其为异常文本;又如确定第二类别为特定类别,对异常文本的识别即为确定文本是否属于第二类别,若不属于第二类别则确定其为异常文本。
目标场景可以包括涉及生产生活的多个场景,如在线交易场景、在线问询场景、在线验证场景等等,比如,包括转账、付款等交易操作在内的在线交易场景下,用户可以伴随交易操作输入针对此交易操作的文本,文本可以包括备注栏中输入的备注信息等,常规在线交易情况下用户输入的文本属于第一类别,异常在线交易情况(如交易操作可能涉及欺诈)下用户输入的文本属于第二类别,异常情况对应的第二类别区别于常规情况对应的第一类别,在线交易场景的异常文本识别可以包括识别用户输入的文本是否为第二类别,若是则确定此文本为异常文本。
又比如,如今在线问讯场景大量引入智能客服、智能机器人等虚拟智能体与用户对话,从而进行用户疑问解答,然而虚拟智能体的智能化程度有限,其能够理解的文本以及能够解决的问题有限,在虚拟智能体无法解决用户问题时,可以建立用户与在线人工客服的联系,从而更好地解决用户的问题,虚拟智能体可以处理的文本属于第一类别,此时在线问询场景的异常文本识别可以包括判断用户输入的文本是否属于第一类别,若否则确定此文本为异常文本。
其中,样本文本集可以为包括至少一个样本文本的集合,样本文本集可以存储在计算机设备本地或其他计算机设备,其他计算机设备可以如终端、服务器等,样本文本集在计算机设备中可以包括表格、数据库等形式。
本申请实施例中,目标场景的样本文本集可以包括至少两个,不同样本文本集中的样本文本分别属于不同的类别,也即不同的样本文本集对应不同的类别,比如,样本文本集可以包括至少一个第一样本文本集和至少一个第二样本文本集,第一样本文本集和第二样本文本集可以分别对应第一类别和第二类别。
具体地,获取至少两个样本文本集的方式可以有多种,比如,样本文本集可以预先存储在计算机设备本地或其他计算机设备,此种情况下可以从计算机设备本地的存储空间获取至少两个样本文本集,或者向其他计算机设备发送请求信息,以及接收其他计算机设备基于请求信息返回的至少两个样本文本集。
又比如,在一些实施例中,可以构建针对目标场景的至少两个样本文本集,每个样本文本集对应一个类别信息,然后可以接收多个样本文本以及各自对应的类别信息,将样本文本分别保存在其对应类别信息对应的样本文本集中。
本申请实施例中的文本(包括样本文本、待识别文本等)可以包括至少一个句子,或至少一个词语构成的词组等,文本可以包括文字、数字、符号等字符,文字可以为包括至少一种语言的文字,如中文、英文等。
比如,目标场景可以包括在线交易场景,可以从其他计算机设备获取针对在线交易场景的异常样本文本集和正常样本文本集,异常样本文本集中包括至少一个异常样本文本,异常样本文本包括欺诈交易过程出现的文本,正常样本文本集中包括至少一个正常样本文本,正常样本文本包括常规交易过程出现的文本。
120、对样本文本进行分词处理,得到至少一个样本文本词。
其中,样本文本词可以包括样本文本中的词语,通过分词处理可以确定样本文本包含的至少一个样本文本词,不同语言的文本具有不同的特点,可以适应性的选取适合于样本文本的分词方法,具体地可以在实际应用场景灵活展开,本申请对此不做限制。
比如,正常样本文本集可以包括正常样本文本1“向小A转9月房租5元”,对正常样本文本1进行分词处理,可以得到多个样本文本词,分别为“向”、“小A”、“转”、“9月”、“房租”、“5元”;异常样本文本集可以包括异常样本文本1“借款用于游戏代练”,对异常文本1进行分词处理,可以得到多个样本文本词,分别为“借款”、“用于”、“游戏”、“代练”。
130、计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率。
其中,出现频率可以表征样本文本词在样本文本集的所有样本文本中出现的频繁程度,出现频率越高表明样本文本在样本文本集的所有样本文本中出现的越多。样本文本词在某样本文本集的出现频率较高,可以理解为该样本文本词为样本文本集对应类别的经常出现的词语;样本文本词在某样本文本集的出现频率较低,可以理解为该样本文本词为样本文本集对应类别的极少出现的词语,较高/较低为相对概念,具体地可以将出现频率与预设阈值比较,进而确定该出现频率为较高/较低的数值。
本申请实施例可以对各个样本文本集中的样本文本分别进行分词处理,得到每个样本文本所包含的至少一个样本文本词,可以对所有得到的样本文本词分别计算其在不同样本文本集中的出现频率。比如,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集时,可以分别计算样本文本词在第一样本文本集的至少一个样本文本中的第一出现频率、以及在第二样本文本集的至少一个样本文本中的第二出现频率。
具体地,可以首先确定各个样本文本集中样本文本的数量,再统计样本文本词在各个样本文本集的样本文本中的出现次数,然后通过数量和出现次数计算得到样本文本词在样本文本集的出现频率。
在本申请的一些实施例中,可以首先统计样本文本词在第一样本文本集的所有样本文本中的第一出现次数、以及在第一样本文本集的所有样本文本中的第二出现次数,确定第一样本文本集中所有样本文本的第一数量、以及第二样本文本集中所有样本文本的第二数量,然后基于第一出现次数和第一数量计算得到第一出现频率,基于第二出现次数和第二数量计算得到第二出现频率。比如,确定第一样本文本集中样本文本的数量为M,统计第一样本文本集的所有样本文本中出现样本文本词1的次数为P,计算P/M得到第一出现频率1。
比如,可以计算“代练”在正常样本文本集的所有正常样本文本中的出现频率1,以及计算“代练”在异常样本文本集的所有异常样本文本中的出现频率2。
140、若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词。
其中,预设数值关系可以包括预先设置的若干出现频率之间需要满足的关系,预设数值关系可以根据实际需求灵活设置,可以存在多种情况,比如,预设数值关系可以包括一方数值大于、小于、大于或等于、小于或等于、等于另一方数值等,此处的一方数值/另一方数值可以包括出现频率,此时满足预设数值关系可以如第一出现频率大于第二出现频率。
一方数值/另一方数值也可以包括对出现频率进行处理后的数值,对出现频率进行处理可以如将若干个出现频率进行融合计算(如加法运算、乘法运算)等,比如,样本文本集可以包括四个,可以分别计算样本文本词在各个样本文本集中的出现频率,分别为出现频率1、出现频率2、出现频率3和出现频率4,可以对出现频率1、出现频率2和出现频率3做加法运算,得到一方数值,出现频率4为另一方数值,若一方数值大于或等于另一方数值,确定这4个出现频率满足预设数值关系。
对出现频率进行处理还可以如通过预设参数对出现频率进行数值调整(如预设参数与出现频率相加、相乘)等。比如,出现频率可以包括第一出现频率和第二出现频率,可以首先确定预设参数与第二出现频率的融合值,具体如将预设参数与第二出现频率相乘,得到融合值,然后可以比较第一出现频率与融合值的大小关系,若第一出现频率大于或等于融合值,即为第一出现频率与第二出现频率满足预设数值关系。
其中,特征文本词可以包括目标场景下文本属于异常类别时常包含的文本词,本申请实施例可以从目标场景的大量样本文本词中筛选,得到目标场景的若干特征文本词,比如,若样本文本词在多个样本文本集的各自的出现频率满足预设数值关系,可以确定样本文本词为目标场景的特征文本词。
在本申请实施例中,第一样本文本集可以为在线交易场景下的正常样本文本集或异常样本文本集,第二样本文本集也可以为在线交易场景下的正常样本文本集或异常样本文本集,对应地,第一出现频率可以包括样本文本词在正常样本文本集或异常样本文本集的所有样本文本中的出现频率,第二出现频率也可以包括样本文本词在正常样本文本集或异常样本文本集的所有样本文本中的出现频率。
此种情况下,第一出现频率与第二出现频率满足预设数值关系可以理解为,样本文本词属于常规交易过程的频率、以及属于欺诈交易过程的频率满足预设数值关系,若某样本文本词在常规交易过程和欺诈交易过程具有相似的出现频率,则无法通过此样本文本词确定其所属的文本是否涉及欺诈交易;若某样本文本词在常规交易过程的出现频率显著高于在欺诈交易过程的出现频率,可以确定此样本文本词所属的文本涉及欺诈交易的可能性极低;若某样本文本词在欺诈交易过程的出现频率显著高于在常规交易过程的出现频率,可以确定此样本文本词所属的文本涉及欺诈交易的可能性极高,可以将此样本文本词确定目标场景的特征文本词。
在本申请的一些实施例中,还可以为特征文本词设置对应的权重信息,特征文本词及其对应的权重信息可以保存在特征文本词集中,权重信息可以包括表征特征文本词为目标场景下为异常文本所包含词语的程度信息,比如,特征文本词1的权重信息1大于特征文本词2的权重信息2,则特征文本词1在目标场景下为异常文本中词语的可能性大于特征文本词2。
此种情况下,若由出现概率确定样本文本词涉及欺诈交易的可能性极高,可以确定此样本文本词为目标场景的特征文本词,并为此特征文本词设置较高的权重信息,如权重信息为小于5的数值;若由出现概率确定样本文本词涉及欺诈交易的可能性极低,也可以确定此样本文本词为目标场景的特征文本词,并为此特征文本词设置较低的权重信息,如权重信息为小于0.5的数值,进而最终得到针对目标场景的特征文本词集。
此外,在本申请的一些实施例中,权重信息也可以基于已有数据计算得到,如可以基于第一出现频率和第二出现频率进行计算,具体可以如,在预设数值关系表征第一出现频率远大于第二出现频率时,第一出现频率除以第二出现频率得到权重信息ta
其中,pa和na分别为特征文本词的第一出现频率和第二出现频率。
比如,样本文本词“代练”的出现频率1的N倍(N为正整数)小于出现频率2,可以确定“代练”为特征文本词,可以用出现频率2除以出现频率1得到“代练”的权重信息1,将特征文本词“代练”及其对应的权重信息1保存在特征文本词集中。
150、基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
其中,待识别文本可以包括目标场景下用户输入的文本,异常识别结果可以包括表征待识别文本在目标场景是否为异常文本的信息。具体地,基于特征文本词集对待识别文本进行异常识别的方式可以有多种,比如,可以对对待识别文本进行分词,得到其对应的待识别词集,待识别词集可以包括M个待识别词(M为正整数),可以分别判断每个待识别词是否为特征文本词集中的特征文本词,统计属于特征文本词集的待识别词的数量P(P为非负整数),计算待识别文本的特征词出现频率A=P/M,若A大于预设阈值1则确定待识别文本在目标场景为异常文本;若A小于或等于预设阈值1则确定待识别文本在目标场景为正常文本。
在本申请的一些实施例中,可以首先对待识别文本进行分词,得到其对应的待识别词集,待识别词集包括至少一个待识别词,待识别词可以为待识别文本所包含的词,若待识别词集中的所有待识别词均不为特征文本词集中的特征文本词,可以确定待识别文本在目标场景为正常文本。
若待识别词为特征文本词集中特征文本词,可以从特征文本词集中查找该待识别词对应的权重信息,再基于待识别词的权重信息确定待识别文本在目标场景的异常识别结果。比如,待识别文本1对应的待识别词集中包括L个待识别词,这L个待识别词中有K个为特征文本词集中的特征文本词,可以从特征文本词中分别查询这K个待识别词对应的权重信息,再基于K个识别词的权重信息,确定待识别文本1在目标场景的异常识别结果。
具体地,基于待识别词的权重信息确定待识别文本的异常识别结果的方式可以有多种,比如,可以将各个权重信息相加,得到权重和值,若权重和值与预设和值阈值相匹配,确定待识别文本为异常文本;若权重和值与预设和值阈值不相匹配,确定待识别文本为正常文本。
在本申请的一些实施例中,对待识别文本进行分词,可以得到多个待识别词,多个待识别词中可以存在重复的词语,此种情况下,可以统计待识别词在待识别词集中的出现频数,再结合待识别词的权重信息和出现频数,计算待识别文本的异常分值,最终根据异常分值确定待识别文本在目标场景的异常识别结果。
其中,异常分值包括可以表征待识别文本为目标场景下的异常文本的程度信息,异常分值的计算方式可以有多种,比如,把所有权重信息、以及所有出现频数相加,得到异常分值。
又比如,可以将每个待识别词的权重信息和出现频数相乘,得到每个待识别词各自对应的词异常值,再将所有词异常值相加,得到异常分值p:
其中,待识别词的数量为a,第i个待识别词的出现频数和权重信息分别为ni和ti
比如,待识别文本1对应的待识别词集包括7个待识别词,分别为“朋友圈”、“看到”、“游戏”、“代练”、“价格”、“按照”、“朋友圈”、“图片”、“确定”,在特征文本词集中查找,确定“朋友圈”和“代练”为特征文本词,并确定“朋友圈”对应的权重信息为3、“代练”对应的权重信息为8,在待识别词集统计“朋友圈”的出现频数为2,“代练”的出现频数为1,然后可以计算待识别文本1的异常分值p=3×2+8×1=14。
在本申请的一些实施例中,还可以在计算异常分值的过程中引入调整参数,以进一步修正异常分值,提升异常分值表征识别文本为异常文本的准确程度,具体地,目标场景可以包括至少一个调整参数,调整参数可以包括预先确定的参数,也可以包括针对目标场景的生成的参数。再基于调整参数、出现频数和权重信息等计算异常分值。
通过调整参数修正异常分值的方式可以有多种,比如,可以通过调整参数修正权重信息、修正出现频数、修正词异常值(权重信息与出现频数的乘积值)等等,具体地可以在应用过程中灵活设置。
比如,设置应用于权重信息的调整参数ωi,此时异常分值的计算公式可以如下:
其中,待识别词的数量为l,第i个待识别词的出现频数和权重信息分别为ni和ti,ω为调整参数。
调整参数的生成方式可以有多种,比如,可以根据目标场景的相关数据生成调整参数。又比如,可以首先生成初始参数,再对初始参数进行更新以得到调整参数。对初始参数更新的过程可以结合目标场景的相关数据,提升调整参数与目标场景的适配度,进而得到更加准确的异常分值。
在本申请的一些实施例中,样本文本可以包括多个,对样本文本进行分词可以得到至少一个样本文本词,这至少一个样本文本词可以保存在此样本文本对应的样本文本词集中,根据前文的记载,可以确定属于不同样本文本词集中每个样本文本词是否为特征文本词,得到特征文本词集,特征文本词集中包括多个特征文本词。
然后可以根据特征文本词集,确定各个样本文本词集中是否存在特征文本词,若存在,统计该特征文本词在其所属样本文本词集中的出现频数,以及从特征文本词集中查找特征文本词对应的权重信息,从而得到样本文本词集对应样本文本的至少一组特征数据,特征数据包括样本文本词集中存在于特征文本词集的样本文本词的权重信息和出现频数。最后可以根据特征数据对初始参数进行更新,得到调整参数。
比如,可以随机生成针对目标场景的初始参数c,再对所有样本文本对应的样本文本词集进行筛查,如样本文本2对应的样本文本词集2包括二十个样本文本词,分别确定特征文本词集中是否包含这些样本文本词,如确定二十个样本文本词中有2个为特征文本词,分别为样本文本词1和样本文本词2,从特征文本词集中查找样本文本词1对应的权重信息A,以及样本文本词2对应的权重信息B,分别统计样本文本词1和样本文本词2在样本文本词集2中的出现频数1和出现频数2,得到样本文本2的两组特征数据,分别为:样本文本词1的权重信息A和出现频数1、以及样本文本词2的权重信息B和出现频数2。
对所有样本文本词集筛查后,可以得到若干样本文本各自对应的至少一组特征数据,以基于此对初始参数进行更新。若干样本文本可以为已知的所有样本文本的部分或全部。
具体地,对初始参数更新的方式可以有多种,比如,可以将特征数据和初始参数进行融合计算,得到目标场景的调整参数。
在本申请的一些实施例中,还可以根据特征数据(出现频数和权重信息)计算样本文本的异常分值,此处异常分值的计算方式有多种,可以通过前文计算待识别文本的异常分值的方法进行,也可以使用如下公式进行计算:
其中,样本文本词的数量为l,第i个样本文本词的出现频数和权重信息分别为ni和ti,ω为调整参数。
样本文本集还可以存储样本文本的标签值,标签值可以包括表征样本文本为正常文本或异常文本的数值,比如,标签值为1可以表征样本文本为异常文本,标签值为0可以表征样本文本为正常文本。
本申请实施例可以基于样本文本的异常分值和标签值,对初始参数进行更新,得到调整参数,此过程具体可以有多种方式,比如,可以通过预设公式融合异常分值、标签值以及初始参数,得到调整参数。
在本申请的一些实施例中,可以对初始参数进行多轮更新,以提升调整参数在计算异常分值过程的数据修正效果,具体地,可以根据各个样本文本的异常分值和标签值,计算得到损失值,损失值可以表征当前异常文本识别过程的优劣程度,损失值越大,当前异常文本识别过程对于异常文本的识别效果越差。然后可以基于损失值对初始参数进行更新,得到更新后参数,再通过更新后参数和各个样本文本对应的至少一组特征数据,计算得到各个样本文本的异常分值,再基于各个异常分值和标签值再次计算损失值,循环更新参数、计算异常分值、以及计算损失值的过程,直至满足预设循环终止条件,预设循环终止条件可以如循环次数达到第一预设值,也可以如新的损失值小于第二预设值,具体地可以根据实际应用场景灵活选取,最后可以将最新的更新后参数确定为调整参数。
计算损失值可以通过损失函数进行,损失函数可以根据目标场景的特点以及实际需求等灵活选择,损失函数的一个实例可以如下:
其中,样本文本的数量为s,第i个样本文本的标签值和异常分值分别为yi和pi
比如,100个样本文本各自对应至少一组特征数据,首先基于每个样本文本对应的特征数据以及初始参数,计算得到每个样本文本的异常分值,获取每个样本文本各自对应的标签值,再将所有样本文本各自对应的异常分值和标签值代入损失函数,算得一个损失值,然后基于此损失值对初始参数进行更新,得到更新后参数,再基于每个样本文本对应的特征数据以及更新后参数,计算得到每个样本文本的更新异常分值,将所有样本文本各自对应的更新异常分值和标签值代入损失函数,算得一个更新损失值,循环这个过程,直至更新损失值小于正数Q,确定最近的更新损失值为针对目标场景的调整参数。
基于异常分值确定异常识别结果的方式可以有多种,比如,在异常分值属于预设异常区间,可以确定待识别文本在目标场景为异常文本;若异常分值属于预设正常区间,可以确定待识别文本在目标场景为正常文本,其中,预设异常区间和预设正常区间可以预先根据实际需求灵活设定,预设异常区间与预设正常区间的并集可以包括所有可能的异常分值,也可以仅包括部分可能的异常分值。
在本申请的一些实施例中,还可以将异常分值与预设阈值进行比较,若二者相匹配,可以确定待识别文本在目标场景为异常文本;若二者不相匹配,可以确定待识别文本在目标场景为正常文本,此处的匹配可以理解为异常分值大于、小于、或等于预设阈值等,比如,待标识文本1的异常分值p大于预设阈值po,确定待标识文本1为异常文本。
本申请实施例可以首先获取目标场景的至少两个样本文本集,然后可以分别计算样本文本在不同样本文本集中的出现概率,如样本文本词在第一样本文本集中的第一出现频率、以及在第二样本文本集中的第二出现频率,不同的样本文本集中可以保存目标场景的不同类型的样本文本,如果样本文本词为某一类型的样本文本中典型的文本词,该样本文本词在该类型的样本文本集中的出现概率会显著区别于其在其他类型的样本文本集中的出现概率,则可以根据样本文本词的至少两个出现概率之间的数值关系,确定此样本文本词是否为目标场景的特征文本词,如若第一出现频率和第二出现频率满足预设数值关系,可确定此样本文本词为特征文本词,进而得到目标场景的特征文本词集,最终基于包含多个特征文本词的特征文本词集对待识别文本进行异常识别,特征文本词集易于部署和使用,基于异常文本词集的异常文本识别过程简单易行,使得本申请可以快速高效地进行异常文本识别。
下面将结合具体示例对本申请的异常文本识别方法进行进一步介绍,参见图3,异常文本识别方法可以包括:
210、获取目标场景对应的至少两个样本文本集,至少两个样本文本集共包括第一数量个样本文本,至少两个样本文本集包括第一样本文本集和第二样本文本集。
比如,目标场景可以包括在线交易场景,两个样本文本集可以包括异常样本文本集和正常样本文本集,所有样本文本集共包含100个样本文本,其中异常样本文本集包括60个异常样本文本,异常样本文本可以包括欺诈交易过程涉及的样本文本,正常样本文本集包括40个正常样本文本,正常样本文本可以包括常规交易过程涉及的样本文本。
220、对每个样本文本进行分词处理,得到每个样本文本各自对应的样本文本词集,样本文本词集包括至少一个样本文本词。
比如,对100个样本文本分别进行分词处理,得到每个样本文本对应的样本文本词集,样本文本词集中保存有至少一个样本文本词,如正常样本文本1“请查收8月房租”进行分词处理,得到样本文本词集1,其包括“请”、“查收”、“8月”、“房租”;对异常样本文本1“朋友圈看到的充值返利活动,充值XX元可返利XX元”进行分词,得到样本文本词集2,其包括“朋友圈”、“看到的”、“充值”、“返利”、“活动”、“充值”、“XX元”、“可”、“返利”、“XX元”。
230、计算每个样本文本词在第一样本文本集的样本文本中的第一出现频率、以及在第二样本文本集的样本文本中的第二出现频率。
比如,对于100个样本文本词集中的每个样本文本词,分别计算其在正常样本文本集的样本文本中的第一出现频率、以及在异常样本文本集的样本文本中的第二出现频率,如计算“查收”在正常样本文本集的样本文本中的出现频率1,以及其在异常样本文本集的样本文本中的出现频率2;又如计算“返利”在正常样本文本集的样本文本中的出现频率3,以及其在异常样本文本集的样本文本中的出现频率4。
240、基于每个样本文本词分别对应的第一出现频率和第二出现频率,从第一数量个样本文本词中筛选出第二数量个特征文本词,第一数量大于或者等于第二数量。
比如,若样本文本词10的第一出现频率和第二出现频率相似,可以理解这类词为文本中的常用词、连接词等,在不同类型的样本文本集中不具备特异性,可以不保留;若样本文本词11的第一出现频率大于第二出现频率与预设正整数的乘积值,即第一出现频率远大于第二出现频率,可以确定样本文本词11在常规在线交易过程更加常见;若样本文本词12的第一出现频率与预设正整数的乘积值小于第二出现频率,即第一出现频率远小于第二出现频率,可以确定此样本文本词12在欺诈交易过程更加常见,可以确定此样本文本词12为目标场景的特征文本词,对所有样本文本词进行判断,确定其中包括的第二数量个特征文本词。
250、根据第一出现频率和第二出现频率,计算每个特征文本词对应的权重值,将第二数量个特征文本词及其分别对应的权重值保存在特征文本词集中。
比如,用样本文本词12的第二出现频率除以第一出现频率,可以得到样本文本词12对应的权重值,对所有特征文本词执行此操作,并将所有特征文本词及其对应的权重值保存在特征文本词集中。
260、对待识别文本进行分词,得到待识别词集,待识别词集包括至少一个待识别词。
270、若待识别词为特征文本词,从特征文本词集中查找待识别词对应的权重值,以及统计此待识别词在待识别词集中的出现频数。
比如,对待识别文本“转账返利,朋友圈看到的”进行分词,得到待识别词集,待识别词集包括6个待识别词,分别为“转账”、“返利”、“朋友圈”、“看到”、“的”,在特征文本词中依次查找这些待识别词,可确定“返利”和“朋友圈”为特征文本词,查找“返利”和“朋友圈”各自对应的权重值F和权重值P,统计“返利”和“朋友圈”在待识别词集中的出现频数均为1。
280、基于待识别词的权重值和出现频数,计算待识别文本的异常分值。
比如,异常分值G=F*1+P*1。
又比如,异常分值G=(F+a)*1+(P+b)*1,其中a为针对特征文本词“返利”的调整参数,b为针对特征文本词“朋友圈”的调整参数。
290、若异常分值大于预设阈值,确定待识别文本在目标场景为异常文本。
比如,异常分值G大于预设阈值1,确定待识别文本“转账返利,朋友圈看到的”为在线交易场景下的异常文本。
本申请可以通过分析样本文本词在不同样本文本词集中的出现频率之间的关系,确定属于欺诈交易过程的特征文本词,得到特征文本词集,将对待识别文本的异常识别问题转化为其包含的待识别词的识别问题,利用特征文本词集找到确定各个待识别词可能属于欺诈交易过程的可能性(词异常值),将各个待识别词的词异常值相加,即为待识别文本的异常分值,进而确定待识别文本是否为异常文本,整个方案思路清晰步骤简单,无需复杂的运算过程,无需占用/耗费大量资源,简单高效。
下面将结合图4,对本申请实施例提供的异常识别方法进行进一步介绍。
首先需要进行文本分词,文本分词可以包括对样本文本进行分词,还可以包括对待识别文本进行分词等,文本分词可以把句子、词组形式的文本转化为多个词语,多个词语可以以列表、集合等形式保存,由此可以将理解难度较大的文本转化为词语,便于后续的若干处理过程。比如,对样本文本分词可以得到关键词列表,关键词列表可以包括多个关键词(样本文本词)。
然后可以进行关键词正负样本浓度计算,本申请可以通过正样本集合(第一样本文本集)和负样本集合(第二样本文本集)保存所有的样本文本,正样本集合可以保存多个异常文本,负样本集合可以保存多个正常文本,可以计算各个关键词的正样本浓度(第一出现频率)和负样本浓度(第二出现频率),正样本浓度可以为关键词在正样本集合的异常文本中的出现频率,负样本浓度可以为关键词在负样本集合的正常文本中的出现频率。比如,正样本集合中包括60个异常文本,负样本集合中包括40个正常文本,关键词1在正样本集合的30个异常文本中出现,正样本浓度可以计算得0.5,关键词1在负样本集合的10个正常文本中出现,负样本浓度可以计算得0.25。
可以根据正样本浓度和负样本浓度进行关键词筛选,具体地,可以预先设置阈值N,N为大于1的正整数,阈值N可以基于实际应用场景灵活调整,本申请对此不做限制,对于每一个关键词,判断其正样本浓度是否大于N倍负样本浓度,若是,保留该关键词;若否,剔除该关键词。由此,常用词和连接词在正常文本和异常文本中具有类似的出现概率,对于异常文本识别的作用不大,本申请实施例可以筛除这部分关键词。本申请实施例判断正样本浓度是否大于N倍负样本浓度,也即判断关键词在正样本集合的异常文本中的出现频率是否显著高于其在负样本集合的正常文本中的出现频率,若是可以理解为该关键词为目标场景的异常情况下的常见关键词,将此关键词保留,此处可以简单快捷地对所有关键词进行筛选,保留与目标场景的异常情况高度相关的若干关键词。
还可以根据关键词的正样本浓度和负样本浓度,计算其浓度增益(权重信息),以得到保留下来的若干关键词各自对应的浓度增益(多个特征文本词各自对应的权重信息)。
本申请实施例可以根据筛选所得若干关键词及其各自对应的浓度增益,对待识别文本进行异常识别,具体地,可以首先对待识别文本进行分词,得到多个待识别词,判断各个待识别词是否为关键词,若是,确定此待识别词的浓度增益,以及统计此待识别词在待识别文本的多个待识别词中的词频,比如,待识别文本X1,关键词a、关键词b和关键词c,统计可知待识别文本X1的待识别词集中,关键词a的词频为1,关键词a的词频为2,关键词a的词频为3,还可以查得关键词a、关键词b和关键词c的浓度增益分别为5、2、和2。
文本-关键词-词频 a b c
X1 1 2 3
最后可以根据待识别文本的关键词的词频和浓度增益,进行加权求和,得到待识别文本的异常得分,比如,待识别文本X1的异常得分p=1×5+2×2+3×2=15。
本申请在某些实施例中,还可以对异常得分计算公式进行调整,引入微调参数(调整参数)进行权重微调,微调参数可以为可学习的参数,可以通过模型训练的思路对微调参数进行更新,如可以选定损失函数,采用梯度下降的方式进行微调参数的更新。并使用更新后的微调参数进行异常得到计算,比如,微调参数为0.2,待识别文本X1的异常得分p=1×(5+0.2)+2×(2+0.2)+3×(2+0.2)=16.2。
最终,可以根据异常得分确定待识别文本1的异常识别结果,比如,预先设置得分阈值1,若待识别文本X1的异常得分p大于得分阈值1,确定此待识别文本为异常文本;若待识别文本X1的异常得分p小于得分阈值1,确定此待识别文本为正常文本。
本申请实施例所提供的异常文本识别方法步骤简单,无需占用大量存储资源和计算资源,简单易行,快捷高效,便于实时部署,适用于多种场景。
为了更好地实施以上方法,本申请实施例还提供一种异常文本识别装置,如图5所示,该异常文本识别装置可以包括样本模块310、分词模块320、频率模块330、特征模块340、以及结果模块350,具体地:
样本模块310,用于获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;
分词模块320,用于对样本文本进行分词处理,得到至少一个样本文本词;
频率模块330,用于计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率;
特征模块340,用于若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词;
结果模块350,用于基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
在本申请的一些实施例中,特征模块340可以包括融合子模块和特征子模块,其中,
融合子模块,用于确定预设参数与第二出现频率的融合值;
特征子模块,用于若第一出现频率大于或等于融合值,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集。
在本申请的一些实施例中,特征模块340可以包括确定子模块和计算子模块,其中,
确定子模块,用于若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词;
计算子模块,用于基于第一出现频率和第二出现频率,计算得到特征文本词的权重信息,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词、以及特征文本词对应的权重信息。
在本申请的一些实施例中,结果模块350可以包括分词子模块、查找子模块和确定子模块,其中,
分词子模块,用于对待识别文本进行分词,得到包含至少一个待识别词的待识别词集;
查找子模块,用于若待识别词为特征文本词集中的特征文本词,查找待识别词对应的权重信息;
确定子模块,用于基于待识别词的权重信息,确定待识别文本在目标场景的异常识别结果。
在本申请的一些实施例中,待识别词集包括多个待识别词,确定子模块可以包括频数单元、计算单元和结果单元,其中,
频数单元,用于确定每个待识别词在待识别词集中的出现频数;
计算单元,用于基于每个待识别词的权重信息和出现频数,计算得到待识别文本的异常分值;
结果单元,用于基于异常分值,确定待识别文本在目标场景的异常识别结果。
在本申请的一些实施例中,结果单元可以具体用于:
若异常分值与预设阈值匹配,确定待识别文本在目标场景为异常文本;
若异常分值与预设阈值不匹配,确定待识别文本在目标场景为正常文本。
在本申请的一些实施例中,计算单元可以具体用于:
基于每个待识别词的权重信息和出现频数,分别计算每个待识别词的词异常值;
对所有词异常值进行求和计算,得到待识别文本的异常分值。
在本申请的一些实施例中,计算单元可以包括参数子单元和计算子单元,其中,
参数子单元,用于确定针对目标场景的至少一个调整参数;
计算子单元,用于基于调整参数、以及每个待识别词数据的权重信息和出现频数,计算得到待识别文本数据的异常分值。
在本申请的一些实施例中,至少一个样本文本词保存在样本文本词集中,多个样本文本各自对应样本文本词集,样本文本对应标签值,多个样本文本各自对应至少一组特征数据,参数子单元可以具体用于:
生成针对目标场景的至少一个初始参数;
若样本文本词集中存在特征文本词,统计特征文本词在样本文本词集中的出现频数,以得到样本文本包含的至少一个特征文本词对应的特征数据,特征数据包括出现频数和权重信息;
基于初始参数和样本文本对应的至少一组特征数据,计算得到样本文本的异常分值;
基于每个样本文本的异常分值和标签值,计算得到损失值;
循环执行基于损失值对至少一个初始参数进行更新,得到至少一个更新后参数,基于更新后参数、多个样本文本各自对应的至少一组特征数据和标签值,计算得到新的损失值的过程,直至满足预设循环终止条件;
确定至少一个更新后参数为针对目标场景的至少一个调整参数。
在本申请的一些实施例中,频率模块330可以具体用于:
统计样本文本词子在第一样本文本集的样本文本中的出现次数;
基于出现次数和第一样本文本集中样本文本的数量,计算样本文本词的第一出现频率;
计算样本文本词在第二样本文本集的样本文本中的第二出现频率。
由上可知,本申请实施例中,样本模块310可以获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集,分词模块320可以对样本文本进行分词处理,得到至少一个样本文本词,频率模块330可以计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率,若第一出现频率与第二出现频率满足预设数值关系,特征模块340可以确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词,最后结果模块350可以基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
本申请实施例可以首先获取目标场景的至少两个样本文本集,然后可以分别计算样本文本在不同样本文本集中的出现概率,如样本文本词在第一样本文本集中的第一出现频率、以及在第二样本文本集中的第二出现频率,不同的样本文本集中可以保存目标场景的不同类型的样本文本,如果样本文本词为某一类型的样本文本中典型的文本词,该样本文本词在该类型的样本文本集中的出现概率会显著区别于其在其他类型的样本文本集中的出现概率,则可以根据样本文本词的至少两个出现概率之间的数值关系,确定此样本文本词是否为目标场景的特征文本词,如若第一出现频率和第二出现频率满足预设数值关系,可确定此样本文本词为特征文本词,进而得到目标场景的特征文本词集,最终基于包含多个特征文本词的特征文本词集对待识别文本进行异常识别,特征文本词集易于部署和使用,基于异常文本词集的异常文本识别过程简单易行,使得本申请可以快速高效地进行异常文本识别。
本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是终端或者服务器等,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的计算机程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储计算机程序以及模块,处理器401通过运行存储在存储器402的就计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;对样本文本进行分词处理,得到至少一个样本文本词;计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率;若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词;基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例可以首先获取目标场景的至少两个样本文本集,然后可以分别计算样本文本在不同样本文本集中的出现概率,如样本文本词在第一样本文本集中的第一出现频率、以及在第二样本文本集中的第二出现频率,不同的样本文本集中可以保存目标场景的不同类型的样本文本,如果样本文本词为某一类型的样本文本中典型的文本词,该样本文本词在该类型的样本文本集中的出现概率会显著区别于其在其他类型的样本文本集中的出现概率,则可以根据样本文本词的至少两个出现概率之间的数值关系,确定此样本文本词是否为目标场景的特征文本词,如若第一出现频率和第二出现频率满足预设数值关系,可确定此样本文本词为特征文本词,进而得到目标场景的特征文本词集,最终基于包含多个特征文本词的特征文本词集对待识别文本进行异常识别,特征文本词集易于部署和使用,基于异常文本词集的异常文本识别过程简单易行,使得本申请可以快速高效地进行异常文本识别。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种异常文本识别方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取目标场景对应的至少两个样本文本集,样本文本集包括多个样本文本,至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;对样本文本进行分词处理,得到至少一个样本文本词;计算样本文本词在第一样本文本集的样本文本中的第一出现频率、以及样本文本词在第二样本文本集的样本文本中的第二出现频率;若第一出现频率与第二出现频率满足预设数值关系,确定样本文本词为目标场景的特征文本词,以得到目标场景的特征文本词集,特征文本词集包括多个特征文本词;基于特征文本词集对待识别文本进行异常识别,确定待识别文本在目标场景的异常识别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种异常文本识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种异常文本识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述异常文本识别方法的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种异常文本识别方法以及相关设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种异常文本识别方法,其特征在于,包括:
获取目标场景对应的至少两个样本文本集,所述样本文本集包括多个样本文本,所述至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;
对所述样本文本进行分词处理,得到至少一个样本文本词;
计算所述样本文本词在所述第一样本文本集的样本文本中的第一出现频率、以及所述样本文本词在所述第二样本文本集的样本文本中的第二出现频率;
若所述第一出现频率与所述第二出现频率满足预设数值关系,确定所述样本文本词为所述目标场景的特征文本词,以得到所述目标场景的特征文本词集,所述特征文本词集包括多个特征文本词;
基于所述特征文本词集对待识别文本进行异常识别,确定所述待识别文本在所述目标场景的异常识别结果。
2.根据权利要求1所述的方法,其特征在于,所述若所述第一出现频率与所述第二出现频率满足预设数值关系,确定所述样本文本词为所述目标场景的特征文本词,以得到所述目标场景的特征文本词集,包括:
确定预设参数与所述第二出现频率的融合值;
若所述第一出现频率大于或等于所述融合值,确定所述样本文本词为所述目标场景的特征文本词,以得到所述目标场景的特征文本词集。
3.根据权利要求1所述的方法,其特征在于,所述若所述第一出现频率与所述第二出现频率满足预设数值关系,确定所述样本文本词为所述目标场景的特征文本词,以得到所述目标场景的特征文本词集,包括:
若所述第一出现频率与所述第二出现频率满足预设数值关系,确定所述样本文本词为所述目标场景的特征文本词;
基于所述第一出现频率和所述第二出现频率,计算得到所述特征文本词的权重信息,以得到所述目标场景的特征文本词集,所述特征文本词集包括多个特征文本词、以及所述特征文本词对应的权重信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述特征文本词集对待识别文本进行异常识别,确定所述待识别文本在所述目标场景的异常识别结果,包括:
对所述待识别文本进行分词,得到包含至少一个待识别词的待识别词集;
若所述待识别词为所述特征文本词集中的特征文本词,查找所述待识别词对应的权重信息;
基于所述待识别词的权重信息,确定所述待识别文本在所述目标场景的异常识别结果。
5.根据权利要求4所述的方法,其特征在于,所述待识别词集包括多个待识别词,所述基于所述待识别词的权重信息,确定所述待识别文本在所述目标场景的异常识别结果,包括:
确定每个所述待识别词在所述待识别词集中的出现频数;
基于每个所述待识别词的权重信息和出现频数,计算得到所述待识别文本的异常分值;
基于所述异常分值,确定所述待识别文本在所述目标场景的异常识别结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述异常分值,确定所述待识别文本在所述目标场景的异常识别结果,包括:
若所述异常分值与预设阈值匹配,确定所述待识别文本在所述目标场景为异常文本;
若所述异常分值与预设阈值不匹配,确定所述待识别文本在所述目标场景为正常文本。
7.根据权利要求5所述的方法,其特征在于,所述基于每个所述待识别词的权重信息和出现频数,计算得到所述待识别文本的异常分值,包括:
基于每个所述待识别词的权重信息和出现频数,分别计算每个所述待识别词的词异常值;
对所有所述词异常值进行求和计算,得到所述待识别文本的异常分值。
8.根据权利要求5所述的方法,其特征在于,所述基于每个所述待识别词的权重信息和出现频数,计算得到所述待识别文本的异常分值,包括:
确定针对所述目标场景的至少一个调整参数;
基于所述调整参数、以及每个所述待识别词数据的权重信息和出现频数,计算得到所述待识别文本数据的异常分值。
9.根据权利要求8所述的方法,其特征在于,所述至少一个样本文本词保存在样本文本词集中,所述多个样本文本各自对应样本文本词集,
所述确定针对所述目标场景的至少一个调整参数,包括:
生成针对所述目标场景的至少一个初始参数;
若样本文本词集中存在特征文本词,统计所述特征文本词在所述样本文本词集中的出现频数,以得到所述样本文本包含的至少一个特征文本词对应的特征数据,所述特征数据包括出现频数和权重信息;
基于所述初始参数和所述样本文本对应的至少一组特征数据,对所述至少一个初始参数进行更新,得到针对所述目标场景的至少一个调整参数。
10.根据权利要求9所述的方法,其特征在于,所述样本文本对应标签值,所述基于所述初始参数和所述样本文本对应的至少一组特征数据,对所述至少一个初始参数进行更新,得到针对所述目标场景的至少一个调整参数,包括:
基于所述初始参数和所述样本文本对应的至少一组特征数据,计算得到所述样本文本的异常分值;
基于所述样本文本的异常分值和标签值,对所述至少一个初始参数进行更新,得到针对所述目标场景的至少一个调整参数。
11.根据权利要求10所述的方法,其特征在于,所述多个样本文本各自对应至少一组特征数据,所述基于所述样本文本的异常分值和标签值,对所述至少一个初始参数进行更新,得到针对所述目标场景的至少一个调整参数,包括:
基于每个样本文本的异常分值和标签值,计算得到损失值;
循环执行基于损失值对所述至少一个初始参数进行更新,得到至少一个更新后参数,基于所述更新后参数、所述多个样本文本各自对应的至少一组特征数据和标签值,计算得到新的损失值的过程,直至满足预设循环终止条件;
确定所述至少一个更新后参数为针对所述目标场景的至少一个调整参数。
12.根据权利要求1所述的方法,其特征在于,所述计算所述样本文本词在所述第一样本文本集的样本文本中的第一出现频率、以及所述样本文本词在所述第二样本文本集的样本文本中的第二出现频率,包括:
统计所述样本文本词在所述第一样本文本集的样本文本中的出现次数;
基于所述出现次数和所述第一样本文本集中样本文本的数量,计算所述样本文本词的第一出现频率;
计算所述样本文本词在所述第二样本文本集的样本文本中的第二出现频率。
13.一种异常文本识别装置,其特征在于,包括:
样本模块,用于获取目标场景对应的至少两个样本文本集,所述样本文本集包括多个样本文本,所述至少两个样本文本集包括至少一个第一样本文本集和至少一个第二样本文本集;
分词模块,用于对所述样本文本进行分词处理,得到至少一个样本文本词;
频率模块,用于计算所述样本文本词在所述第一样本文本集的样本文本中的第一出现频率、以及所述样本文本词在所述第二样本文本集的样本文本中的第二出现频率;
特征模块,用于若所述第一出现频率与所述第二出现频率满足预设数值关系,确定所述样本文本词为所述目标场景的特征文本词,以得到所述目标场景的特征文本词集,所述特征文本词集包括多个特征文本词;
结果模块,用于基于所述特征文本词集对待识别文本进行异常识别,确定所述待识别文本在所述目标场景的异常识别结果。
14.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至12任一项所述的异常文本识别方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至12任一项所述的异常文本识别方法中的步骤。
CN202311136303.1A 2023-09-04 2023-09-04 异常文本识别方法及相关设备 Pending CN117195046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311136303.1A CN117195046A (zh) 2023-09-04 2023-09-04 异常文本识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311136303.1A CN117195046A (zh) 2023-09-04 2023-09-04 异常文本识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN117195046A true CN117195046A (zh) 2023-12-08

Family

ID=88989905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311136303.1A Pending CN117195046A (zh) 2023-09-04 2023-09-04 异常文本识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN117195046A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648612A (zh) * 2024-01-30 2024-03-05 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648612A (zh) * 2024-01-30 2024-03-05 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质
CN117648612B (zh) * 2024-01-30 2024-04-12 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107436875B (zh) 文本分类方法及装置
CN111767403B (zh) 一种文本分类方法和装置
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113722483B (zh) 话题分类方法、装置、设备及存储介质
CN110543637A (zh) 一种中文分词方法及装置
CN117195046A (zh) 异常文本识别方法及相关设备
CN112686051A (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
US10331789B2 (en) Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN111611390A (zh) 一种数据处理方法及装置
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN110705258A (zh) 文本实体识别方法及装置
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN114357152A (zh) 信息处理方法、装置、计算机可读存储介质和计算机设备
CN113254788A (zh) 一种基于大数据的推荐方法、系统及可读存储介质
CN111708862A (zh) 文本匹配方法、装置及电子设备
CN116186233A (zh) 训练数据生成方法及装置、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication