CN114462405A - 文本类别的识别方法和装置、存储介质及电子装置 - Google Patents

文本类别的识别方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN114462405A
CN114462405A CN202210130589.1A CN202210130589A CN114462405A CN 114462405 A CN114462405 A CN 114462405A CN 202210130589 A CN202210130589 A CN 202210130589A CN 114462405 A CN114462405 A CN 114462405A
Authority
CN
China
Prior art keywords
text
category
keyword
recognized
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210130589.1A
Other languages
English (en)
Inventor
王广敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Consumer Finance Co Ltd
Original Assignee
Industrial Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Consumer Finance Co Ltd filed Critical Industrial Consumer Finance Co Ltd
Priority to CN202210130589.1A priority Critical patent/CN114462405A/zh
Publication of CN114462405A publication Critical patent/CN114462405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本类别的识别方法和装置、存储介质及电子装置,其中,上述方法包括:获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别。通过本申请,解决了相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。

Description

文本类别的识别方法和装置、存储介质及电子装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种文本类别的识别方法和装置、存储介质及电子装置。
背景技术
目前,可以使用用于识别文本类别的神经网络进行文本分类,通过神经网络捕获上下文的语义逻辑,转变成时序序列,进而基于时序识别结合上下文实现对语义的理解,确定文本的类别。
然而,上述识别文本类别的方式,由于需要结合上下文实现对语义的理解,因此对于训练样本的文本长度和样本量均有较高的要求。对于识别短文本类别的场景,例如,按照公司名称识别公司所属的行业类别,由于文本信息量较少,很难结合上下文实现对语义的理解,因此,文本识别的准确性低。
由此可见,相关技术中的文本类别的识别方法,存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。
发明内容
本申请实施例提供了一种文本类别的识别方法和装置、存储介质及电子装置,以至少解决相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性低的问题。
根据本申请实施例的一个方面,提供了一种文本类别的识别方法,包括:获取待识别文本的至少一个文本关键词;根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
根据本申请实施例的另一个方面,还提供了一种文本类别的识别装置,包括:获取单元,用于获取待识别文本的至少一个文本关键词;第一确定单元,用于根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;第二确定单元,用于将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;第三确定单元,用于在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
在一个示例性实施例中,所述装置还包括:提取单元,用于在所述获取待识别文本的至少一个文本关键词之前,按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,其中,所述多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别对应的权重值不为零。
在一个示例性实施例中,所述装置还包括:执行单元,用于在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之前,对所述待识别文本执行过滤操作,得到过滤后的所述待识别文本,其中,所述过滤操作用于过滤所述待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,所述无效文本信息为在所述多个类别中,对应的权重值均为零的文本信息。
在一个示例性实施例中,所述执行单元包括:提取模块,用于按照所述多个参考关键词,从所述待识别文本中提取出至少一个候选关键词;移除模块,用于在所述至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除所述具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。
在一个示例性实施例中,所述装置还包括:第一提示单元,用于在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之后,在所述待识别文本包含除了所述至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,所述第一提示信息用于提示所述待识别文本中存在异常文本信息。
在一个示例性实施例中,所述装置还包括:第一分词单元,用于在所述获取待识别文本的至少一个文本关键词之前,按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词,其中,所述已标注文本为已标注对应类别的文本;第四确定单元,用于根据所述每个参考关键词在所述每个类别的已标注文本中出现的次数、以及所述每个类别的已标注文本中包含所述每个参考关键词的已标注文本的总数量,确定所述每个参考关键词与所述每个类别对应的词频;第五确定单元,用于根据所述已标注文本集中包含所述每个参考关键词的已标注文本的数量、以及所述已标注文本集中包含的已标注文本的总数量,确定与所述每个参考关键词对应的逆向文档频率;第六确定单元,用于根据所述每个参考关键词与所述每个类别对应的词频、以及与所述每个参考关键词对应的逆向文档频率,确定所述每个参考关键词与所述每个类别对应的权重值。
在一个示例性实施例中,所述装置还包括:更新单元,用于在所述按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词之后,在所述已标注文本集中的目标已标注文本中存在异常分词的情况下,更新所述多个参考关键词;第二分词单元,用于按照更新后的所述多个参考关键词,对所述每个已标注文本重新进行分词处理,得到所述每个已标注文本所包含的参考关键词。
在一个示例性实施例中,所述获取单元包括:确定模块,用于在所述至少一个文本关键词包含一个文本关键词的情况下,将所述一个文本关键词与所述每个类别对应的权重值,确定为与所述每个类别对应的类别权重;求和模块,用于在所述至少一个文本关键词包含多个文本关键词的情况下,对所述每个文本关键词与所述每个类别对应的权重值进行求和操作,得到与所述每个类别对应的类别权重。
在一个示例性实施例中,所述装置还包括:第二提示单元,用于在所述将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别之后,在与所述候选类别对应的类别权重小于目标阈值的情况下,向第二设备发送第二提示信息,其中,所述第二提示信息用于提示未识别出所述待识别文本的类别。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本类别的识别方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本类别的识别方法。
在本申请实施例中,采用根据文本关键词在不同类别的权重确定文本所属类别的方式,获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别,由于通过为不同的文本关键词设置与不同类别对应的权重值,可以基于文本包含的文本关键词与不同类别对应的权重值确定文本所属的类别,可以实现识别短文本类别的目的,达到提高文本识别准确性的技术效果,进而解决了相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的文本类别的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的文本类别的识别方法的流程示意图;
图3是根据本申请实施例的另一种可选的文本类别的识别方法的流程示意图;
图4是根据本申请实施例的一种可选的文本类别的识别装置的结构框图;
图5是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种文本类别的识别方法。可选地,在本实施例中,上述文本类别的识别方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端102可以并不限定于为PC、手机、平板电脑等。
本申请实施例的文本类别的识别方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的文本类别的识别方法也可以是由安装在其上的客户端来执行。
以由服务器104来执行本实施例中的文本类别的识别方法为例,图2是根据本申请实施例的一种可选的文本类别的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取待识别文本的至少一个文本关键词。
本实施例中的文本类别的识别方法可以应用在进行业务登记或者身份验证等业务场景中,对待识别文本进行识别,确定与待识别文本对应的类别,进而为业务的执行提供参考。上述待识别文本和对应的类别可以有多种,例如,上述待识别文本可以为公司的名称,对应的类别可以为公司所属的行业或领域的类别(比如,金融业,服务业等),又例如,上述的待识别文本可以为公司的地址,对应的类别可以为公司所处的地段(比如,市区,郊区等),本实施例中对于待识别文本的类型以及对应的类别不做限定。通过对文本进行识别和分类,能有效地提高文本的整合和管理能力。
例如,为了衡量用户的收入水平,同时保护用户隐私,可以根据用户从事的行业和职业来评估用户的收入水平。而为了确定用户从事的行业和职业,可以通过对用户的公司名称进行识别,确定公司所属的行业类别。
为了对短文本进行类别识别,可以采用Textrank算法(关键词提取和摘要算法)和正则表达式匹配相结合的方式,利用Textrank算法构建类别-特征词库,然后通过正则表达式进行关键词匹配和检索进行类别分类。然而,正则进行关键词匹配适用于具有强分类效果的关键词,针对弱分类效果的关键词则非常不理想,而如果直接忽视弱分类效果的关键词,则十分浪费,导致分类准确性降低。此外,对于非固定形式的文本,则很难兼顾所有文本特征定制分类规则,例如,公司数量庞大,很难兼顾所有公司特征定制行业分类规则。而新公司层出不穷,难以及时更新,更新规则需要大量的人力成本,实现成本较高。
在本实施例中,为了提高文本识别的准确性,可以提取待识别文本中的关键词,得到待识别文本中包含的所有文本关键词,提取的关键词可以是所有具有强分类效果的关键词和具有弱分类效果的关键词。根据具有不同分类效果的多个文本关键词与每个类别对应的权重值确定待识别文本的类别,可以提高文本分类的准确性。
对于一个待识别文本,其可以是在银行办理业务时填写的公司名称的文本,用户可以通过终端设备(即,上述终端102)将待识别文本上传到服务器(即,上述服务器104)。终端设备上可以显示有目标界面,用户可以对目标界面执行输入、点击、双击、滑动等操作,将待识别文本上传至服务器。服务器可以接收到上述待识别文本。可选地,服务器也可以从本地保存的文本信息中获取上述待识别文本,本实施例中对于获取待识别文本的方式不做限定。
在获取到待识别文本之后,服务器可以首先校验待识别文本的有效性,例如,服务器可以判断待识别文本中的特殊字符的个数(例如,标点符号、英文字母等),如果待识别文本包含的特殊字符的个数超过设定个数阈值时(例如,6个),服务器可以通过在目标页面中显示弹窗、页面提示信息等方式,提示待识别文本有误,还可以提示重新输入待识别文本。可选地,在用户输入待识别文本的过程中,也可以对待识别文本进行实时校验,以提高信息输入响应的及时性。
在校验出待识别文本为有效的文本时,服务器可以提取上述待识别文本中的文本关键词,得到至少一个文本关键词。上述的文本关键词可以是具有区分不同类别能力的关键词,例如,与某些行业相关的关键词,与某一区域相关的关键词,其可以是具有强分类效果的关键词,也可以是具有弱分类效果的关键词。服务器可以存有多个参考关键词,在提取待识别文本的关键词时,可以查询待识别文本中包括的候选关键词,在查询到待识别文本中包含的候选关键词的情况下,将待识别文本中包含的候选关键词作为待识别文本的文本关键词。
步骤S204,根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重。
服务器中可以存储有每个参考关键词(包含上述文本关键词)与多个类别的每个类别对应的权重信息。上述的权重信息用于表示每个参考关键词与每个类别的关联性,当一个参考关键词与某一类别对应的权重越高时,该参考关键词与上述类别的关联性越强,反之,当一个参考关键词与某一类别对应的权重越低时,该参考关键词与上述类别的关联性越弱。上述的参考关键词的权重值的确定方式可以有多种,可以是服务器对参考关键词在不同类别中的重要性程度进行统计得到的权重值,也可以是根据用户根据自身的经验对参考关键词设置的权重值,本实施例中对此不做限定。
可选地,同一参考关键词与不同类别对应的权重值可能是相同的,也可能是不相同的,不同参考关键词与同一类别对应的权重值可能是相同的,也可能是不相同的,不同参考关键词与不同类别对应的权重值可能是相同的,也可能是不相同的,本实施例中对此不做限定。为了能够准确地反映出文本关键词在不同类别中的重要程度,对于任一个参考关键词,其在多个类别中的每个类别对应的权重值进行加和的结果可以等于1。
根据存储的权重信息,服务器可以确定每个文本关键词与每个类别对应的权重值,并根据每个文本关键词与每个类别对应的权重值,确定与每个类别对应的类别权重。与一个类别对应的类别权重可以用于标识待识别文本的类别为该一个类别的置信度,与一个类别对应的类别权重越大,待识别文本的类别为该一个类别的置信度越高。
可选地,确定与每个类别对应的类别权重的方式可以有一种或多种,可以包括但不限于以下至少之一:对每个文本关键词与每个类别对应的权重值进行求和操作,对每个文本关键词与每个类别对应的权重值进行求平均值操作,还可以是其他的确定方式,本实施例中对此不做限定。
步骤S206,将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别。
在确定出每个类别对应的类别权重之后,服务器可以比较与每个类别对应的类别权重,将与最大类别权重对应类别,确定为候选类别。例如,共有三个类别,类别一、类别二和类别三,其中最大的类别权重对应的类别为类别二,则可以将类别二确定为候选类别。
步骤S208,在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别。
在确定出候选类别之后,服务器可以直接将候选类别确定为与待识别文本对应的类别,并将识别结果保存在数据库中。可选地,为了提高对文本识别的准确性,在确定出候选类别之后,服务器可以判断与候选类别对应的类别权重是否满足目标阈值条件,该目标阈值条件可以用来判断待识别文本为某一类别的置信度,即,如果满足目标阈值条件可以是某一类别对应的类别权重大于或者等于目标阈值,则确定该类别为与待识别文本对应的类别。
对于候选类别,服务器可以判断候选类别对应的类别权重是否大于或者等于目标阈值,如果是,可以将候选类别确定为与待识别文本对应的类别,并将识别的结果保存在数据库中,如果否,则无法确定候选类别是否是与待识别文本对应的类别,此时可以向预定设备发送提示信息,以提示无法识别待识别文本的类别。这里的预定设备为预先设定的、用于异常处理的设备,其可以是相关人员的终端设备。
通过上述步骤S202至步骤S208,获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别,解决了相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性的技术问题,提高了文本识别的准确性。
在一个示例性实施例中,在获取待识别文本的至少一个文本关键词之前,上述方法还包括:
S11,按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词,其中,多个参考关键词中的每个参考关键词与多个类别中的至少一个类别对应的权重值不为零。
在本实施例中,上述多个参考关键词可以是目标词典中的关键词,上述目标词典可以是服务器中储存的词典,其可以是已有分词词典,也可以是自定义词典,也可以是已有词典结合自定义词典所得到的词典。上述的参考关键词可以是用户设置的关键词,也可以是根据识别文本的历史记录生成的关键词。为了保证参考关键词的区分性,多个参考关键词中的每个参考关键词与多个类别中的至少一个类别对应的权重值不为零,即,其至少可以用于区别一个类别。
在获取到待识别文本之后,服务器可以按照目标词典中的多个参考关键词,查询待识别文本中包含的参考关键词相同的文本,并将查询到参考关键词,确定为待识别文本中包含的文本关键词。
例如,可以使用行业特征词库(上述目标词典的示例)对待识别文本进行分词处理,得到待识别文本中包含的行业特征词(即,上述文本关键词),然后使用行业特征词权重库,确定待识别文本中包含的行业特征词在不同行业中所占的权重值,进而确定与各个行业对应的类别权重。
通过本实施例,通过查询词典的方式提取出文本中所包含的关键词,可以增加文本识别的效率性。
在一个示例性实施例中,在按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词之前,上述方法还包括:
S21,对待识别文本执行过滤操作,得到过滤后的待识别文本,其中,过滤操作用于过滤待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,无效文本信息为在多个类别中,对应的权重值均为零的文本信息。
在本实施例中,由于待识别文本的不确定性(例如,用户的误输入使得待识别文本包含了多种文本信息),在获取到待识别文本之后,如果直接识别文本的类别,可能会由于其他文本信息的干扰导致识别失败。因此,服务器可以首先对待识别文本执行文本预处理,再提取文本关键词。上述文本预处理可以包括对待识别文本执行过滤操作。
过滤操作可以是筛除待识别文本中与类别识别无关的信息,其可以包括但不限于以下至少一种信息:异常值信息,预定字符,无效文本信息。上述的异常值信息可以是文本中出现的异常值,例如,乱码、数字等,预定字符可以是标点符号、括号、通用字符、英文字母等,上述的无效文本信息表示在多个类别中,对应的权重值均为零的文本信息,即,与多种类别均无关的文本信息。
示例性地,像公司名称这类短文本,可以剔除其中的无效信息,比如,地址信息和通用字符,以“上海***有限公司”,剔除其中的上海、公司等,余下的文本信息非常之短,大概率不会超过五个字符,因此,基于公司名称识别行业类别适用于短文本识别的方案。
通过本实施例,在提取文本关键词前,先对待识别文本进行过滤,可以减少误识别的情况发生,提高文本识别的准确性及效率。
在一个示例性实施例中,按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词,包括:
S31,按照多个参考关键词,从待识别文本中提取出至少一个候选关键词;
S32,在至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。
在进行关键词提取时,服务器可以按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个候选关键词。目标词典中的参考关键词可能会出现有重叠的情况,一个参考关键词中可能包含有一个或多个其他的参考关键词,例如,“AA”可以为一个参考关键词,“AAB”也可以为一个参考关键词,两者之间存在重叠。由于不同的参考关键词在不同的类别中的权重不同,若不对这些关键词进行处理,则会导致文本识别的准确度降低。
为了保证文本识别的准确性,可以对重复的文本关键词进行筛选。对于得到的至少一个候选关键词,服务器可以确定具有重叠部分的候选关键词,并确定其中包含有最多文本候选关键词,对包含有最多文本的候选关键词进行保留,并移除其他重叠的候选关键词。
可选地,如果具有重叠部分的候选关键词是包含关系,则可以按照前述方式进行候选关键字移除,如果具有重叠部分的候选关键词不是包含关系,也可以按照前述方式进行候选关键字移除,或者,向预定设备(例如,相关人员的终端设备)发送提示信息,以提示文本识别异常,由人工或者其他方式进行识别。
通过本实施例,通过提取并移除具有重叠部分的关键词,可以提高文本识别的准确性。
在一个示例性实施例中,在按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词之后,上述方法还包括:
S41,在待识别文本包含除了至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,第一提示信息用于提示待识别文本中存在异常文本信息。
在提取出至少一个文本关键词之后,服务器可以检测待识别文本是否有未被提取出的文本信息,即,判断待识别文本是否包含除了至少一个文本关键词以外的其他文本信息(例如,未定义词)。上述的其他文本信息可以是某一类别中刚诞生的、还未被收录的文本,或者,用户还未定义的关键词或者其中的部分。例如,互联网行业中的元宇宙等新兴的词语。在待识别文本包含除了至少一个文本关键词以外的其他文本信息的情况下,服务器可以向第一设备发送第一提示信息。上述的第一设备可以是前述预定设备,其可以是预先设定的、用于异常处理的设备,例如,相关人员的终端设备(比如,手机、电脑等)。第一提示信息用于提示待识别文本中存在异常文本信息。
通过本实施例,在检测到待识别文本中包含异常文本信息时通过提示信息提示上述异常,可以提高文本识别的准确性。
在一个示例性实施例中,在获取待识别文本的至少一个文本关键词之前,上述方法还包括:
S51,按照多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到每个已标注文本包含的参考关键词,其中,已标注文本为已标注对应类别的文本;
S52,根据每个参考关键词在每个类别的已标注文本中出现的次数、以及每个类别的已标注文本中包含每个参考关键词的已标注文本的总数量,确定每个参考关键词与每个类别对应的词频;
S53,根据已标注文本集中包含每个参考关键词的已标注文本的数量、以及已标注文本集中包含的已标注文本的总数量,确定与每个参考关键词对应的逆向文档频率;
S54,根据每个参考关键词与每个类别对应的词频、以及与每个参考关键词对应的逆向文档频率,确定每个参考关键词与每个类别对应的权重值。
在本实施例中,每个参考关键词与每个类别对应的权重值可以是根据已标注文本集中的已标注文本所包含的参考关键词确定的,这里的已标注文本为已标注对应类别的文本。上述权重值可以表示参考关键词对于每个类别的重要程度,对于任一个类别,如果一个参考关键词在某个类别中对应的权重值越高,该参考关键词对该类别的重要性越高,则可以认为该参考关键词对应于该类别具有很好的区分能力,如果一个参考关键词在某个类别中对应的权重值越低,该参考关键对该类别的重要性越低,则可以认为该参考关键词对于该类别具有较差的区分能力。
如果一个参考关键词在某个类别中的权重值越大,则可以认为该参考关键词具有很好的区分能力,可以用来分类,反之,若一个参考关键词在某个类别中的权重值越小,则可以认为该参考关键词不具有区分能力,不适合用来进行分类。
对于目标词典中包含的参考关键词,服务器(也可以是其他设备)可以使用目标词典中的多个参考关键词对每个已标注文本进行分词处理,得到每个已标注文本所包含的参考关键词,同一个参考关键词可以包含在至少一个已标注文本中。上述目标词典可以是已有词典。可选地,为了减少根据现有的文本切分方式(比如,使用正则表达式进行切分等)对关键词进行错误切分导致文本识别不准确,可以使用用户自定义词典对已标注文本集进行分词处理,从而提升分词的精准度,实现对公司名称等短文本的精准切分。
在对每个已标注文本进行分词处理之前,可以先对已标注文本进行文本预处理。上述的文本预处理包括对已标注文本进行异常值处理、特殊字符处理等,由于文本输入法的多样性和中文表述的复杂性,可以通过正则表达式等方式归一化样本集,形成一个标准化的样本集,便于后续分析处理。
在得到每个已标注文本包含的参考关键词之后,服务器可以确定出每个参考关键词与每个类别对应的权重值。确定每个参考关键词与每个类别对应的权重值可以是基于TFIDF(term frequency-inverse document frequency,词频-逆向文件频率)确定的。TF-IDF的核心思想是:如果某个单词在一个文本中出现的频率高,即TF值高,并且在其他文本中很少出现,则认为该词或者该短语具有很好的类别区分能力,适合用来分类。
对于每个参考关键词,服务器可以确定该参考关键词在每个类别的已标注文本中出现的次数、以及每个类别的已标注文本中包含该参考关键词的已标注文本的总数量,确定该参考关键词与每个类别对应的词频,即,该参考关键词与每个类别对应的TF值。某个参考关键词在某一类别中出现的频率越高,则与该类别对应的TF值越高。服务器还可以根据已标注文本集中包含该参考关键词的已标注文本的数量、以及已标注文本集中包含的已标注文本的总数量,确定与该参考关键词对应的逆向文档频率,即,该参考关键词的IDF值。包含某个参考关键词的已标注文本的数量越少,则该参考关键词对应的IDF值越高。每个参考关键词与每个类别对应的权重值可以直接该参考关键词与每个类别对应的TF值和该参考关键词的IDF值的乘积来进行确定。
例如,仅基于单一特征词进行行业分类效果是不理想的,比如词组“商务”大概率出现在服务行业,但是也有部分科技公司名称中出现“商务”,如商务技术有限公司等,而且词组“商务”也确实是具有一定区分能力的特征词,只是没有达到像银行、证券、学校等专属名词一样的强区分能力,属于弱特征词。若是进行多个特征词组合,那排列组合的情况是非常多的,将耗费大量的人力。
为此,可以利用TF-IDF根据公司名称进行行业类别识别。TF-IDF的原理是:是当一个词组集中出现在某一个行业里,同时在其他行业中出现较少,则认为这个词组具有较好的类别区分能力。可以构建行业特征词库和行业特征词权重库,挑选不同行业的特征词,形成行业-特征词库,并利用TF-IDF技术来计算不同特征词在各行业中的权重,形成行业-特征词权重库。比如,词组“商务”通过TFIDF技术计算出来在服务行业的权值会高于在科技行业中的权值。此时,通过多个弱特征词组合,弱特征词的权值累加后的分类效果将会接近强特征词的分类效果。
通过本实施例,通过每个参考关键词与每个类别对应的词频、以及每个参考关键词对应的逆向文档频率,确定每个参考关键词与每个类别对应的权重值,可以提高权重信息确定的便捷性。
在一个示例性实施例中,在按照多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到每个已标注文本包含的参考关键词之后,上述方法还包括:
S61,在已标注文本集中的目标已标注文本中存在异常分词的情况下,更新多个参考关键词;
S62,按照更新后的多个参考关键词,对每个已标注文本重新进行分词处理,得到每个已标注文本所包含的参考关键词。
为了保证文本识别的准确性,如果使用目标词典中的参考关键词对已标注文本集中的某个已标注文本(即,目标已标注文本)进行分词处理时,其分词结果中存在异常分词时,例如,包含不属于多个参考关键词中的分词、将本应属于一个参考关键词的分词分成了两个等,则可以确定此时的目标词典包含的参考关键词不合理,服务器可以对目标词典中的参考关键词进行更新,得到更新后的多个参考关键词。更新的方式可以是:向相关工作人员反馈分词异常,由相关人员更新目标词典,还可以更新停用词库(例如,停止使用的参考关键词),以保证目标词典中包含的参考关键词的合理性。
例如,可以根据切分效果(切分结果,即,分词结果)不断迭代优化停用词库,进一步优化行业-特征词库和行业-特征词权重库。
在得到更新后的多个参考关键词之后,可以按照更新后的多个参考关键词,对每个已标注文本重新进行分词处理,得到每个已标注文本所包含的参考关键词,使用更新后的多个参考关键词对每个已标注文本重新进行分词处理的方式与前述使用多个参考关键词对每个已标注文本进行分词处理的方式类似,本实施例中在此不做赘述。
通过本实施例,通过对目标词库中的参考关键词进行更新,可以提高词典中包含的关键词的准确性,进而提高关键词对应权重确定的合理性。
在一个示例性实施例中,根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重,包括:
S71,在至少一个文本关键词包含一个文本关键词的情况下,将一个文本关键词与每个类别对应的权重值,确定为与每个类别对应的类别权重;
S72,在至少一个文本关键词包含多个文本关键词的情况下,对每个文本关键词与每个类别对应的权重值进行求和操作,得到与每个类别对应的类别权重。
在本实施例中,至少一个文本关键词中包含的文本关键词可以为一个或多个,对于不同数量的文本关键词,可以采用不同的方式确定与每个类别对应的类别权重。
作为一种可选的实施方式,在提取到待识别文本中只包含一个文本关键词的情况下,服务器可以将该文本关键词与每个类别对应的权重值,确定为与每个类别对应的类别权重。
作为另一种可选的实施方式,在提取到待识别文本中包含多个文本关键词的情况下,服务器可以对每个文本关键词与每个类别对应的权重值进行求和,从而得到与每个类别对应的类别权重。
例如,待识别文本中包含5个关键词,共有三个类别,对于每个类别,服务器可以确定5个关键词与本类别对应的权重值,进而确定5个关键词与每个类别对应的权重值的和,即,与每个类别对应的类别权重,最终确定出的类别权重有三个,与三个类别一一对应。
通过本实施例,通过待识别文本中的关键词数量采用不同的方式来确定每个类别的类别权重,可以提高文本识别的高效性和灵活性。
在一个示例性实施例中,在将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别之后,上述方法还包括:
S81,在与候选类别对应的类别权重小于目标阈值的情况下,向第二设备发送第二提示信息,其中,第二提示信息用于提示未识别出待识别文本的类别。
在与候选类别对应的类别权重小于目标阈值的情况下,此时无法保证候选关键词为待识别文本所对应的类别,因此,服务器可以向第二设备发出第二提示信息。第二设备与第一设备可以是相同设备,也可以是不同设备。第二提示信息用于提示无法识别出待识别文本的类别。
通过本实施例,文本类别识别失败时,向相关设备发出提示信息,以提示文本识别异常,可以提高文本识别的及时性和灵活性。
下面结合可选示例对本申请实施例中的文本类别的识别方法进行解释说明。在本可选示例中,待识别文本为公司名称(可以是未标注的短文本),目标词典为自定义词典,关键词可以是行业特征词。
为了解决相关技术中基于公司名称短文本进行行业识别分类效果不佳的问题,本可选示例中提供的是一种基于TFIDF的行业分类方案,利用TFIDF技术对已标注样本进行处理,筛选并计算出各行业特征词以及对应特征词权重,形成行业-特征词库和行业-特征词权重库,利用行业-特征词权重库可以随意组合多个特征词,在不影响强特征词(即,强分类效果的特征词)的分类效果前提下,也可以充分发挥弱特征词(弱分类效果的特征词)的分类效果,实现行业分类,同时不需要进行模型训练,对样本量要求也不高,极大提升分类的效率。
结合图3所示,本可选示例中的文本类别的识别方法的流程可以包括以下步骤:
步骤S302,获取已标注的短文本集,上述短文本集可以是公司名称短文本的集合。
步骤S304,文本预处理。可以对已标注的短文本集中的已标注的公司名称短文本进行预处理,可以包括异常值处理、特殊字符处理等,得到归一化的样本集。
步骤S306,文本分词处理。可以使用用户自定义词典对预处理后的公司名称短文本进行分词处理,得到公司名称短文本的分词结果。
步骤S308,判断分词是否合理,若是,执行步骤S312,否则,执行步骤S310。
步骤S310,追加用户自定义词典,返回执行步骤S306。
步骤S312,通过TF-IDF计算筛选行业特征词,筛选出的行业特征词可以是针对每个行业进行的,即,筛选出每个行业的行业特征词。
步骤S314,确定行业-特征词库和行业-特征词权重库。筛选出的各个行业的行业特征词可以形成行业-特征词库;同时,还可以计算出各行业特征词以及对应特征词权重,进而形成行业-特征词权重库。利用行业-特征词权重库可以随意组合多个特征词,在不影响强特征词的分类效果前提下,也可以充分发挥弱特征词的分类效果。
通过上述步骤S302至步骤S314,可以构建出行业-特征词库和行业-特征词权重库,进而可以进一步检索待分类词组(即,从待识别的公司名称中分出的词组,上述文本关键词的一种示例)在行业-特征词权重库中出现的权重,然后通过简单累加便可实现行业分类。
对于未标注的短文本,识别其对应行业类别的流程可以包含以下步骤:
步骤S316,获取未标注的文本,上述未标注的文本可以是待标注的公司名称短文本。
步骤S318,文本预处理,对于未标注的文本,可以与步骤S304中类似的方式处理待标注的公司名称短文本,得到一个标准化的短文本。
步骤S320,根据用户自定义词典,对文本进行分词处理。对于得到的标准化的短文本,可以采用用户自定义词典进行分词处理,得到切分后的词组,即,切分后的待标注词组,这里,需要保持对已标注的短文本和未标注的短文本进行分词使用的用户自定义词典一致。
步骤S322,在行业-特征词权重库里遍历切分后的待标注词组,统计每个词组在各个行业中的权重,得到各个行业的累计权重(即,类别权重),并选取最大的累计权重。
步骤S324,判断最大的累计权重是否超过阈值,若是,执行步骤S326,否则,执行步骤S328。上述阈值为根据行业-特征词权重库所设置的门限阈值。
步骤S326,输出最大值对应的行业类别。当最大的累计权重超过设定的阈值时,直接输出最大值对应的行业类别。
步骤S328,输出提示信息,提示无法判断。如果最大的累计权重小于设定的阈值时,则输出无法判断。
通过本可选示例,基于TFIDF构建行业-特征词库和行业-特征词权重库,进而实现基于公司名称短文本进行行业分类,不需要结合上下文进行语义理解,非常适合像公司名称类似的短文本分类;同时不需要模型训练,极大降低耗时;最后对样本量要求不高,所需样本量远低于神经网络模型训练的样本量,对人力成本要求不高,不需要穷举规则,从而极大提升行业分类的准确率与效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述文本类别的识别方法的文本类别的识别装置。图4是根据本申请实施例的一种可选的文本类别的识别装置的结构框图,如图4所示,该装置可以包括:
获取单元402,用于获取待识别文本的至少一个文本关键词;
第一确定单元404,与获取单元402相连,用于根据所述至少一个文本关键词中的每个文本关键词与所述多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;
第二确定单元406,与第一确定单元404相连,用于将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;
第三确定单元408,与第二确定单元406相连,用于在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
需要说明的是,该实施例中的获取单元402可以用于执行上述步骤S202,该实施例中的第一确定单元404可以用于执行上述步骤S204,该实施例中的第二确定单元406可以用于执行上述步骤S206,该实施例中的第三确定单元408用于执行上述步骤S208。
通过上述模块,获取待识别文本的至少一个文本关键词;根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别,解决了相关技术中的文本类别的识别方法存在由于需要结合上下文实现对语义的理解导致对于短文本识别的准确性的技术问题,提高了文本识别的准确性。
在一个示例性实施例中,上述装置还包括:
提取单元,用于在获取待识别文本的至少一个文本关键词之前,按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词,其中,多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别对应的权重值不为零。
在一个示例性实施例中,上述装置还包括:
执行单元,用于在按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词之前,对待识别文本执行过滤操作,得到过滤后的待识别文本,其中,过滤操作用于过滤待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,无效文本信息为在多个类别中,对应的权重值均为零的文本信息。
在一个示例性实施例中,执行单元包括:
提取模块,用于按照多个参考关键词,从待识别文本中提取出至少一个候选关键词;
移除模块,用于在至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。
在一个示例性实施例中,上述装置还包括:
第一提示单元,用于在按照目标词典中的多个参考关键词,从待识别文本中提取出至少一个文本关键词之后,在待识别文本包含除了至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,第一提示信息用于提示待识别文本中存在异常文本信息。
在一个示例性实施例中,上述装置还包括:
第一分词单元,用于在获取待识别文本的至少一个文本关键词之前,按照多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到每个已标注文本包含的参考关键词,其中,已标注文本为已标注对应类别的文本;
第四确定单元,用于根据每个参考关键词在每个类别的已标注文本中出现的次数、以及每个类别的已标注文本中包含每个参考关键词的已标注文本的总数量,确定每个参考关键词与每个类别对应的词频;
第五确定单元,用于根据已标注文本集中包含每个参考关键词的已标注文本的数量、以及已标注文本集中包含的已标注文本的总数量,确定与每个参考关键词对应的逆向文档频率;
第六确定单元,用于根据每个参考关键词与每个类别对应的词频、以及与每个参考关键词对应的逆向文档频率,确定每个参考关键词与每个类别对应的权重值。
在一个示例性实施例中,上述装置还包括:
更新单元,用于在按照多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到每个已标注文本包含的参考关键词之后,在已标注文本集中的目标已标注文本中存在异常分词的情况下,更新多个参考关键词;
第二分词单元,用于按照更新后的多个参考关键词,对每个已标注文本重新进行分词处理,得到每个已标注文本所包含的参考关键词。
在一个示例性实施例中,获取单元包括:
确定模块,用于在至少一个文本关键词包含一个文本关键词的情况下,将一个文本关键词与每个类别对应的权重值,确定为与每个类别对应的类别权重;
求和模块,用于在至少一个文本关键词包含多个文本关键词的情况下,对每个文本关键词与每个类别对应的权重值进行求和操作,得到与每个类别对应的类别权重。
在一个示例性实施例中,上述装置还包括:
第二提示单元,用于在将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别之后,在与候选类别对应的类别权重小于目标阈值的情况下,向第二设备发送第二提示信息,其中,第二提示信息用于提示未识别出待识别文本的类别。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项文本类别的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待识别文本的至少一个文本关键词;
S2,根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;
S3,将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;
S4,在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本类别的识别方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子装置的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
S1,获取待识别文本的至少一个文本关键词;
S2,根据至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与每个类别对应的类别权重;
S3,将与每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;
S4,在与候选类别对应的类别权重大于或者等于目标阈值的情况下,将候选类别确定为与待识别文本对应的类别。
可选地,通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器506中可以但不限于包括上述文本类别的识别装置中的获取单元402、第一确定单元404、第二确定单元406以及第三确定单元408。此外,还可以包括但不限于上述文本类别的识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述文本类别的识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (12)

1.一种文本类别的识别方法,其特征在于,包括:
获取待识别文本的至少一个文本关键词;
根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;
将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;
在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别文本的至少一个文本关键词之前,所述方法还包括:
按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,其中,所述多个参考关键词中的每个参考关键词与所述多个类别中的至少一个类别对应的权重值不为零。
3.根据权利要求2所述的方法,其特征在于,在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之前,所述方法还包括:
对所述待识别文本执行过滤操作,得到过滤后的所述待识别文本,其中,所述过滤操作用于过滤所述待识别文本中以下之一的信息:异常值信息,预定字符,无效文本信息,所述无效文本信息为在所述多个类别中,对应的权重值均为零的文本信息。
4.根据权利要求2所述的方法,其特征在于,所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词,包括:
按照所述多个参考关键词,从所述待识别文本中提取出至少一个候选关键词;
在所述至少一个候选关键词中包含具有重叠部分的关键词的情况下,移除所述具有重叠部分的关键词中,除了包含最多文本的关键词以外的其他关键词。
5.根据权利要求2所述的方法,其特征在于,在所述按照目标词典中的多个参考关键词,从所述待识别文本中提取出所述至少一个文本关键词之后,所述方法还包括:
在所述待识别文本包含除了所述至少一个文本关键词以外的其他文本信息的情况下,向第一设备发送第一提示信息,其中,所述第一提示信息用于提示所述待识别文本中存在异常文本信息。
6.根据权利要求2所述的方法,其特征在于,在所述获取待识别文本的至少一个文本关键词之前,所述方法还包括:
按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词,其中,所述已标注文本为已标注对应类别的文本;
根据所述每个参考关键词在所述每个类别的已标注文本中出现的次数、以及所述每个类别的已标注文本中包含所述每个参考关键词的已标注文本的总数量,确定所述每个参考关键词与所述每个类别对应的词频;
根据所述已标注文本集中包含所述每个参考关键词的已标注文本的数量、以及所述已标注文本集中包含的已标注文本的总数量,确定与所述每个参考关键词对应的逆向文档频率;
根据所述每个参考关键词与所述每个类别对应的词频、以及与所述每个参考关键词对应的逆向文档频率,确定所述每个参考关键词与所述每个类别对应的权重值。
7.根据权利要求6所述的方法,其特征在于,在所述按照所述多个参考关键词,对已标注文本集中的每个已标注文本进行分词处理,得到所述每个已标注文本包含的参考关键词之后,所述方法还包括:
在所述已标注文本集中的目标已标注文本中存在异常分词的情况下,更新所述多个参考关键词;
按照更新后的所述多个参考关键词,对所述每个已标注文本重新进行分词处理,得到所述每个已标注文本所包含的参考关键词。
8.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个文本关键词中的每个文本关键词与所述多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重,包括:
在所述至少一个文本关键词包含一个文本关键词的情况下,将所述一个文本关键词与所述每个类别对应的权重值,确定为与所述每个类别对应的类别权重;
在所述至少一个文本关键词包含多个文本关键词的情况下,对所述每个文本关键词与所述每个类别对应的权重值进行求和操作,得到与所述每个类别对应的类别权重。
9.根据权利要求1至8中任一项所述的方法,其特征在于,在所述将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别之后,所述方法还包括:
在与所述候选类别对应的类别权重小于目标阈值的情况下,向第二设备发送第二提示信息,其中,所述第二提示信息用于提示未识别出所述待识别文本的类别。
10.一种文本类别的识别装置,其特征在于,包括:
获取单元,用于获取待识别文本的至少一个文本关键词;
第一确定单元,用于根据所述至少一个文本关键词中的每个文本关键词与多个类别中的每个类别对应的权重值,确定与所述每个类别对应的类别权重;
第二确定单元,用于将与所述每个类别对应的类别权重中最大的类别权重所对应的类别,确定为候选类别;
第三确定单元,用于在与所述候选类别对应的类别权重大于或者等于目标阈值的情况下,将所述候选类别确定为与所述待识别文本对应的类别。
11.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至9中任一项所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至9中任一项所述的方法。
CN202210130589.1A 2022-02-11 2022-02-11 文本类别的识别方法和装置、存储介质及电子装置 Pending CN114462405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210130589.1A CN114462405A (zh) 2022-02-11 2022-02-11 文本类别的识别方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210130589.1A CN114462405A (zh) 2022-02-11 2022-02-11 文本类别的识别方法和装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN114462405A true CN114462405A (zh) 2022-05-10

Family

ID=81413859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210130589.1A Pending CN114462405A (zh) 2022-02-11 2022-02-11 文本类别的识别方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN114462405A (zh)

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN107729337B (zh) 事件的监测方法和装置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN112783825B (zh) 数据归档方法、装置、计算机装置及存储介质
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN109660621A (zh) 一种内容推送方法及服务设备
CN111259207A (zh) 短信的识别方法、装置及设备
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN112015773B (zh) 知识库的检索方法、装置、电子设备以及存储介质
CN114462405A (zh) 文本类别的识别方法和装置、存储介质及电子装置
CN103605692A (zh) 用于问答社区中屏蔽广告内容的装置和方法
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination