CN108241702A - 文本的分类方法及装置 - Google Patents

文本的分类方法及装置 Download PDF

Info

Publication number
CN108241702A
CN108241702A CN201611222590.8A CN201611222590A CN108241702A CN 108241702 A CN108241702 A CN 108241702A CN 201611222590 A CN201611222590 A CN 201611222590A CN 108241702 A CN108241702 A CN 108241702A
Authority
CN
China
Prior art keywords
text
target
text type
type
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611222590.8A
Other languages
English (en)
Inventor
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611222590.8A priority Critical patent/CN108241702A/zh
Publication of CN108241702A publication Critical patent/CN108241702A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本的分类方法及装置。该方法包括:获取目标文本;判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。通过本申请,解决了相关技术中无法确定不规律的文本的所属的文本类型问题。

Description

文本的分类方法及装置
技术领域
本申请涉及文本分类技术领域,具体而言,涉及一种文本的分类方法及装置。
背景技术
在一些系统中每天会接收到许多有规律或无规律的文本数据,例如,每天各区域会在安全监督系统中上报所发生的安全事故,但是所有上报的内容为文本数据,为非结构化的数据,因此需要对所有发生的安全事故的类别进行自动分类。相关技术中是通过对文本中的特殊标记进行提取解析,例如,“A市一废弃老桥在拆除过程中发生坍塌事故,造成3人下落不明”,通过规则提取文本的分类,如提取以“发生”为开始,以“事故”为结尾的中间部分的内容,作为文本的类型。然而在上报的安全事故的文本中,可能部分文本是存在一定的规律,部分文本是无规律的。相关技术中的方法只能对存在规律的文本进行分类,确定存在规律的文本对应的文本类型,而对不规律的文本是无法进行分类,无法确定不规律的文本的所属的文本类型。
针对相关技术中无法确定不规律的文本的所属的文本类型问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本的分类方法及装置,以解决相关技术中无法确定不规律的文本的所属的文本类型问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本的分类方法。该方法包括:获取目标文本;判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。
进一步地,在根据文本类型特征模型判别目标文本所属的文本类型之前,该方法包括:获取包含预设标识的文本;确定包含预设标识的文本的文本类型;从包含预设标识的文本中提取目标词;以及基于包含预设标识的文本的文本类型和目标词进行学习,生成文本类型特征模型。
进一步地,文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,根据文本类型特征模型判别目标文本所属的文本类型包括:对目标文本进行分词提取;将提取到的分词与文本类型特征模型中的多个目标词进行匹配;以及若匹配成功,将在文本类型特征模型中匹配到的目标词对应的文本类型作为目标文本所属的文本类型。
进一步地,在将提取到的分词与文本类型特征模型中的多个目标词进行匹配之后,该方法包括:若匹配失败,对目标文本进行标记并根据标记确定目标文本对应的文本类型;以及对目标文本对应的文本类型和提取到的分词进行学习,以更新文本类型特征模型。
进一步地,从包含预设标识的文本中提取目标词包括:对包含预设标识的文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;按照第一预设条件对分词集合中的分词进行过滤;从过滤后的分词集合中提取符合第二预设条件的分词;以及将提取到的分词作为目标词。
为了实现上述目的,根据本申请的另一方面,提供了一种文本的分类装置。该装置包括:第一获取单元,用于获取目标文本;判断单元,用于判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及判别单元,用于在目标文本中不包含预设标识的情况下,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。
进一步地,该装置包括:第二获取单元,用于在根据文本类型特征模型判别目标文本所属的文本类型之前,获取包含预设标识的文本;确定单元,用于确定包含预设标识的文本的文本类型;提取单元,用于从包含预设标识的文本中提取目标词;以及生成单元,用于基于包含预设标识的文本的文本类型和目标词进行学习,生成文本类型特征模型。
进一步地,文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,判别单元包括:第一提取模块,用于对目标文本进行分词提取;匹配模块,用于将提取到的分词与文本类型特征模型中的多个目标词进行匹配;以及第一确定模块,用于若匹配成功,将在文本类型特征模型中匹配到的目标词对应的文本类型作为目标文本所属的文本类型。
进一步地,该装置包括:第三获取单元,用于在将提取到的分词与文本类型特征模型中的多个目标词进行匹配之后,若匹配失败,对目标文本进行标记并根据标记确定目标文本对应的文本类型;以及学习单元,用于对目标文本对应的文本类型和提取到的分词进行学习,以更新文本类型特征模型。
进一步地,该提取单元包括:处理模块,用于对包含预设标识的文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;过滤模块,用于按照第一预设条件对分词集合中的分词进行过滤;第二提取模块,用于从过滤后的分词集合中提取符合第二预设条件的分词;以及第二确定模块,用于将提取到的分词作为目标词。
通过本申请,采用以下步骤:获取目标文本;判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本,解决了相关技术中无法确定不规律的文本的所属的文本类型问题。通过预先生成的文本类型特征模型判别目标文本所属的文本类型,进而达到了能够确定不规律的文本的所属的文本类型的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文本的分类方法的流程图;以及
图2是根据本申请实施例提供的文本的分类装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
文本分类:电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
根据本申请的实施例,提供了一种文本的分类方法。
图1是根据本申请实施例的文本的分类方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取目标文本。
在本申请中的目标文本可以为在安全监督系统中接收到的各区域上报所发生的安全事故的文本,例如,目标文本为:A市所属一艘渔船“渔11002”在B海区沉没,造成7人下落不明。
步骤S102,判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型。
在本申请中提及的预设标识可以为文本中的一些特殊的标识,基于这种特殊的标识可以判断文本所属的文本类型,例如:C地区境内发生道路交通事故,造成3人死亡,在这段文本中,以文本中的“发生”为开始,以“交通”结束的中间词语即可为特殊的标识,也即该段文本的预设标识,根据该预设标识可以确定出上报的该文本所属的文本类型为交通事故类。需要说明的是,在本申请中提及的预设标识可以通过对多个已确定文本类型的文本进行学习其包含的标识得到,并不局限于某个特定的标识。
判断目标文本中是否包含预设标识,如果目标文本中包含预设标识,即可以确定目标文本所属的文本类型。
步骤S103,如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。
例如,目标文本为:A市所属一艘渔船“渔11002”在B海区沉没,造成7人下落不明。其中,不包含以“发生”为开始等等的特殊的标识,也即,目标文本不包含预设标识。因此,无法根据预设标识确定目标文本所属的文本类型。在本申请中根据对多个文本的文本类型进行学习后生成的文本类型特征模型判别目标文本所属的文本类型。
可选地,在本申请实施例提供的文本的分类方法中,在根据文本类型特征模型判别目标文本所属的文本类型之前,该方法包括:获取包含预设标识的文本;确定包含预设标识的文本的文本类型;从包含预设标识的文本中提取目标词;以及基于包含预设标识的文本的文本类型和目标词进行学习,生成文本类型特征模型。
也即,预先获取包含预设标识的文本,通过预设标识确定该文本的文本类型;从包含预设标识的文本中提取目标词,基于包含预设标识的文本的文本类型和目标词进行学习,生成文本类型特征模型。
需要说明的是,在本申请中的文本类型特征模型可以是对多个包含预设标识的文本的文本类型进行学习生成的模型,还可以是对多个不包含预设标识的文本的文本类型和多个包含预设标识的文本的文本类型进行学习生成的模型。
可选地,在本申请实施例提供的文本的分类方法中,文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,根据文本类型特征模型判别目标文本所属的文本类型包括:对目标文本进行分词提取;将提取到的分词与文本类型特征模型中的多个目标词进行匹配;以及若匹配成功,将在文本类型特征模型中匹配到的目标词对应的文本类型作为目标文本所属的文本类型。
在根据文本类型特征模型判别目标文本所属的文本类型时,首先从目标文本中提取分词,将提取到的分词与文本类型特征模型中的多个目标词进行匹配,例如,目标文本为:A市所属一艘渔船“渔11002”在B海区沉没,造成7人下落不明。从目标文本中提取到的分词为“渔船沉没”,将提取到的分词“渔船沉没”与文本类型特征模型中的多个目标词进行匹配,如果匹配到对应的目标词,基于文本类型特征模型中目标词对应的文本类型,确定目标文本所属的文本类型。例如,提取到的分词“渔船沉没”与文本类型特征模型中的目标词“渔船沉没”匹配成功,那么确定目标文本所属的文本类型为文本类型特征模型中的目标词“渔船沉没”对应的文本类型。
需要说明的是,在本方案中的对目标文本进行分词提取,不是任意提取目标文本中的任一分词,而是提取符合一定条件的分词。因此,提取到的分词是符合一定条件的分词。
可选地,在本申请实施例提供的文本的分类方法中,在将提取到的分词与文本类型特征模型中的多个目标词进行匹配之后,该方法包括:若匹配失败,对目标文本进行标记并根据标记确定目标文本对应的文本类型;以及对目标文本对应的文本类型和提取到的分词进行学习,以更新文本类型特征模型。
在提取到的分词与文本类型特征模型中的多个目标词匹配失败的情况下,也即在提取到的分词在文本类型特征模型中未匹配到目标词的情况下,为了保证后续文本类型特征模型判别目标文本所属的文本类型的准确性,可以通过对目标文本进行标记并根据标记确定目标文本对应的文本类型,然后再对目标文本对应的文本类型和提取到的分词再次进行学习,以实现更新文本类型特征模型,保证了后续判别文本所属的文本类型的准确性。
可选地,在本申请实施例提供的文本的分类方法中,从包含预设标识的文本中提取目标词包括:对包含预设标识的文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;按照第一预设条件对分词集合中的分词进行过滤;从过滤后的分词集合中提取符合第二预设条件的分词;以及将提取到的分词作为目标词。
例如,采用中文分词对目标文本进行分词处理,并且得到的分词集合中的将特殊词(第一预设条件)进行过滤。例如,将量词、地理位置词进行过滤。利用语义角色标注对文本进行分析,提取出动作施事词及动作受影响的词(符合第二预设条件的分词)。例如,A市所属一艘渔船“渔11002”在B海区沉没,造成7人下落不明,动作施事是渔船,动作受影响词语是沉没。提取出的分词为“渔船沉没”,将“渔船沉没”作为目标词。
通过以上公开的技术方案,可以实现更加准确的识别文本的文本类型,从而也减小了人工成本,也使得分析出来的数据更加可靠。
本申请实施例提供的文本的分类方法,通过获取目标文本;判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本,解决了相关技术中无法确定不规律的文本的所属的文本类型问题。通过预先生成的文本类型特征模型判别目标文本所属的文本类型,进而达到了能够确定不规律的文本的所属的文本类型的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本的分类装置,需要说明的是,本申请实施例的文本的分类装置可以用于执行本申请实施例所提供的用于文本的分类方法。以下对本申请实施例提供的文本的分类装置进行介绍。
图2是根据本申请实施例的文本的分类装置的示意图。如图2所示,该装置包括:第一获取单元10、判断单元20和判别单元30。
具体地,第一获取单元10,用于获取目标文本。
判断单元20,用于判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型。
判别单元30,用于在目标文本中不包含预设标识的情况下,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。
本申请实施例提供的文本的分类装置,通过第一获取单元10获取目标文本;判断单元20判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及判别单元30在目标文本中不包含预设标识的情况下,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本,解决了相关技术中无法确定不规律的文本的所属的文本类型问题,通过预先生成的文本类型特征模型判别目标文本所属的文本类型,进而达到了能够确定不规律的文本的所属的文本类型的效果。
可选地,在本申请实施例提供的文本的分类装置中,该装置包括:第二获取单元,用于在根据文本类型特征模型判别目标文本所属的文本类型之前,获取包含预设标识的文本;确定单元,用于确定包含预设标识的文本的文本类型;提取单元,用于从包含预设标识的文本中提取目标词;以及生成单元,用于基于包含预设标识的文本的文本类型和目标词进行学习,生成文本类型特征模型。
可选地,在本申请实施例提供的文本的分类装置中,文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,判别单元30包括:第一提取模块,用于对目标文本进行分词提取;匹配模块,用于将提取到的分词与文本类型特征模型中的多个目标词进行匹配;以及第一确定模块,用于若匹配成功,将在文本类型特征模型中匹配到的目标词对应的文本类型作为目标文本所属的文本类型。
可选地,在本申请实施例提供的文本的分类装置中,该装置包括:第三获取单元,用于在将提取到的分词与文本类型特征模型中的多个目标词进行匹配之后,若匹配失败,对目标文本进行标记并根据标记确定目标文本对应的文本类型;以及学习单元,用于对目标文本对应的文本类型和提取到的分词进行学习,以更新文本类型特征模型。
可选地,在本申请实施例提供的文本的分类装置中,该提取单元包括:处理模块,用于对包含预设标识的文本进行分词处理,得到分词集合,其中,分词集合中包括多个分词;过滤模块,用于按照第一预设条件对分词集合中的分词进行过滤;第二提取模块,用于从过滤后的分词集合中提取符合第二预设条件的分词;以及第二确定模块,用于将提取到的分词作为目标词。
所述文本的分类装置包括处理器和存储器,上述第一获取单元10、判断单元20和判别单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设标识、第一预设条件、第二预设条件都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数对文本进行分类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标文本;判断目标文本中是否包含预设标识,其中,预设标识用于确定目标文本对应的文本类型;以及如果目标文本中不包含预设标识,根据文本类型特征模型判别目标文本所属的文本类型,其中,文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,多个文本至少包括:包含预设标识的文本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本的分类方法,其特征在于,包括:
获取目标文本;
判断所述目标文本中是否包含预设标识,其中,所述预设标识用于确定所述目标文本对应的文本类型;以及
如果所述目标文本中不包含所述预设标识,根据文本类型特征模型判别所述目标文本所属的文本类型,其中,所述文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,所述多个文本至少包括:包含所述预设标识的文本。
2.根据权利要求1所述的方法,其特征在于,在根据文本类型特征模型判别所述目标文本所属的文本类型之前,所述方法包括:
获取包含所述预设标识的文本;
确定包含所述预设标识的文本的文本类型;
从包含所述预设标识的文本中提取目标词;以及
基于包含所述预设标识的文本的文本类型和所述目标词进行学习,生成所述文本类型特征模型。
3.根据权利要求2所述的方法,其特征在于,所述文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,根据文本类型特征模型判别所述目标文本所属的文本类型包括:
对所述目标文本进行分词提取;
将提取到的分词与所述文本类型特征模型中的多个目标词进行匹配;以及
若匹配成功,将在所述文本类型特征模型中匹配到的目标词对应的文本类型作为所述目标文本所属的文本类型。
4.根据权利要求3所述的方法,其特征在于,在将提取到的分词与所述文本类型特征模型中的多个目标词进行匹配之后,所述方法包括:
若匹配失败,对所述目标文本进行标记并根据所述标记确定所述目标文本对应的文本类型;以及
对所述目标文本对应的文本类型和所述提取到的分词进行学习,以更新所述文本类型特征模型。
5.根据权利要求2所述的方法,其特征在于,从包含所述预设标识的文本中提取目标词包括:
对包含所述预设标识的文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;
按照第一预设条件对所述分词集合中的分词进行过滤;
从过滤后的分词集合中提取符合第二预设条件的分词;以及
将提取到的分词作为所述目标词。
6.一种文本的分类装置,其特征在于,包括:
第一获取单元,用于获取目标文本;
判断单元,用于判断所述目标文本中是否包含预设标识,其中,所述预设标识用于确定所述目标文本对应的文本类型;以及
判别单元,用于在所述目标文本中不包含所述预设标识的情况下,根据文本类型特征模型判别所述目标文本所属的文本类型,其中,所述文本类型特征模型为对多个文本的文本类型进行学习后生成的模型,所述多个文本至少包括:包含所述预设标识的文本。
7.根据权利要求6所述的装置,其特征在于,所述装置包括:
第二获取单元,用于在根据文本类型特征模型判别所述目标文本所属的文本类型之前,获取包含所述预设标识的文本;
确定单元,用于确定包含所述预设标识的文本的文本类型;
提取单元,用于从包含所述预设标识的文本中提取目标词;以及
生成单元,用于基于包含所述预设标识的文本的文本类型和所述目标词进行学习,生成所述文本类型特征模型。
8.根据权利要求7所述的装置,其特征在于,所述文本类型特征模型包括:多个目标词和每个目标词对应的文本类型,所述判别单元包括:
第一提取模块,用于对所述目标文本进行分词提取;
匹配模块,用于将提取到的分词与所述文本类型特征模型中的多个目标词进行匹配;以及
第一确定模块,用于若匹配成功,将在所述文本类型特征模型中匹配到的目标词对应的文本类型作为所述目标文本所属的文本类型。
9.根据权利要求8所述的装置,其特征在于,所述装置包括:
第三获取单元,用于在将提取到的分词与所述文本类型特征模型中的多个目标词进行匹配之后,若匹配失败,对所述目标文本进行标记并根据所述标记确定所述目标文本对应的文本类型;以及
学习单元,用于对所述目标文本对应的文本类型和所述提取到的分词进行学习,以更新所述文本类型特征模型。
10.根据权利要求7所述的装置,其特征在于,所述提取单元包括:
处理模块,用于对包含所述预设标识的文本进行分词处理,得到分词集合,其中,所述分词集合中包括多个分词;
过滤模块,用于按照第一预设条件对所述分词集合中的分词进行过滤;
第二提取模块,用于从过滤后的分词集合中提取符合第二预设条件的分词;
以及
第二确定模块,用于将提取到的分词作为所述目标词。
CN201611222590.8A 2016-12-26 2016-12-26 文本的分类方法及装置 Pending CN108241702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611222590.8A CN108241702A (zh) 2016-12-26 2016-12-26 文本的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611222590.8A CN108241702A (zh) 2016-12-26 2016-12-26 文本的分类方法及装置

Publications (1)

Publication Number Publication Date
CN108241702A true CN108241702A (zh) 2018-07-03

Family

ID=62702488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611222590.8A Pending CN108241702A (zh) 2016-12-26 2016-12-26 文本的分类方法及装置

Country Status (1)

Country Link
CN (1) CN108241702A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN105843957A (zh) * 2016-04-15 2016-08-10 国家计算机网络与信息安全管理中心 微博深度分类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN105843957A (zh) * 2016-04-15 2016-08-10 国家计算机网络与信息安全管理中心 微博深度分类方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置

Similar Documents

Publication Publication Date Title
Roy et al. Number Plate Recognition for use in different countries using an improved segmentation
CN104462053B (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN111428604B (zh) 面部佩戴口罩识别方法、装置、设备及存储介质
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN107305630B (zh) 文本序列识别方法和装置
CN106357618B (zh) 一种Web异常检测方法和装置
CN107247947A (zh) 人脸属性识别方法及装置
CN104199840B (zh) 基于统计模型的智能地名识别技术
CN104778470A (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN109919106B (zh) 渐进式目标精细识别与描述方法
CN106778757A (zh) 基于文本显著性的场景文本检测方法
CN101221623B (zh) 一种物体类型的在线训练和识别方法及其系统
CN105045780B (zh) 一种发票字条语义信息的识别方法及装置
CN106992969A (zh) 基于域名字符串统计特征的dga生成域名的检测方法
CN106919542A (zh) 规则匹配方法及装置
CN108268823A (zh) 目标再识别方法和装置
CN107465643A (zh) 一种深度学习的网络流量分类方法
CN109359186B (zh) 一种确定地址信息的方法、装置和计算机可读存储介质
CN111046886A (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN104573711A (zh) 基于文本-物体-场景关系的物体和场景的图像理解方法
CN106203539A (zh) 识别集装箱箱号的方法和装置
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN108073925A (zh) 一种车牌识别方法及装置
CN106529470A (zh) 一种基于多级深度卷积神经网络的手势识别方法
CN105701464A (zh) 一种判断人脸检测误检及关键点定位准确度的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180703

RJ01 Rejection of invention patent application after publication