CN108717519A - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN108717519A
CN108717519A CN201810298048.3A CN201810298048A CN108717519A CN 108717519 A CN108717519 A CN 108717519A CN 201810298048 A CN201810298048 A CN 201810298048A CN 108717519 A CN108717519 A CN 108717519A
Authority
CN
China
Prior art keywords
text
sorted
target
categories
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810298048.3A
Other languages
English (en)
Other versions
CN108717519B (zh
Inventor
殷子墨
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Beijing Sinovoice Technology Co Ltd
Original Assignee
BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP filed Critical BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Priority to CN201810298048.3A priority Critical patent/CN108717519B/zh
Publication of CN108717519A publication Critical patent/CN108717519A/zh
Application granted granted Critical
Publication of CN108717519B publication Critical patent/CN108717519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本分类方法及装置。在本发明实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。

Description

一种文本分类方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本分类方法及装置。
背景技术
近年来,随着图像识别技术的不断成熟,名片识别、证件识别、银行卡识别等技术纷纷投入使用。这些技术可以从照片或图片中提取文本,但是文本所属的类别需要进行细分,才利于存储和使用。如名片中常出现的姓名、地址、职位、公司名称等。对文本分类后再分类存储这些文本,可以方便用户之后查询、使用和同领域归类。
然而,如何对本文分类是一个亟待解决的技术问题。
发明内容
为了解决上述问题,本发明公开了一种文本分类方法及装置。
第一方面,本发明实施例示出了一种文本分类方法,所述方法包括:
确定多个文本类别;
对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;
确定预设神经网络模型;
使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
获取待分类文本;
使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。
在一个可选的实现方式中,所述获取待分类文本,包括:
获取目标图像,所述目标图像中包括待分类文本;对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;
或,
获取用户输入的文本,并作为所述待分类文本;
或,
获取目标语音信号;对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。
在一个可选的实现方式中,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。
在一个可选的实现方式中,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别,包括:
获取所述待分类文本中的每一个字符对应的向量;
将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;
利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;
将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。
在一个可选的实现方式中,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后,还包括:
获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;
根据所述评价信息优化所述目标文本分类模型。
第二方面,本发明实施例示出了一种文本分类装置,所述装置包括:
第一确定模块,用于确定多个文本类别;
第一获取模块,用于对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;
第二确定模块,用于确定预设神经网络模型;
训练模块,用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
第二获取模块,用于获取待分类文本;
第三确定模块,用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。
在一个可选的实现方式中,所述第二获取模块包括:
第一获取单元,用于获取目标图像,所述目标图像中包括待分类文本;第一识别单元,用于对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;
或,
第二获取单元,用于获取用户输入的文本,并作为所述待分类文本;
或,
第三获取单元,用于获取目标语音信号;第二识别单元,用于对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。
在一个可选的实现方式中,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。
在一个可选的实现方式中,所述第三确定模块包括:
第四获取单元,用于获取所述待分类文本中的每一个字符对应的向量;
组合单元,用于将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;
第一确定单元,用于利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;
第二确定单元,用于将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。
在一个可选的实现方式中,所述装置还包括:
第三获取模块,用于获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;
优化模块,用于根据所述评价信息优化所述目标文本分类模型。
第三方面,本发明实施例示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的文本分类方法的步骤。
第四方面,本发明实施例示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本分类方法的步骤。
与现有技术相比,本发明实施例包括以下优点:
在本发明实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。
附图说明
图1是本发明的一种文本分类方法实施例的步骤流程图;
图2是本发明的一种文本分类装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种文本分类方法实施例的步骤流程图,具体可以包括如下步骤:
在步骤S101中,确定多个文本类别;
在本发明实施例中,需要事先确定多个文本类别,例如有姓名、职位、地址、公司名称、性别、网址、邮箱地址以及电话等等。
其中,技术人员事先可以统计多个文本类别,然后将多个文本类别输入给设备,设备获取技术人员输入的多个文本类别。
在步骤S102中,对于每一个文本类别,获取分别属于该文本类别的多个样本文本;
在本发明实施例中,为提高训练出的目标文本分类模型的精度,获取属于每一个文本类别的样本文本的数量巨大,例如,可以为一万个,也可以大于一万。
在本发明实施例中,可以使用爬虫工具爬取预设语料库中的文本,并作为样本文本,然后人工标注每一个样本文本的文本类别。预设语料库中的文本可以为网络上的用户评论或留言等文本。
当然,也可以通过其他方式来获取分别属于每一个文本类别的多个样本文本。例如,技术人员为每一个文本类别人工选取多个样本文本,然后分别输入给设备,设备获取技术人员输入的分别属于每一个文本类别的多个样本文本。
爬虫工具可以是一种自动获取文本的程序,也可以是搜索引擎的重要组成部分。搜索引擎使用爬虫工具寻找文本,网络上的HTML(Hyper Text Mark-up Language,超文本标记语言)文档使用超链接连接了起来,就像织成了一张网,爬虫工具顺着这张网爬行,每到一个网页就将这个网页抓下来,再将该网页中的将文本抽取出来,同时抽取超链接,作为进一步爬行的线索。该爬虫工具可以为开源的爬虫工具、非开源的爬虫工具、单独开发或基于开源或非开源的爬虫工具进行二次开发后得到的爬虫工具。
在步骤S103中,确定预设神经网络模型;
预设神经网络模型包括(Long Short-Term Memory,长短期记忆网络)LSTM和GRU(Gated Recurrent Unit,门控循环单元)。
当然,在本发明实施例中也可以使用其他神经网络,例如RNN(Recurrent neuralNetwork,循环神经网络)和NTM(Neural Turing Machines,神经网络图灵机)等。
在步骤S104中,使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
在本发明另一个实施例中,在步骤S103中可以确定出多个预设神经网络模型,然后在步骤S104中使用分别属于每一个文本类别的多个样本文本对每一个预设神经网络模型分别训练,得到多个文本分类模型,然后获取多个测试文本,使用测试文本对多个文本分类模型的分类精准度分别测试,将分类精准度最高的文本分类模型座位目标文本分类模型。
在步骤S105中,获取待分类文本;
在一个实现方式中,可以通过图像来获取待分类文本,图像可以为名片的图像,证件的图像以及银行卡的图像等等。具体地,可以获取目标图像,目标图像中包括待分类文本,然后对目标图像进行图像识别,得到目标图像中包括的文本,并作为待分类文本。
在另一个实现方式中,可以直接获取用户输入的文本,并作为待分类文本。
在又一个实现方式中,可以获取目标语音信号,对目标语音信号进行语音识别,得到目标语音信号对应的文本,并作为待分类文本。
在步骤S106中,使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。
其中,可以获取待分类文本中的每一个字符对应的向量,其中,可以将待分类文本拆分为多个字符,在已存储的字符与向量之间的对应关系中,分别查找与每一个字符相对应的向量,然后将每一个字符对应的向量按照字符在待分类文本中的先后顺序组成向量特征;利用向量特征和预设权重确定待分类文本属于每一个文本类别的概率;将最大的概率的文本类别确定为待分类文本所属的目标文本类别。
进一步地,为了对目标文本分类模型优化,在本步骤之后,用户还可以确定,使用目标文本分类模型确定待分类文本所属的目标文本类别是否准确,并在设备中输入对使用目标文本分类模型确定待分类文本所属的目标文本类别的评价信息,相应地,设备还可以获取用户对使用目标文本分类模型确定待分类文本所属的目标文本类别的评价信息;根据该评价信息优化目标文本分类模型。
在本发明实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明一种文本分类装置实施例的结构框图,该装置具体可以包括如下模块:
第一确定模块11,用于确定多个文本类别;
第一获取模块12,用于对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;
第二确定模块13,用于确定预设神经网络模型;
训练模块14,用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
第二获取模块15,用于获取待分类文本;
第三确定模块16,用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。
在一个可选的实现方式中,所述第二获取模块15包括:
第一获取单元,用于获取目标图像,所述目标图像中包括待分类文本;第一识别单元,用于对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;
或,
第二获取单元,用于获取用户输入的文本,并作为所述待分类文本;
或,
第三获取单元,用于获取目标语音信号;第二识别单元,用于对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。
在一个可选的实现方式中,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。
在一个可选的实现方式中,所述第三确定模块16包括:
第四获取单元,用于获取所述待分类文本中的每一个字符对应的向量;
组合单元,用于将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;
第一确定单元,用于利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;
第二确定单元,用于将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。
在一个可选的实现方式中,所述装置还包括:
第三获取模块,用于获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;
优化模块,用于根据所述评价信息优化所述目标文本分类模型。
在本发明实施例中,确定多个文本类别;对于每一个文本类别,获取分别属于该文本类别的多个样本文本;确定预设神经网络模型;使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;获取待分类文本;使用目标文本分类模型确定待分类文本在多个文本类别中所属的目标文本类别。通过本发明实施例的方法,可以确定待分类文本所述的文本类别。之后可以目标文本类别分类存储待分类文本,方便用户之后查询和使用和同领域归类。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所述的文本分类方法的步骤。
本发明实施例还示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如图1所述的文本分类方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种文本分类方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
确定多个文本类别;
对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;
确定预设神经网络模型;
使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
获取待分类文本;
使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。
2.根据权利要求1所述的方法,其特征在于,所述获取待分类文本,包括:
获取目标图像,所述目标图像中包括待分类文本;对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;
或,
获取用户输入的文本,并作为所述待分类文本;
或,
获取目标语音信号;对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。
3.根据权利要求1所述的方法,其特征在于,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。
4.根据权利要求1所述的方法,其特征在于,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别,包括:
获取所述待分类文本中的每一个字符对应的向量;
将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;
利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;
将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。
5.根据权利要求1所述的方法,其特征在于,所述使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别之后,还包括:
获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;
根据所述评价信息优化所述目标文本分类模型。
6.一种文本分类装置,其特征在于,所述装置包括:
第一确定模块,用于确定多个文本类别;
第一获取模块,用于对于每一个文本类别,获取分别属于所述文本类别的多个样本文本;
第二确定模块,用于确定预设神经网络模型;
训练模块,用于使用分别属于每一个文本类别的多个样本文本对预设神经网络模型训练,得到目标文本分类模型;
第二获取模块,用于获取待分类文本;
第三确定模块,用于使用所述目标文本分类模型确定所述待分类文本在所述多个文本类别中所属的目标文本类别。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,包括:
第一获取单元,用于获取目标图像,所述目标图像中包括待分类文本;第一识别单元,用于对所述目标图像进行图像识别,得到所述目标图像中包括的文本,并作为所述待分类文本;
或,
第二获取单元,用于获取用户输入的文本,并作为所述待分类文本;
或,
第三获取单元,用于获取目标语音信号;第二识别单元,用于对所述目标语音信号进行语音识别,得到所述目标语音信号对应的文本,并作为待分类文本。
8.根据权利要求6所述的装置,其特征在于,所述预设神经网络模型包括长短期记忆网络LSTM和门控循环单元GRU。
9.根据权利要求6所述的装置,其特征在于,所述第三确定模块包括:
第四获取单元,用于获取所述待分类文本中的每一个字符对应的向量;
组合单元,用于将每一个字符对应的向量按照字符在所述待分类文本中的先后顺序组成向量特征;
第一确定单元,用于利用所述向量特征和预设权重确定所述待分类文本属于每一个文本类别的概率;
第二确定单元,用于将最大的概率的文本类别确定为所述待分类文本所属的目标文本类别。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取用户对使用所述目标文本分类模型确定所述待分类文本所属的目标文本类别的评价信息;
优化模块,用于根据所述评价信息优化所述目标文本分类模型。
CN201810298048.3A 2018-04-03 2018-04-03 一种文本分类方法及装置 Active CN108717519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810298048.3A CN108717519B (zh) 2018-04-03 2018-04-03 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810298048.3A CN108717519B (zh) 2018-04-03 2018-04-03 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN108717519A true CN108717519A (zh) 2018-10-30
CN108717519B CN108717519B (zh) 2021-02-19

Family

ID=63898765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810298048.3A Active CN108717519B (zh) 2018-04-03 2018-04-03 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN108717519B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948604A (zh) * 2019-02-01 2019-06-28 北京捷通华声科技股份有限公司 不规则排列文本的识别方法、装置、电子设备及存储介质
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297626A1 (en) * 2012-03-23 2013-11-07 AVG Technologies CZ,s.r.o Systems and methods for extraction of policy information
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107797982A (zh) * 2016-08-31 2018-03-13 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297626A1 (en) * 2012-03-23 2013-11-07 AVG Technologies CZ,s.r.o Systems and methods for extraction of policy information
CN107797982A (zh) * 2016-08-31 2018-03-13 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107808011A (zh) * 2017-11-20 2018-03-16 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948604A (zh) * 2019-02-01 2019-06-28 北京捷通华声科技股份有限公司 不规则排列文本的识别方法、装置、电子设备及存储介质
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
WO2020224115A1 (zh) * 2019-05-07 2020-11-12 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110245557B (zh) * 2019-05-07 2023-12-22 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110781858A (zh) * 2019-11-05 2020-02-11 泰康保险集团股份有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备

Also Published As

Publication number Publication date
CN108717519B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN108717519A (zh) 一种文本分类方法及装置
CN104836720B (zh) 交互式通信中进行信息推荐的方法及装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN110309514A (zh) 一种语义识别方法及装置
CN111984779B (zh) 一种对话文本分析方法、装置、设备和可读介质
CN106372059A (zh) 信息输入方法和装置
CN109255053A (zh) 资源搜索方法、装置、终端、服务器、计算机可读存储介质
CN106202380B (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN103106287A (zh) 一种用户检索语句的处理方法及系统
CN105931642B (zh) 语音识别方法、设备及系统
CN109670166A (zh) 基于语音识别的催收辅助方法、装置、设备和存储介质
CN107291775A (zh) 错误样本的修复语料生成方法和装置
CN108563683A (zh) 标签添加方法、装置及终端
CN106649253A (zh) 基于后验证的辅助控制方法及系统
CN108241690A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
CN107291774A (zh) 错误样本识别方法和装置
CN112163074A (zh) 用户意图识别方法、装置、可读存储介质及电子设备
CN113806501B (zh) 意图识别模型的训练方法、意图识别方法和设备
CN109002184A (zh) 一种输入法候选词的联想方法和装置
WO2021185113A1 (zh) 基于多分析任务的数据分析方法及电子设备
CN111309926B (zh) 一种实体链接方法、装置及电子设备
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant