CN110825874A - 一种中文文本分类方法和装置及计算机可读存储介质 - Google Patents
一种中文文本分类方法和装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110825874A CN110825874A CN201911037832.XA CN201911037832A CN110825874A CN 110825874 A CN110825874 A CN 110825874A CN 201911037832 A CN201911037832 A CN 201911037832A CN 110825874 A CN110825874 A CN 110825874A
- Authority
- CN
- China
- Prior art keywords
- sentence
- matrix
- character
- sentences
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 84
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 abstract description 8
- 239000013598 vector Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种中文文本分类方法和装置及计算机可读存储介质,包括:将中文文本中的句子拆分成单个字符;将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征;根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征,而不需要对句子进行分词,避免了分词对分类结果造成的影响,而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性,保留了词汇级别的含义,因此,对于BERT预训练模型提取的句子的特征,字符级别的输入提高了分类精度。
Description
技术领域
本发明实施例涉及但不限于信息处理技术,尤指一种中文文本分类方法和装置及计算机可读存储介质。
背景技术
自动化的文本分类,能够极大的减少人工排查量。目前,中文文本的分类方法有以下两种:
第一种,首先对中文文本中的句子进行分词,从分词的结果中提取每一个词的词向量,将所有词的词向量拼接成一个矩阵,将得到的矩阵输入到分类器中进行分类得到句子对应的类别,通常采用循环神经网络(RNN,Recurrent Neural Network)能得到较好的分类结果。这种方法的分类效果在一定程度上受分词好坏的影响,比如公司名称、人名等不常见的词汇较多的时候,分词的效果就会降低,从而影响RNN的分类结果。
第二种,首先对中文文本中的句子进行分词,将所有的词依次输入到双向编码表征的转换(BERT,Bidirectional Encoder Representations from Transformers)预训练模型中得到包括所有词的词向量的矩阵,将得到的矩阵输入到分类器中进行分类得到句子对应的类别。这种方法中,BERT预训练模型使词转换成的词向量具有更好的表征能力,在分类任务上得到一定的提升;并且,使用BERT预训练模型提取词向量时,不需要训练提取词向量的模型,降低了文本分类的复杂度;但是,BERT预训练模型提取的词向量是针对整个句子的特征表示,而文本中某些关键的词具有很强的代表性,这就导致分类的效果缺乏局部代表性词汇的判断,从而导致分类效果不够理想。另外,分词的效果同样会影响到分类结果。
综上所述,目前的文本分类方法的分类精度较低。
发明内容
本发明实施例提供了一种中文文本分类方法和装置及计算机可读存储介质,能够提高分类精度。
本发明实施例提供了一种中文文本分类方法,包括:
将中文文本中的句子拆分成单个字符;
将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征;
根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。
在一个示例性实例中,所述句子的特征包括每一个字符的特征;所述根据句子的特征对句子进行分类得到句子对应的类别包括:
从所述句子的特征中提取所述句子中的特定字符的特征;其中,所述句子中的特定字符包括以下任意一个或多个:所述句子的第一个字符、所述句子的最后一个字符;
将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征;
根据所述合并的特征对所述句子进行分类得到所述句子对应的类别。
在一个示例性实例中,所述句子的特征采用第一矩阵表示,所述第一矩阵的第一维表示字符,第二维表示字符的特征;
所述将句子的特征和句子中的特定字符的特征进行合并得到合并的特征包括:
将所述句子中的特定字符的特征扩充成第二矩阵;其中,所述第二矩阵的第一维表示字符,第二维表示字符的特征;所述第二矩阵的第一维的数量与所述第一矩阵的第一维的数量相同;
将所述第一矩阵和所述第二矩阵在第一维上进行拼接得到所述合并的特征对应的第三矩阵;其中,所述第三矩阵的第一维表示字符,第二维表示字符的特征;所述第三矩阵的第一维的数量为所述第二矩阵的第一维的数量的两倍。
在一个示例性实例中,所述将句子中的特定字符的特征扩充成第二矩阵包括:
将所述句子中的特定字符的特征进行复制拼接得到所述第二矩阵。
本发明实施例提出了一种中文文本分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种中文文本分类方法。
本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种中文文本分类方法的步骤。
本发明一个实施例包括:将中文文本中的句子拆分成单个字符;将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征;根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征,而不需要对句子进行分词,避免了分词对分类结果造成的影响,而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性,保留了词汇级别的含义,因此,对于BERT预训练模型提取的句子的特征,字符级别的输入提高了分类精度。
在本发明另一个实施例中,句子的特征包括每一个字符的特征;所述根据句子的特征对句子进行分类得到句子对应的类别包括:从所述句子的特征中提取所述句子中的特定字符的特征;其中,所述句子中的特定字符包括以下任意一个或多个:所述句子的第一个字符、所述句子的最后一个字符;将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征;根据所述合并的特征对所述句子进行分类得到所述句子对应的类别。本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并,融合了句子的全局信息和特定字符的局部信息,从而进一步提高了分类精度。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明一个实施例提出的中文文本分类方法的流程图;
图2为本发明另一个实施例提出的中文文本分类装置的结构组成示意图。
具体实施方式
下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参见图1,本发明一个实施例提出了一种中文文本分类方法,包括:
步骤100、将中文文本中的句子拆分成单个字符。
步骤101、将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征。
在一个示例性实例中,句子的特征采用第一矩阵表示,第一矩阵的第一维表示字符,第二维表示字符的特征。
由于句子的特征包括句子的每一个字符的特征,那么,字符的特征可以用向量来表示。
例如,假设某一个句子包括5个字符,分别为a,b,c,d,e,那么,第一矩阵可以是其中,每一行代表一个字符,每一列代表一个特征值,其中,[a1 a2 …a768]为字符a的特征,[b1 b2 … b768]为字符b的特征,[c1 c2 … c768]为字符c的特征,[d1d2 … d768]为字符d的特征,[e1 e2 … e768]为字符e的特征。
步骤102、根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。
在另一个示例性实例中,从所述句子的特征中提取所述句子中的特定字符的特征;其中,所述句子中的特定字符包括以下任意一个或多个:所述句子的第一个字符、所述句子的最后一个字符;将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征;根据所述合并的特征对所述句子进行分类得到所述句子对应的类别,即将合并的特征输入到分类器中进行分类得到句子对应的类别。
上述句子中的特定字符采用的是句子的第一个字符和/或句子的最后一个字符的原因是BERT预训练模型在提取句子的特征的过程中会随机遮挡除了句子的第一个字符和句子的最后一个字符之外的字符中的一个或多个,被遮挡的字符的含义在提取的句子的特征中无法得到体现,因此,选择句子的第一个字符和/或句子的最后一个字符是比较合理的。
鉴于中文文本中的某些词汇具有一定的代表性,具有较强的表征能力,本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并,融合了句子的全局信息和特定字符的局部信息,从而进一步提高了分类精度。
在一个示例性实例中,当句子的特征采用第一矩阵表示时,将句子的特征和句子中的特定字符的特征进行合并得到合并的特征包括:
将所述句子中的特定字符的特征扩充成第二矩阵;其中,所述第二矩阵的第一维表示字符,第二维表示字符的特征;所述第二矩阵的第一维的数量与所述第一矩阵的第一维的数量相同;
将所述第一矩阵和所述第二矩阵在第一维上进行拼接得到所述合并的特征对应的第三矩阵;其中,所述第三矩阵的第一维表示字符,第二维表示字符的特征;所述第三矩阵的第一维的数量为所述第二矩阵的第一维的数量的两倍。
在一个示例性实例中,将句子中的特定字符的特征扩充成第二矩阵包括:
将所述句子中的特定字符的特征进行复制拼接得到所述第二矩阵。
得到第三矩阵后,将第三矩阵输入到分类器中进行分类即可得到句子的类别。
在本发明另一个实施例中,将中文文本中的句子拆分成单个字符之后,将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到句子的特征之前,该方法还包括:
为句子的第一个字符和最后一个字符打上不同的标记;
相应的,步骤101中,将打上标记的第一个字符和最后一个字符,以及其他字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征。
本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征,而不需要对句子进行分词,避免了分词对分类结果造成的影响,而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性,保留了词汇级别的含义,因此,对于BERT预训练模型提取的句子的特征,字符级别的输入提高了分类精度。
本发明另一个实施例提出了一种中文文本分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种中文文本分类方法。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种中文文本分类方法的步骤。
参见图2,本发明另一个实施例提出了一种中文文本分类装置,包括:
拆分模块201,用于将中文文本中的句子拆分成单个字符;
特征提取模块202,用于将所有字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征;
分类模块203,用于根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。
在一个示例性实例中,句子的特征采用第一矩阵表示,第一矩阵的第一维表示字符,第二维表示字符的特征。
由于句子的特征包括句子的每一个字符的特征,那么,字符的特征可以用向量来表示。
例如,假设某一个句子包括5个字符,分别为a,b,c,d,e,那么,第一矩阵可以是其中,每一行代表一个字符,每一列代表一个特征值,其中,[a1 a2 …a768]为字符a的特征,[b1 b2 … b768]为字符b的特征,[c1 c2 … c768]为字符c的特征,[d1d2 … d768]为字符d的特征,[e1 e2 … e768]为字符e的特征。
在一个示例性实例中,分类模块203直接将句子的特征输入到分类器中进行分类得到句子对应的类别,也就是说,直接将第一矩阵(例如)输入到分类器中进行分类得到句子的类别。
在另一个示例性实例中,分类模块203具体用于:从所述句子的特征中提取所述句子中的特定字符的特征;其中,所述句子中的特定字符包括以下任意一个或多个:所述句子的第一个字符、所述句子的最后一个字符;将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征;根据所述合并的特征对所述句子进行分类得到所述句子对应的类别,即将合并的特征输入到分类器中进行分类得到句子对应的类别。
上述句子中的特定字符采用的是句子的第一个字符或句子的最后一个字符的原因是BERT预训练模型在提取句子的特征的过程中会随机遮挡除了句子的第一个字符和句子的最后一个字符之外的字符中的一个或多个,被遮挡的字符的含义在提取的句子的特征中无法得到体现,因此,选择句子的第一个字符或句子的最后一个字符是比较合理的。
本发明实施例将所述句子的特征和所述句子中的特定字符的特征进行合并,融合了句子的全局信息和特定字符的局部信息,从而进一步提高了分类精度。
在一个示例性实例中,当句子的特征采用第一矩阵表示时,分类模块203具体用于采用以下方式实现将句子的特征和句子中的特定字符的特征进行合并得到合并的特征:
将所述句子中的特定字符的特征扩充成第二矩阵;其中,所述第二矩阵的第一维表示字符,第二维表示字符的特征;所述第二矩阵的第一维的数量与所述第一矩阵的第一维的数量相同;
将所述第一矩阵和所述第二矩阵在第一维上进行拼接得到所述合并的特征对应的第三矩阵;其中,所述第三矩阵的第一维表示字符,第二维表示字符的特征;所述第三矩阵的第一维的数量为所述第二矩阵的第一维的数量的两倍。
在一个示例性实例中,分类模块203具体用于采用以下方式实现将句子中的特定字符的特征扩充成第二矩阵:
将所述句子中的特定字符的特征进行复制拼接得到所述第二矩阵。
得到第三矩阵后,分类模块203将第三矩阵输入到分类器中进行分类即可得到句子的类别。
在本发明另一个实施例中,拆分模块201还用于:
为句子的第一个字符和最后一个字符打上不同的标记;
相应的,特征提取模块202具体用于:将打上标记的第一个字符和最后一个字符,以及其他字符按照在句子中的先后顺序依次输入到BERT预训练模型中,得到所述句子的特征。
本发明实施例将中文文本中的句子中的单个字符依次输入到BERT预训练模型中得到句子的特征,而不需要对句子进行分词,避免了分词对分类结果造成的影响,而BERT预训练模型中的双向转换(Transformer)建立了字符之间的关联性,保留了词汇级别的含义,因此,对于BERT预训练模型提取的句子的特征,字符级别的输入提高了分类精度。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种中文文本分类方法,包括:
将中文文本中的句子拆分成单个字符;
将所有字符按照在句子中的先后顺序依次输入到双向编码表征的转换BERT预训练模型中,得到所述句子的特征;
根据所述句子的特征对所述句子进行分类得到所述句子对应的类别。
2.根据权利要求1所述的中文文本分类方法,其特征在于,其中,所述句子的特征包括每一个字符的特征;所述根据句子的特征对句子进行分类得到句子对应的类别包括:
从所述句子的特征中提取所述句子中的特定字符的特征;其中,所述句子中的特定字符包括以下任意一个或多个:所述句子的第一个字符、所述句子的最后一个字符;
将所述句子的特征和所述句子中的特定字符的特征进行合并得到合并的特征;
根据所述合并的特征对所述句子进行分类得到所述句子对应的类别。
3.根据权利要求2所述的中文文本分类方法,其特征在于,其中,所述句子的特征采用第一矩阵表示,所述第一矩阵的第一维表示字符,第二维表示字符的特征;
所述将句子的特征和句子中的特定字符的特征进行合并得到合并的特征包括:
将所述句子中的特定字符的特征扩充成第二矩阵;其中,所述第二矩阵的第一维表示字符,第二维表示字符的特征;所述第二矩阵的第一维的数量与所述第一矩阵的第一维的数量相同;
将所述第一矩阵和所述第二矩阵在第一维上进行拼接得到所述合并的特征对应的第三矩阵;其中,所述第三矩阵的第一维表示字符,第二维表示字符的特征;所述第三矩阵的第一维的数量为所述第二矩阵的第一维的数量的两倍。
4.根据权利要求3所述的中文文本分类方法,其特征在于,其中,所述将句子中的特定字符的特征扩充成第二矩阵包括:
将所述句子中的特定字符的特征进行复制拼接得到所述第二矩阵。
5.一种中文文本分类装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~4任一项所述的中文文本分类方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的中文文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037832.XA CN110825874A (zh) | 2019-10-29 | 2019-10-29 | 一种中文文本分类方法和装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911037832.XA CN110825874A (zh) | 2019-10-29 | 2019-10-29 | 一种中文文本分类方法和装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825874A true CN110825874A (zh) | 2020-02-21 |
Family
ID=69551027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911037832.XA Pending CN110825874A (zh) | 2019-10-29 | 2019-10-29 | 一种中文文本分类方法和装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825874A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN112084769A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 依存句法模型优化方法、装置、设备及可读存储介质 |
WO2021212801A1 (zh) * | 2020-04-22 | 2021-10-28 | 华南理工大学 | 面向电商产品的评价对象识别方法、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
CN101887443A (zh) * | 2009-05-13 | 2010-11-17 | 华为技术有限公司 | 一种文本的分类方法及装置 |
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109522943A (zh) * | 2018-10-30 | 2019-03-26 | 武汉泰乐奇信息科技有限公司 | 一种分类器的构建方法、混杂文本的分类方法及装置 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN109857862A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及介质 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110119448A (zh) * | 2019-05-08 | 2019-08-13 | 合肥工业大学 | 基于双重自动编码器的半监督跨领域文本分类方法 |
CN110377691A (zh) * | 2019-07-23 | 2019-10-25 | 上海应用技术大学 | 文本分类的方法、装置、设备及存储介质 |
-
2019
- 2019-10-29 CN CN201911037832.XA patent/CN110825874A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294223A1 (en) * | 2006-06-16 | 2007-12-20 | Technion Research And Development Foundation Ltd. | Text Categorization Using External Knowledge |
CN101887443A (zh) * | 2009-05-13 | 2010-11-17 | 华为技术有限公司 | 一种文本的分类方法及装置 |
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109522943A (zh) * | 2018-10-30 | 2019-03-26 | 武汉泰乐奇信息科技有限公司 | 一种分类器的构建方法、混杂文本的分类方法及装置 |
CN109857862A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及介质 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN110119448A (zh) * | 2019-05-08 | 2019-08-13 | 合肥工业大学 | 基于双重自动编码器的半监督跨领域文本分类方法 |
CN110377691A (zh) * | 2019-07-23 | 2019-10-25 | 上海应用技术大学 | 文本分类的方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428485A (zh) * | 2020-04-22 | 2020-07-17 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
WO2021212801A1 (zh) * | 2020-04-22 | 2021-10-28 | 华南理工大学 | 面向电商产品的评价对象识别方法、装置及存储介质 |
CN111428485B (zh) * | 2020-04-22 | 2024-04-02 | 深圳市华云中盛科技股份有限公司 | 司法文书段落分类方法、装置、计算机设备及存储介质 |
CN112084769A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 依存句法模型优化方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046784B (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
US20180137350A1 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
CN111291566B (zh) | 一种事件主体识别方法、装置、存储介质 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN111507250B (zh) | 图像识别方法、设备及存储介质 | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
CN112199499A (zh) | 文本划分方法、文本分类方法、装置、设备及存储介质 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN113610068B (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN114419636A (zh) | 文本识别方法、装置、设备以及存储介质 | |
CN115661846A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN116229485A (zh) | 视频文字处理方法、装置、电子设备及存储介质 | |
CN115273057A (zh) | 文本识别方法、装置和听写批改方法、装置及电子设备 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN115019295A (zh) | 模型训练方法、文本行确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |
|
RJ01 | Rejection of invention patent application after publication |