CN111475651B - 文本分类方法、计算设备及计算机存储介质 - Google Patents

文本分类方法、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN111475651B
CN111475651B CN202010270127.0A CN202010270127A CN111475651B CN 111475651 B CN111475651 B CN 111475651B CN 202010270127 A CN202010270127 A CN 202010270127A CN 111475651 B CN111475651 B CN 111475651B
Authority
CN
China
Prior art keywords
word
word segmentation
segmentation processing
words
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010270127.0A
Other languages
English (en)
Other versions
CN111475651A (zh
Inventor
柳燕煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN202010270127.0A priority Critical patent/CN111475651B/zh
Publication of CN111475651A publication Critical patent/CN111475651A/zh
Application granted granted Critical
Publication of CN111475651B publication Critical patent/CN111475651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法、计算设备及计算机存储介质,该方法包括:通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;根据获取的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型;基于违规分类模型,对待分类文本进行分类处理。该方式能够实现语义层面的内容分类,提升了文本分类的准确性。

Description

文本分类方法、计算设备及计算机存储介质
技术领域
本发明涉及文本分类技术领域,具体涉及一种文本分类方法、计算设备及计算机存储介质。
背景技术
书籍、文章等创作内容在上线发布前,需要进行内容审核,以过滤涉黄、涉恐、涉政等敏感内容。现有技术中,通常是构建敏感词库,通过字符串匹配方式在待审核文本中查找敏感词,从而过滤掉敏感内容,这种方式能够解放人工。
但是,发明人在实现本发明的过程发现现有技术至少存在以下不足:一方面,随着语言习惯的发展,敏感词库会不断扩充,增加了敏感词库的维护难度和成本,并且会使文本审核的耗时越来越长;另一方面,内容创作者为了规避内容审核,会使用暗指、借代等方式传递敏感信息,对于这种表面上属于正常词汇,但语义层面上涉及敏感信息的内容,单单通过字符串匹配的方式是无法发现的。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种文本分类方法,包括:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;
在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于违规分类模型,对待分类文本进行分类处理。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;
在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于违规分类模型,对待分类文本进行分类处理。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;
在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型;
基于违规分类模型,对待分类文本进行分类处理。
根据本发明提供的文本分类方法、计算设备及计算机存储介质,该方式将文本审核过程转化为文本分类的过程,预先通过无监督方式训练得到字和常用词的语义特征,在训练模型阶段,对训练样本的文本进行切词,如果是常用词则不处理,如果是罕见词则切分为单个文字,根据常用词的语义特征、罕见词的各个字的语义特征以及标注信息来训练违规分类模型,利用该模型实现文本分类。该方式能够实现语义层面的内容分类,对表面正常但语义层面上涉及敏感内容也能够有效识别出来,提升了文本分类的准确性,相比于现有技术,无需耗费资源去维护违规词库,并且能够提升文本分类的速率和准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的文本分类方法的流程图;
图2示出了本发明另一实施例提供的文本分类方法的流程图;
图3示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的文本分类方法的流程图,如图1所示,该方法包括以下步骤:
步骤S110,通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集。
预先在大规模的无监督语料上训练,以提取各个字的语义特征和各个常用词的语义特征,得到语料特征集。
步骤S120,对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词,对非常用词进行切分处理,得到非常用词包含的各个字。
对已标注的样本语料进行切词,如利用切词工具对已标注的样本语料进行切词,得到切词处理结果,并确定切词处理结果中的常用词和非常用词,对常用词不做进一步的处理,而对非常用词则继续切分为多个字。
其中,人工很难标注大量的语料样本,无法覆盖到所有的非常用词(也就是罕见词),非常用词如一些隐含敏感信息的词语,因此,非常用词无法得到充分的学习。基于此,本实施例中对非常用词进一步拆分为字,通过结合常用词的语义特征以及组成非常用词的各个字的语义特征训练深度学习模型,能够达到从语义层面上识别出表面正常但语义敏感的内容的目的。
步骤S130,在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征。
从语料特征集中,提取出切词处理结果中的常用词对应的语义特征,以及非常用词包含的各个字对应的语义特征。
步骤S140,根据获取的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型。
根据获取到的切词处理结果中的常用词对应的语义特征、非常用词包含的各个字对应的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型。
步骤S150,基于违规分类模型,对待分类文本进行分类处理。
例如,对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;在语料特征集中获取待分类文本的切词处理结果中常用词对应的特征以及非常用词包含的各个字对应的特征,并输入至违规分类模型中进行计算,得到待分类文本的违规分值。
由此可见,本实施例的方法是将文本审核过程转化为文本分类的过程,预先通过无监督方式训练得到字和常用词的特征,在训练模型阶段,对训练样本的文本进行切词,如果是常用词则不处理,如果是罕见词则切分为单个文字,根据常用词的语义特征、罕见词的各个字的语义特征以及标注信息来训练违规分类模型,利用该模型实现文本分类,该方式能够实现语义层面的内容分类,对表面正常但语义层面上涉及敏感内容也能够有效识别出来,提升了文本分类的准确性,相比于现有技术,无需耗费资源去维护违规词库,并且能够提升文本分类的速率和准确率。
图2示出了本发明另一实施例提供的文本分类方法的流程图,如图2所示,该方法包括以下步骤:
步骤S210,对书籍库中的各个书籍进行切词处理,得到各个书籍的切词处理结果,统计各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
对书籍库中所有的书籍进行切词,并统计分词处理结果中各个词的词频,将词频高于预设词频阈值的词确定为常用词。
步骤S220,采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征,得到语料特征集。
实际应用中,人工无法标注大量的样本,因此,分类模型是在小规模的样本上训练的,而小规模样本无法覆盖全部的罕见词,一些罕见词无法得到充分的学习,因此,采用字embedding的方式训练深度学习模型,要优于采用词embedding的方式训练深度学习模型。
基于此,本发明实施例中采用字embedding的方式训练违规分类模型,embedding关注的是文本的语义,则在训练embedding特征时,采用字粒度的卷积神经网络模型(CNN模型),在大规模的无监督语料上训练各个字的embedding特征,以及将常用词作为字来训练常用词的embedding特征。
其中,不将常用词拆分为字来训练特征的目的在于:使embedding特征具有区分性,比如常用词“色情”的embedding特征,就是为了与“色”、“情”的embedding特征区分开,因为单看字的embedding特征,“色”、“情”可能来源于“颜色”、“感情”等正常词汇,拆分为字的话就无法达到识别“色情”的目的。
CNN模型具有卷积核尺寸,卷积核尺寸(1,2,3)就是分别以窗口1,2,3的方式提取相邻1,2,3个字/常用词组合的特征,因此,CNN模型细粒度字的方式,能提取的特征更细,例如:“小明”这个词的特征,可以用窗口为2来提取“小”、“明”这两个字的组合特征。优选地,采用128通道、卷积核尺寸为(1,2,3,4)的TextCNN来训练字和常用词的embedding特征,该TextCNN最后一层神经网络输入的维数大小是512,通过softmax进行归一化。
步骤S230,对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字。
采用切词工具对已标注的样本语料进行切词处理,得到切词处理结果,并根据步骤S210中提取的常用词,确定切词处理结果中包含的常用词和非常用词,再非常用词拆分为字。例如,“小明去学校上学”,假设切词处理结果为:“小明去学校上学”,“学校”和“上学”为常用词,“小明”为非常用词,对“小明”再拆分为“小”和“名”,则最终的切分结果为:“小明去学校上学”。
本实施例采取字embedding训练深度学习模型,并且,对非常用词进一步拆分为字,通过结合常用词的语义特征以及组成非常用词的各个字的语义特征进行深度学习,效果更优。
步骤S240,在语料特征集中获取切词处理结果包含的常用词对应的embedding特征以及非常用词包含的各个字对应的embedding特征。
步骤S250,根据获取的embedding特征以及已标注的样本语料的标注信息,训练得到违规分类模型。
根据已标注样本的切词处理结果中常用词的embedding特征,以及罕见词包含的各个字的embedding特征、以及已标注样本的标注信息,训练得到违规分类模型。
其中,违规分类模型的输出层输出分类结果,本领域技术人员可以根据需要设定为二分类结果或者多分类结果。例如,可以简单地设定“属于违规内容”和“不属于违规内容”的二分类结果,即违规分类模型只用于识别待分类文本是否违规;或者设定“不属于违规内容”、“涉黄内容”、“涉恐内容”等多分类结果,即违规分类模型用于识别待分类文本属于哪种类型的违规内容。
步骤S260,对待分类文本按照句内容维度进行切分处理,得到各个句内容片段,将多个句内容片段组合成组合内容片段,基于违规分类模型,对将组合内容片段进行分类,得到组合内容片段的违规分值,组合内容片段的长度不超过预设长度阈值。
本实施例中,在对待分类文本进行文本分类时,为了提升分类速度,首先按照句内容维度,将待分类文本切分为各个句子,得到各个句内容片段;然后再将多个句内容片段进行组合,得到长度不超过预设长度阈值的组合内容片段,基于违规分类模型,对组合内容片段进行分类,得到组合内容片段的违规分值。
步骤S270,判断组合内容片段的违规分值是否超过预设分值阈值,若超过预设分值阈值,基于违规分类模型,将组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
判断组合内容片段的违规分值是否超过预设分值阈值,如果组合内容片段的违规分值超过预设分值阈值,表明该组合内容片段属于违规内容,则进一步对该组合内容片段内的各个句内容片段进行分类,确定到底哪一个句内容片段属于违规内容,从而实现了句子级别的文本分类。相应地,如果组合内容片段的违规分值不超过预设分值阈值,表明该组合内容不包含违规的内容。该方式中,并不是对待分类文本进行逐句地分类,而是先对一大段内容进行分类,在该段内容属于违规内容的情况下,再对该段内容进行逐句分类,能够提升文本分类的速度。
当然,为了减小处理的复杂程度,也可以对待分类文本进行逐句地分类,具体地:对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;基于违规分类模型,对各个句内容片段进行分类处理。
根据本发明实施例所提供的文本分类方法,一方面,通过对书籍库中所有书籍进行分词处理,并统计分词结果中各个词的词频,将词频大于阈值的词确定为常用词,提供了一种常用词的获取方式。另一方面,通过预先在无监督语料上采用字粒度的CNN模型训练字和常用词的embedding特征,在训练阶段,将已标注样本进行切词,并确定切词处理结果中的常用词和罕见词,对罕见词进一步拆分为字,根据常用词的embedding特征、罕见词包含的各个字的embedding特征以及标注信息,训练得到分类模型,利用该分类模型对文本进行分类,能够实现语义层面的内容分类,能够识别出暗指、借代等形式的表面上属于正常但在语义层面上涉及敏感信息的内容,提升文本分类的准确性,也无需耗费资源去维护违规词库。再一方面,通过先对多个句子组成的片段进行分类,在片段属于违规内容的情况下,再对片段内的各个句子进行分类,这种方式能够提升文本分类的速率。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本分类方法。
可执行指令具体可以用于使得处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;
在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型;
基于违规分类模型,对待分类文本进行分类处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在语料特征集中获取待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至违规分类模型中进行计算,得到待分类文本的违规分值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于违规分类模型,对各个句内容片段进行分类处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将多个句内容片段组合成组合内容片段,基于违规分类模型,对将组合内容片段进行分类,得到组合内容片段的违规分值;其中,组合内容片段的长度不超过预设长度阈值;
判断组合内容片段的违规分值是否超过预设分值阈值;
若是,基于违规分类模型,将组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
对书籍库中的各个书籍进行切词处理,得到各个书籍的切词处理结果;
统计各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
图3示出了本发明计算设备实施例的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于计算设备的文本分类方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定切词处理结果包含的常用词和非常用词;对非常用词进行切分处理,得到非常用词包含的各个字;
在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及已标注的样本语料的标注信息,训练得到违规分类模型;
基于违规分类模型,对待分类文本进行分类处理。XXXXX
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在语料特征集中获取待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至违规分类模型中进行计算,得到待分类文本的违规分值。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于违规分类模型,对各个句内容片段进行分类处理。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将多个句内容片段组合成组合内容片段,基于违规分类模型,对将组合内容片段进行分类,得到组合内容片段的违规分值;其中,组合内容片段的长度不超过预设长度阈值;
判断组合内容片段的违规分值是否超过预设分值阈值;
若是,基于违规分类模型,将组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
对书籍库中的各个书籍进行切词处理,得到各个书籍的切词处理结果;
统计各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
本发明公开了:A1.一种文本分类方法,包括:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理。
A2.根据A1所述的方法,其中,所述基于所述违规分类模型,对待分类文本进行分类处理进一步包括:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
A3.根据A1或A2所述的方法,其中,所述基于所述违规分类模型,对待分类文本进行分类处理进一步包括:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
A4.根据A3所述的方法,其中,所述基于所述违规分类模型,对所述各个句内容片段进行分类处理进一步包括:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
A5.根据A1-A4中任一项所述的方法,其中,所述方法进一步包括:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
A6.根据A1-A5中任一项所述的方法,其中,所述通过对无监督语料进行训练,提取无监督语料中各个字的特征以及各个常用词的特征进一步包括:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
B7.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理。
B8.根据B7所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
B9.根据B7或B8所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
B10.根据B7所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
B11.根据B7-B10中任一项所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
B12.根据B7-B11任一项所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
C13.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理。
C14.根据C13所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
C15.根据C13或C14所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
C16.根据C15所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
C17.根据C13-C16中任一项所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
C18.根据C13-C17中任一项所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。

Claims (15)

1.一种文本分类方法,包括:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理,其中,该步骤包括如下子步骤:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
2.根据权利要求1所述的方法,其中,所述基于所述违规分类模型,对待分类文本进行分类处理进一步包括:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
3.根据权利要求2所述的方法,其中,所述基于所述违规分类模型,对所述各个句内容片段进行分类处理进一步包括:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
4.根据权利要求1-3中任一项所述的方法,其中,所述方法进一步包括:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
5.根据权利要求1-3中任一项所述的方法,其中,所述通过对无监督语料进行训练,提取无监督语料中各个字的特征以及各个常用词的语义特征进一步包括:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
6.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理,其中,该步骤包括如下子步骤:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
7.根据权利要求6所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
8.根据权利要求7所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
9.根据权利要求6-8中任一项所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
10.根据权利要求6-8中任一项所述的计算设备,所述可执行指令进一步使所述处理器执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
11.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过对无监督语料进行训练,提取无监督语料中各个字的语义特征以及各个常用词的语义特征,得到语料特征集;
对已标注的样本语料进行切词处理,得到切词处理结果,并确定所述切词处理结果包含的常用词和非常用词;对所述非常用词进行切分处理,得到所述非常用词包含的各个字;
在所述语料特征集中获取所述切词处理结果包含的常用词对应的语义特征以及所述非常用词包含的各个字对应的语义特征;
根据获取的语义特征以及所述已标注的样本语料的标注信息,训练得到违规分类模型;
基于所述违规分类模型,对待分类文本进行分类处理,其中,该步骤包括如下子步骤:
对待分类文本进行切词处理,得到切词处理结果,并确定切词处理结果中的常用词和非常用词;
对待分类文本的切词处理结果中的非常用词进行切分,得到待分类文本的切词处理结果中的非常用词包含的各个字;
在所述语料特征集中获取所述待分类文本的切词处理结果中常用词对应的语义特征以及非常用词包含的各个字对应的语义特征,并输入至所述违规分类模型中进行计算,得到所述待分类文本的违规分值。
12.根据权利要求11所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
对待分类文本按照句内容维度进行切分处理,得到各个句内容片段;
基于所述违规分类模型,对所述各个句内容片段进行分类处理。
13.根据权利要求12所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
将多个句内容片段组合成组合内容片段,基于所述违规分类模型,对将所述组合内容片段进行分类,得到所述组合内容片段的违规分值;其中,所述组合内容片段的长度不超过预设长度阈值;
判断所述组合内容片段的违规分值是否超过预设分值阈值;
若是,基于所述违规分类模型,将所述组合内容片段包含的各个句内容片段进行分类处理,得到各个句内容片段的违规分值。
14.根据权利要求11-13中任一项所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
对书籍库中的各个书籍进行切词处理,得到所述各个书籍的切词处理结果;
统计所述各个书籍的切词处理结果中各个词的词频,根据统计结果确定常用词,其中,常用词的词频超过预设词频阈值。
15.根据权利要求11-13中任一项所述的计算机存储介质,所述可执行指令进一步使所述处理器执行以下操作:
采用字粒度的卷积神经网络模型对无监督语料进行训练,提取无监督语料中各个字的embedding特征以及各个常用词的embedding特征。
CN202010270127.0A 2020-04-08 2020-04-08 文本分类方法、计算设备及计算机存储介质 Active CN111475651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010270127.0A CN111475651B (zh) 2020-04-08 2020-04-08 文本分类方法、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010270127.0A CN111475651B (zh) 2020-04-08 2020-04-08 文本分类方法、计算设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111475651A CN111475651A (zh) 2020-07-31
CN111475651B true CN111475651B (zh) 2023-04-07

Family

ID=71750034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010270127.0A Active CN111475651B (zh) 2020-04-08 2020-04-08 文本分类方法、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111475651B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416785A (zh) * 2020-11-27 2021-02-26 广州品唯软件有限公司 切词工具版本差异测试方法、装置、设备和存储介质
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法
CN114612912A (zh) * 2022-03-09 2022-06-10 中译语通科技股份有限公司 基于智能语料库的图像文字识别方法、系统及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
JP2019215778A (ja) * 2018-06-14 2019-12-19 株式会社アスコン サービス提供システム、広告関連サービス提供システム、ユーザ側設備及びユーザ側広告設備
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242856A1 (en) * 2014-02-21 2015-08-27 International Business Machines Corporation System and Method for Identifying Procurement Fraud/Risk

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
JP2019215778A (ja) * 2018-06-14 2019-12-19 株式会社アスコン サービス提供システム、広告関連サービス提供システム、ユーザ側設備及びユーザ側広告設備
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于洁 ; .Skip-Gram模型融合词向量投影的微博新词发现.计算机系统应用.2016,(07),全文. *

Also Published As

Publication number Publication date
CN111475651A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN111125354A (zh) 文本分类方法及装置
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN106776566B (zh) 情感词汇的识别方法及装置
CN103593431A (zh) 网络舆情分析方法和装置
CN113312899B (zh) 文本分类方法、装置和电子设备
CN104850617A (zh) 短文本处理方法及装置
CN110209819A (zh) 文本分类方法、装置、设备和介质
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN108090099A (zh) 一种文本处理方法及装置
CN112347240A (zh) 文本摘要的抽取方法、装置、可读存储介质及电子设备
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
EP3716104A1 (en) Extracting named entities based using document structure
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant