CN114186060A - 文本处理方法、文本分类方法、装置、设备及存储介质 - Google Patents

文本处理方法、文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114186060A
CN114186060A CN202111449196.9A CN202111449196A CN114186060A CN 114186060 A CN114186060 A CN 114186060A CN 202111449196 A CN202111449196 A CN 202111449196A CN 114186060 A CN114186060 A CN 114186060A
Authority
CN
China
Prior art keywords
text
preset
characters
sub
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111449196.9A
Other languages
English (en)
Inventor
刘凡
高旭宁
张皓天
温瀚翔
张紫钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111449196.9A priority Critical patent/CN114186060A/zh
Publication of CN114186060A publication Critical patent/CN114186060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开关于一种文本处理方法、文本分类方法、装置、设备及存储介质,该文本分类方法包括:获取待处理文本;在待处理文本的长度大于预设长度的情况下,从待处理文本中提取出预设长度的第一子文本;在第二子文本包括预设字符的情况下,拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本;其中,第二子文本为待处理文本中除第一子文本之外的文本。本公开既解决了长文本字数不符合语言模型要求的问题,又可以从长文本中截取表示文本核心内容的关键字符和需要监测的主题名称的第一目标拼接文本对模型训练,从而提升了模型的性能,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。

Description

文本处理方法、文本分类方法、装置、设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种文本处理方法、文本分类方法、装置、设备及存储介质。
背景技术
由于互联网的开放性及传播特性,网络舆情监测,获取网络舆情分析报告很有必要,舆情分析平台一般从网络中获取各种评论、文章、新闻等,然后,对该评论、文章等文本进分类。由于网络的文本大都是长文本,字数较多,而当前机器学习算法由于受机器内存和硬件配置的限制,无法对长文本的全部内容进行训练,以得到分类模型。因而,在将长文本输入到语言模型进行训练和分类时,往往需要对长文本进行预处理,使其满足语言模型的要求。
相关技术中,采用长文本对语言模型进行训练时,要么人工维护成本较高,要么训练得到的语言模型性能还不够理想,对文本分类的准确度较低。因而,有必要对长文本的处理方法和文本分类方法加以改进,使其适用于一些效果较好的语言模型,并且提升文本分类的准确性。
发明内容
本公开提供一种文本处理方法、文本分类方法、装置、设备及存储介质,以至少解决相关技术中采用长文本对语言模型进行训练时,要么人工维护成本较高,要么训练得到的语言模型性能还够理想,对文本进行分类的准确度较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文本处理方法,包括:
获取待处理文本;
在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本;
在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本;
其中,所述第二子文本为所述待处理文本中除所述第一子文本之外的文本。
在一示例性的实施方式中,所述拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本,包括:
从所述第一子文本中提取出预设数量个字符;所述第一子文本中除所述预设数量个字符之外的字符的数量,与所述预设字符所包括的字符的数量相等;
拼接所述预设数量个字符和所述预设字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本,包括:
以所述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本;
以所述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本;
将所述首段文本和所述末段文本作为所述第一子文本;所述第一数量与所述第二数量之间的差值小于预设数量阈值。
在一示例性的实施方式中,所述预设字符中包括第三数量个字符,所述从所述第一子文本中提取出预设数量个字符,包括:
以所述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符;
以所述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符;
将所述第四数量的字符和所述第五数量的字符作为所述预设数量个字符;
其中,所述第四数量小于所述第一数量,所述第五数量小于所述第二数量,第一差值与第二差值的和等于所述第三数量,所述第一差值表征所述第一数量与所述第四数量之间的差值,所述第二差值表征所述第二数量与所述第五数量之间的差值。
在一示例性的实施方式中,所述拼接所述预设数量个字符和所述预设字符,得到所述第一目标拼接文本,包括:
拼接所述第四数量的字符、所述预设字符和所述第五数量的字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述方法还包括:
在所述第二子文本中包括所述预设字符的情况下,确定所述预设字符对应的标准字符;
拼接所述标准字符和所述多个字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述确定所述预设字符对应的标准字符,包括:
对所述预设字符进行分词处理,得到所述预设字符对应的分词结果;
从预设词表中确定与所述分词结果相匹配的目标专有名词;所述预设词表通过双数组树结构存储多个专有名词;
基于预设映射信息,确定与所述目标专有名词对应的标准字符;所述预设映射信息表征专有名词与标准字符之间的映射关系。
在一示例性的实施方式中,所述双数组树结构包括一个根节点和至少一个叶节点,所述根节点与每个叶节点之间的路径存储一个专有名词,所述分词结果的数量为多个,所述从所述预设词表中确定与所述分词结果相匹配的目标专有名词,包括:
将至少两个相邻的分词结果进行组合,得到组合分词结果;
在所述根节点与其中一个叶节点之间的路径所存储的专有名词,与所述组合分词结果相匹配的情况下,将所述根节点与其中一个叶节点之间的路径所存储的专有名词,作为与所述至少两个相邻的分词结果相匹配的目标专有名词;所述其中一个叶节点为所述至少一个叶节点中的节点。
根据本公开实施例的第二方面,提供一种文本分类方法,包括:
获取待分类文本;
在所述待分类文本的长度大于预设长度的情况下,从所述待分类文本中提取出所述预设长度的第一子文本;
在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第二目标拼接文本;所述第二子文本为所述待分类文本中除所述第一子文本之外的文本;
通过预设语言模型对所述第二目标拼接文本进行分类;所述预设语言模型为基于上述任一实施方式中的第一目标拼接文本进行训练得到。
根据本公开实施例的第三方面,提供一种文本处理装置,包括:
待处理文本获取模块,被配置为执行获取待处理文本;
第一提取模块,被配置为执行在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本;
第一拼接模块,被配置为执行在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本;其中,所述第二子文本为所述待处理文本中除所述第一子文本之外的文本。
在一示例性的实施方式中,所述第一拼接模块,包括:
预设数量个字符提取单元,被配置为执行从所述第一子文本中提取出预设数量个字符;所述第一子文本中除所述预设数量个字符之外的字符的数量,与所述预设字符所包括的字符的数量相等;
第一目标拼接文本确定单元,被配置为执行拼接所述预设数量个字符和所述预设字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述第一提取模块,包括:
首段文本提取单元,被配置为执行以所述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本;
末段文本提取单元,被配置为执行以所述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本;
第一子文本确定单元,被配置为执行将所述首段文本和所述末段文本作为所述第一子文本;所述第一数量与所述第二数量之间的差值小于预设数量阈值。
在一示例性的实施方式中,所述预设字符中包括第三数量个字符,所述预设数量个字符提取单元,包括:
第四数量的字符提取子单元,被配置为执行以所述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符;
第五数量的字符提取子单元,被配置为执行以所述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符;
预设数量个字符确定子单元,被配置为执行将所述第四数量的字符和所述第五数量的字符作为所述预设数量个字符;其中,所述第四数量小于所述第一数量,所述第五数量小于所述第二数量,第一差值与第二差值的和等于所述第三数量,所述第一差值表征所述第一数量与所述第四数量之间的差值,所述第二差值表征所述第二数量与所述第五数量之间的差值。
在一示例性的实施方式中,所述第一目标拼接文本确定单元,被配置为执行拼接所述第四数量的字符、所述预设字符和所述第五数量的字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述装置还包括:
标准字符确定模块,被配置为执行在所述第二子文本中包括所述预设字符的情况下,确定所述预设字符对应的标准字符;
第二拼接模块,被配置为执行拼接所述标准字符和所述多个字符,得到所述第一目标拼接文本。
在一示例性的实施方式中,所述标准字符确定模块,包括:
分词结果确定单元,被配置为执行对所述预设字符进行分词处理,得到所述预设字符对应的分词结果;
目标专有名词确定单元,被配置为执行从预设词表中确定与所述分词结果相匹配的目标专有名词;所述预设词表通过双数组树结构存储多个专有名词;
标准字符确定单元,被配置为执行基于预设映射信息,确定与所述目标专有名词对应的标准字符;所述预设映射信息表征专有名词与标准字符之间的映射关系。
在一示例性的实施方式中,所述双数组树结构包括一个根节点和至少一个叶节点,所述根节点与每个叶节点之间的路径存储一个专有名词,所述分词结果的数量为多个,所述目标专有名词确定单元,包括:
组合分词结果确定子单元,被配置为执行将至少两个相邻的分词结果进行组合,得到组合分词结果;
目标专有名词确定子单元,被配置为执行在所述根节点与其中一个叶节点之间的路径所存储的专有名词,与所述组合分词结果相匹配的情况下,将所述根节点与其中一个叶节点之间的路径所存储的专有名词,作为与所述至少两个相邻的分词结果相匹配的目标专有名词;所述其中一个叶节点为所述至少一个叶节点中的节点。
根据本公开实施例的第四方面,提供一种文本分类装置,包括:
待分类文本获取模块,被配置为执行获取待分类文本;
第二提取模块,被配置为执行在所述待分类文本的长度大于预设长度的情况下,从所述待分类文本中提取出所述预设长度的第一子文本;
第三拼接模块,被配置为执行在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第二目标拼接文本;所述第二子文本为所述待分类文本中除所述第一子文本之外的文本;
分类模块,被配置为执行通过预设语言模型对所述第二目标拼接文本进行分类;所述预设语言模型为基于上述任一实施方式中的第一目标拼接文本进行训练得到。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的文本处理方法或如上述任一实施方式所述的文本分类方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备执行如上述任一实施方式所述的文本处理方法或如上述任一实施方式所述的文本分类方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施方式所述的文本处理方法或如上述任一实施方式所述的文本分类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在获取待处理文本后,可以判断待处理文本的长度是否大于预设长度,若大于,则从待处理文本中提取出表示待处理文本的核心内容的预设长度的第一子文本,并判断待处理文本中除第一子文本之外的第二子文本中,是否包括与需要监测的主体名称对应的预设字符,若包括,则拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本。通过该预设长度的第一目标拼接文本对语言模型进行训练,既解决了长文本字数不符合语言模型要求的问题,又可以从长文本中截取表示文本核心内容的关键字符和需要监测的主题名称的第一目标拼接文本对模型训练,从而提升了模型的性能和召回精度,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1所示为根据一示例性实施例示出的一种文本处理方法的应用环境图。
图2是根据一示例性实施例示出的一种文本处理方法的流程图。
图3是根据一示例性实施例示出的一种从待处理文本中提取出预设长度的第一子文本的流程图。
图4是根据一示例性实施例示出的一种拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本的流程图。
图5是根据一示例性实施例示出的一种在从第一子文本中提取出预设数量个字符的流程图。
图6是根据一示例性实施例示出的一种得到第一目标拼接文本的流程图。
图7是根据一示例性实施例示出的一种确定上述预设字符对应的标准字符的流程图。
图8是根据一示例性实施例示出的一种预设词表的示意图。
图9是根据一示例性实施例示出的从预设词表中确定与分词结果相匹配的目标专有名词的流程图。
图10是根据一示例性实施例示出的一种文本分类方法的流程图。
图11是根据一示例性实施例示出的一种文本处理装置框图。
图12是根据一示例性实施例示出的一种文本分类装置框图。
图13是根据一示例性实施例示出的一种用于文本处理的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
由于网络的各种文本很多都是长文本,字数较多,比如微博,很多超过3000多个字符,而当前机器学习算法由于受机器内存和硬件配置的限制,很多算法模型都对文本的字数有限制,因而无法对长文本的全部内容进行学习,导致无法学习到一些重要的信息。比如,ROBERTA(A Robustly Optimized BERT Pretraining Approach)模型是效果比较好的一种语言理解模型,但其对文本字数有限制,最多只能支持512个字符,所以在训练长文本上无法发挥出ROBERTA模型的优势。
基于此,首先,本公开实施例提供一种文本预处理方法,通过从待处理文本中截取出比较核心的第一子文本,并在待处理文本中除第一子文本之外的第二子文本包括预设字符的情况下,拼接该预设字符和第一子文本中的多个文本,再对语言模型进行训练,可以有效地解决由于语言模型对字数的限制,导致无法对长文本进行训练的问题,且根据文本的结构特点和人们的逻辑表达习惯截取出文本核心内容,可以提升训练效果。
请参阅图1,图1所示为根据一示例性实施例示出的一种文本处理方法的应用环境图,该应用环境可以包括客户端01和服务器02。客户端01可以通过有线或无线的方式与服务器02进行通信,本公开对此不做限定。
其中,客户端01可以采集用户输入的待处理文本,并将该待处理文本发送至服务器02。可选地,该客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等终端设备。
可选地,可以根据用户信息采集用户输入的待处理文本。需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等),均为经用户授权或者经过各方充分授权的信息。
其中,服务器02可以用于获取客户端01采集的待处理文本,并在该待处理文本的长度大于预设长度的情况下,从该待处理文本中提取出上述预设长度的第一子文本,以及在待处理文本中除第一子文本之外的第二子文本包括预设字符的情况下,拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本。可选地,该服务器02可以是包括独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,图1仅仅是一种示例。在另一个示例性的实施例中,本公开实施例提供的文本处理方法还可以应用于仅包含客户端的应用环境中。其中,客户端可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等终端设备。客户端在获取待处理文本之后,可以在待处理文本的长度大于预设长度的情况下,从待处理文本中提取预设长度的第一子文本,并在待处理文本中除第一子文本之外的第二子文本包括预设字符的情况下,拼接预设字符和第一子文本中的多个字符,得到上述预设长度的第一目标拼接文本。
图2是根据一示例性实施例示出的一种文本处理方法的流程图,如图1所示,该方法可以用于图1中包含客户端和服务器的应用环境中,包括以下步骤。
在步骤S11中,获取待处理文本。
本公开实施例中的待处理文本可以是各种用于对预设语言模型进行训练的文本,比如网络中的各种评论、文章、新闻等。该待处理文本可以是中文文本、英文文本等各种语言的文本。
示例性地,该预设语言模型可以包括但不限于:ROBERTA模型、BERT(Bidirectional EncoderRepresentation from Transformers)模型等。
在一些实施例中,在获取待处理文本之后,可以直接执行后续步骤。
在另一些实施例中,由于待处理文本中通常会包含一些数字、字母、标点符号、表情符号、空格键等特殊字符,这些特殊字符通常情况下没有实质含义,或者对待处理文本的含义没有太大的影响,反而会加大文本长度,因而在获取待处理文本后可以先删除待处理文本中的特殊字符,并在删除这些特殊字符后,再对该待处理文本执行后续步骤,以减少待处理文本中的冗余信息,使得训练得到的语言模型在对文本进行分类时具有更高的准确率。
在步骤S13中,在上述待处理文本的长度大于预设长度的情况下,从上述待处理文本中提取出上述预设长度的第一子文本。
本公开实施例中,可以使用计算文本长度的预设函数,按字级别统计文本长度。并判断该文本长度是否大于该预设长度。
其中,该预设长度是基于预设语言模型所支持的文本长度确定的。由于预设长度为对待处理文本进行截断拼接后生成的新文本的参考长度,因而,预设长度可以小于或等于预设语言模型所支持的文本长度。
以预设语言模型为ROBERTA模型为例,ROBERTA模型支持的文本长度为512个字符长度,则该预设长度可以小于或等于512个字符长度,比如可以取512,也可以取256,,也可以取64等,具体可以实际使用场景设定,取训练效果较佳的一个数值。
在一个可选的实施例中,在上述步骤S13中,上述在上述待处理文本的长度大于预设长度的情况下,从上述待处理文本中提取出上述预设长度的第一子文本,可以包括:
在上述待处理文本的长度大于预设长度的情况下,以上述待处理文本中的至少一个指定字符作为参考位置,从上述待处理文本中提取出上述预设长度的第一子文本。
本公开实施例中,如果待处理文本大于预设长度,可以对该待处理文本做截断处理,生成符合预设语言模型要求的第一子文本。具体的,可以以待处理文本的至少一个指定字符作为位置参考,从上述待处理文本截取第一子文本,第一子文本的长度等于该预设长度。为了训练的语言模型可以到达较好的效果,第一子文本可以是表示该待处理文本核心思想的文本,即为待处理文本中比较关键的内容,这样语言模型才能学习到文本的关键信息。
其中,指定字符用于确定待处理文本核心内容在文本中所处的位置,指定字符可以是一个字符或者多个字符,可以根据文本结构分布特点以及人们的表达逻辑习惯来确定。比如,对于中文而言,人们在写文章时习惯的表达方式是采用“总-分-总”,“总-分”、“分-总”的文章结构来撰写。因而,对于一篇文章,其核心思想和主要论点很大可能集中在文章开头,或者文章结尾,因而可以截取待处理文本开头部分的一段文字、或者文本结尾部分的一段文字,或者是开头部分和结尾部分各截取一段文字,输入到预设语言模型中对模型进行训练。因此,在某些实施例中,指定字符可以是待处理文本的首位字符、待处理文本的末位字符中的一个或多个。
在一些场景中,人们在文章中表达自己的观点时,习惯用一些总结性或概括性的词语,例如,“整体而言”、“综上所述”、“总之”、“最后”等等,因而这些词后面的一段文字,也很有可能是代表文章核心思想的内容,所以,在一个可行的实施例中,也可以将这些文字字符作为位置参考,从待处理文本截取这个字符之前或者之后的一段文字。当然,指定字符可以有一个,也可以多个,截取的多个字符可以是待处理文本中的一段文字,也可以是多段文字。
由于多数情况,文章的核心内容集中在待处理文本的开头或结尾,因而在一个具体的实施例中,可以以待处理文本的首位字符作为起始位置,以待处理文本的末位字符作为终止位置,从该待处理文本中提取出预设长度的第一子文本。图3是根据一示例性实施例示出的一种从待处理文本中提取出预设长度的第一子文本的流程图。如图3所示,在上述步骤S13中,上述在上述待处理文本的长度大于预设长度的情况下,从上述待处理文本中提取出上述预设长度的第一子文本,可以包括:
在步骤S1301中,以上述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本。
在步骤S1303中,以上述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本。
在步骤S1305中,将上述首段文本和上述末段文本作为上述第一子文本;上述第一数量与上述第二数量之间的差值小于预设数量阈值。
具体地,可以以待处理文本的首位字符作为起始位置,沿着首位字符的后一个字符的方向向后截取第一数量个字符,得到首段文本,然后以待处理文本的末位字符作为终止位置,沿着最后一个字符的前一个字符的方向向前截取第二数量个字符,得到末段文本,然后将首段文本以及末段文本作为第一子文本,第一子文本的长度等于预设长度。
可选地,该第一数量可以等于第二数量,比如,从待处理文本开头和结尾截取的两段文字数量可以相等。在某些实施例中,第一数量与第二数量也可以不相等,第一数量与第二数量之间的差值小于预设数量阈值(该预设数量阈值可以根据实际需求进行确定)。比如,待处理文本开头截取的字符数量多一些,文本结尾截取的字符数量短一些,或者文本开头截取的字符数量少一些,文本结尾截取的字符数量多一些。例如,预设长度为128个字符长度,则第一数量和第二数量可以均为64个字符长度,也可以一个为60个字符长度,另一个为68个字符长度。
在一个可操作的实施例中,以预设语言模型为ROBERTA模型为例,经大量试验发现,预设长度为128个字符长度,以待处理文本首位字符作为起始位置,向后一个字符的方向截取连续的64个字符,以及以待处理文的本末位字符作为终止位置,向前一个字符的方向截取连续的64个字符。使用通过这种方式截取出的第一子文本对ROBERTA模型进行训练,可以大幅度提升模型的性能,训练后的模型对文本进行分类的准确率也大大提高。
本申请实施例中,由于多数情况下,文章的核心内容集中在待处理文本的开头或结尾,因而在一个具体的实施例中,以待处理文本的首位字符作为起始位置,以待处理文本的末位字符为终止位置,从该待处理文本中提取出预设长度的第一子文本,不仅能够符合预设语言模型对文本字数的要求,且第一子文本中可以包含待处理文本的核心内容,使得通过该第一子文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而提升模型的性能和召回精度,训练后的模型对文本进行分类的准确率也大大提高。
在一个可选的实施例中,如果待处理文本的长度小于或等于预设长度,则可以不对该待处理文本进行上述截断操作处理。
在另一个可选的实施例中,短文本的向量由于字符较少,因而其向量中很多维度都是用0去填补,即没有实际含义,导致语言模型最终效果不太理想。如果判断待处理文本长度小于预设长度,还可以从待处理文本中复制多个字符,使得待处理文本的长度等于预设长度。例如,预设长度为128个字符长度,而待处理文本A只有64个字符长度,因而可以复制待处理文本A,得到文本A’,将文本A’与待处理文本A作为第一子文本。
在步骤S15中,在第二子文本包括预设字符的情况下,拼接上述预设字符和上述第一子文本中的多个字符,得到上述预设长度的第一目标拼接文本。其中,上述第二子文本为上述待处理文本中除上述第一子文本之外的文本。
具体地,在舆情监测场景中,该预设字符可以为舆情监测场景中需要监测的主体名称。假设,需要监测针对某一企业的正面舆情和负面舆情,则该主体名称可以为该企业名称、该企业名称的缩写、该企业所对应的主要产品的名称、该企业所对应的主要产品的名称的缩写等。
可选地,该预设字符的数量可以为一个,也可以为多个。例如,该预设字符为某一企业的缩写,或者,该预设字符为某一企业的缩写以及该企业所对应的产品的名称。
如果该第二字文本中包括该预设字符,表明需要监测的主体名称不位于已经截取出的第一子文本中,为了提升了模型的性能,使得训练得到的语言模型在对文本进行分类时具有更高的准确率,可以将该预设字符从第二子文本中提取出,并拼接该预设字符和该第一预设文本中的多个字符,得到第一目标拼接文本。
图4是根据一示例性实施例示出的一种拼接预设字符和第一子文本中的多个字符,得到预设长度的第一目标拼接文本的流程图。如图4所示,上述拼接上述预设字符和上述第一子文本中的多个字符,得到上述预设长度的第一目标拼接文本,可以包括:
在步骤S1501中,从上述第一子文本中提取出预设数量个字符;上述第一子文本中除上述预设数量个字符之外的字符的数量,与上述预设字符所包括的字符的数量相等。
在步骤S1503中,拼接上述预设数量个字符和上述预设字符,得到上述第一目标拼接文本。
由于最后拼接得到的第一目标拼接文本的长度为预设长度,第一子文本的长度也为预设长度,如果直接将预设字符与第一子文本中的多个字符进行拼接,则拼接得到的第一目标拼接文本的将会大于预设长度。基于此,可以从第一子文本中提取出预设数量个字符,将第一子文本中除上述预设数量个字符之外的字符删除(第一子文本中除上述预设数量个字符之外的字符的数量,与上述预设字符所包括的字符的数量相等),最后拼接预设数量个字符和上述预设字符,得到上述第一目标拼接文本。
在一些实施例中,如果第一子文本是基于一个指定字符作为参考位置,从待处理文本中提取出的文本,则可以从第一子文本中的首部、末位或中间位置删除部分字符(该部分字符的数量与上述预设字符所包括的字符的数量相等),从而提取出预设数量个字符。
在另一些实施例中,如果第一子文本是基于多个指定字符作为参考位置,从待处理文本中提取出的文本(比如,上述步骤S1301中的首段文本、步骤S1303中的末段文本),则可以从首段文本中删除部分字符,从末段文本中删除部分字符(两段文本中删除的部分字符的数量之和,与上述预设字符所包括的字符的数量相等),从而提取出预设数量个字符
示例性地,在拼接预设数量个字符和上述预设字符的时候,可以按照各段字符在文本出现的先后顺序进行拼接,比如,最先出现的至于最前面,最后出现的至于最后。当然,也可以按相反的顺序进行拼接,或者按照随机的顺序进行拼接。
本公开实施例中,删除第一子文本中部分字符后再与预设字符进行拼接,一方面使得拼接得到的第一目标拼接文本能够符合预设语言模型对文本字数的要求,另一方面第一目标拼接文本中既可以包含待处理文本的核心内容,又可以包括需要监测的主体名称,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
图5是根据一示例性实施例示出的一种在从第一子文本中提取出预设数量个字符的流程图。如图5所示,上述预设字符中包括第三数量个字符,在上述步骤S1501中,上述从上述第一子文本中提取出预设数量个字符,可以包括:
在步骤S15011中,以上述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符。
在步骤S15013中,以上述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符。
在步骤S15015中,将上述第四数量的字符和上述第五数量的字符作为上述预设数量个字符;其中,上述第四数量小于上述第一数量,上述第五数量小于上述第二数量,第一差值与第二差值的和等于上述第三数量,上述第一差值表征上述第一数量与上述第四数量之间的差值,上述第二差值表征上述第二数量与上述第五数量之间的差值。
如果第一子文本包括首段文本和的末段文本,则可以以上述首段文本的首位字符作为起始位置,沿着首个字符的后一个字符的方向向后截取第四数量的字符,并以上述末段文本的末位字符作为终止位置,沿着末位字符的前一个字符的方向前向截取第五数量的字符,将第四数量的字符和第五数量的字符作为该预设数量个字符。为了保证最后拼接得到的第一目标拼接文本的长度为预设长度,第一数量与上述第四数量之间的第一差值,与第二数量与上述第五数量之间的第二差值的和,等于该第三数量。
例如,首段文本为64个字符长度,末段本文为64个字符长度,预设字符为2个字符长度,则可以将首段文本中的末位字符删除得到第四数量的字符,将末段文本的首位字符删除,得到第五数量的字符。
由于在多数情况下,待处理文本的核心观点均集中在文本的开头或结尾,删除首段文本的末位字符,以及末段文本的首位字符,不仅能够使得最后拼接得到的第一目标拼接文本的长度符合预设语言模型对文本字数的要求,还能够避免删除待处理文本的核心观点中的核心关键字,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
在一个可行的实施例中,上述拼接上述预设数量个字符和上述预设字符,得到上述第一目标拼接文本,可以包括:
拼接上述第四数量的字符、上述预设字符和上述第五数量的字符,得到上述第一目标拼接文本。
本公开实施例中,在得到第四数量的字符、第五数量的字符之后,可以拼接上述第四数量的字符、上述预设字符和上述第五数量的字符,得到上述第一目标拼接文本,一方面使得拼接得到的第一目标拼接文本能够符合预设语言模型对文本字数的要求,另一方面第一目标拼接文本中既可以包含待处理文本的核心内容,又可以包括需要监测的主体名称,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
示例性地,在拼接第四数量的字符、第五数量的字符和预设字符的时候,可以按照各段字符在文本出现的先后顺序进行拼接,比如,最先出现的至于最前面,最后出现的至于最后。当然,也可以按相反的顺序进行拼接,或者按照随机的顺序进行拼接。
在一些实施例中,在第二子文本中不包括该预设字符的情况下,说明需要监测的主体名称已经位于第一子文本中。如果第一子文本是基于一个指定字符作为参考位置,从待处理文本中提取出的文本,则可以直接将第一子文本作为该第一目标拼接文本。如果第一子文本是基于多个指定字符作为参考位置,从待处理文本中提取出的文本(比如,上述步骤S1301中的首段文本、步骤S1303中的末段文本),则可以对首段文本和末段文本进行拼接,得到第一目标拼接文本。对首段文本和末段文本进行拼接,得到第一目标拼接文本的方式可以参考上述步骤S1501-S1503,在此不再赘述。
图6是根据一示例性实施例示出的一种得到第一目标拼接文本的流程图。如图6所示,在一个可选的实施例中,上述方法还可以包括:
在步骤S21中,在上述第二子文本中包括上述预设字符的情况下,确定上述预设字符对应的标准字符。
在步骤S23中,拼接上述标准字符和上述多个字符,得到上述第一目标拼接文本。
在一些实施例中,可能第二子文本中存在的预设字符并不是最终需要监测的标准字符。例如,需要监测的主体为某一企业,预设字符为该企业对应的产品,则在第二子文本中包括该预设字符的时候,可以首先确定与该预设字符对应的标准字符,并拼接该标准字符和上述多个字符,得到上述第一目标拼接文本。
在一个可选的实施例中,拼接上述标准字符和上述多个字符的方式可以如下:从多个字符中提取出预设数量个字符;上述多个字符中除上述预设数量个字符之外的字符的数量,与上述标准字符所包括的字符的数量相等;拼接上述预设数量个字符和上述标准字符,得到上述第一目标拼接文本。
在一个具体的实施例中,在第一子文本包括首段文本和上述末段文本的情况下,拼接上述标准字符和上述多个字符的方式可以如下:假设该预设字符中包括第六数量个字符,以上述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符;以上述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符;将上述第四数量的字符和上述第五数量的字符作为上述预设数量个字符;上述第一差值表征上述第一数量与上述第四数量之间的差值,与第二数量与上述第五数量之间的差值的和,等于该第六数量。拼接上述第四数量的字符、上述标准字符和上述第五数量的字符,得到上述第一目标拼接文本。
需要说明的是,多个不同类型的预设字符可能会对应同一个标准字符。例如,当不同类型的预设字符为同一企业的不同产品时,则同一企业的不同产品可以对应同一个标注字符(比如,企业的简称)
由于标准字符更能够准确反应所要监测的主体,通过确定预设字符对应的标准字符,并拼接标准字符与该预设字符,得到第一目标拼接文本,该第一目标拼接文本既可以包含待处理文本的核心内容,又可以准确包括需要监测的主体对应的标准字符,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
图7是根据一示例性实施例示出的一种确定上述预设字符对应的标准字符的流程图。如图7所示,在一个示例性的实施例中,在步骤S21中,上述确定上述预设字符对应的标准字符,可以包括:
在步骤S2101中,对上述预设字符进行分词处理,得到上述预设字符对应的分词结果。
示例性地,可以使用预设通用分词模型对该预设字符进行分词处理,得到该预设字符对应分词结果。例如,预设字符为“芝士蛋糕”,使用通用分词模型对该“芝士蛋糕”进行分词,得到的分词结果为:芝士—蛋糕。预设字符为“味道很好”,使用通用分词模型对该“味道很好”进行分词,得到的分词结果为:味道—很好。
可选地,该预设通用分词模型可以为隐马尔可夫模型、条件随机场模型等。
在步骤S2103中,从预设词表中确定与上述分词结果相匹配的目标专有名词;上述预设词表通过双数组树结构存储多个专有名词。
图8是根据一示例性实施例示出的一种预设词表的示意图。如图8所示,该预设词表通过双数组树结构存储多个专有名词,具体可以为:该双数组树结构包括一个根节点和至少一个叶节点,上述根节点与每个叶节点之间的路径存储一个专有名词。例如,图8中的根节点至叶节点“糕”之间的路径中存储一个专有名词“芝士蛋糕”,根节点至叶节点“盖”之间的路径存储一个专有名词“芝士开盖”,根节点至叶节点“厚”之间的路径存储一个专有名词“味道醇厚”。
在得到分词结果之后,可以通过图8中的预设词表与该分词结果进行匹配,从而得到分词结果对应的目标专有名词。
在步骤S2105中,基于预设映射信息,确定与上述目标专有名词对应的标准字符;上述预设映射信息表征专有名词与标准字符之间的映射关系。
示例性地,可以预先建立多个同义的专有名词与同一个标准字符之间的映射关系。例如,可以将某一企业的简称作为标准字符,该企业对应的产品包括产品A、产品B、产品C,则可以认为产品A、产品B、产品C为同义的专有名词,则可以建立产品A、产品B、产品C与标准字符之间的映射关系,得到该预设映射信息。
在确定目标专有名词之后,可以根据预先建立好的预设映射信息,确定与该目标专有名词对应的标准字符。例如,目标专有名词为某一企业的产品A,则根据预设映射信息,确定产品A对应的标准字符为该企业的简称。
本公开实施例中,通过从预设词表中确定与上述分词结果相匹配的目标专有名词,并基于表征专有名词与标准字符之间的映射关系的预设映射信息,确定与上述目标专有名词对应的标准字符,能够提高标准字符确定的准确率,确保第一目标拼接文本准确反映需要检测的主体,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
图9是根据一示例性实施例示出的从预设词表中确定与分词结果相匹配的目标专有名词的流程图。如图9所示,在一个示例性的实施例中,上述双数组树结构包括一个根节点和至少一个叶节点,上述根节点与每个叶节点之间的路径存储一个专有名词,上述分词结果的数量为多个,则在上述S2103中,上述从上述预设词表中确定与上述分词结果相匹配的目标专有名词,可以包括:
在步骤S21031中,将至少两个相邻的分词结果进行组合,得到组合分词结果。
具体地,在分词结果为多个的情况下,可以将至少两个相邻的分词结果进行组合,得到组合分词结果。例如,预设字符为“芝士蛋糕”,分词结果为:芝士—蛋糕。则可以将芝士—蛋糕进行组合,得到组合分词结果为“芝士蛋糕”。例如,预设字符为“味道很好”,分词结果为:味道—很好,则可以将味道—很好行组合,得到组合分词结果为“味道很好”。
在步骤S21033中,在上述根节点与其中一个叶节点之间的路径所存储的专有名词,为上述组合分词结果的情况下,将上述根节点与其中一个叶节点之间的路径所存储的专有名词,作为与上述至少两个相邻的分词结果相匹配的目标专有名词;上述其中一个叶节点为上述至少一个叶节点中的节点。
本公开实施例中,在使用预设词表进行匹配的时候,当根节点与某一个叶节点之间所存储的专有名词,与组合分词结果完全匹配的情况下,才认为组合分词结果与预设词表匹配成功,并将根节点与某一个叶节点所存储的专有名词(完全匹配成功的专有名词),作为该至少两个相邻的分词结果相匹配的目标专有名词。
继续如图8所示,对于“芝士蛋糕”这一组合分词结果,可以与图8中的根节点至“糕”之间的路径中存储的专有名词“芝士蛋糕”完全匹配,则将“芝士蛋糕”作为分词结果“芝士—蛋糕”的目标专有名词。对于“味道很好”这一组合分词结果,不能够与图8中的根节点至任一叶节点之间的路径所存储的专有名词完全匹配,则认为没有匹配成功,则将该分词结果“味道—很好”过滤掉。
本公开实施例中,将组合分词结果与预设词表中存储的专有名词进行匹配,并在该组合分词结果能够从预设词表的根节点匹配到任一叶节点的情况下,才认为匹配成功,从而提高目标专有名词确定的准确率,确保第一目标拼接文本准确反映需要检测的主体和待处理文本的核心内容,使得通过该第一目标拼接文本训练得到的预设语言模型可以学习到待处理文本的关键信息,从而大幅度提升模型的性能和召回精度,进而提高训练后的模型对文本进行分类的准确率。
在一个可行的实施例中,在得到第一目标拼接文本之后,可以将该第一目标拼接文本输入预设语言模型继续进行训练,得到训练好的预设语言模型。训练好的预设语言模型不再限制文字字数,可以适应于任何字数的长文本,对文本分类的准确率也较高。
图10是根据一示例性实施例示出的一种文本分类方法的流程图。如图10所示,上述文本分类方法可以包括:
在步骤S31中,获取待分类文本。
在步骤S33中,在上述待分类文本的长度大于预设长度的情况下,从上述待分类文本中提取出上述预设长度的第一子文本。
在步骤S35中,在第二子文本包括预设字符的情况下,拼接上述预设字符和上述第一子文本中的多个字符,得到上述预设长度的第二目标拼接文本;上述第二子文本为上述待分类文本中除上述第一子文本之外的文本。
上述步骤S31-步骤S35,与上述步骤S11-步骤S15类似(将步骤S11-步骤S15中的“待处理文本”修改为“待分类文本”即可),在此不再赘述。
在步骤S37中,通过预设语言模型对上述第二目标拼接文本进行分类;上述预设语言模型为基于上述任一实施方式中的第一目标拼接文本进行训练得到。
具体地,可以将第二目标拼接文本输入该预设语言模型,得到分类结果。由于第二目标拼接文本能够准确反映需要检测的主体和待分类文本的核心内容,将该第二目标拼接文输入该预设语言模型,可以学习到待分类文本的关键信息,从而大幅度提升模型的性能,提高文本分类的准确率。
图11是根据一示例性实施例示出的一种文本处理装置框图。参照图11,该装置可以包括待处理文本获取模块41,第一提取模块43和第一拼接模块45。
待处理文本获取模块41,被配置为执行获取待处理文本。
第一提取模块43,被配置为执行在上述待处理文本的长度大于预设长度的情况下,从上述待处理文本中提取出上述预设长度的第一子文本。
第一拼接模块45,被配置为执行在第二子文本包括预设字符的情况下,拼接上述预设字符和上述第一子文本中的多个字符,得到上述预设长度的第一目标拼接文本;其中,上述第二子文本为上述待处理文本中除上述第一子文本之外的文本。
在一示例性的实施例中,上述第一拼接模块45,可以包括:
预设数量个字符提取单元,被配置为执行从上述第一子文本中提取出预设数量个字符;上述第一子文本中除上述预设数量个字符之外的字符的数量,与上述预设字符所包括的字符的数量相等。
第一目标拼接文本确定单元,被配置为执行拼接上述预设数量个字符和上述预设字符,得到上述第一目标拼接文本。
在一示例性的实施例中,上述第一提取模块43,可以包括:
首段文本提取单元,被配置为执行以上述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本。
末段文本提取单元,被配置为执行以上述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本。
第一子文本确定单元,被配置为执行将上述首段文本和上述末段文本作为上述第一子文本;上述第一数量与上述第二数量之间的差值小于预设数量阈值。
在一示例性的实施例中,上述预设字符中包括第三数量个字符,上述预设数量个字符提取单元,可以包括:
第四数量的字符提取子单元,被配置为执行以上述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符。
第五数量的字符提取子单元,被配置为执行以上述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符。
预设数量个字符确定子单元,被配置为执行将上述第四数量的字符和上述第五数量的字符作为上述预设数量个字符;其中,上述第四数量小于上述第一数量,上述第五数量小于上述第二数量,第一差值与第二差值的和等于上述第三数量,上述第一差值表征上述第一数量与上述第四数量之间的差值,上述第二差值表征上述第二数量与上述第五数量之间的差值。
在一示例性的实施例中,上述第一目标拼接文本确定单元,被配置为执行拼接上述第四数量的字符、上述预设字符和上述第五数量的字符,得到上述第一目标拼接文本。
在一示例性的实施例中,上述装置还可以包括:
标准字符确定模块,被配置为执行在上述第二子文本中包括上述预设字符的情况下,确定上述预设字符对应的标准字符;
第二拼接模块,被配置为执行拼接上述标准字符和上述多个字符,得到上述第一目标拼接文本。
在一示例性的实施例中,上述标准字符确定模块,可以包括:
分词结果确定单元,被配置为执行对上述预设字符进行分词处理,得到上述预设字符对应的分词结果。
目标专有名词确定单元,被配置为执行从预设词表中确定与上述分词结果相匹配的目标专有名词;上述预设词表通过双数组树结构存储多个专有名词。
标准字符确定单元,被配置为执行基于预设映射信息,确定与上述目标专有名词对应的标准字符;上述预设映射信息表征专有名词与标准字符之间的映射关系。
在一示例性的实施例中,上述双数组树结构包括一个根节点和至少一个叶节点,上述根节点与每个叶节点之间的路径存储一个专有名词,上述分词结果的数量为多个,上述目标专有名词确定单元,包括:
组合分词结果确定子单元,被配置为执行将至少两个相邻的分词结果进行组合,得到组合分词结果。
目标专有名词确定子单元,被配置为执行在上述根节点与其中一个叶节点之间的路径所存储的专有名词,与上述组合分词结果相匹配的情况下,将上述根节点与其中一个叶节点之间的路径所存储的专有名词,作为与上述至少两个相邻的分词结果相匹配的目标专有名词;上述其中一个叶节点为上述至少一个叶节点中的节点。
图12是根据一示例性实施例示出的一种文本分类装置框图。参照图12,该装置可以包括待分类文本获取模块51、第二提取模块53、第三拼接模块55和分类模块57。
待分类文本获取模块51,被配置为执行获取待分类文本。
第二提取模块53,被配置为执行在上述待分类文本的长度大于预设长度的情况下,从上述待分类文本中提取出上述预设长度的第一子文本。
第三拼接模块55,被配置为执行在第二子文本包括预设字符的情况下,拼接上述预设字符和上述第一子文本中的多个字符,得到上述预设长度的第二目标拼接文本;上述第二子文本为上述待分类文本中除上述第一子文本之外的文本。
分类模块57,被配置为执行通过预设语言模型对上述第二目标拼接文本进行分类;上述预设语言模型为基于上述任一实施方式中的第一目标拼接文本进行训练得到。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中任一文本处理模型的训练方法的步骤或任一文本处理方法的步骤。
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图13是根据一示例性实施例示出的一种用于文本处理的电子设备的框图,该电子设备60可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)61(中央处理器61可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器63,一个或一个以上存储应用程序623或数据622的存储介质62(例如一个或一个以上海量存储设备)。其中,存储器63和存储介质62可以是短暂存储或持久存储。存储在存储介质62的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器61可以设置为与存储介质62通信,在电子设备60上执行存储介质62中的一系列指令操作。电子设备60还可以包括一个或一个以上电源66,一个或一个以上有线或无线网络接口65,一个或一个以上输入输出接口64,和/或,一个或一个以上操作系统621,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口64可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备60的通信供应商提供的无线网络。在一个实例中,输入输出接口64包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中,输入输出接口64可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图13所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备60还可包括比图13中所示更多或者更少的组件,或者具有与图13所示不同的配置。
在示例性实施例中,还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一文本处理方法的步骤或任一文本分类方法的步骤。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一种实施方式中提供的文本处理方法或文本分类方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本;
在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本;
其中,所述第二子文本为所述待处理文本中除所述第一子文本之外的文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本,包括:
从所述第一子文本中提取出预设数量个字符;所述第一子文本中除所述预设数量个字符之外的字符的数量,与所述预设字符所包括的字符的数量相等;
拼接所述预设数量个字符和所述预设字符,得到所述第一目标拼接文本。
3.根据权利要求2所述的文本处理方法,其特征在于,所述在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本,包括:
以所述待处理文本的首位字符作为起始位置,向后一个字符的方向提取出第一数量的字符,得到首段文本;
以所述待处理文本的末位字符作为终止位置,向前一个字符的方向提取出第二数量的字符,得到末段文本;
将所述首段文本和所述末段文本作为所述第一子文本;所述第一数量与所述第二数量之间的差值小于预设数量阈值。
4.根据权利要求3所述的文本处理方法,其特征在于,所述预设字符中包括第三数量个字符,所述从所述第一子文本中提取出预设数量个字符,包括:
以所述首段文本的首位字符作为起始位置,向后一个字符的方向提取出第四数量的字符;
以所述末段文本的末位字符作为终止位置,向前一个字符的方向提取出第五数量的字符;
将所述第四数量的字符和所述第五数量的字符作为所述预设数量个字符;
其中,所述第四数量小于所述第一数量,所述第五数量小于所述第二数量,第一差值与第二差值的和等于所述第三数量,所述第一差值表征所述第一数量与所述第四数量之间的差值,所述第二差值表征所述第二数量与所述第五数量之间的差值。
5.一种文本分类方法,其特征在于,包括:
获取待分类文本;
在所述待分类文本的长度大于预设长度的情况下,从所述待分类文本中提取出所述预设长度的第一子文本;
在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第二目标拼接文本;所述第二子文本为所述待分类文本中除所述第一子文本之外的文本;
通过预设语言模型对所述第二目标拼接文本进行分类;所述预设语言模型为基于权利要求1中的第一目标拼接文本进行训练得到。
6.一种文本处理装置,其特征在于,包括:
待处理文本获取模块,被配置为执行获取待处理文本;
第一提取模块,被配置为执行在所述待处理文本的长度大于预设长度的情况下,从所述待处理文本中提取出所述预设长度的第一子文本;
第一拼接模块,被配置为执行在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第一目标拼接文本;其中,所述第二子文本为所述待处理文本中除所述第一子文本之外的文本。
7.一种文本分类装置,其特征在于,包括:
待分类文本获取模块,被配置为执行获取待分类文本;
第二提取模块,被配置为执行在所述待分类文本的长度大于预设长度的情况下,从所述待分类文本中提取出所述预设长度的第一子文本;
第三拼接模块,被配置为执行在第二子文本包括预设字符的情况下,拼接所述预设字符和所述第一子文本中的多个字符,得到所述预设长度的第二目标拼接文本;所述第二子文本为所述待分类文本中除所述第一子文本之外的文本;
分类模块,被配置为执行通过预设语言模型对所述第二目标拼接文本进行分类;所述预设语言模型为基于权利要求1中的第一目标拼接文本进行训练得到。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的文本处理方法或权利要求5所述的文本分类方法。
9.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1至4中任一项所述的文本处理方法或权利要求5所述的文本分类方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的文本处理方法或权利要求5所述的文本分类方法。
CN202111449196.9A 2021-11-30 2021-11-30 文本处理方法、文本分类方法、装置、设备及存储介质 Pending CN114186060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111449196.9A CN114186060A (zh) 2021-11-30 2021-11-30 文本处理方法、文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111449196.9A CN114186060A (zh) 2021-11-30 2021-11-30 文本处理方法、文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114186060A true CN114186060A (zh) 2022-03-15

Family

ID=80541906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111449196.9A Pending CN114186060A (zh) 2021-11-30 2021-11-30 文本处理方法、文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114186060A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358223A (zh) * 2022-09-05 2022-11-18 北京百度网讯科技有限公司 信息预测方法、装置、设备以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358223A (zh) * 2022-09-05 2022-11-18 北京百度网讯科技有限公司 信息预测方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN109147934B (zh) 问诊数据推荐方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
CN112328762A (zh) 基于文本生成模型的问答语料生成方法和装置
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN108304377B (zh) 一种长尾词的提取方法及相关装置
US11301556B2 (en) Verification method and device
CN111859093A (zh) 敏感词处理方法、装置及可读存储介质
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN114186060A (zh) 文本处理方法、文本分类方法、装置、设备及存储介质
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111353027B (zh) 聊天机器人中的答案反馈方法、装置、计算机设备和介质
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN110597951A (zh) 文本解析方法、装置、计算机设备和存储介质
CN112668324B (zh) 语料数据处理方法、装置、电子设备及存储介质
CN110765771B (zh) 用于确定广告语句的方法及装置
CN114239602A (zh) 会话方法、装置和计算机程序产品
CN113743982A (zh) 广告投放方案推荐方法、装置、计算机设备及存储介质
CN116757203B (zh) 一种自然语言匹配方法、装置、计算机设备及存储介质
CN111552785A (zh) 人机交互系统数据库更新方法、装置、计算机设备和介质
CN111694962A (zh) 数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination