CN115994535A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN115994535A
CN115994535A CN202310028994.7A CN202310028994A CN115994535A CN 115994535 A CN115994535 A CN 115994535A CN 202310028994 A CN202310028994 A CN 202310028994A CN 115994535 A CN115994535 A CN 115994535A
Authority
CN
China
Prior art keywords
text
word
text segment
initial
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310028994.7A
Other languages
English (en)
Inventor
王焜
余赢超
王景峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Kingsoft Digital Network Technology Co Ltd
Original Assignee
Zhuhai Kingsoft Digital Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Kingsoft Digital Network Technology Co Ltd filed Critical Zhuhai Kingsoft Digital Network Technology Co Ltd
Priority to CN202310028994.7A priority Critical patent/CN115994535A/zh
Publication of CN115994535A publication Critical patent/CN115994535A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供文本处理方法及装置,其中所述文本处理方法包括:提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。

Description

文本处理方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,自然语言处理(NLP,Natural Language Processing)的文本处理任务中,由于文本的内容通常较多、篇幅较长,为了方便用户获取文本中的有效信息,在处理文本之前,可以对文本进行分词,因此,文本分词逐渐成为自然语言处理任务中的研究重点。
现有技术中,通常采用深度学习的方法,将分词问题转化为一个序列标注问题,对文本中的每个字标注其属性,获得分词结果。
然而,上述深度学习的方案速度较慢,过于耗费算力和内存,导致文本处理的效率低且准确性不高。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
提取待处理文本中的目标文本段;
基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
提取模块,被配置为提取待处理文本中的目标文本段;
分词模块,被配置为基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
合并模块,被配置为将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
获得模块,被配置为在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
本申请提供的文本处理方法,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
附图说明
图1是本申请一实施例提供的一种文本处理系统的框架图;
图2是本申请一实施例提供的一种文本处理方法的流程图;
图3是本申请一实施例提供的一种应用于游戏领域的文本处理方法的处理流程图;
图4是本申请一实施例提供的一种文本处理界面的界面示意图;
图5是本申请一实施例提供的一种文本处理装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
词频:词频(TF,Term Frequency)指的是某一个给定的词语在某一文件中出现的次数。
光学字符识别:光学字符识别(OCR,Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
双数组线索(Trie)树:双数组Trie树(DoubleArray Trie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。双数组的原理是,将原来需要多个数组才能表示的Trie树,使用两个数据就可以存储下来,可以极大地减小空间复杂度。
AC自动机:AC自动机(Aho-Corasick automaton)是对字典树算法的一种延伸,是字符串中运用非常广泛的一种算法。
词云分析:词云分析是通过对一个文本库做词频统计后,生成一张可视化的词云图,相比于单纯的词频信息,更适合给非专业数据人员使用和展示。
随着互联网与智能手机的迅速普及,网络上可采集到的信息量呈爆炸性增长,传统的信息处理与分析手段已经越来越力不从心,因此,有必要引入基于数据挖掘、机器学习甚至深度学习相关的智能信息处理分析方式。
以中文文本为例,要使用计算机算法对其进行处理,通常第一步骤就是要对其进行分词。分词的结果不仅是后续各种算法的基础,其本身也可以直接处理成词频等信息进行进一步的分析处理,分词的准确率与有效性直接决定了后续结果的准确率和有效性。
需要说明的是,可以使用以下三种分词方案实现文本分词:第一种是基于词典进行枚举分词。可以由专业的语言学家构建大量规则辅助分词结果的选取。第二种是采用机器学习方法,通过计算整个句子的最大成词概率来得到分词结果。第三种是采用深度学习/神经网络方法,将分词问题转化为一个序列标注问题(即对句子中每个汉字标注其属性是一个词的开头/结尾/中间/单字等)。
然而,上述分词方案也存在一定的弊端,如机器学习方法在短句子上,成词概率的准确性会下降,若句子变长,则算法的计算时间也会相应加长,处理全部语料存在时间压力,并且难以应对互联网层出不穷的新词。又如采用深度学习/神经网络方法,速度较慢,过于耗费算力和内存。
为了解决上述问题,本申请实施例中提供了一种文本处理方法,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一实施例提供的一种文本处理系统的框架图,文本处理系统包括服务端和客户端;
客户端,用于向服务端发送待处理文本;
服务端,用于提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合;将分词集合发送至客户端。
值得说明的是,本申请实施例中提供的文本处理方法一般由服务端执行,但是,在本申请的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本申请实施例所提供的文本处理方法。在其它实施例中,本申请实施例所提供的文本处理方法还可以是由客户端与服务端共同执行。
应用本申请实施例的方案,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
图2出了本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤202:提取待处理文本中的目标文本段。
本申请一个或多个实施例中,可以提取待处理文本中的目标文本段,进一步对目标文本段进行处理,从而节省文本处理时间,提高文本处理效率。
具体地,待处理文本为文本处理的对象,待处理文本可以是不同语种的文本,如英文文本、中文文本等,具体根据实际情况进行选择,本申请实施例对此不作任何限定。本申请实施例的核心在于实现文本分词,针对于不同语种的文本而言,分词的过程基本相同,下面对中文文本的分词过程进行详细介绍。
需要说明的是,待处理文本的获取方式有多种,本申请第一种可能的实现方式中,可以直接接收待处理文本,或者从待处理文本库中获取待处理文本。本申请第二种可能的实现方式中,可以获取待处理图像,对待处理图像进行光学字符识别,获得待处理文本。本申请第三种可能的实现方式中,可以获取待处理音频或视频,对待处理音频或视频进行语音转换,获得待处理文本。
实际应用中,提取待处理文本中的目标文本段的方式有多种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
本申请一种可能的实现方式中,可以利用特定领域词库提取待处理文本中的目标文本段,也即,上述提取待处理文本中的目标文本段,可以包括以下步骤:
根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词,其中,特定领域词库包括多个特定领域词语;
以目标分词为分割点,对待处理文本进行分割,获得目标文本段。
具体地,待处理文本的字符顺序为待处理文本中各字符从前至后的排列顺序,假设待处理文本为“你好呀”,则待处理文本的字符顺序为:第一个字符为“你”,第二个字符为“好”,第三个字符为“呀”。特定领域词库包括特定项目中重点关注的专业领域词汇,以游戏领域为例,特定领域词库中包括游戏内的专有名词、世界观构建称谓、玩家社区俗语等等。
需要说明的是,特定领域词库的获取方式有多种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。本申请一种可能的实现方式中,可以直接获取人工构建的特定领域词库。本申请另一种可能的实现方式中,可以采集网络上的词典,对这些词典进行筛选获得特定领域词库。同时,特定领域词库中的多个特定领域词语的存储格式是一张词表,从而不需要维护复杂的词频词性等信息,只要加入词表即可生效,便于非算法专业的相关人员操作。
进一步地,为了提高待处理文本和特定领域词库的匹配效率,可以对特定领域词库中的数据进行处理,将各特定领域词语处理为易于快速检索的数据结构并保存。其中,对特定领域词语进行处理时,可以采用双数组Trie树结合AC自动机的数据结构,具体处理方式根据实际情况进行选择,本申请实施例对此不作任何限定。
实际应用中,根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词之后,可以将目标分词之前的至少一个字符确定为目标文本段,将目标分词之后的至少一个字符作为更新后的待处理文本,并返回执行根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词的步骤,直至对待处理文本中的各字符匹配完毕,即可获得不交叉的目标分词和目标文本段。
示例性地,假设待处理文本为“游戏A新春绝对不能错过的福利!520福袋打五折”,特定领域词库中包括特定领域词语“游戏A”和“520福袋”,可以对待处理文本从前至后检索特定领域词库中的词语,每检索到一个尽可能长的特定领域词语,就将该特定领域词语和该特定领域词语之前的文本部分释出,然后从特定领域词语的下一个字开始检索,直至对待处理文本检索完毕,即可获得待处理文本中的目标分词“游戏A”和“520福袋”,目标文本段“新春绝对不能错过的福利!”和“打五折”。
应用本申请实施例的方案,根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词,其中,特定领域词库包括多个特定领域词语;以目标分词为分割点,对待处理文本进行分割,获得目标文本段。保证了特定领域词语成词的准确度,进一步提高了文本处理的准确性。
本申请另一种可能的实现方式中,可以对待处理文本进行字符识别,确定待处理文本中的指定类型的字符,将待处理文本中指定类型的字符删除,获得目标文本段。进一步地,还可以在上述根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词之后,对待处理文本中除目标分词之外的文本段进行字符识别,确定目标文本段,也即,上述以目标分词为分割点,对待处理文本进行分割,获得目标文本段,可以包括以下步骤:
以目标分词为分割点,对待处理文本进行分割,获得候选文本段;
对候选文本段进行字符识别,确定候选文本段中指定类型的字符;
将指定类型的字符从候选文本段中删除,获得目标文本段,其中,指定类型包括字母、数字、符号中的至少一种。
需要说明的是,候选文本段为待处理文本中除目标分词外剩余的文本段。以目标分词为分割点,对待处理文本进行分割,获得候选文本段的方式,具体可以是将目标分词从待处理文本中删除,即可获得候选文本段。在获得候选文本段之后,对候选文本段进行字符识别,确定候选文本段中指定类型的字符的方式有多种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
实际应用中,对分割出的连续字母、数字部分,可以不作后续处理,直接作为一个完整的“词语”;分割出的符号部分则每个符号作为一个单独的词语处理。
本申请一种可能的实现方式中,可以将候选文本段和预设字符库进行匹配,确定候选文本段中指定类型的字符,其中,预设字符库中包括多个字母、数字、符号等类型的字符。
本申请另一种可能的实现方式中,可以将候选文本段输入字符识别模型中,经字符识别模型的处理,获得候选文本段中指定类型的字符,其中,字符识别模型基于多个样本文本和各样本文本携带的执行类型字符标签训练得到。
进一步地,在获得候选文本段中指定类型的字符之后,可以将指定类型的字符从候选文本段中删除,获得目标文本段。
示例性地,假设待处理文本为“限定NPC大礼包了!!288张三,388李四”,特定领域词库中包括特定领域词语“大礼包”。根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词为“大礼包”,以目标分词为分割点,对待处理文本进行分割,获得候选文本段“限定NPC”、“了”和“!!288张三,388李四”。对候选文本段进行字符识别,确定候选文本段中的字母为“NPC”、数字为“288”、“388”、符号为“!”、“!”、“,”。将字母、数字和符号从候选文本段中删除,获得目标文本段“限定”、“了”、“张三”和“李四”。
应用本申请实施例的方案,以目标分词为分割点,对待处理文本进行分割,获得候选文本段;对候选文本段进行字符识别,确定候选文本段中指定类型的字符;将指定类型的字符从候选文本段中删除,获得目标文本段,其中,指定类型包括字母、数字、符号中的至少一种。通过对指定类型的字符进行处理,摒弃了大量不必要的分词过程,提高了文本处理的效率,特别在大量夸张使用符号和中英混杂的互联网语境下提速尤为明显。
步骤204:基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段。
本申请一个或多个实施例中,提取待处理文本中的目标文本段之后,进一步地,可以基于目标文本段的字符顺序,对目标文本段进行根刺,获得初始文本段和预设数量的初始分词。
具体地,预设数量的具体值根据实际情况进行选择,本申请实施例对此不作任何限定。本申请实施例中,预设数量优选为3。
实际应用中,基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词的方式有多种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
本申请一种可能的实现方式中,可以基于目标文本段的字符顺序,利用分词工具对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,分词工具包括结巴分词工具、相似度分词工具等,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
本申请另一种可能的实现方式中,可以利用词特征库,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,也即,上述基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,可以包括以下步骤:
基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词。
具体地,词语的词特征信息为词语本身的属性特征,可以是词语的词频信息,也可以是词语的权重信息,具体根据实际情况进行选择,本申请实施例对此不作任何限定。词特征库中各词语的词特征信息可以通过大数据统计获得,还可以直接获取各词语公开的词频信息作为词特征信息。
应用本申请实施例的方案,基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,提高了获得初始分词和初始文本段的准确性。
本申请一种可选的实施例中,在上述基于目标文本段的字符顺序和词特征库中各词语的特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词之前,还可以包括以下步骤:
获取多个样本词语,其中,样本词语携带词特征信息;
将多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。
本申请实施例中,获取多个样本词语的方式有多种,本申请一种可能的实现方式,可以由人工输入大量样本词语构建词特征库。本申请另一种可能的实现方式,可以从其他数据获取设备或者数据库中读取大量样本词语构建词特征库。
需要说明的是,在获取多个样本词语之后,可以直接根据多个样本词语构建词特征库,进一步地,为了加快词库检索速度,可以对样本词语进行结构处理,通过双数组Trie树和AC自动机的方式将多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。
应用本申请实施例的方案,获取多个样本词语,其中,样本词语携带词特征信息;将多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。实现了加快词库检索速度,提高了文本处理效率。
实际应用中,基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词的方式有多种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
本申请一种可能的实现方式中,可以基于目标文本段的字符顺序,将目标文本段和词特征库进行匹配,确定目标文本段中的多个候选分词;将多个候选分词根据词特征信息从大到小的顺序进行排序,将前预设数量个候选分词作为初始分词,同时,从目标文本段中删除预设数量个初始分词,获得初始文本段。
本申请另一种可能的实现方式中,可以利用词特征库对目标文本段进行遍历和检索,切割出成词概率最高的连续的预设数量个初始分词和初始文本段,也即,上述基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,可以包括以下步骤:
基于目标文本段的字符顺序,将目标文本段和词特征库进行匹配,确定目标文本段中的多个候选分词;
根据预设数量和字符顺序,对多个候选分词进行分组,获得至少一个候选分词组,其中,候选分词组中的候选分词是连续的;
根据词特征信息,计算至少一个候选分词组的分词指标;
根据分词指标,从至少一个候选分词组中确定预设数量的初始分词;
从目标文本段中删除预设数量的初始分词,获得初始文本段。
具体地,候选分词即为词特征库和目标文本段中共同出现的词。假设词特征库中包括“你”、“今天”“真好”、“你好”、“真”、“好”、“看”和“好看”,目标文本段为“你今天真好看”,虽然目标文本段中存在“你”和“好”两个词,但由于“你好”不符合目标文本段的字符顺序,因此,基于目标文本段的字符顺序,将目标文本段和词特征库进行匹配,确定目标文本段中的候选分词为“你”、“今天”“真好”、“真”、“好”、“看”和“好看”。
进一步地,在对多个候选分词进行分组,获得至少一个候选分词组时,为了保证字符顺序的连贯性,可以根据预设数量和字符顺序,从字符顺序靠前的候选分词中确定初始分词,即将字符顺序靠前的预设数量个候选分词作为一组。
示例性地,假设预设数量为3,则根据预设数量3和目标文本段的字符顺序,对候选分词“你”、“今天”“真好”、“真”、“好”、“看”和“好看”进行分组,分组是需保证每一组中的候选分词是连续的,获得候选分词组1[“你”、“今天”、“真好”]、候选分词组2[“你”、“今天”、“真”]。
需要说明的是,由于词特征库中的每个词都携带词特征信息,因此,可以将各候选分词组中每个词的词特征信息累乘,确定各候选分词组的分词指标。在确定各候选分词组的分词指标之后,选择分词指标最大的候选分词组,将候选分词组中的各候选分词作为预设数量的初始分词。例如,上述两个候选分词组中,分词指标最大的为候选分词组1,则将“你”、“今天”、“真好”作为预设数量的初始分词,进一步从目标文本段“你今天真好看”中删除预设数量的初始分词,获得初始文本段“看”。
应用本申请实施例的方案,基于目标文本段的字符顺序,将目标文本段和词特征库进行匹配,确定目标文本段中的多个候选分词;根据预设数量和字符顺序,对多个候选分词进行分组,获得至少一个候选分词组,其中,候选分词组中的候选分词是连续的;根据词特征信息,计算至少一个候选分词组的分词指标;根据分词指标,从至少一个候选分词组中确定预设数量的初始分词;从目标文本段中删除预设数量的初始分词,获得初始文本段,使得预设数量的初始分词中各分词更准确,进一步提高了文本处理的准确性。
步骤206:将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤。
本申请一个或多个实施例中,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段之后,进一步地,可以将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤。
具体地,指定分词为预设数量的初始分词中指定位置的分词,也即基于目标文本段的字符顺序确定的末尾分词。假设预设数量的初始分词为“你”、“今天”、“真好”,初始文本段为“看”。确定初始分词中的末尾分词为“真好”,则根据目标文本段的字符顺序,将指定分词“真好”和初始文本段“看”进行合并,获得更新后的目标文本段为“真好看”。
进一步地,在将指定分词与初始文本段进行合并时,还可以对指定分词进行拆分,将拆分后的指定分词与初始文本段进行合并。例如,可以将指定分词“真好”拆分为“真”和“好”,将拆分后获得的“好”与初始文本段“看”进行合并,获得更新后的目标文本段为“好看”。其中,对指定分词进行拆分的方式具体根据实际情况进行选择,本申请实施例对此不作任何限定。
需要说明的是,由于从目标文本段中确定预设数量的初始分词时,可能会因为预设数量的初始分词为成词概率最高的词,从而忽略了词语与下文之间的关联关系。以确定预设数量的初始分词为“你”“今天”“真好”为例,显然,“真好”与“看”之间的语义与目标文本段“你今天真好看”的语义存在明显不同,因此,可以将指定分词“真好”和初始文本段“看”进行合并,获得更新后的目标文本段为“真好看”,再返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤,就可以正确分出“真”和“好看”。
步骤208:在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
本申请一个或多个实施例中,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤之后,进一步地,在达到预设分词停止条件的情况下,可以获得待处理文本对应的分词集合。
具体地,分词集合是指对待处理文本进行分词所获得的集合,分词集合中包括词语、文本段中的至少一种,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
示例性地,假设目标文本段为“其次玩家的人物装甲不存在”,预设数量为3,对于目标文本段的分词过程如下:
步骤A:[“其次”“玩家”“的”]人物装甲不存在
步骤B:[“其次”“玩家”]的人物装甲不存在
步骤C:[“其次”“玩家”“的”“人物”“装甲”]不存在
步骤D:[“其次”“玩家”“的”“人物”]装甲不存在
步骤E:[“其次”“玩家”“的”“人物”“装甲”“不”“存在”]
因此,对目标文本段“其次玩家的人物装甲不存在”进行分词,获得的分词集合为“其次”“玩家”“的”“人物”“装甲”“不”“存在”。
应用本申请实施例的方案,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
本申请一种可选的实施例中,在获得待处理文本中的目标分词、指定类型的字符和分词集合之后,可以随机将目标分词、指定类型的字符和分词集合进行组合,获得待处理文本的文本处理结果。进一步地,为了使得文本处理结果更加清晰明了,可以将目标分词、指定类型的字符和分词集合按待处理文本的字符顺序逐项返回,获得文本的处理结果,也即,上述在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合之后,还可以包括以下步骤:
基于待处理文本的字符顺序,对目标分词、指定类型的字符和分词集合进行排序,获得文本处理结果。
示例性地,假设待处理文本为“限定NPC大礼包了!!288张三,388李四,漂亮极了”,根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词为“大礼包”,以目标分词为分割点,对待处理文本进行分割,获得候选文本段“限定NPC”、“了”和“!!288张三,388李四”。对候选文本段进行字符识别,确定候选文本段中的字母为“NPC”、数字为“288”、“388”、符号为“!”、“!”、“,”“,”。将字母、数字和符号从候选文本段中删除,获得目标文本段“限定”、“了”、“张三”、“李四”和“漂亮极了”,基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段,将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤,在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合“限定”“了”“张三”“李四”“漂亮”“极了”。基于待处理文本的字符顺序,对目标分词、指定类型的字符和分词集合进行排序,获得文本处理结果:“限定”“NPC”“大礼包”“了”“!”“!”“288”“张三”“,”“388”“李四”“,”“漂亮”“极了”。
应用本申请实施例的方案,基于待处理文本的字符顺序,对目标分词、指定类型的字符和分词集合进行排序,获得文本处理结果。使得文本处理结果更加清晰明了,提高了用户体验度。
实际应用中,预设分词停止条件包括但不限于目标文本段中的字符均已被分词、迭代次数达到预设迭代次数、初始分词的数量达到预设阈值,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
本申请第一种可能的实现方式中,预设分词停止条件包括目标文本段中的字符均已被分词;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合,可以包括以下步骤:
在目标文本段中的字符均已被分词的情况下,获得待处理文本对应的分词集合,其中,分词集合包括多个词语。
示例性地,假设目标文本段为“你今天真好看”,在基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤,在目标文本段中的字符均已被分词的情况下,获得待处理文本对应的分词集合为“你”“今天”“真”“好看”。
应用本申请实施例的方案,在目标文本段中的字符均已被分词的情况下,获得待处理文本对应的分词集合,提高了文本处理的效率和准确性。
本申请第二种可能的实现方式中,预设分词停止条件包括预设迭代次数;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合,可以包括以下步骤:
在达到预设迭代次数的情况下,获得待处理文本对应的分词集合,其中,分词集合包括多个词语。
具体地,预设迭代次数具体根据实际情况进行选择,本申请实施例对此不作任何限定。
示例性地,假设预设迭代次数为2,引用上述目标文本段为“其次玩家的人物装甲不存在”的例子,第一次迭代获得词语为“其次”“玩家”,第二次迭代获得的词语为“的”“人物”,在迭代次数达到预设迭代次数2的情况下,分词集合为“其次”“玩家”“的”“人物”以及还未进行文本处理的“装甲不存在”。
应用本申请实施例的方案,在达到预设迭代次数的情况下,获得待处理文本对应的分词集合,提高了文本处理的效率和准确性。
本申请第三种可能的实现方式中,预设分词停止条件包括预设阈值;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合,可以包括以下步骤:
在初始分词的数量达到预设阈值的情况下,获得预设阈值数量的词语;
将预设阈值数量的词语从待处理文本中删除,获得分词文本段;
根据分词文本段和预设阈值数量的词语,构建待处理文本对应的分词集合。
具体地,预设阈值具体根据实际情况进行选择,本申请实施例对此不作任何限定。
示例性地,假设预设迭代次数为2,引用上述目标文本段为“其次玩家的人物装甲不存在”的例子,在获得初始分词“其次”“玩家”之后,确定初始分词的数量达到预设阈值2,则将“其次”“玩家”从“其次玩家的人物装甲不存在”中删除,获得分词文本段“的人物装甲不存在”,从而获得分词集合:“其次”“玩家”“的人物装甲不存在”。
应用本申请实施例的方案,在初始分词的数量达到预设阈值的情况下,获得预设阈值数量的词语;将预设阈值数量的词语从待处理文本中删除,获得分词文本段;根据分词文本段和预设阈值数量的词语,构建待处理文本对应的分词集合,提高了文本处理的效率和准确性。
本申请实施例提供的文本处理方法,可以应用于不同的领域,如电商领域、游戏领域等等,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
以游戏领域为例,在游戏产品的持续运营当中,游戏公司可以通过社交媒体平台中相关的内容输出,获取大量的游戏玩家关于游戏内容的相关评价、讨论、以及二次文化创作等内容。这些内容被统称为游戏舆情信息。通过对舆情信息的整理、处理和分析,游戏产品的运营人员与开发人员,可以近距离接触到玩家真实的游玩情绪与游戏需求,进而对游戏产品做出针对性的改进。舆情分析在现代游戏的后续迭代开发过程中是至关重要的一环。
并且,游戏领域的互联网语料呈现出与传统长文本不同的特点,主要包括:主谓宾等句子元素不齐全、句式语法不一定规范、网络新词层出不穷且难以区分、语料单句较短但总量巨大非常考验分词速度等。这使得自然语言处理领域内传统的分词算法难以适应游戏领域互联网语料的分词需求,因此,本申请实施例提供了一种更适合应对游戏互联网情境下海量的语料处理工作。
下述结合附图3以本申请提供的文本处理方法在游戏领域的应用为例,对所述文本处理方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于游戏领域的文本处理方法的处理流程图,具体包括以下步骤:
步骤302:根据待处理文本的字符顺序,将待处理文本和游戏领域词库进行匹配,确定待处理文本中的目标分词,其中,游戏领域词库包括多个游戏领域词语。
步骤304:以目标分词为分割点,对待处理文本进行分割,获得候选文本段。
步骤306:对候选文本段进行字符识别,确定候选文本段中指定类型的字符。
步骤308:将指定类型的字符从候选文本段中删除,获得目标文本段,其中,指定类型包括字母、数字、符号中的至少一种。
步骤310:基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词。
步骤312:将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词的步骤。
步骤314:在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
步骤316:基于待处理文本的字符顺序,对目标分词、指定类型的字符和分词集合进行排序,获得文本处理结果。
本申请实施例提供的文本处理方法,首先,非常适合以帖子、弹幕、评论等形式为主的互联网语料的分词需求。仅关注局部连续预设数量词语的成词概率,更符合互联网用户的语言习惯,避免了对整句文本复杂的成词枚举和概率计算。其次,根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,实现了游戏领域舆情分析人员对特定领域词库中重要词语的重点关注需求。通过对特定领域词语的检索与过滤,保证了特定领域词语的成词准确率,从而在后续的如词频统计,词云分析等步骤中能够正确地呈现这部分词语的信息。同时特定领域词语的存储格式是一张词表,不需要维护复杂的词频词性等信息,只要加入词表即可生效,便于非专业的相关人员操作。此外,对文本进行字符识别,确定指定类型的字符,摒弃了大量无谓的计算过程,在大量夸张使用符号和中英混杂的互联网语境下提速尤为明显。最后,通过双数组Trie树和AC自动机的数据结构,大大加快了词特征库和特定领域词库的检索速度,同时,词特征库和特定领域词库也可以通过新词发现算法、业务人员手动更新等方式进行更新,保证了文本处理过程中的准确的。
参见图4,图4示出了本申请一实施例提供的一种文本处理界面的界面示意图。文本处理界面中包括文本上传框、“确定”控件、“取消”控件以及文本处理结果展示框。用户在文本上传框中上传待处理文本,如“限定NPC大礼包了!!288张三,388李四”点选“确定”控件,服务端提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的文本处理结果:“限定”“NPC”“大礼包”“了”“!”“!”“288”“张三”“,”“388”“李四”,并在文本处理结果展示框展示文本处理结果。进一步地,文本处理结果展示框中还可以同时显示待处理文本和文本处理结果。
需要说明的是,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
应用本申请实施例的方案,通过文本处理界面显示文本处理结果,使得用户可以直观地看到文本处理结果,提高了用户使用体验度。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图5示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图5所示,该装置包括:
提取模块502,被配置为提取待处理文本中的目标文本段;
分词模块504,被配置为基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
合并模块506,被配置为将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
获得模块508,被配置为在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
可选地,提取模块502,进一步被配置为根据待处理文本的字符顺序,将待处理文本和特定领域词库进行匹配,确定待处理文本中的目标分词,其中,特定领域词库包括多个特定领域词语;以目标分词为分割点,对待处理文本进行分割,获得目标文本段。
可选地,提取模块502,进一步被配置为以目标分词为分割点,对待处理文本进行分割,获得候选文本段;对候选文本段进行字符识别,确定候选文本段中指定类型的字符;将指定类型的字符从候选文本段中删除,获得目标文本段,其中,指定类型包括字母、数字、符号中的至少一种。
可选地,还装置还包括:排序模块,被配置为基于待处理文本的字符顺序,对目标分词、指定类型的字符和分词集合进行排序,获得文本处理结果。
可选地,分词模块504,进一步被配置为基于目标文本段的字符顺序和词特征库中各词语的词特征信息,对目标文本段进行分词,获得初始文本段和预设数量的初始分词。
可选地,该装置还包括:构建模块,被配置为获取多个样本词语,其中,样本词语携带词特征信息;将多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。
可选地,分词模块504,进一步被配置为基于目标文本段的字符顺序,将目标文本段和词特征库进行匹配,确定目标文本段中的多个候选分词;根据预设数量和字符顺序,对多个候选分词进行分组,获得至少一个候选分词组,其中,候选分词组中的候选分词是连续的;根据词特征信息,计算至少一个候选分词组的分词指标;根据分词指标,从至少一个候选分词组中确定预设数量的初始分词;从目标文本段中删除预设数量的初始分词,获得初始文本段。
可选地,预设分词停止条件包括目标文本段中的字符均已被分词;获得模块508,进一步被配置为在目标文本段中的字符均已被分词的情况下,获得待处理文本对应的分词集合,其中,分词集合包括多个词语。
可选地,预设分词停止条件包括预设迭代次数;获得模块508,进一步被配置为在达到预设迭代次数的情况下,获得待处理文本对应的分词集合,其中,分词集合包括多个词语。
可选地,预设分词停止条件包括预设阈值;获得模块508,进一步被配置为在初始分词的数量达到预设阈值的情况下,获得预设阈值数量的词语;将预设阈值数量的词语从待处理文本中删除,获得分词文本段;根据分词文本段和预设阈值数量的词语,构建待处理文本对应的分词集合。
应用本申请实施例的方案,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图6示出了本申请一实施例提供的一种计算设备的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network Interface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearField Communication)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机个人计算机(PC,Personal Computer)的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行所述文本处理方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于文本处理方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种文本处理方法,其特征在于,包括:
提取待处理文本中的目标文本段;
基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段;
将所述初始分词中的指定分词与所述初始文本段进行合并,获得更新后的目标文本段,并返回执行所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词的步骤;
在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合。
2.根据权利要求1所述的方法,其特征在于,所述提取待处理文本中的目标文本段,包括:
根据所述待处理文本的字符顺序,将所述待处理文本和特定领域词库进行匹配,确定所述待处理文本中的目标分词,其中,所述特定领域词库包括多个特定领域词语;
以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段。
3.根据权利要求2所述的方法,其特征在于,所述以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段,包括:
以所述目标分词为分割点,对所述待处理文本进行分割,获得候选文本段;
对所述候选文本段进行字符识别,确定所述候选文本段中指定类型的字符;
将所述指定类型的字符从所述候选文本段中删除,获得所述目标文本段,其中,所述指定类型包括字母、数字、符号中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合之后,还包括:
基于所述待处理文本的字符顺序,对所述目标分词、所述指定类型的字符和所述分词集合进行排序,获得文本处理结果。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:
基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词之前,还包括:
获取多个样本词语,其中,所述样本词语携带词特征信息;
将所述多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。
7.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:
基于所述目标文本段的字符顺序,将所述目标文本段和词特征库进行匹配,确定所述目标文本段中的多个候选分词;
根据所述预设数量和所述字符顺序,对所述多个候选分词进行分组,获得至少一个候选分词组,其中,所述候选分词组中的候选分词是连续的;
根据所述词特征信息,计算所述至少一个候选分词组的分词指标;
根据所述分词指标,从所述至少一个候选分词组中确定所述预设数量的初始分词;
从所述目标文本段中删除所述预设数量的初始分词,获得所述初始文本段。
8.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括所述目标文本段中的字符均已被分词;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:
在所述目标文本段中的字符均已被分词的情况下,获得所述待处理文本对应的分词集合,其中,所述分词集合包括多个词语。
9.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括预设迭代次数;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:
在达到预设迭代次数的情况下,获得所述待处理文本对应的分词集合,其中,所述分词集合包括多个词语。
10.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括预设阈值;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:
在所述初始分词的数量达到所述预设阈值的情况下,获得所述预设阈值数量的词语;
将所述预设阈值数量的词语从所述待处理文本中删除,获得分词文本段;
根据所述分词文本段和所述预设阈值数量的词语,构建所述待处理文本对应的分词集合。
11.一种文本处理装置,其特征在于,包括:
提取模块,被配置为提取待处理文本中的目标文本段;
分词模块,被配置为基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段;
合并模块,被配置为将所述初始分词中的指定分词与所述初始文本段进行合并,获得更新后的目标文本段,并返回执行所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词的步骤;
获得模块,被配置为在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合。
12.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至10任意一项所述文本处理方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10任意一项所述文本处理方法的步骤。
CN202310028994.7A 2023-01-09 2023-01-09 文本处理方法及装置 Pending CN115994535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310028994.7A CN115994535A (zh) 2023-01-09 2023-01-09 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310028994.7A CN115994535A (zh) 2023-01-09 2023-01-09 文本处理方法及装置

Publications (1)

Publication Number Publication Date
CN115994535A true CN115994535A (zh) 2023-04-21

Family

ID=85990016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310028994.7A Pending CN115994535A (zh) 2023-01-09 2023-01-09 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN115994535A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质
CN117690153A (zh) * 2024-02-04 2024-03-12 中国电子信息产业集团有限公司第六研究所 一种基于确定型有限自动机的文本检测方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质
CN116227488B (zh) * 2023-05-09 2023-07-04 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质
CN117690153A (zh) * 2024-02-04 2024-03-12 中国电子信息产业集团有限公司第六研究所 一种基于确定型有限自动机的文本检测方法、装置及设备
CN117690153B (zh) * 2024-02-04 2024-04-05 中国电子信息产业集团有限公司第六研究所 一种基于确定型有限自动机的文本检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108701161B (zh) 为搜索查询提供图像
CN112257421B (zh) 嵌套实体数据的识别方法、装置及电子设备
CN115994535A (zh) 文本处理方法及装置
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN110569354A (zh) 弹幕情感分析方法及装置
CN110674378A (zh) 基于余弦相似度和最小编辑距离的中文语义识别方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112395867A (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN112699645A (zh) 语料标注方法、装置及设备
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN114328919A (zh) 文本内容分类方法、装置、电子设备及存储介质
CN114138969A (zh) 文本处理方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN111046662B (zh) 分词模型的训练方法、装置、系统和存储介质
KR20110039900A (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JP2024006944A (ja) セマンティック検索モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN116401344A (zh) 根据问句检索表格的方法和装置
CN115906835A (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN114818727A (zh) 关键句抽取方法及装置
CN115238067A (zh) 基于Bert-wwm-Ext模型的摘要自动生成方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination