CN112749251B - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112749251B CN112749251B CN202010157587.2A CN202010157587A CN112749251B CN 112749251 B CN112749251 B CN 112749251B CN 202010157587 A CN202010157587 A CN 202010157587A CN 112749251 B CN112749251 B CN 112749251B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- processed
- modified
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 211
- 238000000034 method Methods 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims description 216
- 230000011218 segmentation Effects 0.000 claims description 67
- 238000010801 machine learning Methods 0.000 claims description 53
- 238000003780 insertion Methods 0.000 claims description 19
- 230000037431 insertion Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 21
- 238000012216 screening Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000012217 deletion Methods 0.000 description 9
- 230000037430 deletion Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Abstract
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取阅读文本和对应的待处理文本;从所述阅读文本中提取与所述待处理文本匹配的关键词;基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记;依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。采用本方法能够提高文本处理效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术不断发展,人工智能技术在多个领域展开研究和应用。而自然语言处理(Nature Language Processing,NLP)是人工智能技术中的一个重要方向,常常被应用于文本处理方向,如文本优化和机器阅读理解。
在传统的文本处理方案中,通常是将阅读文本和用于针对阅读文本设置提问的待处理文本一并输入至序列到序列(seq2seq)模型,然后输出一个全新的对应于待处理文本的目标文本。然而,这种输出全新的目标文本的方式,将会影响文本处理的效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本处理效率的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取阅读文本和对应的待处理文本;
从所述阅读文本中提取与所述待处理文本匹配的关键词;
基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记;
依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
在一个实施例中,所述确定所述待处理文本中各分词对应的处理标记之前,所述方法还包括:
对所提取出的关键词进行去重处理,得到去重后的关键词。
在一个实施例中,所述基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记包括:
获取所述待处理文本中各分词对应的词向量;
对各所述分词对应的词向量进行编码,得到对应的第一编码向量;所述第一编码向量包含所述分词在所述待处理文本中的上下文信息;
根据所述第一编码向量,确定对应分词的处理标记。
在一个实施例中,所述对各所述分词对应的词向量进行编码,得到对应的第一编码向量包括:
将各所述分词对应的词向量分别输入至标注模型;
通过所述标注模型的编码层对输入的词向量进行编码,得到对应的第一编码向量。
在一个实施例中,所述根据所述第一编码向量,确定对应分词的处理标记包括:
通过所述标注模型的分类层对所述第一编码向量进行分类,得到各所述分词对应的分类结果;
根据各所述分类结果生成对应的处理标记。
在一个实施例中,所述确定所述待处理文本中各分词对应的处理标记之前,所述方法还包括:
根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词;
所述依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本包括:
依据所述处理标记和所述第一目标词修改所述待处理文本,生成目标文本。
在一个实施例中,所述方法还包括:
根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从预设词库中确定所述分词对应的第二目标词;
所述依据所述处理标记和所述第一目标词修改所述待处理文本,生成目标文本包括:
依据所述处理标记、所述第一目标词和所述第二目标词对所述待处理文本进行修改,生成目标文本。
在一个实施例中,所述根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词包括:
根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;
基于各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
在一个实施例中,所述基于各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词包括:
对各所述待修改分词进行编码,得到对应的第一编码向量;所述第一编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;
基于所述第一编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
在一个实施例中,所述根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词包括:
根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;
基于各所述分词在所述待处理文本中的上下文信息,以及各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
在一个实施例中,所述基于各所述分词在所述待处理文本中的上下文信息,以及各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词包括:
对各所述分词进行编码,得到对应的第二编码向量;所述第二编码向量中包含所述分词在所述待处理文本中的上下文信息;
对各所述待修改分词进行编码,得到对应的第三编码向量;所述第三编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;
根据所述第二编码向量和所述第三编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
在一个实施例中,所述对各所述分词进行编码,得到对应的第二编码向量包括:
获取各所述分词对应的词向量;通过机器学习模型中的编码层对所述分词的词向量分别进行编码,得到对应的第二编码向量;
所述对各所述待修改分词进行编码,得到对应的第三编码向量包括:
获取各所述待修改分词对应的词向量;通过所述机器学习模型中的编码层对所述待修改分词的词向量分别进行编码,得到对应的第三编码向量。
在一个实施例中,所述根据所述第二编码向量和所述第三编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词包括:
通过所述机器学习模型的分类层,对所述第二编码向量和所述第三编码向量进行解码,生成属于所述关键词、且与所述待修改分词对应的第一目标词。
在一个实施例中,所述依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本包括:
当所述待修改分词在所述待处理文本中的处理标记为插入标记时,按照所述插入标记将所述第一目标词插入至所述待处理文本;
当所述待修改分词在所述待处理文本中的处理标记为替换标记时,将所述待修改分词替换为所述第一目标词。
一种文本处理装置,所述装置包括:
获取模块,用于获取阅读文本和对应的待处理文本;
提取模块,用于从所述阅读文本中提取与所述待处理文本匹配的关键词;
确定模块,用于基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记;
处理模块,用于依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取阅读文本和对应的待处理文本;
从所述阅读文本中提取与所述待处理文本匹配的关键词;
基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记;
依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取阅读文本和对应的待处理文本;
从所述阅读文本中提取与所述待处理文本匹配的关键词;
基于所述待处理文本中各分词的上下文信息,确定所述待处理文本中各分词对应的处理标记;
依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
上述文本处理方法、装置、计算机设备和存储介质,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中从阅读文本中提取关键词,文本改写模型利用该关键词对待处理文本进行改写的流程示意图;
图4为另一个实施例中文本处理方法的流程示意图;
图5为一个实施例中从阅读文本中提取关键词,文本改写模型利用该关键词对筛选后文本进行改写的流程示意图;
图6为另一个实施例中文本处理方法的流程示意图;
图7为一个实施例中从阅读文本中提取关键词,通过机器学习模型利用该关键词中的目标词对筛选后文本进行改写的流程示意图;
图8为另一个实施例中文本处理方法的流程示意图;
图9为一个实施例中从阅读文本中提取关键词,通过机器学习模型利用该关键词和预设词库中的目标词对筛选后文本进行改写的流程示意图;
图10为一个实施例中文本处理装置的结构框图;
图11为另一个实施例中文本处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。文本处理方法可应用于终端102或服务器104,当文本处理方法应用于终端102时,终端102从本地或服务器104获取阅读文本和对应的待处理文本;从阅读文本中提取与待处理文本匹配的关键词;基于关键词和待处理文本的上下文信息,确定待处理文本中各分词对应的处理标记;依据处理标记和关键词修改待处理文本,得到目标文本。然后,终端102可以将目标文本进行显示。
当文本处理方法应用于服务器104时,服务器104从本地或终端102获取阅读文本和对应的待处理文本;从阅读文本中提取与待处理文本匹配的关键词;基于关键词和待处理文本的上下文信息,确定待处理文本中各分词对应的处理标记;依据处理标记和关键词修改待处理文本,得到目标文本。然后,服务器104可以将目标文本发送至终点102进行显示。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
S202,获取阅读文本和对应的待处理文本。
其中,阅读文本可以是用于阅读的一篇或一段文章内容,该文章内容可以是各种领域的文章,如科技、体育、休闲娱乐、美食和文学等领域的文章。此外,该阅读文本也可以是具有实时性的资讯类文章,也可以是非实时性的文章。通过该阅读文本,可以用于设置提问,提问的解答内容可以从该阅读文本中查找或推导出来。
对应的,待处理文本可以是由至少一句话或一段话构成的文本,用于针对阅读文本设置提问的问答文本,对应的解答内容可以在阅读文本中查找到,或者根据阅读文本进行推导出来。
在一个实施例中,终端从本地的数据库或服务器获取阅读文本和对应的待处理文本。
在另一个实施例中,终端获取输入的任务指令,该任务指令中可以携带问题等级。终端从本地的数据库或服务器获取任务指令指定的阅读文本,并且获取与问题等级对应的待处理文本。其中,不同的问题等级,对应的待处理文本具有差异,问题等级越高,待处理文本所对应的难度系数越大。例如,针对不同年龄、学历或专业程度,为不同用户设置不同难度的问题。
在一个实施例中,对于待处理文本的获得,可以是人工设置的,也可以是由终端按照设定的规则并基于阅读文本的内容自动生成的。
S204,从阅读文本中提取与待处理文本匹配的关键词。
其中,该关键词可以是按照待处理文本从阅读文本中提取的至少一个词,或至少一个短语,或词与短语的组合。此外,该关键词也可以是一段话。
在一个实施例中,S204具体可以包括:终端对待处理文本进行分词处理,得到待处理文本中的各分词;确定各分词在阅读文本中出现的位置;在阅读文本内、且处于位置的上下文中提取关键词。
其中,分词处理可以指将连续的字序列按照预设规范重新组合成词序列的过程,从而可以得到重新组合而成的词序列。在本发明实施例中,待处理文本中的分词即为经过分词处理后重新组合而成的词序列。
在一个实施例中,终端可以按照词性对待处理文本进行分词处理,得到待处理文本中的各分词。词性可以包括但不限于名词、动词、形容词、数词、量词、代词、连词和助词等。
在另一个实施例中,终端可以按照词组或短语的形式对待处理文本进行分词处理,得到待处理文本中的各分词。例如,待处理文本为“本文的主人公Jack多大年纪了”,按照词组或短语的形式进行分词处理之后,得到“本文”、“的”、“主人公”、“Jack”、“多大年纪”和“了”等六个分词。
在一个实施例中,终端在阅读文本中查找与各分词相同的词,确定该词在阅读文本中所在的位置,然后在该位置的上文和下文中提取所有的词组和短语作为关键词。此外,终端除了在阅读文本中查找与各分词相同的词,还可以查找相近的词。
在一个实施例中,S204具体可以包括:终端计算待处理文本与阅读文本中各子文本之间的相似度;从阅读文本中各子文本,按照相似度选取目标子文本;将目标子文本中的词语作为与待处理文本匹配的关键词。
其中,上述相似度可以是语义相似度。语义相似度可以通过基于语义网络算法或基于字符串相关度算法进行计算。
在一个实施例中,终端在选取目标子文本之后,还可以获取该目标子文本的上下文文本,然后将上下文文本中的词语也作为与待处理文本匹配的关键词。例如,终端计算文章中各句子和问题之间的相似度,然后排序输出相似高(即相似度大于相似阈值)的一些句子,然后将这些句子的词以及上下文句子的词提取出来。
在一个实施例中,终端计算待处理文本的词向量,以及计算阅读文本中各子文本的词向量,然后计算待处理文本的词向量与阅读文本中各子文本的词向量之间的余弦相似度,然后将该余弦相似度作为待处理文本与阅读文本中各子文本之间的语义相似度。
其中,词向量可以是单词、词组或短语被映射到实数的向量。对于两个向量之间的余弦相似度,可以将两个向量视为空间中的两条线段,都是从原点出发指向不同的方向,两条线段之间形成一个夹角。夹角大小不同,对应的两个向量所代表的文本之间相似度存在差异,具体如下:
1)若夹角为0度,表示方向相同,对应的两个向量所代表的文本完全相等。当处于夹角0~90度时,对应的两个向量所代表的文本相似,且角度越大,相似度越小。
2)若夹角为90度,意味着形成直角,表示方向完全不相似,对应的两个向量所代表的文本完全不相等。
3)若夹角为180度,意味着方向正好相反。
因此,终端可以通过夹角的大小,来判断向量的相似程度,夹角越小表示越相似。其中,余弦相似度的表达式可以是:
其中,xi为待处理文本的词向量中的元素,yi为阅读文本中各子文本的词向量中的元素。分别将待处理文本的词向量中的元素和阅读文本中各子文本的词向量中的元素带入上式,即可得到待处理文本的词向量与阅读文本中各子文本的词向量之间的余弦相似度。
在一个实施例中,终端可以通过词向量生成模型对待处理文本中的分词和阅读文本中各子文本中的分词进行向量化处理,分别得到待处理文本中的各分词的词向量,以及阅读文本中各子文本中的各分词的词向量。
实际应用中,词向量生成模型可以是通过多次训练得到的word2vec模型(即用来产生词向量的网络模型)。如此,word2vec模型可以将待处理文本和阅读文本中子文本的各分词转化为对应的词向量,而且所得的词向量保留原始的文本中每个分词的含义。
在一个实施例中,当提取到阅读文本匹配的关键词时,终端可以对所提取的关键词进行去重处理,即在所提取的关键词中除去相同的词,若有两个或两个以上相同的词,在进行去重处理之后,只保留其中的一个。例如,提取到有两个“Jack”,则去除其中的一个词。
在一个实施例中,终端从上述的关键词中,依据待处理文本的语境确定最终用于修改待处理文本的关键词。
S206,基于待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。
其中,上下文信息可以是待处理文本中各分词在待处理文本中所表达的语义。处理标记可以是对分词进行相应文字编辑的标记,如插入(insert,i)、替换(substitute,s)、删除(delete,d)和保留(keep,k)等处理的标记。因此,在对待处理文本进行处理时,不同的处理标记对应不同的处理方式。
在一个实施例中,S206具体可以包括:终端可以将待处理文本输入标注模型,以使该标注模型基于各分词在待处理文本中的上下文信息,为待处理文本中的各分词标注上对应的处理标记。
其中,标注模型可以是自然语言处理中的标记模型,如命名体识别模型等。实际应用中,标注模型可以是CRF(Conditional Random Fields,条件随机场)单模型或是由各种神经网络单元组合的网络模型。该标注模型可以是一个独立的网络模型,也可以属于由多个子模型构建的机器学习模型(即为该机器学习模型中的一个子模型)。
例如,终端将待处理文本“本文主人公Jack多大年纪了”输入至标注模型后,通过标注模型进行数据处理,确定各个分词对应的处理标记,即分词“本文”对应删除标记“d”;分词“主人公”对应删除标记“d”;分词“Jack”对应保留标记“k”;分词“多大年纪”对应替换标记“s”;分词“了”对应保留标记“k”。
在一个实施例中,S206具体可以包括:终端获取待处理文本中各分词对应的词向量;对各分词对应的词向量进行编码,得到对应的第一编码向量;第一编码向量包含分词在待处理文本中的上下文信息;根据第一编码向量,确定对应分词的处理标记。
在一个实施例中,终端可以通过词向量生成模型对待处理文本中的分词进行向量化处理,得到待处理文本中的各分词的词向量。
在一个实施例中,对各分词对应的词向量进行编码,得到对应的第一编码向量的步骤,具体可以包括:终端将各分词对应的词向量分别输入至标注模型;通过标注模型的编码层对输入的词向量进行编码,得到对应的第一编码向量。
其中,标注模型包含有编码层和分类层。
在一个实施例中,根据第一编码向量,确定对应分词的处理标记的步骤,具体可以包括:终端通过标注模型的分类层对第一编码向量进行分类,得到各分词对应的分类结果;根据各分类结果生成对应的处理标记。
在一个实施例中,终端结合关键词和待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。终端将关键词作为影响因子与待处理文本中各分词的上下文信息一起确定处理标记,可以提高处理标记的准确性。
在一个实施例中,终端可以将关键词和待处理文本输入标注模型,以使该标注模型通过基于各分词在待处理文本中的上下文信息,以及关键词与待处理文本的各分词之间的关系,为待处理文本中的各分词标注上对应的处理标记。
S208,依据处理标记和关键词修改待处理文本,得到目标文本。
在一个实施例中,终端将处理标记和关键词对待处理文本进行修改,得到目标文本。其中,终端可以是对待处理文本中的分词进行删除、替换、保留和插入操作,可以得到目标文本。
例如,假设待处理文本为“本文主人公Jack多大年纪了”,关键词为“20岁”,终端将记为删除标记“d”的分词“本文”和“主人公”进行删除,将记为保留标记“k”的分词“Jack”和“了”进行保留,将记为替换标记“s”的词语“多大年纪”替换为词语“20岁”,从而可以得到目标文本“Jack 20岁了”。
作为一个示例,假设终端获取的阅读文本为“Jack是一名就读于XX大学的20岁大四学生,他成绩非常优秀,并且获得了多项发明专利”,待处理文本为“本文主人公Jack多大年纪了”,如图3所示,对阅读文本和待处理文本进行文本处理的过程如下:
(1)从阅读文本中提取与待处理文本匹配的关键词,从而可以得到关键词“20岁”;
(2)将待处理文本“本文主人公Jack多大年纪了”进行分词,然后对待处理文本中各分词进行向量化,然后对所得的向量xi={x1、x2、x3、...、xi}进行数据处理,从而待处理文本中各分词的上下文信息来确定各分词的处理标记;
(3)将具有处理标记的待处理文本和关键词“20岁”进行向量化,然后将所得的向量输入文本改写模型中;
(4)文本改写模型根据处理标记和关键词对待处理文本进行修改,从而得到目标文本“Jack 20岁了”。
上述文本处理方法、装置、计算机设备和存储介质,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
在一个实施例中,如图4所示,该方法还可以包括:
S402,获取阅读文本和对应的待处理文本。
S404,从阅读文本中提取与待处理文本匹配的关键词。
S406,基于待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。
上述S402-S406的步骤可以参考上述实施例中S202-S206。
S408,根据待处理文本和待处理文本中各分词对应的处理标记,从所提取的关键词中确定分词对应的第一目标词。
其中,第一目标词可以是从所提取的关键词中所确定出来的、且与待处理文本匹配的词语或短语,利用该第一目标词并按照处理标记对待处理文本进行改写,以得到所需要的目标文本。此外,第一目标词也可以是利用所提取的关键词推导出来的、且与待处理文本匹配的词语或短语,例如,提取的关键词为“去年19岁”,那么可以根据该关键词推导出第一目标词为“今年20岁”。
在一个实施例中,终端将待处理文本和待处理文本中各分词对应的处理标记输入机器学习模型中,通过机器学习模型对该待处理文本和该处理标记进行数据处理,从而从所提取的关键词中得到分词对应的第一目标词。
其中,机器学习模型可以包括标注模型和文本改写模型。
在一个实施例中,当处理标记为替换标记或插入标记时,所得到的第一目标词属于所提取的关键词中一个或多个词语(或短语)。当处理标记为保留标记时,该保留标记所对应的分词将会进行保留,并将该词也作为用于修改待处理文本的第一目标词。
例如,假设待处理文本为“本文主人公Jack多大年纪了”,提取的关键词有多个,分别为“20岁”、“大四学生”和“XX大学”。终端将待处理文本“本文主人公Jack多大年纪了”和待处理文本“本文主人公Jack多大年纪了”中各分词对应的处理标记输入至机器学习模型中,通过该机器学习模型进行处理得到各分词对应的、且属于所提取的关键词中的第一目标词。其中,记为删除标记“d”的分词“本文”和“主人公”进行删除,因此这两个分词对应的第一目标词为空,可以使用一个NULL标记来表示。记为保留标记“k”的分词“Jack”和“了”进行保留,因此这两个分词对应的第一目标词依然为“Jack”和“了”。记为替换标记“s”的词语“多大年纪”,其对应的第一目标词为“20岁”。
在一个实施例中,S408具体可以包括:终端根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;基于各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词。
其中,待修改分词是:待处理文本中对记为删除标记的分词进行删除之后所得的分词。对应地,筛选后文本是由待修改分词所构成的文本。
在一个实施例中,终端将待处理文本和待处理文本中各分词对应的处理标记输入机器学习模型中,通过机器学习模型将记为删除标记的分词从待处理文本中进行删除,得到包含有待修改分词的筛选后文本。
在一个实施例中,基于各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词的步骤,具体可以包括:终端对各待修改分词进行编码,得到对应的第一编码向量;第一编码向量中包含待修改分词在筛选后文本中的上下文信息;基于第一编码向量,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,终端通过机器学习模型中的编码层对各待修改分词进行编码,得到对应的第一编码向量。此外,终端通过机器学习模型中的分类层对第一编码向量进行解码,得到属于所提取的关键词、且与待修改分词对应的第一目标词。
例如,假设待处理文本为“本文主人公Jack多大年纪了”,将记为删除标记的分词进行删除,得到筛选后文本为“Jack多大年纪了”。假设提取的关键词有多个,分别为“20岁”、“大四学生”和“XX大学”。那么,终端将筛选后文本“Jack多大年纪了”和筛选后文本“Jack多大年纪了”中各分词对应的处理标记输入至机器学习模型中,通过该机器学习模型进行处理得到各分词对应的、且属于所提取的关键词中的第一目标词。其中,记为保留标记“k”的分词“Jack”和“了”进行保留,因此这两个分词对应的第一目标词依然为“Jack”和“了”。记为替换标记“s”的词语“多大年纪”,其对应的第一目标词为“20岁”。
S410,依据处理标记和第一目标词修改筛选后文本,生成目标文本。
在一个实施例中,终端将处理标记和第一目标词对筛选后文本进行修改,得到目标文本。
具体地,当待修改分词在筛选后文本中的处理标记为插入标记时,终端按照插入标记将第一目标词插入至筛选后文本;当待修改分词在筛选后文本中的处理标记为替换标记时,终端将待修改分词替换为第一目标词,得到目标文本。
接上例,筛选后文本为“Jack多大年纪了”,第一目标词为“20岁”,终端将记为保留标记“k”的分词“Jack”和“了”进行保留,将记为替换标记“s”的词语“多大年纪”替换为词语“20岁”,从而可以得到目标文本“Jack 20岁了”。
作为一个示例,假设终端获取的阅读文本为“Jack是一名就读于XX大学的20岁大四学生,他成绩非常优秀,并且获得了多项发明专利”,待处理文本为“本文主人公Jack多大年纪了”,如图5所示,对阅读文本和待处理文本进行文本处理的过程如下:
(1)从阅读文本中提取与待处理文本匹配的关键词,从而可以得到关键词“20岁”、“大四学生”和“XX大学”;
(2)将待处理文本“本文主人公Jack多大年纪了”进行分词,然后对待处理文本中各分词进行向量化,从而标注模型对各分词的向量xi={x1、x2、x3、...、xi}进行数据处理,以便对待处理文本中的各分词进行标注,得到各分词对应的处理标记;
其中,该处理标记包括:删除标记、替换标记、保留标记和插入标记。
(3)将记为删除标记的分词从待处理文本删除,得到筛选后文本“Jack多大年纪了”;
(4)先将筛选后文本和提取的关键词进行向量化,然后所得的向量输入文本改写模型;
(5)根据处理标记和关键词对筛选后文本进行修改,从而得到目标文本“Jack 20岁了”。
上述实施例中,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
在一个实施例中,如图6所示,该方法还可以包括:
S602,获取阅读文本和对应的待处理文本。
S604,从阅读文本中提取与待处理文本匹配的关键词。
上述S602-S604的步骤可以参考上述实施例中S202-S204。
S606,基于待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。
在一个实施例中,S606具体可以包括:终端可以将待处理文本输入机器学习模型,以使该机器学习模型通过基于各分词在待处理文本中的上下文信息,为待处理文本中的各分词标注上对应的处理标记。
在一个实施例中,S606具体可以包括:终端获取待处理文本中各分词对应的词向量;将各分词对应的词向量分别输入至机器学习模型,通过机器学习模型的第一编码层对输入的词向量进行编码,得到对应的编码向量,该编码向量包含分词在待处理文本中的上下文信息。终端通过机器学习模型的第一分类层对该编码向量进行分类,得到各分词对应的分类结果;根据各分类结果生成对应的处理标记。
在一个实施例中,终端可以结合关键词和待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。终端将关键词作为影响因子与待处理文本中各分词的上下文信息一起确定处理标记,可以提高处理标记的准确性。
S608,根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本。
其中,待修改分词是:待处理文本中对记为删除标记的分词进行删除之后所得的分词。对应地,筛选后文本是由待修改分词所构成的文本。
在一个实施例中,终端将记为删除标记的分词从待处理文本中删除,得到待修改分词,然后对待修改分词进行组合得到筛选后文本。
S610,基于各分词在待处理文本中的上下文信息,以及各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词。
其中,将提取的关键词作为词表,从该词表中确定待修改分词对应的第一目标词以对待处理文本进行修改。
在一个实施例中,S610具体可以包括:终端对各分词进行编码,得到对应的第二编码向量;第二编码向量中包含分词在待处理文本中的上下文信息;对各待修改分词进行编码,得到对应的第三编码向量;第三编码向量中包含待修改分词在筛选后文本中的上下文信息;根据第二编码向量和第三编码向量,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,上述对各分词进行编码,得到对应的第二编码向量的步骤,具体可以包括:获取各分词对应的词向量;通过机器学习模型中的编码层对分词的词向量分别进行编码,得到对应的第二编码向量。上述对各待修改分词进行编码,得到对应的第三编码向量包括:获取各待修改分词对应的词向量;通过机器学习模型中的编码层对待修改分词的词向量分别进行编码,得到对应的第三编码向量。
其中,由于各分词对应的词向量和各待修改分词对应的词向量均经过了充分编码,因此所得的第二编码向量和第三编码向量均包含了上下文信息。
在一个实施例中,终端通过机器学习模型中的第二编码层对分词的词向量分别进行编码,得到对应的第二编码向量。此外,终端通过机器学习模型中的第三编码层对待修改分词的词向量分别进行编码,得到对应的第三编码向量。
在一个实施例中,上述根据第二编码向量和第三编码向量,从所提取的关键词中确定待修改分词对应的第一目标词的步骤,具体可以包括:终端通过机器学习模型的分类层,对第二编码向量和第三编码向量进行解码,生成属于关键词、且与待修改分词对应的第一目标词。
具体地,终端通过机器学习模型的第二分类层,对第二编码向量和第三编码向量进行解码,生成属于关键词、且与待修改分词对应的第一目标词。
在一个实施例中,当处理标记为替换标记或插入标记时,所得到的第一目标词属于所提取的关键词中一个或多个词语(或短语)。当处理标记为保留标记时,该保留标记所对应的分词将会进行保留,并将该词也作为用于修改筛选后文本或修改待处理文本的第一目标词。
S612,依据处理标记和第一目标词对筛选后文本或待处理文本进行修改,生成目标文本。
在一个实施例中,S612具体可以包括:当待修改分词的处理标记为插入标记时,终端按照插入标记将第一目标词插入至待处理文本或筛选后文本。当待修改分词的处理标记为替换标记时,将待修改分词或筛选后文本替换为第一目标词,得到目标文本。
作为一个示例,假设终端获取的阅读文本为“Jack是一名就读于XX大学的20岁大四学生,他成绩非常优秀,并且获得了多项发明专利”,待处理文本为“本文主人公Jack多大年纪了”,如图7所示,对阅读文本和待处理文本进行文本处理的过程如下:
(一)第一阶段
终端将待处理文本“本文主人公Jack多大年纪了”输入机器学习模型,通过机器学习模型中的第一编码层(第一编码层属于标注模型)对待处理文本中各分词对应的词向量xi={x1、x2、x3、...、xi}进行编码,得到第一编码向量;然后,终端通过第一分类层(第一分类层属于标注模型)对该第一编码向量进行分类,从而可以得到各分词对应的处理标记y={y1、y2、y3、...、yi}。其中,机器学习模型可以包括标注模型和文本改写模型。
此外,根据该处理标记删除待处理文本中的部分分词,得到筛选后文本“Jack多大年纪了”。
(二)第二阶段
终端将待处理文本“本文主人公Jack多大年纪了”中各分词进行向量化,将所得的向量x={x1、x2、x3、...、xi}和对应的处理标记输入至机器学习模型中,通过该机器学习模型的第二编码层(第二编码层属于文本改写模型)进行处理得到各分词对应的第二编码向量。
终端将筛选后文本“Jack多大年纪了”中各待修改分词进行向量化,得到各待修改分词对应的向量x’={x’1、x’2、x’3、...、x’i},将所得的向量x’i和筛选后文本“Jack多大年纪了”中各分词对应的处理标记输入至机器学习模型中,通过该机器学习模型的第三编码层(第三编码层属于文本改写模型)进行处理得到各分词对应的第三编码向量。
终端通过机器学习模型的第二分类层(第二分类层属于文本改写模型)对第二编码向量和第三编码向量进行解码,生成第一目标词。
其中,记为删除标记“d”的分词“本文”和“主人公”进行删除,因此这两个分词对应的第一目标词为空,可以使用一个NULL标记来表示。记为保留标记“k”的分词“Jack”和“了”进行保留,因此这两个分词对应的第一目标词依然为“Jack”和“了”。记为替换标记“s”的词语“多大年纪”,其对应的第一目标词为“20岁”。
终端根据处理标记和第一目标词对待处理文本或筛选后文本进行修改,从而得到目标文本“Jack 20岁了”。
上述实施例中,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本或筛选后文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
在一个实施例中,如图8所示,该方法还可以包括:
S802,获取阅读文本和对应的待处理文本。
S804,从阅读文本中提取与待处理文本匹配的关键词。
上述S802-S804的步骤可以参考上述实施例中S202-S204。
S806,基于待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记。
S808,根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本。
S810,基于各分词在待处理文本中的上下文信息,以及各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词。
上述S806-S810的步骤可以参考上述实施例中S606-S610。
S812,根据待处理文本和待处理文本中各分词对应的处理标记,从预设词库中确定分词对应的第二目标词。
其中,将所提取的关键词和预设词库作为本实施例对待处理文本进行处理的词表。由于参考的词表相对上述实施例的词表有变化,对应的标记也可能对应发生变化,即待处理文本中的分词“本文”和“主人公”对应删除标记“d”;分词“Jack”对应插入标记“k”;分词“多大年纪”对应替换标记“s”;分词“了”对应保留标记“k”。
在一个实施例中,终端根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;基于各分词在待处理文本中的上下文信息,以及各待修改分词在筛选后文本中的上下文信息,从预设词库中确定待修改分词对应的第一目标词。
在一个实施例中,上述基于各分词在待处理文本中的上下文信息,以及各待修改分词在筛选后文本中的上下文信息,从预设词库中确定待修改分词对应的第一目标词的步骤,具体可以包括:终端对待处理文本中各分词进行编码,得到对应的第二编码向量;第二编码向量中包含分词在待处理文本中的上下文信息;对各待修改分词进行编码,得到对应的第三编码向量;第三编码向量中包含待修改分词在筛选后文本中的上下文信息;根据第二编码向量和第三编码向量,从预设词库中确定分词对应的第二目标词。
S814,依据处理标记、第一目标词和第二目标词对待处理文本进行修改,生成目标文本。
在一个实施例中,S814具体可以包括:当待修改分词的处理标记为插入标记时,终端按照插入标记将第一目标词或第二目标词插入至待处理文本或筛选后文本。当待修改分词的处理标记为替换标记时,将待修改分词或筛选后文本替换为第一目标词或第二目标词,得到目标文本。
作为一个示例,假设终端获取的阅读文本为“Jack是一名就读于XX大学的20岁大四学生,他成绩非常优秀,并且获得了多项发明专利”,待处理文本为“本文主人公Jack多大年纪了”,如图9所示,对阅读文本和待处理文本进行文本处理的过程如下:
(一)第一阶段
终端将待处理文本“本文主人公Jack多大年纪了”进行向量化,得到各分词对应的向量x={x1、x2、x3、...、xi},将所得的向量x输入机器学习模型,通过机器学习模型中的第一编码层(第一编码层属于标注模型)对待处理文本中各分词对应的词向量进行编码,得到第一编码向量;然后,终端通过第一分类层(第一分类层属于标注模型)对该第一编码向量进行分类,从而可以得到各分词对应的处理标记y={y1、y2、y3、...、yi}。
其中,机器学习模型可以包括标注模型和文本改写模型。
此外,根据该处理标记删除待处理文本中的部分分词,得到筛选后文本“Jack多大年纪了”。
(二)第二阶段
终端将待处理文本“本文主人公Jack多大年纪了”中各分词进行向量化,得到各分词对应的向量x={x1、x2、x3、...、xi},然后将向量x和各分词对应的处理标记输入至机器学习模型中,通过该机器学习模型的第二编码层(第二编码层属于文本改写模型)进行处理得到各分词对应的第二编码向量。
终端将筛选后文本“Jack多大年纪了”中各待修改分词进行向量化,得到各待修改分词对应的向量x’={x’1、x’2、x’3、...、x’i},然后将向量x’和筛选后文本“Jack多大年纪了”中各分词对应的处理标记输入至机器学习模型中,通过该机器学习模型的第三编码层(第三编码层属于文本改写模型)进行处理得到各分词对应的第三编码向量。
终端通过机器学习模型的第二分类层(第二分类层属于文本改写模型)对第二编码向量和第三编码向量进行解码,生成第一目标词。其中,记为删除标记“d”的分词“本文”和“主人公”进行删除,因此这两个分词对应的第一目标词为空,可以使用一个NULL标记来表示。记为插入标记“k”的分词“Jack”以及记为保留标记的分词“了”进行保留,因此分词“Jack”被保留下来,而且其后还插入“今年”。记为替换标记“s”的词语“多大年纪”,其对应的第一目标词为“20岁”。
终端根据处理标记、第一目标词和第二目标词对待处理文本或筛选后文本进行修改,从而得到目标文本“Jack今年20岁了”。
上述实施例中,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本或筛选后文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
应该理解的是,虽然图2、4、6和8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、4、6和8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1002、提取模块1004、确定模块1006和处理模块1008,其中:
获取模块1002,用于获取阅读文本和对应的待处理文本;
提取模块1004,用于从阅读文本中提取与待处理文本匹配的关键词;
确定模块1006,用于基于待处理文本中各分词的上下文信息,确定待处理文本中各分词对应的处理标记;
处理模块1008,用于依据处理标记和关键词修改待处理文本,得到目标文本。
在一个实施例中,提取模块1004,还用于:对待处理文本进行分词处理,得到待处理文本中的各分词;确定各分词在阅读文本中出现的位置;在阅读文本内、且处于位置的上下文中提取关键词。
在一个实施例中,提取模块1004,还用于:计算待处理文本与阅读文本中各子文本之间的相似度;从阅读文本中各子文本,按照相似度选取目标子文本;将目标子文本中的词语作为与待处理文本匹配的关键词。
在一个实施例中,如图11所示,该装置还可以包括:去重模块1010;其中:
去重模块1010,用于对所提取出的关键词进行去重处理,得到去重后的关键词。
在一个实施例中,确定模块1006,还用于获取待处理文本中各分词对应的词向量;对各分词对应的词向量进行编码,得到对应的第一编码向量;第一编码向量包含分词在待处理文本中的上下文信息;根据第一编码向量,确定对应分词的处理标记。
在一个实施例中,确定模块1006,还用于将各分词对应的词向量分别输入至标注模型;通过标注模型的编码层对输入的词向量进行编码,得到对应的第一编码向量。
在一个实施例中,确定模块1006,还用于通过标注模型的分类层对第一编码向量进行分类,得到各分词对应的分类结果;根据各分类结果生成对应的处理标记。
在一个实施例中,确定模块1006,还用于根据待处理文本和待处理文本中各分词对应的处理标记,从所提取的关键词中确定分词对应的第一目标词;
处理模块1008,还用于依据处理标记和第一目标词修改待处理文本,生成目标文本。
在一个实施例中,确定模块1006,还用于根据待处理文本和待处理文本中各分词对应的处理标记,从预设词库中确定分词对应的第二目标词;
处理模块1008,还用于依据处理标记、第一目标词和第二目标词对待处理文本进行修改,生成目标文本。
在一个实施例中,确定模块1006,还用于根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;
基于各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,确定模块1006,还用于对各待修改分词进行编码,得到对应的第一编码向量;第一编码向量中包含待修改分词在筛选后文本中的上下文信息;基于第一编码向量,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,确定模块1006,还用于根据分词对应的处理标记删除待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;基于各分词在待处理文本中的上下文信息,以及各待修改分词在筛选后文本中的上下文信息,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,确定模块1006,还用于对各分词进行编码,得到对应的第二编码向量;第二编码向量中包含分词在待处理文本中的上下文信息;对各待修改分词进行编码,得到对应的第三编码向量;第三编码向量中包含待修改分词在筛选后文本中的上下文信息;根据第二编码向量和第三编码向量,从所提取的关键词中确定待修改分词对应的第一目标词。
在一个实施例中,确定模块1006,还用于获取各分词对应的词向量;通过机器学习模型中的编码层对分词的词向量分别进行编码,得到对应的第二编码向量;获取各待修改分词对应的词向量;通过机器学习模型中的编码层对待修改分词的词向量分别进行编码,得到对应的第三编码向量。
在一个实施例中,确定模块1006,还用于通过机器学习模型的分类层,对第二编码向量和第三编码向量进行解码,生成属于关键词、且与待修改分词对应的第一目标词。
在一个实施例中,处理模块1008,还用于当待修改分词在待处理文本中的处理标记为插入标记时,按照插入标记将第一目标词插入至待处理文本;当待修改分词在待处理文本中的处理标记为替换标记时,将待修改分词替换为第一目标词。
上述实施例中,从阅读文本中提取与待处理文本匹配的关键词,然后利用待处理文本的上下文信息确定所处理文本中各分词对应的处理标记,依据该处理标记和关键词修改待处理文本或筛选后文本,从而不仅可以获得对应于待处理文本的目标文本,还可以无需重新生成全新的目标文本,降低了文本处理过程中计算量,提高了文本处理效率。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种文本处理方法,所述方法包括:
获取阅读文本和对应的待处理文本;
从所述阅读文本中提取与所述待处理文本匹配的关键词;
获取所述待处理文本中各分词对应的词向量;对各所述分词对应的词向量进行编码,得到对应的第一编码向量;所述第一编码向量包含所述分词在所述待处理文本中的上下文信息;对所述第一编码向量进行分类得到各所述分词对应的分类结果;根据各所述分类结果生成对应的处理标记;
依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述从所述阅读文本中提取与所述待处理文本匹配的关键词包括:
对所述待处理文本进行分词处理,得到所述待处理文本中的各分词;
确定各所述分词在所述阅读文本中出现的位置;
在所述阅读文本内、且处于所述位置的上下文中提取关键词。
3.根据权利要求1所述的方法,其特征在于,所述从所述阅读文本中提取与所述待处理文本匹配的关键词包括:
计算所述待处理文本与所述阅读文本中各子文本之间的相似度;
从所述阅读文本中各子文本,按照所述相似度选取目标子文本;
将所述目标子文本中的词语作为与所述待处理文本匹配的关键词。
4.根据权利要求1所述的方法,其特征在于,所述获取阅读文本和对应的待处理文本包括:
获取输入的任务指令,所述任务指令中携带问题等级;
从本地的数据库或服务器获取所述任务指令指定的阅读文本;
获取与所述问题等级对应的待处理文本。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述分类结果生成对应的处理标记之后,所述方法还包括:
根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词;
所述依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本包括:
依据所述处理标记和所述第一目标词修改所述待处理文本,生成目标文本。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从预设词库中确定所述分词对应的第二目标词;
所述依据所述处理标记和所述第一目标词修改所述待处理文本,生成目标文本包括:
依据所述处理标记、所述第一目标词和所述第二目标词对所述待处理文本进行修改,生成目标文本。
7.根据权利要求5所述的方法,其特征在于,所述根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词包括:
根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;
基于各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
8.根据权利要求7所述的方法,其特征在于,所述基于各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词包括:
对各所述待修改分词进行编码,得到对应的第四编码向量;所述第四编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;
基于所述第四编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
9.根据权利要求5所述的方法,其特征在于,所述根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词包括:
根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;
基于各所述分词在所述待处理文本中的上下文信息,以及各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
10.根据权利要求9所述的方法,其特征在于,所述基于各所述分词在所述待处理文本中的上下文信息,以及各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词包括:
对各所述分词进行编码,得到对应的第二编码向量;所述第二编码向量中包含所述分词在所述待处理文本中的上下文信息;
对各所述待修改分词进行编码,得到对应的第三编码向量;所述第三编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;
根据所述第二编码向量和所述第三编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
11.根据权利要求10所述的方法,其特征在于,所述对各所述分词进行编码,得到对应的第二编码向量包括:
获取各所述分词对应的词向量;通过机器学习模型中的编码层对所述分词的词向量分别进行编码,得到对应的第二编码向量;
所述对各所述待修改分词进行编码,得到对应的第三编码向量包括:
获取各所述待修改分词对应的词向量;通过所述机器学习模型中的编码层对所述待修改分词的词向量分别进行编码,得到对应的第三编码向量。
12.根据权利要求7至11任一项所述的方法,其特征在于,所述依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本包括:
当所述待修改分词在所述待处理文本中的处理标记为插入标记时,按照所述插入标记将所述第一目标词插入至所述待处理文本;
当所述待修改分词在所述待处理文本中的处理标记为替换标记时,将所述待修改分词替换为所述第一目标词。
13.一种文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取阅读文本和对应的待处理文本;
提取模块,用于从所述阅读文本中提取与所述待处理文本匹配的关键词;
确定模块,用于获取所述待处理文本中各分词对应的词向量;对各所述分词对应的词向量进行编码,得到对应的第一编码向量;所述第一编码向量包含所述分词在所述待处理文本中的上下文信息;对所述第一编码向量进行分类得到各所述分词对应的分类结果;根据各所述分类结果生成对应的处理标记;
处理模块,用于依据所述处理标记和所述关键词修改所述待处理文本,得到目标文本。
14.根据权利要求13所述的装置,其特征在于,所述提取模块,还用于对所述待处理文本进行分词处理,得到所述待处理文本中的各分词;确定各所述分词在所述阅读文本中出现的位置;在所述阅读文本内、且处于所述位置的上下文中提取关键词。
15.根据权利要求13所述的装置,其特征在于,所述提取模块,还用于计算所述待处理文本与所述阅读文本中各子文本之间的相似度;从所述阅读文本中各子文本,按照所述相似度选取目标子文本;将所述目标子文本中的词语作为与所述待处理文本匹配的关键词。
16.根据权利要求13所述的装置,其特征在于,所述获取模块,还用于获取输入的任务指令,所述任务指令中携带问题等级;从本地的数据库或服务器获取所述任务指令指定的阅读文本;获取与所述问题等级对应的待处理文本。
17.根据权利要求13所述的装置,其特征在于,所述确定模块,还用于根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从所提取的关键词中确定所述分词对应的第一目标词;
所述处理模块,还用于依据所述处理标记和所述第一目标词修改所述待处理文本,生成目标文本。
18.根据权利要求17所述的装置,其特征在于,所述确定模块,还用于根据所述待处理文本和所述待处理文本中各分词对应的处理标记,从预设词库中确定所述分词对应的第二目标词;
所述处理模块,还用于依据所述处理标记、所述第一目标词和所述第二目标词对所述待处理文本进行修改,生成目标文本。
19.根据权利要求17所述的装置,其特征在于,所述确定模块,还用于根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;基于各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
20.根据权利要求19所述的装置,其特征在于,所述确定模块,还用于对各所述待修改分词进行编码,得到对应的第四编码向量;所述第四编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;基于所述第四编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
21.根据权利要求17所述的装置,其特征在于,所述确定模块,还用于根据所述分词对应的处理标记删除所述待处理文本中的部分分词,得到包含有待修改分词的筛选后文本;基于各所述分词在所述待处理文本中的上下文信息,以及各所述待修改分词在所述筛选后文本中的上下文信息,从所提取的关键词中确定所述待修改分词对应的第一目标词。
22.根据权利要求21所述的装置,其特征在于,所述确定模块,还用于对各所述分词进行编码,得到对应的第二编码向量;所述第二编码向量中包含所述分词在所述待处理文本中的上下文信息;对各所述待修改分词进行编码,得到对应的第三编码向量;所述第三编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;根据所述第二编码向量和所述第三编码向量,从所提取的关键词中确定所述待修改分词对应的第一目标词。
23.根据权利要求22所述的装置,其特征在于,所述确定模块,还用于获取各所述分词对应的词向量;通过机器学习模型中的编码层对所述分词的词向量分别进行编码,得到对应的第二编码向量;获取各所述待修改分词对应的词向量;通过所述机器学习模型中的编码层对所述待修改分词的词向量分别进行编码,得到对应的第三编码向量。
24.根据权利要求19至23任一项所述的装置,其特征在于,所述处理模块,还用于当所述待修改分词在所述待处理文本中的处理标记为插入标记时,按照所述插入标记将所述第一目标词插入至所述待处理文本;当所述待修改分词在所述待处理文本中的处理标记为替换标记时,将所述待修改分词替换为所述第一目标词。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
26.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157587.2A CN112749251B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157587.2A CN112749251B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749251A CN112749251A (zh) | 2021-05-04 |
CN112749251B true CN112749251B (zh) | 2023-10-31 |
Family
ID=75645467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010157587.2A Active CN112749251B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749251B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648027B (zh) * | 2022-05-23 | 2022-09-30 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304364A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109670029A (zh) * | 2018-12-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 用于确定问题答案的方法、装置、计算机设备及存储介质 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
KR20190143415A (ko) * | 2018-06-20 | 2019-12-30 | 강원대학교산학협력단 | 자질 선별을 통한 고성능 기계독해 방법 |
CN110837734A (zh) * | 2019-11-14 | 2020-02-25 | 维沃移动通信有限公司 | 文本信息处理方法、移动终端 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017511914A (ja) * | 2014-01-28 | 2017-04-27 | ゾモル・ツォルツィン・ゲーエムベーハーSomol Zorzin GmbH | テキストの意味を自動検出して一義性を自動測定する方法 |
JP5963328B2 (ja) * | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
US11055745B2 (en) * | 2014-12-10 | 2021-07-06 | Adobe Inc. | Linguistic personalization of messages for targeted campaigns |
-
2020
- 2020-03-09 CN CN202010157587.2A patent/CN112749251B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304364A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
KR20190143415A (ko) * | 2018-06-20 | 2019-12-30 | 강원대학교산학협력단 | 자질 선별을 통한 고성능 기계독해 방법 |
CN109271624A (zh) * | 2018-08-23 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
CN109670029A (zh) * | 2018-12-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 用于确定问题答案的方法、装置、计算机设备及存储介质 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110837734A (zh) * | 2019-11-14 | 2020-02-25 | 维沃移动通信有限公司 | 文本信息处理方法、移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN112749251A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN112084337A (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN108038106B (zh) | 一种基于上下文语义的细粒度领域术语自学习方法 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN115982403B (zh) | 一种多模态哈希检索方法及装置 | |
CN112580362A (zh) | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN111444715A (zh) | 实体关系识别方法、装置、计算机设备和存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN115204156A (zh) | 关键词提取方法及装置 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN112749251B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN117271724A (zh) | 一种基于大模型和语义图谱的智能问答实现方法及系统 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043504 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |