CN111401032A - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111401032A CN111401032A CN202010156931.6A CN202010156931A CN111401032A CN 111401032 A CN111401032 A CN 111401032A CN 202010156931 A CN202010156931 A CN 202010156931A CN 111401032 A CN111401032 A CN 111401032A
- Authority
- CN
- China
- Prior art keywords
- text
- participle
- rewritten
- word
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000001914 filtration Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 198
- 230000011218 segmentation Effects 0.000 claims description 66
- 238000002372 labelling Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 abstract description 33
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 19
- 239000003550 marker Substances 0.000 description 9
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 230000002452 interceptive effect Effects 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取包括至少两个文本分词的原始文本;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。本方法涉及人工智能技术领域,采用本方案能够提高文本处理过程中的处理效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。而自然语言处理(Nature Language processing,NLP)是人工智能技术中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术常常被应用于文章自动摘要、文本自动纠错、机器阅读理解、文本优化等文本处理领域。
在传统的文本处理方案中,通常是将原始文本输入至序列到序列(seq2seq)模型,然后逐词输出一个全新的对应于原始文本的目标文本。可以看出,在对原始文本进行文本处理时,每次都需要生成一个全新的目标文本,这使得文本处理效率不高。
因此,目前的自然语言处理技术在进行文本处理时存在效率不高的问题。
发明内容
基于此,有必要针对目前的自然语言处理技术在进行文本改写时存在效率不高的问题,提供一种能够提高的文本处理效率的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
一种文本处理装置,所述装置包括:
获取模块,用于获取原始文本;所述原始文本包括至少两个文本分词;
标注模块,用于基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
过滤模块,用根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
确定模块,用根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
编辑模块,用于根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
上述文本处理方法、装置、计算机设备和存储介质,通过获取包括至少两个文本分词的原始文本,并基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;然后,再根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;如此,在减少了原始文本中的冗余数据,使得到的精简文本在保留有原始文本原来携带的语义信息具有较小的数据量,便于后续可以准确且快速地根据精简文本中的各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词,从而可以根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,快速地生成改写后文本,实现了直接在原始文本的基础上对原始文本进行改写以生成改写后文本而无需重新逐词生成一个全新文本,降低了文本处理过程中的处理数据量,提高文本处理过程中的处理效率。
附图说明
图1为一个实施例中一种文本处理方法的应用环境图;
图2为一个实施例中一种文本处理方法的流程示意图;
图3为一个实施例中一种文本处理方法的场景示意图;
图4为一个实施例中一种文本改写系统的应用环境图;
图5A为一个实施例中一种应用于摘要提取场景的交互界面示意图;
图5B为一个实施例中一种应用于文本纠错场景的交互界面示意图;
图6为一个实施例中一种文本处理方法的编辑标记生成过程的流程示意图;
图7为另一个实施例中一种文本处理方法的流程示意图;
图8为一个实施例中一种标注模型的网络结构示意图;
图9为一个实施例中另一种文本处理方法的流程示意图;
图10为另一个实施例中另一种文本处理方法的流程示意图;
图11为一个实施例中一种文本改写模型的网络结构示意图;
图12为一个实施例中一种文本处理装置的结构框图;
图13为一个实施例中一种文本处理装置中的标注模块的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,计算机设备110首先获取原始文本;原始文本包括至少两个文本分词;然后,计算机设备110基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;再然后,计算机设备110根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到精简文本;精简文本包括至少两个待改写文本分词;再然后,计算机设备110根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词;最后,计算机设备110根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的计算机设备110为例进行说明,包括以下步骤:
步骤202,获取原始文本;原始文本包括至少两个文本分词。
其中,原始文本可以是指未经过基于人工智能的文本处理的文本。
其中,原始文本包括至少两个的词语。例如,原始文本可以是一句话、由多句话组成的一段话、由多段话组成的一篇文章等。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
实际应用中,原始文本可以是需要进行翻译的文本、需要进行提炼摘要的文本、需要进行文本纠错的文本和需要进行机器阅读理解的文本等。
具体实现中,当用户需要对原始文本进行文本处理(例如需要对原始文本进行提炼摘要)时,用户可以将原始文本录入至计算机设备110中,以使计算机设备110获取原始文本。
步骤204,基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式。
其中,上下文信息可以是指词语在原始文本中语意对应的信息。
其中,编辑方式可以是指在对词语进行文本编辑过程中的改写方式。实际应用中,编辑方式可以但不限于是插入编辑(insert,i)、替换编辑(substitute,s)、删除编辑(delete,d)和保留编辑(keep,k)等。
具体实现中,当计算机设备110在获取到原始文本后,计算机设备110可以获取原始文本中的各个文本分词在原始文本中的上下文信息,并基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑标记。具体来说,计算机设备110在获取到原始文本后,计算机设备110可以将原始文本输入预训练的编辑标记标注模型,以使该编辑标记标注模型通过基于各个文本分词在原始文本中的上下文信息,为各个文本分词标注上对应的编辑标记,进而确定各个文本分词对应的编辑方式。
其中,编辑标记标注模型可以是自然语言处理中的标记模型,如命名体识别模型等。实际应用中,编辑标记标注模型可以是常见的crf单模型或是由各种神经网络单元组合出来的模型。
例如,计算机设备110将原始文本“主人公Jack是一名二十多岁的男性”输入至编辑标记标注模型后,通过编辑标记标注模型的数据处理,确定各个词语对应的编辑标记即词语“主人公”对应的编辑标记为删除标记“d”;词语“Jack”对应的编辑标记为保留标记“k”;词语“是”对应的编辑标记为保留标记“k”;词语“二十多岁的”对应的编辑标记为替换标记“s”;词语“一名”对应的编辑标记为删除标记“d”;词语“男性”对应的编辑标记为插入标记“i”。因此,各个文本分词对应的编辑方式分别为:文本分词“主人公”“一名”的编辑方式为删除编辑,文本分词“Jack”、“是”的编辑方式为保留编辑,文本分词“二十多岁”的编辑方式为替换编辑,文本分词“男性”的编辑方式为插入编辑,
步骤206,根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到精简文本;精简文本包括至少两个待改写文本分词。
其中,精简文本可以使至经过过滤处理的原始文本。
具体实现中,计算机设备110根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本。
具体来说,计算机设备110在原始文本中,在原始文本中,将编辑方式为删除编辑的文本分词进行删除操作,得到精简文本。
接上例,计算机设备110可以在原始文本“主人公Jack是一名二十多岁的男性”中,将编辑方式为删除编辑的文本分词如文本分词“主人公”“一名”等词语进行删除操作,得到精简文本“Jack是二十多岁的男性”。其中,待改写文本分词分别为“Jack”、“是”、“二十多岁的”和“男性”。
步骤208,根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词。
其中,目标文本分词可以是指对待改写文本分词进行编辑操作时使用到的文本分词。
实际应用中,针对编辑方式为替换编辑的待改写文本分词,该待改写文本分词的目标文本分词为用于对该待改写文本分词进行替换的文本分词即目标替换文本分词。针对编辑方式为插入编辑的待改写文本分词,该待改写文本分词的目标文本分词为用于对该待改写文本分词进行插入的文本分词即目标插入文本分词。
具体来说,计算机设备110可以将精简文本输入至预训练的目标词生成模型,以使该目标词生成模型进行数据处理,确定确定各个待改写文本分词对应的目标文本分词。。
接上例,计算机设备110可以将精简文本“Jack是二十多岁的男性”中的各个待改写文本分词“Jack”、“是”、“二十多岁的”和“男性”,分别输入至预训练的目标词生成模型进行处理后,确定各个待改写文本分词对应的目标文本分词即得到编辑标记为保留标记“k”的文本分词“Jack”,由于需要进行保留操作,其对应的目标文本分词也为文本分词“Jack”;同理,编辑标记为保留标记“k”的文本分词“是”,其对应的目标文本分词也为文本分词“是”;编辑标记为替换标记“s”的文本分词“二十多岁的”,其对应的目标文本分词也为文本分词“年轻”;编辑标记为插入标记“i”的文本分词“男性”,其对应的目标文本分词也为文本分词“的”。
步骤210,根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本。
具体实现中,当计算机设备110根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本。
再接上例,计算机设备110在原始文本“Jack是二十多岁的男性”的基础上,将编辑标记为保留标记“k”的词语如“Jack”“是”进行保留,将编辑标记为保留标记“s”的词语“二十多岁的”替换为词语“年轻”;将编辑标记为插入标记“i”的词语的前方插入目标词语,如在词语“的”作为词语“男性”的前一个词语,从而得到改写后文本“Jack是年轻的男性”。
为了便于本领域技术人员的理解,如图3所示,提供了一种文本处理方法的场景示意图:其中,将原始文本“主人公Jack是一名二十多岁的男性”至文本改写模型中,以使文本改写模型基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到精简文本;精简文本包括至少两个待改写文本分词;根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词;根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本“Jack是年轻的男性”。
图4提供一种文本改写系统,其中,该文本改写系统包括用户终端410和文本改写服务器420;其中,用户终端410可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,文本改写服务器420可以用独立的服务器或者是多个服务器组成的服务器集群来实现。实际应用中,当用户需要获取原始文本对应的改写后文本时,用户可以在用户终端410向文本改写服务器420发送原始文本;当文本改写服务器420接收到原始文本后,文本改写服务器420基于原始文本中的各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词精简文本;并根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词;根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本,并将改写后文本发送至用户终端410,以供用户终端410进行接收。
上述的文本处理方法可以应用于摘要提取场景,为了便于本领域技术人员的理解,图5A提供了一种应用于摘要提取场景的交互界面示意图;其中,510为原始文本输入框,520为摘要提取确认控件,530为摘要文本框。实际应用中,当用户原始文本“主人公Jack是一名二十多岁的男性”对应的摘要时,用户可以通过用户终端410将原始文本“主人公Jack是一名二十多岁的男性”录入至交互界面中的原始文本输入框510中,然后,用户对交互界面中的摘要提取确认控件520进行触发操作,例如,点击摘要提取确认控件等。用户终端410响应用户针对摘要提取确认控件的触发操作,将原始文本发送至文本改写服务器420,以供文本改写服务器420进行接收,当文本改写服务器420接收到原始文本后,文本改写服务器420基于原始文本中的各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词精简文本;并根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词;根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本即原始文本对应的摘要“Jack是一位青年男性”;并将改写后文本发送至用户终端410,以供用户终端410进行接收。在用户终端410接收到改写后文本后,用户终端410根据改写后文本生成并在交互界面中的展示摘要文本框530。其中,摘要文本框530包括改写后文本对应的文本内容即“Jack是一位青年男性”。
上述的文本处理方法还可以应用于文本纠错场景,为了便于本领域技术人员的理解,图5B提供了一种应用于文本纠错场景的交互界面示意图;其中,540为原始文本输入框,550为文本纠错确认控件,560为纠错后文本框。实际应用中,当用户待纠错文本即原始文本“这位是刘先生,他它是我们的同是”进行纠错时,用户可以通过用户终端710将原始文本“这位是刘先生,他它是我们的同是”录入至交互界面中的原始文本输入框540中,然后,用户对交互界面中的文本纠错确认控件550进行触发操作,例如,点击文本纠错确认控件等。用户终端710响应用户针对文本纠错确认控件的触发操作,将原始文本发送至文本改写服务器720,以供文本改写服务器720进行接收,当文本改写服务器720接收到原始文本后,文本改写服务器720基于原始文本中的各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词精简文本;并根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词;根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本即原始文本对应的纠错后文本“这位是刘先生,他是我们的同事”;并将改写后文本发送至用户终端710,以供用户终端710进行接收。在用户终端710接收到改写后文本后,用户终端710根据改写后文本生成并在交互界面中的展示纠错后文本框560;其中,纠错后文本框560包括改写后文本对应的文本内容即“这位是刘先生,他是我们的同事”。
上述文本处理方法,通过获取包括至少两个文本分词的原始文本,并基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;然后,再根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;如此,在减少了原始文本中的冗余数据,使得到的精简文本在保留有原始文本原来携带的语义信息具有较小的数据量,便于后续可以准确且快速地根据精简文本中的各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词,从而可以根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,快速地生成改写后文本,实现了直接在原始文本的基础上对原始文本进行改写以生成改写后文本而无需重新逐词生成一个全新文本,降低了文本处理过程中的处理数据量,提高文本处理过程中的处理效率。
在一个实施例中,如图6所示,基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式的过程中,包括如下步骤:S602,获取每个文本分词对应的词向量;S604,对每个文本分词对应的词向量进行解码处理,确定每个文本分词对应的第一文本解码向量;第一文本解码向量包括文本分词在原始文本中的上下文信息;S606,根据每个文本分词对应的第一文本解码向量,确定每个文本分词对应的编辑方式。
其中,第一文本解码向量包括文本分词在原始文本中的上下文信息。
具体实现中,计算机设备110在基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式的过程中,具体包括如下步骤:计算机设备110首先获取每个文本分词对应的词向量;然后,计算机设备110对每个文本分词对应的词向量进行解码处理,确定每个文本分词对应的第一文本解码向量;具体来说,计算机设备110可以将由每个文本分词对应的词向量构成的原始文本向量,输入至预训练的第一神经网络模型;通过该第一神经网络模型的解码层,按序对原始文本向量中的每个文本分词对应的词向量进行解码处理,进而得到每个文本分词对应的第一文本解码向量;最后,计算机设备110再通过该第一神经网络模型的分类层,根据每个文本分词对应的第一文本解码向量,确定每个文本分词对应的编辑方式。
本实施例的技术方案,通过获取每个文本分词对应的词向量,并将对每个文本分词对应的词向量进行解码处理,从而使得到的每个文本分词对应的第一文本解码向量可以准确地携带着对应文本分词在原始文本中的上下文信息,进而便于后续可以根据每个文本分词对应的第一文本解码向量,实现准确地基于各个文本分词在原始文本中的上下文信息,确定每个文本分词对应的编辑方式。
在一个实施例中,获取每个文本分词对应的词向量,包括:对原始文本的文本内容进行分词处理,得到文本分词结果;对文本分词结果中的各个文本分词进行向量化处理,确定每个文本分词对应的词向量。
其中,文本分词结果包括各个待进行向量化处理的文本分词。
具体实现中,计算机设备110在获取每个文本分词对应的词向量的过程中,具体包括如下步骤:计算机设备110对原始文本的文本内容进行分词处理,得到文本分词结果;最后,计算机设备110对文本分词结果中的各个文本分词进行向量化处理,确定每个文本分词对应的词向量。具体地,计算机设备110可以文本分词结果中的各个文本分词输入至预训练的词向量生成模型,通过该词向量生成模型,对每个文本分词进行向量化处理,输出每个文本分词对应的词向量。
实际应用中,词向量生成模型可以是基于上亿次query(一种机器训练方法)预训练得到的word2vec模型(一群用来产生词向量的相关模型)。如此,word2vec模型可以在保留原始文本中每个文本分词的含义的同时将原始文本中每个文本分词转化为对应的词向量。
本实施例的技术方案,在获取每个文本分词对应的词向量的过程中,通过对原始文本的文本内容进行分词处理,得到文本分词结果;并对文本分词结果中的各个文本分词进行向量化处理,从而可以在保留原始文本中每个文本分词的含义的同时将每个文本分词转化为对应的词向量,便于计算机设备数据处理,提高了文本处理过程中的处理效率。
在一个实施例中,对每个文本分词对应的词向量进行解码处理,确定每个文本分词对应的第一文本解码向量,包括:将每个文本分词对应的词向量按序输入至预训练的标注模型;通过标注模型的解码层,依次对每个文本分词对应的词向量进行解码,得到每个文本分词对应的第一文本解码向量。
其中,预训练的标注模型是基于对预设的神经网络进行训练得到的。其中,标注模型包括编码层和分类层。
具体实现中,计算机设备110在对每个文本分词对应的词向量进行解码处理,确定每个文本分词对应的第一文本解码向量的过程中,具体包括如下步骤:计算机设备110将每个文本分词对应的词向量按照其在原始文本中的文本分词顺序,输入至预训练的标注模型。然后,计算机设备110通过标注模型中的解码层,依次对每个文本分词对应的词向量进行解码,得到每个文本分词对应的第一文本解码向量。
本实施例的技术方案,在对每个文本分词对应的词向量进行解码处理,确定每个文本分词对应的第一文本解码向量过程中,通过将每个文本分词对应的词向量按序输入至预训练的标注模型;通过标注模型的解码层,可以快速且准确地对每个文本分词对应的词向量进行解码,使得得到每个文本分词对应的第一文本解码向量均可以准确地表达出每个文本分词在原始文本中的上下文信息。
在一个实施例中,根据根据每个所述文本分词对应的第一文本解码向量,确定每个所述文本分词对应的编辑方式,包括:将每个文本分词对应的第一文本解码向量输入至标注模型的分类层;通过标注模型的分类层,对每个文本分词对应的第一文本解码向量进行分类,得到每个文本分词对应的分类结果;根据每个文本分词对应的分类结果,生成每个文本分词对应的编辑标记。
具体实现中,计算机设备110在根据每个文本分词对应的第一文本解码向量,确定每个文本分词对应的编辑标记的过程中,具体包括如下步骤:计算机设备110在确定将每个文本分词对应的第一文本解码向量输入至标注模型的分类层;通过标注模型的分类层,计算机设备110对每个文本分词对应的第一文本解码向量进行分类,得到每个文本分词对应的分类结果;最后,计算机设备110再根据每个文本分词对应的分类结果,生成每个文本分词对应的编辑标记,进而确定每个文本分词对应的编辑方式。
具体来说,假设编辑标记具有插入(insert,i)标记、替换(substitute,s)标记、删除(delete,d)标记和保留(keep,k)标记四种,计算机设备110则通过标注模型的分类层,对每个文本分词对应的第一文本解码向量进行四分类操作,确定出每个文本分词的编辑标记分别为插入标记、替换标记、删除标记和保留标记对应的概率值即每个文本分词对应的分类结果;最后,计算机设备110再根据每个文本分词对应的分类结果,生成每个文本分词对应的编辑标记,进而确定每个文本分词对应的编辑方式。
本实施例的技术方案,在根据每个文本分词对应的第一文本解码向量,确定每个文本分词对应的编辑标记的过程中,通过将每个文本分词对应的第一文本解码向量输入至标注模型的分类层;通过标注模型的分类层,准确且快速地基于每个文本分词在原始文本中的上下文信息,对每个文本分词对应的编辑方式进行准确且快速地分类,确定每个文本分词对应的编辑方式。
如图7所示,在另一个实施例中,提供了一种文本处理方法。参照图5,该信息处理方法具体包括如下步骤;步骤S702,获取原始文本;所述原始文本包括至少两个文本分词。步骤S704,对所述原始文本的文本内容进行分词处理,得到文本分词结果。步骤S706,对所述文本分词结果中的各个文本分词进行向量化处理,确定每个所述文本分词对应的词向量。步骤S708,将每个所述文本分词对应的词向量按序输入至预训练的标注模型。步骤S710,通过所述标注模型的解码层,依次对每个所述文本分词对应的词向量进行解码,得到每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息。步骤S712,将每个所述文本分词对应的第一文本解码向量输入至所述标注模型的分类层,并通过所述标注模型的分类层,对每个所述文本分词对应的第一文本解码向量进行分类,得到每个所述文本分词对应的分类结果。步骤S714,根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑方式。步骤S716,根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词。步骤S718,根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词。步骤S720,根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
为了便于本领域技术人员的理解,图8提供了一种标注模型的网络结构示意图;其中,标注模型包括编码层和分类层,xi为原始文本中的第i个词语,yi为原始文本中的第i个词语对应的编辑标记。实际应用中,计算机设备110将原始文本中的每个词语x对应的词向量按序输入至预训练的标注模型;通过标注模型的解码层,依次对每个词语x对应的词向量进行解码,得到每个词语x对应的第一文本解码向量;然后,将每个词语x对应的第一文本解码向量输入至标注模型的分类层;通过标注模型的分类层,对每个词语x对应的第一文本解码向量进行分类,得到每个词语x对应的分类结果;根据每个词语x对应的分类结果,生成每个词语对应的编辑标记y。
如图9所示,在一个实施例中,提供了另一种文本处理方法。参照图9,该信息处理方法具体包括如下步骤;步骤S902,获取原始文本;所述原始文本包括至少两个文本分词。步骤S904,基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式。步骤S906,在所述原始文本中,将所述编辑方式为删除编辑的文本分词进行删除操作,得到精简文本;所述精简文本包括至少两个待改写文本分词。步骤S908,根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词。步骤S910,根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词,包括:获取每个待改写文本分词对应的第二文本解码向量;第二文本解码向量包括待改写文本分词在精简文本中的上下文信息;根据第二文本解码向量,生成各个待改写文本分词对应的目标文本分词。其中,在根据第二文本解码向量,生成各个待改写文本分词对应的目标文本分词的过程中,具体包括:获取每个文本分词对应的第一文本解码向量;第一文本解码向量包括文本分词在原始文本中的上下文信息;根据第一文本解码向量和第二文本解码向量,生成各个待改写文本分词对应的目标文本分词。
具体实现中,计算机设备110在根据各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词的过程中,具体包括如下步骤:计算机设备110获取每个待改写文本分词对应的包括有待改写文本分词在精简文本中的上下文信息的第二文本解码向量;最后;计算机设备110再根据第二文本解码向量,生成各个待改写文本分词对应的目标文本分词。
具体来说,计算机设备110可以精简文本中的各个待改写文本分词的词向量,输入至预训练的第二神经网络模型;通过该第二神经网络模型的解码层,按序对筛选后文本中的各个待改写文本分词对应的词向量进行解码处理,进而得到每个待改写文本分词对应的第二文本解码向量。
其中,计算机设备110在根据第二文本解码向量,生成各个待改写文本分词对应的目标文本分词的过程中,具体包括:计算机设备110获取每个文本分词对应的第一文本解码向量;第一文本解码向量包括文本分词在原始文本中的上下文信息;再通过该第二神经网络模型的分类层,根据每个词语对应的第一文本解码向量和每个待改写文本分词对应的第二文本解码向量,生成各个待改写文本分词对应的目标词语。
需要说明的是,针对计算机设备110获取每个词语对应的第一文本解码向量的步骤的具体限定,可以参见上文对一种文本处理方法的具体限定,在此不再赘述。
本实施例的技术方案,通过获取每个词语对应的包括有该词语在原始文本中的上下文信息的第一文本解码向量,以及,获取每个待改写文本分词对应的包括有该词语在筛选后文本中的上下文信息的第二文本解码向量;便于后续准确地生成各个待改写文本分词对应的目标词语。
在一个实施例中,获取每个待改写文本分词对应的第二文本解码向量,包括:将每个待改写文本分词对应的词向量按序输入至预训练的词语生成模型;通过词语生成模型的解码层,依次对每个待改写文本分词对应的词向量进行解码,得到每个待改写文本分词对应的第二文本解码向量。
其中,预训练的词语生成模型是基于对预设的神经网络进行训练得到的。其中,标注模型包括编码层和分类层。
具体实现中,计算机设备110在获取每个待改写文本分词对应的第二文本解码向量的过程中,具体包括如下步骤:计算机设备110将每个待改写文本分词对应的词向量按照其在筛选后文本中的词语顺序,输入至预训练的词语生成模型。然后,计算机设备110通过词语生成模型的解码层,依次对每个待改写文本分词对应的词向量进行解码,得到每个待改写文本分词对应的第二文本解码向量。
本实施例的技术方案,在获取每个待改写文本分词对应的第二文本解码向量的过程中,通过词语生成模型的解码层,依次对每个词语对应的词向量进行解码,得到每个待改写文本分词对应的第二文本解码向量,使得每个待改写文本分词对应的第二文本解码向量可以准确地表达出每个待改写文本分词在筛选后文本中的上下文信息。
在一个实施例中,根据所述第一文本解码向量和所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词,包括:将第一文本解码向量和第二文本解码向量输入至词语生成模型的分类层;通过词语生成模型的分类层,对第一文本解码向量和第二文本解码向量进行编码,生成每个待改写文本分词对应的目标文本分词。
具体实现中,计算机设备110在根据第一文本解码向量和第二文本解码向量,生成各个待改写文本分词对应的目标文本分词的过程中,具体包括如下步骤:计算机设备110在得到词语生成模型的解码层输出的每个待改写文本分词对应的第二文本解码向量之后,计算机设备110将第一文本解码向量和第二文本解码向量输入至词语生成模型的分类层;通过词语生成模型的分类层,对第一文本解码向量和第二文本解码向量进行编码,进而生成每个待改写文本分词对应的目标文本分词。
本实施例的技术方案,在根据第一文本解码向量和第二文本解码向量,生成各个待改写文本分词对应的目标文本分词的过程中,通过将第一文本解码向量和第二文本解码向量输入至词语生成模型的分类层;通过词语生成模型的分类层,准确且快速地基于筛选后文本中的各个待改写文本分词在筛选后文本中上下文信息和各个文本分词在原始文本中的上下文信息,对第一文本解码向量和第二文本解码向量进行编码,生成每个待改写文本分词对应的目标文本分词。
如图10所示,在另一个实施例中,提供了另一种文本处理方法。参照图10,该信息处理方法具体包括如下步骤;步骤S1002,获取原始文本;所述原始文本包括至少两个文本分词。步骤S1004,基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式。步骤S1006,根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词。步骤S1008,将每个所述待改写文本分词对应的词向量按序输入至预训练的词语生成模型。步骤S1010,通过所述词语生成模型的解码层,依次对每个所述待改写文本分词对应的词向量进行解码,得到每个所述待改写文本分词对应的第二文本解码向量;所述第二文本解码向量包括所述待改写文本分词在所述精简文本中的上下文信息。步骤S1012,获取每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息。步骤S1014,将所述第一文本解码向量和所述第二文本解码向量输入至所述词语生成模型的分类层。步骤S1016,通过所述词语生成模型的分类层,对所述第一文本解码向量和所述第二文本解码向量进行编码,生成每个所述待改写文本分词对应的目标文本分词。步骤S1018,根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本,包括:.当待改写文本分词的编辑方式为插入编辑时,则将目标文本分词作为待改写文本分词的前一个分词,插入至精简文本;当待改写文本分词的编辑方式为替换编辑时,则在精简文本中,将待改写文本分词替换为目标文本分词。
具体实现中,计算机设备110在根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,得到改写后文本的过程中,具体包括:当计算机设备110确定待改写文本分词在原始文本中的编辑方式为插入编辑时,则将目标文本分词作为待改写文本分词的前一个分词,插入至精简文本;;当计算机设备110确定待改写文本分词在原始文本中的编辑方式为替换编辑时,则在精简文本中,将待改写文本分词替换为目标文本分词。
例如,已知精简文本为“Jack是一名男性”,当计算机设备110确定待改写文本分词“男性”在原始文本中的编辑标记为插入标记时,则将其对应的目标文本分词“青年”作为待改写文本分词的前一个文本分词,插入至精简文本;当计算机设备110确定待改写文本分词“一名”在原始文本中的编辑标记为替换标记时,则待改写文本分词“一名”替换为目标文本分词“一位”,进而得到目标文本“Jack是一位青年男性”。
本实施例的技术方案,在根据词语对应的目标词语和词语对应的编辑标记,对原始文本进行编辑操作,生成目标文本的过程中,在当待改写文本分词的编辑方式为插入编辑时,则将目标文本分词作为待改写文本分词的前一个分词,插入至精简文本;当待改写文本分词的编辑方式为替换编辑时,则在精简文本中,将待改写文本分词替换为目标文本分词,如此在基于原始文本的基础上,对精简文本进行快速且准确地修改输出改写后文本,进而提高了文本处理过程中的处理效率。
应该理解的是,虽然图2、图6、图7和图9和图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图6、图7和图9和图10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
为了便于本领域技术人员的理解,图11提供了一种文本改写模型的网络结构示意图;其中,该文本改写模型包括处于第一阶段的标注模型,以及,处于第二阶段的文本分词生成模型;其中,该标注模型包括第一编码层和第一分类层;实际应用中,计算机设备110将原始文本中的每个文本分词x对应的词向量按序输入至预训练的标注模型;通过标注模型的第一解码层,依次对每个文本分词x对应的词向量进行解码,得到每个文本分词x对应的第一文本解码向量;然后,将每个文本分词x对应的第一文本解码向量输入至标注模型的第一分类层;通过标注模型的第一分类层,对每个文本分词x对应的第一文本解码向量进行分类,得到每个文本分词x对应的分类结果;根据每个文本分词x对应的分类结果,生成每个文本分词对应的编辑标记y。然后,计算机设备110在根据每个文本分词对应的编辑标记y,对原始文本中的每个文本分词x进行删除和保留操作,得到精简文本;例如,假设x1、x2、和x3各自对应的编辑标记分别为删除标记、保留标记和替换标记,计算机设备110对x1进行删除操作,即得到的x'1就是空的词,可以用一个NULL标记来表示;计算机设备110对x2,得到的x'2是不变的,即x2,同理,不对x3进行删除操作,得到x'3也是不变的,即x3。由于精简文本的词均需要进行编辑,因此精简文本的各个文本分词命名为待改写文本分词x';再然后,计算机设备110将精简文本中的各个待改写文本分词x'输入至预训练的词语生成模型,通过词语生成模型的第二解码层,依次对每个待改写文本分词x'对应的词向量进行解码,得到每个待改写文本分词x'对应的第二文本解码向量;再然后,计算机设备110将每个待改写文本分词x'对应的第二文本解码向量和标注模型的第一解码层输出的每个文本分词x对应的第一文本解码向量,输入至词语生成模型的第二分类层,进而得到各个待改写文本分词对应的目标文本分词y';从而供计算机设备110根据待改写文本分词x'对应的目标文本分词y'和待改写文本分词x'对应的编辑标记y,对精简文本进行编辑操作,生成改写后文本。
在一个实施例中,如图12所示,提供了一种文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1210、标注模块1220、过滤模块1230、确定模块1240和编辑模块1250,其中:
获取模块1210,用于获取原始文本;所述原始文本包括至少两个文本分词;
标注模块1220,用于基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
过滤模块1230,用于根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
确定模块1240,用于根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
编辑模块1250,用于根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
上述的文本处理装置,通过获取包括至少两个文本分词的原始文本,并基于各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑方式;然后,再根据各个文本分词对应的编辑方式,对原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;如此,在减少了原始文本中的冗余数据,使得到的精简文本在保留有原始文本原来携带的语义信息具有较小的数据量,便于后续可以准确且快速地根据精简文本中的各个待改写文本分词在精简文本中的上下文信息,确定各个待改写文本分词对应的目标文本分词,从而可以根据各个待改写文本分词对应的编辑方式和各个待改写文本分词对应的目标文本分词,对精简文本进行编辑操作,快速地生成改写后文本,实现了直接在原始文本的基础上对原始文本进行改写以生成改写后文本而无需重新逐词生成一个全新文本,降低了文本处理过程中的处理数据量,提高文本处理过程中的处理效率。
在其中一个实施例中,如图13所示,上述的标注模块1220,包括:词向量获取子模块1310,用于获取每个所述词语对应的词向量;解码子模块1320,用于对每个所述词语对应的词向量进行解码处理,确定每个所述词语对应的第一文本解码向量;所述第一文本解码向量包括所述词语在所述原始文本中的上下文信息;标记子模块1330,用于根据每个所述词语对应的第一文本解码向量,确定每个所述词语对应的编辑标记。
在其中一个实施例中,上述的词向量获取子模块1310,具体用于对所述原始文本的文本内容进行分词处理,得到文本分词结果;对所述文本分词结果中的各个文本分词进行向量化处理,确定每个所述文本分词对应的词向量。
在其中一个实施例中,上述的解码子模块1320,具体用于将每个所述文本分词对应的词向量按序输入至预训练的标注模型;通过所述标注模型的解码层,依次对每个所述文本分词对应的词向量进行解码,得到每个所述文本分词对应的第一文本解码向量。
在其中一个实施例中,上述的标记子模块1330,具体用于将每个所述文本分词对应的第一文本解码向量输入至所述标注模型的分类层;通过所述标注模型的分类层,对每个所述文本分词对应的第一文本解码向量进行分类,得到每个所述文本分词对应的分类结果;根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑方式。
在其中一个实施例中,上述的过滤模块1230,具体用于在所述原始文本中,将所述编辑方式为删除编辑的文本分词进行删除操作,得到所述精简文本。
在其中一个实施例中,上述的确定模块1240,具体用于获取每个所述待改写文本分词对应的第二文本解码向量;所述第二文本解码向量包括所述待改写文本分词在所述精简文本中的上下文信息;根据所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词。
在其中一个实施例中,上述的确定模块1240,具体用于获取每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息;根据所述第一文本解码向量和所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词。
在其中一个实施例中,上述的确定模块1240,具体用于将每个所述待改写文本分词对应的词向量按序输入至预训练的词语生成模型;通过所述词语生成模型的解码层,依次对每个所述待改写文本分词对应的词向量进行解码,得到每个所述待改写文本分词对应的第二文本解码向量。
在其中一个实施例中,上述的确定模块1240,具体用于将所述第一文本解码向量和所述第二文本解码向量输入至所述词语生成模型的分类层;通过所述词语生成模型的分类层,对所述第一文本解码向量和所述第二文本解码向量进行编码,生成每个所述待改写文本分词对应的目标文本分词。
在其中一个实施例中,上述的编辑模块1250,具体用于当所述待改写文本分词的编辑方式为插入编辑时,则将所述目标文本分词作为所述待改写文本分词的前一个分词,插入至所述精简文本;当所述待改写文本分词的编辑方式为替换编辑时,则在所述精简文本中,将所述待改写文本分词替换为所述目标文本分词。
关于一种文本处理装置的具体限定可以参见上文中对于一种文本处理方法的限定,在此不再赘述。上述一种文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始文本数据、编辑标记数据、目标词语数据和目标文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种一种文本处理方法。
在一个实施例中,提供了另一种计算机设备,该计算机设备也可以是终端,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14和图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种文本处理方法,所述方法包括:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
2.根据权利要求1所述的方法,其特征在于,所述基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式,包括:
获取每个所述文本分词对应的词向量;
对每个所述文本分词对应的词向量进行解码处理,确定每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息;
根据每个所述文本分词对应的第一文本解码向量,确定每个所述文本分词对应的编辑方式。
3.根据权利要求2所述的方法,其特征在于,所述获取每个所述文本分词对应的词向量,包括:
对所述原始文本的文本内容进行分词处理,得到文本分词结果;
对所述文本分词结果中的各个文本分词进行向量化处理,确定每个所述文本分词对应的词向量。
4.根据权利要求2所述的方法,其特征在于,所述对每个所述文本分词对应的词向量进行解码处理,确定每个所述文本分词对应的第一文本解码向量,包括:
将每个所述文本分词对应的词向量按序输入至预训练的标注模型;
通过所述标注模型的解码层,依次对每个所述文本分词对应的词向量进行解码,得到每个所述文本分词对应的第一文本解码向量。
5.根据权利要求4所述的方法,其特征在于,所述根据每个所述文本分词对应的第一文本解码向量,确定每个所述文本分词对应的编辑方式,包括:
将每个所述文本分词对应的第一文本解码向量输入至所述标注模型的分类层;
通过所述标注模型的分类层,对每个所述文本分词对应的第一文本解码向量进行分类,得到每个所述文本分词对应的分类结果;
根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑方式。
6.根据权利要求1所述的方法,其特征在于,所述根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本,包括:
在所述原始文本中,将所述编辑方式为删除编辑的文本分词进行删除操作,得到所述精简文本。
7.根据权利要求1所述的方法,其特征在于,所述根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词,包括:
获取每个所述待改写文本分词对应的第二文本解码向量;所述第二文本解码向量包括所述待改写文本分词在所述精简文本中的上下文信息;
根据所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词,包括:
获取每个所述文本分词对应的第一文本解码向量;所述第一文本解码向量包括所述文本分词在所述原始文本中的上下文信息;
根据所述第一文本解码向量和所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词。
9.根据权利要求8所述的方法,其特征在于,所述获取每个所述待改写文本分词对应的第二文本解码向量,包括:
将每个所述待改写文本分词对应的词向量按序输入至预训练的词语生成模型;
通过所述词语生成模型的解码层,依次对每个所述待改写文本分词对应的词向量进行解码,得到每个所述待改写文本分词对应的第二文本解码向量。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一文本解码向量和所述第二文本解码向量,生成各个所述待改写文本分词对应的目标文本分词,包括:
将所述第一文本解码向量和所述第二文本解码向量输入至所述词语生成模型的分类层;
通过所述词语生成模型的分类层,对所述第一文本解码向量和所述第二文本解码向量进行编码,生成每个所述待改写文本分词对应的目标文本分词。
11.根据权利要求1所述的方法,其特征在于,所述根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本,包括:.
当所述待改写文本分词的编辑方式为插入编辑时,则将所述目标文本分词作为所述待改写文本分词的前一个分词,插入至所述精简文本;
当所述待改写文本分词的编辑方式为替换编辑时,则在所述精简文本中,将所述待改写文本分词替换为所述目标文本分词。
12.一种文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取原始文本;所述原始文本包括至少两个文本分词;
标注模块,用于基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
过滤模块,用于根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
确定模块,用于根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
编辑模块,用于根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010156931.6A CN111401032B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010156931.6A CN111401032B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401032A true CN111401032A (zh) | 2020-07-10 |
CN111401032B CN111401032B (zh) | 2023-10-27 |
Family
ID=71434118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010156931.6A Active CN111401032B (zh) | 2020-03-09 | 2020-03-09 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401032B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022174804A1 (zh) * | 2021-02-20 | 2022-08-25 | 北京有竹居网络技术有限公司 | 文本简化方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358519A1 (en) * | 2013-06-03 | 2014-12-04 | Xerox Corporation | Confidence-driven rewriting of source texts for improved translation |
US20160350652A1 (en) * | 2015-05-29 | 2016-12-01 | North Carolina State University | Determining edit operations for normalizing electronic communications using a neural network |
CN106341304A (zh) * | 2015-07-09 | 2017-01-18 | 广州市动景计算机科技有限公司 | 信息的纠正方法、系统及装置 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
US20190311031A1 (en) * | 2018-04-09 | 2019-10-10 | Microsoft Technology Licensing, Llc | Techniques for automatic proofing of textual data |
CN110765733A (zh) * | 2019-10-24 | 2020-02-07 | 科大讯飞股份有限公司 | 一种文本规整方法、装置、设备及存储介质 |
-
2020
- 2020-03-09 CN CN202010156931.6A patent/CN111401032B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358519A1 (en) * | 2013-06-03 | 2014-12-04 | Xerox Corporation | Confidence-driven rewriting of source texts for improved translation |
US20160350652A1 (en) * | 2015-05-29 | 2016-12-01 | North Carolina State University | Determining edit operations for normalizing electronic communications using a neural network |
CN106341304A (zh) * | 2015-07-09 | 2017-01-18 | 广州市动景计算机科技有限公司 | 信息的纠正方法、系统及装置 |
US20190311031A1 (en) * | 2018-04-09 | 2019-10-10 | Microsoft Technology Licensing, Llc | Techniques for automatic proofing of textual data |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
CN110765733A (zh) * | 2019-10-24 | 2020-02-07 | 科大讯飞股份有限公司 | 一种文本规整方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022174804A1 (zh) * | 2021-02-20 | 2022-08-25 | 北京有竹居网络技术有限公司 | 文本简化方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111401032B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059320B (zh) | 实体关系抽取方法、装置、计算机设备和存储介质 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN113157863A (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
CN112231563A (zh) | 一种内容推荐方法、装置及存储介质 | |
CN113536735A (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN114840869A (zh) | 基于敏感度识别模型的数据敏感度识别方法及装置 | |
CN112270184A (zh) | 自然语言处理方法、装置及存储介质 | |
CN113449528A (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
CN110377910B (zh) | 一种表格描述的处理方法、装置、设备及存储介质 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN111401032A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN111159424B (zh) | 标注知识图谱实体的方法,装置,存储介质及电子设备 | |
CN117725220A (zh) | 文档表征和文档检索的方法、服务器及存储介质 | |
CN117131222A (zh) | 基于开放世界大模型的半自动化标注方法和装置 | |
CN112749251B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN112528674B (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN112149389A (zh) | 简历信息结构化处理方法、装置、计算机设备和存储介质 | |
CN117544822B (zh) | 一种视频剪辑自动化方法和系统 | |
CN111353282B (zh) | 模型训练、文本改写方法、装置和存储介质 | |
CN112287184B (zh) | 基于神经网络的迁移标注方法、装置、设备及存储介质 | |
CN112380860B (zh) | 句子向量处理方法、句子匹配方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |