CN112084766B - 文本处理方法和装置、存储介质和处理器 - Google Patents

文本处理方法和装置、存储介质和处理器 Download PDF

Info

Publication number
CN112084766B
CN112084766B CN201910505497.5A CN201910505497A CN112084766B CN 112084766 B CN112084766 B CN 112084766B CN 201910505497 A CN201910505497 A CN 201910505497A CN 112084766 B CN112084766 B CN 112084766B
Authority
CN
China
Prior art keywords
sentences
model
text
smooth
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910505497.5A
Other languages
English (en)
Other versions
CN112084766A (zh
Inventor
罗维
陈博兴
黄非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910505497.5A priority Critical patent/CN112084766B/zh
Publication of CN112084766A publication Critical patent/CN112084766A/zh
Application granted granted Critical
Publication of CN112084766B publication Critical patent/CN112084766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本处理方法和装置、存储介质和处理器。其中,该方法包括:确定待处理的语句;采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果,其中,文本顺滑模型是采用带不顺滑标注的语料训练的模型;对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果,其中,语言模型为采用流利语句的语料训练的模型。本发明解决了由于标注数据有限造成的文本顺滑效果较差的技术问题。

Description

文本处理方法和装置、存储介质和处理器
技术领域
本发明涉及文本处理技术领域,具体而言,涉及一种文本处理方法和装置、存储介质和处理器。
背景技术
自动语音识别得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解任务(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅且规范的文本上进行训练的。文本顺滑任务的目的就是要识别出speaker话中自带的不流畅现象。随着语音识别技术的不断普及,将会产生大量的含有不流畅现象的文本,顺滑任务的作用也会越来越突出。
例如以下句子,例1:原始句子:这个呢我在一五年的时候呢已经开始做这个事情。顺滑结果:我在一五年的时候已经开始做这个事情。例2:原始句子:我喜欢,呃,我非常喜欢这样东西。顺滑结果:我非常喜欢这样东西。例3:原始句子:这辆汽车有4个轮胎,呃,不对,有6个轮胎。顺滑结果:这辆汽车有6个轮胎。
例1中的“这个”,“呢”属于不顺滑语言现象中的口头禅和语气词,例2和例3是不顺滑语言现象中自我纠正(restart)类型的例子。Restarts类型是顺滑任务中难处理的类型,因为restarts类型的短语长度不固定,出现的位置比较灵活,甚至会出现嵌套的结构。因此,顺滑相关的研究主要集中restarts类型的处理上。传统的文本顺滑模型是基于序列标注模型来做统计建模,即把不顺滑的词作为正类,把顺滑的词作为负类,在有标注的数据上训练统计模型,得到的模型就可以对一个输入句子,给识别出的不顺滑的词打上正类的标签,否则会标为负类的标签。然而,相关技术中的方法主要集中在10万量级的标注数据量上进行模型优化,10万量级的数据量很难覆盖口语表达中灵活多样的语言现象,这会给语音识别产品及其扩展产品的用户体验带来较大的负面影响。
在使用大量正式的流利的语料方面,在相关技术中,它从半监督学习的角度,给流利的语料加入不顺滑的噪声,并通过对抗学习的技术提高顺滑模型的鲁棒性。该方案有2点不足:1)需要修改顺滑模型的实现,而且模型训练的成本增加数倍,模型调试的难度也增大很多;2)实验结果显示,当流利句子的语料规模达到一定数目时效果不能继续提高,而这与希望使用海量的流利句子的语料的初衷不大相符。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法和装置、存储介质和处理器,以至少解决由于标注数据有限造成的文本顺滑效果较差的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型。
进一步地,采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果包括:采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;计算每个处理后的语句的流利度得分;基于每个处理后的语句的流利度得分,确定目标数量的语句;将所述目标数量的语句作为所述语句对应的顺滑结果。
进一步地,对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果包括:采用所述语言模型对目标数量的语句重新计算流利度得分;基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;将所述目标语句作为所述语句对应的最终的顺滑结果。
进一步地,基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句包括:基于所述流利度得分由高到低对所述目标数量的语句进行排序,将排在第一位的语句作为所述目标语句。
进一步地,所述方法还包括:在采用文本顺滑模型对所述语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;对所述第一目标数量的带不顺滑标注的语句的语料进行训练,得到所述文本顺滑模型。
进一步地,所述方法还包括:在对所述顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,所述第二目标数量大于所述第一目标数量;对所述第二目标数量的流利语句的语料进行训练,得到所述语言模型。
进一步地,所述文本顺滑模型为序列标注模型,所述序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
进一步地,所述语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
根据本发明实施例的一个方面,提供了一种文本处理装置,包括:确定单元,用于确定待处理的语句;第一处理单元,用于采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;第二处理单元,用于对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型。
进一步地,所述第一处理单元包括:处理模块,用于采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;第一计算模块,用于计算每个处理后的语句的流利度得分;第一确定模块,用于根据每个处理后的语句的流利度得分,确定目标数量的语句;第二确定模块,用于将所述目标数量的语句作为所述语句对应的顺滑结果。
根据本发明实施例的一个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的文本处理方法。
根据本发明实施例的一个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的文本处理方法。
在本发明实施例中,采用使用海量的流利句子语料得到一个效果良好的语言模型,并基于该语言模型,给文本顺滑模型的输出结果进行排序,得到最终的顺滑结果的方式,通过确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型,达到了保证最终的顺滑结果质量的目的,从而实现了提升文本顺滑效果的技术效果,进而解决了由于标注数据有限造成的文本顺滑效果较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例的提供的文本处理方法的流程图;
图3是根据本发明实施例的提供的可选的文本处理方法的示意图;
图4是根据本发明实施例的提供的文本处理装置的示意图;
图5是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
文本顺滑:识别口语表达的文本中不流利部分的文本并去文本中的不流利部分。
语言模型:评估句子流利度的模型,比如count based language model、neuralnetwork language model等。
重新排序:对上游模块输出的多个结果,使用模型或者策略进行重新排序的方法。
实施例1
根据本发明实施例,提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的文本处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Control ler,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的文本处理方法。图2是根据本发明实施例一的文本处理方法的流程图。
步骤101,确定待处理的语句。
例如,在口语表达中有一句:我想订一张明天去杭州的机票,哦,不对,是订后天去杭州的火车票。在语音识别产品中将“我想订一张明天去杭州的机票,哦,不对,是订后天去杭州的火车票”作为待处理的语句。
步骤102,采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果,其中,文本顺滑模型是采用带不顺滑标注的语料训练的模型。
上述的文本顺滑模型是采用带不顺滑标注的语料训练的模型,例如,带不顺滑标注的语料中包括:语句:这个呢我在一五年的时候呢已经开始做这个事情。标注不顺滑的地方如加粗部分所示:这个呢我在一五年的时候呢已经开始做这个事情。顺滑后语句为:我在一五年的时候已经开始做这个事情。
也即,将待处理的语句输入至文本顺滑模型,输出结果即为顺滑后的语句。输出结果可以为nbest/latt ice的顺滑结果,需要说明的是:latt ice是一种数据压缩存储结构,它能够以少量的存储开销存放较多的输出结果。
步骤103,对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果,其中,语言模型为采用流利语句的语料训练的模型。
对文本顺滑模型的输出结果,使用语言模型进行排序,并得到最终的顺滑结果。通过上述步骤,达到了保证最终的顺滑结果质量的目的,从而实现了提升文本顺滑效果的技术效果,本申请提供的文本处理方法不用修改文本顺滑模型,也不用重新训练文本顺滑模型,并且可以使用到全量的海量的流利数据,这种数据可以覆盖各种各样的语言现象,这会帮助得到一个效果良好的语言模型,从而保证最终的顺滑结果质量。
综上,在本申请提供的文本处理方法中,采用使用海量的流利句子语料得到一个效果良好的语言模型,并基于该语言模型,给文本顺滑模型的输出结果进行排序,得到最终的顺滑结果的方式,通过确定待处理的语句;采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果,其中,文本顺滑模型是采用带不顺滑标注的语料训练的模型;对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果,其中,语言模型为采用流利语句的语料训练的模型,达到了保证最终的顺滑结果质量的目的,从而实现了提升文本顺滑效果的技术效果,进而解决了由于标注数据有限造成的文本顺滑效果较差的技术问题。
可选地,在本申请实施例提供的文本处理方法中,采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果包括:采用文本顺滑模型对语句进行处理,得到多个处理后的语句;计算每个处理后的语句的流利度得分;基于每个处理后的语句的流利度得分,确定目标数量的语句;将目标数量的语句作为语句对应的顺滑结果。
例如,待处理的语句为:我想订一张明天去杭州的机票,哦,不对,是订后天去杭州的火车票。采用文本顺滑模型进行处理后,得到多个处理后的语句,例如:语句1:我想订一张明天去杭州的机票,是订后天去杭州的火车票。语句2:我想订一张明天去杭州的机票,不对,是订后天去杭州的火车票。语句3:我是订后天去杭州的火车票。语句4:我想订一张后天去杭州的火车票。分别计算语句1、语句2、语句3和语句4的流利度得分,将流利度得分前2名的语句输出作为顺滑结果。
可选地,在本申请实施例提供的文本处理方法中,对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果包括:采用语言模型对目标数量的语句重新计算流利度得分;基于每个处理后的语句的流利度得分,对目标数量的语句进行排序,以确定目标语句;将目标语句作为语句对应的最终的顺滑结果。
例如,文本顺滑模型的输出结果,也即语句对应的顺滑结果为语句3和语句4,采用语言模型对语句3和语句4重新计算流利度得分,基于语句3和语句4的流利度得分对语句3和语句4进行排序,确定目标语句为语句4。将语句4作为最终的顺滑结果。
可选地,在本申请实施例提供的文本处理方法中,基于每个处理后的语句的流利度得分,对目标数量的语句进行排序,以确定目标语句包括:基于流利度得分由高到低对目标数量的语句进行排序,将排在第一位的语句作为目标语句。
例如,采用语言模型对语句3和语句4重新计算流利度得分,基于语句3和语句4的流利度得分由高到低对语句3和语句4进行排序,排序后语句4排在第一位,语句3排在第二位,将语句4作为目标语句。
可选地,在本申请实施例提供的文本处理方法中,该方法还包括:在采用文本顺滑模型对语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;对第一目标数量的带不顺滑标注的语句的语料进行训练,得到文本顺滑模型。在对顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,第二目标数量大于第一目标数量;对第二目标数量的流利语句的语料进行训练,得到语言模型。
如图3所示,在采用文本顺滑模型对语句进行处理之前,以及在对顺滑结果使用语言模型进行排序处理之前,是处于训练阶段,采用少量带不顺滑标注的语料进行有监督学习,生成文本顺滑模型。采用海量流利语句的语料进行无监督学习,生成语言模型。在语音识别产品进行翻译语言的预测阶段,文本顺滑模型对待处理语句输出nbest/lattice的顺滑结果,对文本顺滑模型的输出结果采用语言模型进行排序后,输出最终的顺滑结果。
可选地,在本申请实施例提供的文本处理方法中,文本顺滑模型为序列标注模型,序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
在上述方案中,文本顺滑模型可以是任意的序列标注模型,比如条件随机场算法crf,循环神经网络rnn,卷积神经网络cnn,自注意力机制self attention,rnn和crf,selfattention和crf等各种序列标注模型。
可选地,在本申请实施例提供的文本处理方法中,语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
在上述方案中,语言模型可以是任意的语言模型,比如count-based ngramlanguage model,或者基于MLP、RNN、BERT等神经网络结构的neural network languagemodel。
本申请实施例提供的文本处理方法可以应用在演讲、会议、直播等场景的语音识别产品及其扩展的产品,比如语音翻译、自动会议纪要等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例中文本处理的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本处理方法的装置,如图4所示,该装置包括:确定单元401、第一处理单元402和第二处理单元403。
具体地,确定单元401,用于确定待处理的语句;
第一处理单元402,用于采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果,其中,文本顺滑模型是采用带不顺滑标注的语料训练的模型;
第二处理单元403,用于对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果,其中,语言模型为采用流利语句的语料训练的模型。
本申请实施例提供的文本处理装置,通过确定单元401确定待处理的语句;第一处理单元402采用文本顺滑模型对语句进行处理,得到语句对应的顺滑结果,其中,文本顺滑模型是采用带不顺滑标注的语料训练的模型;第二处理单元403对顺滑结果使用语言模型进行排序处理,得到语句对应的最终的顺滑结果,其中,语言模型为采用流利语句的语料训练的模型,达到了保证最终的顺滑结果质量的目的,从而实现了提升文本顺滑效果的技术效果,进而解决了由于标注数据有限造成的文本顺滑效果较差的技术问题。
可选地,在本申请实施例提供的文本处理装置中,第一处理单元402包括:处理模块,用于采用文本顺滑模型对语句进行处理,得到多个处理后的语句;第一计算模块,用于计算每个处理后的语句的流利度得分;第一确定模块,用于根据每个处理后的语句的流利度得分,确定目标数量的语句;第二确定模块,用于将目标数量的语句作为语句对应的顺滑结果。
可选地,在本申请实施例提供的文本处理装置中,第二处理单元403包括:第二计算模块,用于采用语言模型对目标数量的语句重新计算流利度得分;第三确定模块,用于根据每个处理后的语句的流利度得分,对目标数量的语句进行排序,以确定目标语句;第四确定模块,用于将目标语句作为语句对应的最终的顺滑结果。
可选地,在本申请实施例提供的文本处理装置中,第三确定模块还基于流利度得分由高到低对目标数量的语句进行排序,将排在第一位的语句作为目标语句。
可选地,在本申请实施例提供的文本处理装置中,该装置还包括:第一获取单元,用于在采用文本顺滑模型对语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;第一训练单元,用于对第一目标数量的带不顺滑标注的语句的语料进行训练,得到文本顺滑模型。
可选地,在本申请实施例提供的文本处理装置中,该装置还包括:第二获取单元,用于在对顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,第二目标数量大于第一目标数量;第二训练单元,用于对第二目标数量的流利语句的语料进行训练,得到语言模型。
可选地,在本申请实施例提供的文本处理装置中,该文本顺滑模型为序列标注模型,序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
可选地,在本申请实施例提供的文本处理装置中,该语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
此处需要说明的是,上述确定单元401、第一处理单元402和第二处理单元403对应于实施例1中的步骤S101至步骤S103,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例3
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果包括:采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;计算每个处理后的语句的流利度得分;基于每个处理后的语句的流利度得分,确定目标数量的语句;将所述目标数量的语句作为所述语句对应的顺滑结果。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果包括:采用所述语言模型对目标数量的语句重新计算流利度得分;基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;将所述目标语句作为所述语句对应的最终的顺滑结果。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句包括:基于所述流利度得分由高到低对所述目标数量的语句进行排序,将排在第一位的语句作为所述目标语句。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:所述方法还包括:在采用文本顺滑模型对所述语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;对所述第一目标数量的带不顺滑标注的语句的语料进行训练,得到所述文本顺滑模型。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:所述方法还包括:在对所述顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,所述第二目标数量大于所述第一目标数量;对所述第二目标数量的流利语句的语料进行训练,得到所述语言模型。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:所述文本顺滑模型为序列标注模型,所述序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:所述语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
可选地,图5是根据本发明实施例的一种计算机终端的结构框图。如图5所示,该计算机终端A可以包括:一个或多个(图5中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本处理的顺滑方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理的顺滑方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型。
可选的,上述处理器还可以执行如下步骤的程序代码:采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果包括:采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;计算每个处理后的语句的流利度得分;基于每个处理后的语句的流利度得分,确定目标数量的语句;将所述目标数量的语句作为所述语句对应的顺滑结果。
可选的,上述处理器还可以执行如下步骤的程序代码:对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果包括:采用所述语言模型对目标数量的语句重新计算流利度得分;基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;将所述目标语句作为所述语句对应的最终的顺滑结果。
可选的,上述处理器还可以执行如下步骤的程序代码:基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句包括:基于所述流利度得分由高到低对所述目标数量的语句进行排序,将排在第一位的语句作为所述目标语句。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:在采用文本顺滑模型对所述语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;对所述第一目标数量的带不顺滑标注的语句的语料进行训练,得到所述文本顺滑模型。
可选的,上述处理器还可以执行如下步骤的程序代码:所述方法还包括:在对所述顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,所述第二目标数量大于所述第一目标数量;对所述第二目标数量的流利语句的语料进行训练,得到所述语言模型。
可选的,上述处理器还可以执行如下步骤的程序代码:所述文本顺滑模型为序列标注模型,所述序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
可选的,上述处理器还可以执行如下步骤的程序代码:所述语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
采用本发明实施例,提供了一种文本处理方案。采用使用海量的流利句子语料得到一个效果良好的语言模型,并基于该语言模型,给文本顺滑模型的输出结果进行排序,得到最终的顺滑结果的方式,通过确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型,达到了保证最终的顺滑结果质量的目的,从而实现了提升文本顺滑效果的技术效果,进而解决了由于标注数据有限造成的文本顺滑效果较差的技术问题。
本领域普通技术人员可以理解,图5所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定待处理的语句;采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型。
存储介质还被设置为存储用于执行以下步骤的程序代码:采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果包括:采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;计算每个处理后的语句的流利度得分;基于每个处理后的语句的流利度得分,确定目标数量的语句;将所述目标数量的语句作为所述语句对应的顺滑结果。
存储介质还被设置为存储用于执行以下步骤的程序代码:对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果包括:采用所述语言模型对目标数量的语句重新计算流利度得分;基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;将所述目标语句作为所述语句对应的最终的顺滑结果。
存储介质还被设置为存储用于执行以下步骤的程序代码:基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句包括:基于所述流利度得分由高到低对所述目标数量的语句进行排序,将排在第一位的语句作为所述目标语句。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述方法还包括:在采用文本顺滑模型对所述语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;对所述第一目标数量的带不顺滑标注的语句的语料进行训练,得到所述文本顺滑模型。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述方法还包括:在对所述顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,所述第二目标数量大于所述第一目标数量;对所述第二目标数量的流利语句的语料进行训练,得到所述语言模型。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述文本顺滑模型为序列标注模型,所述序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
存储介质还被设置为存储用于执行以下步骤的程序代码:所述语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种文本处理方法,其特征在于,包括:
确定待处理的语句;
采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;
对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型;
其中,采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果包括:
采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;
计算每个处理后的语句的流利度得分;
基于每个处理后的语句的流利度得分,确定目标数量的语句;
将所述目标数量的语句作为所述语句对应的顺滑结果;
其中,对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果包括:
采用所述语言模型对目标数量的语句重新计算流利度得分;
基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;
将所述目标语句作为所述语句对应的最终的顺滑结果。
2.根据权利要求1所述的方法,其特征在于,基于每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句包括:基于所述流利度得分由高到低对所述目标数量的语句进行排序,将排在第一位的语句作为所述目标语句。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在采用文本顺滑模型对所述语句进行处理之前,获取第一目标数量的带不顺滑标注的语句的语料;
对所述第一目标数量的带不顺滑标注的语句的语料进行训练,得到所述文本顺滑模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在对所述顺滑结果使用语言模型进行排序处理之前,获取第二目标数量的流利语句的语料,其中,所述第二目标数量大于所述第一目标数量;
对所述第二目标数量的流利语句的语料进行训练,得到所述语言模型。
5.根据权利要求1所述的方法,其特征在于,所述文本顺滑模型为序列标注模型,所述序列标注模型为以下至少之一:条件随机场算法,循环神经网络,卷积神经网络,自注意力机制。
6.根据权利要求1所述的方法,其特征在于,所述语言模型为以下之一:汉语语言模型、基于多层感知器的神经网络语言模型、基于循环神经网络的神经网络语言模型、基于预训练的神经网络语言模型。
7.一种文本处理装置,其特征在于,包括:
确定单元,用于确定待处理的语句;
第一处理单元,用于采用文本顺滑模型对所述语句进行处理,得到所述语句对应的顺滑结果,其中,所述文本顺滑模型是采用带不顺滑标注的语料训练的模型;
第二处理单元,用于对所述顺滑结果使用语言模型进行排序处理,得到所述语句对应的最终的顺滑结果,其中,所述语言模型为采用流利语句的语料训练的模型;
其中,所述第一处理单元包括:
处理模块,用于采用所述文本顺滑模型对所述语句进行处理,得到多个处理后的语句;
第一计算模块,用于计算每个处理后的语句的流利度得分;
第一确定模块,用于根据每个处理后的语句的流利度得分,确定目标数量的语句;
第二确定模块,用于将所述目标数量的语句作为所述语句对应的顺滑结果;
其中,所述第二处理单元包括:
第二计算模块,用于采用所述语言模型对目标数量的语句重新计算流利度得分;
第三确定模块,用于根据每个处理后的语句的流利度得分,对所述目标数量的语句进行排序,以确定目标语句;
第四确定模块,用于将所述目标语句作为所述语句对应的最终的顺滑结果。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的文本处理方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的文本处理方法。
CN201910505497.5A 2019-06-12 2019-06-12 文本处理方法和装置、存储介质和处理器 Active CN112084766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910505497.5A CN112084766B (zh) 2019-06-12 2019-06-12 文本处理方法和装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910505497.5A CN112084766B (zh) 2019-06-12 2019-06-12 文本处理方法和装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN112084766A CN112084766A (zh) 2020-12-15
CN112084766B true CN112084766B (zh) 2024-01-23

Family

ID=73734424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910505497.5A Active CN112084766B (zh) 2019-06-12 2019-06-12 文本处理方法和装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN112084766B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112738555B (zh) * 2020-12-22 2024-03-29 上海幻电信息科技有限公司 视频处理方法及装置
US11741302B1 (en) 2022-05-18 2023-08-29 Microsoft Technology Licensing, Llc Automated artificial intelligence driven readability scoring techniques

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
JP2014219809A (ja) * 2013-05-07 2014-11-20 国立大学法人奈良先端科学技術大学院大学 テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency
CN109670185A (zh) * 2018-12-27 2019-04-23 北京百度网讯科技有限公司 基于人工智能的文本生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
JP2014219809A (ja) * 2013-05-07 2014-11-20 国立大学法人奈良先端科学技術大学院大学 テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency
CN104867491A (zh) * 2015-06-17 2015-08-26 百度在线网络技术(北京)有限公司 用于语音合成的韵律模型训练方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置
CN109215660A (zh) * 2018-07-09 2019-01-15 维沃移动通信有限公司 语音识别后文本纠错方法及移动终端
CN109670185A (zh) * 2018-12-27 2019-04-23 北京百度网讯科技有限公司 基于人工智能的文本生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
口语对话中冗余词汇识别方法研究;翟飞飞;宗成庆;;中文信息学报(第03期);全文 *

Also Published As

Publication number Publication date
CN112084766A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110543552B (zh) 对话交互方法、装置及电子设备
CN107193865B (zh) 人机交互中自然语言意图理解方法及装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN107291867B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN110555095A (zh) 人机对话方法和装置
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN106992001A (zh) 语音指令的处理方法、装置和系统
CN110942763B (zh) 语音识别方法及装置
CN112084766B (zh) 文本处理方法和装置、存储介质和处理器
CN109726400B (zh) 实体词识别结果评价方法、装置、设备及实体词提取系统
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN108959388B (zh) 信息生成方法及装置
CN114781402A (zh) 问诊意图识别方法、装置、电子设备及可读存储介质
CN112183055A (zh) 结合rpa和ai的信息获取方法、装置、计算机设备及介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN114048301B (zh) 一种基于满意度的用户模拟方法及系统
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN112906403B (zh) 语义分析模型训练方法、装置、终端设备及存储介质
CN111611350B (zh) 基于健康知识的应答方法、装置及电子设备
CN113705207A (zh) 语法错误识别方法及装置
CN110362734A (zh) 文本识别方法、装置、设备及计算机可读存储介质
CN112836522B (zh) 语音识别结果的确定方法及装置、存储介质及电子装置
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant