CN114637843A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114637843A
CN114637843A CN202011482703.4A CN202011482703A CN114637843A CN 114637843 A CN114637843 A CN 114637843A CN 202011482703 A CN202011482703 A CN 202011482703A CN 114637843 A CN114637843 A CN 114637843A
Authority
CN
China
Prior art keywords
text
text data
model
data
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011482703.4A
Other languages
English (en)
Inventor
陈谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011482703.4A priority Critical patent/CN114637843A/zh
Publication of CN114637843A publication Critical patent/CN114637843A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,涉及人工智能技术领域。其中,数据处理方法包括:采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;基于无标签文本数据和伪标签,对预训练模型进行更新,得到更新后模型;基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行更新,得到训练完成的文本后处理模型。通过本申请实施例,可以使得文本后处理模型的准确率更高。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
文本后处理是一种对基于自动语音识别技术获得的文本进行后续处理的过程。通常,文本后处理包括:标点预测和顺滑检测两个任务,可以通过多任务学习方式建立文本后处理模型,进而实现对待处理文本的文本后处理操作。
目前,主要是采用有监督的文本数据对文本后处理模型进行训练的。具体的:先从标准文库(例如:维基百科等文库)中获取大量标准文本数据作为训练标签,基于上述标准文本数据生成训练样本,然后根据上述模型训练样本和标签,对初始文本后处理模型进行训练,得到相应的模型。
上述过程,采用了大量的标准文本数据来进行模型训练。但因这些标准文本数据通常来源单一,涉及的应用领域有限,从而使得采用上述训练方法得到的文本后处理模型的准确率较低。
发明内容
本申请的目的在于提出一种数据处理方法、装置、电子设备及计算机存储介质,至少部分解决上述现有技术中存在的问题。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;
获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;
基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型;
基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。
根据本申请实施例的第二方面,提供了一种数据处理方法,包括:
获取待处理文本数据;
将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于第一方面的方法得到。
根据本申请实施例的第三方面,提供了一种数据处理方法,包括:
接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;
根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于第一方面的方法得到。
根据本申请实施例的第四方面,提供了一种数据处理方法,包括:
接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;
根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于第一方面的方法得到。
根据本申请实施例的第五方面,提供了一种数据处理方法,包括:
接收公有云客户端上传的语音数据;
对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于第一方面的方法得到。
根据本申请实施例的第六方面,提供了一种数据处理方法,包括:
接收公有云客户端上传的待处理文本数据,其中,所述待处理文本数据为所述公有云客户端对接收到的语音数据进行文本转换之后得到的;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于第一方面的方法得到。
根据本申请实施例的第七方面,提供了一种数据处理装置。装置包括:
模型预训练模块,用于采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;
无标签文本数据及伪标签获取模块,用于获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;
第一训练更新模块,用于基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型;
第二训练更新模块,用于基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。
根据本申请实施例的第八方面,提供了一种数据处理装置。装置包括:
待处理文本数据获取模块,用于获取待处理文本数据;
第一处理后文本数据获取模块,用于将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于上述第一方面的方法得到。
根据本申请实施例的第九方面,提供了一种数据处理装置。装置包括:
第一指令接收模块,用于接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;
第一文本转换模块,用于根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
第二处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于上述第一方面的方法得到。
根据本申请实施例的第十方面,提供了一种数据处理装置。装置包括:
第二指令接收模块,用于接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;
第二文本转换模块,用于根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
第三处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于上述第一方面的方法得到。
根据本申请实施例的第十一方面,提供了一种数据处理装置。装置包括:
语音数据接收模块,用于接收公有云客户端上传的语音数据;
第三文本转换模块,用于对所述语音数据进行文本转换,得到待处理文本数据;
第四处理后文本数据获取模块,将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于上述第一方面的方法得到。
根据本申请实施例的第十二方面,提供了一种数据处理装置。装置包括:
待处理文本数据接收模块,用于接收公有云客户端上传的待处理文本数据,其中,所述待处理文本数据为所述公有云客户端对接收到的语音数据进行文本转换之后得到的;
第五处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于上述第一方面的方法得到。
根据本申请实施例的第十三方面,提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述实施例的第一方面至第六方面中任一方面的数据处理方法。
根据本申请实施例的第十四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的第一方面至第六方面中任一方面的数据处理方法。
根据本申请实施例的第十五方面,提供了一种计算机程序,其包含有计算机可执行指令,该计算机可执行指令在被执行时实现上述实施例的第一方面至第六方面中任一方面的数据处理方法。
根据本申请实施例提供的数据处理方案,在采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,本申请实施例提供的方案中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用本申请实施例提供的数据处理方法得到的文本后处理模型的准确率更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1a为本申请实施例一中数据处理方法的步骤流程图;
图1b为根据本申请实施例一提供的数据处理流程的示意图;
图2为本申请实施例二中数据处理方法的步骤流程图;
图3a为本申请实施例三中数据处理方法的步骤流程图;
图3b为根据本申请实施例三提供的数据处理流程的示意图;
图4为本申请实施例四中数据处理方法的步骤流程图;
图5为本申请实施例五中数据处理方法的步骤流程图;
图6为本申请实施例六中数据处理方法的步骤流程图;
图7为本申请实施例七中数据处理方法的步骤流程图;
图8为本申请实施例八中数据处理装置的结构示意图;
图9为本申请实施例九中数据处理装置的结构示意图;
图10为本申请实施例十中数据处理装置的结构示意图;
图11为本申请实施例十一中数据处理装置的结构示意图;
图12为本申请实施例十二中数据处理装置的结构示意图;
图13为本申请实施例十三中数据处理装置的结构示意图;
图14为本申请实施例十四中电子设备的结构示意图;
图15为本申请实施例十五中电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1a,示出了本申请实施例一的数据处理方法的步骤流程图。
具体地,本实施例提供的数据处理方法包括以下步骤:
步骤101,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型。
本步骤中,第一文本数据训练样本可以为任意的基于自动语音识别技术获得的文本数据。例如,使用现有的书面语料库(标准文本数据库)中的书面语料(标准文本数据),生成非顺滑语料,从而将生成的上述非顺滑语料作为第一文本数据训练样本,其对应的书面语料即可为标签。
本发明实施例中的文本后处理模型可以为任意的深度学习模型,例如:卷积神经网络模型、循环神经网络模型等,此处,对于文本后处理模型的具体形式不做限定。
通常训练样本的数量较为庞大,若通过人工标注的方式获取训练样本对应的标签,成本较高。因此,在一些可选实施例中,进行本步骤之前,可以:从标准文本数据库中获取标准文本数据,并采用预设规则生成对应的非顺滑文本数据;将非顺滑文本数据作为第一文本数据训练样本,并将标准文本数据作为与第一文本数据训练样本对应的标签。相比于人工标注的方式,上述方式可以降低人工成本。
其中,非顺滑文本数据意指存在重复词语或冗余的语气助词或者语义不通顺的文本数据。上述预设规则可以由本领域技术人员根据实际需求适当设置,例如,可以为:过滤掉标准文本数据中的标点符号,并在过滤后的标准文本数据中随机添加预设语气助词(如:“嗯”、“啊”等);也可以为:过滤掉标准文本数据中的标点符号,并在过滤后的标准文本数据中,随机重复其中的部分词语等。本申请实施例中,预设规则的具体内容可以根据实际情况来设定,此处,不做限定。
步骤102,获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签。
本申请实施例中,无标签文本数据的伪标签则可以通过对无标签文本数据进行文本后处理预操作获得。由于此时模型还未训练完成,因此,获得的标签可能不足够准确,所以称之为伪标签。
在一些可选实施例中,在获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签时,可以:获取无标签文本数据;采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
可选地,可以通过如下方式获取无标签文本数据:
获取待识别语音数据;采用自动语音识别技术,对待识别语音数据进行识别,得到无标签文本数据。
上述方法中,先获取待识别语音数据,之后借助自动语音识别技术,得到无标签文本数据,这样,可以快速获取到大量的无标签文本数据,且可有效适用于ASR场景。
可选地,上述标签预测模型的获取方式可以包括以下两种:
第一种,可以为基于上述步骤101中得到的预训练模型,进行训练更新之后得到的。具体地,可以再次获取文本数据训练样本以及其对应的标签,然后基于再次获取到的文本数据训练样本及其对应的标签,对上述步骤101中得到的预训练模型中的网络参数进行训练更新,从而得到标签预测模型。
其中,再次获取的文本数据训练样本,可以为与文本后处理模型的应用领域(目标领域)匹配度较高的待进行后处理操作文本数据,对应地,为保证得到的标签的准确性,可以通过人工参与的方式,对上述再次获取的文本数据训练样本进行文本后处理,进而得到其对应的标签。
第二种,可以是基于其他的、比上述步骤101中得到的预训练模型更大规模、具有更高准确率的模型,进行训练更新之后得到的。
例如,可以先构建一个初始的标签预测模型,该标签预测模型中包含的网络层数多于上述预训练模型中包含的网络层数,或者,该标签预测模型中各网络层的维度大多于上述预训练模型中各网络层的维度;然后,采用现有语料库中的语料作为训练样本,对上述初始的标签预测模型进行预训练,得到预训练后的标签预测模型;再获取与文本后处理模型的应用领域(目标领域)匹配度较高的文本数据训练样本及其标签,对预训练后的标签预测模型的网络参数进行训练更新,最终得到训练完成的标签预测模型。由于该标签预测模型的网络层数或各网络层的维度更大,因此,该标签预测模型的准确率也更高。
上述两种标签预测模型的获取方式相比:第一种方式,是在步骤101中得到的预训练模型的基础上,进行训练更新的,因此,实现过程较为简单,标签预测模型获取速度较快;第二种方式,并不是基于步骤101中得到的预训练模型的,而是基于另外的,比上述步骤101中得到的预训练模型更大规模、具有更高准确率的模型,进行训练更新得到的,因此,模型的训练过程较为复杂,标签预测模型获取速度较慢,但是,获取到的标签预测模型的准确率更高。
具体的,在一些可选实施例中,采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签,可以包括:
基于第三文本数据训练样本以及与第三文本数据训练样本对应的标签,对预训练模型进行训练更新,得到标签预测模型;采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
上述第三文本数据训练样本可以为:与文本后处理模型的应用领域(目标领域)匹配度较高的待进行后处理操作文本数据,对应地,为保证得到的标签的准确性,可以通过人工参与的方式,对第三文本数据训练样本进行文本后处理,进而得到与第三文本数据训练样本对应的标签。
例如,上述第三文本数据训练样本及其标签,可以为:较小规模的人工标注口语语料库中的语料。具体地,可以将人工标注口语语料库中的语料作为第三文本数据训练样本,将其对应的人工标注内容作为标签。
在另一些可选实施例中,采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签,可以包括:
获取预先构建的初始的标签预测模型;其中,标签预测模型中包含的网络层数多于文本后处理模型中包含的网络层数,和/或,标签预测模型中各网络层的维度大多于文本后处理模型中各网络层的维度;
采用第四文本数据训练样本以及与第四文本数据训练样本对应的标签,对初始的标签预测模型进行预训练,得到预训练后标签预测模型;
基于第五文本数据训练样本以及与第五文本数据训练样本对应的标签,对预训练后标签预测模型进行训练更新,得到训练完成的标签预测模型;
采用训练完成的标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
其中,就第四文本数据训练样本而言,由于其作用与上述步骤101中,第一文本数据训练样本的作用相同,都是用于进行模型预训练的,因此,在一些可选实施例中,也可以使用现有的书面语料库中的书面语料,生成非顺滑语料,从而将生成的上述非顺滑语料作为第四文本数据训练样本,其对应的书面语料即可为标签。
针对第五文本数据训练样本而言,其作用与上述第三文本数据训练样本的作用相同,都是用于对模型进行训练更新的,因此,在一些可选实施例中,也可以使用较小规模的人工标注口语语料库中的语料作为第五文本数据训练样本,将其对应的人工标注内容作为标签。
步骤103,基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型。
预训练模型是基于现有的语料库中的语料进行预训练得到的,由于现有语料库涉及的应用领域有限,与文本后处理模型的应用领域之间的匹配度不高,因此会导致预训练模型的准确率较低。基于上述原因,可以在得到预训练模型之后,再获取大量的、涉及更多应用领域的无标签文本数据(例如ASR人工转录文本),然后基于上述无标签文本数据及其伪标签,对预训练模型的网络参数进行训练更新,这样,可以得到准确率更高的更新后模型。
步骤104,基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。
与上述第三文本数据训练样本、第五文本数据训练样本类似,本步骤中的第二文本数据训练样本作为用于进行模型训练更新的样本,可以为:与文本后处理模型的应用领域(目标领域)匹配度较高的待进行后处理操作文本数据,对应地,为保证得到的标签的准确性,可以通过人工参与的方式,对第五文本数据训练样本进行文本后处理,进而得到与第五文本数据训练样本对应的标签。例如,在一些可选实施例中,也可以使用较小规模的人工标注口语语料库中的语料作为第二文本数据训练样本,将其对应的人工标注内容作为标签。
根据本申请实施例提供的数据处理方法、装置、电子设备及存储介质,数据处理方法为:采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;基于无标签文本数据和伪标签,对预训练模型进行更新,得到更新后模型;基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行更新,得到训练完成的文本后处理模型。
本申请实施例中,在采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,本申请实施例提供的模型训练方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用本申请实施例提供的数据处理方法得到的文本后处理模型的准确率更高。
本申请实施例提供的数据处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端、移动终端、PC机和服务器等。
参照图1b,图1b为根据本申请实施例一提供的数据处理流程的示意图。以下结合图1b对本申请实施例一提供的数据处理流程进行简要说明,主要包括:
在构建初始的文本后处理模型,例如:构建初始的Transformer模型之后,
第一步:采用第一文本数据训练样本以及其对应的标签,对构建的上述初始的文本后处理模型进行预训练,得到预训练模型。具体地:可以采用大规模的现有的书面语料库中的语料对初始的Transformer模型进行预训练,其中,可以利用预设规则对语料生成非顺滑数据,作为第一文本数据训练样本,并将非顺滑数据对应的语料作为标签。
第二步:获取第三本文数据训练样本以及其对应的样本,对上述预训练模型进行训练更新,得到预测模型。具体地,可以将较小规模的人工标注口语语料库中的语料作为第三文本数据训练样本,将其对应的人工标注内容作为标签。
第三步:采用经自动语音识别技术得到的无标签文本数据进行模型的自训练,具体的:利用上述预测模型,对经自动语音识别技术得到的无标签文本数据,进行标签预测,得到无标签文本数据的伪标签;基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型;
第四步:基于第二文本数据训练样本以及其对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。具体地,可以将较小规模的人工标注口语语料库中的语料作为第二文本数据训练样本,将其对应的人工标注内容作为标签。
参照图2,示出了本申请实施例二的数据处理方法的步骤流程图。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤201,获取待处理文本数据。
步骤202,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的,在此不再赘述。
本申请实施例中,在获取待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,进而得到文本后处理模型输出的处理后文本数据。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
进而,将待处理的文本数据输入至采用上述实施例一提供的数据处理方法得到的文本后处理模型,可以得到准确率更高的处理后文本数据。
本申请实施例提供的数据处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端、移动终端、PC机和服务器等。
参照图3a,示出了本申请实施例三的数据处理方法的步骤流程图。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤301,获取线上日志回流的文本数据,作为待处理文本数据。
由于线上日志回流的文本数据是文本后处理模型在应用阶段的实际处理对象,也就是说,线上日志回流的文本数据涉及应用领域即为文本后处理模型应用的目标领域。
因此,将其作为待处理文本数据,通过文本后处理模型预测出线上日志回流的伪标签之后,再采用线上日志回流的文本数据及其伪标签,作为训练样本,对模型进行训练更新(精调),随着线上日志回流文本数据的增多,可以不断提高文本后处理模型的准确率。
步骤302,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的。
将线上日志回流的文本数据输入至文本后处理模型,通过该模型对线上日志回流的文本数据进行标签预测,得到线上日志回流的伪标签数据,也就是本步骤中文本后处理模型输出的处理后文本数据。
步骤303,基于待处理文本数据以及处理后文本数据,对更新后模型进行训练更新,得到过渡模型。
其中,上述更新后模型为上述实施例一中的更新后模型。
本步骤中,利用线上日志回流的文本数据及其伪标签,对上述实施例一中的更新后模型进行模型精调,即:对模型的网络参数进行训练更新,得到过渡模型。
步骤304,基于第六文本数据训练样本以及与第六文本数据训练样本对应的标签,对过渡模型进行训练更新,得到热备模型。
本步骤中的第六文本数据训练样本作为用于进行模型训练更新的样本,也可以为:与文本后处理模型的应用领域(目标领域)匹配度较高的待进行后处理操作文本数据,对应地,为保证得到的标签的准确性,可以通过人工参与的方式,对第六文本数据训练样本进行文本后处理,进而得到与第五文本数据训练样本对应的标签。
例如,可以使用较小规模的人工标注口语语料库中的语料作为第五文本数据训练样本,将其对应的具体文本内容作为标签。
本步骤中,即利用较小规模的人工标注口语语料数据对步骤303得到的过渡模型进行模型精调,也就是,对过渡模型的网络参数进行训练更新,得到热备模型。
步骤305,分别计算热备模型和文本后处理模型的准确率。
在一些可选实施例中,可以通过如下方式,计算热备模型和文本后处理模型的准确率:
获取第七文本数据训练样本以及与第七文本数据训练样本对应的标签;基于第七文本数据训练样本以及与第七文本数据训练样本对应的标签,分别计算热备模型和文本后处理模型的准确率。
本步骤中的第七文本数据训练样本作为用于进行模型准确率验证的样本,可以为:与文本后处理模型的应用领域(目标领域)匹配度较高的待进行后处理操作文本数据。对应地,也可以通过人工参与的方式,对第七文本数据训练样本进行文本后处理,进而得到与第七文本数据训练样本对应的标签。例如,可以使用较小规模的人工标注口语语料库中的语料作为第七文本数据训练样本,将其对应的具体文本内容作为标签。
步骤306,当文本后处理模型的准确率低于热备模型的准确率时,采用热备模型作为新的文本后处理模型以进行下一次文本后处理操作。
步骤307,当热备模型的准确率低于文本后处理模型的准确率时,采用文本后处理模型进行下一次文本后处理操作。
本申请实施例中,在获取线上日志回流的文本数据,作为待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,得到文本后处理模型输出的处理后文本数据。再基于待处理文本数据以及处理后文本数据,对上述实施例一中的更新后模型进行训练更新,得到过渡模型;基于第六文本数据训练样本以及与第六文本数据训练样本对应的标签,对过渡模型进行训练更新,得到热备模型;分别计算热备模型和文本后处理模型的准确率;当文本后处理模型的准确率低于热备模型的准确率时,采用热备模型作为新的文本后处理模型以进行下一次文本后处理操作。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
进而,将待处理的文本数据输入至采用上述实施例一提供的数据处理方法得到的文本后处理模型,可以得到准确率更高的处理后文本数据。
另外,本申请上述实施例三中,将线上日志回流的文本数据作为待处理文本数据,然后基于上述待处理文本数据以及与其对应的处理后文本数据,对上述实施例一得到的更新后模型进行了训练更新,得到过渡模型;再对过渡模型进行了训练更新,得到热备模型;分别计算热备模型和文本后处理模型的准确率,并将准确率高的模型作为进行下一次文本后处理操作时使用的文本后处理模型。因此,可以通过线上日志回流的文本数据,对文本后处理模型进行不断更新,进一步提高了文本后处理模型的准确率。
本申请实施例提供的数据处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端、移动终端、PC机和服务器等。
参照图3b,图3b为根据本申请实施例三提供的数据处理流程的示意图。
以下结合图3b对本申请实施例三提供的数据处理流程进行简要说明,主要包括:
在得到文本后处理模型之后,
第一步:采用线上日志回流的文本数据,对文本后处理模型进行自训练,具体的:将线上日志回流的无标签文本数据输入文本后处理模型,得到线上日志回流文本数据伪标签(处理后文本数据),基于线上日志回流的文本数据以及线上日志回流文本数据伪标签,对(实施例一中得到的)更新后模型进行训练更新,得到过渡模型;
第二步:基于第六文本数据训练样本及其标签,对过渡模型进行训练更新,得到热备模型;
第三步:检测热备模型的准确率是否高于第一步中的文本后处理模型,若高于,则采用热备模型替换第一步中的文本后处理模型,作为新的文本后处理模型以进行下一次文本后处理操作。
参照图4,示出了本申请实施例四的数据处理方法的步骤流程图。该实施例的应用场景可以是:对即时通信应用中的即时通信语音数据进行文字转换,并对转换得到的文本数据进行后处理。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤401,接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令。
步骤402,根据指令对语音数据进行文本转换,得到待处理文本数据。
具体的,可以采用自动语音识别技术,对输入的语音数据进行文本转换,从而得到待处理文本数据。
步骤403,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的,在此不再赘述。
本申请实施例中,在对语音数据进行文本转换,得到待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,进而得到文本后处理模型输出的处理后文本数据。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
进而,将待处理的文本数据输入至采用上述实施例一提供的数据处理方法得到的文本后处理模型,可以得到准确率更高的处理后文本数据。
参照图5,示出了本申请实施例五的数据处理方法的步骤流程图。该实施例的应用场景可以是:对通过一体机设备输入的语音数据进行文字转换,并对转换得到的文本数据进行后处理。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤501,接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令。
具体的,可以采用自动语音识别技术,对输入的语音数据进行文本转换,从而得到待处理文本数据。
步骤502,根据指令对语音数据进行文本转换,得到待处理文本数据。
步骤503,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的,在此不再赘述。
本申请实施例中,在对语音数据进行文本转换,得到待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,进而得到文本后处理模型输出的处理后文本数据。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
进而,将待处理的文本数据输入至采用上述实施例一提供的数据处理方法得到的文本后处理模型,可以得到准确率更高的处理后文本数据。
参照图6,示出了本申请实施例六的数据处理方法的步骤流程图。该实施例的应用场景可以是:公有云中的客户端将语音数据上传至云端服务器,由云端服务器进行文本转换,并对转换得到的文本数据进行后处理。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤601,接收公有云客户端上传的语音数据。
步骤602,对语音数据进行文本转换,得到待处理文本数据。
具体的,可以采用自动语音识别技术,对接收的语音数据进行文本转换,从而得到待处理文本数据。
步骤603,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的,在此不再赘述。
进一步地,在云端服务器获取到处理后文本数据,还可以将处理后文本数据返回至上述公有云客户端。
本申请实施例中,云端服务器在对语音数据进行文本转换,得到待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,进而得到文本后处理模型输出的处理后文本数据。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
参照图7,示出了本申请实施例七的数据处理方法的步骤流程图。该实施例的应用场景依然可以为公有云场景,具体的可以是:公有云中的客户端先对接收到的语音数据行文本转换,之后,将转换得到的文本数据上传至云端服务器,由云端服务器进行文本转换,并对转换得到的文本数据进行后处理。
具体地,本申请实施例提供的数据处理方法包括以下步骤:
步骤701,接收公有云客户端上传的待处理文本数据。
其中,待处理文本数据为公有云客户端对接收到的语音数据进行文本转换之后得到的。具体的,可以采用自动语音识别技术,对接收的语音数据进行文本转换,从而得到待处理文本数据。
步骤702,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据。
其中,文本后处理模型可以为基于上述实施例一的数据处理方法得到的,在此不再赘述。
进一步地,在云端服务器获取到处理后文本数据,还可以将处理后文本数据返回至上述公有云客户端。
本申请实施例中,云端服务器在接收到待处理文本数据之后,将待处理文本数据输入至基于上述实施例一的数据处理方法得到的文本后处理模型,进而得到文本后处理模型输出的处理后文本数据。
由于上述实施例一在对文本后处理模型的数据处理过程中,采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,得到预训练模型之后,并不是作为最终的文本后处理模型的。而是基于无标签文本数据以及其对应的伪标签,对预训练模型进行更新,得到更新后模型,之后,再用第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行再次更新,从而得到训练完成的文本后处理模型。也就是说,与常规的模型训练过程相比,上述实施例一提供的数据处理方法中,对预训练模型还进行了两次更新,才得到训练完成的文本后处理模型。因此,采用上述实施例一提供的数据处理方法得到的文本后处理模型的准确率更高。
参照图8,示出了本申请实施例八中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
模型预训练模块801,用于采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;
无标签文本数据及伪标签获取模块802,用于获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;
第一训练更新模块803,用于基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型;
第二训练更新模块804,用于基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。
可选的,本申请实施例的装置还包括:
标准文本数据和非顺滑文本数据获取模块,用于从标准文本数据库中获取标准文本数据,并采用预设规则生成对应的非顺滑文本数据;将非顺滑文本数据作为第一文本数据训练样本,并将标准文本数据作为与第一文本数据训练样本对应的标签。
可选的,无标签文本数据及伪标签获取模块802,包括:
无标签文本数据单元,用于获取无标签文本数据;
伪标签得到单元,用于采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
可选的,无标签文本数据单元,具体用于:
获取待识别语音数据;
采用自动语音识别技术,对待识别语音数据进行识别,得到无标签文本数据。
可选的,伪标签得到单元,具体用于:
基于第三文本数据训练样本以及与第三文本数据训练样本对应的标签,对预训练模型进行训练更新,得到标签预测模型;
采用标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
可选的,伪标签得到单元,具体用于:
获取预先构建的初始的标签预测模型;其中,标签预测模型中包含的网络层数多于文本后处理模型中包含的网络层数,和/或,标签预测模型中各网络层的维度大多于文本后处理模型中各网络层的维度;
采用第四文本数据训练样本以及与第四文本数据训练样本对应的标签,对初始的标签预测模型进行预训练,得到预训练后标签预测模型;
基于第五文本数据训练样本以及与第五文本数据训练样本对应的标签,对预训练后标签预测模型进行训练更新,得到训练完成的标签预测模型;
采用训练完成的标签预测模型,对无标签文本数据进行标签预测,得到无标签文本数据的伪标签。
本申请实施例的数据处理装置用于实现前述实施例一中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例一中的相应部分的描述,在此亦不再赘述。
参照图9,示出了本申请实施例九中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
待处理文本数据获取模块901,用于获取待处理文本数据;
第一处理后文本数据获取模块902,用于将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的数据处理方法得到。
可选地,待处理文本数据获取模块901,具体用于:获取线上日志回流的文本数据,作为待处理文本数据;
本申请实施例的装置还包括:
过渡模型得到模块,用于在获取文本后处理模型输出的处理后文本数据之后,基于待处理文本数据以及处理后文本数据,对实施例一中的更新后模型进行训练更新,得到过渡模型;
热备模型得到模块,用于基于第六文本数据训练样本以及与第六文本数据训练样本对应的标签,对过渡模型进行训练更新,得到热备模型;
准确率计算模块,用于分别计算热备模型和文本后处理模型的准确率;
文本后处理模型更新模块,用于当文本后处理模型的准确率低于热备模型的准确率时,采用热备模型作为新的文本后处理模型以进行下一次文本后处理操作。
可选地,本申请实施例的装置还包括:
文本后处理模型保留模块,用于当热备模型的准确率低于文本后处理模型的准确率时,采用文本后处理模型进行下一次文本后处理操作。
可选地,准确率计算模块,具体用于:
获取第七文本数据训练样本以及与第七文本数据训练样本对应的标签;
基于第七文本数据训练样本以及与第七文本数据训练样本对应的标签,分别计算热备模型和文本后处理模型的准确率。
本申请实施例的数据处理装置用于实现前述方法实施例二或实施例三中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例二或实施例三中的相应部分的描述,在此亦不再赘述。
参照图10,示出了本申请实施例十中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
第一指令接收模块1001,用于接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;
第一文本转换模块1002,用于根据指令对语音数据进行文本转换,得到待处理文本数据;
第二处理后文本数据获取模块1003,用于将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的数据处理方法得到。
本申请实施例的数据处理装置用于实现前述方法实施例四中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例四中的相应部分的描述,在此亦不再赘述。
参照图11,示出了本申请实施例十一中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
第二指令接收模块1101,用于接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;
第二文本转换模块1102,用于根据指令对语音数据进行文本转换,得到待处理文本数据;
第三处理后文本数据获取模块1103,用于将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的数据处理方法得到。
本申请实施例的数据处理装置用于实现前述方法实施例五中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例五中的相应部分的描述,在此亦不再赘述。
参照图12,示出了本申请实施例十二中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
语音数据接收模块1201,用于接收公有云客户端上传的语音数据;
第三文本转换模块1202,用于对语音数据进行文本转换,得到待处理文本数据;
第四处理后文本数据获取模块1203,将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的数据处理方法得到。
可选地,本申请实施例的装置还可以包括:
第一处理后文本数据返回模块,用于向公有云客户端返回处理后文本数据。
本申请实施例的数据处理装置用于实现前述方法实施例六中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例六中的相应部分的描述,在此亦不再赘述。
参照图13,示出了本申请实施例十三中数据处理装置的结构示意图。
本申请实施例提供的数据处理装置包括:
待处理文本数据接收模块1301,用于接收公有云客户端上传的待处理文本数据,其中,待处理文本数据为公有云客户端对接收到的语音数据进行文本转换之后得到的;
第五处理后文本数据获取模块1302,用于将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的数据处理方法得到。
可选地,本申请实施例的装置还可以包括:
第二处理后文本数据返回模块,用于向公有云客户端返回处理后文本数据。
本申请实施例的数据处理装置用于实现前述方法实施例七中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例七中的相应部分的描述,在此亦不再赘述。
图14为本申请实施例十四中电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器1401;
计算机可读介质1402,可以配置为存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述实施例一至实施例七任一的数据处理方法。
图15为本申请实施例十五中电子设备的硬件结构;如图15所示,该电子设备的硬件结构可以包括:处理器1501,通信接口1502,计算机可读介质1503和通信总线1504;
其中处理器1501、通信接口1502、计算机可读介质1503通过通信总线704完成相互间的通信;
可选地,通信接口1502可以为通信模块的接口,如GSM模块的接口;
其中,处理器1501具体可以配置为:采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;获取无标签文本数据及对无标签文本数据进行处理后得到的无标签文本数据的伪标签;基于无标签文本数据和伪标签,对预训练模型进行训练更新,得到更新后模型;基于第二文本数据训练样本以及与第二文本数据训练样本对应的标签,对更新后模型进行训练更新,得到训练完成的文本后处理模型。
或者,处理器1501还可以配置为:获取待处理文本数据;将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的方法得到。
或者,处理器1501还可以配置为:接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;根据指令对语音数据进行文本转换,得到待处理文本数据;将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的方法得到。
或者,处理器1501还可以配置为:接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;根据指令对语音数据进行文本转换,得到待处理文本数据;将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的方法得到。
或者,处理器1501还可以配置为:接收公有云客户端上传的语音数据;
对语音数据进行文本转换,得到待处理文本数据;将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的方法得到。
或者,处理器1501还可以配置为:接收公有云客户端上传的待处理文本数据,其中,待处理文本数据为公有云客户端对接收到的语音数据进行文本转换之后得到的;将待处理文本数据输入文本后处理模型,获取文本后处理模型输出的处理后文本数据;其中,文本后处理模型基于实施例一的方法得到。
处理器701可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读介质703可以是,但不限于,随机存取存储介质(Random AccessMemory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
特别地,根据本申请实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括模型预训练模块、无标签文本数据及伪标签获取模块、第一训练更新模块和第二训练更新模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,模型预训练模块还可以被描述为“采用第一文本数据训练样本以及与第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一至实施例七任一所描述的数据处理方法。
另一方面,本申请还提供了一种计算机程序,该计算机程序包含计算机可执行指令,所述计算机可执行指令在被执行时实现如上述实施例一至实施例七任一所描述的数据处理方法。本申请实施例中,计算机程序可以包括APP,也可以包括小程序等。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“第一”或“第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (27)

1.一种数据处理方法,所述方法包括:
采用第一文本数据训练样本以及与所述第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;
获取无标签文本数据及对所述无标签文本数据进行处理后得到的所述无标签文本数据的伪标签;
基于所述无标签文本数据和所述伪标签,对所述预训练模型进行训练更新,得到更新后模型;
基于第二文本数据训练样本以及与所述第二文本数据训练样本对应的标签,对所述更新后模型进行训练更新,得到训练完成的文本后处理模型。
2.根据权利要求1所述的方法,其中,在所述采用第一文本数据训练样本以及与所述第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型之前,所述方法还包括:
从标准文本数据库中获取标准文本数据,并采用预设规则生成对应的非顺滑文本数据;
将所述非顺滑文本数据作为第一文本数据训练样本,并将所述标准文本数据作为与所述第一文本数据训练样本对应的标签。
3.根据权利要求1或2所述的方法,其中,所述获取无标签文本数据及对所述无标签文本数据进行处理后得到的所述无标签文本数据的伪标签,包括:
获取无标签文本数据;
采用标签预测模型,对所述无标签文本数据进行标签预测,得到所述无标签文本数据的伪标签。
4.根据权利要求3所述的方法,其中,所述获取无标签文本数据,包括:
获取待识别语音数据;
采用自动语音识别技术,对所述待识别语音数据进行识别,得到无标签文本数据。
5.根据权利要求3所述的方法,其中,所述采用标签预测模型,对所述无标签文本数据进行标签预测,得到所述无标签文本数据的伪标签,包括:
基于第三文本数据训练样本以及与所述第三文本数据训练样本对应的标签,对所述预训练模型进行训练更新,得到标签预测模型;
采用所述标签预测模型,对所述无标签文本数据进行标签预测,得到所述无标签文本数据的伪标签。
6.根据权利要求3所述的方法,其中,所述采用标签预测模型,对所述无标签文本数据进行标签预测,得到所述无标签文本数据的伪标签,包括:
获取预先构建的初始的标签预测模型;其中,所述标签预测模型中包含的网络层数多于所述文本后处理模型中包含的网络层数,和/或,所述标签预测模型中各网络层的维度大多于所述文本后处理模型中各网络层的维度;
采用第四文本数据训练样本以及与所述第四文本数据训练样本对应的标签,对所述初始的标签预测模型进行预训练,得到预训练后标签预测模型;
基于第五文本数据训练样本以及与所述第五文本数据训练样本对应的标签,对所述预训练后标签预测模型进行训练更新,得到训练完成的标签预测模型;
采用所述训练完成的标签预测模型,对所述无标签文本数据进行标签预测,得到所述无标签文本数据的伪标签。
7.一种数据处理方法,所述方法包括:
获取待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
8.根据权利要求7所述的方法,其中,所述获取待处理文本数据,包括:
获取线上日志回流的文本数据,作为待处理文本数据;
在所述获取所述文本后处理模型输出的处理后文本数据之后,所述方法还包括:
基于所述待处理文本数据以及所述处理后文本数据,对权利要求1-6任一项中所述的更新后模型进行训练更新,得到过渡模型;
基于第六文本数据训练样本以及与所述第六文本数据训练样本对应的标签,对所述过渡模型进行训练更新,得到热备模型;
分别计算所述热备模型和所述文本后处理模型的准确率;
当所述文本后处理模型的准确率低于所述热备模型的准确率时,采用所述热备模型作为新的文本后处理模型以进行下一次文本后处理操作。
9.根据权利要求8所述的方法,其中,在所述分别计算所述热备模型和所述文本后处理模型的准确率之后,所述方法还包括:
当所述热备模型的准确率低于所述文本后处理模型的准确率时,采用所述文本后处理模型进行下一次文本后处理操作。
10.根据权利要求8或9所述的方法,其中,所述分别计算所述热备模型和所述文本后处理模型的准确率,包括:
获取第七文本数据训练样本以及与所述第七文本数据训练样本对应的标签;
基于所述第七文本数据训练样本以及与所述第七文本数据训练样本对应的标签,分别计算所述热备模型和所述文本后处理模型的准确率。
11.一种数据处理方法,所述方法包括:
接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;
根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
12.一种数据处理方法,所述方法包括:
接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;
根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
13.一种数据处理方法,所述方法包括:
接收公有云客户端上传的语音数据;
对所述语音数据进行文本转换,得到待处理文本数据;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
14.根据权利要求13所述的方法,所述方法还包括:
向所述公有云客户端返回所述处理后文本数据。
15.一种数据处理方法,所述方法包括:
接收公有云客户端上传的待处理文本数据,其中,所述待处理文本数据为所述公有云客户端对接收到的语音数据进行文本转换之后得到的;
将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
16.根据权利要求15所述的方法,所述方法还包括:
向所述公有云客户端返回所述处理后文本数据。
17.一种数据处理装置,所述装置包括:
模型预训练模块,用于采用第一文本数据训练样本以及与所述第一文本数据训练样本对应的标签,对文本后处理模型进行预训练,得到预训练模型;
无标签文本数据及伪标签获取模块,用于获取无标签文本数据及对所述无标签文本数据进行处理后得到的所述无标签文本数据的伪标签;
第一训练更新模块,用于基于所述无标签文本数据和所述伪标签,对所述预训练模型进行训练更新,得到更新后模型;
第二训练更新模块,用于基于第二文本数据训练样本以及与所述第二文本数据训练样本对应的标签,对所述更新后模型进行训练更新,得到训练完成的文本后处理模型。
18.一种数据处理装置,所述装置包括:
待处理文本数据获取模块,用于获取待处理文本数据;
第一处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
19.一种数据处理装置,所述装置包括:
第一指令接收模块,用于接收到通过即时通信应用的界面输入的、用于指示将输入的语音数据转换为文本数据的指令;
第一文本转换模块,用于根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
第二处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
20.一种数据处理装置,所述装置包括:
第二指令接收模块,用于接收到通过一体机设备输入设置的、用于指示将输入的语音数据转换为文本数据的指令;
第二文本转换模块,用于根据所述指令对所述语音数据进行文本转换,得到待处理文本数据;
第三处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
21.一种数据处理装置,所述装置包括:
语音数据接收模块,用于接收公有云客户端上传的语音数据;
第三文本转换模块,用于对所述语音数据进行文本转换,得到待处理文本数据;
第四处理后文本数据获取模块,将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
22.根据权利要求21所述的装置,所述装置还包括:
第一处理后文本数据返回模块,用于向所述公有云客户端返回所述处理后文本数据。
23.一种数据处理装置,所述装置包括:
待处理文本数据接收模块,用于接收公有云客户端上传的待处理文本数据,其中,所述待处理文本数据为所述公有云客户端对接收到的语音数据进行文本转换之后得到的;
第五处理后文本数据获取模块,用于将所述待处理文本数据输入文本后处理模型,获取所述文本后处理模型输出的处理后文本数据;其中,所述文本后处理模型基于权利要求1-6任一所述的方法得到。
24.根据权利要求23所述的装置,所述装置还包括:
第二处理后文本数据返回模块,用于向所述公有云客户端返回所述处理后文本数据。
25.一种电子设备,其特征在于,包括:处理器;以及被配置成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述权利要求1至6任一所述的方法,或权利要求7-16任一所述的方法。
26.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被执行时实现上述权利要求1至6任一所述的方法,或权利要求7-16任一所述的方法。
27.一种计算机程序,其特征在于,所述计算机程序包含计算机可执行指令,所述计算机可执行指令在被执行时实现上述权利要求1至6任一所述的方法,或权利要求7-16任一所述的方法。
CN202011482703.4A 2020-12-15 2020-12-15 数据处理方法、装置、电子设备及存储介质 Pending CN114637843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011482703.4A CN114637843A (zh) 2020-12-15 2020-12-15 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011482703.4A CN114637843A (zh) 2020-12-15 2020-12-15 数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114637843A true CN114637843A (zh) 2022-06-17

Family

ID=81944636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011482703.4A Pending CN114637843A (zh) 2020-12-15 2020-12-15 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114637843A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687935A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 语音识别的后处理方法、装置、设备及存储介质
CN116072096A (zh) * 2022-08-10 2023-05-05 荣耀终端有限公司 模型训练方法、声学模型、语音合成系统和电子设备
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072096A (zh) * 2022-08-10 2023-05-05 荣耀终端有限公司 模型训练方法、声学模型、语音合成系统和电子设备
CN116072096B (zh) * 2022-08-10 2023-10-20 荣耀终端有限公司 模型训练方法、声学模型、语音合成系统和电子设备
CN115687935A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 语音识别的后处理方法、装置、设备及存储介质
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备
CN117558296B (zh) * 2024-01-11 2024-04-09 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Similar Documents

Publication Publication Date Title
CN107657017B (zh) 用于提供语音服务的方法和装置
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN110046254B (zh) 用于生成模型的方法和装置
CN114637843A (zh) 数据处理方法、装置、电子设备及存储介质
CN111428010B (zh) 人机智能问答的方法和装置
CN111984779B (zh) 一种对话文本分析方法、装置、设备和可读介质
CN111143535A (zh) 用于生成对话模型的方法和装置
CN108090218B (zh) 基于深度强化学习的对话系统生成方法和装置
CN107656996B (zh) 基于人工智能的人机交互方法和装置
CN111061881A (zh) 文本分类方法、设备及存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN109190123B (zh) 用于输出信息的方法和装置
CN113408507B (zh) 基于履历文件的命名实体识别方法、装置和电子设备
US20210004603A1 (en) Method and apparatus for determining (raw) video materials for news
CN114444508A (zh) 日期识别方法、装置、可读介质及电子设备
CN117149140B (zh) 一种用于编码的架构信息生成方法、装置及相关设备
CN113111167A (zh) 基于深度学习模型的接处警文本车辆型号提取方法和装置
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN110852103A (zh) 一种命名实体识别方法及装置
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN116821327A (zh) 文本数据处理方法、装置、设备、可读存储介质及产品
CN110728137B (zh) 用于分词的方法和装置
CN111899718A (zh) 用于识别合成语音的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination