CN111258991B - 一种数据处理方法、装置及存储介质 - Google Patents

一种数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111258991B
CN111258991B CN202010019023.2A CN202010019023A CN111258991B CN 111258991 B CN111258991 B CN 111258991B CN 202010019023 A CN202010019023 A CN 202010019023A CN 111258991 B CN111258991 B CN 111258991B
Authority
CN
China
Prior art keywords
data
training
standard
training set
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010019023.2A
Other languages
English (en)
Other versions
CN111258991A (zh
Inventor
肖克聪
崔志
崔建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010019023.2A priority Critical patent/CN111258991B/zh
Publication of CN111258991A publication Critical patent/CN111258991A/zh
Application granted granted Critical
Publication of CN111258991B publication Critical patent/CN111258991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种数据处理方法。获取预备输出的第一数据;利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;输出所述第二数据。本发明还公开了一种数据处理装置、存储介质。

Description

一种数据处理方法、装置及存储介质
技术领域
本发明涉及计算机应用技术,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
人机对话领域中,人工智能经常使用预存的语言材料。语言材料可以从网络资源中收集而来,但是收集的语言材料情况复杂,常有非口语话的语言材料。为了使人工智能的对话能达到人与人之间的真实口语对话的体验,通常需要将收集的语言材料中的非口语语言材料清洗,即去除非口语语言材料。语言材料的清洗通常由人工处理。人工清洗对清洗人员提出了较高的能力要求,并且预先需要定制大量清洗规则。
发明内容
为克服相关技术中存在的问题,本发明提供一种数据处理方法、装置及存储介质。
根据本发明实施例的第一方面,提供一种数据处理方法,包括:
获取预备输出的第一数据;
利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;
输出所述第二数据。
在一个实施例中,所述利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据,包括:
采用所述数据模型确定所述第一数据中待确定数据的困惑度(PPL,Perplexity),其中,所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度;
去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据,得到所述第二数据。
在一个实施例中,所述方法还包括:
将所述第二数据作为训练样本加入训练集;
利用所述训练集包含的训练样本,优化训练所述数据模型。
在一个实施例中,所述方法还包括:
确定所述训练集是否达标;
所述获取预备输出的第一数据,包括:
响应于所述训练集未达标,获取预备输出的所述第一数据;
所述利用所述第二数据优化训练所述数据模型,包括:
响应于所述训练集未达标,利用所述训练集包含的训练样本继续训练所述数据模型。
在一个实施例中,所述方法还包括:
输出所述训练集中的训练样本,并检测针对于所述训练样本的达标指示操作;
若检测到所述达标指示操作,确定对应的所述训练样本达标;
所述确定所述训练集是否达标,包括:
确定所述训练集中达标的所述训练样本的数量是否达到数量阈值;
当所述训练集中达标的所述训练样本的数量达到所述数量阈值时,确定所述训练集达标。
在一个实施例中,所述方法还包括:
当所述训练集达标时,停止所述数据模型的优化训练。
在一个实施例中,所述获取预备输出的第一数据,包括:
获取人机对话场景下设备预备输出的对话数据。
根据本发明实施例的第二方面,提供一种数据处理装置,包括:获取模块、筛选模块和输出模块,其中,
所述获取模块,用于获取预备输出的第一数据;
所述筛选模块,用于利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;
所述输出模块,用于输出所述第二数据。
在一个实施例中,所述筛选模块,包括:
筛选子模块,用于采用所述数据模型确定所述第一数据中待确定数据的困惑度PPL,其中,所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度;
去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据,得到所述第二数据。
在一个实施例中,所述装置还包括:
训练模块,用于将所述第二数据作为训练样本加入训练集;
利用所述训练集包含的训练样本,优化训练所述数据模型。
在一个实施例中,所述装置还包括:
确定模块,用于确定所述训练集是否达标;
所述获取模块,包括:
获取子模块,用于响应于所述训练集未达标,获取预备输出的所述第一数据;
所述训练模块,包括:
训练子模块,用于响应于所述训练集未达标,利用所述训练集包含的训练样本继续训练所述数据模型。
在一个实施例中,所述装置还包括:
检测模块,用于输出所述训练集中的训练样本,并检测针对于所述训练样本的达标指示操作;若检测到所述达标指示操作,确定对应的所述训练样本达标;
所述确定模块,包括:
确定子模块,用于确定所述训练集中达标的所述训练样本的数量是否达到数量阈值;
当所述训练集中达标的所述训练样本的数量达到所述数量阈值时,确定所述训练集达标。
在一个实施例中,所述装置还包括:
停止模块,用于当所述训练集达标时,停止所述数据模型的优化训练。
在一个实施例中,所述获取预备输出的第一数据,包括:
获取人机对话场景下设备预备输出的对话数据。
根据本发明实施例的第三方面,提供一种数据处理装置,包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序,所述处理器运行所述可执行程序时执行如第一方面所述数据处理方法的步骤。
根据本发明实施例的第四方面,提供一种存储介质,其上存储由可执行程序,所述可执行程序被处理器执行时实现如第二方面所述数据处理方法的步骤。
根据本发明实施例的第四方面,提供一种存储介质,其上存储由可执行程序,所述可执行程序被处理器执行时实现如第一方面所述数据处理方法的步骤。
本发明实施例公开公开了一种数据处理方法、装置及存储介质;获取预备输出的第一数据;利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;输出所述第二数据。如此,通过采用口语化数据训练数据模型,使模型可以识别口语化数据,利用数据模型对第一数据中的语言材料数据进行清洗得到口语化数据。一方面,采用数据模型处理第一数据,相对人工筛选可以提高数据清洗的效率。另一方面,采用训练的数据模型进行清洗,相对采用固定的清洗规则,可以适应语言材料情况,使清洗更具灵活性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种数据处理方法的流程图;
图2是根据一示例性实施例示出的一种数据处理方法详细步骤流程图;
图3是根据一示例性实施例示出的一种数据处理装置的框图;
图4是根据一示例性实施例示出的一种用于数据处理的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
在本发明实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开实施例涉及的执行主体包括但不限于:具有数据运算处理能力的终端和电脑等。
本公开实施例的一种应用场景为,采用人工清洗需要语言材料时,逐条浏览大量数据,然后要结合相关语言学知识总结定制清洗规则。同时清洗规则通常比较固定,对于数据量较大的语言材料,清洗规则通常只能覆盖一小部分,不能有效的提升清洗效率。
例如,清洗规则可以包括:1、清洗长度超过10个字的;2、清洗主谓宾不完整的句子等。针对日常对话中“不告诉你”等省略主语的语言材料,会因为规则相对固定就会被清洗。并对针对“水喝了牛奶”等结构完整,但明显有错误的语言材料不能很好地筛选排除。
图1是根据一示例性实施例示出的一种数据处理方法的流程图,如图1所示,该方法包括以下具体步骤:
步骤101:获取预备输出的第一数据;
步骤102:利用使用口语化数据训练得到的数据模型,对第一数据中非口语数据进行清洗得到第二数据;
步骤103:输出第二数据。
这里,可以由终端和电脑等具有数据处理能力或人机交互能力的电子设备对执行数据处理方法。
步骤101中,第一数据可以是语言材料数据,可以包括一组或多组语言材料数据。预备输出的第一数据可以是后续可以出作为人机交互界面,如操作界面中语言材料库中的对话数据。预备输出的第一数据也可以是能直接输出作为人机对话的对话数据。
步骤102中,口语化数据可以是符合人类沟通语言习惯的语言数据。口语化数据可以是满足语法结构的语言数据;口语化数据也可以是在完整语法结构中省略部分元素的语言数据,例如:您在哪里;口语化数据还可以是在完整语法结构中省略部分元素的语言数据,例如:你好啊。非口语化数据是除口语化数据外的语言数据。非口语化数据可以是不符合人类沟通语言习惯的语言数据,例如:机械类语言数据,程序类语言数据等。。
步骤102中,数据模型可以是神经网络语言模型等,也可以称为神经语言模型,采用口语化数据训练的数据模型可以用于判断输入到数据模型中的语言材料数据是否符合人类语言的语序。
步骤102中,采用口语化数据训练数据模型,使数据模型具有区分语言材料数据是否符合人类语言的语言序列的能力,可以识别口语化数据和非口语化数据。其中,用于训练的口语化数据可以是预先确定的具有较高质量的口语化数据。
步骤102中,对第一数据中非口语数据进行清洗得到第二数据,可以是从第一数据中将非口语数据进行识别并去除得到第二数据。例如,采用训练过的数据模型对第一数据中的待确定数据进行区分,区分出口语化数据和非口语化数据,并将非口语化数据去除,得到第二数据。步骤103中,第二数据中的数据为口语化数据,可以作为人机对话的对话数据库,或者直接用于输出到人机对话界面。如此,通过采用口语化数据训练数据模型,使模型可以识别口语化数据,利用数据模型对第一数据中的语言材料数据进行清洗得到口语化数据。一方面,采用数据模型处理第一数据,相对人工筛选可以提高数据清洗的效率。另一方面,采用训练的数据模型进行清洗,相对采用固定的清洗规则,可以适应语言材料情况,使清洗更具灵活性。
在一个实施例中,步骤102可以包括:采用数据模型确定第一数据中待确定数据的困惑度PPL,其中,PPL用于指示对应待确定数据为不确定口语化数据的程度;去除第一数据中PPL大于或等于PPL阈值的待确定数据,得到第二数据。
PPL可以用在自然语言处理领域中,PPL用于衡量口语化的指标。PPL越小,由不同词组成口语化的句子出现的概率就越高。
这里,可以预定PPL阈值,如果待确定数据的PPL小于PPL阈值,则确定待确定数据为口语化数据,如果待确定数据的PPL大于或等于PPL阈值,则确定待确定数据为非口语化数据。预定PPL阈值可以根据已知口语化数据确定。
在一个实施例中,数据处理方法还可以包括:将第二数据作为训练样本加入训练集;利用训练集包含的训练样本,优化训练数据模型。
这里,可以采用第二数据对数据模型进行优化训练。训练集可以包括首次训练数据模型的口语化数据。
第二数据为清洗得到的口语化数据,将第二数据加入数据模型进行训练,可以增加数据模型训练的训练样本数量,提高数据模型判断口语化数据的准确程度,以及增加数据模型对待确定数据的识别范围。
在一个实施例中,数据处理方法还包括:确定训练集是否达标;
步骤101可以包括:响应于所述训练集未达标,获取预备输出的所述第一数据;
利用第二数据优化训练数据模型,包括:在训练集未达标时,利用训练集包含的训练样本继续训练数据模型。
可以设置对训练集中训练样本的要求,例如,设置对训练集中各训练样本数量的需求、训练样本口语化程度的要求等。
当训练集未满足要求时,可以继续通过数据模型对第一数据进行清洗,得到第二数据,即口语化数据,并加入到训练集。其中,每次通过数据模型进行清洗的第一数据可以不同,如此可以加强清洗出的第二数据的差异性,进而可以提高训练集中训练样本的多样性,并可以提高数据模型训练效果。
这里,训练集可以作为人机对话的对话数据库,或者直接从中选择口语化数据并输出到人机对话界面。
在一个实施例中,数据处理方法还包括:
输出训练集中的训练样本,并检测针对于训练样本的达标指示操作;
若检测到达标指示操作,确定对应的训练样本达标;
确定训练集是否达标,包括:确定训练集中达标的训练样本的数量是否达到数量阈值;当训练集中达标的训练样本的数量达到数量阈值时,确定训练集达标。
这里,可以将训练集中的训练样本输出到其他具备评判训练样本是否达标的外部设备中。由外部设备等确定训练样本是否达标。当外部设备确定训练样本达标时,可以通过发送指令等方式指示训练样本达标。其中,外部设备自身可以具有神经网络等判断逻辑对训练样本进行判断。外部设备也可以将接收的训练样本在人机界面上显示,由判断人员确定训练样本是否达标,并接收判断人员操作指示确定训练样本是否达标。
这里,达标的训练样本可以是指确定为口语化的数据。训练集是否达标的判断标准可以是训练集的中确定为口语化的数据的数量是否达到数量阈值。
当口语化的数据的数量达到数量阈值时,外部设备确定训练集达标,并通过指令等方式,指示训练数据模型的电子设备。
在一个实施例中,数据处理方法还可以包括:当训练集达标时,停止数据模型的优化训练。
当训练集达标时,可以确定训练集具有的确定为口语化的数据的数量达到数量阈值,训练集中具有足够的口语化数据。训练集中的口语化数据可以满足人机交互的口语化输出的要求。
当训练集达标时,还可以确定数据模型已经采用的足够的训练样本完成了训练。由数据模型进行清洗的数据可以满足筛选要求。
这时,电子设备可以停止对数据模型的优化训练。
在一个实施例中,步骤101中获取预备输出的第一数据可以包括:获取人机对话场景下设备预备输出的对话数据。
这里,第一数据可以是用于人机对话中用于向用户等展示的多个对话数据。第一数据可以中可以包含有口语化数据也可以包含有非口语化数据等。
以下结合上述任意实施例提供一个具体示例:
本示例提供的数据处理方法,如图2所示,具体可以包括:
步骤201:提前标注好少量高质量的口语化数据作为训练集D0来启动数据清洗流程;
步骤202:确定训练集中训练样本数量,即口语化数据是否达到预定数量,确定口语化数据质量,如果不满足要求,则执行步骤203进行神经语言模型训练获取更多的口语化数据,否则结束流程,将口语化数据用于人机交互中采用的对话数据;
步骤203:采用训练集训练神经语言模型;
步骤204:采用语言模型对获取的语言材料数据进行判断。将PPL低于PPL阈值Ti的语言材料确定为口语化数据;并将确定的口语化数据加入训练集中,对神经语言模型进行新一轮训练。
本发明实施例还提供了一种数据处理装置,图3为本发明实施例提供的数据处理装置100的组成结构示意图;如图3所示,装置100包括:获取模块110、筛选模块120和输出模块130,其中,
获取模块110,用于获取预备输出的第一数据;
筛选模块120,用于利用使用口语化数据训练得到的数据模型,对第一数据中非口语数据进行清洗得到第二数据;
输出模块130,用于输出第二数据。
在一个实施例中,筛选模块120,包括:
筛选子模块121,用于采用数据模型确定第一数据中待确定数据的困惑度PPL,其中,PPL用于指示对应待确定数据为不确定口语化数据的程度;
去除第一数据中PPL大于或等于PPL阈值的待确定数据,得到第二数据。
在一个实施例中,装置100还包括:
训练模块140,用于将第二数据作为训练样本加入训练集;
利用训练集包含的训练样本,优化训练数据模型。
在一个实施例中,装置100还包括:
确定模块150,用于确定训练集是否达标;
所述获取模块110,包括:
获取子模块111,用于响应于所述训练集未达标,获取预备输出的所述第一数据;
训练模块140,包括:
训练子模块141,响应于训练集未达标,利用训练集包含的训练样本继续训练数据模型。
在一个实施例中,装置100还包括:
检测模块160,用于输出训练集中的训练样本,并检测针对于训练样本的达标指示操作;若检测到达标指示操作,确定对应的训练样本达标;
确定模块150,包括:
确定子模块151,用于确定训练集中达标的训练样本的数量是否达到数量阈值;
当训练集中达标的训练样本的数量达到数量阈值时,确定训练集达标。
在一个实施例中,装置100还包括:
停止模块160,用于当训练集达标时,停止数据模型的优化训练。
在一个实施例中,获取预备输出的第一数据,包括:
获取人机对话场景下设备预备输出的对话数据。
在示例性实施例中,获取模块110、筛选模块120、输出模块130、训练模块140、确定模块150和停止模块160等可以被一个或多个中央处理器(CPU,Central ProcessingUnit)、图形处理器(GPU,Graphics Processing Unit)、基带处理器(基带处理器,basebandp rocessor)、应用专用集成电路(ASIC,应用处理器plication Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(C PLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,也可以结合一个或多个射频(RF,r adiofrequency)天线实现,用于执行前述方法。
图4是根据一示例性实施例示出的一种用于数据处理的装置3000的框图。例如,装置3000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置3000可以包括以下一个或多个组件:处理组件3002,存储器3004,电源组件3006,多媒体组件3008,音频组件3010,输入/输出(I/O)的接口3012,传感器组件3014,以及通信组件3016。
处理组件3002通常控制装置3000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件3002可以包括一个或多个处理器3020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件3002可以包括一个或多个模块,便于处理组件3002和其他组件之间的交互。例如,处理组件3002可以包括多媒体模块,以方便多媒体组件3008和处理组件3002之间的交互。
存储器3004被配置为存储各种类型的数据以支持在设备3000的操作。这些数据的示例包括用于在装置3000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器3004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件3006为装置3000的各种组件提供电力。电源组件3006可以包括电源管理系统,一个或多个电源,及其他与为装置3000生成、管理和分配电力相关联的组件。
多媒体组件3008包括在装置3000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件3008包括一个前置摄像头和/或后置摄像头。当设备3000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件3010被配置为输出和/或输入音频信号。例如,音频组件3010包括一个麦克风(MIC),当装置3000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器3004或经由通信组件3016发送。在一些实施例中,音频组件3010还包括一个扬声器,用于输出音频信号。
I/O接口3012为处理组件3002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件3014包括一个或多个传感器,用于为装置3000提供各个方面的状态评估。例如,传感器组件3014可以检测到设备3000的打开/关闭状态,组件的相对定位,例如组件为装置3000的显示器和小键盘,传感器组件3014还可以检测装置3000或装置3000一个组件的位置改变,用户与装置3000接触的存在或不存在,装置3000方位或加速/减速和装置3000的温度变化。传感器组件3014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件3014还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件3014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件3016被配置为便于装置3000和其他设备之间有线或无线方式的通信。装置3000可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件3016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件3016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置3000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器3004,上述指令可由装置3000的处理器3020执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明实施例的其它实施方案。本申请旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本公开实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明实施例的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求来限制。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取预备输出的第一数据;
利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;
输出所述第二数据;
其中,所述利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据,包括:采用所述数据模型确定所述第一数据中待确定数据的困惑度PPL,其中,所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度;去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据,得到所述第二数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第二数据作为训练样本加入训练集;
利用所述训练集包含的训练样本,优化训练所述数据模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述训练集是否达标;
所述获取预备输出的第一数据,包括:
响应于所述训练集未达标,获取预备输出的所述第一数据;
所述利用所述第二数据优化训练所述数据模型,包括:
响应于所述训练集未达标,利用所述训练集包含的训练样本继续训练所述数据模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
输出所述训练集中的训练样本,并检测针对于所述训练样本的达标指示操作;
若检测到所述达标指示操作,确定对应的所述训练样本达标;
所述确定所述训练集是否达标,包括:
确定所述训练集中达标的所述训练样本的数量是否达到数量阈值;
当所述训练集中达标的所述训练样本的数量达到所述数量阈值时,确定所述训练集达标。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述训练集达标时,停止所述数据模型的优化训练。
6.根据权利要求1所述的方法,其特征在于,所述获取预备输出的第一数据,包括:
获取人机对话场景下设备预备输出的对话数据。
7.一种数据处理装置,其特征在于,包括:获取模块、筛选模块和输出模块,其中,
所述获取模块,用于获取预备输出的第一数据;
所述筛选模块,用于利用使用口语化数据训练得到的数据模型,对所述第一数据中非口语数据进行清洗得到第二数据;
所述输出模块,用于输出所述第二数据;
所述筛选模块,包括:筛选子模块,用于采用所述数据模型确定所述第一数据中待确定数据的困惑度PPL,其中,所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度;去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据,得到所述第二数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于将所述第二数据作为训练样本加入训练集;
利用所述训练集包含的训练样本,优化训练所述数据模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
确定模块,用于确定所述训练集是否达标;
所述获取模块,包括:
获取子模块,用于响应于所述训练集未达标,获取预备输出的所述第一数据;
所述训练模块,包括:
响应于所述训练集未达标,利用所述训练集包含的训练样本继续训练所述数据模型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
检测模块,用于输出所述训练集中的训练样本,并检测针对于所述训练样本的达标指示操作;若检测到所述达标指示操作,确定对应的所述训练样本达标;
所述确定模块,包括:
确定子模块,用于确定所述训练集中达标的所述训练样本的数量是否达到数量阈值;
当所述训练集中达标的所述训练样本的数量达到所述数量阈值时,确定所述训练集达标。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
停止模块,用于当所述训练集达标时,停止所述数据模型的优化训练。
12.根据权利要求7所述的装置,其特征在于,所述获取预备输出的第一数据,包括:
获取人机对话场景下设备预备输出的对话数据。
13.一种数据处理装置,包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序,其特征在于,所述处理器运行所述可执行程序时执行如权利要求1至6任一项所述数据处理方法的步骤。
14.一种存储介质,其上存储由可执行程序,其特征在于,所述可执行程序被处理器执行时实现如权利要求1至6任一项所述数据处理方法的步骤。
CN202010019023.2A 2020-01-08 一种数据处理方法、装置及存储介质 Active CN111258991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010019023.2A CN111258991B (zh) 2020-01-08 一种数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010019023.2A CN111258991B (zh) 2020-01-08 一种数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111258991A CN111258991A (zh) 2020-06-09
CN111258991B true CN111258991B (zh) 2023-11-07

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置
WO2019214365A1 (zh) * 2018-05-10 2019-11-14 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
WO2019214365A1 (zh) * 2018-05-10 2019-11-14 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
黄沛杰;王俊东;柯子烜;林丕源.限定领域口语对话系统中超出领域话语的对话行为识别.中文信息学报.(第06期),全文. *
黄沛杰;王俊东;柯子烜;林丕源.限定领域口语对话系统中超出领域话语的对话行为识别.中文信息学报.2016,(06),全文. *

Similar Documents

Publication Publication Date Title
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN109243430B (zh) 一种语音识别方法及装置
CN111126009A (zh) 表单填写方法、装置、终端设备及存储介质
EP3933570A1 (en) Method and apparatus for controlling a voice assistant, and computer-readable storage medium
CN110874145A (zh) 一种输入方法、装置及电子设备
EP3171279A1 (en) Method and device for input processing
EP3779968A1 (en) Audio processing
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
CN106202150A (zh) 信息显示方法及装置
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
US11335348B2 (en) Input method, device, apparatus, and storage medium
US20210287011A1 (en) Information interaction method and apparatus, electronic device, and storage medium
CN110992989A (zh) 语音采集方法、装置及计算机可读存储介质
CN111580773B (zh) 信息处理方法、装置及存储介质
CN106603381A (zh) 处理聊天信息的方法及装置
CN112884040B (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN113342792A (zh) 数据清洗方法、装置、存储介质及电子设备
CN111258991B (zh) 一种数据处理方法、装置及存储介质
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN112631435A (zh) 一种输入方法、装置、设备及存储介质
CN107122801B (zh) 图像分类的方法和装置
CN117642817A (zh) 识别音频数据类别的方法、装置及存储介质
CN111667829B (zh) 信息处理方法及装置、存储介质
CN111258991A (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing

Applicant after: Beijing Xiaomi pinecone Electronic Co.,Ltd.

Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing

Applicant before: BEIJING PINECONE ELECTRONICS Co.,Ltd.

GR01 Patent grant