CN104346406A - 训练语料扩充装置和训练语料扩充方法 - Google Patents

训练语料扩充装置和训练语料扩充方法 Download PDF

Info

Publication number
CN104346406A
CN104346406A CN201310344326.1A CN201310344326A CN104346406A CN 104346406 A CN104346406 A CN 104346406A CN 201310344326 A CN201310344326 A CN 201310344326A CN 104346406 A CN104346406 A CN 104346406A
Authority
CN
China
Prior art keywords
language material
material sample
expansion
sample
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310344326.1A
Other languages
English (en)
Other versions
CN104346406B (zh
Inventor
赫亮
董宁
叶茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310344326.1A priority Critical patent/CN104346406B/zh
Publication of CN104346406A publication Critical patent/CN104346406A/zh
Application granted granted Critical
Publication of CN104346406B publication Critical patent/CN104346406B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种训练语料扩充装置,包括:筛选单元,根据预设的语料筛选条件筛选出初始语料样本;扩充单元,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本,以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。相应地,本发明还提供了一种训练语料扩充方法,通过本发明的技术方案,可以通过自动化的方式对大规模的训练语料进行机器标注,从而大大节省制作大规模训练语料的时间周期和成本,并且可提高标注准确率。

Description

训练语料扩充装置和训练语料扩充方法
技术领域
本发明涉及语料处理技术领域,具体而言,涉及一种训练语料扩充装置和一种训练语料扩充方法。
背景技术
在文本挖掘分类系统中,需要事先采集一定量的观测数据作为样本,用于训练机器学习的模型,在有些应用场景下,例如大规模文本分类系统,需要的样本数据量庞大。
由于大规模文本分类系统需要的训练样本数据量庞大,为了加大数据量,通常采用人工标注的办法进行加工,而人工标注的方法需要相当长的加工周期和巨大的加工成本。
因此需要一种新的语料标注方案,可以通过自动化的方式对大规模的训练语料进行机器标注,从而大大节省制作大规模训练语料的时间周期和成本。
发明内容
本发明正是基于上述问题,提出了一种新的语料标注技术,可以通过自动化的方式对大规模的训练语料进行机器标注,从而大大节省制作大规模训练语料的时间周期和成本。
有鉴于此,本发明提出了一种训练语料扩充装置,包括:筛选单元,根据预设的语料筛选条件筛选出初始语料样本;扩充单元,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本,以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
在该技术方案中,根据筛选出的初始语料样本,可以对语料进行扩充,从而不需要人工阅读后再一一标注语料,直接可以自动扩充语料,同时,扩充后得到的扩充语料样本可以再次使用扩充策略进行扩充,从而能够基于小量的语料获取大规模的语料,这样大大节省了制作大规模语料的时间周期和成本。
根据本发明的又一方面,还提供了一种训练语料扩充方法,包括:步骤202,根据预设的语料筛选条件筛选出初始语料样本;步骤204,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本;步骤206,基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
在该技术方案中,根据筛选出的初始语料样本,可以对语料进行扩充,从而不需要人工阅读后再一一标注语料,直接可以自动扩充语料,同时,扩充后得到的扩充语料样本可以再次使用扩充策略进行扩充,从而能够基于小量的语料获取大规模的语料,这样大大节省了制作大规模语料的时间周期和成本。
附图说明
图1示出了根据本发明的实施例的训练语料扩充装置的框图;
图2示出了根据本发明的实施例的训练语料扩充方法的流程图;
图3示出了根据本发明的实施例的训练语料扩充方法的具体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在详细说明根据本发明的实施例之前,对实施例中涉及的名词做一些简单地解释:
筛选条件,在获取初始语料样本时,可理解为设定的检索条件,例如两个检索关键词组成的检索条件“2008”、“北京奥运”。
初始语料样本,为获得大规模的语料样本首先需要获取初始语料样本并将其作为扩充的基础条件,该初始语料样本可以是根据检索条件检索出的文档集合、语句集合或词集合。
扩充策略,在获取初始语料样本后,需按照一定的扩充策略来获取大量的语料样本,该扩充策略可以是删除错误的语料样本或某特定算法。
图1示出了根据本发明的实施例的训练语料扩充装置的框图。
如图1所示,根据本发明的实施例的训练语料扩充装置100,包括:筛选单元102,根据预设的语料筛选条件筛选出初始语料样本;扩充单元104,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本,以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
在该技术方案中,根据筛选出的初始语料样本,可以对语料进行扩充,从而不需要人工阅读后再一一标注语料,直接可以自动扩充语料,同时,扩充后得到的扩充语料样本可以再次使用扩充策略进行扩充,从而能够基于小量的语料获取大规模的语料,这样大大节省了制作大规模语料的时间周期和成本。
在上述技术方案中,优选地,所述扩充单元104还用于将所述扩充语料样本作为逻辑回归的输入语料,其中所述扩充策略为逻辑回归算法。
在该技术方案中,扩充策略为逻辑回归算法,那么将初始语料样本作为逻辑回归算法的输入,最后可以标识得到扩充语料样本,而得到的扩充语料样本,可以继续作为逻辑回归算法的输入,再得到更多的扩充语料样本,这样不断重复上述步骤,即可得到需求数量的语料。
在上述技术方案中,优选地,所述扩充单元104还用于根据所述扩充语料样本建立语料扩充模型,基于所述语料扩充模型在被收集的语料中进行标识,得到新的扩充语料样本。
在该技术方案中,将扩充语料样本作为逻辑回归算法的输入,这样可以得到语料扩充模型,根据语料扩充模型即可以在被收集的语料中标识出更多的新的扩充语料,而扩充语料样本不同,即逻辑回归算法的输入不同,其输出也必然不同,这样,随着扩充语料样本的变化,得到的新的扩充语料也会有所变化,从而得到更多数量的扩充语料。
在上述技术方案中,优选地,还可以包括:计算单元106,采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率;判断单元108,将所述整体样本的准确率与预设准确率进行比较,在所述整体样本的准确率小于所述第一预设准确率时,判定准确率小于第二预设准确率的分类语料样本;所述扩充单元104对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识,得到校验后的扩充语料样本。
在该技术方案中,在获取扩充语料样本后,需对该扩充语料样本进行质量验证,若不达标,则对扩充语料样本进行校正,从而可以保证后续获得的大规模语料样本的准确性。扩充语料样本中可能包含不同分类的语料样本,而在每个分类语料样本中,又可能存在多个子分类语料样本(如在扩充语料样本中,可能包含体育、音乐、军事等分类语料样本,而在每个分类语料样本中,如在体育分类语料样本中,又可能包含球类、田径类等子分类语料样本)。因此,为了保证得到的扩充语料的准确率,需要对得到的扩充语料样本进行校验,根据贝叶斯算法计算出每个分类语料样本的准确率和整体样本的准确率,并将其与预设准确度进行比较,判断出哪些扩充语料可以保留,哪些扩充语料应该被删除,并删除需要删除的语料。
在上述技术方案中,优选地,还可以包括:统计单元110,统计所述扩充单元得到的所述扩充语料样本的数量,在所述数量达到预设数量时,停止扩充语料样本。
在该技术方案中,用户可以预设扩充语料样本的数量,例如用户预设数量是1000,那么在扩充语料样本的数量未达到1000时,系统会不断对语料进行扩充,但是当扩充语料样本的数量达到1000时,就会停止扩充,这样,可以自动得到用户需求的数量的扩充语料,而不需要人工进行语料的标注。
图2示出了根据本发明的实施例的训练语料扩充方法的流程图。
如图2所示,根据本发明的实施例的训练语料扩充方法,包括:步骤202,根据预设的语料筛选条件筛选出初始语料样本;步骤204,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本;步骤206,基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
在该技术方案中,根据筛选出的初始语料样本,可以对语料进行扩充,从而不需要人工阅读后再一一标注语料,直接可以自动扩充语料,同时,扩充后得到的扩充语料样本可以再次使用扩充策略进行扩充,从而能够基于小量的语料获取大规模的语料,这样大大节省了制作大规模语料的时间周期和成本。
在上述技术方案中,优选地,所述步骤206具体包括:所述扩充策略为逻辑回归算法;将所述扩充语料样本作为逻辑回归的输入语料。
在该技术方案中,扩充策略为逻辑回归算法,那么将初始语料样本作为逻辑回归算法的输入,最后可以标识得到扩充语料样本,而得到的扩充语料样本,可以继续作为逻辑回归算法的输入,再得到更多的扩充语料样本,这样不断重复上述步骤,即可得到需求数量的语料。
在上述技术方案中,优选地,根据所述扩充语料样本建立语料扩充模型,基于所述语料扩充模型在被收集的语料中进行标识,得到新的扩充语料样本。
在该技术方案中,将扩充语料样本作为逻辑回归算法的输入,这样可以得到语料扩充模型,根据语料扩充模型即可以在被收集的语料中标识出更多的新的扩充语料,而扩充语料样本不同,即逻辑回归算法的输入不同,其输出也必然不同,这样,随着扩充语料样本的变化,得到的新的扩充语料也会有所变化,从而得到更多数量的扩充语料。
在上述技术方案中,优选地,所述步骤204还可以包括:采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率;将所述整体样本的准确率与预设准确率进行比较,在所述整体样本的准确率小于所述第一预设准确率时,判定准确率小于第二预设准确率的分类语料样本;对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识,得到校验后的扩充语料样本。
在该技术方案中,扩充语料样本中可能包含不同分类的语料样本,而在每个分类语料样本中,又可能存在多个子分类语料样本(如在扩充语料样本中,可能包含体育、音乐、军事等分类语料样本,而在每个分类语料样本中,如在体育分类语料样本中,又可能包含球类、田径类等子分类语料样本)。因此,为了保证得到的扩充语料的准确率,需要对得到的扩充语料样本进行校验,根据贝叶斯算法计算出每个分类语料样本的准确率和整体样本的准确率,并将其与预设准确度进行比较,判断出哪些扩充语料可以保留,哪些扩充语料应该被删除,并删除需要删除的语料。
在上述技术方案中,优选地,还包括:步骤208,统计得到的所述扩充语料样本的数量,在所述数量达到预设数量时,停止扩充语料样本。
在该技术方案中,用户可以预设扩充语料样本的数量,比如用户预设数量是1000,那么在扩充语料样本的数量未达到1000时,系统会不断对语料进行扩充,但是当扩充语料样本的数量达到1000时,就会停止扩充,这样,可以自动得到用户需求的数量的扩充语料,而不需要人工进行语料的标注。
图3示出了根据本发明的实施例的训练语料扩充方法的流程图。
如图3所示,根据本发明的实施例的训练语料扩充方法的流程如下:
步骤302,编写规则生成器,提取少量的训练语料。通过编写基本的规则使用文本匹配的办法制作出最初的原始文档集合。规则可以通过编写关键字检索的方式生成,例如同时出现“北京奥运”和“20080808”两个词,就是一个基本规则,这个规则用于判定属于2008年北京奥运会分类的文档。通过编写规则生成器降低人工标注的工作时间和人力成本。
步骤304,对提取的少量的训练语料进行再次判断,剔除错误的训练语料。
对于训练语料的判断,可以使用机器通过判断条件自动判断,当然,如果不放心机器的判断结果,也可以人工进行判断,例如,专业领域的研究人员根据自身的经验和知识判定在上述规则生成的文档是否属于某个分类,如果判定为否,则将文档剔除出此分类。这样可以保证所制作的小规模语料的精确度。
步骤306,使用逻辑回归算法将步骤304得到的训练语料进行处理并得到标识模型。使用逻辑回归算法分类器在小规模训练语料上进行建模,将上述挑选的少量训练语料作为逻辑回归算法分类器的输入,从而输出训练语料的标识模型。
步骤308,利用标识模型在大量的文档中进行标识,得到更多的文档语料集合。
步骤310,使用贝叶斯算法对得到的大规模训练语料进行验证。利用贝叶斯算法的偏歧性,通过计算标识模型测算结果的错误率,可以得到整体模型的错误率以及大规模训练预料中每个分类的准确率。如果某个分类的准确率低于阀值,则说明此分类的文档需要进一步的筛选。
为了保证训练语料的准确性,对训练语料进行验证后,根据验证结果来剔除错误的训练语料。
步骤312,对进行剔除处理后得到的训练语料的数量进行统计,如果训练语料的数量达到预设数量,则将这些训练语料作为规模语料。
如果训练语料的数量未达到预设数量,则继续回到步骤306,使用逻辑回归算法对进验证处理后得到的训练语料进行处理,得到新的标识模型,通过新的标识模型标记更大规模的训练语料。这样重复上述的步骤,直到训练语料的数量达到预设的数量为止。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,能够以较低的成本方便地从电子资源中自动扩充训练语料,提高训练语料的数据规模,并且采用贝叶斯算法对获取的扩充样本进行校验,基于校验后的扩充样本继续进行语料获取,从而提高了所扩充的训练语料的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种训练语料扩充装置,其特征在于,包括:
筛选单元,根据预设的语料筛选条件筛选出初始语料样本;
扩充单元,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本,以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
2.根据权利要求1所述的训练语料扩充装置,其特征在于,所述扩充单元还用于将所述扩充语料样本作为逻辑回归的输入语料,其中所述扩充策略为逻辑回归算法。
3.根据权利要求2所述的训练语料扩充装置,其特征在于,所述扩充单元还用于根据所述扩充语料样本建立语料扩充模型,基于所述语料扩充模型在被收集的语料中进行标识,得到新的扩充语料样本。
4.根据权利要求1所述的训练语料扩充装置,其特征在于,还包括:
计算单元,采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率;
判断单元,将所述整体样本的准确率与预设准确率进行比较,在所述整体样本的准确率小于所述第一预设准确率时,判定准确率小于第二预设准确率的分类语料样本;
所述扩充单元对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识,得到校验后的扩充语料样本。
5.根据权利要求1至4中任一项所述的训练语料扩充装置,其特征在于,还包括:
统计单元,统计所述扩充单元得到的所述扩充语料样本的数量,在所述数量达到预设数量时,停止扩充语料样本。
6.一种训练语料扩充方法,其特征在于,包括:
步骤202,根据预设的语料筛选条件筛选出初始语料样本;
步骤204,按照所述初始语料样本和扩充策略对被收集的语料进行标识,得到扩充语料样本;
步骤206,基于所述扩充语料样本和所述扩充策略再次进行语料扩充。
7.根据权利要求6所述的训练语料扩充方法,其特征在于,所述步骤206具体包括:
所述扩充策略为逻辑回归算法;
将所述扩充语料样本作为逻辑回归的输入语料。
8.根据权利要求7所述的训练语料扩充方法,其特征在于,根据所述扩充语料样本建立语料扩充模型,基于所述语料扩充模型在被收集的语料中进行标识,得到新的扩充语料样本。
9.根据权利要求6所述的训练语料扩充方法,其特征在于,所述步骤204还包括:
采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率;
将所述整体样本的准确率与预设准确率进行比较,在所述整体样本的准确率小于所述第一预设准确率时,判定准确率小于第二预设准确率的分类语料样本;
对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识,得到校验后的扩充语料样本。
10.根据权利要求6至9中任一项所述的训练语料扩充方法,其特征在于,还包括:
步骤208,统计得到的所述扩充语料样本的数量,在所述数量达到预设数量时,停止扩充语料样本。
CN201310344326.1A 2013-08-08 2013-08-08 训练语料扩充装置和训练语料扩充方法 Expired - Fee Related CN104346406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310344326.1A CN104346406B (zh) 2013-08-08 2013-08-08 训练语料扩充装置和训练语料扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344326.1A CN104346406B (zh) 2013-08-08 2013-08-08 训练语料扩充装置和训练语料扩充方法

Publications (2)

Publication Number Publication Date
CN104346406A true CN104346406A (zh) 2015-02-11
CN104346406B CN104346406B (zh) 2018-05-22

Family

ID=52502019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344326.1A Expired - Fee Related CN104346406B (zh) 2013-08-08 2013-08-08 训练语料扩充装置和训练语料扩充方法

Country Status (1)

Country Link
CN (1) CN104346406B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN107862344A (zh) * 2017-12-01 2018-03-30 中南大学 一种图像分类方法
CN107909088A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 获取训练样本的方法、装置、设备和计算机存储介质
CN108446321A (zh) * 2018-02-10 2018-08-24 武汉市灯塔互动文化传播有限公司 一种基于深度学习的自动问答方法
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN110188204A (zh) * 2019-06-11 2019-08-30 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
US10402494B2 (en) 2016-12-06 2019-09-03 Electronics And Telecommunications Research Institute System and method for automatically expanding input text
CN110298372A (zh) * 2018-03-23 2019-10-01 鼎捷软件股份有限公司 自动训练虚拟助理的方法及系统
CN110348509A (zh) * 2019-07-08 2019-10-18 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN110489517A (zh) * 2018-05-09 2019-11-22 鼎捷软件股份有限公司 虚拟助理的自动学习方法及系统
CN110704590A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN111241813A (zh) * 2020-04-29 2020-06-05 同盾控股有限公司 语料扩展方法、装置、设备及介质
CN111831823A (zh) * 2020-07-10 2020-10-27 湖北亿咖通科技有限公司 一种语料生成、模型训练方法
CN111831821A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本分类模型的训练样本生成方法、装置和电子设备
US11069346B2 (en) 2019-04-22 2021-07-20 International Business Machines Corporation Intent recognition model creation from randomized intent vector proximities
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114780731A (zh) * 2022-05-11 2022-07-22 平安科技(深圳)有限公司 文本的样本扩充方法、分类方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN102831131A (zh) * 2011-06-16 2012-12-19 富士通株式会社 构建标注网页语料库的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
US20080250015A1 (en) * 2005-09-29 2008-10-09 International Business Machines Corporation Corpus expansion system and method thereof
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN102831131A (zh) * 2011-06-16 2012-12-19 富士通株式会社 构建标注网页语料库的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑家恒等: "《智能信息处理—汉语语料库加工技术与应用》", 1 October 2010 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402494B2 (en) 2016-12-06 2019-09-03 Electronics And Telecommunications Research Institute System and method for automatically expanding input text
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN107909088B (zh) * 2017-09-27 2022-06-28 百度在线网络技术(北京)有限公司 获取训练样本的方法、装置、设备和计算机存储介质
CN107909088A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 获取训练样本的方法、装置、设备和计算机存储介质
CN107862344B (zh) * 2017-12-01 2021-06-11 中南大学 一种图像分类方法
CN107862344A (zh) * 2017-12-01 2018-03-30 中南大学 一种图像分类方法
CN108446321A (zh) * 2018-02-10 2018-08-24 武汉市灯塔互动文化传播有限公司 一种基于深度学习的自动问答方法
CN108460017B (zh) * 2018-02-28 2019-07-30 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN108460017A (zh) * 2018-02-28 2018-08-28 百度在线网络技术(北京)有限公司 语料泛化方法、装置、电子设备及可读存储介质
CN110298372B (zh) * 2018-03-23 2023-06-09 鼎捷软件股份有限公司 自动训练虚拟助理的方法及系统
CN110298372A (zh) * 2018-03-23 2019-10-01 鼎捷软件股份有限公司 自动训练虚拟助理的方法及系统
CN110489517A (zh) * 2018-05-09 2019-11-22 鼎捷软件股份有限公司 虚拟助理的自动学习方法及系统
CN110489517B (zh) * 2018-05-09 2023-10-31 鼎捷软件股份有限公司 虚拟助理的自动学习方法及系统
US11521602B2 (en) 2019-04-22 2022-12-06 International Business Machines Corporation Intent recognition model creation from randomized intent vector proximities
US11069346B2 (en) 2019-04-22 2021-07-20 International Business Machines Corporation Intent recognition model creation from randomized intent vector proximities
CN110188204A (zh) * 2019-06-11 2019-08-30 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110188204B (zh) * 2019-06-11 2022-10-04 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110348509A (zh) * 2019-07-08 2019-10-18 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN110348509B (zh) * 2019-07-08 2021-12-14 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN110704590B (zh) * 2019-09-27 2022-04-12 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN110704590A (zh) * 2019-09-27 2020-01-17 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN111241813A (zh) * 2020-04-29 2020-06-05 同盾控股有限公司 语料扩展方法、装置、设备及介质
CN111831821B (zh) * 2020-06-03 2024-01-09 北京百度网讯科技有限公司 文本分类模型的训练样本生成方法、装置和电子设备
CN111831821A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本分类模型的训练样本生成方法、装置和电子设备
CN111831823B (zh) * 2020-07-10 2022-05-13 亿咖通(湖北)技术有限公司 一种语料生成、模型训练方法
CN111831823A (zh) * 2020-07-10 2020-10-27 湖北亿咖通科技有限公司 一种语料生成、模型训练方法
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114330285B (zh) * 2021-11-30 2024-04-16 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114780731A (zh) * 2022-05-11 2022-07-22 平安科技(深圳)有限公司 文本的样本扩充方法、分类方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104346406B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN104346406A (zh) 训练语料扩充装置和训练语料扩充方法
CN109815991B (zh) 机器学习模型的训练方法、装置、电子设备及存储介质
CN110209764A (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN106156083A (zh) 一种领域知识处理方法及装置
CN105446864B (zh) 缓存文件删除影响的校验方法、装置及移动终端
CN108197668A (zh) 模型数据集的建立方法及云系统
CN110442847B (zh) 基于代码仓库过程管理的代码相似性检测方法及装置
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN105893551A (zh) 数据的处理方法及装置、知识图谱
CN110263934B (zh) 一种人工智能数据标注方法和装置
CN104866498A (zh) 一种信息处理方法及装置
CN104881495B (zh) 一种文件夹路径识别及文件夹清理方法及装置
CN107193915A (zh) 一种企业信息分类方法及装置
CN105824862A (zh) 一种基于电子设备的图片分类方法及电子设备
CN104268134A (zh) 一种主客观分类器构建方法和系统
CN106126719A (zh) 信息处理方法及装置
CN107491425A (zh) 确定方法、确定装置、计算机装置和计算机可读存储介质
CN107292193A (zh) 一种实现数据泄露防护的方法和系统
CN108268460A (zh) 一种基于大数据的自动选择最优模型的方法
CN105653546B (zh) 一种目标主题的检索方法和系统
CN105389471A (zh) 一种机器学习训练集缩减方法
CN111506504A (zh) 基于软件开发过程度量的软件安全性缺陷预测方法及装置
CN107579851A (zh) 确定资源编排模板的执行顺序的方法和装置
CN104751350B (zh) 一种信息显示方法及终端
CN105488599A (zh) 预测文章热度的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180522

CF01 Termination of patent right due to non-payment of annual fee