CN104346406A - 训练语料扩充装置和训练语料扩充方法 - Google Patents
训练语料扩充装置和训练语料扩充方法 Download PDFInfo
- Publication number
- CN104346406A CN104346406A CN201310344326.1A CN201310344326A CN104346406A CN 104346406 A CN104346406 A CN 104346406A CN 201310344326 A CN201310344326 A CN 201310344326A CN 104346406 A CN104346406 A CN 104346406A
- Authority
- CN
- China
- Prior art keywords
- corpus
- expansion
- sample
- accuracy rate
- language material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 title claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000007477 logistic regression Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 3
- 239000000463 material Substances 0.000 description 175
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000931705 Cicada Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310344326.1A CN104346406B (zh) | 2013-08-08 | 2013-08-08 | 训练语料扩充装置和训练语料扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310344326.1A CN104346406B (zh) | 2013-08-08 | 2013-08-08 | 训练语料扩充装置和训练语料扩充方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104346406A true CN104346406A (zh) | 2015-02-11 |
CN104346406B CN104346406B (zh) | 2018-05-22 |
Family
ID=52502019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310344326.1A Expired - Fee Related CN104346406B (zh) | 2013-08-08 | 2013-08-08 | 训练语料扩充装置和训练语料扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104346406B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526727A (zh) * | 2017-07-31 | 2017-12-29 | 苏州大学 | 基于统计机器翻译的语言生成方法 |
CN107862344A (zh) * | 2017-12-01 | 2018-03-30 | 中南大学 | 一种图像分类方法 |
CN107909088A (zh) * | 2017-09-27 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN108446321A (zh) * | 2018-02-10 | 2018-08-24 | 武汉市灯塔互动文化传播有限公司 | 一种基于深度学习的自动问答方法 |
CN108460017A (zh) * | 2018-02-28 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
US10402494B2 (en) | 2016-12-06 | 2019-09-03 | Electronics And Telecommunications Research Institute | System and method for automatically expanding input text |
CN110298372A (zh) * | 2018-03-23 | 2019-10-01 | 鼎捷软件股份有限公司 | 自动训练虚拟助理的方法及系统 |
CN110348509A (zh) * | 2019-07-08 | 2019-10-18 | 睿魔智能科技(深圳)有限公司 | 数据增广参数的调整方法、装置、设备及存储介质 |
CN110489517A (zh) * | 2018-05-09 | 2019-11-22 | 鼎捷软件股份有限公司 | 虚拟助理的自动学习方法及系统 |
CN110704590A (zh) * | 2019-09-27 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
CN111241813A (zh) * | 2020-04-29 | 2020-06-05 | 同盾控股有限公司 | 语料扩展方法、装置、设备及介质 |
CN111831821A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN111831823A (zh) * | 2020-07-10 | 2020-10-27 | 湖北亿咖通科技有限公司 | 一种语料生成、模型训练方法 |
US11069346B2 (en) | 2019-04-22 | 2021-07-20 | International Business Machines Corporation | Intent recognition model creation from randomized intent vector proximities |
CN114330285A (zh) * | 2021-11-30 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 语料处理方法、装置、电子设备及计算机可读存储介质 |
CN114780731A (zh) * | 2022-05-11 | 2022-07-22 | 平安科技(深圳)有限公司 | 文本的样本扩充方法、分类方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940915A (zh) * | 2005-09-29 | 2007-04-04 | 国际商业机器公司 | 训练语料扩充系统和方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN102831131A (zh) * | 2011-06-16 | 2012-12-19 | 富士通株式会社 | 构建标注网页语料库的方法及装置 |
-
2013
- 2013-08-08 CN CN201310344326.1A patent/CN104346406B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940915A (zh) * | 2005-09-29 | 2007-04-04 | 国际商业机器公司 | 训练语料扩充系统和方法 |
US20080250015A1 (en) * | 2005-09-29 | 2008-10-09 | International Business Machines Corporation | Corpus expansion system and method thereof |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN102831131A (zh) * | 2011-06-16 | 2012-12-19 | 富士通株式会社 | 构建标注网页语料库的方法及装置 |
Non-Patent Citations (1)
Title |
---|
郑家恒等: "《智能信息处理—汉语语料库加工技术与应用》", 1 October 2010 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402494B2 (en) | 2016-12-06 | 2019-09-03 | Electronics And Telecommunications Research Institute | System and method for automatically expanding input text |
CN107526727A (zh) * | 2017-07-31 | 2017-12-29 | 苏州大学 | 基于统计机器翻译的语言生成方法 |
CN107909088B (zh) * | 2017-09-27 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN107909088A (zh) * | 2017-09-27 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN107862344B (zh) * | 2017-12-01 | 2021-06-11 | 中南大学 | 一种图像分类方法 |
CN107862344A (zh) * | 2017-12-01 | 2018-03-30 | 中南大学 | 一种图像分类方法 |
CN108446321A (zh) * | 2018-02-10 | 2018-08-24 | 武汉市灯塔互动文化传播有限公司 | 一种基于深度学习的自动问答方法 |
CN108460017A (zh) * | 2018-02-28 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
CN108460017B (zh) * | 2018-02-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
CN110298372A (zh) * | 2018-03-23 | 2019-10-01 | 鼎捷软件股份有限公司 | 自动训练虚拟助理的方法及系统 |
CN110298372B (zh) * | 2018-03-23 | 2023-06-09 | 鼎捷软件股份有限公司 | 自动训练虚拟助理的方法及系统 |
CN110489517B (zh) * | 2018-05-09 | 2023-10-31 | 鼎捷软件股份有限公司 | 虚拟助理的自动学习方法及系统 |
CN110489517A (zh) * | 2018-05-09 | 2019-11-22 | 鼎捷软件股份有限公司 | 虚拟助理的自动学习方法及系统 |
US11069346B2 (en) | 2019-04-22 | 2021-07-20 | International Business Machines Corporation | Intent recognition model creation from randomized intent vector proximities |
US11521602B2 (en) | 2019-04-22 | 2022-12-06 | International Business Machines Corporation | Intent recognition model creation from randomized intent vector proximities |
CN110188204B (zh) * | 2019-06-11 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110348509B (zh) * | 2019-07-08 | 2021-12-14 | 睿魔智能科技(深圳)有限公司 | 数据增广参数的调整方法、装置、设备及存储介质 |
CN110348509A (zh) * | 2019-07-08 | 2019-10-18 | 睿魔智能科技(深圳)有限公司 | 数据增广参数的调整方法、装置、设备及存储介质 |
CN110704590A (zh) * | 2019-09-27 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
CN110704590B (zh) * | 2019-09-27 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
CN111241813A (zh) * | 2020-04-29 | 2020-06-05 | 同盾控股有限公司 | 语料扩展方法、装置、设备及介质 |
CN111831821A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN111831821B (zh) * | 2020-06-03 | 2024-01-09 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN111831823B (zh) * | 2020-07-10 | 2022-05-13 | 亿咖通(湖北)技术有限公司 | 一种语料生成、模型训练方法 |
CN111831823A (zh) * | 2020-07-10 | 2020-10-27 | 湖北亿咖通科技有限公司 | 一种语料生成、模型训练方法 |
CN114330285A (zh) * | 2021-11-30 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 语料处理方法、装置、电子设备及计算机可读存储介质 |
CN114330285B (zh) * | 2021-11-30 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语料处理方法、装置、电子设备及计算机可读存储介质 |
CN114780731A (zh) * | 2022-05-11 | 2022-07-22 | 平安科技(深圳)有限公司 | 文本的样本扩充方法、分类方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104346406B (zh) | 2018-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104346406A (zh) | 训练语料扩充装置和训练语料扩充方法 | |
CN109815991B (zh) | 机器学习模型的训练方法、装置、电子设备及存储介质 | |
CN107577942B (zh) | 一种用于Android恶意软件检测的混合特征筛选方法 | |
CN103136471B (zh) | 一种恶意Android应用程序检测方法和系统 | |
CN105809035B (zh) | 基于安卓应用实时行为的恶意软件检测方法和系统 | |
CN108897925A (zh) | 一种基于铸件缺陷预测模型的铸造工艺参数优化方法 | |
CN105446864B (zh) | 缓存文件删除影响的校验方法、装置及移动终端 | |
CN111782460A (zh) | 大规模日志数据的异常检测方法、装置和存储介质 | |
CN106156083A (zh) | 一种领域知识处理方法及装置 | |
CN107193915A (zh) | 一种企业信息分类方法及装置 | |
CN108268460A (zh) | 一种基于大数据的自动选择最优模型的方法 | |
CN107491425A (zh) | 确定方法、确定装置、计算机装置和计算机可读存储介质 | |
CN107292193A (zh) | 一种实现数据泄露防护的方法和系统 | |
CN105389471A (zh) | 一种机器学习训练集缩减方法 | |
CN111625525B (zh) | 一种环境数据修复/填充方法及系统 | |
CN107783890A (zh) | 软件缺陷数据处理方法和装置 | |
CN110287114B (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN105488599A (zh) | 预测文章热度的方法和装置 | |
CN104331664B (zh) | 一种在取证场景下自动分析未知恶意程序特征的方法 | |
CN106855865B (zh) | 水利水电大数据架构建设方法 | |
CN109284629B (zh) | 一种分布式文件存储系统的权限控制方法和系统 | |
CN103605670A (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN107463555A (zh) | 删除中间层数据的方法、系统和装置 | |
CN108268899A (zh) | 一种电子元件的检测方法、装置和设备 | |
CN109815337A (zh) | 确定文章类别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220615 Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031 Patentee after: New founder holdings development Co.,Ltd. Patentee after: FOUNDER APABI TECHNOLOGY Ltd. Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd. Patentee before: FOUNDER APABI TECHNOLOGY Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180522 |