CN112488164A - 一种任务型对话文本增强系统 - Google Patents
一种任务型对话文本增强系统 Download PDFInfo
- Publication number
- CN112488164A CN112488164A CN202011294635.9A CN202011294635A CN112488164A CN 112488164 A CN112488164 A CN 112488164A CN 202011294635 A CN202011294635 A CN 202011294635A CN 112488164 A CN112488164 A CN 112488164A
- Authority
- CN
- China
- Prior art keywords
- training data
- text
- module
- words
- replacing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002347 injection Methods 0.000 claims abstract description 10
- 239000007924 injection Substances 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的任务型对话文本增强系统,涉及文本处理技术领域,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话系统的性能。
Description
技术领域
本发明涉及文本处理技术领域,具体涉及一种任务型对话文本增强系统。
背景技术
任务型对话系统旨在帮助用户完成实际具体的任务,例如帮助用户搜索音乐、预订航班或酒店等。
从架构上,任务型对话系统主要包括自然语言理解模块、对话管理模块、自然语言生成模块。其中,自然语言理解模块主要用于意图识别模块和语义填充。对话管理模块主要用于对话状态跟踪和对话策略优化。自然语言生成模块主要通过模板配置即可实现。通常来说,一个任务型对话系统包含多个意图。当用户输入一句话时,意图识别模块首先识别用户这句话中的意图是是什么。然后根据意图识别的结果,将这句话分配到对应意图的语义填充模块完成语义的序列标注。
数据增强通过扩大机器学习系统中训练数据的大小来解决数据不足问题。数据增强在诸如图像分类、语音识别等领域得到了一些应用,但较少用在任务型对话领域。在构建任务型对话系统的过程中,训练数据的稀缺一直是个问题,制约了任务型对话系统的性能优化进程。
发明内容
为解决现有技术的不足,本发明实施例提供了一种任务型对话文本增强系统,该系统包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
所述同义词替换模块,用于用文本中各个词的同义词替换对应的词,生成第一训练数据;
所述近义词替换模块,用于用文本中各个词的近义词替换对应的词,生成第二训练数据;
所述实体替换模块,用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;
所述噪声注入模块,用于置空、交换、增加、删除文本的词,生成第四训练数据;
所述文本混合模块,用于混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据,得到第五训练数据。
优选地,所述文本混合模块,具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据。
优选地,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
优选地,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
本发明实施例提供的任务型对话文本增强系统,具有以下有益效果:
引入多种数据增强方案优化任务型对话系统的自然语言理解,缓解了训练数据不足的问题,能够优化任务型对话系统的性能。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明提供的实施例提供的任务型对话文本增强系统,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据。
作为一个具体的实施例,将文本“北大是我国一个美丽、优秀的高等学府”改为“北京大学是我国一个美丽、优秀的高等学府”。
近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据。
作为一个具体的实施例,将文本“我今天非常开心”改为“我今天非常高兴”。
实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据。
其中,实体主要包括人名、地名和机构名称。作为一个具体的实施例,将文本“我在上地信息产业基地上班”改为“我在中关村科技园区上班”,其中,上地信息产业基地属于中关村科技园区。
噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据。
其中,置空的
文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据。
可选地,文本混合模块具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、第三训练数据、第四训练数据。
其中,具体过程为随机抽取两个句子,将它们进行零填充,然后按一定比例组合,产生新的词表示然后传递下游的文本分类任务。
可选地,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
可选地,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
本发明实施例提供的任务型对话文本增强系统,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话系统的性能。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (4)
1.一种任务型对话文本增强系统,其特征在于,包括:同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中:
所述同义词替换模块,用于用文本中各个词的同义词替换对应的词,生成第一训练数据;
所述近义词替换模块,用于用文本中各个词的近义词替换对应的词,生成第二训练数据;
所述实体替换模块,用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;
所述噪声注入模块,用于置空、交换、增加、删除文本的词,生成第四训练数据;
所述文本混合模块,用于混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据,得到第五训练数据。
2.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述文本混合模块,具体用于:
利用Mixup算法,混合所述第一训练数据、所述第二训练数据、所述第三训练数据、所述第四训练数据。
3.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述近义词替换模块还用于利用训练过的Word2Vec模型及训练过的GloVe模型,获取文本中各个词的近义词。
4.根据权利要求1所述的任务型对话文本增强方法,其特征在于,所述实体替换模块还用于,利用条件随机场CRF模型获取文本中的实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294635.9A CN112488164A (zh) | 2020-11-18 | 2020-11-18 | 一种任务型对话文本增强系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294635.9A CN112488164A (zh) | 2020-11-18 | 2020-11-18 | 一种任务型对话文本增强系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112488164A true CN112488164A (zh) | 2021-03-12 |
Family
ID=74931733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011294635.9A Pending CN112488164A (zh) | 2020-11-18 | 2020-11-18 | 一种任务型对话文本增强系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488164A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN109918627A (zh) * | 2019-01-08 | 2019-06-21 | 平安科技(深圳)有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件系统有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
CN110516233A (zh) * | 2019-08-06 | 2019-11-29 | 深圳和而泰家居在线网络科技有限公司 | 数据处理的方法、装置、终端设备以及存储介质 |
CN110705257A (zh) * | 2019-09-16 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 媒体资源的识别方法、装置、存储介质及电子装置 |
CN110888968A (zh) * | 2019-10-15 | 2020-03-17 | 浙江省北大信息技术高等研究院 | 客服对话意图分类方法及装置、电子设备及介质 |
CN110956042A (zh) * | 2019-12-16 | 2020-04-03 | 中国电子科技集团公司信息科学研究院 | 嵌套命名实体识别方法及系统、电子设备及可读介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
CN111753554A (zh) * | 2020-06-28 | 2020-10-09 | 深圳前海微众银行股份有限公司 | 一种意图知识库的生成方法及装置 |
CN111930920A (zh) * | 2020-09-30 | 2020-11-13 | 恒生电子股份有限公司 | 基于知识增强处理的faq相似度计算方法、装置及电子设备 |
-
2020
- 2020-11-18 CN CN202011294635.9A patent/CN112488164A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460015A (zh) * | 2018-02-08 | 2018-08-28 | 合肥工业大学 | 文本情感分类数据增强分析方法 |
CN108920473A (zh) * | 2018-07-04 | 2018-11-30 | 中译语通科技股份有限公司 | 一种基于同类词与同义词替换的数据增强机器翻译方法 |
CN109918627A (zh) * | 2019-01-08 | 2019-06-21 | 平安科技(深圳)有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN110263338A (zh) * | 2019-06-18 | 2019-09-20 | 北京明略软件系统有限公司 | 替换实体名称方法、装置、存储介质及电子装置 |
CN110516233A (zh) * | 2019-08-06 | 2019-11-29 | 深圳和而泰家居在线网络科技有限公司 | 数据处理的方法、装置、终端设备以及存储介质 |
CN110705257A (zh) * | 2019-09-16 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 媒体资源的识别方法、装置、存储介质及电子装置 |
CN110888968A (zh) * | 2019-10-15 | 2020-03-17 | 浙江省北大信息技术高等研究院 | 客服对话意图分类方法及装置、电子设备及介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN110956042A (zh) * | 2019-12-16 | 2020-04-03 | 中国电子科技集团公司信息科学研究院 | 嵌套命名实体识别方法及系统、电子设备及可读介质 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
CN111666751A (zh) * | 2020-06-04 | 2020-09-15 | 北京百度网讯科技有限公司 | 训练文本扩充方法、装置、设备以及存储介质 |
CN111753554A (zh) * | 2020-06-28 | 2020-10-09 | 深圳前海微众银行股份有限公司 | 一种意图知识库的生成方法及装置 |
CN111930920A (zh) * | 2020-09-30 | 2020-11-13 | 恒生电子股份有限公司 | 基于知识增强处理的faq相似度计算方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
JASON WEI 等: "EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks", 《ARXIV》, 25 August 2019 (2019-08-25), pages 1 - 9 * |
李图图: "NLP中的数据增强", pages 1 - 11, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/272614460》> * |
请叫我小逸啊: "NLP文本增强技术", pages 1 - 6, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/150850720》> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106983B2 (en) | Intelligent interaction method and intelligent interaction system | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN100530187C (zh) | 搜索请求转换为查询语句的方法 | |
CN109960815B (zh) | 一种神经机器翻译nmt模型的创建方法及系统 | |
CN110020006A (zh) | 查询语句的生成方法及相关设备 | |
CN109101489A (zh) | 一种文本自动摘要方法、装置及一种电子设备 | |
CN110737756A (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
CN112651226B (zh) | 基于依存句法树的知识解析系统及方法 | |
CN112488164A (zh) | 一种任务型对话文本增强系统 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN111475503A (zh) | 一种虚拟知识图谱构建方法及装置 | |
Zhang | Smarttable: equipping spreadsheets with intelligent assistancefunctionalities | |
CN114218924A (zh) | 一种基于bert模型的文本意图及实体联合识别方法 | |
Kumar et al. | Text summarization of articles using LSTM and attention-based LSTM | |
KR20230050673A (ko) | 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치 | |
CN113887234A (zh) | 一种模型训练以及推荐方法及装置 | |
CN110210030B (zh) | 语句分析的方法及装置 | |
Karnik et al. | A discussion on various methods in automatic abstractive text summarization | |
Brändle et al. | Evaluation of Representation Models for Text Classification with AutoML Tools | |
Wang et al. | Summarizing the differences from microblogs | |
Wojick et al. | The Digital Road to Scientific Knowledge Diffusion; A Faster, Better Way to Scientific Progress? | |
Seo | Opportunities and threats of generative AI technology | |
Kale et al. | Mixout: A simple yet effective data augmentation scheme for slot-filling | |
Patil et al. | ML Suite: An Auto Machine Learning Tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |