CN116227431A - 一种文本数据增强方法、电子设备及存储介质 - Google Patents
一种文本数据增强方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116227431A CN116227431A CN202310262267.7A CN202310262267A CN116227431A CN 116227431 A CN116227431 A CN 116227431A CN 202310262267 A CN202310262267 A CN 202310262267A CN 116227431 A CN116227431 A CN 116227431A
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- text
- enhanced
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本数据增强方法、存储介质和电子设备,所述方法包括:接收输入的原始文本数据;基于设定标注模式对接收的原始文本数据进行标注,形成与原始文本数据对应的原始文本标签数据;基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据。本发明由于基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,使得生成的增强文本数据带有标签,因此能够减少标注时间,提高标注效率。
Description
技术领域
本发明涉及文本数据增强领域,特别是涉及一种文本数据增强方法、电子设备及存储介质。
背景技术
在一些应用场景下,需要利用海量的数据源对模型进行训练,以提高模型的准确性。然而,由于多种原因,很难找到合适的海量的数据源。为获得海量的数据源,当前的一种解决方案是进行数据增强,即利用数据增强技术对有限的数据源进行增强,以得到所需数量的数据源。这种方式能够解决数据源数量的问题,但是得到的增强数据是不带标签的,这样,在需要标注任务的模型时,还需要对增强数据进行标注,占用时间多,标注效率低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种文本数据增强方法,所述方法包括如下步骤:
S100,接收输入的原始文本数据;
S200,基于设定标注模式对接收的原始文本数据进行标注,以为原始文本数据中的每个文字添加对应的标签,形成与原始文本数据对应的原始文本标签数据;
S300,基于所述原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,m≥2;
其中,在S300中,任一增强文本数据i和增强文本标签数据i通过如下方式生成:
S301,基于原始文本数据形成的高维向量C和空集,从设定标注模式的标签中获取位于增强文本标签数据i的第1位置的标签;
S302,从设定的候选词词典中获取与所述第1位置的标签相对应的候选词,形成第1候选词集合;
S303,从第1候选词集合中获取位于增强文本数据i的第1位置的候选词;
S304,如果第k位置的候选词不是设定的结束标识符,执行S305;否则,执行S308;k≥1;
S305,设置k=k+1,并根据C以及第1至第(k-1)位置的候选词,从设定标注模式中的标签中获取位于增强文本标签数据i的第k位置的标签;
S306,从设定的候选词词典中获取与第k位置的标签相对应的候选词,形成第k候选词集合;
S307,从第k候选词集合中获取位于增强文本数据i的第k位置的候选词;执行S304;
S308,结束流程,得到增强文本数据i和增强文本标签数据i。
本发明至少具有以下有益效果:
本发明实施例提供的文本数据增强方法,由于基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,使得生成的增强文本数据带有标签,因此能够减少标注时间,提高标注效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本数据增强方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的文本数据增强方法的流程图。
如图1所示,本发明实施例提供一种文本数据增强方法,所述方法包括如下步骤:
S100,接收输入的原始文本数据。
在本发明实施例中,可通过代入输入装置的输入设备输入原始文本数据。原始文本数据可为一句话、一段话或者一篇文本等。
S200,基于设定标注模式对接收的原始文本数据进行标注,以为原始文本数据中的每个文字添加对应的标签,形成与原始文本数据对应的原始文本标签数据。
在本发明实施例中,对于接收到的原始文本数据,在原始文本数据的段首和段尾加上设定的起始标识符和设定的结束标识符,从而得到原始文本字符串。在一个示意性实施例中,起始标识符例如可为<CLS>,结束标识符例如可为<SEP>等。
在本发明实施例中,所述设定标注模式可为现有的序列标注模式。在一个示意性实施例中,设定标注模式可为BIO标注模式。在本发明另一示意性实施例中,设定标注模式可为BIOES标注模式。以原始文本数据“小明喜欢吃肥美的白切鸡”为例,使用BIOES标注模式进行标注,得到的原始文本字符串和原始文本标签数据可如下表1所示:
表1
CLS | 小 | 明 | 喜 | 欢 | 吃 | 肥 | 美 | 的 | 白 | 切 | 鸡 | 。 | SEP |
O | B | E | O | O | O | O | O | O | B | I | E | O | O |
本领域技术人员知晓,使用序列标注模式对文本数据进行标注,得到各个字的标签,可为现有技术。
S300,基于所述原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,m≥2。
在本发明实施例中,可基于m个改进的序列到序列模型来生成增强文本数据和增强文本标签数据。具体地,任一个改进的序列到序列模型可通过如下方式训练得到:
(1)构建改进的序列到序列模型,并设置超参数;
(2)在构建的改进的序列到序列模型中输入训练集进行训练。训练集中的每条训练数据可包括原始文本数据及其对应的标签信息,以及设定的标注数据及其对应的标签信息;标注数据可根据需求自定义设置,可为与原始文本数据满足相似但不相同的文本数据。
(3)基于输出数据和标注数据对模型的超参数进行优化,直到满足收敛条件,得到训练好的序列到序列模型,作为目标文本数据增强模型。
在本发明实施例中,输出数据包括基于原始文本数据及其对应的标签信息得到的预测文本数据及其对应的预测标签信息。
可采用自动文摘评测方法对模型的超参数进行优化,例如,采用Rouge-1,Rouge-2和Rouge-3分别对预测文本数据和对应的标注文本数据进行比较,得到相应的评分1、评分2和评分3。在三个评分的加权平均值大于等于设定相似度时,判定满足收敛条件。
本领域技术人员知晓,采用自动文摘评测方法对两个文本数据进行比较以得到对应的评分可为现有技术。
在得到目标文本数据增强模型后,将原始文本数据具体为原始文本数据字符串和原始文本标签数据分别输入到m个模型中,以得到m个对应的增强文本数据和增强文本标签数据。具体地,对于m个增强文本数据中的任一增强文本数据i和m个增强文本标签数据中的任一增强文本标签数据i,可通过如下方式生成:
S301,基于原始文本数据形成的高维向量C和空集,从设定标注模式的标签中获取位于增强文本标签数据i的第1位置的标签。
基于原始文本数据形成对应的高维向量C可为现有技术。基于原始文本数据形成的高维向量C和空集可获取每个标签位于增强文本标签数据i的第1位置的概率,其中,概率最大的标签作为第1位置的标签。基于原始文本数据形成的高维向量C和空集可获取每个标签位于增强文本标签数据i的第1位置的概率可采用现有技术,例如,采用softmax归一化方法。
S302,从设定的候选词词典中获取与第1位置的标签相对应的候选词,形成第1候选词集合。
在本发明实施例中,设定的候选词词典可为现有词典,例如,牛津词典等。在设定的候选词词典中,可将不属于第1位置的标签的词进行屏蔽,只保留属于第1位置的标签的词。
S303,从第1候选词集合中获取位于增强文本数据i的第1位置的候选词。
可基于现有方法从第1候选词集合中获取位于增强文本数据i的第1位置的概率最大的词作为第1位置的候选词。
S304,如果第k位置的候选词不是设定的结束标识符,执行S305;否则,执行S308;k≥1。
S305,设置k=k+1,并根据C和第1至第(k-1)个位置的候选词,从设定标注模式中的标签中获取位于增强文本标签数据i的第k位置的标签。
S306,从设定的候选词词典中获取与第k位置的标签相对应的候选词,形成第k候选词集合。
S307,从第k候选词集合中获取位于增强文本数据i的第k个位置的候选词。执行S304。
S308,结束流程,得到增强文本数据i和增强文本标签数据i。
在本发明实施例中,得到的增强文本数据可以为比原始文本数据字数多或者少的数据,可基于用户选择的条件确定,例如,选择翻译、问答等条件。
以原始文本数据“小明喜欢吃肥美的白切鸡”为例,使用BIOES标注模式进行标注,得到的增强文本数据和增强文本标签数据可如下表2所示:
表2
B | E | O | B | I | E | O | O |
小 | 明 | 吃 | 白 | 切 | 鸡 | 。 | SEP |
本发明实施例提供的文本数据增强方法,由于基于原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,使得生成的增强文本数据带有标签,因此能够减少标注时间,提高标注效率。
进一步地,本发明实施例提供的文本数据增强方法还可包括以下步骤:S400,计算第一文本相似度集D1=(D11,D12,…,D1i,…,D1m),D1i为第i个增强文本数据与原始文本数据之间的相似度,i的取值为1到m。
在本发明实施例中,D1i可基于Rouge-1,Rouge-2和Rouge-3得到的加权平均值得到。
S500,基于D1获取第二文本相似度集D2=(D21,D22,…,D2j,…,D2m)并进行显示,D2j为第j个增强文本数据与原始文本数据之间的相似度,并且,D2j≤D2j+1;j的取值为1到m。
在本发明实施例中,将得到的m个相似度按照由小到大的顺序进行排列,供用户进行选择。相似度越小,说明得到的增强文本数据与原始文本数据之间越不相同,从而可基于一个文本数据得到多条增强文本数据。
进一步地,在本发明一实施例中,提供的文本数据增强方法还包括以下步骤:
S600,获取D21对应的增强文本数据和增强文本标签数据作为目标文本信息。
由于选取与原始文本数据的相似度最低的增强文本数据和增强文本标签数据作为目标文本信息,能够确保数据源之间的差异性,使得模型更加准确。
进一步地,在本发明另一实施例中,提供的文本数据增强方法还包括以下步骤:
S700,获取D21至D2s对应的增强文本数据和增强文本标签数据作为目标文本信息;s的取值为2到g,g为小于m的设定数值。
与前述实施例相比,由于选取排序靠前的多个增强文本数据和增强文本标签数据作为目标文本信息,能够确保数据源之间的差异性的同时尽可能的增加数据源数量,能够节约数据增强时间。
进一步地,在本发明实施例中,提供的文本数据增强方法还包括以下步骤:
S800,将目标文本信息中的增强文本数据中的实体进行替换,作为目标增强文本数据。
在本发明实施例中,通过将目标文本信息中的增强文本数据中的实体进行替换,能够进一步增加数据源之间的差异性,提高数据增强的作用。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (9)
1.一种文本数据增强方法,其特征在于,所述方法包括如下步骤:
S100,接收输入的原始文本数据;
S200,基于设定标注模式对接收的原始文本数据进行标注,以为原始文本数据中的每个文字添加对应的标签,形成与原始文本数据对应的原始文本标签数据;
S300,基于所述原始文本数据和原始文本标签数据生成m个对应的增强文本数据和增强文本标签数据,m≥2;
其中,在S300中,任一增强文本数据i和增强文本标签数据i通过如下方式生成:
S301,基于原始文本数据形成的高维向量C和空集,从设定标注模式的标签中获取位于增强文本标签数据i的第1位置的标签;
S302,从设定的候选词词典中获取与所述第1位置的标签相对应的候选词,形成第1候选词集合;
S303,从第1候选词集合中获取位于增强文本数据i的第1位置的候选词;
S304,如果第k位置的候选词不是设定的结束标识符,执行S305;否则,执行S308;k≥1;
S305,设置k=k+1,并根据C以及第1至第(k-1)位置的候选词,从设定标注模式中的标签中获取位于增强文本标签数据i的第k位置的标签;
S306,从设定的候选词词典中获取与第k位置的标签相对应的候选词,形成第k候选词集合;
S307,从第k候选词集合中获取位于增强文本数据i的第k位置的候选词;执行S304;
S308,结束流程,得到增强文本数据i和增强文本标签数据i。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
S400,计算第一文本相似度集D1=(D11,D12,…,D1i,…,D1m),D1i为第i个增强文本数据与原始文本数据之间的相似度,i的取值为1到m;
S500,基于D1获取第二文本相似度集D2=(D21,D22,…,D2j,…,D2m)并进行显示,D2j为第j个增强文本数据与原始文本数据之间的相似度,并且,D2j≤D2j+1;j的取值为1到m。
3.根据权利要求2所述的方法,其特征在于,还包括以下步骤:
S600,获取D21对应的增强文本数据和增强文本标签数据作为目标文本信息。
4.根据权利要求2所述的方法,其特征在于,还包括以下步骤:
S700,获取D21至D2s对应的增强文本数据和增强文本标签数据作为目标文本信息;s的取值为2到g,g为小于m的设定数值。
5.根据权利要求3或4所述的方法,其特征在于,还包括以下步骤:
S800,将目标文本信息中的增强文本数据中的实体进行替换,作为目标增强文本数据。
6.根据权利要求1所述的方法,其特征在于,所述设定标注模式为BIO标注模式。
7.根据权利要求1所述的方法,其特征在于,所述设定标注模式为BIOES标注模式。
8.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7中任意一项的所述方法。
9.一种电子设备,其特征在于,包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262267.7A CN116227431B (zh) | 2023-03-17 | 2023-03-17 | 一种文本数据增强方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310262267.7A CN116227431B (zh) | 2023-03-17 | 2023-03-17 | 一种文本数据增强方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116227431A true CN116227431A (zh) | 2023-06-06 |
CN116227431B CN116227431B (zh) | 2023-08-15 |
Family
ID=86576875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310262267.7A Active CN116227431B (zh) | 2023-03-17 | 2023-03-17 | 一种文本数据增强方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116227431B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN114970516A (zh) * | 2022-06-20 | 2022-08-30 | 网易(杭州)网络有限公司 | 数据增强方法及装置、存储介质、电子设备 |
-
2023
- 2023-03-17 CN CN202310262267.7A patent/CN116227431B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN114970516A (zh) * | 2022-06-20 | 2022-08-30 | 网易(杭州)网络有限公司 | 数据增强方法及装置、存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116227431B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737758B (zh) | 用于生成模型的方法和装置 | |
CN110457675B (zh) | 预测模型训练方法、装置、存储介质及计算机设备 | |
CN108920445B (zh) | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 | |
WO2020140386A1 (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
WO2020244065A1 (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
CN111078837B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN108845988B (zh) | 一种实体识别方法、装置、设备及计算机可读存储介质 | |
CN109033085B (zh) | 中文分词系统及中文文本的分词方法 | |
CN106202030B (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
CN110956042A (zh) | 嵌套命名实体识别方法及系统、电子设备及可读介质 | |
CN114021573B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN116227431B (zh) | 一种文本数据增强方法、电子设备及存储介质 | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN117473053A (zh) | 基于大语言模型的自然语言问答方法、装置、介质及设备 | |
CN113486169B (zh) | 基于bert模型的同义语句生成方法、装置、设备及存储介质 | |
CN112819622B (zh) | 一种信息的实体关系联合抽取方法、装置及终端设备 | |
CN115129951A (zh) | 一种获取目标语句的数据处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |