CN117077664B - 一种文本纠错数据的构造方法、装置和存储介质 - Google Patents
一种文本纠错数据的构造方法、装置和存储介质 Download PDFInfo
- Publication number
- CN117077664B CN117077664B CN202211701492.8A CN202211701492A CN117077664B CN 117077664 B CN117077664 B CN 117077664B CN 202211701492 A CN202211701492 A CN 202211701492A CN 117077664 B CN117077664 B CN 117077664B
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- error correction
- corpus data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims description 106
- 238000010276 construction Methods 0.000 claims description 87
- 238000002372 labelling Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000124033 Salix Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 240000005369 Alstonia scholaris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本纠错数据的构造方法、装置及存储介质,方法包括:获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余,通过考虑文本句子的词性和句法信息,构造更加符合人类真实错误的文本纠错数据。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本纠错数据的构造方法、装置和存储介质。
背景技术
基于预训练模型的方法在自然语言处理的很多下游任务中取得良好的效果,然而,为了使模型获得领域内的一些先验知识,模型需在某些下游任务,例如文本纠错任务中,进行二次预训练,伪数据的构造是文本纠错预训练过程的一个重要组成部分。伪数据为带有与目标任务近似的标注的训练数据,伪数据构造的初衷是由于有关文本纠错的数据比较少,人工标注文本纠错的数据代价也比较大,因此需要利用伪数据构造来进一步扩充数据,以此作为预训练的数据。伪数据构造的基本原则是使得构造的伪数据的错误类型尽可能的覆盖所有可能或已知的错误类型。
现有的文本纠错伪数据构造主要是关注字音、字形、语言流畅性等信息。技术路线主要是通过混淆词典来构造伪数据或者将原始句子进行随机替换、删除、增加、打乱。但是现有技术存在自动构造伪数据质量低、人工标注成本高的缺点,其在进行伪数据的构造时没有充分考虑到句子的词性和句法信息。这种方法构造出的伪数据的数据构造比较死板、生硬,对于模型来说并无太多助益,不符合人们真实场景下所犯的文本错误类型。
发明内容
本发明提供了一种文本纠错数据的构造方法、装置和存储介质,通过考虑文本句子的词性和句法信息,构造更加符合人类真实错误的文本纠错数据。
为了实现构造更加符合人类真实错误的文本纠错数据,本发明实施例提供了一种文本纠错数据的构造方法,包括:
获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余。
作为优选方案,本发明技术方案对文本的词性和句法进行高效解析,随后利用所得的每个词的词性信息和依存句法信息,能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
作为优选方案,对所述第一语料数据进行词性标注,生成词性标签,具体为:
提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词和形容词。
作为优选方案,传统的文本纠错数据构造的方法主要是将原始句子进行随机替换、删除、增加、打乱,构造方法引入大量的随机性,使得构造的伪数据在句子层面并不流畅,本发明技术方案对文本的词性进行高效解析,结合了词性标注的信息,使得构造的文本纠错数据更加通顺、流畅,更符合人类真实场景下文本错误的分布。
作为优选方案,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签,具体为:
确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
作为优选方案,传统的文本纠错数据构造的方法主要是将原始句子进行随机替换、删除、增加、打乱,构造方法引入大量的随机性,使得构造的伪数据在句子层面并不流畅,本发明技术方案对文本的词性和依存句法信息进行高效解析,结合了词性和依存句法信息,使得构造的文本纠错数据更加通顺、流畅,更符合人类真实场景下文本错误的分布。
作为优选方案,根据第一语料数据的词性标签和句法标签,构造对应的文本纠错数据,具体为:
根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;
判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;
若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;
若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;
若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据。
作为优选方案,本发明技术方案对文本的词性和句法进行高效解析,根据第一语料数据中预设类型的分词,确定构造的对应的语序不当、成分残缺以及成分赘余四种错误类型,能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
作为优选方案,根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据,具体为:
若构造信息为成分赘余,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;
若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;
若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;
若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
作为优选方案,本发明基于人类真实使用场景的错误习惯,针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的文本纠错数据,以使构造出的文本纠错数据语料相较于传统方法更加符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
相应地,本发明还提供一种文本纠错数据的构造装置,包括:词性句法分析模块和文本纠错数据构造模块;
其中,所述词性句法分析模块用于获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
所述文本纠错数据构造模块用于根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余。
作为优选方案,本发明的词性句法分析模块对文本的词性和句法进行高效解析,随后利用所得的每个词的词性信息和依存句法信息,以使文本纠错数据构造模块能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
作为优选方案,词性句法分析模块包括词性分析单元和句法分析单元;
其中,所述词性分析单元用于提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词和形容词;
所述句法分析单元用于确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
作为优选方案,传统的文本纠错数据构造的方法主要是将原始句子进行随机替换、删除、增加、打乱,构造方法引入大量的随机性,使得构造的伪数据在句子层面并不流畅,本发明的词性分析单元对文本的词性进行高效解析,句法分析单元对文本的句法进行高效解析,结合了词性和依存句法信息,使得构造的文本纠错数据更加通顺、流畅,更符合人类真实场景下文本错误的分布。
作为优选方案,文本纠错数据构造模块包括构造信息生成单元和文本纠错数据生成单元;
其中,所述构造信息生成单元用于根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
所述文本纠错数据生成单元用于若构造信息为成分赘余,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;
若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;
若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;
若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
作为优选方案,本发明技术方案构造信息生成单元对文本的词性和句法进行高效解析,根据第一语料数据中预设类型的分词,确定构造的对应的语序不当、成分残缺以及成分赘余四种错误类型,基于人类真实使用场景的错误习惯,文本纠错数据生成单元能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本发明内容所述的一种文本纠错数据的构造方法。
附图说明
图1是本发明提供的一种文本纠错数据的构造方法的一种实施例的流程示意图;
图2是本发明提供的一种文本纠错数据的构造装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,为本发明实施例提供的一种文本纠错数据的构造方法,包括步骤S101-S102:
步骤S101:在网络中获取中文维基百科的第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
在本实施例中,获取无标注的、规范、正确的文本语料,对文本语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签。
在本实施例中,对所述第一语料数据进行词性标注,生成词性标签,具体为:
提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词、形容词、状语、同义词和近义词。
在本实施例中,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签,具体为:
确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
在本实施例中,利用词性标注器会对每一个分词标注词性,生成词性标签;所述词性标签如下表所示:
在本实施例中,利用依存句法分析器会生成每个分词之间的依存关系,生成句法标签;所述句法标签如下表所示:
步骤S102:根据第一语料数据的词性标签和句法标签,,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余。
在本实施例中,根据第一语料数据的词性标签和句法标签,构造对应的文本纠错数据,具体为:
根据词性标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;
判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;
若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;
若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;
若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据。
在本实施例中,预先收集若干同义词作为同义词词典;收集若干关联词作为关联词词典;
根据同义词词典,判断同义词词典中的词语是否出现在第一语料数据的分词中;若是,则生成成分赘余的构造信息;
判断所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断关联词词典中的词语是否出现在第一语料数据的分词中;若是,则生成关联词语序不当的构造信息;
若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状中关系的句法标签,若是,则第一语料数据中包含状语的分词,生成状语语序不当的构造信息;
若所述第一语料数据中不包含状中关系的句法标签,则第一语料数据中不包含状语的分词,生成成分残缺的构造信息。
在本实施例中,根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据,具体为:
若构造信息为成分赘余,则根据词性标签,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;
若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;
若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;
若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
示例性地,若构造信息为成分赘余,语料数据为:“初入世界的玩家们通过寻问柳眉,可寻找到盗贼的村庄。”
则根据词性标签,获取语料数据的近义词分词“盗贼”,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词“匪盗”,标注成分赘余的错误类型,生成文本纠错数据“初入世界的玩家们通过寻问柳眉,可寻找到盗贼匪盗的村庄。”。
在本实施例中,若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注第一关联词语序不当的错误类型,生成文本纠错数据;
或者,判断关联词是否在句首;如果关联词在句首,将关联词转移至所述关联词修饰的动词的前面,所述关联词修饰的动词根据句法标签识别而来;如果关联词不在句首,将关联词转移至句首,标注第二关联词语序不当的错误类型,生成文本纠错数据。
示例性地,若构造信息为关联词语序不当,若语料数据为:“虽然某行显示经济年底时向这个水准靠拢,但政府的指数却透露缺口更大。”,两个分句主语不一致,主语应该放在关联词之后,获取语料数据的一对关联词分词“虽然”和“但”和主语分词“某行”,将所述主语分词“某行”移动到第一个关联词之前,标注第一关联词语序不当的错误类型,生成文本纠错数据“某行虽然显示经济年底时向这个水准靠拢,但政府的指数却透露缺口更大。”;
若语料数据为:“此次展会无论在规模,还是档次上均高于往年。”,两个分句主语不一致,主语应该放在关联词之前,将第一个关联词“无论”前的主语“此次展会”放在关联词“无论”之后,使得整个句子的主语作为第一个分句的主语,标注第一关联词语序不当的错误类型,生成文本纠错数据“无论此次展会在规模,还是档次上均高于往年。”。
示例性地,若构造信息为状语语序不当,若语料数据为:“如上文所述主要有两种被人们广泛授受的解释。”,状语“主要”应该修饰谓语动词“有”,则将所述状语分词“主要”移动到动词宾语“解释”前面;标注状语语序不当的错误类型,生成文本纠错数据“如上文所述有两种被人们广泛授受的主要解释。”。
若语料数据为:“符号化和形式化使得数学迅速发展,并帮助各个科学领域建立基础支撑理论。”,状语“迅速”应该修饰宾语“数学”,则将所述状语分词“迅速”移动到动词“使得”前面;标注状语语序不当的错误类型,生成文本纠错数据“符号化和形式化迅速使得数学发展,并帮助各个科学领域建立基础支撑理论。”。
若构造信息为成分残缺,若语料数据为:“如上文所述主要有两种被人们广泛授受的解释。”,删除宾语“的解释”,并对应标注宾语残缺的错误类型,生成文本纠错数据“如上文所述主要有两种被人们广泛授受。”。
在本实施例中,根据构造的文本纠错数据进行预训练,如果是判别任务,则将第一语料数据标记为“0”,构造的文本纠错数据标记为“1”,进行预训练。如果是纠正任务,可以根据平行语料(构造的文本纠错数据和第一语料数据)进行预训练。
实施本发明实施例,具有如下效果:
本发明技术方案对文本的词性和句法进行高效解析,随后利用所得的每个词的词性信息和依存句法信息,能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
实施例二
请参照图2,为本发明实施例提供的一种文本纠错数据的构造装置,包括:词性句法分析模块201和文本纠错数据构造模块202;
其中,所述词性句法分析模块201用于获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
所述文本纠错数据构造模块202用于根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余。
词性句法分析模块201包括词性分析单元和句法分析单元;
其中,所述词性分析单元用于提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词、形容词、状语、同义词和近义词;
所述句法分析单元用于确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
文本纠错数据构造模块202包括构造信息生成单元和文本纠错数据生成单元;
其中,所述构造信息生成单元用于根据词性标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;
判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
所述文本纠错数据生成单元用于若构造信息为成分赘余,则根据词性标签,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
上述的文本纠错数据的构造装置可实施上述方法实施例的文本纠错数据的构造方法。上述方法实施例中的可选项也适用于本实施例,这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容,在本实施例中,不再进行赘述。
实施本发明实施例,具有如下效果:
本发明的词性句法分析模块对文本的词性和句法进行高效解析,随后利用所得的每个词的词性信息和依存句法信息,以使文本纠错数据构造模块能够针对性地构造包含语序不当、成分残缺以及成分赘余四种文本错误的伪数据,用于文本纠错训练。相对于现有技术,能够更加高效地利用神经网络提供的词性句法信息,减少人工成本;其构造出的文本纠错数据语料相较于传统方法更加通顺、流畅,更符合人类真实使用场景的错误分布,提高文本纠错训练的精确度。
实施例三
相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的文本纠错数据的构造方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本纠错数据的构造方法,其特征在于,包括:
获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余;
根据第一语料数据的词性标签和句法标签,构造对应的文本纠错数据,具体为:
根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;
判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;
若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;
若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;
若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据;
所述根据所述构造信息、词性标签和句法标签,构造对应的文本纠错数据,具体为:
若构造信息为成分赘余,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;
若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;
若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;
若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
2.如权利要求1所述的一种文本纠错数据的构造方法,其特征在于,所述对所述第一语料数据进行词性标注,生成词性标签,具体为:
提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词和形容词。
3.如权利要求2所述的一种文本纠错数据的构造方法,其特征在于,所述根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签,具体为:
确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
4.一种文本纠错数据的构造装置,其特征在于,包括:词性句法分析模块和文本纠错数据构造模块;
其中,所述词性句法分析模块用于获取第一语料数据,对所述第一语料数据进行词性标注,生成词性标签,根据所述词性标签对所述第一语料数据进行句法分析,生成句法标签;其中所述句法标签包括:主谓关系、动宾关系和状中关系;
所述文本纠错数据构造模块用于根据第一语料数据的词性标签和句法标签,构造对应错误类型的文本纠错数据;所述错误类型包括语序不当、成分残缺和成分赘余;
所述文本纠错数据构造模块包括构造信息生成单元和文本纠错数据生成单元;
其中,所述构造信息生成单元用于根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词;其中,所述预设类型包括同义词、近义词、关联词和状语;判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词,若是,则生成成分赘余的构造信息;若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词,则判断所述第一语料数据中是否包含关联词的分词;若是,则生成关联词语序不当的构造信息;若所述第一语料数据中不包含关联词的分词,则判断所述第一语料数据中是否包含状语的分词,若是,则生成状语语序不当的构造信息;若所述第一语料数据中不包含状语的分词,则生成成分残缺的构造信息;
所述文本纠错数据生成单元用于若构造信息为成分赘余,获取第一语料数据的近义词分词,在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词,标注成分赘余的错误类型,生成文本纠错数据;
若构造信息为关联词语序不当,则根据词性标签和句法标签,获取第一语料数据的一对关联词分词和主语分词,将所述主语分词移动到第一个关联词之前,标注关联词语序不当的错误类型,生成文本纠错数据;
若构造信息为状语语序不当,则根据词性标签和句法标签,获取第一语料数据的状语分词及其修饰的动词或者宾语;若所述状语分词修饰宾语,则将所述状语分词移动到动词前面;若所述状语分词修饰动词,则将所述状语分词移动到动词宾语前面;标注状语语序不当的错误类型,生成文本纠错数据;
若构造信息为成分残缺,则根据句法标签,将第一语料数据的句子的主语、谓语或者宾语删除,并对应标注主语、谓语或者宾语残缺的错误类型,生成文本纠错数据。
5.如权利要求4所述的一种文本纠错数据的构造装置,其特征在于,所述词性句法分析模块包括词性分析单元和句法分析单元;
其中,所述词性分析单元用于提取若干个第一语料数据的分词,对每个所述分词的词语标注词性标签;所述词性标签包括名词、动词和形容词;
所述句法分析单元用于确定第一语料数据的每个分词之间的依存关系,生成每个词的句法标签;所述句法标签包括主谓关系、动宾关系和状中关系。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至3中任意一项所述的一种文本纠错数据的构造方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211701492.8A CN117077664B (zh) | 2022-12-29 | 2022-12-29 | 一种文本纠错数据的构造方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211701492.8A CN117077664B (zh) | 2022-12-29 | 2022-12-29 | 一种文本纠错数据的构造方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077664A CN117077664A (zh) | 2023-11-17 |
CN117077664B true CN117077664B (zh) | 2024-04-12 |
Family
ID=88710257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211701492.8A Active CN117077664B (zh) | 2022-12-29 | 2022-12-29 | 一种文本纠错数据的构造方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117077664B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
CN115169328A (zh) * | 2022-05-25 | 2022-10-11 | 苏州摩多多信息科技有限公司 | 一种高准确性的中文拼写检查方法、系统及介质 |
CN115358217A (zh) * | 2022-09-02 | 2022-11-18 | 美的集团(上海)有限公司 | 词句的纠错方法、装置、可读存储介质和计算机程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3092581A4 (en) * | 2014-01-10 | 2017-10-18 | Cluep Inc. | Systems, devices, and methods for automatic detection of feelings in text |
-
2022
- 2022-12-29 CN CN202211701492.8A patent/CN117077664B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN113822044A (zh) * | 2021-09-29 | 2021-12-21 | 深圳市木愚科技有限公司 | 语法纠错数据生成方法、装置、计算机设备及存储介质 |
CN115169328A (zh) * | 2022-05-25 | 2022-10-11 | 苏州摩多多信息科技有限公司 | 一种高准确性的中文拼写检查方法、系统及介质 |
CN115358217A (zh) * | 2022-09-02 | 2022-11-18 | 美的集团(上海)有限公司 | 词句的纠错方法、装置、可读存储介质和计算机程序产品 |
Non-Patent Citations (1)
Title |
---|
基于数据增强和多任务特征学习的中文语法错误检测方法;谢海华 等;中文信息学报;20221215;第36卷(第12期);第36-43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117077664A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11016966B2 (en) | Semantic analysis-based query result retrieval for natural language procedural queries | |
Cer et al. | Parsing to Stanford Dependencies: Trade-offs between Speed and Accuracy. | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
US20100088085A1 (en) | Statistical machine translation apparatus and method | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN114036300A (zh) | 一种语言模型的训练方法、装置、电子设备及存储介质 | |
CN111597800B (zh) | 同义句的获取方法及装置、设备及存储介质 | |
Abdurakhmonova et al. | Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz | |
US20220358361A1 (en) | Generation apparatus, learning apparatus, generation method and program | |
KR20040024619A (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트생성 알고리즘, 장치 및 프로그램 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
Pinnis et al. | Tilde MT platform for developing client specific MT solutions | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN117077664B (zh) | 一种文本纠错数据的构造方法、装置和存储介质 | |
CN114896973A (zh) | 一种文本处理方法、装置及电子设备 | |
CN113627186A (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN112528651A (zh) | 一种智能批改方法、系统、电子设备及存储介质 | |
CN111178090A (zh) | 一种用于企业名称翻译的方法及系统 | |
Singh et al. | An efficient Romanization of Gurmukhi Punjabi proper nouns for pattern matching | |
Walther et al. | Speeding up corpus development for linguistic research: language documentation and acquisition in Romansh Tuatschin | |
US11995414B1 (en) | Automatic post-editing systems and methods | |
CN112181389B (zh) | 生成教程片段的api标记的方法、系统及计算机设备 | |
CN110866390B (zh) | 中文语法错误的识别方法、装置、计算机设备和存储介质 | |
Domingo et al. | A comparison of character-based neural machine translations techniques applied to spelling normalization | |
Chambers | Automatic Bilingual Terminology Extraction-A Practical Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |