CN109766556A

CN109766556A - 一种语料修复的方法和装置

Info

Publication number: CN109766556A
Application number: CN201910047091.7A
Authority: CN
Inventors: 魏誉荧
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-05-17
Anticipated expiration: 2039-01-18
Also published as: CN109766556B

Abstract

本发明涉及语言数据处理技术领域，提供一种语料修复的方法和装置，包括：通过对语句进行句法分析，获取有效词语；通过与标准构成关系进行比对，获取语句原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；结合所述有效词语，对所述缺失部分进行增补，获得增补词语，调整所述乱序部分，获得正确语序；结合所述有效词语、所述增补词语和所述正确语序，生成有效语料。本发明通过对原始语料中句子成分不全、顺序错乱的部分进行修复，提高计算机理解自然语言的效率。

Description

一种语料修复的方法和装置

技术领域

本发明涉及语言数据处理技术领域，尤指一种语料修复的方法和装置。

背景技术

随着可穿戴设备、智能家居、物联网等领域的逐步发展，全面打造智能化的生活成为了当下的聚焦点，而人机交互方式逐渐成为实现这种生活的关键环节。传统的交互方式通过程序员输入计算机语言，实现终端对用户意图的理解，这种方式下，普通用户无法与终端进行更深入的交互。

现有的一些人工智能软件产品，通过对用户自然语言的理解，可以实现与普通用户的简单交互，识别用户输入的自然语言来理解语义，例如微软小娜、苹果Siri、小米小爱同学等。进一步地，通过识别用户语音来理解自然语言的语义，使用户的输入过程更加便捷。

通常认为自然语言在进行逻辑理解时存在一定的缺陷，例如，其表达式的结构层次不够清晰，个体化认知模式体现不够明确，量词管辖的范围不太确切，句子成分的语序不固定，语形和语义不对应，这些缺陷导致计算机在理解自然语言时，面临很多不符合标准语法结构的语料，这些语料根据用户使用习惯各不相同，具体表现为，有的语句句子成分不全，有点语句句子成分的顺序错乱，如何将这些不符合标准语法结构的语料进行修补，获取完成的语料，成为了新的问题。

发明内容

本发明提供一种语料修复的方法和装置，通过获取用户原始语料中有效词语，根据有效词语，对原始语料中句子成分不全、顺序错乱的部分进行修复，从而提高计算机理解自然语言的效率。

本发明提供的技术方案如下：

本发明提供一种语料修复的方法，包括：

获取原始语料中的语句，对所述语句进行句法分析，获取其中的词语、词语词性和原始构成关系；

从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；抽取所述关键关系的组合中的主体成分及主体词性；

根据所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语；

通过与标准构成关系进行比对，获取所述原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；

结合所述有效词语，对所述缺失部分进行增补，获得增补词语；调整所述乱序部分，获得正确语序；

结合所述有效词语、所述增补词语和所述正确语序，生成有效语料。

具体地，本发明中，原始语料是用户使用键盘或者虚拟键盘输入的语料，也可以是用户通过语音输入后经过语音识别技术获取的语料，具体的语料获取方式不影响本发明的实施。

句法分析是对用户输入的原始语料内容通过文字识别，分辨出其中的词语、词语的词性，这些词语的词性按照原始语料的顺序组合，形成原始构成关系。

分析原始构成关系，将其中的关键关系提取出来，关键关系是句子成分间的组合关系，将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。把之前获取的词语根据词性，与框架中的句子成分进行匹配填充，当这个框架被完全填充时，就视为语句的有效部分已经被完全筛选出来。如此，获取语句的有效词语。

标准构成关系是语言系统中标准句式的句子成分构成关系。通常从口语中直接识别得到的语料，会有一些不符合标准构成关系的语句，省略、倒序等用语习惯都会造成这种现象。将原始构成关系和标准句式的构成关系相比较，可以得出原始构成关系里的缺失部分和乱序部分。通过结合已经获取的有效词语，将缺失部分补全，将乱序部分调整成正确语序。

进一步地，本发明还提供一种语料修复的方法，所述根据所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语后，还包括：

记录所述语句与所述有效词语的对应关系，建立修复规则库，所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序。

具体地，成功获得与语句对应的有效词语、增补词语、正确语序后，将这些语句与有效词语的对应关系记录下来，存储到一个数据库中，本发明中将其命名为修复规则库，其具体名称不影响本发明实施。在修复规则库中，还存储着这些成功获得有效词语的语句和与其对应的所述有效词语、所述增补词语和所述正确语序。

进一步优选地，修复规则库根据语句的关键关系组合进行分类存储，每一个句子成分设置一个语义槽，语义槽中包含语句中的具体词语，这些词语根据对每一次成功匹配的语句中包含的词语进行更新。

进一步地，本发明还提供一种语料修复的方法，所述建立修复规则库包括：

统计所述语句出现的次数，当其大于预设值时，将所述语句加入到所述修复规则库内。

具体地，成功获得与语句对应的有效词语、增补词语和正确语序后，查询该语句的历史成功分析次数，当这个次数大于一个预设值时，就判断该语句为高频语句，将高频语句加入到修复规则库里面。

进一步优选地，这个预设值可以是总累计次数，也可以是在一段时间内的累计次数，其用于作为语句是否加入修复规则库的判断标准，其呈现形式不影响本发明实施。

进一步地，本发明还提供一种语料修复的方法，所述方法还包括：

再次获取所述原始语料中的语句，判断其是否为所述修复规则库内存储的语句；

如果是，直接从所述修复规则库中获取所述有效词语、所述增补词语和所述正确语序。

获取原始语料的语句时，判断语句是否时修复规则库内已经存储的语句，其判断方法是，将原始语料语句特征作为检索条件，在修复规则库内进行检索，如果特征相符，则判断该语句已存储在修复规则库中，这时，直接调取该语句对应的有效词语、所述增补词语和所述正确语序。

进一步优选地，如果不相符，则判断该语句未存储在修复规则库中，这时再对该语句进行分析，尝试获取其有效词语、增补词语和正确语序。

进一步地，本发明还提供一种语料修复的方法，所述结合所述有效词语，对所述缺失部分进行增补，获得增补词语包括：

分析获得所述有效词语中与所述缺失部分相关联的关联词语；

分析所述语句的上下文之间的逻辑关系，根据所述逻辑关系和所述关联词语，获取增补词语。

具体地，在对缺失部分进行增补时，获取缺失部分相关联的有效词语，这些词语作为关联词语，为缺失的部分提供关联信息。此外，从语句的上下文中寻找逻辑关系，结合关联词语，获取缺失部分应填充的增补词语。

进一步地，本发明还提供一种语料修复的装置，包括：

提取模块，获取原始语料中的语句，对所述语句进行句法分析，获取其中的词语、词语词性和原始构成关系；从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；抽取所述关键关系中的主体成分和主体词性；

匹配模块，根据所述提取模块获取的所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语；

寻错模块，通过与标准构成关系进行比对，获取所述提取模块获取的所述原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；

纠错模块，结合所述匹配模块获取的所述有效词语，对所述缺失部分进行增补，获得增补词语；调整所述乱序部分，获得正确语序；

生成模块，结合匹配模块获取的所述有效词语、所述纠错模块获取的所述增补词语和所述正确语序，生成有效语料。

进一步地，本发明还提供一种语料修复的装置，所述匹配模块包括：

建库子模块，记录所述语句与所述有效词语的对应关系，建立修复规则库，所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序。

进一步地，本发明还提供一种语料修复的装置，所述建库子模块包括：

更新单元，统计所述语句出现的次数，大于预设值时，将所述语句加入到所述修复规则库内，更新所述修复规则库。

进一步地，本发明还提供一种语料修复的装置，所述装置还包括：

判断模块，获取所述原始语料中的语句，判断其与所述修复规则库内存储的所述语句特征是否相符合；

库修复模块，当所述判断模块判断相符合时，直接从所述修复规则库中获取所述有效词语、所述增补词语和所述正确语序。

进一步地，本发明还提供一种语料修复的装置，所述纠错模块包括：

关联子模块，分析获得所述有效词语中与所述缺失部分相关联的关联词语；

增补子模块，分析所述语句的上下文之间的逻辑关系，根据所述逻辑关系和所述关联词语，获取增补词语。

通过本发明提供的一种基于用户语料获取内容的方法和装置，能够带来以下至少一种有益效果：

1、通过分析原始语料中语句，获取有效词语，通过与标准构成关系进行比对，获取所述原始构成关系中的缺失部分和乱序部分，通过有效词语、缺失部分和乱序部分，再结合上下文语句，获得增补词语和正确语序，进而生成有效语料，实现了对原始语料中缺失、乱序部分的修复。

2、通过建立修复规则库，将用户每次成功修复的语料和语句进行记录，实现了当发现用户输入的语料中的语句已经被分析过以后，可以通过修复规则库对新的语料直接进行修复，避免多次重复分析用户语料，造成时间和计算资源的浪费。

3、通过统计用户同一语句成功分析出有效词语的次数，判断出用户习惯使用的高频语句，只将这些高频语句加入到修复规则库中，防止存储用户的语句过多，造成存储空间不足。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语料修复的方法和装置的上述特征、技术特征、优点及其实现方式予以进一步的说明。

图1是本发明一种语料修复的方法的一个实施例的流程图；

图2是本发明一种语料修复的方法的另一个实施例的流程图；

图3是本发明一种语料修复的方法的又一个实施例的流程图；

图4是本发明一种语料修复的方法的另一个实施例的流程图；

图5是本发明一种语料修复的方法的又一个实施例的流程图；

图6是本发明一种语料修复的方法的另一个实施例的流程图；

图7是本发明一种语料修复的装置的一个实施例的结构示意图。

附图标号说明：

100提取模块 200匹配模块

210建库子模块 211更新单元

300寻错模块 400纠错模块

410关联子模块 420增补子模块

500生成模块 600判断模块

700库修复模块 800存储模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明提供一种语料修复的方法，通过分析原始语料中语句，获取有效词语，通过与标准构成关系进行比对，获取所述原始构成关系中的缺失部分和乱序部分，通过有效词语、缺失部分和乱序部分，再结合上下文语句，获得增补词语和正确语序，进而生成有效语料，实现了对原始语料中缺失、乱序部分的修复，进而实现计算机使用修复后的语料，对自然语言的理解效率更高。

本发明第一实施例，如图1所示一种语料修复的方法，包括：

S100获取原始语料中的语句，对所述语句进行句法分析，获取其中的词语、词语词性和原始构成关系；

S200从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；抽取所述关键关系的组合中的主体成分及主体词性；

S300根据所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语；

S400通过与标准构成关系进行比对，获取所述原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；

S500结合所述有效词语，对所述缺失部分进行增补，获得增补词语；

S550调整所述乱序部分，获得正确语序；

S600结合所述有效词语、所述增补词语和所述正确语序，生成有效语料。

具体地，本发明中，原始语料是用户使用键盘或者虚拟键盘输入的语料，也可以是用户通过语音输入后经过语音识别技术获取的语料，具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中，例如用户的原始语料包括：“鲸鱼和其他的鱼不同，它们在水里停留一段时间后会浮出水面喷水，为什么呢鲸鱼”。那么通过S100分析后获得原始语料中的一个语句是“为什么呢鲸鱼”。

句法分析是对用户输入的原始语料内容通过文字识别，分辨出其中的词语、词语的词性，这些词语的词性按照原始语料的顺序组合，形成原始构成关系。S100中还会对该语句进行句法分析，获取其中的词语为“为什么”、

“呢”、“鲸鱼”。S100还会对这些词语进行词性分析，例如：“为什么”-疑问代词、“呢”-语气助词、“鲸鱼”-名词。

分析原始构成关系，将其中的关键关系提取出来，关键关系是句子成分间的组合关系，将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。S100会对语句的原始构成关系进行分析，上述例句的原始构成关系为：疑问代词-语气助词-名词。

随后，通过S200先获得原始构成关系中的关键关系组合，例句中的疑问代词作为原始构成关系中的关键，提取与之直接连接的其他部分为“疑问代词-名词”，这个符合一般疑问句的句式，将其作为关键关系组合提取出来。S200还抽取关键关系中的主体成分及主体词性，即，将例句中的“主语-名词”、“疑问词-疑问代词”抽取出来。

把之前获取的词语根据词性，与框架中的句子成分进行匹配填充，当这个框架被完全填充时，就视为语句的有效部分已经被完全筛选出来，也即是有效词语已经被标记出来。在S300中，将S100中提取的词语根据词性重新匹配到S200抽取出来的主体成分及主体词性中，即“鲸鱼”-名词匹配到“主语-名词”，“为什么”-疑问代词匹配到“疑问词-疑问代词”，如此，获得例句的有效词语为“为什么”、“鲸鱼”。

标准构成关系里的疑问句的句式为：主语-疑问词-谓语，而例句中通过句法分析得到的原始构成关系为疑问词-主语，在S400中，通过两者的比对，可以得知缺失部分为谓语，乱序部分为疑问词-主语。

通过S500将缺失部分补全，获得正确的完整语序为疑问词-谓语-主语，通过有效词语“鲸鱼”获取缺失的谓语为“喷水”。通过S550，将乱序部分调整为正确语序，即调整为主语-疑问词-谓语。如此，有效词语、正确语序、增补词语都已经获得。

随后通过S600，将有效词语、正确语序、增补词语结合，即可生成语句“鲸鱼为什么喷水”，该语句为修复后的有效语料。

本发明的一些实施例中，通过采用第一实施例的方法，可以实现从原始语料中提取出有效词语，再通过有效语料和标准构成关系获得正确语序和增补词语，进而获得修复后的语句作为有效语料，实现了对原始语料的修复。

本发明第二实施例，如图2所示一种语料修复的方法，包括：

S550调整所述乱序部分，获得正确语序；

S570记录所述语句与所述有效词语的对应关系，建立修复规则库，所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序；

句法分析是对用户输入的原始语料内容通过文字识别，分辨出其中的词语、词语的词性，这些词语的词性按照原始语料的顺序组合，形成原始构成关系。S100中还会对该语句进行句法分析，获取其中的词语为“为什么”、“呢”、“鲸鱼”。S100还会对这些词语进行词性分析，例如：“为什么”-疑问代词、“呢”-语气助词、“鲸鱼”-名词。

成功获得与语句对应的有效词语、增补词语、正确语序后，将这些语句与有效词语的对应关系记录下来，存储到一个数据库中，本发明中将其命名为修复规则库，其具体名称不影响本发明实施。在修复规则库中，还存储着这些成功获得有效词语的语句和与其对应的有效词语。本发明的一些实施例中，S570可以对例句进行记录，将“为什么鲸鱼”对应S300的解析结果有效词语为“鲸鱼”、“为什么”，S500补全的增补词语“喷水”以及S550调整后的正确语序主语-疑问词-谓语存储到修复规则库中。

本发明的一些实施例中，使用第二实施例的方法建立修复规则库，可以将用户每次成功修复的语料进行记录，实现对用户的个性化输入习惯的记录，为进一步提供用户个性化的修复规则提供基础数据。

本发明第三实施例，如图3所示一种语料修复的方法，包括：

S550调整所述乱序部分，获得正确语序；

S560统计所述语句出现的次数，判断其次数是否大于预设值，当是时，将所述语句加入到所述修复规则库内；

成功获得与语句对应的有效词语、增补词语、正确语序后，通过S560查询该语句的历史成功解析次数，当这个次数大于一个预设值时，就判断该语句为高频语句，将高频语句加入到修复规则库里面。

本发明的一些实施例中，S570可以对例句进行记录，将“为什么鲸鱼”对应S300的解析结果有效词语为“鲸鱼”、“为什么”，S500补全的增补词语“喷水”以及S550调整后的正确语序主语-疑问词-谓语存储到修复规则库中。

进一步优选地，这个预设值可以是总累计次数，也可以是在一段时间内的累计次数，其用于作为语句是否加入修复规则库的判断标准，其呈现形式不影响本发明实施。在S560对例句的处理中，语句“为什么鲸鱼”每出现一次，记录加一次，直到其次数累计到N次时，将其作为高频语句加入到修复规则库里面。

本发明的一些实施例使用第三实施例的方法，可以实现只对用户使用频率较高的语句进行存储，而不是将用户所有的语句都存储下来，避免过大的数据存储量造成存储资源的浪费。

本发明第四实施例，如图4所示一种语料修复的方法，包括：

S710再次获取所述原始语料中的语句，判断其是否为所述修复规则库内存储的语句；

S720如果是，直接从所述修复规则库中获取有效词语、增补词语、正确语序。

具体地，获取原始语料的语句时，通过S710判断语句是否时修复规则库内已经存储的语句，其判断方法是，将原始语料语句特征作为检索条件，在修复规则库内进行检索，如果特征相符，判断该语句已存储在修复规则库中，则进入S720，直接调取该语句对应的有效词语、增补词语、正确语序。

本发明一些实施例中，通过第五实施例的方法，直接使用修复规则库中的存储的数据，对原始语料中的语句进行修复，避免用户重复输入相同的语料时，计算机重复进行解析，更快捷地实现了原始语料的修复。

本发明第五实施例，如图5所示一种语料修复的方法，包括：

S710获取所述原始语料中的语句，判断其与所述修复规则库内存储的所述语句特征是否相符合；

S720当相符合时，直接从所述修复规则库中获取有效词语、增补词语、正确语序；

S810当不相符时，对所述语句进行句法分析，获取其中的词语、词语词性和原始构成关系；

S820从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；抽取所述关键关系的组合中的主体成分及主体词性；

S830根据所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语；

S940通过与标准构成关系进行比对，获取所述原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；

S950结合所述有效词语，对所述缺失部分进行增补，获得增补词语；

S955调整所述乱序部分，获得正确语序；

S958统计所述语句出现的次数，判断其次数是否大于预设值，当是时，将所述语句加入到所述修复规则库内；

S959记录所述语句与所述有效词语的对应关系，建立修复规则库，所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序；

S960结合所述有效词语、所述增补词语和所述正确语序，生成有效语料。

如果特征不相符，则进入S810,本发明中，原始语料是用户使用键盘或者虚拟键盘输入的语料，也可以是用户通过语音输入后经过语音识别技术获取的语料，具体的语料获取方式不影响本发明的实施。在本发明的一些实施例中，例如用户的原始语料包括：“鲸鱼和其他的鱼不同，它们在水里停留一段时间后会浮出水面喷水，为什么呢鲸鱼”。那么通过S810分析后获得原始语料中的一个语句是“为什么呢鲸鱼”。

句法分析是对用户输入的原始语料内容通过文字识别，分辨出其中的词语、词语的词性，这些词语的词性按照原始语料的顺序组合，形成原始构成关系。S810中还会对该语句进行句法分析，获取其中的词语为“为什么”、“呢”、“鲸鱼”。S810还会对这些词语进行词性分析，例如：“为什么”-疑问代词、“呢”-语气助词、“鲸鱼”-名词。

分析原始构成关系，将其中的关键关系提取出来，关键关系是句子成分间的组合关系，将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。S810会对语句的原始构成关系进行分析，上述例句的原始构成关系为：疑问代词-语气助词-名词。

随后，通过S820先获得原始构成关系中的关键关系组合，例句中的疑问代词作为原始构成关系中的关键，提取与之直接连接的其他部分为“疑问代词-名词”，这个符合一般疑问句的句式，将其作为关键关系组合提取出来。S820还抽取关键关系中的主体成分及主体词性，即，将例句中的“主语-名词”、“疑问词-疑问代词”抽取出来。

把之前获取的词语根据词性，与框架中的句子成分进行匹配填充，当这个框架被完全填充时，就视为语句的有效部分已经被完全筛选出来，也即是有效词语已经被标记出来。在S830中，将S810中提取的词语根据词性重新匹配到S820抽取出来的主体成分及主体词性中，即“鲸鱼”-名词匹配到“主语-名词”，“为什么”-疑问代词匹配到“疑问词-疑问代词”，如此，获得例句的有效词语为“为什么”、“鲸鱼”。

标准构成关系里的疑问句的句式为：主语-疑问词-谓语，而例句中通过句法分析得到的原始构成关系为疑问词-主语，在S940中，通过两者的比对，可以得知缺失部分为谓语，乱序部分为疑问词-主语。

通过S950将缺失部分补全，获得正确的完整语序为疑问词-谓语-主语，通过有效词语“鲸鱼”获取缺失的谓语为“喷水”。通过S955，将乱序部分调整为正确语序，即调整为主语-疑问词-谓语。如此，有效词语、正确语序、增补词语都已经获得。

成功获得与语句对应的有效词语、增补词语、正确语序后，通过S958查询该语句的历史成功解析次数，当这个次数大于一个预设值时，就判断该语句为高频语句，将高频语句加入到修复规则库里面。

本发明的一些实施例中，S959可以对例句进行记录，将“为什么鲸鱼”对应S830的解析结果有效词语为“鲸鱼”、“为什么”，S830补全的增补词语“喷水”以及S550调整后的正确语序主语-疑问词-谓语存储到修复规则库中。

随后通过S960，将有效词语、正确语序、增补词语结合，即可生成语句“鲸鱼为什么喷水”，该语句为修复后的有效语料。

本发明的一些实施例中，通过第六实施例的方法，使用修复规则库对原始语料进行处理，当修复规则库无法处理时，再对其中语句进行解析，获取有效词语，进而对原始语料进行修复。解析获得的有效词语，其语句的匹配次数达到预设值时，将其更新存储到修复规则库中。本发明的一些实施例实现了使用更优的方式对原始语料进行修复，在不影响准确性的前提下，使得获取有效词语的效率进一步提高。

本发明第六实施例，如图6所示一种修复语料的方法，包括：

S720当相符合时，直接从所述修复规则库中获取所述有效词语；

S831统计所述语句出现的次数，当其大于预设值时，将所述语句加入到所述修复规则库内；

S951分析获得所述有效词语中与所述缺失部分相关联的关联词语；

S952分析所述语句的上下文之间的逻辑关系，根据所述逻辑关系和所述关联词语，获取增补词语；

S955调整所述乱序部分，获得正确语序；

具体地，获取原始语料的语句时，通过S710判断语句是否时修复规则库内已经存储的语句，其判断方法是，将原始语料语句特征作为检索条件，在修复规则库内进行检索，如果特征相符，判断该语句已存储在修复规则库中，则进入S720，直接调取该语句对应的有效词语。

通过S820成功获得与语句对应的有效词语、增补词语、正确语序后，查询该语句的历史成功解析次数，当这个次数大于一个预设值时，就判断该语句为高频语句，将高频语句加入到修复规则库里面。

进一步优选地，这个预设值可以是总累计次数，也可以是在一段时间内的累计次数，其用于作为语句是否加入修复规则库的判断标准，其呈现形式不影响本发明实施。在S831对例句的处理中，语句“为什么鲸鱼”每出现一次，记录加一次，直到其次数累计到N次时，将其作为高频语句加入到修复规则库里面。

通过S951分析获得所述有效词语中与所述缺失部分相关联的关联词语，寻找“鲸鱼”相关联的词语，通过S952分析所述语句的上下文之间的逻辑关系，根据所述逻辑关系和所述关联词语，获取增补词语,即根据有效词语“鲸鱼”获取缺失的谓语为“喷水”。通过S955，将乱序部分调整为正确语序，即调整为主语-疑问词-谓语。如此，有效词语、正确语序、增补词语都已经获得。

本发明的一些实施例中，使用第六实施例的方法，通过与有效词语相关联，以及结合上下文之间的逻辑关系来获取增补词语，实现了准确填补原始语料中的缺失部分的效果。

本发明第七实施例，如图7所示一种语料修复的装置，包括：

进一步地，本发明还提供一种语料修复的装置，包括：

提取模块100，当判断模块600判断出所述语句不在存储模块800存储的修复规则库中时，对其进行句法分析，获取其中的词语、词语词性和原始构成关系；从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；抽取所述关键关系中的主体成分和主体词性；

匹配模块200，根据所述提取模块100获取的所述词语词性与所述主体词性的对应关系，将所述词语匹配到所述主体成分中，匹配成功获得有效词语；

建库子模块210，记录所述语句与所述匹配模块200获得的有效词语的对应关系，所述纠错400模块获取的所述增补词语和所述正确语序，建立和更新修复规则库，所述修复规则库还包含所述语句和所述有效词语、所述增补词语、所述正确语序；

更新单元211，统计所述语句出现的次数，大于预设值时，将所述语句加入到所述建库子模块210建立的修复规则库内，更新修复规则库；

寻错模块300，通过与标准构成关系进行比对，获取所述提取模块100获取的所述原始构成关系中的缺失部分和乱序部分，所述标准构成关系为语法系统中的标准句子结构；

纠错模块400，结合所述匹配模块200获取的所述有效词语，对所述缺失部分进行增补，获得增补词语；调整所述乱序部分，获得正确语序；

关联子模块410，分析获得所述提取模块100获取的有效词语中与所述缺失部分相关联的关联词语；

增补子模块420，分析所述语句的上下文之间的逻辑关系，根据所述逻辑关系和所述关联子模块410获得的关联词语，获取增补词语；

生成模块500，结合匹配模块200获取的所述有效词语、所述纠错400模块获取的所述增补词语和所述正确语序，生成有效语料；或库修复模块直接从所述修复规则库中获取所述有效词语、所述增补词语、所述正确语序，生成有效语料；

判断模块600，获取所述原始语料中的语句，判断其与所述修复规则库内存储的所述语句特征是否相符合；

库修复模块700，当所述判断模块判断相符合时，直接从所述修复规则库中获取所述有效词语、所述增补词语、所述正确语序；

存储模块800，存储所述建库子模块210建立和更新的修复规则库。

具体地，本发明第七实施例是第六实施例对应的装置实施例，其技术方案和技术效果与第六实施例相同，在此不一一赘述。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语料修复的方法，其特征在于，包括：

从所述原始构成关系中提取关键关系的组合，所述关键关系为句子成分间的组合关系；

抽取所述关键关系中的主体成分和主体词性；

2.根据权利要求1所述的一种语料修复的方法，其特征在于，所述结合所述有效词语、所述增补词语和所述正确语序，生成有效语料前，还包括：

3.根据权利要求2所述的一种语料修复的方法，其特征在于，所述建立修复规则库包括：

4.根据权利要求3所述的一种语料修复的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的一种语料修复的方法，其特征在于，所述结合所述有效词语，对所述缺失部分进行增补，获得增补词语包括：

6.一种语料修复的装置，其特征在于，包括：

7.根据权利要求6所述的一种语料修复的装置，其特征在于，所述匹配模块包括：

8.根据权利要求7所述的一种语料修复的装置，其特征在于，所述建库子模块包括：

9.根据权利要求8所述的一种语料修复的装置，其特征在于，所述装置还包括：

10.根据权利要求6所述的一种语料修复的装置，其特征在于，所述纠错模块包括：