CN108304362A

CN108304362A - 一种从句检测方法及装置

Info

Publication number: CN108304362A
Application number: CN201710021476.7A
Authority: CN
Inventors: 张凯波; 盛志超; 陈志刚; 魏思; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2018-07-20
Anticipated expiration: 2037-01-12
Also published as: CN108304362B

Abstract

本发明实施例提供了一种从句检测方法及装置，其中方法包括：获取待检测句子；获取所述句子中每个最小分析单元的上下文相关的向量信息；根据预先构建的从句位置检测模型和所述每个最小分析单元的上下文相关的向量信息，获取每个最小分析单元的位置类型，其中所述位置类型用于指示所述最小分析单元与所述句子中的从句的位置关系；根据所述每个最小分析单元的位置类型确定所述句子中从句的位置。在本发明实施例中不再依赖待识别句子中的字符是否在训练集中出现过，克服了现有技术中存在的因字符级特征稀疏导致的问题，大大提升了从句检测的准确性。

Description

一种从句检测方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种从句检测方法及装置。

背景技术

随着信息技术的发展，人们所面对的文本信息量也呈爆发式增长，有关文本信息的处理技术也在不断进化。以教育领域为例，近年来随着教育信息化技术的不断发展，各种智能教学系统逐步应用在日常的教学中，诸如自动批改、学情诊断等自动化处理手段，开始逐渐被广大教师及学生所接受。在这其中，作文的自动批改是智能教学的一个重要组成部分，不仅可以帮助老师提高批改作文的效率，还可以提高学生的写作能力。在写作中，句子的表达是构成文章的关键,适度的使用从句可以在很大程度上帮助学生们提升句子的流畅性和完整性，而相应的，是否能灵活运用从句来清楚、连贯地表达思想是作为作文评分的重要标准之一，因此自动准确地从句子中检测出从句对于智能教育等领域具有重要意义。

发明人在实现本发明的过程中发现，现有技术中的从句检测多是基于提取特定的字符级特征来训练统计模型的方法，其结果的可靠性、准确性，完全依赖于学生书写的句子中相关的单词以及结构在训练集中有没有出现(也即存在字符级特征稀疏的问题)，然而在现实应用中，学生的书写千变万化，即使同一种意思也可能有很多不同的表达，因此现有技术中的从句检测方法效果并不佳。

发明内容

本发明提供一种从句检测方法及装置，以提高从句检测的准确性。

根据本发明实施例的第一方面，提供一种从句检测方法，所述方法包括：

获取待检测句子；

获取所述句子中每个最小分析单元的上下文相关的向量信息；

根据预先构建的从句位置检测模型和所述每个最小分析单元的上下文相关的向量信息，获取每个最小分析单元的位置类型，其中所述位置类型用于指示所述最小分析单元与所述句子中的从句的位置关系；

根据所述每个最小分析单元的位置类型确定所述句子中从句的位置。

可选的，所述位置类型分为：

从句的句首、从句内的起始、从句内的中间部分、从句内的结尾、从句的句尾、非从句部分。

可选的，获取所述句子中每个最小分析单元的上下文相关的向量信息，包括：

根据预先构建的第一模型获取每个最小分析单元的向量信息，其中所述第一模型的输入为所述句子，输出为每个最小分析单元的向量信息；

根据预先构建的第二模型获取每个最小分析单元的上下文相关的向量信息，其中所述第二模型的输入为每个最小分析单元的向量信息，输出为每个最小分析单元的的上下文相关的向量信息。

可选的，获取每个最小分析单元的位置类型之后，所述方法还包括以下对位置类型进行修正的步骤：

将所有最小分析单元的位置类型对应的概率值按照从大到小排序；

按照所述排序，依次对每个最小分析单元进行如下处理：

将当前最小分析单元与前和\或后一个最小分析单元合并，其中所述前和\或后一个最小分析单元是当前最小分析单元在所述句子中相邻的前和\或后一个最小分析单元；

根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正。

可选的，根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正，包括：

根据所述从句位置检测模型获取合并后的当前最小分析单元的位置类型；

判断合并前后当前最小分析单元的位置类型是否发生了变化；

如果合并前后当前最小分析单元的位置类型发生了变化，则判断合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系；

如果不符合所述从句内正常顺序关系，则修改合并后当前最小分析单元中所含的最小分析单元的位置类型以符合所述从句内正常顺序关系。

可选的，根据所述每个最小分析单元的位置类型确定所述句子中从句的位置之后，所述方法还包括以下获取从句类型的步骤：

获取所述从句的类型特征，其中所述类型特征包括以下至少一项：所述从句的引导词、所述引导词相关的依存关系；

根据预先构建的从句类型检测模型和所述从句的类型特征，获取所述从句的类型。

可选的，所述从句的类型特征还包括：

所述从句在所述句子中的位置。

根据本发明实施例的第二方面，提供一种从句检测装置，所述装置包括：

句子获取模块，用于获取待检测句子；

向量信息获取模块，用于获取所述句子中每个最小分析单元的上下文相关的向量信息；

位置类型获取模块，用于根据预先构建的从句位置检测模型和所述每个最小分析单元的上下文相关的向量信息，获取每个最小分析单元的位置类型，其中所述位置类型用于指示所述最小分析单元与所述句子中的从句的位置关系；

从句定位模块，用于根据所述每个最小分析单元的位置类型确定所述句子中从句的位置。

可选的，所述位置类型分为：

可选的，所述向量信息获取模块用于：

可选的，所述装置还包括：

位置类型修正模块，用于将所有最小分析单元的位置类型对应的概率值按照从大到小排序；按照所述排序，依次对每个最小分析单元进行如下处理：将当前最小分析单元与前和\或后一个最小分析单元合并，其中所述前和\或后一个最小分析单元是当前最小分析单元在所述句子中相邻的前和\或后一个最小分析单元；根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正。

可选的，所述位置类型修正模块在根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正时，用于：

可选的，所述装置还包括：

从句类型获取模块，用于获取所述从句的类型特征，其中所述类型特征包括以下至少一项：所述从句的引导词、所述引导词相关的依存关系；根据预先构建的从句类型检测模型和所述从句的类型特征，获取所述从句的类型。

可选的，所述从句的类型特征还包括：

所述从句在所述句子中的位置。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明实施例中，不再依赖待识别句子中的字符是否在训练集中出现过，而是将句子划分成最小分析单元(例如最小分析单元可以是中文里的字、词或短语，英文中的单词)，然后提取每个最小分析单元的上下文相关的向量信息，再借助预先构建的从句位置检测模型获取每个最小分析单元的位置类型，例如判断出哪个最小分析单元是从句的句首，哪些最小分析单元不属于从句，等等，从而准确获得了待识别句子中从句的位置。本发明实施例中的方案克服了现有技术中存在的因字符级特征稀疏导致的问题，大大提升了从句检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。此外，这些介绍并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明一示例性实施例示出的一种从句检测方法的流程图；

图2是根据本发明一示例性实施例示出的一种从句检测方法的流程图；

图3是根据本发明一示例性实施例示出的一种从句检测方法的流程图；

图4是根据本发明一示例性实施例示出的一种从句检测方法的流程图；

图5是根据本发明一示例性实施例示出的一种从句检测装置的示意图；

图6是根据本发明一示例性实施例示出的一种从句检测装置的示意图；

图7是根据本发明一示例性实施例示出的一种从句检测装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明一示例性实施例示出的一种从句检测方法的流程图。作为示例该方法可用于手机、平板电脑、个人电脑、服务器等设备。

参见图1所示，该方法可以包括：

步骤S101，获取待检测句子。

作为示例，待检测句子可以是英文句子，也可以是中文句子，等等，对此本实施例无需进行限制。

步骤S102，获取所述句子中每个最小分析单元的上下文相关的向量信息。

在本实施例中，会将句子分解为多个最小分析单元，其中最小分析单元可以是中文里的字、词或短语，英文中的单词等。

步骤S103，根据预先构建的从句位置检测模型和所述每个最小分析单元的上下文相关的向量信息，获取每个最小分析单元的位置类型，其中所述位置类型用于指示所述最小分析单元与所述句子中的从句的位置关系。

作为示例，所述位置类型可以分为以下几种：

从句的句首(S)，例如待检测句子为“The problem is how we can get so muchmoney”，那么易知从句的句首为引导词“how”；

从句内的起始(MS)，通常是从句句首后面的一个词，例如上例中的“we”；

从句内的结尾(ME)，通常是从句的倒数第二个词；

从句的句尾(E)，通常是从句的最后一个词；

从句内的中间部分(MM)，也即从句中除了S、MS、E、ME之外的词；

非从句部分(X)，也即句子中不属于从句的词。

对于从句位置检测模型的具体结构本实施例并不进行限制，例如具体可以为一个分类模型，如神经网络模型，进一步例如DNN(Deep Neural Network)、CNN(ConvolutionalNeural Networks)等，本领域技术人员可以根据不同需求\不同场景而自行选择、设计，可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。

作为示例，可以预先收集训练语料，通过训练得到从句位置检测模型。例如先收集大量自然语料(如1000万篇文章)，然后标记好每句内的最小分析单元的位置类型(即S、MS或ME等)，再将每个最小分析单元的上下文相关的向量信息及其位置类型作为训练用的输入输出样本对，对从句位置检测模型进行训练，从而确定模型参数。

在使用时，可以依次将待检测句子中的每个最小分析单元的上下文相关的向量信息输入到预先构建的从句位置检测模型中，而从句位置检测模型可输出当前最小分析单元所属的位置类型的概率，可以概率最大的位置类型作为当前最小分析单元的位置类型。

举例说明：例句The problem is how we can get so much money，以单词为最小分析单元，在从句位置检测时，单词the、problem、is被分类为非从句部分X；单词how被分类为从句的句首S；单词we被分类为从句内的起始MS；单词can、get、so被分类为从句内的中间部分MM；单词much被分类为从句内的结尾ME；单词money被分类为从句的句尾E。

步骤S104，根据所述每个最小分析单元的位置类型确定所述句子中从句的位置。

因为得到了各最小分析单元的位置类型，那么便可据此在当前句子中直接定位出从句。

参见图2所示，在本实施例或本发明其他某些实施例中，对于步骤S102，即获取所述句子中每个最小分析单元的上下文相关的向量信息，可以包括如下子步骤：

步骤S201，根据预先构建的第一模型获取每个最小分析单元的向量信息，其中所述第一模型的输入为所述句子，输出为每个最小分析单元的向量信息。

作为示例，第一模型可以为WordEmbedding模型。该模型的输入为一个句子，输出为最小分析单元的WordEmbedding向量。例如可以采用Google的word2vec方案，具体训练属于现有技术，此处不再赘述。

步骤S202，根据预先构建的第二模型获取每个最小分析单元的上下文相关的向量信息，其中所述第二模型的输入为每个最小分析单元的向量信息，输出为每个最小分析单元的的上下文相关的向量信息。

作为示例，第二模型可以为LSTM(Long Short-Term Memory)模型。该模型的输入为一个句子中最小分析单元的WordEmbedding向量，输出为最小分析单元的上下文相关的WordEmbedding向量。关于LSTM模型的具体训练过程也属于现有技术，如可采用Theano工具进行训练，在此不再赘述。

此外，为进一步提高模型适用性，对于基于自然语料训练得到的通用的WordEmbedding模型和LSTM模型，可以基于主题相关训练语料(比如针对一次考试的学生数据)，进行Tuning(调整)得到主题相关的WordEmbedding模型和LSTM模型。

参见图3所示，在本实施例或本发明其他某些实施例中，获取每个最小分析单元的位置类型之后，所述方法还包括以下对位置类型进行修正的步骤：

步骤S301，将所有最小分析单元的位置类型对应的概率值按照从大到小排序。

举例来讲，假设从句中所包含的最小分析单元为{w₁,w₂,...,w_n}，其中w₁、w₂等均为一个最小分析单元；通过从句位置检测模型得到最小分析单元相应的位置类型为{d₁,d₂,...,d_n}，其中d₁、d₂等的取值是S、MS、MM、ME、E和X中的一种；{d₁,d₂,...,d_n}对应的概率值为{p₁,p₂,...,p_n}；然后将{w₁,w₂,...,w_n}按照{p₁,p₂,...,p_n}从大到小的顺序重新排序，得到{k₁,k₂,...,k_n}。

步骤S302，按照所述排序，依次对每个最小分析单元进行如下处理：

根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正。具体来讲：

例如，承接上例，从k₁开始，对从句内所有的最小分析单元进行前和/或后扩展(也即合并)。以k₁为例，将k₁对应的最小分析单元与原句中前和/或后一个最小分析单元合并，假设得到的新的最小分析单元为k₁'，那么根据从句位置检测类型得到k₁'的位置类型，如果k₁'的位置类型和k₁的位置类型相同(例如合并前是S合并后也是S)，则将k₁和前和/或后一个最小分析单元进行合并，依次再对k₂进行相同的操作。

而如果k₁'的位置类型和k₁的位置类型不同，则判断k₁'中所含的最小分析单元之间的顺序是否符合从句内正常顺序关系(即S->MS->MM->ME->E的顺序)，如果符合，则继续对k₂进行与k₁相同的操作；而如果不符合从句内正常顺序关系，则将k₁'中所含的各最小分析单元的位置类型强制修改为符合从句内正常顺序关系的位置类型，然后再继续对k₂进行与k₁相同的操作。

另外需要说明的是，在上述操作中，对于已经处理了的最小分析单元，在后续相同操作时就无需再操作，例如假设对k₁进行合并时，合并的恰好就是k₂，那么后续相同重复操作就可以跳过k₂而转向k₃。

此外，参见图4所示，在本实施例或本发明其他某些实施例中，根据所述每个最小分析单元的位置类型确定所述句子中从句的位置之后，所述方法还包括以下获取从句类型的步骤：

步骤S401，获取所述从句的类型特征，其中所述类型特征包括以下至少一项：所述从句的引导词、所述引导词相关的依存关系。另外所述从句的类型特征还可以包括从句在所述句子中的位置。

步骤S402，根据预先构建的从句类型检测模型和所述从句的类型特征，获取所述从句的类型。

例如，所述从句类型检测模型可以为一个通过预先训练而构建的分类模型，如SVM、DNN、CNN等，其输入可以为从句的引导词、从句在所述句子中的位置、从句引导词相关的依存关系，输出为从句类型，从句类型可分为表语从句、主语从句、定语从句、同位语从句、宾语从句、条件状语从句、原因状语从句、地点状语从句以及时间状语从句等。

从句的引导词指的是像what、where这样的引导词，如果没有引导词，该维为0；

从句在所述句子中的位置可以分为三类，即从句位于句子起始、从句位于句子中间和从句位于句子结尾。

所述引导词相关的依存关系指对句子进行句法解析后，和从句引导词有关的依存关系。如句子“Who will be our monitor hasn't been decided yet.”，其中who-moniter的依存关系是主谓关系，可以辅助判断是who引导的主语从句“Who will be ourmonitor”。所述句法解析可以采用现有的解析技术，具体实现方法在此不再赘述。

需要说明的是：上述从句引导词、从句在所述句子中的位置、从句引导词相关的依存关系这三种特征，其中从句引导词、从句引导词相关的依存关系这两种特征需要其中至少一种，而从句在所述句子中的位置可以不是必要特征。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图5是根据本发明一示例性实施例示出的一种从句检测装置的示意图。参见图5所示，该装置可以包括：

句子获取模块501，用于获取待检测句子；

向量信息获取模块502，用于获取所述句子中每个最小分析单元的上下文相关的向量信息；

位置类型获取模块503，用于根据预先构建的从句位置检测模型和所述每个最小分析单元的上下文相关的向量信息，获取每个最小分析单元的位置类型，其中所述位置类型用于指示所述最小分析单元与所述句子中的从句的位置关系；

从句定位模块504，用于根据所述每个最小分析单元的位置类型确定所述句子中从句的位置。

在本实施例或本发明其他某些实施例中，所述位置类型可以分为：

在本实施例或本发明其他某些实施例中，所述向量信息获取模块具体可以用于：

参见图6所示，在本实施例或本发明其他某些实施例中，所述装置还可以包括：

位置类型修正模块601，用于将所有最小分析单元的位置类型对应的概率值按照从大到小排序；按照所述排序，依次对每个最小分析单元进行如下处理：将当前最小分析单元与前和\或后一个最小分析单元合并，其中所述前和\或后一个最小分析单元是当前最小分析单元在所述句子中相邻的前和\或后一个最小分析单元；根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正。

在本实施例或本发明其他某些实施例中，所述位置类型修正模块在根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正时，具体可以用于：

参见图7所示，在本实施例或本发明其他某些实施例中，所述装置还可以包括：

从句类型获取模块701，用于获取所述从句的类型特征，其中所述类型特征包括以下至少一项：所述从句的引导词、所述引导词相关的依存关系；根据预先构建的从句类型检测模型和所述从句的类型特征，获取所述从句的类型。

此外，在本实施例或本发明其他某些实施例中，所述从句的类型特征还可以包括：所述从句在所述句子中的位置。

在本实施例中，不再依赖待识别句子中的字符是否在训练集中出现过，而是将句子划分成最小分析单元(例如最小分析单元可以是中文里的字、词或短语，英文中的单词)，然后提取每个最小分析单元的上下文相关的向量信息，再借助预先构建的从句位置检测模型获取每个最小分析单元的位置类型，例如判断出哪个最小分析单元是从句的句首，哪些最小分析单元不属于从句，等等，从而准确获得了待识别句子中从句的位置。本实施例中的方案克服了现有技术中存在的因字符级特征稀疏导致的问题，大大提升了从句检测的准确性。

关于上述实施例中的装置，其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种从句检测方法，其特征在于，所述方法包括：

获取待检测句子；

2.根据权利要求1所述的方法，其特征在于，所述位置类型分为：

3.根据权利要求1所述的方法，其特征在于，获取所述句子中每个最小分析单元的上下文相关的向量信息，包括：

4.根据权利要求1所述的方法，其特征在于，获取每个最小分析单元的位置类型之后，所述方法还包括以下对位置类型进行修正的步骤：

按照所述排序，依次对每个最小分析单元进行如下处理：

5.根据权利要求4所述的方法，其特征在于，根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述每个最小分析单元的位置类型确定所述句子中从句的位置之后，所述方法还包括以下获取从句类型的步骤：

7.根据权利要求6所述的方法，其特征在于，所述从句的类型特征还包括：

所述从句在所述句子中的位置。

8.一种从句检测装置，其特征在于，所述装置包括：

句子获取模块，用于获取待检测句子；

9.根据权利要求8所述的装置，其特征在于，所述位置类型分为：

10.根据权利要求8所述的装置，其特征在于，所述向量信息获取模块用于：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述位置类型修正模块在根据合并前后当前最小分析单元的位置类型是否发生了变化，以及合并前当前最小分析单元与所述前和\或后一个最小分析单元之间的顺序关系是否符合从句内正常顺序关系，对合并后当前最小分析单元中所含的最小分析单元的位置类型进行修正时，用于：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述从句的类型特征还包括：

所述从句在所述句子中的位置。