CN110750989A

CN110750989A - 一种语句分析的方法及装置

Info

Publication number: CN110750989A
Application number: CN201911032193.8A
Authority: CN
Inventors: 郭昱; 李长亮; 汪美玲
Original assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-04
Anticipated expiration: 2039-10-28
Also published as: CN110750989B

Abstract

本申请提供一种语句分析的方法，包括：对目标语句的每个词单元进行词性标注；基于所述目标语句生成短语，并根据每个所述词单元的词性得到每个短语的句式，其中，所述短语包括至少一个词单元；根据所述短语的句式得到所述目标语句的每个子句的句式；根据每个所述子句的句式得到所述目标语句的句式，从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构，使最终生成的目标语句的句式无需标注每个词单元的词性，降低了目标语句的句式复杂度，便于后续流程的分析。

Description

一种语句分析的方法及装置

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种语句分析的方法及装置、计算设备和计算机可读存储介质。

背景技术

自然语言文本的语义分析任务为根据输入语句的句法结构和句子中每个实词的词义进行语义角色标注，标记出一个语句中描述的事件以及与事件相关的各个角色，从而推导出能够反映该语句句义的形式化表示。

目前，大多中文句式是以宾州树的形式储存，宾州树保存了语句中每一个词的词性信息和不同词语之间的关系，按照名词性短语、动词性短语等不同类型的短语进行分类，选择核心动词作为root节点，连接语句内的所有词语。

由于宾州树对语句中的每一个词都进行连接，导致句式库过于庞大，不方便查询。并且，以核心动词为root节点，使得其无法解析名词性短句。

发明内容

有鉴于此，本申请实施例提供了一种语句分析的方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种语句分析的方法，包括：

对目标语句的每个词单元进行词性标注；

基于所述目标语句生成短语，并根据每个所述词单元的词性得到每个短语的句式，其中，所述短语包括至少一个词单元；

根据所述短语的句式得到所述目标语句的每个子句的句式；

根据每个所述子句的句式得到所述目标语句的句式。

可选地，对目标语句的每个词单元进行词性标注，包括：

对目标语句进行分词，得到多个所述词单元；

对每个词单元进行词性标注，得到每个词单元对应的词性标签。

可选地，基于所述目标语句生成短语，包括：对所述目标语句进行短语识别，得到多个所述短语。

可选地，在所述短语包括一个词单元的情况下；

根据每个所述词单元的词性得到每个短语的句式，包括：将所述短语对应的所述词单元的词性标签作为所述短语的句式；

在所述短语包括至少两个相邻的词单元的情况下；

根据每个所述词单元的词性得到每个短语的句式，包括：将所述短语对应的所述词单元的词性标签进行组合，得到每个短语的句式。

可选地，根据所述短语的句式得到所述目标语句的每个子句的句式，包括：

根据所述短语的句式，确定所述短语的词性标签；其中，所述短语的词性标签包括名词性标签和动词性标签；

确定词性标签为名词性标签和动词性标签的短语为目标短语，并将所述目标短语的词性标签按顺序组合，得到所述子句的句式，其中，每个子句包括至少一个短语。

可选地，在所述目标语句包括至少两个子句的情况下；

根据每个所述子句的句式得到所述目标语句的句式，包括：根据每个所述子句的句式以及相邻子句之间的标点，生成所述目标语句的句式；

在所述目标语句包括一个子句的情况下；

根据每个所述子句的句式得到所述目标语句的句式，包括：将所述子句的句式作为所述目标语句的句式。

可选地，所述方法还包括：

将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中。

可选地，将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中，包括：

将所述短语的句式与所述句式库中已存储的短语的句式进行对比，并在确定所述短语的句式未存储于所述句式库中的情况下，将所述短语的句式添加至所述句式库中；

将所述子句的句式与所述句式库中已存储的子句的句式进行对比，并在确定所述子句的句式未存储于所述句式库中的情况下，将所述子句的句式添加至所述句式库中；

将所述目标语句的句式与所述句式库中已存储的语句的句式进行对比，并在确定所述目标语句的句式未存储于所述句式库中的情况下，将所述目标语句的句式添加至所述句式库中。

本申请实施例提供了一种语句分析的装置，包括：

词单元标注模块，被配置为对目标语句的每个词单元进行词性标注；

短语处理模块，被配置为基于所述目标语句生成短语，并根据每个所述词单元的词性得到每个短语的句式，其中，所述短语包括至少一个词单元；

子句处理模块，被配置为根据所述短语的句式得到所述目标语句的每个子句的句式；

语句处理模块，被配置为根据每个所述子句的句式得到所述目标语句的句式。

本申请实施例提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述语句分析的方法的步骤。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述语句分析的方法的步骤。

本申请提供的语句分析的方法及装置，通过对目标语句的每个词单元进行词性标注，基于目标语句生成短语，并根据每个词单元的词性得到每个短语的句式，根据短语的句式得到每个子句的句式，然后根据每个子句的句式得到目标语句的句式，从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构，使最终生成的目标语句的句式无需标注每个词单元的词性，降低了目标语句的句式复杂度，便于后续流程的分析。

并且，在每个子句的句式的生成过程中，只保留了名词性标签和动词性标签，以提取出每个子句的主语、谓语和宾语，将子句的句式简化为基本的主谓宾结构，从而既简化了句式，也保留了每个子句的基本信息。

附图说明

图1是本申请一实施例的语句分析的方法的流程示意图；

图2是本申请一实施例的语句分析的装置的结构示意图；

图3是本申请一实施例的计算设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

词单元(token)：语句中基本的、不可再分割的词。

短语：又称词组，是指完整语句中的片段，既可以是一个词单元，也可以是多个词单元的组合。

子句：语句的组成部分，每个子句由至少一个短语组成。

语句：语法上自成体系的单位，一个完整的语句包括至少一个子句，表达一种主张、疑问、命令、愿望或感叹。

在本申请中，提供了一种语句分析的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

首先，对本申请实施例中涉及的词单元—短语—子句—语句的层次进行举例说明。以语句“我和小明上午一起打篮球，下午一起参加了学校组织的画展”为例，包括两个子句“我和小明上午一起打篮球”和“下午一起参加了学校组织的画展”。第一个子句包括多个短语：“我和小明”、“上午”、“一起”、“打”、“篮球”，第二个子句包括多个短语：“下午”、“一起”、“参加了”、“学校组织的画展”。每个短语包括至少一个词单元，例如短语“我和小明”包括词单元“我”、“和”以及“小明”，短语“上午”包括词单元“上午”。

本申请实施例公开了一种语句分析的方法，参见图1，包括下述步骤101～104：

101、对目标语句的每个词单元进行词性标注。

具体地，步骤101包括：

对目标语句进行分词，得到多个所述词单元；

参见表1，表1示出了词单元对应的词性标签的种类。

表1

以“我和小明上午一起打篮球”为例，标注结果为“我/PN和/CC小明/NN上午/NT一起/AD打/VV篮球/NN”。

102、基于所述目标语句生成短语，并根据每个所述词单元的词性得到每个短语的句式，其中，所述短语包括至少一个词单元。

具体地，基于所述目标语句生成短语，包括：对所述目标语句进行短语识别，得到多个所述短语。

在短语包括一个词单元的情况下，根据每个词单元的词性得到每个短语的句式，包括：将短语对应的所述词单元的词性标签作为短语的句式。

在短语包括至少两个相邻的词单元的情况下，根据每个词单元的词性得到每个短语的句式，包括：将短语对应的词单元的词性标签进行组合，得到每个短语的句式。

以短语“我和小明”为例，其包括三个词单元，那么该短语的句式为“PN/CC/NN”。

以短语“上午”为例，其包括一个词单元，那么该短语的句式为“NT”。

以短语“学校组织的画展”为例，其包括四个词单元，那么该短语的句式为“NN/VV/DEG/NN”。

本实施例中，短语的常见句式包括NN/NN、NN/VV/DEG/NN、AD/JJ等。

103、根据所述短语的句式得到所述目标语句的每个子句的句式。

具体地，步骤103包括：

S1031、根据所述短语的句式，确定所述短语的词性标签。

参见表2，表2示出了本实施例中的短语的词性标签。

表2

仍以上述例句中的短语为例，短语“我和小明”的句式为“PN/CC/NN”，该短语是以名词为主，所以确定该短语的词性标签为“NP”。

具体地，本实施例中的目标语句的短语以及短语的词性标签参见下表3。

表3

S1032、确定词性标签为名词性标签和动词性标签的短语为目标短语，并将所述目标短语的词性标签按顺序组合，得到所述子句的句式，其中，每个子句包括至少一个短语。

本实施例中，在每个子句的句式的生成过程中，只保留了名词性标签和动词性标签，以提取出每个子句的主语、谓语和宾语，将子句的句式简化为基本的主谓宾结构，从而既简化了句式，也保留了每个子句的基本信息。

对于本实施例例句的第一个子句，确定词性标签为名词性标签和动词性标签的短语分别为“我和小明”、“打”、“篮球”，得到的子句句式为NP/VP/NP；

对于本实施例例句的第二个子句，确定词性标签为名词性标签和动词性标签的短语分别为“参加”、“学校组织的画展”，得到的子句句式为NP/VP。

104、根据每个所述子句的句式得到所述目标语句的句式。

具体地，在目标语句包括至少两个子句的情况下，根据每个子句的句式得到目标语句的句式，包括：根据每个子句的句式以及相邻子句之间的标点，生成目标语句的句式；

在目标语句包括一个子句的情况下，根据每个子句的句式得到目标语句的句式，包括：将子句的句式作为目标语句的句式。

对于本实施例中的例句，最终得到的目标语句的句式为“NP/VP/NP，NP/VP”。

可选地，在得到短语的句式、子句的句式以及目标语句的句式后，所述方法还包括：将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中，从而不断完善句式库的信息。

具体地，将短语的句式、子句的句式以及目标语句的句式存储于句式库中，包括：

本申请提供的语句分析的方法，通过对目标语句的每个词单元进行词性标注，基于目标语句生成短语，并根据每个词单元的词性得到每个短语的句式，根据短语的句式得到每个子句的句式，然后根据每个子句的句式得到目标语句的句式，从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构，使最终生成的目标语句的句式无需标注每个词单元的词性，降低了目标语句的句式复杂度，便于后续流程的分析。

通过本实施例的方法，无需再设置root节点，而是直接使用简化后的词性标签解析语句结构，降低了句式的复杂度，且保留了语句的基本信息。

本申请实施例公开了一种语句分析的装置，参见图2，包括：

词单元标注模块201，被配置为对目标语句的每个词单元进行词性标注；

短语处理模块202，被配置为基于所述目标语句生成短语，并根据每个所述词单元的词性得到每个短语的句式，其中，所述短语包括至少一个词单元；

子句处理模块203，被配置为根据所述短语的句式得到所述目标语句的每个子句的句式；

语句处理模块204，被配置为根据每个所述子句的句式得到所述目标语句的句式。

可选地，词单元标注模块201具体被配置为：

对目标语句进行分词，得到多个所述词单元；

可选地，短语处理模块202具体被配置为：对所述目标语句进行短语识别，得到多个所述短语。

可选地，在所述短语包括一个词单元的情况下，短语处理模块202具体被配置为：将所述短语对应的所述词单元的词性标签作为所述短语的句式；

在所述短语包括至少两个相邻的词单元的情况下，短语处理模块202具体被配置为：将所述短语对应的所述词单元的词性标签进行组合，得到每个短语的句式。

可选地，所述子句处理模块203具体被配置为：

可选地，在所述目标语句包括至少两个子句的情况下，所述语句处理模块204具体被配置为：根据每个所述子句的句式以及相邻子句之间的标点，生成所述目标语句的句式；

在所述目标语句包括一个子句的情况下，所述语句处理模块204具体被配置为：将所述子句的句式作为所述目标语句的句式。

可选地，所述装置还包括：存储模块，被配置为将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中。

可选地，所述存储模块具体被配置为：

本申请提供的语句分析的装置，通过对目标语句的每个词单元进行词性标注，基于目标语句生成短语，并根据每个词单元的词性得到每个短语的句式，根据短语的句式得到每个子句的句式，然后根据每个子句的句式得到目标语句的句式，从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构，使最终生成的目标语句的句式无需标注每个词单元的词性，降低了目标语句的句式复杂度，便于后续流程的分析。

上述为本实施例的一种语句分析的装置的示意性方案。需要说明的是，该装置的技术方案与上述的语句分析的方法的技术方案属于同一构思，装置的技术方案未详细描述的细节内容，均可以参见上述语句分析的方法的技术方案的描述。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

对目标语句的每个词单元进行词性标注；

根据所述短语的句式得到所述目标语句的每个子句的句式；

根据每个所述子句的句式得到所述目标语句的句式。

图3是示出了根据本说明书一实施例的计算设备300的结构框图。该计算设备300的部件包括但不限于存储器310和处理器320。处理器320与存储器310通过总线330相连接，数据库350用于保存数据。

计算设备300还包括接入设备340，接入设备340使得计算设备300能够经由一个或多个网络360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备340可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备300的上述部件以及图3中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图3所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备300可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备300还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语句分析的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语句分析的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语句分析的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语句分析的方法，其特征在于，包括：

对目标语句的每个词单元进行词性标注；

根据所述短语的句式得到所述目标语句的每个子句的句式；

根据每个所述子句的句式得到所述目标语句的句式。

2.如权利要求1所述的方法，其特征在于，对目标语句的每个词单元进行词性标注，包括：

对目标语句进行分词，得到多个所述词单元；

3.如权利要求2所述的方法，其特征在于，基于所述目标语句生成短语，包括：对所述目标语句进行短语识别，得到多个所述短语。

4.如权利要求3所述的方法，其特征在于，在所述短语包括一个词单元的情况下；

在所述短语包括至少两个相邻的词单元的情况下；

5.如权利要求1所述的方法，其特征在于，根据所述短语的句式得到所述目标语句的每个子句的句式，包括：

6.如权利要求1或5所述的方法，其特征在于，在所述目标语句包括至少两个子句的情况下；

在所述目标语句包括一个子句的情况下；

7.如权利要求1所述的方法，其特征在于，还包括：

8.如权利要求7所述的方法，其特征在于，将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中，包括：

9.一种语句分析的装置，其特征在于，包括：

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。

11.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。