CN110738048A

CN110738048A - 一种关键词提取方法、装置及终端设备

Info

Publication number: CN110738048A
Application number: CN201910939851.5A
Authority: CN
Inventors: 尹留松
Original assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Current assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-31
Anticipated expiration: 2039-09-30
Also published as: CN110738048B

Abstract

本申请提供了一种关键词提取方法、装置及终端设备，适用于数据处理技术领域，该方法包括：基于预设词典对待处理语句进行词语查找，并基于查找出的词语对待处理语句进行语句切分，得到对应的多条第一切分语句；筛选出多条第一切分语句中语句路径概率最大的目标切分语句；对目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语；基于预设的法律术语库对多个待检测词语进行法律术语筛选，得到对应的法律术语关键词。本申请实施例最终对关键词的筛选时不会仅拘束于简单的基础词语，而是同时会对由基础词语组合得到的法律术语进行识别，从而使得最终对法律术语关键词提取的准确性得到了极大地提高。

Description

一种关键词提取方法、装置及终端设备

技术领域

本申请属于数据处理技术领域，尤其涉及关键词提取方法及终端设备。

背景技术

关键词是表达文档主题的最小单位，因此在自然语言处理方面是十分重要的一个环节，比如自动文摘、自动分类、信息检索、信息抽取、知识挖掘等都需要先进行关键词提取。现有技术中已有的一些关键词提取方法，例如TextRank算法和主题模型等，但这些关键词提取方法都是针对日常生活语句中的关键词提取，而对于法律术语而言，由于其专业性较强与日常使用的词语差异较大，使得这些关键词提取方法对法律术语关键词提取的准确率不尽人意，同时现有技术中也没有专门针对法律术语关键词进行提取的方法，因此，急需一种可以对法律术语进行关键词有效提取的方法。

发明内容

有鉴于此，本申请实施例提供了一种关键词提取方法及终端设备，以解决现有技术中对法律术语进行关键词提取准确率较低的问题。

本申请实施例的第一方面提供了一种关键词提取方法，包括：

基于预设词典对待处理语句进行词语查找，并基于查找出的词语对所述待处理语句进行语句切分，得到对应的多条第一切分语句；

筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句；

对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语；

基于预设的法律术语库对多个所述待检测词语进行法律术语筛选，得到对应的法律术语关键词。

在第一方面的第一种可能的实现方式中，筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句，包括：

获取所述第一切分语句内每个词语在所述预设词典中的词语概率，以及按照从右至左顺序的相邻词语之间的词性连接概率，并基于所述词语概率和所述词性连接概率计算每条所述第一切分语句对应的语句路径概率。

在第一方面的第二种可能的实现方式中，筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句，还包括：

提取多条所述第一切分语句中最大语句路径概率的第一切分语句，并从剩余的多条所述第一切分语句中，提取出与所述最大语句路径概率的概率差值小于预设差值阈值的第一切分语句；

若提取出的第一切分语句总数量大于1，获取提取出的第一切分语句内，按照从右至左顺序的相邻词语之间的词语连接概率，并基于所述词语概率和所述词语连接概率，更新每条提取出的第一切分语句分别对应的语句路径概率；

从提取出的第一切分语句中筛选出语句路径概率最大的所述目标切分语句。

在第一方面的第三种可能的实现方式中，基于所述词语概率和所述词性连接概率计算每条所述第一切分语句对应的语句路径概率，包括：

基于所述相邻词语对应所述词语概率和所述词性连接概率，计算所述相邻词语对应的第一连接概率，并基于所述第一切分语句内包含的所述相邻词语的第一连接概率，计算每条所述切分词语对应的语句路径概率。

在第一方面的第四种可能的实现方式中，基于所述词语概率和所述词语连接概率，更新每条提取出的第一切分语句分别对应的语句路径概率，包括：

基于所述相邻词语对应所述词语概率和所述词语连接概率，计算所述相邻词语对应的第二连接概率，并基于所述第一切分语句内包含的所述相邻词语的第二连接概率，更新每条所述切分词语对应的语句路径概率。

在第一方面的第五种可能的实现方式中，对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语，还包括：

对所述目标切分语句内的词语进行连续词语的组合，并基于得到的词语组合对所述目标切分语句进行切分，得到对应的多条第二切分语句；

对多条所述第二切分语句中语句路径概率最大的切分语句进行词语提取，得到对应的多个待检测词语。

在第一方面的第六种可能的实现方式中，对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语，包括：

所述目标切分语句内的词语，进行词语数量小于预设数量阈值的连续词语的组合，得到对应的多个待检测词语。

本申请实施例的第二方面提供了一种关键词提取装置，包括：

划分模块，用于基于预设词典对待处理语句进行词语查找，并基于查找出的词语对所述待处理语句进行语句切分，得到对应的多条第一切分语句；

语句筛选模块，用于筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句；

组合模块，用于对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语；

关键词筛选模块，用于基于预设的法律术语库对多个所述待检测词语进行法律术语筛选，得到对应的法律术语关键词。

本申请实施例的第三方面提供了一种终端设备，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述关键词提取方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，包括：存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述关键词提取方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述关键词提取方法。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例中，先对语句进行基础词语的分词，并进行基础词语的语句切分和语句合理性校验，从而实现了对语句最合理的基础词语划分，再基于基础词语进行连续词语的组合，从而实现了对由基础词语组合而成的法律术语的获取，最后基于法律术语库对基础词语和组合得到的待检测词语进行筛选，使得最终对关键词的筛选时，不会仅拘束于简单的基础词语，而是同时会对由基础词语组合得到的法律术语进行识别，从而使得最终对法律术语关键词提取的准确性得到了极大地提高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的关键词提取方法的实现流程示意图；

图2是本申请实施例二提供的关键词提取方法的实现流程示意图；

图3是本申请实施例三提供的关键词提取方法的实现流程示意图；

图4是本申请实施例四提供的关键词提取装置的结构示意图；

图5是本申请实施例五提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

为了便于理解本申请，此处先对本申请实施例进行简要说明，由于现有技术中的关键词提取方法都是针对日常生活中使用的关键词进行提取，但法律关术语与日常生活的关键词往往存在较大差异，例如一些法律术语是日常关键词的组合，如“善意取得”、“可撤销婚姻”和“统一机构代码”，此时现有技术中的关键词提取方法往往无法有效分辨出这些组合术语，而是会将这些组合术语识别为多个日常关键词，因此，现有技术中的关键词提取方法难以满足实际法律术语关键词提取的需求。

为了实现对法律术语关键词的准确提取，在本申请实施例中，先对语句进行基础词语的分词，并进行基础词语的语句切分和语句合理性校验，从而实现了对语句最合理的基础词语划分，再基于基础词语进行连续词语的组合，从而实现了对由基础词语组合而成的法律术语的获取，最后基于法律术语库对基础词语和组合得到的待检测词语进行筛选，使得最终对关键词的筛选时，不会仅拘束于简单的基础词语，而是同时会对由基础词语组合得到的法律术语进行识别，从而使得最终对法律术语关键词提取的准确性得到了极大地提高。

图1示出了本申请实施例一提供的关键词提取方法的实现流程图，详述如下：

S101，基于预设词典对待处理语句进行词语查找，并基于查找出的词语对待处理语句进行语句切分，得到对应的多条第一切分语句。

在本申请实施例中，预设词典是由技术人员预先基于预设语料资源进行统计训练得到的包含大量词语的词典，其中，具体的预设语料资源选取此处不予限定，包括但不限于如历年人民日报等。

在本申请实施例中，将预设词典中的词语称为基础词语。由于法律术语既有可能是这些基础词语本身，也有可能是基础词语的组合，因此本申请实施例首先会确定出语句中包含的基础词语情况，但考虑到实际情况中即使有了预设词典，但对于同一语句而言也可能有多种不同的词语划分方案，得到对应不同的切分语句(即以词语划分方案中每个基础词语为界，对语句进行切分得到的语句)，例如，“有意”和“意见”都是预设词典中的词语，但对于语句“有意见分歧”而言，至少有以下两种词语划分方案及对应的切分语句：

方案S1：“有”“意见”“分歧”，对应切分语句为：有/意见/分歧/。

方案S2：“有意”“见”“分歧”对应切分语句为：有意/见/分歧/。

而不同的词语划分方案直接会导致后续法律术语识别得到不同的结果，因此，为了保障最终法律术语关键词识别的准确性，本申请实施例会先用预设词典对语句进行查找，确定出语句中所有包含的所有词语，如上述的“有意见分歧”中，包含“有”、“意”、“见”、“分”、“岐”、“有意”、“意见”、“分歧”和“有意见”，再基于这些词语确定语句对应所有可能的词语组合划分方案，以及每个词语划分方案对应的切分语句，如上述的方案S1和方案S2及对应的切分语句。其中，理论上语句越长对应的词语划分方案也就越多，此时对应的切分语句的数量也就越多。

作为本申请的一个可选实施例，若待检测语句中存在不属于预设词典内的词语，会将这些词语也识别为本申请实施例中的基础词语。

S102，筛选出多条第一切分语句中语句路径概率最大的目标切分语句。

虽然通过对基础词语的查找划分以及语句的切分可以得到待处理语句对应的多条第一切分语句，但由实际应用可知，这些第一切分语句仅仅是满足了基础词语的划分需求，并不表示其可以满足自然语法规则，即得出的第一切分语句在自然语法上不一定合理，因此，在本申请实施例中还需要对所有的第一切分语句的语句合理性进行考量，并筛选出其中最能满足自然语法规则的语句。

具体而言，本申请实施例会计算每一条第一切分语句对应语句路径概率作为对应的语句合理性量化值，再从中筛选出语句路径概率最大的语句作为本申请实施例中所需的目标切分语句，以进一步地进行后续的法律术语关键词识别，其中具体的语句路径概率方法此处不予限定，可由技术人员根据实际需求设定，包括但不限于如使用B-gram算法计算语句路径概率，或者参考本申请其他相关实施例计算语句路径概率。

S103，对目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语。

在筛选出语句合理性最高的目标切分语句后，本申请实施例完成了对语句中基础词语的精准可靠划分，此时需要进一步地识别出其中可能包含的由基础词语组合而成的法律术语，因此本申请实施例会在目标切分语句的基础上，对相邻的词语进行词语组合。

作为本申请一个实施例，包括：

目标切分语句内的词语，进行词语数量小于预设数量阈值的连续词语的组合，得到对应的多个待检测词语。

由于每个语句中可能包含大量的连续词语，因此在进行词语组合时，需要预先设置好最大连续词语数量n(即预设数量阈值)，以保证组合词语能满足实际应用的需求，如当n＝2时，意味着一次最多选取2个连续的基础词语进行组合，n＝5时，意味着一次最多选取5个连续的基础词语进行组合，其中n的具体值可由技术人员自行设定，n越小计算负荷越小，但组合的得到的待检测词语越少，因此使得对法律术语识别的准确性越低，反之n越大计算负荷越大，但法律术语识别的准确性越高。考虑到实际情况中常用法律专业术语组合长度一般不超过5，因此，优选地设置n＝5。

以一实例进行说明，假设目标切分语句为：有/意见/分歧/，同时设置最大连续词语数量n＝3，此时其中包含“有”、“意见”和“分歧”3个基础词语，进行连续词语组合后可得到“有意见”、“意见分歧”和“有意见分歧”共3个组合词语，加上原本的3个基础词语，共得到6个待检测词语。

S104，基于预设的法律术语库对多个待检测词语进行法律术语筛选，得到对应的法律术语关键词。

其中，法律术语库是由技术人员预先设置的包含大量法律术语的词库，具体而言，既可以是技术人员直接收集所需的法律术语后储存至法律数据库，也可以是如预设词典一样，预先基于语料资源进行统计训练得到大量法律术语后储存至法律数据库，这里可以使用TFIDF关键字提取算法来预先对大量的法律专业文章资料等进行处理，提取出其中包含的法律专业关键词，以得到我们所需的法律专业术语库。其中具体的语料资源选取此处不予限定，包括但不限于如中国裁判文书网公开的判决书等。

在获取到可能的待检测词语之后，本申请实施例会进一步地利用法律术语库对待检测词语进行筛选，提取出其中术语法律术语库的词语，从而得到最终所需的法律术语关键词。

作为本申请的一个可选实施例，若同一个对象存在多个法律术语中，以词语长度最长的法律术语为准作为所需的法律数据关键词，以提升识别的精确度。其中，对象是指在语句某一固定位置的单个字，例如在语句“xx公司的统一机构代码为xxxxx”中，对于“统一机构代码”、“机构代码”和“代码”而言，其中包含“代”和“码”两个相同的对象，若“统一机构代码”、“机构代码”和“代码”都被识别为法律术语，则仅会将其中最长的“统一机构代码”作为最终的识别结果。

本申请实施例中，先对语句进行基础词语的分词，并进行基础词语的语句切分和语句合理性校验，从而实现了对语句最合理的基础词语划分，再基于基础词语进行连续词语的组合，从而实现了对由基础词语组合而成的法律术语的获取，最后基于法律术语库对基础词语和组合得到的待检测词语进行筛选，使得最终对关键词的筛选时，不会仅拘束于简单的基础词语，而是同时会对由基础词语组合得到的法律术语进行识别，从而使得最终对法律术语关键词提取的准确性得到了极大地提高。

作为本申请实施例一中计算语句路径概率的一种具体实现方式，在筛选目标切分语句之前，还包括：

获取第一切分语句内每个词语在预设词典中的词语概率，以及按照从右至左顺序的相邻词语之间的词性连接概率，并基于词语概率和词性连接概率计算每条第一切分语句对应的语句路径概率。

本申请实施例中，在对语料资源进行基础词语的统计训练的同时，还会计算每个基础词语在语料资源中的词语概率，同时会预先对词语进行分类，并计算从右至左顺序每种词性之间的连接概率(即词性连接概率)。其中，基础词语A的词语概率＝基础词语A在语料资源中出现的次数/语料资源中所有基础词语的出现总次数，从右至左顺序词性A与词性B之间词性连接概率＝语料资源中词性A左侧出现词性B的次数/词性A左侧出现任意词性的次数，具体对词语分类的规则此处不予限定，可由技术人员根据实际需求进行设定，包括但不限于基于汉语语法规则中的名词、动词和介词等方式进行分类，得到不同的词性种类。

在切分后的语句中每个词语都是有具体词性的，而在自然语法规则中，词语与词语之间的连接顺序以及不同词性词语在语句中出现的顺序都是具有一定规则的，因此在本申请实施例中，会基于预设词典来统计出切分语句内每个基础词语的词语概率，并同时获取相邻基础词语之间的词性连接概率。其中，在汉语语句中，由于通常情况下形容词等定语太多导致语句的重心经常落在后面，即在语句右侧往往才是语句的主干，因此在进行合理性分析时，从右往左计算的正确率要高于从左至右，因此在本申请实施例中会获取从右到左相邻词语之间的词性连接概率，而非从左到右相邻词语之间的词性连接概率。

由于词性的种类往往非常有限，其顺序连接的情况也属于有限可预见的情况，因此在本申请实施例中，优选地，会预先计算在预设词典中所有可能的词性连接情况下对应的词性连接概率，并在实际对语句进行处理时，直接读取所需的词性连接概率即可，以减少每次对语句处理的时间提高处理效率。

在获取到切分语句中每个词语的词语概率以及每对相邻词语之间的词性连接概率之后，本申请实施例会进一步利用这些概率来计算每个切分语句对应的语句路径概率，其中，具体的计算方法此处不予限定，可由技术人员根据实际需求设定，包括但不限于如直接利用：词语概率×词性连接概率×词语概率×词性连接概率×…词性连接概率×词语概率的方式，计算出切分语句对应的语句路径概率，也可以先使用：词语概率×词性连接概率×词语概率计算出每对基础词语之间的连接概率，再计算切分语句中所有连接概率的乘积等。

作为本申请的一个可选实施例，若待检测语句中存在不属于预设词典内的词语，在将这些词语识别为本申请实施例中的基础词语的同时，会将这些词语的词语概率，统一设置为预设词典中存在的最小词语概率。

作为上述语句路径概率计算实施例中计算语句路径概率的一种具体实现方法，包括：

基于相邻词语对应词语概率和词性连接概率，计算相邻词语对应的第一连接概率，并基于第一切分语句内包含的相邻词语的第一连接概率，计算每条切分词语对应的语句路径概率。

本申请实施例中，会将切分语句中所有相邻的词语分别进行组队，并计算出对应的第一连接概率，再将这些第一连接概率计算乘积，从而实现对切分语句的语句概率计算，具体而言包括：

假设切分语句内包含n个基础词语。

a、将第n个词(即最右端词语)的词语概率×第n-1个词语的词语概率×第n个词语的词性左边出现第n-1个词语词性的词性连接概率＝第n-1个第一连接概率。

b、按照上述方法计算出共n-1个第一连接概率，并计算乘积得到对应切分语句的语句路径概率。

在本申请实施例中，通过对相邻基础词语进行组对并分别独立计算对应的连接概率，再求连接概率乘积，使得本申请实施例对相邻基础词语之间的连接概率计算变得准确可靠，进而使得本申请实施例的语句路径概率计算更为准确可靠。

作为上述语句路径概率计算实施例中更新语句路径概率的一种具体实现方法，考虑到实际应用中，同一语句对应的不同切分语句对应的词性连接概率相同或相近的可能性较大(因为词性的种类极为有限，其对应的可能词性连接概率也是极为有限的)，使得基于词性连接概率计算出的语句路径概率适用性较差，因此为了保证可以基于语句路径概率顺利筛选出可靠的目标切分语句，如图2所示，本申请实施例二，包括：

S201，提取多条第一切分语句中最大语句路径概率的第一切分语句，并从剩余的多条第一切分语句中，提取出与最大语句路径概率的概率差值小于预设差值阈值的第一切分语句。

在本申请实施例中，首先会基于上述本申请实施例中计算出来的语句路径概率，判断对最大语句路径概率的切分语句而言是否有语句路径概率相同或相近的切分语句，若存在，则说明使用词性连接概率计算出的语句路径概率，已无法很好的区分出不同第一切分语句之间的语句合理性差异，即参数指标的分辨率不够高，此时提取出的第一切分语句的总数量必然大于1。其中，差值阈值的具体大小可由技术人员根据实际需求自行设置。

S202，若提取出的第一切分语句总数量大于1，获取提取出的第一切分语句内，按照从右至左顺序的相邻词语之间的词语连接概率，并基于词语概率和词语连接概率，更新每条提取出的第一切分语句分别对应的语句路径概率。

S203，从提取出的第一切分语句中筛选出语句路径概率最大的目标切分语句。

其中，从右至左顺序词语A与词语B之间词语连接概率＝语料资源中词语A左侧出现词语B的次数/词语A左侧出现任意词语的次数。其中，由于预设词典中包含的基础词语数量极多，基础词语之间词语连接情况更为复杂，因此在本申请实施例中，优选地，不会预先计算好基础词语之间的词语连接概率，而是仅在需要时实时计算，以保证计算的有效性。

为了提高计算出的语句路径概率的参数分辨率以实现对不同第一切分语句之间语句合理性的精确区分，本申请实施例会在识别出提取出的第一切分语句总数量大于1时，将原本的词性连接概率统一替换为词语连接概率，并基于词语概率和从右至左相邻基础词语之间的词语连接概率，重新计算每个第一切分语句对应的语句路径概率，其中，具体的语句路径概率计算方法可参考上述对语句路径概率计算实施例，仅需将其中的词性连接概率替换为词语连接概率即可，此处不予赘述。

在本申请实施例中，通过将词性连接概率统一替换为词语连接概率，并更新计算每个切分语句的语句路径概率，实现了对语句路径概率更高分辨率的计算，从而使得每个切分语句的语句合理性量化得以区分，保障了后续目标切分语句筛选的准确可靠。

作为基于词语概率和词语连接概率计算语句路径概率的一种具体实现方式，包括：

基于相邻词语对应词语概率和词语连接概率，计算相邻词语对应的第二连接概率，并基于第一切分语句内包含的相邻词语的第二连接概率，更新每条切分词语对应的语句路径概率。

本申请实施例中，会将切分语句中所有相邻的词语分别进行组队，并计算出对应的第二连接概率，再将这些第二连接概率计算乘积，从而实现对切分语句的语句概率计算，具体而言包括：

假设切分语句内包含n个基础词语。

a、将第n个词(即最右端词语)的词语概率×第n-1个词语的词语概率×第n个词语左边出现第n-1个词语词语连接概率＝第n-1个第二连接概率。

b、按照上述方法计算出共n-1个第二连接概率，并计算乘积得到对应切分语句的语句路径概率。

由于实际应用中，对于预设词典而言词性连接概率只有可预见的几种情况，因此可以预先都统计计算好以提高处理效率，但词语连接概率情况极为复杂，预先全部统计的话工作量过大，因此在上述本申请实施例中，优选地，会预先对预设词典进行处理，统计好所有可能的词性连接概率，在实际应用时只需直接读取即可，而对于词语连接概率，则会仅在有需要时实时计算，在此基础上，优先使用分辨率较低的词性连接概率计算语句连接概率，可以解决绝大多数的目标切分语句筛选情况，且保障处理的速度和有效性，再在分辨率不满足要求，无法准确区分出不同切分语句之间的语句合理性时，采用分辨率更高的词语连接概率来更新语句连接概率并筛选出对应的目标切分语句，使得本申请实施例可以在保障对语句合理性准确分析的同时，极大地提升处理效率减少工作量。

作为本申请实施例一中待检测词语提取的一种具体实现方式，如图3所示，本申请实施例三，包括：

S301，对目标切分语句内的词语进行连续词语的组合，并基于得到的词语组合对目标切分语句进行切分，得到对应的多条第二切分语句。

S302，对多条第二切分语句中语句路径概率最大的切分语句进行词语提取，得到对应的多个待检测词语。

在上述本申请实施例中，通过一次语句切分实现了对基础词语的准确提取，但由于基础词语和基础词语组合都有可能是法律术语，而不同的基础词语组合方式，又使得对目标切分语句划分又有了多种方式，因此若仅是对一次语句切分进行组合，仍会难以准确区分出同为法律术语的基础词语和基础词语组合，例如对于语句“xx公司的统一机构代码为xxxxx”中，“统一机构代码”和“机构代码”都是法律术语，此时上述本申请实施例将会难以区分两个法律术语究竟应当保留哪一个，即使使用长度优先原则，也仍难以保证最终对语句划分的合理性以及保留的法律术语的合理性，从而实现最终法律术语关键词提取的准确性难以得到有效保障。

为了实现对法律术语更为准确可靠的区分识别，本申请实施例三会在上述本申请实施例的基础上，对目标切分语句进行二次切分，例如，假设句子为“A公司的统一机构代码提供错误”，按照二次划分至少可以得到：A公司的统一/机构/代码/提供/错误，A公司的统一机构/代码/提供/错误，A公司的统一机构代码/提供/错误(实际上需将“提供错误”一并考虑进词语组合，得到的划分句子会更多)，此时再对各个划分句子进行合理性评估。其中，具体第二切分语句的语句路径概率计算方法，可参考上述本申请实施例中对第一切分语句的语句路径计算方法，此处不予赘述，或者也可以使用Ngram算法等计算，具体可由技术人员自行设定，在使用上述本申请实施例中对第一切分语句的语句路径计算方法计算时，对于法律术语的词语概率、词性连接概率和词语连接概率等，亦可对使用的法律预料资料进行统计得到，此处不予赘述，可参考上述本申请实施例中对基础词语在预设词典中的相关概率计算说明。

在本申请实施例中，通过先使用第一次语句切分和语句合理性筛选，实现了对基础词语的准确切分提取，再使用第二次语句切分和语句合理性筛选，确定出最合理的法律术语组合方式，最后进行法律术语关键词的筛选，从而保证了筛选的准确可靠。

对应于上文实施例的方法，图4示出了本申请实施例提供的关键词提取装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。图4示例的关键词提取装置可以是前述实施例一提供的关键词提取方法的执行主体。

参照图4，该关键词提取装置包括：

划分模块41，用于基于预设词典对待处理语句进行词语查找，并基于查找出的词语对所述待处理语句进行语句切分，得到对应的多条第一切分语句。

语句筛选模块42，用于筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句。

组合模块43，用于对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语。

关键词筛选模块44，用于基于预设的法律术语库对多个所述待检测词语进行法律术语筛选，得到对应的法律术语关键词。

进一步地，语句筛选模块42，包括：

路径概率计算模块，用于获取所述第一切分语句内每个词语在所述预设词典中的词语概率，以及按照从右至左顺序的相邻词语之间的词性连接概率，并基于所述词语概率和所述词性连接概率计算每条所述第一切分语句对应的语句路径概率。

进一步地，语句筛选模块42，还包括：

语句提取模块，用于提取多条所述第一切分语句中最大语句路径概率的第一切分语句，并从剩余的多条所述第一切分语句中，提取出与所述最大语句路径概率的概率差值小于预设差值阈值的第一切分语句。

概率更新模块，用于若提取出的第一切分语句总数量大于1，获取提取出的第一切分语句内，按照从右至左顺序的相邻词语之间的词语连接概率，并基于所述词语概率和所述词语连接概率，更新每条提取出的第一切分语句分别对应的语句路径概率。

语句筛选模块，用于从提取出的第一切分语句中筛选出语句路径概率最大的所述目标切分语句。

进一步地，路径概率计算模块，包括：

进一步地，概率更新模块，包括：

进一步地，组合模块43，还包括：

对所述目标切分语句内的词语进行连续词语的组合，并基于得到的词语组合对所述目标切分语句进行切分，得到对应的多条第二切分语句。

进一步地，组合模块43，还包括：

本申请实施例提供的关键词提取装置中各模块实现各自功能的过程，具体可参考前述图1所示实施例一的描述，此处不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如，第一表格可以被命名为第二表格，并且类似地，第二表格可以被命名为第一表格，而不背离各种所描述的实施例的范围。第一表格和第二表格都是表格，但是它们不是同一表格。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的关键词提取方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

图5是本申请一实施例提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：至少一个处理器50(图5中仅示出一个)、存储器51，所述存储器51中存储有可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个关键词提取方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块41至44的功能。

所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端设备5的示例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经发送或者将要发送的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种关键词提取方法，其特征在于，包括：

2.如权利要求1所述的关键词提取方法，其特征在于，所述筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句之前，还包括：

3.如权利要求2所述的关键词提取方法，其特征在于，所述筛选出多条所述第一切分语句中语句路径概率最大的目标切分语句，包括：

4.如权利要求2所述的关键词提取方法，其特征在于，所述基于所述词语概率和所述词性连接概率计算每条所述第一切分语句对应的语句路径概率，包括：

5.如权利要求3所述的关键词提取方法，其特征在于，所述基于所述词语概率和所述词语连接概率，更新每条提取出的第一切分语句分别对应的语句路径概率，包括：

6.如权利要求1所述的关键词提取方法，其特征在于，所述对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语，还包括：

7.如权利要求1或6所述的关键词提取方法，其特征在于，所述对所述目标切分语句内的词语进行连续词语的组合，得到对应的多个待检测词语，包括：

8.一种关键词提取装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。