CN111460787A

CN111460787A - 一种话题提取方法、装置、终端设备及存储介质

Info

Publication number: CN111460787A
Application number: CN202010230784.2A
Authority: CN
Inventors: 赵洋; 包荣鑫; 王宇; 夏政委; 朱继刚
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-28
Anticipated expiration: 2040-03-27
Also published as: CN111460787B

Abstract

本申请适用于信息技术领域，提供了一种话题提取方法、装置、终端设备及存储介质，所述方法包括：获取待处理的文本数据；确定所述文本数据中每个词语的词性信息；基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系；根据所述多个词语对之间的词性依存关系，确定候选词；从所述依存句法分析列表中提取与所述候选词相匹配的目标词，并将所述候选词与所述目标词组合为与所述文本数据相对应的话题。采用上述方法可以提高提取出的话题的准确性，使话题事件更通顺，语法结构更完整。

Description

一种话题提取方法、装置、终端设备及存储介质

技术领域

本申请属于信息技术领域，特别是涉及一种话题提取方法、装置、终端设备及存储介质。

背景技术

随着互联网和社交媒体的快速发展，网络上舆情信息的数量呈爆炸性增长。对于一些具有高度传播性和敏感性的舆情信息，可以通过提取其文本主体信息形成相应的话题。目前，主流媒体或网站都有针对实时热点话题的展示。例如，将“全国携号转网正式启动，运营商恐打价格战”提取为“携号转网启动”；将“增值税法公开征求意见，拟设五年过渡期”提取为“增值税法征求意见”等话题内容。但是，文本的正文和标题往往较长，一般无法直接表述舆情事件。因此，如何从文本中提取话题越来越成为了研究的热点。

主流的文本话题提取算法大致可以分为抽取式和生成式两大类。抽取式顾名思义，从舆情文本数据中抽取部分有代表性的信息用于组成文本话题。这些代表性的信息来自于文本本身，可以是字或者词或者短语。抽取式的关键技术包括重要信息评估、冗余信息的过滤、碎片化信息的聚合和多源信息的组织等。抽取式一般采用无监督的机器学习方法，这类方法只考虑位置信息和关键词的贡献，无法完整的地理解文本的语法和语义。提取出的主语谓语等虽然都来自于文本本身，但是对应关系难以保证正确。

和抽取式不同，生成式的文本话题提取算法采用有监督的深度学习方法，提取出的话题内容可以根据文本整体的语义理解，结合训练数据中的历史特征得到。所生成的话题中的文字不一定来自于原文本，因此存在语法错误较多，难以保证语句通顺的问题。

发明内容

有鉴于此，本申请实施例提供了一种话题提取方法、装置、终端设备及存储介质，以解决现有技术中采用抽取式或生成时进行话题提取时，所提取出的话题存在语法错误或语句不通顺的问题。

本申请实施例的第一方面提供了一种话题提取方法，包括：

获取待处理的文本数据；

确定所述文本数据中每个词语的词性信息；

基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系；

根据所述多个词语对之间的词性依存关系，确定候选词；

从所述依存句法分析列表中提取与所述候选词相匹配的目标词，并将所述候选词与所述目标词组合为与所述文本数据相对应的话题。

本申请实施例的第二方面提供了一种话题提取装置，包括：

文本数据获取模块，用于获取待处理的文本数据；

词性信息确定模块，用于确定所述文本数据中每个词语的词性信息；

依存句法分析列表生成模块，用于基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系；

候选词确定模块，用于根据所述多个词语对之间的词性依存关系，确定候选词；

目标词提取模块，用于从所述依存句法分析列表中提取与所述候选词相匹配的目标词；

话题组合模块，用于将所述候选词与所述目标词组合为与所述文本数据相对应的话题。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的话题提取方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的话题提取方法。

本申请实施例的第五方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面所述的话题提取方法。

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，通过对待处理的文本数据中每个词语进行词性标注，并具有各个词语之间的词性以及相互之间的搭配关系，可以生成该文本数据的依存句法分析列表，基于上述依存句法分析列表，可以对文本数据中的“主谓宾”、“定语后置动宾”、“介宾主谓动补”及“人名地名机构”等多种句法关系进行精准提取和识别；同时，结合依存句法分析列表中各词语在原文中出现的位置进行组合，使得提取出的话题更合理，保证了话题在语法层面的通顺性，更符合实际应用的需求，提高了话题提取的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的一种话题提取方法的步骤流程示意图；

图2是本申请一个实施例的另一种话题提取方法的步骤流程示意图；

图3是本申请一个实施例的一种依存句法分析结果示意图；

图4是本申请一个实施例的一种文本预处理流程示意图；

图5是本申请一个实施例的一种完整句法主体算法流程示意图；

图6是本申请一个实施例的一种句法判断算法的流程示意图；

图7是本申请一个实施例的一种话题提取装置的示意图；

图8是本申请一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

针对现有技术中话题提取存在的问题，本申请实施例提出了一种基于依存句法分析的文本话题提取算法，该算法能针对“主谓宾”，“定语后置动宾”，“介宾主谓动补”和“人名地名机构”等多种句法关系进行精准提取识别。算法中的词性识别和命名实体识别保证了句法分析的准确度。同时，将依存句法分析结合各元素原文出现的位置进行组合，使得提取出的话题更合理，保证了话题在语法层面的通顺性，更符合实际应用的需求。

下面通过具体实施例来说明本申请的技术方案。

参照图1，示出了本申请一个实施例的一种话题提取方法的步骤流程示意图，具体可以包括如下步骤：

S101、获取待处理的文本数据；

在本申请实施例中，待处理的文本数据可以是来自于需要用于提取话题的一篇新闻、报道等文本中，它可以是文本的标题，或者具有较大可能性能够概率该文本的主要内容的段落或句子。例如，某篇新闻的第一段或第一句话。在部分文本中，为了向读者简要概括文本内容，还存在一些人工编辑的“导读”等内容，待处理的文本数据也可以是来自于“导读”这一部分中的一个或多个句子，本实施例待处理的文本数据的类型及来源均不作限定。

作为一种示例，为了减少数据的处理量，可以以一篇文本的标题作为待处理的文本数据。后续的处理过程中，可以基于文本标题来提取相应的话题。

S102、确定所述文本数据中每个词语的词性信息；

词性信息可以是指文本数据中每个词语的词性类型，如动词、名词、副词、连词等等。

由于本实施例基于词语之间的依存关系进行文本的分析，文本中存在的数字、标点等所处的位置不同，也会对各个词语之间的相对关系造成影响，因此本实施例需要保留文本中所有的特征。即，对于数字、标点以及其他无实际意义的停用词也需要按照上述方式确定其相应的词性信息。

S103、基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系；

依存句法分析是指分析输入文本的句法结构，将词性和分词结果转化为树状的依存结构。目前依存句法分析的主流方法主要包括基于转移的和基于图的两种依存分析方法。

依存句法分析的结果可以形式化地表示成树状结构，两个词语之间通过一条弧连接组成搭配关系，弧上的标签表示词语之间的关系，如主谓关系、动宾关系、间宾关系、前置宾语等等。

S104、根据所述多个词语对之间的词性依存关系，确定候选词；

在本申请实施例中，候选词可以设定为主语或宾语。通过对多个词语对之间的词性依存关系进行分析和判断，可以输出相应的候选词。例如，对于动宾关系的某个词语词，其中一个词语便可能是能够作为候选词的宾语。

S105、从所述依存句法分析列表中提取与所述候选词相匹配的目标词，并将所述候选词与所述目标词组合为与所述文本数据相对应的话题。

根据前一步骤确定的候选词，可以继续对依存句法分析列表中的各个词语对进行分析，找出能够与上述候选词进行搭配的目标词，并将候选词与目标词进行组合，得到与该文本数据相对应的话题。

需要说明的是，对于同一份文本数据，按照上述方式组合得到的话题可能包括多个。此时，可以根据预先设置的优先级关系，确定最可能的组合方式作为当前文本数据的话题。例如，通过对候选词与目标词进行组合，得到包括有“主谓宾”结构以及“定语后置动宾”结构的两种话题。通常，相对应“定语后置动宾”结构，“主谓宾”结构的表达式更能准确地表达某件事件，其成为话题的可能性也更大。因此，可以将“主谓宾”结构的组合结果作为最终的话题，舍弃掉“定语后置动宾”结构的组合结果。

在本申请实施例中，通过对待处理的文本数据中每个词语进行词性标注，并具有各个词语之间的词性以及相互之间的搭配关系，可以生成该文本数据的依存句法分析列表，基于上述依存句法分析列表，可以对文本数据中的“主谓宾”、“定语后置动宾”、“介宾主谓动补”及“人名地名机构”等多种句法关系进行精准提取和识别；同时，结合依存句法分析列表中各词语在原文中出现的位置进行组合，使得提取出的话题更合理，保证了话题在语法层面的通顺性，更符合实际应用的需求，提高了话题提取的准确性。

参照图2，示出了本申请一个实施例的另一种话题提取方法的步骤流程示意图，具体可以包括如下步骤：

S201、获取待处理的文本数据，对所述文本数据进行分词，并对分词后的每个词语进行词性标注，获得所述每个词语的词性信息；

在本申请实施例中，待处理的文本数据可以是文本的标题或正文中的某一个段落或某一个句子，上述文本可以是新闻报道、资讯或其他类似的形式的文本内容，如社交媒体中传播的一定数字的短资讯，等等，本实施例对文本数据的类型不作限定。

为了便于理解，本实施例以待处理的文本数据为一篇新闻报道的标题为例，来进行后续介绍。

在本申请实施例中，基于某篇新闻报道的标题进行话题提取，可以首先对该标题进行分词。

中文分词是指将文本序列划分为以单独词语为单位的序列的过程。中文分词中存在着边界模糊、歧义和无法识别新词等问题。本申请实施例可以使用已有的分词工具或模型进行分词。例如，pyltp平台中的分词模型cws.model，该模型使用机器学习算法进行训练，并提供自定义词典的添加功能。

语言技术平台(LTP)是哈尔滨工业大学开发的一套自然语言处理系统，提供了包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术，其python(一种跨平台的计算机程序设计语言)版本被称为pyltp。

以句子“美联储降息意味着货币投放量大，货币政策宽松”为例，其分词结果可以表示为“美联储/降息/意味着/货币/投放量/大/，/货币/政策/宽松”。

需要说明的是，由于需要对分词结果做依存句法分析，应当完整保留文本的所有特征，所以无需对分词后的结果进行常见的去停用词等操作。分词结果可以以列表的方式进行存储，为之后的词性标注和依存句法分析提供分析基础。

词性标注是给每个分词结果一个所属的词性类别，属于自然语言处理中的基础功能。词性标注以分词结果为基础，并为之后的依存句法分析提供依据。

在本申请实施例中，可以使用pyltp平台的词性标注模型pos.model对分词后的各个词语进行词性标注。该模型提供了多种常见的中文词性标注功能，其中，v代表动词、n代表名词、d代表副词、c代表连词，以及其他20余种中文的词性。

例如，对于句子“公司总经理张三考察上海外高桥时提出，支持上海积极探索新机制”，对分词后得到的各个词语进行词性标注的结果可以表示为：“公司/ni总经理/n张三/nh考察/v上海/ns外高桥/ns时/n提出/v，/wp支持/v上海/ns积极/a探索/v新/a机制/n。/wp”。

各个词语或符号后标注的即是该词语的词性，如n表示名词，wp表示标点符号等。

在本申请实施例中，在对文本进行分词并进行词性分析时，针对于每一个分词结果，给出其对应的词性，并存储为词和词性的键值对，可以作为后续依存句法分析的输入数据。

在本申请实施例中，对于用于提取话题的文本标题的数据，还可以对其进行命名实体识别，找出其中的人名、地名、机构名等。

命名实体识别是指识别文本中具有特定意义的词语，这些词语一般包括人名、地名、机构名、简写、专有名词等。

在具体实现中，本实施例可以使用pyltp平台的命名实体识别模型ner.model进行文本标题的命名实体识别。该模型提供了最基本的三种专有名词的识别，包括人名、地名和机构名。

例如，在前述实施例中，对于句子“公司总经理张三考察上海外高桥时提出，支持上海积极探索新机制”，其命名实体识别结果可以是：“公司(机构名)总经理张三(人名)考察上海外高桥(地名)时提出，支持上海(地名)积极探索新机制。”

在本申请实施例中，由于部分文本标题或句子包含的并不是完整的类似于主谓宾的语法结构，有时是只包含专有名词的短语结构。为了避免无法正确的提取出话题，可以将文本中包含的专有名词识别出来，组成“人名地名机构”这一依存句法分析结构，使整体的提取过程具有更强的普适性，应用覆盖面也更广。

S202、确定待处理的词语对，所述词语对通过对所述文本数据中任意两个词语进行组合得到；

S203、逐个判断每个词语对中两个词语之间是否存在词性依存关系；

依存句法分析是指分析输入文本的句法结构，将词性和分词结果转化为树状的依存结构。在进行依存句法分析，可以首先将分词得到的各个词语两两组合成词语对，然后判断各个词语对中的两个词语是否存在某种词性依存关系，上述词性依存关系可以表示为基于各自的词性信息，两个词语之间具有可搭配的可能性。

例如，分词结果中的“总经理/n”可以分别与“公司/ni”和“张三/nh”构成定中关系这一特定的依存关系。

S204、将具有所述词性依存关系的词语对及其依存关系类型进行关联存储，获得所述文本数据的依存句法分析列表；

对于识别出具有词性依存关系的各个词语对，可以将该词语对及其相应的依存关系类型进行关联存储，从而得到当前处理的文本的依存句法分析列表。上述依存句法分析列表中也就包括有当前处理的文本中多个词语对之间的词性依存关系。

目前，依存句法分析的主流方法主要包括基于转移的和基于图的两种依存分析方法。本申请实施例可以使用pyltp平台的依存句法分析模型parser.model进行依存句法分析。该模型基于转移的依存分析，能够获得更大范围的全局特征，并且在分析时速度较快。

依存句法分析的结果可以形式化地表示成树状结构，两个词语之间通过一条弧连接组成搭配关系，弧上的标签表示词语之间的关系，pyltp平台提供了15种依存关系的分析，各种关系的标签及示例如表一所示。

表一：依存句法分析关系对应表

关系类型	标签	示例
			主谓关系	SBV	我送她一束花(我<--送)
动宾关系	VOB	我送她一束花(送-->花)
			间宾关系	IOB	我送她一束花(送-->她)
前置宾语	FOB	他什么书都读(书<--读)
			兼语	DBL	他请我吃饭(请-->我)
定中关系	ATT	红苹果(红<--苹果)
			状中结构	ADV	非常美丽(非常<--美丽)
动补结构	CMP	做完了作业(做-->完)
			并列关系	COO	大山和大海(大山-->大海)
介宾关系	POB	在贸易区内(在-->内)
			左附加关系	LAD	大山和大海(和<--大海)
右附加关系	RAD	孩子们(孩子-->们)
			独立结构	IS	两个单句在结构上彼此独立
标点	WP	，。
			核心关系	HED	指整个句子的核心

在树结构中，每个句子都具有一个名为“Root”的根节点，一般根节点为句子中的核心谓词。树中箭头的起点叫做被依赖项，箭头的指向叫做依赖项，通过树中的依赖关系，可以得到具有特定关系的两个词汇。需要说明的是，有关系的词汇不一定是相邻的。

如图3所示，是一种依存句法分析结果示意图，从图3中可知，句子的核心谓词为“提出”，主语是“张三”，两者之间是“主谓关系(SBV)”。“张三”的修饰语为“公司总经理”，两者之间是“定中关系(ATT)”。“考察……时”是“提出”的时间状语，两者之间是“状中关系(ADV)”。

本实施例通过采用pyltp平台的各个模型进行文本分析的预处理，处理结果可以作为后续话题提取算法的输入数据，其整体流程可以如图4所示。

S205、根据所述多个词语对之间的词性依存关系，确定候选词；

在本申请实施例中，候选词可以是基于前述依存句法分析得到的作为话题主体的词语。通常，这类词语可以作为主语或宾语。

基于pyltp平台的各种模型可以提取出文本的依存句法，但仅仅依据分析树不足以提取出有意义的事件。因此，本实施例可以进一步完善句法识别的部分，以谓词为提取核心，通过递归的方式进行多种关系的识别提取。

递归算法是在函数中直接或间接调用函数本身，常用于树结构的遍历中。本实施例提供的算法可以根据节点的索引完整句法识别的部分，提取的关系包括中文中最常见的“主谓宾”，“定语后置动宾”和“介宾主谓动补”三种谓词核心结构。

如图5所示，是本申请实施例的完整句法主体算法流程示意图，以前述步骤获得的分词列表、词性标注列表、依存句法分析列表，节点索引等作为算法的输入数据，可以输出包含完整结构的主语或宾语。

该算法的主要步骤可以包括：

算法输入：分词列表、词性标注列表、依存句法分析列表，节点索引；

步骤1：根据依存句法分析的树状结构列表和分词结果，找到每一个词语的所有子节点；

步骤2：构建依存句法字典，为句子中每个词语维护一个保存子节点的字典；

步骤3：判断如果“ATT”关系出现在字典的值中，根据子节点的索引递归完善ATT子节点的句法识别，并把识别结果合并到最终提取结果中；

步骤4：判断词性标注列表中，当前词语是否为v(动词)，如果是，则执行步骤5-6；

步骤5：判断如果“VOB”关系出现在字典的值中，根据子节点的索引递归完善VOB子节点的句法识别，并把识别结果合并到最终提取结果中；

步骤6：判断如果“SBV”关系出现在字典的值中，根据子节点的索引递归完善SBV子节点的句法识别，并把识别结果合并到最终提取结果中；

算法返回值：包含完整结构的主语或宾语

按照上述算法在对文本标题进行处理时，可以针对标题中的每个待处理词语，根据包含该待处理词语的词语对之间的词性依存关系，生成初始识别句式，然后判断初始识别句式中是否包含第一目标关系，即“ATT”关系。若初始识别句式中包含“ATT”关系，则可以根据初始识别句式确定候选词；若初始识别句式中未包含“ATT”关系，则可以根据待处理词语的词性信息确定候选词。

在根据待处理词语的词性信息确定候选词时，可以首先判断待处理词语是否为动词。若待处理词语不为动词，则可以将待处理词语确定为候选词；否则，可以依次判断初始识别句式中是否包含第二目标关系或第三目标关系，上述第二目标关系可以是“VOB”关系，第三目标关系可以是“SBV”关系。若初始识别句式中包含“VOB”关系或“SBV”关系，则可以根据VOB”关系或“SBV”关系对初始识别句式进行完善，生成目标识别句式，然后从目标识别句式中确定候选词。

作为本实施例的一种示例，下面按照图5所示的算法，介绍对于新闻标题“温州实施出行管控,推出防控疫情“25条”紧急举措”进行处理的各个步骤。

分词列表为：温州/实施/出行/管控/,/推出/防控/疫情/“/25/条/”/紧急/举措；

词性标注列表为：ns/v/v/j/wp/v/v/n/wp/m/q/wp/a/n；

依存句法分析列表的子节点字典为:{},{'SBV':[0],'VOB':[3],'WP':[4],'COO':[5]},{},{'ATT':[2]},{},{'VOB':[13]},{},{'ATT':[6]},{},{},{'ATT':[7,9],'WP':[8,11]},{},{},{'ATT':[10,12]}(其中的数字为分词列表中对应词的下标)；

可以看出，“实施”的词性为动词v，并且子节点字典{'SBV':[0],'VOB':[3],'WP':[4],'COO':[5]}中同时包含了‘SBV’和‘VOB’，所以它为核心谓语。

接着，递归完善‘VOB’对应的下标3的主体。下标3对应的文字为“管控”，子节点字典为{'ATT':[2]}，所以将下标为2的“出行”和“管控”结合，形成“实施”的宾语“出行管控”。

最后，递归完善‘SBV’对应的下标为0的主体“温州”，形成“实施”的主语“温州”。

类似的，可以对每一个分词结果进行上述算法判断，最终完善所有节点的句法识别过程，再将该算法嵌入后续的步骤提供的算法中，可以实现完整的话题提取。

S206、从所述依存句法分析列表中提取与所述候选词相匹配的目标词，并将所述候选词与所述目标词组合为与所述文本数据相对应的多个话题；

在本申请实施例中，目标词可以是与前述得到的主体进行结合，确定话题的句法类型的词语。

在具体实现中，可以基于完善主体算法，将核心谓词和主体结合，整合提取出不同类型的文本主体结构。

如图6所示，是本申请实施例的句法判断算法的流程示意图。按照图6所示的流程，该算法可以包括如下步骤：

算法输入：分词列表、词性标注列表、依存句法分析列表、依存句法字典

步骤1：遍历词性标注列表，对于每一个已标注的词执行以下步骤；

步骤2：判断，如果该词的词性为v(动词)，获取该词依存句法字典中对应的字段，执行步骤3-11；

步骤3：判断，如果“SBV”在字段中，并且“VOB”在字段中，判断为“主谓宾”关系，执行步骤4-5；

步骤4：根据完整句法主体算法，完善“SBV”字段的句法主体和“VOB”字段的句法主体；

步骤5：最终结果中插入“SBV主体+谓词+VOB主体”的字符串拼接结果；

步骤6：判断，如果句法分析结果为“ATT”，并且“VOB”在字段中，判断为“定语后置动宾”关系，执行步骤7-8；

步骤7：根据完整句法主体算法，完善依存句法分析列表中前一个词的句法主体和“VOB”字段的句法主体；

步骤8：最终结果中插入“前词主体+谓词+VOB主体”的字符串拼接结果；

步骤9：判断，如果“SBV”在字段中，并且“CMP”和“POB”在字段中，判断为“介宾主谓动补”关系，执行步骤10-11；

步骤10：根据完整句法主体算法，完善“SBV”字段的句法主体和“VOB”字段的句法主体；

步骤11：最终结果中插入“SBV主体+谓词+CMP补语+VOB主体”的字符串拼接结果；

步骤12：如果“S”(主语)在命名实体识别列表中，或者“B”(宾语)在命名实体识别列表中，执行步骤13；

步骤13：最终结果中插入人名地名机构的识别结果。

算法返回值：最终句法判断列表。

在具体实现中，可以遍历文本标题中的每个词语，判断当前词语是否为动词，如果当前词为动词，则可以根据包含当前词的多个词语对之间的词性依存关系确定待提取的话题的类型属于那种关系，然后基于该类型确定目标词。若当前词不为动词，则可以识别当前词是否属于实体词，若当前词属于实体词，则可以将实体词识别为目标词，加入识别结果中。

例如，针对前述示例中“温州实施出行管控，推出防控疫情“25条”紧急举措”这一文本标题，可以首先判断词性列表中，属于动词v的词语有：“实施”、“出行”、“推出”、“防控”。

依存句法词典中“实施”对应{'SBV':[0],'VOB':[3],'WP':[4],'COO':[5]}、“推出”对应{'VOB':[13]}，其余两个词的依存句法字典为空。

而“推出”只有一个针对于“举措”的VOB动宾关系，没有主语，不符合判断分支的标准。所以，拥有完整句法关系的动词只有“实施”一个。

接着继续判断“实施”的依存句法字典中有SBV和VOB两种关系，并且CMP不在依存句法字典中，所以判断待提取的话题为主谓宾关系。

在此之后，根据完整句法主体算法完善SBV和VOB的句法主体并添加至句法列表，最终输出以动词“实施”为核心的主谓宾句法结构“温州(主语)/实施(谓语)/出行管控(宾语)”，并将主谓宾直接拼接组成话题“温州实施出行管控”。

S207、分别识别所述多个话题的类型，所述类型分别具有相应的优先级；

需要说明的是，由于一个句子中可能存在多个谓词或多个人名地名机构，句法判断列表中可能包含多个话题，即按照上述算法输出的话题可能包括多个。对于多个话题，可以继续进行整合筛选，提取出其中最具有代表性的话题，形成最终的目标话题。

在本申请实施例中，根据中文语法规则，可以预先定义不同类型语法结构的提取优先级。例如，主谓宾>介宾主谓动补>定语后置动宾>人名地名机构。

S208、提取所述优先级最高的话题作为与所述文本数据相对应的目标话题。

对于具有多个候选话题的列表，可以按照优先级进行话题筛选。如果具有相同优先级的语法结构，则可以按照关键词和话题长度进行二次筛选。例如，包含关键词越多的话题优先级越高，如果包含关键词的数量相同，则长度越短的优先级越高。

本申请实施例基于pyltp平台的分词、词性标注和依存句法分析模型进行文本处理，处理后的句法结构的划分合理，同时能较好地解决中文中的边界不清和歧义等问题。其次基于转移的依存句法分析模型，可以获得更大范围的全局特征，并且有助于提高分析时的速度。第三，基于递归遍历依存句法树的算法，在以谓词为核心的基础上，能较好识别出主语及宾语的完整结构，同时保留定语、状语、补语等结构，使最终提取出的话题更通顺，语法结构更完整。第四，本实施例的句法判断算法，可以根据句法主体和句法树之间的关系概括出“主谓宾”、“定语后置动宾”、“介宾主谓动补”和“人名地名机构”等数种常见的中文句法结构，符合大部分话题的提取标准。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

参照图7，示出了本申请一个实施例的一种话题提取装置的示意图，具体可以包括如下模块：

文本数据获取模块701，用于获取待处理的文本数据；

词性信息确定模块702，用于确定所述文本数据中每个词语的词性信息；

依存句法分析列表生成模块703，用于基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系；

候选词确定模块704，用于根据所述多个词语对之间的词性依存关系，确定候选词；

目标词提取模块705，用于从所述依存句法分析列表中提取与所述候选词相匹配的目标词；

话题组合模块706，用于将所述候选词与所述目标词组合为与所述文本数据相对应的话题。

在本申请实施例中，所述词性信息确定模块具体可以包括如下子模块：

词性标注子模块，用于对所述文本数据进行分词，并对分词后的每个词语进行词性标注，获得所述每个词语的词性信息。

在本申请实施例中，所述依存句法分析列表生成模块具体可以包括如下子模块：

词语对确定子模块，用于确定待处理的词语对，所述词语对通过对所述文本数据中任意两个词语进行组合得到；

依存关系判断子模块，用于逐个判断每个词语对中两个词语之间是否存在词性依存关系；

依存句法分析列表生成子模块，用于将具有所述词性依存关系的词语对及其依存关系类型进行关联存储，获得所述文本数据的依存句法分析列表。

在本申请实施例中，所述候选词确定模块具体可以包括如下子模块：

初始识别句式生成子模块，用于针对所述文本数据中的每个待处理词语，根据包含所述待处理词语的词语对之间的词性依存关系，生成初始识别句式；

第一目标关系判断子模块，用于判断所述初始识别句式中是否包含第一目标关系；

第一候选词确定子模块，用于若所述初始识别句式中包含所述第一目标关系，则根据所述初始识别句式确定候选词；

第二候选词确定子模块，用于若所述初始识别句式中未包含所述第一目标关系，则根据所述待处理词语的词性信息确定候选词。

在本申请实施例中，所述第二候选词确定子模块具体可以包括如下单元：

待处理词语词性判断单元，用于判断所述待处理词语是否为动词；

第一候选词确定单元，用于若所述待处理词语不为动词，则将所述待处理词语确定为候选词；

第二候选词确定单元，用于若所述待处理词语为动词，则依次判断所述初始识别句式中是否包含第二目标关系或第三目标关系，若所述初始识别句式中包含所述第二目标关系或第三目标关系，则根据所述第二目标关系或第三目标关系生成目标识别句式，从所述目标识别句式中确定所述候选词。

在本申请实施例中，所述目标词提取模块具体可以包括如下子模块：

当前词语词性判断子模块，用于遍历所述文本数据中的每个词语，判断当前词语是否为动词；

第一目标词确定子模块，用于若所述当前词为动词，则根据包含所述当前词的多个词语对之间的词性依存关系确定待提取的话题的类型，基于所述类型确定目标词；

第二目标词确定子模块，用于若所述当前词不为动词，则识别所述当前词是否属于实体词，若所述当前词属于实体词，则将所述实体词识别为目标词。

在本申请实施例中，与所述文本数据相对应的话题包括多个，所述装置还可以包括如下模块：

话题类型确定模块，用于分别识别所述多个话题的类型，所述类型分别具有相应的优先级；

目标话题提取模块，用于提取所述优先级最高的话题作为与所述文本数据相对应的目标话题。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

参照图8，示出了本申请一个实施例的一种终端设备的示意图。如图8所示，本实施例的终端设备800包括：处理器810、存储器820以及存储在所述存储器820中并可在所述处理器810上运行的计算机程序821。所述处理器810执行所述计算机程序821时实现上述话题提取方法各个实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器810执行所述计算机程序821时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块701至706的功能。

示例性的，所述计算机程序821可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器820中，并由所述处理器810执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述所述计算机程序821在所述终端设备800中的执行过程。例如，所述计算机程序821可以被分割成文本数据获取模块、词性信息确定模块、依存句法分析列表生成模块、候选词确定模块、目标词提取模块、话题组合模块，各模块具体功能如下：

文本数据获取模块，用于获取待处理的文本数据；

所述终端设备800可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备800可包括，但不仅限于，处理器810、存储器820。本领域技术人员可以理解，图8仅仅是终端设备800的一种示例，并不构成对终端设备800的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备800还可以包括输入输出设备、网络接入设备、总线等。

所述处理器810可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器820可以是所述终端设备800的内部存储单元，例如终端设备800的硬盘或内存。所述存储器820也可以是所述终端设备800的外部存储设备，例如所述终端设备800上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等等。进一步地，所述存储器820还可以既包括所述终端设备800的内部存储单元也包括外部存储设备。所述存储器820用于存储所述计算机程序821以及所述终端设备800所需的其他程序和数据。所述存储器820还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种话题提取方法，其特征在于，包括：

获取待处理的文本数据；

确定所述文本数据中每个词语的词性信息；

根据所述多个词语对之间的词性依存关系，确定候选词；

2.根据权利要求1所述的方法，其特征在于，所述确定所述文本数据中每个词语的词性信息，包括：

对所述文本数据进行分词，并对分词后的每个词语进行词性标注，获得所述每个词语的词性信息。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述每个词语的词性信息，生成所述文本数据的依存句法分析列表，包括：

确定待处理的词语对，所述词语对通过对所述文本数据中任意两个词语进行组合得到；

逐个判断每个词语对中两个词语之间是否存在词性依存关系；

将具有所述词性依存关系的词语对及其依存关系类型进行关联存储，获得所述文本数据的依存句法分析列表。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个词语对之间的词性依存关系，确定候选词，包括：

针对所述文本数据中的每个待处理词语，根据包含所述待处理词语的词语对之间的词性依存关系，生成初始识别句式；

判断所述初始识别句式中是否包含第一目标关系；

若所述初始识别句式中包含所述第一目标关系，则根据所述初始识别句式确定候选词；

若所述初始识别句式中未包含所述第一目标关系，则根据所述待处理词语的词性信息确定候选词。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待处理词语的词性信息确定候选词，包括：

判断所述待处理词语是否为动词；

若所述待处理词语不为动词，则将所述待处理词语确定为候选词；

若所述待处理词语为动词，则依次判断所述初始识别句式中是否包含第二目标关系或第三目标关系，若所述初始识别句式中包含所述第二目标关系或第三目标关系，则根据所述第二目标关系或第三目标关系生成目标识别句式，从所述目标识别句式中确定所述候选词。

6.根据权利要求4所述的方法，其特征在于，所述从所述依存句法分析列表中提取与所述候选词相匹配的目标词，包括：

遍历所述文本数据中的每个词语，判断当前词语是否为动词；

若所述当前词为动词，则根据包含所述当前词的多个词语对之间的词性依存关系确定待提取的话题的类型，基于所述类型确定目标词；

若所述当前词不为动词，则识别所述当前词是否属于实体词，若所述当前词属于实体词，则将所述实体词识别为目标词。

7.根据权利要求6所述的方法，其特征在于，与所述文本数据相对应的话题包括多个，所述方法还包括：

分别识别所述多个话题的类型，所述类型分别具有相应的优先级；

提取所述优先级最高的话题作为与所述文本数据相对应的目标话题。

8.一种话题提取装置，其特征在于，包括：

文本数据获取模块，用于获取待处理的文本数据；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的话题提取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的话题提取方法。