CN113886527A

CN113886527A - 一种自然语言语义提取方法和系统

Info

Publication number: CN113886527A
Application number: CN202111220443.8A
Authority: CN
Inventors: 林自达; 俞希林
Original assignee: Qianjin Network Information Technology (shanghai) Co ltd
Current assignee: Qianjin Network Information Technology (shanghai) Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-04

Abstract

本发明涉及一种自然语言语义提取方法和系统，其中所述方法包括：对目标文件以句子为单位进行分词以得到分词单元；分析一个句子中的多个分词单元是否构成关键词；响应于一个句子中的多个分词单元构成一个或多个关键词，提取出包含所述关键词的句子；对包含所述关键词的句子进行语法分析，以得到语法树；以及从所述语法树中提取出有效关键词及对应的语义标签。本发明提供的方法和系统从相关目标文件内容中抽取出符合信息推荐要求的关键词，通过对包含关键词的句子进行语法分析、对语法树的拆分、重构而得到有效的关键词，从而可以得到目标文件的真正意图，提高了对用户目标需求的理解度。

Description

一种自然语言语义提取方法和系统

技术领域

本发明涉及语义识别技术领域，特别地涉及一种应用于信息推荐系统的自然语言语义提取方法和系统。

背景技术

在目前的信息时代，各类专业或综合信息平台都能够为具有供需关系的用户双方提供其所需要的信息。例如，专业的招聘平台为作为供应方的招聘者和作为需求方的求职者同时提供了众多的招聘信息和求职信息；一些综合性网站提供了大量的广告招标信息和广告投放需求信息等等。以招聘市场为例，绝大部分求职者及招聘者都会选择从一些网络招聘平台上寻找合适的职位及人才。通常，求职者和招聘者会在诸如招聘网站、招聘APP等平台上注册，求职者在其上填写简历，其中记载个人信息及希望谋求的职位，而招聘者则填写招聘信息，其中记载公司信息、招聘的具体职位及职位要求等信息。或者，求职者在未登录状态在搜索栏填写关键词直接搜索职位。由于招聘平台上汇集了大量的信息，如果单纯依赖求职者、招聘者人工手动搜索，在海量信息中找到适合自已的职位或人才将是一件既耗时又非常困难的事情。因而，为了增加招聘平台上的求职或招聘的成功率，帮助求职者及招聘者提高效率，一些招聘平台推出了职位推荐服务，即根据算法，为求职者推荐职位信息。例如，申请号为201811208036.3、名称为“一种职位推荐方法及系统”的中国发明专利申请提供了一种方法，将用户的访问数据生成数据矩阵，采用深度学习的算法对所述数据矩阵进行预测，依据预测结果和人物画像数据生成职位推荐数据。申请号为201710947915.7、名称为“职位推荐的处理方法及装置”的中国发明专利申请提供了另一种方法，提取求职者的简历特征以得到求职者特征信息，提取投递到招聘项目中的简历特征得到职位特征信息，通过将这两种特征进行匹配，根据二者的匹配度得到可以为求职者推荐的相关职位。还有一些其他实现职位推荐的方法，在此不再一一赘述。

通过对现有职位推荐方法的分析发现，大部分时候推荐的职位在某个或某些方面并不能真正满足求职者的要求。导致这种结果的原因可能有多个，其中一个重要原因是推荐算法不能准确地理解求职者/招聘者的意图。例如，申请号为201811208036.3的中国发明专利申请提供的方法通过用户访问数据和用户人物画像数据来理解用户的求职意图，其得到求职意图并不是直接来自于用户，很容易出现理解偏差。而对于申请号为201710947915.7的中国发明专利申请，虽然其提供的方法是基于用户的简历进行特征提取，但是特征提取的准确性及提取的特征是否能够真实地反映用户的求职意图有待考证。

求职者/招聘者会将其求职/招聘意图明确在写进简历/招聘信息，理论上通过简历/招聘信息便可以得到求职者/招聘者的意图。但是从实践经验来看，求职者最终得到的职位并不完全符合简历上标明的职位，招聘者最终招聘的人员也并非完全符合招聘信息，因而，如果只拘泥于简历或招聘信息中的内容，显然会漏掉很多符合求职者/招聘者意图的职位/人才。因而，能够正确理解简历/招聘信息，并通过简历/招聘信息中隐藏的深层语义真正得到求职者/招聘者的意图，是提供准确推荐信息的重要因素，遗憾的是，目前还有这样的方案。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种自然语言语义提取方法和系统，通过对用户相关描述文件进行语义提取，以提高对用户相关描述文件的意图的理解。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种自然语言语义提取方法，其中包括以下步骤：

对目标文件以句子为单位进行分词以得到多个分词单元；分析一个句子中的多个分词单元是否构成关键词；响应于一个句子中的多个分词单元构成一个或多个关键词，提取出包含所述关键词的句子；对包含所述关键词的句子进行语法分析，以得到语法树；以及从所述语法树中提取出有效关键词。

根据本发明的另一个方面，本发明还提供了一种自然语言语义提取系统，其中包括分词模块、句子提取模块、语法分析模块和关键词提取模块，其中，所述分词模块经配置以对目标文件以句子为单位进行分词以得到多个分词单元；所述句子提取模块与所述分词模块相连接，经配置以分析所述多个分词单元是否构成关键词，并提取出包含有关键词的句子；所述语法分析模块与所述句子提取模块相连接，经配置以分析所述包含有所述关键词的句子，并根据分析结果构建语法树；所述关键词提取模块与所述语法分析模块相连接，经配置以从所述语法树中提取出有效关键词。

本发明提供的方法和系统根据信息推荐的需求，从相关目标文件内容中抽取出符合信息推荐要求的关键词，通过对包含关键词的句子进行语法分析，对语法树的拆分、重构而得到有效的关键词，从而可以得到目标文件的真正意图，提高了对用户目标需求的理解度。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例的应用于信息推荐系统的自然语言语义提取方法流程图；

图2是根据本发明的一个实施例的分词流程图；

图3是根据本发明的一个实施例的语法树示意图；

图4A是根据本发明的一个实施例的从所述语法树中提取出有效关键词及对应的语义标签流程示意图；

图4B是根据本发明的一个实施例的生成有向无环图的流程示意图；

图5是根据本发明的一个实施例的生成主标签的流程示意图；

图6是根据本发明的一个实施例的自然语言语义提取系统的原理框图；

图7是根据本发明的一个实施例的句子提取模块的原理框图；

图8是根据本发明的一个实施例的语法分析模块的原理框图；以及

图9是根据本发明的一个实施例的关键词提取模块的原理框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

为了能够清晰地对本发明的方案进行说明，本发明定义了以下名词的具体含义：

关键词：具有多样表达形式的词组，例如由两个名词构成的词组，如“汽车销售”、“车辆销售”、“汽车推销”和“车辆推销”等。

分词单元：在进行语义提取过程中，对句子进行分词操作后得到的分词，其为单字、双字或多个单字组成的词组，如分词后的句子“我是Java工程师”中的“我”、“是”、“Java”、“工程师”。

词语单元：收集在字典中的、具有独立语义、不可再拆分的词语，例如“汽车”、“销售”。

语义标签：关键词的标准化版本，比如使用语义标签“汽车销售”作为关键词“汽车销售”、“车辆销售”、“汽车推销”和“车辆推销”的标准化版本。

前缀词：组成关键词的两个或多个分词单元中的第一个，如：“汽车销售”中的“汽车”，“车辆销售”中的“车辆”等。

后缀词：组成关键词的两个或多个词语单元中的最后一个，如：“车辆销售”中的“销售”，“汽车采购”中的“采购”等。

图1是根据本发明一个实施例的应用于信息推荐系统的自然语言语义提取方法流程图，所述方法包括：

步骤S1，对目标文件以句子为单位进行分词以得到多个分词单元。

步骤S2，分析所述多个分词单元是否构成关键词。

步骤S3，响应于所述多个分词单元构成一个或多个关键词，提取出包含所述关键词的句子。

步骤S4，对包含所述关键词的句子进行语法分析得到语法树。

步骤S5，从所述语法树中提取出有效关键词及对应的语义标签。

其中，在步骤S1中，可以使用现有的任何一种分词方法进行分词。例如，基于词典的机械分词法，如正向最大匹配法、逆向最大匹配法或双向匹配法等。或者是基于统计的分词方法，通过计算一个字与其上下文中相邻的字联合出现频率来判断它们成词的概率。在一个实施例中，基于层次的隐马尔可夫模型(Hierarchical Hidden Markov Model，简称HHMM)将汉语分词、切分排歧、未登录词识别、词性标注等词法分析任务融合到一个相对统一的模型中，实现对一个句子中的字串进行同义词替换、中文分词以及词性标注等，从而将所述句子进行分词。如图2所示，是根据本发明一个实施例的分词流程图，具体包括以下步骤：

步骤S11，对句子中原始字符串进行同义词替换。在进行分词之前，对句子中原始字符串进行同义词替换。同义词词典中保存有多个词条及其可被替换的同义词词条。在原始字符串中，查找最大长度的同义词，如果找到，则替换成对应的替换词。处理过程中还可以进行英文的大小写转换、标点符号的中英文转换以及全角字符和半角字符的转换等处理。例如：“销售经理”是用来替换的同义词词条，与其对应的词条包括“业务经理”、“salesmanager”，又例如“惠普”是用来替换的同义词词条，与其对应的词条有“HP”，“DBA”是用来替换的同义词词条，与其对应的词条为“数据库工程师”，当原始句子为“HP公司招聘salesmanager和数据库工程师职位”时，经过同义词替换后变成“惠普公司招聘销售经理和DBA职位”。通过上述的同义词替换，能够有效降低语义分析语料的非标准性，提高语义分析的准确率。

步骤S12，采取K-Best最短路径方法对所述句子进行初步切分，从而得到能覆盖歧义的K个最佳切分结果。查询核心数据字典，查找待切分句子中的每个字及其可能成词的所有情况，将查询得到的词语结果保存在稀疏矩阵中，并记录相应词语的频率。如果该词条为不可切分词(如funclist词典中的词)，则按预定好的切分及标注结果输出，把该词条中包含的其他词条删除；如词条“自动化测试”为不可切分词，则在矩阵中相应删除“自”“自动”“自动化”“动”“化”“测”“测试”“试”词条，只保留“自动化测试”。遍历稀疏矩阵中的所有节点，前后词用@相连，如：“说@的”，“说@的确”，查询BigramDict数据字典，获取相应的概率值，并作平滑处理，计算结果作为每条边的概率，从而得到分词图。利用K-Best最优路径算法在分词图中已有的m条路径中查找最优的k条路径。

步骤S13，采用底层隐马模型识别出未登录词。经过初步切分阶段后，已经产生了K条最优路径，但其中可能会包含一些未识别出来的未登录词，比如人名、地名等，本步骤的目的是识出这些未登录词。本发明将一个句子中所有的词划分为三类：人名的内部组成、上下文、无关词，按该分类规则划分的词或词组称之为角色。经过角色划分，将当前句子转批为角色序列。在一个实施例中，采用Viterbi算法对初步切分阶段的一个句子的切分结果进行角色标注从而得到一个最佳角色序列。根据预置的角色串与所述最佳角色序列进行匹配，如果在所述最佳角色序列中匹配到角色串，则确定所述角色串为未登录的人名或地名，并将所述未登录的人名或地名作为一个节点，计算其概率后增加到分词图中。

步骤S14，再次进行K-Best最短路径的求解，以得到优化的分词结果。由于分词图已经改变，因而需要再次进行K-Best最短路径的求解，从而得到优化的分词结果，如将原来的“张华平说的确实在理”经过优化分词后便处理为：“张华平说的确实在理”。

步骤S15，在优化的分词结果上进行词性的隐马标注，即为每个分词标注出其词性，如名词、动词、形容词等等，如标注后得“张华平/nr说/v的/ad确实/adj在理/vt”从而为下一步的语义识别提供依据。

在步骤S2中，为了分析所述多个分词单元否能构成关键词，包括步骤包括：

查询词语单元词典，响应于在词语单元词典查询到句子中的分词单元时，确定所述分词单元为词语单元。其中，词语单元词典中收录了在招聘领域中常见的词语单元。如行业维度的词语单元“软件”、“硬件”，职能维度的词语单元“工程师”、“销售”、“客服”，技能维度的词语单元“Java”、“花艺”，语言维度的词语单元“日语”、“英语”等等。

当查询得到多个词语单元时，对所述多个词语单元进行排列组合以得到多个词组。查询词组词典，当在词组词典查询到所述词组时，确定所述词组为关键词。

例如，分词之后的句子为“我是Java和C++工程师”，通过查找词语单元词典，在其中查找到句子中的分词单元“Java”，“C++”和“工程师”，从而确认该句子的词语单元为“Java”，“C++”和“工程师”；通过对这三个词语单元排列组合可以得到“Java”、“C++”、“工程师”、“Java工程师”、“C++工程师”，“JavaC++”和“JavaC++工程师”等词组。然后查找词组词典，从中可以找到“Java”、“C++”、“工程师”、“Java工程师”和“C++工程师”，因而可以确认关键词为“Java”、“C++”、“工程师”、“Java工程师”和“C++工程师”，而“JavaC++”和“JavaC++工程师”这两个词组没有出现在词组词典中，从而将这两个词组排除。

经过上述处理，可以确定，“我是Java和C++工程师。”这个句子包含了关键词，因而可以进行下一步的语法分析，如果句子中没有关键词，则不进行下一步的分析。

通过步骤S2，从目标文件中筛选出了多个包含有意义的关键词的句子，从而在语法分析时只对包含有关键词的句子进行语法分析，避免了对目标文件的全文进行语法分析，既提高了效率，也减少了干扰信息。

在一个实施例中，每一个句子生成一个语法树，一个语法树设置有一个根节点Root，句子中的每一个分词单元为一个节点，其中，根节点Root指向作为谓语的分词单元(其词性通常为动词)，再由作为谓语的分词单元指向其他分词单元，具有指向关系的两个节点构成一定的语法关系。例如，词性为动词的分词单元指向作为主语的分词单元，这两个分词单元构成主谓关系(nsubj)；词性为动词的分词单元指向作为动词宾语的分词单元，这两个分词单元构成动宾关系(dobj)。在步骤S4中，首先按照一个句子中的分词单元在句子中的排序，从句首开始，按照预置语法规则依次获取两个分词单元的指向关系及语法关系；然后依据分词单元的指向关系及语法关系建立语法树。

在一实施例中，采用神经网络语法关系分析模型计算每个句子中两个分词单元的指向关系及语法关系。在该网络模型中，运用了转移分析法来获得两个分词单元的指向关系及语法关系。

其中，在一实施例中，构造出一个配置结构(Configuration)，所述配置结构包括缓存(Buffer)、栈(Stack)和语法关系(Dependency)三个结构，其中，所述缓存(Buffer)用于存放句子里的分词单元，相当于一个队列，遵循先进先出原则。栈(Stack)用于存放句子里的分词单元，也相当于一个队列，遵循先进后出原则，栈底先存放“Root”节点。每一次判断时，只判断栈顶的两个分词单元之间的关系。因而Stack中存放的是将要被判断关系的分词单元，或是之前判断失败继续等待被判断的分词单元。语法关系(Dependency)用于存储两个分词单元的指向关系及语法关系。

通过将缓存中的分词单元逐个转移入栈内，根据栈顶三分词单元及缓存前三个分词单元来确定栈顶两个分词单元的指向关系和语法关系。

其中，对配置中的转移操作定义为以下三种：

左赋值(Left-Arc)：判定栈顶元素S1(第一个分词单元)与其下方的元素S2(第二个分词单元)之间存在由S1指向S2(S1->S2)的语法关系xxx(也可以称：S2为S1的子节点，并具有语法关系xxx)，将作为子节点的S2移出栈。需要保证栈内有大于等于两个分词单元。

右赋值(Right-Arc)：判定栈顶元素S1与其下方的元素S2之间存在由S2指向S1(S2->S1)的语法关系xxx(或称为：S1为S2的子节点并具有语法关系xxx)，将作为子节点的S1移出栈。需要保证栈内有大于等于两个分词单元。

压栈(Shift)：在判定栈顶元素S1与其下方的元素S2之间不存在语法关系时，将缓冲头部的分词单元压入栈中。

以句子“我熟悉Java和C++开发。”为例，进行分词后，词语单元及其在句子中的排序序号、词性的关系如下表-1：

表-1

词语单元

我

熟悉

Java

和

C++

开发

。

序号

1

2

3

4

5

6

7

词性

PN

VV

NR

CC

NR

NN

PU

其中，PN为代词，VV为其它动词，NR为专有名词，CC为连词，NN为其它名词，PU为标点。

下表的每一行为一个Configuration，包含<Stack,Buffer,Dependency>(也即栈、缓冲和存储的语法结构)。初始的Configuration状态为：栈(Stack)里只有Root，缓存(Buffer)依次放入分词单元“我”、“熟悉”、“Java”、“和”、“C++”、“开发”、“。”，存储的语法结构为空。然后对该Configuration进行转移操作(Transition)，更新Configuration。具体而言，把缓存中的分词单元逐步移动到栈里，并利用栈顶三个词和缓存里的前三个词，判断栈顶两个词的语法关系，如果存在左赋值或右赋值，则把得到的语法关系存储在语法结构中，并从栈中移出相应的一个分词单元。以此类推，第i次的转移操作依赖于i-1次Configuration的神经网络预测结构。多次迭代更新后，直到Configuration里的缓存清空，于是完成整句的语法树分析。

其中，上述操作过程如下表-2所示：

表-2

通过上述操作得到了一个句子中的两个词语单元的指向关系及语法关系，从而得到如图3所示的语法树。

上述对一个配置结构在转移操作后对Stack中的两个词语单元的指向关系及语法关系的判断可通过神经网络预测模型来完成。在此不再赘述。

在得到语法树后，在步骤S5中，通过图4A所示的以下步骤从所述语法树中提取出有效关键词及对应的语义标签。

步骤S51，从语法树中获取具有各种语法关系的分词单元对，并根据语法关系对分词单元对分类。

通过语法树可知，一个语法树中存在着多种语法关系连接两个分词单元。然而，在理解目标文件的意图时，有些分词单元及其语法关系是无意义的，甚至于会干扰对目标文件的意图理解。例如，对于在分词单元组合“成交药品一亿多元”中的两个分词单元“成交”和“元”的语法关系为“作为量的与格宾语(nmod:range)”。这个语法关系中表示的量词含义对于理解目标文件的意图没有多大帮助，因而将“作为量的与格宾语(nmod:range)”设置为无效的语法关系。而对于“Java”和“C++”构成的表示“并列关系(conj)”的语法关系则很有可能表示了目标文件的意图，因而将其设置为有效的语法关系。因而在一个实施例中，所有的语法关系总共分为以下表-3所示的五类：

表-3

其中，表-3中未说明的语法关系标签说明如下：

Dobj：直接宾语

Nsubj：名词作主语

nmod:topic：名词为主题

ccomp：从句性补语

compound:nn：复合名词作为修饰词

amod：形容词作为修饰词

nmod:assmod：关联词作为修饰词

amod:ordmod：序数词作为修饰词

compound:vc：动词从句的复合

nmod：名词作为修饰词

advmod：副词作为修饰词

nummod：数字作为修饰词

mark:clf(classifier modifier)类别词作为修饰词

在本实施例中，并列关系(conj)、定语从句(Acl)、动名关系和名名/状语是有效的语法关系，其余语法关系为无效语法关系。

以句子“我熟悉Java和C++开发。”为例，根据前一步确定该句子中的语法关系及相应的分词单元对如表-4：

根据语法关系的分类，去掉无效的语法关系，则有效的语法关系及分词单元对如表-5所示。

步骤S52，对分类后的分词单元对重组，构建语群，其中所述语群中包括同一路径中逐级连接的多个分词单元。

在一个实施例中，通过构建有向无环图对分类后的分词单元进行重新连接。其中，在重新连接时，根据分词单元对自身的语法关系及与其连接的分词单元对的语法关系进行分词单元对的拆对、重连。例如：对表-5中的有效分词单元对重组，过程如图4B所示：

步骤S521，首先处理1类的并列关系的分词单元对。在本实施例中，并列关系的分词单元对为(C++，Java)，与其关联的分词单元对为名名关系的(开发，C++)。根据预置规则：当并列关系的分词单元对中的头(即分词单元对中的父节点)连接表-3中的3类或4类时，打断原并列关系的分词单元对的连接，将原并列关系中的两个分词单元作为子节点分别连接到3类或4类中的父节点。因而在本实施例中，首选打断“C++”与“Java”之间的连接，再将二者分别连接到“开发”上，作为“开发”的子节点。

步骤S522，接下来处理2类的具有定语从句语法关系的分词单元对。由于本实施例中没有定语从句关系的分词单元对，从而跳过该步骤处理3类动名关系的分词单元对。其中，对于语法关系为定语从句的分词单元对(由名词指向动词，名词为动词的父节点)，将动词节点连接到根节点(Root)，作为根节点(Root)的子节点，并改变原分词单元对的指向，即由动词指向名词，动词变为名词的父节点。

本实施例中的动名关系的分词单元对分别为动宾语法关系的(熟悉，开发)和主谓语法关系的(熟悉，我)。根据预置的语法规则：将动宾语法关系的中的父节点连接到根节点(Root)，即将“熟悉”连接到“Root”，作为“Root”的子节点，从而包含了本实施例中的具有Root语法关系的分词单元对(Root，熟悉)。

步骤S523，以根节点“Root”为开始节点，并为每一个没有下一级节点的节点连接到结束节点“End”上，从而得到了完整的有向无环图。

其中，从开始节点到结束节点的同一路径上的全部分词单元组成一个语群。如图4B中所示，共有三个语群，分别为“熟悉”+“开发”+“C++”、“熟悉”+“开发”+“Java”和“熟悉”+“我”，每一条路径上的分词单元从开始节点到结束节点逐级连接。

步骤S53，查询构成关键词的全部词语单元是否位于同一个语群。本步骤用于验证步骤S3中确定出的关键词是否是有效关键词。其验证方法是，查询构成关键词的全部词语单元是否位于同一个语群，如果位于同一个语群，则为有效关键词，否则不是有效关键词，应予以丢弃。例如，通过“我熟悉Java和C++开发。”中提取出的关键词“开发Java”中的前缀词“开发”和后缀词“Java”位于同一个语群，关键词“开发C++”中的前缀词“开发”和后缀词“C++”位于同一个语群，从而确定“开发Java”和“开发C++”是有效关键词。在步骤S2中，从“我每天负责擦玻璃，偶尔回去采购部擦”中得到关键词“采购玻璃”，在查询语群时，前缀词“采购”和后缀词“玻璃”不在同一个语群，因而“采购玻璃”不是有效关键词，被丢弃不用。从而可见，通过构建语群，可以排除提取有误的关键词，从而能够更准确地理解目标文件。

步骤S54，响应于构成关键词的全部词语单元位于同一个语群，确定所述关键词为候选关键词。

步骤S55中，对候选关键词进行过滤，过滤后得到的是有效关键词。

在本发明一个实施例中，词语单元具有相应的属性，例如，对应正常的、位于白名单中的词语单元，设置其属性标识flag的值为0，对于位于括号内部和特殊符号后面的词语单元，其属性标识flag的值为1；位于黑名单列表中的词语单元的属性标识flag的值为2；在标题中添加的默认词语单元(如“盇盉”)的属性标识flag的值为3。在步骤1中进行分词得到分词单元后，在确定该分词单元为词典中的词语单元的同时，根据其在目标文件及前述属性规则，为每一个作为词语单元的分词单元设置属性值。例如，对于目标文件中的“前端工程师(能源)”中的“能源”，其位于括号内，因而将“能源”的属性标识flag值设置为1，将“工程师”的属性标识flag值设置为0。如果在目标文件的标题中提取到默认词语单元“盇盉”，将其属性标识flag值设置为3。

获取候选关键词的词语单元的属性flag值，当候选关键词中的所有词语单元的属性标识flag值都为0时，设置所述候选关键词的属性flag值为0，即为第一类候选关键词。当候选关键词中有属性标识flag值都为1的词语单元时，其为第二类候选关键词。当候选关键词中有属性标识flag值都为2的词语单元时，其为第三类候选关键词；当选关键词中有属性标识flag值都为3的词语单元时，其为第四类候选关键词。

在过滤时，首先对第一类候选关键词的整体进行包含关系过滤，即当构成第一候选关键词的所有词语单元全部包含在第二候选关键词中，删除所述第一候选关键词，并对其进行标记。例如，当由“后端研发工程师”分别提取出四个关键词“工程师”、“后端研发”、“后端工程师”和“后端研发工程师”时，由于“工程师”、“后端研发”、“后端工程师”均包含在“后端研发工程师”中，因而将前三个删除，只保留“后端研发工程师”这一个关键词，既避免了重复，也减小了后续匹配知识节点的计算量。

当第二类候选关键词中包含了已删除的第一类候选关键词时，将其删除。例如，从“前端工程师(能源)”中提取出三个关键词“工程师”、“前端工程师”和“能源工程师”，可以显明得知“能源工程师”是一个错误的关键词。根据前述包含关系的过滤处理，将关键词“工程师”删除而保留“前端工程师”，由于“能源”位于括号内，其属性标识flag值为1，因而“能源工程师”属于第二类候选关键词，其中包括了已删除的“工程师”，因而需要将其删除，从而解决了在提取关键词时提取错误的问题。

第三类候选关键词中包含有黑名单中的词语单元，因而需要将其删除。

当第四类候选关键词中存在被第一类、第二类候选关键词包含的词语单元，将其删除。例如，当从“盇盉人事经理”中提取出的两个关键词“盇盉人事”和“人事经理”时，“人事经理”为第一类候选关键词，“盇盉人事”为第三类候选关键词，由于“盇盉人事”中的词语单元“人事”包含在第一类候选关键词“人事经理”中，因而将第三类候选关键词“盇盉人事”删除，只保留“人事经理”。

经过上述过滤操作，从候选关键词中过滤掉重复、有歧义、提取错误等的关键词，剩余的则为有效关键词。

步骤S56，对有效关键词进行标准化以得到对应的语义标签。本发明提供有配置文件，其包括前缀表和后缀表，所述前/后缀表中记录有构成关键词的多个前/后缀，每个前/后缀具有对应的构成语义标签的标准化版本。例如前缀“插排”是前缀“插座”的标准化版本。后缀“贩售”的标准化后缀为“销售”。根据有效关键词的前缀和后缀，分别查询前缀表和后缀表，将有效关键词的前缀和后缀映射为标准前缀和标准后缀。例如，将关键词“房地产推销”映射为“房地产销售”，将“Java开发”映射为“Java研发工程师”，将“商务专员”映射为“商务人员”等等。

所述的目标文件可以是一个文件整体，也可以是一个文件的某个章节或段落。通过以上步骤，从一个目标文件中提到了代表各种类别信息的语义标签，有的是非常重要，而用的可能不重要。为了使信息推荐系统在以目标文件作为依据查询推荐目标时的效率更高、更加准确，本发明还包括了主标签(Postag)的提取过程。其以目标文件的多个语义标签为基础，利用知识图谱对语义标签进行拆分、泛化，再经过过滤得到具有标准化信息的节点标签，再由节点标签组合得到多个主标签。具体如图5的流程所示。

步骤S61，将语义标签输入到知识图谱库中，根据语义标签与节点标签的映射关系，针对所述的语义标签得到多个节点。所述知识图谱库包括多个相关联的节点，所述节点包括节点标签及对应的一个或多个属性，所述节点根据不同属性连接与其具有映射关系的节点。所述映射关系为包含关系或相似关系。知识图谱中的每一个知识节点的同一个属性按照包含关系既可以连接有上一级节点，也可以连接有下一级节点，因而，一个属性的映射关系为一个链条。在这个映射关系的多级链条上的节点，有些是相对抽象、而有些是比较具体。由于主标签的作用是用于职位推荐时的搜索和匹配，如果主标签的内容过于具体，不利于职位的推荐，因而一个属性的映射关系中的有些节点不适合组合成主标签，而有些则可以组合成主标签，在本发明中，将适合组合成主标签的节点称为有效节点(Fclass)。例如节点“Hibernate”过于详细，不适合用来组合成主标签，而节点标签“Java”可以用来组合主标签，因而节点“Java”属于有效节点Fclass。根据映射关系，多个有效节点也构成一个多级链条，在这个多级链条的终点，没有上一级节点的有效节点称为有效根节点(TFclass)。当将语义标签输入到知识图谱库中时，分别利用语义标签的前缀和后缀与知识图谱库中的节点进行匹配，通过前缀和后缀分别得到一个节点，再根据节点之间的映射关系，可以得到多个相关联的节点。例如，通过“Hibernate研发工程师”的语义标签可以得到节点“Hibernate”和“研发工程师”，其中，节点“Hibernate”具有技能属性和行业属性，在技能属性上可以得到上一级节点“Java”，在行业属性可以得到上一级节点“软件”。节点“研发工程师”的属性为职能，在职能属性的映射关系中可以得到上一级“工程师”。

步骤S62，对得到的多个节点进行合并、过滤，从而得到多个候选节点。经过前述步骤S61后得到的节点中，有些节点由于同时具有不同属性，在映射时可能根据不同的属性而被重复匹配得到。将重复的节点合并为同一个节点，并过滤掉不适合的节点。例如，用户当前的职位名称为能源工程师时，其选择的行业为“石油/化工/矿业”。由于“化工”和“矿业”分别作为有效根节点的映射关系中没有节点“能源”，即有效根节点与节点“能源”不符，因而需要过滤掉以“化工”和“矿业”作为有效根节点的所有节点。

步骤S63，获取与候选节点相应的有效节点。其中，所述的有效节点Fclass是指可以组合成主标签的节点。在本实施例中，每一个节点Class的每一个属性(Cube)具有对应的有效节点Fclass。当确定了候选节点后，根据其映射关系可得到与其对应的有效节点。

步骤S64，将有效节点标签两两组合，以得到多个主标签。比如“Java”和“工程师”合并为“Java工程师”，“房地产”和“销售”合并为“房地产销售”，“环保”和“调查人员”合并为“环保调查人员”。

所述多个主标签基于目标文件的信息进行了相应的语义延申，充分概括了目标文件的意图，并且也为职位的搜索与匹配提供了具有标准信息的依据。

图6是根据本发明一个实施例的自然语言语义提取系统的原理框图，其中包括分词模块1、句子提取模块2、语法分析模块3、关键词提取模块4和标准化模块5。其中，所述分词模块1经配置以对目标文件以句子为单位进行分词以得到多个分词单元。所述句子提取模块2与所述分词模块1相连接，用以分析所述多个分词单元是否构成关键词，并提取出包含有关键词的句子。具体地，如图7所示，所述句子提取模块2包括词语单元确定单元21、词组组合单元22、关键词确定单元23和句子确定单元24。其中，所述词语单元确定单元21基于一个句子中的分词单元查询词语单元词典，如果在词语单元词典查询到该分词单元，则确定所述分词单元为词语单元，其可以组成关键词，如果在词语单元词典没有查询到该分词单元，则当前分词单元不能组成关键词。经过所述词语单元确定单元21针对一个句子中的分词单元逐个查询，可以确定出当前句子中的所有可以组成关键词的词语单元。例如，针对分词后句子“我每天负责擦玻璃，偶尔回去采购部擦。”中得到词语单元“采购”和“玻璃”。又例如，句子“我熟悉Java和C++开发。”中可以得到词语单元“Java”、“C++”和“开发”。

所述词组组合单元22与所述词语单元确定单元21相连接，经配置以对多个词语单元进行排列组合以得到多个词组。例如，根据词语单元“采购”和“玻璃”组合成关键词“采购”、“玻璃”和“采购玻璃”，根据词语单元“Java”、“C++”和“开发”组合成关键词“Java”、“C++”、“开发”、“Java C++”“C++开发”、“Java开发”和“JavaC++开发”。

所述关键词确定单元23与所述词组组合单元22相连接，用以查询词组词典，响应于在词组词典查询到所述词组，确定所述词组为关键词。例如，“采购”、“玻璃”“采购玻璃”都可以在词组词典中查询到，因而其都是关键词。而在词组词典中查询不到“JavaC++”、“JavaC++开发”，因而这两个不是关键词，其他几个是关键词。

所述句子确定单元24与所述关键词确定单元23相连接，用以将目标文件中的包含关键词的句子提取出来，作为语法分析的基础语料。

所述语法分析模块3与所述句子提取模块2相连接，用以分析所述包含有所述关键词的句子，并根据分析结果构建语法树。其中，在一个实施例中，如图8所示，所述语法分析模块3包括词性标注单元31、分词单元对确定单元32和语法树构建单元33，其中，所述词性标注单元31为句子中的每个分词单元标标词性；所述分词单元对确定单元32与所述词性标注单元31相连接，其基于预置语法规则及分词单元的词性，确定两个分词单元的语法关系及指向关系。在一个实施例中，所述分词单元对确定单元32采用具有神经网络的转移分析模型来预测两个分词单元的语法关系及指向关系，具体参见表-2所示的过程。在此不再赘述。所述语法树构建单元33与分词单元对确定单元32相连接，依据分词单元对中的指向关系连接句子中的相应分词单元以建立语法树。如图3所示的语法树。

所述关键词提取模块4与所述语法分析模块3相连接，用以从所述语法树中提取出有效关键词。在一个实施例中，如图9所示，所述关键词提取模块4包括第一过滤单元41、语群构建单元42和有效关键词确定单元43，其中，所述第一过滤单元41与所述语法分析模块3相连接，从所述语法树中过滤掉无效语法关系的分词单元对，关于语法关系的分类如表-3所示。按照所述表-3过滤掉无效的语法关系的分词单元。所述语群构建单元42与所述第一过滤单元41相连接，对具有有效语法关系的多个分词单元进行重组，以得到一个或多个语群。在一个实施例中，语群构建单元42通过构建有向无环图来确定不同的语群。具体请参见前述说明，在此不再赘述。有效关键词确定单元43与所述语群构建单元42相连接，将构成关键词的全部词语单元位于同一个语群的关键词确定为有效关键词。从而可以过滤掉组合错误的关键词，例如“采购玻璃”中的“采购”和“玻璃”位于不同的语群，因而可以确定“采购玻璃”不是一个有效的关键词。

即使构成关键词的全部词语单元位于同一个语群，也不是全部的关键词都是合适的。例如从句子“我熟悉Java和C++开发。”中得到“Java”、“C++”、“开发”、“C++开发”和“Java开发”等5个关键词，然而，这里面的有些关键词具有包含关系，对于职位搜索和匹配来说，这些具有包含关系的关键词既无益于提高准确率，还增加了工作量。因而，在一个更好的实施例中，将这些具有包含关系的关键词删除。另外，对于一些可能引起构建关键词错误的情况，如一些标点符号、增加的默认词语等，或者是被列入黑名单词语单元，为了避免这些问题，在进一步的实施例中，关键词提取模块4还包括第二过滤单元44，可以对有效关键词确定单元43得到的有效候选关键词进行过滤，具体请参见图4中对步骤S55的说明，在此不再赘述。

所述标准化模块5与所述关键词提取模块4相连接，用以对所述有效关键词进行标准化得到对应的语义标签。

在进一步的实施例中，所述系统还包括主标签构建模块6，其包括知识节点匹配单元61和主标签组合单元62，其中，知识节点匹配单元61与所述标准化模块相连接，利用知识图谱库为语义标签进行匹配以得到相应的多个知识节点，并对多个节点进行合并、过滤，从中提取出有效节点。主标签组合单元62与所述知识节点匹配单元61相连接，对所述多个有效节点两两组合生成一个或多个主标签，其中，所述知识节点的属性作为主标签种类，两个节点标签内容作为对应的主标签内容。

本发明提供的方法和系统根据信息推荐的需求，从目标文件内容中抽取出符合信息推荐要求的关键词，通过对包含关键词的句子进行语法分析以过滤掉错误、不合适的关键词，再将所述关键词标准化。通过对标准化关键词的拆分、重构而得到多个可以理解整个文本表达的真实语义的主标签。由于本发明并不只局限于文件中的关键词，而是对关键词进行适当的拆分、泛化、重组，从而能够理解目标文件信息中隐藏的深层语义，并且经过信息标准化后，可以有效简化信息搜索与匹配的复杂度，提高信息搜索与匹配的速度和精度，为信息的搜索、匹配、推荐提供了良好的语义基础。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种自然语言语义提取方法，其中包括：

对目标文件以句子为单位进行分词以得到多个分词单元；

分析一个句子中的多个分词单元是否构成关键词；

响应于一个句子中的多个分词单元构成一个或多个关键词，从目标文件中提取出包含所述关键词的句子；

对包含所述关键词的句子进行语法分析，以得到语法树；以及

从所述语法树中提取出有效关键词。

2.根据权利要求1所述的方法，其中分析一个句子中的多个分词单元是否构成关键词的步骤包括：

查询词语单元词典，响应于在词语单元词典查询到所述句子中的一个或多个分词单元，确定所述分词单元为词语单元；

响应于在所述句子中得到多个词语单元，对所述多个词语单元进行排列组合以得到多个词组；以及

查询词组词典，响应于在词组词典查询到所述词组，确定所述词组为关键词。

3.权利要求1所述的方法，其中对包含所述关键词的句子进行语法分析的步骤包括：

按照分词单元在句子中的排序，从句首开始，按照预置语法规则依次获取多个分词单元对及其语法关系，其中所述分词单元对包括具有指向关系的两个分词单元；以及

依据分词单元对中的指向关系及语法关系建立语法树。

4.根据权利要求3所述的方法，其中进一步包括：采用神经网络语法关系分析模型，运用转移分析法获得每个句子中的多个分词单元对的指向关系及语法关系。

5.根据权利要求1所述的方法，其中从所述语法树中提取出有效关键词的步骤包括：

从语法树中获取具有有效语法关系的分词单元对，并根据语法关系对分词单元对分类；

对分类后的分词单元对重组以构建语群，其中所述语群包括同一个路径上的逐级连接的多个分词单元；

查询构成关键词的全部词语单元是否位于同一个语群；以及

响应于构成关键词的全部词语单元位于同一个语群，确定所述关键词为有效关键词。

6.根据权利要求5所述的方法，其中通过构建有向无环图对分类后的分词单元对重组。

7.根据权利要求5所述的方法，其中响应于构成关键词的全部词语单元位于同一个语群，确定所述关键词为候选关键词；对所述候选关键词过滤后得到有效关键词。

8.根据权利要求7所述的方法，其中对候选关键词过滤的步骤进一步包括：

对候选关键词按照其构成的词语单元的属性分类为第一类候选关键词、第二类候选关键词、第三类候选关键词和第四类候选关键词；其中，所述第一类候选关键词中的所有词语单元的属性为白名单中的正常词语单元；第二类候选关键词中包括了位于括号内部或特殊符号后面的词语单元；第三类候选关键词包括了黑名单列表中的词语单元；第四类候选关键词中包括了标题中添加的默认词语单元；

在第一类候选关键词中，当构成第一候选关键词的所有词语单元全部包含在第二候选关键词中，删除所述第一候选关键词并对其进行标记；

当第二类候选关键词中包含了已删除的第一类候选关键词时，删除所述第二类候选关键词；

删除第三类候选关键词；以及

当第四类候选关键词中存在被第一类、第二类候选关键词包含的词语单元时，删除所述第四类候选关键词。

9.根据权利要求1所述的方法，其中还进一步包括：将所述有效关键词标准化以得到对应的语义标签。

10.根据权利要求9所述的方法，其中还进一步包括：

利用知识图谱库为所述语义标签匹配得到相应的多个知识节点，所述知识图谱库包括多个相关联的知识节点，所述知识节点包括节点标签及对应的一个或多个属性，所述知识节点根据不同属性连接与其具有映射关系的知识节点；以及

将匹配得到的多个知识节点两两组合生成一个或多个主标签，其中，所述知识节点的属性作为主标签种类，两个节点标签内容组合在一起作为对应的主标签内容。

11.一种自然语言语义提取系统，其中包括：

分词模块，经配置以对目标文件以句子为单位进行分词以得到多个分词单元；

句子提取模块，其与所述分词模块相连接，经配置以分析所述多个分词单元是否构成关键词，并提取出包含有关键词的句子；

语法分析模块，其与所述句子提取模块相连接，经配置以分析所述包含有所述关键词的句子，并根据分析结果构建语法树；以及

关键词提取模块；其与所述语法分析模块相连接，经配置以从所述语法树中提取出有效关键词。

12.根据权利要求11所述的系统，其中所述句子提取模块包括：

词语单元确定单元，其与词语单元词典相连接，经配置以查询所述词语单元词典，确定当前句子中的分词单元是否为词语单元词典中的词语单元；

词组组合单元；其与所述词语单元确定单元相连接，经配置以对在句子中确定的多个词语单元进行排列组合以得到多个词组；

关键词确定单元，其与所述词组组合单元和词组词典相连接，经配置以查询词组词典，确定排列组合得到的词组是否为所述词组词典中的词组，将排列组合得到的、位于词组词典中的词组确定为关键词；以及

句子确定单元，其与所述关键词确定单元相连接，经配置以提取出包含关键词的句子。

13.根据权利要求11所述的系统，其中所述语法分析模块包括：

词性标注单元，经配置为句子中的每个分词单元标标词性；

分词单元对确定单元，其与所述词性标注单元相连接，经配置以基于预置语法规则及分词单元的词性，确定两个分词单元的语法关系及指向关系；以及

语法树构建单元，其与所述分词单元对确定单元相连接，经配置以依据分词单元对中的指向关系连接句子中的相应分词单元以建立语法树。

14.根据权利要求13所述的系统，其中所述关键词提取模块包括：

第一过滤单元，其与所述语法分析模块相连接，经配置以从所述语法树中过滤掉无效语法关系的分词单元对；

语群构建单元，其与所述第一过滤单元相连接，对具有有效语法关系的多个分词单元进行重组，以得到一个或多个语群；以及

有效关键词确定单元，其与所述语群构建单元相连接，将构成关键词的全部词语单元位于同一个语群的关键词确定为有效关键词。

15.根据权利要求14所述的系统，其中，所述有效关键词确定单元将构成关键词的全部词语单元位于同一个语群的所述关键词确定为候选关键词，所述关键词提取模块还包括第二过滤单元，经配置以对所述候选关键词过滤后得到有效关键词。

16.根据权利要求11所述的系统，其中还包括标准化模块，其与所述关键词提取模块相连接，经配置以对所述有效关键词进行标准化得到对应的语义标签。

17.根据权利要求16所述的的系统，其中还包括主标签构建模块，经配置包括：

知识节点匹配单元，其与所述标准化模块相连接，经配置以利用知识图谱库为所述语义标签匹配得到相应的多个知识节点，所述知识节点包括节点标签及对应的一个或多个属性；以及

主标签组合单元，其与所述知识节点匹配单元相连接，经配置以根据匹配得到的多个节点两两组合生成一个或多个主标签，其中，所述知识节点的属性作为主标签种类，两个节点标签内容作为对应的主标签内容。