CN111984778B

CN111984778B - 基于依存句法分析和汉语语法的多轮语义分析方法

Info

Publication number: CN111984778B
Application number: CN202010934684.8A
Authority: CN
Inventors: 周红; 刘楚雄
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-06-03
Anticipated expiration: 2040-09-08
Also published as: CN111984778A

Abstract

本发明公开了一种基于依存句法分析和汉语语法的多轮语义分析方法，其特征在于，包括：定义知识图谱实体数据，构成实体库；对文本进行分词得到的词语在不同领域、不同意图下出现的总次数，构成准实时词库；在不同领域、不同意图下分别采用依存句法分析将准实时词库的词语形成一个个短语，并将短语出现的次数按照记忆曲线的规律变化，形成短语的频次；统计同一短语在不同领域下的频次，得到短语在不同领域下的关联程度，得到短语意图搜索库；对用户输入进行多轮语义解析，得到用户意图。本发明利用句法树和汉语言语法重组和重排多轮语句，进而判断领域意图，能够识别多轮任务型对话意图。

Description

基于依存句法分析和汉语语法的多轮语义分析方法

技术领域

本发明涉及自然语言处理技术领域，具体的说，是一种基于依存句法分析和汉语语法的多轮语义分析方法。

背景技术

随着人工智能的兴起，自然语言处理作为人工智能领域的一个重要方向，其中多轮的语义解析贯穿整个自然语言理解。目前多轮的语义解析多采用算法生成多轮回复的方式，这种方式更适用于闲聊等非任务型多轮回复，不适用任务型定制多轮回复以及不适用于能够输出中间变量的闲聊。任务型多轮回复，旨在通过与用户的自然语言进行多次交互，得到所需要的信息或解答。任务型对话的意图就是用户想要达到的目标。采用算法生成多轮回复的多轮语义解析方法很难识别任务型对话的意图。

发明内容

本发明的目的在于提供一种基于依存句法分析和汉语语法的多轮语义分析方法，用于解决现有技术中无法识别多轮任务型对话意图的问题。

本发明通过下述技术方案解决上述问题：

一种基于依存句法分析和汉语语法的多轮语义分析方法，包括：

步骤S100：定义知识图谱实体数据，构成实体库，知识图谱实体数据包括标签和标签类别下的词语；

步骤S200：获取每日用户日志数据，每日用户日志数据包含领域、意图、文本和出现的时刻，对文本进行分词并分别统计分词后得到的词语在不同领域、不同意图下出现的总次数，该总次数按照记忆曲线的规律变化，衰减后的总次数加上再次出现的次数作为当前该词语的词频，构成准实时词库；

步骤S300：在不同领域、不同意图下分别采用依存句法分析将准实时词库的词语形成一个个短语，并将短语出现的次数按照记忆曲线的规律变化，形成短语的频次；统计同一短语在不同领域下的频次，得到短语在不同领域下的关联程度，得到短语意图搜索库；

步骤S400：对用户输入进行多轮语义解析，得到用户意图，具体为：

步骤S410：将用户本轮输入和用户上N轮输入均利用依存句法分析方法获得词性和句法关系，将句法关系封装成句法树；

步骤S420：遍历句法树中每个节点，在实体库中查找对应的实体数据；

步骤S430：语句标准化处理；

步骤S440：语句整理，并重新拼接新的句法树：

步骤S450：意图判断，根据语句整理后的拼接的新的句法树，如果主谓宾关系存在，那么匹配成功并且返回当前领域意图及其每个节点的实体参数；如果不存在，判定核心词及其每个节点的关系在该领域意图下是否存在，如果存在，匹配成功，如果有任一节点不存在，匹配下一个领域意图。

所述步骤S430具体包括将把字句、被字句转换为动宾关系并删除介词；以及将否定句、疑问句转化为肯定句，并在返回结果中标识句型。

所述步骤S440包括：

步骤S441语句整理：

用户输入为名词+的：当缺失定语关系的主词时，优先去意图短语库中根据名词或者实体标签+定语关系搜索前N轮的句法树中是否存在主词，若存在，将名词及其子树迁移到主词之下作为其左孩子；

用户输入为含有代词：根据指代词的词性，从用户上N轮输入语句中找到跟代词相关联的主词以及与该主词关联程度最强的名词；

步骤S442重新拼接新的句法树：

提取本轮的领域意图池，优先顺序为：上N轮的领域意图＞本轮动宾关系在短语意图搜索库中的领域意图＞本轮主谓关系在短语意图搜索库中的领域意图＞本轮核心词在短语意图搜索库中的领域意图；

按上述顺序解析匹配每个领域意图，从上到下遍历本轮句法树的每个节点对应的关系是否在该领域意图下存在：

(1)节点为动词：从上轮输入中找出上轮领域意图下的主语和宾语，动宾关系做谓语形成主谓关系：如果存在，则继续解析下一个节点；否则，匹配下一个领域意图，并将上轮领域意图下的主语和宾语及其子树迁移至本轮的动词之下分别作为左孩子和右孩子；

(2)节点为形容词：从上轮输入中找出上轮领域意图下的主语，形容词做谓语形成主谓关系：如果存在，则继续解析下一个节点；否则，匹配下一个领域意图；

(3)节点为其它词性：从上轮输入和该节点的父节点中找出在该领域意图下关联程度最强的节点拼接成新的句法树。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明利用分词和依存句法分析构建基于记忆曲线淘汰机制的词典和短语意图搜索库，利用句法树和汉语言语法重组和重排多轮语句，进而判断领域意图和参数，能够识别多轮任务型对话意图，解决有限领域下的自然语言多轮对话语义分析问题。

(2)本发明在不同领域意图下，补充句法树的缺失成分，从而判定领域意图和参数。

附图说明

图1为本发明的记忆曲线图；

图2为上一轮用户输入的句法解析结果示意图；

图3为本轮用户输入的句法解析结果示意图；

图4为根据图2封装的句法树；

图5是根据图3封装的句法树；

图6是重新排列后生成的新的句法树；

图7为依存句法分析关系对照图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

数据准备阶段：

a)实体库：预定义的一批知识图谱实体数据，比如人物数据：标签label＝figure,词语term＝刘某某；

b)首先获取项目每日用户日志采集数据，这些数据来自单轮解析结果，每条数据都包含领域、意图、文本以及出现的时刻，按领域意图分别统计词频；

c)词库：将文本进行分词，统计分词后的词语在不同领域意图下出现的总次数，这个总次数会按照记忆曲线的方式被逐渐遗忘减少，如果第二天该词语又出现了，那么第二天的次数叠加上之前衰减后的次数，作为当前的词频，以此构建准实时词库，词库包含词语、词性和词频；

d)短语意图搜索库，短语意图搜索库中包括领域、意图、短语(修饰词+主词)、句法结构(主谓关系、定中关系、动宾关系等)、修饰词词性、主词词性、词频freq。

根据最新的准实时词库，将每日用户日志数据在不同领域意图下进行依存句法分析，形成一个个短语。依存句法分析对照示意图如图7所示。不同领域意图下每个短语出现的次数同样根据记忆曲线不断衰减减少，并叠加上之前的短语衰减后的次数，形成短语的频次。统计不同领域下的短语频次，这个短语频次代表了在不同领域下两个词组之间的关联程度，比如视频领域下刘某某电影(定中关系)的频次1000，百科领域下刘某某电影(定中关系)的频次为800，代表刘某某和电影的关联程度在VIDEO领域内非常强。因为频次是跟随每日数据动态调整的，所以也能代表实时热点关系，更能贴合需求。

结合附图1所示的记忆曲线图：X轴h为每24小时计算一次短语权重值，Y轴红色count为每天该领域意图下某短语出现的次数，假设每次出现增加10个基础点freq。Y轴蓝色freq为最终计算所得权重值(公式：freqh＝freqh-24*(1-0.56*24^0.06)+count*10*(1-0.56*h1^0.06))，h1为统计时刻距离短语出现的时刻的小时数。如果短语没有再出现，权重会越来越低，当短语重新出现，权重又会随之升高。

c.多轮语义解析阶段

假设用户上轮输入：我想看电影，单轮解析结果为领域VIDEO，意图QUERY。本轮该用户输入：刘某某的。解析流程如下：

c1)将本轮和上N轮的输入都利用依存句法接口解析获得词性，句法关系，将句法关系封装成句法树：的为修饰词右孩子(修饰词在主词的后边叫右孩子，修饰词在主词的前边叫左孩子)，刘某某为主词父亲节点，每个孩子只能有一个父亲节点。句法解析结果如附图2和图3所示，封装成的句法树如图4和图5所示。

c2)实体库查找：异步从上到下遍历本轮及上N轮句法树查找每个节点对应是否有实体数据存在，本例中实体有figure刘某某，category电影。

C3)语句标准化：汉语语句中经常会有倒序的说法，因此我们需要把他们整理成比较标准的说法：

1)把字句、被字句转化为动宾关系并删除介词。比如，把饭吃了改为吃饭了，花被他摘了改为他摘花了；

2)否定句转化为肯定句，并在返回结果中标识句型；

3)疑问句转化为肯定句，并在返回结果中标识句型；

d)特殊关键词解析优先规则：

1)名词n+的：当缺失定语关系的主词时，优先去短语意图搜索库中根据名词或者其实体标签label+定语关系搜索前N轮的句法树中是否存在主词。本例中，刘某某figure+定语关系从上轮中是可以找到主词电影category的，因此将刘某某及其子树迁移到电影之下作为其左孩子，如图6所示。

2)指代消解：根据词性(他：一般指代人物)从用户上N轮输入语句(比如刘某某身高多少)中找到跟代词相关联的主词(比如他的电影)跟主词(电影)关联程度(步骤b中的短语词频)最强的词为(刘某某)，因此根据词性和关联程度，确定代词(他)指代的是(刘某某)。

3)提取本轮可能存在的领域意图池：优先顺序为：上N轮的领域意图>本轮动宾关系在短语意图搜索库中可能的领域意图>本轮主谓关系在短语意图搜索库中可能的领域意图>本轮核心词在短语意图搜索库中可能的领域意图。

e)语句整理(或槽位补充)：按上步骤中领域意图池的顺序解析匹配每个领域意图，从上到下遍历本轮句法树的每个节点对应的关系是否在该领域意图下存在。

1)节点为动词v：从上轮中找上轮领域意图下的主语和宾语，动宾关系做谓语形成主谓关系。如果存在，则继续解析下一个节点，否则失败匹配下一个领域意图。并将上轮的主语和宾语及其子树迁移至本轮的核心词动词之下作为分别作为左右孩子。比如上轮：打开空调，本轮：关闭，语句整理后：空调关闭或者关闭空调，取决于主谓还是动宾在智能家居领域哪个的freq更大。

2)节点为形容词adj：从上轮中找主语，形容词做谓语形成主谓关系。如果存在，则继续解析下一个节点，否则失败匹配下一个领域意图。比如，上轮：孙俪的身高是多少，本轮：很漂亮，解析后整理成：孙俪很漂亮。

3)节点为其它词性：从上轮和该节点的父节点中找关系freq在该领域意图下最大的节点拼接成新的句法树。

句法树重组时遵循的基本规则：

1.从上到下的顺序遍历处理，因为越靠上的节点对语义的影响越大；

2.排列顺序：freq大的节点排在接近顶点vertex的位置，相反，远离；

3.与上一轮有多个关系时，保留freq最大的节点；

4.如果有多个head，保留freq最大并且head和祖父也存在关联关系的head；

5.本轮词语都必须出现在重组句子中；

6.插入节点时遵循顺序：

(1)左节点：定中、主谓、状中；

(2)右节点：间接宾语、介宾、右附加、动补形容词做补语、动宾、动补动词谓语做补语、并列。

f)意图判定：根据语句整理步骤后的拼接的新的句法树，如果主谓宾关系存在，那么匹配成功并且返回当前领域意图及其每个节点的实体参数。如果不存在，判定核心词及其每个节点的关系在该领域意图下是否存在，如果存在，匹配成功，如果有任意节点不存在，匹配意图池中下一个领域意图。

本发明根据项目语料制作收集数据集并利用分词和依存句法分析组件来解析成不同领域下的短语；根据记忆曲线动态调整词频和短语权重值；3.开发句法树的节点基本操作：包括遍历(上中下、左中右、右中左、中左右、下中上)、插入、删除、合并等；根据汉语语法填补句法树的缺失成分，将不符合语法的部分调整成标准的语句输出；根据实体库查找词性和语法关系确定语句类型(疑问、选择、否定、感叹、呼应等)，返回实体参数值、时间、地点、动作实施者，动作执行目标，领域，意图，动作执行程度(数字和单位)。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于依存句法分析和汉语语法的多轮语义分析方法，其特征在于，包括：

步骤S100：定义知识图谱实体数据，构成实体库；

步骤S430：语句标准化处理；

步骤S440：语句整理，并重新拼接新的句法树，具体包括：

步骤S441：语句整理：

当用户输入缺失定语关系的主词时，优先去短语意图搜索库中根据名词或者实体标签+定语关系搜索前N轮的句法树中是否存在主词，若存在，将名词及其子树迁移到主词之下作为其左孩子；

当用户输入含有代词时，根据指代词的词性，从用户上N轮输入语句中找到跟代词相关联的主词以及与该主词关联程度最强的名词；

步骤S442：重新拼接新的句法树：

(3)节点为其它词性：从上轮输入和该节点的父节点中找出在该领域意图下关联程度最强的节点拼接成新的句法树；

2.根据权利要求1所述的基于依存句法分析和汉语语法的多轮语义分析方法，其特征在于，所述步骤S430包括将把字句、被字句转换为动宾关系并删除介词；以及将否定句、疑问句转化为肯定句并在返回结果中标识句型。