CN111401073A

CN111401073A - 一种基于语义解析的时间表达式标准化方法

Info

Publication number: CN111401073A
Application number: CN202010155372.7A
Authority: CN
Inventors: 高冠吉; 丁文韬; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-10
Anticipated expiration: 2040-03-09
Also published as: CN111401073B

Abstract

本发明公开了一种基于语义解析的时间表达式标准化方法。该方法为：首先构建时间表达式中的语义项，包括语义计算函数和语义值；然后使用训练集标注的时间表达式标准化值和其基准时间值，穷举其所有可能的语义组合；接着将时间表达式语义项分配问题建模为整数规划问题，通过优化算法完成底层语义项的自动分配；最后使用启发式规则自动组合语义项，解析待标准化的时间表达式语义，得到其标准化值。本发明无需手工分配与组合底层语义项，减少了人力成本，提高了时间表达式标准化的灵活性和泛化能力。

Description

一种基于语义解析的时间表达式标准化方法

技术领域

本发明涉及自然语言处理技术领域，特别是一种基于语义解析的时间表达式标准化方法。

背景技术

随着自然语言处理尤其是自然语言理解领域的飞速发展，理解自然语言中的时间表达式变得越来越重要。能够正确有效地理解时间表达式的含义，对阅读理解、问答系统等下游任务的结果都有着很大的提升。为了系统性地研究时间表达式，人们将研究任务分为时间表达式规范制定和对规范的时间表达式的识别与标准化两个方面。

在时间表达式理解需求的推动下，TIMEX3规范应运而生，它公开发表在评测任务SemEval-2013的第一项任务TempEval-3中。该规范继承并扩展了国际标准化组织的国际标准ISO 8601(全称为《数据存储和交换形式·信息交换·日期和时间的表示方法》)以及原有的TIMEX2规范，规定了时间表达式及其标准化值的标注标准。在此规范下，理解时间表达式的问题转化成了求该时间表达式的标准化值的问题，便于理解的同时也方便了运算，如“1 January 2020”所对应的标准化值是“2020-01-01”，以此时间为基准时间的表达式“next month”对应的标准化值则是“2020-02”。

目前，在时间表达式标准化方面已有许多优秀的工作，主要方法分为基于规则的和基于语义解析的两类。斯坦福大学自然语言处理小组发布的SUTime，在标准化工作上采用的是手工定制规则的方法，虽然规则繁琐耗费人力，但准确率较高；华盛顿大学发布的UWTime则是基于组合范畴文法的语义解析方法，它通过定义底层语义，利用机器学习训练上下文相关的语义解析器，同样取得了不错的效果。而由于中文时间表达式缺少具体的规范定义，许多标准化工作都在探索阶段。专利1(一种面向知识图谱构建的文本时间抽取与规范方法，公开号CN108304523A)公开的面向知识图谱构建的文本时间抽取与规范方法，利用时间基元构建模板库，并使用启发式策略对其进行标准化。专利2(口语化时间标准化控制方法、装置、计算机设备及存储介质，公开号CN109800338A)公开的口语化时间标准化控制方法，先对口语化的时间表达式进行停用词去除，再使用定义好的模板通过正则表达式提取相应槽值，从而完成标准化过程。

总的来说，现有的各种时间表达式标准化方法中，都需要一些底层语义或规则的手工分配与组合。因此，如何自动地分配语义、组合语义，从而减少人工成本，提高准确率，成为时间表达式标准化过程中亟需解决的问题。

发明内容

本发明的目的在于提供一种能够自动分配语义项、组合语义项、人工成本低、准确率高的基于语义解析的时间表达式标准化方法。

实现本发明目的的技术解决方案为：一种基于语义解析的时间表达式标准化方法，包括以下步骤：

步骤1、构建时间表达式中的语义项，包括语义计算函数和语义值；

步骤2、使用训练集标注的时间表达式标准化值和基准时间值，穷举所有可能的语义组合；

步骤3、将时间表达式语义项分配问题建模为整数规划问题，通过优化法完成底层语义项的自动分配；

步骤4、使用启发式规则自动组合语义项，解析待标准化的时间表达式语义，得到标准化值。

本发明与现有技术相比，其显著优点在于：(1)时间表达式标准化过程中能够自动分配语义项、组合语义项，为时间表达式标准化过程提供了语义基础；(2)减少人力的同时也提高了时间表达式标准化的效率，人工成本低、准确率高，能够处理更多的时间表达式。

附图说明

图1为本发明基于语义解析的时间表达式标准化方法的流程框图。

图2为本发明实施例中语义项自动分配的流程示意图。

图3为本发明实施例中语义项自动组合的流程示意图。

具体实施方式

本发明基于语义解析的时间表达式标准化方法，包括以下步骤：

进一步地，步骤1所述的构建时间表达式中的语义项，包括语义计算函数和语义值，具体如下：

按照TIMEX3时间表达式规范，构建时间表达式中需要用到的语义项，包括语义计算函数和语义值，即对时间值的修改、增减、继承操作，以及所述操作的参数值，通过在已有语义项的基础上进行修改或增加得到。

进一步地，步骤2所述的使用训练集标注的时间表达式标准化值和基准时间值，穷举所有可能的语义组合，具体如下：

根据训练集中时间表达式的标准化值和基准时间值，计算出该标准化值所使用的表达式语义和基准时间值。

进一步地，步骤3所述的将时间表达式语义项分配问题建模为整数规划问题，通过优化法完成底层语义项的自动分配，具体如下：

步骤3.1、训练集中包括时间表达式里所有单词构成的词表T、原子的语义项集合S和时间表达式集合E，计算T到S的映射A，如果一个时间表达式在映射A下可满足，则该时间表达式内部单词所对应的语义项组合的一个表达式语义能够得到标准化值，即：

其中e为一个时间表达式；M为底层语义项可组合成的所有表达式语义集；m_k为一个可组合成的表达式语义；SAT(e,A)即为e是否在映射A下可满足；SAT(e,m_k,A)即为e的一个可组合成的表达式语义m_k在映射下可满足；

当且仅当表达式语义m_k能被该时间表达式内部词分配的语义项组合得到时，表达式语义m_k能得到标准化值，即：

其中s_ki为表达式语义m_k的一个原子语义项；t_j为该时间表达式内部的单词；公式的含义为，对所有原子语义项s_ki，都存A在一个t_j在A中映射得到；

步骤3.2、加入全局惩罚项，防止原子语义项分配给不属于它的单词：

其中M₀为底层语义组合成可得到标准化值的表达式语义集；

为统计该时间表达式e内部所有单词对应的语义项s不出现在表达式语义m_k中的次数；Penalty(e,A)即为e在映射A上的惩罚项；

步骤3.3、加入正则项，即原子语义项被分配的总次数||A||₁，则最终的目标函数即为最大化可满足的时间表达式数量，同时减小惩罚项和正则项，即：

其中α、β为经验参数；

步骤3.4、建模完成后，求解得到的最优化映射A即为语义项分配结果，将语义项分配结果输出到底层语义项文件。

进一步地，步骤4所述的使用启发式规则自动组合语义项，解析待标准化的时间表达式语义，得到标准化值，具体如下：

步骤4.1、判断时间表达式类型；

步骤4.2、根据时间表达式类型增减相关语义计算函数；

步骤4.3、使用启发式规则进行语义计算函数的自动填参；

步骤4.4、判断语义计算函数填参是否完整且语义值均被填入，若是，则进入步骤4.5；若否，则更换底层语义项重新组合并返回步骤4.2；

步骤4.5、解析表达式语义并输出标准化值。

进一步地，步骤4.1所述时间表达式类型，按照TIMEX3规范，时间表达式被分为4类：日期型、时间型、时间段型和重复区间型。

进一步地，步骤4.2所述根据时间表达式类型增减相关语义计算函数，具体为：

首先删除非法的语义计算函数，删除之后若出现缺失语义计算函数的情况，再根据类型增加缺省语义计算函数。

进一步地，步骤4.3所述使用启发式规则进行语义计算函数的自动填参，具体如下：

对于每个需要填参的语义计算函数，按就近原则往两边寻找可以填充的同类型的语义值，若找到则互相组合，每个语义值只能被使用一次。

下面结合附图和具体实施例对本发明做进一步的详细说明。

实施例

结合图1，本发明一种基于语义解析的时间表达式标准化方法，首先根据时间表达式规范设计一套相关语义项，用于之后的语义项分配以及语义项组合；然后利用训练集的时间表达式标准化值和其基准时间，穷举所有可能的语义组合并建模成整数规划问题进行求解，生成底层语义结果；最后将得到的底层语义结果运用到测试集的时间表达式上，并通过语义项的自动组合得到完整的表达式语义，解析出最终的标准化值，具体包括以下步骤：

步骤1、设计时间表达式中的语义项，包括语义计算函数和语义值，具体如下：

按照TIMEX3时间表达式规范设计需要用到的语义项，包括语义计算函数和语义值，即对时间值的修改、增减、继承操作和操作的参数值。表1和表2展示了本发明所用到的部分主要语义计算函数和语义值，可根据具体需要对其进行增加或修正。

表1语义计算函数

表2语义值

作为一种具体示例，语义值的TIME_CONSTANT类型，可以与Modify语义计算函数结合扩展成一个完整的表达式语义。如一月Modify(January)可以扩展为完整的Modify(1,Month,Year)，即将该年下的月份值设置为1，此处简写仅为后续处理方便。

步骤2、使用训练集标注的时间表达式标准化值和其基准时间值，穷举其所有可能的语义组合，结合图2，具体如下：

根据训练集中时间表达式的标准化值和其基准时间值，计算出该标准化值所使用的表达式语义和基准时间值，如基准时间为2020-01-01，时间表达式“next February”的标准化值为2021-02，那么通过所有粒度的逐个比对，可以计算出可能的表达式语义为Modify(2021,Year,None)+Modify(2,Month,Year)，即先将年设置为2021，再将月设置为2；又或者可能的表达式语义为Offset(1,Year,Future)+Modify(2,Month,Year)，即先加一年，再将月设置为2。

步骤3、将时间表达式语义项分配问题建模为整数规划问题，通过优化法完成底层语义项的自动分配，具体如下：

步骤3.1、训练集中包括时间表达式里所有单词构成的词表T、原子的语义项集合S和时间表达式集合E，要得到语义项的分配，也就是求一个T到S的映射A。如果一个时间表达式在映射A下可满足，则该时间表达式内部单词所对应的语义项组合的一个表达式语义可以得到标准化值，即：

而当且仅当表达式语义m_k能被该时间表达式内部词分配的语义项组合得到时，表达式语义m_k能得到标准化值，也即：

其中s_ki为表达式语义m_k的一个原子语义项，如一个语义值或一个语义计算函数等；t_j为该时间表达式内部的单词；公式的含义为，对所有原子语义项s_ki，都存A在一个t_j在A中映射得到；

完成底层语义项的自动分配后，得到标准化值的每一个原子语义项，都能够时间表达式内部的单词上得以体现；

步骤3.2、如果仅有上面的约束，语义项会倾向于过量地分配，导致每个单词有很多不属于自己的语义项，因此加入全局惩罚项，防止过多的原子语义项分配给不属于它的单词：

其中M₀为底层语义组合成可得到标准化值的表达式语义集，对不出现在表达式语义中的原子语义项进行惩罚；

步骤3.3、加入正则项，即原子语义项被分配的总次数：||A||₁，则最终的目标函数就是最大化可满足的时间表达式数量，同时减小惩罚项和正则项，即：

其中α、β为经验参数，能够自行调整；

步骤3.4、建模完成后，求解得到的最优化映射A即为语义项分配结果，输出到底层语义项文件供下部分使用。

步骤4、使用启发式规则自动组合语义项，解析待标准化的时间表达式语义，得到其标准化值，如图3所示，具体如下：

此步骤中以时间表达式“2 years ago”为具体实施例来说明该步骤的具体实施方式。

步骤4.1、判断时间表达式类型。按照TIMEX3规范，时间表达式被分为4类：日期型、时间型、时间段型和重复区间型，各个类型的语义计算函数不尽相同，如时间段型时间表达式不会采用Modify和Offset语义计算函数。本发明使用支持向量机(SVM)来进行类型的划分学习。对于具体实施例“2 years ago”，步骤4.1判断出其属于日期型时间表达式。

步骤4.2、根据时间表达式类型删除非法语义计算函数，增加缺省语义计算函数。由于不同类型的时间表达式会有不同的语义计算函数，因此首先删除非法的语义计算函数，删除之后若出现缺失语义计算函数的情况，再根据类型增加缺省语义计算函数，如时间段型时间表达式的缺省语义计算函数为Period。对于具体实施例“2 years ago”，各个单词“2”“years”“ago”对应的语义项分别为“2”“Year”“Offset(*,*,Past)”，其中“Offset(*,*,Past)”的“*”表示待填参，分别需要填入类型为NUMBER和TIME_UNIT的语义项。因为步骤4.1判断其为日期型时间表达式，故步骤4.2不用删除其合法的语义计算函数Offset，也无需再增添缺省的语义计算函数。

步骤4.3、使用启发式规则进行语义计算函数的自动填参。为了让各个原子语义项得以组合，使用启发式规则进行语义值填参，对于每个需要填参的语义计算函数，按就近原则往两边寻找可以填充的同类型的语义值，若找到则互相组合。每个语义值只能被使用一次。对于具体实施例“2 years ago”，由步骤4.2得到3个语义项，包括1个语义计算函数“Offset(*,*,Past)”和2个语义值“2”“Year”。语义计算函数Offset的第一个待填参数类型为NUMBER，即数字值，在所有语义值中按就近原则寻找到“2”符合参数类型要求，故相互组合形成“Offset(2,*,Past)”；语义计算函数Offset的第二个待填参数类型为TIME_UNIT，即时间单位，在剩下的所有语义值中按就近原则寻找到“Year”符合参数类型要求，故相互组合形成“Offset(2,Year,Past)”。此时已无待填参数，步骤4.3结束。

步骤4.4、判断语义计算函数填参是否完整且语义值均被填入，若是，则进入步骤4.5；若否，则无法完成语义项组合并形成有效表达式语义，更换底层语义项并返回步骤4.2重新尝试。对于具体实施例“2 years ago”，步骤4.3得到的表达式语义为Offset(2,Year,Past)，可以看到，语义计算函数Offset已填参完整，且语义值“2”“Year”均被填入语义计算函数，故进入步骤4.5。

步骤4.5、解析表达式语义并输出标准化值。将组合好的表达式语义按定义进行解析，并输出解析后的结果作为该时间表达式的标准化值。对于具体实施例“2 years ago”，步骤4.4得到的表达式语义为Offset(2,Year,Past)，即在基准时间之上向过去偏移2个年的时间单位，若以“2020-01-01”为基准时间，此表达式语义的解析结果为“2018”，准确无误地解析了具体实施例“2 years ago”的标准化值。

Claims

1.一种基于语义解析的时间表达式标准化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤1所述的构建时间表达式中的语义项，包括语义计算函数和语义值，具体如下：

3.根据权利要求1所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤2所述的使用训练集标注的时间表达式标准化值和基准时间值，穷举所有可能的语义组合，具体如下：

4.根据权利要求1所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤3所述的将时间表达式语义项分配问题建模为整数规划问题，通过优化法完成底层语义项的自动分配，具体如下：

其中M₀为底层语义组合成可得到标准化值的表达式语义集；

其中α、β为经验参数；

5.根据权利要求1所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤4所述的使用启发式规则自动组合语义项，解析待标准化的时间表达式语义，得到标准化值，具体如下：

步骤4.1、判断时间表达式类型；

步骤4.2、根据时间表达式类型增减相关语义计算函数；

步骤4.3、使用启发式规则进行语义计算函数的自动填参；

步骤4.5、解析表达式语义并输出标准化值。

6.根据权利要求5所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤4.1所述时间表达式类型，按照TIMEX3规范，时间表达式被分为4类：日期型、时间型、时间段型和重复区间型。

7.根据权利要求5所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤4.2所述根据时间表达式类型增减相关语义计算函数，具体为：

8.根据权利要求5所述的基于语义解析的时间表达式标准化方法，其特征在于，步骤4.3所述使用启发式规则进行语义计算函数的自动填参，具体如下：