CN112036189A

CN112036189A - 一种金文语义识别方法和系统

Info

Publication number: CN112036189A
Application number: CN202010794969.6A
Authority: CN
Inventors: 李婧; 梁循
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-12-04

Abstract

本发明属于智能服务技术领域，涉及一种金文语义识别方法，包括以下步骤：S1采用金文训练集对BERT模型进行预训练，得到金文增强语境向量；S2将金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；S4根据金文语义角色标签和语义依存关系建立金文知识图谱；S5将待识别的金文带入金文知识图谱中进行识别。其全面考虑并融合金文描述内容的因果关联以及语义要素之间的语义依赖关系，能够通过上下文信息理解金文含义，使识别结果更加准确。

Description

一种金文语义识别方法和系统

技术领域

本发明涉及一种金文语义识别方法和系统，属于智能服务技术领域。

背景技术

商周是我国历史上的青铜时代，制造农具、工具、武器、生活用具和钟鼎礼器等等，象征作器者的社会地位和政治权利。青铜器上的铭文今简称为金文。金文通常记录一个事件的前因后果和相关元素，有君王事迹、政治谋划、征伐告捷、论功行赏、方国叛离、民众暴动、祭祀宴飨、誓约诉讼、奴隶和生产资料交换等等。金文承载着中华文明基因中的密码，是五千年中华文明历程中不可或缺的一环。但是，金文由于历史久远以及与现行文字差别较大，所以只有少数专家才能够识别，且金文方面的著作多以纸质书籍形式存档于大型图书馆和国家研究机构中，一般读者无法获取。

目前，互联网上虽然存在一些金文检索网站，比如“国学大师”网站下“《殷周金文集成》检索”(http://www.guoxuedashi.com/yzjwjc/)。但其只能检索出单个的金文词语，而不能结合上下文，给出整个句子的含义，且由于金文与现代文语法上也存在较大的差异，因此现代文的语义识别模型也不能很好的用于金文的语义识别，故目前还没有能够自动、准确、有针对性的对金文进行语义识别的方法。

发明内容

针对上述问题，本发明的目的是提供一种金文语义识别方法和系统，其全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系，能够通过上下文信息理解金文含义，使识别结果更加准确。

为实现上述目的，本发明采取以下技术方案：一种金文语义识别方法，包括以下步骤：S1采用金文训练集对BERT模型进行预训练，得到金文增强语境向量；S2将金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；S4根据金文语义角色标签和语义依存关系建立金文知识图谱；S5将待识别的金文带入金文知识图谱中进行识别。

进一步，步骤S1中金文增强语境向量的获得方法，包括以下步骤：S1.1通过爬虫程序爬取多个HTML界面，通解析HTML界面获得金文的编号、器名和译文，对获取的金文进行预处理获得金文训练集；S1.2根据BERT模型生成初始输入矩阵X’；S1.3将自注意力Attention机制拓展为多头注意力机制，并采用下式对初始输入矩阵X’进行更新：

Multihead(Q,K,V)＝concat(head₁,…,head_h)W^o

其中，Q,K,V是X经过不同线性转换的输出，

是K的维度用来缩放点积，W_i ^Q,W_i ^K,W_i ^V是Q,K,V对应的参数矩阵，W^o是多头注意力拼接后的参数矩阵，h是多头注意力的头数，T是矩阵转置；S1.4将金文训练集带入多头注意力机制中对初始输入矩阵X’进行训练，得到金文增强语境向量X。

进一步，步骤S2中金文隐向量矩阵H的获取方法为：将金文增强语境向量带入单向长短期记忆神经网络单元，将单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元，采用下式获得当前词的隐向量：

其中，

是句子正向时的词x_t对应的隐向量，

句子逆向时单词x_t对应的隐向量，f()是激活函数，

是向量拼接；遍历句子中的所有词获得金文隐向量矩阵H，b是偏置向量。

进一步，步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别；通过指针网络建立金文之间的相互依存关系，并根据依存关系标签确定依存关系的类型，从而对金文进行语义依存关系识别。

进一步，步骤S3中对金文进行语义角色识别的方法，包括以下步骤：S3.1将金文隐向量矩阵H输入全连接神经网络，得到在每个语义角色标签下的概率分数向量，遍历整个句子得到概率矩阵；S3.2建立语义角色标签转移矩阵，金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示：

其中，

表示y_t-1到y_t的标签转移分数，

为概率矩阵，y_t是某一语义角色标签，对路径分数进行归一化，获得初始语义角色标签转移矩阵；S3.3将金文训练集代入语义角色初始标签转移矩阵进行训练，将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵；S3.4将待语义角色识别的金文输入最终的标签转移矩阵，获得路径得分最高的路径序列，并对路径序列进行标注

进一步，语义角色标签包括：谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。

进一步，步骤S3中对金文进行语义依存关系识别的方法，包括以下步骤：S3.5金文隐向量矩阵H代入LSTM模型，对应待识别词x_t，其隐状态为h_j：

h_j＝LST M(h_t+h_h)

其中，j是时间，h_t是x_t对应的隐向量，h_h是x_t的最后一个头节点词；S3.6将隐状态h_j和任一金文训练集中的金文句子代入自注意力Attention机制，计算隐状态h_j对于金文句子中每个词h_r的注意力系数，并归一化得到a^j，计算出金文句子中的每个词的a^j，其中a^j的最大值对应的词与待识别词x_t存在依存关系；S3.7将依存关系按照依存关系标签进行分类，输出待识别词x_t的所有依存关系识别结果。

进一步，依存关系标签包括：施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。

进一步，步骤S4中建立金文知识图谱包括以下步骤：将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合，知识图谱三元组集合包括ID1、Relation和ID2；ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号，Relation表示头语义实体与尾语义实体之间的语义依存关系；将知识图谱三元组集合输入Neo4j进行可视化分析，从而生成包含金文的语义信息的金文知识图谱。

本发明还公开了一种金文语义识别系统，包括：增强语境向量生成模块，用于通过金文训练集对BERT模型进行预训练，得到金文增强语境向量；金文隐向量矩阵生成模块，用于将金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；语义识别模块，用于根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；知识图谱生成模块，用于根据金文语义角色标签和语义依存关系建立金文知识图谱；输出模块，用于将待识别的金文带入金文知识图谱中进行识别。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系，能够通过上下文信息理解金文含义，使识别结果更加准确。

2、本发明建立新的标签依赖转移矩阵，从而提高语义角色识别准确度，获得鲁棒的金文语义角色向量。

3、本发明通过引入指针网络，对金文语义依存关系显示建模，能够更加客观准确的对金文进行识别。

4、本发明通过建立金文知识图谱可以更加形象的表示金文之间的相互关系，识别时可以更加快速的定位到相关的金文，提高了金文检索效率，也使得对金文进行上下文联合分析成为可能。

附图说明

图1是本发明一实施例的金文语义识别方法的流程图；

图2是本发明一实施例的知识图谱的局部示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种金文语义识别方法，如图1所示，包括以下步骤：

S1采用金文训练集对BERT模型进行预训练，得到金文增强语境向量。

其中金文增强语境向量的获得方法，包括以下步骤：

S1.1通过爬虫程序编写脚本实现网站，例如“国学大师”网站下“《殷周金文集成》检索”，自动提交请求，爬取多个HTML界面。获取金文的编号、器名和释文，以金文编号作为索引，保存到本地数据库或者磁盘文件。设定一个阈值，金文字数少于阈值的释文信息量太低，删除。本实施例中的阈值优选为5，对获取的金文进行预处理获得金文训练集。

S1.2根据BERT模型生成初始输入矩阵X’。

S1.3将自注意力Attention机制拓展为多头注意力机制，并采用下式对初始输入矩阵X’进行更新：

Multihead(Q,K,V)＝concat(head₁,…,head_h)W^o

其中，Q,K,V是X经过不同线性转换的输出，

S2将金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H。

将金文增强语境向量带入长短期记忆神经网络单元，其中，i_t,f_t,o_t分别表示t时刻的输入门、遗忘门和输出门，从而得到隐向量输出h_t，其具体过程为：

i_t＝σ(W_ix_t+U_ih_t-1+b_t)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W₀x_t+U₀h_t-1+b₀)

h_t＝o_t*tanh(c_t)

其中，σ()和tanh()都是激活函数，U,W分别是神经网络权重，b_t、b_f和b₀分别是i_t,f_t,o_t偏差，h是神经网络隐向量，c_t和

都是候选状态。

将单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元，拼接

和

当前词的隐状态就同时获得了句子上下文的信息，

最终得到金文隐向量表示矩阵H，采用下式获得当前词的隐向量：

其中，

是句子正向时的词x_t对应的隐向量，

句子逆向时单词x_t对应的隐向量，f()是激活函数，

是向量拼接；遍历句子中的所有词获得金文隐向量矩阵H，b是偏置向量。通过双向长短期记忆神经网络单元当前词的隐向量就同时获得了句子上下文的信息。

S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别。

步骤S3中建立语义角色标签转移矩阵对金文进行语义角色识别；通过指针网络建立金文之间的相互依存关系，并根据依存关系标签确定依存关系的类型，从而对金文进行语义依存关系识别。

步骤S3中通过对金文进行语义角色识别的方法，包括以下步骤：

S3.1将金文隐向量矩阵H输入全连接神经网络，经过一个dropout层，然后在softmax软件中进行分类，得到在每个语义角色标签下的概率分数向量，遍历整个句子得到概率矩阵

K是语义角色标签的个数，金文增强语境向量x_1:T＝(x₁,…,x_T)，金文增强语境向量对应的语义标签向量为y_1:T＝(y₁,…,y_T)，

表示第t个词的标签是y_t的概率。

S3.2建立语义角色标签转移矩阵，由于语义标签y_1:T＝(y₁,…,y_T)之间是相互独立，但实际上金文词语共现频率高，词语彼此之间存在着强烈的语义依赖性，所以需要建立语义角色标签转移矩阵来表示各词语之间的依存关系。金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示：

其中，

表示y_t-1到y_t的标签转移分数，

为概率矩阵，y_t是某一语义角色标签，对路径分数进行归一化，获得初始语义角色标签转移矩阵；整个序列的得分等于每个词的路径分数之和。

经过归一化后的路径分数可以表示为：

其中，y′表示所有可能的语义角色标签。

S3.3将金文训练集代入语义角色初始标签转移矩阵进行训练，将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵。

其中，似然函数用下式表示：

S3.4将待语义角色识别的金文输入最终的标签转移矩阵，使用动态规划算法获得路径得分最高的路径序列，并对路径序列进行标注。

语义角色标签包括：谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。

步骤S3中对金文进行语义依存关系识别的方法，包括以下步骤：

S3.5金文隐向量矩阵H代入LSTM模型，金文增强语境向量x_1:T＝(x₁,…,x_T)中对应待识别词x_t，其隐状态为h_j：

h_j＝LSTM(h_t+h_h)

其中，j是时间，h_t是x_t对应的隐向量，h_h是x_t的最后一个头节点词；

S3.6将隐状态h_j和任一金文训练集中的金文句子代入自注意力Attention机制，计算隐状态h_j对于金文句子中每个词h_r的注意力系数，并归一化得到a^j，计算出金文句子中的每个词的a^j，其中a^j的最大值对应的词与待识别词x_t存在依存关系。

a^j的计算公式为：

其中，f₁,f₂表示两层MLP网络，U,W是对应的权重参数，J是时间步的总数，V是隐状态之间的相似度得分，b是偏置。依存关系的输出可以表示为Attach-p或者shift。Attach-p表示x_p到当前中心词x_t之间存在依存关系。shift表示当前中心词x_t的所有可能的依存的关系识别结束，下一步转入下一个中心词x_t+1。

S3.7将依存关系按照依存关系标签进行分类，输出待识别词x_t的所有依存关系识别结果。

将依存关系按照依存关系标签进行分类的过程为：训练一个依存关系标签分类模型，将每对存在语义依存关系的词的语义依存关系进行分类。依存关系标签分类模型中每种语义依存关系的得分可以表示为：

其中，

表示j(对应输入句子中的词x_t)和p(对应输入句子中的词x_p)之间的语义依存关系标签是l的得分，g₁,g₂表示另外两层MLP网络。

依存关系标签包括：施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。

S4根据金文语义角色标签和语义依存关系建立金文知识图谱。

步骤S4中建立金文知识图谱包括以下步骤：将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合，知识图谱三元组集合包括ID1、Relation和ID2；ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号，Relation表示头语义实体与尾语义实体之间的语义依存关系；将知识图谱三元组集合输入Neo4j进行可视化分析，从而生成包含金文的语义信息的金文知识图谱，其获得的知识图谱如图2所示。

S5将待识别的金文带入金文知识图谱中进行识别。

实施例二

基于相同的发明构思，本实施例公开了一种金文语义识别系统，包括：

增强语境向量生成模块，用于通过金文训练集对BERT模型进行预训练，得到金文增强语境向量；

金文隐向量矩阵生成模块，用于将金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；

语义识别模块，用于根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；

知识图谱生成模块，用于根据金文语义角色标签和语义依存关系建立金文知识图谱；

输出模块，用于将待识别的金文带入金文知识图谱中进行识别。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种金文语义识别方法，其特征在于，包括以下步骤：

S1采用金文训练集对BERT模型进行预训练，得到金文增强语境向量；

S2将所述金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；

S3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；

S4根据金文语义角色标签和语义依存关系建立金文知识图谱；

S5将待识别的金文带入所述金文知识图谱中进行识别。

2.如权利要求1所述的金文语义识别方法，其特征在于，所述步骤S1中金文增强语境向量的获得方法，包括以下步骤：

S1.1通过爬虫程序爬取多个HTML界面，通解析所述HTML界面获得金文的编号、器名和译文，对获取的金文进行预处理获得金文训练集；

S1.2根据BERT模型生成初始输入矩阵X’；

S1.3将自注意力Attention机制拓展为多头注意力机制，并采用下式对所述初始输入矩阵X’进行更新：

Multihead(Q,K,V)＝concat(head₁,…,head_h)W^o

where head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，Q,K,V是X经过不同线性转换的输出，

是K的维度用来缩放点积，W_i ^Q,W_i ^K,W_i ^V是Q,K,V对应的参数矩阵，W^o是多头注意力拼接后的参数矩阵，h是多头注意力的头数，T是矩阵转置；

S1.4将所述金文训练集带入所述多头注意力机制中对所述初始输入矩阵X’进行训练，得到金文增强语境向量X。

3.如权利要求1所述的金文语义识别方法，其特征在于，所述步骤S2中金文隐向量矩阵H的获取方法为：

将所述金文增强语境向量带入单向长短期记忆神经网络单元，将所述单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元，采用下式获得当前词的隐向量：

其中，

是句子正向时的词x_t对应的隐向量，

句子逆向时单词x_t对应的隐向量，f()是激活函数，

4.如权利要求1所述的金文语义识别方法，其特征在于，所述步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别；通过指针网络建立金文之间的相互依存关系，并根据依存关系标签确定所述依存关系的类型，从而对金文进行语义依存关系识别。

5.如权利要求4所述的金文语义识别方法，其特征在于，所述步骤S3中对金文进行语义角色识别的方法，包括以下步骤：

S3.1将所述金文隐向量矩阵H输入全连接神经网络，得到在每个所述语义角色标签下的概率分数向量，遍历整个句子得到概率矩阵；

S3.2建立语义角色标签转移矩阵，金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示：

其中，

表示y_t-1到y_t的标签转移分数，

为概率矩阵，y_t是某一语义角色标签，对所述路径分数进行归一化，获得初始语义角色标签转移矩阵；

S3.3将所述金文训练集代入所述语义角色初始标签转移矩阵进行训练，将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵；

S3.4将待语义角色识别的金文输入所述最终的标签转移矩阵，获得所述路径得分最高的路径序列，并对所述路径序列进行标注。

6.如权利要求5所述的金文语义识别方法，其特征在于，所述语义角色标签包括：谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。

7.如权利要求4所述的金文语义识别方法，其特征在于，所述步骤S3中对金文进行语义依存关系识别的方法，包括以下步骤：

S3.5所述金文隐向量矩阵H代入LSTM模型，对应待识别词x_t，其隐状态为h_j：

h_j＝LSTM(h_t+h_h)

S3.6将所述隐状态h_j和任一所述金文训练集中的金文句子代入自注意力Attention机制，计算所述隐状态h_j对于所述金文句子中每个词h_r的注意力系数，并归一化得到a^j，计算出所述金文句子中的每个词的a^j，其中a^j的最大值对应的词与待识别词x_t存在依存关系；

S3.7将所述依存关系按照依存关系标签进行分类，输出待识别词x_t的所有依存关系识别结果。

8.如权利要求7所述的金文语义识别方法，其特征在于，所述依存关系标签包括：施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。

9.如权利要求1-8任一项所述的金文语义识别方法，其特征在于，所述步骤S4中建立金文知识图谱包括以下步骤：将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合，所述知识图谱三元组集合包括ID1、Relation和ID2；ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号，Relation表示所述头语义实体与尾语义实体之间的语义依存关系；将所述知识图谱三元组集合输入Neo4j进行可视化分析，从而生成包含金文的语义信息的金文知识图谱。

10.一种金文语义识别系统，其特征在于，包括：

金文隐向量矩阵生成模块，用于将所述金文增强语境向量带入BiLSTM模型，得到表征金文句子上下文信息的金文隐向量矩阵H；

语义识别模块，用于根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别；

输出模块，用于将待识别的金文带入所述金文知识图谱中进行识别。