CN112036189A - 一种金文语义识别方法和系统 - Google Patents
一种金文语义识别方法和系统 Download PDFInfo
- Publication number
- CN112036189A CN112036189A CN202010794969.6A CN202010794969A CN112036189A CN 112036189 A CN112036189 A CN 112036189A CN 202010794969 A CN202010794969 A CN 202010794969A CN 112036189 A CN112036189 A CN 112036189A
- Authority
- CN
- China
- Prior art keywords
- golden
- semantic
- text
- matrix
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 title claims description 26
- 239000010931 gold Substances 0.000 title claims description 26
- 229910052737 gold Inorganic materials 0.000 title claims description 26
- 239000013598 vector Substances 0.000 claims abstract description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000010380 label transfer Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 230000014616 translation Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 1
- 230000001364 causal effect Effects 0.000 abstract 1
- 229910000906 Bronze Inorganic materials 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 239000010974 bronze Substances 0.000 description 3
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000721047 Danaus plexippus Species 0.000 description 1
- 229910001374 Invar Inorganic materials 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明属于智能服务技术领域,涉及一种金文语义识别方法,包括以下步骤:S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;S2将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;S4根据金文语义角色标签和语义依存关系建立金文知识图谱;S5将待识别的金文带入金文知识图谱中进行识别。其全面考虑并融合金文描述内容的因果关联以及语义要素之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。
Description
技术领域
本发明涉及一种金文语义识别方法和系统,属于智能服务技术领域。
背景技术
商周是我国历史上的青铜时代,制造农具、工具、武器、生活用具和钟鼎礼器等等,象征作器者的社会地位和政治权利。青铜器上的铭文今简称为金文。金文通常记录一个事件的前因后果和相关元素,有君王事迹、政治谋划、征伐告捷、论功行赏、方国叛离、民众暴动、祭祀宴飨、誓约诉讼、奴隶和生产资料交换等等。金文承载着中华文明基因中的密码,是五千年中华文明历程中不可或缺的一环。但是,金文由于历史久远以及与现行文字差别较大,所以只有少数专家才能够识别,且金文方面的著作多以纸质书籍形式存档于大型图书馆和国家研究机构中,一般读者无法获取。
目前,互联网上虽然存在一些金文检索网站,比如“国学大师”网站下“《殷周金文集成》检索”(http://www.guoxuedashi.com/yzjwjc/)。但其只能检索出单个的金文词语,而不能结合上下文,给出整个句子的含义,且由于金文与现代文语法上也存在较大的差异,因此现代文的语义识别模型也不能很好的用于金文的语义识别,故目前还没有能够自动、准确、有针对性的对金文进行语义识别的方法。
发明内容
针对上述问题,本发明的目的是提供一种金文语义识别方法和系统,其全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。
为实现上述目的,本发明采取以下技术方案:一种金文语义识别方法,包括以下步骤:S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;S2将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;S4根据金文语义角色标签和语义依存关系建立金文知识图谱;S5将待识别的金文带入金文知识图谱中进行识别。
进一步,步骤S1中金文增强语境向量的获得方法,包括以下步骤:S1.1通过爬虫程序爬取多个HTML界面,通解析HTML界面获得金文的编号、器名和译文,对获取的金文进行预处理获得金文训练集;S1.2根据BERT模型生成初始输入矩阵X’;S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对初始输入矩阵X’进行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
其中,Q,K,V是X经过不同线性转换的输出,是K的维度用来缩放点积,Wi Q,Wi K,Wi V是Q,K,V对应的参数矩阵,Wo是多头注意力拼接后的参数矩阵,h是多头注意力的头数,T是矩阵转置;S1.4将金文训练集带入多头注意力机制中对初始输入矩阵X’进行训练,得到金文增强语境向量X。
进一步,步骤S2中金文隐向量矩阵H的获取方法为:将金文增强语境向量带入单向长短期记忆神经网络单元,将单向长短期记忆神经网络单元拓展为双向长短期记忆神经网络单元,采用下式获得当前词的隐向量:
进一步,步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定依存关系的类型,从而对金文进行语义依存关系识别。
进一步,步骤S3中对金文进行语义角色识别的方法,包括以下步骤:S3.1将金文隐向量矩阵H输入全连接神经网络,得到在每个语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵;S3.2建立语义角色标签转移矩阵,金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:
其中,表示yt-1到yt的标签转移分数,为概率矩阵,yt是某一语义角色标签,对路径分数进行归一化,获得初始语义角色标签转移矩阵;S3.3将金文训练集代入语义角色初始标签转移矩阵进行训练,将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵;S3.4将待语义角色识别的金文输入最终的标签转移矩阵,获得路径得分最高的路径序列,并对路径序列进行标注
进一步,语义角色标签包括:谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。
进一步,步骤S3中对金文进行语义依存关系识别的方法,包括以下步骤:S3.5金文隐向量矩阵H代入LSTM模型,对应待识别词xt,其隐状态为hj:
hj=LST M(ht+hh)
其中,j是时间,ht是xt对应的隐向量,hh是xt的最后一个头节点词;S3.6将隐状态hj和任一金文训练集中的金文句子代入自注意力Attention机制,计算隐状态hj对于金文句子中每个词hr的注意力系数,并归一化得到aj,计算出金文句子中的每个词的aj,其中aj的最大值对应的词与待识别词xt存在依存关系;S3.7将依存关系按照依存关系标签进行分类,输出待识别词xt的所有依存关系识别结果。
进一步,依存关系标签包括:施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。
进一步,步骤S4中建立金文知识图谱包括以下步骤:将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合,知识图谱三元组集合包括ID1、Relation和ID2;ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号,Relation表示头语义实体与尾语义实体之间的语义依存关系;将知识图谱三元组集合输入Neo4j进行可视化分析,从而生成包含金文的语义信息的金文知识图谱。
本发明还公开了一种金文语义识别系统,包括:增强语境向量生成模块,用于通过金文训练集对BERT模型进行预训练,得到金文增强语境向量;金文隐向量矩阵生成模块,用于将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;语义识别模块,用于根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;知识图谱生成模块,用于根据金文语义角色标签和语义依存关系建立金文知识图谱;输出模块,用于将待识别的金文带入金文知识图谱中进行识别。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明全面考虑并融合金文描述内容的因果关联以及相关的人、事、物、时、空等实词语义要素和彼此之间的语义依赖关系,能够通过上下文信息理解金文含义,使识别结果更加准确。
2、本发明建立新的标签依赖转移矩阵,从而提高语义角色识别准确度,获得鲁棒的金文语义角色向量。
3、本发明通过引入指针网络,对金文语义依存关系显示建模,能够更加客观准确的对金文进行识别。
4、本发明通过建立金文知识图谱可以更加形象的表示金文之间的相互关系,识别时可以更加快速的定位到相关的金文,提高了金文检索效率,也使得对金文进行上下文联合分析成为可能。
附图说明
图1是本发明一实施例的金文语义识别方法的流程图;
图2是本发明一实施例的知识图谱的局部示意图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
实施例一
本实施例公开了一种金文语义识别方法,如图1所示,包括以下步骤:
S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量。
其中金文增强语境向量的获得方法,包括以下步骤:
S1.1通过爬虫程序编写脚本实现网站,例如“国学大师”网站下“《殷周金文集成》检索”,自动提交请求,爬取多个HTML界面。获取金文的编号、器名和释文,以金文编号作为索引,保存到本地数据库或者磁盘文件。设定一个阈值,金文字数少于阈值的释文信息量太低,删除。本实施例中的阈值优选为5,对获取的金文进行预处理获得金文训练集。
S1.2根据BERT模型生成初始输入矩阵X’。
S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对初始输入矩阵X’进行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
其中,Q,K,V是X经过不同线性转换的输出,是K的维度用来缩放点积,Wi Q,Wi K,Wi V是Q,K,V对应的参数矩阵,Wo是多头注意力拼接后的参数矩阵,h是多头注意力的头数,T是矩阵转置;S1.4将金文训练集带入多头注意力机制中对初始输入矩阵X’进行训练,得到金文增强语境向量X。
S2将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H。
将金文增强语境向量带入长短期记忆神经网络单元,其中,it,ft,ot分别表示t时刻的输入门、遗忘门和输出门,从而得到隐向量输出ht,其具体过程为:
it=σ(Wixt+Uiht-1+bt)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(W0xt+U0ht-1+b0)
ht=ot*tanh(ct)
其中,是句子正向时的词xt对应的隐向量,句子逆向时单词xt对应的隐向量,f()是激活函数,是向量拼接;遍历句子中的所有词获得金文隐向量矩阵H,b是偏置向量。通过双向长短期记忆神经网络单元当前词的隐向量就同时获得了句子上下文的信息。
S3根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别。
步骤S3中建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定依存关系的类型,从而对金文进行语义依存关系识别。
步骤S3中通过对金文进行语义角色识别的方法,包括以下步骤:
S3.1将金文隐向量矩阵H输入全连接神经网络,经过一个dropout层,然后在softmax软件中进行分类,得到在每个语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵K是语义角色标签的个数,金文增强语境向量x1:T=(x1,…,xT),金文增强语境向量对应的语义标签向量为y1:T=(y1,…,yT),表示第t个词的标签是yt的概率。
S3.2建立语义角色标签转移矩阵,由于语义标签y1:T=(y1,…,yT)之间是相互独立,但实际上金文词语共现频率高,词语彼此之间存在着强烈的语义依赖性,所以需要建立语义角色标签转移矩阵来表示各词语之间的依存关系。金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:
经过归一化后的路径分数可以表示为:
其中,y′表示所有可能的语义角色标签。
S3.3将金文训练集代入语义角色初始标签转移矩阵进行训练,将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵。
其中,似然函数用下式表示:
S3.4将待语义角色识别的金文输入最终的标签转移矩阵,使用动态规划算法获得路径得分最高的路径序列,并对路径序列进行标注。
语义角色标签包括:谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。
步骤S3中对金文进行语义依存关系识别的方法,包括以下步骤:
S3.5金文隐向量矩阵H代入LSTM模型,金文增强语境向量x1:T=(x1,…,xT)中对应待识别词xt,其隐状态为hj:
hj=LSTM(ht+hh)
其中,j是时间,ht是xt对应的隐向量,hh是xt的最后一个头节点词;
S3.6将隐状态hj和任一金文训练集中的金文句子代入自注意力Attention机制,计算隐状态hj对于金文句子中每个词hr的注意力系数,并归一化得到aj,计算出金文句子中的每个词的aj,其中aj的最大值对应的词与待识别词xt存在依存关系。
aj的计算公式为:
其中,f1,f2表示两层MLP网络,U,W是对应的权重参数,J是时间步的总数,V是隐状态之间的相似度得分,b是偏置。依存关系的输出可以表示为Attach-p或者shift。Attach-p表示xp到当前中心词xt之间存在依存关系。shift表示当前中心词xt的所有可能的依存的关系识别结束,下一步转入下一个中心词xt+1。
S3.7将依存关系按照依存关系标签进行分类,输出待识别词xt的所有依存关系识别结果。
将依存关系按照依存关系标签进行分类的过程为:训练一个依存关系标签分类模型,将每对存在语义依存关系的词的语义依存关系进行分类。依存关系标签分类模型中每种语义依存关系的得分可以表示为:
依存关系标签包括:施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。
S4根据金文语义角色标签和语义依存关系建立金文知识图谱。
步骤S4中建立金文知识图谱包括以下步骤:将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合,知识图谱三元组集合包括ID1、Relation和ID2;ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号,Relation表示头语义实体与尾语义实体之间的语义依存关系;将知识图谱三元组集合输入Neo4j进行可视化分析,从而生成包含金文的语义信息的金文知识图谱,其获得的知识图谱如图2所示。
S5将待识别的金文带入金文知识图谱中进行识别。
实施例二
基于相同的发明构思,本实施例公开了一种金文语义识别系统,包括:
增强语境向量生成模块,用于通过金文训练集对BERT模型进行预训练,得到金文增强语境向量;
金文隐向量矩阵生成模块,用于将金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;
语义识别模块,用于根据金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;
知识图谱生成模块,用于根据金文语义角色标签和语义依存关系建立金文知识图谱;
输出模块,用于将待识别的金文带入金文知识图谱中进行识别。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种金文语义识别方法,其特征在于,包括以下步骤:
S1采用金文训练集对BERT模型进行预训练,得到金文增强语境向量;
S2将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;
S3根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;
S4根据金文语义角色标签和语义依存关系建立金文知识图谱;
S5将待识别的金文带入所述金文知识图谱中进行识别。
2.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S1中金文增强语境向量的获得方法,包括以下步骤:
S1.1通过爬虫程序爬取多个HTML界面,通解析所述HTML界面获得金文的编号、器名和译文,对获取的金文进行预处理获得金文训练集;
S1.2根据BERT模型生成初始输入矩阵X’;
S1.3将自注意力Attention机制拓展为多头注意力机制,并采用下式对所述初始输入矩阵X’进行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
where headi=Attention(QWi Q,KWi K,VWi V)
S1.4将所述金文训练集带入所述多头注意力机制中对所述初始输入矩阵X’进行训练,得到金文增强语境向量X。
4.如权利要求1所述的金文语义识别方法,其特征在于,所述步骤S3中通过建立语义角色标签转移矩阵对金文进行语义角色识别;通过指针网络建立金文之间的相互依存关系,并根据依存关系标签确定所述依存关系的类型,从而对金文进行语义依存关系识别。
5.如权利要求4所述的金文语义识别方法,其特征在于,所述步骤S3中对金文进行语义角色识别的方法,包括以下步骤:
S3.1将所述金文隐向量矩阵H输入全连接神经网络,得到在每个所述语义角色标签下的概率分数向量,遍历整个句子得到概率矩阵;
S3.2建立语义角色标签转移矩阵,金文增强语境向量X到语义角色标签向量Y的路径分数由下式表示:
S3.3将所述金文训练集代入所述语义角色初始标签转移矩阵进行训练,将似然函数最大的标签转移矩阵作为最终的语义角色标签转移矩阵;
S3.4将待语义角色识别的金文输入所述最终的标签转移矩阵,获得所述路径得分最高的路径序列,并对所述路径序列进行标注。
6.如权利要求5所述的金文语义识别方法,其特征在于,所述语义角色标签包括:谓词、人物、时间、辈分氏族、数词、单位、其余名称、用途、器物名、否定词、形容词、地理位置、方位、程度和虚词。
7.如权利要求4所述的金文语义识别方法,其特征在于,所述步骤S3中对金文进行语义依存关系识别的方法,包括以下步骤:
S3.5所述金文隐向量矩阵H代入LSTM模型,对应待识别词xt,其隐状态为hj:
hj=LSTM(ht+hh)
其中,j是时间,ht是xt对应的隐向量,hh是xt的最后一个头节点词;
S3.6将所述隐状态hj和任一所述金文训练集中的金文句子代入自注意力Attention机制,计算所述隐状态hj对于所述金文句子中每个词hr的注意力系数,并归一化得到aj,计算出所述金文句子中的每个词的aj,其中aj的最大值对应的词与待识别词xt存在依存关系;
S3.7将所述依存关系按照依存关系标签进行分类,输出待识别词xt的所有依存关系识别结果。
8.如权利要求7所述的金文语义识别方法,其特征在于,所述依存关系标签包括:施事者、受事者、客事、发生时间、发生地点、发生方位、方式修饰、宗族辈分修饰、数量修饰、计量单位、程度修饰、形容修饰、从属、归属、并列、否定、结果、转折和顺承。
9.如权利要求1-8任一项所述的金文语义识别方法,其特征在于,所述步骤S4中建立金文知识图谱包括以下步骤:将金文语义角色标签和语义依存关系转化为语义知识图谱三元组集合,所述知识图谱三元组集合包括ID1、Relation和ID2;ID1和ID2分别表示头语义实体和尾语义实体在词典中的有序编号,Relation表示所述头语义实体与尾语义实体之间的语义依存关系;将所述知识图谱三元组集合输入Neo4j进行可视化分析,从而生成包含金文的语义信息的金文知识图谱。
10.一种金文语义识别系统,其特征在于,包括:
增强语境向量生成模块,用于通过金文训练集对BERT模型进行预训练,得到金文增强语境向量;
金文隐向量矩阵生成模块,用于将所述金文增强语境向量带入BiLSTM模型,得到表征金文句子上下文信息的金文隐向量矩阵H;
语义识别模块,用于根据所述金文隐向量矩阵H对金文进行语义角色识别和语义依存关系识别;
知识图谱生成模块,用于根据金文语义角色标签和语义依存关系建立金文知识图谱;
输出模块,用于将待识别的金文带入所述金文知识图谱中进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794969.6A CN112036189A (zh) | 2020-08-10 | 2020-08-10 | 一种金文语义识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794969.6A CN112036189A (zh) | 2020-08-10 | 2020-08-10 | 一种金文语义识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112036189A true CN112036189A (zh) | 2020-12-04 |
Family
ID=73576932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794969.6A Pending CN112036189A (zh) | 2020-08-10 | 2020-08-10 | 一种金文语义识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036189A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN117436459A (zh) * | 2023-12-20 | 2024-01-23 | 商飞智能技术有限公司 | 一种动词加动词的语义关系识别方法和装置 |
CN117436459B (zh) * | 2023-12-20 | 2024-05-31 | 商飞智能技术有限公司 | 一种动词加动词的语义关系识别方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111274267A (zh) * | 2019-12-31 | 2020-06-12 | 杭州量之智能科技有限公司 | 一种数据库查询方法、装置及计算机可读取存储介质 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
-
2020
- 2020-08-10 CN CN202010794969.6A patent/CN112036189A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111274267A (zh) * | 2019-12-31 | 2020-06-12 | 杭州量之智能科技有限公司 | 一种数据库查询方法、装置及计算机可读取存储介质 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111444343A (zh) * | 2020-03-24 | 2020-07-24 | 昆明理工大学 | 基于知识表示的跨境民族文化文本分类方法 |
Non-Patent Citations (2)
Title |
---|
DANIEL FERN´ANDEZ-GONZ´ALEZ等: "Transition-based Semantic Dependency Parsing with Pointer Networks" * |
谢腾等: "基于 BERT-BiLSTM-CRF 模型的中文实体识别" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559713A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN112559713B (zh) * | 2020-12-24 | 2023-12-01 | 北京百度网讯科技有限公司 | 文本相关性判断方法及装置、模型、电子设备、可读介质 |
CN112765991A (zh) * | 2021-01-14 | 2021-05-07 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN112765991B (zh) * | 2021-01-14 | 2023-10-03 | 中山大学 | 一种基于知识增强的深度对话语义角色标注方法及系统 |
CN117436459A (zh) * | 2023-12-20 | 2024-01-23 | 商飞智能技术有限公司 | 一种动词加动词的语义关系识别方法和装置 |
CN117436459B (zh) * | 2023-12-20 | 2024-05-31 | 商飞智能技术有限公司 | 一种动词加动词的语义关系识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110192203A (zh) | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
KR102155739B1 (ko) | 질의응답 데이터 셋을 적응적으로 재사용하는 챗봇 서비스 제공 방법, 서버, 및 시스템 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
Kulkarni et al. | Deep learning for NLP | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
CN115630145A (zh) | 一种基于多粒度情感的对话推荐方法及系统 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
Ayyadevara | Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
Wei et al. | Sentiment classification of tourism reviews based on visual and textual multifeature fusion | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
Zhang et al. | Description-Enhanced Label Embedding Contrastive Learning for Text Classification | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN112966503A (zh) | 方面级情感分析方法 | |
AU2019101147A4 (en) | A sentimental analysis system for film review based on deep learning | |
Najeeb | Towards a deep leaning-based approach for hadith classification | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
CN116244435A (zh) | 文本情感分析模型训练方法、情感分析方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201204 |