CN114004236B - 融入事件实体知识的汉越跨语言新闻事件检索方法 - Google Patents
融入事件实体知识的汉越跨语言新闻事件检索方法 Download PDFInfo
- Publication number
- CN114004236B CN114004236B CN202111098443.5A CN202111098443A CN114004236B CN 114004236 B CN114004236 B CN 114004236B CN 202111098443 A CN202111098443 A CN 202111098443A CN 114004236 B CN114004236 B CN 114004236B
- Authority
- CN
- China
- Prior art keywords
- event
- query sentence
- entity
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 55
- 230000003993 interaction Effects 0.000 claims description 38
- 238000013519 translation Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及融入事件实体知识的汉越跨语言新闻事件检索方法,属于自然语言处理技术领域。本发明首先将汉语查询句翻译为越南语查询句,之后识别出候选文档中的事件触发词,并基于触发词对文档划分事件范围;然后识别查询句中的事件触发词并使用事件实体识别方法识别出事件范围和查询句中的事件实体;最后基于知识图谱和触发词得到事件实体的知识表示,将事件实体知识融入基于交互的排序学习算法中对候选文档进行排序。在汉越双语新闻数据集上的实验结果表明,本发明提出的融入事件实体知识的汉越跨语言新闻事件检索方法的NDCG和MAP均高于主流的汉越跨语言新闻事件检索方法,具有良好的检索效果。
Description
技术领域
本发明涉及融入事件实体知识的汉越跨语言新闻事件检索方法,属于自然语言处理技术领域。
背景技术
汉越跨语言新闻事件检索的任务是用户将包含事件信息的汉语查询句输入检索系统之后,检索系统给用户返回一系列与查询句中事件信息相关的越南语新闻文档。
目前主流的跨语言信息检索系统采用查询翻译方法,文档翻译方法或中间语言翻译方法。其中,查询翻译方法是首先将查询句翻译成候选文档所使用语言下的查询句,然后使用翻译后的查询句对候选文档进行检索排序。该方法因为只翻译查询句,翻译难度较低且正确率高,所以在跨语言信息检索任务中最常使用。因此本发明使用查询翻译方法,先将汉语查询句翻译为越南语查询句,再利用检索模型对越南语文档进行检索排序。
目前主流的检索模型有基于特征的检索模型和基于神经网络的检索模型。基于神经网络的检索模型可以分为基于表示的检索模型和基于交互的检索模型。
基于特征的检索模型由于依赖于人工寻找特征且找到的特征数量有限,导致模型参数量较少,使得模型泛化能力降低,因此相较于基于神经网络的检索模型在检索任务上表现较差。但是在融合实体语义信息后模型性能会得到较大提升,这类基于特征的检索模型包括利用实体标注进行文本表示的检索模型,多排序特征的检索模型,基于查询句与文档间实体连接的检索模型和基于知识图谱实现查询句和文档软匹配的检索模型。此类检索方法均是通过融合实体语义信息来提高模型的检索性能。
基于表示的检索模型是在初始阶段对查询句与文档各自单独进行处理,然后使用神经网络对其分别编码,得到各自的文本表征并进行相似度计算,最后将文本表征的相似度作为查询和文档的相似度得分,根据相似度得分对文档进行排序。但是这种基于表示的检索方法在模型的最后阶段才会基于文本表征计算查询与文档间的相似度,模型的效果过于依赖文本表征的质量好坏,并且会丢失对模型效果有正向作用的句法和词法等基础的文本特征,最终导致模型性能不佳。基于交互的检索模型摒弃了基于表示的检索模型的先计算各自文本表征而后求相似度的思路,而是在模型开始阶段就计算了查询句与文档之间的词级别的语义相似度并将其作为基础的交互特征,在交互特征基础上,进一步抽取层次交互特征,得到查询句与文档交互固定维度的表示,最后通过计算相似度对文档进行打分排序。由于基于交互的检索模型尽可能早的将查询句和文档进行了交互,捕获到了查询句与文档之间相对更基础的特征,使得模型效果相较于基于表示的检索模型提升显著。
综上所述,在基于特征的检索模型融合实体语义信息之后,便可以利用实体语义来提升模型排序的性能。基于交互的检索模型利用神经网络和词级交互信息学习相对复杂的排序模型,其在开放域的检索任务上的性能优于基于特征的检索模型和基于表示的检索模型。但在汉越跨语言新闻事件检索任务上,包含事件描述的候选文档中含有大量新闻事件领域内特有的事件实体。例如,人名,地名,组织机构名和特定政治概念名等事件实体。事件实体的语义信息能否融入基于交互的检索模型中来提高汉越跨语言新闻事件检索模型排序的性能尚不明确。并且在事件检索任务中,一篇候选文档中可能包含多个事件,其会干扰事件查询句和包含该事件信息的候选文档匹配的性能。例如越南语候选文档中的事件描述:
该描述中包含三种不同的事件,分别为:/> 中文解释为:“Tedros发表新年演讲”;/> 中文解释为:“政府必须增加公共卫生预算”;/> 中文解释为:“资助所有人获得XX疫苗”。假定用户对“Tedros发表新年演讲”这一事件感兴趣,用户输入的查询句可能是/> 在查询句与候选文档进行排序匹配时,其余的两种事件会增加噪声,扩大匹配的事件范围,降低查询句与候选文档匹配的准确度,影响检索模型的性能。
针对于一篇候选文档中可能包含多个事件的问题,为了能在候选文档中准确的找到与查询句中提及的事件相关的事件范围,考虑到候选文档中的每个事件均有相应的事件触发词,在事件查询句中也有事件触发词的情况下,可以将事件触发词作为分类不同事件的依据。例如“Tedros发表新年演讲”事件中的触发词为本发明使用PredPatt,它是一种针对于语义角色标注任务的无监督标注方法,使用PredPatt来识别出新闻事件中的事件触发词,然后基于识别出的事件触发词在候选文档中定义与查询句中提及的事件相关的文档事件范围。
针对是否能够将事件实体的语义信息融入基于交互的检索模型中来提高汉越跨语言新闻事件检索模型性能的问题,本发明探索了在使用基于交互的检索模型进行事件检索过程中事件实体充当的角色,提出一个融入事件实体知识的基于交互的汉越跨语言新闻事件检索方法。
发明内容
本发明提供了融入事件实体知识的汉越跨语言新闻事件检索方法,用于解决现有汉越跨语言新闻事件检索中未融入新闻领域内的事件实体知识导致了检索的性能较低的问题。
本发明的技术方案是:融入事件实体知识的汉越跨语言新闻事件检索方法,所述融入事件实体知识的汉越跨语言新闻事件检索方法的具体步骤如下:
首先将汉语查询句翻译为越南语查询句,之后识别出候选文档中的事件触发词,并基于触发词对文档划分事件范围;然后识别查询句中的事件触发词并使用事件实体识别方法识别出事件范围和查询句中的事件实体;最后基于知识图谱和触发词得到事件实体的知识表示,将事件实体知识融入基于交互的排序学习算法中对候选文档进行排序。
作为本发明的进一步方案,所述融入事件实体知识的汉越跨语言新闻事件检索方法的具体步骤如下:
Step1、首先利用Google在线翻译软件将汉语查询句翻译为越南语查询句。使用PredPatt识别出翻译后的查询句与越南语文档中的事件触发词,基于文档中识别出的的事件触发词对文档划分事件范围;
Step2、然后使用融合词典与对抗迁移的越南语事件实体识别方法识别出查询句与文档事件范围中的事件实体,进而基于ConceptNet多语言知识图谱和Step1中识别出的事件触发词对事件实体的语义进行扩充,从而得到事件实体最终的语义表示;
Step3、最后使用基于交互的检索模型Conv-KNRM提取排序特征,根据排序特征计算越南语查询句与越南语候选文档最终的排序得分,从而完成汉越跨语言新闻事件检索的任务。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、分别利用通过现有的翻译工具将汉语事件查询句Q翻译为越南语事件查询句q;
Step1.2、将对于每个文档d,使用PredPatt识别出d中所有的事件触发词假定其中一个触发词/>的位置为l,窗口大小为p,则取l-p至l+p范围内的词作为该触发词在文档中的事件范围Di;计算出所有触发词对应的事件范围之后,文档d看成f个事件范围的集合,即d={D1,D2,...,Df}。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、通过越南语事件实体识别方法识别出查询句q与文档事件范围D中的事件实体词向量
Step2.2、通过识别出的事件实体在多语言知识图谱ConceptNet中找到其对应的实体类型词向量和实体描述词向量/>通过PredPatt识别出查询句或文档事件范围中的事件触发词,得到事件触发词词向量/>最后通过线性层将/> 和/>这四种词向量融合在一起后得到事件实体最终的语义表示。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、使用交互矩阵M={Mww,Mwe,Mew,Mee}来衡量查询词或查询实体与文档词或文档实体之间的相似程度,交互矩阵M={Mww,Mwe,Mew,Mee}插入到Conv-KNRM这一基于交互的检索模型中,在Conv-KNRM从M={Mww,Mwe,Mew,Mee}中提取到排序特征φ(Mww),φ(Mwe),φ(Mew)和φ(Mee)之后,将这四种排序特征拼接成最终的排序特征Φ(M);
Step3.2、在得到最终排序特征Φ(M)的基础上,利用排序学习得到查询句与事件范围最终的排序得分;对于查询句q和文档d来说,取q与D1,D2,...,Df中最大的排序得分作为q与d最终的排序得分f(q,d),事件范围为Di,最后根据查询句与不同候选文档的排序得分由高到低对越南语候选文档进行排序。
本发明的有益效果是:
本发明首先对汉语查询句进行翻译,随后利用无监督标注方法识别出查询句与候选文档中的事件触发词并对候选文档划分事件范围,然后利用事件实体,事件触发词和多语言知识图谱获得查询句与事件范围中事件实体的语义知识表示,最后使用基于交互的检索排序模型在融合事件实体的语义知识表示的基础上对查询句和文档进行匹配排序。最终使得模型融入了事件实体及其相关知识,提升了模型的排序效果,本发明的NDCG和MAP均高于主流的汉越跨语言新闻事件检索方法,具有良好的检索效果。
附图说明
图1为本发明中的总的模型结构图。
具体实施方式
如图1所示,融入事件实体知识的汉越跨语言新闻事件检索方法,所述融入事件实体知识的汉越跨语言新闻事件检索方法的具体步骤如下:
Step1、利用现有的翻译工具将汉语查询句翻译为越南语查询句。然后识别出翻译后的查询句与越南语文档中的事件触发词,并基于文档中的事件触发词对文档划分事件范围。
汉越跨语言新闻事件检索首先面临的问题是汉越之间存在的语言隔阂对检索造成的阻碍作用。目前在跨语言新闻事件检索研究中最常使用的解决方法是查询翻译方法,即先使用现有的翻译工具将事件查询句的语言翻译为候选新闻文档所用语言,然后使用翻译后的事件查询句进行事件检索。因此,本发明通过现有的翻译工具将汉语事件查询句Q翻译为越南语事件查询句q。
因为单个候选新闻文档中包含多个事件,若将整个文档与事件查询句进行匹配,会产生较大的匹配误差。因此对于每个文档d,使用PredPatt识别出d中所有的事件触发词假定其中一个触发词/>的位置为l,窗口大小为p,则取l-p至l+p范围内的词作为该触发词在文档中的事件范围Di。计算出所有触发词对应的事件范围之后,文档d可以看成f个事件范围的集合,即d={D1,D2,...,Df};
Step2、本发明通过越南语事件实体识别方法识别出查询句q与文档事件范围D中的事件实体,融入事件实体本身的语义信息。并且通过识别出的事件实体在多语言知识图谱ConceptNet中找到其对应的实体类型和实体描述,融入实体类型与描述的语义信息。因为事件触发词位于两个实体之间,连接两个事件实体,可以表征事件实体之间的关系。因此使用PredPatt识别出查询句与文档事件范围中的事件触发词,并融入事件触发词本身的语义信息。最终,事件实体的语义表示包含四种大小为L维度的词嵌入:实体词嵌入,实体描述词嵌入,实体类型词嵌入和触发词嵌入。
实体词嵌入:将实体词e通过词嵌入层Embe得到大小为L维的实体词词向量公式如下所示:
实体描述词嵌入:通过ConceptNet找到实体词e对应的包含m个词的实体描述。首先将描述中的每一个词w通过词嵌入层Embw得到大小为L维的词向量将m个词向量视作一个整体向量矩阵/>然后将/>通过卷积操作得到代表长度为h的n-gram向量/>
其中,WCNN与是卷积核的两个参数。
将卷积后的结果通过最大池化层得到实体描述词向量计算公式如下所示:
实体类型词嵌入:通过ConceptNet发现实体词e隶属于n种实体类型,表示为Fe={f1,...,fj,...,fn}。首先将实体词e通过实体类型嵌入层Embtp得到fj的向量表示
然后使用注意力机制将n种实体类型融合为一个实体类型词向量计算公式如下所示:
其中,aj为注意力分数,aj的计算过程如下所示:
其中,Pj是查询或文档事件范围向量表示与fj实体类型向量表示的点积。利用词袋模型对查询句或文档事件范围进行编码,Wbow是一个参数矩阵。
触发词嵌入:通过PredPatt识别出查询句或文档事件范围中的事件触发词ttrg,将ttrg通过词嵌入层Embtrg得到大小为L维的触发词词向量公式如下所示:
融合:通过线性层将上述四种词嵌入融合在一起后得到事件实体最终的语义表示,计算公式如下所示:
其中,We是维度大小为L×3L的矩阵,是维度大小为L的向量;
Step3、本发明使用基于交互的检索模型作为融合越南语事件实体知识的模型框架,对于单个查询句q和单个文档事件范围D来说,基于交互的检索模型首先建立q和D之间的词级交互矩阵。词级交互矩阵使用q与D之间的词向量相似度来衡量q与D之间的相似度。
基于交互的排序模型首先将q与D中的每个词t通过词嵌入层Embw得到大小为L维的词向量
然后基于得到的查询词向量和文档词向量生成交互矩阵M。M中的每一个元素Mij表示q中第i个词向量与D中第j个词向量之间余弦相似度的值。计算公式如下所示:
使用交互矩阵M={Mww,Mwe,Mew,Mee}来衡量查询词或查询实体与文档词或文档实体之间的相似程度。其中,Mww,Mwe,Mew,Mee分别表征查询句中词与事件范围中词的交互(qw-Dw),查询句中词与事件范围中事件实体的交互(qw-De),查询句中事件实体与事件范围中词的交互(qe-Dw)和查询句中事件实体与事件范围中事件实体的交互(qe-De)。
将q与D中的每个词通过词嵌入层Embw后分别得到查询词向量和文档事件范围词向量/>将查询词向量/>视作一个整体向量矩阵/>将/>通过卷积操作得到代表长度为hq的n-gram向量/>
其中,WCNN与是卷积核的两个参数。
同理,得到代表长度为hD的n-gram事件范围向量
因此,Mww,Mwe,Mew,Mee中各元素的计算方式如下所示:
交互矩阵M={Mww,Mwe,Mew,Mee}可以插入到任何基于交互的检索模型中,本发明使用Conv-KNRM这一基于交互的检索模型作为结合M的模型框架。以其中的Mww为例,Conv-KNRM使用K个高斯分布从Mww中提取排序特征φ(Mww),每一个高斯分布Kk特征计算的结果为一个soft-TF值,因此K个高斯分布对Mww处理之后生成了一个K维特征向量φ(Mww)={K1(Mww),...,KK(Mww)}。计算公式如下所示:
其中,μk和δk分别表示第k个高斯分布的均值和方差。
同理,得到φ(Mwe),φ(Mew)和φ(Mee)。
在得到φ(Mww),φ(Mwe),φ(Mew)和φ(Mee)之后,将它们拼接成最终的排序特征Φ(M):
其中,每一个包含三部分,分别是查询句中hq-gram的词与事件范围中hD-gram的词之间的排序特征/>查询句中事件实体与事件范围中hD-gram的词之间的排序特征/>查询句中hq-gram的词与事件范围中事件实体之间的排序特征 的表示形式如下所示:
本发明在得到最终排序特征Φ(M)的基础上,利用排序学习得到查询句与事件范围最终的排序得分,计算公式如下所示:
其中,ωr和br是排序学习的参数,tanh为激活函数。
由于一个文档d中含有f个事件范围,即d={D1,D2,...,Df}。因此对于查询句q和文档d来说,取q与D1,D2,...,Df中最大的排序得分作为q与d最终的排序得分:
其中,Φ(M)x表示查询句q与事件范围Dx计算所得的排序特征。
最后通过优化如下所示的合页损失函数来对模型进行训练:
其中,表示越南语新闻文档集中所有的文档,d+表示与查询q相关的文档,d-表示与查询q不相关的文档。
整个方法对应的模型运用反向传播对模型参数进行优化,在此过程中,对实体词词嵌入,实体描述词嵌入,实体类型词嵌入,触发词词嵌入,词级交互和特征提取进行了联合学习。
汉越双语新闻数据集包含汉语数据集和越南语数据集。汉语和越南语数据集采用人工构造的汉语和越南语新闻数据集,汉语数据集用于构建汉语事件查询句,越南语数据集用于构建越南语候选文档。为了对比本发明所提方法在越南语单语新闻事件检索任务中与汉越跨语言新闻事件检索任务中的性能差异,利用越南语数据集人工构建了与汉语事件查询句数量相同的越南语事件查询句。查询句与文档的相关性标签由人工标注,1表示相关,0表示不相关。实验中用到的汉语和越南语数据集中查询句子数与候选文档数的详细统计信息如表1所示。
表1数据集中查询句子数与候选文档数的详细统计
实验中窗口大小p的值为5。实体词词嵌入,实体描述词嵌入,实体类型词嵌入和触发词词嵌入的维度L为300。所用CNN中滤波器个数为128。使用Adam优化器优化模型参数,初始学习率设置为0.001,训练轮次为100轮。本发明针对于越南语事件查询句和越南语候选新闻文档所使用的事件实体识别模型为融合词典与对抗迁移的越南语事件实体识别模型,该模型经过训练之后,在越南语新闻数据集上识别效果较好,越南语事件实体识别的F1值达90.05%。实验中使用的翻译工具为目前汉越翻译性能较高的Google在线翻译软件。汉语事件查询句,越南语事件查询句和使用翻译工具翻译后的越南语事件查询句均是只包含一种新闻事件的单一事件查询句。
在实验中使用NDCG(Normalized Discounted Cumulative Gain)和MAP(MeanAverage Precision)作为评价指标。各指标定义如公式所示:
其中,k表示k个文档的集合。ri表示排序列表中第i个文档与查询句的相关度。
将DCG@k按照相关度从大到小对文档进行排序后会得到idealDCG@k。
其中,R表示与查询句相关的文档总个数,position(I)表示在检索结果列表中从前往后看第I个相关文档在列表中的位置。MAP是对多个查询语句的AP求均值。
将本发明提出的方法与基线模型进行比较,验证本发明提出方法的有效性。
基线模型分为两类:基于特征的检索模型和基于神经网络的检索模型。基于特征的检索模型包括RankSVM和Coor-Ascent两种排序学习模型和基于词的无监督检索模型BM25。基于神经网络的检索模型ARC-I,ARC-II,CDSSM,MatchPyramid,DRMM,K-NRM和Conv-KNRM。其中ARC-I和CDSSM是基于表示的检索模型;ARC-II,MatchPyramid,DRMM,K-NRM和Conv-KNRM模型是基于交互的检索模型。
RankSVM:RankSVM模型将文档检索排序问题进行转化,变成了文档对的分类问题,然后针对此分类问题利用SVM模型进行求解。
Coor-Ascent:Coor-Ascent是一种用于无约束优化问题的常见优化方法。该算法在检索过程中通过进行一系列的一维搜索来求解最终的多元目标函数。
BM25:BM25算法是在融合TF-IDF特征的基础上计算查询句与文档相关性的一种算法,首先计算每个查询词与文档的相关度,再将得到的所有的词与文档的相关度进行加权求和,最后计算出最终的查询句与文档之间的相关度值。
ARC-I:ARC-I模型使用CNN来进行文本匹配,该模型将查询句和文档表示成两个定长的向量,之后将两个向量拼接成一个向量整体,最后把向量整体输入多层感知器中,多层感知器的输出结果即为查询句与文档的匹配得分。
ARC-II:ARC-II模型是ARC-I模型的扩展,ARC-II模型将查询句与文档表示成向量之后,利用滑动窗口来选取词向量组,将词向量组作为一个固定单元进行卷积,将卷积后的结果作为查询句与文档相互作用的初步向量表示。之后对其进行多次卷积和池化操作,最终将结果送入多层感知器中得到查询句与文档之间的匹配得分。
CDSSM:CDSSM模型首先将查询句与文档中的每一个词表征为词向量的形式,对设定的滑动窗口内的词向量进行卷积进而生成一个短语向量表示,最后对短语向量表示进行池化操作。因为滑动窗口可以动态选取不同词向量,可以获取到句子中单词顺序信息,因此能够对查询句与文档间的匹配关系进行更完整的描述。
MatchPyramid:MatchPyramid模型提出构建查询句与文档间的匹配矩阵,使用卷积操作提取匹配矩阵中的特征,进而利用这些特征计算查询句与文档间的相似度。
DRMM:DRMM模型选取查询句中的一个词,将该词与文档中所有的词分别构成词组对,对于每一个词组对使用余弦距离计算其相似度。利用计算出的不同相似度构建直方图,从而可以有效的区分查询句与文档之间相似的程度。
K-NRM:K-NRM模型首先将查询句和文档转化为向量形式,利用查询句向量和文档向量构建交互矩阵M,然后引入K个核函数,通过核函数池化的方式计算查询句与文档的相似程度。
Conv-KNRM:Conv-KNRM模型相较于K-NRM模型,在进行核函数池化之前,分别利用滑动窗口对查询句向量和文档向量进行卷积操作,得到新的特征向量。对于查询句和文档的新特征向量,两两进行余弦相似度计算形成交互矩阵M。最后使用K个核函数池化的方式计算出查询句与文档的相似程度。
在查询句为越南语事件查询句的情况下,对越南语候选文档进行检索排序。比较本发明提出的方法与基线模型在越南语数据集上检索性能的差异,实验结果如表2所示:
表2在越南语数据集上越南语单语新闻事件检索性能
从表2的对比结果可以看出本发明提出的模型优于其他的检索模型。本发明模型相较于传统的BM25检索模型获得大幅度提升,在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上分别提升了0.5406,0.5656,0.4896,0.5883和0.5688。从表中可以看出基于神经网络的检索模型的性能均高于基于特征的检索模型的性能,同时基于交互的检索模型性能也均高于基于表示的检索模型性能。本发明模型与基线模型中性能最佳的Conv-KNRM相比,在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上相较于Conv-KNRM提升98.82%,76.46%,57.61%,50.93%,98.77%。原因是本发明方法在使用Conv-KNRM作为检索模型框架的基础上,将事件实体的分布式表示作为外部知识融入排序过程中,不仅仅进行查询句与文档间词与词之间的匹配,而且增加了查询句与文档之间的词与事件实体的匹配,事件实体与事件实体的匹配。同时利用事件触发词划定文档中的事件范围,缩小了查询句与文档匹配的空间,提升了匹配的效率。
为了探究事件实体知识的不同部分对模型检索性能的影响,在进行越南语单语新闻事件检索时,对本发明所提模型进行消融实验。比较在只有检索模型Conv-KNRM,在Conv-KNRM基础上分别加入四种词嵌入(实体词嵌入,实体描述词嵌入,实体类型词嵌入和触发词嵌入),在Conv-KNRM基础上划分文档事件范围和在Conv-KNRM基础上两两加入四种词嵌入的情况下模型的性能,实验结果如表3所示。
表3在越南语数据集上本发明模型的消融实验
从表3中可以看出在四种词嵌入类型中,实体描述词嵌入对于模型检索性能的提升是最大的,在融入实体描述词嵌入之后,模型相较于Conv-KNRM在NDCG@10和MAP评价指标上分别提升了0.0487和0.1572。只融入实体类型词嵌入时,模型相较于Conv-KNRM在MAP评价指标上只提升了0.0156;但是在同时融入实体词嵌入和实体类型词嵌入的情况下,模型相较于Conv-KNRM在MAP评价指标上提升了0.1075。可见相较于只融入实体类型词嵌入的情况,只有把实体类型词嵌入和其他词嵌入一同融入时,模型性能才得到较大提升。同时融入四种词嵌入(实体词嵌入,实体类型词嵌入,实体描述词嵌入和触发词嵌入)后模型的NDCG@10和MAP评价指标相较于Conv-KNRM分别提升了0.1601和0.2077,充分证明了通过知识图谱和事件触发词找到并融合成的事件实体语义表示可以有效提升查询句与文档的匹配性能。在只对文档划分事件范围之后,模型的NDCG@1和MAP评价指标相较于Conv-KNRM分别提升了0.1188和0.1258,并且本发明模型相较于同时融入四种词嵌入后的模型来讲,在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上均提升较高,由此可见对文档划分事件范围之后,可以缩小模型匹配的空间,较大的提升模型性能。
在查询句为汉语事件查询句的情况下,对越南语候选文档进行检索排序。比较本发明提出的方法与基线模型在汉越双语新闻数据集上检索性能的差异,实验结果如表4所示:
表4在汉越双语新闻数据集上汉越跨语言新闻事件检索性能
/>
从表4中可以看出,各模型检索性能相较于越南语单语新闻事件检索性能均有所降低。这是因为模型性能受所使用的翻译工具影响,翻译工具的翻译质量不高,从而会导致翻译生成的越南语事件查询句并不完全符合越南语正常的语法和句式表达。对于本发明方法所对比的基线模型来说,翻译生成的越南语事件查询句质量低的情况严重影响了模型的检索性能。例如其中RankSVM性能相较于只在越南语数据集上的RankSVM性能,在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上分别降低了0.0670,0.0599,0.1351,0.1523和0.0745。Conv-KNRM性能相较于只在越南语数据集上的Conv-KNRM性能在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上分别降低了0.1356,0.1748,0.2021,0.2289和0.1302。但是本发明方法相较于其只在越南语数据集上的性能降低相对较少,本发明方法的性能相较于其只在越南语数据集上的性能来讲,在NDCG@1,NDCG@3,NDCG@5,NDCG@10和MAP评价指标上分别只降低了0.0099,0.0068,0.0151,0.0033和0.0008。这是由于本发明方法依赖于使用多语言知识图谱和事件触发词生成事件实体的语义知识表示,进而进行查询句与文档的词与词之间,词与事件实体之间和事件实体与事件实体之间的匹配排序。而事件实体及事件触发词往往可以被翻译工具翻译正确,从而降低了词与事件实体之间和事件实体与事件实体之间的匹配排序误差,因此本发明方法受翻译工具翻译质量不高的影响较小,能够较好的进行汉越跨语言新闻事件检索排序。
综上所述,本发明提出一种融入事件实体知识的汉越跨语言新闻事件检索方法。其中,通过查询翻译方法,将汉语事件查询句翻译为越南语事件查询句,实现将跨语言新闻事件检索问题转化为了单语新闻事件检索问题。同时,考虑到查询句中只有单个事件,候选文档中多个事件共存会影响查询句和文档的精准匹配,因此利用事件触发词来划分候选文档事件范围,减小文档中与查询无关事件的干扰。最后利用知识图谱和事件触发词得到事件实体丰富的知识表示,通过查询句与文档事件范围间的交互,提取到事件实体知识表示与词,以及事件实体知识表示之间的排序特征。实验表明,本发明方法在汉越双语新闻数据集上相较于其他几种基线模型取得了最佳的跨语言新闻事件检索效果。但是本发明方法在汉越双语新闻数据集上的检索性能相较于其在越南语数据集上的检索性能有所降低,原因在于模型检索的性能受到所使用翻译工具的翻译性能的限制。并且在查询句与文档匹配排序的过程中未能考虑到查询句中的事件触发词与文档中的事件触发词的歧义对查询句和文档匹配过程所造成的影响。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.融入事件实体知识的汉越跨语言新闻事件检索方法,其特征在于:首先将汉语查询句翻译为越南语查询句,之后识别出候选文档中的事件触发词,并基于触发词对文档划分事件范围;然后识别查询句中的事件触发词并使用事件实体识别方法识别出事件范围和查询句中的事件实体;最后基于知识图谱和触发词得到事件实体的知识表示,将事件实体知识融入基于交互的排序学习算法中对候选文档进行排序;
所述融入事件实体知识的汉越跨语言新闻事件检索方法的具体步骤如下:
Step1、利用现有的翻译工具将汉语查询句翻译为越南语查询句,然后识别出翻译后的查询句与越南语文档中的事件触发词,并基于文档中的事件触发词对文档划分事件范围;
Step2、使用越南语事件实体识别方法识别出查询句与文档事件范围中的事件实体,进而基于多语言知识图谱和事件触发词对事件实体的语义进行扩充,得到事件实体最终的语义表示;
Step3、使用基于交互的检索模型提取排序特征,根据排序特征计算查询句与文档最终的排序得分,从而实现从汉语到越南语的跨语言新闻事件检索;
所述步骤Step1的具体步骤为:
Step1.1、分别利用通过现有的翻译工具将汉语事件查询句Q翻译为越南语事件查询句q;
Step1.2、将对于每个文档d,使用PredPatt识别出d中所有的事件触发词假定其中一个触发词/>的位置为l,窗口大小为p,则取l-p至l+p范围内的词作为该触发词在文档中的事件范围Di;计算出所有触发词对应的事件范围之后,文档d看成f个事件范围的集合,即d={D1,D2,...,Df};
所述步骤Step2的具体步骤:
Step2.1、通过越南语事件实体识别方法识别出查询句q与文档事件范围D中的事件实体词向量
Step2.2、通过识别出的事件实体在多语言知识图谱ConceptNet中找到其对应的实体类型词向量和实体描述词向量/>通过PredPatt识别出查询句或文档事件范围中的事件触发词,得到事件触发词词向量/>最后通过线性层将/>和/>这四种词向量融合在一起后得到事件实体最终的语义表示;
所述步骤Step3的具体步骤为:
Step3.1、使用交互矩阵M={Mww,Mwe,Mew,Mee}来衡量查询词或查询实体与文档词或文档实体之间的相似程度,交互矩阵M={Mww,Mwe,Mew,Mee}插入到Conv-KNRM这一基于交互的检索模型中,在Conv-KNRM从M={Mww,Mwe,Mew,Mee}中提取到排序特征φ(Mww),φ(Mwe),φ(Mew)和φ(Mee)之后,将这四种排序特征拼接成最终的排序特征Φ(M);其中,Mww,Mwe,Mew,Mee分别表征查询句中词与事件范围中词的交互(qw-Dw),查询句中词与事件范围中事件实体的交互(qw-De),查询句中事件实体与事件范围中词的交互(qe-Dw)和查询句中事件实体与事件范围中事件实体的交互(qe-De);
Step3.2、在得到最终排序特征Φ(M)的基础上,利用排序学习得到查询句与事件范围最终的排序得分;对于查询句q和文档d来说,取q与D1,D2,...,Df中最大的排序得分作为q与d最终的排序得分f(q,d),事件范围为Di,最后根据查询句与不同候选文档的排序得分由高到低对越南语候选文档进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098443.5A CN114004236B (zh) | 2021-09-18 | 2021-09-18 | 融入事件实体知识的汉越跨语言新闻事件检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098443.5A CN114004236B (zh) | 2021-09-18 | 2021-09-18 | 融入事件实体知识的汉越跨语言新闻事件检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114004236A CN114004236A (zh) | 2022-02-01 |
CN114004236B true CN114004236B (zh) | 2024-04-30 |
Family
ID=79922036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098443.5A Active CN114004236B (zh) | 2021-09-18 | 2021-09-18 | 融入事件实体知识的汉越跨语言新闻事件检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004236B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680420B (zh) * | 2023-08-02 | 2023-10-13 | 昆明理工大学 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
CN116719910A (zh) * | 2023-08-08 | 2023-09-08 | 山东正云信息科技有限公司 | 一种基于人工智能技术的文本查询方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN110377738A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 |
CN111368203A (zh) * | 2020-03-09 | 2020-07-03 | 电子科技大学 | 一种基于图神经网络的新闻推荐方法及其系统 |
CN113221562A (zh) * | 2021-04-14 | 2021-08-06 | 河海大学 | 一种基于知识图谱提高文书档案检索效率的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11663254B2 (en) * | 2016-01-29 | 2023-05-30 | Thomson Reuters Enterprise Centre Gmbh | System and engine for seeded clustering of news events |
-
2021
- 2021-09-18 CN CN202111098443.5A patent/CN114004236B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980664A (zh) * | 2017-03-21 | 2017-07-25 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN110377738A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 |
CN111368203A (zh) * | 2020-03-09 | 2020-07-03 | 电子科技大学 | 一种基于图神经网络的新闻推荐方法及其系统 |
CN113221562A (zh) * | 2021-04-14 | 2021-08-06 | 河海大学 | 一种基于知识图谱提高文书档案检索效率的方法及系统 |
Non-Patent Citations (3)
Title |
---|
Interactive attention networks for semantic text matching;S Zhao等;《2020 IEEE International Conference on Data Mining (ICDM)》;20201120;861-870 * |
基于上下文的深度语义句子检索模型;范意兴等;《中文信息学报》;20170915;第31卷(第05期);156-162 * |
融入事件实体知识的汉越跨语言新闻事件检索;薛振宇等;《计算机工程》;20211015;1-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN114004236A (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN106997376B (zh) | 一种基于多级特征的问题和答案句子相似度计算方法 | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
Astrakhantsev et al. | Methods for automatic term recognition in domain-specific text collections: A survey | |
US8401841B2 (en) | Retrieval of documents using language models | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
CN108538286A (zh) | 一种语音识别的方法以及计算机 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN114004236B (zh) | 融入事件实体知识的汉越跨语言新闻事件检索方法 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN113632092A (zh) | 实体识别的方法和装置、建立词典的方法、设备、介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN112214335A (zh) | 基于知识图谱和相似度网络的Web服务发现方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115983233A (zh) | 一种基于数据流匹配的电子病历查重率估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |