CN110378409B - 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 - Google Patents
一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 Download PDFInfo
- Publication number
- CN110378409B CN110378409B CN201910635870.9A CN201910635870A CN110378409B CN 110378409 B CN110378409 B CN 110378409B CN 201910635870 A CN201910635870 A CN 201910635870A CN 110378409 B CN110378409 B CN 110378409B
- Authority
- CN
- China
- Prior art keywords
- bilingual
- chinese
- news
- sentence
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,属于自然语言处理技术领域。本发明首先构建汉越双语词向量,将两种语言的词向量转换到同一语义空间。然后,构建了多特征融合向量,将双语新闻要素共现程度、词频特征、句子位置和句子相关度特征等统计特征融入到双语词向量中。最后,构建了基于要素关联注意力机制的LSTM神经网络模型,计算出句子的重要性分值,依据相关性分析算法,可选取分值较高的句子删除冗余信息生成摘要。本发明在汉越双语新闻文档集上取得了较好的摘要生成效果。
Description
技术领域
本发明涉及一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,属于自然语言处理技术领域。
背景技术
随着新时代信息的快速增长,热点新闻事件会以不同语言的形式大量的发布在网上,如何快速的掌握互联网中不同国家之间热点新闻及其主要内容,已经成为了社会各界广泛关注的问题。为了解决这个问题,需要对各种来源的文档信息进行总结,并向用户提供简洁但信息量丰富的响应。这个关注点引发了多语言文本摘要系统的发展,该系统旨在将多语言文档集作为输入,产生一个简洁流畅的汇总,以精炼的文字反映原文档集中的主旨大意。随着中越两国交流的日益密切,以不同的语言发布的相关报道越来越多,仅以人工阅读的方式从浩瀚如海的文本数据中摘取重要内容不仅需要耗费大量的时间,还存在语言的障碍,特别在针对越南语这样的小语种,存在可参考资料少、翻译资源少和汉越翻译系统效果不佳等问题。因此方法旨在对描述相关事件的汉越双语新闻文档同时进行归纳总结,在不借助翻译的基础上获取汉越双语新闻的主要内容,帮助人们快速全面地了解事件。
发明内容
本发明提供了一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,以用于解决汉越新闻文档摘要生成的问题,本发明在汉越双语新闻文档集上取得了较好的摘要生成效果。
本发明的技术方案是:一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,所述方法的具体步骤如下:
Step1、从维基百科获得大量汉越双语预料,用于训练双语词向量;然后再进行分词、去重和标记等预处理;
Step2、融合汉语和越南语的语义空间构建汉越双语词向量;单独训练出汉语和越南语的单语词向量,再将两种语言的词向量映射到同一语义空间;具体步骤如下:Step2.1、预处理后的汉越双语新闻文档用于训练双语词向量;对于单语词向量来说Skip-gram模型的训练目标是在给定目标词的情况下预测上下文单词的表示,其目标是最大化训练数据的对数似然函数其中T是训练语料库中的单词数,c是上下文窗口的大小;p(wt+j|wt)使用softmax函数定义:
Step2.2、在独立训练单语向量矩阵后,在翻译词典的约束下使用CCA算法进行投影,这样两个汉越双语向量就投影到了同一个语义空间上。
Step3、在双语词向量的基础上融入多个统计特征构建多特征融合向量;
其中融入的多个统一特征包括:双语新闻要素共现程度、句子位置、词频特征和句子相关度特征;
1)计算双语新闻要素共现程度
在双语新闻要素共现程度的计算中,计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。
其中,双语新闻要素共现程度分析,使用基于模板和最大熵模型相结合的方法抽取中文和越南语要素,分别获取新闻文档包含的中文要素集和越南文要素集,借助双语词典得到对齐的汉越新闻要素集合。对于包含新闻要素的汉语句子,可将其表示为则共现度为:其中Dve为越南文档的实体结合,表示中文句子中包含的新闻要素;对于包含新闻要素的越南语句子,共现度的计算方式与上述类似;计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。
2)句子位置
3)词频特征
4)通过PageRank算法得到句子的余弦相似度;
5)步骤Step3中上述得到的要素信息,位置信息,词频信息,相关度信息与双语词向量进行融合。
Step4、基于要素关联注意力的LSTM神经网络模型的构建:
构建基于要素关联注意力的LSTM神经网络模型,将多特征向量输入LSTM神经网络得到隐状态,再通过要素关联注意力机制得到注意力权重,利用注意力权重得到隐状态的分布;最后得到句子分数,根据此分数选择候选摘要句,分数越高则为摘要句的概率越大。其中计算注意力权重时,在注意力机制上融入了双语新闻要素共现程度特征;最终句子分数计算时,通过一个回归函数,使每个句子都对应一个显著性分数,根据这个显著性分数来确定最终的摘要句。
构建基于要素关联注意力的LSTM神经网络模型的具体步骤如下:
Step4.1、构建基于注意力机制的LSTM模型,输入的向量为上步骤Step2中得到的训练向量,将向量输入LSTM网络中,经过LSTM神经网络计算得到隐状态H,将隐状态H与双语要素及其共享程度做拼接得到联合向量其中WH和WE为权重矩阵,EC为双语要素共现程度;通过公式计算注意力分布α=softmax(WTM),其中W为权重矩阵,最后依据注意力权重分布来计算隐状态的大小,得到依据注意力结合双语要素关联得到的向量表示x=HαT;
Step4.2、根据公式得到最终的每个句子表示h*:h*=tanh(Wxx+WhhN),其中Wx和Wh为权重矩阵,hN为每个LSTM的隐状态输出;
Step5、将多特征融合向量输入基于要素关联注意力的LSTM神经网络模型输出汉越双语新闻文档摘要。
所述步骤Step5中,对于待生成摘要的双语新闻文档经过步骤Step1做分词等预处理,然后通过步骤Step2得到汉越双语词向量,再通过Step3的多特征融合方法得到输入向量,最后将多特征向量输入步骤Step4构建好的网络中的出最终摘要。
本发明的有益效果是:
1、本发明融合汉语和越南语的语义空间来构建汉越双语词向量,解决汉语和越南语跨语言问题;
2、本发明在双语词向量的基础上融入多个统计特征构建多特征融合向量,使模型能够学习到更多的句子特征;
3、本发明中获取的多特征融合向量可更全面的表征句子所携带的信息,结合要素关联注意力机制,从而更好的更有效的约束跨语言新闻文本的关联性;本发明能够快速获取汉越双语新闻信息。
附图说明
图1为本发明中的流程图;
图2为本发明提出的基于要素关联注意力机制的LSTM网络模型。
具体实施方式
实施例1:如图1-2所示,一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,所述方法的具体步骤如下:
a1、汉越双语新闻文档的收集:以人工辅助检查机器标注的方法构建了20000篇文档的数据集,其中12000篇为中文新闻,8000篇为越南语新闻,涉及近年来中越两国共同关注的热点新闻,包括一带一路等政策话题,也涵盖了旅游,留学等内容。每组新闻集中至少包含两篇文档,一篇汉语一篇为越南语。针对每个事件的集合,参考摘要的选取为每种语言选取4句作为标准。
a2、汉越双语新闻文档的预处理:包括文档切分、分词、去停用词等步骤。本方法分别使用NLPIR和JVnTextPro工具对中文及越南文进行预处理;
a3、使用Skip-gram模型计算出单语言下的词嵌入矩阵,从而得到词向量。在使用CCA算法将两种语言的词向量投影到一个同一个语义空间下,从而得到双语词向量;
a4、在双语词向量的基础上融入多个统计特征构建多特征融合向量;融入的多个统计特征包括双语新闻要素共现程度、句子位置、词频特征和句子相关度特征;
1)计算双语新闻要素共现程度
在双语新闻要素共现程度的计算中,计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。
其中,双语新闻要素共现程度分析,使用基于模板和最大熵模型相结合的方法抽取中文和越南语要素,分别获取新闻文档包含的中文要素集和越南文要素集,借助双语词典得到对齐的汉越新闻要素集合。对于包含新闻要素的汉语句子,可将其表示为则共现度为:其中Dve为越南文档的实体结合,表示中文句子中包含的新闻要素;对于包含新闻要素的越南语句子,共现度的计算方式与上述类似;计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。
4)通过PageRank算法得到句子的余弦相似度;
a5、构建基于要素关联注意力的LSTM神经网络模型,具体步骤如下:
a5.1、构建基于注意力机制的LSTM模型,输入的向量为上步骤Step2中得到的训练向量,将向量输入LSTM网络中,经过LSTM神经网络计算得到隐状态H,将隐状态H与双语要素及其共享程度做拼接得到联合向量其中WH和WE为权重矩阵,EC为双语要素共现程度;通过公式计算注意力分布α=softmax(WTM),其中W为权重矩阵,最后依据注意力权重分布来计算隐状态的大小,得到依据注意力结合双语要素关联得到的向量表示x=HαT;
a5.2、根据公式得到最终的每个句子表示h*:h*=tanh(Wxx+WhhN),其中Wx和Wh为权重矩阵,hN为每个LSTM的隐状态输出;
a6、将多特征融合向量输入基于要素关联注意力的LSTM神经网络模型输出汉越双语新闻文档摘要。
为了验证本发明提出方法的效果,使用多特征融合向量作为输入,分别在传统统计模型Text-Rank、LReg(LogisticRegression逻辑回归)和本文提出的LSTM-Feature模型(基于要素关联注意力机制的LSTM神经网络模型)上训练得到各自模型的最优权重。
不添加要素关联分析的情况下,在LSTM-Att模型(深度学习模型)训练得到模型最优权重。表1为三个模型所得到的ROUGE-1、ROUGE-2和ROUGE-3;表2是否添加要素关联分析的结构对比;
表1为汉越双语不同摘要方法结果对比表
ROUGE-1 | ROUGE-2 | ROUGE-3 | |
TextRank | 0.3166 | 0.1482 | 0.2519 |
Lreg | 0.3227 | 0.1470 | 0.2650 |
LSTM-Feature | 0.3824 | 0.2270 | 0.3069 |
从以上数据可以看出,就不同的摘要方法而言,在该组对比实验中,LSTM-Feature的表现优于TextRank和LReg方案。对汉越新闻下的摘要生成取得了GOUGE-1=0.3824、GOUGE-2=0.2270和GOUGE-3=0.3069的结果。LSTM-Feature的实验结果与模型本身对文本语义结构信息及摘要特征的学习能力有关,同时由于采用了基于要素关联的注意力机制对双语文本间的关联关系进行建模,使得模型能够定位到文档集中具有代表性的句子上设置较高的重要性分值。
表2为是否添加要素关联分析的实验对比表
ROUGE-1 | ROUGE-2 | ROUGE-3 | |
LSTM-Feature | 0.3827 | 0.2270 | 0.3069 |
LSTM-Att | 0.3618 | 0.2159 | 0.3041 |
LSTM-Att与LSTM-Feature的对比实验结果表明融合双语要素关联注意力机制的权值分配方式更有利于摘要句的识别,原因在于两点:(1)新闻要素特征的加入能有效提升学习的性能;(2)描述同一新闻事件的汉越双语新闻文本中存在大量一致的信息,这些信息的共现程度对原文档集中重要句子的识别有促进作用。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,其特征在于:
所述方法的具体步骤如下:
Step1、汉越双语新闻文档的收集和分词、去重和标记预处理;
Step2、融合汉语和越南语的语义空间构建汉越双语词向量;
Step3、在双语词向量的基础上融入多个统计特征构建多特征融合向量;
Step4、构建基于要素关联注意力的LSTM神经网络模型;
Step5、将多特征融合向量输入基于要素关联注意力的LSTM神经网络模型输出汉越双语新闻文档摘要;
所述步骤Step3中,首先获取双语新闻要素共现程度、句子位置、词频特征和句子相关度特征,再将这些特征融入到双语词向量中;
所述步骤Step3中,在双语新闻要素共现程度的计算中,计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度;
所述步骤Step4构建基于要素关联注意力的LSTM神经网络模型的具体步骤如下:
Step4.1、构建基于注意力机制的LSTM模型,输入的向量为上步骤Step2中得到的训练向量,将向量输入LSTM网络中,经过LSTM神经网络计算得到隐状态H,将隐状态H与双语要素及其共享程度做拼接得到联合向量其中WH和WE为权重矩阵,EC为双语要素共现程度;通过公式计算注意力分布α=soft max(WTM),其中W为权重矩阵,最后依据注意力权重分布来计算隐状态的大小,得到依据注意力结合双语要素关联得到的向量表示x=HαT;
Step4.2、根据公式得到最终的每个句子表示h*:h*=tanh(Wxx+WhhN),其中Wx和Wh为权重矩阵,hN为每个LSTM的隐状态输出;
2.根据权利要求1所述的基于要素关联注意力机制的汉越新闻文档摘要生成方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、预处理后的汉越双语新闻文档用于训练双语词向量;对于单语词向量来说Skip-gram模型的训练目标是在给定目标词的情况下预测上下文单词的表示,其目标是最大化训练数据的对数似然函数其中T是训练语料库中的单词数,c是上下文窗口的大小;p(wt+j|wt)使用softmax函数定义:
Step2.2、在独立训练单语向量矩阵后,在翻译词典的约束下使用CCA算法进行投影,这样两个汉越双语向量就投影到了同一个语义空间上。
3.根据权利要求1所述的基于要素关联注意力机制的汉越新闻文档摘要生成方法,其特征在于:所述步骤Step4中,构建基于要素关联注意力的LSTM神经网络模型,将多特征向量输入LSTM神经网络得到隐状态,再通过要素关联注意力机制得到注意力权重,利用注意力权重得到隐状态的分布;最后得到句子分数,根据此分数选择候选摘要句,分数越高则为摘要句的概率越大。
4.根据权利要求3所述的基于要素关联注意力机制的汉越新闻文档摘要生成方法,其特征在于:计算注意力权重时,在注意力机制上融入了双语新闻要素共现程度特征。
5.根据权利要求3所述的基于要素关联注意力机制的汉越新闻文档摘要生成方法,其特征在于:最终句子分数计算时,通过一个回归函数,使每个句子都对应一个显著性分数,根据这个显著性分数来确定最终的摘要句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635870.9A CN110378409B (zh) | 2019-07-15 | 2019-07-15 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910635870.9A CN110378409B (zh) | 2019-07-15 | 2019-07-15 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378409A CN110378409A (zh) | 2019-10-25 |
CN110378409B true CN110378409B (zh) | 2020-08-21 |
Family
ID=68253170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910635870.9A Active CN110378409B (zh) | 2019-07-15 | 2019-07-15 | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378409B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339754B (zh) * | 2020-03-04 | 2022-06-21 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111382261B (zh) * | 2020-03-17 | 2021-06-18 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111581943A (zh) * | 2020-04-02 | 2020-08-25 | 昆明理工大学 | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 |
CN111709230B (zh) * | 2020-04-30 | 2023-04-07 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN111563375B (zh) * | 2020-05-07 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN111753523B (zh) * | 2020-06-29 | 2023-11-03 | 西交利物浦大学 | 基于注意力分布已知的抽象式神经网络生成摘要的方法 |
CN112541343B (zh) * | 2020-12-03 | 2022-06-14 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN112633008A (zh) * | 2020-12-28 | 2021-04-09 | 中国石油大学(华东) | 基于多特征注意力的卷积神经网络句子相似度计算方法 |
CN113626577B (zh) * | 2021-07-01 | 2022-11-01 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113743133B (zh) * | 2021-08-20 | 2023-10-17 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN113743089B (zh) * | 2021-09-03 | 2024-08-27 | 科大讯飞股份有限公司 | 一种多语种文本生成方法、装置、设备及存储介质 |
CN114547287B (zh) * | 2021-11-18 | 2023-04-07 | 电子科技大学 | 一种生成式文本摘要方法 |
CN115017404B (zh) * | 2022-04-27 | 2024-10-18 | 昆明理工大学 | 基于压缩空间句子选择的目标新闻话题摘要方法 |
CN114817682B (zh) * | 2022-05-09 | 2024-04-19 | 昆明理工大学 | 基于双重注意力解码网络的跨语言摘要方法 |
CN116521870B (zh) * | 2023-04-28 | 2024-06-28 | 芽米科技(广州)有限公司 | 一种基于大数据的法律文书要素智能识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984526B (zh) * | 2018-07-10 | 2021-05-07 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109214452B (zh) * | 2018-08-29 | 2020-06-23 | 杭州电子科技大学 | 基于注意深度双向循环神经网络的hrrp目标识别方法 |
-
2019
- 2019-07-15 CN CN201910635870.9A patent/CN110378409B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
《Improvingvectorspace word representationsusing multilingualcorrelation》;Faruqui M等;《Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics》;20140430;全文 * |
《多特征融合的汉越双语新闻摘要方法》;叶雷等;《中文信息学报》;20181231;第32卷(第12期);第84-91页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110378409A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378409B (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
US10095692B2 (en) | Template bootstrapping for domain-adaptable natural language generation | |
CN1542649B (zh) | 句子实现系统 | |
CN108960317B (zh) | 基于词向量表示和分类器联合训练的跨语言文本分类方法 | |
CN112541343A (zh) | 基于词对齐的半监督对抗学习跨语言摘要生成方法 | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
WO2009154570A1 (en) | System and method for aligning and indexing multilingual documents | |
Jian et al. | [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation | |
CN109033320A (zh) | 一种双语新闻聚合方法及系统 | |
Naser-Karajah et al. | Current trends and approaches in synonyms extraction: Potential adaptation to arabic | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
WO2011035455A1 (en) | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Ke | English synchronous real-time translation method based on reinforcement learning | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
Tian et al. | A multi-modal topic model for image annotation using text analysis | |
Wang et al. | Chinese text keyword extraction based on Doc2vec and TextRank | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Shi et al. | Synonym-based query expansion and boosting-based re-ranking: A two-phase approach for genomic information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |