CN107357786A - 一种基于大量伪数据的贝叶斯词义消歧方法 - Google Patents

一种基于大量伪数据的贝叶斯词义消歧方法 Download PDF

Info

Publication number
CN107357786A
CN107357786A CN201710572187.6A CN201710572187A CN107357786A CN 107357786 A CN107357786 A CN 107357786A CN 201710572187 A CN201710572187 A CN 201710572187A CN 107357786 A CN107357786 A CN 107357786A
Authority
CN
China
Prior art keywords
word
msub
mrow
pseudo
training corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710572187.6A
Other languages
English (en)
Inventor
杨陟卓
张虎
李茹
谭红叶
陈千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201710572187.6A priority Critical patent/CN107357786A/zh
Publication of CN107357786A publication Critical patent/CN107357786A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明具体涉及一种新的基于大量伪数据的贝叶斯词义消歧方法,主要解决了当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题。本首先利用依存句法分析器,对训练语料库中包含歧义词的训练实例进行句法分析,收集与歧义词具有依存关系的元组,然后利用机器翻译系统,查找在机器翻译语料库中包含该元组的例句。如此反复进行,将查找出的例句加入伪训练语料库,随后利用训练语料库和伪训练语料库,训练一个贝叶斯消歧模型,最后,利用该消歧模型决策歧义词的词义,可以在少量人工标注语料的基础上,有效缓解词义消歧所面临的数据稀疏问题,提高词义消歧的准确率,该方法具有广阔的发展前景。

Description

一种基于大量伪数据的贝叶斯词义消歧方法
技术领域
本发明属于自然语言处理技术领域,具体地说,涉及一种新的基于大量伪数据的贝叶斯词义消歧方法。
技术背景
词义消歧(Word Sense Disambiguation,WSD)是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在机器理解自然语言的过程中,当一个歧义词出现在特定的上下文中时,就会出现词语的歧义现象,尤其是在当前“信息爆炸”的互联网时代,词汇的歧义问题就显得更加严重。无论是汉语还是西方语言,一词多义的现象普遍存在。
目前,基于语料库的词义消歧方法可分为有监督和无监督方法。无监督方法不需要训练语料,但该方法的消歧效果却不尽如人意。有监督方法的消歧效果要明显优于无监督方法,但是面临较为严重的数据稀疏问题。为了解决此问题,很多学者开始研究自动生成有标注语料的方法。利用字典和大规模无标注的语料库自动生成有标注数据,然后采用有监督方法训练消歧模型,进行消歧。但是该方法同样存在问题:获取大规模、高质量的训练语料库费时费力。该问题严重阻碍了有监督词义消歧方法的大规模应用。
面对当前有监督词义消歧方法存在的问题,本发明专利充分利用互联网上丰富的数据资源,提出一种基于大量伪数据的贝叶斯词义消歧方法,力求能够缓解有监督方法面临的数据稀疏问题,提升词义消歧效果。
发明内容
本发明主要针对当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题,提供一种基于大量伪数据的贝叶斯词义消歧方法。
为解决上述技术问题,本发明采取的技术方案为:
本发明采用技术方案,如图1所示。首先利用依存句法分析器,对训练语料库中包含歧义词的训练实例进行句法分析,收集与歧义词具有依存关系的元组,然后利用机器翻译系统,查找在机器翻译语料库中包含该元组的例句。如此反复进行,将查找出的例句加入伪训练语料库,随后利用训练语料库和伪训练语料库,训练一个贝叶斯消歧模型,最后,利用该消歧模型决策歧义词的词义。具体为:
一种基于大量伪数据的贝叶斯词义消歧方法,包括以下步骤:
步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;已有研究表明,句中歧义词的词义可以根据句子的上下文推断出。通常,与歧义句中歧义词具有依存关系的元组决定了歧义词的词义。例如,训练语料库中歧义句“工程一号机组一次性点火成功”,歧义词“机组”有2个含义,分别是“机器”和“人员”。对该句进行依存句法分析,如图2所示。可以得出与“机组”具有句法关系(SBV,主谓关系)的元组是“号”和“点火”。由这些词可以判断,歧义词“机组”的含义是“机器”;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;将步骤1收集的依存元组输入机器翻译系统,如百度翻译或有道翻译,机器翻译系统不仅可以输出依存元组的译文,同时还可以找到许多包含该依存元组的双语例句,将这些双语例句与歧义词词义添加至伪训练语料库。机器翻译系统可以召回包含该元组的例句,这些例句包含了更多的消歧知识,可以扩充伪训练语料库。例如,将上一步返回的元组(机组,点火)输入机器翻译系统,召回包含该元组的部分例句,如图3、图4、图5所示。通过这些例句,可以找到更多与歧义词“机组”具有依存关系的词语,包括“大型”、“系统”、“等离子”、“同类”和“提供”等。在这些词语的搭配限制条件下,歧义词“机组”在句中的含义仍然是“机器”。将包含这些元组的例句加入伪训练语料库;
步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;根据步骤2的结果,分别将元组(大型,机组)、(机组,系统)、(机组,等离子)、(同类,机组)和(机组,提供)输入机器翻译系统。以(同类、机组)为例,可以返回更多包含该元组的例句,如“为调试同类机组提供了一种新的方法。”和“为我国设计同类机组提供了可靠的参数。”等等。从这些例句中可以找出其他依存元组(调试,机组)和(设计,机组),再将这些元组重新输入机器翻译系统,可以找到更多的包含该元组的例句,例如将元组(调试,机组)输入机器翻译系统,得到例句“调试和检修工作对运行机组造成干扰等。”和“为调试同类机组提供了一种新的方法。”,可以得出元组(运行,机组),(调试,机组)(同类,机组),其中后2个元组已经加入到伪训练语料库中,因此仅仅将包含第1个元组的例句加入语料库中。如此循环往复,直到满足某种条件为止。终止条件既可以是固定的循环次数,也可以是没有新的包含依存元组的例句加入为止。
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。
本发明采用贝叶斯模型进行消歧训练,如公式1所示。
公式(1)中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示与歧义词具有依存句法关系的上下文词语特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式(2)所示。
公式2中,c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
本发明将由机器翻译系统所召回的例句,构建伪训练语料库,综合利用训练语料库和伪训练语料库,进行词义消歧。伪训练语料库与人工语料相比,还有一定的噪声,应当发挥相对小的作用。在采用贝叶斯公式(1)进行词义决策时,通过两种类型的语料共同决策词义,在估计歧义词与特征的条件概率时,采用公式(3)计算:
公式3中,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数。cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数。λ用于调整伪训练语料对歧义词词义的影响,取值为0.8。
本发明采用以上技术方案,可以在少量人工标注语料的基础上,有效缓解词义消歧所面临的数据稀疏问题,提高词义消歧的准确率,该方法具有广阔的发展前景,会极大的促进诸如信息检索、机器翻译、语言识别、句法分析、文本处理等自然语言处理领域的发展,与传统的有监督词义消歧方法相比,准确率提高了7.35个百分点。
附图说明
图1为本发明所述基于大量伪数据的贝叶斯词义消歧方法的系统图;
图2为本发明歧义句的依存句法分析视图;
图3为本发明召回例句的依存句法分析视图a;
图4为本发明召回例句的依存句法分析视图b;
图5为本发明召回例句的依存句法分析视图c。
具体实施方式
下面将结合实例给出本发明的具体实现方案。“工程一号<word>机组</word>一次性点火成功”为训练语料,句子“风电<word>机组</word>系统分析关键技术研究”为测试语料,对测试语料的歧义词“机组”进行消歧处理。机组的含义分别是“机器”和“人员”。
本发明的一种基于大量伪数据的贝叶斯词义消歧方法,包括以下步骤:
步骤1、采用依存句法分析器对训练实例进行分析,收集与目标歧义词具有依存关系的元组,具体操作如下:
对该实例进行句法分析,如图2所示。得到依存关系元组(号,机组)和(机组,点火)。以第2个元组(机组,点火)为例说明方法工作原理;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的例句,并将其加入伪训练语料库,具体操作如下:
获取到包含元组(机组,点火)的例句如图3、图4、图5所示。收集与歧义词“机组”具有依存关系的词语,包括“同类”、“大型”、“系统”、“等离子”和“提供”等;
步骤3、重复步骤1、2,对所有的训练实例进行处理,同时将所有包含不重复依存元组的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库,具体操作如下:
以元组(同类,机组)为例,说明获取伪训练实例的过程。机器翻译系统召回包含该元组的例句:
“为调试同类机组提供了一种新的方法。”
“为我国设计同类机组提供了可靠的参数。
得到其他依存元组(调试,机组)和(设计,机组),再将这些元组重新输入机器翻译系统,可以找到更多的包含该元组的例句,例如将元组(调试,机组)输入机器翻译系统,得到例句:
“调试和检修工作对运行机组造成干扰等。”
“为调试同类机组提供了一种新的方法。”,
可以得出元组(运行,机组),(调试,机组)和(同类,机组),其中后2个元组已经加入到伪训练语料库中,因此仅仅将包含第1个元组的例句加入语料库。在该例子中,将方法的循环次数设定为3。循环结束后,召回的伪训练实例有:
大型机组点火系统供电技术的探讨。
大型机组等离子点火及稳燃技术的应用。
这些方法可为同类机组设计和使用等离子燃烧器点火提供参考。
为调试同类机组提供了一种新的方法。
为我国设计同类机组提供了可靠的参数。
调试和检修工作对运行机组造成干扰等。
这些伪训练实例中,歧义词“机组”的含义仍然是训练实例中歧义词的含义“机器”。
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义,
本发明采用贝叶斯模型进行消歧训练,如公式1所示。
公式(1)中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示与歧义词具有依存句法关系的上下文词语特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式(2)所示。
公式2中,c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
在采用贝叶斯公式(1)进行词义决策时,通过两种类型的语料共同决策词义,在估计歧义词与特征的条件概率时,采用公式(3)计算:
公式3中,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数。cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数。λ用于调整伪训练语料对歧义词词义的影响,取值为0.8。
具体操作如下:
根据公式(2),统计出词义(“人员”和“机器”)与特征的共现次数。特征fj不仅包括训练实例中与歧义词具有依存关系的词语(“号”、“点火”),还包括伪训练实例中的词语(“同类”、“大型”、“系统”、“等离子”和“提供”、“设计”、“运行”)。共现次数ct(fj,si)和cp(fj,si)在训练语料库中的统计结果如表1所示:
表1语料库中特征和词义的共现次数
此外,每个词义si在训练语料库和伪训练语料库中出现的次数ct(s人员)=10、ct(s机器)=10和cp(s人员)=10、cp(s机器)=10。
将测试实例输入有监督模型,综合利用训练语料库和伪训练语料库,共同决策歧义词的词义。
对测试实例进行句法分析,找到与歧义词“机组”具有依存关系的词语“系统”,并将其作为上下文特征词语。在表1中,分别找出歧义词词义“人员”和“机器”在这些特征下的共现次数。
公式(3)中的λ值在语料库中估计,取值为0.8。利用公式(3)计算得出概率另外,歧义词词义出现的概率为根据公式(1),计算得出因此,最大概率的歧义词词义为“机器”,并将该词义标记为测试实例歧义词的最终词义,完成词义消歧。
以上所述仅为本发明的优选实施方式而已。上述实施方式并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (3)

1.一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:
步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;
步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。
2.根据权利要求1所述的一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤2中的机器翻译系统为百度翻译或有道翻译。
3.根据权利要求1或2所述的一种新的基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤4中利用贝叶斯消歧模型决策测试实例中歧义词的词义时,在估计词义和特征的条件概率时,由以下公式计算得出:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>c</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>c</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&amp;lambda;</mi> <mfrac> <mrow> <msub> <mi>c</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>c</mi> <mi>p</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
公式中,p(fj|si)表示词义与特征的条件概率,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数,cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数,λ取值范围为0.8。
CN201710572187.6A 2017-07-13 2017-07-13 一种基于大量伪数据的贝叶斯词义消歧方法 Pending CN107357786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710572187.6A CN107357786A (zh) 2017-07-13 2017-07-13 一种基于大量伪数据的贝叶斯词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710572187.6A CN107357786A (zh) 2017-07-13 2017-07-13 一种基于大量伪数据的贝叶斯词义消歧方法

Publications (1)

Publication Number Publication Date
CN107357786A true CN107357786A (zh) 2017-11-17

Family

ID=60291880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710572187.6A Pending CN107357786A (zh) 2017-07-13 2017-07-13 一种基于大量伪数据的贝叶斯词义消歧方法

Country Status (1)

Country Link
CN (1) CN107357786A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN110532568A (zh) * 2019-09-05 2019-12-03 哈尔滨理工大学 基于树特征选择和迁移学习的汉语词义消歧方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074630A1 (en) * 2004-09-15 2006-04-06 Microsoft Corporation Conditional maximum likelihood estimation of naive bayes probability models
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
CN102982063A (zh) * 2012-09-18 2013-03-20 华东师范大学 一种基于关系关键词扩展的元组精化的控制方法
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN106598947A (zh) * 2016-12-15 2017-04-26 山西大学 一种基于同义词扩展的贝叶斯词义消歧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US20060074630A1 (en) * 2004-09-15 2006-04-06 Microsoft Corporation Conditional maximum likelihood estimation of naive bayes probability models
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
CN102982063A (zh) * 2012-09-18 2013-03-20 华东师范大学 一种基于关系关键词扩展的元组精化的控制方法
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN106598947A (zh) * 2016-12-15 2017-04-26 山西大学 一种基于同义词扩展的贝叶斯词义消歧方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢志茂 等: "基于依存分析改进贝叶斯模型的词义消歧", 《高技术通讯》 *
车超: "知识自动获取的词义消歧方法", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN109614620B (zh) * 2018-12-10 2023-01-17 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN110532568A (zh) * 2019-09-05 2019-12-03 哈尔滨理工大学 基于树特征选择和迁移学习的汉语词义消歧方法
CN110532568B (zh) * 2019-09-05 2022-07-01 哈尔滨理工大学 基于树特征选择和迁移学习的汉语词义消歧方法

Similar Documents

Publication Publication Date Title
Han et al. Structural semantic relatedness: a knowledge-based method to named entity disambiguation
Hazem et al. Word embedding approach for synonym extraction of multi-word terms
CN109145260A (zh) 一种文本信息自动提取方法
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN106598947A (zh) 一种基于同义词扩展的贝叶斯词义消歧方法
Naser-Karajah et al. Current trends and approaches in synonyms extraction: Potential adaptation to arabic
Yun et al. A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts
CN107357786A (zh) 一种基于大量伪数据的贝叶斯词义消歧方法
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
Jiang et al. Word network topic model based on Word2Vector
CN105260483A (zh) 一种面向微博文本的跨语言话题检测装置及方法
Benaissa et al. Building ontology from texts
Ge et al. The research on topic detection of microblog based on TC-LDA
CN103631771A (zh) 改进语言模型的方法及装置
Yuan et al. Tibetan-Chinese cross language text similarity calculation based on LDA topic model
Song et al. A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction
Wang Intelligent English Automatic Translation System Based on Improved GLR Algorithm
Liu et al. Research on Automatic Proofreading Method of Clinical Terminology of Traditional Chinese Medicine
Li et al. Chinese text sentiment classification based on LSTM word-tag relational network model
Yuan et al. Research on cross-language text similarity calculation
Zhang et al. Research on the Application of Computer Artificial Intelligence Machine Translation System in the Sci-tech Journals
Xue et al. Research of Chinese Keyword Extraction Based on Weibo Information
Tang A data-driven taxonomy of self-repairs in Chinese-English consecutive interpreting
Sun et al. Word Sense Disambiguation Method Based on Graph Model and Word Vector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171117