CN107357786A - 一种基于大量伪数据的贝叶斯词义消歧方法 - Google Patents
一种基于大量伪数据的贝叶斯词义消歧方法 Download PDFInfo
- Publication number
- CN107357786A CN107357786A CN201710572187.6A CN201710572187A CN107357786A CN 107357786 A CN107357786 A CN 107357786A CN 201710572187 A CN201710572187 A CN 201710572187A CN 107357786 A CN107357786 A CN 107357786A
- Authority
- CN
- China
- Prior art keywords
- word
- msub
- mrow
- pseudo
- training corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明具体涉及一种新的基于大量伪数据的贝叶斯词义消歧方法,主要解决了当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题。本首先利用依存句法分析器,对训练语料库中包含歧义词的训练实例进行句法分析,收集与歧义词具有依存关系的元组,然后利用机器翻译系统,查找在机器翻译语料库中包含该元组的例句。如此反复进行,将查找出的例句加入伪训练语料库,随后利用训练语料库和伪训练语料库,训练一个贝叶斯消歧模型,最后,利用该消歧模型决策歧义词的词义,可以在少量人工标注语料的基础上,有效缓解词义消歧所面临的数据稀疏问题,提高词义消歧的准确率,该方法具有广阔的发展前景。
Description
技术领域
本发明属于自然语言处理技术领域,具体地说,涉及一种新的基于大量伪数据的贝叶斯词义消歧方法。
技术背景
词义消歧(Word Sense Disambiguation,WSD)是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在机器理解自然语言的过程中,当一个歧义词出现在特定的上下文中时,就会出现词语的歧义现象,尤其是在当前“信息爆炸”的互联网时代,词汇的歧义问题就显得更加严重。无论是汉语还是西方语言,一词多义的现象普遍存在。
目前,基于语料库的词义消歧方法可分为有监督和无监督方法。无监督方法不需要训练语料,但该方法的消歧效果却不尽如人意。有监督方法的消歧效果要明显优于无监督方法,但是面临较为严重的数据稀疏问题。为了解决此问题,很多学者开始研究自动生成有标注语料的方法。利用字典和大规模无标注的语料库自动生成有标注数据,然后采用有监督方法训练消歧模型,进行消歧。但是该方法同样存在问题:获取大规模、高质量的训练语料库费时费力。该问题严重阻碍了有监督词义消歧方法的大规模应用。
面对当前有监督词义消歧方法存在的问题,本发明专利充分利用互联网上丰富的数据资源,提出一种基于大量伪数据的贝叶斯词义消歧方法,力求能够缓解有监督方法面临的数据稀疏问题,提升词义消歧效果。
发明内容
本发明主要针对当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题,提供一种基于大量伪数据的贝叶斯词义消歧方法。
为解决上述技术问题,本发明采取的技术方案为:
本发明采用技术方案,如图1所示。首先利用依存句法分析器,对训练语料库中包含歧义词的训练实例进行句法分析,收集与歧义词具有依存关系的元组,然后利用机器翻译系统,查找在机器翻译语料库中包含该元组的例句。如此反复进行,将查找出的例句加入伪训练语料库,随后利用训练语料库和伪训练语料库,训练一个贝叶斯消歧模型,最后,利用该消歧模型决策歧义词的词义。具体为:
一种基于大量伪数据的贝叶斯词义消歧方法,包括以下步骤:
步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;已有研究表明,句中歧义词的词义可以根据句子的上下文推断出。通常,与歧义句中歧义词具有依存关系的元组决定了歧义词的词义。例如,训练语料库中歧义句“工程一号机组一次性点火成功”,歧义词“机组”有2个含义,分别是“机器”和“人员”。对该句进行依存句法分析,如图2所示。可以得出与“机组”具有句法关系(SBV,主谓关系)的元组是“号”和“点火”。由这些词可以判断,歧义词“机组”的含义是“机器”;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;将步骤1收集的依存元组输入机器翻译系统,如百度翻译或有道翻译,机器翻译系统不仅可以输出依存元组的译文,同时还可以找到许多包含该依存元组的双语例句,将这些双语例句与歧义词词义添加至伪训练语料库。机器翻译系统可以召回包含该元组的例句,这些例句包含了更多的消歧知识,可以扩充伪训练语料库。例如,将上一步返回的元组(机组,点火)输入机器翻译系统,召回包含该元组的部分例句,如图3、图4、图5所示。通过这些例句,可以找到更多与歧义词“机组”具有依存关系的词语,包括“大型”、“系统”、“等离子”、“同类”和“提供”等。在这些词语的搭配限制条件下,歧义词“机组”在句中的含义仍然是“机器”。将包含这些元组的例句加入伪训练语料库;
步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;根据步骤2的结果,分别将元组(大型,机组)、(机组,系统)、(机组,等离子)、(同类,机组)和(机组,提供)输入机器翻译系统。以(同类、机组)为例,可以返回更多包含该元组的例句,如“为调试同类机组提供了一种新的方法。”和“为我国设计同类机组提供了可靠的参数。”等等。从这些例句中可以找出其他依存元组(调试,机组)和(设计,机组),再将这些元组重新输入机器翻译系统,可以找到更多的包含该元组的例句,例如将元组(调试,机组)输入机器翻译系统,得到例句“调试和检修工作对运行机组造成干扰等。”和“为调试同类机组提供了一种新的方法。”,可以得出元组(运行,机组),(调试,机组)(同类,机组),其中后2个元组已经加入到伪训练语料库中,因此仅仅将包含第1个元组的例句加入语料库中。如此循环往复,直到满足某种条件为止。终止条件既可以是固定的循环次数,也可以是没有新的包含依存元组的例句加入为止。
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。
本发明采用贝叶斯模型进行消歧训练,如公式1所示。
公式(1)中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示与歧义词具有依存句法关系的上下文词语特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式(2)所示。
公式2中,c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
本发明将由机器翻译系统所召回的例句,构建伪训练语料库,综合利用训练语料库和伪训练语料库,进行词义消歧。伪训练语料库与人工语料相比,还有一定的噪声,应当发挥相对小的作用。在采用贝叶斯公式(1)进行词义决策时,通过两种类型的语料共同决策词义,在估计歧义词与特征的条件概率时,采用公式(3)计算:
公式3中,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数。cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数。λ用于调整伪训练语料对歧义词词义的影响,取值为0.8。
本发明采用以上技术方案,可以在少量人工标注语料的基础上,有效缓解词义消歧所面临的数据稀疏问题,提高词义消歧的准确率,该方法具有广阔的发展前景,会极大的促进诸如信息检索、机器翻译、语言识别、句法分析、文本处理等自然语言处理领域的发展,与传统的有监督词义消歧方法相比,准确率提高了7.35个百分点。
附图说明
图1为本发明所述基于大量伪数据的贝叶斯词义消歧方法的系统图;
图2为本发明歧义句的依存句法分析视图;
图3为本发明召回例句的依存句法分析视图a;
图4为本发明召回例句的依存句法分析视图b;
图5为本发明召回例句的依存句法分析视图c。
具体实施方式
下面将结合实例给出本发明的具体实现方案。“工程一号<word>机组</word>一次性点火成功”为训练语料,句子“风电<word>机组</word>系统分析关键技术研究”为测试语料,对测试语料的歧义词“机组”进行消歧处理。机组的含义分别是“机器”和“人员”。
本发明的一种基于大量伪数据的贝叶斯词义消歧方法,包括以下步骤:
步骤1、采用依存句法分析器对训练实例进行分析,收集与目标歧义词具有依存关系的元组,具体操作如下:
对该实例进行句法分析,如图2所示。得到依存关系元组(号,机组)和(机组,点火)。以第2个元组(机组,点火)为例说明方法工作原理;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的例句,并将其加入伪训练语料库,具体操作如下:
获取到包含元组(机组,点火)的例句如图3、图4、图5所示。收集与歧义词“机组”具有依存关系的词语,包括“同类”、“大型”、“系统”、“等离子”和“提供”等;
步骤3、重复步骤1、2,对所有的训练实例进行处理,同时将所有包含不重复依存元组的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库,具体操作如下:
以元组(同类,机组)为例,说明获取伪训练实例的过程。机器翻译系统召回包含该元组的例句:
“为调试同类机组提供了一种新的方法。”
“为我国设计同类机组提供了可靠的参数。
得到其他依存元组(调试,机组)和(设计,机组),再将这些元组重新输入机器翻译系统,可以找到更多的包含该元组的例句,例如将元组(调试,机组)输入机器翻译系统,得到例句:
“调试和检修工作对运行机组造成干扰等。”
“为调试同类机组提供了一种新的方法。”,
可以得出元组(运行,机组),(调试,机组)和(同类,机组),其中后2个元组已经加入到伪训练语料库中,因此仅仅将包含第1个元组的例句加入语料库。在该例子中,将方法的循环次数设定为3。循环结束后,召回的伪训练实例有:
大型机组点火系统供电技术的探讨。
大型机组等离子点火及稳燃技术的应用。
这些方法可为同类机组设计和使用等离子燃烧器点火提供参考。
为调试同类机组提供了一种新的方法。
为我国设计同类机组提供了可靠的参数。
调试和检修工作对运行机组造成干扰等。
这些伪训练实例中,歧义词“机组”的含义仍然是训练实例中歧义词的含义“机器”。
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义,
本发明采用贝叶斯模型进行消歧训练,如公式1所示。
公式(1)中,si表示歧义词词义,w-L...wL表示歧义词w0附近一定窗口大小L下的词语,fj表示与歧义词具有依存句法关系的上下文词语特征,F表示上下文的特征集合,p(fj|si)表示词义与特征的条件概率,计算如公式(2)所示。
公式2中,c(si)表示词义si在语料库中出现的次数,c(fj,si)表示特征fj与词义si在训练语料中的共现次数。
在采用贝叶斯公式(1)进行词义决策时,通过两种类型的语料共同决策词义,在估计歧义词与特征的条件概率时,采用公式(3)计算:
公式3中,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数。cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数。λ用于调整伪训练语料对歧义词词义的影响,取值为0.8。
具体操作如下:
根据公式(2),统计出词义(“人员”和“机器”)与特征的共现次数。特征fj不仅包括训练实例中与歧义词具有依存关系的词语(“号”、“点火”),还包括伪训练实例中的词语(“同类”、“大型”、“系统”、“等离子”和“提供”、“设计”、“运行”)。共现次数ct(fj,si)和cp(fj,si)在训练语料库中的统计结果如表1所示:
表1语料库中特征和词义的共现次数
此外,每个词义si在训练语料库和伪训练语料库中出现的次数ct(s人员)=10、ct(s机器)=10和cp(s人员)=10、cp(s机器)=10。
将测试实例输入有监督模型,综合利用训练语料库和伪训练语料库,共同决策歧义词的词义。
对测试实例进行句法分析,找到与歧义词“机组”具有依存关系的词语“系统”,并将其作为上下文特征词语。在表1中,分别找出歧义词词义“人员”和“机器”在这些特征下的共现次数。
公式(3)中的λ值在语料库中估计,取值为0.8。利用公式(3)计算得出概率和另外,歧义词词义出现的概率为和根据公式(1),计算得出因此,最大概率的歧义词词义为“机器”,并将该词义标记为测试实例歧义词的最终词义,完成词义消歧。
以上所述仅为本发明的优选实施方式而已。上述实施方式并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (3)
1.一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:
步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;
步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;
步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;
步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。
2.根据权利要求1所述的一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤2中的机器翻译系统为百度翻译或有道翻译。
3.根据权利要求1或2所述的一种新的基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤4中利用贝叶斯消歧模型决策测试实例中歧义词的词义时,在估计词义和特征的条件概率时,由以下公式计算得出:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>c</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>c</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>+</mo>
<mi>&lambda;</mi>
<mfrac>
<mrow>
<msub>
<mi>c</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>c</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
公式中,p(fj|si)表示词义与特征的条件概率,ct(fj,si)表示词义si与特征fj在训练语料中的共现次数,ct(si)表示词义si在训练语料中的出现次数,cp(fj,si)表示特征与歧义词在伪训练语料中的共现次数,cp(si)表示词义si在伪训练语料中出现次数,λ取值范围为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710572187.6A CN107357786A (zh) | 2017-07-13 | 2017-07-13 | 一种基于大量伪数据的贝叶斯词义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710572187.6A CN107357786A (zh) | 2017-07-13 | 2017-07-13 | 一种基于大量伪数据的贝叶斯词义消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107357786A true CN107357786A (zh) | 2017-11-17 |
Family
ID=60291880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710572187.6A Pending CN107357786A (zh) | 2017-07-13 | 2017-07-13 | 一种基于大量伪数据的贝叶斯词义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357786A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和系统 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074630A1 (en) * | 2004-09-15 | 2006-04-06 | Microsoft Corporation | Conditional maximum likelihood estimation of naive bayes probability models |
US7171351B2 (en) * | 2002-09-19 | 2007-01-30 | Microsoft Corporation | Method and system for retrieving hint sentences using expanded queries |
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
CN102982063A (zh) * | 2012-09-18 | 2013-03-20 | 华东师范大学 | 一种基于关系关键词扩展的元组精化的控制方法 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
-
2017
- 2017-07-13 CN CN201710572187.6A patent/CN107357786A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7171351B2 (en) * | 2002-09-19 | 2007-01-30 | Microsoft Corporation | Method and system for retrieving hint sentences using expanded queries |
US20060074630A1 (en) * | 2004-09-15 | 2006-04-06 | Microsoft Corporation | Conditional maximum likelihood estimation of naive bayes probability models |
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
CN102982063A (zh) * | 2012-09-18 | 2013-03-20 | 华东师范大学 | 一种基于关系关键词扩展的元组精化的控制方法 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
Non-Patent Citations (2)
Title |
---|
卢志茂 等: "基于依存分析改进贝叶斯模型的词义消歧", 《高技术通讯》 * |
车超: "知识自动获取的词义消歧方法", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和系统 |
CN109614620B (zh) * | 2018-12-10 | 2023-01-17 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和系统 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN110532568B (zh) * | 2019-09-05 | 2022-07-01 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Structural semantic relatedness: a knowledge-based method to named entity disambiguation | |
Hazem et al. | Word embedding approach for synonym extraction of multi-word terms | |
CN109145260A (zh) | 一种文本信息自动提取方法 | |
CN103473280A (zh) | 一种网络可比语料的挖掘方法及装置 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN106598947A (zh) | 一种基于同义词扩展的贝叶斯词义消歧方法 | |
Naser-Karajah et al. | Current trends and approaches in synonyms extraction: Potential adaptation to arabic | |
Yun et al. | A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts | |
CN107357786A (zh) | 一种基于大量伪数据的贝叶斯词义消歧方法 | |
Singh et al. | Statistical tagger for Bhojpuri (employing support vector machine) | |
Jiang et al. | Word network topic model based on Word2Vector | |
CN105260483A (zh) | 一种面向微博文本的跨语言话题检测装置及方法 | |
Benaissa et al. | Building ontology from texts | |
Ge et al. | The research on topic detection of microblog based on TC-LDA | |
CN103631771A (zh) | 改进语言模型的方法及装置 | |
Yuan et al. | Tibetan-Chinese cross language text similarity calculation based on LDA topic model | |
Song et al. | A Preliminary Empirical Study on Prompt-based Unsupervised Keyphrase Extraction | |
Wang | Intelligent English Automatic Translation System Based on Improved GLR Algorithm | |
Liu et al. | Research on Automatic Proofreading Method of Clinical Terminology of Traditional Chinese Medicine | |
Li et al. | Chinese text sentiment classification based on LSTM word-tag relational network model | |
Yuan et al. | Research on cross-language text similarity calculation | |
Zhang et al. | Research on the Application of Computer Artificial Intelligence Machine Translation System in the Sci-tech Journals | |
Xue et al. | Research of Chinese Keyword Extraction Based on Weibo Information | |
Tang | A data-driven taxonomy of self-repairs in Chinese-English consecutive interpreting | |
Sun et al. | Word Sense Disambiguation Method Based on Graph Model and Word Vector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171117 |