CN108073570A - 一种基于隐马尔可夫模型的词义消歧方法 - Google Patents
一种基于隐马尔可夫模型的词义消歧方法 Download PDFInfo
- Publication number
- CN108073570A CN108073570A CN201810006804.0A CN201810006804A CN108073570A CN 108073570 A CN108073570 A CN 108073570A CN 201810006804 A CN201810006804 A CN 201810006804A CN 108073570 A CN108073570 A CN 108073570A
- Authority
- CN
- China
- Prior art keywords
- word
- mrow
- msub
- sense
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
基于隐马尔可夫模型的词义消歧方法,步骤如下:1)训练语料,利用SemEval‑2007#task5的测试语料集合对待消歧的句子进行解析;再对该句子进行分词处理;2)分词后找到句子中的歧义词,提取目标歧义词及其左右两侧的分词;训练语料,计算语义类‑词汇转移概率和语义类转移概率;3)从人工标注语料中提取包含歧义词的句子数,计算观测概率,计算歧义词左右两侧词汇的观测概率;4)利用前面语料训练出来的数值计算状态转移概率,提取到的初始状态概率、观测概率与状态转移概率,作为隐马尔可夫模型参数,将构建好的消歧模型,对测试语料中的语句进行消歧;5)利用相似度计算方法验证消歧结果的准确性。
Description
技术领域
本发明涉及基于词典与机器学习理论的词义消歧方法,该方法在自然语言处理的问题上有较好的应用,如:机器翻译、信息抽取、语音识别和句法分析等,具有很强的扩展性与灵活性。
背景技术
自然语言中存在着大量的多义词,在不同的场景中,表达的含义不尽相同,如何在给定的上下文中,确定其中各个歧义词对应哪个词义作为该词的正确词义,是词义消歧所要解决的问题。一般处理词义消歧,如果这个歧义词的多个词义之间对应的词性不同,则选用正确的词义匹配,可以在词性标注阶段完成。目前,词义消歧广泛应用于自然语言处理领域,如:机器翻译、语义搜索、文本主题分析以及语音识别等。
语义词典给词义消歧的研究提供了语义支持,词典给出了词语的语义区分。WordNet是常见的英语词义词典,中文一般使用的词典有HowNet以及北京大学的“现代汉语语义词典”等。除了上述词典外,词义标注语料库标注了词的不同语义在文本中的使用情况,为后期有监督的词义消歧研究提供了数据支持,但是中文的词义标注语料库所收纳的歧义词相对较少,数据与特征决定算法上限,很大程度影响了词义消歧的结果。常见的英文词义标注语料库:Semcor(普林斯顿大学标注)和DSO(新加坡国立大学标注);中文的词义标注语料库有哈尔滨工业大学与北京大学标注的词义消歧语料库。
(1)有监督词义消歧方法
有监督的词义消歧方法是用词义标注语料来训练词义消歧分类器,基于机器学习算法建立词义消歧模型。有监督的词义消歧方法的研究重点在于提取特征,也就是提取歧义词上下文特征,可以归纳为三种类型:1、待消解词上下窗口内(也就是词的上下文)出现的词及其词性;2、句法特征利用待消解词在上下文中的句法关系特征;3、语义特征在句法关系基础上添加了语义类信息,甚至是语义角色标注类信息。
词义消歧模型的训练需要大量词义标注语料数据,但是构建词义标注语料库需要投入大量的人力物力。由于语料库数据的不足,模型参数数据较为稀疏,使得该消歧方法不足以支撑大量消歧任务。典型的有监督词义消歧方法有决策树与朴素贝叶斯,这里简单介绍下贝叶斯模型。
贝叶斯分类器是以贝叶斯理论为基础的消歧概率模型,是贝叶斯公式的推广,适合处理单点分类问题。该模型是根据语义Si所处的上下文信息Contextj的条件概率(先验概率推导后验概率)来确定歧义词的语义。贝叶斯模型应用于词义消歧当中,表述如下所示:
上式中,P(Si)与P(Contextj|Si)需要通过大量的语料训练得到,其中,P(Si)表示歧义词语义为Si的发生概率,而P(Contextj|Si)表示歧义词在给定语义Si的前提下选择上下文为Contextj的条件概率;如果语料中没有这个词的语义,则需要进行特殊处理。
(2)无监督词义消歧方法
相对于有监督的消歧算法而言,无监督词义消歧方法在不需要任何人工标注语料前提下利用聚类方法进行消歧,该方法实际上是将词义消歧看作是语义上的聚类问题。词义消歧常用的聚类算法有最大期望算法(Expectation Maximization,EM)和合并聚类算法(Agglomerative Clustering)。其中,EM算法通过利用反复迭代的方式来寻找概率模型参数的最大似然估计;合并聚类算法思想是使每个样本对应于一个类别集合,循环合并类别相似的集合来达到分类效果。
(3)深度学习方法
随着深度学习的发展,在自然语言处理领域上的应用愈发广泛,基于深度学习的词义消歧方法成为这一领域的热点。深度学习较机器学习避免了人工特征的提取,它可以将浅层的简单特征融合成复杂的特征,这样极大程度上减少了很多特征工程方面的工作量。
发明内容
本发明目的是,提出一种基于隐马尔可夫模型的词义消歧方法,利用基于深度学习的词义消歧方法;能够减少很多特征工程方面的工作量;相对于传统的基于词形消歧模型,隐马尔可夫模型的准确性会有很大提升。
本发明技术方案是,基于隐马尔可夫模型的词义消歧方法,可以参考大致流程如下图1:图1基于隐马尔可夫模型的词义消歧流程图。
步骤1训练语料,利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析;再对该句子进行分词处理;
步骤2分词后找到句子中的歧义词,提取目标歧义词及其左右两侧的分词;训练语料,计算语义类-词汇转移概率和语义类转移概率;
步骤3从(哈尔滨工业大学)人工标注语料中提取包含歧义词wordk的句子数Num(Sentence(wordk)),以及该词汇wordk对应的语义为sensej的句子数Num(sensej,wordk),计算观测概率P(wordk|sensej)(观测概率是词本身出现的概率,即在给定语义类sensej的前提下,产生词汇wordk的概率,具体计算参照下文实施方式);以同样的方式计算歧义词左右两侧词汇的观测概率,由语料库可以确定语义状态集合S(状态集合即是待消歧词语义的集合);
步骤4利用前面语料训练出来的数值计算状态转移概率P(sensei|sensej)(状态转移概率表示人工标注语料中语义类sensej出现在语义类sensei左侧的概率,也就是说在给定左侧词汇的语义类sensej的前提下,当前词汇的语义为sensei的概率,具体计算参照下文实施方式),提取到的初始状态概率、观测概率与状态转移概率,作为隐马尔可夫模型参数λ,将构建好的消歧模型,对测试语料中的语句进行消歧;
步骤5利用相似度计算方法验证消歧结果的准确性。
有益效果,本发明面向有监督学习的语义类预测问题,提出一种基于隐马尔可夫模型的词义消歧方法,相对于传统的基于词形消歧模型,隐马尔可夫模型的准确性有了很大提升。在后期检验中,消歧模型将词汇的语义类代码作为特征,同时考虑了代消歧词左右两个词汇的语义类别进行消歧,相对于传统词形模型正确率提高10%以上。
附图说明
图1基于隐马尔可夫模型的词义消歧流程图。
具体实施方式
根据以上所述的流程图,具体阐述本发明的实施方案。这里的实施方式仅为示例,基于本发明技术实质所做的等同变化,仍落入本发明保护范围。
预测问题的求解框架:在给定隐马尔可夫模型λ=(A,B,π)(A和π是语义类序列,B是词汇序列)和观测序列O=(o1,o2,…,on)的情况下,求解观测序列的条件概率P(Q|O)最大的隐藏状态序列,也就是语义序列。前面的概率是通过语料训练得到,隐藏序列的求解一般采用Viterbi算法,即是用动态规划解隐马尔可夫模型预测问题。
步骤1利用(哈工大)人工语义标注语料作为训练语料估计隐马尔可夫模型参数,同时,将SemEval-2007#task5作为测试集检验模型的优劣。
步骤2先将目标语句分词,在python中调用jieba函数包进行分词;以歧义词为中心向两侧提取成对特征的词窗,表现的形式为Word-n,…Word-1,Word0,Word1,…,Wordn。其中,Word0为目标歧义词,Word-n与Wordn分别表示目标歧义词左右侧第n个词汇。
步骤3隐马尔可夫模型λ=(S,W,A,B,π),S为包含有歧义词句子中所有词汇语义的集合,这里的语义代码是相互联系的,可以从一个语义转移到另一语义,即状态转移;W为包含有歧义词句子中所有词汇的集合;A=[aij]是状态转移概率矩阵;B=[bjk]是观测概率矩阵,即是观测状态产生隐藏状态的概率矩阵,也称为混淆矩阵;π为初始状态概率。
基于隐马尔可夫模型词义消歧方法是在已知模型λ=(S,W,A,B,π)(S为包含歧义词句子的所有词汇语义的集合;W为包含有歧义词句子的所有词汇的集合)、观测序列Wn=word1,word2,…,wordn,求解隐藏序列Sn=sense1,sense2,…,sensen,使得条件概率P(Sn|Wn)最大,故有:
在这里,P(Sn)为语义序列的出现概率,即隐藏状态序列Sn的出现概率,P(Wn)为词汇序列的出现概率,即观测序列Wn的出现概率。
步骤4隐马尔可夫中的两个关键参数观测概率矩阵B=[bjk]和状态转移矩阵A=[aij],是通过训练语料确定参数。
状态转移概率aij计算如下:
词汇wordk选择语义类sensek的观测概率bjk的计算如下:
步骤5在测试语料中,“同义词词林”涵盖大部分的歧义词,而每个歧义词都会对应语义类代码编码。词义消歧方法的性能评定是通过测试语料歧义词语义与词林语义编码的相似度计算进行确定。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。
Claims (3)
1.基于隐马尔可夫模型的词义消歧方法,其特征是步骤如下:
步骤1 训练语料,利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析;再对该句子进行分词处理;
步骤2 分词后找到句子中的歧义词,提取目标歧义词及其左右两侧的分词;训练语料,计算语义类-词汇转移概率和语义类转移概率;
步骤3 从人工标注语料中提取包含歧义词wordk的句子数Num(Sentence(wordk)),以及该词汇wordk对应的语义为sensej的句子数Num(sensej,wordk),计算观测概率P(wordk|sensej),观测概率是词本身出现的概率,即在给定语义类sensej的前提下,产生词汇wordk的概率;以同样的方式计算歧义词左右两侧词汇的观测概率,由语料库确定语义状态集合S,状态集合S即是待消歧词语义的集合;
步骤4 利用前面语料训练出来的数值计算状态转移概率P(sensei|sensej),状态转移概率表示人工标注语料中语义类sensej出现在语义类sensei左侧的概率,也就是说在给定左侧词汇的语义类sensej的前提下,当前词汇的语义为sensei的概率,提取到的初始状态概率、观测概率与状态转移概率,作为隐马尔可夫模型参数λ,将构建好的消歧模型,对测试语料中的语句进行消歧;
步骤5 利用相似度计算方法验证消歧结果的准确性。
2.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法,其特征是步骤1中,利用哈工大人工语义标注语料作为训练语料估计隐马尔可夫模型参数,同时,将SemEval-2007#task5作为测试集检验模型的优劣;
先将目标语句分词,在python中调用jieba函数包进行分词;
步骤2中,以歧义词为中心向两侧提取成对特征的词窗,表现的形式为Word-n,…Word-1,Word0,Word1,…,Wordn;其中,Word0为目标歧义词,Word-n与Wordn分别表示目标歧义词左右侧第n个词汇。
3.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法,其特征是步骤4中,隐马尔可夫模型λ=(S,W,A,B,π),S为包含有歧义词句子中所有词汇语义的集合,这里的语义代码是相互联系的,可以从一个语义转移到另一语义,即状态转移;W为包含有歧义词句子中所有词汇的集合;A=[aij]是状态转移概率矩阵;B=[bjk]是观测概率矩阵,即是观测状态产生隐藏状态的概率矩阵,也称为混淆矩阵;π为初始状态概率;
基于隐马尔可夫模型词义消歧方法是在已知模型λ=(S,W,A,B,π)、观测序列Wn=word1,word2,…,wordn,求解隐藏序列Sn=sense1,sense2,…,sensen,使得条件概率P(Sn|Wn)最大,故有:
<mrow>
<munder>
<mi>argmax</mi>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mo>|</mo>
<msub>
<mi>W</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>argmax</mi>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
</munder>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>n</mi>
</msub>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>&ap;</mo>
<munder>
<mi>argmax</mi>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>n</mi>
</msub>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
隐马尔可夫中的两个关键参数观测概率矩阵B=[bjk]和状态转移矩阵A=[aij],是通过训练语料确定参数;
状态转移概率aij计算如下:
<mrow>
<msub>
<mi>a</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sense</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>sense</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sense</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>.</mo>
</mrow>
词汇wordk选择语义类sensek的观测概率bjk的计算如下:
<mrow>
<msub>
<mi>b</mi>
<mrow>
<mi>j</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>sense</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>word</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>word</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>.</mo>
</mrow>
在测试语料中,“同义词词林”涵盖大部分的歧义词,而每个歧义词都会对应语义类代码编码;词义消歧方法的性能评定是通过测试语料歧义词语义与词林语义编码的相似度计算进行确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006804.0A CN108073570A (zh) | 2018-01-04 | 2018-01-04 | 一种基于隐马尔可夫模型的词义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006804.0A CN108073570A (zh) | 2018-01-04 | 2018-01-04 | 一种基于隐马尔可夫模型的词义消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108073570A true CN108073570A (zh) | 2018-05-25 |
Family
ID=62156301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810006804.0A Pending CN108073570A (zh) | 2018-01-04 | 2018-01-04 | 一种基于隐马尔可夫模型的词义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073570A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109657242A (zh) * | 2018-12-17 | 2019-04-19 | 中科国力(镇江)智能技术有限公司 | 一种汉语冗余义项自动消除系统 |
CN110489544A (zh) * | 2019-06-24 | 2019-11-22 | 厦门美域中央信息科技有限公司 | 一种基于马尔可夫链的语料库文本分类方法 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113343670A (zh) * | 2021-05-26 | 2021-09-03 | 武汉大学 | 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法 |
CN114492426A (zh) * | 2021-12-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
WO2023202170A1 (zh) * | 2022-04-21 | 2023-10-26 | 北京沃东天骏信息技术有限公司 | 产品词的消歧方法和装置 |
CN117079669A (zh) * | 2023-10-17 | 2023-11-17 | 博上(山东)网络科技有限公司 | 一种针对低嵌入率lsb音频隐写的特征向量提取方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
-
2018
- 2018-01-04 CN CN201810006804.0A patent/CN108073570A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
Non-Patent Citations (3)
Title |
---|
于江德 等: "隐马尔可夫模型在自然语言处理中的应用", 《计算机工程与设计》 * |
孙彦晨: "基于隐马尔可夫模型的中文词义消歧方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
麦范金 等: "基于双向最大匹配和HMM的分词消歧模型", 《现代图书情报技术》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555208A (zh) * | 2018-06-04 | 2019-12-10 | 北京三快在线科技有限公司 | 一种信息查询中的歧义消除方法、装置及电子设备 |
CN109214007A (zh) * | 2018-09-19 | 2019-01-15 | 哈尔滨理工大学 | 一种基于卷积神经网络的汉语句子词义消岐方法 |
CN109388803A (zh) * | 2018-10-12 | 2019-02-26 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN109388803B (zh) * | 2018-10-12 | 2023-09-15 | 北京搜狐新动力信息技术有限公司 | 中文分词方法及系统 |
CN109543151A (zh) * | 2018-10-31 | 2019-03-29 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109543151B (zh) * | 2018-10-31 | 2021-05-25 | 昆明理工大学 | 一种提高老挝语词性标注准确率的方法 |
CN109657242A (zh) * | 2018-12-17 | 2019-04-19 | 中科国力(镇江)智能技术有限公司 | 一种汉语冗余义项自动消除系统 |
CN109657242B (zh) * | 2018-12-17 | 2023-05-05 | 中科国力(镇江)智能技术有限公司 | 一种汉语冗余义项自动消除系统 |
CN110489544A (zh) * | 2019-06-24 | 2019-11-22 | 厦门美域中央信息科技有限公司 | 一种基于马尔可夫链的语料库文本分类方法 |
CN110532568A (zh) * | 2019-09-05 | 2019-12-03 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN110532568B (zh) * | 2019-09-05 | 2022-07-01 | 哈尔滨理工大学 | 基于树特征选择和迁移学习的汉语词义消歧方法 |
CN111177402A (zh) * | 2019-12-13 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN111177402B (zh) * | 2019-12-13 | 2023-09-22 | 中移(杭州)信息技术有限公司 | 基于分词处理的评价方法、装置、计算机设备及存储介质 |
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113343670A (zh) * | 2021-05-26 | 2021-09-03 | 武汉大学 | 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法 |
CN113343670B (zh) * | 2021-05-26 | 2023-07-28 | 武汉大学 | 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法 |
CN114492426B (zh) * | 2021-12-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
CN114492426A (zh) * | 2021-12-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
WO2023202170A1 (zh) * | 2022-04-21 | 2023-10-26 | 北京沃东天骏信息技术有限公司 | 产品词的消歧方法和装置 |
CN117079669A (zh) * | 2023-10-17 | 2023-11-17 | 博上(山东)网络科技有限公司 | 一种针对低嵌入率lsb音频隐写的特征向量提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073570A (zh) | 一种基于隐马尔可夫模型的词义消歧方法 | |
Yasunaga et al. | Robust multilingual part-of-speech tagging via adversarial training | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN106383817B (zh) | 利用分布式语义信息的论文标题生成方法 | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
US20080221863A1 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN110059185A (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN105808525A (zh) | 一种基于相似概念对的领域概念上下位关系抽取方法 | |
CN108062305B (zh) | 一种基于迭代的三步式无监督中文分词方法 | |
CN111243699A (zh) | 基于字词信息融合的中文电子病历实体抽取方法 | |
CN110175246A (zh) | 一种从视频字幕中提取概念词的方法 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN110532568B (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
Taslimipoor et al. | Shoma at parseme shared task on automatic identification of vmwes: Neural multiword expression tagging with high generalisation | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN110084297A (zh) | 一种面向小样本的影像语义对齐结构 | |
CN108287825A (zh) | 一种术语识别抽取方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN108491375B (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 | |
CN112836062B (zh) | 一种文本语料库的关系抽取方法 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
Bölücü et al. | Bidirectional lstm-cnns with extended features for named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180525 |
|
RJ01 | Rejection of invention patent application after publication |