CN107797994A - 基于约束条件随机场的越南语名词组块识别方法 - Google Patents
基于约束条件随机场的越南语名词组块识别方法 Download PDFInfo
- Publication number
- CN107797994A CN107797994A CN201710883347.9A CN201710883347A CN107797994A CN 107797994 A CN107797994 A CN 107797994A CN 201710883347 A CN201710883347 A CN 201710883347A CN 107797994 A CN107797994 A CN 107797994A
- Authority
- CN
- China
- Prior art keywords
- noun
- vietnamese
- chunk
- constraints
- random field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000000463 material Substances 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000007619 statistical method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 13
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 238000013519 translation Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000000877 morphologic effect Effects 0.000 abstract description 2
- 238000009472 formulation Methods 0.000 abstract 1
- 239000000203 mixture Substances 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于约束条件随机场的越南语名词组块识别方法,属于自然语言处理技术领域。本发明首先构建越南语名词组块语料库;从语料库中统计出名词组块的词性特点,制定出约束条件;其次运用条件随机场对名词组块语料进行训练,得到初步的条件随机场识别模型;再加入制定的约束条件,获得最终的约束条件随机场识别模型;根据名词组块识别模型参数序列来对越南语名词组块进行识别,得到最终识别结果序列。本发明对越南语名词组块实现了有效的识别,为词法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑。
Description
技术领域
本发明涉及基于约束条件随机场的越南语名词组块识别方法,属于自然语言处理技术领域。
背景技术
名词组块识别是自然语言处理(Natural language processing,简称“NLP”)过程中一项基础且重要的任务,其可以降低句法分析的复杂性,对提高机器翻译的性能和效率有着极其重要的作用。名词短语识别是为了从非结构化的文本中自动抽取特定的结构化信息,其作用至关重要;组块识别最初是由Stenven Abney提出的,其首次发现了组块比单词更能体现文本内所含信息。直到1995年Lance Ramshaw和Mitch Marcus提出了使用机器学习的方法解决分块的方法,取得了很好的效果。随后有大批学者进行了深入地研究后发现,如果掌握了文本中的名词短语,就可以在很大程度上把握文本的主要意思,从而可以由简到繁,循序渐进地进行句法分析,大大降低句法分析的难度。名词短语识别对于句子的各种分析都得到了简化;名词短语识别与分析对于自然语言处理领域中的许多应用研究都具有重要的实践意义,例如关键词识别、命名实体识别、自动文摘、语义分析、机器翻译、问答系统等等。因此,对于自然语言处理中的名词短语识别工作显得更加迫在眉睫。
发明内容
本发明提供了基于约束条件随机场的越南语名词组块识别方法,以用于解决越南语名词组块的识别的问题,降低了句法分析的复杂性,提高后续任务的性能和效率。
本发明的技术方案是:基于约束条件随机场的越南语名词组块识别方法,所述基于方法的具体步骤如下:
Step1、构建名词组块语料库:首先从越南语网站爬取文本语料,经过分词、词性标注、人工标记名词短语,然后再经过人工校对、标记、去重形成越南语名词组块语料库;越南语名词组块语料库中部分语料用于构建约束条件、作为训练语料及测试语料;
Step2、构建约束条件:从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件;
Step3、构建基于约束条件随机场的越南语名词组块识别模型:首先用条件随机场通过训练语料进行训练,得到标记序列模型,在观察序列进行解码时加入约束条件,得到越南语名词组块识别模型参数序列,从而建立基于约束条件随机场的越南语名词组块识别模型;
Step4、把待识别的越南语名词组块测试语料,放入基于约束条件随机场的越南语名词组块识别模型中,根据名词组块识别模型参数序列来对越南语名词组块进行识别,得到最终识别结果。
所述步骤Step1中,获得越南语名词组块的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、使用词性标注工具对Step1.1中获得的分词语料进行标注,得到含有词性标注语料;
Step1.3、使用组块标记工具对Step1.2中获得的词性标注语料进行组块标记,结合从VLSP 网站搜集的一部分组块语料,通过越南专家,人工从语料中挑选出名词组块,构建出越南语名词组块语料库。
所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
所述步骤Step2中,从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件,具体步骤为;
Step2.1、通过收集、筛选Step1中获得的越南语名词组块语料,导入到数据库中保存;
Step2.2、在数据库中保存到语料,通过去重、去杂操作,得到单一的越南语名词组块,即在查找数据表中每个组块只出现一次,在出现的名词组块列表中,经过人工统计分析,得到最常出现的9种名词组块组合形式;
本发明考虑到得到的越南语名词组块语料中存在一些重复、无效标签等噪音,这些噪音是无效的。因此,要通过去重、去杂等操作去除,得到只含有越南语的高质量的文本级名词组块语料,存放在数据库是为了能方便数据的管理和下一步工作使用。制定约束条件过程,是越南语名词组块识别工作的基础,是不可缺少的一步。从网上搜集到越南语组块之后,需要人工校对,之后存放到数据库为了能方便数据的管理和统计分析,总结出名词组块组合形式。
本发明中制定约束条件,是越南语命名实体识别工作的基础,是不可缺少的一步,名词组块类型有利于识别名词组块构成的形式,因此,本发明需要对名词组块语料库中名词组块形式进行统计分析。
Step2.3、然后根据统计分析的9种名词组块形式,制定出9种约束条件:名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词+动词、名词+代词、副词+连词+ 形容词、数词+名词、代词+连词+代词。
所述步骤Step1中,越南语名词组块语料库中全部语料按照4:1的比例分别得到训练语料、测试语料。
所述步骤Step3中,在用条件随机场训练过程中,在观察序列进行解码时加入约束的 Viterbi算法,即该序列经过Viterbi算法计算之后,最终得到一条全局最优状态序列。
本发明的有益效果是:
1、本发明对越南语的名词组块的识别做了较好的识别效果,特别是构建的越南语名词组块条件,做了大量的实验前准备工作,提出的9种名词组块组合规则,最终通过本发明提出的实验方法,能对越南语名词组块进行有效的识别;
2、本发明能对越南语名词组块进行有效的识别,提升实体识别、搜索引擎等应用的准确率,同时能提高越南语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果。
附图说明
图1为本发明中的整体流程图;
图2为本发明中约束条件随机场(CCRF)解码示意图。
具体实施方式
实施例1:如图1-2所示,基于约束条件随机场的越南语名词组块识别方法,所述方法的具体步骤如下:
Step1、构建名词组块语料库:首先从越南语网站爬取文本语料,经过分词、词性标注、人工标记名词短语,然后再经过人工校对、标记、去重形成越南语名词组块语料库;越南语名词组块语料库中部分语料用于构建约束条件、作为训练语料及测试语料;
Step2、构建约束条件:从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件;
Step3、构建基于约束条件随机场的越南语名词组块识别模型:首先用条件随机场通过训练语料进行训练,得到标记序列模型,在观察序列进行解码时加入约束条件,得到越南语名词组块识别模型参数序列,从而建立基于约束条件随机场的越南语名词组块识别模型;
Step4、把待识别的越南语名词组块测试语料,放入基于约束条件随机场的越南语名词组块识别模型中,根据名词组块识别模型参数序列来对越南语名词组块进行识别,得到最终识别结果。
作为本发明的进一步方案,所述步骤Step1中,获得越南语名词组块的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、使用词性标注工具对Step1.1中获得的分词语料进行标注,得到含有词性标注语料;
Step1.3、使用组块标记工具对Step1.2中获得的词性标注语料进行组块标记,结合从VLSP 网站搜集的一部分组块语料,通过越南专家,人工从语料中挑选出名词组块,构建出越南语名词组块语料库。
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同方面的题材的语料,例如:新闻、政治、经济和文化等方面,这样做因为没有公布的越南语名词组块语料,只能通过这些步骤才能得到,实验所需的名词组块语料。
作为本发明的进一步方案,所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
本发明考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有越南语的高质量的文本级语料。
作为本发明的进一步方案,所述步骤Step2中,从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件,具体步骤为;
Step2.1、通过收集、筛选Step1中获得的越南语名词组块语料,导入到数据库中保存;
Step2.2、在数据库中保存到语料,通过去重、去杂操作,得到单一的越南语名词组块,即在查找数据表中每个组块只出现一次,在出现的名词组块列表中,经过人工统计分析,得到最常出现的9种名词组块组合形式;
本发明考虑到得到的越南语名词组块语料中存在一些重复、无效标签等噪音,这些噪音是无效的。因此,要通过去重、去杂等操作去除,得到只含有越南语的高质量的文本级名词组块语料,存放在数据库是为了能方便数据的管理和下一步工作使用。制定约束条件过程,是越南语名词组块识别工作的基础,是不可缺少的一步。从网上搜集到越南语组块之后,需要人工校对,之后存放到数据库为了能方便数据的管理和统计分析,总结出名词组块组合形式。
本发明中制定约束条件,是越南语命名实体识别工作的基础,是不可缺少的一步,名词组块类型有利于识别名词组块构成的形式,因此,本发明需要对名词组块语料库中名词组块形式进行统计分析。
Step2.3、然后根据统计分析的9种名词组块形式,制定出9种约束条件:
如表1所示:
表1制定约束条件列表
本发明中根据越南语言和名词组块构成特点,提取出有效的名词组块组合规则。主要包含9中约束条件:名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词 +动词、名词+代词、副词+连词+形容词、数词+名词、代词+连词+代词。
所述步骤Step2.2中,提取的越南语名词组块9种条件特征主要是从其语法特点获得,其中越南语名词组块语法特点包含4种,如表2所示:
表2越南语名词组块语法特点
本发明中为了得到较好对约束条件,对越南语名词组块语法特点进行了详细的分析,主要总结了4个语法特点:1、前面一般能加数词;2、后面一般能加指示代词;3、一般不与副词结合;4、经常做主语和补语。并对这些语法特点进行了详细对解释及举例。
作为本发明的进一步方案,所述步骤Step1中,越南语名词组块语料库中全部语料按照 4:1的比例分别得到训练语料、测试语料。
作为本发明的进一步方案,所述步骤Step3中,在用条件随机场训练过程中,在观察序列进行解码时加入约束的Viterbi算法,这种约束体现在必须包含一些子路径C=<yi,yi+1,......>,即该序列应经过yt,最终找到一条全局最优状态序列。对于所有的yq∈C,如下公式所示:
其中,符号yj=yq表示yj满足约束yq,该式均成立;当某一时刻状态不受C限制时,式成立。约束的Viterbi算法如图2所示。其中,n代表观察序列x的个数,m代表每个x元素可取的标签种类,wij(1≤i≤n,1≤j≤m)代表xi取标签yj,Start和End代表路径的起点和重点。图2中,wij即为用户词典中xi指定类别yj的命名实体。该序列经过Viterbi算法计算之后,最终得到一条全局最优状态序列。得到越南语名词组块识别模型参数序列,从而建立基于约束条件随机场的越南语名词组块识别模型。
在本发明中,此设计是本发明的重要组成部分,主要结合越南语名词组块特性,生成基于约束条件随机场的识别模型。主要包括语料的预处理过程;越南语语料进行分词、词性标注、名词组块标注语料,根据越南语言和语法特点,选取制定有效的约束条件;根据已标记的语料和选取的有效规则,生成模型训练时所需要的样式;使用约束条件随机场的方法进行建模。
从名词组块语料库中取出名词组块测试语料;这些待识别的名词组块最好是没有包含在训练语料当中,这样为了测试识别模型的正确率,
正确率是评价一个模型被识别出来的正确个数与总个数的比值,可以用来衡量模型的好坏;本发明主要从三个方面来评价本次实验的效果:正确率(Precision,简称P)、召回率(Recall, 简称R)、F值,将35864条词语料主要分为五份,其中80%用于约束条件随机场的训练,20%用于模型的测试,实验评价标准定义如下:
为了将约束条件随机场模型与条件随机场模型对比,以检验所添加的约束条件有效果。随机挑选5万词越南语名词组块语料,其余15万词做为训练语料,分别用约束条件随机场与条件随机场进行实验,最终结果如表3所示。
表3条件随机场与约束条件随机场对比实验(%)
P | R | F | |
CRF | 82.72 | 82.62 | 82.67 |
CCRF | 86.34 | 87.11 | 86.72 |
由表3可以看出,添加约束条件的CCRF的准确率、召回率、F值都比CRF结果要好,结果表明所添加的约束条件能提高越南语名词组块识别率,同时也表明了,所构建的约束条件的有效性,约束条件对名词组块的识别有一定的影响。
为了评估所使用的约束条件随机场识别越南语名词组块的效果,将所获取到的约20万词越南语名词组块词语料,每组分成五份,其中一份做测试语料,其他四份做为训练语料,分别做约束条件随机场模型(CCRF)、支持向量机模型(SVM)、最大熵模型(ME)做五倍交叉实验,然后求各组平均准确率。三类分类器识别结果如表4所示。
表4约束条件随机场与各分类器对比实验(%)
P | R | F | |
SVM | 81.47 | 80.64 | 81.04 |
ME | 79.75 | 76.58 | 78.12 |
CCRF | 86.34 | 87.11 | 86.72 |
由表4可以看出,CRF比ME和SVM实验效果好,ME不如CRF是因为,ME存在标注偏置问题,是因为由于分支数不同,概率的分布不均衡,导致状态的转移存在不公平的情况。CRF则解决了这种标注偏置问题;而SVM不如CRF的原因是因为SVM只能引入单一特征,而不能引入二元特征所以才导致了标注序列结果差,而CRF能简单的融入二元特征甚至是三元特征,所以输出结果稍好于SVM。此实验表明所运用的CCRF可以较好的解决越南语名词组块标注问题。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于约束条件随机场的越南语名词组块识别方法,其特征在于:所述方法的具体步骤如下:
Step1、构建名词组块语料库:首先从越南语网站爬取文本语料,经过分词、词性标注、人工标记名词短语,然后再经过人工校对、标记、去重形成越南语名词组块语料库;越南语名词组块语料库中部分语料用于构建约束条件、作为训练语料及测试语料;
Step2、构建约束条件:从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件;
Step3、构建基于约束条件随机场的越南语名词组块识别模型:首先用条件随机场通过训练语料进行训练,得到标记序列模型,在观察序列进行解码时加入约束条件,得到越南语名词组块识别模型参数序列,从而建立基于约束条件随机场的越南语名词组块识别模型;
Step4、把待识别的越南语名词组块测试语料,放入基于约束条件随机场的越南语名词组块识别模型中,根据名词组块识别模型参数序列来对越南语名词组块进行识别,得到最终识别结果。
2.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法,其特征在于:
所述步骤Step1中,获得越南语名词组块的具体步骤为:
Step1.1、使用分词工具对越南语分词句子级语料进行分词,得到分词语料;
Step1.2、使用词性标注工具对Step1.1中获得的分词语料进行标注,得到含有词性标注语料;
Step1.3、使用组块标记工具对Step1.2中获得的词性标注语料进行组块标记,结合从VLSP网站搜集的一部分组块语料,通过越南专家,人工从语料中挑选出名词组块,构建出越南语名词组块语料库。
3.根据权利要求2所述的基于约束条件随机场的越南语名词组块识别方法,其特征在于:所述步骤Step1.1中,获取越南语分词句子级语料的具体步骤为:
Step1.1.1、构建爬虫程序,爬取出网页信息;
Step1.1.2、对网页信息数据进行预处理,包括:去重处理,去除垃圾广告,构建出越南语文本语料库;
Step1.1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料。
4.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法,其特征在于:所述步骤Step2中,从越南语名词组块语料库中,根据越南语语法特点挑选名词组块的词性特点,结合特点构造约束条件,具体步骤为;
Step2.1、通过收集、筛选Step1中获得的越南语名词组块语料,导入到数据库中保存;
Step2.2、在数据库中保存到语料,通过去重、去杂操作,得到单一的越南语名词组块,即在查找数据表中每个组块只出现一次,在出现的名词组块列表中,经过人工统计分析,得到最常出现的9种名词组块组合形式;
Step2.3、然后根据统计分析的9种名词组块形式,制定出9种约束条件:
名词+名词、名词+连词+名词、形容词+副词+形容词、形容词+名词、名词+动词、名词+代词、副词+连词+形容词、数词+名词、代词+连词+代词。
5.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法,其特征在于:所述步骤Step1中,越南语名词组块语料库中全部语料按照4:1的比例分别得到训练语料、测试语料。
6.根据权利要求1所述的基于约束条件随机场的越南语名词组块识别方法,其特征在于:所述步骤Step3中,在用条件随机场训练过程中,在观察序列进行解码时加入约束的Viterbi算法,即该序列经过Viterbi算法计算之后,最终得到一条全局最优状态序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710883347.9A CN107797994A (zh) | 2017-09-26 | 2017-09-26 | 基于约束条件随机场的越南语名词组块识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710883347.9A CN107797994A (zh) | 2017-09-26 | 2017-09-26 | 基于约束条件随机场的越南语名词组块识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107797994A true CN107797994A (zh) | 2018-03-13 |
Family
ID=61531582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710883347.9A Pending CN107797994A (zh) | 2017-09-26 | 2017-09-26 | 基于约束条件随机场的越南语名词组块识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107797994A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086274A (zh) * | 2018-08-23 | 2018-12-25 | 电子科技大学 | 基于约束模型的英文社交媒体短文本时间表达式识别方法 |
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
CN109344401A (zh) * | 2018-09-18 | 2019-02-15 | 深圳市元征科技股份有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN109408831A (zh) * | 2018-10-11 | 2019-03-01 | 成都信息工程大学 | 一种中医细粒度证候名分割的远程监督方法 |
CN110362821A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于叠层组合分类器的老挝语基本名词短语识别方法 |
CN112215012A (zh) * | 2020-10-22 | 2021-01-12 | 国网福建省电力有限公司 | 基于条件随机场的配电网检修单安全措施语义解析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129936A1 (en) * | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Conditional model for natural language understanding |
CN101377770A (zh) * | 2007-08-27 | 2009-03-04 | 微软公司 | 中文组块分析的方法及系统 |
CN105740233A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种基于条件随机场和转换学习越南语组块方法 |
-
2017
- 2017-09-26 CN CN201710883347.9A patent/CN107797994A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129936A1 (en) * | 2005-12-02 | 2007-06-07 | Microsoft Corporation | Conditional model for natural language understanding |
CN101377770A (zh) * | 2007-08-27 | 2009-03-04 | 微软公司 | 中文组块分析的方法及系统 |
CN105740233A (zh) * | 2016-01-29 | 2016-07-06 | 昆明理工大学 | 一种基于条件随机场和转换学习越南语组块方法 |
Non-Patent Citations (2)
Title |
---|
杨晓东等: "CCRF与规则相结合的中文机构名识别", 《计算机工程》 * |
黄淑慧: "基于约束条件随机场的柬埔寨语命名实体识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
CN109086274A (zh) * | 2018-08-23 | 2018-12-25 | 电子科技大学 | 基于约束模型的英文社交媒体短文本时间表达式识别方法 |
CN109344401A (zh) * | 2018-09-18 | 2019-02-15 | 深圳市元征科技股份有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN109344401B (zh) * | 2018-09-18 | 2023-04-28 | 深圳市元征科技股份有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN109408831A (zh) * | 2018-10-11 | 2019-03-01 | 成都信息工程大学 | 一种中医细粒度证候名分割的远程监督方法 |
CN109408831B (zh) * | 2018-10-11 | 2020-02-21 | 成都信息工程大学 | 一种中医细粒度证候名分割的远程监督方法 |
CN110362821A (zh) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | 一种基于叠层组合分类器的老挝语基本名词短语识别方法 |
CN112215012A (zh) * | 2020-10-22 | 2021-01-12 | 国网福建省电力有限公司 | 基于条件随机场的配电网检修单安全措施语义解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797994A (zh) | 基于约束条件随机场的越南语名词组块识别方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和系统 | |
Ginting et al. | Hate speech detection on twitter using multinomial logistic regression classification method | |
CN108509409A (zh) | 一种自动生成语义相近句子样本的方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
Purnamasari et al. | Rule-based Part of Speech Tagger for Indonesian Language | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN106682149A (zh) | 一种基于元搜索引擎的标签自动生成方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN116050397B (zh) | 一种长文本摘要生成方法、系统、设备及存储介质 | |
CN109033166A (zh) | 一种人物属性抽取训练数据集构建方法 | |
CN105224520A (zh) | 一种中文专利文献术语自动识别方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN106202039A (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN104537280A (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN110232124A (zh) | 一种情感分析系统 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180313 |
|
RJ01 | Rejection of invention patent application after publication |