CN105740233A - 一种基于条件随机场和转换学习越南语组块方法 - Google Patents
一种基于条件随机场和转换学习越南语组块方法 Download PDFInfo
- Publication number
- CN105740233A CN105740233A CN201610063505.1A CN201610063505A CN105740233A CN 105740233 A CN105740233 A CN 105740233A CN 201610063505 A CN201610063505 A CN 201610063505A CN 105740233 A CN105740233 A CN 105740233A
- Authority
- CN
- China
- Prior art keywords
- vietnamese
- chunk
- sentence
- level
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 19
- 239000000463 material Substances 0.000 claims description 117
- 238000006243 chemical reaction Methods 0.000 claims description 51
- 238000002372 labelling Methods 0.000 claims description 40
- 239000000284 extract Substances 0.000 claims description 15
- 238000013518 transcription Methods 0.000 claims description 11
- 230000035897 transcription Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理技术领域。本发明包括步骤:首先对越南语语料进行预处理,得到句子级的越南语组块训练语料;从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;获取转换方式集合;把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。本发明对越南语句子实现了有效的组块分析,为短语树、语义分析和机器翻译等工作做铺垫;通过与现有的越南语组块工具比较,本文的越南语组块方法在准确率、召回率和F值都有明显的提高。
Description
技术领域
本发明涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理技术领域。
背景技术
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对越南语语言方面的研究工作就显得尤为重要。机器翻译过程中,句法分析是十分重要的工作,但是对于完全句法分析,目前效果离预期的效果相差很远,于是,提出分而治之的思想,对越南语句子逐步分解去分析显得尤为重要。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于部分的句法分析,越南语更适合采用从部分句法分析再到完全句法分析,唯有这一个过度的转换,才能更好为完全句法分析提供平台;越南语组块语料库构建,已经成为整个越南语部分句法分析和完全句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
发明内容
本发明提供了一种基于条件随机场和转换学习越南语组块方法,以用于解决越南语组块识别正确率不高的问题,能对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。
本发明的技术方案是:一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;
Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;
Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。
所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:
Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;
Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;
Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。
所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;
Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;
Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。
本发明的有益效果是:
1、本文提出的基于条件随机场和转换学习的越南语组块方法,对越南语句子实现了有效的组块划分和标记,为短语树的构建、句法分析、机器翻译、信息获取等上层应用提供有力支撑。
2、通过与现有的越南VLSP提供组块识别工具比较,本文的越南语组块方法在准确率、召回率、F值上均有提高。
3、通过转换方式集合,更好的优化了越南语组块标记的结果。
附图说明
图1为本发明中获取句子级的越南语组块训练语料的流程图;
图2为本发明中构建越南语组块条件随机场模型的流程图;
图3为本文明中获取转换方式集合的流程图;
图4为本发明中总流程图。
具体实施方式
实施例1:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
实施例2:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例1相同,其中:
所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
实施例3:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例2相同,其中:
所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
实施例4:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例3相同,其中:
所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;
Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;
Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。
实施例5:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例4相同,其中:
所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:
Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;
Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;
Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。
实施例6:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例5相同,其中:
所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。
实施例7:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例6相同,其中:
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;
Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。
实施例8:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;
Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;
Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。
所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:
Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;
Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;
Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。
所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;
Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;
Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。
实施例9:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;
Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;
Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
具体的,从数据库中取出数据格式如表1所示:
表1为从数据库中获取已处理好的句子级越南语组块训练语料
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
所述步骤Step2.2的具体步骤为:
Step2.2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2.2、结合越南语语言和语句特点,分析组块语料,词和词性对组块的影响大;制定基本的词、词性模板;
Step2.2.3、结合句子级中的信息,选取词的上下文信息和词性的上下文信息;
提取的特征如下表2所示:
表2为提取的越南语的特征
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
根据Step2.2选取的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板如表3所示:
表3为构建越南语组块条件随机场模型中所需要的越南语的基本特征模板
序号 | 特征模板 | 序号 | 特征模板 |
1 | U00:%x[‐2,0] | 13 | U12:%x[‐2,1] |
2 | U01:%x[‐1,0] | 14 | U13:%x[‐1,1] |
3 | U02:%x[0,0] | 15 | U14:%x[0,1] |
4 | U03:%x[1,0] | 16 | U15:%x[1,1] |
5 | U04:%x[2,0] | 17 | U16:%x[2,1] |
6 | U05:%x[‐2,0]/%x[‐1,0] | 18 | U17:%x[‐2,1]/%x[‐1,1] |
7 | U06:%x[‐1,0]/%x[0,0] | 19 | U18:%x[‐1,1]/%x[0,1] |
8 | U07:%x[0,0]/%x[1,0] | 20 | U19:%x[0,1]/%x[1,1] |
9 | U08:%x[1,0]/%x[2,0] | 21 | U20:%x[1,1]/%x[2,1] |
10 | U09:%x[‐2,0]/%x[‐1,0]/%x[0,0] | 22 | U21:%x[‐2,1]/%x[‐1,1]/%x[0,1] |
11 | U10:%x[‐1,0]/%x[0,0]/%x[1,0] | 23 | U22:%x[‐1,1]/%x[0,1]/%x[1,1] |
12 | U11:%x[0,0]/%x[1,0]/%x[2,0] | 24 | U23:%x[0,1]/%x[1,1]/%x[2,1] |
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
具体的,根据步骤Step2.1中越南语句子级标准组块做为训练模型语料。在window操作系统下,通过执行命令:
crf_learn.exe-ftempaltetrain.datachunkmodel
通过学习,得到一个组块模型chunkmodel,所有训练得到的信息都在这个模型中;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
所述步骤Step3.2的具体步骤为:
Step3.2.1、从数据库中获取到用于转换学习的句子级越南语组块训练语料;
Step3.2.2、对Step3.2.1取出的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型进行训练,得到初步的句子级越南语组块语料标记序列;
具体的,根据步骤Step3.2.1获取的越南语训练语料。在window操作系统下,通过执行命令:
crf_test.exe-mchunkmodeltest.data>rs.data
通过训练,得到test.data文件中越南语训练语料的初步标记结果,存放在rs.data;
Step3.2.3、把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;
Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;
具体的,根据Step3.3所提取的特征,制定转换基本特征模板;如下表4所示:
表4为转换基本特征模板
Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。
所述步骤Step3.5的具体步骤:
Step3.5.1、从数据库中获取得到标准的句子级的越南语组块训练语料和Step3.2获取到的句子级初步标记的组块语料做为训练语料;
Step3.5.2、把Step3.4中获取的转换基本特征模板做为训练转换模板;
Step3.5.3、根据Step3.5.1中获取到的训练语料,结合Step3.5.2中获取到的训练转换模板,用转换错误驱动学习的方法进行训练语料学习,获取转换方式集合。
具体的,根据步骤Step3.4中的越南语规则转换模板。在window操作系统下,通过执行命令:
fnTBL.exe-trainmyfile.initchunker.rls-Fparam_file
生成候选规则转换集合文件myfile.init;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:
Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;
Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;
所述步骤Step4.2的具体步骤:
Step4.2.1、把Step4.1获取的越南语句子级词性语料做为测试语料;
Step4.2.2、把Step4.2.1中语料使用已建好的条件随机场模型,进行初始化的组块标记;
具体的,根据Step4.2.1中的语料,使用Step2中所获得的条件随机场模型进行组块分析标记,具体步骤如下:
在window操作系统下,通过执行命令:crf_test.exe-mchunkmodeltest.data>rs.data
得到组块的初步标记结果文件rs.data,文件包括词、词性、初步标记组块序列结果;
Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。
具体的,越南语转换方法如下。在window操作系统下,通过执行命令:
fnTBL.exetestfile.init-Fmyfile.init得到最终的越南语组块识别语料。
从构建出的越南语文本语料库中取出待组块的句子级测试语料;这些待组块的句子最好是没有包含在训练语料中的,这样方便测试模型的准确率、召回率和F值。本实验准备10000词条越南语组块测试语料;
准确率、召回率和F值是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。类似地,我们可以把这3个评价方法(评价准确率、召回率和F值)用到越南语组块任务中,在越南语老师和越南留学生的帮助下,标注和校对20万词条越南语句子级组块语料,并进行训练,训练得到的组块模型在10000词条语料中进行测试。分词后的结果使用准确率(P)、召回率(R)和F值评价该分词系统。
准确率(Precision)=组块结果中标记正确的块数/组块结果中中总块数
召回率(Fscore)=组块结果中标记正确的块数/人工标级文本中总块数
F值=Precision*Fscore*2/Precision+Fscore
其中准确率和召回率这两者在0和1之间,数值越接近1,查准率或查全率就越高。F值即为准确率和召回率的调和平均值。
表5组块实验结果对比
系统 | P | R | F |
VLSP | 80.77% | 79.85% | 80.31% |
本发明 | 89.7% | 82.498% | 86.25% |
与VLSP系统对比实验发现本文的组块系统在准确率、召回率和F值均有所提高。通过CRFs+TBL训练得到的组块识别模型的平均准确率比CRFs高8.93%,F值高5.94%。可见CRFs+TBL模型在组块识别的问题上比CRFs的效果好。利用条件随机场对越南语组块特征具有较强的融合能力,随着特征集的增加,组块识别的效果会越好。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于条件随机场和转换学习越南语组块方法,其特征在于:所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:
Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;
Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;
Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;
Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。
2.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step1中预处理的具体步骤如下:
Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;
Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;
Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;
Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。
3.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:
Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;
Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;
Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;
Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。
4.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step3中,获取转换方式集合的具体步骤如下:
Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;
Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;
Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;
Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;
Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。
5.根据权利要求1所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:
Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;
Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;
Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。
6.根据权利要求2所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。
7.根据权利要求2所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;
Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。
8.根据权利要求2所述的基于条件随机场和转换学习越南语组块方法,其特征在于:所述步骤Step1.3的具体步骤为:
Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;
Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610063505.1A CN105740233A (zh) | 2016-01-29 | 2016-01-29 | 一种基于条件随机场和转换学习越南语组块方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610063505.1A CN105740233A (zh) | 2016-01-29 | 2016-01-29 | 一种基于条件随机场和转换学习越南语组块方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105740233A true CN105740233A (zh) | 2016-07-06 |
Family
ID=56247036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610063505.1A Pending CN105740233A (zh) | 2016-01-29 | 2016-01-29 | 一种基于条件随机场和转换学习越南语组块方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740233A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN107025369A (zh) * | 2016-08-03 | 2017-08-08 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
CN107797994A (zh) * | 2017-09-26 | 2018-03-13 | 昆明理工大学 | 基于约束条件随机场的越南语名词组块识别方法 |
CN112101004A (zh) * | 2020-09-23 | 2020-12-18 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
CN113037752A (zh) * | 2021-03-09 | 2021-06-25 | 北京计算机技术及应用研究所 | 一种轻量级异构防火墙策略获取方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN104750779A (zh) * | 2015-03-04 | 2015-07-01 | 华东师范大学 | 一种基于条件随机场的中文兼类词识别方法 |
-
2016
- 2016-01-29 CN CN201610063505.1A patent/CN105740233A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN104750779A (zh) * | 2015-03-04 | 2015-07-01 | 华东师范大学 | 一种基于条件随机场的中文兼类词识别方法 |
Non-Patent Citations (3)
Title |
---|
NGUYEN THI HUONG THAO ET AL.: "Vietnamese Noun Phrase Chunking based on Conditional Random Fields", 《2009 INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SYSTEMS ENGINEERING》 * |
张芬: "中文命名实体识别与浅层句法分析研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
李培峰 等: "基于Web的大规模语料库构建方法", 《计算机工程》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250367A (zh) * | 2016-07-27 | 2016-12-21 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN106250367B (zh) * | 2016-07-27 | 2019-04-09 | 昆明理工大学 | 基于改进的Nivre算法构建越南语依存树库的方法 |
CN107025369A (zh) * | 2016-08-03 | 2017-08-08 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
CN107025369B (zh) * | 2016-08-03 | 2020-03-10 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
CN107797994A (zh) * | 2017-09-26 | 2018-03-13 | 昆明理工大学 | 基于约束条件随机场的越南语名词组块识别方法 |
CN112101004A (zh) * | 2020-09-23 | 2020-12-18 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
CN112101004B (zh) * | 2020-09-23 | 2023-03-21 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
CN113037752A (zh) * | 2021-03-09 | 2021-06-25 | 北京计算机技术及应用研究所 | 一种轻量级异构防火墙策略获取方法和系统 |
CN113037752B (zh) * | 2021-03-09 | 2022-09-27 | 北京计算机技术及应用研究所 | 一种轻量级异构防火墙策略获取方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213999B (zh) | 一种主观题评分方法 | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN107168945B (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN105740233A (zh) | 一种基于条件随机场和转换学习越南语组块方法 | |
CN111079406B (zh) | 自然语言处理模型训练方法、任务执行方法、设备及系统 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN103970666B (zh) | 一种软件重复缺陷报告检测的方法 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN107168955A (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN107247739B (zh) | 一种基于因子图的金融公报文本知识提取方法 | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN103207855A (zh) | 针对产品评论信息的细粒度情感分析系统及方法 | |
CN108121702A (zh) | 数学主观题评阅方法及系统 | |
CN105930319A (zh) | 建立获取题目知识点模型、获取题目知识点的方法和装置 | |
CN107797994A (zh) | 基于约束条件随机场的越南语名词组块识别方法 | |
CN106407235A (zh) | 一种基于点评数据的语义词典构建方法 | |
CN104778160B (zh) | 一种英语作文内容切题分析方法 | |
CN108228568A (zh) | 一种数学题目语义理解方法 | |
CN106202039A (zh) | 基于条件随机场的越南语组合词消歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160706 |