CN116245096B - 一种基于局部词表的藏文分词评测集构建方法 - Google Patents
一种基于局部词表的藏文分词评测集构建方法 Download PDFInfo
- Publication number
- CN116245096B CN116245096B CN202211585580.6A CN202211585580A CN116245096B CN 116245096 B CN116245096 B CN 116245096B CN 202211585580 A CN202211585580 A CN 202211585580A CN 116245096 B CN116245096 B CN 116245096B
- Authority
- CN
- China
- Prior art keywords
- word
- tibetan
- evaluation
- index
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 395
- 230000011218 segmentation Effects 0.000 title claims abstract description 144
- 238000010276 construction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 235000019580 granularity Nutrition 0.000 description 25
- 238000012549 training Methods 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于藏语自然语言处理技术领域,涉及一种基于局部词表的藏文分词评测集构建方法,该方法在人工或借助词典建立的评测集的基础上,首先基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将紧缩词添加到藏文评测句局部词表中,然后依据藏文评测句的字序列和局部词表自动建立字索引词表,之后根据藏文评测句的字序列和字索引词表构建藏文评测句的所有不同粒度下的评测答案,供藏文分词评测,解决了因切分粒度问题存在评测不公平的问题。
Description
技术领域
本发明属于藏语自然语言处理技术领域,尤其涉及一种基于局部词表的藏文分词评测集构建方法。
背景技术
分词是自然语言处理领域最基本的任务之一,其目标是将组成文本的字序列切分为词序列。自20世纪80年代以来,分词成为自然语言处理的研究热点,也是自然语言处理的一项基础性研究工作。虽然在学者们的不断努力下,提出了多种分词方法,分词技术得到了长足发展。但由于语言的复杂性,分词问题至今尚未完全解决,一直处于发展阶段。
分词评测是促进分词技术发展的一种有效手段,分词评测时先根据评测方提供的训练集训练系统,然后用训练得到的分词系统对评测方提供的评测集进行切分,最后按照评测集的评测答案及评测算法获得评测分,以评测得分评价分词系统的性能。为了促进汉文分词技术的发展,自1995年开始在国家863、973的支持下,开始了汉文分词评测技术研究,陆续举办了国内汉文分词评测会。评测遵照统一分词标准的思路,评测组织者不公布词表和分词语料,参评系统输出的分词结果允许有一定的“柔性”。即分词结果尽管与评测答案不同,如果符合“结合紧密,使用稳定”的规范条款则认为正确。2003年SIGHAN(国际计算语言学会(ACL)中文处理专业委员会)在日本札幌举办了首届国际汉文分词评测会Bakeoff。Bakeoff采用不同于国内863、973的分词评测方案,先在网上公布了四种不同标准的训练集,之后公布与这四种标准对应的评测集,参评单位可以在这些数据集中任选一种或多种来考评自己的分词系统。在首届Bakeoff的基础上,从2005年起陆续举办了汉文分词评测会,评测扩充了命名实体评测、人名消歧、词性标注评测、句法分析、词义归纳和专业领域分词评测、微博领域分词等项目,充分展示了汉文分词研究领域的重要发展和新动向。
为了促进少数民族语言分词技术的发展,2017年和2021年由中国中文信息学会民族语言文字信息处理专委会和计算语言学专委会共同举办了“少数民族语言分词技术评测”活动(以下简称MLWS2017和MLWS2021),评测分词的语种包括蒙古文、藏文、维吾尔文。MLWS2017和MLWS2021评测采用了开放测试,评测组织方先提供了分词训练集,参评单位用此训练集训练得到参评分词系统,之后评测组织者提供评测集,参评单位用参评的分词系统将评测集切分并上报给评测组织者,组织者通过比对上报的评测集切分结果和评测集评测答案评价分词系统的性能。
由于语料资源和技术条件的制约,MLWS2017和MLWS2021藏文分词评测存在一些不足,最主要的问题是训练集和评测集的评测答案中分词粒度不统一。虽然我国于2018年制定了《信息处理用藏文分词规范》国家标准,但由于标准将藏文分词单位定义为“不仅限于语法词,也包含信息处理所需的结合紧密、使用稳定的词组”,“结合紧密”和“使用稳定”的分词标准见仁见智,无法做到统一。不论人工还是计算机按照其标准构建分词语料库都有一定的困难,这对分词评测带来了极大的困难。再者,目前使用的藏文分词语料库基本上是在国家标准发布前各研究单位以各自的分词规范建立,导致现阶段使用的藏文分词语料切分标准不统一,这种现状也是藏文分词评测中遇到的一个困难。
MLWS2017藏文类评测针对新闻类文本自动分词技术评测,评测数据集(训练集和评测集)由西藏大学从他们完成的项目“大型藏文基础语料库建设”的新闻类语料中筛选了含198.21万音节的2万句构建而成。MLWS2021的评测数据集是在MLWS2017评测数据集的基础上,由西藏大学和青海师范大学联合构建。MLWS2021语料文体由原来单一的新闻扩展为新闻、法律、经济、小说和语言文字等多文体,大小为4.5万句,其中新闻类3.2万句,占总语料的71%,法律类、经济类、小说类各3600句,每类占总语料的8%,语言文字类2200句,占总语料的5%。MLWS2021的训练集是在MLWS2017的2万句数据集的基础上,增加了法律、经济、小说类各1450句和语言文字类650句,共2.5万句;评测集中的新闻类是从国内政府网站下载整理的1.2万句,法律、经济和小说类是从新建的每类语料中抽取了2150句,语言文字类也是从新的语言文字类中抽取了1550句,共2万句。
为了客观反映藏文分词评测中存在的问题,授MLWS2021评测组织者委托,我们对MLWS2021的藏文类训练集、评测集进行了人工评估。在人工评估训练集时,由于训练集规模较大,我们从大小为12.83MB,含2.5万句的训练集中以步长为10抽取5394句样本,对此进行人工校对。人工校对时发现,训练语料中存在大量切分粒度不统一的现象。由于技术和历史原因切分粒度不统一的问题目前还没有好的解决方案,因此我们对抽取的训练集样本在不考虑分词粒度的情况下进行了人工校对。校正后的样本共有77284个词,75950个词切分正确,正确率为98.27%,表明在不考虑分词粒度的情况下训练集质量基本达标。在评估评测集的评测答案时,对大小为1.18M,包含2万句的评测集评测答案全部进行人工校正,同样存在大量切分粒度不统一的现象,在不考虑分词粒度的情况下校正后的评测集评测答案包含156616个词,153531个词切分正确,正确率为98.03%,表明在不考虑分词粒度的情况下评测答案质量也基本达标。在不考虑切分粒度的情况下语料质量评估信息如表1所示。
表1MLWS2021藏文语料质量分析表
从以上分析可以看到,目前构建的藏文分词评测集中除了切分粒度不统一问题外基本合格。切分粒度不同时,评测集中同一句或语句段在不同位置的切分结果不同,切分结果存在多样性。目前的评测集评测答案只提供一种切分结果,因此用不考虑切分粒度构建的评测集评测分词系统存在一定的偏差或公平性。例如句子 (西藏社会科学院院长白玛朗杰告诉新华社记者)中的语句段/> (西藏社会科学院)有/>(西藏社会科学院/)、(西藏/社会科学院/)、/>(西藏/社会/科学院/)、/>(西藏社会/科学院/)、/> (西藏/社会/科学/院/)等5种不同的切分形式,/>(新华社)有(新华新闻社/)、/>(新华/新闻社/)、/> (新华/新闻/社/)等3种不同的切分形式,因此该句子共有15种不同的切分结果。评测集的评测答案中只提供一种结果,在这种情况下,“运气好”的系统得了高分,而“运气差”的系统虽然切分正确但不能得分。
Bakeoff经过多年的经验,认识到短时期内各界不可能在一种分词标准上达成共识,分词测评应该允许出现各种切分粒度的分词系统。为了提高藏文分词评测性能,促进藏文分词技术的发展。借鉴Bakeoff经验的基础上,本发明在剖析分词评测相关技术和藏文分词评测集中存在的主要问题,提出了一种基于局部词表的藏文分词评测集构建方法。该方法根据藏文评测句以及藏文评测句的局部词表,构建所有不同切分粒度下的带有切分标记的切分句,提供全面的评测集评测答案,以解决藏文分词评测中由于粒度不同而出现切分多样性的问题,提高评测的公平性。
发明内容
针对现有技术存在的问题,本发明提供一种基于局部词表的藏文分词评测集构建方法,其能够克服现有技术的某种或某些缺陷。
一种基于局部词表的藏文分词评测集构建方法,其包括以下步骤:
第一步,基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将识别的紧缩词添加到局部词表中;
第二步,以藏文评测句的字序列和藏文评测句局部词表建立字索引词表,并对字索引词表以词长降序排列;
第三步,以藏文评测句的字序列和字索引词表构建藏文评测句评测答案。
作为优选,基于藏文评测句局部词表识别藏文评测句中的紧缩词的方法为:
(1)求藏文评测句局部词表中最长的词所含的字数len;
(2)求藏文评测句中所有拟紧缩词w的位置,依次读取每个拟紧缩词w前的包含len个字的字符串s,对每个字符串s分别按(3)识别紧缩词;
(3)判断字符串s是否为空;若字符串s为空,则拟紧缩词w不是紧缩词,紧缩词识别结束,否则按(4)继续识别紧缩词;
(4)判断字符串s是否在藏文评测句局部词表中;若字符串s在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,紧缩词识别结束,否则按(5)继续识别紧缩词;
(5)判断字符串是否在藏文评测句局部词表中;若字符串/>在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,否则删除字符串s的首字,转(3)继续判断。
作为优选,藏文评测句局部词表中最长的词所含的字数len的计算公式为:
len=maxi{||wi|||wi∈WordList}
式中WordList表示藏文评测句局部词表,wi表示局部词表WordList中的词,||wi||表示词wi中所含字数。
作为优选,以藏文评测句的字序列和藏文评测句局部词表建立字索引词表的方法为:
(A)判断藏文评测句是否为空;若藏文评测句为空,则字索引词表为空,字索引词表建立完毕,否则按(B)继续建立字索引词表;
(B)置n=1,n表示藏文评测句中当前字的位置;
(C)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表;
(D)n=n+1;
(E)判断藏文评测句的第n个字是否为空;若藏文评测句的第n个字为空,则字索引词表建立完毕,否则按(F)继续建立字索引词表;
(F)判断以藏文评测句第n个字为索引键的索引词表是否存在;若以第n个字为索引键的索引词表存在,则转(D)继续建立字索引词表,否则按(G)继续建立字索引词表;
(G)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表,转(D)继续建立字索引词表。
作为优选,以藏文评测句的字序列和字索引词表构建藏文评测句评测答案的方法为:
(a)判断藏文评测句是否为空;若藏文评测句为空,则藏文评测句评测答案为空,藏文评测句评测答案构建完毕,否则按(b)继续构建藏文评测句评测答案;
(b)将藏文评测句的首字设置为当前索引键,从字索引词表中求出当前索引键对应的所有索引值,并以藏文评测句首子串的索引值分别构建藏文评测句评测答案;
(c)判断藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字是否为空;若藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字为空,则该藏文评测句评测答案构建完毕,否则设置该直接后继字为新的当前索引键,按(d)继续构建字索引词表;
(d)判断新的当前索引键对应的索引值是否为空;若新的当前索引键对应的索引值为空,则将藏文评测句中与该索引键对应字的直接后继字设置为新的当前索引键,按(e)继续构建藏文评测句评测答案,否则按(e)继续构建藏文评测句评测答案;
(e)从索引词表中求出当前索引键对应的所有索引值,并以藏文评测句中当前索引键对应位置开始的索引值依次追加到每个藏文评测句评测答案尾部,转到(c)。
本发明根据藏文评测句及其局部词表序列,构建不同切分粒度下的所有藏文评测句评测答案,提供全面的评测集评测答案,以解决评测中由不同粒度出现切分多样性的问题,提高评测的公平性。具有如下特点:
1)基于局部词表的藏文分词评测集构建方法根据藏文评测句和局部词表可以构建藏文评测句在各种粒度下的藏文评测句评测答案,可以解决在分词评测时因粒度不同而导致的分词评测“不公平”问题。
2)用基于局部词表的藏文分词评测集构建方法构建分词评测集简单易行,只需要人工或借助词典建立评测集的局部词表即可,而且可以纠错词表。
3)基于局部词表的藏文分词评测集构建由于依据藏文评测句的局部词表,构建藏文评测句评测答案具有封闭性的特点,能够很好地解决未登录词问题。
4)基于局部词表的藏文分词评测集构建方法系统模型小,不但无需训练模型,而且由于基于局部词表,词表规模小,运行速度快。
5)基于局部词表的藏文分词评测集构建方法不受语言限制,也可应用于汉文及其他语言分词评测集构建。
附图说明
图1为实施例中分词评测流程图;
图2为实施例中一种基于局部词表的藏文分词评测集构建方法的流程图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
分词评测流程
分词评测是一种评价分词性能优劣的方法。如图1所示,本发明实施例提供的分词评测流程包括用训练集训练分词系统得到评测系统、用评测系统切分评测集和评测系统的性能评测等步骤。即:根据评测组织方提供的训练集训练分词系统得到评测系统,然后使用评测系统对评测组织方提供的评测集进行切分,最后根据评测算法比对评测系统切分评测集的结果与评测集的评测答案,以精确率、召回率和F1评价分词系统性能。
基于局部词表的藏文分词评测集构建流程
分词评测的训练集、评测集评测答案的质量和评测算法直接影响分词评测的结果。训练集是用于训练分词系统的已增加词标注符的语料,要求规模较大,一般采用机器切分和人工校对结合的方式构建。评测集评测答案是评测集的切分答案,用于评价分词系统的切分性能,要求规模较小,一般采用人工构建。如图2所示,本发明实施例提供的藏文分词评测集构建过程包括藏文评测句中紧缩词识别、藏文评测句的字索引词表建立和藏文评测句评测答案构建等步骤,具体如下:
首先基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将识别的紧缩词添加到藏文评测句局部词表中;然后由藏文评测句的字序列和藏文评测句局部词表建立字索引词表,并对字索引词表以词长降序排列;最后由藏文评测句的字序列和字索引词表构建藏文评测句评测答案。
基于藏文评测句局部词表识别藏文评测句中紧缩词的方法
紧缩词在藏文文本中出现的频率非常高,这类词的识别是藏文分词的重点和难点。本发明提供的基于藏文评测句局部词表识别藏文评测句中的紧缩词的方法为:
(1)求藏文评测句局部词表中最长的词所含的字数len;
len的计算公式为:
len=maxi{||wi|||wi∈WordList}
式中WordList表示藏文评测句局部词表,wi表示局部词表WordList中的词,||wi||表示词wi中所含字数;
(2)求藏文评测句中所有拟紧缩词w的位置,依次读取每个拟紧缩词w前的包含len个字的字符串s,对每个字符串s分别按(3)识别紧缩词;
(3)判断字符串s是否为空;若字符串s为空,则拟紧缩词w不是紧缩词,紧缩词识别结束,否则按(4)继续识别紧缩词;
(4)判断字符串s是否在藏文评测句局部词表中;若字符串s在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,紧缩词识别结束,否则按(5)继续识别紧缩词;
(5)判断字符串是否在藏文评测句局部词表中;若字符串/>在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,否则删除字符串s的首字,转(3)继续判断。
藏文中的紧缩词有属格助词饰集词/>离合词终结词/>具格助词/>和la类格助词等六种,它们都具有兼类性,没有确定为紧缩词前将其称为拟紧缩词。例如藏文评测句/>(新世纪西藏大学的教授)中有拟紧缩词/>根据基于局部词表的紧缩词识别方法和局部词表(见表2)可得len=6,依次读取每个拟紧缩词前的包含6个字(不足6个字时读取到藏文评测句首)的字符串s,s=/>或/> 或/>或/>或或/> 等六种。其中字符串 和/> 不在局部词表中,通过删除前面字缩小的字符串也不在局部词表,因此对应的拟紧缩词/>不是紧缩词;而/>(新世纪)和/>(西藏大学)在局部词表中,因此对应的拟紧缩词/>是紧缩词,将紧缩词/>添加到局部词表中。为了便于表示,没有特别说明时下文中局部词是指添加紧缩词后的局部词表。紧缩词识别实例表2所示:
表2紧缩词识别实例表
基于藏文评测句字序列和局部词表的字索引词表建立方法
字索引词表是基于局部词表的藏文分词评测集构建的基础,本发明提供的以藏文评测句的字序列和藏文评测句局部词表建立字索引词表的方法为:
(A)判断藏文评测句是否为空;若藏文评测句为空,则字索引词表为空,字索引词表建立完毕,否则按(B)继续建立字索引词表;
(B)置n=1,n表示藏文评测句中当前字的位置;
(C)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表;
(D)n=n+1;
(E)判断藏文评测句的第n个字是否为空;若藏文评测句的第n个字为空,则字索引词表建立完毕,否则按(F)继续建立字索引词表;
(F)判断以藏文评测句第n个字为索引键的索引词表是否存在;若以第n个字为索引键的索引词表存在,则转(D)继续建立字索引词表,否则按(G)继续建立字索引词表;
(G)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表,转(D)继续建立字索引词表。
基于藏文评测句字序列和字索引词表的藏文评测句评测答案构建方法
(a)判断藏文评测句是否为空;若藏文评测句为空,则藏文评测句评测答案为空,藏文评测句评测答案构建完毕,否则按(b)继续构建藏文评测句的评测答案;
(b)将藏文评测句的首字设置为当前索引键,从字索引词表中求出当前索引键对应的所有索引值,并以藏文评测句首子串的索引值分别构建藏文评测句评测答案;
(c)判断藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字是否为空;若藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字为空,则该藏文评测句的藏文评测句评测答案构建完毕,否则设置该直接后继字为新的当前索引键,按(d)继续构建字索引词表;
(d)判断新的当前索引键对应的索引值是否为空;若新的当前索引键对应的索引值为空,则将藏文评测句中与该索引键对应字的直接后继字设置为新的当前索引键,按(e)继续构建藏文评测句评测答案,否则按(e)继续构建藏文评测句评测答案;
(e)从索引词表中求出当前索引键对应的所有索引值,并以藏文评测句中当前索引键对应位置开始的索引值依次追加到每个藏文评测句评测答案尾部,转到(c)。
为了方便描述基于局部词表的藏文分词评测集构建方法,用Python语言定义如下数据结构及算法:
评测集数据结构:
Class TiSentSeg:
”'评测集数据结构”'
Sent=""#保存藏文评测句
Word=[]#保存藏文评测句局部词表
评测集TiSentSeg可以通过人工或借助词典半自动的方式建立,例如藏文评测句(西藏社科院院长白玛朗杰告诉新华社记者)和/> (新世纪西藏大学的教授),可以通过人工或借助词典半自动的方式建立表3所示的评测集TiSentSeg:
表3评测集TiSentSeg实例表
字索引词表数据结构:
Class TiSentSegKey:
”'字索引词表数据结构”'
KeyList=[key:value]
#定义字典列表,字典键key为索引,字典值value为索引值;
字索引词表构建算法如下:
由表3中的评测集TiSentSeg及字索引词表构建算法Create_TiSentSegKey可以得到句子(新世纪西藏大学的教授)的字索引词表TiSentSegKey,字索引词表如表4所示:
表4字索引词表TiSentSegKey实例表
分词评测集数据结构:
Class TiSentSegDB:
Sent=""#保存藏文评测句
SentSegNum=0#保存藏文评测句评测答案数量
SentSeg[]=[]#保存藏文评测句评测答案
基于局部词表的藏文分词评测集构建算法如下:
基于局部词表的藏文分词评测集构建算法Create_TiSentSegDB中函数Rest的作用是基于局部词表识别藏文评测句中的紧缩词,函数Create_TiSentSeg的作用是依据藏文评测句和字索引词表构建藏文评测句评测答案,函数定义如下:
由表4所示的字索引词表TiSentSegKey以及基于局部词表的藏文分词评测集构建算法Create_TiSentSegDB可以得到句子 (新世纪西藏大学的教授)的藏文评测句评测答案,如表5所示:
表5藏文分词评测句构建实例表
为了验证基于局部词表的藏文分词评测集构建方法的有效性,设计开发了基于局部词表的藏文分词评测集构建系统,并从MLWS2021评测集的新闻、法律、经济、小说和语言文字等文体的各类中随机抽取了10%的藏文评测句,得到2000句实验语料。通过人工建立藏文评测句局部词表,使用基于局部词表的藏文评测句构建系统对抽取的2000句构建了评测答案。经人工主观验证,该方法构建的不同粒度下的藏文评测句构建覆盖率和准确率都100%,表明基于局部词表的藏文评测句构建方法有效。藏文分词评测句评测答案构建实验数据表6所示。
表6藏文评测句评测答案构建实验数据表
基于局部词表的藏文分词评测集构建方法具有如下特点:
(1)基于局部词表的藏文分词评测集构建方法根据被藏文评测句和局部词表可以生成藏文评测句在各种粒度下的分词结果,可以解决在分词评测时因粒度不同而导致的分词评测“不公平”问题。
(2)用基于局部词表的藏文分词评测集构建方法构建分词评测集简单易行,只需要人工或借助词典建立评测集的局部词表即可,而且可以纠错词表。例如在表2所示的句子(新世纪西藏大学的教授)的词表中,无词/>的情况下误增词/>或无词/>的情况下误增词/>不影响评测答案的构建。
(3)基于局部词表的藏文分词评测集构建由于依据藏文评测句的局部词表,构建藏文评测句评测答案具有封闭性的特点,能够很好地解决未登录词问题。
(4)基于局部词表的藏文分词评测集构建方法系统模型小,不但无需训练模型,而且由于基于局部词表,词表规模小,运行速度快。
(5)基于局部词表的藏文分词评测集构建方法不受语言限制,也可应用于汉文及其他语言分词评测集构建。
本发明在分析汉文和藏文分词评测现状的基础上,剖析了藏文分词评测中存在的问题,针对目前藏文分词评测时构建的评测集评测答案因切分粒度问题存在评测不公平的问题,提出了一种基于局部词的藏文分词评测集构建方法。该方法在人工或借助词典建立的评测集的基础上,依据藏文评测句的字序列和局部词表自动建立字索引词表,根据藏文评测句的字序列和字索引词表构建藏文评测句的所有不同粒度下的评测答案,供藏文分词评测,解决了因切分粒度问题导致的评测不公问题。今后在此研究成果的基础上进一步研究基于局部词表的藏文分词方法,以提高藏文分词的性能。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (3)
1.一种基于局部词表的藏文分词评测集构建方法,其特征在于:包括以下步骤:
第一步,基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将识别的紧缩词添加到局部词表中;
第二步,以藏文评测句的字序列和藏文评测句局部词表建立字索引词表,并对字索引词表以词长降序排列;
以藏文评测句的字序列和藏文评测句局部词表建立字索引词表的方法为:
(A)判断藏文评测句是否为空;若藏文评测句为空,则字索引词表为空,字索引词表建立完毕,否则按(B)继续建立字索引词表;
(B)置n=1,n表示藏文评测句中当前字的位置;
(C)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表;
(D)n=n+1;
(E)判断藏文评测句的第n个字是否为空;若藏文评测句的第n个字为空,则字索引词表建立完毕,否则按(F)继续建立字索引词表;
(F)判断以藏文评测句第n个字为索引键的索引词表是否存在;若以第n个字为索引键的索引词表存在,则转(D)继续建立字索引词表,否则按(G)继续建立字索引词表;
(G)以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表,转(D)继续建立字索引词表;
第三步,以藏文评测句的字序列和字索引词表构建藏文评测句评测答案;
以藏文评测句的字序列和字索引词表构建藏文评测句评测答案的方法为:
(a)判断藏文评测句是否为空;若藏文评测句为空,则藏文评测句评测答案为空,藏文评测句评测答案构建完毕,否则按(b)继续构建藏文评测句评测答案;
(b)将藏文评测句的首字设置为当前索引键,从字索引词表中求出当前索引键对应的所有索引值,并以藏文评测句首子串的索引值分别构建藏文评测句评测答案;
(c)判断藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字是否为空;若藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字为空,则该藏文评测句评测答案构建完毕,否则设置该直接后继字为新的当前索引键,按(d)继续构建字索引词表;
(d)判断新的当前索引键对应的索引值是否为空;若新的当前索引键对应的索引值为空,则将藏文评测句中与该索引键对应字的直接后继字设置为新的当前索引键,按(e)继续构建藏文评测句评测答案,否则按(e)继续构建藏文评测句评测答案;
(e)从索引词表中求出当前索引键对应的所有索引值,并以藏文评测句中当前索引键对应位置开始的索引值依次追加到每个藏文评测句评测答案尾部,转到(c)。
2.根据权利要求1所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:基于藏文评测句局部词表识别藏文评测句中的紧缩词的方法为:
(1)求藏文评测句局部词表中最长的词所含的字数len;
(2)求藏文评测句中所有拟紧缩词w的位置,依次读取每个拟紧缩词w前的包含len个字的字符串s,对每个字符串s分别按(3)识别紧缩词;
(3)判断字符串s是否为空;若字符串s为空,则拟紧缩词w不是紧缩词,紧缩词识别结束,否则按(4)继续识别紧缩词;
(4)判断字符串s是否在藏文评测句局部词表中;若字符串s在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,紧缩词识别结束,否则按(5)继续识别紧缩词;
(5)判断字符串是否在藏文评测句局部词表中;若字符串/>在藏文评测句局部词表中,则拟紧缩词w为紧缩词,将识别的紧缩词w添加到藏文评测句局部词表中,否则删除字符串s的首字,转(3)继续判断。
3.根据权利要求1所述的一种基于局部词表的藏文分词评测集构建方法,其特征在于:藏文评测句局部词表中最长的词所含的字数len的计算公式为:
len=maxi{‖wi‖|wi∈WordList}
式中WordList表示藏文评测句局部词表,wi表示局部词表WordList中的词,‖wi‖表示词wi中所含字数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585580.6A CN116245096B (zh) | 2022-12-09 | 2022-12-09 | 一种基于局部词表的藏文分词评测集构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211585580.6A CN116245096B (zh) | 2022-12-09 | 2022-12-09 | 一种基于局部词表的藏文分词评测集构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116245096A CN116245096A (zh) | 2023-06-09 |
CN116245096B true CN116245096B (zh) | 2024-02-20 |
Family
ID=86633860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211585580.6A Active CN116245096B (zh) | 2022-12-09 | 2022-12-09 | 一种基于局部词表的藏文分词评测集构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245096B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN109960782A (zh) * | 2018-12-27 | 2019-07-02 | 同济大学 | 一种基于深度神经网络的藏文分词方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090055358A1 (en) * | 2007-08-13 | 2009-02-26 | Anthony Tomasic | Efficient processing of mapped boolean queries via generative indexing |
-
2022
- 2022-12-09 CN CN202211585580.6A patent/CN116245096B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN109960782A (zh) * | 2018-12-27 | 2019-07-02 | 同济大学 | 一种基于深度神经网络的藏文分词方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于词性约束的藏文分词策略与算法;才让卓玛等;中文信息学报;第34卷(第2期);第33-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116245096A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN110164447A (zh) | 一种口语评分方法及装置 | |
CN106601253B (zh) | 智能机器人文字播音朗读审核校对方法和系统 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
CN103885924A (zh) | 一种领域自适应的公开课字幕自动生成系统及方法 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN116092472A (zh) | 一种语音合成方法和合成系统 | |
CN114969294A (zh) | 一种音近敏感词的扩展方法 | |
CN107784123B (zh) | 一种基于主题的搜索优化方法 | |
CN117272984A (zh) | 一种基于类ChatGPT开源大模型的中文语法纠错语料构建方法 | |
CN116245096B (zh) | 一种基于局部词表的藏文分词评测集构建方法 | |
CN117216226A (zh) | 一种知识定位方法、装置、存储介质及设备 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
CN116204607A (zh) | 一种文本类在线学习资源知识点标注方法、系统及介质 | |
CN107609096B (zh) | 一种智能律师专家应答方法 | |
CN113886521A (zh) | 一种基于相似词汇表的文本关系自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |