CN107229611A - 一种基于词对齐的历史典籍分词方法 - Google Patents

一种基于词对齐的历史典籍分词方法 Download PDF

Info

Publication number
CN107229611A
CN107229611A CN201710351463.6A CN201710351463A CN107229611A CN 107229611 A CN107229611 A CN 107229611A CN 201710351463 A CN201710351463 A CN 201710351463A CN 107229611 A CN107229611 A CN 107229611A
Authority
CN
China
Prior art keywords
word
chinese
alignment
ancient
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710351463.6A
Other languages
English (en)
Other versions
CN107229611B (zh
Inventor
车超
吴晓婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Tongdian Technology Co ltd
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201710351463.6A priority Critical patent/CN107229611B/zh
Publication of CN107229611A publication Critical patent/CN107229611A/zh
Application granted granted Critical
Publication of CN107229611B publication Critical patent/CN107229611B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体是一种基于词对齐的历史典籍分词方法,该方法包括以下步骤:首先对平行语料中的现代汉语进行分词,对古文进行逐字拆分,并将古文和现代汉语使用IBM Model 3模型进行词对齐;其次,对上一步中得到的对齐结果进行预处理,消除标点符号及副词的干扰;再次,根据上一步经预处理得到的对齐结果对古文单字进行合并;最后,对分词结果中由三个或者三个以上的字构成的词进行校验。本发明有效解决了在缺少古汉语标注语料的前提下对历史典籍进行分词的难题,其分词准确率比使用现代汉语标注语料训练的分词方法有显著提高。

Description

一种基于词对齐的历史典籍分词方法
技术领域
本发明涉及自然语言处理技术领域,具体是一种基于词对齐的历史典籍分词方法。
背景技术
中文分词,指将连续的汉字序列按照一定的规范重新合成词序列的过程。分词是自然语言处理中由字到词的重要部分,是对文字进行文本分类,信息检索等处理的保证。现有的主要分词方法有基于规则的分词方法和基于统计的分词方法。很多分词方法在现代汉语中取得了较为理想的分词效果,大部分算法及其商业实现均已达到很高的水平。古文较现代汉语来说,更简洁紧凑,除了历史典籍和人名以外,通常词就指单字,而且古文句法结构比现代汉语更加灵活。目前,对于古汉语分词的尝试并不多:南通大学的钱志勇等学者用HMM方法对先秦时期的部分语料进行了分词以及标注;南京师范大学的石民等学者用CRF对《左传》进行了分词。以上两种方法都需要大规模语料库的支持。如果在目前这种缺乏面向古汉语的分词词典和大规模的分词训练语料的情况下,将现代汉语的分词方法直接套用到古汉语中,必然得不到较为满意的效果。
发明内容
在古汉语翻译过程中,名词、术语一般保留不变,每个单字翻译对应该词本身;而其他词性的字,一般情况下,每个字对应一个或多个词。本发明基于古汉语翻译的特点以及缺乏古汉语分词语料的现状,提出了一种基于词对齐的历史典籍分词方法,通过词对齐这个桥梁,利用现代汉语中丰富的语料资源和方法,实现了在缺少古汉语标注语料的前提下对古汉语进行分词,提高了分词的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种基于词对齐的历史典籍分词方法,包括以下步骤:
步骤1:对平行语料中的现代汉语进行分词,对古文进行逐字拆分。将古文和现代汉语使用IBM Model 3模型进行词对齐。
步骤2:对步骤1中得到的对齐结果进行预处理,消除标点符号及副词的干扰。
步骤3:根据步骤2中经预处理得到的词对齐结果对古文单字进行合并。
步骤4:对合并结果中由三个或者三个以上的字构成的词进行校验。
进一步地,步骤2所述的对齐结果的预处理的具体步骤如下:
(1)对步骤1中得到的对齐结果进行逐条校验,删除对齐概率小于或等于零、古文单字或对应现代汉语为非汉字的对齐结果;
(2)步骤2中对每条对齐结果中两个词或字的词性进行检验,若副词在对齐文件中对齐名词,则保留;反之,则删除。由于一般情况下,副词在古文中只表达虚意,在对齐中会形成较大的干扰,但有些副词同时还对应着名词、动词等其他词性,若直接删除,势必会对某些人名、地名的分词产生影响,因此只留下对齐名词的副词对齐结果。
进一步地,步骤3中古文单字合并的具体步骤如下:
(1)对已经拆分成单字的古汉语,逐字查询其对应的现代汉语,若相邻两个字均对应同一个现代汉语翻译,则合并这两个字;
(2)继续观察后面的单字,若依然对应同一个现代汉语,则继续合并。直到下一个字不再和前面的词指向同一个汉语翻译为止;
(3)若单字是零到九的用于表示年代的数词,则对它们进行合并。
进一步地,步骤4中对合并结果中由三个或者三个以上的字构成的词进行校验的具体步骤如下:
(1)对每一个由三个及三个以上的字构成的词,在现代汉语翻译中对该词进行查找,若成功找到,则视为分词结果正确;
(2)若未找到,说明该候选词合并有误,应当对其进行分割:从候选词的第一个字后开始分割,将产生的两个词段分别在现代汉语中进行查找比对。若成功找到,则保留分割结果,此时视为分割成功;若未找到,则继续从第二个词后分割,并以此类推,直到找到相匹配的词段。
本发明的有益效果:本发明通过词对齐这个桥梁,利用现代汉语中丰富的语料资源和方法,结合古汉语翻译过程中的一些特点,解决了在缺乏面向古汉语的分词词典和大规模的分词训练语料的情况下对古汉语进行分词的问题,提高了分词的准确率。
附图说明
图1本发明方法的流程示意图。
具体实施方式
以下结合附图对本发明做进一步说明。
参见附图1,一种基于词对齐的历史典籍分词方法:首先对平行语料中的现代汉语进行分词,对古文进行逐字拆分,并将古文和现代汉语使用IBM Model 3模型进行词对齐;其次,对上一步中得到的对齐结果进行处理,消除标点符号及副词的干扰;再次,根据经预处理得到的对齐结果对古文单字进行合并;最后,对合并结果中由三个或者三个以上的字构成的词进行校验。
实施例1
本实施例以Eclipse为开发平台,Java为开发语言。在《史记》中的《秦始皇本纪》、《秦本纪》、《项羽本纪》、《高祖本纪》和《吕后本纪》的古文与白话文的4145句对语料上进行。以下为具体过程:
步骤1:对平行语料中的现代汉语进行分词,对古文进行逐字拆分。将古文和现代汉语使用IBM Model 3模型进行词对齐。
步骤2:对步骤1中得到的对齐结果进行预处理,消除标点符号及副词的干扰:
(1)对步骤1中得到的对齐结果进行逐条校验,删除对齐概率小于或等于零、古文单字或对应现代汉语为非汉字的对齐结果;
(2)对每条对齐结果中两个词或字的词性进行检验,若副词在对齐结果中对齐名词,则保留;反之,则删除。因为一般情况下,副词在古文中只表达虚意,在对齐中会形成较大的干扰,但有些副词同时还对应着名词、动词等其他词性,若直接删除,势必会对某些人名、地名的分词产生影响,因此只留下对齐名词的副词对齐结果。
例如古文中的“耳”:“耳”在古文中普遍用作虚词,不翻译,但重耳、张耳等历史典籍人物是名词,为消除虚词干扰,需要对“耳”在对齐文件里对齐的现代汉语翻译进行词性判断,若是名词,例如:“重耳”,则保留;若不是名词,则直接删除。
步骤3:根据步骤2中处理好的对齐结果对古文单字进行合并:
(1)对已经拆分成单字的古汉语,逐字查询其对应的现代汉语,若相邻两个字均对应同一个现代汉语翻译,则合并这两个字;
(2)继续观察后面的单字,若依然对应同一个现代汉语,则继续合并。直到下一个字不再和前面的词指向同一个汉语翻译为止;例如:古汉语“周武王伐纣,并杀恶来”对应现代汉语“周武王讨伐纣王,连同恶来一起杀死”。在词对齐结果中,“周”、“武”、“王”三字均对齐同一词“周武王”,所以就将这三个字合并作为一个词。而“伐”对齐“讨伐”,因此,将“伐”同前面的“王”分离开。
(3)若单字为零到九,用于表示年代的数词,则对它们进行合并。
步骤4:对合并结果中由三个或者三个以上的字构成的词进行校验:
(1)对每一个由三个及三个以上的字构成的词,在现代汉语翻译中对该词进行查找,若成功找到,则视为分词结果正确;
(2)若未找到,说明该候选词合并有误,应当对其进行分割:从候选词的第一个字后开始分割,将产生的两个词段分别在现代汉语中进行查找比对。若成功找到,则保留分割结果,此时视为分割成功;若未找到,则继续从第二个词后分割,并以此类推,直到找到相匹配的词段。例如:“张良悦”是一个由三个字构成的词。在现代汉语翻译中进行查找后未发现该词,说明分词有误,须对该词进行分割。从第一个字后分割得到“张”和“良悦”,进行查找比对后均无匹配词段。再次对该词分割,得到“张良”和“悦”,查找后发现“张良”成功匹配,则视为分割正确,遂将分词结果替换为“张良/悦”。
根据以上步骤,本发明将分词效果与结巴分词、斯坦福分词以及NLPIR分词方法做了对比,见表1,结巴分词和NLPIR是目前国内广泛使用的分词方法,斯坦福分词是国外具有代表性的一种中文分词方法。
表1 不同分词方法结果对比
从表1中可以看出,本发明提出的方法在分词准确率、召回率以及F1度量方面明显优于其他方法。F1度量是准确率和召回率的调和平均。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于词对齐的历史典籍分词方法,其特征在于,包括以下步骤:
步骤1:对平行语料中的现代汉语进行分词,对古文进行逐字拆分,将古文和现代汉语使用IBM Model 3模型进行词对齐;
步骤2:对步骤1中得到的对齐结果进行预处理,消除标点符号及副词的干扰;
步骤3:根据步骤2中经预处理得到的对齐结果对古文单字进行合并;
步骤4:对合并结果中由三个或者三个以上的字构成的词进行校验。
2.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤2所述的对齐结果的预处理的具体步骤如下:
(1)对步骤1中获取的对齐结果进行逐条检验,删除对齐概率小于或等于零、古文单字或对应现代汉语为非汉字的对齐结果;
(2)对每条对齐结果中两个词或字的词性进行检验,若副词在对齐结果中对齐名词,则保留;反之,则删除。
3.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤3所述的古文单字合并的具体步骤如下:
(1)对已经拆分成单字的古汉语,逐字查询其对应的现代汉语,若相邻两个字均对应同一个现代汉语翻译,则合并这两个字;
(2)继续观察后面的单字,若依然对应同一个现代汉语,则继续合并;直到下一个字不再和前面的词指向同一个汉语翻译为止;
(3)若单字是零到九的用于表示年代的数词,则对它们进行合并。
4.根据权利要求1所述的一种基于词对齐的历史典籍分词方法,其特征在于,步骤4所述的对合并结果中由三个或者三个以上的字构成的词进行校验的具体步骤如下:
(1)对每一个由三个及三个以上的字构成的词,在现代汉语翻译中对该词进行查找,若成功找到,则视为分词结果正确;
(2)若未找到,说明该候选词合并有误,应当对其进行分割:从候选词的第一个字后开始分割,将产生的两个词段分别在现代汉语中进行查找比对;若成功找到,则保留分割结果,此时视为分割成功;若未找到,则继续从第二个词后分割,并以此类推,直到找到相匹配的词段。
CN201710351463.6A 2017-05-18 2017-05-18 一种基于词对齐的历史典籍分词方法 Expired - Fee Related CN107229611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710351463.6A CN107229611B (zh) 2017-05-18 2017-05-18 一种基于词对齐的历史典籍分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710351463.6A CN107229611B (zh) 2017-05-18 2017-05-18 一种基于词对齐的历史典籍分词方法

Publications (2)

Publication Number Publication Date
CN107229611A true CN107229611A (zh) 2017-10-03
CN107229611B CN107229611B (zh) 2020-06-30

Family

ID=59934537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710351463.6A Expired - Fee Related CN107229611B (zh) 2017-05-18 2017-05-18 一种基于词对齐的历史典籍分词方法

Country Status (1)

Country Link
CN (1) CN107229611B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335301A2 (en) * 2002-02-07 2003-08-13 Matsushita Electric Industrial Co., Ltd. Context-aware linear time tokenizer
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
US20090089047A1 (en) * 2007-08-31 2009-04-02 Powerset, Inc. Natural Language Hypernym Weighting For Word Sense Disambiguation
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN105446962A (zh) * 2015-12-30 2016-03-30 武汉传神信息技术有限公司 原文和译文的对齐方法和装置
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1335301A2 (en) * 2002-02-07 2003-08-13 Matsushita Electric Industrial Co., Ltd. Context-aware linear time tokenizer
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
US20090089047A1 (en) * 2007-08-31 2009-04-02 Powerset, Inc. Natural Language Hypernym Weighting For Word Sense Disambiguation
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN105446962A (zh) * 2015-12-30 2016-03-30 武汉传神信息技术有限公司 原文和译文的对齐方法和装置
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李秀英: ""基于历史典籍双语平行语料库的术语对齐研究"", 《中国博士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN109829159B (zh) * 2019-01-29 2020-02-18 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116070643B (zh) * 2023-04-03 2023-08-15 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Also Published As

Publication number Publication date
CN107229611B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN102033879B (zh) 一种中文人名识别的方法和装置
US9069753B2 (en) Determining proximity measurements indicating respective intended inputs
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN107729321A (zh) 一种语音识别结果纠错方法
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN108874771A (zh) 一种面向招标文本的信息抽取方法
Huang et al. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization
CN105868176A (zh) 基于文字的视频合成方法及其系统
CN1910573A (zh) 用来识别并分类命名实体的系统
CN110276071A (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN110046351A (zh) 规则驱动下基于特征的文本关系抽取方法
CN107818082B (zh) 结合短语结构树的语义角色识别方法
CN107229611A (zh) 一种基于词对齐的历史典籍分词方法
Liu et al. Phrasal substitution of idiomatic expressions
CN103049458A (zh) 一种修正用户词库的方法和系统
JP2020098594A (ja) 情報処理方法、自然言語処理方法及び情報処理装置
CN104050255A (zh) 基于联合图模型的纠错方法及系统
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Pinter et al. Will it Unblend?
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
WO2014189400A1 (en) A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
CN105975487B (zh) 一种app软件用户评论有关性判断方法
CN106484660A (zh) 标题处理方法和装置
CN109657244A (zh) 一种英文长句自动切分方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Che Chao

Inventor after: Wu Xiaoting

Inventor before: Che Chao

Inventor before: Wu Xiaoting

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20230315

Address after: No. 17, Huixian Street, Qixianling, Lingshui Town, Ganjingzi District, Dalian City, Liaoning Province, 116024

Patentee after: DALIAN TONGDIAN TECHNOLOGY CO.,LTD.

Address before: No.10 Xuefu street, Dalian Development Zone, Liaoning Province, 116622

Patentee before: DALIAN University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200630