CN106202040A - 一种pda翻译系统的中文分词方法 - Google Patents

一种pda翻译系统的中文分词方法 Download PDF

Info

Publication number
CN106202040A
CN106202040A CN201610505434.6A CN201610505434A CN106202040A CN 106202040 A CN106202040 A CN 106202040A CN 201610505434 A CN201610505434 A CN 201610505434A CN 106202040 A CN106202040 A CN 106202040A
Authority
CN
China
Prior art keywords
participle
word
chinese
dictionary
reverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610505434.6A
Other languages
English (en)
Inventor
邓力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610505434.6A priority Critical patent/CN106202040A/zh
Publication of CN106202040A publication Critical patent/CN106202040A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种PDA翻译系统的中文分词方法,包括以下步骤:采用中文翻译为东盟各国语言的中文词典进行正向分词,再采用东盟各国语言翻译为中文的中文词典进行逆向分词,当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则需进行歧义分析,分别计算正向分词与反向分词加权值,当正向分词加权值大于反向分词加权值时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。

Description

一种PDA翻译系统的中文分词方法
技术领域
本发明涉及翻译技术领域,具体是一种PDA翻译系统的中文分词方法。
背景技术
在翻译系统中,词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
以中文翻译为其它语言为例,拼音语言文字各单词之间可通过空格进行区分,而中文有由于句子中每个字都是直接连接在一起的,因此要对输入的中文句子进行分词。
中文分词技术的分类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
基于字典、词库匹配的分词方法,目前常用的有正向匹配和逆向匹配,无论是正向还是逆向,都是在开始的局部范围内的最大匹配,即每个句子的前N个字符或者后N个字符进行匹配。翻译系统中采用双向匹配方法进行分词还没有检索到技术公开。
发明内容
本发明要解决的技术问题是提供一种PDA翻译系统的中文分词方法,提高分词的匹配度和精准性。
本发明采用的技术方案如下:
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ12为加权常数,且λ12=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文。
所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典。
所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典。
本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。
具体实施方式
以下结合实施例对本发明的技术方案做进一步的说明。
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文;
所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ12为加权常数,且λ12=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。

Claims (2)

1.一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;其特征在于:
所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ12=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
2.一种PDA翻译系统的中文分词方法,其特征在于:所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文;所述的正向分词词典为中文-越南文、中文-印度尼西亚文、中文-马来西亚文、中文-泰文四个中文词典;所述的逆向分词词典为越南文-中文、印度尼西亚文-中文、马来西亚文-中文、泰文-中文四个中文词典。
CN201610505434.6A 2016-06-28 2016-06-28 一种pda翻译系统的中文分词方法 Pending CN106202040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610505434.6A CN106202040A (zh) 2016-06-28 2016-06-28 一种pda翻译系统的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610505434.6A CN106202040A (zh) 2016-06-28 2016-06-28 一种pda翻译系统的中文分词方法

Publications (1)

Publication Number Publication Date
CN106202040A true CN106202040A (zh) 2016-12-07

Family

ID=57463735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610505434.6A Pending CN106202040A (zh) 2016-06-28 2016-06-28 一种pda翻译系统的中文分词方法

Country Status (1)

Country Link
CN (1) CN106202040A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN102929865A (zh) * 2012-10-12 2013-02-13 广西大学 一种用于中文和东盟各国语言互译的pda翻译系统
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法
CN105138514A (zh) * 2015-08-24 2015-12-09 昆明理工大学 一种基于词典的正向逐次加一字最大匹配中文分词方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929865A (zh) * 2012-10-12 2013-02-13 广西大学 一种用于中文和东盟各国语言互译的pda翻译系统
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法
CN105138514A (zh) * 2015-08-24 2015-12-09 昆明理工大学 一种基于词典的正向逐次加一字最大匹配中文分词方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUEQI LIAO 等: "A New Strategy for Disambiguation in Segmentation of Chinese Words", 《ADVANCED RESEARCH ON COMPUTER SCIENCE AND INFORMATION ENGINEERING》 *
陈之彦 等: "基于Hash结构词典的双向最大匹配分词法", 《计算机科学》 *
麦范金 等: "基于双向匹配法和特征选择算法的中文分词技术研究", 《昆明理工大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424612A (zh) * 2017-07-28 2017-12-01 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质

Similar Documents

Publication Publication Date Title
CN1954315B (zh) 用于将汉语拼音翻译成汉字的系统和方法
CN102122298B (zh) 一种中文相似性匹配方法
CN102455845B (zh) 一种文字输入方法和装置
CN101079025B (zh) 一种文档相关度计算系统和方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN102708147A (zh) 一种科技术语的新词识别方法
CN107329960B (zh) 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法
JPS6211932A (ja) 情報検索方法
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
U Rahman Towards Sindhi corpus construction
CN111506726B (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
Alhanini et al. The enhancement of arabic stemming by using light stemming and dictionary-based stemming
CN102033614A (zh) 一种智能组合的公式输入方法及系统
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN110929022A (zh) 一种文本摘要生成方法及系统
CN106202040A (zh) 一种pda翻译系统的中文分词方法
CN115994199A (zh) 一种利用上下文将文本中实体关联到知识库的方法
Long et al. Longest matching and rule-based techniques for Khmer word segmentation
CN109325224B (zh) 一种基于语义元语的词向量表征学习方法及系统
Tijani et al. An auto-generated approach of stop words using aggregated analysis
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
CN109710838B (zh) 一种基于深度神经网络的公司网站关键词提取方法
CN116822495B (zh) 基于对比学习的汉-老、泰平行句对抽取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161207

WD01 Invention patent application deemed withdrawn after publication