CN106202040A - 一种pda翻译系统的中文分词方法 - Google Patents
一种pda翻译系统的中文分词方法 Download PDFInfo
- Publication number
- CN106202040A CN106202040A CN201610505434.6A CN201610505434A CN106202040A CN 106202040 A CN106202040 A CN 106202040A CN 201610505434 A CN201610505434 A CN 201610505434A CN 106202040 A CN106202040 A CN 106202040A
- Authority
- CN
- China
- Prior art keywords
- participle
- word
- chinese
- dictionary
- reverse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种PDA翻译系统的中文分词方法,包括以下步骤:采用中文翻译为东盟各国语言的中文词典进行正向分词,再采用东盟各国语言翻译为中文的中文词典进行逆向分词,当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则需进行歧义分析,分别计算正向分词与反向分词加权值,当正向分词加权值大于反向分词加权值时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。
Description
技术领域
本发明涉及翻译技术领域,具体是一种PDA翻译系统的中文分词方法。
背景技术
在翻译系统中,词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
以中文翻译为其它语言为例,拼音语言文字各单词之间可通过空格进行区分,而中文有由于句子中每个字都是直接连接在一起的,因此要对输入的中文句子进行分词。
中文分词技术的分类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
基于字典、词库匹配的分词方法,目前常用的有正向匹配和逆向匹配,无论是正向还是逆向,都是在开始的局部范围内的最大匹配,即每个句子的前N个字符或者后N个字符进行匹配。翻译系统中采用双向匹配方法进行分词还没有检索到技术公开。
发明内容
本发明要解决的技术问题是提供一种PDA翻译系统的中文分词方法,提高分词的匹配度和精准性。
本发明采用的技术方案如下:
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ1+λ2=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文。
所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典。
所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典。
本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。
具体实施方式
以下结合实施例对本发明的技术方案做进一步的说明。
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文;
所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;所述的正向分词词典为中文—越南文、中文—印度尼西亚文、中文—马来西亚文、中文—泰文四个中文词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;所述的逆向分词词典为越南文—中文、印度尼西亚文—中文、马来西亚文—中文、泰文—中文四个中文词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ1+λ2=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
Claims (2)
1.一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;其特征在于:
所述的中文分词方法包括以下步骤:
(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n-1,在2n-1分词方式中,只有唯一的一个正确的分词;
正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;
设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;
(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;
先从句子最后一个字an开始分词,然后按句子逆向取anan-1,取词后对anan-1进行正向处理:将anan-1逆序调整为an-1an,然后将an-1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;
(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);
(4)歧义分析:
设正向分词结果为向量Z=(z1,z2,...,zm);
反向分词结果为向量F=(f1,f2,...,fn);
正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;
相同词相同词序
正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;
反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;
正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;
反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;
分别计算正向分词与反向分词加权值:
SimZSameword=λ1×ZSameword+λ2×ZCXSameword
SimFSameword=λ1×FSameword+λ2×FCXSameword
λ1,λ2为加权常数,且λ1+λ2=1;
当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
2.一种PDA翻译系统的中文分词方法,其特征在于:所述的东盟各国语言包括越南文、泰国文、马来西亚文及印度尼西亚文;所述的正向分词词典为中文-越南文、中文-印度尼西亚文、中文-马来西亚文、中文-泰文四个中文词典;所述的逆向分词词典为越南文-中文、印度尼西亚文-中文、马来西亚文-中文、泰文-中文四个中文词典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610505434.6A CN106202040A (zh) | 2016-06-28 | 2016-06-28 | 一种pda翻译系统的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610505434.6A CN106202040A (zh) | 2016-06-28 | 2016-06-28 | 一种pda翻译系统的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106202040A true CN106202040A (zh) | 2016-12-07 |
Family
ID=57463735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610505434.6A Pending CN106202040A (zh) | 2016-06-28 | 2016-06-28 | 一种pda翻译系统的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202040A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN102929865A (zh) * | 2012-10-12 | 2013-02-13 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
-
2016
- 2016-06-28 CN CN201610505434.6A patent/CN106202040A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929865A (zh) * | 2012-10-12 | 2013-02-13 | 广西大学 | 一种用于中文和东盟各国语言互译的pda翻译系统 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
Non-Patent Citations (3)
Title |
---|
YUEQI LIAO 等: "A New Strategy for Disambiguation in Segmentation of Chinese Words", 《ADVANCED RESEARCH ON COMPUTER SCIENCE AND INFORMATION ENGINEERING》 * |
陈之彦 等: "基于Hash结构词典的双向最大匹配分词法", 《计算机科学》 * |
麦范金 等: "基于双向匹配法和特征选择算法的中文分词技术研究", 《昆明理工大学学报(自然科学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1954315B (zh) | 用于将汉语拼音翻译成汉字的系统和方法 | |
CN102122298B (zh) | 一种中文相似性匹配方法 | |
CN102455845B (zh) | 一种文字输入方法和装置 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN102708147A (zh) | 一种科技术语的新词识别方法 | |
CN107329960B (zh) | 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 | |
JPS6211932A (ja) | 情報検索方法 | |
CN111859921A (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN107102983B (zh) | 一种基于网络知识源的中文概念的词向量表示方法 | |
US20100106481A1 (en) | Integrated system for recognizing comprehensive semantic information and the application thereof | |
U Rahman | Towards Sindhi corpus construction | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
Alhanini et al. | The enhancement of arabic stemming by using light stemming and dictionary-based stemming | |
CN102033614A (zh) | 一种智能组合的公式输入方法及系统 | |
CN113239668B (zh) | 关键词智能提取方法、装置、计算机设备及存储介质 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN106202040A (zh) | 一种pda翻译系统的中文分词方法 | |
CN115994199A (zh) | 一种利用上下文将文本中实体关联到知识库的方法 | |
Long et al. | Longest matching and rule-based techniques for Khmer word segmentation | |
CN109325224B (zh) | 一种基于语义元语的词向量表征学习方法及系统 | |
Tijani et al. | An auto-generated approach of stop words using aggregated analysis | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
CN109710838B (zh) | 一种基于深度神经网络的公司网站关键词提取方法 | |
CN116822495B (zh) | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161207 |
|
WD01 | Invention patent application deemed withdrawn after publication |