CN1556480A

CN1556480A - 电子词典语义分析方法

Info

Publication number: CN1556480A
Application number: CNA200310110376XA
Authority: CN
Inventors: 周尚|; 周尚弢
Original assignee: Zhuhai Kingsoft Software Co Ltd
Current assignee: Zhuhai Kingsoft Software Co Ltd
Priority date: 2003-12-30
Filing date: 2003-12-30
Publication date: 2004-12-22

Abstract

本发明提供了一种用于电子词典的语义分析方法。所述方法包括1)从原始输入中获取字符序列、分析种子和分析策略；2)划分字符序列的待分析区间；3)判断字符序列的可能语言类别；4)根据分析策略对字符序列进行语义分析；5)输出分析结果列表。其中，分析结果列表中包括语义单元、语义区间和提供的单元匹配建议。本发明提供的语义提取方法能够实现断续短语分析(跳词分析)、区分大小写分析、含非常规间隔符短语的分析、多语言混合分析以及词汇的语义替换功能，因此采用本方法的电子词典的智能度较高、输出的翻译结果更为靠近自然语义，准确度较高。

Description

电子词典语义分析方法

技术领域

本发明涉及一种分析方法，尤其涉及一种用于电子词典的语义分析方法。

背景技术

在计算机技术和电子技术日益普及的今天，电子词典在人们的日常生活中得到普遍应用，为人们的工作学习带来了方便。但是现有技术提供的电子词典常采用空格断词方式，遇到空格即选定单词并且只对选定的单词进行语义分析，而不会对词汇的构成做进一步的分析。因此，上述断词和语义分析技术的智能度较低，从而导致输出结果准确性较差。例如在语句“I’m on my way home.”中，以第九个字母，即“my”中的“y”为分析的起始位置(即分析种子)时，现有电子词典采用的断词方法选定“my”这个词，并仅仅给出单词的解释，而未能给出相关词组或短语的组合及解释，因此输出结果仅仅是单词本意，而不是根据句子的完整意思给定确切的词语解释，这样导致翻译结果不能贴切地靠近句子的自然语义、准确性较差，不利于用户理解，智能度较低。

发明内容

为解决上述技术问题，本发明提供了一种准确度较高、较为智能化的电子词典语义分析方法。

本发明提供的一种电子词典语义分析方法，其特征在于包括：

1)从原始输入中获取字符序列、分析种子和分析策略；

2)划分字符序列的待分析区间；

3)判断字符序列的可能语言类别；

4)根据分析策略对字符序列进行语义分析；

5)输出分析结果列表。

所述步骤3)还包括：

21)定义语言信息饱和度；

22)查询并记录所属语言类别，记录语言字符的出现计数；

23)计算语言权值并按权值大小对语言类别排序。

所述步骤4)还包括：

31)提取语义单元；

32)划分语义区间；

33)单元匹配建议。

所述步骤4)用于英语序列时，还包括：编码分析、短语分析和词汇分析操作；

所述编码分析操作包括短语分析和词汇分析操作；

所述短语分析操作包括词汇分析操作。

所述编码分析操作还包括：

51)统一处理全角和半角字符；

52)处理半角字符；

53)处理全角字符；

所述步骤51)、52)和53)中包括短语分析操作和词汇分析操作。

所述短语分析操作还包括：

61)分析连续短语；

62)分析断续短语；

63)分析含非常规间隔符的连续短语；

64)分析含非常规间隔符的断续短语；

所述步骤61)、62)、63)和64)包括词汇分析操作。

所述词汇分析操作还包括：

71)处理多语言混合形式；

72)处理流行拼写形式；

73)处理词汇化短语；

74)处理词汇变换；

75)处理大小写隐含语义。

所述步骤74)还包括：

81)连字拼接和缩写展开；

82)消尾还原、消前缀和后缀；

83)不规则变换；

84)相近语义替换。

所述分析结果列表包括语义单元、语义区间和单元匹配建议。

与现有技术相比，本发明提供的电子词典语义分析方法采用了新的断词技术和语义提取、分析技术，因此可以实现断续短语分析(跳词)、区分大小写分析、含非常规间隔符短语的分析、多语言混合分析以及语义替换功能，并能够输出在提取的语义单元中较全的分析结果，并从分析结果列表中选定较为贴切的翻译结果输出，从而使得电子词典翻译的智能度较高、输出结果更为靠近自然语义，因而准确度较高。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1是本发明所述方法的实施例流程图；

图2是本实施例中判断语言类别的流程图；

图3是本实施例中提取语义单元、划分语义区间及提供匹配建议的流程图；

图4是以英语为例描述提取语义单元、划分语义区间及提供匹配建议流程图；

图5是图4所述实施例中编码分析的流程图；

图6是图4所述实施例中短语分析的流程图；

图7是图4所述实施例中词汇分析的流程图；

图8是图4所述实施例中词汇变换的流程图。

具体实施方式

下面结合附图来详细说明本发明。

请参照图1，在本实施例中，本发明提供的电子词典语义分析方法需要完成图1所示的各个步骤。

在步骤1中需要从原始输入中获取分析序列、分析种子和分析策略。在本实施例中电子词典为安装在计算机上的翻译软件，其对应的原始输入为屏幕所显示的欲翻译的文字，这些文字为统一码UNICODE序列或混合字节设置MBCS序列。在获取分析序列时，将序列中所有字符转化为UNICODE编码。在实际应用中，用户根据系统界面提供的选项(例如是否进行短语分析等分析行为)来选择分析策略以控制分析的模糊程度。选择不同的分析策略或不同的策略组合将进入不同的逻辑分析流程，并输出不同的分析结果。当所有分析策略选项均为缺省值时，系统默认对得到的序列进行全部可能性的分析。进行语义分析时需要选定分析种子，即语义分析起始位置处的字符。在实际应用中，由鼠标或光标来指定该位置，系统通过识别鼠标或光标的位置来捕捉分析种子；若鼠标或光标未指定任何位置，则系统默认字符序列的第一个字符为分析种子。

步骤2，从字符序列中划分出待分析序列的起始、终止字符位置。通常从分析种子开始向两端分别并入一定数目字符，若未到达规定数目的字符就遇见语义分割字符，则起始或终止位置就为语义分割符处。所述语义分隔符为自然语言中划分语义的标点符号，如“，”、“。”、“：”等。

步骤3，判断待分析序列字符对应的所有可能的语言类别。

步骤4，根据分析策略从字符序列中提取语义单元、划分语义区间、提供单元匹配建议。

步骤5，输出分析结果列表，所述列表是语义单元、语义区间和单元匹配建议的集合。所述语义区间为得到该语义单元时在分析序列中分析过程所涵盖的字符范围，其表述的是分析序列中的字符范围，而不是结果列表中语义单元的字符范围。以分析序列“This is on his hands”为例，分析种子为“his”中的s，则分析结果列表的一个片断的具体格式参照表1为：

表1为分析结果列表

分析结果列表
分析结果列表			语义单元	语义区间	单元匹配建议
......	......	......	语义单元	语义区间	单元匹配建议
......	......	......	on his hands	[o，s]	无
on his hand	[o，s]	hands为名词或动词	on his hands	[o，s]	无
on his hand	[o，s]	hands为名词或动词	on one′s hands	[o，s]	hands为名词
on one′s hand	[o，s]	hands为名词	on one′s hands	[o，s]	hands为名词
on one′s hand	[o，s]	hands为名词	on sb.′s hands	[o，s]	hands为名词
on sb.′s hand	[o，s]	hands为名词	on sb.′s hands	[o，s]	hands为名词
on sb.′s hand	[o，s]	hands为名词	on my hands	[o，s]	hands为名词
......	......	......	on my hands	[o，s]	hands为名词

请参照图2，判断待分析区间序列所有可能的语言类别包括下述步骤：步骤21，为每一种语言定义表示该语言中单个字符携带的有效信息量的语言信息饱和度。所述语言信息饱和度类似于密码学中熵的概念，用以比较不同语言表达相同语义所需要的文字数量的多少关系。以不同语言译本的《简爱》为例加以说明，统计每种译本包含的字符数量，定义某种语言为基准语言，并定义其信息饱和度为单位“1”，其他语言的字符数量除以该基准语言的字符数量，便得到这几种语言的信息饱和度。信息饱和度只是一个相对的概念，实际应用中只求出翻译要求的目标语言中各种语言的信息饱和度。步骤22，从分析种子开始，向字符序列中待分析区间的边界逐一扫描各字符，因为每个UNICODE编码字符都有它所属的语言类别，所以可以查询、记录每个扫描到的字符所属语言的类别，最后统计出每种语言字符的出现计数。步骤23，根据公式(语言权值等于该语言出现的字符的出现计数和语言信息饱和度的乘积)计算出序列中出现的语言权值，并按权值大小对语言类别排序。

以中英文混合字符序列“维生素C”为例来说明判断语言类别的过程。在本例中，定义汉语信息饱和度是3.2，英语信息饱和度为0.7；在字符序列“维生素C”中选定“维”为分析种子；在待分析区间中依次扫描得到“维”“生”“素”“C”四个字符，前三个字符既可能是汉语，也可能是日语，为此，汉语、日语字符的出现计数都是3，而第四个字符“C”可能是英语、德语、法语、拉丁语等，所以这些语言的字符的出现计数均为1；在本例中，语言类别只取汉语和英语，通过语言权值的计算公式得到：汉语权值＝3.2*3＝6.4，英语权值＝0.7*1＝0.7，于是，根据权值大小排序：汉语为1，英语为2。完成上述各步骤之后，系统将先按汉语规则对该字符序列进行语义分析，再按英语规则进行语义分析。

需要指出的是，得到信息饱和度方法有多种，可以通过计算得出，也可从大量的实例统计中得到，例如本例子就是从表达相同语义的多语言的书籍中统计得到。

请参照图3，步骤31中根据语言权值的排序结果对每一种可能语言类别应用该语言的规则进行逻辑分析。步骤32，为每个语义单元划分语义区间，语义区间包含分析种子，由同一语义单元变化得到的语义单元与原语义单元有共同的语义区间。步骤3，提供单元匹配建议。所述单元匹配建议为：由一语义单元变化得到另一语义单元过程中所应用的规则的适用条件。以“on his hands”为例(参考前述表1)：由它当得到“on his hand”时应用的规则是去掉“hands”中的“s”，可能是将复数名词变为单数，或者是将动词第三人称单数形式变为原型，所以要求“hands”为名词或动词；而由它得到“on one′s hand”时将“his”替换为“one′s”，因为“one′s”相当于形容词性物主代词，所以要求“hands”只能为名词。

请参照图4至图8，以英语为例详细说明本发明电子词典语义分析方法，其具体包括编码分析41、短语分析42和词汇分析43等操作，在编码分析41中对每次编码转换完的结果进行短语分析42和词汇分析43操作，此处的词汇分析特指对包含分析种子的词汇的分析，在短语分析42中对短语中包含的每个词进行词汇分析43操作。

如图5所示，编码分析过程包括二个步骤，在每一步骤中都需要进行相应的短语分析和词汇分析。首先在步骤51中将全角和半角字符统一对待进行处理，也就是西文字体时，在原始输入中同时含有全角字符和半角字符，在本处理步骤中先将语义单元中的全角字符转化为半角字符后，再同原语义单元中的原有半角字符拼接在一起统一进行短语、词汇分析，将每一个分析结果写入分析结果列表中。然后根据分析种子是全角字符还是半角字符选择执行步骤52或53。步骤52只取出语义单元中的半角字符进行短语、词汇分析，并将每一结果写入分析结果列表中。步骤53中仅取出语义单元中的全角字符进行短语分析和词汇分析，并将结果写入分析结果列表中。比如“ about face””，其中“about”为全角字符则第一遍取出“about face”，第二遍根据分析种子所指的位置取出“face”或者“about”。

请参照图6，在短语分析过程中包含四个分析处理过程，每一个过程中对短语中的每个词都进行词汇分析。步骤61分析连续短语中，首先定义连续短语中“最多可包含的词汇个数”，然后从待分析区间中依次取出包含分析种子的语义单元，该语义单元从长到短排序，其长度从等于“最多可包含的词汇个数”开始，依次减1，直至等于2。对于相同长度的语义单元，分析种子越靠近序列中间权值越大，以此规则参与排序。以英文“This is a student.”为例，详述此过程，定义连续短语“最多可包含的词汇个数”为8，并定位分析种子为“is”中的“s”，则语义单元排序后的结果为：“This is a student.”、“This is a student”、“This is a”、“is astudent”、“This is”、“is a”。

步骤62分析断续短语，首先定义断续短语中“最多可包含的词汇个数”和断续短语中“跳跃词汇的个数”，然后从待分析区间中依次取出包含分析种子的语义单元，该语义单元的长度从等于“最多可包含的词汇个数”开始，依次减1，直至等于“跳跃词汇数”+2。在上述语义单元中穷举所有包含分析种子并跳跃1～“跳跃词汇的个数”个连续词汇的短语，并从长到短排序。对于相同长度的语义单元，分析种子越靠近序列中间权值越大，以此规则参与排序。以英文“This is a student.”为例说明断续短语的分析，分析种子为“is”中的“s”，结果为：“This is student”、“isstudent”。

步骤63分析含非常规间隔符的连续短语，首先将非常规间隔符替换成常规间隔符，然后按照步骤61中所述的分析连续短语方法进行分析。在本实施例中，常规间隔符包括空格、逗号、句号等标点符号；非常规间隔符包括下划线、“$”、“％”等符号。

例如在语句“This_is_a_student.”中，将下划线替换为空格，相应地整个句子就转换成“This is a student.”，然后再按照分析连续短语方法对整个语句进行分析。

步骤64分析含非常规间隔符的断续短语，首先将非常规间隔符替换成常规间隔符，然后按照步骤62所述断续短语分析方法进行分析。

需要指出的是，在每次分析中用词汇分析方法对上述分析结果中的词汇迭代处理。

请参照图7，词汇分析过程中，从分析种子向两端扫描到常规间隔符或序列端点，产生语义单元，然后对各语义单元分别进行词汇变换，将每个产生的结果进行流行拼写形式处理，然后对上述所有的结果再次进行词汇变换，将最后产生的每个结果加入语义单元列表。其中，步骤71中需处理多语言混合表意形式。

如图7所示，步骤72处理流行拼写形式。目前存在将a写作@，s写作$等流行拼写形式，因此在本步骤中需要将@替换为a，$替换为s等传统拼写形式，并产生语义单元，然后进行词汇变换，产生的每个结果为一个语义单元；然后将流行符号作为断词标志，并对所有的结果再次进行词汇变换，产生的每个结果为一语义单元；例如单词“bo$$”可以识别为“boss”。

步骤73中处理词汇化短语。首先将含有连字符的序列作为一语义单元进行词汇变换，产生其他语义单元；然后将连字符替换成常规间隔符，再进行短语分析。例如，“out-of-control”中，将连字符转换为空格，在恢复其本意“out of control”后进行分析。

步骤74所示的处理词汇变换包括连字拼接和缩写展开、消前/后缀、消尾还原、不规则变换以及语义替换等过程。

步骤75所示的处理大小写隐含语义，需要从分析种子开始，依次匹配如下形式的子序列：一个大写字母加小写序列、全大或小写序列、一个小写字母加大写序列。将每次匹配结果连同其他的词汇变换加入分析结果列表。如：GetSQLStatus，分析种子为第三个字符t，则分析结果为：Get，et，tSQLS，tSQL。

请参照图8，词汇变换处理流程图。步骤81，将字符序列中的连字符去掉，并将连字符前后的序列拼接在一起，产生一语义单元，并进行词汇变换，产生其他语义单元。同时，将带有缩写符号的字符序列扩展恢复为原型，并穷举出原型中的所有排列，例如：isn′t会产生如下语义单元：[isnot]、[be not]、[is]、[be]、[not]，并对所有结果进行词汇变换，将最后结果加入分析结果列表。步骤82，将所有可能的消尾还原、消前缀和后缀的结果加入分析结果列表，并提供如消尾匹配的建议。例如“getting”转换为“get”。步骤83，将各种词性的不规则变化穷举出来，加入到分析结果列表。例如“could”转换为“can”，“held”转换为“hold”。步骤84，将语义相近的结果穷举出来，加入到分析结果列表。例如在一些短语如“on the way home”中的“the”可替换为“sb.’s”、“one’s”、“this”、“that”、“these”、“those”等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种电子词典语义分析方法，其特征在于包括：