CN1936886A - 词素分析装置、词素分析方法以及词素分析程序 - Google Patents

词素分析装置、词素分析方法以及词素分析程序 Download PDF

Info

Publication number
CN1936886A
CN1936886A CNA2006101542169A CN200610154216A CN1936886A CN 1936886 A CN1936886 A CN 1936886A CN A2006101542169 A CNA2006101542169 A CN A2006101542169A CN 200610154216 A CN200610154216 A CN 200610154216A CN 1936886 A CN1936886 A CN 1936886A
Authority
CN
China
Prior art keywords
affixe
word
morpheme
probability
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101542169A
Other languages
English (en)
Other versions
CN100514324C (zh
Inventor
中川哲治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Publication of CN1936886A publication Critical patent/CN1936886A/zh
Application granted granted Critical
Publication of CN100514324C publication Critical patent/CN100514324C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

对于包含已知词以及未知词的任何一个的句子可以实施词素分析,实现适当的最优解搜索或词素辞典的有效的创建。本发明的词素分析装置,包括:词缀复原部件,基于既定的词缀复原规则来变换输入句中单词的词缀;词素分析候补生成部件,对由词缀复原部件复原了词缀的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;生成概率计算部件,就已生成的各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解各词素分析候补的生成概率;以及解搜索部件,从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。

Description

词素分析装置、词素分析方法以及词素分析程序
技术领域
本发明涉及词素分析装置、词素分析方法以及词素分析程序,可适用于例如以韩国语为原语言的机器翻译中的词素分析系统。
背景技术
在机器翻译系统中,划分输入句中的词素并赋予词类的词素分析是必要的处理,词素分析的结果给其后的处理带来较大的影响。因此,词素分析装置必须依照作为对象的语言来输出高精度的解。
对于语言来说,一般地认为韩国语是与日本语类似的语言。但是,在韩国语中有一些日本语中没有的特征。例如、韩国语的词与词之间的分写方法与日本语不同。另外,在韩国语中具有频繁出现缩略等的现象、单词的词形变化非常复杂的特征。为此,在进行韩国语的词素分析时,希望能够与这些特征相对应。
在非专利文献1中,公开了进行韩国语的词素分析的方法。在该方法中,导入所谓的残留字符的概念,并使用将所谓的残留字符信息赋予给缩略的词素的辞典。而且,在查辞典时,对于已经赋予了残留字符的词素,进一步,就与残留字符对应的字符串查辞典,并对于由于缩略而变化了词形的词素也进行辞典查阅。
另外,在非专利文献2中,也公开了进行韩国语词素分析的方法。在该方法中,首先进行词缀的复原处理,再次进行词类标记赋予,最后进行词素划分的推定。根据词缀的复原处理,将由于缩略等原因而变化了的词素的词缀恢复到原始而进行处理。另外,在该方法中,辞典和参数等可以完全从训练用的语料库来学习。
【非专利文献1】山本和英、「用于计算机处理的韩国语语言体系和词素处理」自然语言处理、Vol.7、No.4,2000年10月
【非专利文献2】CHUNG-HYE HAN,MARTHA PALMER,“A Morphological Tagger for Korean:Statistical Tagging Combinedwith Corpus-based Morphological Rule Application”,MachineTranslation,Vol.18,No.4,2004年12月
但是,即使在根据上述以往的词素分析的情况下,也担心会产生如下的问题。
例如、在非专利文献1中记载的方法的情况下,必须预先将赋予了残留字符信息的词素辞典通过人工等进行创建而准备好。为此,存在产生与词素辞典创建相关的负担的问题。另外,在非专利文献1中没有记载与在词素辞典中不存在的未知词相对的处理方法,存在与未知词不能相对应的问题。
另外,例如,在非专利文献2中记载的方法的情况下,辞典等可以从语料库自动的创建,而且对于未知词也可以处理。但是,分别独立进行词缀复原处理和词类标记推定处理,不进行贯通词素分析处理整体来搜索最优的解。而且在词素划分推定时,由于基于简单的规则来决定解,故在存在多个解候补的情况下就有不能适当地消除暧昧性的可能性。
如上所述,需要能够对于包含已知词以及未知词的任何一个的句子都能够实施词素分析、能够适当地搜索词素分析的最优的解、而且能够有效地创建词素辞典的词素分析装置、词素分析方法以及词素分析程序。
发明内容
为了解决这样的课题,第1本发明的词素分析装置的特征在于,包括:(1)词缀复原部件,基于既定的词缀复原规则来变换输入句中单词的词缀;(2)词素分析候补生成部件,对由词缀复原部件复原了词缀的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;(3)生成概率计算部件,就已生成的各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解各词素分析候补的生成概率;以及(4)解搜索部件,从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
第2本发明的词素分析方法,其特征在于,包括:(1)词缀复原步骤,基于既定的词缀复原规则来变换输入句中单词的词缀;(2)词素分析候补生成步骤,对由词缀复原步骤经过词缀复原的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;(3)生成概率计算步骤,就已生成的各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解各词素分析候补的生成概率;以及(4)解搜索步骤,从由生成概率计算步骤计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
第3本发明的词素分析程序,其特征在于,使计算机作为以下部件来发挥功能,(1)词缀复原部件,基于既定的词缀复原规则来变换输入句中单词的词缀;(2)词素分析候补生成部件,对由词缀复原部件经过词缀复原的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;(3)生成概率计算部件,就已生成的各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解各词素分析候补的生成概率;以及(4)解搜索部件,从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
根据本发明的词素分析装置、词素分析方法以及词素分析程序,可以对于包含已知词以及未知词的任何一个的句子都能够实施词素分析,能够适当地搜索词素分析的最优的解,而且能够有效地创建词素辞典。
附图说明
图1是表示第1实施方式的词素分析系统的构成的功能框图。
图2是表示第1实施方式的词素分析处理的动作流程图。
图3是第1实施方式的生成经过词素分割以及词类赋予的假说的流程图。
图4是第1实施方式的创建在词素分析系统的过程中所使用的辞典及参数等的动作的流程图。
图5是第1实施方式的词缀复原规则的创建方法例子的流程图。
图6是表示第1实施方式的词缀复原规则例子的说明图。
图7是表示第1实施方式的词素辞典的例子的说明图。
图8是表示第1实施方式的词素分析完毕语料库的例子的说明图。
图9是表示第1实施方式的针对输入句的假说的说明图。
图10是表示第1实施方式的针对输入句的假说的说明图。
图11是表示第1实施方式的针对输入句的假说的说明图。
附图标记说明
100...词素分析系统、110...分析部、120...模型保存部、130...模型学习部、111...输入部、112...词缀复原部、113...词素分割·词类赋予部、114...已知词假说生成部、115...未知词假说生成部、116...生成概率计算部、117...解搜索部、118...输出部、121...词缀复原规则保存部、122...词素辞典保存部、123...概率模型参数保存部、131...词素分析完毕语料库保存部、132...词缀复原规则创建部、133...词素辞典创建部、134...概率模型参数计算部。
具体实施方式
(A)第1实施方式
以下,参考附图对本发明的词素分析装置、词素分析方法以及词素分析程序的实施方式进行详细说明。
本实施方式,使用本发明的词素分析装置、词素分析方法以及词素分析程序,来实现将韩国语作为输入的词素分析系统。
(A-1)第1实施方式的构成
图1是表示本实施方式的词素分析系统的构成的功能框图。此外,本实施方式的词素分析系统100是在信息处理装置上实现的。例如将涉及被保存在硬盘和既定的记录媒体等中的词素分析的处理程序,通过CPU执行来实现。
在图1中,本实施方式的词素分析系统100,至少要由进行词素分析处理的分析部110、保存在词素分析处理时使用的词缀复原规则及词素辞典、概率模型参数的模型保存部120、以及从词素分析完毕的语料库进行参数等的学习的模型学习部130来构成。
如图1所示,分析部110至少要具有输入部111、词缀复原部112、词素分割·词类赋予部113、生成概率计算部116、解搜索部117、输出部118。另外,词素分割·词类赋予部113具有已知词假说生成部114、未知词假说生成部115。
输入部111,将使用者输入的输入句取入并将输入句提供给词缀复原部112。输入部111,例如,相当于将来自使用者操作的键盘等的信息取入的部件。
词缀复原部112是,接受输入部111取入的输入句,使用在词缀复原规则保存部121保存着的词缀复原规则,将输入句中的词缀已经变化了的单词复原到原形,并创建一个或者多个候补(以下、将这样的候补称为「假说」)的部件。因此,例如,就由于缩略现象而进行了词形变化的单词,可以替换成认为是本来的书写的词形。另外,词缀复原部112,将词缀复原以后的假说提供给词素分割·词类赋予部113。
词素分割·词类赋予部113是,接受由词缀复原部112进行词缀复原后的单词候补(假说),使用保存在词素辞典保存部122中的词素辞典,对于进行了词缀复原后的各假说创建词素分割以及词类赋予后的假说的部件。另外,词素分割·词类赋予部113,将完成了词素分割以及词类赋予的假说提供给生成概率计算部116。
生成概率计算部116是,对于由词素分割·词类赋予部113生成的各假说,使用在概率模型参数保存部123中保存的参数,计算生成概率的部件。
解搜索部117是,从由生成概率计算部116进行了生成概率计算后的各假说中,将正确度最高的假说作为解而选择出的部件。
输出部118是,将被解搜索部117选择出的解输出的部件。
另外,模型保存部120,至少具有词缀复原规则保存部121、词素辞典保存部122、概率模型参数保存部123。
词缀复原规则保存部121是,将在词缀复原处理中为了生成词缀复原后的假说而使用的多个词缀复原规则保存的部件。词缀复原规则保存部121所保存的各词缀复原规则是由词缀复原规则创建部132创建的。
词素辞典保存部122是保存例举出词素及其词类的词素辞典的部件。词素辞典保存部122保存的各词素及其词类的对是由词素辞典创建部133创建的。
概率模型参数保存部123是保存概率模型的参数的部件。概率模型参数保存部123保存的概率模型参数是由概率模型参数计算部134创建的。
进而,模型学习部130至少具有词素分析完毕语料库保存部131、词缀复原规则创建部132、词素辞典创建部133、概率模型参数计算部134。
词素分析完毕语料库保存部131是保存词素分析完毕的语料库的部件。
词缀复原规则创建部132是,使用在词素分析完毕语料库保存部131中保存的语料库创建词缀复原处理用的规则,并将创建的词缀复原规则提供给词缀复原规则保存部121的部件。
词素辞典创建部133是,使用在词素分析完毕语料库保存部131中保存语料库来创建词素辞典,并将创建的词素辞典提供给词素辞典保存部122的部件。
概率模型参数计算部134是,使用在词素分析完毕语料库保存部131中保存的语料库,来计算概率模型的参数,并将其结果提供给概率模型参数保存部123的部件。
(A-2)第1实施方式的动作
以下、对本实施方式的词素分析系统100中的词素分析处理的动作参考附图进行说明。图2是表示本实施方式的词素分析处理的动作流程图。
首先,使用者输入的输入句被取入到输入部111,将输入句提供给词缀复原部112(F201)。
例如,将使用者希望进行词素分析的句子的例子,设为「pqrabcde xyz」。在该例子中,将韩国语的字符用罗马字表示。在这里,词素分析中的分析候补的假说可以用图表结构来表现,在该时刻被输入的输入句「pqr abcde xyz」的假说如图9那样被表示。
若被取入到输入部111的输入句被提供给词缀复原部112,在词缀复原部112中,基于在词缀复原规则保存部121中被保存的词缀复原规则,将输入句中的词形已经变化了的单词的词缀复原,并生成由词缀被复原后的单词形成的假说(F202)。
例如,在词缀复原规则保存部121中,保存了如图6所示那样的词缀复原规则。在这里,所谓词缀复原规则是指例如还包含被缩略的单词在内的单词的书写不同及词形变化等,并将在外观上单词的词缀已经变形的部分置换成原来的词缀用的规则。
此外,词缀复原规则,适用于位于单词的末尾的字符串。
例如、在图6的词缀复原规则(X→Y)中,「X」是词缀复原前的字符串,「Y」是词缀复原后的字符串,根据本规则,对于单词的末尾是字符串「X」的单词,意味将其末尾的字符串「X」置换成字符串「Y」。
具体的,在图6中,例如「e→h」之类的词缀复原规则,对于以字符串「e」结束的单词,意味着将其字符串「e」置换成字符串「h」。
其中,在图6中,「ε」是表示空字符串的特殊的符号,「ε→ε」之类的词缀复原规则,表示将空字符串变换成空字符串的规则,也就是表示不进行字符串的变换的特别的规则。
另外,例如「cde→f+g/V」之类的词缀复原规则,是将字符串「cde」变换成词缀复原后的字符串「fg」的规则。但是,赋予了「g」之类的词素持有「V」之类的词类的制约。此外,在这里,将词素的划分用「+」来表示,在「/」的后面描述其词素的词类。这样,词缀复原规则,对于词缀复员后的字符串,可以赋予与词素的划分及其词类相对应的制约。
考虑将输入句「pqr abcde xyz」被提供给词缀复原部112,并只关注该假说中的「abcde」之类的单词的情况。在图6的词缀复原规则例子中,由于存在「cde→f+g/V」、「e→h」、「ε→ε」之类的词缀复原规则,将输入句中的「abcde」之类的单词,根据各自的规则变换成「abf+g/V」、「abcdh」、「abcde」之类的字符串。此外,将表现该词缀复原处理的结果的假说在图10中表示。
下面,若将由词缀复原部112中的词缀复原处理而生成的假说提供给词素分割·词类赋予部113,在词素分割·词类赋予部113中,对于假说,生成被分割成词素并被赋予了词类的候补(F203)。
图3是生成进行了词素分割·词类赋予部113中的词素分割以及词类赋予后的假说的流程图。
在图3中,若从词缀复原部112提供了词缀复原后的假说,首先,在已知词假说生成部114中,对各假说,基于被保存在词素辞典保存部122的词素辞典,生成已知词的假说(F301)。在这里,所谓已知词就是在词素辞典中保存着的字符串。
图7是在词素辞典保存部122中被保存着的词素辞典的例子。图7的词素辞典包含多个词素及其词类的组,在图7中,将词素和词类用「/」区分开。
例如、在被提供了如在图10中所示的假说的情况下,已知词假说生成部114,对于「abf+g/V」之类的假说,由于包含「ab/X」之类的词素,所以生成「ab/X」之类的词素假说。
进一步,在该假说中,在词缀复原处理时,由于提供了「g/V」这样的词素划分和词类制约,也生成该词素的假说。
另外,同样地,由于对于图10的「abcdh」之类的假说,包含着「ab/X」、「cdh/Z」之类的词素;对于「abcde」之类的假说,包含着「ab/X」、「cde/Y」、「de/W」之类的词素,所以生成这些词素的假说。
下面,在未知词假说生成部115中,对于词缀复原后的各假说,生成未知词假说(F302)。此外,所谓未知词,是指没有在词素辞典中保存的词素。
在这里,在生成未知词的假说的方法中,可以考虑各种方法,但是,例如,可以使用在非专利文献3(中川、松本「使用了单词水平和字符水平的信息的中国语·日本语单词分割」,信息处理学会研究报告,2004-NL-162,pp.197-204,2004)中被记载的未知词处理方法。
在该非专利文献3中,记载了将未知词用字符单位进行处理的方法,例如,对于构成未知词的字符,赋予4种字符位置标记(表示存在于单词前头的字符、存在于单词的中间的字符、存在于单词末尾的字符、用一个字符构成单词的字符、的标记)。
在本实施方式中,使用将这些4个字符位置标记省略成1个字符位置标记的标记「U」,进行说明。
例如,在提供了图10所示的假说的情况下,对于「abf+g/V」之类的假说,由于包含字符「a」、「b」、「f」,所以生成由各自的字符形成的未知词处理用的假说。
另外,同样地,由于对于图10的「abcdh」之类的假说,包含「a」、「b」、「c」、「d 」、「 h 」之类的字符,而且对于「abcde」之类的假说,包含「a」、「b」、「c」、「d」、「e」之类的字符,所以生成由这些一个字符形成的未知词处理用的假说。
根据以上的处理生成图1所示的那样的假说。
这样,在使用了词缀复原规则的词缀复原处理时,就提供了词素的划分和词类制约的字符串,由于没有必要创建与其词素对应的别的已知词和未知词的候补,可以减少被生成的假说的数量。
接下来,若由词素分割·词类赋予部113所生成的假说被提供给生成概率计算部116,在生成概率计算部116中,基于在概率模型参数保存部123中被保存的概率模型参数,计算假说中的解候补的生成概率(F204)。此外,从图11的图表中的表示句头的节点到表示句末的节点的各路经就是各解候补。
在这里,各解候补的生成概率,根据下面的方法来计算。例如,将输入句中的单词数设为l,将从输入句的开头起第i个的单词设为ωi,将输入句中的词素数设为n,将从输入句的开头起第i个词素以及其词类分别设为mi以及ti,设单词串W=ω1...ωl、词素串M=m1...mn、词类串T=t1...tn
这时,在生成概率计算部116中被输入的各假说,也就是正解候补的词素串以及词类串可以用M以及T表示,可以从该假说中将生成概率最高的作为解而进行挑选。
因此,根据下面的公式,计算正解的词素串以及词类串M^、T^
【数学公式1】
< M ^ , T ^ > arg max P M , T ( M , T | W ) ,
Figure A20061015421600132
在这里,词缀复原后的单词串是W’=ω1’...ωl’,ωi′是表示复原了从输入句的前头开始的第i个词缀的单词。另外,连接mi的字符串与连接ωi的字符串相等(m1...mn=ω1’...ωl’)。
在上述式(1)中,P(M,T|W’)表示从词缀复原后的单词串生成词素串以及词类串的概率。该P(M,T|W’),例如,可以使用在非专利文献3中公开的以往的方法来求解,在这时使用的概率模型参数,为在概率模型参数保存部123中被保存的参数。
另外,P(W’|W)是从词缀复原前的单词串生成词缀复原后的单词串的概率,但是,如下述公式(2)所示,可以分割成按照各单词逐个的计算而进行考虑。
【数学公式2】
P ( W &prime; | W ) = &Pi; i = 1 l P ( w i &prime; | W , w l &prime; , &CenterDot; &CenterDot; &CenterDot; , w i - 1 &prime; ) ,
另外,在根据词缀复原规则(r→r’),单词ω的词缀被复原而被变换成ω’的情况下,如下述公式(3)所示,可以计算P(ω’|ω)。
【数学公式3】
P(w′|w)=P(r→r′|w).    (3)
在这里,在上述公式(4)中,P(r→r’|r)表示对于r之类的字符串,使用了词缀复原规则(r→r’)的概率,该概率数值,为在概率模型参数保存部123中被保存着的数值。另外,定义为,该公式中的x≤y关系,是表示y之类的字符串以x之类的字符串结束(x为y的后缀)这样的半顺序关系,而且x<y关系表示x≤y且x≠y的关系。
解搜索部117,从由生成概率计算部116进行了生成概率计算后的各解候补之中,挑选句子整体的生成概率最高的解(F205)。这样的搜索,可以使用Viterbi算法等来进行。
输出部118,将由解搜索部117求解出的解向用户输出(F206)。
下面,对于创建在本实施方式的词素分析系统100中的词素分析处理中使用的辞典和参数等的处理的动作,参考附图进行说明。
图4是,从词类标记赋予语料库求解在本实施方式的词素分析系统的过程中使用辞典和参数等的动作的流程图。
在图4中,首先,词缀复原规则创建部132根据在词素分析完毕语料库保存部131中被保存的词素分析完毕的语料库,创建词缀复原规则,并将该创建的词缀复原规则保存在词缀复原规则保存部121中(F401)。
在这里,将基于词缀复原规则创建部132的词缀复原规则的创建方法例子流程图示于图5。
在图5中,首先,将特别的(ε→ε)之类的特别规则保存到词缀复原规则保存部121(F501)。
从在带词类标记的词素分析完毕语料库保存部131中保存着的语料库中,取出一组词缀复原前的单词ω和与其对应的词缀复原后的单词ω’(F502)。
这时,判定词缀复原前的单词ω和词缀复原后的单词ω’是否相等,在单词ω和单词ω’相等的情况下,由于不需词缀复原规则,转移到F509的处理。在这以外的情况下,转移到下面的F504的处理(F503)。
在单词ω和单词ω’不相等的情况下,将单词W中的字符数设为m,将单词W’中的字符数设为n,将从单词W的前头开始的第x个的字符设为cx,将从单词W’的前头开始的第x个的字符设为c’x。因此,变成W=c1...cm、W’=c’1...c’n。另外,将变量i和l值设为0(F504)。
在这里,变量i表示作为处理对象的字符的位置,是从前头开始的字符数。另外,变量l,如后述那样,表示在单词ω和单词ω’之间,从单词前头开始的共同的字符的最大个数。
首先,变量i加1,判定单词ω的字符ci和单词ω’的字符c’i是否一致,在ci=c’i的情况下,l加1(F505)。
然后,判定是否ci=c’i、且i<m、且i<n,在ci=c’i、且i<m、且i<n的情况下,返回F505(F506)。
另一方面,在ci=c’i、且i<m、且i<n任何一个不成立的情况下进入F507。
在F507中,比较构成复原前的单词ω的字符数m和l数值,如果l=m,就从l值中减掉1(F507)。根据该处理,词缀复原规则的复原前的字符串的长度必定大于等于1。
如果cl+1...cm→c’l+1...c’n之类的词缀复原规则没有保存在词缀复原规则保存部121中,就将该规则追加于词缀复原规则保存部121中(F508)。
在对于词素分析完毕语料库保存部131的语料库中的全部的单词进行完了上述的处理情况下,就结束当前程序。在其以外的情况下返回F502重复进行处理(F509)。
此外,对于从词素分析完毕语料库得到词缀复原后的单词,可以根据词素分析完毕的词素和词类去掉词素划分和词类。
例如,如图8所示,在有词素分析完毕语料库的情况下,该语料库是对于「vwcdexyze」之类的句子的词素分析完毕语料库,在各行中,单词及其分析结果的词素·词类从句头开始按顺序被保存。
在该情况下,对于「vwcde」之类的词缀复原前的单词,「vwf/S+g/V」之类的词素和词类作为「vwfg」之类的词缀复原后的单词而进行处理。
当在词缀复原规则中将词素划分和词类的制约提供给复原后的字符串的情况下,在F508的处理中,创建持有制约的词缀复原规则。这时,例如从图8的语料库创建如图6那样的词缀复原规则。
词素辞典创建部133,从被保存在词素分析完毕语料库保存部131的词素分析完毕语料库取出词素和词类并创建词素辞典,并向词素辞典保存部122保存(F402)。
概率模型参数计算部134,根据被保存在词素分析完毕语料库保存部131中的词素分析完毕语料库来计算概率模型的参数,并向概率模型参数保存部123保存(F403)。
如上所述,由于公式(1)中的P(M,T|W’)可以使用现存的方法来计算,所以使用于进行P(M,T|W’)计算的概率模型的参数也可以与现存的方法同样而进行求解。另外,对于进行公式(4)的计算所必需的P(r→r’|r)之类的参数如下进行求解:
【数学公式4】
P ( r &RightArrow; r &prime; | r ) = 1 r = &Element; , f ( r &RightArrow; r &prime; | r ) &Sigma; s , s &prime; , s &le; &Gamma; f ( s &RightArrow; s &prime; | r ) r &NotEqual; &Element; , - - - ( 5 )
在这里,符号「≤」的意思与公式(4)情况相同,f(x→x’|y)表示在带词类标记的词素分析完毕语料库保存部131所保存的语料库中,在后缀上持有字符串y且x→x’之类的词缀复原规则被适用的单词的出现次数。该出现次数可以根据与图5所示的程序相同的顺序来进行求解。
(A-3)第1实施方式的效果
对于韩国语的输入句,即使在输入句中的单词由于缩略等而引起了的词形变化的情况下也可以进行词素分析。即使对于包含未知词的输入句,由于在进行了词缀复原的处理之后,生成未知词的假说,所以可以强健地进行处理。通过使用公式(1)进行计算,贯通词素分析处理整体,可以对于输入句求解最合理的词素和词类的串。使用于词素分析中的辞典和参数,不需要基于专业人员的人工的作业,可以全部从词素分析完毕语料库进行创建。
(B)其他实施方式
根据本发明的词素分析装置,对于被输入的输入句,首先进行词缀复原处理,将由于缩略等而引起变化了的词素的词缀进行复原。其后,推定词素的划分和词类。然后,通过词缀复原处理和词素分割·词类赋予处理的任何一个,基于概率的模型综合地进行处理,可以贯通词素分析处理整体而选择最优的解。另外,对于词素分析来说必需的辞典和参数等可以自动地从训练数据获得,对于未知词,也可以进行处理。
在图1说明了的词素分析系统100中,如果分析部110、模型保存部120、模型学习部130各自可协同动作,则例如也可以采用由网络等分别进行分散配置,并分别进行分散处理的构成。
在上述的实施方式中,举出了将输入句的语言为韩国语的情况的例子,但是通过替换使用的辞典等也可以适用于日本语和其他的语言句子。

Claims (6)

1.一种词素分析装置,其特征在于,包括:
词缀复原部件,基于既定的词缀复原规则来变换输入句中单词的词缀;
词素分析候补生成部件,对由词缀复原部件复原了词缀的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;
生成概率计算部件,就已生成的上述各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解上述各词素分析候补的生成概率;以及
解搜索部件,从由上述生成概率计算部件计算了生成概率的上述各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
2.按照权利要求1所述的词素分析装置,其特征在于:
上述生成概率计算部件基于上述词缀复原部件在上述输入句中单词的词缀复原处理中所适用的上述词缀复原规则的适用概率来计算上述复原前的单词被变换成复原后的单词的概率。
3.按照权利要求1或2所述的词素分析装置,其特征在于,还包括:
词缀复原规则创建部件,基于保存词素分析完毕的多个单词信息的词素分析完毕语料库保存部件中所保存的、词缀复原前的单词和与其对应的词缀复原后的单词,来创建上述词缀复原规则。
4.按照权利要求3所述的词素分析装置,其特征在于:
上述词缀复原规则创建部件能够创建对词缀复原后的字符串提供了词素划分和词类制约的词缀复原规则。
5.一种词素分析方法,其特征在于,包括:
词缀复原步骤,基于既定的词缀复原规则来变换输入句中单词的词缀;
词素分析候补生成步骤,对由词缀复原步骤经过词缀复原的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;
生成概率计算步骤,就已生成的上述各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解上述各词素分析候补的生成概率;以及
解搜索步骤,从由上述生成概率计算步骤计算了生成概率的上述各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
6.一种词素分析程序,其特征在于,使计算机作为以下部件来发挥功能,
词缀复原部件,基于既定的词缀复原规则来变换输入句中单词的词缀;
词素分析候补生成部件,对由词缀复原部件经过词缀复原的单词串,进行词素分割以及该词素的词类赋予,并生成一个或者多个词素分析候补;
生成概率计算部件,就已生成的上述各词素分析候补,基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积,来求解上述各词素分析候补的生成概率;以及
解搜索部件,从由上述生成概率计算部件计算了生成概率的上述各词素分析候补之中、将正确度最高的候补作为解来进行搜索。
CNB2006101542169A 2005-09-21 2006-09-15 词素分析装置以及词素分析方法 Active CN100514324C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005274483A JP3986531B2 (ja) 2005-09-21 2005-09-21 形態素解析装置及び形態素解析プログラム
JP2005274483 2005-09-21

Publications (2)

Publication Number Publication Date
CN1936886A true CN1936886A (zh) 2007-03-28
CN100514324C CN100514324C (zh) 2009-07-15

Family

ID=37885306

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101542169A Active CN100514324C (zh) 2005-09-21 2006-09-15 词素分析装置以及词素分析方法

Country Status (4)

Country Link
US (1) US20070067153A1 (zh)
JP (1) JP3986531B2 (zh)
KR (2) KR100882766B1 (zh)
CN (1) CN100514324C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325243A (zh) * 2018-10-22 2019-02-12 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN112912866A (zh) * 2018-11-07 2021-06-04 三菱电机株式会社 信息处理装置、信息处理方法和信息处理程序

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055693B2 (en) * 2008-02-25 2011-11-08 Mitsubishi Electric Research Laboratories, Inc. Method for retrieving items represented by particles from an information database
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
WO2014030258A1 (ja) * 2012-08-24 2014-02-27 株式会社日立製作所 形態素解析装置、テキスト分析方法、及びそのプログラム
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9678939B2 (en) 2013-12-04 2017-06-13 International Business Machines Corporation Morphology analysis for machine translation
JP6044963B2 (ja) 2014-02-12 2016-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
JP6145059B2 (ja) * 2014-03-04 2017-06-07 日本電信電話株式会社 モデル学習装置、形態素解析装置、及び方法
JP6220761B2 (ja) * 2014-10-20 2017-10-25 日本電信電話株式会社 モデル学習装置、文字列変換装置、方法、及びプログラム
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
KR101702055B1 (ko) 2015-06-23 2017-02-13 (주)아크릴 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
US11507743B2 (en) * 2017-02-28 2022-11-22 Nice Ltd. System and method for automatic key phrase extraction rule generation

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
KR100320348B1 (ko) * 1999-10-15 2002-01-10 정명식 음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법
US6952666B1 (en) * 2000-07-20 2005-10-04 Microsoft Corporation Ranking parser for a natural language processing system
JP4065936B2 (ja) * 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
CN1256688C (zh) * 2002-07-25 2006-05-17 摩托罗拉公司 用于中文文本处理系统的中文分词方法
JP3768205B2 (ja) 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
KR100496873B1 (ko) * 2003-10-24 2005-06-22 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325243A (zh) * 2018-10-22 2019-02-12 内蒙古大学 字符级基于序列模型的蒙古文切词方法及其切词系统
CN112912866A (zh) * 2018-11-07 2021-06-04 三菱电机株式会社 信息处理装置、信息处理方法和信息处理程序
CN112912866B (zh) * 2018-11-07 2023-12-12 三菱电机株式会社 信息处理装置、信息处理方法和记录介质

Also Published As

Publication number Publication date
US20070067153A1 (en) 2007-03-22
CN100514324C (zh) 2009-07-15
KR100882766B1 (ko) 2009-02-09
JP2007087070A (ja) 2007-04-05
JP3986531B2 (ja) 2007-10-03
KR20080091749A (ko) 2008-10-14
KR20070033257A (ko) 2007-03-26

Similar Documents

Publication Publication Date Title
CN100514324C (zh) 词素分析装置以及词素分析方法
Zhang et al. Approximate tree matching in the presence of variable length don′ t cares
Chang et al. IEPAD: Information extraction based on pattern discovery
US5684999A (en) Apparatus and a method for retrieving image objects based on correlation with natural language sentence parameters
Sadakane Succinct representations of lcp information and improvements in the compressed suffix arrays
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
US6377945B1 (en) Search system and method for retrieval of data, and the use thereof in a search engine
JP4213228B2 (ja) テキストのトークン分割方法
US5768423A (en) Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing
US5995922A (en) Identifying information related to an input word in an electronic dictionary
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
Jansson et al. Linked dynamic tries with applications to LZ-compression in sublinear time and space
Lango et al. Semi-automatic construction of word-formation networks (for polish and spanish)
CN107390892A (zh) 生成用户词典的方法和装置
Daykin et al. A bijective variant of the Burrows–Wheeler Transform using V-order
Geng et al. Autobib: Automatic extraction of bibliographic information on the web
CN107491524A (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
JP4937709B2 (ja) 構造化文書生成方法及び装置及びプログラム
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
JP2000194713A (ja) 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
Momenipour et al. PHMM: Stemming on Persian Texts using Statistical Stemmer Based on Hidden Markov Model.
Babenko et al. Computing longest common substrings via suffix arrays
JP3006526B2 (ja) 類似文書検索方法および類似文書検索装置
Hassan et al. Sense-based Arabic information retrieval using harmony search algorithm
Gawade et al. CANDIDATE SET KEY DOCUMENT RETRIEVAL SYSTEM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant