CN103038762A - 自然语言处理装置、方法、以及程序 - Google Patents

自然语言处理装置、方法、以及程序 Download PDF

Info

Publication number
CN103038762A
CN103038762A CN2011800264659A CN201180026465A CN103038762A CN 103038762 A CN103038762 A CN 103038762A CN 2011800264659 A CN2011800264659 A CN 2011800264659A CN 201180026465 A CN201180026465 A CN 201180026465A CN 103038762 A CN103038762 A CN 103038762A
Authority
CN
China
Prior art keywords
speech
morpheme
diversity mode
unit
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800264659A
Other languages
English (en)
Other versions
CN103038762B (zh
Inventor
关根聪
若原基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co.,Ltd.
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of CN103038762A publication Critical patent/CN103038762A/zh
Application granted granted Critical
Publication of CN103038762B publication Critical patent/CN103038762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

自然语言处理装置(10)具有:结果取得部(11),其取得通过使多种词素解析器(A1、A2,A3)分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;模式取得部(12),其检测多个解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;存储部(13),其将取得的词性差异模式和该词性差异模式的出现次数一起进行存储;以及候选确定部(14),其从存储部(13)中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的字符串确定为包含生词候选的字符串。

Description

自然语言处理装置、方法、以及程序
技术领域
本发明的一个实施方式涉及自然语言处理装置、自然语言处理方法、自然语言处理程序以及存储了自然语言处理程序的计算机可读记录介质。
背景技术
以往,出于各种目的,对文本数据进行了自然语言处理(自然语言解析)。例如,有时针对一般用户所记述的、登记于网络服务中的评论或博客等消息,进行自然语言处理。
作为自然语言处理的一个方法,有词素解析。关于词素解析,在下述专利文献1中,记载了用于将与记录在词典中的单词不重复的词素作为生词提取出来的方法。
【现有技术文献】
【专利文献】
【专利文献1】日本特开2002-297589号公报
发明内容
【发明要解决的技术问题】
然而,如果像上述专利文献1所记载的方法那样,单纯地把词典中不存在重复词语的单词全部判断为生词,则无法高效地发现生词。
因此,希望实现能够高效地发现生词的方法。
解决问题的手段
本发明的一个实施方式的自然语言处理装置具有:结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;模式取得单元,其检测结果取得单元所取得的多个解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;存储单元,其将模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及候选确定单元,其从存储单元中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的所述字符串确定为包含生词候选的字符串。
本发明的一个实施方式的自然语言处理方法是由自然语言处理装置执行的自然语言处理方法,其特征在于,该自然语言处理方法包含以下步骤:结果取得步骤,取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;模式取得步骤,检测在结果取得步骤中取得的多个解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;存储步骤,将在模式取得步骤中取得的词性差异模式与该词性差异模式的出现次数一起存储到存储单元中;以及候选确定步骤,从存储单元中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的字符串确定为包含生词候选的字符串。
本发明的一个实施方式的自然语言处理程序使计算机作为如下单元发挥功能:结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;模式取得单元,其检测所述结果取得单元所取得的多个解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;存储单元,其将模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及候选确定单元,其从存储单元中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的字符串确定为包含生词候选的字符串。
本发明的一个实施方式的计算机可读记录介质存储有使计算机作为如下单元发挥功能的自然语言处理程序:结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;模式取得单元,其检测结果取得单元所取得的多个解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;存储单元,其将模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及候选确定单元,其从存储单元中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的字符串确定为包含生词候选的字符串。
发明人等基于如下假设进行了深刻研究:在作为词素解析对象的句子包含生词时,多种词素解析器分别在生词的周边展现出不同的解析结果。根据该假设,发明人等将大量的句子施加到多种词素解析器中,提取了大量的词性差异模式,根据所得到的词性差异模式的频度对所述词性差异模式进行了分析。并且,发明人等发现存在如下趋势:在与频度低的词性差异模式对应的字符串中含有生词。
根据上述方式,基于多种词素解析器对相同的一个以上句子的解析结果,得到按照相同位置划分的字符串的词性差异模式(多个词素解析器所得到的、与该字符串对应的词性的集合)。该词性差异模式与其出现次数一起被存储起来。并且,与出现次数为规定阈值以下的词性差异模式对应的字符串被确定为包含生词候选的字符串。这样,通过自动地提取被推定为存在生词的概率高的字符串,由此限定了生词的搜索范围,相应地,能够高效地发现生词。
在其他方式的自然语言处理装置中,在多种词素解析器之间,各词素解析器中存储的词典的内容可以不同。
这样,通过使用词典内容互不相同的多个词素解析器,能够高效地提取实际包含生词的字符串,因此相应地,能够高效地发现生词。
进一步地,在其他方式的自然语言处理装置中,在多种词素解析器之间,词典中收录的单词的个数可以不同。
进一步地,在其他方式的自然语言处理装置中,在多种词素解析器之间,词典中收录的词性的体系可以不同。
进一步地,在其他方式的自然语言处理装置中,在多种词素解析器之间,各词素解析器中存储的单词间的连接规则可以不同。
这样,通过使用单词间的连接规则互不相同的多个词素解析器,能够更高效地提取实际包含生词的字符串,因此相应地,能够高效地发现生词。
进一步地,在其他方式的自然语言处理装置中,在多种词素解析器之间,针对单词间的连接所设定的分值(score)可以不同。
进一步地,在其他方式的自然语言处理装置中,在多种词素解析器之间,与单词间的连接相关的分值应用规则可以不同。
发明效果
根据本发明的一个侧面,通过自动地提取被推定为存在生词的概率高的字符串,由此限定了生词的搜索范围,因此相应地,能够高效地发现生词。
附图说明
图1是示出实施方式的自然语言处理装置的功能结构的框图。
图2是用于说明取得词性差异模式的图。
图3是示出频度数据的合计结果的示例的图。
图4是示出基于频度数据的词性差异模式的分析结果的示例的图。
图5是示出图1所示的自然语言处理装置的动作的流程图。
具体实施例方式
以下,参照附图对本发明的实施方式进行详细说明。另外,在附图的说明中,对于相同或者同等的要素标注相同符号,并省略重复的说明。
首先,使用图1~4,对实施方式的自然语言处理装置10的功能以及结构进行说明。自然语言处理装置10是执行自然语言处理的计算机,通过有线或无线网络与3台词素解析器连接。另外,词素解析器的台数只要为多台即可,台数是任意的。
首先,对词素解析器进行说明。第1词素解析器A1、第2词素解析器A2以及第3词素解析器A3是对一个以上的句子进行词素解析的计算机。词素解析对象可以是一个句子,也可以是包含一个以上句子的一篇文章,也可以是多篇文章。
词素是语言中具有含义的最小单位。词素解析是使用词典将句子分割成词素,辨别其语法属性的处理。在现有的大部分词素解析器中具有收录了词素和词性信息的词典。对于没有包含在该词典中的词语,虽然词素解析器能够根据字型(对于日语来说,有汉字、平假名、片假名、数字、英文等)进行估计,但是,在没有词典的情况下,很难对所有的词素进行正确的辨别。这样,在本说明书中,将没有记载在用于词素解析的词典中的词语称作生词。
虽然将生词追加到词典中来提高词素解析器的精度十分重要,但是,不能说已经充分地开发出发现生词的方法。从根本上讲,生词是层出不穷的,在词素解析器的生词处理研究中,发现生词的方法是非常重要的。
本实施方式的基本思想是基于如下假设:“当作为词素解析对象的句子包含生词时,多个不同的词素解析器分别在生词的周边表现出不同的解析结果”。不过,各词素解析器的输出不同,也不是必然存在生词,有时只是各词素解析器所定义的单词定义或词性定义不同而已。
在本实施方式中,关注词性差异模式的出现频度,该出现频度是通过对利用多个不同的词素解析器获得的解析结果进行比较而得到的。这基于以下背景。
·直接利用单词的书写来观察差异部分等同于观察几乎所有的解析数据,不高效。
·在存在生词的情况下,认为在不同种类的词素解析器中分别会出现特殊的词性模式。
·众所周知,在词素解析器中,出现频度高的词语应该已经登记在词典中,而生词大多包含在低频度的模式中,所以,把频度当作基准是合理的。
这里,多个不同的词素解析器(多种词素解析器)是指所保存的词典的内容以及单词间的连接规则的双方或者任意一方互不相同的词素解析器。作为词典内容不同的示例,可以举出如下情况:每个词素解析器所收录的单词的个数或者所收录的词性的体系不同。作为单词间的连接规则不同的示例,可以举出如下情况:在每个词素解析器中,针对单词间的连接所设定的分值(score)或者该分值的应用规则(例如,成本最小法、词素数最小法、概率模型等)不同。
在本实施方式中,第1~第3词素解析器A1、A2、A3分别对大量文章进行解析。接着,自然语言处理装置10使用它们的解析结果提取出大量的词性差异模式,对各个词性差异模式的出现次数(出现频度)进行计数。然后,自然语言处理装置10根据该出现次数,确定包含生词候选的字符串。
为了执行该处理,自然语言处理装置10具有作为功能结构要素的结果取得部(结果取得单元)11、模式取得部(模式取得单元)12、存储部(存储单元)13、候选确定部(候选确定单元)14以及结果输出部15。
该自然语言处理装置10由以下部分构成:执行操作系统或应用程序等的CPU、由ROM以及RAM构成的主存储部、由硬盘等构成的補助存储部、由网卡等构成的通信控制部、键盘或鼠标等输入部以及监视器等输出部。自然语言处理装置10的各个功能是通过在CPU或主存储部中读入规定的软件,并在CPU的控制下使通信控制部、输入部、输出部等工作而执行主存储部或補助存储部中的数据的读出和写入来实现的。处理所需要的数据或数据库被存储在主存储部或補助存储部内。
结果取得部11是取得通过使第1~第3词素解析器A1、A2、A3分别对相同的一个以上句子(以下也称为“文本”)进行解析而获得的解析结果的单元。解析结果是表示文本中包含的一个以上词素和各词素的词性的数据。结果取得部11既可以从各词素解析器接收解析结果,也可以从各词素解析器读出解析结果。结果取得部11将取得的多个解析结果(从3台词素解析器获得的结果)输出到模式取得部12。
模式取得部12是执行如下操作的单元:检测多个解析结果中的相同划分位置,从各解析结果中提取出与按照该位置划分的字符串对应的一个以上的词性,取得所提取出的该一个以上词性的集合作为词性差异模式。
模式取得部12分别针对所输入的多个解析结果,从句子的开头依次检测词素的划分位置,确定全部解析结果中相同的划分位置(相同划分位置)。接着,模式取得部12从各解析结果中提取出与按照相同划分位置划分后的各字符串对应的一个以上的词性,取得由提取出的全部词性形成的集合作为词性差异模式。
使用图2来说明这样的模式取得部12的处理示例。图2是第1~第3词素解析器A1、A2、A3(图2中表示为解析器_1、解析器_2、解析器_3)针对“私はうっとろりんとした。”(watashi-ha-uttororin-to-shita)这个日语句子的解析结果。另外,上述日语可以翻译为英语的“I was fascinated(我入迷了)”。“うっとろりん”(uttororin)这个词语是相当于日语的“うっとり”(uttori)(英语的“fascinated(入迷)”)的生词。图2中,将分解后的各个词与“名词_代词”、“助词_提示助词”等词性关联起来。另外,图2的示例中,关于词性,像“代词”等那样以一个层级进行定义,或者像“助词_提示助词”等那样以两个层级进行定义,不过,可以在各词素解析器中任意地定义词性层级。
希望将上述日文解析(分解)为“私/は/うっとろりん/と/した”(watashi/ha/uttororin/to/shita)。然而,由于词语“うっとろりん”(uttororin)在全部的词素解析器A1、A2、A3中都是生词,所以如图2所示,针对词语“うっとろりん”(uttororin)及其周边词语的解析结果在各词素解析器中是不同的。
图2中的“===划分===”这样的线是相同划分位置。因此,这种情况下,模式取得部12取得按照相同划分位置划分的“私”(watashi)、“はうっとろりんと”(hauttororinto)以及“した”(shita)这三个字符串。其中,关于字符串“はうっとろりんと”(hauttororinto),第1词素解析器A1解析为“は/うっ/とろりん/と”(ha/ut/tororin/to),第2词素解析器A2解析为“はう/っと/ろ/りんと”(hau/tto/ro/rinto),第3词素解析器A3解析为“は/うっ/とろり/ん/と”(ha/ut/torori/n/to)。另外,对于字符串“私”(watashi)以及“した”(shita),词素的划分方法、词性的设定也在词素解析器间存在区别。这样,当句子中包含生词时,容易引起过度分割或者片断化等解析错误。另外,无法正确地进行词性辨别的可能性也很大。
接着,模式取得部12取得在多个词素解析器之间词性的辨别结果不同的部分,作为词性差异模式。具体地讲,模式取得部12取得对字符串“私”(watashi)进行解析而得到的词性“名词_代词”“名词_普通名词”“代词”的集合,作为词性差异模式“名词_代词|名词_普通名词|代词”。同样,模式取得部12取得与字符串“はうっとろりんと”(hauttororinto)对应的词性差异模式“助词_提示助词、动词_独立、名词_固有名词、助词_格助词|动词、助词_格助词、名词_普通名词、形容词|助词_提示助词、感叹词_补白、副词、感叹词_补白、助词_格助词”。而且,模式取得部12取得与字符串“した”(shita)对应的词性差异模式“动词_独立、助动词|后缀_动词性后缀|动词_不能独立、助动词”。这里,符号“|”表示词素解析器之间的划分。
当这样地取得了词性差异模式时,模式取得部12对该模式目前为止的出现次数进行计数,将表示词性差异模式及其出现次数的频度数据存储到存储部13中。或者,模式取得部12对与取得的词性差异模式对应的出现次数增加1次,更新存储部13内的频度数据。另外,模式取得部12也将表示词性差异模式及与该模式对应的字符串的字符串数据存储到存储部13中。例如,模式取得部12将如下字符串数据存储到存储部13中:该字符串数据将字符串“はうっとろりんと”(hauttororinto)和词性差异模式“助词_提示助词、动词_独立、名词_固有名词、助词_格助词|动词、助词_格助词、名词_普通名词、形容词|助词_提示助词、感叹词_补白、副词、感叹词_补白、助词_格助词”彼此关联起来。
存储部13是存储上述频度数据以及字符串数据的单元。即,存储部13将词性差异模式及其出现次数一起进行存储,而且还存储与词性差异模式对应的字符串。
候选确定部14是执行如下操作的单元:从存储部13中提取出现次数为规定阈值以下的词性差异模式,将与提取出的词性差异模式对应的字符串确定为包含生词候选的字符串。
所使用的阈值可以任意设定,这里对确定阈值的一个方式进行说明。作为一个示例,从某个特定网站取得1万件消息,使用4台词素解析器对构成这些消息的约4万5千个句子(每个句子的平均字数约为30.9个)进行处理,取得频度数据。然后,根据这些频度数据,按照每个出现次数,对词性差异模式的种类数量进行合计,结果得到了图3所示的结果。在图3的示例中,词性差异模式的总数为5829个。
从这些词性差异模式中,按照每个出现频度随机提取20个模式,调查是否存在生词,结果得到了图4所示的结果。根据图4的结果可知,在出现次数低(例如1、2次等)的词性差异模式中包含较多的生词,另一方面,在出现次数高于20次的词性差异模式中包含生词的概率非常低。由此认为,如果调查与出现频度低的词性差异模式对应的字符串,则能够高效地发现生词,因此,考虑将阈值设定成20。不过,根据图4的结果,也可以设为其他值(例如2、3、10等)。
在按照图3、4的示例将阈值设定成20时,候选确定部14参照存储部13,提取与出现次数为20以下的5200个词性差异模式对应的字符串。由此,确定包含生词候选的字符串(可能包含生词的字符串)。候选确定部14向结果输出部15输出所提取(确定)的字符串。
结果输出部15是以规定的方法输出包含生词候选的字符串的单元。例如,结果输出部15可以在监视器上显示该字符串,或者将该字符串存储到数据库等记录介质中。另外,结果输出部15可以在打印机中打印该字符串,或者经由网络发送给其他装置。
用户可以分析这样地缩小范围后的字符串(调査对象字符串),从而得到生词。作为方法之一,用户不是单纯地按照是否包含生词对调査对象字符串进行分类,而是首先按照以下6种情况进行分类。
(基准1)只是词性辨别发生错误
(基准2)判断为词素过度分割
(基准3)可判断为包含生词
(基准4)可判断为不包含生词
(基准5)包含所输出的差异检测部分的周边在内,判断为生词
(基准6)是书写错误/句子划分错误等、由输入决定的结果
基准1为如下情形:虽然单词分割的方式在各词素解析器中是相同的,但是在词性的辨别中确认到错误。基准2为如下情形:由于将由多个词构成的复合词分割为构成单位,因此,单词分割和词性辨别看上去似乎是正确的,但是可以判断为丧失了作为复合词的含义。基准3为如下情形:在基准1、2以外的情况下,由于采用了词典中完全不同的项目作为词素,因此,可以判断为解析结果不适合作为语义的最小单位。基准4为如下情形:任何单词分割/词性辨别都没有错误,可以判断为解析结果适合作为语义的最小单位。基准5为如下情形:本来应当作为一个生词来处理的字符串的仅一部分被当作与词性差异模式对应的部分提取出来,但是还需要考虑其周边的字符串。例如是如下情形:在期望的生词“うっとろりん”(uttororin)中,仅仅与“うっと”(utto)对应的部分作为与词性差异模式对应的字符串提取出来。基准6为如下情形:作为生词提取出来的意义不大,不作为分析对象。
用户可以将符合上述6个基准中的基准3、5的字符串评价为包含生词的字符串。另外,结果输出部15输出的调査对象字符串可以进一步地通过计算机进行处理,也可以进行人工处理。基于上述6个基准的评价可以利用任意手段来执行。
接着,使用图5,说明图1所示的自然语言处理装置的动作(自然语言处理方法)。首先,结果取得部11从各词素解析器A1、A2、A3取得解析结果(步骤S11,结果取得步骤)。接着,模式取得部12根据这些解析结果取得词性差异模式(步骤S12,模式取得步骤),将表示该模式的出现次数的频度数据和表示与该模式对应的字符串的字符串数据存储到存储部13中(步骤S13,存储步骤)。
当得到一定数量以上的频度数据以及字符串数据时,候选确定部14从存储部13中提取出现次数为规定阈值以下的词性差异模式(步骤S14,候选确定步骤)。然后,候选确定部14提取与提取出的词性差异模式对应的字符串,作为包含生词候选的字符串(步骤S15,候选确定步骤)。最后,结果输出部15输出所提取的字符串(步骤S16)。
用于在计算机中执行上述自然语言处理装置10的一系列处理的程序(自然语言处理程序)可以通过固定地记录到例如CD-ROM、DVD、ROM、半导体存储器等有形记录介质上来提供。另外,该程序也可以作为叠加在载波上的数据信号经由通信网络来提供。
自然语言处理程序具有与上述自然语言处理装置10的功能对应的模块,通过在计算机中读入并执行这些模块,由此实现上述功能。另外,自然语言处理程序的各模块不仅可以安装在一台计算机中,也可以安装在多台计算机中的任何一台中。这种情况下,利用由该多个计算机构成的计算机系统,来执行上述一系列处理。
如以上说明的那样,根据本实施方式,基于多种词素解析器A1、A2、A3对相同的一个以上句子的解析结果,得到按照相同位置划分的字符串的词性差异模式。该词性差异模式与其出现次数一起被存储起来。然后,与出现次数为规定阈值以下的词性差异模式对应的字符串被确定为包含生词候选的字符串。这样,通过自动地提取被推定为存在生词的概率高的字符串,由此限定了生词的搜索范围,相应地,能够高效地发现生词。本实施方式的词素解析可以在针对用日语那样不进行词与词之间的分割的语言所书写的句子进行解析时,用于在该解析的最初阶段识别单词。因此,本发明不限于日语,也可以应用于不进行词与词之间分割的其他语言(例如中文和韩文)的处理。
在本实施方式中,如果使用了词典的内容互不相同的多个词素解析器A1、A2、A3,则能够更高效地提取实际包含生词的字符串,因此相应地,能够高效地发现生词。在使用了单词间的连接规则互不相同的多个词素解析器A1、A2、A3的情况下,也能够取得同样的效果。
以上,基于本发明的实施方式对本发明进行了详细说明。不过,本发明不限于上述实施方式。本发明可以在不脱离其思想的范围内进行各种变形。
标号说明
A1、A2、A3…词素解析器,10…自然语言处理装置,11…结果取得部(结果取得单元),12…模式取得部(模式取得单元),13…存储部(存储单元),14…候选确定部(候选确定单元),15…结果输出部。

Claims (10)

1.一种自然语言处理装置,其具有:
结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;
模式取得单元,其检测所述结果取得单元所取得的多个所述解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的所述词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;
存储单元,其将所述模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及
候选确定单元,其从所述存储单元中提取所述出现次数为规定阈值以下的所述词性差异模式,将与提取出的词性差异模式对应的所述字符串确定为包含生词候选的字符串。
2.根据权利要求1所述的自然语言处理装置,其中,
在所述多种词素解析器之间,各词素解析器中存储的词典的内容不同。
3.根据权利要求2所述的自然语言处理装置,其中,
在所述多种词素解析器之间,所述词典中收录的单词的个数不同。
4.根据权利要求2或3所述自然语言处理装置,其中,
在所述多种词素解析器之间,所述词典中收录的所述词性的体系不同。
5.根据权利要求1~4中任意一项所述的自然语言处理装置,其中,
在所述多种词素解析器之间,各词素解析器中存储的单词间的连接规则不同。
6.根据权利要求5所述的自然语言处理装置,其中,
在所述多种词素解析器之间,针对所述单词间的连接设定的分值不同。
7.根据权利要求5或6所述的自然语言处理装置,其中,
在所述多种词素解析器之间,与所述单词间的连接相关的分值应用规则不同。
8.一种自然语言处理方法,该自然语言处理方法由自然语言处理装置来执行,其特征在于,该自然语言处理方法包含以下步骤:
结果取得步骤,取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;
模式取得步骤,检测在所述结果取得步骤中取得的多个所述解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的所述词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;
存储步骤,将在所述模式取得步骤中取得的词性差异模式与该词性差异模式的出现次数一起存储到存储单元中;以及
候选确定步骤,从所述存储单元中提取所述出现次数为规定阈值以下的所述词性差异模式,将与提取出的词性差异模式对应的所述字符串确定为包含生词候选的字符串。
9.一种自然语言处理程序,其使计算机作为如下单元发挥功能:
结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;
模式取得单元,其检测所述结果取得单元所取得的多个所述解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的所述词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;
存储单元,其将所述模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及
候选确定单元,其从所述存储单元中提取所述出现次数为规定阈值以下的所述词性差异模式,将与提取出的词性差异模式对应的所述字符串确定为包含生词候选的字符串。
10.一种计算机可读记录介质,其存储有使计算机作为如下单元发挥功能的自然语言处理程序:
结果取得单元,其取得通过使多种词素解析器分别对相同的一个以上句子进行解析而获得的、表示该一个以上句子中包含的各词素的词性的解析结果;
模式取得单元,其检测所述结果取得单元所取得的多个所述解析结果中的相同划分位置,从各解析结果中提取与按照该相同划分位置划分的字符串对应的一个以上的所述词性,取得所提取出的该一个以上的词性的集合,作为词性差异模式;
存储单元,其将所述模式取得单元所取得的词性差异模式与该词性差异模式的出现次数一起进行存储;以及
候选确定单元,其从所述存储单元中提取所述出现次数为规定阈值以下的所述词性差异模式,将与提取出的词性差异模式对应的所述字符串确定为包含生词候选的字符串。
CN201180026465.9A 2010-12-17 2011-11-28 自然语言处理装置、方法 Active CN103038762B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201061424283P 2010-12-17 2010-12-17
US61/424,283 2010-12-17
PCT/JP2011/077418 WO2012081386A1 (ja) 2010-12-17 2011-11-28 自然言語処理装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN103038762A true CN103038762A (zh) 2013-04-10
CN103038762B CN103038762B (zh) 2015-05-20

Family

ID=46244497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180026465.9A Active CN103038762B (zh) 2010-12-17 2011-11-28 自然语言处理装置、方法

Country Status (6)

Country Link
US (1) US8880391B2 (zh)
EP (1) EP2653981A4 (zh)
JP (1) JP5314195B2 (zh)
KR (1) KR101364321B1 (zh)
CN (1) CN103038762B (zh)
WO (1) WO2012081386A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN108388547A (zh) * 2018-02-24 2018-08-10 平安科技(深圳)有限公司 字符串解析方法、装置、设备及计算机可读存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007935B2 (en) 2014-02-28 2018-06-26 Rakuten, Inc. Information processing system, information processing method, and information processing program
JP2016170750A (ja) 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
JP2017004127A (ja) 2015-06-05 2017-01-05 富士通株式会社 テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法
WO2017163346A1 (ja) * 2016-03-23 2017-09-28 株式会社野村総合研究所 文章解析システム及びプログラム
US11507743B2 (en) * 2017-02-28 2022-11-22 Nice Ltd. System and method for automatic key phrase extraction rule generation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
JPH09223143A (ja) * 1996-02-16 1997-08-26 Fujitsu Ltd 文書情報処理装置
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
JP2002297589A (ja) 2001-03-30 2002-10-11 Ricoh Co Ltd 未知語収集方法
JP5286125B2 (ja) * 2009-03-24 2013-09-11 Kddi株式会社 単語境界決定装置および形態素解析装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JPH09223143A (ja) * 1996-02-16 1997-08-26 Fujitsu Ltd 文書情報処理装置
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN107209759B (zh) * 2015-01-23 2020-09-18 国立研究开发法人情报通信研究机构 注解辅助装置及记录介质
CN108388547A (zh) * 2018-02-24 2018-08-10 平安科技(深圳)有限公司 字符串解析方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
KR20120123122A (ko) 2012-11-07
JPWO2012081386A1 (ja) 2014-05-22
US20130262085A1 (en) 2013-10-03
EP2653981A4 (en) 2018-01-17
CN103038762B (zh) 2015-05-20
KR101364321B1 (ko) 2014-02-18
EP2653981A1 (en) 2013-10-23
WO2012081386A1 (ja) 2012-06-21
US8880391B2 (en) 2014-11-04
JP5314195B2 (ja) 2013-10-16

Similar Documents

Publication Publication Date Title
CN103038762B (zh) 自然语言处理装置、方法
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111259652B (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN102955773B (zh) 用于在中文文档中识别化学名称的方法及系统
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
US10120843B2 (en) Generation of parsable data for deep parsing
Ogrodniczuk et al. End-to-end coreference resolution baseline system for Polish
WO2019051057A1 (en) LEXICAL DISCOVERY BY AUTOMATIC LEARNING
US20030120481A1 (en) Method for predicting negative example, system for detecting incorrect wording using negative example prediction
CN104933030B (zh) 一种维吾尔语拼写检查方法及装置
US9710450B2 (en) Recombining incorrectly separated tokens in natural language processing
KR100652901B1 (ko) 나열 및 병렬형 구문 분석 장치 및 방법
CN115186647A (zh) 文本相似度的检测方法、装置、电子设备及存储介质
Ogrodniczuk et al. Lexical correction of polish twitter political data
KR20010075848A (ko) 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치및 그 방법
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
Hardie Automated part-of-speech analysis of Urdu: conceptual and technical issues
Marchenko et al. English text parsing by means of error correcting automaton
Knauth et al. A dictionary data processing environment and its application in algorithmic processing of Pali dictionary data for future NLP tasks
JP6145011B2 (ja) 文正規化システム、文正規化方法及び文正規化プログラム
Phyue Unknown word detection via syntax analyzer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Rakuten, Inc.

CP01 Change in the name or title of a patent holder