CN102369524A - 语言分析装置、语言分析方法和语言分析程序 - Google Patents
语言分析装置、语言分析方法和语言分析程序 Download PDFInfo
- Publication number
- CN102369524A CN102369524A CN2010800143503A CN201080014350A CN102369524A CN 102369524 A CN102369524 A CN 102369524A CN 2010800143503 A CN2010800143503 A CN 2010800143503A CN 201080014350 A CN201080014350 A CN 201080014350A CN 102369524 A CN102369524 A CN 102369524A
- Authority
- CN
- China
- Prior art keywords
- division
- candidate
- division points
- length
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 42
- 238000004519 manufacturing process Methods 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 abstract 1
- 238000003860 storage Methods 0.000 description 21
- 230000005055 memory storage Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明的语言分析装置包括:划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则被分类至一种等级;划分点候选产生单元21,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用所述划分规则,来产生针对输入字符串的划分点候选;划分点调整单元22,当划分点候选产生单元21所产生的所述划分点候选所获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及划分单元23,在所述划分点调整单元所确定的划分点处,将输入字符串划分。
Description
技术领域
本发明涉及通过对自然语言进行语法分析来执行语言分析的方法。更具体地,本发明涉及语言分析装置、语言分析方法和语言分析程序,在将长句子划分为较短的句子时高效地执行语言分析过程。
背景技术
典型地,通过首先将输入字符串划分为句子,然后对这些句子中的每个句子执行分析过程,来执行基于语法分析的语言分析。然而,当分析极长的句子(如经常在专利申请的说明书中看到的句子)时,基于逐句的简单分析过程可能会遇到某些问题。
典型地,语言分析装置(如,用于语法分析的语言分析装置)通过将输入字符串划分为句子,然后研究每个句子中包含的每个单词对之间的关系,来执行分析过程。这意味着,所要考虑的单词对的数目随输入句子长度的增加成指数增长。
如果要分析极长的句子,必须计算巨量的单词对。这将导致各种问题,包括:分析所需的较长的分析时间和大量的存储容量。
此外,可能的解释方式的数目随所要考虑的单词对的数目的增加而增加。这进而提高了分析差错的可能。为避免如此,已经提出了各种方法:在执行分析过程之前,如果输入的句子过长,对输入的句子进行划分。
例如,在专利文献1中,公开了一种方法,其中,如果机器翻译过程所花的时间大于预定时间,应用之前给定的划分规则将输入的句子划分为较小的单元,并对每个单元执行机器翻译过程。
专利文献2中提出的方法与适应性单词计数相关联地存储划分规则,并按照适应性单词计数递减的顺序依次应用划分规则,使得输入的句子能够被划分为更合适的单元。
专利文献1:日本专利待审公开No.61-255468
专利文献2:专利号003173514
以下,将描述对输入的句子进行划分以执行基于语法分析的语言分析的上述方法存在的问题。
第一个问题是,当给定了分析过程中可接受的最大输入长度(以下称“最大输入长度”)时,无法根据这样的最大输入长度将长句子划分为适当长度的处理单元。
划分规则大致分为两类。一类划分规则关注提供相对宽松的中断的语言表述,另一类关注提供相对细致的中断的语言表述。一般而言,前一类划分规则允许分析得到正确地执行,即使不予改变地(即,在通过应用前一类划分规则获得的划分点处将句子划分后不作任何调整)对每个划分单元执行分析过程。然而,该规则关注于相对稀有的特定语言表述。由于可能未必从所有输入的句子中获得划分点,这可能是存在问题的,并且当实际获得划分点时,每个得到的划分单元可能不够短。
另一方面,后一类划分规则通过关注于相对常用的语言表述来获得划分点。因此,该类划分规则允许从相对大量的句子获得划分点。此外,得到的划分单元可能足够短。然而,由于各个划分单元可能变得过短以至于无法对每个划分单元执行正确的分析,这将引起分析准确度常常降低的问题。
专利文献2中公开的划分方法试图通过与适应性单词计数相关联地存储划分规则,并按照适应性单词计数递减的顺序依次应用划分规则,来解决上述问题。然而,该方法也存在分析准确度降低的问题。一个原因在于,难以针对划分规则设置合适的适应性单词计数。另一个原因在于,当达到需要应用具有较小适应性单词计数的划分规则的阶段时,得到的划分单元变得过短以至于无法确保正确分析。
(本发明的目的)
本发明的目的在于,提供语言分析装置和语言分析方法,根据分析过程中可接受的最大输入长度将长句子划分为合适长度的处理单元。
发明内容
根据本发明的第一示例方面,一种语言分析装置包括:
划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则被分类至一种等级;
划分点候选产生单元,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用所述划分规则,来产生针对输入字符串的划分点候选;
划分点调整单元,当通过在划分点候选产生单元所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分单元,在所述划分点调整单元所确定的划分点处,将输入字符串划分。
根据本发明的第二示例方面,一种语言分析方法包括:
划分点候选产生步骤,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则,来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至一种等级;
划分点调整步骤,当通过在划分点候选产生步骤中所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分步骤,在所述划分点调整步骤所确定的划分点处,将输入字符串划分。
根据本发明的第三示例方法,一种语言分析程序通过在计算机上运行来执行语言分析过程,所述语言分析程序使计算机执行:
划分点候选产生过程,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则,来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至一种等级;
划分点调整过程,当通过在划分点候选产生过程中所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分过程,在所述划分点调整过程所确定的划分点处,将输入字符串划分。
根据本发明,如果设置了分析过程中可接受的最大输入长度,可以根据这样的最大输入长度将长句子划分为适当长度的处理单元。
这是由于:依次应用划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至一种等级;以及将每个得到的划分点调整为使得每个划分单元将具有最大可能长度但不会超过最大输入长度。
附图说明
图1是示出了根据本发明的第一示例实施例的语言分析装置的结构的框图;
图2是示出了根据本发明的第一示例实施例的语言分析装置的操作的流程图;
图3是示出了根据本发明的第一示例实施例的语言分析装置的操作的流程图;
图4是示出了根据本发明的第二示例实施例的语言分析装置的结构的框图;
图5是示出了根据本发明的第一示例实施例的划分规则存储部分中的示例数据结构的图;
图6是示出了根据与根据本发明的第一示例实施例相对应的示例1的示例操作的图;以及
图7是示出了根据本发明的第一实施例的语言分析装置的数据处理设备的示例硬件结构的框图。
具体实施方式
(第一示例实施例)
下面将参考附图描述本发明的第一示例实施例。
参照图1可见,根据本发明的第一示例实施例的语言分析装置包括:输入装置1,如键盘或鼠标;数据处理装置2,在程序指令的控制下操作;存储装置3,存储信息;以及输出装置4,如显示装置和打印装置。
向存储装置3提供划分规则存储部分31。划分规则存储部分31存储划分规则,划分规则将被应用于输入字符串以识别输入字符串中可能充当划分点的点。
在根据在应用时引起分析准确度问题的风险程度将划分规则分组为至少两个等级后,划分规则存储部分31存储划分规则。
例如,按以下方式执行将划分规则分组为某一等级。首先,将通过应用该划分规则获得的对每个划分单元执行语言分析的结果与在不划分输入字符串的情况下执行语言分析的结果进行比较。如果比较表明:划分将不会实质上引起与每个划分单元相对应的分析结果的改变,划分规则被认为是“无风险的”并被分类为“高级”。如果比较表明:划分以较低的概率引起该分析结果的改变,划分规则被认为是“低风险的”并被分类为“中级”。如果比较表明:划分以较高的概率引起该分析结果的改变,划分规则被认为是“高风险的”并被分类为“低级”。
数据处理装置2包括:划分点候选产生单元21、划分点调整单元22和划分单元23。
如果作为处理目标输入的字符串的长度大于预定的最大输入长度,划分点候选产生单元21按照风险度递增的顺序,从存储在划分规则存储部分31中的划分规则中读取划分规则,并通过应用所读取的划分规则产生输入字符串内的划分点候选。
此处,术语“划分点候选”指:在输入字符串中识别的可能充当划分点的点。术语“最大输入长度”指:输入字符串的可接受的最大长度。最大输入长度是根据语言分析的所需处理时间和可接受的存储开销而确定的值。例如,可以基于输入字符串中包含的字符或语素的数目来定义该值。
划分点调整单元22接收划分点候选产生单元21所产生的划分点候选。划分点调整单元22依次逐一检查通过在每个划分点候选处将输入字符串划分可得到的划分单元候选,并确定其是否将划分点候选用作划分点。
划分点调整单元22通过必要时选择划分点候选,以确保最终获得的全部独立划分单元的总数等于或小于最大输入长度,来决定划分点。
划分单元23接收划分点调整单元22所确定的划分点,并通过在该划分点处将输入字符串划分来产生划分单元。
(示例实施例的操作)
下面,将参照图1和2的流程图来详细描述本示例实施例的操作。
当从输入装置1接收到输入字符串时,数据处理装置2的划分点候选产生单元21首先计算输入字符串的长度。接着,划分点候选产生单元21将所计算的长度与先前给定的最大输入长度进行比较,以确定输入字符串的长度是否大于最大输入长度(步骤A1)。应当注意的是,虽然来自输入装置1的输入可以是简单的字符串,更优选地,输入包含构成输入字符串的语素以及这些语素的属性信息,如词根形式和词性。
如果在步骤A1中输入字符串的长度等于或小于最大输入长度,则无需划分字符串,因此划分点候选产生单元21终止整个过程。
如果输入字符串的长度大于最大输入长度,划分点候选产生单元21将该输入字符串设置为划分目标(步骤A2)。
接着,划分点候选产生单元21初始化划分规则等级,并将其设置为风险最低的等级,即“高级”(步骤A3)。
在步骤A4中,划分点候选产生单元21使用在以上步骤A3中设置的等级的划分规则,对在以上步骤A2中被设置为划分目标的字符串启动划分点产生过程。下面,将描述划分点产生过程。
划分单元23基于通过划分点候选产生单元21执行的划分点产生过程获得的划分点,对作为划分目标的字符串进行划分(步骤A5)。
下面,将参照图3的流程图,详细描述划分点候选产生单元21和划分点调整单元22执行的划分点产生过程。
划分点候选产生单元21从划分规则存储部分31获得所设置等级的划分规则,并通过对被设置为划分目标的字符串应用所获得的划分规则来产生划分点候选(步骤B1)。
如果通过应用划分规则未从划分目标中获得划分点候选,划分点候选产生单元21将划分规则等级降低一级(步骤B2和步骤B3),并通过应用新等级的划分规则再次尝试产生划分点候选。更具体地,划分点候选产生单元21通过使用风险等级小一级的划分规则(即,风险度大于初始划分规则等级的划分规则),来产生划分点候选。
如果不能再降低划分规则等级(图3中未示出),将终止划分点产生过程。
如果已在图3的步骤B1中设置了划分点候选,划分点候选产生单元21将所设置的划分点候选传递至划分点调整单元22。
当接收到划分点候选产生单元21设置的划分点候选时,划分点调整单元22在划分点候选处将输入字符串划分为划分单元候选(步骤B4)。
接着,划分点调整单元22从所获得的划分单元候选中选择尚待检查的一个划分单元候选(步骤B5)。
选择划分单元候选的方法的一个示例可以是:首先选择在已从当前划分目标获得的并仍待检查的所有划分单元候选中、距字符串前端最近的划分单元候选,并依次移动。相反,可以首先选择仍待检查的所有划分单元候选中、距字符串末尾最近的划分单元候选。另一种可选方法是:以长度递增的顺序从仍待检查的所有划分单元候选中选择划分单元候选。
接着,在步骤B6中,划分点调整单元22验证在步骤B5中是否成功选择了仍待检查的划分单元候选。
如果未能在B5中选择仍待检查的划分单元候选,这意味着对所有划分单元候选完成了检查过程。在该情况下,划分点调整单元22采用剩下的未移除的划分点候选作为划分点,输出所获得的划分点,并终止过程(步骤B7)。
如果在步骤B6中验证能够选择仍待检查的划分单元候选,划分点调整单元22计算所选择的划分单元候选的长度,并将所计算的长度与预定的最大输入长度进行比较,以确定划分单元候选的长度是否大于最大输入长度(步骤B8)。
如果步骤B8中的比较指示所选择的划分单元候选的长度大于最大输入长度,划分点调整单元22将该划分单元候选设置为新的划分目标(步骤B9),并将划分规则等级降低一级(步骤B10)。
接着,划分点调整单元22将过程交付划分点候选产生单元21,划分点候选产生单元21进而通过使用新等级的划分规则为划分单元候选产生划分点候选(步骤B11)。
当该过程从划分点候选产生单元21返回时,划分点调整单元22回到步骤B5并继续该过程。
如果在步骤B8中,所选择的划分单元候选的长度已被确定为小于最大输入长度,划分点调整单元22从当前划分目标中获得与所选择的划分单元候选相邻的新的划分单元候选(步骤B12)。
接着,划分点调整单元22验证是否能够成功获得相邻的划分单元候选(步骤B13),如果不能则返回步骤B5并继续该过程。
如果能够获得相邻划分单元候选,划分点调整单元22计算所选择的划分单元候选的长度和所获得的相邻划分单元候选的长度之和。接着,划分点调整单元22将得到的长度与预定的最大输入长度进行比较,以确定长度之和是否大于最大输入长度(步骤B14)。
如果在步骤B14中所计算的长度之和被确定为大于最大输入长度,划分点调整单元22将当前选择的划分单元候选确立为“被检查的”划分单元候选,并返回步骤B2以继续过程。
如果在步骤B14中所计算的长度之和被确定为小于最大输入长度,划分点调整单元22移除位于所选择的划分单元候选和所获得的相邻划分单元候选之间的划分点候选(步骤B15)。接着,划分点调整单元22将通过连接两个划分单元候选(即,所选择的划分单元候选和所获得的相邻划分单元候选)获得的划分单元设置为新的处理目标(步骤B16),并返回步骤B12以继续过程。
(第一示例实施例的效果)
下面将描述该示例实施例的效果。
第一示例实施例被配置为:依次应用划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至多种等级中的一种等级,并且调整每个划分点,使得每个得到的划分单元的长度不是太短但不超过最大输入长度。因此,在设置了分析过程中可接受的最大输入长度时,可以根据这样的最大输入长度将长句子划分为适当长度的处理单元。
此外,该示例实施例被配置为:其确立宽松的分类规则,其中,每一个划分规则与根据引起分析准确度问题的风险度定义的等级相关联;以及从而其调整每个划分点,使得每个得到的划分单元的长度不是太短但不大于最大输入长度。因此,在该示例实施例中,可以相对容易地创建划分规则,这是由于不必向其分类规则添加任何严格的优先级信息,例如,要对其应用划分规则的单词数目的下限。
(第二示例实施例)
下面,将参照附图详细描述本发明的第二示例实施例。
参照图4,与本发明的第一示例实施例类似,本发明的第二示例实施例包括:输入装置1、数据处理装置6、存储装置3和输出装置4。
在被读入数据处理装置6之后,语言分析程序5控制数据处理装置6的操作,并在存储装置3中产生划分规则存储部分32。
在语言分析程序5的控制下,数据处理装置6也执行与根据第一示例实施例的数据处理装置2所执行过程相同的过程。
数据处理装置6具有图7所示的硬件结构。
如图7所示,可以采用与通用计算机装置类似的硬件结构来实现数据处理装置6,并且数据处理装置6包括:CPU(中央处理单元)61;主存储部分62,为主存储器(如,RAM(随机存取存储器))并被用作工作区和/或临时存储区;输入/输出接口部分63,与输入装置1、输出装置4和存储装置3相连,以发送和接收数据;系统总线64,连接在上述组件之间。例如,存储装置3通过使用硬盘装置来实现,所述硬盘装置包括非易失性存储器,如ROM(只读存储器)、磁盘和半导体存储器。
不用说,可以通过实现电路组件,将根据该示例实施例的数据处理装置6的操作作为硬件实现,所述电路组件是硬件组件(如,LSI(大规模集成电路))并且并入了上述语言分析程序5。此外,还可以通过在存储装置3中存储语言分析程序5,将该程序加载至主存储部分62中,并在CPU61上执行该程序,将其作为软件实现。
(第一示例)
下面将参照附图描述本发明的示例1。该示例对应于本发明的第一示例实施例。
示例1包括:作为输入装置1的键盘;作为数据处理装置2的个人计算机;作为存储装置3的磁盘记录设备;以及作为输出装置4的显示器。
个人计算机具有CPU,该CPU执行划分点候选产生单元21、划分点调整单元22和划分单元23的功能。在磁盘记录设备中,用作划分规则存储部分31的存储区是受保护的。
以下描述假定图5所示的划分规则存储在划分规则存储部分31中。图5以示意的表格形式示出了存储在划分规则存储部分31中的划分规则。每行包含划分规则。
在图5中,第一列“等级”存储等级信息,指示应用对应的划分规则将引起分析精度问题的风险程度。下一列“划分点标识模式”存储模式信息,基于模式信息可识别划分点。最后一列“划分点”存储将要被识别为划分点的位置指示为划分点识别模式的相对位置的信息。
例如,图5的第一行包含“等级1”的划分规则,其应用将涉及引起分析准确度问题的最低风险。对于“等级1”的划分规则,指示:如果输入字符串包含作为划分点识别模式的句号“。”,可以将紧接着句号(“模式”)之后的位置识别为划分点。
图5的第二行包括“等级2”的划分规则,其应用将涉及引起分析准确度问题的相对较低的风险。对于“等级2”的划分规则,指示:如果输入字符串包含以连词“が”和逗号“、”的顺序出现的划分点识别模式,可以将紧接着该模式之后的位置识别为划分点。类似地,在图5的表中的第三和第四行,描述了等级3和等级4的划分规则。在划分规则的等级中,等级1是最高的,其次是等级2、等级3和等级4。
下面描述假定最大输入长度已被设置为“100”。此外,将描述以下示例操作,其中,输入长度为300的字符串(日文句子)“~~~する。~~~するので、~~し、~~し、さらに~~する。”,并且使用图5所示的划分规则。
当经由键盘等(即,输入装置1)向作为数据处理装置2的个人计算机输入图6所示的输入句子时,划分点候选产生单元21接受输入句子,并计算其长度。基于该结果,划分点候选产生单元21检测到输入句子的长度是“300”,即,大于最大输入长度“100”,并将输入句子设置为划分目标。划分点候选产生单元21还初始化划分规则等级,并将其设置为最高的“等级1”,并且执行划分点产生过程。
在划分点产生过程期间,划分点候选产生单元21首先从划分规则存储部分31获得“等级1”划分规则,并将其应用于划分目标,即图6a所示的整个输入句子。接着,划分点候选产生单元21检测到划分目标内的句号“。”,因此将后续部分设置为划分点候选。
接着,划分点调整单元22接收划分点候选产生单元21所设置的划分点候选,并将划分目标输入句子划分为划分单元候选。该结果如图6b所示。
接着,划分点调整单元22从划分目标中选择尚待处理的一个划分单元候选。作为此处所使用的选择尚待检测的划分单元候选的方法,此处将采用以下方法:首先选择所有划分单元候选中距划分单元候选前端最近的划分单元候选,并依次移动。
首先,选择图6中所示的长度为“60”的首个划分单元候选,即“~~~する。”。接着,划分点调整单元22计算划分单元候选的长度,并确定其长度“60”小于最大输入长度“100”。
接着,划分点调整单元22从划分目标中获得与当前选择的划分单元候选“~~~する。”相邻的划分单元候选“~~~するので,~~し、~~し、さらに~~する。”。
由于这两个长度之和为“300”,划分点调整单元22将当前选择的划分单元候选“~~~する。”确立为“被检查的”划分单元候选,并选择下一个尚待处理的划分单元候选“~~~するので、~~し、~~し、さらに~~する。”作为新的处理目标。
该划分单元候选的长度为“240”,大于最大输入长度“100”。因此,划分点调整单元22将该划分单元候选设置为划分目标,将划分规则等级降低一级至“等级2”,并递归调用划分点产生过程。
与以上类似,划分点候选产生单元21从划分规则存储部分31获得图5所示的“等级2”的划分规则,并将其应用于划分目标,即,图6b中所示的第二划分单元候选。
划分点候选产生单元21检测到以连词“ので”和逗号“、”的顺序连续出现在划分目标中的模式,因此将后续部分设置为划分点候选。该结果如图6c所示。
采用以上相同的方式,划分点调整单元22将长度小于最大输入长度的划分单元候选“~~~するので、”(长度为“80”)确立为“被处理的”划分单元候选。接着,划分点调整单元22将长度大于最大输入长度的划分单元候选“~~し、~~し、さらに~~する。”(长度为“160”)设置为划分目标,将划分规则等级降低一级至“等级3”,并递归调用划分点产生过程。
与以上类似,划分点候选产生单元21从划分规则存储部分31获得“等级3”的划分规则,并将其应用于划分目标,即,图6c中所示的第三划分单元候选。划分点候选产生单元21在两个位置检测到以接续形式的动词“し”和逗号“、”的顺序连续出现在划分目标中的模式,因此将其相应的后续部分设置为划分点候选。该结果如图6d所示。
划分点调整单元22将首个划分单元候选“~~し、”(长度为“50”)设置为尚待处理的划分单元候选,并确定其长度“50”小于最大输入长度“100”。
接着,划分点调整单元22从划分目标中获得与首个划分单元候选“~~し、”相邻的第二划分单元候选“~~し、”。
划分点调整单元22还计算这两个划分单元候选的长度之和,并确定该长度之和“80”小于最大输入长度“100”。
划分点调整单元22移除位于这两个划分单元候选之间的划分点候选,并将已通过联合上述两个划分单元候选所获得的划分单元候选“~~し、~~し、”(长度为“80”)设置为新的处理目标。该结果如图6e所示。
划分点调整单元22选择下一个相邻的划分单元候选“さらに~~する。”(长度为“80”)。此次,所要处理的划分单元候选的和是“160”,超过了最大输入长度“100”。相应地,划分点调整单元22将划分单元候选“~~し、~~し、”(长度为“80”)确立为“被处理的”划分单元候选,并选择下一个尚待处理的划分单元候选“さらに~~する。”(长度为“80”)作为新的处理目标。
由于该划分单元候选的长度小于最大输入长度“100”,并且不存在尚待处理的相邻划分单元候选,划分点调整单元22将所获得的划分点候选确立为最终选择并产生划分点。
划分点调整单元22以递归方式返回过程,发现不存在尚待处理的划分单元候选。因此,其逐一确立所有所获得的划分点候选,并产生对应的划分点。
最后,划分单元23使用所获得的划分点对输入的句子进行划分,并输出得到的4个划分单元:“~~~する。”、“~~~するので、”、“~~し、~~し、”和“さらに~~する。”。
虽然以优选的示例实施例和示例为例对本发明进行了描述,应当意识到:本发明不限于这样的示例实施例和示例,相反,可以在不背离其技术原理的前提下以各种修改方案予以实现。
相关申请的交叉引用
本申请基于并要求于2009年3月30日递交的日本专利申请No.2009-081431的优先权,其公开内容全部被并入于此作为参考。
工业实用性
根据本发明的语言分析装置能够适用于各种应用,包括语法分析装置和机器翻译装置,所述语法分析装置对以第一语言描述的文档进行语法分析以输出每个句子的句法,所述机器翻译装置将以第一语言(某一语言)描述的文档翻译成第二语言(另一语言)。
Claims (15)
1.一种语言分析装置,包括:
划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则被分类至一种等级;
划分点候选产生单元,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用所述划分规则,来产生针对输入字符串的划分点候选;
划分点调整单元,当通过在划分点候选产生单元所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分单元,在所述划分点调整单元所确定的划分点处,将输入字符串划分。
2.根据权利要求1所述的语言分析装置,其中,当所述划分点调整单元确定所述划分单元候选的长度大于所述最大输入长度时,所述划分点候选产生单元通过应用低于先前划分规则等级的划分规则,来产生针对所述划分单元候选的新的划分点候选。
3.根据权利要求1或2所述的语言分析装置,其中,从位于前端的划分单元候选开始,所述划分点调整单元计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整单元不将位于相邻划分点候选之间的划分点候选选为划分点。
4.根据权利要求1或2所述的语言分析装置,其中,从位于末尾的划分单元候选开始,所述划分点调整单元计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整单元不将位于相邻划分点候选之间的划分点候选选为划分点。
5.根据权利要求1或2所述的语言分析装置,其中,从具有最小长度的划分单元候选开始,所述划分点调整单元计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整单元不将位于相邻划分点候选之间的划分点候选选为划分点。
6.一种语言分析方法,包括:
划分点候选产生步骤,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则,来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至一种等级;
划分点调整步骤,当通过在划分点候选产生步骤中所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分步骤,在所述划分点调整步骤所确定的划分点处,将输入字符串划分。
7.根据权利要求6所述的语言分析方法,其中,当所述划分点调整步骤确定所述划分单元候选的长度大于所述最大输入长度时,所述划分点候选产生步骤通过应用低于先前划分规则等级的划分规则,来产生针对所述划分单元候选的新的划分点候选。
8.根据权利要求6或7所述的语言分析方法,其中,从位于前端的划分单元候选开始,所述划分点调整步骤计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整步骤不将位于相邻划分点候选之间的划分点候选选为划分点。
9.根据权利要求6或7所述的语言分析方法,其中,从位于末尾的划分单元候选开始,所述划分点调整步骤计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整步骤不将位于相邻划分点候选之间的划分点候选选为划分点。
10.根据权利要求6或7所述的语言分析方法,其中,从具有最小长度的划分单元候选开始,所述划分点调整步骤计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整步骤不将位于相邻划分点候选之间的划分点候选选为划分点。
11.一种语言分析程序,通过在计算机上运行来执行语言分析过程,所述语言分析程序使计算机执行:
划分点候选产生过程,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则,来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题的风险程度,每种划分规则已被分类至一种等级;
划分点调整过程,当通过在划分点候选产生过程中所产生的所述划分点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及
划分过程,在所述划分点调整过程所确定的划分点处,将输入字符串划分。
12.根据权利要求11所述的语言分析程序,其中,当所述划分点调整过程确定所述划分单元候选的长度大于所述最大输入长度时,所述划分点候选产生过程通过应用低于先前划分规则等级的划分规则,来产生针对所述划分单元候选的新的划分点候选。
13.根据权利要求11或12所述的语言分析程序,其中,从位于前端的划分单元候选开始,所述划分点调整过程计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整过程不将位于相邻划分点候选之间的划分点候选选为划分点。
14.根据权利要求11或12所述的语言分析程序,其中,从位于末尾的划分单元候选开始,所述划分点调整过程计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整过程不将位于相邻划分点候选之间的划分点候选选为划分点。
15.根据权利要求11或12所述的语言分析程序,其中,从具有最小长度的划分单元候选开始,所述划分点调整过程计算两个相邻划分单元候选的长度之和,并且当所述长度之和不大于所述最大输入长度时,所述划分点调整过程不将位于相邻划分点候选之间的划分点候选选为划分点。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009081431 | 2009-03-30 | ||
JP2009-081431 | 2009-03-30 | ||
PCT/JP2010/054920 WO2010113691A1 (ja) | 2009-03-30 | 2010-03-23 | 言語解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102369524A true CN102369524A (zh) | 2012-03-07 |
CN102369524B CN102369524B (zh) | 2014-08-13 |
Family
ID=42827986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080014350.3A Expired - Fee Related CN102369524B (zh) | 2009-03-30 | 2010-03-23 | 语言分析装置和语言分析方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8977539B2 (zh) |
EP (1) | EP2416256A4 (zh) |
JP (1) | JP5464209B2 (zh) |
CN (1) | CN102369524B (zh) |
WO (1) | WO2010113691A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085585A (zh) * | 2020-08-03 | 2020-12-15 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755183B1 (en) * | 2016-01-28 | 2020-08-25 | Evernote Corporation | Building training data and similarity relations for semantic space |
JP6631930B2 (ja) * | 2017-02-07 | 2020-01-15 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
CN111680493B (zh) * | 2020-08-12 | 2021-05-07 | 江西风向标教育科技有限公司 | 英语文本分析方法、装置、可读存储介质及计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0469884A2 (en) * | 1990-08-01 | 1992-02-05 | Canon Kabushiki Kaisha | Sentence generating system |
JPH0512329A (ja) * | 1991-07-05 | 1993-01-22 | Canon Inc | 機械翻訳方式 |
JPH08190563A (ja) * | 1995-01-12 | 1996-07-23 | Sharp Corp | 機械翻訳装置 |
JPH08235180A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 機械翻訳装置 |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN1928854A (zh) * | 2005-09-08 | 2007-03-14 | 中国科学院自动化研究所 | 一种基于标点处理的层次化汉语长句句法分析方法及装置 |
CN101206643A (zh) * | 2006-12-21 | 2008-06-25 | 中国科学院计算技术研究所 | 一种融合了句型模板和统计机器翻译技术的翻译方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61255468A (ja) | 1985-05-08 | 1986-11-13 | Toshiba Corp | 機械翻訳処理装置 |
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
JP3173514B2 (ja) | 1991-08-28 | 2001-06-04 | 松下電器産業株式会社 | 機械翻訳機 |
US6651039B1 (en) * | 1995-08-08 | 2003-11-18 | Matsushita Electric Industrial Co., Ltd. | Mechanical translation apparatus and method |
JP4299963B2 (ja) * | 2000-10-02 | 2009-07-22 | ヒューレット・パッカード・カンパニー | 意味的まとまりに基づいて文書を分割する装置および方法 |
EP2070087A2 (en) * | 2006-09-27 | 2009-06-17 | Koninklijke Philips Electronics N.V. | Method of creating a summary |
JP5323425B2 (ja) | 2007-09-03 | 2013-10-23 | 株式会社アルバック | 半導体装置の製造方法 |
-
2010
- 2010-03-23 JP JP2011507101A patent/JP5464209B2/ja not_active Expired - Fee Related
- 2010-03-23 US US13/256,697 patent/US8977539B2/en not_active Expired - Fee Related
- 2010-03-23 CN CN201080014350.3A patent/CN102369524B/zh not_active Expired - Fee Related
- 2010-03-23 EP EP10758465.8A patent/EP2416256A4/en not_active Withdrawn
- 2010-03-23 WO PCT/JP2010/054920 patent/WO2010113691A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0469884A2 (en) * | 1990-08-01 | 1992-02-05 | Canon Kabushiki Kaisha | Sentence generating system |
JPH0512329A (ja) * | 1991-07-05 | 1993-01-22 | Canon Inc | 機械翻訳方式 |
JPH08190563A (ja) * | 1995-01-12 | 1996-07-23 | Sharp Corp | 機械翻訳装置 |
JPH08235180A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 機械翻訳装置 |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN1928854A (zh) * | 2005-09-08 | 2007-03-14 | 中国科学院自动化研究所 | 一种基于标点处理的层次化汉语长句句法分析方法及装置 |
CN101206643A (zh) * | 2006-12-21 | 2008-06-25 | 中国科学院计算技术研究所 | 一种融合了句型模板和统计机器翻译技术的翻译方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085585A (zh) * | 2020-08-03 | 2020-12-15 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010113691A1 (ja) | 2012-10-11 |
JP5464209B2 (ja) | 2014-04-09 |
US20120016664A1 (en) | 2012-01-19 |
EP2416256A4 (en) | 2017-09-20 |
WO2010113691A1 (ja) | 2010-10-07 |
CN102369524B (zh) | 2014-08-13 |
US8977539B2 (en) | 2015-03-10 |
EP2416256A1 (en) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6732338B2 (en) | Method for comprehensively verifying design rule checking runsets | |
US10467114B2 (en) | Hierarchical data processor tester | |
US8275792B2 (en) | Document type identifying method and document type identifying apparatus | |
US20170116185A1 (en) | Natural language processor for providing natural language signals in a natural language output | |
US8521511B2 (en) | Information extraction in a natural language understanding system | |
CA2731013C (en) | Integrated language model, related systems and methods | |
US20060149543A1 (en) | Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer | |
US9870351B2 (en) | Annotating embedded tables | |
CN102369524B (zh) | 语言分析装置和语言分析方法 | |
CN102201022A (zh) | 用于fpga验证的方法和装置 | |
Fashwan et al. | SHAKKIL: an automatic diacritization system for modern standard Arabic texts | |
CN111243571A (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
CN116991990A (zh) | 基于aigc的程序开发辅助方法、存储介质及设备 | |
CN114048129A (zh) | 软件功能变更的自动化测试方法、装置、设备及系统 | |
EP3971732A1 (en) | Method and system for performing summarization of text | |
Nanayakkara et al. | Context aware back-transliteration from english to sinhala | |
CN108170669A (zh) | 一种电力调度网络发令方法、系统及其语音识别校验单元模块 | |
CN107423140A (zh) | 一种返回码识别方法和装置 | |
CN112347723A (zh) | 基于版图的rom代码提取验证方法及装置 | |
EP3163463A1 (en) | A correlation estimating device and the related method | |
CN111475403A (zh) | 测试脚本的动态生成方法及相关装置 | |
Eo et al. | Word-level quality estimation for korean-english neural machine translation | |
Kumar et al. | Learning agglutinative morphology of Indian languages with linguistically motivated adaptor grammars | |
US11934300B2 (en) | Reducing computing power for generating test scenario files for decision models | |
CN113378561A (zh) | 词语预测模板生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140813 |
|
CF01 | Termination of patent right due to non-payment of annual fee |