CN104021117A

CN104021117A - 语言处理方法与电子设备

Info

Publication number: CN104021117A
Application number: CN201410069642.7A
Authority: CN
Inventors: 贝恩德·博内特
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-03-01
Filing date: 2014-02-27
Publication date: 2014-09-03
Anticipated expiration: 2034-02-27
Also published as: CN104021117B; US20140249800A1; US9658999B2

Abstract

本发明公开了语言处理方法与电子设备。其中，该语言处理方法包括：根据来自词的输入序列中的至少一个词形成特征；基于将特征用作自变量的哈希函数来生成存储该特征的权重的存储单元的地址；利用所述地址从存储单元中检索特征的权重；以及基于权重和二阶依存关系解析算法来生成输入序列的依存树。还提供了一种相应的电子设备。

Description

语言处理方法与电子设备

技术领域

本发明涉及一种语言处理方法以及用于语言处理的电子设备。

背景技术

本文所提供的“背景技术”描述是为了总体地呈现本公开内容的背景的目的。某种程度描述在背景技术部分的、目前指定的发明人的工作以及申请时另未限定为现有技术的说明书方面，既没有明示也没有默示承认作为本发明的现有技术。

语言处理方法将用户的话语分割成句子并将句子分割成记号，例如词或短语。语法解析器使用记号来确定句子中的句法结构。因此所述语法解析器使用基于描述句子的词与词之间的句法关系的语法的算法。该语法由多个产生规则体现，其中每个产生规则对应描述词对和多词短语如何彼此结合以获得某个短语类型的多词短语的语法规则。语法上正确的句子可以表示为解析树。

依存解析或者依存语法（DG：dependency grammar）都是基于依存关系的现代句法理论的一类。该依存关系将（限定）动词视为所有字句结构的结构中心。其它所有的句法单位（例如，词）都直接或者间接地依存于动词。由于DG缺少短语节点，所以依存语法与短语结构语法（=选区语法constituency grammars）不同。结构是通过词（头head）和其依存部分之间的关系来确定。由于依存结构缺乏限定动词短语成分，所以在某种程度上比选区结构更平坦，因此该依存结构非常适于分析自由词序的语言，例如，捷克语和土耳其语。

当前，依存解析器需要大容量的存储器，以及它有时需要较长的计算时间。

实施方式的目的是提供一种改进的自然语言处理方法以及用于改进的自然语言处理的电子设备。

发明内容

一个实施方式涉及一种语言处理方法。所述语言处理方法使用解析处理器，以及包括：根据来自词的输入序列中的一个词形成特征；基于将特征用作自变量的哈希函数来生成存储特征的权重的存储单元的地址；利用该地址从小区单元中检索特征的权重；以及基于权重和二阶依存解析算法来生成输入序列的解析树。

另一个实施方式涉及一种电子设备，包括：解析处理器，被配置为根据来自词的输入序列中的至少一个词形成特征；存储器，包括存储针对特征的权重的存储单元；其中，解析处理器进一步被配置为：基于将特征用作自变量的哈希函数来生成存储特征的权重的存储单元的地址；利用该地址从存储单元中检索特征的权重；以及基于权重和二阶依存解析算法来生成输入序列的依存树。

上述段落已经以一般介绍的方式给出，并且上述段落并不旨在限制所附权利要求的范围。结合附图，通过参照以下具体实施方式，所述实施方式以及其他优点将得到更好地理解。图中的元件不一定按相对彼此的比例绘制。

附图说明

当结合附图考虑时，通过参考以下具体实施方式，本发明的更完整的理解及本发明容易获得的其伴随优点变得更好理解，其中：

图1示意性地示出了根据本发明实施方式的语言处理方法的流程图。

图2示意性地示出了用于句子的最终依存树。

图3示意性地示出了两个子树至开放跨度（open span）的组合。

图4示意性地示出由开放的跨度和树生成的封闭跨度。

图5示意性地示出针对一阶和二阶依存算法的依存关系。

图6示意性地示出了根据本发明实施方式的电子设备的方框图。

具体实施方式

现在参考附图，其中相同的参考标号指代通篇几个附图中相同或者相应部件，图1示出了根据本发明实施方式的语言处理方法的示意流程图。

在S100中，特征根据来自词的输入序列中的至少一个词来形成。

术语“特征”用于机器学习中来描述从潜在的输入源中提取的实体的属性。特征可以是基本的或者由其它基本特征组成。例如，解析器的输入可以是句子的词形（对应词的输入序列），分配给词形的词性标记等。基本特征例如是“名词”、“动词”、“形容词”、“限定词”等。组成特征由诸如“词形+词性”：“a+限定词”、“bank+名词”的模板构建。在依存解析中，如果解析器必须在两个词或词对（例如，名词（头）+限定词（依存部分））之间构建边缘，例如，词性（候选-头（head））+词性（候选+子（child）），由于解析器必须决定候选部分，则特征由候选部分组成。

在S110中，存储针对特征的权重的存储单元的地址基于将特征用作自变量的哈希函数来生成。

权重可被解释为由诸如支持向量机的（判别）机器学习技术所分配给区别特征的值。机器学习算法能够在学习阶段获得有意义的权重，即一些技术提供可能性（生成技术）。例如，“a+限定词”可能具有的权重为1.2，因为词“a”是限定词并且在训练阶段被学习算法了解，以及“房子+形容词”的权重可能为-0.2，因为“房子”不是“形容词”。在解析中，诸如‘名词’->‘限定词’的特征可能具有正权重，以及诸如‘房子’+‘限定词’的词汇化特征也可能具有正权重，但因为形容词和限定词之间的边缘会导致错误的依存关系树，诸如‘形容词’->‘限定词’的特征可能具有负权重。

权重可以保存为大列表，其通常包含几百万的条目。为了在列表中查找针对特征的权重，可以使用查找表。查找表通常实现为哈希表。该查找表可以作为对列表：（特征，权重的地址）存储在存储器中。因为该算法必须在主存储器中的伪随机位置查找大量的值，所以查找权重是一个相对缓慢的过程。因为存储器访问是通过预取单元将序列读入CPU的高速缓存线来优化的，所以对在伪随机位置的值的访问是最耗时的操作之一。哈希函数或哈希内核使用数学函数替代查找表来查找权重向量中的特征的权重。因为不再需要主存储器中的查找表并且避免了为将特征映射至权重的地址而访问主存储器的伪随机位置，从而速度更快。该哈希函数采用特征作为自变量并计算权重的地址。

因为没有针对该哈希函数的最佳解决方案，哈希函数可应用于分配确定性的权重以放置在给定数目的空间中。所述函数似乎随机的确定位置，但确定性工作过程意味着利用相同自变量可以计算相同的位置并可以快速找出存储权重的位置。

在S120中，利用基于哈希函数生成的地址从存储单元中检索针对该特征的权重。

然后，在S130中，基于权重和二阶依存解析算法生成输入序列的依存树。

得分可被计算为给定特征（例如，如头和子的动词、名词、形容词等词性，动词->名词等）的权重的和，如在例如罗森布拉特（Rosenblatt）的“感知：用于大脑中信息存储和组织的概率模型”（心理学回顾，65卷，第6期，1958年）中所公开的感知算法一样。

依存树可以通过循环在所有相邻特征、结合这两个最高得分的特征并将其存储在数据结构（表）中来生成。例如，边缘的得分可以是权重的和：得分=权重（头-词）+权重（依存部分-词）+权重（头-pos）+权重（依存部分-pos||头-pos）等。

在语言学中，依存树形式上为定义在句子的词上的树。

句子的词w₁...w_n是（标记）有向树的节点，即子集

T &Subset; W \times W \times L

即，作为形式定义的依存关系，其中，W是句子的一组词以及L是表示句法种类的一组边缘标记，例如L={主语、宾语、修饰语…}。输入通常另外注释有例如动词（V）、名词（N）、形容词（A）等词类。在图2中，依存树示出有边缘200而没有边缘标记。树的父节点也被称为树的头。

用来解析的动态编程方法可以首先搜索输入句子的所有相邻词的可能解决方案，例如（what did）、（did they）、（they try）等。这里的解析算法必须确定边缘具有什么方向，例如（did->they）或者（did<-they）。应注意，该算法可以建议子解决方案，其后面可能并不有助于最终的解决方案，例如，边缘（they→try）应当不属于正确的树的一部分。因此，仅建立相邻的词对是不够的。一些边缘跨越多个词，例如did...try，因此也必须考虑较大部分范围的词。因此，在接下来的步骤中，建立三个词的较大跨度以及随后逐步地增加句子中的词数。对于这些情况，解析算法重复先前的步骤，它搜索并存储针对该更大数目的相邻词的每一个的最佳解决方案。每个步骤的结果被存储在称为表的数据结构中。该程序在每个迭代步骤中加入两个操作跨度至期望长度的较大跨度中。

该程序的原理是通过相邻连接元素来有效地组成树。树被定义为具有左和右子树。由艾斯纳（Eisner，1996）介绍的程序是特别有效的，因为该头必须在左侧或者右侧，两侧之间的所有节点不需要考虑循环。

当算法必须结合两个相邻的子树时，必须引入这些子树之间的边缘。这通常以图解来说明，如图3中所描述的。一个在右侧具有头h，另一个在左侧具有头的两个树310、320被结合。因为不是完全树，该算法可以经由被称为开放跨度的新边缘330组合树。作为构建树的上下文信息，该算法中使用的虚线箭头340的图的右侧以下标记的一个额外的边缘为头节点h的最亲近的子。

图3示出应用在解析算法以建立较大跨度的动态编程结构。粗体的变量是用来存储子解决方案（表）中的数据结构的条目的索引。该算法根据两个封闭的跨度建立新的开放跨度。开放跨度与依存边缘（h、m、标记）相关，而封闭跨度与依存（子）树相关。该解析方法由（艾斯纳，1996；麦克唐纳等人2005）所建议。

如图4中描述的，后来，由边缘的数据结构（开放跨度400）组成的封闭的跨度和树410构建另一个树420（覆盖更多词）。

二阶依存关系解析算法考虑多达两个边缘来建立特征，并因此，由于该算法考虑了更多的上下文而更准确和简洁。与一阶算法500相比，用于二阶解析算法510的部分的特征可以包含诸如头h、子c以及图5中示例性描述的头和子之间的另一个子c_i的种类的信息。

如上所说明的哈希函数和二阶解析算法的结合导致显著加快的解析时间以及减少了存储器的需要。哈希函数或者哈希内核提供了通过参数设置所需要的存储器的可能性。这给予在仅提供少量主存储器的设备中使用解析算法而不做任何实施改变的机会。然而，所需存储器的量可设置为1和索引的最大容许值之间的任何值，实际值在10000和几十亿之间。

根据另一实施方式，当算法组成部分时，在额外循环在边缘期间，实施边缘标记。与在依存树完全建立之后作为单独方法来实施标记相比，该完整的边缘标记提供了用于边缘标记的实证检验的更高精度以及用于识别正确父节点（头）的更高精度。

根据另一实施方式，创建权重，并且分数被高速缓存在高速缓冲存储器或主存储器中。因为在算法中需要多次得分，所以可获得更快的处理。

也可以在需要时计算权重。

此外，根据存储器条件，可以根据需要在缓存权重和计算该权重之间进行切换。利用该选择，可以确定更快速的处理时间还是减少的存储器要求更为重要。

标准解析器使用词汇表以将值映射到随后变为特征（例如词，词类等）的一部分的从1...n的索引。这些索引被用来有效地组成特征。n是训练数据中的不同的观测值的最大数。这意味着例如如果训练语料中存在n个明显不同的词形，则使用n个条目的词汇表，这需要大量主存储器。根据另一个实施方式，哈希函数被用于将词直接映射至所限定范围内的数，从而除去词汇表，这允许精简存储器的要求与精度之间小权衡。

所提出的实施方式可以结合语言处理方法，导致以存储器使用效率的方式执行依存关系解析的解析器精度高、低存储器要求和时效性，同时可在这些方面灵活的配置使得能在更高速度、所需存储器和解析精度之间进行选择。这为在诸如，例如但不限于蜂窝电话、智能电话、平板个人计算机、个人数字助理（PDA）、便携式计算机等的具有低速存储器的小型电子设备上使用解析方法提供了机会。

图6是体现本公开内容的方面的电子设备600的硬件图。

电子设备600包括：解析处理器，被配置为根据来自词的输入序列605中的至少一个词形成特征；存储器620，包括存储特征的权重的存储单元；其中，所述解析处理器610进一步被配置为基于将特征用作自变量的哈希函数来生成存储特征的权重的存储单元的地址；利用所述地址从存储单元中检索特征的权重；以及基于权重和二阶依存关系解析算法来生成输入序列605的依存树。

该电子设备可以实现为例如智能电话、平板电脑、笔记本电脑、计算机、摄影机、录音机等。它可以包括用于将语音或话语转换成电信号的麦克风，以及例如将电信号存储在电子装置的存储器中的设备。例如直接从麦克风输入的语音可被解析处理器610解析。也可以使用解析处理器610来解析预先存储的语音或话语。此外，在一个实施方式中，解析处理器610可以被用于开发用于解析文本的依存树。

例如，语言处理方法也可被用于例如配备有将语音和/话语转换为电信号的麦克风的智能电话、平板电脑、笔记本电脑、计算机、摄影机、录音机等中。语言处理方法也可被用于获得解析文本的依存树。

在建立依存树之后，语音处理方法可被用来查找对所发出的问题的响应，基于从依存树获得的信息搜索资料库，或者生成电信号以通过简单地发出命令来控制机器或者其他设备。

主存储器630也可以被包括于该电子设备600中，以及选择单元635适应于基于参数选择主存储器630的预留部分。

该电子设备600还可包括高速缓冲存储器640，其中，该解析处理器610进一步被配置为基于依存树中的特征的权重的和来生成依存树的边缘的得分；将该得分存储在高速缓冲存储器640中；以及当针对相同的边缘再次生成得分时从高速缓冲存储器640中检索得分。

根据另一实施方式，该解析处理器610还可适应于生成依存树中的边缘；以及在生成下一个边缘之前生成边缘标记。

该解析处理器610还可适应于将索引与训练阶段的训练语料中的每个词相关；；以及基于将词用作自变量的哈希函数来生成输入序列的词的索引。

本文所述的处理、算法和电驱动系统可经由分立控制装置或者与图6中所示的结构一致的计算系统来实现。该系统作为电子设备描述在本文中。

存储器620、主存储器630和高速缓冲存储器640可以单独设置或者以单个存储器实现（例如，电子设备600的主存储器）。该存储器可实现为ROM、EPROM、EEPROM、闪存、静态存储器、DRAM、SDRAM以及其等同设备。

在替代实施方式中，解析处理器610或其各个方面可包括或不包括用于增加或者完全实现本公开内容的逻辑设备。该逻辑设备包括但不局限于，特定用途集成电路（ASIC）、现场可编程门阵列（FPGA）、通用逻辑阵列（GAL）、及其等同物。该解析处理器610可以是独立设备或者单个处理机构。此外，本发明可受益于多核CPU的并行处理能力。

上面提到的元件可经由用于数据的传输或接收的、包括可控自变量的网络接口耦合到网络，如因特网或本地内部网。该网络提供了至移动设备的可设置为数据包方式的通信路径。此外，中央BUS设置为将上述硬件元件连接在一起，并提供用于其间数字通信的至少一条路径。

显然，根据以上教导，可对本公开内容进行各种修改与变更。因此应当理解，在所附权利要求的范围内，本发明的实施可以与本文中的具体描述不同。

Claims

1.一种利用解析处理器的语言处理方法，包括：

根据来自词的输入序列的至少一个词形成特征；

基于将所述特征用作自变量的哈希函数来生成存储针对所述特征的权重的存储单元的地址；

利用所述地址从所述存储单元中检索针对所述特征的所述权重；以及

基于所述权重和二阶依存关系解析算法来生成针对所述输入序列的依存树。

2.根据权利要求1所述的语言处理方法，还包括：

通过参数来选择主存储器的预留部分。

3.根据权利要求1或2的任一项所述的语言处理方法，还包括：

基于所述依存树中的所述特征的所述权重的和来生成所述依存树的边缘的得分；

将所述得分存储于高速缓冲存储器中；

当再次对相同的边缘生成所述得分时从所述高速缓冲存储器中检索所述得分。

4.根据权利要求3所述的语言处理方法，还包括：

在所述得分被存储在所述高速缓冲存储器中并从所述高速缓冲存储器中检索的第一模式与基于所述特征的所述权重的所述和来生成所述得分的第二模式之间进行选择。

5.根据权利要求1至4中任一项所述的语言处理方法，还包括：

在所述依存树中生成边缘；以及

在生成下一个边缘之前生成边缘标记。

6.根据权利要求1至5中任一项所述的语言处理方法，还包括：

在训练阶段将索引与训练语料中的每个词相关；

基于将词用作自变量的哈希函数来生成针对所述输入序列的词的所述索引。

7.一种包括计算机程序指令的计算机程序，所述计算机程序指令在被计算机执行时，引起所述计算机来执行方法，包括：

根据来自词的输入序列的至少一个词形成特征；

基于所述权重和二阶依存解析算法来生成针对所述输入序列的依存树。

8.一种非暂存性计算机可读介质，包括：权利要求7所述的计算机程序。

9.一种电子设备，包括：

解析处理器，被配置为根据来自词的输入序列的至少一个词形成特征；

存储器，包括存储针对所述特征的权重的存储单元；

其中，所述解析处理器还被配置为：基于将所述特征用作自变量的哈希函数来生成存储针对所述特征的权重的所述存储单元的地址；利用所述地址从所述存储单元中检索针对所述特征的所述权重；以及

10.根据权利要求9所述的电子设备，还包括：

主存储器；以及

选择单元，适应于基于参数来选择所述主存储器的预留部分。

11.根据权利要求9或10中任一项所述的电子设备，还包括：

高速缓冲存储器；

其中，所述解析处理器还被配置为：基于所述依存树中的所述特征的所述权重的和来生成所述依存树的边缘的得分；将所述得分存储在所述高速缓冲存储器中；以及当再次对相同的边缘生成所述得分时从所述高速缓冲存储器中检索所述得分。

12.根据权利要求9至11中任一项所述的电子设备，其中，所述解析处理器还被配置为生成所述依存树中的边缘；以及在生成下一个边缘之前生成边缘标记。

13.根据权利要求9至12中任一项所述的电子设备，其中，所述解析处理器还被配置为在训练阶段将索引与训练语料的每个词相关；以及基于将词用作自变量的哈希函数来生成所述输入序列的词的所述索引。