CN104364841A

CN104364841A - 跨语言相关性判断装置、跨语言相关性判断程序以及跨语言相关性判断方法和存储介质

Info

Publication number: CN104364841A
Application number: CN201380030064.XA
Authority: CN
Inventors: 藤井知早; 滨田洋人; 增山繁; 酒井浩之; 鹤田雅信; 高尾美代子
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2012-06-06
Filing date: 2013-06-05
Publication date: 2015-02-18
Also published as: WO2013182885A1; JP2013254339A; WO2013182885A8; US20150170646A1

Abstract

跨语言相关性判断装置，包括：数据库，其存储有包括多个句子的数据；关系判断单元，其计算在所述数据库中一特定词出现在输入的两个词之间的次数，并基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

Description

跨语言相关性判断装置、跨语言相关性判断程序以及跨语言相关性判断方法和存储介质

技术领域

本发明涉及判断词语之间的相关性的跨语言相关性判断装置、跨语言相关性判断程序以及跨语言相关性判断方法和存储介质。

背景技术

利用计算机，已开展了获得词语之间的相关性的研究。例如，已知的系统包括关键词提取单元和指标值计算单元，所述关键词提取单元从多个文档中提取关键词，所述指标值计算单元基于每个文档中的每个关键词的出现频率，为任何关键词组合计算一对关键词之间的相关率，并将每一相关率存储在数据库表中（例如，参见公开号为2009-98931的日本专利申请 (JP 2009-98931 A)）。该系统中的指标值计算单元计算每一文档中具有出现历史的每一关键词的出现频率，计算每一关键词的出现频率的方值，累加全部文档中的方值，计算每一文档中的一对关键词的出现频率的乘积，累加全部文档中的乘积，计算每个关键词的方值的总和的平方根，对两个平方根求和，并用关键词的乘积的总和除以两个平方根之和，计算相关率。

然而，上述已知的系统是仅基于相关率的概念来分析关键词之间的相关性的，因此，其不可能正确地判断词语在层次结构中的相关性。

发明内容

本发明提供了一种跨语言相关性判断装置、跨语言相关性判断程序、跨语言相关性判断方法和存储介质，其能够恰当地判断层次结构中词之间的相关性。

本发明的第一方面提供了一种跨语言相关性判断装置。该跨语言相关性判断装置包括：第一数据库，其存储有包括多个句子的数据；以及关系判断单元，其计算在所述第一数据库中一特定词出现在输入的两个词之间的次数，并基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

本发明的第二方面提供了一种跨语言相关性判断程序，其用于使计算机执行一种方法。该方法包括：在存储有包括多个句子的数据的数据库中，计算一特定词出现在输入的两个词之间的次数；并且基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

本发明的第三方面提供了一种跨语言相关性判断方法。该跨语言相关性判断方法包括：在存储有包括多个句子的数据的数据库中，计算一特定词出现在输入的两个词之间的次数；并且基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

本发明的第四方面提供了一种非暂态性计算机可读存储介质，其存储有用于使计算机执行一种方法的程序。所述方法包括：在存储有包括多个句子的数据的数据库中，计算一特定词出现在输入的两个词之间的次数；并且基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

根据以上方面，有可能恰当地判断层次结构中词之间的相关性。

附图说明

以下将结合附图描述本发明的示例性实施例的特征、优点、技术和工业效果，图中相似的附图标记指代相似元件，其中：

图1为根据本发明第一实施例的系统的硬件配置的例子；

图2为展示由车侧设备管理的分层数据的图示；

图3为根据本发明第一实施例的系统的功能性配置的例子；

图4为概念性地展示关系判断单元判断两个词语在概念上是否为层次关系或并列关系的图示；

图5为新添加词“i-Pod”与包含在层次数据中的每个词之间的组合的处理结果的例子；

图6为由排布确定单元基于图5所示的处理结果提取的上层候选词的例子；

图7为展示一种状态的图示，在该状态中排布确定单元基于得分平均点确定新添加词的排布；

图8为展示一种状态的图示，在该状态中排布确定单元将新添加词排布到具有最高率的上层候选词的下位，在该最高率处指标值*大于或等于阈值；

图9为展示一种状态的图示，在该状态中排布确定单元将新添加词排布到具有最大平均指标值*的上层候选词的下位；

图10为展示一种状态的图示，在该状态中新添加词“i-Pod”排布在“选择源”的下位；

图11为展示根据本实施例由服务器设备执行的处理流程程的流程图的例子；

图12为以二维空间形式简单地展示包括在教师数据中的数据、分离超平面、间隔和支持向量的关系的图示；

图13为二维空间形式简单地展示在采用软间隔的情形中，包括在教师数据中的数据、分离超平面、间隔和支持向量之间的关系的图示；

图14为根据本发明第二实施例的系统的功能性配置的例子；

图15为由根据第二实施例的车侧设备执行的处理流程的流程图例子；

图16为根据本发明第三实施例的系统的功能性配置的例子；

图17为由根据第三实施例的车侧设备执行的处理流程的流程图的例子。

具体实施方式

第一实施例

图1为根据本发明第一实施例的系统1的硬件配置的例子。系统1包括车侧设备10和服务器设备100。所述车侧设备10安装在车辆上。服务器设备100用作跨语言相关性判断装置。

车侧设备10例如包括中央处理单元（CPU）11、内存单元12、存储单元13、车载通信接口14、通信模块15、输入单元16和输出单元17。这些部件通过总线、串口线等彼此相连。车侧设备10可包括只读存储器（ROM）、直接存储器存取（DMA）控制器、中断控制器等（未图示）。

CPU11例如为处理器，其具有程序计数器、命令解码器、各种计算单元、加载存储单元（LSU）、通用寄存器等。存储单元12例如为随机读取存储器（RAM）。存储单元13例如为硬盘驱动器（HDD）、固态驱动器（SSD），或点可擦除且可编程只读存储器（EEPROM）。车载通信接口14例如使用适当的通信协议与受控对象50通信，所述协议例如低速机体导向通信协议、多媒体导向通信协议和FlexRay协议。低速机体导向通信协议通常是控制器区域网络（CAN）或本地互连网络（LIN）。所述多媒体导向通信协议通常是媒体导向系统传输（MOST）。所述通信模块15例如，经由例如手机的无线电波网络、无线基站80和网络90，与服务器设备100通信。利用单独的移动电话实现这种通信。在这种情形中，通信模块15为利用移动电话实现无线或有限通信的接口。所述输入单元16例如包括触摸面板、开关、按钮、麦克风等。输出单元17例如包括显示装置（其也可用作触摸面板），如液晶显示器（LCD）和阴极射线管，扬声器等。

服务器设备100例如包括CPU101、驱动单元102、存储介质103、内存单元104、存储单元105、通信接口106、输入单元107和输出单元108。这些部件通过总线、串口线等彼此连接。服务器设备100可包括ROM、DMA控制器、中断控制器等（未图示）。

驱动单元102能从存储介质103中加载程序和数据。当记录有程序的存储介质103加载进驱动单元102中时，程序从存储介质103经由驱动单元102安装至存储单元105。存储介质103是便携存储介质，例如光盘（CD）、数字多功能盘（DVD）和通用串行总线（USB）存储器。

内存单元104例如为RAM。存储单元105例如为HDD、SSD或EEPROM。

程序不仅利用上述存储介质103安装至服务器设备100中，程序还可通过利用通信接口106，经网络从另一计算机下载而安装至存储单元105中。这种情形中的网络例如为因特网或局域网（LAN），并可包括网络90。在服务器设备100中执行的程序可在服务器设备100装运时便预存储在存储单元15、ROM等中。

通信接口106控制例如到网络的连接。输入单元107例如为键盘、鼠标、按钮、触摸面板、麦克风等。此外，输出单元108例如包括显示装置，如LCD和CRT、打印机、扬声器等。

车侧设备10控制受控对象50。受控对象50例如为车载音频系统或驱动功能控制系统。车侧设备10管理受控对象50和显示装置上显示的软件开关的功能，以便例如，调用和调节层次结构中的功能，使软件开关在概念上位于层次关系或并列关系。例如，当触摸并选择根菜单屏幕上的软件开关“音频”、从而排布在“音频”的下一层次中的软件开关——例如“音质”、“选择源”和“选择音乐”显示于屏幕上。图2为展示由车侧设备10管理的层次数据20。车侧设备10将层次数据20保持在存储单元13等中（参见图3）。此处，概念上的层次关系是这样一种关系：其中，上位概念包含下位的概念，即，例如，“音频”与“音质”之间的关系。此外，概念上的并列关系是这样一种关系：其中，具有非层次关系的组合包含在共同上位概念中，即，例如，包含在共同上位概念“音频”中的“音质”与“选择源”之间的关系（参见图2）。

当新的功能、例如“i-Pod（商标）”被添加至这样的层次数据中时，车侧设备10基于来自服务器设备100的信息，确定新功能和软件开关设置。添加新功能的时刻更具体地是这样的时刻：当在已通过通信方式安装了与新功能相关的应用程序等时，或当已经分发了存储介质、例如CD，且已安装了应用程序等时。

图3为用于实施上述功能的系统1的功能配置的例子。如上所述，车侧设备10将层次数据20存储在存储单元13或类似单元中。层次数据20即：上述功能的名称和软件开关被存储为具有层次结构的字词数据。即，层次数据20包括对应于名称和数据的词语，在这些名称和数据中，词语之间的关系被概念性地定义在层次结构中。

服务器设备100包括新功能应用单元120、指标值计算单元121、关系判断单元122和排布确定单元123，这些单元作为功能性单元，用作为CPU101，执行存储单元105中存储的程序。所述功能性单元可以不由截然独立的程序来实现，其可以为从其他程序调用的子例程或功能。功能性单元中的一部分可能是硬件装置，例如大规模集成电路（LSI）、集成电路（IC）和现场可编程门阵列（FPGA）。

服务器设备100在存储器105中保持有句子数据库110，作为用于跨关系判断的数据。所述句子数据库110例如存储了多个句子，并逐页管理所述多个句子。所述页例如对应于网站中的一个页面，报纸中的一篇报道等。句子数据库110可从任何源收集，只要该源具有通用性。

在如上所述的将新功能添加到车侧设备10的时刻，新功能应用单元120将用于实现预期新功能的程序发送至车侧设备10。所述添加新功能的功能可包括在除车侧设备10以外的其他装置中。在本实施例中，服务器设备100具有将新功能添加至车侧设备10的功能，以及通过判断词语之间的关系，确定新功能在层次结构中所处位置的功能。

指标值计算单元121计算指标值，所述指标值表示新添加词与车侧设备10管理的层次数据20中的每个词之间的组合的相关率，所述新添加词表示新功能（上述的“i-Pod”）。所述层次数据20可由服务器设备100通过通信从车侧设备10处获取，并可由服务器设备100通过模型而保持。指标值计算单元121例如，计算数学表达式（1）表达的逐点互信息（ PMI ），或通过对作为表示词语之间相关性的指标值的PMI进行修正所获得的值。此处，“修正”意味着，例如，向PMI计算表达式中添加四则运算或幂次形式的修正项。在数学表达式（1）中，f（a, b）是在句子数据库110中同时包括词语a和词语b的句子的数量，N（a, b）是在句子数据库110同时包括词语a和词语b的句子存在所在的一页中的句子的总数。

N（a, b）可以是当句子数据库110初始没有逐页管理，或当句子数据库110按类型管理时的句子数据库110中的句子的总数，其可以是句子数据库110中的预期类型中包括的句子的总数。P（a）为f(a)/N(a, b)。在此，f(a)是将词语a包括在句子数据库110中的句子的数量。类似地，P(b)为f(b)/N(a, b)。在此，f(b)为将词语b包括在句子数据库110中的句子的数量。P(a, b)为 f(a, b)/N(a, b).

(1)

可使用另一类型的指标值，替代PMI或修正后的PMI，作为表示词语之间相关率的指标值。

关系判断单元122判断由指标值计算单元121计算的指标值大于或等于阈值（例如，50）的词语的组合，即具有高相关性的词语的组合，是否概念上处于层次关系或并列关系。

关系判断单元122计算特定词在句子数据库110中的两个词语之间出现的次数，并基于以计算出的次数为一假想空间中的坐标值的坐标的位置相对于由支持向量机预先确定的分离超平面而言出现在哪一侧，判断该两个词在概念上是否处于层次关系或并列关系，所述假想空间的轴代表特定词的出现次数。稍后将描述利用支持向量机的分离超平面的确定。所述特定词例如为“和（and）”、“中（in）”、“之间（among）”、“一起（together with）”等这样的词，这些词很容易出现在两个处于层次关系或并列关系的词语之间。所用特定词是预先利用教师数据通过验证而确定的有效词。于是，恰当地判断词语在层次结构中的关系是有可能的。

图4为从概念上展示由关系判断单元122作出的关于两个词是否在概念上处于层次关系或并列关系的判断的图示。图4展示了轴数为两个的二维空间的假想空间，所述轴数表示特定词的出现次数；然而，所述轴数并不限于两个。

当关系判断单元122作出判断时，输出由指标值计算单元121计算的指标值和表示层次关系或并列关系的处理结果。图5为对新添加词“i-Pod”与包含在层次数据20中的每个词之间的组合的处理结果的例子。

排布确定单元123使用由指标值计算单元121和关系判断单元122获得的处理结果，确定车侧设备10被指示所在的“层次数据中的新功能的排布”，并将“层次数据中的新功能的排布”发送至车侧设备10。

初始地，排布确定单元123提取上位候选词，针对与新添加词“i-Pod”的组合计算出的这些上位候选词的指标值大于或等于所述阈值，且所述候选词与所述新添加词处于层次关系。图6为基于图5所示的处理结果，由排布确定单元123提取的上位候选词的例子。

接着，排布确定单元123根据预定规则，基于排布在所提取的上位候选词的下位中的每个词与新添加词之间的指标值，判断新添加词应当排布在哪个上位候选词的下位。对于确定这种排布的方法，可采用多种方式，如下所列。以下，对于被判断为与新添加词处于“层次关系”的一个词，将用作判断参考的指标值*设定为零（这是由于指标值限于并列关系）。

方法（1）：排布确定单元123，例如，当指标值*小于30时，计算得分为“-1”，当指标值大于或等于30且小于60时，计算得分为“1”，而当指标值*大于或等于60时，计算得分为“2”，获得为排布在每个上位候选词的下位中的词计算的得分的平均值，并排布具有最高平均值的上位候选词的下位中的新添加词。图7为展示排布确定单元123基于平均得分确定新添加词的排布的图示。

方法（2）：排布确定单元123，例如，为每个上位候选词获得为排布在下位中的每个词计算的、且大于或等于一阈值（例如，60）的指标值*的比例，并将新添加词排布在具有最大比例的上位候选词的下位中。此处的“阈值”可以不同于当关系判断单元122判断其是否为具有最高相关性的词的组合时所用的“阈值”。图8为展示一种状态的图示：该状态中，排布确定单元123将新添加词排布在具有具有最大比例的大于或等于所述阈值的指标值的上位候选词的下位中。在图8中，将“O”分配给其指标值*大于或等于所述阈值的词，而将“x”分配给其指标值*小于所述阈值的词。

方法（3）：排布确定单元123例如，获得为排布在每个上位候选词的下位中的词计算的指标值*的平均值，并将所述新添加词排布在具有最大平均值的上位候选词的下位中。图9为展示这样一种状态的图示：在该状态中排布确定单元123将新添加词排布至具有指标值*最大平均值的上位候选词的下位中。

方法（4）：排布确定单元123例如，将新添加词排布至这样的上位候选词的下位中：所述上位候选词中具有方法（1）中的得分“-1”词的数量小（未图示）。

图10为展示这样一种状态的图示：在该状态中，使用所述方法中的任一种，将新添加词“i-Pod”排布在“选择源”的下位中。

当排布确定单元123，例如，使用上述方法确定了新添加词的排布时，排布确定单元123将所确定的排布发送至车侧设备10。此处，新添加词的排布无需一定确定为一个位置。例如，当由上述方法推导出具有高的值的多种排布时，也允许在多个位置的排布（例如，新添加词“i-Pod”同时排布在“音频”的下位和“音质”的下位）。车侧设备10利用输出单元17针对新设定的软件开关的层次位置引导用户。

图11为展示根据本发明实施例的由服务器设备100执行的处理流程的流程图的例子。当发生了利用新功能应用单元120将新功能添加至车侧设备10的事件时，流程重新开始。

初始地，指标值计算单元121从车侧设备10获取层次数据20。

接着，指标值计算单元121从层次数据20（例如，为了从第一个）中选择一个词（S202）。

接着，指标值计算单元121计算在S202中选择的词与新添加词之间的指标值（S204），并判断该指标值是否大于或等于所述阈值（S206）。当所述指标值大于或等于所述阈值时，指标值计算单元121将该词存入内存单元104或类似中（S208）。

在S206到S208的处理完成后，指标值计算单元121判断是否已从层次数据20中选出全部的词（S210）。当尚未选出全部词时，指标值计算单元121返回S202，并选择下一个词。

当指标值计算单元121已经选出并处理了全部词时，关系判断单元122选择在S208中保存的一个词（例如，为了从第一个）（S220）。

接着，关系判断单元122判断在S220中选择的词和新添加词是否处于层次关系或并列关系（S222），并将判断出的关系保存在内存单元104或类似等中（S224）。

当关系判断单元122已完成了S224的处理后，关系判断单元122判断S208中保存的全部的词是否都已被选择（S226）。当尚未选出全部词语时，关系判断单元122返回S220，并选择下一个词。

当关系判断单元122已经选出并处理了全部的词时，排布确定单元123从所保存的词中提取出上位候选词（S230），使用上述方法（S232）判断新添加词应当排布在哪个上位候选词之下，并将判断得到的排布发送至车辆（S234）。

在此，将描述利用支持向量机对分离超平面的确定。在此，当两个词如上述地处于层次关系或并列关系时，表达为向量格式的、非常可能出现在词之间的多个特定词的出现次数称为特征向量x。本实施例中所需的识别目标类包括两种类型，即，层次关系和并列关系，从而由两类，即，“+1”和“-1”。有可能利用支持向量机从已知教师数据中学习特征向量（特定词的出现次数）与类（层次关系或并列关系）之间的随机对应关系，并且，利用作为习得结果而获得的分离超平面，基于输入词与超平面之间存在的特定词的出现次数之间的关系，判断输入词之间的关系属于哪一类。

支持向量机基于教师数据，出于令间隔最大化的目的，获得最优参数。图12为以二维空间形式简单地展示包含在教师数据中的数据、分离超平面、间隔和的支持向量之间的关系的图示。在图12中，空心圆表示类“+1”的数据，空心三角表示类“-1”的数据，实心圆和实心三角表示支持向量。

当教师数据是线性可分离的且教师数据可被两个分离超平面完全分离时，所述分离超平面即H1和H2，则数学表达式（2）成立。在数学表达式（2）中，N是教师数据的数量，t_i是包括在教师数据中的每个数据（1,2, …, N）的类。H1和H2分别由数学表达式（3）和数学表达式（4）表达。

(2)

(3)

(4)

间隔的大小，即，区别平面与每个分离超平面之间的距离，由以下数学表达式（A）表达。

(A)

于是，通过将数学表达式（2）设定为限制条件，并获得使目标函数（5）最小的最优参数（特征向量w，特征向量b），有可能获得最大间隔。最优化问题已知地是数学编程中的一个二次规划问题，有各种已知的方法，在此不予赘述。

(5)

理想的是，全部教师数据可由分离超平面分离；然而，实际中，当少量教师数据被允许进入相反侧时，拟合优度很可能提高。以这种方式通过放松限制来获得分离超平面的方法称为软间隔（soft margin）。

当采用软间隔时，教师数据中的一部分被允许进入分离超平面H1或分离超平面H2之外的相反侧。图13为以二维空间形式简单地展示在采用软间隔的情形中，教师数据中包括的数据、分离超平面、间隔和支持向量之间的关系的图示。

在此，教师数据的一部分进入相反侧所经历的距离由以下数学表达式（B）表达。

(B)

于是，最优化问题被修正为用于获得最优参数（特征向量w，特征向量b）的问题，该最优参数使用数学表达式（6）作为限制条件、并使对象函数（7）最小化。在数学表达式（6）中，参数γ为确定相对于间隔的大小而言、教师数据的一部分被允许进入的距离。

(6)

(7)

在支持向量机中，还有一种非线性地转换特征向量和线性地判别空间的方法，该方法称为核技巧（kernel trick）。通过采用核技巧，有可能提高支持向量机的精度。核技巧的具体方法是已知的，在此不予赘述。

根据上述实施例，为句子数据库110计算特定词出现在输入的两个词之间的次数。并且，基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。因此，有可能正确地判断层次结构中词语之间的关系。

本申请的申请人将本发明的装置的处理结果与由人进行的、通过对对象数据的评估所获得的心理值进行比较，确定存在一定程度的相关性。

利用根据本实施例的跨语言相关性判断装置和跨语言相关性判断程序，通过计算新添加词与包括在层次数据20中的每个词之间的指标值，有可能基于关系判断的结果，将新添加词排布在层次数据20中的适当位置。如上所述，在车辆被设定为对象的情形中，层次数据20因车而异，因此，即使将同一新功能添加到不同模型中，其仍有可能自动判断该新添加词在每个车的层次数据20中的位置，因此这是人们想要的。

有可能利用根据第一实施例的方法，不仅在已建立了层次数据20的场景中，还在层次数据20是新建构的、处于发展阶段的情形中。不仅有可能将新添加词排布在层次数据20中，还可重新排布层次数据20本身。

第二实施例

以下，将描述根据第二实施例的系统2。根据第二实施例的该系统2包括车侧设备10和服务器设备100。其硬件配置与第一实施例的相同，因此还使用图1，并且省去说明。

根据第二实施例的车侧设备10例如具有导航功能和控制空调装置和音频装置的功能，并且，在第一实施例的情形中，层次地管理用于来自用户的、调取每个功能的命令。因此，根据第二实施例的车侧设备10将层次数据20保持在存储单元13或类似物中，如第一实施例的情形那样。车侧设备10具有允许通过触摸面板上的软件开关输入命令、并通过识别经由麦克风输入的语言来接受语音命令的功能。

图14为系统2的功能性配置的例子。根据第二实施例的服务器设备100包括作为功能单元的指标值计算单元121、关系判断单元122和命令类比单元124，这些单元功能上用作CPU101，执行存储在存储单元105中的程序。所述功能单元可以不由截然独立的程序来实现，其可以为从其他程序调用的子例程或功能。功能性单元中的一部分可能是硬件装置，例如LSI、IC和FPGA。

当用户所讲语音的识别结果与层次数据20中包括的词语相一致时，根据第二实施例的车侧设备10启动根据预期命令的功能。另一方面，当用户所讲语音的识别结果不与层次数据20中包括的词语相一致时，根据第二实施例的车侧设备10将语音识别结果和层次数据20发送至服务器设备100，并接收和执行由服务器设备100估计的命令。

图15为由根据第二实施例的车侧设备10执行的处理流程的流程图的例子。当用户所讲语音被识别出时，流程开始。

初始地，车侧设备10判断语音识别结果是否与包括在层次数据20中的词相一致（S300）。当该语音识别结果与包括在层次数据20中的词相一致时，执行与预期词语相关联的命令（S302）。

另一方面，当语音识别结果与包括在层次数据20中的词不一致时，车侧设备10将语音识别结果和层次数据20发送至服务器设备100（S304），并等待直到其接收了估计命令（S306）。

当车侧设备10接收估计命令时，车侧设备10执行所接收的命令（S308）。

当根据第二实施例的服务器设备100接收了语音识别结果和层次数据20时，指标值计算单元121和关系判断单元122执行等同于图11中的S200到S226步骤的处理。

初始地，指标值计算单元121计算指标值，该指标值表示语音识别结果与包括在层次数据20中的每个词的组合的相关率，如第一实施例的情形。

所述关系判断单元122判断具有由指标值计算单元121计算的、大于或等于一阈值（例如，50）的指标值的词语组合，即，具有高相关性的词语的组合，是否在概念上为层次关系或并列关系。

所述命令类比单元124将与语音识别结果为并列关系的那些词中具有最大指标值的词类推为发给车侧设备的语音命令，并将类推词发送至车侧设备10。例如，当语音识别结果为“目的地”（destination），而包括在层次数据20中的词为“目标”（goal）、“当前位置”（current location）、“空调”（air conditioner）、“音频”（audio）或类似等时，则假定为“目标”而计算的指标值是最高的，为“当前位置”计算的指标值是介于中间的，而为“空调”或“音频”计算的指标值接近于零，所述命令类比单元124判断用户的语音命令可以被认作是“目标”。

利用根据上述实施例的跨语言相关性判断装置和跨语言相关性判断程序，为句子数据库110计算特定词在输入的两个词之间出现的次数。此外，基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断两个词是否在概念上为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。因此，有可能恰当地判断两个词在层次结构中的关系。

根据本实施例，通过计算用户所讲的语音的识别结果与包括在层次数据20中的每个词之间的指标值，并对层次数据20作出关系判断，这样，即使用户的言语不存在于既有命令中时，也有可能使车侧设备10基于所述结果来执行适当的类比命令。

第三实施例

以下，将描述根据第三实施例的系统3。根据第三实施例的系统3包括车侧设备10和服务器设备100。其硬件配置与第一实施例的一样，因此使用图1，并省略描述。

图16为系统3的功能配置例子。根据第三实施例的服务器设备100包括指标值计算单元121、关系判断单元122和上位词提取单元125，这些单元作为功能性单元，用作为CPU101，执行存储单元105中存储的程序。所述功能性单元可以不由截然独立的程序来实现，其可以为从其他程序调用的子例程或功能。功能性单元中的一部分可能是硬件装置，例如LSI、IC和FPGA。此外，除句子数据库110外，根据第三实施例的服务器设备100还保持有词语数据库112，该词语数据库112存储有位于存储单元105或类似物中的词组。词语数据库112理想地由这样的数据创建：该数据是词的集合，其很可能被用于在地图数据22包括的设施信息范围内检索一设施。

根据第三实施例的车侧设备10是导航系统，其具有在存储单元13中存储包括设施信息的地图数据22、并基于GPS信号获得车辆当前位置的功能，为用户提供到目标的最优化路径的功能，并包括搜索地图数据22、以判断用户输入的设施是否存在于车辆周边并向用户指出该设施的位置的功能性单元（设施搜索单元24）。

根据第三实施例以及第二实施例的车侧设备10具有识别用于所讲语音的功能。当语音识别结果指示的设施存在于地图数据22中时，设施搜索单元24使用输出单元17向用户提供关于预期设施的信息。

当用户所讲的语音的识别结果所指示的设施不存在于地图数据22中时，用户第二次讲话、且与第二次讲话相关联的语音识别结果所指示的设施仍不存在于地图数据22中时，设施搜索单元24将第一次和第二次语音识别结果发送至服务器设备100。

图17为展示由根据第三实施例的车侧设备10执行的处理流程的流程图的例子。当识别出用户所讲的语音时，流程开始。

初始地，设施搜索单元24判断由用户所讲语音的识别结果指示的设施是否存在于地图数据22中（S400）。当由用户所讲语音的识别结果指示的设施存在于地图数据22中时，设施搜索单元24提供利用输出单元17向用户提供关于预期设施的信息。该设施搜索单元24判断用户是否作出接受所提供的信息（或语音输出）的操作（S404）。当所提供的信息未被接受时，处理进行到S406；反之，当所提供的信息已被接受时，图17所示的流程图结束。

当由用户所讲语音的识别结果指示的设施不存在于地图数据22中、或在S404中作出了导航判断时，设施搜索单元24等待，直到用户下一次讲话（S406）。当用户进行了下一次讲话时，设施搜索单元24判断由用户所讲语音的识别结果指示的设施是否存在于地图数据22中（S408）。当由用户所讲语音的识别结果指示的设施存在于地图数据22中时，设施搜索单元24利用输出单元17向用户提供关于预期设施的信息（S410）。所述设施搜索单元24判断用户是否已经作出接受所提供的信息（或语音输出）的操作（S412）。当所提供的信息未被接受时，处理进行到S414；反之，当所提供的信息已被接受时，图17所示的流程图结束。

当第二次讲话中，由用户所讲语音的识别结果指示的设施仍不存在于地图数据22中、或在S412中作出了导航判断时，设施搜索单元24将语音的第一次和第二次识别结果发送至服务器设备100（S414）。

设施搜索单元24等待，直到其从服务器设备100接收到词（S416）。当设施搜索单元24接收到词时，设施搜索单元24利用输出单元17向用户提供关于该接收的词（可以是复数）指示的设施的信息（S418）。

接下来，设施搜索单元24判断用户是否作出接受所提供的信息（当由复数个接收词时，其为所提供的信息中的任何片段）（或语音输出）的操作（S420）。当所提供的信息已被接受时，施搜索单元24利用输出单元17向用户提供关于该设施的信息（S422）。

当所提供的信息未被接收时，设施搜索单元24可结束流程图的处理，并从下一次讲话开始继续处理，或等待第三次讲话，并将与该讲话相关联的第一次到第三次语音识别结果发送至服务器设备100。

在根据第三实施例的服务器设备100中，当接收了语音识别结果时，指标值计算单元121和关系判断单元122对语音识别结果（1）和包括在词数据库112中的每个词、以及对语音识别结果（2）和包括在词数据库112中的每个词，执行等同于图11中的S200到S226处理的处理。

上位词提取单元125上位词，该上位词的提取指标值大于或等于所述阈值、并与语音识别结果（1）处于层次关系，且上位词的提取指标值大于或等于所述阈值、并与语音识别结果（2）处于层次关系，且上位词提取单元125将所述上位词发送至车侧设备10。例如，当语音识别结果（1）为“意大利面”（pasta）而语音识别结果（2）为“披萨”（pizza）时，假定提取例如“意大利”（Italian）这样的上位词。当当语音识别结果（1）为“意大利面”（pasta）而语音识别结果（2）为“拉面”（ramen）时，，假定提取例如“面条”（noodles）这样的上位词。

通过这样的处理，当用户所讲的语音相比地图数据22中随附的设施信息而言过于狭义时，提取一个概念上的上位词（不太可能提取一个共同的下位词），因此，有可能增大用户能从地图数据22中获取设施信息的可能性。

根据上述实施例，为句子数据库110计算特定词在输入的两个词之间出现的次数。并且，基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。因此，有可能正确地判断层次结构中词语之间的关系。

根据本实施例，提取了由用户所讲语音的概念上的上位词，因此，有可能增大用户能从地图数据22中获取设施信息的可能性。

利用实施例描述了用于实施本发明的模式；然而，本发明并不限于这些实施例。可在不偏离本发明范围而通过增加各种改进或替代来实施本发明。

例如，在第一和第二实施例中，处理的主体是服务器设备100；替代性地，所述处理主体也可以设置在车侧。在这种情形中，车辆可通过互联网或类似等访问句子数据库，或将句子数据库保持在车辆中。

类似地，第三实施例的处理可在车侧设备10中完成。在该例中，车侧设备10的CPU11只需要执行等同于指标值计算单元121的功能性单元，关系判断单元122和上位词提取单元125，以及车侧设备10只需保持类似于词数据库112的数据。此外，在该例中，处理主体不需要是车侧设备；相反，任何设备，例如个人计算机、移动电话和其它嵌入式计算机，都可实现等同于指标值计算单元121、关系判断单元122和上位词提取单元125的功能性单元。

在第一和第二实施例中，作为服务器设备100的处理对象的层次数据20无需保持在车辆中；相反，任何设备、例如个人计算机、移动电话和其它嵌入式计算机，都可被设定为对象。计算机可被配置为以内部进程获得层次数据与每个词之间的关系的装置。

在上述实施例中，未描述在利用指标值执行了处理之后对指标值的处理；然而，当指标值被保存时，其可以用于估计用户初始意图执行的处理，并提示操作，例如，当用户进行误操作时。

Claims

1.跨语言相关性判断装置，包括：

第一数据库，其存储有包括多个句子的数据；以及

关系判断单元，其计算在所述第一数据库中一特定词出现在输入的两个词之间的次数，并基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

2.根据权利要求1所述的跨语言相关性判断装置，其中，所述关系判断单元基于以计算出的次数为一假想空间中的坐标值的坐标的位置相对于由支持向量机预先确定的分离超平面而言出现在哪一侧，来判断所述两个词在概念上是否为层次关系或并列关系。

3.根据权利要求1或2所述的跨语言相关性判断装置，进一步包括：用于计算指标值的指标值计算单元，所述指标值表示所述输入的两个词之间的相关率。

4.根据权利要求3所述的跨语言相关性判断装置，进一步包括：

第二数据库，其包括第二词和数据，所述数据从概念上定义了在层次结构中所述第二词之间的关系；以及

排布确定单元，其确定一新输入词在所述第二数据库的层次结构内的排布位置，其中

所述两个词分别是所述新输入词和每个所述第二词，并且

所述排布确定单元基于所述关系判断单元判断的结果、以及所述指标值计算单元计算的指标值的大小，确定所述新输入词在所述第二数据库的层次结构中的排布位置。

5.根据权利要求3或4所述的跨语言相关性判断装置，其中，

所述指标值计算单元将计算出的指标值输出至所述关系判断单元，并且

当通过所述指标值计算单元输入的指标值大于或等于一预定值时，所述关系判断单元作出判断。

6.根据权利要求3所述的跨语言相关性判断装置，进一步包括：

第三数据库，其包括第三词和数据，所述数据从概念上定义了在层次结构中所述第三词之间的关系；以及

命令类比单元，其基于用户输入的新词，确定所述第三词中的任一词为传导给设备的命令，其中

所述两个词分别是由所述用户输入以作为传达给设备的命令的新词和每个第三词，并且

所述命令类比单元确定在概念上与所述新词为并列关系的第三词中具有表示与所述新词具有最强关联度的指标值的第三词为所述传达给设备的命令。

7.根据权利要求1到3所述的跨语言相关性判断装置，进一步包括：

第四数据库，其包括第四词和数据，所述数据从概念上定义了在层次结构中所述第四词之间的关系；以及

上位词提取单元，其基于用户输入的多个新词，确定所述第四词中的任一词为用于获取信息的关键词，其中

所述两个词分别是作为由所述用户输入以作为用于获取信息的关键词的多个新词中的任一词和每个第四词，并且

所述上位词提取单元确定在概念上与所述多个新词具有层次关系的所述第四词中的任一词为用于获取信息的关键词。

8.跨语言相关性判断程序，其用于使计算机执行一种方法，该方法包括：

在存储有包括多个句子的数据的数据库中，计算一特定词出现在输入的两个词之间的次数；并且

基于以计算出的次数为一假想空间中的坐标值的坐标的位置，判断所述两个词在概念上是否为层次关系或并列关系，所述假想空间具有表示所述特定词的出现次数的轴。

9.跨语言相关性判断方法，包括：

10.根据权利要求9所述的跨语言相关性判断方法，其中，基于以计算出的次数为一假想空间中的坐标值的坐标的位置相对于由支持向量机预先确定的分离超平面而言出现在哪一侧，判断所述两个词在概念上是否为层次关系或并列关系。

11.根据权利要求9或10所述的跨语言相关性判断方法，进一步包括：计算指标值，所述指标值表示所述输入的两个词之间的相关率。

12.根据权利要求11所述的跨语言相关性判断方法，进一步包括：

作出判断，并计算一输入新词与包含在一词组中的每个词之间的指标值，所述词组的关系在层次结构中有所定义；并且

基于所述判断的结果以及所述指标值的大小，在层次结构中排布所述新词。

13.根据权利要求11或12所述的跨语言相关性判断方法，其中，当计算出的指标值大于或等于一预定值时，作出所述判断。

14.根据权利要求11所述的跨语言相关性判断方法，进一步包括：

作出判断，并计算由用户输入以作为传达给设备的命令的新词与包含在一词组中的每个词之间的指标值，所述词组的关系在层次结构中有所定义；并且

基于所述判断的结果以及所述指标值的大小，确定与所述新词为并列关系的词中具有表示与所述新词具有最强关联度的指标值的词为所述传达给设备的命令。

15.根据权利要求9到11中任一项所述的跨语言相关性判断方法，进一步包括：

在由用户输入以作为用于获取信息的关键词的多个新词以及包含在一词组中的每个词之间作出判断，所述词组的关系在层次结构中有所定义；并且

当存在与全部多个新词为层次关系的词时，确定存在于上位中的该词为用于获取信息的关键词。

16.非暂态性计算机可读存储介质，其存储有用于使计算机执行一种方法的程序，所述方法包括：