CN104766606A

CN104766606A - 将自然语言翻译成指令的方法、装置及其导航应用

Info

Publication number: CN104766606A
Application number: CN201510131996.4A
Authority: CN
Inventors: 黄修源; 江汛洋
Original assignee: SHANGHAI XIUYUAN NETWORK TECHNOLOGY Co Ltd
Current assignee: SHANGHAI XIUYUAN NETWORK TECHNOLOGY Co Ltd
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2015-07-08
Anticipated expiration: 2035-03-24
Also published as: CN104766606B

Abstract

本发明公开了一种将自然语言翻译成指令的方法、装置及其导航应用，属于语音识别技术领域。该方法包括：录入语句，标注其指令分类；对语句进行分词；计算所有分词的第一概率，将分词、第一概率、分词在语句中的次序存储到第一数据表中；计算所有分词的第二概率，将分词、第二概率、指令分类存储到第二数据表中；计算每条相似学习语句与猜测语句的第一匹配度，判定第一匹配度最高的学习语句与猜测语句最相似；计算所有相似指令分类与猜测语句的第二匹配度，判定第二匹配度最高的指令分类为猜测语句的指令分类。通过本发明可以更加精确、快速将自然语言翻译成机器可读指令且可扩展性好。

Description

将自然语言翻译成指令的方法、装置及其导航应用

技术领域

本发明涉及语音识别技术领域，具体涉及一种将自然语言翻译成指令的方法、装置及其导航应用。

背景技术

语言识别技术，也被称为自动语言识别Automatic Speech Recognition，(ASR)，其目标是将人类语言中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。近二十年来，语言识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语言识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。特别是近年来互联网科技的迅猛发展使智能家居、智能硬件、智能手机、智能汽车等各个行业趋向智能化，语言识别技术作为个人与机器之间的交流互动的桥梁，成为智能技术领域发展的重要的工具。

申请号为201310611734.9、发明名称为《语音导航方法及系统》的中国发明专利申请公开了一种语音导航方法及系统，综合多种不同类型解码网络的优势，包括大规模语言模型解码网络、命令词解码网络、高频解码网络，通过对用户输入的语音信号采用基于多种不同类型解码网络进行统一解码识别，得到文本词串及对应的操作，从而能够对用户的个性化语音响应进行识别。

申请号为200510038931.1、发明名称为《地理信息的语音识别方法及其在导航系统中的应用》的中国发明专利公开了一种地理信息的语音识别方法，在现有语音识别方法的基础上，增加语言获取和语言匹配两个步骤，将识别后的随机带噪字符串转换为拼音字符串，语言的匹配是从现有的地理信息数据库中取出地理信息字符串转换为拼音字符串，与带噪拼音字符串匹配。

将自然语言翻译成机器可执行指令是语音识别技术在实际应用当中的一个重要组成部分。现在将自然语言翻译成机器可执行指令主要有两方面的尝试，第一种尝试是基于语言学分析自然语句的词性、句法，从而生成指令；另一种是使用建立概率模型，来求解与自然语言最相近的指令。前者操作过于复杂、同等计算资源下计算时间长，而现有技术中第二种尝试方法可扩展性差。

发明内容

本发明的发明目的是提供一种将自然语言翻译成机器可读指令的方法和装置及其在智能汽车导航的应用，解决现有技术中将自然语言翻译成机器可执行指令方法中存在的上述缺陷，提高识别准确率并增强识别范围可扩展性。

为了解决上述技术问题，本发明采用的技术方案如下：

一种将自然语言翻译成机器可读指令的方法，包括以下步骤：

创建学习模块数据库，录入语句，标注语句所属指令分类；

基于人工录入字典，对语句进行分词；

将需翻译语句N称为猜测语句，所述学习模块数据库中已录入语句称为学习语句，计算所有分词的第一概率BP1，将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表中，其中所述第一概率为N与学习语句相似的概率；

计算所有分词的第二概率BP2，将所述分词、所述第二概率、所述指令分类存储到第二数据表中，其中所述第二概率为N与指令分类相似的概率；

对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似；

对所述猜测语句进行分词，根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类。

进一步的，所述计算每条学习语句与所述猜测语句的第一匹配度的公式为：

\begin{matrix} PNS 1 = R 1 * ΣBPST 1 + R 2 * Σ \frac{1}{\log_{R 3} (| ONT 1 - OST 1 | + R 4)} - R 5 \\ * | SumST 1 - SumNST 1 | \end{matrix}

其中，

N为所述猜测语句即需要翻译的语句，N＝{T1，T2，T3，…，Tn}(Ti为分词)；

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度。

进一步的，所述计算所有指令分类与所述猜测语句的第二匹配度的公式为:

PLKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

R1为常数；

BPKTi为分词Ti出现在N中时，N为指令分类Ki的可能性；

PNKi为猜测语句与指令分类Ki的匹配度。

进一步的，所述对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似的步骤中，具体包括以下步骤：

对所述猜测语句进行分词；

根据所述分词，在所述第一数据表中获取所有相似的学习语句，如果用户指定所述猜测语句的指令分类，则仅分析所述指定指令分类下的学习语句；

计算所述获取的每条学习语句与所述猜测语句的第一匹配度；

设置第一阈值，过滤掉匹配度低于所述第一阈值的所述学习语句；

如果有符合条件的学习语句，则判定第一匹配度最高的学习语句与当前所述猜测语句最相似；

如果所述学习语句有关键词，则根据所述学习语句中关键词位置取得所述猜测语句中的所述关键词；

如果无符合条件的学习语句，则计算所述猜测语句的相似指令分类。

进一步的，所述对所述猜测语句进行分词，根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类的步骤中，具体包括以下步骤：

根据所述分词，在所述第二数据表中获取所有相似的指令分类，如果用户指定所述猜测语句的指令分类，则仅分析所述指定的指令分类；

计算所获取的指令分类与所述猜测语句的第二匹配度；

设置第二阈值，过滤掉所述第二匹配度低于所述第二阈值的指令分类；

如果有符合条件的指令分类，则判定所述猜测语句属于该指令分类；

如果无符合条件的学习语句和指令分类，则判定所述猜测语句无效。

进一步的，所述方法还包括区域加工步骤，根据匹配结果的指令分类，将第一识别结果放入相应的区域进行加工获得第二识别结果，进行对应的操作。

进一步的，所述方法还包括对所述猜测语句进行词语错误校正的步骤。

本发明还提供了一种将自然语言翻译成机器可读指令的装置，包括学习模块和编码模块，所述学习模块对学习语句进行分析，即基于人工录入字典对所述学习语句进行分词，分别计算所有分词的第一概率和第二概率，分别将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表中，所述分词、所述第二概率、所述指令分类存储到第二数据表中，其中所述学习模块数据库标注所述学习语句的指令分类；

所述编码模块将输入的当前需要翻译的自然语言即所述猜测语句转换成机器可识别指令获得第一识别结果，其中，所述编码模块进一步包括匹配相似句子模块和匹配相似分类模块，所述匹配相似句子模块对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似，所述匹配相似分类模块根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类。

进一步的，所述计算每条学习语句与所述猜测语句的第一匹配度和计算所有指令分类与所述猜测语句的第二匹配度的公式为：

\begin{matrix} PNS 1 = R 1 * ΣBPST 1 + R 2 * Σ \frac{1}{\log_{R 3} (| ONT 1 - OST 1 | + R 4)} - R 5 \\ * | SumST 1 - SumNST 1 | \end{matrix}

PLKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

BPKTi为分词Ti出现在N中时，N为指令操作分类Ki的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度；

PNKi为猜测语句与指令分类Ki的匹配度。

本发明还提供了将上面所述任一的将自然语言翻译成机器可读指令的方法或装置应用。

本发明公开了一种将自然语言翻译成机器可读指令的装置和方法及其应用，通过使用贝叶斯算法求解当前需要翻译的猜测语句的分词与学习语句的相关度、分词与指令分类的相关度，并综合考虑词汇顺序来计算分词与学习语句或指令分类的匹配度，获得更加精确、快速的识别自然语句的识别结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例一的将自然语言翻译成机器可读指令的方法流程图；

图2示出了根据本发明实施例二的将自然语言翻译成机器可读指令的装置结构示意图；

图3示出了根据本发明实施例三的将自然语言翻译成机器可读指令的方法或装置应用示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

首先对本发明实施例中用到的一些术语进行说明。本发明实施例中提到的“kitt”是一种用于将自然语言翻译成机器执行指令的系统，“指令分类”是指所有执行指令集合分为有限个分类，机器根据不同的分类实现不同的操作，指令分类既是指代这些分类，“机器可识别指令”的内容包括指令分类、关键词。

实施例一、一种将自然语言翻译成机器可读指令的方法。

图1为本发明实施例一的将自然语言翻译成机器可读指令的方法流程图，本发明实施例将结合图1进行具体说明。

如图1所示，本发明实施例提供了一种将自然语言翻译成机器可读指令的方法，包括以下步骤：

步骤S101：创建学习模块数据库，录入语句，标注语句所属指令分类；

具体的，人工录入语句，并标注语句所属分类，如果语句有关键词，则进一步标注关键词。学习模块对已录入语句，在本发明实施例中称为学习语句，进行分析，编码模块将利用学习模块得到的第一识别结果将自然语言翻译成机器可识别指令，进行相应的操作。

步骤S102：基于人工录入字典，对语句进行分词；

具体的，学习模块对语句使用最大概率法进行分词。当然，这里虽然只举例了最大概率法，但本发明实施例的实现并不限于最大概率法，只要是可以实现分词的方法均可以，并不影响本发明实施例的实现。

步骤S103：计算所有分词的第一概率BP1，将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表中，其中所述第一概率为N与学习语句相似的概率；

具体的，使用贝叶斯算法计算出所有分词的第一概率，在本发明实施例中，对于当前需要翻译的语句即猜测语句N，当该分词出现在N中时，N为该学习语句的概率。将分词、第一概率、分词在学习语句中的次序一并存储到第一数据表中也即“句子分词”数据表中。

步骤S104：计算所有分词的第二概率BP2，将所述分词、所述第二概率、所述指令分类存储到第二数据表中，其中所述第二概率为N与指令分类相似的概率；

具体的，再次使用贝叶斯算法计算出所有分词的第二概率，在本发明实施例中，当该分词出现在当前需要翻译的语句即猜测语句N中时，N属于某指令分类的概率。将分词、第二概率、指令分类存储在第二数据表中也即“分类分词“数据表中。

步骤S105：对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似；

具体的，本发明实施例中优选的，所述计算每条学习语句与所述猜测语句的第一匹配度的公式为：

\begin{matrix} PNS 1 = R 1 * ΣBPST 1 + R 2 * Σ \frac{1}{\log_{R 3} (| ONT 1 - OST 1 | + R 4)} - R 5 \\ * | SumST 1 - SumNST 1 | \end{matrix}

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度。

本发明实施例中优选的，所述对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似的步骤中，具体包括以下步骤：

对所述猜测语句进行分词；

根据所述分词，在所述第一数据表中获取所有相似的学习语句，如果用户指定所述猜测语句的指令分类(即指定范围内的分类)，则仅分析所述指定指令分类下的学习语句；

步骤S106：根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类。

具体的，本发明实施例中优选的，所述计算所有指令分类与所述猜测语句的第二匹配度的公式为:

PLKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

R1为常数；

BPKTi为分词Ti出现在N中时，N为指令操作分类Ki的可能性；

PNKi为猜测语句与指令分类Ki的匹配度。

本发明实施例中优选的，所述R(包括R1、R2、R3、R4、R5)常数的取值根据学习模块数据库中学习语句间的相近程度，和权衡各因素对匹配度计算的影响度。通过经验判断与不断实践，综合考虑匹配度取值范围和估算匹配度的密度函数(等同于离散事件中的概率)来确定，调节出阈值。

本发明实施例中优选的，所述对所述猜测语句进行分词，根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类的步骤中，具体包括以下步骤：

计算所获取的指令分类与所述猜测语句的第二匹配度；

本发明实施例中优选的，所述方法还包括区域加工步骤，根据匹配结果的指令分类，将第一识别结果放入相应的区域进行加工获得第二识别结果，进行对应的操作。具体的，例如所述第一识别结果为“播放周杰伦的歌”指令，所述区域加工模块将搜素周杰伦的歌，并将歌曲信息补充到指令中，而如果所述第一识别结果为““kitt，麻烦你告诉我如果要去浦东怎么走才能到达”无需进行加工，则跳过所述区域加工模块。

在这里具体举例说明一些在智能汽车导航应用中的常见指令分类，如音乐播放、导航、调节空调等等。

本发明实施例中优选的，所述方法还包括对所述猜测语句进行词语错误校正的步骤。在对所述猜测语句进行翻译之前，对N进行去口语化、词语错误校正，具体的校正方法为，使用预定义错误词汇表将错误词汇替换成正确词汇。在所述预定错误词汇表中录入常见错字，例如：“播放”错写成“波放”。

实施例二、一种将自然语言翻译成机器可读指令的装置。

图2为本发明实施例二的将自然语言翻译成机器可读指令的装置结构示意图，下面的实施例将结合图2进行具体说明。

如图2所示，本发明实施例提供了一种将自然语言翻译成机器可读指令的装置200，包括学习模块201和编码模块202，所述学习模块201对语句进行分析，即创建学习模块数据库，录入语句，标注语句所属指令分类，基于人工录入字典对语句进行分词，将需翻译语句N称为猜测语句，所述学习模块数据库中已录入语句称为学习语句，分别计算所有分词的第一概率BP1和第二概率BP2，分别将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表2011中，所述分词、所述第二概率、所述指令分类存储到第二数据表2012中，其中所述第一概率为N与学习语句相似的概率，所述第二概率为N与指令分类相似的概率；

所述编码模块202将输入的当前需要翻译的自然语言即所述猜测语句转换成机器可识别指令获得第一识别结果，其中，所述编码模块202进一步包括匹配相似句子模块2021和匹配相似分类模块2022，所述匹配相似句子模块2021对猜测语句进行分词，根据所述分词在所述第一数据表2011中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似；所述匹配相似分类模块2022根据所述分词在所述第二数据表2012中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类。

本发明实施例中优选的，所述计算每条学习语句与所述猜测语句的第一匹配度和计算所有指令分类与所述猜测语句的第二匹配度的公式为：

\begin{matrix} PNS 1 = R 1 * ΣBPST 1 + R 2 * Σ \frac{1}{\log_{R 3} (| ONT 1 - OST 1 | + R 4)} - R 5 \\ * | SumST 1 - SumNST 1 | \end{matrix}

PLKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

BPKTi为分词Ti出现在N中时，N为指令操作分类Ki的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度；

PNKi为猜测语句与指令分类Ki的匹配度。

本发明实施例中优选的，所述将自然语言翻译成机器可读指令的装置200可进一步包括将输出的第一识别结果进一步加工的区域加工模块203。根据第一识别结果的分类，将其放入相对应的区域进行加工，获取更丰富的内容，譬如第一识别结果为“播放周杰伦的歌”指令，所述区域加工模块将搜素周杰伦的歌，并将歌曲信息补充到指令中。

本发明实施例中优选的，所述将自然语言翻译成机器可读指令的装置200还包括学习模块数据库(图中未示出)，所述学习模块数据库可以是一个单独模块或者包含在所述学习模块201的数据库中。所述学习模块数据库通过录入学习语句，标注所述学习语句的指令分类，如果语句有关键词，则进一步标注关键词。基于所述人工录入字典，对所述学习语句进行分词。

本发明实施例中优选的，使用贝叶斯算法计算所有分词的第一概率和/或第二概率，具体实施方式如本发明实施例一所述方法所述，在此不再赘述。

本发明实施例中优选的，所述匹配相似句子模块2021对猜测语句进行分词，根据所述分词在所述第一数据表2011中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似，具体包括以下单元和操作：

分词单元，适用于对所述猜测语句进行分词；

分析单元，适用于根据所述分词，在所述第一数据表中获取所有相似的学习语句，如果用户指定所述猜测语句的指令分类(即指定范围内的分类)，则仅分析所述指定指令分类下的学习语句；

第一匹配度计算单元，适用于计算所述获取的每条学习语句与所述猜测语句的第一匹配度；

第一过滤单元，适用于设置第一阈值，过滤掉匹配度低于所述第一阈值的所述学习语句；

判断单元，适用于如果有符合条件的学习语句，则判定第一匹配度最高的学习语句与当前所述猜测语句最相似；

关键词单元，适用于如果所述学习语句有关键词，则根据所述学习语句中关键词位置取得所述猜测语句中的所述关键词；

本发明实施例中优选的，所述匹配相似分类模块2022根据所述分词在所述第二数据表2012中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类，具体包括以下单元和操作：

分词单元，适用于对所述猜测语句进行分词；

分析单元，适用于根据所述分词，在所述第二数据表中获取所有相似的指令分类，如果用户指定所述猜测语句的指令分类，则仅分析所述指定的指令分类；

第二匹配度单元，适用于计算所获取的指令分类与所述猜测语句的第二匹配度；

第二阈值过滤单元，适用于设置第二阈值，过滤掉所述第二匹配度低于所述第二阈值的指令分类；

判定单元，适用于如果有符合条件的指令分类，则判定所述猜测语句属于该指令分类；

实施例三、一种将自然语言翻译成机器可读指令的方法或装置应用。

图3为本发明实施例三的将自然语言翻译成机器可读指令的方法或装置应用示意图，下面的实施例将结合图3进行具体说明。

如图3所示，一种将自然语言翻译成机器可读指令的方法或装置应用，主要是在智能汽车导航中的应用，以让所述将自然语言翻译成机器可读指令的装置kitt将当前需要翻译的猜测语句“kitt，麻烦你告诉我如果要去浦东怎么走才能到达”为例，其中，kitt可以学习日常使用的自然语句，然后基于这些语句翻译更多的自然语句。

本发明实施例中通过学习“告诉我去徐家汇怎么走”，最终翻译“kitt，麻烦你告诉我如果要去浦东怎么走才能到达”。在现实使用中，kitt将学习更多与“告诉我去徐家汇怎么走”类似的语句，以便能识别更多关于导航的用户自然语言指令。

包括以下步骤：

步骤S301：将学习语句“告诉我去徐家汇怎么走”(以下称S)录入学习模块数据库中，标注该学习语句的指令分类，且标记S中关键词“徐家汇”。

步骤S302：学习模块计算分词的第一概率，将分词、第一概率、分词在学习语句中的次序存储到第一数据表中。

学习模块对该语句进行分词(学习模块数据库中所有语句也将进行分词)，并结合学习模块数据库中所有已经存在语句使用贝叶斯算法计算，得出当需要翻译的语句(以下称N)中出现S中任意分词Ti时，该语句N与S为同种类型语句的概率。

步骤S303：学习模块计算分词的第二概率，将分词、第二概率、指令分类存储在第二数据表中。

学习模块再次使用贝叶斯算法计算N中出现学习模块数据库中某分词Ti时，N属于某指令分类的概率。

步骤S304：利用编码模块，将当前需要翻译的猜测语句“kitt，麻烦你告诉我如果要去浦东怎么走才能到达”转换成机器可识别指令，获得第一识别结果。

具体的，访问api：http://xxx.com/guess？sentence＝kitt，kitt，麻烦你告诉我如果要去浦东怎么走才能到达

得到结果：

步骤S305：根据第一识别结果的分类，将其放入相对应的区域进行加工，语句“kitt，麻烦你告诉我如果要去浦东怎么走才能到达”无需进行加工，则跳过区域加工模块。

本发明实施例中其他模块和操作如实施例一和实施例二中所述，在此不再赘述。

本发明可以带来这些有益的技术效果：本发明实施例公开的将自然语言翻译成机器可读指令的方法或装置及其应用，通过使用最大概率法对自然语言分词、贝叶斯算法得到分词与学习语句的相关度、分词与指令分类的相关度，并综合考虑词汇顺序计算分词与学习语句、指令分类的匹配度，并使用创新的匹配度的计算方法，更加精确、迅速将自然语句翻译成机器可识别的操作指令，并且克服了现有的方法可扩展性差的缺陷。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种将自然语言翻译成机器可读指令的方法，其特征在于，包括以下步骤：

创建学习模块数据库，录入语句，标注语句所属指令分类；

基于人工录入字典，对语句进行分词；

将需翻译语句N称为猜测语句，所述学习模块数据库中已录入语句称为学习语句，

计算所有分词的第一概率BP1，将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表中，其中所述第一概率为N与学习语句相似的概率；

2.根据权利要求1所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述计算每条学习语句与所述猜测语句的第一匹配度的公式为：

\begin{matrix} PNSi = R 1 * ΣBPSTi + R 2 * Σ \frac{1}{\log_{R 3} (| ONTi - OSTi | + R 4)} - R 5 \\ * | SumSTi - SumNSTi | \end{matrix}

其中，

NN为所述猜测语句即需要翻译的语句，NN＝{T1，T2，T3，…，Tn}(Ti为分词)；

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度。

3.根据权利要求1或2所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述计算所有指令分类与所述猜测语句的第二匹配度的公式为:

PLKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

R1为常数；

BPKTi为分词Ti出现在N中时，N为指令操作分类Ki的可能性；

PNKi为猜测语句与指令分类Ki的匹配度。

4.根据权利要求3所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述对猜测语句进行分词，根据所述分词在所述第一数据表中获取所有相似的学习语句，计算每条学习语句与所述猜测语句的第一匹配度，判定第一匹配度最高的学习语句与所述猜测语句最相似的步骤中，具体包括以下步骤：

对所述猜测语句进行分词；

5.根据权利要求4所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述对所述猜测语句进行分词，根据所述分词在所述第二数据表中获取所有相似的指令分类，计算所有指令分类与所述猜测语句的第二匹配度，判定第二匹配度最高的指令分类为所述猜测语句的指令分类的步骤中，具体包括以下步骤：

计算所获取的指令分类与所述猜测语句的第二匹配度；

6.根据权利要求1所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述方法还包括区域加工步骤，根据匹配结果的指令分类，将第一识别结果放入相应的区域进行加工获得第二识别结果，进行对应的操作。

7.根据权利要求1所述的将自然语言翻译成机器可读指令的方法，其特征在于：所述方法还包括对所述猜测语句进行词语错误校正的步骤。

8.一种将自然语言翻译成机器可读指令的装置，包括学习模块和编码模块，其特征在于：所述学习模块对语句进行分析，即创建学习模块数据库，录入语句，标注语句所属指令分类，基于人工录入字典对语句进行分词，将需翻译语句N称为猜测语句，所述学习模块数据库中已录入语句称为学习语句，分别计算所有分词的第一概率BP1和第二概率BP2，分别将所述分词、所述第一概率、所述分词在所述语句中的次序存储到第一数据表中，所述分词、所述第二概率、所述指令分类存储到第二数据表中，其中所述所述第一概率为N与学习语句相似的概率，所述第二概率为N与指令分类相似的概率；

9.根据权利要求8所述的将自然语言翻译成机器可读指令的装置，其特征在于：所述计算每条学习语句与所述猜测语句的第一匹配度和计算所有指令分类与所述猜测语句的第二匹配度的公式为：

\begin{matrix} PNSi = R 1 * ΣBPSTi + R 2 * Σ \frac{1}{\log_{R 3} (| ONTi - OSTi | + R 4)} - R 5 \\ * | SumSTi - SumNSTi | \end{matrix}

PNKi＝R1*ΣBPKTi

其中，

第i条学习语句为Si；

第i个指令分类为Ki；

Ri(i＝1,2,3,4,5)为常数；

BPSTi为分词Ti出现在N中时，N与Si相等的可能性；

BPKTi为分词Ti出现在N中时，N为指令操作分类Ki的可能性；

ONTi为分词Ti在N中的排列顺序；

OSTi为分词Ti在Si中的排列顺序；

SumNSTi为猜测语句与学习语句Si相等的分词总量；

SumSTi为学习语句的分词总量；

PNSi为猜测语句与学习语句Si的匹配度；

PNKi为猜测语句与指令分类Ki的匹配度。

10.将权利要求1至9任一所述的将自然语言翻译成机器可读指令的方法或装置应用。