CN103400579A

CN103400579A - 一种语音识别系统和构建方法

Info

Publication number: CN103400579A
Application number: CN201310333827XA
Authority: CN
Inventors: 徐华
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-08-04
Filing date: 2013-08-04
Publication date: 2013-11-20
Anticipated expiration: 2033-08-04
Also published as: US20160171978A1; US9953639B2; CN103400579B; WO2015018241A1

Abstract

本发明公开了一种语音识别系统和构建方法，通过对系统分层的方式，把系统通用的语义识别操作和应用程序特有的语义识别操作分离开，并且通过把应用程序进行分类并抽象出共有功能函数的方式，使得系统能非常高效的查找到匹配语音内容语义的应用程序，并使得第三方程序很容易加入现有的语音识别系统。本发明把功能函数映射到带语义变量的正则表达式，使得随着对语义识别的优化，系统能识别出更多的语义表达方式，从而使得系统能表现出更多的人性化特点。

Description

一种语音识别系统和构建方法

技术领域

本发明涉及语音识别技术领域，具体地说是一种开放语音识别系统及其构建方法。

背景技术

目前公知的语音识别系统都通过在客户端中或云服务器中的语音识别模块对输入语音进行语音识别然后通过预先建立起的语法分析树对语音内容进行语义识别并调用相应的应用程序，比如SIRI，GOOGLE NOW。

上述所说的现有语音识别系统拟建立一个完全能理解人的一般性意图的系统，执行被语义识别出的操作都发生在语音识别系统预先建立起的数据库或者应用程序中。这种方式能较好的控制被语义识别出的操作的作用域并使得语义识别能更加接近人的理解能力。但是系统上存在大量的第三方应用程序，这种在预先建立的数据库或者应用程序中执行被语义识别出的操作的方式使得无法执行针对第三方应用程序的操作。同时用户关注的网站千差万别，因为数据源的不同对同一搜索请求给出的结果也千差万别。同时第三方的程序要加入语音识别功能，都需要加入简单的语音识别模块或者运用第三方的云语音开发库，并上传正则表达式和绑定到正则表达式的操作到语义识别库。这种方式使得第三方的语义识别库无法被其他程序发现，并且操作只能发生在第三方的应用程序或数据库中。

发明内容

本发明的目的是提供一种语音识别系统及其构建方法，使得现有的语音识别系统能无缝的应用到用户客户端现有的应用程序的执行上，同时使得语义识别带有更多的个性化特征，能根据用户的偏好，设置被语义识别出的操作的作用域，同时第三方应用程序的语义识别库可以被其他的应用程序发现并且接收来自其他应用程序的操作请求。

为解决上述技术问题，本发明采用的技术方案为：

一种语音识别系统，包括语音识别模块，还包括：

根节点，存储有带语义变量的正则表达式，执行查找和打开存储在系统中的文件或应用程序的操作；

类节点，存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式，并把这些正则表达式映射到一个公开函数集中；

应用程序节点，属于某个类节点并且继承了所属类节点的公开函数集的应用程序；

应用程序内部节点，存储了应用于应用程序内部的正则表达式以及所对应的函数调用；

注册中心，用以存储安装在系统中的应用程序信息并建立一个多叉树结构的语音识别系统结构图。

作为优选项，应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用。

根节点的正则表达式对应的操作主要是用于查找或打开文件和应用程序或者调用系统自带的独有应用程序的服务（比如电话应用程序，短信发送应用程序）。类节点主要是用于定位目标应用程序所在的类，以便于更快的找到执行被语义识别出的操作的应用程序节点所在的位置。当类节点无法识别出语音内容的语义时，会交给全部的应用程序节点进行语义识别。为了安全性考虑，来自根节点的语音内容将不会传送给应用程序的内部节点。

正则表达式的匹配变量是语义变量，主要是判断所给出的变量是否属于规定的语义范围。其中语义变量规定的语义范围可以来源自公共常识，也可以是安装在系统上的应用程序的名称集合。如果语义范围比较小也可以用枚举的方式给出。本发明通过正则表达式构建语法分析树完成对输入语音内容的语义识别，每个带语义变量的正则表达式都对应到某个函数调用。这种方式在确定了一种可以被正确解析的语法结构以后，随着语义识别数据库的更新会加入多种表述方式。这些新加入的表述方式所对应的正则表达式会映射到相同的函数调用，从而建立了更加人性化的语义识别库，也有利于提高语音识别的准确率。为了防止应用程序的函数名和类节点的函数名冲突，应用程序特有的函数名将不得使用类节点的公开函数名命名。

这里所说的带语义变量的正则表达式也包括不带变量的正则表达式，这种表达式可以看成语义变量为空值的正则表达式。

上述语音识别系统的构建方法，包括如下步骤：

S01：应用程序提交信息到注册中心；

S02：系统接收用户的语音输入，语音识别模块把语音内容转化为文本形式；

S03：系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配，如果匹配就执行相应的函数调用，否则执行下一步；

S04：语音内容被传递给类节点，如果语音内容和所有类节点的带语义变量的正则表达式不匹配，则执行步骤S05，否则执行步骤S07；

S05：语音内容被传递给所有应用程序节点进行语义识别，如果输入的语音内容和所述应用程序节点的正则表达式匹配，系统就执行步骤S07，如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S06；

S06：系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索；

S07：系统选择将被调用的应用程序，并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中；

S08：系统启动所选应用程序，应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量，如果存在，应用程序将从私有目录中加载函数和变量，并进行相应函数的调用，否则加载默认初始页。

为了方便使用绑定到账户上的服务可以让用户事先输入应用程序的账户名和密码。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面，以便把调用的结果返回给用户。

作为优选项，步骤S01中提交的信息包括应用程序的名称和标识符，应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。

作为优选项，步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级，如果匹配语音内容的所述类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用，优先级高的应用程序节点会被选择执行调用。

根据用户设置，在匹配语音内容的类节点的正则表达式没有指定某个应用程序节点执行函数调用的情况下，也可以选择类节点下的所有应用程序节点执行正则表达式对应的函数调用并把结果归总到一个页面里。这种情况下应用程序将只会把函数调用的结果返回给系统，系统把所有结果归总到一个页面，并不会返回到应用程序事先设定的页面里。

作为优选项，步骤S07中系统为所选应用程序所建的私有目录，只有所选应用程序和系统可以往私有目录写入数据，同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。同时用户输入的账户名和密码也保存在私有目录中。应用程序的标识符将标志出私有目录所在的位置，因为启动程序和私有目录在同一个系统目录中，私有目录的名字可以让系统根据应用程序名称自动生成。写入私有目录的数据可以以XML格式保存，以便于应用程序访问。

作为优选项，步骤S08中进入应用程序以后，系统处理用户的语音输入包括以下步骤，

S0801：系统接收用户的语音输入，语音识别模块把语音内容转化为文本形式；

S0802：系统验证输入的语音内容是否和应用程序内部节点的正则表达式匹配，如果匹配就执行相应的函数调用，否则执行下一步；

S0803：语音内容被传递给所选的应用程序节点，如果语音内容和应用程序节点的正则表达式匹配就执行相应的函数调用，否则执行下一步；

S0804：语音内容被传递给所选应用程序节点的类节点，如果语音内容和类节点的正则表达式匹配就执行步骤S0810，否则执行下一步；

S0805：语音内容被传递给所选应用程序节点的兄弟节点，如果语音内容和所选应用程序节点的兄弟节点匹配就执行步骤S0810，否则执行下一步；

S0806：语音内容被传递给根节点，系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配，如果匹配就切换到系统主界面并执行相应的函数调用，否则执行下一步；

S0807：语音内容被传递给类节点，如果语音内容和所有类节点的带语义变量的正则表达式不匹配，则执行步骤S0808,否则执行步骤S0810；

S0808：语音内容被传递给所有应用程序节点进行语义识别，如果输入的语音内容和所述应用程序节点的正则表达式匹配，系统就执行步骤S0810，如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S0809；

S0809：系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索；

S0810：系统选择将被调用的应用程序，并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中；

S0811：系统启动所选应用程序，应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量，如果存在，应用程序将从私有目录中加载函数和变量，并进行相应函数的调用，否则加载默认初始页。

本发明的有益效果在于：

本发明通过需要应用语音操作的应用程序向注册中心提交的信息完成语音识别系统的语义识别模块的构建。通过基于多叉树结构的语义识别模块的构建，使得系统能很快定位所需的应用程序所在的位置，并使得第三方应用程序很容易就能加入现有的语音识别系统中。通过带语义变量的正则表达式来完成对输入语音内容的语义识别，并通过把更多的语言表达方式所对应的正则表达式映射到同一函数调用的方式使得系统能识别更加人性化的语音内容。通过把应用程序的函数和变量写入应用程序私有目录的方式，使得应用程序在语音识别系统进行语义识别时不占用系统的线程，从而提升了整个系统的性能，同时防止用户输入的语音内容被别的线程窃听到。并通过对应用程序节点的优先级的设置，语音识别系统将为用户提供个性化的服务。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明在注册中心所建立的系统的结构图。

图2为本发明处理语音输入的流程图。

图3为典型的购物类应用程序执行商品价格查询功能的示意图。

具体实施方式

当某个第三方应用程序需要加入现有的语音识别系统中时，它首先需要提交以下的信息给语音识别系统的注册中心(S01)：应用程序的名称和标识符、应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。注册中心是由根节点、类节点、应用程序节点和应用程序内部节点构成的多叉树（图1）。根节点存储有带语义变量的正则表达式，执行查找和打开存储在系统中的文件或应用程序的操作；类节点存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式，并把这些正则表达式映射到一个公开函数集中；应用程序节点是属于某个类节点并且继承了所属类节点的公开函数集的应用程序；应用程序内部节点存储了应用于应用程序内部的正则表达式以及所对应的函数调用。只有进入应用程序，才能运用应用程序内部节点的正则表达式匹配语音内容。

根据应用程序提交到注册中心的信息，新加入的应用程序加入到所归属类节点的下面的应用程序节点中。同时应用程序节点特有的带语义变量的正则表达式以及对应的函数调用也被写入对应的应用程序节点中。应用程序内部节点则被加入应用程序节点的下面，里面存储有应用于应用程序内部的特有的带语义变量的正则表达式以及对应的函数调用。

当系统接收了用户的语音输入，语音输入首先会被语音识别模块转变为文本格式(S02)。系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配(S03)，如果匹配就执行相应的函数调用。否则语音内容被传递给类节点(S04)，如果语音内容和所有类节点的带语义变量的正则表达式不匹配，则把语音内容传递给所有应用程序节点进行解析(S05)。如果语音内容和某个应用程序节点的正则表达式匹配，系统就把对应匹配正则表达式的函数调用写入系统为应用程序保留的私有目录中（S07)，并启动所匹配的应用程序。如果语音内容和类节点的正则表达式完全匹配并且没有指定处于类节点下的某个应用程序节点执行函数调用，系统选择类节点下的随机一个应用程序节点并把匹配正则表达式所对应的函数和变量写入所选择的应用程序的私有目录中(S07)。作为优选，用户可以设置属于类节点下的应用程序节点的优先级。在应用程序节点都拥有同样的几率被类节点选择执行对应正则表达式的函数调用的情况下，优先级高的应用程序将被系统调用。最后，如果所有类节点下的应用程序节点的正则表达式都和语音内容不匹配则语音内容被丢弃或者发送给公共搜索引擎进行更大范围的搜索（S06）。

系统启动所选的应用程序，应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量，如果存在，应用程序将从私有目录中加载函数和变量，并进行相应函数的调用，否则加载默认初始页(S08)。为了方便访问绑定到账户上的服务信息可以让用户事先输入应用程序的账户名和密码并且把这些信息保存在系统为应用程序设置的私有目录里。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面，以便把调用的结果返回给用户，并引导用户到应用程序内部节点上。

当启动应用程序以后，系统处理语音内容时，首先会把语音内容和应用程序内部节点的正则表达式进行匹配，如果匹配就执行相应的函数调用。如果不匹配，就把语音内容传递给所选的应用程序节点。同样的，如果匹配就进行相应的函数调用。如果不匹配，语音内容被传递给所选应用程序节点的类节点，如果语音内容和类节点的正则表达式匹配就把函数和变量写入所选应用程序的私有目录并启动应用程序。如果不匹配语音内容就被传送给所选应用程序节点的兄弟节点并启动应用程序，如果语音内容和兄弟节点的正则表达式匹配就把函数和变量写入所选兄弟节点的私有目录中。如果还是不匹配就把语音内容传递给根节点，如果和根节点的的正则表达式匹配，系统就切换到主界面并执行相应的函数调用。之后的步骤和前面的情形相同，只是语音内容不会被传递给所在应用程序内部节点的类节点进行解析。这里可以有个技巧，如果语音内容能被所在应用程序内部节点的类节点识别出，并且识别出的变量没有指定应用程序节点，则把当前的应用程序作为默认的函数调用的作用域。

下面用一个属于购物类的应用程序作进一步说明，如图3所示。当输入的语音内容和类的正则表达式匹配后，会根据保存在X和Y里的变量调用相应的应用程序并把函数名和变量写入应用程序的私有目录里。然后通过应用程序X提交的标识符找到应用程序的启动程序。应用程序读取私有目录中的函数名和变量并执行相应的函数调用。当然有些正则表达式会带有多个变量，只要限定每个变量的语义范围并把带变量的正则表达式映射到相应的函数调用中就能实现本发明所述的方法。

上面阐述的思想是运用到IOS或安卓等移动设备的，但是也适用于网页的搜索和智能家庭语音管理。在用于网页搜索时，可以为网页的语义识别端单独建立一个模块，当输入的语音内容和正则表达式匹配后再调用网页的相关操作，并且能把多个同类网站的函数调用结果汇总到一个页面中。智能家庭语音管理则可以让设备在不工作时都处于休眠期，当确认相关设备能完成用户要求的操作时才启动设备。本发明能使得新设备和新网站能很简便的加入现有的语音识别系统中。

如果设备对语音的识别和解析能力有限可以把注册中心放到云服务器中。应用程序的标识符将表示应用程序启动项的URL地址。

本发明通过对系统分层的方式，把系统通用的语义识别操作和应用程序特有的语义识别操作分离开，并且通过把应用程序按照功能分类并抽象出共有功能函数的方式，使得系统能非常高效的查找到和语音内容匹配的应用程序，并使得第三方程序很容易加入现有的语音系统。本发明把功能函数映射到带语义变量的正则表达式，使得随着对语义识别的优化，系统能识别出更多的语义表达方式，从而使得系统能表现出更多的人性化特点。

本发明通过把被识别出的函数调用加入系统为应用程序建立的私有目录的方式，使得应用程序在语音识别系统进行语义识别时不会占用系统的资源。同时可以防止用户输入的语音内容被别的线程窃听到。

以上公开的仅为本专利的具体实施例，但本专利并非局限于此，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，做出的变形应视为属于本发明保护范围。

Claims

1.一种语音识别系统，包括语音识别模块，其特征在于：还包括：

2.根据权利要求1所述的语音识别系统，其特征在于：所述应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用。

3.一种基于权利要求1所述的语音识别系统的构建方法，其特征在于：包括如下步骤，

S01：应用程序提交信息到注册中心；

4.根据权利要求3所述的语音识别系统的构建方法，其特征在于：步骤S01中提交的信息包括应用程序的名称和标识符，应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。

5.根据权利要求3所述的语音识别系统的构建方法，其特征在于：步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级，如果和语音内容匹配的类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用，优先级高的所述应用程序节点会被选择执行调用。

6.根据权利要求3所述的语音识别系统的构建方法，其特征在于：步骤S07中系统为所选应用程序所建的私有目录，只有所选应用程序和系统可以往私有目录写入数据，同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。

7.根据权利要求3所述的语音识别系统的构建方法，其特征在于：步骤S08中进入应用程序以后，系统处理用户的语音输入包括以下步骤，

S0806：语音内容被传递给根节点，系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配，如果匹配就执行相应的函数调用，否则执行下一步；