CN103400579B - 一种语音识别系统和构建方法 - Google Patents
一种语音识别系统和构建方法 Download PDFInfo
- Publication number
- CN103400579B CN103400579B CN201310333827.XA CN201310333827A CN103400579B CN 103400579 B CN103400579 B CN 103400579B CN 201310333827 A CN201310333827 A CN 201310333827A CN 103400579 B CN103400579 B CN 103400579B
- Authority
- CN
- China
- Prior art keywords
- application program
- node
- voice content
- regular expression
- performs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims abstract description 87
- 230000008878 coupling Effects 0.000 claims abstract description 18
- 238000010168 coupling process Methods 0.000 claims abstract description 18
- 238000005859 coupling reaction Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 88
- 238000012795 verification Methods 0.000 claims description 7
- 230000009897 systematic effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别系统和构建方法,通过对系统分层的方式,把系统通用的语义识别操作和应用程序特有的语义识别操作分离开,并且通过把应用程序进行分类并抽象出共有功能函数的方式,使得系统能非常高效的查找到匹配语音内容语义的应用程序,并使得第三方程序很容易加入现有的语音识别系统。本发明把功能函数映射到带语义变量的正则表达式,使得随着对语义识别的优化,系统能识别出更多的语义表达方式,从而使得系统能表现出更多的人性化特点。
Description
技术领域
本发明涉及语音识别技术领域,具体地说是一种语音识别系统和构建方法。
背景技术
目前公知的语音识别系统都通过在客户端中或云服务器中的语音识别模块对输入语音进行语音识别然后通过预先建立起的语法分析树对语音内容进行语义识别并调用相应的应用程序,比如SIRI,GOOGLENOW。
上述所说的现有语音识别系统拟建立一个完全能理解人的一般性意图的系统,执行被语义识别出的操作都发生在语音识别系统预先建立起的数据库或者应用程序中。这种方式能较好的控制被语义识别出的操作的作用域并使得语义识别能更加接近人的理解能力。但是系统上存在大量的第三方应用程序,这种在预先建立的数据库或者应用程序中执行被语义识别出的操作的方式使得无法执行针对第三方应用程序的操作。同时用户关注的网站千差万别,因为数据源的不同对同一搜索请求给出的结果也千差万别。同时第三方的程序要加入语音识别功能,都需要加入简单的语音识别模块或者运用第三方的云语音开发库,并上传正则表达式和绑定到正则表达式的操作到语义识别库。这种方式使得第三方的语义识别库无法被其他程序发现,并且操作只能发生在第三方的应用程序或数据库中。
发明内容
本发明的目的是提供一种语音识别系统及其构建方法,使得现有的语音识别系统能无缝的应用到用户客户端现有的应用程序的执行上,同时使得语义识别带有更多的个性化特征,能根据用户的偏好,设置被语义识别出的操作的作用域,同时第三方应用程序的语义识别库可以被其他的应用程序发现并且接收来自其他应用程序的操作请求。
为解决上述技术问题,本发明采用的技术方案为:
一种语音识别系统,包括语音识别模块,还包括:根节点,存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;类节点,存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;应用程序节点,属于某个类节点并且继承了所属类节点的公开函数集的应用程序;应用程序内部节点,存储了应用于应用程序内部的正则表达式以及所对应的函数调用;注册中心,用以存储安装在系统中的应用程序信息并建立一个多叉树结构的语音识别系统结构图。
作为优选项,应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用。
根节点的正则表达式对应的操作主要是用于查找或打开文件和应用程序或者调用系统自带的独有应用程序的服务(比如电话应用程序,短信发送应用程序)。类节点主要是用于定位目标应用程序所在的类,以便于更快的找到执行被语义识别出的操作的应用程序节点所在的位置。当类节点无法识别出语音内容的语义时,会交给全部的应用程序节点进行语义识别。为了安全性考虑,来自根节点的语音内容将不会传送给应用程序的内部节点。
正则表达式的匹配变量是语义变量,主要是判断所给出的变量是否属于规定的语义范围。其中语义变量规定的语义范围可以来源自公共常识,也可以是安装在系统上的应用程序的名称集合。如果语义范围比较小也可以用枚举的方式给出。本发明通过正则表达式构建语法分析树完成对输入语音内容的语义识别,每个带语义变量的正则表达式都对应到某个函数调用。这种方式在确定了一种可以被正确解析的语法结构以后,随着语义识别数据库的更新会加入多种表述方式。这些新加入的表述方式所对应的正则表达式会映射到相同的函数调用,从而建立了更加人性化的语义识别库,也有利于提高语音识别的准确率。为了防止应用程序的函数名和类节点的函数名冲突,应用程序特有的函数名将不得使用类节点的公开函数名命名。
这里所说的带语义变量的正则表达式也包括不带变量的正则表达式,这种表达式可以看成语义变量为空值的正则表达式。
上述语音识别系统的构建方法,包括如下步骤:
S01:应用程序提交信息到注册中心;
S02:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S03:系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S04:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S05,否则执行步骤S07;
S05:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤
S07,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S06;
S06:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S07:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S08:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
为了方便使用绑定到账户上的服务可以让用户事先输入应用程序的账户名和密码。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面,以便把调用的结果返回给用户。
作为优选项,步骤S01中提交的信息包括应用程序的名称和标识符,应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。
作为优选项,步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级,如果匹配语音内容的所述类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用,优先级高的应用程序节点会被选择执行调用。
根据用户设置,在匹配语音内容的类节点的正则表达式没有指定某个应用程序节点执行函数调用的情况下,也可以选择类节点下的所有应用程序节点执行正则表达式对应的函数调用并把结果归总到一个页面里。这种情况下应用程序将只会把函数调用的结果返回给系统,系统把所有结果归总到一个页面,并不会返回到应用程序事先设定的页面里。
作为优选项,步骤S07中系统为所选应用程序所建的私有目录,只有所选应用程序和系统可以往私有目录写入数据,同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。同时用户输入的账户名和密码也保存在私有目录中。应用程序的标识符将标志出私有目录所在的位置,因为启动程序和私有目录在同一个系统目录中,私有目录的名字可以让系统根据应用程序名称自动生成。写入私有目录的数据可以以XML格式保存,以便于应用程序访问。
作为优选项,步骤S08中进入应用程序以后,系统处理用户的语音输入包括以下步骤,
S0801:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S0802:系统验证输入的语音内容是否和应用程序内部节点的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0803:语音内容被传递给所选的应用程序节点,如果语音内容和应用程序节点的正则表达式匹配就执行相应的函数调用,否则执行下一步;
S0804:语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就执行步骤S0810,否则执行下一步;
S0805:语音内容被传递给所选应用程序节点的兄弟节点,如果语音内容和所选应用程序节点的兄弟节点匹配就执行步骤S0810,否则执行下一步;
S0806:语音内容被传递给根节点,系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就切换到系统主界面并执行相应的函数调用,否则执行下一步;
S0807:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S0808,否则执行步骤
S0810;
S0808:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S0810,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S0809;
S0809:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S0810:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S0811:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
本发明的有益效果在于:
本发明通过需要应用语音操作的应用程序向注册中心提交的信息完成语音识别系统的语义识别模块的构建。通过基于多叉树结构的语义识别模块的构建,使得系统能很快定位所需的应用程序所在的位置,并使得第三方应用程序很容易就能加入现有的语音识别系统中。通过带语义变量的正则表达式来完成对输入语音内容的语义识别,并通过把更多的语言表达方式所对应的正则表达式映射到同一函数调用的方式使得系统能识别更加人性化的语音内容。通过把应用程序的函数和变量写入应用程序私有目录的方式,使得应用程序在语音识别系统进行语义识别时不占用系统的线程,从而提升了整个系统的性能,同时防止用户输入的语音内容被别的线程窃听到。并通过对应用程序节点的优先级的设置,语音识别系统将为用户提供个性化的服务。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明在注册中心所建立的系统的结构图。
图2为本发明处理语音输入的流程图。
图3为典型的购物类应用程序执行商品价格查询功能的示意图。
具体实施方式
当某个第三方应用程序需要加入现有的语音识别系统中时,它首先需要提交以下的信息给语音识别系统的注册中心(S01):应用程序的名称和标识符、应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。注册中心是由根节点、类节点、应用程序节点和应用程序内部节点构成的多叉树(图1)。根节点存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;类节点存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;应用程序节点是属于某个类节点并且继承了所属类节点的公开函数集的应用程序;应用程序内部节点存储了应用于应用程序内部的正则表达式以及所对应的函数调用。只有进入应用程序,才能运用应用程序内部节点的正则表达式匹配语音内容。
根节点的正则表达式对应的操作主要是用于查找或打开文件和应用程序或者调用系统自带的独有应用程序的服务(比如电话应用程序,短信发送应用程序)。类节点主要是用于定位目标应用程序所在的类,以便于更快的找到执行被语义识别出的操作的应用程序节点所在的位置。当类节点无法识别出语音内容的语义时,会交给全部的应用程序节点进行语义识别。为了安全性考虑,来自根节点的语音内容将不会传送给应用程序的内部节点。
根据应用程序提交到注册中心的信息,新加入的应用程序加入到所归属类节点的下面的应用程序节点中。同时应用程序节点特有的带语义变量的正则表达式以及对应的函数调用也被写入对应的应用程序节点中。应用程序内部节点则被加入应用程序节点的下面,里面存储有应用于应用程序内部的特有的带语义变量的正则表达式以及对应的函数调用。
正则表达式的匹配变量是语义变量,主要是判断所给出的变量是否属于规定的语义范围。其中语义变量规定的语义范围可以来源自公共常识,也可以是安装在系统上的应用程序的名称集合。如果语义范围比较小也可以用枚举的方式给出。本发明通过正则表达式构建语法分析树完成对输入语音内容的语义识别,每个带语义变量的正则表达式都对应到某个函数调用。这种方式在确定了一种可以被正确解析的语法结构以后,随着语义识别数据库的更新会加入多种表述方式。这些新加入的表述方式所对应的正则表达式会映射到相同的函数调用,从而建立了更加人性化的语义识别库,也有利于提高语音识别的准确率。
为了防止应用程序的函数名和类节点的函数名冲突,应用程序特有的函数名将不得使用类节点的公开函数名命名。
当系统接收了用户的语音输入,语音输入首先会被语音识别模块转变为文本格式(S02)。系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配(S03),如果匹配就执行相应的函数调用。否则语音内容被传递给类节点(S04),如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则把语音内容传递给所有应用程序节点进行解析(S05)。如果语音内容和某个应用程序节点的正则表达式匹配,系统就把对应匹配正则表达式的函数调用写入系统为应用程序保留的私有目录中(S07),并启动所匹配的应用程序。如果语音内容和类节点的正则表达式完全匹配并且没有指定处于类节点下的某个应用程序节点执行函数调用,系统选择类节点下的随机一个应用程序节点并把匹配正则表达式所对应的函数和变量写入所选择的应用程序的私有目录中(S07)。作为优选,用户可以设置属于类节点下的应用程序节点的优先级。在应用程序节点都拥有同样的几率被类节点选择执行对应正则表达式的函数调用的情况下,优先级高的应用程序将被系统调用。最后,如果所有类节点下的应用程序节点的正则表达式都和语音内容不匹配则语音内容被丢弃或者发送给公共搜索引擎进行更大范围的搜索(S06)。
系统启动所选的应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页(S08)。为了方便访问绑定到账户上的服务信息可以让用户事先输入应用程序的账户名和密码并且把这些信息保存在系统为应用程序设置的私有目录里。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面,以便把调用的结果返回给用户,并引导用户到应用程序内部节点上。
当启动应用程序以后,系统处理语音内容时,首先会把语音内容和应用程序内部节点的正则表达式进行匹配,如果匹配就执行相应的函数调用。如果不匹配,就把语音内容传递给所选的应用程序节点。同样的,如果匹配就进行相应的函数调用。如果不匹配,语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就把函数和变量写入所选应用程序的私有目录并启动应用程序。如果不匹配语音内容就被传送给所选应用程序节点的兄弟节点并启动应用程序,如果语音内容和兄弟节点的正则表达式匹配就把函数和变量写入所选兄弟节点的私有目录中。如果还是不匹配就把语音内容传递给根节点,如果和根节点的的正则表达式匹配,系统就切换到主界面并执行相应的函数调用。之后的步骤和前面的情形相同,只是语音内容不会被传递给所在应用程序内部节点的类节点进行解析。这里可以有个技巧,如果语音内容能被所在应用程序内部节点的类节点识别出,并且识别出的变量没有指定应用程序节点,则把当前的应用程序作为默认的函数调用的作用域。
下面用一个属于购物类的应用程序作进一步说明,如图3所示。当输入的语音内容和类的正则表达式匹配后,会根据保存在X和Y里的变量调用相应的应用程序并把函数名和变量写入应用程序的私有目录里。然后通过应用程序X提交的标识符找到应用程序的启动程序。应用程序读取私有目录中的函数名和变量并执行相应的函数调用。当然有些正则表达式会带有多个变量,只要限定每个变量的语义范围并把带变量的正则表达式映射到相应的函数调用中就能实现本发明所述的方法。
上面阐述的思想是运用到IOS或安卓等移动设备的,但是也适用于网页的搜索和智能家庭语音管理。在用于网页搜索时,可以为网页的语义识别端单独建立一个模块,当输入的语音内容和正则表达式匹配后再调用网页的相关操作,并且能把多个同类网站的函数调用结果汇总到一个页面中。智能家庭语音管理则可以让设备在不工作时都处于休眠期,当确认相关设备能完成用户要求的操作时才启动设备。本发明能使得新设备和新网站能很简便的加入现有的语音识别系统中。
如果设备对语音的识别和解析能力有限可以把注册中心放到云服务器中。应用程序的标识符将表示应用程序启动项的URL地址。
本发明通过对系统分层的方式,把系统通用的语义识别操作和应用程序特有的语义识别操作分离开,并且通过把应用程序按照功能分类并抽象出共有功能函数的方式,使得系统能非常高效的查找到和语音内容匹配的应用程序,并使得第三方程序很容易加入现有的语音系统。本发明把功能函数映射到带语义变量的正则表达式,使得随着对语义识别的优化,系统能识别出更多的语义表达方式,从而使得系统能表现出更多的人性化特点。
本发明通过把被识别出的函数调用加入系统为应用程序建立的私有目录的方式,使得应用程序在语音识别系统进行语义识别时不会占用系统的资源。同时可以防止用户输入的语音内容被别的线程窃听到。
以上公开的仅为本专利的具体实施例,但本专利并非局限于此,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,做出的变形应视为属于本发明保护范围。
Claims (5)
1.一种语音识别系统构建方法,所述语音识别系统包括语音识别模块以及注册中心,其特征在于:包括如下步骤,
S01:应用程序提交信息到注册中心;
S02:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S03:系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S04:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S05,否则执行步骤S07;
S05:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S07,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S06;
S06:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S07:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S08:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页;
其中,所述注册中心,用以存储安装在系统中的应用程序信息并建立一个多叉树结构的语音识别系统结构图,其包括:
所述根节点,存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;
所述类节点,存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;
所述应用程序节点,属于某个类节点并且继承了所属类节点的公开函数集的应用程序,同时所述应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用;
应用程序内部节点,存储了应用于应用程序内部的正则表达式以及所对应的函数调用。
2.根据权利要求1所述的语音识别系统的构建方法,其特征在于:步骤S01中提交的信息包括应用程序的名称和标识符,应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。
3.根据权利要求1所述的语音识别系统的构建方法,其特征在于:步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级,如果和语音内容匹配的类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用,优先级高的所述应用程序节点会被选择执行调用。
4.根据权利要求1所述的语音识别系统的构建方法,其特征在于:步骤S07中系统为所选应用程序所建的私有目录,只有所选应用程序和系统可以往私有目录写入数据,同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。
5.根据权利要求1所述的语音识别系统的构建方法,其特征在于:步骤S08中进入应用程序以后,系统处理用户的语音输入包括以下步骤,
S0801:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S0802:系统验证输入的语音内容是否和应用程序内部节点的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0803:语音内容被传递给所选的应用程序节点,如果语音内容和应用程序节点的正则表达式匹配就执行相应的函数调用,否则执行下一步;
S0804:语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就执行步骤S0810,否则执行下一步;
S0805:语音内容被传递给所选应用程序节点的兄弟节点,如果语音内容和所选应用程序节点的兄弟节点匹配就执行步骤S0810,否则执行下一步;
S0806:语音内容被传递给根节点,系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0807:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S0808,否则执行步骤S0810;
S0808:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S0810,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S0809;
S0809:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S0810:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S0811:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310333827.XA CN103400579B (zh) | 2013-08-04 | 2013-08-04 | 一种语音识别系统和构建方法 |
PCT/CN2014/080833 WO2015018241A1 (zh) | 2013-08-04 | 2014-06-26 | 一种语音识别系统和构建方法 |
US14/909,741 US9953639B2 (en) | 2013-08-04 | 2014-06-26 | Voice recognition system and construction method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310333827.XA CN103400579B (zh) | 2013-08-04 | 2013-08-04 | 一种语音识别系统和构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103400579A CN103400579A (zh) | 2013-11-20 |
CN103400579B true CN103400579B (zh) | 2015-11-18 |
Family
ID=49564187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310333827.XA Active CN103400579B (zh) | 2013-08-04 | 2013-08-04 | 一种语音识别系统和构建方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9953639B2 (zh) |
CN (1) | CN103400579B (zh) |
WO (1) | WO2015018241A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400579B (zh) * | 2013-08-04 | 2015-11-18 | 徐华 | 一种语音识别系统和构建方法 |
CN103838713A (zh) * | 2014-03-27 | 2014-06-04 | 王峥嵘 | 一种基于正则表达式的语义分析方法 |
CN104503779A (zh) * | 2014-12-09 | 2015-04-08 | 北京奇虎科技有限公司 | 一种运行应用程序的方法和装置 |
CN104683456B (zh) * | 2015-02-13 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 业务处理方法、服务器及终端 |
US10224034B2 (en) * | 2016-02-03 | 2019-03-05 | Hua Xu | Voice recognition system and construction method thereof |
CN105912725A (zh) * | 2016-05-12 | 2016-08-31 | 上海劲牛信息技术有限公司 | 一种通过自然语言交互调用海量智慧应用的系统 |
CN108399919A (zh) * | 2017-02-06 | 2018-08-14 | 中兴通讯股份有限公司 | 一种语义识别方法和装置 |
US10810278B2 (en) * | 2017-04-18 | 2020-10-20 | Google Llc | Contextual deep bookmarking |
CN108519869A (zh) * | 2018-03-29 | 2018-09-11 | 联想(北京)有限公司 | 信息处理方法和系统 |
CN109325153A (zh) * | 2018-08-30 | 2019-02-12 | 上海与德科技有限公司 | 储物信息管理方法、电子设备以及计算机可读存介质 |
CN109521952A (zh) * | 2018-09-29 | 2019-03-26 | 上海与德科技有限公司 | 储物信息管理方法、电子设备以及计算机可读存介质 |
CN109521953A (zh) * | 2018-09-29 | 2019-03-26 | 上海与德科技有限公司 | 储物信息管理方法、电子设备以及计算机可读存介质 |
US11256485B2 (en) * | 2019-07-16 | 2022-02-22 | Google Llc | Systems and methods for synthesizing code from input and output examples |
CN110569507B (zh) * | 2019-09-09 | 2024-04-09 | 北京团立广告有限公司 | 语义识别方法、装置、设备及存储介质 |
US11551674B2 (en) * | 2020-08-18 | 2023-01-10 | Bank Of America Corporation | Multi-pipeline language processing platform |
CN113539253B (zh) * | 2020-09-18 | 2024-05-14 | 厦门市和家健脑智能科技有限公司 | 一种基于认知评估的音频数据处理方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072174A (zh) * | 2007-03-23 | 2007-11-14 | 南京邮电大学 | 基于净荷深度检测和会话关联技术的腾讯语音识别方法 |
CN101281745A (zh) * | 2008-05-23 | 2008-10-08 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
CN101847407A (zh) * | 2010-03-12 | 2010-09-29 | 中山大学 | 一种基于xml的语音识别参数处理方法 |
CN102237082A (zh) * | 2010-05-05 | 2011-11-09 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN102929385A (zh) * | 2012-09-05 | 2013-02-13 | 四川长虹电器股份有限公司 | 语音控制应用程序的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6704803B2 (en) * | 1998-01-26 | 2004-03-09 | International Business Machines Corporation | Method and system for distributing data events over an information bus |
US6631346B1 (en) * | 1999-04-07 | 2003-10-07 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for natural language parsing using multiple passes and tags |
US6714941B1 (en) * | 2000-07-19 | 2004-03-30 | University Of Southern California | Learning data prototypes for information extraction |
US7599837B2 (en) * | 2004-09-15 | 2009-10-06 | Microsoft Corporation | Creating a speech recognition grammar for alphanumeric concepts |
US20060200338A1 (en) * | 2005-03-04 | 2006-09-07 | Microsoft Corporation | Method and system for creating a lexicon |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
CN102479191B (zh) * | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
US8892419B2 (en) * | 2012-04-10 | 2014-11-18 | Artificial Solutions Iberia SL | System and methods for semiautomatic generation and tuning of natural language interaction applications |
CN104756100B (zh) * | 2012-11-30 | 2017-07-28 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
CN103049571A (zh) | 2013-01-04 | 2013-04-17 | 深圳市中兴移动通信有限公司 | 基于语音识别的索引菜单的方法、装置及其终端 |
CN103400579B (zh) | 2013-08-04 | 2015-11-18 | 徐华 | 一种语音识别系统和构建方法 |
-
2013
- 2013-08-04 CN CN201310333827.XA patent/CN103400579B/zh active Active
-
2014
- 2014-06-26 WO PCT/CN2014/080833 patent/WO2015018241A1/zh active Application Filing
- 2014-06-26 US US14/909,741 patent/US9953639B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072174A (zh) * | 2007-03-23 | 2007-11-14 | 南京邮电大学 | 基于净荷深度检测和会话关联技术的腾讯语音识别方法 |
CN101281745A (zh) * | 2008-05-23 | 2008-10-08 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
CN101847407A (zh) * | 2010-03-12 | 2010-09-29 | 中山大学 | 一种基于xml的语音识别参数处理方法 |
CN102237082A (zh) * | 2010-05-05 | 2011-11-09 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN102929385A (zh) * | 2012-09-05 | 2013-02-13 | 四川长虹电器股份有限公司 | 语音控制应用程序的方法 |
Also Published As
Publication number | Publication date |
---|---|
US9953639B2 (en) | 2018-04-24 |
CN103400579A (zh) | 2013-11-20 |
US20160171978A1 (en) | 2016-06-16 |
WO2015018241A1 (zh) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103400579B (zh) | 一种语音识别系统和构建方法 | |
CN109947789B (zh) | 一种多数据库的数据处理的方法、装置、计算机设备及存储介质 | |
CN108604236B (zh) | 语义物联网的restful操作 | |
CN104573115B (zh) | 支持多类型数据库操作的集成接口的实现方法及系统 | |
US10552218B2 (en) | Dynamic context of tasks | |
US10394552B2 (en) | Interface description language for application programming interfaces | |
US9665648B2 (en) | Method and apparatus for a user interest topology based on seeded user interest modeling | |
CN111566638B (zh) | 向应用编程接口添加描述性元数据以供智能代理使用 | |
CN109492053B (zh) | 用于访问数据的方法和装置 | |
CN112685433B (zh) | 元数据更新方法、装置、电子设备及计算机可读存储介质 | |
US8849854B2 (en) | Method and system for providing detailed information in an interactive manner in a short message service (SMS) environment | |
CN110162408B (zh) | 一种数据处理方法、装置、设备和机器可读介质 | |
US7650346B2 (en) | User-defined type consistency checker | |
WO2019152511A1 (en) | Personalized digital assistant device and related methods | |
WO2011115471A1 (en) | Integrated service delivery platform system and method thereof | |
Vaccari et al. | An evaluation of ontology matching in geo-service applications | |
US20220414341A1 (en) | Intent addition for a chatbot | |
CN117171108A (zh) | 一种虚拟模型映射方法和系统 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN115687724A (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
US11809398B1 (en) | Methods and systems for connecting data with non-standardized schemas in connected graph data exchanges | |
CN114648026B (zh) | 一种多云环境下的资源交付方法、系统及存储介质 | |
Zhao et al. | A matching approach to business services and software services | |
WO2021037045A1 (zh) | 知识图谱构建方法及装置、计算设备、存储介质 | |
US20240220876A1 (en) | Artificial intelligence (ai) based data product provisioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 1801, Building A (Building 1), Mingxing Plaza, No. 8 Gandongbei Avenue, Xinzhou District, Shangrao City, Jiangxi Province, 334300 Patentee after: Xu Hua Country or region after: China Address before: No. 83 Jiefang East Road, Hengfeng County, Shangrao City, Jiangxi Province, 334300 Patentee before: Xu Hua Country or region before: China |
|
CP03 | Change of name, title or address |