CN103400579A - 一种语音识别系统和构建方法 - Google Patents

一种语音识别系统和构建方法 Download PDF

Info

Publication number
CN103400579A
CN103400579A CN201310333827XA CN201310333827A CN103400579A CN 103400579 A CN103400579 A CN 103400579A CN 201310333827X A CN201310333827X A CN 201310333827XA CN 201310333827 A CN201310333827 A CN 201310333827A CN 103400579 A CN103400579 A CN 103400579A
Authority
CN
China
Prior art keywords
application program
node
voice content
regular expression
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310333827XA
Other languages
English (en)
Other versions
CN103400579B (zh
Inventor
徐华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=49564187&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN103400579(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Individual filed Critical Individual
Priority to CN201310333827.XA priority Critical patent/CN103400579B/zh
Publication of CN103400579A publication Critical patent/CN103400579A/zh
Priority to US14/909,741 priority patent/US9953639B2/en
Priority to PCT/CN2014/080833 priority patent/WO2015018241A1/zh
Application granted granted Critical
Publication of CN103400579B publication Critical patent/CN103400579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音识别系统和构建方法,通过对系统分层的方式,把系统通用的语义识别操作和应用程序特有的语义识别操作分离开,并且通过把应用程序进行分类并抽象出共有功能函数的方式,使得系统能非常高效的查找到匹配语音内容语义的应用程序,并使得第三方程序很容易加入现有的语音识别系统。本发明把功能函数映射到带语义变量的正则表达式,使得随着对语义识别的优化,系统能识别出更多的语义表达方式,从而使得系统能表现出更多的人性化特点。

Description

一种语音识别系统和构建方法
技术领域
本发明涉及语音识别技术领域,具体地说是一种开放语音识别系统及其构建方法。
背景技术
目前公知的语音识别系统都通过在客户端中或云服务器中的语音识别模块对输入语音进行语音识别然后通过预先建立起的语法分析树对语音内容进行语义识别并调用相应的应用程序,比如SIRI,GOOGLE NOW。
上述所说的现有语音识别系统拟建立一个完全能理解人的一般性意图的系统,执行被语义识别出的操作都发生在语音识别系统预先建立起的数据库或者应用程序中。这种方式能较好的控制被语义识别出的操作的作用域并使得语义识别能更加接近人的理解能力。但是系统上存在大量的第三方应用程序,这种在预先建立的数据库或者应用程序中执行被语义识别出的操作的方式使得无法执行针对第三方应用程序的操作。同时用户关注的网站千差万别,因为数据源的不同对同一搜索请求给出的结果也千差万别。同时第三方的程序要加入语音识别功能,都需要加入简单的语音识别模块或者运用第三方的云语音开发库,并上传正则表达式和绑定到正则表达式的操作到语义识别库。这种方式使得第三方的语义识别库无法被其他程序发现,并且操作只能发生在第三方的应用程序或数据库中。
发明内容
本发明的目的是提供一种语音识别系统及其构建方法,使得现有的语音识别系统能无缝的应用到用户客户端现有的应用程序的执行上,同时使得语义识别带有更多的个性化特征,能根据用户的偏好,设置被语义识别出的操作的作用域,同时第三方应用程序的语义识别库可以被其他的应用程序发现并且接收来自其他应用程序的操作请求。
为解决上述技术问题,本发明采用的技术方案为:
一种语音识别系统,包括语音识别模块,还包括:
根节点,存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;
类节点,存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;
 应用程序节点,属于某个类节点并且继承了所属类节点的公开函数集的应用程序;
应用程序内部节点,存储了应用于应用程序内部的正则表达式以及所对应的函数调用;
注册中心,用以存储安装在系统中的应用程序信息并建立一个多叉树结构的语音识别系统结构图。 
作为优选项,应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用。
根节点的正则表达式对应的操作主要是用于查找或打开文件和应用程序或者调用系统自带的独有应用程序的服务(比如电话应用程序,短信发送应用程序)。类节点主要是用于定位目标应用程序所在的类,以便于更快的找到执行被语义识别出的操作的应用程序节点所在的位置。当类节点无法识别出语音内容的语义时,会交给全部的应用程序节点进行语义识别。为了安全性考虑,来自根节点的语音内容将不会传送给应用程序的内部节点。
 正则表达式的匹配变量是语义变量,主要是判断所给出的变量是否属于规定的语义范围。其中语义变量规定的语义范围可以来源自公共常识,也可以是安装在系统上的应用程序的名称集合。如果语义范围比较小也可以用枚举的方式给出。本发明通过正则表达式构建语法分析树完成对输入语音内容的语义识别,每个带语义变量的正则表达式都对应到某个函数调用。这种方式在确定了一种可以被正确解析的语法结构以后,随着语义识别数据库的更新会加入多种表述方式。这些新加入的表述方式所对应的正则表达式会映射到相同的函数调用,从而建立了更加人性化的语义识别库,也有利于提高语音识别的准确率。为了防止应用程序的函数名和类节点的函数名冲突,应用程序特有的函数名将不得使用类节点的公开函数名命名。
这里所说的带语义变量的正则表达式也包括不带变量的正则表达式,这种表达式可以看成语义变量为空值的正则表达式。
上述语音识别系统的构建方法,包括如下步骤:
S01:应用程序提交信息到注册中心;
S02:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S03:系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S04:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S05,否则执行步骤S07;
S05:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S07,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S06;
S06:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S07:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S08:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
为了方便使用绑定到账户上的服务可以让用户事先输入应用程序的账户名和密码。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面,以便把调用的结果返回给用户。
作为优选项,步骤S01中提交的信息包括应用程序的名称和标识符,应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。
作为优选项,步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级,如果匹配语音内容的所述类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用,优先级高的应用程序节点会被选择执行调用。
根据用户设置,在匹配语音内容的类节点的正则表达式没有指定某个应用程序节点执行函数调用的情况下,也可以选择类节点下的所有应用程序节点执行正则表达式对应的函数调用并把结果归总到一个页面里。这种情况下应用程序将只会把函数调用的结果返回给系统,系统把所有结果归总到一个页面,并不会返回到应用程序事先设定的页面里。
作为优选项,步骤S07中系统为所选应用程序所建的私有目录,只有所选应用程序和系统可以往私有目录写入数据,同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。同时用户输入的账户名和密码也保存在私有目录中。应用程序的标识符将标志出私有目录所在的位置,因为启动程序和私有目录在同一个系统目录中,私有目录的名字可以让系统根据应用程序名称自动生成。写入私有目录的数据可以以XML格式保存,以便于应用程序访问。
作为优选项,步骤S08中进入应用程序以后,系统处理用户的语音输入包括以下步骤,
S0801:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;   
S0802:系统验证输入的语音内容是否和应用程序内部节点的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0803:语音内容被传递给所选的应用程序节点,如果语音内容和应用程序节点的正则表达式匹配就执行相应的函数调用,否则执行下一步;
S0804:语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就执行步骤S0810,否则执行下一步;
S0805:语音内容被传递给所选应用程序节点的兄弟节点,如果语音内容和所选应用程序节点的兄弟节点匹配就执行步骤S0810,否则执行下一步;
S0806:语音内容被传递给根节点,系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就切换到系统主界面并执行相应的函数调用,否则执行下一步;
S0807:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S0808,否则执行步骤S0810;
S0808:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S0810,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S0809;
S0809:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S0810:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S0811:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
本发明的有益效果在于:
本发明通过需要应用语音操作的应用程序向注册中心提交的信息完成语音识别系统的语义识别模块的构建。通过基于多叉树结构的语义识别模块的构建,使得系统能很快定位所需的应用程序所在的位置,并使得第三方应用程序很容易就能加入现有的语音识别系统中。通过带语义变量的正则表达式来完成对输入语音内容的语义识别,并通过把更多的语言表达方式所对应的正则表达式映射到同一函数调用的方式使得系统能识别更加人性化的语音内容。通过把应用程序的函数和变量写入应用程序私有目录的方式,使得应用程序在语音识别系统进行语义识别时不占用系统的线程,从而提升了整个系统的性能,同时防止用户输入的语音内容被别的线程窃听到。并通过对应用程序节点的优先级的设置,语音识别系统将为用户提供个性化的服务。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明在注册中心所建立的系统的结构图。
图2为本发明处理语音输入的流程图。
图3为典型的购物类应用程序执行商品价格查询功能的示意图。
具体实施方式
当某个第三方应用程序需要加入现有的语音识别系统中时,它首先需要提交以下的信息给语音识别系统的注册中心(S01):应用程序的名称和标识符、应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。标识符指向应用程序启动程序所在系统目录的详细位置。系统通过打开标识符所指向的系统目录启动应用程序。注册中心是由根节点、类节点、应用程序节点和应用程序内部节点构成的多叉树(图1)。根节点存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;类节点存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;应用程序节点是属于某个类节点并且继承了所属类节点的公开函数集的应用程序;应用程序内部节点存储了应用于应用程序内部的正则表达式以及所对应的函数调用。只有进入应用程序,才能运用应用程序内部节点的正则表达式匹配语音内容。
根节点的正则表达式对应的操作主要是用于查找或打开文件和应用程序或者调用系统自带的独有应用程序的服务(比如电话应用程序,短信发送应用程序)。类节点主要是用于定位目标应用程序所在的类,以便于更快的找到执行被语义识别出的操作的应用程序节点所在的位置。当类节点无法识别出语音内容的语义时,会交给全部的应用程序节点进行语义识别。为了安全性考虑,来自根节点的语音内容将不会传送给应用程序的内部节点。
根据应用程序提交到注册中心的信息,新加入的应用程序加入到所归属类节点的下面的应用程序节点中。同时应用程序节点特有的带语义变量的正则表达式以及对应的函数调用也被写入对应的应用程序节点中。应用程序内部节点则被加入应用程序节点的下面,里面存储有应用于应用程序内部的特有的带语义变量的正则表达式以及对应的函数调用。
 正则表达式的匹配变量是语义变量,主要是判断所给出的变量是否属于规定的语义范围。其中语义变量规定的语义范围可以来源自公共常识,也可以是安装在系统上的应用程序的名称集合。如果语义范围比较小也可以用枚举的方式给出。本发明通过正则表达式构建语法分析树完成对输入语音内容的语义识别,每个带语义变量的正则表达式都对应到某个函数调用。这种方式在确定了一种可以被正确解析的语法结构以后,随着语义识别数据库的更新会加入多种表述方式。这些新加入的表述方式所对应的正则表达式会映射到相同的函数调用,从而建立了更加人性化的语义识别库,也有利于提高语音识别的准确率。为了防止应用程序的函数名和类节点的函数名冲突,应用程序特有的函数名将不得使用类节点的公开函数名命名。
 当系统接收了用户的语音输入,语音输入首先会被语音识别模块转变为文本格式(S02)。系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配(S03),如果匹配就执行相应的函数调用。否则语音内容被传递给类节点(S04),如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则把语音内容传递给所有应用程序节点进行解析(S05)。如果语音内容和某个应用程序节点的正则表达式匹配,系统就把对应匹配正则表达式的函数调用写入系统为应用程序保留的私有目录中(S07),并启动所匹配的应用程序。如果语音内容和类节点的正则表达式完全匹配并且没有指定处于类节点下的某个应用程序节点执行函数调用,系统选择类节点下的随机一个应用程序节点并把匹配正则表达式所对应的函数和变量写入所选择的应用程序的私有目录中(S07)。作为优选,用户可以设置属于类节点下的应用程序节点的优先级。在应用程序节点都拥有同样的几率被类节点选择执行对应正则表达式的函数调用的情况下,优先级高的应用程序将被系统调用。最后,如果所有类节点下的应用程序节点的正则表达式都和语音内容不匹配则语音内容被丢弃或者发送给公共搜索引擎进行更大范围的搜索(S06)。
系统启动所选的应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页(S08)。为了方便访问绑定到账户上的服务信息可以让用户事先输入应用程序的账户名和密码并且把这些信息保存在系统为应用程序设置的私有目录里。同时在应用程序内部为注册的每个函数调用设置了特定的返回界面,以便把调用的结果返回给用户,并引导用户到应用程序内部节点上。
当启动应用程序以后,系统处理语音内容时,首先会把语音内容和应用程序内部节点的正则表达式进行匹配,如果匹配就执行相应的函数调用。如果不匹配,就把语音内容传递给所选的应用程序节点。同样的,如果匹配就进行相应的函数调用。如果不匹配,语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就把函数和变量写入所选应用程序的私有目录并启动应用程序。如果不匹配语音内容就被传送给所选应用程序节点的兄弟节点并启动应用程序,如果语音内容和兄弟节点的正则表达式匹配就把函数和变量写入所选兄弟节点的私有目录中。如果还是不匹配就把语音内容传递给根节点,如果和根节点的的正则表达式匹配,系统就切换到主界面并执行相应的函数调用。之后的步骤和前面的情形相同,只是语音内容不会被传递给所在应用程序内部节点的类节点进行解析。这里可以有个技巧,如果语音内容能被所在应用程序内部节点的类节点识别出,并且识别出的变量没有指定应用程序节点,则把当前的应用程序作为默认的函数调用的作用域。
下面用一个属于购物类的应用程序作进一步说明,如图3所示。当输入的语音内容和类的正则表达式匹配后,会根据保存在X和Y里的变量调用相应的应用程序并把函数名和变量写入应用程序的私有目录里。然后通过应用程序X提交的标识符找到应用程序的启动程序。应用程序读取私有目录中的函数名和变量并执行相应的函数调用。当然有些正则表达式会带有多个变量,只要限定每个变量的语义范围并把带变量的正则表达式映射到相应的函数调用中就能实现本发明所述的方法。
上面阐述的思想是运用到IOS或安卓等移动设备的,但是也适用于网页的搜索和智能家庭语音管理。在用于网页搜索时,可以为网页的语义识别端单独建立一个模块,当输入的语音内容和正则表达式匹配后再调用网页的相关操作,并且能把多个同类网站的函数调用结果汇总到一个页面中。智能家庭语音管理则可以让设备在不工作时都处于休眠期,当确认相关设备能完成用户要求的操作时才启动设备。本发明能使得新设备和新网站能很简便的加入现有的语音识别系统中。
如果设备对语音的识别和解析能力有限可以把注册中心放到云服务器中。应用程序的标识符将表示应用程序启动项的URL地址。
本发明通过对系统分层的方式,把系统通用的语义识别操作和应用程序特有的语义识别操作分离开,并且通过把应用程序按照功能分类并抽象出共有功能函数的方式,使得系统能非常高效的查找到和语音内容匹配的应用程序,并使得第三方程序很容易加入现有的语音系统。本发明把功能函数映射到带语义变量的正则表达式,使得随着对语义识别的优化,系统能识别出更多的语义表达方式,从而使得系统能表现出更多的人性化特点。
本发明通过把被识别出的函数调用加入系统为应用程序建立的私有目录的方式,使得应用程序在语音识别系统进行语义识别时不会占用系统的资源。同时可以防止用户输入的语音内容被别的线程窃听到。
以上公开的仅为本专利的具体实施例,但本专利并非局限于此,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,做出的变形应视为属于本发明保护范围。

Claims (7)

1.一种语音识别系统,包括语音识别模块,其特征在于:还包括:
根节点,存储有带语义变量的正则表达式,执行查找和打开存储在系统中的文件或应用程序的操作;
类节点,存储了用于描述一系列应用程序共有行为的带语义变量的正则表达式,并把这些正则表达式映射到一个公开函数集中;
 应用程序节点,属于某个类节点并且继承了所属类节点的公开函数集的应用程序;
应用程序内部节点,存储了应用于应用程序内部的正则表达式以及所对应的函数调用;
注册中心,用以存储安装在系统中的应用程序信息并建立一个多叉树结构的语音识别系统结构图。
2.根据权利要求1所述的语音识别系统,其特征在于:所述应用程序节点还存在一些类节点所没有的带语义变量的正则表达式并映射到特定的函数调用。
3.一种基于权利要求1所述的语音识别系统的构建方法,其特征在于:包括如下步骤,
S01:应用程序提交信息到注册中心;
S02:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;
S03:系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S04:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S05,否则执行步骤S07;
S05:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S07,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S06;
S06:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S07:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S08:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
4.根据权利要求3所述的语音识别系统的构建方法,其特征在于:步骤S01中提交的信息包括应用程序的名称和标识符,应用程序所归属的类以及应用程序节点和应用程序内部节点特有的带语义变量的正则表达式以及对应的函数调用。
5.根据权利要求3所述的语音识别系统的构建方法,其特征在于:步骤S07中可以根据用户的设置设定属于所述类节点下的所述应用程序节点的优先级,如果和语音内容匹配的类节点的正则表达式没有指定类节点下的某个应用程序节点执行函数调用,优先级高的所述应用程序节点会被选择执行调用。
6.根据权利要求3所述的语音识别系统的构建方法,其特征在于:步骤S07中系统为所选应用程序所建的私有目录,只有所选应用程序和系统可以往私有目录写入数据,同时只有所选的应用程序可以读取保存在私有目录中的函数和变量。
7.根据权利要求3所述的语音识别系统的构建方法,其特征在于:步骤S08中进入应用程序以后,系统处理用户的语音输入包括以下步骤,
S0801:系统接收用户的语音输入,语音识别模块把语音内容转化为文本形式;   
S0802:系统验证输入的语音内容是否和应用程序内部节点的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0803:语音内容被传递给所选的应用程序节点,如果语音内容和应用程序节点的正则表达式匹配就执行相应的函数调用,否则执行下一步;
S0804:语音内容被传递给所选应用程序节点的类节点,如果语音内容和类节点的正则表达式匹配就执行步骤S0810,否则执行下一步;
S0805:语音内容被传递给所选应用程序节点的兄弟节点,如果语音内容和所选应用程序节点的兄弟节点匹配就执行步骤S0810,否则执行下一步;
S0806:语音内容被传递给根节点,系统验证输入的语音内容是否和根节点的带语义变量的正则表达式匹配,如果匹配就执行相应的函数调用,否则执行下一步;
S0807:语音内容被传递给类节点,如果语音内容和所有类节点的带语义变量的正则表达式不匹配,则执行步骤S0808,否则执行步骤S0810;
S0808:语音内容被传递给所有应用程序节点进行语义识别,如果输入的语音内容和所述应用程序节点的正则表达式匹配,系统就执行步骤S0810,如果输入的语音内容和所有应用程序节点的正则表达式不匹配就执行步骤S0809;
S0809:系统丢弃语音内容或者把语音内容输入公共搜索引擎进行大范围的搜索;
S0810:系统选择将被调用的应用程序,并把对应于带语义变量的正则表达式的函数调用写入系统为所选应用程序建立的私有目录中;
S0811:系统启动所选应用程序,应用程序在加载前会判断应用程序的私有目录中是否有函数和相应的变量,如果存在,应用程序将从私有目录中加载函数和变量,并进行相应函数的调用,否则加载默认初始页。
CN201310333827.XA 2013-08-04 2013-08-04 一种语音识别系统和构建方法 Active CN103400579B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310333827.XA CN103400579B (zh) 2013-08-04 2013-08-04 一种语音识别系统和构建方法
US14/909,741 US9953639B2 (en) 2013-08-04 2014-06-26 Voice recognition system and construction method thereof
PCT/CN2014/080833 WO2015018241A1 (zh) 2013-08-04 2014-06-26 一种语音识别系统和构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310333827.XA CN103400579B (zh) 2013-08-04 2013-08-04 一种语音识别系统和构建方法

Publications (2)

Publication Number Publication Date
CN103400579A true CN103400579A (zh) 2013-11-20
CN103400579B CN103400579B (zh) 2015-11-18

Family

ID=49564187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310333827.XA Active CN103400579B (zh) 2013-08-04 2013-08-04 一种语音识别系统和构建方法

Country Status (3)

Country Link
US (1) US9953639B2 (zh)
CN (1) CN103400579B (zh)
WO (1) WO2015018241A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
WO2015018241A1 (zh) * 2013-08-04 2015-02-12 Xu Hua 一种语音识别系统和构建方法
CN104503779A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种运行应用程序的方法和装置
CN105912725A (zh) * 2016-05-12 2016-08-31 上海劲牛信息技术有限公司 一种通过自然语言交互调用海量智慧应用的系统
CN108399919A (zh) * 2017-02-06 2018-08-14 中兴通讯股份有限公司 一种语义识别方法和装置
CN108519869A (zh) * 2018-03-29 2018-09-11 联想(北京)有限公司 信息处理方法和系统
CN110325987A (zh) * 2017-04-18 2019-10-11 谷歌有限责任公司 语境语音驱动深度书签
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683456B (zh) 2015-02-13 2017-06-23 腾讯科技(深圳)有限公司 业务处理方法、服务器及终端
US10224034B2 (en) * 2016-02-03 2019-03-05 Hua Xu Voice recognition system and construction method thereof
CN109325153A (zh) * 2018-08-30 2019-02-12 上海与德科技有限公司 储物信息管理方法、电子设备以及计算机可读存介质
CN109521952A (zh) * 2018-09-29 2019-03-26 上海与德科技有限公司 储物信息管理方法、电子设备以及计算机可读存介质
CN109521953A (zh) * 2018-09-29 2019-03-26 上海与德科技有限公司 储物信息管理方法、电子设备以及计算机可读存介质
US11256485B2 (en) * 2019-07-16 2022-02-22 Google Llc Systems and methods for synthesizing code from input and output examples
CN110569507B (zh) * 2019-09-09 2024-04-09 北京团立广告有限公司 语义识别方法、装置、设备及存储介质
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069547A1 (en) * 2004-09-15 2006-03-30 Microsoft Corporation Creating a speech recognition grammar for alphanumeric concepts
CN101072174A (zh) * 2007-03-23 2007-11-14 南京邮电大学 基于净荷深度检测和会话关联技术的腾讯语音识别方法
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101847407A (zh) * 2010-03-12 2010-09-29 中山大学 一种基于xml的语音识别参数处理方法
CN102237082A (zh) * 2010-05-05 2011-11-09 三星电子株式会社 语音识别系统的自适应方法
CN102929385A (zh) * 2012-09-05 2013-02-13 四川长虹电器股份有限公司 语音控制应用程序的方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704803B2 (en) * 1998-01-26 2004-03-09 International Business Machines Corporation Method and system for distributing data events over an information bus
US6631346B1 (en) * 1999-04-07 2003-10-07 Matsushita Electric Industrial Co., Ltd. Method and apparatus for natural language parsing using multiple passes and tags
US6714941B1 (en) * 2000-07-19 2004-03-30 University Of Southern California Learning data prototypes for information extraction
US20060200338A1 (en) * 2005-03-04 2006-09-07 Microsoft Corporation Method and system for creating a lexicon
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8892419B2 (en) * 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
CN103049571A (zh) 2013-01-04 2013-04-17 深圳市中兴移动通信有限公司 基于语音识别的索引菜单的方法、装置及其终端
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别系统和构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069547A1 (en) * 2004-09-15 2006-03-30 Microsoft Corporation Creating a speech recognition grammar for alphanumeric concepts
CN101072174A (zh) * 2007-03-23 2007-11-14 南京邮电大学 基于净荷深度检测和会话关联技术的腾讯语音识别方法
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101847407A (zh) * 2010-03-12 2010-09-29 中山大学 一种基于xml的语音识别参数处理方法
CN102237082A (zh) * 2010-05-05 2011-11-09 三星电子株式会社 语音识别系统的自适应方法
CN102929385A (zh) * 2012-09-05 2013-02-13 四川长虹电器股份有限公司 语音控制应用程序的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015018241A1 (zh) * 2013-08-04 2015-02-12 Xu Hua 一种语音识别系统和构建方法
US9953639B2 (en) 2013-08-04 2018-04-24 Hua Xu Voice recognition system and construction method thereof
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
CN104503779A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种运行应用程序的方法和装置
CN105912725A (zh) * 2016-05-12 2016-08-31 上海劲牛信息技术有限公司 一种通过自然语言交互调用海量智慧应用的系统
CN108399919A (zh) * 2017-02-06 2018-08-14 中兴通讯股份有限公司 一种语义识别方法和装置
CN110325987A (zh) * 2017-04-18 2019-10-11 谷歌有限责任公司 语境语音驱动深度书签
CN110325987B (zh) * 2017-04-18 2023-10-20 谷歌有限责任公司 语境语音驱动深度书签
US11829433B2 (en) 2017-04-18 2023-11-28 Google Llc Contextual deep bookmarking
CN108519869A (zh) * 2018-03-29 2018-09-11 联想(北京)有限公司 信息处理方法和系统
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置
CN113539253B (zh) * 2020-09-18 2024-05-14 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置

Also Published As

Publication number Publication date
US20160171978A1 (en) 2016-06-16
US9953639B2 (en) 2018-04-24
CN103400579B (zh) 2015-11-18
WO2015018241A1 (zh) 2015-02-12

Similar Documents

Publication Publication Date Title
CN103400579B (zh) 一种语音识别系统和构建方法
US9665648B2 (en) Method and apparatus for a user interest topology based on seeded user interest modeling
JP6736173B2 (ja) データベースへの自然言語インタフェースのための方法、システム、記録媒体およびコンピュータ・プログラム
CN104573115B (zh) 支持多类型数据库操作的集成接口的实现方法及系统
CN111566638B (zh) 向应用编程接口添加描述性元数据以供智能代理使用
US8849854B2 (en) Method and system for providing detailed information in an interactive manner in a short message service (SMS) environment
US10936645B2 (en) Method and apparatus for generating to-be-played multimedia content
CN110162408B (zh) 一种数据处理方法、装置、设备和机器可读介质
US11449477B2 (en) Systems and methods for context-independent database search paths
CN107103011B (zh) 终端数据搜索的实现方法和装置
JP7439186B2 (ja) オーディオクエリのオーバーラップ処理の協調
US20170103125A1 (en) Apparatus and method of exploring and accessing relevant data from big data repository
WO2011115471A1 (en) Integrated service delivery platform system and method thereof
US10872108B2 (en) Method and apparatus for updating multimedia playlist
US20130151519A1 (en) Ranking Programs in a Marketplace System
US8706909B1 (en) Systems and methods for semantic URL handling
CN106570153A (zh) 一种海量url的数据提取方法及系统
US20220414341A1 (en) Intent addition for a chatbot
Bellini et al. Managing Complexity of Data Models and Performance in Broker-Based Internet/Web of Things Architectures
CN108959294B (zh) 一种访问搜索引擎的方法和装置
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
US10114864B1 (en) List element query support and processing
Bellini et al. Internet 4 Things
KR20130012388A (ko) 시맨틱 웹 어플리케이션의 모델 확장 장치, 시맨틱 웹 어플리케이션의 모델 확장 방법 및 이를 이용한 단말기
Zhao et al. A matching approach to business services and software services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant