CN109841210B - 一种智能操控实现方法及装置、计算机可读存储介质 - Google Patents
一种智能操控实现方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN109841210B CN109841210B CN201711208095.6A CN201711208095A CN109841210B CN 109841210 B CN109841210 B CN 109841210B CN 201711208095 A CN201711208095 A CN 201711208095A CN 109841210 B CN109841210 B CN 109841210B
- Authority
- CN
- China
- Prior art keywords
- information
- matched
- control
- semantic
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims description 22
- 230000009471 action Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
一种智能操控实现方法及装置,计算机可读存储介质,包括:配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;获取操控信息;基于所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签;根据所述操控信息匹配到的句式规则对应的语义标签确定操控意图。本申请提供的方案,通过设置语义标签将具体的指令与操控意图的获取进行隔离,提高了可扩展性。
Description
技术领域
本发明涉及通信技术,尤指一种智能操控实现方法及装置、计算机可读存储介质。
背景技术
随着移动通信技术迅猛发展,移动终端已成为人们日常生活的必需品,智能移动终端的硬件配置越来越高,目前其功能已极其繁杂,业务也迅速增多,这一方面满足了用户的多种需要,用户能够从小小的移动终端上获得海量的信息,满足不同用户群体的多种需求,但另一方面移动终端所嵌入的功能越多、各模块的功能越强大,其控制也就越复杂,控制流程也就越繁琐,从而给用户带来极大的困扰和不便。智能语音技术在解决此类问题上有显出极大的优势,能够极大地提高人机交互的体验,所以目前各种类型的语音产品也越来越多。
目前各类智能语音产品集成了越来越多的功能,但其中语音操控——即用户说出语音指令,语音产品对用户的语音指令进行识别,识别后响应操控的实际动作——是各类功能中最重要、最有用也是最常使用的功能,并且从广义上来说,所有的语音功能都可以归结到语音操控。
而在实现语音智能操控交互流程的多种技术方案中,嵌入式的语音识别方案以其无须依赖网络连接环境,反应速度快,识别精确等特征成为大多数语音产品中使用众多的优选实现方案。通常地,在嵌入式语音识别的技术方案中,会依赖一个基于BNF(Backus-Naur Form,巴科斯-劳尔范式)的语法文件,通过该文件定义各个使用场景下的句式规则和命令集合,进行语音识别时在该语法文件的范围内给出确切的识别结果。依赖上述语法文件的语音识别包括不同语言种类下的语音识别,如中文、英语、西班牙语的识别等等。
目前市面上大多数语音识别厂商的嵌入式语音识别都用到了上述所说的基于BNF的语法定义的技术,其具体的实现方案各有不同,基本上都有Rule(语法规则)和Slot(槽)的定义层级,如图1所示,在场景下有语法规则10至语法规则1n,语法规则11下则有语法规则n0至语法规则nn,语法规则n1下有槽n0至槽nn,需要说明的是,图1仅为示例。该语法定义有各种限制,甚至有Slot的长度不能超过14个字符等限制的情况,相对较好的定义也只是每个Rule的定义和Slot的定义都是在其名称后面直接跟随内容,这样,当系统返回结果时,只能将符合某Rule的句式内容返回,确切地,只会将满足某Rule规则的对应的各Slot的文本返回。这样,上层在根据文本作进一步的操控时,只能根据文本的严格对比来确定用户说了什么内容进而执行相应的操作。这种实现方式可扩展性不佳。
发明内容
本发明至少一实施例提供了一种智能操控实现方法及装置,以及一种计算机可读存储介质,提高智能操控的可扩展性。
为了达到本发明目的,本发明至少一实施例提供了一种智能操控实现方法,包括:
配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;
获取操控信息;
基于所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签;
根据所述操控信息匹配到的句式规则对应的语义标签确定操控意图。
本发明一实施例提供一种智能操控实现装置,包括:配置模块、操控信息获取模块、操控信息识别模块和语义提取模块,其中:
所述配置模块设置为,配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;
所述操控信息获取模块设置为,获取操控信息,将所述操控信息发送给所述操控信息识别模块;
所述操控信息识别模块设置为,基于所述配置模块配置的所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签,将所述语义标签发送给所述语义提取模块;
所述语义提取模块设置为,根据所述操控信息匹配到的句式规则对应的语义标签确定操控意图。
本发明一实施例提供一种智能操控实现装置,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现上述任一实施例所述的智能操控实现方法。
本发明一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实施例所述的智能操控实现方法。
与相关技术相比,本发明至少一实施例中,通过增加语义标签,在对操控信息进行识别的过程中获得语义标签,根据语义标签确定操控意图进而执行操控,不同于相关技术中,需要根据具体的指令来确定操控意图。本申请提供的方案,指令和操控意图之间通过语义标签进行隔离,指令改变但语义不变时,其语义标签可以保持不变,从而,根据语义标签确定操控意图的逻辑无需更改,可扩展性更好。在一个可选方案中,还对文本指令进行聚类,将语义相同的文本指令作为一类,无需关心具体的文本指令,只需知道该指令所属的类别即可知道其语义,进一步提高了本申请方案的可扩展性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为相关技术中的语法文件示意图;
图2为本发明一实施例提供的智能操控实现方法流程图;
图3为本发明另一实施例提供的智能操控实现方法流程图;
图4为本发明一实施例提供的BNF语法规则示意图;
图5为本发明一实施例提供的智能操控实现装置框图;
图6为本发明一实施例提供的基于智能操控实现装置实现智能操控的流程图;
图7为本发明另一实施例提供的智能操控实现装置框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
相关技术中只能根据文本的严格对比来确定用户说了什么内容进而执行相应的操作,这种方式存在如下问题,第一,在句法规则的树形结构中,当最终端的叶子节点(即Terminal端)对应的同一类指令变化(增、删、改)时,根据文本进行匹配的过程就需要跟随做相应的改动,另一方面,当一个Rule下面对应的子Rule发生变化时(如不同的语言的语法结构并不相同),其返回结果的结构就会发生较大的改动,在提取语音识别的结果并根据结果进行操控时,原来的逻辑将不再适用,需要做全面的改造和适配,其可扩展性受到极大的影响。
本申请中,将指令和操控意图的提取进行分离,在语法文件中增加语义标签,语义标签与句式规则对应,指示满足对应的句式规则的指令的语义,在对操控信息进行识别时,获得语义标签,再根据语义标签进行操控意图的识别。这种识别方式,当指令变化时(比如,不同的语言中,同样的语义但指令不同),如果指令对应的语义未发生变化,则进行识别时获得的语义标签不会变化,相应的根据语义标签进行操控的流程不需要进行改动,方便扩展。另外,当一个Rule下的子Rule发生变化时(比如由于不同语言语法结构不同导致同一个意思的语句其语序发生变化,进行子Rule发生变化),其返回的文本指令可能会发生变化,但本申请返回的是语义标签,只要其语义相同,返回的信息不变,因此,根据语义标签进行操控意图识别,进行执行操控不需要进行改动,只需修改语法文件即可,可扩展性大大提高。
图2为本发明一实施例提供的一种智能操控实现方法的流程图,如图2所示,包括:
步骤201,配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;
步骤202,获取操控信息;
步骤203,基于所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签;
步骤204,根据所述操控信息匹配到的句式规则对应的语义标签确定操控意图。
本实施例中,将语义信息与具体的指令句式和指令文本内容隔离使其摆脱依赖关系,从而使为支持新的语音指令的识别而引起的句式规则下的子规则变化和文本指令集合的“增”、“删”、“改”不再影响语义的提取及后续的操控,这样就增加了对语音识别结果语义提取的普适性,从而增加了嵌入式语音识别的可扩展性和可配置性。
在一实施例中,还包括:步骤205,根据所述操控意图执行操控动作。
在一实施例中,步骤202中,所述操控信息包括以下至少之一:语音信息、文本信息。以语音操控为例,此时获取操控信息是指获取语音信息。当然,也可以通过文本进行智能操控。此时,操控信息为文本信息,当然,也可以二者结合进行操控。
在一实施例中,步骤201中的预定义的语法信息可以是一个BNF语法文件。所述预定义的语法信息中包括一个或多个指令,每个指令集合中包括一个或多个指令。在一实施例中,以预定义的语法信息为BNF语法文件为例,该预定义的语法信息为一树状结构,所述预定义的语法信息包括主规则、子规则和槽,其中,所述主规则包括一个或多个子规则,所述子规则包括一个或多个子规则或者包括一个或多个槽,每个槽包括一个指令集合,所述主规则、子规则、槽中至少部分存在对应的语义标签。比如,可以只有槽存在对应的语义标签。当然,也可以主规则,子规则、槽均存在对应的语义标签。
在一实施例中,基于语音信息进行操控时,在步骤201中,除配置预定义的语法信息外,还需要配置语料资源,即操控所使用的语言的相关语音资源。可以配置一种或多种语言的语料资源,从而支持多种语言的语音操控。
在一实施例中,可以将指令进行分类,将语义相同的指令作为一类,为所述指令配置一标识信息,所述标识信息用于指示所述指令的类型。比如,在打电话场景中,家庭号码、住宅、住宅号码代表一个含义,可以将其归为一类,这样,在后期判断操控意图的时候,不需要将家庭号码,住宅、住宅号码单独进行匹配比对来确定其含义,只需要根据其标识信息,即可知道其含义。步骤203中,基于所述预定义的语法信息对所述操控信息进行识别时,还获取匹配到的指令的标识信息。在确定操控意图时,根据语义标签和标识信息来确定操控意图。需要说明的是,在其他实施例中,也可以不对指令信息进行归类,直接将匹配到的指令信息与预存的信息进行比对确定其语义即可。另外,本实施例中的比对不是全部文本指令的比对,而是对识别到的文本指令中的部分指令进行比对,比如,以操控信息为打电话给张三的家庭号码为例,相关技术中,需要将打电话给张三的家庭号码进行整体匹配比对来确定其操控意图,而本实施例中,已经根据语义标签识别到意图为打电话给张三的某个号码,只需将家庭号码进行比对确定具体要拨打的号码,而不需要将整体的文本指令进行比对。如果对指令进行了分类,此处不需要进行比对,直接提取其标识信息,比如为1,根据预先定义可知1代表家庭号码,此时,直接确定操控意图为打电话给张三的家庭号码,从而进一步降低了语义识别的复杂度,而且,其可扩展性也更好,因为判断操控意图时,只根据标识信息进行判断,而不依赖于具体的文本指令,在文本指令改变时但语义相同的情况下,由于标识信息不变,无须改变操控意图的识别过程,只需修改语法文件即可。
在一实施例中,基于所述预定义的语法信息对所述操控信息进行识别时,还获取匹配到的指令,指令和语义标签存在对应关系,以BNF语法文件为例,槽对应的语义标签与该槽包括的指令存在对应关系。比如,以打电话为例,存在如下语义标签:指示当前动作为打电话的打电话语义标签,指示具体人名的语义标签,该指示具体人名的语义标签为一个槽对应的语义标签,该槽下包括张三、李四、王五等指令,则该指示具体人名的语义标签与指令张三、李四、王五存在对应关系。在步骤204中,确定操控意图时,根据语义标签和匹配到的指令确定操控意图,比如,匹配到的语义标签为:指示当前动作为打电话的打电话语义标签、指示具体人名的语义标签,匹配到的指令为呼叫、张三,此时,确定操控意图时,根据语义标签确定当前操控意图为打电话给某人,进一步根据人名的语义标签对应的指令为张三可知当前意图为打电话给张三。
在一实施例中,步骤203中,基于所述预定义的语法信息对所述操控信息进行识别时,还获取匹配到的指令,以及,指令的标识信息。步骤204中,确定操控意图时,根据匹配到的语义标签、指令和指令的标识信息确定操控意图。需要说明的是,匹配到的指令,以及指令的标识信息中的指令可以是不同的指令,比如,获取到的指令为张三,获取到的指令的标识信息是另一个指令比如家庭号码的标识信息。
实施例二
在嵌入式语音识别系统中,就功能来说,语音拨打电话是手持终端中语音助手类应用支持的基本功能,也是用户使用频率最高、能给用户带来最大便利性的功能之一,本实施例以语音拨打电话给某联系人的某个号码功能为例来对本发明进行阐述。
本实施例提供一种智能操控实现方法,如图3所示,包括:
步骤301,配置BNF语法文件;
首先根据语音产品的功能需求,设计某功能支持的语音说法,即语言特点,通过一系列层级的Rule来设计所支持的该功能句式集合,通过最终的Slot设计所支持的文本指令,这些文本指令通过Rule的规则来进行组合,组合成各种语言句式。
然后,进行语义的提取,对所涉及的Rule规则以及Slot文本指令集合添加诸如tag和id等信息。具体的,在BNF语言文件中添加如下信息:
1)在BNF语法的树形结构中针对Rule层的句式添加语义标签(tag);
一种添加的具体格式为,在该层的Rule定义后(Rule的定义包括以符号<>括起来的英文字符集以及紧跟其后的英文分号“:”),以英文标识“!tag”开始,紧接着是“()”,在“()”中以逗号分割为两部分,前一部分即以英文字符描述的tag的内容,后一部分即为该Rule对应的句式集合表述。
通过提取tag对应的内容信息即可获得该类的语义标识,此部分的主要目的是可以根据需要通过提取不同层级句式的tag信息来获取该层级的语义信息。
2)在BNF语法树形结构的各叶子节点(即Slot)处,对末端的文本指令集进行归类,将语义相同的指令归为一类,对同类文本指令都添加相同的ID进行聚类。
一种实现方式为,在各文本指令后添加形如“!id(n)”的标识,其中括号中的“n”为顺序排列的自然数,表示该指令所属的集合序号。需要说明的是,ID也可以不是自然数,或者非数字,而是其他信息,比如,预设标记等等。
对操控信息进行识别时,只需要提取该集合序号即可获取其所属的语义类别,其主要目的是达到语义信息的提取与具体指令集的大小和具体的指令文本内容解耦,从而使得文本指令集的改变可通过配置实现。
需要说明的是,上述tag和ID的添加方式仅为示例,出于同样目的其他添加方式也在本申请的保护范围之内。
下面给出一个BNF语法文件的示例。嵌入式语音识别系统中,由于用户在发起呼叫时并无其他上下文信息,我们定义场景为主场景,对应的用BNF语法描述为<main_scene>,在该场景下,对应的下面会有各层的Rule以及Slot的设计,一种实现方式如下:
可以看到,每个规则下可能会有子规则,子规则又会有自己的子规则,是个一层层的树形结构,其树形结构如图4所示,包括主规则、子规则和槽,其中,Rule<Call>为主规则,包含<CallOnly>、<CallName>、<CallYellowPage>(图4中未示出)、<CallNumber>(图4中未示出)、<CallGarbage>(图4中未示出)等几个子规则,而其中子规则又会包含它自己的子规则或者包括Slot:比如,子规则<CallName>包含<CallCmd><NameAndPhoneType>等子Rule,一层层下去,直到最后的叶子节点Slot,比如<CallCmd>,其内容为指令集合,指令集合包括一个或多个,指令如"呼叫","打电话给"等等。
在本实施例中,增加的信息主要包括两个方面,一方面,在每个层级的Rule中,增加了一个tag,并且有对应的值,如Rule<CallName>所增加的tag的值为“CALLNAME_TAG”,另一方面,在Terminal即叶子节点的Slot中,在一些情况下,还会增加标识信息id,如上例中Slot<PhoneType>,除了增加tag PHONETYPE_TAG之外,还会对其内容进行归类,对语言相同的指令,用同一个id标识,如对应家庭号码这一号码类型的不同说法,均定义其id为1。需要说明的是,在其他实施例中,也可以不增加该标识信息。需要说明的是,在其他实施例中,也可以只在部分Rule、Slot增加tag,只要能正确指示识别到的操控信息的意图即可。
在对BNF进行编辑及添加相关信息后,对其进行编译,使其由文本文件编译为机器可识别的二进制文件类型,如果编译成功,则说明语法的编辑是正确的,可以生成机器可识别的二进制文件,而如果编译失败则需要重新编辑语法,可能是语法的编写不符合文法规定,需进行调整再重新编译,直至编译通过。
对编译后的二进制文件进行加载,加载入缓存,即达到了准备好的状态,可以在语音识别的过程中使用。
步骤302,进行录音,获取用户输入的语音信息;
本实施例中,假设用户输入的语音信息为“打电话给赵麻子的家庭号码”。
步骤303,对所述语音信息进行识别,获得识别结果;
本实施例中,在进行语音识别返回识别结果时,不仅会返回识别到的对应的文本指令(以字段形式返回),还返回tag和ID;且tag和ID与返回的字段之间存在对应关系;
本实施例中,以不同字段返回“打电话给”、“赵麻子”、“的”、“家庭号码”,还会返回tag和ID,此时返回的tag为:CALL_TAG、CALLNAME_TAG、CALLCMD_TAG、NAME_TAG、PHONETYPE_TAG,以及对应的id,此时返回的为“家庭号码”对应的id,即id:1。tag与返回的字段之间存在对应关系,具体的,tag与该tag对应的slot所包含的指令之间存在对应关系,比如,CALLCMD_TAG与“打电话给”存在对应关系。NAME_TAG和“赵麻子”存在对应关系,PHONETYPE_TAG与“家庭号码”存在对应关系。
下面给出一个实例说明返回的结果。比如,以打电话给赵麻子的家庭号码为例,返回结果的一种格式如下:
/>
上述返回结果中增加的type表示字段中的信息的类型,比如为"type":"tag"表明字段里包含的是tag信息,"type":"terminal"表面字段里的是Terminal端(即槽端)的信息。即除tag和ID外,还可以根据需要增加其他冗余信息。tag与该tag对应的slot所包含的指令之间存在的对应关系通过{}的包含方式体现。当然,也可使用其他约定方式体现彼此之间的对应关系。
以“呼叫张三的移动号码”为例,可以返回如下格式的结果:
/>
/>
另外,在其他实施例中,也可能只返回tag和ID以及部分字段,或者,只返回tag,或者,只返回tag和部分字段。
步骤304,根据识别结果确定用户的操控意图;
tag和意图有对应关系,可以根据tag得到相应的意图。如通过tag:CALL_TAG,可得到用户的意图为打电话,即domain:call;通过tag:CALLNAME_TAG,可以得到用户打电话的类型是呼叫联系人,而不是呼叫黄页号码或者直接呼叫号码等,即intent:callName,通过tag:PHONETYPE_TAG,可以得到用户还指定了联系人的某个号码类型,根据PHONETYPE_TAG对应的指令为“赵麻子”,可以确定用户指定了赵麻子的某个号码类型,通过id:1,即可以得到用户指定的号码类型是家庭座机。
步骤305,根据操控意图执行操控动作。
本实施例中,已确定操控意图是打电话给赵麻子的家庭座机,此时,调用拨号模块,并在通讯录中查找到赵麻子的家庭座机号码后进行拨出。
本实施例中,对从语音识别的结果的提取和解析不依赖具体的文本字符串,而可以根据这些冗余信息来进行提取,一方面,当同一类型的指令集进行增、删、改时,只需修改语法文件,其控制逻辑可以完全不动,完成了语法与其他控制逻辑的完全剥离,如上述的号码类型中家庭号码中增加一个“固定电话”,则只需要在BNF语法文件中增加一条“固定电话”,同时其id也为1即可,其他都不需改动。另一方面,对于多语言的语音识别,如在英语语言的使用环境下,用户同样会使用拨打联系人号码的功能,则这里的tag都不做改动,<CallName>对应的规则可做调整,这是由不同语言的语法特征决定的,但由于tag:CALLNAME_TAG的存在,不管其规则做了何种调整,都可以依据此tag得到其为呼叫某人的语义结果,同样对于具体的指令,可能<CallCmd>对应的指令修改为了:"Call"、"Dial"、"Place a call to"等,但通过其tag:CALLCMD_TAG依然可得知其对应的是拨打电话的动作,同样的,<PhoneType>对应的指令可能修改为:"Home"、"Home phone number"、"Landline"等,但由于其tag和id均没有变化,则提取语义时得到用户的目的是呼叫某个联系人的某个电话号码,然后据此进行直接操控即可。这样,就改变了以往与具体识别文本匹配的流程,相关技术中,当发生诸如前述的改变时,程序的逻辑控制就不再奏效,必须进行大量的匹配和修改才能完成,而本实施例提供的方案,可以快速修改和支持。
需要说明的是,上述实施例中以语音操控为例对本申请进行说明。当操控信息为文本信息时,同样可以应用本申请。当用户输入的操控信息为文本信息时,将上述实施例中语音信息替换为文本信息即可,按照上述实施例提供的方法,识别该文本信息的操控意图进行操控。相对于语音操控,没有语音转文字的过程。
实施例三
本实施例提供一种智能操控实现装置,如图5所示,包括配置模块501、操控信息获取模块502、操控信息识别模块503和语义提取模块504,其中:
所述配置模块501设置为,配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;另外,还可根据系统语言等进行语料资源的配置。可以根据不同语言类型加载不同的BNF语法文件和语料资源,从而完成对不同语言环境下语音识别的支持。
所述操控信息获取模块502设置为,获取操控信息,将所述操控信息发送给所述操控信息识别模块;
其中,所述操控信息获取模块502可以是音频模块,将用户的语音输入进行录制和转换,得到对应的音频采样信号,其输入为用户的真实语音,而输出为一定采样率的音频数据信号。
所述操控信息识别模块503设置为,基于所述配置模块501配置的所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签,将所述语义标签发送给所述语义提取模块504;
当操控信息为语音信息时,操控信息识别模块503对该音频信号通过识别,返回文本的识别结果,语音识别为文字的具体方式此处不作赘述,可参考相关技术。
所述语义提取模块504设置为,根据所述操控信息匹配到的句式规则对应的语义标签确定操控意图。
在一实施例中,该智能操控实现装置还包括操控模块505,其中:
所述语义提取模块504还设置为,将所述操控意图发送给所述操控模块505;
所述操控模块505设置为,根据所述操控意图执行操控动作。比如用户是想打电话给联系人的家庭号码,则操控模块就会调用拨号模块,并直接找到对应联系人的该号码进行拨出,而如果用户的意图是要播放一首歌曲,则操控模块就会调用音乐播放模块,对指定的音乐进行直接的播放。
如图6所示,基于上述智能操控实现装置实现智能操控的实现如下:
步骤601,首先在设备准备好的状态下,以及上述BNF语法文件已经加载好的状态下,设备的操控信息获取模块502对用户的语音输入进行录音;
步骤602,将采样得到的音频信号送入操控信息识别模块503进行识别;
步骤603,判断是否有识别结果,如果无识别结果,即没有匹配的识别结果输出,则流程结束,可再次重新启动流程来开始语音流程,如果有识别结果(文本形式)输出,执行步骤604;
步骤604,语义提取模块504根据操控信息识别模块输出的识别结果,提取tag和ID,以及tag和ID对应的字段信息;
步骤605,语义提取模块504根据tag、ID确定用户的操控意图,输出至操控模块505;
步骤605,操控模块505根据操控意图执行操控动作,比如直接调用对应的应用模块,自动完成如拨打电话或播放音乐等操控,流程结束。
相关技术中通过识别结果中纯文本的匹配和对比来进行分析获得操控意图,使得语义的提取与文本指令强相关,而文本指令由于不同的语言以及增删改等原因不断的变化,就使得语义提取无章法可循,BNF语法文件的任何改动都将导致语义提取模块504的改动,而采用本申请的方法后,语义提取模块504可以固化,只需修改外围的配置数据以及资源文件(BNF语法文件广义的说也是资源,是以文件的形式存在)即可做到可配置和功能可扩展。
如图7所示,本发明一实施例提供一种智能操控实现装置70,包括存储器710和处理器720,所述存储器710存储有程序,所述程序在被所述处理器720读取执行时,执行上述任一实施例所述的智能操控实现方法。
本发明一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实施例所述的智能操控实现方法。
所述计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种智能操控实现方法,包括:
配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;
将所述指令集合中的指令进行分类,将语义相同的指令作为一类,为所述指令配置一标识信息,所述标识信息用于指示所述指令的类型;
获取操控信息;
基于所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签,以及,获取所述操控信息匹配到的指令,且所述匹配到的指令与所述匹配到的句式规则对应的语义标签之间存在对应关系,以及,获取所述操控信息匹配到的指令的标识信息;
根据所述操控信息匹配到的句式规则对应的语义标签和所述匹配到的指令的标识信息确定操控意图;或者,根据所述操控信息匹配到的句式规则对应的语义标签、所述匹配到的指令和所述匹配到的指令的标识信息确定操控意图;或者,根据所述操控信息匹配到的句式规则对应的语义标签和所述操控信息匹配到的指令确定操控意图;
获取所述操控信息匹配到的句式规则对应的语义标签,以及,获取所述操控信息匹配到的指令的标识信息,以及,获取所述操控信息匹配到的冗余信息;
根据所述操控信息匹配到的句式规则对应的语义标签、所述匹配到的指令的标识信息和所述匹配到的冗余信息确定操控意图。
2.如权利要求1所述的智能操控实现方法,其特征在于,所述操控信息包括以下至少之一:语音信息、文本信息。
3.如权利要求1至2任一所述的智能操控实现方法,其特征在于,所述预定义的语法信息包括主规则、子规则和槽,其中,所述主规则包括一个或多个子规则,所述子规则包括一个或多个子规则或者包括一个或多个槽,每个槽包括一个指令集合,所述主规则、子规则、槽中至少部分存在对应的语义标签。
4.如权利要求1至2任一所述的智能操控实现方法,其特征在于,所述方法还包括,根据所述操控意图执行操控动作。
5.一种智能操控实现装置,包括:配置模块、操控信息获取模块、操控信息识别模块和语义提取模块,其中:
所述配置模块设置为,配置预定义的语法信息,所述预定义的语法信息中包括句式规则和指令集合,以及与所述句式规则对应的语义标签,所述语义标签指示满足其对应的句式规则的指令的语义;
所述配置模块还设置为,将所述指令集合中的指令进行分类,将语义相同的指令作为一类,为所述指令配置标识信息,所述标识信息指示所述指令的类型;
所述操控信息获取模块设置为,获取操控信息,将所述操控信息发送给所述操控信息识别模块;
所述操控信息识别模块设置为,基于所述配置模块配置的所述预定义的语法信息对所述操控信息进行识别,获取所述操控信息匹配到的句式规则对应的语义标签,以及,获取所述操控信息匹配到的指令,且所述匹配到的指令与所述匹配到的句式规则对应的语义标签之间存在对应关系,以及,获取所述操控信息匹配到的指令对应的标识信息,将所述语义标签发送给所述语义提取模块;
所述语义提取模块设置为,根据所述操控信息匹配到的句式规则对应的语义标签和所述匹配到的指令的标识信息确定操控意图;或者,根据所述操控信息匹配到的句式规则对应的语义标签、所述匹配到的指令和所述匹配到的指令的标识信息确定操控意图;或者,根据所述操控信息匹配到的句式规则对应的语义标签和所述操控信息匹配到的指令确定操控意图;
所述操控信息识别模块还设置为,获取所述操控信息匹配到的句式规则对应的语义标签,以及,获取所述操控信息匹配到的指令的标识信息,以及,获取所述操控信息匹配到的冗余信息;
所述语义提取模块还设置为,根据所述操控信息匹配到的句式规则对应的语义标签、所述匹配到的指令的标识信息和所述匹配到的冗余信息确定操控意图。
6.如权利要求5所述的智能操控实现装置,其特征在于,所述操控信息包括以下至少之一:语音信息、文本信息。
7.如权利要求5至6任一所述的智能操控实现装置,其特征在于,所述预定义的语法信息包括主规则、子规则和槽,其中,所述主规则包括一个或多个子规则,所述子规则包括一个或多个子规则或者包括一个或多个槽,每个槽包括一个指令集合,所述主规则、子规则、槽中至少部分存在对应的语义标签。
8.如权利要求5至6任一所述的智能操控实现装置,其特征在于,所述智能操控实现装置还包括操控模块,其中,
所述语义提取模块 还设置为,将所述操控意图发送给所述操控模块;
所述操控模块设置为,根据所述操控意图执行操控动作。
9.一种智能操控实现装置,其特征在于,包括存储器和处理器,所述存储器存储有程序,所述程序在被所述处理器读取执行时,实现如权利要求1至4任一所述的智能操控实现方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至4任一所述的智能操控实现方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711208095.6A CN109841210B (zh) | 2017-11-27 | 2017-11-27 | 一种智能操控实现方法及装置、计算机可读存储介质 |
US16/756,116 US11341960B2 (en) | 2017-11-27 | 2018-11-27 | Smart control implementation method, device, and computer readable storage medium |
PCT/CN2018/117568 WO2019101205A1 (zh) | 2017-11-27 | 2018-11-27 | 一种智能操控实现方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711208095.6A CN109841210B (zh) | 2017-11-27 | 2017-11-27 | 一种智能操控实现方法及装置、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109841210A CN109841210A (zh) | 2019-06-04 |
CN109841210B true CN109841210B (zh) | 2024-02-20 |
Family
ID=66630502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711208095.6A Active CN109841210B (zh) | 2017-11-27 | 2017-11-27 | 一种智能操控实现方法及装置、计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11341960B2 (zh) |
CN (1) | CN109841210B (zh) |
WO (1) | WO2019101205A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397060B (zh) * | 2019-07-31 | 2024-02-23 | 北京声智科技有限公司 | 一种语音指令处理方法、系统、设备及介质 |
CN110517688A (zh) * | 2019-08-20 | 2019-11-29 | 合肥凌极西雅电子科技有限公司 | 一种语音关联提示系统 |
CN110738044B (zh) * | 2019-10-17 | 2023-09-22 | 杭州涂鸦信息技术有限公司 | 控制意图识别方法及装置、电子设备和存储介质 |
CN111833872B (zh) * | 2020-07-08 | 2021-04-30 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
CN114500038A (zh) * | 2022-01-24 | 2022-05-13 | 深信服科技股份有限公司 | 网络安全检测方法、装置、电子设备及可读存储介质 |
CN114860942B (zh) * | 2022-07-05 | 2022-10-04 | 北京云迹科技股份有限公司 | 文本意图分类方法、装置、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
JP2000259628A (ja) * | 1999-03-08 | 2000-09-22 | Atr Interpreting Telecommunications Res Lab | 音声理解装置及び音声理解システム |
CN1560834A (zh) * | 2004-03-09 | 2005-01-05 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的语法描述与识别分析的方法 |
JP2012255867A (ja) * | 2011-06-08 | 2012-12-27 | Toyota Motor Corp | 音声認識装置 |
CN103294666A (zh) * | 2013-05-28 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 语法编译方法、语义解析方法以及对应装置 |
CN103945044A (zh) * | 2013-01-22 | 2014-07-23 | 中兴通讯股份有限公司 | 一种信息处理方法和移动终端 |
US9280326B1 (en) * | 2004-05-26 | 2016-03-08 | Synopsys, Inc. | Compiler retargeting based on instruction semantic models |
CN106372054A (zh) * | 2015-07-24 | 2017-02-01 | 中兴通讯股份有限公司 | 一种多语言语义解析的方法和装置 |
WO2017084360A1 (zh) * | 2015-11-17 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种用于语音识别方法及系统 |
CN107247613A (zh) * | 2017-04-25 | 2017-10-13 | 北京航天飞行控制中心 | 语句解析方法及语句解析装置 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001041125A1 (fr) * | 1999-12-02 | 2001-06-07 | Thomson Licensing S.A | Reconnaissance de parole avec un modele de lagage complementaire pour les erreurs types du dialogue parle |
US7389234B2 (en) * | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
US6785643B2 (en) * | 2001-10-15 | 2004-08-31 | Motorola, Inc. | Chart parsing using compacted grammar representations |
JP4579595B2 (ja) * | 2004-06-29 | 2010-11-10 | キヤノン株式会社 | 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体 |
US20110055188A1 (en) * | 2009-08-31 | 2011-03-03 | Seaton Gras | Construction of boolean search strings for semantic search |
US8515757B2 (en) * | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
CN101430713A (zh) * | 2008-11-24 | 2009-05-13 | 南京大学 | 一种基于扩展Tag云的高效数据查找方法 |
US9489457B2 (en) * | 2011-07-14 | 2016-11-08 | Nuance Communications, Inc. | Methods and apparatus for initiating an action |
CN105843797A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 归一化方法及装置 |
US10540966B2 (en) * | 2016-11-02 | 2020-01-21 | Genesys Telecommunications Laboratories, Inc. | System and method for parameterization of speech recognition grammar specification (SRGS) grammars |
-
2017
- 2017-11-27 CN CN201711208095.6A patent/CN109841210B/zh active Active
-
2018
- 2018-11-27 WO PCT/CN2018/117568 patent/WO2019101205A1/zh active Application Filing
- 2018-11-27 US US16/756,116 patent/US11341960B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
JP2000259628A (ja) * | 1999-03-08 | 2000-09-22 | Atr Interpreting Telecommunications Res Lab | 音声理解装置及び音声理解システム |
CN1560834A (zh) * | 2004-03-09 | 2005-01-05 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的语法描述与识别分析的方法 |
US9280326B1 (en) * | 2004-05-26 | 2016-03-08 | Synopsys, Inc. | Compiler retargeting based on instruction semantic models |
JP2012255867A (ja) * | 2011-06-08 | 2012-12-27 | Toyota Motor Corp | 音声認識装置 |
CN103945044A (zh) * | 2013-01-22 | 2014-07-23 | 中兴通讯股份有限公司 | 一种信息处理方法和移动终端 |
CN103294666A (zh) * | 2013-05-28 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 语法编译方法、语义解析方法以及对应装置 |
CN106372054A (zh) * | 2015-07-24 | 2017-02-01 | 中兴通讯股份有限公司 | 一种多语言语义解析的方法和装置 |
WO2017084360A1 (zh) * | 2015-11-17 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种用于语音识别方法及系统 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN107247613A (zh) * | 2017-04-25 | 2017-10-13 | 北京航天飞行控制中心 | 语句解析方法及语句解析装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200320986A1 (en) | 2020-10-08 |
CN109841210A (zh) | 2019-06-04 |
WO2019101205A1 (zh) | 2019-05-31 |
US11341960B2 (en) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841210B (zh) | 一种智能操控实现方法及装置、计算机可读存储介质 | |
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
CN112100349B (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
CN104485107B (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN105469789A (zh) | 一种语音信息的处理方法及终端 | |
US20210304789A1 (en) | Emotion-based voice interaction method, storage medium and terminal device | |
CN111178076B (zh) | 命名实体识别与链接方法、装置、设备及可读存储介质 | |
CN108121455A (zh) | 识别纠正方法及装置 | |
CN111326154A (zh) | 语音交互的方法、装置、存储介质及电子设备 | |
KR20080083290A (ko) | 디지털 파일의 컬렉션에서 디지털 파일을 액세스하기 위한방법 및 장치 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN104485106A (zh) | 语音识别方法、语音识别系统和语音识别设备 | |
CN108763202A (zh) | 识别敏感文本的方法、装置、设备及可读存储介质 | |
CN113268593A (zh) | 意图分类和模型的训练方法、装置、终端及存储介质 | |
CN112149403A (zh) | 一种确定涉密文本的方法和装置 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
CN104038637A (zh) | 一种铃声播放方法、装置及移动终端 | |
WO2022143349A1 (zh) | 一种确定用户意图的方法及装置 | |
CN111831823B (zh) | 一种语料生成、模型训练方法 | |
CN114385791A (zh) | 基于人工智能的文本扩充方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |