CN106992001B - 语音指令的处理方法、装置和系统 - Google Patents
语音指令的处理方法、装置和系统 Download PDFInfo
- Publication number
- CN106992001B CN106992001B CN201710198630.8A CN201710198630A CN106992001B CN 106992001 B CN106992001 B CN 106992001B CN 201710198630 A CN201710198630 A CN 201710198630A CN 106992001 B CN106992001 B CN 106992001B
- Authority
- CN
- China
- Prior art keywords
- text information
- instruction
- text
- semantic analysis
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明提出一种语音指令的处理方法和装置,其中,该方法包括:对语音指令进行语音识别,以生成语音指令的文本信息;对文本信息进行语义解析,以获取文本信息的语义解析结果;判断根据文本信息的语义解析结果是否能够执行对应的操作;若判断根据文本信息的语义解析结果不能执行对应的操作,则进一步判断文本信息是否为指令文本数据;若判断文本信息为指令文本数据,则对文本信息进行修正,以获取修正后的文本信息;对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,减少了用户的操作,提高了用户的交互体验。
Description
技术领域
本发明涉及语音技术领域,特别涉及一种语音指令的处理方法、装置和系统。
背景技术
人工智能(Artificial Intelligence,英文缩写为AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着人工智能的发展,语音智能交互系统也越加广泛的应用到人们的日常生活,如语音交互电视,车载语音交互系统等等,人们可通过语音方式的来解放双手。在语音指令交互中,语音智能交互系统能否正确理解用户的语言输入,是其智能水平的一个重要的外在体现。
相关技术中,语音智能交互系统在获取语音指令的语音识别结果后,通过语义解析模块对语音识别结果进行语义解析,然后,指令执行模块根据语义解析结果执行对应的操作。然而,在一些场景中,有时会出现指令执行模块根据语义解析结果无法执行对应的操作的情况,例如语音识别结果出现个别错误,语音智能交互系统可能给用户返回不相关的结果,此时,用户需要调整输入的语音指令,并向语音智能交互系统再次输入对应的语音指令,语音智能交互系统需要再次对语音指令进行处理,不仅造成处理资源的浪费,而且影响了用户的交互体验。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种语音指令的处理方法,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
本发明的第二个目的在于提出一种语音指令的处理装置。
本发明的第三个目的在于提出一种语音交互系统。
本发明的第四个目的在于提出一种语音指令的处理装置。
本发明的第五个目的在于提出一种非易失性计算机存储介质。
本发明的第六个目的在于提出一种计算机程序产品。
为达上述目的,根据本发明第一方面实施例提出了一种语音指令的处理方法,包括以下步骤:对语音指令进行语音识别,以生成所述语音指令的文本信息;对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;判断根据所述文本信息的语义解析结果是否能够执行对应的操作;若判断根据所述文本信息的语义解析结果不能执行对应的操作,则进一步判断所述文本信息是否为指令文本数据;若判断所述文本信息为指令文本数据,则对所述文本信息进行修正,以获取修正后的文本信息;对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作。
本发明实施例的语音指令的处理方法,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
为达上述目的,本发明第二方面实施例提出了一种语音指令的处理装置,包括:语音识别模块,用于对语音指令进行语音识别,以生成所述语音指令的文本信息;语义解析模块,用于对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;第一判断模块,用于判断根据所述文本信息的语义解析结果是否能够执行对应的操作;第二判断模块,用于在判断根据所述文本信息的语义解析结果不能执行对应的操作时,进一步判断所述文本信息是否为指令文本数据;修正模块,用于在判断所述文本信息为指令文本数据时,对所述文本信息进行修正,以获取修正后的文本信息;处理模块,用于对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作。
本发明实施例的语音指令的处理装置,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
本发明第三方面实施例提供了一种语音交互系统,包括本发明第二方面实施例的语音指令的处理装置。
本发明实施例的语音交互系统,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
本发明第四方面实施例提供了一种语音指令的处理装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:对语音指令进行语音识别,以生成所述语音指令的文本信息;对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;判断根据所述文本信息的语义解析结果是否能够执行对应的操作;若判断根据所述文本信息的语义解析结果不能执行对应的操作,则进一步判断所述文本信息是否为指令文本数据;若判断所述文本信息为指令文本数据,则对所述文本信息进行修正,以获取修正后的文本信息;对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作。
本发明第五方面实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备执行以本发明第一方面实施例的语音指令的处理方法。
本发明第六方面实施例提供了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种语音指令的处理方法,所述方法包括:对语音指令进行语音识别,以生成所述语音指令的文本信息;对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;判断根据所述文本信息的语义解析结果是否能够执行对应的操作;若判断根据所述文本信息的语义解析结果不能执行对应的操作,则进一步判断所述文本信息是否为指令文本数据;若判断所述文本信息为指令文本数据,则对所述文本信息进行修正,以获取修正后的文本信息;对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的语音指令的处理方法的流程图;
图2为根据本发明一个实施例的语音指令的处理装置的结构示意图;
图3为根据本发明一个具体实施例的语音指令的处理系统中各个模块交互的示意图;
图4为包含采用本发明策略和未采用本发明策略的语音指令的处理系统在交互纠错指令正确率的对比的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的语音指令的处理方法、装置和系统。
图1为根据本发明一个实施例的语音指令的处理方法的流程图。其中,需要说明的是,该实施例的语音指令的处理方法应用在具有语音交互系统的终端中,其中,终端可以例如是个人计算机、手机、平板电脑、车载终端等具有各种操作系统的硬件设备,终端提供了人机语音交互接口来为用户提供语音服务。
如图1所示,根据本发明实施例的语音指令的处理方法,包括以下步骤。
S11,对语音指令进行语音识别,以生成语音指令的文本信息。
在用户有语音交互需求时,可向人机语音交互接口输入语音指令,然后,对语音指令进行语音识别,以生成语音指令的文本信息。
S12,对文本信息进行语义解析,以获取文本信息的语义解析结果。
其中,对文本信息进行语义解析的过程,即可理解为对输入文本信息进行解析,将语言文本转换为结构化的语义结构文本,甚至转化为更加确切的机器能够理解和操作的数据形式,以达到机器能够“理解”人的语言的效果和目的。
举例而言,假设获取语音指令对应的文本信息为“播放甄子丹的叶问”,对该文本信息进行语义解析,所获得的语义解析结果如下所示:
再例如,假设获取语音指令对应的文本信息为“在五道口后边接上地铁站”,对该文本信息进行语义解析,所获得的语义解析结果如下所示:
其中,需要说明的是,可通过现有技术实现对语音指令的文本信息进行的语义解析,此处不再赘述。
S13,判断根据文本信息的语义解析结果是否能够执行对应的操作。
作为一种示例性的实施方式,在获取文本信息的语义解析结果后,可判断语义解析结果中是否存执行对应的操作所需要的操作参数,若没有,则判定根据文本信息的语义解析结果不能执行对应的操作,即,确定文本信息的语义解析结果为空。
作为一种示例性的实施方式,在获取文本信息的语义解析结果后,可判断语义解析结果中是否存执行对应的操作所需要的操作参数,则进一步确定根据操作所需要的操作参数是否能够完成对应的操作,若不能,则判定根据文本信息的语义解析结果不能执行对应的操作,即,根据解析结果无法执行相应的动作,完成语音指令所指示的任务。
举例而言,假设待编辑文本为“他爸是老师”,获取语音指令对应的文本信息为“爸爸改成妈”,在获取该文本信息的语义解析结果后,由于待编辑文本中不存在“爸爸”,因此,通过该语义解析结果无法完成对待编辑文本的修改操作,此时,可确定根据文本信息的语义解析结果不能执行对编辑文本的修改操作。
S14,若判断根据文本信息的语义解析结果不能执行对应的操作,则进一步判断文本信息是否为指令文本数据。
在本发明的一个实施例中,在确定根据文本信息的语义解析结果不能执行对应的操作时,可基于预先训练的卷积神经网络模型,判断文本信息是否为指令文本数据。也就是说,将文本信息输入至预先训练的卷积神经网络模型,通过预先训练的卷积神经网络模型判定文本信息是否为指令文本数据。
其中,卷积神经网络模型是基于指令文本数据和非指令文本数据进行训练而得到的。
其中,指令文本数据是指包含指令句式的文本数据。
作为一种示例性的实施方式,训练卷积神经网络模型的过程为:首先收集指令文本数据和非指令文本数据,然后,通过CNN(Convolutional Neural Network,卷积神经网络)对收集指令文本数据和非指令文本数据进行训练,以生成卷积神经网络模型。
具体而言,首先收集指令文本数据和非指令文本数据,分别作为正样本(label为1)和负样本(label为0);然后,基于paddle(paddle,一种开源的深度学习框架)的深度学习平台,将训练数据进行格式转换,以转换为paddle可接收的数据格式;最后,配置CNN(Convolutional Neural Network,卷积神经网络)的文本分类网络结构,并通过该网络结构对指令文本数据和非指令文本数据进行模型训练,以生成卷积神经网络模型。
其中,需要理解的是,若判断根据文本信息的语义解析结果不能执行对应的操作,则直接根据语义解析结果执行对应的操作。
S15,若判断文本信息为指令文本数据,则对文本信息进行修正,以获取修正后的文本信息。
在本发明的一个实施例中,可通过多种方式对文本信息进行修正,以获取修正后的文本信息,可以根据实际应用需要进行选择,本实施例对此不作限制,举例说明如下:
方式一,根据指令文本修正规则对文本信息进行修正,以获取修正后的文本信息。
其中,指令文本修正规则是基于指令句式和高频错误信息预先编写的规则。
具体而言,在判断文本信息为指令文本数据时,可根据指令文本匹配规则定位出文本信息中错误的指令关键词,通过高频错误信息对错误的指令关键词进行改写,以生成修正后的文本信息。
其中,指令文本匹配规则是根据句式信息、拼音信息、语音识别错误规律信息等信息预先总结出的规则。
举例而言,假设语音指令为“把爸改成妈妈”,由于语音识别错误被识别成“爸爸改成妈妈”(错误的指令文本数据),属于同音字识别错误,在判断文本信息为指令文本数据时后,把错误的指令文本数据和指令文本匹配规则做模式匹配,可确定该指令文本数据对应的规则是“【ba】【X】【改成】【X】”,此时,可以根据规则信息把“【ba】”对应的第一个“爸”改写成正确的指令关键词“把”,修正后的文本信息为“把爸改成妈妈”。
方式二,基于预先训练的指令文本修正模型,对文本信息进行修正,以获取修正后的文本信息。
其中,指令文本修正模型是通过收集指令文本纠错对,并对指令文本纠错对进行训练得到的。
具体而言,在判断文本信息为指令文本数据时,可将文本信息输入至指令文本修正模型,指令文本修正模型可利用序列标注直接将错误的文本信息改写为正确的指令文本。
方式三,将文本信息发送至修正人员的终端,以使修正人员对文本信息进行修正,然后,接收终端发送的修正后的文本信息。
S16,对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。
举例而言,假设由于语音识别指令关键字错误导致指令无法被正确理解,且获得语音指令对应的文本信息为“再说前边加上单人旁的他”,根据该文本信息对应的语义解析结果无法执行在说前边加上单人旁的他的意图,此时,可通过预先训练的指令文本修正模型或者指令文本修正规则对该文本信息进行修正,假设获得修正后的文本信息为“在说前边加上单人旁的他”,再根据该修正后的文本信息进行语义解析后,根据该修正后的文本信息对应的语义解析结果即可执行“在说前边加上单人旁的他”的操作。
再例如,假设待编辑文本为“他爸是老师”,获取语音指令对应的文本信息为“爸爸改成妈”,在获取该文本信息的语义解析结果后,由于待编辑文本中不存在“爸爸”,因此,通过该语义解析结果无法完成对待编辑文本的修改操作,此时,可确定根据文本信息的语义解析结果不能执行对编辑文本的修改操作,假设通过预先训练的指令文本修正模型或者指令文本修正规则对该文本信息进行修正,所获得的修正后的文本信息为“把爸改成妈”,根据该修正后的文本信息进行语义解析后,即可实现对待编辑文本的修改操作。
综上所述,本发明实施例的语音指令的处理方法,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
为了实现上述实施例,本发明还提出一种语音指令的处理装置。
图2为根据本发明一个实施例的语音指令的处理装置的结构示意图。
如图2所示,根据本发明实施例的语音指令的处理装置可以包括语音识别模块110、第一语义解析模块120、第一判断模块130、第二判断模块140、修正模块150和处理模块160,其中:
语音识别模块110用于对语音指令进行语音识别,以生成语音指令的文本信息。
第一语义解析模块120用于对文本信息进行语义解析,以获取文本信息的语义解析结果。
第一判断模块130用于判断根据文本信息的语义解析结果是否能够执行对应的操作。
第二判断模块140用于在判断根据文本信息的语义解析结果不能执行对应的操作时,进一步判断文本信息是否为指令文本数据。
修正模块150用于在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息。
处理模块160用于对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。
在本发明的一个实施例中,第二判断模块140具体用于:基于预先训练的卷积神经网络模型,判断文本信息是否为指令文本数据。
其中,卷积神经网络模型是基于指令文本数据和非指令文本数据进行训练而得到的。
其中,指令文本数据是指包含指令句式的文本数据。
在本发明的一个实施例中,修正模块150具体用于:根据指令文本修正规则对文本信息进行修正,以获取修正后的文本信息。
在本发明的另一个实施例中,修正模块150具体用于:基于预先训练的指令文本修正模型,对文本信息进行修正,以获取修正后的文本信息。
其中,指令文本修正模型是通过收集指令文本纠错对,并对指令文本纠错对进行训练得到的。
具体而言,在判断文本信息为指令文本数据时,修正模块150可将文本信息输入至指令文本修正模型,指令文本修正模型可利用序列标注直接将错误的文本信息改写为正确的指令文本。
在本发明的一个实施例中,修正模块150具体用于:根据指令文本匹配规则定位出文本信息中错误的指令关键词;通过高频错误信息对错误的指令关键词进行改写,以生成修正后的文本信息。
其中,需要说明的是,前述对语音指令的处理方法的解释说明也适用于该实施例的语音指令的处理装置,此处不再赘述。
本发明实施例的语音指令的处理装置,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
为了实现上述实施例,本发明还提出一种语音指令的处理系统。
该实施例的语音指令的处理系统可以包括本发明第二方面实施例的语音指令的处理装置。
其中,需要说明的是,前述对语音指令的处理装置的解释说明也适用于该实施例的语音指令的处理系统,此处不再赘述。
本发明实施例的语音指令的处理系统,在确定根据语音指令的文本信息的语义解析结果不能够执行对应的操作时,进一步判断文本信息是否为指令文本数据,并在判断文本信息为指令文本数据时,对文本信息进行修正,以获取修正后的文本信息,并对修正后的文本信息进行语义解析,以及根据修正后的文本信息的语义解析结果执行对应的操作。由此,实现了对不能执行对应的操作的文本信息的修正,并基于修正后的文本的语义解析结果即可执行对应的操作,减少了用户的操作,提高了用户的交互体验。
图3为根据本发明一个具体实施例的语音指令的处理系统中各个模块交互的示意图。
如图3所示,语音指令的处理系统可以包括语音识别模块110、语义解析模块120、第一判断模块130、第二判断模块140、修正模块150、处理模块160、判定日志存储模块170和人工干预模块180。
通过3可以看出,该语义解析模块120基于语义解析资源模型对语音指令进行语义解析。
其中,判定日志存储模块170用于保存通过预先训练的指令文本修正模型或者指令文本匹配规则无法修正的文本信息。
人工干预模块180用于通过人工的方式对超出该系统解析能力的文本信息进行分析归档,并根据分析结果对语义解析资源模型、指令文本修正模型和指令文本匹配规则进行更新,使得该系统整体的指令理解能力得到优化。
其中,包含采用本发明策略和未采用本发明策略的语音指令的处理系统在交互纠错指令正确率的对比的示意图,如图4所示,通过图4可以看出,通过采用本发明策略的语音指令的处理系统相对于未采用本发明策略的语音指令的处理系统而言,采用本发明策略的语音指令的处理系统能够很大程度上改进语音识别操作和错误情况下指令解析和执行的成功率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种语音指令的处理方法,其特征在于,包括以下步骤:
对语音指令进行语音识别,以生成所述语音指令的文本信息;
对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;
判断根据所述文本信息的语义解析结果是否能够执行对应的操作;
若判断根据所述文本信息的语义解析结果不能执行对应的操作,则进一步判断所述文本信息是否为指令文本数据;
若判断所述文本信息为指令文本数据,则对所述文本信息进行修正,以获取修正后的文本信息;
对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作;
所述对所述文本信息进行修正,以获取修正后的文本信息,包括:
根据指令文本修正规则对所述文本信息进行修正,以获取修正后的文本信息;
所述根据指令文本修正规则对所述文本信息进行修正,以获取修正后的文本信息,包括:
根据指令文本匹配规则定位出所述文本信息中错误的指令关键词;
通过高频错误信息对错误的指令关键词进行改写,以生成修正后的文本信息。
2.如权利要求1所述的方法,其特征在于,所述判断所述文本信息是否为指令文本数据,包括:
基于预先训练的卷积神经网络模型,判断所述文本信息是否为指令文本数据。
3.如权利要求1所述的方法,其特征在于,所述对所述文本信息进行修正,以获取修正后的文本信息,包括:
基于预先训练的指令文本修正模型,对所述文本信息进行修正,以获取修正后的文本信息。
4.一种语音指令的处理装置,其特征在于,包括:
语音识别模块,用于对语音指令进行语音识别,以生成所述语音指令的文本信息;
语义解析模块,用于对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;
第一判断模块,用于判断根据所述文本信息的语义解析结果是否能够执行对应的操作;
第二判断模块,用于在判断根据所述文本信息的语义解析结果不能执行对应的操作时,进一步判断所述文本信息是否为指令文本数据;
修正模块,用于在判断所述文本信息为指令文本数据时,对所述文本信息进行修正,以获取修正后的文本信息;
处理模块,用于对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作;
所述修正模块,具体用于:
根据指令文本修正规则对所述文本信息进行修正,以获取修正后的文本信息;
所述修正模块,具体用于:
根据指令文本匹配规则定位出所述文本信息中错误的指令关键词;
通过高频错误信息对错误的指令关键词进行改写,以生成修正后的文本信息。
5.如权利要求4所述的装置,其特征在于,所述第二判断模块,具体用于:
基于预先训练的卷积神经网络模型,判断所述文本信息是否为指令文本数据。
6.如权利要求4所述的装置,其特征在于,所述修正模块,具体用于:
基于预先训练的指令文本修正模型,对所述文本信息进行修正,以获取修正后的文本信息。
7.一种语音交互系统,其特征在于,所述系统包括如权利要求4-6任一项所述的语音指令的处理装置。
8.一种语音指令的处理装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对语音指令进行语音识别,以生成所述语音指令的文本信息;
对所述文本信息进行语义解析,以获取所述文本信息的语义解析结果;
判断根据所述文本信息的语义解析结果是否能够执行对应的操作;
若判断根据所述文本信息的语义解析结果不能执行对应的操作,则进一步判断所述文本信息是否为指令文本数据;
若判断所述文本信息为指令文本数据,则对所述文本信息进行修正,以获取修正后的文本信息;
对修正后的文本信息进行语义解析,以及根据所述修正后的文本信息的语义解析结果执行对应的操作;
所述对所述文本信息进行修正,以获取修正后的文本信息,包括:
根据指令文本修正规则对所述文本信息进行修正,以获取修正后的文本信息;
所述根据指令文本修正规则对所述文本信息进行修正,以获取修正后的文本信息,包括:
根据指令文本匹配规则定位出所述文本信息中错误的指令关键词;
通过高频错误信息对错误的指令关键词进行改写,以生成修正后的文本信息。
9.一种非易失性计算机存储介质,所述计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备执行如权利要求1-3任一项所述的语音指令的处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198630.8A CN106992001B (zh) | 2017-03-29 | 2017-03-29 | 语音指令的处理方法、装置和系统 |
US15/834,760 US10395656B2 (en) | 2017-03-29 | 2017-12-07 | Method and device for processing speech instruction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198630.8A CN106992001B (zh) | 2017-03-29 | 2017-03-29 | 语音指令的处理方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106992001A CN106992001A (zh) | 2017-07-28 |
CN106992001B true CN106992001B (zh) | 2020-05-22 |
Family
ID=59413408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710198630.8A Active CN106992001B (zh) | 2017-03-29 | 2017-03-29 | 语音指令的处理方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10395656B2 (zh) |
CN (1) | CN106992001B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN107697005A (zh) * | 2017-08-28 | 2018-02-16 | 芜湖市振华戎科智能科技有限公司 | 一种汽车智能控制系统 |
KR102441067B1 (ko) * | 2017-10-12 | 2022-09-06 | 현대자동차주식회사 | 차량의 사용자 입력 처리 장치 및 사용자 입력 처리 방법 |
CN108021554A (zh) * | 2017-11-14 | 2018-05-11 | 无锡小天鹅股份有限公司 | 语音识别方法、装置以及洗衣机 |
CN109800407B (zh) * | 2017-11-15 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN108376129B (zh) * | 2018-01-24 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
WO2020062175A1 (en) * | 2018-09-29 | 2020-04-02 | Orange | Discovery of internet-of-things resources |
CN111063344B (zh) * | 2018-10-17 | 2022-06-28 | 青岛海信移动通信技术股份有限公司 | 一种语音识别方法、移动终端以及服务器 |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
CN111292751B (zh) * | 2018-11-21 | 2023-02-28 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN109949797B (zh) * | 2019-03-11 | 2021-11-12 | 北京百度网讯科技有限公司 | 一种训练语料的生成方法、装置、设备及存储介质 |
CN112257434B (zh) * | 2019-07-02 | 2023-09-08 | Tcl科技集团股份有限公司 | 一种无人机控制方法、系统、移动终端及存储介质 |
CN110543555A (zh) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | 一种用于智能客服中的标问召回方法和装置 |
CN110517689B (zh) * | 2019-08-28 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
CN110717031B (zh) * | 2019-10-15 | 2021-05-18 | 南京摄星智能科技有限公司 | 一种智能会议纪要生成方法和系统 |
CN111128144A (zh) * | 2019-10-16 | 2020-05-08 | 国网浙江省电力有限公司金华供电公司 | 一种语音电网调度系统及方法 |
CN111312230B (zh) * | 2019-11-27 | 2023-10-20 | 南京创维信息技术研究院有限公司 | 一种用于语音对话平台的语音交互监测方法及装置 |
CN111125346B (zh) * | 2019-12-26 | 2022-07-08 | 思必驰科技股份有限公司 | 语义资源的更新方法及系统 |
CN111462741B (zh) * | 2020-03-02 | 2024-02-02 | 北京声智科技有限公司 | 语音数据处理方法、装置及存储介质 |
US11727085B2 (en) | 2020-04-06 | 2023-08-15 | Samsung Electronics Co., Ltd. | Device, method, and computer program for performing actions on IoT devices |
CN111653276B (zh) * | 2020-06-22 | 2022-04-12 | 四川长虹电器股份有限公司 | 一种语音唤醒系统及方法 |
CN112382280A (zh) * | 2020-11-10 | 2021-02-19 | 深圳供电局有限公司 | 一种语音交互方法及设备 |
CN112750434B (zh) * | 2020-12-16 | 2021-10-15 | 马上消费金融股份有限公司 | 一种语音识别系统的优化方法、装置及电子设备 |
CN115188013B (zh) * | 2022-09-14 | 2023-06-30 | 泰豪信息技术有限公司 | 一种判决书的风险防控方法、系统、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4537755B2 (ja) * | 2004-04-30 | 2010-09-08 | 株式会社日立製作所 | 音声対話システム |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106373566A (zh) * | 2016-08-25 | 2017-02-01 | 深圳市元征科技股份有限公司 | 数据传输控制方法及装置 |
CN106534548A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 语音纠错方法和装置 |
JP6251958B2 (ja) * | 2013-01-28 | 2017-12-27 | 富士通株式会社 | 発話解析装置、音声対話制御装置、方法、及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060184364A1 (en) * | 2005-02-16 | 2006-08-17 | Anuthep Benja-Athon | System of influencing health-care utilizations |
US6314398B1 (en) * | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US20050234727A1 (en) * | 2001-07-03 | 2005-10-20 | Leo Chiu | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response |
TW559783B (en) * | 2002-05-31 | 2003-11-01 | Ind Tech Res Inst | Error-tolerant natural language understanding system and method integrating with confidence measure |
US8219407B1 (en) * | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
KR101556594B1 (ko) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
KR20130135410A (ko) * | 2012-05-31 | 2013-12-11 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 방법 및 그 전자 장치 |
CN103578469A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种展示语音识别结果的方法及装置 |
US10176219B2 (en) * | 2015-03-13 | 2019-01-08 | Microsoft Technology Licensing, Llc | Interactive reformulation of speech queries |
CN105094717B (zh) * | 2015-07-15 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 基于语音输入的打印方法、打印装置和打印机 |
-
2017
- 2017-03-29 CN CN201710198630.8A patent/CN106992001B/zh active Active
- 2017-12-07 US US15/834,760 patent/US10395656B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4537755B2 (ja) * | 2004-04-30 | 2010-09-08 | 株式会社日立製作所 | 音声対話システム |
JP6251958B2 (ja) * | 2013-01-28 | 2017-12-27 | 富士通株式会社 | 発話解析装置、音声対話制御装置、方法、及びプログラム |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
CN106297797A (zh) * | 2016-07-26 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106373566A (zh) * | 2016-08-25 | 2017-02-01 | 深圳市元征科技股份有限公司 | 数据传输控制方法及装置 |
CN106534548A (zh) * | 2016-11-17 | 2017-03-22 | 科大讯飞股份有限公司 | 语音纠错方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US10395656B2 (en) | 2019-08-27 |
CN106992001A (zh) | 2017-07-28 |
US20180286396A1 (en) | 2018-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106992001B (zh) | 语音指令的处理方法、装置和系统 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN112287670A (zh) | 文本纠错方法、系统、计算机设备及可读存储介质 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN111145732B (zh) | 多任务语音识别后的处理方法及系统 | |
CN112199477A (zh) | 对话管理方案和对话管理语料的构建方法 | |
CN112183055A (zh) | 结合rpa和ai的信息获取方法、装置、计算机设备及介质 | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN110019305B (zh) | 知识库扩展方法及存储介质、终端 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN106708950B (zh) | 用于智能机器人自学习系统的数据处理方法及装置 | |
CN115587598A (zh) | 多轮对话改写方法、设备及介质 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN110110050B (zh) | 一种新闻事件生成式问答数据集的生成方法 | |
CN111312230A (zh) | 用于语音对话平台的语音交互监测方法及装置 | |
CN115116069A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN112836522B (zh) | 语音识别结果的确定方法及装置、存储介质及电子装置 | |
CN114036268A (zh) | 基于意图门的任务型多轮对话方法及系统 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 | |
CN114492457B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN113392645B (zh) | 一种韵律短语边界预测方法、装置、电子设备和存储介质 | |
CN111797636B (zh) | 离线语义解析方法及系统 | |
CN111722720B (zh) | 人机交互方法、装置及终端 | |
CN114611523A (zh) | 一种命令采集方法、装置和智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |