CN103077714B - 信息的识别方法和装置 - Google Patents

信息的识别方法和装置 Download PDF

Info

Publication number
CN103077714B
CN103077714B CN201310034262.5A CN201310034262A CN103077714B CN 103077714 B CN103077714 B CN 103077714B CN 201310034262 A CN201310034262 A CN 201310034262A CN 103077714 B CN103077714 B CN 103077714B
Authority
CN
China
Prior art keywords
order
text
word
label
order word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310034262.5A
Other languages
English (en)
Other versions
CN103077714A (zh
Inventor
蒋洪睿
王细勇
梁俊斌
郑伟军
周均扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN201310034262.5A priority Critical patent/CN103077714B/zh
Publication of CN103077714A publication Critical patent/CN103077714A/zh
Priority to PCT/CN2014/070489 priority patent/WO2014117645A1/zh
Priority to EP14745447.4A priority patent/EP2869298A4/en
Priority to US14/585,959 priority patent/US9390711B2/en
Application granted granted Critical
Publication of CN103077714B publication Critical patent/CN103077714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种信息的识别方法和装置。该方法包括:终端接收语音信息,从所述语音信息中提取语音特征;将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。本发明实施例实现了终端将用户输入的语音信息对应的文本信息识别为操作指令。

Description

信息的识别方法和装置
技术领域
本发明涉及信息技术领域,尤其涉及一种信息的识别方法和装置。
背景技术
语音识别技术是一种将人类的语音输入转换为计算机指令的一种技术,使用语音识别技术可以实现自然的人机互动。目前,随着语音识别技术的发展,很多终端可以实现语音拨号、语音导航、语音控制、语音检索、简单的听写录入等功能。
在现有技术下,终端接收到输入语音信息后,可以将语音信息通过网络发送至云端服务器,由云端服务器完成语音信息的识别。然而,使用云端服务器识别语音信息,用户需要将一些个人信息上传到云端服务器,从而降低用户信息的安全性;另外,终端和云端服务器的交互需要使用网络,这增加了语音识别的局限性,而且消耗用户的网络流量,在网络拥挤时还会增加语音识别的时延,影响用户的体验效果。
发明内容
本发明实施例提供了一种信息的识别方法和装置,可以实现终端根据两命令词槽识别文法或多命令词槽识别文法来对语音信息进行命令词拆分,并根据拆分后的至少一个命令词来识别语音信息对应的操作指令,提供了一种信息的识别方法,同样的命令词数量可以识别出更多的语音输入内容,提高了用户的体验效果。
第一方面,本发明实施例提供了一种信息的识别方法,所述方法包括:
接收语音信息,从所述语音信息中提取语音特征;
将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;
根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
在第一种可能的实现方式中,所述将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算具体包括:对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。
结合第一方面,在第二种可能的实现方式中,所述根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令具体包括:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。
结合第一方面,在第三种可能的实现方式中,所述接收语音信息,从所述语音信息中提取语音特征之前,还包括:根据识别文法网络,在多个命令词槽中选择命令词生成所述多个候选文本。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令包括:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
第二方面,本发明实施例提供了一种信息的识别装置,所述装置包括:
接收单元,用于接收语音信息,从所述语音信息中提取语音特征,将所述语音特征传输至匹配单元;
匹配单元,用于接收所述接收单元传输的所述文本信息,将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签,将所述标签传输至识别单元;
识别单元,用于接收所述匹配单元传输的所述标签,根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
在第一种可能的实现方式中,所述匹配单元具体用于:对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;选择与所述语音特征之间的距离值最小的音素模型对应的候选文本作为识别结果
结合第二方面,在第二种可能的实现方式中,所述至少一个命令词中的每一个命令词使用一个标签来标识;所述识别单元具体用于:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。
结合第二方面,在第三种可能的实现方式中,所述装置还包括:生成单元,用于根据识别文法网络,在多个命令词槽中选择命令词生成所述多个候选文本。
结合第二方面或者第二方面的第二种可能的实现方式,在第四种可能的实现方式中,所述识别单元具体用于:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令
本发明实施例中,终端接收语音信息,从所述语音信息中提取语音特征;将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。由此,终端根据两命令词槽识别文法或多命令词槽识别文法来对语音信息进行命令词拆分,并根据拆分后的至少一个命令词来识别语音信息对应的操作指令,提供了一种信息的识别方法,同样的命令词数量可以识别出更多的语音输入内容,提高了用户的体验效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种信息的识别方法流程图;
图2为本发明实施例提供的一种信息的识别装置示意图;
图3为本发明实施例提供的一种终端示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种信息的识别方法流程图。该实施例的执行主体是终端,其中详细描述了终端接收到用户的语音输入后,识别出操作指令的方法。如图1所示,该实施例包括以下步骤:
步骤101,接收语音信息,从所述语音信息中提取语音特征。
当然,在终端进行语音输入之前,首先根据接收到的用户的操作指令,将终端置为语音信息输入状态,运行语音识别引擎。在运行语音识别引擎时,识别文法可以生成候选文本。
终端接收到语音信息后,将语音信息转换成数字信息,并从数字信息中提取相应的语音特征。
步骤102,将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签。
为了实现本发明的技术方案,在实际应用中,终端提供了一种多命令词槽的识别文法,与现有的“action(动作)+object(对象)”识别文法相比,多命令词槽的识别文法结构是将act ion部分拆分为不同的部分,通过各部分的不同的组合支持识别更多的语音输入内容,这样对于相同数量的语音输入内容,识别文法所需要提供的命令词数量可减少。例如,对于用户常用的命令词:“拨打电话给”,“帮我拨打电话给”,“呼叫”,“帮我呼叫”等语音输入内容中,有一部分内容是几个语音输入内容共有的说法,如“拨打电话给”,“呼叫”。如果采用现有的文法识别结构,“拨打电话给”,“帮我拨打电话给”,“呼叫”,“帮我呼叫”等语音输入内容需要4个命令元素,而如果采用多命令词槽的识别文法,则可以只需要一个一级命令词“帮我”,两个二级命令词“拨打电话给”、“呼叫”,共需要3个命令词,节省了命令词的数量,并且多命令词槽的识别文法维护和扩充更加方便。
本发明实施例提供的识别文法中,可将现有识别文法中的action部分拆分为两级或者多级,如可拆分为三级,其中一级命令词可以为修饰命令词,二级命令词可以为意愿命令词,三级命令词可以为动作命令词。因此,在运行语音识别引擎时,接收语音输入之前,本发明实施例还包括:根据识别文法网络,在多命令词槽中选择命令词生成所述多个候选文本。具体地,多命令词槽的识别文法可以在多个命令词词槽中的每个命令词词槽中选择一个命令词(对于某个命令词词槽,也可以一个命令词都不选择),然后将选择出的命令词进行组合,便得到候选文本。例如,在三级命令词槽的识别文法中,修饰命令词槽中有“现在”、“请”两个个命令词,意愿命令词槽中有“帮我”、“我要”两个命令词,动作命令词槽中有“拨打电话给”、“呼叫”两个命令词,如果没有任何约束条件,则识别文法可以构造出26个候选文本,分别问“现在”、“请”、“帮我”、“我要”、“现在帮我”、“现在我要”、“请帮我”、“请我要”、“帮我拨打电话给”、“我要拨打电话给”、“帮我呼叫”、“我要呼叫”、“现在拨打电话给”、“现在呼叫”、“请拨打电话给”、“请呼叫”、“现在帮我拨打电话给”、“现在帮我呼叫”、“现在我要拨打电话给”、“现在我要呼叫”、“请帮我拨打电话给”、“请帮我呼叫”、“请我要拨打电话给”、“请我要呼叫”、“拨打电话给”、“呼叫”,当然了,为了实现一个完整的操作,候选文本中一般必须包含动作命令词,如果约束条件为候选文本中必须包含动作命令词,则即识别文法可以构造出18个候选文本,分别为“帮我拨打电话给”、“我要拨打电话给”、“帮我呼叫”、“我要呼叫”、“现在拨打电话给”、“现在呼叫”、“请拨打电话给”、“请呼叫”、“现在帮我拨打电话给”、“现在帮我呼叫”、“现在我要拨打电话给”、“现在我要呼叫”、“请帮我拨打电话给”、“请帮我呼叫”、“请我要拨打电话给”、“请我要呼叫”、“拨打电话给”、“呼叫”。由此,终端可以将根据多命令词槽的识别文法构造出多个候选文本,通过使用多级命令词槽的识别文法,在使用相同数目的命令词的情况下,可以构造的候选文本更多,相应地,可以识别的语音输入内容更多。
其中,将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算具体包括:对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。在语音信息中提取出语音特征后,将语音特征与每一个候选文本的音素串中每一个音素对应的音素模型进行匹配计算,得到每一个语音特征与每一个音素的距离值,将多个发音与多个音素模型之间的多个距离值进行累计,即可得到对应于一个音素串的累计距离值,其中,累计距离值最小的音素串对应的候选文本即为识别结果。
具体地,每一个候选文本多对应的音素串包括一系列的音素,每个音素对应一个音素模型,每个语音特征和所有的音素模型计算都可以得到一个数值;整个音素串和所述语音特征又得到一个累计的数值。选择与所述语音特征之间的累计距离最小的音素串对应的候选文本作为识别结果。
例如,对于候选文本“打电话给张三”,对应的音素串为“d”,”a”,”d”,”ian”,”h”,”ua”,”g”,”ei”,”zh”,”ang”,”s”,”an”;将用户的语音输入对应的每一个语音特征与这些每一个音素对应的音素模型进行计算,即可得到一个距离值,该值是一个大于等于0的数。由于音素模型是群体统计特征,用户的语音特征是个体特征,它们之间会有误差,这个误差就成为语音特征和音素模型的距离,把所有的音素的和语音特征的误差累计,得到的数值就是这个语音特征和对应的候选文本对应的音素串的识别距离,距离值越小,误差就越小,说明该音素串与语音输入内容越匹配,对应的候选文本就为识别结果。
其中,识别结果中包括至少一个命令词,而且每个命令词都使用一个标签来标识。例如,“我要打电话给张三”包括“我要”、“打电话给”、“张三”中包括两个命令词“我要”和“打电话给”,还包括一个联系人对象“张三”,其中,“我要”命令词对应的标签是“0001”,通过该标签可以知道该词是意愿命令词,“打电话给”命令词对应的标签是“0011”,通过该标签可以知道该语音输入对应的操作是打电话,“张三”对应的标签是“1000”,通过该标签可以确定这个信息是联系人信息。
对于上述多命令词槽的识别文法,终端中也可以不保存,而在需要使用该多命令词槽的识别文法时,从网络服务器中获取该识别文法。
步骤103,根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
其中,根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令操作包括:在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令具体包括:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
具体地,识别文法在生成候选文本时,已经确定了候选文本每个部分的内容和标签,因此识别结果中的每个组成部分也已经确定了相应的标签。终端可以根据本地数据库或者网络服务器中保存的标签与对应的操作指令的映射关系,确定标签所对应的操作指令。
本发明实施例中,终端接收语音信息,从所述语音信息中提取语音特征;将所述语音特征与多个候选文本进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。由此,终端根据两命令词槽识别文法或多命令词槽识别文法来对语音信息进行命令词拆分,并根据拆分后的至少一个命令词来识别语音信息对应的操作指令,提供了一种信息的识别方法,同样的命令词数量可以识别出更多的语音输入内容,提高了用户的体验效果。
相应地,本发明实施例还提供了一种信息的识别装置,图2为本发明实施例提供的一种信息的识别装置示意图,如图2所示,本发明实施例包括以下单元:
接收单元201,用于接收语音信息,从所述语音信息中提取语音特征,将所述语音特征传输至匹配单元。
终端接收到语音信息后,将语音信息转换成数字信息,并从数字信息中提取相应的语音特征。
匹配单元202,用于接收所述接收单元传输的所述文本信息,将所述语音特征与多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签,将所述标签传输至识别单元。
为了实现本发明的技术方案,在实际应用中,终端提供了一种多命令词槽的识别文法,与现有的“action(动作)+object(对象)”识别文法相比,多命令词槽的识别文法结构是将action部分拆分为不同的部分,通过不同部分的组合支持识别更多的语音输入内容,这样对于相同数量的语音输入内容,识别文法所需要提供的命令词数量可减少,并且多命令词槽的识别文法维护和扩充更加方便。
本发明实施例提供的识别文法中,可将现有识别文法中的act ion部分拆分为两级或者多级,如可拆分为三级,其中一级命令词可以为修饰命令词,二级命令词可以为意愿命令词,三级命令词可以为动作命令词。
其中,匹配单元202具体用于:对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。在语音信息中提取出语音特征后,将语音特征与每一个候选文本的音素串进行匹配计算,其中,距离值最小的音素串对应的候选文本即为识别结果。
其中,识别结果中包括至少一个命令词,而且每个命令词都使用一个标签来标识。例如,“我要打电话给张三”包括“我要”、“打电话给”、“张三”中包括两个命令词“我要”和“打电话给”,还包括一个联系人对象“张三”,其中,“我要”命令词对应的标签是“0001”,通过该标签可以知道该词是意愿命令词,“打电话给”命令词对应的标签是“0011”,通过该标签可以知道该语音输入对应的操作时打电话,“张三”对应的标签是“1000”,通过该标签可以确定这个信息是联系人信息。
对于上述多命令词槽的识别文法,终端中也可以不保存,而在需要使用该多命令词槽的识别文法时,从网络服务器中获取该识别文法。
识别单元203,用于接收所述匹配单元传输的所述标签,根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
其中,识别单元203具体用于:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。识别单元203具体用于:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
具体地,识别文法在生成候选文本时,已经确定了候选文本每个部分的内容和标签,因此识别结果中的每个组成部分也已经确定了相应的标签。终端可以根据本地数据库或者网络服务器中保存的标签与对应的操作指令的映射关系,确定标签所对应的操作指令。
优选地,本发明实施例还包括:生成单元204,用于根据识别文法网络,在多个命令词槽中选择命令词生成所述多个候选文本。由此,终端可以将根据多命令词槽的识别文法构造出多个候选文本,通过使用多级命令词槽的识别文法,在使用相同数目的命令词的情况下,可以构造的候选文本更多,相应地,可以识别的语音输入内容更多。
由此,终端根据两命令词槽识别文法或多命令词槽识别文法来对语音信息进行命令词拆分,并根据拆分后的至少一个命令词来识别语音信息对应的操作指令,提供了一种信息的识别方法,同样的命令词数量可以识别出更多的语音输入内容,提高了用户的体验效果。
相应地,本发明实施例还提供了一种终端,图3为本发明实施例提供的一种终端示意图,如图3所示,本实施例包括网络接口301、处理器302和存储器303。系统总线304用于连接网络接口301、处理器302和存储器303。
网络接口301用于与其他终端或者网络服务器进行通信。
存储器303可以是永久存储器,例如硬盘驱动器和闪存,存储器303中具有识别文法、软件模块和设备驱动程序。软件模块能够执行本发明上述方法的各种功能模块;设备驱动程序可以是网络和接口驱动程序,识别文法用于生成候选文本并识别出语音输入内容对应的识别结果。
在启动时,识别文法和软件组件被加载到存储器303中,然后被处理器302访问并执行如下指令:
接收语音信息,从所述语音信息中提取语音特征;
将所述语音特征与多个候选文本中的每一个候选文本对应音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;
根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
具体地,为了实现本发明的技术方案,在终端的存储器303中可以保存一种多命令词槽的识别文法,与现有的“action(动作)+object(对象)”识别文法相比,多命令词槽的识别文法结构是将action部分拆分为不同的部分,通过各部分的不同的组合支持识别更多的语音输入内容,这样对于相同数量的语音输入内容,识别文法所需要提供的命令词数量可减少。例如,对于用户常用的命令词:“拨打电话给”,“帮我拨打电话给”,“呼叫”,“帮我呼叫”等语音输入内容中,有一部分内容是几个语音输入内容共有的说法,如“拨打电话给”,“呼叫”。如果采用现有的文法识别结构,“拨打电话给”,“帮我拨打电话给”,“呼叫”,“帮我呼叫”等语音输入内容需要4个命令元素,而如果采用多命令词槽的识别文法,则可以只需要一个一级命令词“帮我”,两个二级命令词“拨打电话给”、“呼叫”,共需要3个命令词,节省了命令词的数量,并且多命令词槽的识别文法维护和扩充更加方便。
本发明实施例提供的识别文法中,可将现有识别文法中的action部分拆分为两级或者多级,如可拆分为三级,其中一级命令词可以为修饰命令词,二级命令词可以为意愿命令词,三级命令词可以为动作命令词。
进一步的,处理器302访问存储器中的软件组件后,执行将所述文本信息与多个候选文本进行匹配计算过程的指令为:对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。
其中,至少一个命令词中的每一个命令词使用一个标签来标识;进一步的,处理器302访问存储器中的软件组件后,执行根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令具体包括:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。
进一步的,处理器302执行根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令的过程包括:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
进一步的,处理器302在执行将所述文本信息与候选文本进行匹配计算的操作之前,还可访问软件组件,并执行以下指令:根据识别文法网络,在多个命令词槽中选择命令词生成所述多个候选文本。
由此,终端根据两命令词槽识别文法或多命令词槽识别文法来对语音信息进行命令词拆分,并根据拆分后的至少一个命令词来识别语音信息对应的操作指令,提供了一种信息的识别方法,同样的命令词数量可以识别出更多的语音输入内容,提高了用户的体验效果。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种信息的识别方法,其特征在于,所述方法包括:
根据识别文法网络,在多个命令词槽中选择命令词生成多个候选文本;
接收语音信息,从所述语音信息中提取语音特征;
将所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签;
根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
2.根据权利要求1所述的信息的识别方法,其特征在于,所述将所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行匹配计算具体包括:
对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;
选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。
3.根据权利要求1所述的信息的识别方法,其特征在于,所述至少一个命令词中的每一个命令词使用一个标签来标识;
所述根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令具体包括:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。
4.根据权利要求3所述的信息的识别方法,其特征在于,所述根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令包括:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
5.一种信息的识别装置,其特征在于,所述装置包括:
生成单元,用于根据识别文法网络,在多个命令词槽中选择命令词生成多个候选文本;
接收单元,用于接收语音信息,从所述语音信息中提取语音特征,将所述语音特征传输至匹配单元;
所述匹配单元,用于接收所述接收单元传输的所述语音特征,将所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行匹配计算,得到识别结果,所述识别结果包括至少一个命令词以及所述至少一个命令词对应的标签,将所述标签传输至识别单元;
所述识别单元,用于接收所述匹配单元传输的所述标签,根据所述至少一个命令词对应的标签,识别所述语音信息对应的操作指令。
6.根据权利要求5所述的信息的识别装置,其特征在于,所述匹配单元具体用于:
对所述语音特征与所述多个候选文本中每一个候选文本对应的音素串进行音素距离计算,得到距离值;
选择与所述语音特征之间的距离值最小的音素串对应的候选文本作为识别结果。
7.根据权利要求5所述的信息的识别装置,其特征在于,所述至少一个命令词中的每一个命令词使用一个标签来标识;
所述识别单元具体用于:根据所述至少一个命令词中所有命令词对应的标签的组合,识别所述语音信息对应的操作指令。
8.根据权利要求7所述的信息的识别装置,其特征在于,所述识别单元具体用于:将所述识别结果中所述至少一个命令词中每一个命令词对应的标签进行组合,在本地数据库或网络服务器中查询所述标签的组合对应的操作指令。
CN201310034262.5A 2013-01-29 2013-01-29 信息的识别方法和装置 Active CN103077714B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310034262.5A CN103077714B (zh) 2013-01-29 2013-01-29 信息的识别方法和装置
PCT/CN2014/070489 WO2014117645A1 (zh) 2013-01-29 2014-01-10 信息的识别方法和装置
EP14745447.4A EP2869298A4 (en) 2013-01-29 2014-01-10 INFORMATION IDENTIFICATION PROCESS AND DEVICE
US14/585,959 US9390711B2 (en) 2013-01-29 2014-12-30 Information recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310034262.5A CN103077714B (zh) 2013-01-29 2013-01-29 信息的识别方法和装置

Publications (2)

Publication Number Publication Date
CN103077714A CN103077714A (zh) 2013-05-01
CN103077714B true CN103077714B (zh) 2015-07-08

Family

ID=48154223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310034262.5A Active CN103077714B (zh) 2013-01-29 2013-01-29 信息的识别方法和装置

Country Status (4)

Country Link
US (1) US9390711B2 (zh)
EP (1) EP2869298A4 (zh)
CN (1) CN103077714B (zh)
WO (1) WO2014117645A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
CN104301500A (zh) * 2013-07-16 2015-01-21 中兴通讯股份有限公司 一种终端控制方法、装置和终端
CN103699293A (zh) * 2013-12-02 2014-04-02 联想(北京)有限公司 一种操作方法和电子设备
EP2911149B1 (en) * 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
CN104408060B (zh) * 2014-10-29 2018-08-07 小米科技有限责任公司 信息处理的方法及装置
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN107092606B (zh) * 2016-02-18 2022-04-12 腾讯科技(深圳)有限公司 一种搜索方法、装置及服务器
CN105931639B (zh) * 2016-05-31 2019-09-10 杨若冲 一种支持多级命令词的语音交互方法
WO2017206133A1 (zh) * 2016-06-02 2017-12-07 深圳市智物联网络有限公司 语音识别方法及装置
CN106335436B (zh) * 2016-08-31 2022-03-25 北京兴科迪科技有限公司 一种集成麦克风的内后视镜
CN106791010B (zh) * 2016-11-28 2020-07-10 北京安云世纪科技有限公司 一种信息处理的方法、装置和移动终端
CN106910498A (zh) * 2017-03-01 2017-06-30 成都启英泰伦科技有限公司 提高语音控制命令词识别率的方法
CN108573706B (zh) * 2017-03-10 2021-06-08 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN108597509A (zh) * 2018-03-30 2018-09-28 百度在线网络技术(北京)有限公司 智能语音交互实现方法、装置、计算机设备及存储介质
CN108922531B (zh) * 2018-07-26 2020-10-27 腾讯科技(北京)有限公司 槽位识别方法、装置、电子设备及存储介质
CN109087645B (zh) * 2018-10-24 2021-04-30 科大讯飞股份有限公司 一种解码网络生成方法、装置、设备及可读存储介质
CN109979449A (zh) * 2019-02-15 2019-07-05 江门市汉的电气科技有限公司 一种智能灯具的语音控制方法、装置、设备和存储介质
CN109830240A (zh) * 2019-03-25 2019-05-31 出门问问信息科技有限公司 基于语音操作指令识别用户特定身份的方法、装置及系统
CN111860549B (zh) * 2019-04-08 2024-02-20 北京嘀嘀无限科技发展有限公司 信息识别装置、方法、计算机设备及存储介质
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN111128174A (zh) * 2019-12-31 2020-05-08 北京猎户星空科技有限公司 一种语音信息的处理方法、装置、设备及介质
CN111489737B (zh) * 2020-04-13 2020-11-10 深圳市友杰智新科技有限公司 语音命令识别方法、装置、存储介质及计算机设备
CN113539252A (zh) * 2020-04-22 2021-10-22 庄连豪 无障碍智能语音系统及其控制方法
CN111681647B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 用于识别词槽的方法、装置、设备以及存储介质
CN112017647B (zh) * 2020-09-04 2024-05-03 深圳海冰科技有限公司 一种结合语义的语音识别方法、装置和系统
CN112735394B (zh) * 2020-12-16 2022-12-30 青岛海尔科技有限公司 一种语音的语义解析方法及装置
CN113160810A (zh) * 2021-01-13 2021-07-23 安徽师范大学 一种基于ld3320的语音识别交互方法及系统
CN113823269A (zh) * 2021-09-07 2021-12-21 广西电网有限责任公司贺州供电局 一种基于语音识别电网调度命令自动保存的方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
KR100415217B1 (ko) 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US6895558B1 (en) * 2000-02-11 2005-05-17 Microsoft Corporation Multi-access mode electronic personal assistant
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
TW200301460A (en) 2001-12-17 2003-07-01 Asahi Chemicl Ind Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device
US8068881B2 (en) * 2002-08-09 2011-11-29 Avon Associates, Inc. Voice controlled multimedia and communications system
JP2005266009A (ja) * 2004-03-16 2005-09-29 Matsushita Electric Ind Co Ltd データ変換プログラムおよびデータ変換装置
US7865356B2 (en) 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7627096B2 (en) * 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
ES2363037T3 (es) * 2007-09-21 2011-07-19 The Boeing Company Control de vehículos.
US20100299421A1 (en) 2007-10-04 2010-11-25 Robby Gurdan Digital multimedia network with hierarchical parameter control protocol
CN101345051B (zh) * 2008-08-19 2010-11-10 南京师范大学 带定量参数的地理信息系统语音控制方法
US7974983B2 (en) * 2008-11-13 2011-07-05 Buzzient, Inc. Website network and advertisement analysis using analytic measurement of online social media content
US20110099507A1 (en) * 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
TWI430189B (zh) 2009-11-10 2014-03-11 Inst Information Industry 訊息擬真處理系統、裝置及方法
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US8909771B2 (en) * 2011-09-15 2014-12-09 Stephan HEATH System and method for using global location information, 2D and 3D mapping, social media, and user behavior and information for a consumer feedback social media analytics platform for providing analytic measurements data of online consumer feedback for global brand products or services of past, present or future customers, users, and/or target markets
CN102510426A (zh) * 2011-11-29 2012-06-20 安徽科大讯飞信息科技股份有限公司 个人助理应用访问方法及系统
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
US9467409B2 (en) * 2013-06-04 2016-10-11 Yahoo! Inc. System and method for contextual mail recommendations

Also Published As

Publication number Publication date
CN103077714A (zh) 2013-05-01
EP2869298A4 (en) 2015-09-16
WO2014117645A1 (zh) 2014-08-07
EP2869298A1 (en) 2015-05-06
US20150120301A1 (en) 2015-04-30
US9390711B2 (en) 2016-07-12

Similar Documents

Publication Publication Date Title
CN103077714B (zh) 信息的识别方法和装置
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
CN109243468B (zh) 语音识别方法、装置、电子设备及存储介质
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
CN105469789A (zh) 一种语音信息的处理方法及终端
CN107844470B (zh) 一种语音数据处理方法及其设备
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
US20200184960A1 (en) Rnnlm-based generation of templates for class-based text generation
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN103514882A (zh) 一种语音识别方法及系统
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN111128130B (zh) 语音数据处理方法和装置及电子装置
US10824520B2 (en) Restoring automated assistant sessions
CN103474063B (zh) 语音辨识系统以及方法
CN113851106B (zh) 音频播放方法、装置、电子设备和可读存储介质
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN114462364B (zh) 录入信息的方法和装置
CN112711654B (zh) 语音机器人的汉字解释话术生成方法、系统、设备及介质
CN111785259A (zh) 信息处理方法、装置及电子设备
KR20200109995A (ko) 피싱 분석 장치 및 그 방법
CN115965018B (zh) 信息生成模型的训练方法、信息生成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171027

Address after: Metro Songshan Lake high tech Industrial Development Zone, Guangdong Province, Dongguan City Road 523808 No. 2 South Factory (1) project B2 -5 production workshop

Patentee after: HUAWEI terminal (Dongguan) Co., Ltd.

Address before: 518129 Longgang District, Guangdong, Bantian HUAWEI base B District, building 2, building No.

Patentee before: Huawei Device Co., Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: Huawei Device Co., Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: HUAWEI terminal (Dongguan) Co., Ltd.

CP01 Change in the name or title of a patent holder