CN108039175A - 语音识别方法、装置及服务器 - Google Patents
语音识别方法、装置及服务器 Download PDFInfo
- Publication number
- CN108039175A CN108039175A CN201810085826.0A CN201810085826A CN108039175A CN 108039175 A CN108039175 A CN 108039175A CN 201810085826 A CN201810085826 A CN 201810085826A CN 108039175 A CN108039175 A CN 108039175A
- Authority
- CN
- China
- Prior art keywords
- word
- wake
- pronunciation
- voice
- mute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002618 waking effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出了一种语音识别方法、装置及服务器。所述方法包括:接收客户端发送的用户语音;根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识,以使得在语音识别时跳过标有静音标识的唤醒词的发音,这样在采用复杂的解码算法对语音进行识别时,避免对与用户指示无关的唤醒词进行识别,减小了解码算法的数据处理量,提高了语音识别的效率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法、装置及服务器。
背景技术
随着电子设备的不断发展,作为电子设备的重要组成部分-------电子设备的控制系统,例如,语音控制系统,也在不断地发展,随着语音识别技术迅速发展成熟,各种语音识别软件纷纷亮相,使得人与电子设备的交流变得简单、有趣。为了避免人与电子设备进行语音控制时产生误操作,可以设置唤醒词,当电子设备接收到与自身匹配的唤醒词时,才会接收外界的语音控制信息,并依据语音控制信息执行相应的操作。
用户每次与电子设备进行语音交互时,电子设备接收到用户的语音,将用户的语音传送至服务端,由服务端来进行语音识别,然后按照用户的指示进行操作。但是,用户的语音中包含的信息较多,服务端在对用户语音进行识别时,需要对整段语音都进行识别,再筛选出与用户指示相关的有用信息,再执行用户的指示。这样使得语音识别的过程数据处理量较大,降低了语音识别的效率。
发明内容
本发明实施例提供一种语音识别方法、装置及服务器,以解决或缓解背景技术中的一项或多项以上技术问题,至少提供一种有益的选择。
第一方面,本发明实施例提供了一种语音识别方法,包括:
接收客户端发送的用户语音;
根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;
将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
结合第一方面,本发明在第一方面的第一种实施方式中,
根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音,包括:
将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
结合第一方面,本发明在第一方面的第二实施方式中,将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音,包括:
当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
结合第一方面,本发明在第一方面的第三实施方式中,所述唤醒词的发音的行首标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音之后,所述方法还包括:
采用解码算法识别所述语音中的除唤醒词以外的其他语音。
第二方面,本发明实施例提供了一种语音识别装置,所述装置包括:
接收模块,配置为接收客户端发送的用户语音;
第一识别模块,根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;
静音模块,配置为将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
结合第二方面,本发明在第二方面的第一实施方式中,所述第一识别模块包括:
匹配子模块,配置为将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
结合第二方面,本发明在第二方面的第二实施方式中,所述静音模块包括:
静音子模块,配置为当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
结合第二方面,本发明在第二方面的第三实施方式中,所述装置还包括:
第二识别模块,配置为当所述唤醒词的发音的行首标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音完成之后,采用解码算法识别所述语音中的除唤醒词以外的其他语音。
第三方面,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中语音识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音识别装置所用的计算机软件指令,其包括用于执行上述第一方面中语音识别方法为语音识别装置所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识,以使得在语音识别时跳过标有静音标识的唤醒词的发音,这样在采用复杂的解码算法对语音进行识别时,避免对与用户指示无关的唤醒词进行识别,减小了解码算法的数据处理量,提高了语音识别的效率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例一的语音识别方法的流程图;
图2为本发明实施例二的语音识别方法的流程图;
图3为本发明实施例三的语音识别装置的示意图;
图4为本发明实施例四的服务器的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
一语即达(one-shot)是目前比较热门一种语音交互技术。这种技术采用“唤醒词+语音语义识别”一体化方式,实现唤醒词与语音操控之间零间隔、零延迟、无缝对接,摒弃传统的一问一答的形式,极大减少用户语音操控的步骤,实现信息反馈,化繁为简,实现简便操作。one-shot的一大特点是识别唤醒与语义理解一体化,保证语音交互的统一性与连贯性,完成操控。举个简单的例子来讲,过去智能语音的交互方式为一问一答,用户发出唤醒词指令,需要设备反馈待机信息,然后才能开始交互,例如:
用户:你好小度(用户发送唤醒词以唤醒设备)。
设备:有什么可以帮您?(电子设备对唤醒词进行反馈,表示处于信息接收状态)
用户:我要去机场。
设备:开始为您导航去机场。
One-shot技术却可以一语即中,实现“唤醒词+语音语义识别”一体化,比如实现这样的交互:
用户:你好小度,我要去机场。
设备:开始为您导航去机场。
相比传统的语音交互技术,这样的体验似乎更具效率。
语音唤醒和常用的语音识别指令存储在本地,客户端(或电子设备)接收用户语音,并对用户语音能够准确及时的响应。与此同时,将用户语音发送至云服务器,由云服务器处理语音识别和语义理解。客户端加云服务器的混合引擎处理,既保证了响应速度也确保了交互的精准。但是传统技术中客户端将用户语音发送至服务器,服务器需要对用户的全部语音进行识别,而且这段语音中可能存在一些与用户指示不相关的信息。为此,本发明实施例提供一种语音识别方法,在云服务器进行语音识别时,将与用户指示不相关的唤醒词过滤掉,以提高云服务器的语音识别效率。
实施例一
本发明实施例提供一种语音识别方法。如图1所示,为本发明实施例的语音识别方法的流程图。本发明实施例的语音识别方法包括如下步骤:
S101,接收客户端发送的用户语音。
如上所述,本发明实施例的执行主体为云服务器。
其中,客户端可以包括一些具备语音交互功能的电子设备,如音响、具备语音交互功能的机器人、车载语音交互系统、具备语音交互功能的查询类应用程序和地图应用程序等等。
当客户端检测到用户语音,可以根据客户端本地存储的语音唤醒和常用的语音识别指令确定存在唤醒词,这时客户端被唤醒。然后客户端将用户语音发送至云服务器。
S102,根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音。
其中,声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程。例如,可以采用基音检测和线性预测分析方法对声学特征进行提取。
S103,将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
其中,在一种实施方式中,在语音交互中,静音标识以符号<s>来表示,其含义是silence。如果在识别过程中,遇到这个符号,就表示不会有结果出现,或者说相当于出现了空的结果。
例如,将“xiaoduxiaodu”这个唤醒词前加上<s>,其识别过程如下:
<s>(01)D$[wb]x_T0iao_T3d_T0u_T4x_T0iao_T3d_T0u_T4[wb]
对于真正的静音识别过程如下:
<s>(02)D$[wb]
二者所输出的结果是等同的,即都是静音。
本发明实施例的技术方案对用户语音中的唤醒词标注为静音标识,以使得在语音识别时跳过标有静音标识的唤醒词的发音,这样在采用复杂的解码算法对语音进行识别时,避免对与用户指示无关的唤醒词进行识别,减小了解码算法的数据处理量,提高了语音识别的效率。
实施例二
在实施例一的基础上,本发明实施例提供一种语音识别方法。如图2所示,为本发明实施例的语音识别方法的流程图。本发明实施例的语音识别方法包括如下步骤:
S201,接收客户端发送的用户语音。
S202,将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
具体的,云服务器可以预先存储唤醒词对应的语音,然后根据语音识别的规则,将所接收的语音与预先存储的唤醒词对应的语音进行匹配,如果语音中存在一段语音与唤醒词相匹配,可以在该唤醒词前标注静音符号<s>,这个符号的含义是静音(silence)。由于唤醒词的发音一般是差异比较大的两个字的叠字发音,这样的发音正常的语音中很少出现,通常不会影响正常的识别结果。
此步骤对应实施例一的步骤S102。
S203,当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
其中,对语音进行识别的过程就是在给定声学特征的情况下,最找到最可能对应的词组的过程。例如,可以根据机器学习算法事先建立声学模型,将提取的声学特征发送至声学模型进行处理,然后由声学模型输出所识别的语音对应的符号串。
此步骤对应实施例一的步骤S103。
S204,采用解码算法识别所述语音中的除唤醒词以外的其他语音。
一般来说,利用解码算法进行语音识别是语音交互技术的核心技术之一。其任务是对输入的语音,根据声学、语言模型及词典,寻找能够最大概率输出该语音的词串。
本发明实施例当完成过滤唤醒词后,可以根据解码算法继续识别唤醒词后面的其他的语音,例如,当用户发送指示“小度小度,我要去机场”,这时将“小度小度”过滤掉,开始识别“我要去机场”。
本发明实施例还有一个效果是:由于汉语中存在着音同字不同的情况,在唤醒时容易造成误操作。例如,唤醒词为“小度小度”,在精确匹配的时候可能会识别为“小杜小杜”。在模糊匹配的时候,如果识别时丢了个别字,那么强制过滤就会把正常的结果的头几个字也处理掉,这样导致过滤失败。本发明实施例将唤醒词过滤掉,不识别,就可以避免引起这些问题。
实施例三
本发明实施例提供一种语音识别装置。如图3所示,为本发明实施例的语音识别装置的示意图。本发明实施例的语音识别装置包括:
所述装置包括:
接收模块31,配置为接收客户端发送的用户语音;
第一识别模块32,根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;
静音模块33,配置为将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
具体地,所述第一识别模块32包括:
匹配子模块321,配置为将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
具体地,所述静音模块33包括:
静音子模块331,配置为当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
进一步地,所述装置还包括:
第二识别模块34,配置为当所述唤醒词的发音的行首标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音完成之后,采用解码算法识别所述语音中的除唤醒词以外的其他语音。
本发明实施例的技术方案可以实现避免对与用户指示无关的唤醒词进行识别,减小了解码算法的数据处理量,提高了语音识别的效率,有益效果与实施例一相同,在此不再赘述。
实施例四
本发明实施例五提供一种信息分类设备,如图4所示,该设备包括:存储器41和处理器42,存储器41内存储有可在处理器42上运行的计算机程序。处理器42执行所述计算机程序时实现上述实施例中的信息分类方法。存储器41和处理器42的数量可以为一个或多个。
该设备还包括:
通信接口43,用于存储器41和处理器42与外部设备之间的通信。
存储器41可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器41、处理器42和通信接口43独立实现,则存储器41、处理器42和通信接口43可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,ExtendedIndustry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器41、处理器42及通信接口43集成在一块芯片上,则存储器41、处理器44及通信接口43可以通过内部接口完成相互间的通信。
实施例五
一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如图1至2中任一实施例所示的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
接收客户端发送的用户语音;
根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;
将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
2.根据权利要求1所述的方法,其特征在于,根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音,包括:
将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
3.根据权利要求1所述的方法,其特征在于,将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音,包括:
当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
4.根据权利要求1所述的方法,其特征在于,所述唤醒词的发音的行首标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音之后,所述方法还包括:
采用解码算法识别所述语音中的除唤醒词以外的其他语音。
5.一种语音识别装置,其特征在于,所述装置包括:
接收模块,配置为接收客户端发送的用户语音;
第一识别模块,根据所述语音的声学特征,识别所述语音中的唤醒词对应的发音;
静音模块,配置为将所述唤醒词的发音标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音。
6.根据权利要求5所述的装置,其特征在于,所述第一识别模块包括:
匹配子模块,配置为将所述发音与识别路径中预先存储的唤配词匹配;若所述发音中存在一段语音与所述识别路径中预先存储的唤配词匹配,则将所述一段语音识别为唤醒词。
7.根据权利要求5所述的装置,其特征在于,所述静音模块包括:
静音子模块,配置为当采用解码算法识别所述标注静音标识的唤醒词时,保持静音,直至所述唤醒词发音结束。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二识别模块,配置为当所述唤醒词的发音的行首标注静音标识,使得在语音识别时跳过标有静音标识的唤醒词的发音完成之后,采用解码算法识别所述语音中的除唤醒词以外的其他语音。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810085826.0A CN108039175B (zh) | 2018-01-29 | 2018-01-29 | 语音识别方法、装置及服务器 |
JP2018167826A JP7158217B2 (ja) | 2018-01-29 | 2018-09-07 | 音声認識方法、装置及びサーバ |
US16/164,759 US11398228B2 (en) | 2018-01-29 | 2018-10-18 | Voice recognition method, device and server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810085826.0A CN108039175B (zh) | 2018-01-29 | 2018-01-29 | 语音识别方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108039175A true CN108039175A (zh) | 2018-05-15 |
CN108039175B CN108039175B (zh) | 2021-03-26 |
Family
ID=62096894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810085826.0A Active CN108039175B (zh) | 2018-01-29 | 2018-01-29 | 语音识别方法、装置及服务器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11398228B2 (zh) |
JP (1) | JP7158217B2 (zh) |
CN (1) | CN108039175B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962262A (zh) * | 2018-08-14 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
CN109065044A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 唤醒词识别方法、装置、电子设备及计算机可读存储介质 |
CN109360552A (zh) * | 2018-11-19 | 2019-02-19 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
CN111066082A (zh) * | 2018-05-25 | 2020-04-24 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别系统和方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112837694B (zh) * | 2021-01-29 | 2022-12-06 | 青岛海尔科技有限公司 | 设备唤醒方法、装置、存储介质及电子装置 |
EP4409571A1 (en) * | 2021-09-30 | 2024-08-07 | Sonos Inc. | Conflict management for wake-word detection processes |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249635A1 (en) * | 1999-11-12 | 2004-12-09 | Bennett Ian M. | Method for processing speech signal features for streaming transport |
CN1568500A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 用于标注所识别文本的部分的语音识别设备 |
US20050108775A1 (en) * | 2003-11-05 | 2005-05-19 | Nice System Ltd | Apparatus and method for event-driven content analysis |
CN101044550A (zh) * | 2004-09-03 | 2007-09-26 | 弗劳恩霍夫应用研究促进协会 | 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法 |
CN101110929A (zh) * | 2006-07-19 | 2008-01-23 | 上海乐金广电电子有限公司 | 数字多媒体文件的播放控制方法 |
CN101385075A (zh) * | 2006-02-07 | 2009-03-11 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN104254056A (zh) * | 2013-06-27 | 2014-12-31 | 腾讯科技(深圳)有限公司 | 一种免打扰消息传输方法、装置及系统 |
US20150179186A1 (en) * | 2013-12-20 | 2015-06-25 | Dell Products, L.P. | Visual Audio Quality Cues and Context Awareness in a Virtual Collaboration Session |
CN104754364A (zh) * | 2015-03-30 | 2015-07-01 | 合一信息技术(北京)有限公司 | 视频广告语音交互系统及方法 |
JP2016024378A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
US9349373B1 (en) * | 2013-03-14 | 2016-05-24 | Verint Americas Inc. | Biometrics platform provider |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN105913843A (zh) * | 2016-04-20 | 2016-08-31 | 乐视控股(北京)有限公司 | 语音叫车方法、语音叫车装置和语音叫车系统 |
CN105959772A (zh) * | 2015-12-22 | 2016-09-21 | 合网络技术(北京)有限公司 | 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 |
US20170026514A1 (en) * | 2014-01-08 | 2017-01-26 | Callminer, Inc. | Real-time compliance monitoring facility |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN106782554A (zh) * | 2016-12-19 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106847273A (zh) * | 2016-12-23 | 2017-06-13 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
CN107071575A (zh) * | 2016-06-13 | 2017-08-18 | 腾讯科技(北京)有限公司 | 贴片媒体文件播放方法和装置 |
CN107123418A (zh) * | 2017-05-09 | 2017-09-01 | 广东小天才科技有限公司 | 一种语音消息的处理方法及移动终端 |
CN107146605A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107452401A (zh) * | 2017-05-27 | 2017-12-08 | 北京字节跳动网络技术有限公司 | 一种广告语音识别方法及装置 |
CN107608799A (zh) * | 2017-08-15 | 2018-01-19 | 北京小蓦机器人技术有限公司 | 一种用于执行交互指令的方法、设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212590A (ja) * | 1998-01-23 | 1999-08-06 | Olympus Optical Co Ltd | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
CN103943105A (zh) | 2014-04-18 | 2014-07-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音交互方法及系统 |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US10373612B2 (en) | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20180018961A1 (en) * | 2016-07-13 | 2018-01-18 | Google Inc. | Audio slicer and transcription generator |
US10360910B2 (en) * | 2016-08-29 | 2019-07-23 | Garmin Switzerland Gmbh | Automatic speech recognition (ASR) utilizing GPS and sensor data |
CN106598666A (zh) | 2016-12-10 | 2017-04-26 | 北京小米移动软件有限公司 | 静音模式的切换方法及装置 |
US10593328B1 (en) * | 2016-12-27 | 2020-03-17 | Amazon Technologies, Inc. | Voice control of remote device |
US9911413B1 (en) * | 2016-12-28 | 2018-03-06 | Amazon Technologies, Inc. | Neural latent variable model for spoken language understanding |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
CN106898352B (zh) | 2017-02-27 | 2020-09-25 | 联想(北京)有限公司 | 语音控制方法及电子设备 |
CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10706845B1 (en) * | 2017-09-19 | 2020-07-07 | Amazon Technologies, Inc. | Communicating announcements |
US10152966B1 (en) * | 2017-10-31 | 2018-12-11 | Comcast Cable Communications, Llc | Preventing unwanted activation of a hands free device |
US10546585B2 (en) * | 2017-12-29 | 2020-01-28 | Comcast Cable Communications, Llc | Localizing and verifying utterances by audio fingerprinting |
US11062703B2 (en) * | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
-
2018
- 2018-01-29 CN CN201810085826.0A patent/CN108039175B/zh active Active
- 2018-09-07 JP JP2018167826A patent/JP7158217B2/ja active Active
- 2018-10-18 US US16/164,759 patent/US11398228B2/en active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249635A1 (en) * | 1999-11-12 | 2004-12-09 | Bennett Ian M. | Method for processing speech signal features for streaming transport |
CN1568500A (zh) * | 2001-10-12 | 2005-01-19 | 皇家飞利浦电子股份有限公司 | 用于标注所识别文本的部分的语音识别设备 |
US20050108775A1 (en) * | 2003-11-05 | 2005-05-19 | Nice System Ltd | Apparatus and method for event-driven content analysis |
CN101044550A (zh) * | 2004-09-03 | 2007-09-26 | 弗劳恩霍夫应用研究促进协会 | 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法 |
CN101385075A (zh) * | 2006-02-07 | 2009-03-11 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
CN101110929A (zh) * | 2006-07-19 | 2008-01-23 | 上海乐金广电电子有限公司 | 数字多媒体文件的播放控制方法 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
US9349373B1 (en) * | 2013-03-14 | 2016-05-24 | Verint Americas Inc. | Biometrics platform provider |
CN104254056A (zh) * | 2013-06-27 | 2014-12-31 | 腾讯科技(深圳)有限公司 | 一种免打扰消息传输方法、装置及系统 |
US20150179186A1 (en) * | 2013-12-20 | 2015-06-25 | Dell Products, L.P. | Visual Audio Quality Cues and Context Awareness in a Virtual Collaboration Session |
US20170026514A1 (en) * | 2014-01-08 | 2017-01-26 | Callminer, Inc. | Real-time compliance monitoring facility |
JP2016024378A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
CN104754364A (zh) * | 2015-03-30 | 2015-07-01 | 合一信息技术(北京)有限公司 | 视频广告语音交互系统及方法 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及系统 |
CN105959772A (zh) * | 2015-12-22 | 2016-09-21 | 合网络技术(北京)有限公司 | 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 |
CN105913843A (zh) * | 2016-04-20 | 2016-08-31 | 乐视控股(北京)有限公司 | 语音叫车方法、语音叫车装置和语音叫车系统 |
CN107071575A (zh) * | 2016-06-13 | 2017-08-18 | 腾讯科技(北京)有限公司 | 贴片媒体文件播放方法和装置 |
CN106782554A (zh) * | 2016-12-19 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106847273A (zh) * | 2016-12-23 | 2017-06-13 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107146605A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN107123418A (zh) * | 2017-05-09 | 2017-09-01 | 广东小天才科技有限公司 | 一种语音消息的处理方法及移动终端 |
CN107452401A (zh) * | 2017-05-27 | 2017-12-08 | 北京字节跳动网络技术有限公司 | 一种广告语音识别方法及装置 |
CN107608799A (zh) * | 2017-08-15 | 2018-01-19 | 北京小蓦机器人技术有限公司 | 一种用于执行交互指令的方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HORDERLIN VRANGEL: ""VAD algorithm energy-based and spectral-domain applied in River PLate Castilian"", 《STSIVA》 * |
王培鹤: ""基于语音识别的出租车紧急呼救系统触发方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111066082A (zh) * | 2018-05-25 | 2020-04-24 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别系统和方法 |
CN111066082B (zh) * | 2018-05-25 | 2020-08-28 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别系统和方法 |
CN108962262A (zh) * | 2018-08-14 | 2018-12-07 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
CN109065044A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 唤醒词识别方法、装置、电子设备及计算机可读存储介质 |
CN109360552A (zh) * | 2018-11-19 | 2019-02-19 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
CN109360552B (zh) * | 2018-11-19 | 2021-12-24 | 广东小天才科技有限公司 | 一种自动过滤唤醒词的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7158217B2 (ja) | 2022-10-21 |
US20190237071A1 (en) | 2019-08-01 |
JP2019133127A (ja) | 2019-08-08 |
US11398228B2 (en) | 2022-07-26 |
CN108039175B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108039175A (zh) | 语音识别方法、装置及服务器 | |
CN110377716A (zh) | 对话的交互方法、装置及计算机可读存储介质 | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
CN108847241A (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107977183A (zh) | 语音交互方法、装置及设备 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
KR102445519B1 (ko) | 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법 | |
CN109493850A (zh) | 成长型对话装置 | |
CN111508474A (zh) | 一种语音打断方法、电子设备及存储装置 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN111212190A (zh) | 一种基于话术策略管理的对话管理方法、装置和系统 | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN107545029A (zh) | 智能设备的语音反馈方法、设备及可读介质 | |
CN110110039A (zh) | 一种智能语音机器人可视化搭建的方法 | |
CN109147764A (zh) | 语音交互方法、装置、设备及计算机可读介质 | |
CN108492819A (zh) | 语言练习方法、装置、智能车载终端及存储介质 | |
CN101867742A (zh) | 一种基于声控控制下的电视系统 | |
CN112562682A (zh) | 基于多人通话的身份识别方法、系统、设备及存储介质 | |
CN112102807A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN115098765A (zh) | 基于深度学习的信息推送方法、装置、设备及存储介质 | |
CN109065019B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |