CN112908313A - 智慧路灯语音交互方法、装置、计算机设备及存储介质 - Google Patents
智慧路灯语音交互方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112908313A CN112908313A CN202110264969.XA CN202110264969A CN112908313A CN 112908313 A CN112908313 A CN 112908313A CN 202110264969 A CN202110264969 A CN 202110264969A CN 112908313 A CN112908313 A CN 112908313A
- Authority
- CN
- China
- Prior art keywords
- result
- recognition
- street lamp
- content
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004458 analytical method Methods 0.000 claims abstract description 81
- 230000004044 response Effects 0.000 claims abstract description 60
- 230000002452 interceptive effect Effects 0.000 claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000009434 installation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B47/00—Circuit arrangements for operating light sources in general, i.e. where the type of light source is not relevant
- H05B47/10—Controlling the light source
- H05B47/105—Controlling the light source in response to determined parameters
- H05B47/115—Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings
- H05B47/12—Controlling the light source in response to determined parameters by determining the presence or movement of objects or living beings by detecting audible sound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种智慧路灯语音交互方法、装置、计算机设备及存储介质。所述方法包括:获取唤醒请求,并根据所述唤醒请求进入唤醒状态;拾取交互语音内容;对所述交互语音内容进行识别,以得到识别结果;对所述识别结果进行语义分析,以得到分析结果;根据所述分析结果获取回应内容,并反馈所述回应内容。本发明实施例的方法可通过唤醒语音交互系统,并拾取交互语音内容,并对交互语音内容进行识别和语义分析,并根据分析结果确定回应内容,并进行反馈,可实现丰富智慧路灯的功能,可进行语音交互。
Description
技术领域
本发明涉及智慧路灯,更具体地说是指智慧路灯语音交互方法、装置、计算机设备及存储介质。
背景技术
在智慧城市的规划建设中,路灯杆因具位置及供电系统两大优势成为物联网在城市中的重点应用场域,而被称为“智慧路灯杆”。除了实现原来的路灯照明系统的智能化管理外,智慧路灯杆还是智慧城市建构安全治理的重要平台,集各种功能应用于一身,为实现城市的智慧管理发挥更多的作用。目前,国外的洛杉矶、圣地亚哥、巴黎和国内的上海、杭州、北京等城市已相继试点安装智慧路灯,以实现提高能源效益和使用传感器收集城市各类关键数据等目的。
目前的智慧路灯杆大多只具备简单的照明功能,该照明功能可基于时间和是否有路人经过进行亮灭的控制,公共服务职能较为单一,并不能为公众提供丰富的功能,比如天气预报等语音交互内容。
因此,有必要设计一种新的方法,实现丰富智慧路灯的功能,可进行语音交互。
发明内容
本发明的目的在于克服现有技术的缺陷,提供智慧路灯语音交互方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:智慧路灯语音交互方法,包括:
获取唤醒请求,并根据所述唤醒请求进入唤醒状态;
拾取交互语音内容;
对所述交互语音内容进行识别,以得到识别结果;
对所述识别结果进行语义分析,以得到分析结果;
根据所述分析结果获取回应内容,并反馈所述回应内容。
其进一步技术方案为:所述唤醒请求包括带有唤醒词语的语音。
其进一步技术方案为:所述对所述交互语音内容进行识别,以得到识别结果,包括:
获取当前的识别模式;
判断当前的识别模式是否是离线识别;
若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果。
其进一步技术方案为:所述判断当前的识别模式是否是离线识别之后,还包括:
若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据;
对所述文字流数据进行上下文语义理解,以得到识别结果。
其进一步技术方案为:所述对所述识别结果进行语义分析,以得到分析结果,包括:
将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
其进一步技术方案为:所述将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果,包括:
将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果;
判断所述匹配结果是否是匹配成功;
若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果;
若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
其进一步技术方案为:所述根据所述分析结果获取回应内容,并反馈所述回应内容,包括:
根据应答场景筛选所述分析结果,以得到回应内容;
根据所述回应内容进行应答或切换至相应的交互场景。
本发明还提供了智慧路灯语音交互装置,包括:
唤醒单元,用于获取唤醒请求,并根据所述唤醒请求进入唤醒状态;
语音拾取单元,用于拾取交互语音内容;
识别单元,用于对所述交互语音内容进行识别,以得到识别结果;
语义分析单元,用于对所述识别结果进行语义分析,以得到分析结果;
回应单元,用于根据所述分析结果获取回应内容,并反馈所述回应内容。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过唤醒语音交互系统,并拾取交互语音内容,并对交互语音内容进行识别和语义分析,并根据分析结果确定回应内容,并进行反馈,可实现丰富智慧路灯的功能,可进行语音交互。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的智慧路灯语音交互方法的应用场景示意图;
图2为本发明实施例提供的智慧路灯语音交互方法的流程示意图;
图3为本发明实施例提供的智慧路灯语音交互方法的子流程示意图;
图4为本发明实施例提供的智慧路灯语音交互方法的子流程示意图;
图5为本发明实施例提供的智慧路灯语音交互方法的子流程示意图;
图6为本发明实施例提供的智慧路灯语音交互装置的示意性框图;
图7为本发明实施例提供的智慧路灯语音交互装置的识别单元的示意性框图;
图8为本发明实施例提供的智慧路灯语音交互装置的语义分析单元的示意性框图;
图9为本发明实施例提供的智慧路灯语音交互装置的回应单元的示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的智慧路灯语音交互方法的应用场景示意图。图2为本发明实施例提供的智慧路灯语音交互方法的示意性流程图。该智慧路灯语音交互方法应用于服务器,该服务器集成在智慧路灯上,该智慧路灯与终端进行数据交互,智慧路灯上设置有语音拾取器,并将回应内容反馈至终端,该终端可以设置在智慧路灯上,也可以由用户持有。
图2是本发明实施例提供的智慧路灯语音交互方法的流程示意图。如图2所示,该方法包括以下步骤S110至S150。
S110、获取唤醒请求,并根据所述唤醒请求进入唤醒状态。
在本实施例中,所述唤醒请求包括带有唤醒词语的语音。
具体地,用户采用语音唤醒或者手动唤醒的方式唤醒智慧路灯的语音交互系统。正常情况下,该语音交互系统处于休眠状态,以减少功耗,当需要进行语音交互时,可以唤醒该系统后,便可进行语音交互,增多智慧路灯的功能。
S120、拾取交互语音内容。
在本实施例中,交互语音内容是指由用户输入的语音内容。
具体地,采用语音拾取器拾取用户输入的语音内容,语音拾取器拾取交互语音内容后输入至智慧路灯进行后续的处理。
S130、对所述交互语音内容进行识别,以得到识别结果。
在本实施例中,识别结果是指将交互语音内容转换形成的文本内容。
在一实施例中,请参阅图3,上述的步骤S130可包括步骤S131~S135。
S131、获取当前的识别模式。
在本实施例中,智慧路灯会在语音交互之前设定好识别模式,该识别模式包括离线识别或者在线识别,在线识别模式识别内容更精准,离线识别可以不依赖网络。
当然,可以采用语音或者终端设置的方式对识别模式进行设置。
S132、判断当前的识别模式是否是离线识别。
S133、若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果。
在本实施例中,语音识别算法包括基于动态时间规整的算法、基于参数模型的隐马尔可夫模型的方法、基于非参数模型的矢量量化的方法。这些算法如何提取进行语音识别属于现有内容,此处不再赘述。
S134、若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据。
在本实施例中,在线语音识别引擎基于深度全序列卷积神经网络框架,通过WebSocket协议,建立应用与语言转写核心引擎的长连接,将交互语音内容这一音频流数据实时转换成文字流数据。支持个性化热词,用户可将一些非常见的词汇上传至在线语音识别引擎,当实时转写的音频流数据中出现该词汇时,语音识别引擎可将其识别出来,提高专业用语识别准确率。
S135、对所述文字流数据进行上下文语义理解,以得到识别结果。
上述的语音识别引擎具备上下文纠错特性,针对上下文进行语义理解,将文字流数据进行智能纠错,确保准确性。
在本实施例中,可采用NLP(自然语言处理,Natural Language Processing)进行上下文的语义理解。
具体地,语音识别输入参数及规格:形式为实时音频流;支持格式为PCM;采样率为16KHz;采样精度为16bits;支持语种为中文普通话;声道为单声道;分片时长为40ms。
语音识别输出参数及规格:形式为json格式字符串;编码为UTF-8;结果为句子开始&结束时间&词识别内容&词标识&词开始时间&词结束时间&结果类型标识&段落ID,整句的中间结果,整句的最终结果。
在本实施例中,人机交互系统中存在全双工交互和单次交互两种模式,在普通智能音箱中,交互方式如下:
小飞小飞,查询一下深圳的天气;小飞小飞,广州的呢;小飞小飞,后天的呢。
在开启AIUI持续交互模式下,AIUI集成了包括双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和和内容服务等,可以实现如下特性:
小飞小飞,查询一下北京的天气;合肥的呢;后天的呢。
持续交互即全双工交互,在一次唤醒后,可以保持一段时间的唤醒,一般小于60秒,在这段时间内,可以直接与机器交互,免去唤醒词以后,会使得人机交互更加自然。
S140、对所述识别结果进行语义分析,以得到分析结果。
在本实施例中,分析结果是指与识别结果匹配的语句。
在本实施例中,将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
在一实施例中,请参阅图4,上述的步骤S140可包括步骤S141~S144。
S141、将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果。
在本实施例中,匹配结果是指将识别结果提取出关键词并作为搜索条件,且在自定义的语义库内进行匹配,寻找与关键词相匹配的语句,由此形成的结果。
S142、判断所述匹配结果是否是匹配成功;
S143、若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果。
S144、若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
语义库采用自主研发语义库和第三方语义库组合的方式,其中,自主研发语义库是指自定义的语义库,优先匹配自主研发的语义库应答场景,其次在匹配第三方语义库,自定义问答可以让设备在识别到自定义配置的关键词的时候优先匹配自定义的回答内容,使得回答的内容更精准。如果在自定义语义库匹配不到相对应的回答,则会到第三方语义库进行其他问答场景语义匹配。
S150、根据所述分析结果获取回应内容,并反馈所述回应内容。
在一实施例中,请参阅图5,上述的步骤S150可包括步骤S151~S152。
S151、根据应答场景筛选所述分析结果,以得到回应内容。
在本实施例中,回应内容是指与应答场景匹配的分析结果。
S152、根据所述回应内容进行应答或切换至相应的交互场景。
根据实际情况反馈回应内容,或者切换为相应的交互场景,以便于将交互场景的对话内容进行反馈,反馈至终端。
语音合成可以选择不同的发音人,免费提供男音和女音合成音色,使得适应场景更丰富。
上述的智慧灯语音交互方法,通过唤醒语音交互系统,并拾取交互语音内容,并对交互语音内容进行识别和语义分析,并根据分析结果确定回应内容,并进行反馈,可实现丰富智慧路灯的功能,可进行语音交互。
图6是本发明实施例提供的一种智慧路灯语音交互装置300的示意性框图。如图6所示,对应于以上智慧路灯语音交互方法,本发明还提供一种智慧路灯语音交互装置300。该智慧路灯语音交互装置300包括用于执行上述智慧路灯语音交互方法的单元,该装置可以被配置服务器中。具体地,请参阅图6,该智慧路灯语音交互装置300包括唤醒单元301、语音拾取单元302、识别单元303、语义分析单元304以及回应单元305。
唤醒单元301,用于获取唤醒请求,并根据所述唤醒请求进入唤醒状态;语音拾取单元302,用于拾取交互语音内容;识别单元303,用于对所述交互语音内容进行识别,以得到识别结果;语义分析单元304,用于对所述识别结果进行语义分析,以得到分析结果;回应单元305,用于根据所述分析结果获取回应内容,并反馈所述回应内容。
在一实施例中,如图7所示,所述识别单元303包括模式获取子单元3031、模式判断子单元3032、离线识别子单元3033、在线识别子单元3034以及语义理解子单元3035。
模式获取子单元3031,用于获取当前的识别模式;模式判断子单元3032,用于判断当前的识别模式是否是离线识别;离线识别子单元3033,用于若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果;在线识别子单元3034,用于若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据;语义理解子单元3035,用于对所述文字流数据进行上下文语义理解,以得到识别结果。
在一实施例中,所述语义分析单元304,用于将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
在一实施例中,如图8所示,所述语义分析单元304包括第一匹配子单元3041、结果判断子单元3042、筛选子单元3043以及第二匹配子单元3044。
第一匹配子单元3041,用于将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果;结果判断子单元3042,用于判断所述匹配结果是否是匹配成功;筛选子单元3043,用于若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果;第二匹配子单元3044,用于若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
在一实施例中,如图9所示,所述回应单元305包括内容确定子单元3051以及应答子单元3052。
内容确定子单元3051,用于根据应答场景筛选所述分析结果,以得到回应内容;应答子单元3052,用于根据所述回应内容进行应答或切换至相应的交互场景。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述智慧路灯语音交互装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述智慧路灯语音交互装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种智慧路灯语音交互方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种智慧路灯语音交互方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取唤醒请求,并根据所述唤醒请求进入唤醒状态;拾取交互语音内容;对所述交互语音内容进行识别,以得到识别结果;对所述识别结果进行语义分析,以得到分析结果;根据所述分析结果获取回应内容,并反馈所述回应内容。
其中,所述唤醒请求包括带有唤醒词语的语音。
在一实施例中,处理器502在实现所述对所述交互语音内容进行识别,以得到识别结果步骤时,具体实现如下步骤:
获取当前的识别模式;判断当前的识别模式是否是离线识别;若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果。
在一实施例中,处理器502在实现所述判断当前的识别模式是否是离线识别步骤之后,还实现如下步骤:
若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据;对所述文字流数据进行上下文语义理解,以得到识别结果。
在一实施例中,处理器502在实现所述对所述识别结果进行语义分析,以得到分析结果步骤时,具体实现如下步骤:
将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
在一实施例中,处理器502在实现所述将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果步骤时,具体实现如下步骤:
将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果;判断所述匹配结果是否是匹配成功若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果;
若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
在一实施例中,处理器502在实现所述根据所述分析结果获取回应内容,并反馈所述回应内容步骤时,具体实现如下步骤:
根据应答场景筛选所述分析结果,以得到回应内容;根据所述回应内容进行应答或切换至相应的交互场景。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取唤醒请求,并根据所述唤醒请求进入唤醒状态;拾取交互语音内容;对所述交互语音内容进行识别,以得到识别结果;对所述识别结果进行语义分析,以得到分析结果;根据所述分析结果获取回应内容,并反馈所述回应内容。
其中,所述唤醒请求包括带有唤醒词语的语音。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述交互语音内容进行识别,以得到识别结果步骤时,具体实现如下步骤:
获取当前的识别模式;判断当前的识别模式是否是离线识别;若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述判断当前的识别模式是否是离线识别步骤之后,还实现如下步骤:
若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据;对所述文字流数据进行上下文语义理解,以得到识别结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述识别结果进行语义分析,以得到分析结果步骤时,具体实现如下步骤:
将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果步骤时,具体实现如下步骤:
将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果;判断所述匹配结果是否是匹配成功;若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果;若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述分析结果获取回应内容,并反馈所述回应内容步骤时,具体实现如下步骤:
根据应答场景筛选所述分析结果,以得到回应内容;根据所述回应内容进行应答或切换至相应的交互场景。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.智慧路灯语音交互方法,其特征在于,包括:
获取唤醒请求,并根据所述唤醒请求进入唤醒状态;
拾取交互语音内容;
对所述交互语音内容进行识别,以得到识别结果;
对所述识别结果进行语义分析,以得到分析结果;
根据所述分析结果获取回应内容,并反馈所述回应内容。
2.根据权利要求1所述的智慧路灯语音交互方法,其特征在于,所述唤醒请求包括带有唤醒词语的语音。
3.根据权利要求1所述的智慧路灯语音交互方法,其特征在于,所述对所述交互语音内容进行识别,以得到识别结果,包括:
获取当前的识别模式;
判断当前的识别模式是否是离线识别;
若当前的识别模式是离线识别,则采用语音识别算法对所述交互语音内容进行识别,以得到识别结果。
4.根据权利要求3所述的智慧路灯语音交互方法,其特征在于,所述判断当前的识别模式是否是离线识别之后,还包括:
若当前的识别模式不是离线识别,则采用基于深度全序列卷积神经网络框架将所述交互语音内容转换成文字流数据;
对所述文字流数据进行上下文语义理解,以得到识别结果。
5.根据权利要求1所述的智慧路灯语音交互方法,其特征在于,所述对所述识别结果进行语义分析,以得到分析结果,包括:
将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果。
6.根据权利要求5所述的智慧路灯语音交互方法,其特征在于,所述将识别结果作为搜索条件,在设定的语义库内进行匹配,以得到分析结果,包括:
将识别结果作为搜索条件在自定义的语义库内进行匹配,以得到匹配结果;
判断所述匹配结果是否是匹配成功;
若所述匹配结果是匹配成功,则筛选与所述识别结果匹配的语句,以得到分析结果;
若所述匹配结果不是匹配成功,则将识别结果作为搜索条件在第三方语义库内进行匹配,以得到分析结果。
7.根据权利要求1所述的智慧路灯语音交互方法,其特征在于,所述根据所述分析结果获取回应内容,并反馈所述回应内容,包括:
根据应答场景筛选所述分析结果,以得到回应内容;
根据所述回应内容进行应答或切换至相应的交互场景。
8.智慧路灯语音交互装置,其特征在于,包括:
唤醒单元,用于获取唤醒请求,并根据所述唤醒请求进入唤醒状态;
语音拾取单元,用于拾取交互语音内容;
识别单元,用于对所述交互语音内容进行识别,以得到识别结果;
语义分析单元,用于对所述识别结果进行语义分析,以得到分析结果;
回应单元,用于根据所述分析结果获取回应内容,并反馈所述回应内容。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110264969.XA CN112908313A (zh) | 2021-03-08 | 2021-03-08 | 智慧路灯语音交互方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110264969.XA CN112908313A (zh) | 2021-03-08 | 2021-03-08 | 智慧路灯语音交互方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908313A true CN112908313A (zh) | 2021-06-04 |
Family
ID=76104901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110264969.XA Pending CN112908313A (zh) | 2021-03-08 | 2021-03-08 | 智慧路灯语音交互方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908313A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838464A (zh) * | 2021-09-24 | 2021-12-24 | 浪潮金融信息技术有限公司 | 一种智能语音交互系统、方法及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448664A (zh) * | 2016-10-28 | 2017-02-22 | 魏朝正 | 一种通过语音控制智能家居设备的系统及方法 |
CN106907697A (zh) * | 2017-04-19 | 2017-06-30 | 杭州派尼澳电子科技有限公司 | 一种内置碰撞声检测功能的智能路灯 |
CN207049767U (zh) * | 2017-06-22 | 2018-02-27 | 歌尔科技有限公司 | 一种基于语音交互的智能路灯 |
WO2018102980A1 (zh) * | 2016-12-06 | 2018-06-14 | 吉蒂机器人私人有限公司 | 语音交互方法、装置及系统 |
CN110287303A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 人机对话处理方法、装置、电子设备及存储介质 |
US20190341049A1 (en) * | 2018-08-31 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice Smart Device Wake-Up Method, Apparatus, Device and Storage Medium |
US20200175981A1 (en) * | 2018-11-30 | 2020-06-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method, apparatus, system, device for controlling intelligent device and storage medium |
CN211297082U (zh) * | 2019-11-07 | 2020-08-18 | 北京良业环境技术股份有限公司 | 一种具有自然语言交互功能的智能路灯及其控制系统 |
CN111833880A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音对话方法及系统 |
CN111949777A (zh) * | 2020-07-24 | 2020-11-17 | 北京奇保信安科技有限公司 | 一种基于人群分类的智能语音对话方法、装置及电子设备 |
CN112396833A (zh) * | 2020-11-04 | 2021-02-23 | 深圳市英特飞电子有限公司 | 智慧路灯的应用方法、装置、计算机设备及存储介质 |
-
2021
- 2021-03-08 CN CN202110264969.XA patent/CN112908313A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448664A (zh) * | 2016-10-28 | 2017-02-22 | 魏朝正 | 一种通过语音控制智能家居设备的系统及方法 |
WO2018102980A1 (zh) * | 2016-12-06 | 2018-06-14 | 吉蒂机器人私人有限公司 | 语音交互方法、装置及系统 |
CN106907697A (zh) * | 2017-04-19 | 2017-06-30 | 杭州派尼澳电子科技有限公司 | 一种内置碰撞声检测功能的智能路灯 |
CN207049767U (zh) * | 2017-06-22 | 2018-02-27 | 歌尔科技有限公司 | 一种基于语音交互的智能路灯 |
US20190341049A1 (en) * | 2018-08-31 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice Smart Device Wake-Up Method, Apparatus, Device and Storage Medium |
US20200175981A1 (en) * | 2018-11-30 | 2020-06-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method, apparatus, system, device for controlling intelligent device and storage medium |
CN110287303A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 人机对话处理方法、装置、电子设备及存储介质 |
CN211297082U (zh) * | 2019-11-07 | 2020-08-18 | 北京良业环境技术股份有限公司 | 一种具有自然语言交互功能的智能路灯及其控制系统 |
CN111949777A (zh) * | 2020-07-24 | 2020-11-17 | 北京奇保信安科技有限公司 | 一种基于人群分类的智能语音对话方法、装置及电子设备 |
CN111833880A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 语音对话方法及系统 |
CN112396833A (zh) * | 2020-11-04 | 2021-02-23 | 深圳市英特飞电子有限公司 | 智慧路灯的应用方法、装置、计算机设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838464A (zh) * | 2021-09-24 | 2021-12-24 | 浪潮金融信息技术有限公司 | 一种智能语音交互系统、方法及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
TWI576825B (zh) | 一種機器人系統的聲音識別系統及方法 | |
WO2018059405A1 (zh) | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 | |
WO2017084197A1 (zh) | 一种基于情感识别的智能家居控制方法及其系统 | |
WO2017012511A1 (zh) | 语音控制方法、装置及投影仪设备 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN102855874A (zh) | 基于互联网语音交互的家电控制方法及系统 | |
CN108766441A (zh) | 一种基于离线声纹识别和语音识别的语音控制方法及装置 | |
CN109949808A (zh) | 兼容普通话和方言的语音识别家电控制系统和方法 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN112151015B (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN103093755A (zh) | 基于终端及互联网语音交互的网络家电控制方法及系统 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN102831892A (zh) | 基于互联网语音交互的玩具控制方法及系统 | |
US11810593B2 (en) | Low power mode for speech capture devices | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN112908313A (zh) | 智慧路灯语音交互方法、装置、计算机设备及存储介质 | |
CN107756412B (zh) | 语音对话机器人的控制方法及终端设备 | |
US11769491B1 (en) | Performing utterance detection using convolution | |
CN113643684A (zh) | 语音合成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |