CN105590626A - 持续语音人机交互方法和系统 - Google Patents

持续语音人机交互方法和系统 Download PDF

Info

Publication number
CN105590626A
CN105590626A CN201511010302.8A CN201511010302A CN105590626A CN 105590626 A CN105590626 A CN 105590626A CN 201511010302 A CN201511010302 A CN 201511010302A CN 105590626 A CN105590626 A CN 105590626A
Authority
CN
China
Prior art keywords
semantic
phrase
sound
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511010302.8A
Other languages
English (en)
Other versions
CN105590626B (zh
Inventor
吴世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201511010302.8A priority Critical patent/CN105590626B/zh
Publication of CN105590626A publication Critical patent/CN105590626A/zh
Application granted granted Critical
Publication of CN105590626B publication Critical patent/CN105590626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明公开了一种持续语音人机交互方法和系统,其中,持续语音人机交互方法,包括:接收用户输入的持续语音信号;基于长语音切分技术ModelVad将持续语音信号切分为多个短语音;基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果;基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果;以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。本发明实施例的持续语音人机交互方法和系统,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。

Description

持续语音人机交互方法和系统
技术领域
本发明涉及人机交互技术领域,尤其涉及一种持续语音人机交互方法和系统。
背景技术
语音识别是一门交叉学科。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。目前,用户可通过麦克风输入语音信息,语音识别系统可对语音信息进行解析,生成对应的答案,例如著名的SIRI。
但是,当前的语音识别技术,主要采用一问一答的方式,即用户输入一段语音,系统根据当前解析的内容,为该语音提供一个相应的答案。用户每次输入语音时,均需要点按一次,系统再识别一次,操作不便。另外,语音识别系统采用统一的语言模型,无法根据上下文理解用户的意图,准确率低,且无法主动向用户提问,不够智能化。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种持续语音人机交互方法,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
本发明的第二个目的在于提出一种持续语音人机交互系统。
为了实现上述目的,本发明第一方面实施例提出了一种持续语音人机交互方法,包括:接收用户输入的持续语音信号;基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
本发明实施例的持续语音人机交互方法,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
本发明第二方面实施例提出了一种持续语音人机交互系统,包括:接收模块,用于接收用户输入的持续语音信号;切分模块,用于基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;识别模块,用于基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;语义补全模块,用于基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及生成模块,用于基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
本发明实施例的持续语音人机交互系统,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
附图说明
图1是根据本发明一个实施例的快速切换网页的方法的流程图。
图2是根据本发明一个实施例的持续语音人机交互系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的快速切换网页的方法和系统。
图1是根据本发明一个实施例的快速切换网页的方法的流程图。
如图1所示,快速切换网页的方法可包括:
S1,接收用户输入的持续语音信号。
具体地,可接收用户输入的持续语音信号。现有技术中,用户主要通过客户端点击录音按键,输入语音,再松开录音按键,输入结束,语音识别系统再对语音进行识别。每次输入均要执行相同的操作,十分不便。而在本发明的实施例中,用户只需点击一次录音按键,即可输入持续的语音信号,人机交互系统可智能地对语音信号进行切分,分段进行识别,无需用户多次重复操作。
S2,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音。
具体地,可根据预先建立的静音模型,利用深度学习算法对持续语音信号的每帧语音进行识别,以识别出静音语音,再将静音语音作为切分点将持续语音信号切分为多个短语音,从而实现持续语音的切分,化整为零,分别对短语音进行识别。
S3,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果。
具体地,可获取短语音的上下文信息,然后根据上下文信息选择对应的动态语言模型对短语音进行解码,以生成识别结果。更具体地,可解析短语音的语义信息。当短语音的语义信息与上下文信息相关时,生成对应的识别结果,即与上下文相关信息相关时,通过正模型对短语音进行解码,生成对应的识别结果。当短语音的语义信息与上下文信息无关时,过滤短语音,即与上下文信息无关时,通过噪音模型对短语音进行解码,从而过滤掉短语音。根据上述方法,可有效地关注交互主题,吸收噪音和语义无关的输入,减少了噪音对识别结果的干扰。
举例来说,用户在与人机交互系统进行交互的时候,系统提问“您想在哪个城市订酒店?”,其期待用户的回答是城市的名称,因此可构造一个由城市名称组成的语言模型,以此为相关的问题提供合适的待选答案,减少搜索的时间,提升准确率以及人机交互系统的响应速度。
S4,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果。
具体地,在持续的人机交互过程中,用户输入的可能只是一个简单的短语音,但是包含了上下文的语义。例如:酒店预订时,系统在询问用户想入住哪个城市时,用户回答北京,其完整语义为想预定北京的酒店,由此可根据上下文语义解析技术对识别结果进行语义补全,从而生成语义补全结果,使得用户意图更加明确。
S5,基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。
具体地,可获取知识库中的待选答案,然后基于有限状态机FST从待选答案中选择与语义补全结果音对应的跳转概率最大的问答语句。更具体地,可结合上下文语义信息,从知识库的待选答案中,选择最适合该语义补全结果的问答语句,然后输出给用户。举例来说,用户想在北京北三环预定酒店,则可为该需求生成相关的多个待选答案,例如:该地区附近的所有的酒店的信息如酒店的星级、价位等,该地区附近的餐饮、商店信息等生活服务相关信息等,综合上述所有相关的待选答案,再结合上下文信息,选出最符合上句意图的答案。
另外,在向用户提供问答语句之后,如果在预定时间内,未接收到用户的反馈,还可根据当前场景信息,生成主动引导决策,主动地对用户进行引导。例如:在询问用户想在哪个城市订酒店之后,用户一段时间内没有反应,则可主动加强引导,“请说出您想入住的城市名称”,从而实现对用户的有效引导。
本发明实施例的持续语音人机交互方法,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
为实现上述目的,本发明还提出一种持续语音人机交互系统。
图2是根据本发明一个实施例的持续语音人机交互系统的结构示意图。
如图2所示,持续语音人机交互系统可包括:接收模块110、切分模块120、识别模块130、语义补全模块140以及生成模块150。
接收模块110用于接收用户输入的持续语音信号。具体地,接收模块110可接收用户输入的持续语音信号。现有技术中,用户主要通过客户端点击录音按键,输入语音,再松开录音按键,输入结束,语音识别系统再对语音进行识别。每次输入均要执行相同的操作,十分不便。而在本发明的实施例中,用户只需点击一次录音按键,即可输入持续的语音信号,人机交互系统可智能地对语音信号进行切分,分段进行识别,无需用户多次重复操作。
切分模块120用于基于长语音切分技术ModelVad将持续语音信号切分为多个短语音。具体地,切分模块120可根据预先建立的静音模型,利用深度学习算法对持续语音信号的每帧语音进行识别,以识别出静音语音,再将静音语音作为切分点将持续语音信号切分为多个短语音,从而实现持续语音的切分,化整为零,分别对短语音进行识别。
识别模块130用于基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果。具体地,识别模块130可获取短语音的上下文信息,然后根据上下文信息选择对应的动态语言模型对短语音进行解码,以生成识别结果。更具体地,可解析短语音的语义信息。当短语音的语义信息与上下文信息相关时,生成对应的识别结果,即与上下文相关信息相关时,通过正模型对短语音进行解码,生成对应的识别结果。当短语音的语义信息与上下文信息无关时,过滤短语音,即与上下文信息无关时,通过噪音模型对短语音进行解码,从而过滤掉短语音。根据上述方法,可有效地关注交互主题,吸收噪音和语义无关的输入,减少了噪音对识别结果的干扰。
举例来说,用户在与人机交互系统进行交互的时候,系统提问“您想在哪个城市订酒店?”,其期待用户的回答是城市的名称,因此可构造一个由城市名称组成的语言模型,以此为相关的问题提供合适的待选答案,减少搜索的时间,提升准确率以及人机交互系统的响应速度。
语义补全模块140用于基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果。具体地,在持续的人机交互过程中,用户输入的可能只是一个简单的短语音,但是包含了上下文的语义。例如:酒店预订时,系统在询问用户想入住哪个城市时,用户回答北京,其完整语义为想预定北京的酒店,由此可根据上下文语义解析技术对识别结果进行语义补全,从而生成语义补全结果,使得用户意图更加明确。
生成模块150用于基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。具体地,生成模块150可获取知识库中的待选答案,然后基于有限状态机FST从待选答案中选择与语义补全结果音对应的跳转概率最大的问答语句。更具体地,可结合上下文语义信息,从知识库的待选答案中,选择最适合该语义补全结果的问答语句,然后输出给用户。举例来说,用户想在北京北三环预定酒店,则可为该需求生成相关的多个待选答案,例如:该地区附近的所有的酒店的信息如酒店的星级、价位等,该地区附近的餐饮、商店信息等生活服务相关信息等,综合上述所有相关的待选答案,再结合上下文信息,选出最符合上句意图的答案。
另外,在向用户提供问答语句之后,如果在预定时间内,未接收到用户的反馈,还可根据当前场景信息,生成主动引导决策,主动地对用户进行引导。例如:在询问用户想在哪个城市订酒店之后,用户一段时间内没有反应,则可主动加强引导,“请说出您想入住的城市名称”,从而实现对用户的有效引导。
本发明实施例的持续语音人机交互系统,通过接收用户输入的持续语音信号,基于长语音切分技术ModelVad将持续语音信号切分为多个短语音,基于动态语言模型对多个短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行主动引导,提升用户使用体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种持续语音人机交互方法,其特征在于,包括以下步骤:
接收用户输入的持续语音信号;
基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;
基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;
基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及
基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
2.如权利要求1所述的方法,其特征在于,所述基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音,包括:
根据预先建立的静音模型,利用深度学习算法对所述持续语音信号的每帧语音进行识别,以识别出静音语音;
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
3.如权利要求1所述的方法,其特征在于,所述基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果,包括:
获取短语音的上下文信息;
根据所述上下文信息选择对应的动态语言模型对所述短语音进行解码,以生成所述识别结果。
4.如权利要求3所述的方法,其特征在于,所述根据所述上下文信息选择对应的动态语言模型对所述短语音进行解码,以生成所述识别结果,包括:
解析所述短语音的语义信息;
当所述短语音的语义信息与所述上下文信息相关时,生成对应的识别结果;
当所述短语音的语义信息与所述上下文信息无关时,过滤所述短语音。
5.如权利要求1所述的方法,其特征在于,所述基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句,包括:
获取知识库中的待选答案;
基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句。
6.一种持续语音人机交互系统,其特征在于,包括:
接收模块,用于接收用户输入的持续语音信号;
切分模块,用于基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;
识别模块,用于基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果;
语义补全模块,用于基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及
生成模块,用于基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
7.如权利要求6所述的系统,其特征在于,所述切分模块用于:
根据预先建立的静音模型,利用深度学习算法对所述持续语音信号的每帧语音进行识别,以识别出静音语音;
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
8.如权利要求6所述的系统,其特征在于,所述识别模块,用于:
获取短语音的上下文信息;
根据所述上下文信息选择对应的动态语言模型对所述短语音进行解码,以生成所述识别结果。
9.如权利要求8所述的系统,其特征在于,所述识别模块,用于:
解析所述短语音的语义信息;
当所述短语音的语义信息与所述上下文信息相关时,生成对应的识别结果;
当所述短语音的语义信息与所述上下文信息无关时,过滤所述短语音。
10.如权利要求6所述的系统,其特征在于,所述生成模块,用于:
获取知识库中的待选答案;
基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句。
CN201511010302.8A 2015-12-29 2015-12-29 持续语音人机交互方法和系统 Active CN105590626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511010302.8A CN105590626B (zh) 2015-12-29 2015-12-29 持续语音人机交互方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511010302.8A CN105590626B (zh) 2015-12-29 2015-12-29 持续语音人机交互方法和系统

Publications (2)

Publication Number Publication Date
CN105590626A true CN105590626A (zh) 2016-05-18
CN105590626B CN105590626B (zh) 2020-03-03

Family

ID=55930149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511010302.8A Active CN105590626B (zh) 2015-12-29 2015-12-29 持续语音人机交互方法和系统

Country Status (1)

Country Link
CN (1) CN105590626B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653019A (zh) * 2016-12-07 2017-05-10 华南理工大学 一种基于用户注册信息的人机对话控制方法及系统
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置
CN107799116A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 多轮交互并行语义理解方法和装置
CN107846350A (zh) * 2016-09-19 2018-03-27 Tcl集团股份有限公司 一种语境感知网络聊天的方法、计算机可读介质和系统
CN108109616A (zh) * 2016-11-25 2018-06-01 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
CN109660678A (zh) * 2018-12-07 2019-04-19 深圳前海微众银行股份有限公司 电核系统实现方法、系统及可读存储介质
CN109727591A (zh) * 2018-12-29 2019-05-07 深圳市同行者科技有限公司 一种语音搜索的方法及装置
CN110706536A (zh) * 2019-10-25 2020-01-17 北京猿力未来科技有限公司 一种语音答题方法及装置
CN110808031A (zh) * 2019-11-22 2020-02-18 大众问问(北京)信息科技有限公司 一种语音识别方法、装置和计算机设备
CN111128168A (zh) * 2019-12-30 2020-05-08 斑马网络技术有限公司 语音控制方法、装置及存储介质
CN111464707A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 外呼处理方法、装置及系统
CN111625704A (zh) * 2020-05-11 2020-09-04 镇江纵陌阡横信息科技有限公司 一种用户意图与数据协同的非个性化推荐算法模型
CN111899566A (zh) * 2020-08-11 2020-11-06 南京畅淼科技有限责任公司 一种基于ais的船舶交通管理系统
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
WO2020238341A1 (zh) * 2019-05-31 2020-12-03 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN103198155A (zh) * 2013-04-27 2013-07-10 俞志晨 一种基于移动终端的智能问答交互系统及方法
CN103268313A (zh) * 2013-05-21 2013-08-28 北京云知声信息技术有限公司 一种自然语言的语义解析方法及装置
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104571485A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种基于Java Map的人机语音交互系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN103198155A (zh) * 2013-04-27 2013-07-10 俞志晨 一种基于移动终端的智能问答交互系统及方法
CN103268313A (zh) * 2013-05-21 2013-08-28 北京云知声信息技术有限公司 一种自然语言的语义解析方法及装置
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
CN104571485A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种基于Java Map的人机语音交互系统及方法
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吕永波 等: "《虚拟智力资源共享系统研究》", 31 May 2007, 清华大学出版社、北京交通大学出版社 *
朱洁 等: "《多媒体技术教程》", 31 May 2011, 机械工业出版社 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置
CN107799116A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 多轮交互并行语义理解方法和装置
CN107846350A (zh) * 2016-09-19 2018-03-27 Tcl集团股份有限公司 一种语境感知网络聊天的方法、计算机可读介质和系统
CN107846350B (zh) * 2016-09-19 2022-01-21 Tcl科技集团股份有限公司 一种语境感知网络聊天的方法、计算机可读介质和系统
CN108109616A (zh) * 2016-11-25 2018-06-01 松下知识产权经营株式会社 信息处理方法、信息处理装置以及程序
CN106653019B (zh) * 2016-12-07 2019-11-15 华南理工大学 一种基于用户注册信息的人机对话控制方法及系统
WO2018103602A1 (zh) * 2016-12-07 2018-06-14 华南理工大学 一种基于用户注册信息的人机对话控制方法及系统
CN106653019A (zh) * 2016-12-07 2017-05-10 华南理工大学 一种基于用户注册信息的人机对话控制方法及系统
CN109660678A (zh) * 2018-12-07 2019-04-19 深圳前海微众银行股份有限公司 电核系统实现方法、系统及可读存储介质
CN109727591A (zh) * 2018-12-29 2019-05-07 深圳市同行者科技有限公司 一种语音搜索的方法及装置
CN109727591B (zh) * 2018-12-29 2020-08-11 深圳市同行者科技有限公司 一种语音搜索的方法及装置
WO2020238341A1 (zh) * 2019-05-31 2020-12-03 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN110706536A (zh) * 2019-10-25 2020-01-17 北京猿力未来科技有限公司 一种语音答题方法及装置
CN110706536B (zh) * 2019-10-25 2021-10-01 北京猿力教育科技有限公司 一种语音答题方法及装置
CN110808031A (zh) * 2019-11-22 2020-02-18 大众问问(北京)信息科技有限公司 一种语音识别方法、装置和计算机设备
CN111128168A (zh) * 2019-12-30 2020-05-08 斑马网络技术有限公司 语音控制方法、装置及存储介质
CN111464707A (zh) * 2020-03-30 2020-07-28 中国建设银行股份有限公司 外呼处理方法、装置及系统
CN111625704A (zh) * 2020-05-11 2020-09-04 镇江纵陌阡横信息科技有限公司 一种用户意图与数据协同的非个性化推荐算法模型
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
CN111899566A (zh) * 2020-08-11 2020-11-06 南京畅淼科技有限责任公司 一种基于ais的船舶交通管理系统

Also Published As

Publication number Publication date
CN105590626B (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
CN105590626A (zh) 持续语音人机交互方法和系统
CN109086329B (zh) 基于话题关键词引导的进行多轮对话方法及装置
CN110309283B (zh) 一种智能问答的答案确定方法及装置
CN108536802B (zh) 基于儿童情绪的交互方法及装置
US20210142794A1 (en) Speech processing dialog management
CN103262156B (zh) 语音识别语言模型
CN111651609A (zh) 一种融合知识图谱和情感监督的多轮对话方法及系统
CN102142253B (zh) 语音情感识别设备及方法
WO2016159961A1 (en) Voice driven operating system for interfacing with electronic devices
EP2940684A1 (en) Voice recognizing method and system for personalized user information
US11551663B1 (en) Dynamic system response configuration
WO2014047270A1 (en) Method and apparatus for predicting intent in ivr using natural language queries
US11200885B1 (en) Goal-oriented dialog system
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
US11579841B1 (en) Task resumption in a natural understanding system
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
Kim et al. R-cube: a dialogue agent for restaurant recommendation and reservation
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
Laban et al. Newspod: Automatic and interactive news podcasts
US11955112B1 (en) Cross-assistant command processing
US20240029708A1 (en) Visual responses to user inputs
Hirzel et al. I can parse you: Grammars for dialogs
CN114756646A (zh) 一种对话方法、对话装置及智能设备
CN114328867A (zh) 一种人机对话中智能打断的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant