CN109686360A - 一种语音订餐机器人 - Google Patents

一种语音订餐机器人 Download PDF

Info

Publication number
CN109686360A
CN109686360A CN201910015420.XA CN201910015420A CN109686360A CN 109686360 A CN109686360 A CN 109686360A CN 201910015420 A CN201910015420 A CN 201910015420A CN 109686360 A CN109686360 A CN 109686360A
Authority
CN
China
Prior art keywords
module
voice
dialogue
reservation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910015420.XA
Other languages
English (en)
Inventor
黄金杰
蔺江全
王雅君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910015420.XA priority Critical patent/CN109686360A/zh
Publication of CN109686360A publication Critical patent/CN109686360A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音订餐机器人,系统包括:语音采集模块,用于采集和保存用户语音数据;语音识别模块,用于识别语音数据并转换成相应的文本数据;自然语言理解模块,用于提取文本数据中的意图和实体;对话管理模块,用于对话过程的状态控制、数据管理以及上下文管理;自然语言合成模块,用于将对话管理模块的非文本输出转换成文本数据;语音合成模块,用于将文本数据转换成语音数据;语音发声模块,用于播放语音。本发明能识别和理解订餐用户的语音信号,提取其中的意图和实体,并能进行多轮对话,能满足带有明确订餐目的并需要进行多轮对话的用户。

Description

一种语音订餐机器人
技术领域
本发明涉及一种语音订餐机器人系统,属于语音对话机器人技术领域,尤其涉及一种任务型语音对话机器人系统。
背景技术
近几年来,随着人工智能的飞速发展,世界上出现了许多语音对话机器人,如谷歌的谷歌助手、苹果的Siri、百度的度秘。这类语音对话机器人都属于闲聊型对话机器人,能识别人类的语音信号,并提取其中的有用信息,进行有趣的回复。但闲聊对话机器人没有对话管理模块,因此不能进行多轮对话,所以不能满足需要进行多轮对话才能达到目的的用户,尤其不能满足带有明确订餐目的并需要进行多轮对话的用户。
发明内容
针对上述问题,本发明要解决的技术问题是提供一种语音订餐机器人。
本发明解决其技术问题所采用的技术方案是:一种语音订餐机器人系统,包括:
语音采集模块,用于采集和保存用户的语音数据;
语音识别模块,用于识别语音数据并转换成相应的文本数据;
自然语言理解模块,用于提取文本数据中的意图和实体;
对话管理模块,用于对话过程的状态控制、数据管理以及上下文管理;
自然语言合成模块,将对话管理模块的非文本输出转换成文本数据;
语音合成模块,用于将文本数据转换成语音数据;
语音发声模块,用于播放语音。
其中,所述的语音采集模块包括语音端点监测模块和声卡驱动模块。
其中,所述的语音端点监测模块,用于监测用户说话的开始和结束;声卡驱动模块,用于采集来自话筒的语音数据,进行录音并保存成声音格式的文件。
其中,所述的语音识别模块通过网络与语音识别和合成服务器相连;所述语音合成模块通过网络与语音识别和合成服务器相连。
其中,所述的自然语言理解模块中意图识别和实体提取的模型采用双向循环神经网络+条件随机场的联合算法模型。
其中,所述的对话管理模块包括对话追踪模块、对话策略模块、对话动作模块。
其中,所述的对话追踪模块,用于对对话状态进行追踪,接受并记录文本意图和文本实体识别的最新状态;对话策略模块,用于接受当前的对话状态,在对话动作模块中选择响应合适的对话动作,被选中的对话动作记录在对话追踪模块中。
其中,所述的对话管理模块中对话策略模块是利用长短时记忆网络算法模型训练的对话策略模型。
其中,所述的自然语言生成模块采用检索式自然语言生成方式。
本发明的有益效果为:能识别和理解订餐用户的语音信号,提取其中的意图和实体,并能进行多轮对话,能满足带有明确订餐目的并需要进行多轮对话的用户。订餐用户也可在对话过程中不断修改或者完善自己的需求,对话机器人也可通过询问、澄清或确认来帮助订餐用户明确自己的需求。
附图说明
为了易于说明,本发明由下述的具体实施及附图作以详细描述。
图1为本发明具体实施方式的整体结构示意图。
图2为本发明具体实施方式的语音采集模块的结构示意图。
图3为本发明具体实施方式的语音识别和语音合成模块的结构示意图。
图4为本发明具体实施方式的对话管理模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。另外还需要说明,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
如图1所示,本发明具体实施方式采用以下技术方案:它包含语音采集模块 1,用于采集和保存用户的语音数据;语音识别模块2,用于识别语音数据并转换成相应的文本数据;自然语言理解模块3,用于提取文本数据中的意图和实体;对话管理模块4,用于对话过程的状态控制、数据管理以及上下文管理;自然语言合成模块5,将对话管理模块4的非文本输出转换成文本数据;语音合成模块 6,用于将文本数据转换成语音数据;语音发声模块7,用于播放语音。
进一步的,所述的语音采集模块1包括语音端点监测模块11和声卡驱动模块12。
进一步的,所述的语音采集模块1是通过语音端点监测模块11监测用户说话的开始和结束,在说话期间通过声卡驱动模块12,采集来自话筒13的语音数据,进行录音并保存成声音格式的文件。
进一步的,所述的语音识别模块2将上述保存的声音格式文件转换成采样率是16000、16bit位深、单声道的wav格式的声音文件,通过网络传给语音识别和合成服务器8进行语音识别,并保存语音识别和合成服务器8识别后返回的文本数据。
进一步的,所述的自然语言理解模块3采用的是双向循环神经网络+条件随机场的联合算法模型进行意图识别和实体提取模型的训练。训练的数据采用的是订餐领域常用的口语,数据分为11类意图,训练集数据共65788条,测试数据共5800条。
进一步的,所述的自然语言理解模块3是将语音识别和合成服务器8识别后返回的文本数据,通过意图识别和实体提取模型提取返回文本中的意图和实体并传给对话管理模块4。
进一步的,所述的对话管理模块4包括对话追踪模块41、对话策略模块42、对话动作模块43。
进一步的,所述的对话追踪模块41,用于对对话状态进行追踪,接受并记录文本意图和文本实体识别的最新状态;对话策略模块42,用于接受当前的对话状态,在对话动作模块43中选择响应合适的对话动作,被选中的对话动作记录在对话追踪模块中。
进一步的,所述的对话管理模块4中对话策略模块42是利用长短时记忆网络算法模型训练的对话策略模型。训练数据为52种订餐对话场景。
进一步的,所述的自然语言生成模块5采用检索式自然语言生成方式,根据对话管理模块4输出的对话动作所对应的对话语料库,通过排序学习技术和匹配技术找到适合当前输入的最佳文本回复。
进一步的,所述的语音合成模块6将自然语言生成模块5生成的最佳文本回复,通过网络传给语音识别和合成服务器8进行语音合成,并保存语音识别和合成服务器8合成后返回的声音文件。
进一步的,所述的语音发声模块7通过调用声卡发声模块播放语音合成模块 6保存的声音文件。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种语音订餐机器人,其特征在于:所述的语音订餐机器人系统包括:语音采集模块,用于采集和保存用户的语音数据;语音识别模块,用于识别语音数据并转换成相应的文本数据;自然语言理解模块,用于提取文本数据中的意图和实体;对话管理模块,用于对话过程的状态控制、数据管理以及上下文管理;自然语言合成模块,将对话管理模块的非文本输出转换成文本数据;语音合成模块,用于将文本数据转换成语音数据;语音发声模块,用于播放语音。
2.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的语音采集模块包括语音端点监测模块和声卡驱动模块。
3.根据权利要求2所述的一种语音订餐机器人,其特征在于:所述的语音端点监测模块,用于监测用户说话的开始和结束;声卡驱动模块,用于采集来自话筒的语音数据,进行录音并保存成声音格式的文件。
4.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的语音识别模块通过网络与语音识别和合成服务器相连;所述的语音合成模块通过网络与语音识别和合成服务器相连。
5.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的自然语言理解模块中意图识别和实体提取的模型采用双向循环神经网络+条件随机场的联合算法模型。
6.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的对话管理模块包括对话追踪模块、对话策略模块、对话动作模块。
7.根据权利要求6所述的一种语音订餐机器人,其特征在于:所述的对话追踪模块,用于对对话状态进行追踪,接受并记录文本意图和文本实体识别的最新状态;对话策略模块,用于接受当前的对话状态,在对话动作模块中选择响应合适的对话动作,被选中的对话动作记录在对话追踪模块中。
8.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的对话管理模块中对话策略模块是利用长短时记忆网络算法模型训练的对话策略模型。
9.根据权利要求1所述的一种语音订餐机器人,其特征在于:所述的自然语言生成模块采用检索式自然语言生成方式。
CN201910015420.XA 2019-01-08 2019-01-08 一种语音订餐机器人 Pending CN109686360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910015420.XA CN109686360A (zh) 2019-01-08 2019-01-08 一种语音订餐机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910015420.XA CN109686360A (zh) 2019-01-08 2019-01-08 一种语音订餐机器人

Publications (1)

Publication Number Publication Date
CN109686360A true CN109686360A (zh) 2019-04-26

Family

ID=66192045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910015420.XA Pending CN109686360A (zh) 2019-01-08 2019-01-08 一种语音订餐机器人

Country Status (1)

Country Link
CN (1) CN109686360A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175228A (zh) * 2019-05-27 2019-08-27 苏州课得乐教育科技有限公司 基于基础模块和机器学习的循环嵌入对话训练方法及系统
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN111611350A (zh) * 2020-05-26 2020-09-01 北京妙医佳健康科技集团有限公司 基于健康知识的应答方法、装置及电子设备
CN111881280A (zh) * 2020-07-28 2020-11-03 南方电网深圳数字电网研究院有限公司 一种用于电力行业的智能人机交互系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话系统
CN107578320A (zh) * 2017-09-19 2018-01-12 拉扎斯网络科技(上海)有限公司 基于语音交互的订餐方法及相关装置
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN108510355A (zh) * 2018-03-12 2018-09-07 拉扎斯网络科技(上海)有限公司 语音交互订餐的实现方法及相关装置
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN109036380A (zh) * 2018-07-04 2018-12-18 苏州思必驰信息科技有限公司 对话状态跟踪方法、系统、电子设备及存储介质
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话系统
CN107578320A (zh) * 2017-09-19 2018-01-12 拉扎斯网络科技(上海)有限公司 基于语音交互的订餐方法及相关装置
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN108510355A (zh) * 2018-03-12 2018-09-07 拉扎斯网络科技(上海)有限公司 语音交互订餐的实现方法及相关装置
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN109036380A (zh) * 2018-07-04 2018-12-18 苏州思必驰信息科技有限公司 对话状态跟踪方法、系统、电子设备及存储介质
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175228A (zh) * 2019-05-27 2019-08-27 苏州课得乐教育科技有限公司 基于基础模块和机器学习的循环嵌入对话训练方法及系统
CN110175228B (zh) * 2019-05-27 2023-08-15 苏州课得乐教育科技有限公司 基于基础模块和机器学习的循环嵌入对话训练方法及系统
CN110853621A (zh) * 2019-10-09 2020-02-28 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN111611350A (zh) * 2020-05-26 2020-09-01 北京妙医佳健康科技集团有限公司 基于健康知识的应答方法、装置及电子设备
CN111611350B (zh) * 2020-05-26 2024-04-09 北京妙医佳健康科技集团有限公司 基于健康知识的应答方法、装置及电子设备
CN111881280A (zh) * 2020-07-28 2020-11-03 南方电网深圳数字电网研究院有限公司 一种用于电力行业的智能人机交互系统及方法

Similar Documents

Publication Publication Date Title
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN109686360A (zh) 一种语音订餐机器人
Anguera et al. Speaker diarization: A review of recent research
Gu et al. Speech intention classification with multimodal deep learning
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN107329996A (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN105810200A (zh) 基于声纹识别的人机对话装置及其方法
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
CN102436812A (zh) 会议记录装置及利用该装置对会议进行记录的方法
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN109101663A (zh) 一种基于互联网的机器人对话系统
CN110570847A (zh) 一种多人场景的人机交互系统及方法
CN116324984A (zh) 用于生成音频信号的元数据的系统和方法
Bowen Word order detection in English classroom teaching based on improved genetic algorithm of block coding
Liu English speech emotion recognition method based on speech recognition
CN206672635U (zh) 一种基于图书服务机器人的语音交互装置
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
CN112734604A (zh) 一种提供多模态智能报案的装置及其笔录生成方法
CN111210812A (zh) 一种人工智能语音中转系统
CN115022471B (zh) 一种智能机器人语音交互系统和方法
Anidjar et al. Speech and multilingual natural language framework for speaker change detection and diarization
CN109325155A (zh) 一种新型对话状态存储方法及系统
Kumar et al. Speech emotion recognition using machine learning
Miao et al. [Retracted] English Speech Feature Recognition‐Based Fuzzy Algorithm and Artificial Intelligent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190426