CN115022471B - 一种智能机器人语音交互系统和方法 - Google Patents

一种智能机器人语音交互系统和方法 Download PDF

Info

Publication number
CN115022471B
CN115022471B CN202210544210.1A CN202210544210A CN115022471B CN 115022471 B CN115022471 B CN 115022471B CN 202210544210 A CN202210544210 A CN 202210544210A CN 115022471 B CN115022471 B CN 115022471B
Authority
CN
China
Prior art keywords
module
text
intelligent
user
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210544210.1A
Other languages
English (en)
Other versions
CN115022471A (zh
Inventor
叶海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hulian Zhongxin Technology Co ltd
Original Assignee
Beijing Hulian Zhongxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hulian Zhongxin Technology Co ltd filed Critical Beijing Hulian Zhongxin Technology Co ltd
Priority to CN202210544210.1A priority Critical patent/CN115022471B/zh
Publication of CN115022471A publication Critical patent/CN115022471A/zh
Application granted granted Critical
Publication of CN115022471B publication Critical patent/CN115022471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Psychiatry (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种智能机器人语音交互系统和方法,所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。使得语义理解更加智能,为客户带来更好的交互体验,提供更加稳定的在线对话,也支持与各主流呼叫系统人工坐席对接。

Description

一种智能机器人语音交互系统和方法
技术领域
本发明涉及智能机器人技术领域,尤其是涉及一种智能机器人语音交互系统和方法。
背景技术
目前语音交互机器人在对用户的意图进行识别过程中存在识别率低、速度慢的问题,而且机器人工作时会处于各类复杂的环境中,时常会面临没有网络或者网络质量不好的情况,此时机器人不能准确的达到用户所需要的服务效果。
语音交互机器人一般利用语音识别ASR技术将语音转写成文字,进行NLP模块的识别,但是因为领域限制,目前市面上通用的语音机器人对金融催缴领域的转写支持度不高,转写识别率较低;因为身份限制,催缴领域的客户沟通意愿较低,说话文本较短、切不规范,给语义建模带来较大麻烦;现有机器人功能相对单一,只涵盖智能问答部分,从案件处理流程上来说并不完善,缺乏后续的文本挖掘、自动催记等内容。
因此设计一款智能语音交互系统使机器人同时具有离线和在线语音交互功能,并且融入情绪识别将能从很大程度上解决这类问题。
发明内容
本发明提供一种智能机器人语音交互系统和方法,以解决现有技术中存在的目前机器人在对用户的意图进行识别过程中识别率低、速度慢,而且机器人工作时会处于各类复杂的环境中,时常会面临没有网络或者网络质量不好的情况,此时机器人不能准确的达到用户所需要的服务效果。语音交互机器人一般利用语音识别ASR技术将语音转写成文字,进行NLP模块的识别,但是因为领域限制,目前市面上通用的语音机器人对金融催缴领域的转写支持度不高,转写识别率较低;因为身份限制,催缴领域的客户沟通意愿较低,说话文本较短、切不规范,给语义建模带来较大麻烦;现有机器人功能相对单一,只涵盖智能问答部分,从案件处理流程上来说并不完善,缺乏后续的文本挖掘、自动催记等内容。因此设计一款智能语音交互系统使机器人同时具有离线和在线语音交互功能,并且融入情绪识别将能从很大程度上解决这类问题的上述问题。
为了达到上述目的,本发明提供如下技术方案:
本发明提供了一种智能机器人语音交互系统和方法,其中,该智能机器人语音交互系统包括:智能催告模块、智能对话模块和数据挖掘模块;
所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;
所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;
所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。
其中,所述智能催告模块包括:数据导入子模块、话单管理子模块、话术管理子模块、智能策略子模块和呼叫状态监控子模块;
所述数据导入子模块用于将用户号码批量导入至所述智能催告模块;
所述话单管理子模块用于对所述智能对话模块中的原始通信记录信息以及用户号码进行管理,对用户号码进行批量自动拨打操作;
所述话术管理子模块用于对所述智能对话模块中存储的话术进行管理;
所述智能策略子模块用于对用户的音频进行智能分析,判断出用户的需求,调用所述话术管理子模块中对应的话术作为策略为用户提供服务;
所述呼叫状态监控子模块用于对所述智能对话模块中的呼叫状态进行实时监控。
其中,所述智能对话模块包括:呼叫子模块、ASR子模块、NLU语义理解子模块、DM子模块、NLG文本生成子模块、TTS子模块和知识库;
所述呼叫子模块用于用户通过所述呼叫子模块与机器人进行语音交互;
所述ASR子模块用于通过ASR语音识别技术构建纠错模型,通过所述纠错模型将接收到的用户语音转写成文本;
所述NLU语义理解子模块用于所述智能机器人通过NLU语义理解技术构建大文本预训练模型,通过所述大文本预训练模型为文本语义理解提供基础,获取对文本的理解;
所述DM子模块用于管理所述NLU语义理解子模块接收到的对话文本,通过对话文本的智能分析判断出用户所处的情绪状态;
所述NLG文本生成子模块用于根据接收到的对话文本以及用户所处的情绪状态智能生成对应的对话文本,其中,对话文本是调取知识库中的数据;
所述TTS子模块用于将所述NLG文本生成子模块生成的对话文本转换为语音,用户获取语音;
所述知识库用于对录音、拨打接通数据进行存储以及检索,并实时对知识库中的数据信息进行更新。
其中,所述数据挖掘模块包括:智能标签子模块、关键信息子模块和文本挖掘子模块;
所述关键信息子模块用于识别对话过程中的关键信息;
所述文本挖掘子模块用于当通话文本结束时挖掘对话过程中所述关键信息子模块识别的关键信息;
所述智能标签子模块用于将挖掘出来的关键信息转化为语义标签,通过语义标签对后续的作业进行跟进。
其中,所述ASR子模块包括:特征提取子模块、模式匹配子模块和模型训练子模块;
所述特征提取子模块用于通过滤波、分帧预处理方式对用户语音进行提取特征;
所述模型训练子模块用于通过声学模型和语言模型将语音模型转化为字符序列,通过对应领域文本语义理解模型训练获取对应的大文本预训练模型,其中,声学模型通过声学、语音学将语音特征映射为音素单元,语言模型通过语言学将字词单元拼接为完整的符合说话者表达含义的句子;
所述模式匹配子模块用于将没有经过训练的语音信号的特征序列与大文本预训练模型的特征参数进行模式匹配,获取识别结果的文本信息。
其中,该智能机器人语音交互方法包括:
S101:用户通过语音输入表达自己的需求,输入的语音信号通过处理传送给所述智能对话模块;
S102:所述智能对话模块将接收到的语音信号基于训练模型转化为文本,所述智能催告模块对文本进行分析,在分析的过程中智能判断出用户的需求,根据判断结果为用户配置对应的策略,智能机器人通过该策略完成与用户的多轮对话;
S103:当用户和智能机器人通话文本结束时,所述数据挖掘模块挖掘对话过程中的关键信息,将所述关键信息生成语义标签。
其中,所述S102包括:
S1021:ASR子模块将用户语音转写成文本,对文本进行预处理,对文本进行分词处理,去除对文本意图表达没有作用的词;
S1022:将处理后的文本进行矢量化,通过向量空间模型将文本的内容进行映射;
S1023:当文本矢量化完成后,从文本中提取有用信息,引入权重系数评价每个词的重要程度,根据每个词对句子的重要程度不同,将词的重要程度进行区分。
其中,所述S103包括:
S1031:通过关键信息子模块识别对话过程中的关键信息;
S1032:当通话文本结束时,通过所述文本挖掘子模块挖掘对话过程中所述关键信息子模块识别的关键信息;
S1033:通过所述智能标签子模块将挖掘出来的关键信息转化为语义标签。
其中,所述S1021步骤包括:通过构建知识图谱对文本内容进行意图识别;
所述构建知识图谱包括:确定知识图谱涉及的领域和范围,明确建立新知识图谱的原因、预期用途和用户类型;
搜集与对应知识图谱构建相关的知识,包括可复用本体及可用于构建本体的领域知识;
从常见问题中识别出领域术语,构建领域术语表;
从领域术语表中识别出独立对象与它们之间层次关系,描述对应的内部结构,融合知识文档及用户数据完善知识结构;
参照框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义,融合相关业务数据,进行数据结构对齐,添加类和属性,形成对应的知识图谱。
其中,所述S1023包括:DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;
所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;
对获取的数据采取同样的特征抽取,得到用于预测的特征向量;
通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回。
与现有技术相比,本发明具有以下优点:
所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。通过各种NLP技术,使得语义理解更加智能,为客户带来更好的交互体验;通过自研的呼叫系统,提供更加稳定的在线对话,也支持与各主流呼叫系统人工坐席对接,实现无感知转接。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种智能机器人语音交互系统结构图;
图2为本发明实施例中一种智能机器人语音交互系统中的智能催告模块结构图;
图3为本发明实施例中一种智能机器人语音交互系统中的智能对话模块结构图;
图4为本发明实施例中一种智能机器人语音交互系统中的数据挖掘模块结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种智能机器人语音交互系统和方法,请参照图1至图4,该智能机器人语音交互系统包括:智能催告模块、智能对话模块和数据挖掘模块;
所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;
所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;
所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。
上述技术方案的工作原理为:所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。从而实现节省成本、提高呼叫效率以及机器人流程自动化的功能。
上述技术方案的有益效果为:所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签。从而实现节省成本、提高呼叫效率以及机器人流程自动化的功能。通过自研的呼叫系统,提供更加稳定的在线对话,也支持与各主流呼叫系统人工坐席对接,实现无感知转接。
在另一实施例中,所述智能催告模块包括:数据导入子模块、话单管理子模块、话术管理子模块、智能策略子模块和呼叫状态监控子模块;
所述数据导入子模块用于将用户号码批量导入至所述智能催告模块;
所述话单管理子模块用于对所述智能对话模块中的原始通信记录信息以及用户号码进行管理,对用户号码进行批量自动拨打操作;
所述话术管理子模块用于对所述智能对话模块中存储的话术进行管理;
所述智能策略子模块用于对用户的音频进行智能分析,判断出用户的需求,调用所述话术管理子模块中对应的话术作为策略为用户提供服务;
所述呼叫状态监控子模块用于对所述智能对话模块中的呼叫状态进行实时监控。
上述技术方案的工作原理为:所述数据导入子模块用于将用户号码批量导入至所述智能催告模块;所述话单管理子模块用于对所述智能对话模块中的原始通信记录信息以及用户号码进行管理,对用户号码进行批量自动拨打操作;所述话术管理子模块用于对所述智能对话模块中存储的话术进行管理;所述智能策略子模块用于对用户的音频进行智能分析,判断出用户的需求,调用所述话术管理子模块中对应的话术作为策略为用户提供服务;所述呼叫状态监控子模块用于对所述智能对话模块中的呼叫状态进行实时监控。可实现被叫状态检测、减少无效拨打、预测式外呼、号码状态检测、号码自动停用等。
上述技术方案的有益效果为:所述数据导入子模块用于将用户号码批量导入至所述智能催告模块;所述话单管理子模块用于对所述智能对话模块中的原始通信记录信息以及用户号码进行管理,对用户号码进行批量自动拨打操作;所述话术管理子模块用于对所述智能对话模块中存储的话术进行管理;所述智能策略子模块用于对用户的音频进行智能分析,判断出用户的需求,调用所述话术管理子模块中对应的话术作为策略为用户提供服务;所述呼叫状态监控子模块用于对所述智能对话模块中的呼叫状态进行实时监控。可实现被叫状态检测、减少无效拨打、预测式外呼、号码状态检测、号码自动停用等。
在另一实施例中,所述智能对话模块包括:呼叫子模块、ASR子模块、NLU语义理解子模块、DM子模块、NLG文本生成子模块、TTS子模块和知识库;
所述呼叫子模块用于用户通过所述呼叫子模块与机器人进行语音交互;
所述ASR子模块用于通过ASR语音识别技术构建纠错模型,通过所述纠错模型将接收到的用户语音转写成文本;
所述NLU语义理解子模块用于所述智能机器人通过NLU语义理解技术构建大文本预训练模型,通过所述大文本预训练模型为文本语义理解提供基础,获取对文本的理解;
所述DM子模块用于管理所述NLU语义理解子模块接收到的对话文本,通过对话文本的智能分析判断出用户所处的情绪状态;
所述NLG文本生成子模块用于根据接收到的对话文本以及用户所处的情绪状态智能生成对应的对话文本,其中,对话文本是调取知识库中的数据;
所述TTS子模块用于将所述NLG文本生成子模块生成的对话文本转换为语音,用户获取语音;
所述知识库用于对录音、拨打接通数据进行存储以及检索,并实时对知识库中的数据信息进行更新。
上述技术方案的工作原理为:所述呼叫子模块用于用户通过所述呼叫子模块与机器人进行语音交互;所述ASR子模块用于通过ASR语音识别技术构建纠错模型,通过所述纠错模型将接收到的用户语音转写成文本;所述NLU语义理解子模块用于所述智能机器人通过NLU语义理解技术构建大文本预训练模型,通过所述大文本预训练模型为文本语义理解提供基础,获取对文本的理解;所述DM子模块用于管理所述NLU语义理解子模块接收到的对话文本,通过对话文本的智能分析判断出用户所处的情绪状态;所述NLG文本生成子模块用于根据接收到的对话文本以及用户所处的情绪状态智能生成对应的对话文本,其中,对话文本是调取知识库中的数据;所述TTS子模块用于将所述NLG文本生成子模块生成的对话文本转换为语音,用户获取语音;所述知识库用于对录音、拨打接通数据进行存储以及检索,并实时对知识库中的数据信息进行更新。通过各种技术,使得语义理解更加智能,为客户带来更好的交互体验。
上述技术方案的有益效果为:所述呼叫子模块用于用户通过所述呼叫子模块与机器人进行语音交互;所述ASR子模块用于通过ASR语音识别技术构建纠错模型,通过所述纠错模型将接收到的用户语音转写成文本;所述NLU语义理解子模块用于所述智能机器人通过NLU语义理解技术构建大文本预训练模型,通过所述大文本预训练模型为文本语义理解提供基础,获取对文本的理解;所述DM子模块用于管理所述NLU语义理解子模块接收到的对话文本,通过对话文本的智能分析判断出用户所处的情绪状态;所述NLG文本生成子模块用于根据接收到的对话文本以及用户所处的情绪状态智能生成对应的对话文本,其中,对话文本是调取知识库中的数据;所述TTS子模块用于将所述NLG文本生成子模块生成的对话文本转换为语音,用户获取语音;所述知识库用于对录音、拨打接通数据进行存储以及检索,并实时对知识库中的数据信息进行更新。通过各种技术,使得语义理解更加智能,为客户带来更好的交互体验。
在另一实施例中,所述数据挖掘模块包括:智能标签子模块、关键信息子模块和文本挖掘子模块;
所述关键信息子模块用于识别对话过程中的关键信息;
所述文本挖掘子模块用于当通话文本结束时挖掘对话过程中所述关键信息子模块识别的关键信息;
所述智能标签子模块用于将挖掘出来的关键信息转化为语义标签,通过语义标签对后续的作业进行跟进。
上述技术方案的工作原理为:所述关键信息子模块用于识别对话过程中的关键信息;所述文本挖掘子模块用于当通话文本结束时挖掘对话过程中所述关键信息子模块识别的关键信息;所述智能标签子模块用于将挖掘出来的关键信息转化为语义标签,通过语义标签对后续的作业进行跟进。可以实现完整录音存储、拨打接通等数据记录及检索。
上述技术方案的有益效果为:所述关键信息子模块用于识别对话过程中的关键信息;所述文本挖掘子模块用于当通话文本结束时挖掘对话过程中所述关键信息子模块识别的关键信息;所述智能标签子模块用于将挖掘出来的关键信息转化为语义标签,通过语义标签对后续的作业进行跟进。可以实现完整录音存储、拨打接通等数据记录及检索。
在另一实施例中,所述ASR子模块包括:特征提取子模块、模式匹配子模块和模型训练子模块;
所述特征提取子模块用于通过滤波、分帧预处理方式对用户语音进行提取特征;
所述模型训练子模块用于通过声学模型和语言模型将语音模型转化为字符序列,通过对应领域文本语义理解模型训练获取对应的大文本预训练模型,其中,声学模型通过声学、语音学将语音特征映射为音素单元,语言模型通过语言学将字词单元拼接为完整的符合说话者表达含义的句子;
所述模式匹配子模块用于将没有经过训练的语音信号的特征序列与大文本预训练模型的特征参数进行模式匹配,获取识别结果的文本信息。
上述技术方案的工作原理为:所述特征提取子模块用于通过滤波、分帧预处理方式对用户语音进行提取特征;所述模型训练子模块用于通过声学模型和语言模型将语音模型转化为字符序列,通过对应领域文本语义理解模型训练获取对应的大文本预训练模型,其中,声学模型通过声学、语音学将语音特征映射为音素单元,语言模型通过语言学将字词单元拼接为完整的符合说话者表达含义的句子;所述模式匹配子模块用于将没有经过训练的语音信号的特征序列与大文本预训练模型的特征参数进行模式匹配,获取识别结果的文本信息。从而为领域文本语义理解提供基础。
上述技术方案的有益效果为:所述特征提取子模块用于通过滤波、分帧预处理方式对用户语音进行提取特征;所述模型训练子模块用于通过声学模型和语言模型将语音模型转化为字符序列,通过对应领域文本语义理解模型训练获取对应的大文本预训练模型,其中,声学模型通过声学、语音学将语音特征映射为音素单元,语言模型通过语言学将字词单元拼接为完整的符合说话者表达含义的句子;所述模式匹配子模块用于将没有经过训练的语音信号的特征序列与大文本预训练模型的特征参数进行模式匹配,获取识别结果的文本信息。从而为领域文本语义理解提供基础。
在另一实施例中,该智能机器人语音交互方法包括:
S101:用户通过语音输入表达自己的需求,输入的语音信号通过处理传送给所述智能对话模块;
S102:所述智能对话模块将接收到的语音信号基于训练模型转化为文本,所述智能催告模块对文本进行分析,在分析的过程中智能判断出用户的需求,根据判断结果为用户配置对应的策略,智能机器人通过该策略完成与用户的多轮对话;
S103:当用户和智能机器人通话文本结束时,所述数据挖掘模块挖掘对话过程中的关键信息,将所述关键信息生成语义标签。
上述技术方案的工作原理为:用户通过语音输入表达自己的需求,输入的语音信号通过处理传送给所述智能对话模块;所述智能对话模块将接收到的语音信号基于训练模型转化为文本,所述智能催告模块对文本进行分析,在分析的过程中智能判断出用户的需求,根据判断结果为用户配置对应的策略,智能机器人通过该策略完成与用户的多轮对话;当用户和智能机器人通话文本结束时,所述数据挖掘模块挖掘对话过程中的关键信息,将所述关键信息生成语义标签,抽取重要特征,服务后续的催收作业。
上述技术方案的有益效果为:用户通过语音输入表达自己的需求,输入的语音信号通过处理传送给所述智能对话模块;所述智能对话模块将接收到的语音信号基于训练模型转化为文本,所述智能催告模块对文本进行分析,在分析的过程中智能判断出用户的需求,根据判断结果为用户配置对应的策略,智能机器人通过该策略完成与用户的多轮对话;当用户和智能机器人通话文本结束时,所述数据挖掘模块挖掘对话过程中的关键信息,将所述关键信息生成语义标签,抽取重要特征,服务后续的催收作业。
在另一实施例中,所述S102包括:
S1021:ASR子模块将用户语音转写成文本,对文本进行预处理,对文本进行分词处理,去除对文本意图表达没有作用的词;
S1022:将处理后的文本进行矢量化,通过向量空间模型将文本的内容进行映射;
S1023:当文本矢量化完成后,从文本中提取有用信息,引入权重系数评价每个词的重要程度,根据每个词对句子的重要程度不同,将词的重要程度进行区分。
上述技术方案的工作原理为:ASR子模块将用户语音转写成文本,对文本进行预处理,对文本进行分词处理,去除对文本意图表达没有作用的词;将处理后的文本进行矢量化,通过向量空间模型将文本的内容进行映射;当文本矢量化完成后,从文本中提取有用信息,引入权重系数评价每个词的重要程度,根据每个词对句子的重要程度不同,将词的重要程度进行区分。通过NLP自然语言处理,知识图谱,增强学习等技术训练关键模型和关键知识库,并提供线上服务。
上述技术方案的有益效果为:ASR子模块将用户语音转写成文本,对文本进行预处理,对文本进行分词处理,去除对文本意图表达没有作用的词;将处理后的文本进行矢量化,通过向量空间模型将文本的内容进行映射;当文本矢量化完成后,从文本中提取有用信息,引入权重系数评价每个词的重要程度,根据每个词对句子的重要程度不同,将词的重要程度进行区分。通过NLP自然语言处理,知识图谱,增强学习等技术训练关键模型和关键知识库,并提供线上服务。
在另一实施例中,所述S103包括:
S1031:通过关键信息子模块识别对话过程中的关键信息;
S1032:当通话文本结束时,通过所述文本挖掘子模块挖掘对话过程中所述关键信息子模块识别的关键信息;
S1033:通过所述智能标签子模块将挖掘出来的关键信息转化为语义标签。
上述技术方案的工作原理为:通过关键信息子模块识别对话过程中的关键信息;当通话文本结束时,通过所述文本挖掘子模块挖掘对话过程中所述关键信息子模块识别的关键信息;通过所述智能标签子模块将挖掘出来的关键信息转化为语义标签。对话文本挖掘技术,对话进行时(后)对通话文本进行挖掘,生成催记标签,作用于后续的跟进作业。
上述技术方案的有益效果为:通过关键信息子模块识别对话过程中的关键信息;当通话文本结束时,通过所述文本挖掘子模块挖掘对话过程中所述关键信息子模块识别的关键信息;通过所述智能标签子模块将挖掘出来的关键信息转化为语义标签。对话文本挖掘技术,对话进行时(后)对通话文本进行挖掘,生成催记标签,作用于后续的跟进作业。
在另一实施例中,所述S1021步骤包括:通过构建知识图谱对文本内容进行意图识别;
所述构建知识图谱包括:确定知识图谱涉及的领域和范围,明确建立新知识图谱的原因、预期用途和用户类型;
搜集与对应知识图谱构建相关的知识,包括可复用本体及可用于构建本体的领域知识;
从常见问题中识别出领域术语,构建领域术语表;
从领域术语表中识别出独立对象与它们之间层次关系,描述对应的内部结构,融合知识文档及用户数据完善知识结构;
参照框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义,融合相关业务数据,进行数据结构对齐,添加类和属性,形成对应的知识图谱。
上述技术方案的工作原理为:通过构建知识图谱对文本内容进行意图识别;所述构建知识图谱包括:确定知识图谱涉及的领域和范围,明确建立新知识图谱的原因、预期用途和用户类型;搜集与对应知识图谱构建相关的知识,包括可复用本体及可用于构建本体的领域知识;从常见问题中识别出领域术语,构建领域术语表;从领域术语表中识别出独立对象与它们之间层次关系,描述对应的内部结构,融合知识文档及用户数据完善知识结构;参照框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义,融合相关业务数据,进行数据结构对齐,添加类和属性,形成对应的知识图谱。通过知识图谱技术对机器人意图识别功能进行增强,提高意图识别的准确率。
上述技术方案的有益效果为:通过构建知识图谱对文本内容进行意图识别;所述构建知识图谱包括:确定知识图谱涉及的领域和范围,明确建立新知识图谱的原因、预期用途和用户类型;搜集与对应知识图谱构建相关的知识,包括可复用本体及可用于构建本体的领域知识;从常见问题中识别出领域术语,构建领域术语表;从领域术语表中识别出独立对象与它们之间层次关系,描述对应的内部结构,融合知识文档及用户数据完善知识结构;参照框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义,融合相关业务数据,进行数据结构对齐,添加类和属性,形成对应的知识图谱。通过知识图谱技术对机器人意图识别功能进行增强,提高意图识别的准确率。
在另一实施例中,所述S1023包括:DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;
所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;
对获取的数据采取同样的特征抽取,得到用于预测的特征向量;
通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回。
上述技术方案的工作原理为:DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;对获取的数据采取同样的特征抽取,得到用于预测的特征向量;通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回。
为了使模型中的参数不断训练和更新,通过最小化损失函数对模型进行优化,情绪识别优化数公式为:
Figure BDA0003649207430000141
其中,L(X,Y)表示情绪识别优化数;i表示样本数量,j表示类别数量,C表示意图识别类别的数量,Xij为表示第i个样本在第j个类别上的情绪识别类别标签,Yij表示第i个样本在第j个类别上的情绪识别的实时预测值。
从而在判断情绪的过程中通过优化数公式获取更精准的判断。
上述技术方案的有益效果为:DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;对获取的数据采取同样的特征抽取,得到用于预测的特征向量;通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回。通过情绪状态识别提高机器人为用户服务的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种智能机器人语音交互系统,其特征在于,包括:智能催告模块、智能对话模块和数据挖掘模块;
所述智能催告模块用于对机器人语音交互系统内的数据进行管理,当用户与机器人进行语音交互时自动检测呼叫状态,判断是否为有效拨打,若为有效拨打则分析用户的需求,为用户提供对应的策略,并对呼叫状态进行实时监控;
所述智能对话模块用于基于训练模型使用户和智能机器人进行多轮语音交互,当智能机器人无法解答时,所述智能机器人智能转接人工坐席;
所述数据挖掘模块用于当用户和智能机器人通话文本结束时,挖掘对话过程中的关键信息,将所述关键信息生成语义标签;
所述智能对话模块包括:呼叫子模块、语音识别(ASR)子模块、语义理解(NLU)子模块、对话管理(DM)子模块、文本生成(NLG)子模块、文本转语音(TTS)子模块和知识库;
所述呼叫子模块用于用户通过所述呼叫子模块与机器人进行语音交互;
所述ASR子模块用于通过ASR语音识别技术构建纠错模型,通过所述纠错模型将接收到的用户语音转写成文本;
所述NLU子模块用于所述智能机器人通过NLU语义理解技术构建大文本预训练模型,通过所述大文本预训练模型为文本语义理解提供基础,获取对文本的理解;
所述DM子模块用于管理所述NLU子模块接收到的对话文本,通过对话文本的智能分析判断出用户所处的情绪状态;
所述NLG子模块用于根据接收到的对话文本以及用户所处的情绪状态智能生成对应的对话文本,其中,对话文本是调取知识库中的数据;
所述TTS子模块用于将所述NLG子模块生成的对话文本转换为语音,用户获取语音;
所述知识库用于对录音、拨打接通数据进行存储以及检索,并实时对知识库中的数据信息进行更新;
DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;对获取的数据采取同样的特征抽取,得到用于预测的特征向量;通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回;
通过最小化损失函数对模型进行优化,情绪识别优化数公式为:
Figure FDA0004066003520000021
其中,L(X,Y)表示情绪识别优化数;i表示样本数量,j表示类别数量,C表示意图识别类别的数量,Xij为表示第i个样本在第j个类别上的情绪识别类别标签,Yij表示第i个样本在第j个类别上的情绪识别的实时预测值;
所述智能催告模块包括:数据导入子模块、话单管理子模块、话术管理子模块、智能策略子模块和呼叫状态监控子模块;
所述数据导入子模块用于将用户号码批量导入至所述智能催告模块;
所述话单管理子模块用于对所述智能对话模块中的原始通信记录信息以及用户号码进行管理,对用户号码进行批量自动拨打操作;
所述话术管理子模块用于对所述智能对话模块中存储的话术进行管理;
所述智能策略子模块用于对用户的音频进行智能分析,判断出用户的需求,调用所述话术管理子模块中对应的话术作为策略为用户提供服务;
所述呼叫状态监控子模块用于对所述智能对话模块中的呼叫状态进行实时监控。
2.根据权利要求1所述的一种智能机器人语音交互系统,其特征在于,所述数据挖掘模块包括:智能标签子模块、关键信息子模块和文本挖掘子模块;
所述关键信息子模块用于识别对话过程中的关键信息;
所述文本挖掘子模块用于当通话文本结束时挖掘对话过程中所述关键信息子模块识别的关键信息;
所述智能标签子模块用于将挖掘出来的关键信息转化为语义标签,通过语义标签对后续的作业进行跟进。
3.根据权利要求1所述的一种智能机器人语音交互系统,其特征在于,所述ASR子模块包括:特征提取子模块、模式匹配子模块和模型训练子模块;
所述特征提取子模块用于通过滤波、分帧预处理方式对用户语音进行提取特征;
所述模型训练子模块用于通过声学模型和语言模型将语音模型转化为字符序列,通过对应领域文本语义理解模型训练获取对应的大文本预训练模型,其中,声学模型通过声学、语音学将语音特征映射为音素单元,语言模型通过语言学将字词单元拼接为完整的符合说话者表达含义的句子;
所述模式匹配子模块用于将没有经过训练的语音信号的特征序列与大文本预训练模型的特征参数进行模式匹配,获取识别结果的文本信息。
4.一种在如权利要求1的智能机器人语音交互系统中实现的智能机器人语音交互方法,其特征在于,包括:
S101:用户通过语音输入表达自己的需求,输入的语音信号通过处理传送给智能对话模块;
S102:所述智能对话模块将接收到的语音信号基于训练模型转化为文本,智能催告模块对文本进行分析,在分析的过程中智能判断出用户的需求,根据判断结果为用户配置对应的策略,智能机器人通过该策略完成与用户的多轮对话;
S103:当用户和智能机器人通话文本结束时,数据挖掘模块挖掘对话过程中的关键信息,将所述关键信息生成语义标签;
所述S102包括:
S1021:ASR子模块将用户语音转写成文本,对文本进行预处理,对文本进行分词处理,去除对文本意图表达没有作用的词;
S1022:将处理后的文本进行矢量化,通过向量空间模型将文本的内容进行映射;
S1023:当文本矢量化完成后,从文本中提取有用信息,引入权重系数评价每个词的重要程度,根据每个词对句子的重要程度不同,将词的重要程度进行区分;
所述S1021步骤包括:通过构建知识图谱对文本内容进行意图识别;
构建知识图谱包括:确定知识图谱涉及的领域和范围,明确建立新知识图谱的原因、预期用途和用户类型;
搜集与对应知识图谱构建相关的知识,包括可复用本体及可用于构建本体的领域知识;
从常见问题中识别出领域术语,构建领域术语表;
从领域术语表中识别出独立对象与它们之间层次关系,描述对应的内部结构,融合知识文档及用户数据完善知识结构;
参照框架构建步骤,识别领域术语,补充类和属性,完成类和属性定义,融合相关业务数据,进行数据结构对齐,添加类和属性,形成对应的知识图谱。
5.根据权利要求4所述的一种智能机器人语音交互方法,其特征在于,所述S103包括:
S1031:通过关键信息子模块识别对话过程中的关键信息;
S1032:当通话文本结束时,通过所述文本挖掘子模块挖掘对话过程中所述关键信息子模块识别的关键信息;
S1033:通过所述智能标签子模块将挖掘出来的关键信息转化为语义标签。
6.根据权利要求4所述的一种智能机器人语音交互方法,其特征在于,所述S1023包括:DM子模块通过对话文本的智能分析判断出用户所处的情绪状态;
所述DM子模块在分析用户情绪状态的过程中,按照固定的格式准备训练数据,抽取对应数据所需要的特征,形成特征向量,抽取的特征向量与对应的期望输出一起输入到深度学习算法中,训练出一个预测模型;
对获取的数据采取同样的特征抽取,得到用于预测的特征向量;
通过训练好的预测模型对经过特征处理后的特征向量进行预测,并对结果进行返回。
CN202210544210.1A 2022-05-18 2022-05-18 一种智能机器人语音交互系统和方法 Active CN115022471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544210.1A CN115022471B (zh) 2022-05-18 2022-05-18 一种智能机器人语音交互系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544210.1A CN115022471B (zh) 2022-05-18 2022-05-18 一种智能机器人语音交互系统和方法

Publications (2)

Publication Number Publication Date
CN115022471A CN115022471A (zh) 2022-09-06
CN115022471B true CN115022471B (zh) 2023-05-23

Family

ID=83069717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544210.1A Active CN115022471B (zh) 2022-05-18 2022-05-18 一种智能机器人语音交互系统和方法

Country Status (1)

Country Link
CN (1) CN115022471B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737914B (zh) * 2023-08-15 2023-11-17 南通话时代信息科技有限公司 用于云客服中心的交互数据处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026843A (zh) * 2019-12-02 2020-04-17 北京智乐瑟维科技有限公司 一种人工智能语音外呼方法、系统及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949805B (zh) * 2019-02-21 2021-03-23 江苏苏宁银行股份有限公司 基于意图识别及有限状态自动机的智能催收机器人及催收方法
US11388289B2 (en) * 2019-05-22 2022-07-12 Mitel Networks Corporation Method and system for soft skills-based call routing in contact centers
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN111212190B (zh) * 2019-12-20 2022-05-17 北京淇瑀信息科技有限公司 一种基于话术策略管理的对话管理方法、装置和系统
CN111666380A (zh) * 2020-06-12 2020-09-15 北京百度网讯科技有限公司 一种智能呼叫方法、装置、设备和介质
CN111739516A (zh) * 2020-06-19 2020-10-02 中国—东盟信息港股份有限公司 一种针对智能客服通话的语音识别系统
CN111833871A (zh) * 2020-07-07 2020-10-27 信雅达系统工程股份有限公司 基于意图识别的智能外呼系统及其方法
CN111885272B (zh) * 2020-07-24 2021-11-16 南京易米云通网络科技有限公司 呼叫中心座席支持电话智能外呼方法及智能呼叫中心系统
CN113821621B (zh) * 2021-09-28 2023-10-27 中电万维信息技术有限责任公司 一种基于深度学习的开放式智能客服系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026843A (zh) * 2019-12-02 2020-04-17 北京智乐瑟维科技有限公司 一种人工智能语音外呼方法、系统及存储介质

Also Published As

Publication number Publication date
CN115022471A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN101010934B (zh) 用于机器学习的方法
CN111212190B (zh) 一种基于话术策略管理的对话管理方法、装置和系统
CN111739516A (zh) 一种针对智能客服通话的语音识别系统
US20150288818A1 (en) Method and apparatus for predicting intent in ivr using natural language queries
WO2021135534A1 (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN112185358A (zh) 意图识别方法、模型的训练方法及其装置、设备、介质
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN115643341A (zh) 人工智能客服应答系统
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
CN111475633B (zh) 基于座席语音的话术支持系统
CN112818109A (zh) 邮件的智能回复方法、介质、装置和计算设备
CN115022471B (zh) 一种智能机器人语音交互系统和方法
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
CN117524202A (zh) 一种ip电话语音数据检索方法及系统
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
CN115688758A (zh) 一种语句意图识别方法、装置和存储介质
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
KR101890704B1 (ko) 음성 인식과 언어 모델링을 이용한 간편 메시지 출력장치 및 출력방법
Thakur et al. NLP & AI speech recognition: an analytical review
CN112287673B (zh) 一种基于深度学习来实现语音导航机器人的方法
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质
CN116600053B (zh) 一种基于ai大语言模型的客服系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant