CN114186108A - 一种面向电力物资业务场景的多模态人机交互系统 - Google Patents
一种面向电力物资业务场景的多模态人机交互系统 Download PDFInfo
- Publication number
- CN114186108A CN114186108A CN202111529287.3A CN202111529287A CN114186108A CN 114186108 A CN114186108 A CN 114186108A CN 202111529287 A CN202111529287 A CN 202111529287A CN 114186108 A CN114186108 A CN 114186108A
- Authority
- CN
- China
- Prior art keywords
- service
- electric power
- data
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种面向电力物资业务场景的多模态人机交互系统,数据收集处理模块用于收集业务数据、场景数据以及电力物资数据,将数据信息进行储存;根据调用指令,调取相应数据;算法引擎模块用于对数据进行语义解析,支撑应用模块各类应用;应用模块用于提供基于电力物资业务应用程序。系统可以通过形象逼真、生动活泼的AI虚拟人与供应商进行实时语音互动,以代替传统人工服务的方式,减轻工作人员工作量,提高服务效率。用户可以直接以语音交互的方式与虚拟人进行互动。针对电力物资业务场景,业务专区主要有招投标业务、合同处理、供应商信息处理等应用,通过B/S部署模式调用数据中心数据,并协助供应商完成业务办理。
Description
技术领域
本发明涉及电力业务数据技术领域,尤其涉及一种面向电力物资业务场景的多模态人机交互系统。
背景技术
从第一台电脑出现到互联网时代到来之前,人与计算机的交互已经经历了早期手工作业阶段、作业控制语言及命令交互语言阶段、图形用户界面阶段、网络用户界面。目前人机交互技术正朝着拟人化、智能化、自然化、实体化发展,利用人的多种感觉和动作进行多模态人机交互越来越成为主流。
目前电力物资供应链服务主要依赖于人工作业,存在业务工作量大、流程复杂、逻辑简单、交互模式单一等问题,物资供应业务办理效率及服务水平有待提高。因此,如何利用基于数字虚拟人的多模态人机交互,提升交互效率,缩短业务办理时间,降低人工成本投入是当前亟待解决的技术问题。
发明内容
本发明提供一种面向电力物资业务场景的多模态人机交互系统,系统通过语义解析准确推理用户意图,精准执行业务流程,同时借助AI虚拟人可以起到缩短业务办理时间,降低人工成本投入。
系统包括:数据收集处理模块、算法引擎模块以及应用模块;
所述数据收集处理模块用于收集业务数据、场景数据以及电力物资数据,将数据信息进行储存;根据调用指令,调取相应数据;
所述算法引擎模块用于对数据进行语义解析,支撑应用模块各类应用;
所述应用模块用于提供基于电力物资业务应用程序。
进一步还需要说明的是,数据收集处理模块包括:外部数据收集单元、数据库单元以及数据中心单元;
外部数据收集单元用于收集用户交互信息,收集方式包括:通过视频采集交互信息,或者通过声音采集交互信息,或者通过触摸采集交互信息,或通过鼠标键盘采集交互信息;
数据库单元用于存储收集用户交互信息和训练更新模型;
数据中心单元用于存储业务相关数据,作为业务办理数据来源。
进一步还需要说明的是,还包括:数据库以及电力业务数据处理模块;
电力业务数据处理模块用于在数据库中构建电力业务信息之间的关联关系,构建关联网图;
分析电力业务信息,从中提取出具有实现功能的逻辑关系,或者具有前后执行顺序逻辑关系,或具有时间前后发展关系的电力业务信息,并在关联网图中将电力业务信息配置相互之间的逻辑关系图;
将具有指向关系的电力业务信息配置为多元电力业务矩阵,将多元电力业务矩阵配置到预设深度神经网络所构建的电力业务逻辑关系图,得到包含各种电力业务信息之间的有向关系的电力服务信息;
按照遍历顺序分析电力业务信息与电力业务信息之间的电力业务有向关系图,并将有向关系配置成电力特征值。
电力业务数据处理模块还用于预先训练多层深度神经网络,获取系统中的历史电力业务信息,将获取的电力业务信息进行匹配得到电力业务信息与电力业务信息之间的电力业务有向关系图,通过构建的电力业务有向关系图,将电力业务有向关系做成多元电力业务矩阵,将相邻采样时刻的多元电力业务矩阵作为多层深度神经网络的输入和输出;
多层深度神经网络包括脉冲神经网络、卷积神经网络、循环神经网络。
进一步还需要说明的是,应用模块还包括:虚拟人终端;
虚拟人终端用于进行感知判断是否有人,若无人则播放预置视频;
若有人则主动播放引导视频,进入语音交互模式;
还用于进行语义识别,如识别失败则提示用户,重新获取语音信息;
根据识别结果为用户提供相对应的应用服务;
还提示用户是否选择结束本次服务,若是则结束本次服务。
用户在与虚拟人终端进行语音交互过程中,用户提问的业务超出虚拟人业务服务范围或者系统识别错误无法查询到答案的次数超过3次时,虚拟人终端将进行拒绝识别,并提示用户重新进入语音交互模式。
进一步还需要说明的是,所述算法引擎模块包括:语音识别单元、语音合成单元以及自然语言处理单元;
语音识别单元用于语音识别,包含文本时间戳、智能断句、中英文混合识别、即时输出识别结果以及自动静音检测组件;
语音合成单元用于对语音进行合成,对多种输出格式进行合成,对多种采用率进行合成,对音色进行调节,对语速按照预设速率进行调节;
自然语言处理单元用于对知识推理和意图识别,具体包含对话识别、语料词库调取、模型优化以及标注训练。
进一步还需要说明的是,数据收集处理模块还用于使用摄像头、传感器设备捕获外部数据,数据库配置基于电力物资业务场景的电力业务逻辑关系,在电力物资业务场景下进行数据推理;
数据中心采用java框架开发数据库,部署模式为B/S模式;还对签合同信息和招投标信息进行管理。
算法引擎模块还用于通过Web API接口调用引擎平台组件,引擎平台组件包含语音识别、语音合成和自然语言处理组件。
应用模块提供天气情况查询界面、语音和文字沟通服务;用户以语音交互的方式与虚拟人进行互动;通过B/S部署模式调用数据中心数据,并协助供应商完成业务办理。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的面向电力物资业务场景的多模态人机交互系统基于人工智能核心算法、大数据、云计算等技术领域的不断突破赋予了机器不仅能理解人类的自然语言而且能够根据人类的自然语言执行相对应的操作或者直接与人类进行多轮对话的交互能力。数字虚拟人技术作为一种集合视频、音频、文本等多种模态数据的人机交互手段,其逼真的交互和丰富的信息传达,可以使用户更感亲切、提升服务效率。数字虚拟人技术使用了人脸关键点检测、人脸特征提取、人脸重构、唇语识别用于表情建模和控制。
系统可以通过形象逼真、生动活泼的AI虚拟人与供应商进行实时语音互动,为供应商提供迎宾、引导、公司介绍、业务咨询、业务办理等服务,以代替传统人工服务的方式,减轻工作人员工作量,提高服务效率。
用户可以直接以语音交互的方式与虚拟人进行互动。针对电力物资业务场景,业务专区主要有招投标业务、合同处理、供应商信息处理等应用,通过B/S部署模式调用数据中心数据,并协助供应商完成业务办理。
在发明中,语音交互菜单并不受到业务流程层级的限制,采用扁平化处理,在语音交互模式中用户可以直达业务节点进行信息咨询与业务办理。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为面向电力物资业务场景的多模态人机交互系统示意图;
图2为系统模块示意图;
图3为系统招投标业务示意图;
图4为系统合同业务示意图;
图5为系统业务处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的面向电力物资业务场景的多模态人机交互系统中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明提供的面向电力物资业务场景的多模态人机交互系统的附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1至5所示,本发明提供的面向电力物资业务场景的多模态人机交互系统包括:数据收集处理模块、算法引擎模块以及应用模块;数据收集处理模块用于收集业务数据、场景数据以及电力物资数据,将数据信息进行储存;根据调用指令,调取相应数据;算法引擎模块用于对数据进行语义解析,支撑应用模块各类应用;应用模块用于提供基于电力物资业务应用程序。
本发明提供的面向电力物资业务场景的多模态人机交互系统可以通过形象逼真、生动活泼的AI虚拟人与供应商进行实时语音互动,为供应商提供迎宾、引导、公司介绍、业务咨询、业务办理等服务,以代替传统人工服务的方式,减轻工作人员工作量,提高服务效率。
具体来讲,数据收集处理模块包括:外部数据收集单元、数据库单元以及数据中心单元;外部数据收集单元用于收集用户交互信息,收集方式包括:通过视频采集交互信息,或者通过声音采集交互信息,或者通过触摸采集交互信息,或通过鼠标键盘采集交互信息;数据库单元用于存储收集用户交互信息和训练更新模型;数据中心单元用于存储业务相关数据,作为业务办理数据来源。
作为本发明的实施例,为了能够构建相关的电力业务信息关系,提高系统的智能化。在数据库中构建电力业务信息之间的关联关系,构建关联网图;
具体的讲,分析电力业务信息,从中提取出具有实现功能的逻辑关系,或者具有前后执行顺序逻辑关系,或具有时间前后发展关系的电力业务信息,并在关联网图中将电力业务信息配置相互之间的逻辑关系图。
比如如下场景,
供应商:合同签约时间是什么时候
小A:您好,xxx公司aaa项目委托代理人/法人,我是智慧供应商服务大厅智能客服小A,很高兴通知您,您代理的xxx批次xxx项目竞标成功,请于xx年xx月xx日前往智慧供应商服务大厅办理合同签订事宜,合同签订需携带xxxx材料、xxxx材料、xxxx材料,请谨记。请问您还有什么不清楚的地方么?
step 2
供应商:请再说一遍签订时间
小A:合同签订时间为xx年xx月xx日,请问还有什么不明白的么?
供应商:没有了,谢谢。
小A:好的,很高兴为您服务,祝您生活愉快,再见。
step 3
供应商:请再说一遍携带材料呢?
小A:需要您携带的材料包括:xxxx材料、xxxx材料、xxxx材料。请问还有什么疑问么?
供应商:没有了,谢谢。
小A:好的,很高兴为您服务,祝您生活愉快,再见。
招标信息、投标信息、合同签约时间、合同签订需携带材料就是一个具有逻辑的电力业务信息,招标信息、投标信息、合同签约时间、合同签订需携带材料具有按照时间发展的指向关系。也就是具有前后执行顺序逻辑关系。因为可以从招标,到投标,到合同签订一个流程的逻辑关系。
将具有指向关系的电力业务信息配置为多元电力业务矩阵,将多元电力业务矩阵配置到预设深度神经网络所构建的电力业务逻辑关系图,得到包含各种电力业务信息之间的有向关系的电力服务信息;
其中,基于电力业务逻辑关系图按照顺序遍历具有逻辑关系的电力业务信息。针对每一个电力业务信息,按照遍历顺序分析电力业务信息与电力业务信息之间的电力业务有向关系图,并将有向关系配置成电力特征值。
本发明中,预先训练多层深度神经网络,获取系统中的历史电力业务信息,将获取的电力业务信息进行匹配得到电力业务信息与电力业务信息之间的电力业务有向关系图,通过构建的电力业务有向关系图,将电力业务有向关系做成多元电力业务矩阵,将相邻采样时刻的多元电力业务矩阵作为多层深度神经网络的输入和输出。多层深度神经网络包括脉冲神经网络、卷积神经网络、循环神经网络。将获取到的电力业务信息与具有逻辑关系的电力业务信息进行输出,展示给用户。
作为本发明涉及的电力物资业务场景中,系统前端搭载虚拟人终端与用户进行交互,虚拟人终端通过摄像头等传感器进行感知来判断周围是否有人,若没有人,虚拟人终端进入休眠模式,在休眠模式下可播放预先设置好的宣传视频等内容;若有人,虚拟人终端进入语音交互模式,并主动播放语音引导用户进行语音交互,为用户提供业务咨询、办理等多种服务,同时摄像头锁定机器前的用户,只接受该用户的声音信号,杜绝周围干扰噪音。
在用户与虚拟人终端语音交互的过程中,用户提问的业务超出虚拟人业务服务范围或者系统识别错误无法查询到答案的次数超过3次,虚拟人将进行拒绝识别,并提示用户重新进入语音交互模式。
针对用户的交互信息,虚拟人终端系统将语音信息通过本地网络发送给后台服务器,后台服务器将语音信息通过Internet发送给算法引擎模块,识别获取用户的意图,对业务办理相关意图调用数据中心对应数据为用户提供业务办理等服务,对业务无关意图通过知识推理调用数据库或其他相关数据库生成回复,并将文本类信息发送给语音合成服务器,合成后的语音再发送给服务大厅本地服务器,最后将语音回复和数据回复在虚拟人终端上输出与用户进行交互。
示例性的讲,进入语音交互模式开场白为:您好!我是国网服务大厅智能客服,点击我可以进入语音交互模式,我将为您提供业务办理、业务咨询等服务。当客服无法准确识别语音信息时,会提示用户“我无法理解你的意思,请再说一遍”。当客服无法准确识别语音信息超过3次,会提示用户“有点累了,请重新点击我进入语音交互模式”。
进一步的讲,本发明的数据收集处理模块通过摄像头、拾音器等设备收集外部输入数据。数据库模块主要包含基于厂商的业务数据库和基础业务流程场景的通用数据库,训练中心用于语义分析、知识推理、情感分析等模型的训练和更新。数据中心模块采用java框架进行数据库开发,用来整合原有电力物资业务场景的数据,将不同来源的数据结构化和规范化,实时采集、存储数据,打破信息孤岛,建立数据资源共享、使用、管理平台。
算法引擎模块集成智能引擎平台,包含语音识别、语音合成和自然语言处理等智能组件。采用Web API接口方式将智能组件嵌入多模态人机交互系统中。
应用模块包含招投标业务、合同处理、供应商信息管理等业务类应用以及公司简介、天气情况、闲聊等生活娱乐类应用,协助供应商查询信息与办理业务。
作为本发明提供的实施例,数据收集处理模块使用摄像头、传感器等设备捕获外部数据,基于电力业务逻辑关系图在该场景下进行精准找到电力业务信息。数据中心采用java框架开发数据库,部署模式为B/S模式。
在本实施例中,数据库包含合同签订时间、电子钥匙如何办理、招标公告发布平台、电招采购管理平台操作步骤、接收投标异议、投标材料提交情况、投标保证金可提交的形式、投标保证金专用账户信息、付款账户要求、投标保证金道到账时间、投标保证金退还时间、中标通知书下载方式等电力业务逻辑关系图和话术。
示例性的讲,当虚拟人终端系统的输入数据中带有“合同签约时间”等字眼时,算法引擎模块会挖掘与语义解析结果相匹配的句子,并基于电力业务逻辑关系图推理客户的意图,给出可能性最大的结果,同时将这一结果进行标注添加到数据库中。
算法引擎模块通过Web API接口调用智能引擎平台组件,包含语音识别、语音合成和自然语言处理组件。
虚拟人终端系统将语音信息通过本地网络发送给后台服务器,后台服务器将语音信息通过Internet发送给智能引擎云识别服务器,然后将结果发送给语音合成服务器,合成后的语音再发送给服务大厅本地服务器,最后在虚拟人终端上输出进行语音交互。
在本实施例中,算法引擎模块调用语音识别常用功能有文本时间戳、智能断句、中英文混合识别、即时输出识别结果、自动静音检测;算法引擎模块块语音合成常用功能有多种输出格式、多种采用率、多种音色、语速调节、语速调节。算法引擎模块调用自然语言处理包括5大主要核心模块:对话模块、辅助能力模块、语料词库模块、模型优化模块、标注训练模块。
应用模块包含天气情况查询、公司介绍、闲聊模式等服务。用户可以直接以语音交互的方式与虚拟人进行互动。针对电力物资业务场景,业务专区主要有招投标业务、合同处理、供应商信息处理等应用,通过B/S部署模式调用数据中心数据,并协助供应商完成业务办理。
在发明中,语音交互菜单并不受到业务流程层级的限制,采用扁平化处理,在语音交互模式中用户可以直达业务节点进行信息咨询与业务办理。
本发明提供的面向电力物资业务场景的多模态人机交互系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种面向电力物资业务场景的多模态人机交互系统,其特征在于,包括:数据收集处理模块、算法引擎模块以及应用模块;
所述数据收集处理模块用于收集业务数据、场景数据以及电力物资数据,将数据信息进行储存;根据调用指令,调取相应数据;
所述算法引擎模块用于对数据进行语义解析,支撑应用模块各类应用;
所述应用模块用于提供基于电力物资业务应用程序。
2.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
数据收集处理模块包括:外部数据收集单元、数据库单元以及数据中心单元;
外部数据收集单元用于收集用户交互信息,收集方式包括:通过视频采集交互信息,或者通过声音采集交互信息,或者通过触摸采集交互信息,或通过鼠标键盘采集交互信息;
数据库单元用于存储收集用户交互信息和训练更新模型;
数据中心单元用于存储业务相关数据,作为业务办理数据来源。
3.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,还包括:数据库以及电力业务数据处理模块;
电力业务数据处理模块用于在数据库中构建电力业务信息之间的关联关系,构建关联网图;
分析电力业务信息,从中提取出具有实现功能的逻辑关系,或者具有前后执行顺序逻辑关系,或具有时间前后发展关系的电力业务信息,并在关联网图中将电力业务信息配置相互之间的逻辑关系图;
将具有指向关系的电力业务信息配置为多元电力业务矩阵,将多元电力业务矩阵配置到预设深度神经网络所构建的电力业务逻辑关系图,得到包含各种电力业务信息之间的有向关系的电力服务信息;
按照遍历顺序分析电力业务信息与电力业务信息之间的电力业务有向关系图,并将有向关系配置成电力特征值。
4.根据权利要求3所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
电力业务数据处理模块还用于预先训练多层深度神经网络,获取系统中的历史电力业务信息,将获取的电力业务信息进行匹配得到电力业务信息与电力业务信息之间的电力业务有向关系图,通过构建的电力业务有向关系图,将电力业务有向关系做成多元电力业务矩阵,将相邻采样时刻的多元电力业务矩阵作为多层深度神经网络的输入和输出;
多层深度神经网络包括脉冲神经网络、卷积神经网络、循环神经网络。
5.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
应用模块还包括:虚拟人终端;
虚拟人终端用于进行感知判断是否有人,若无人则播放预置视频;
若有人则主动播放引导视频,进入语音交互模式;
还用于进行语义识别,如识别失败则提示用户,重新获取语音信息;
根据识别结果为用户提供相对应的应用服务;
还提示用户是否选择结束本次服务,若是则结束本次服务。
6.根据权利要求5所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
用户在与虚拟人终端进行语音交互过程中,用户提问的业务超出虚拟人业务服务范围或者系统识别错误无法查询到答案的次数超过3次时,虚拟人终端将进行拒绝识别,并提示用户重新进入语音交互模式。
7.根据权利要求6所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
所述算法引擎模块包括:语音识别单元、语音合成单元以及自然语言处理单元;
语音识别单元用于语音识别,包含文本时间戳、智能断句、中英文混合识别、即时输出识别结果以及自动静音检测组件;
语音合成单元用于对语音进行合成,对多种输出格式进行合成,对多种采用率进行合成,对音色进行调节,对语速按照预设速率进行调节;
自然语言处理单元用于对知识推理和意图识别,具体包含对话识别、语料词库调取、模型优化以及标注训练。
8.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
数据收集处理模块还用于使用摄像头、传感器设备捕获外部数据,数据库配置基于电力物资业务场景的电力业务逻辑关系,在电力物资业务场景下进行数据推理;
数据中心采用java框架开发数据库,部署模式为B/S模式;还对签合同信息和招投标信息进行管理。
9.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
算法引擎模块还用于通过Web API接口调用引擎平台组件,引擎平台组件包含语音识别、语音合成和自然语言处理组件。
10.根据权利要求1所述的面向电力物资业务场景的多模态人机交互系统,其特征在于,
应用模块提供天气情况查询界面、语音和文字沟通服务;用户以语音交互的方式与虚拟人进行互动;通过B/S部署模式调用数据中心数据,并协助供应商完成业务办理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111529287.3A CN114186108A (zh) | 2021-12-14 | 2021-12-14 | 一种面向电力物资业务场景的多模态人机交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111529287.3A CN114186108A (zh) | 2021-12-14 | 2021-12-14 | 一种面向电力物资业务场景的多模态人机交互系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186108A true CN114186108A (zh) | 2022-03-15 |
Family
ID=80605025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111529287.3A Pending CN114186108A (zh) | 2021-12-14 | 2021-12-14 | 一种面向电力物资业务场景的多模态人机交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186108A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724078A (zh) * | 2022-03-28 | 2022-07-08 | 西南交通大学 | 基于目标检测网络与知识推理的人员行为意图识别方法 |
CN116069915A (zh) * | 2023-02-16 | 2023-05-05 | 支付宝(杭州)信息技术有限公司 | 政务服务处理方法及装置 |
CN116910630A (zh) * | 2023-09-14 | 2023-10-20 | 北京国电通网络技术有限公司 | 用户识别信息存储方法、装置、电子设备和介质 |
-
2021
- 2021-12-14 CN CN202111529287.3A patent/CN114186108A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724078A (zh) * | 2022-03-28 | 2022-07-08 | 西南交通大学 | 基于目标检测网络与知识推理的人员行为意图识别方法 |
CN116069915A (zh) * | 2023-02-16 | 2023-05-05 | 支付宝(杭州)信息技术有限公司 | 政务服务处理方法及装置 |
CN116910630A (zh) * | 2023-09-14 | 2023-10-20 | 北京国电通网络技术有限公司 | 用户识别信息存储方法、装置、电子设备和介质 |
CN116910630B (zh) * | 2023-09-14 | 2023-11-24 | 北京国电通网络技术有限公司 | 用户识别信息存储方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114186108A (zh) | 一种面向电力物资业务场景的多模态人机交互系统 | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
CN109271498B (zh) | 面向虚拟机器人的自然语言交互方法及系统 | |
CN110223695B (zh) | 一种任务创建方法及移动终端 | |
CN110111780B (zh) | 数据处理方法和服务器 | |
KR20040103445A (ko) | 음성 애플리케이션 언어 태그로 구현된 의미 객체 동기 이해 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
WO2023065629A1 (zh) | 一种对话管理方法、系统、终端及存储介质 | |
CN110046227A (zh) | 对话系统的配置方法、交互方法、装置、设备和存储介质 | |
CN108632653A (zh) | 语音管控方法、智能电视及计算机可读存储介质 | |
WO2010124512A1 (zh) | 人机交互系统及其相关系统、设备和方法 | |
KR20220000046A (ko) | 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법 | |
US20070133777A1 (en) | Automatic generation of a callflow statistics application for speech systems | |
CN109144458A (zh) | 用于执行与语音输入相对应的操作的电子设备 | |
CN106302933A (zh) | 通话语音信息处理方法及终端 | |
CN107632974B (zh) | 适用于多领域的中文分析平台 | |
CN111402872A (zh) | 用于智能语音对话系统的语音数据处理方法及装置 | |
CN110222333A (zh) | 一种语音交互方法、装置以及相关设备 | |
CN111722893A (zh) | 一种电子设备图形用户界面交互方法、装置和终端设备 | |
CN112784024A (zh) | 一种人机对话的方法、装置、设备以及存储介质 | |
CN109857462A (zh) | 遥感图像可视化编辑器的后台Docker任务映射方法 | |
CN1275174C (zh) | 具有语音辨识辅助功能的中文输入方法及其系统 | |
CN112015880A (zh) | 智能机器人的人机对话流程自动流转方法及系统 | |
CN113282287A (zh) | 业务逻辑的处理方法、装置及电子设备 | |
CN112578965A (zh) | 处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |