CN117271811A - 一种基于人工智能的人机交互系统及设备 - Google Patents
一种基于人工智能的人机交互系统及设备 Download PDFInfo
- Publication number
- CN117271811A CN117271811A CN202311257603.5A CN202311257603A CN117271811A CN 117271811 A CN117271811 A CN 117271811A CN 202311257603 A CN202311257603 A CN 202311257603A CN 117271811 A CN117271811 A CN 117271811A
- Authority
- CN
- China
- Prior art keywords
- information
- module
- text
- analysis
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 125
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 54
- 230000002159 abnormal effect Effects 0.000 claims abstract description 33
- 238000013500 data storage Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 230000005856 abnormality Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000003058 natural language processing Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于人工智能的人机交互系统及设备,属于人机交互技术领域,用于解决现有的人机交互方法输入方式较为单一,难以智能的处理多类型、多种类交互方式,降低了用户与计算机之间的交互体验的技术问题。系统包括:解析模块、上下文填充模块、执行引擎、数据存储处理模块以及分析响应模块;解析模块用于对输入信息进行识别解析,并生成基础交互信息;上下文填充模块用于对基础交互信息进行自动输入预测,得到综合交互信息;执行引擎用于对综合交互信息进行数据特征的识别,并执行对应的操作命令;数据存储处理模块用于将输入信息进行数据结构的分析与存储;分析响应模块用于将输入信息进行异常分类识别。
Description
技术领域
本申请涉及人机交互领域,尤其涉及一种基于人工智能的人机交互系统及设备。
背景技术
随着数字化发展战略的实施以及人工智能的兴起,互联网应用越来越多地出现在人们的生活中,且越来越智能化,人与互联网应用的交互也越来越频繁。目前的智能化人机交互方案焦点主要集中在输入端的表单手动录入,用户录入部分信息,系统调用人工智能模型进行分析,自动补充其他部分的信息。一定程度上减轻了人的工作。
然而,目前人机交互方案(参考:北京百度网讯科技有限公司的《基于人工智能的业务交互方法、装置、设备、介质及产品》,申请公布号CN 114841128A)。仍存在一些不足,比如输入方式单一、输出不够智能等等。现有的交互系统在处理多种输入类型和提供智能响应方面仍存在一些技术难点。
发明内容
本申请实施例提供了一种基于人工智能的人机交互系统及设备,用于解决如下技术问题:现有的人机交互方法输入方式较为单一,难以智能的处理多类型、多种类交互方式,降低了用户与计算机之间的交互体验,且人机交互的效率低。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种基于人工智能的人机交互系统,所述人机交互系统包括:解析模块、上下文填充模块、执行引擎、数据存储处理模块以及分析响应模块;所述解析模块与所述上下文填充模块相互连接,用于对输入的文本信息、语音信息以及图像信息进行识别解析,并生成对应的基础交互信息;所述上下文填充模块用于对所述基础交互信息进行自动输入预测,得到综合交互信息;所述执行引擎与所述解析模块相互连接,用于对所述综合交互信息进行数据特征的识别,并执行对应的操作命令;所述数据存储处理模块与所述执行引擎相互连接,用于将输入信息进行数据结构的分析与存储;所述分析响应模块与所述数据存储处理模块相互连接,用于将所述输入信息进行异常分类识别,并将异常输入信息进行用户层面的反馈响应。
本申请实施例通过解析模块、上下文填充模块、业务交换界面模块、执行引擎、数据存储处理模块以及分析响应模块,能够处理多种类型的用户输入,包括文本、语音和图像信息。还可以自动填充未输入的文本,提高用户输入的效率。识别用户输入的语音指令,并执行相应的操作。并且可以处理用户输入的图像信息,并提供相关的识别结果。帮助分析用户输入错误的原因,并生成智能的响应和修正建议,提高了用户体验。
在一种可行的实施方式中,所述解析模块还包括了:文本解析模块、语音解析模块以及图像识别模块;所述解析模块通过预设的机器学习以及深度学习算法,对输入的所述文本信息、所述语音信息以及所述图像信息进行有关自然语言处理技术的意图解析,得到基础交互信息;所述文本解析模块用于对所述文本信息进行识别处理,得到初始文本信息;对所述初始文本信息进行有关短语以及语法的类型识别,并对识别后的文本类型信息进行自动修正处理,得到纠正文本信息;所述基础交互信息包括:所述纠正文本信息、语音文本信息以及图像文本信息。
在一种可行的实施方式中,所述语音解析模块用于通过预设的语音转换指令,将所述语音信息进行文本转化,得到可进行命令执行的语音命令文本信息;所述图像识别模块用于通过计算机视觉技术,对所述图像信息进行文字特征的边框定位,得到有关文字特征的定位信息;通过所述定位信息,遍历所述图像信息中的若干文字特征区域,并对所述文字特征区域进行文本特征的提取与转化,得到初始图像文本信息;基于所述文本解析模块,对所述语音命令文本信息以及所述初始图像文本信息分别进行有关短语以及语法的类型识别与关联修正,分别对应得到所述语音文本信息以及所述图像文本信息。
在一种可行的实施方式中,所述上下文填充模块用于对所述基础交互信息进行有关上下文文本的内容预测,得到预测填充信息;并基于所述基础交互信息的父级分类字段,对所述预测填充信息进行子级分类字段的筛选处理,确定出实际填充信息;所述上下文填充模块还用于将所述实际填充信息与所述基础交换信息进行信息结合,得到所述综合交互信息。
在一种可行的实施方式中,所述人机交互系统还包括:业务交换界面模块;所述业务交换界面模块与所述解析模块相连接,用于将所述综合交互信息进行接收与显示;所述业务交换界面模块还用于通过外显界面与用户进行任务交互,以实现对所述综合交互信息的智能化处理;其中,所述智能化处理至少包括:信息查询、任务执行以及解析意见推荐。
在一种可行的实施方式中,所述执行引擎具有自然语言处理技术以及语义理解技术;所述执行引擎用于对所述综合交互信息进行有关文本数据结构的意图解析处理,并确定出文本操作指令;所述执行引擎还用于通过计算机视觉技术,对输入的图像信息进行图像视觉特征的识别,并根据识别出的视觉特征信息,确定出对应的显示操作指令。
在一种可行的实施方式中,所述数据存储处理模块用户接收并存储所述文本信息、所述语音信息以及所述图像信息;并基于所述文本信息、所述语音信息以及所述图像信息,生成输入数据集,用于分析用户的需求与行为模式;所述数据存储处理模块还用于存储与所述综合交互信息相关联的模型训练信息,并提供与所述模型训练信息对应的访问与管理接口;所述模型训练信息为通过所述解析模块对所述输入信息进行有关用户意图与需求的解析训练所得;所述数据存储处理模块还用于对所述输入信息以及所述综合交互信息进行有关数据结构的多维度处理,以实现对所述输入信息与所述综合交互信的数据监管;其中,所述多维度处理至少包括:数据清洗、数据转换以及数据特征提取。
在一种可行的实施方式中,所述分析响应模块用于对所述输入信息进行系统预定义的异常判断;若所述输入信息为外部异常信息,则生成外部异常响应信息,并将所述外部异常响应信息反馈到用户中心;所述分析响应模块还用于对所述输入信息进行指令识别判断;若所述输入信息转为无法识别指令,则将所述输入信息确定为异常指令信息,并将所述异常指令信息反馈到所述用户中心;通过所述分析响应模块,将所述外部异常响应信息以及所述异常指令信息确定为所述异常输入信息;所述分析响应模块还用于将所述异常输入信息进行错误分析与修正分析,分别对应生成错误信息以及修正建议信息。
在一种可行的实施方式中,业务交互界面模块通过用户界面更新算法,将所述错误信息以及所述修正建议信息进行有关用户界面的更新显示处理,以实现通过所述用户层面对所述人机交互系统进行智能响应的反馈展示。
另一方面,本申请实施例还提供了一种基于人工智能的人机交互设备,其特征在于,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够运行上述任一实施例所述的一种基于人工智能的人机交互系统。
本申请提供了一种基于人工智能的人机交互系统及设备,与现有技术相比,本申请具有以下有益的技术效果:
本申请实施例通过解析模块、上下文填充模块、业务交换界面模块、执行引擎、数据存储处理模块以及分析响应模块,能够处理多种类型的用户输入,包括文本、语音和图像信息。还可以自动填充未输入的文本,提高用户输入的效率。识别用户输入的语音指令,并执行相应的操作。并且可以处理用户输入的图像信息,并提供相关的识别结果。帮助分析用户输入错误的原因,并生成智能的响应和修正建议,提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种基于人工智能的人机交互系统图;
图2为本申请实施例提供的一种基于人工智能的人机交互总体流程示意图;
图3为本申请实施例提供的一种基于人工智能的人机交互设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种基于人工智能的人机交互系统,图1为本申请实施例提供的一种基于人工智能的人机交互系统图,如图1所示,人机交互系统100包括:解析模块110、上下文填充模块120、执行引擎140、数据存储处理模块150以及分析响应模块160。解析模块110与上下文填充模块120相互连接,用于对输入的文本信息、语音信息以及图像信息进行识别解析,并生成对应的基础交互信息。上下文填充模块120用于对基础交互信息进行自动输入预测,得到综合交互信息。执行引擎140与解析模块110相互连接,用于对综合交互信息进行数据特征的识别,并执行对应的操作命令。数据存储处理模块150与执行引擎140相互连接,用于将输入信息进行数据结构的分析与存储。分析响应模块与160数据存储处理模块150相互连接,用于将输入信息进行异常分类识别,并将异常输入信息进行用户层面的反馈响应。
在一个实施例中,图2为本申请实施例提供的一种基于人工智能的人机交互总体流程示意图,如图2以及图1所示,文本解析模块111通过自然语言处理算法解析用户输入的文本,并利用自动填充算法填充其他未输入的文本。用户输入语音,语音解析模块通过语音识别算法将用户输入的语音转换为文本,并通过指令解析算法解析指令及指令内容,最后通过指令执行算法执行解析出的指令。用户输入图像,图像识别模块113通过图像处理算法处理用户输入的图像,并利用图像识别算法识别图像中的信息,并能转化为文本等其他形式。根据用户的输入,系统可以给出多种形式的输出,包含但不限于文本、语音等.若发生异常情况,系统还可以给出比较深度的分析及建议,并反馈给用户。
进一步地,如图1所示,解析模块还包括了:文本解析模块111、语音解析模块112以及图像识别模块113。解析模块110通过预设的机器学习以及深度学习算法,对输入的文本信息、语音信息以及图像信息进行有关自然语言处理技术的意图解析,得到基础交互信息。文本解析模块111用于对文本信息进行识别处理,得到初始文本信息。对初始文本信息进行有关短语以及语法的类型识别,并对识别后的文本类型信息进行自动修正处理,得到纠正文本信息。基础交互信息包括:纠正文本信息、语音文本信息以及图像文本信息。
进一步地,如图1所示,语音解析模块112用于通过预设的语音转换指令,将语音信息进行文本转化,得到可进行命令执行的语音命令文本信息。图像识别模块113用于通过计算机视觉技术,对图像信息进行文字特征的边框定位,得到有关文字特征的定位信息。通过定位信息,遍历图像信息中的若干文字特征区域,并对文字特征区域进行文本特征的提取与转化,得到初始图像文本信息。基于文本解析模块111,对语音命令文本信息以及初始图像文本信息分别进行有关短语以及语法的类型识别与关联修正,分别对应得到语音文本信息以及图像文本信息。
在一个实施例中,如图2以及图1所示,解析模块110通过接收用户输入的文本、语音和图像,并利用自然语言处理技术对输入进行解析。解析模块110使用机器学习和深度学习算法进行训练和优化,以实现对用户意图和需求的理解。解析模块包含但不限于文本解析模块111、语音解析模块112和图像识别模块113。文本解析模块111可以直接对用户录入的表单等文本信息进行识别解析,具备自动纠错功能,能够智能地识别和修正用户输入文本中的拼写错误、语法错误或其他常见错误,以提高用户体验和减少误解。语音解析模块112将用户的语音指令转化为文本,并执行相应的操作。比如,用户通过语音输入“请打开xx页面”,系统可以解析成命令文本,并执行该命令。图像识别模块113利用计算机视觉技术对用户提供的图像进行分析和识别,并将图像转化为文本。通过解析模块110,系统能够准确地识别用户的指令和问题,为后续的交互提供基础。
进一步地,如图1所示,上下文填充模块120用于对基础交互信息进行有关上下文文本的内容预测,得到预测填充信息。并基于基础交互信息的父级分类字段,对预测填充信息进行子级分类字段的筛选处理,确定出实际填充信息。上下文填充模块120还用于将实际填充信息与基础交换信息进行信息结合,得到综合交互信息。
在一个实施例中,如图1所示,上下文填充模块120,在解析模块110的基础上进行了扩展。上下文填充模块120能够根据已输入文本信息(基础交互信息)的上下文内容自动填充未输入的文本,提供更完整的交互体验。上下文填充模块通过分析用户之前的输入,预测用户可能要输入的内容(预测填充信息),并将其自动填充到交互界面中。这样,用户在进行交互时无需重复输入相似的内容,提高了交互的效率和便捷性。用户输入分类名称字段后,系统根据输入的分类名称自动填充父级分类字段,即基于基础交互信息的父级分类字段,对预测填充信息进行子级分类字段的筛选处理,确定出实际填充信息。上下文填充模块120还用于将实际填充信息与基础交换信息进行信息结合,得到综合交互信息。同时,若自动填充的字段不是所需要的,系统还会给出其他的实际填充信息,来实现对综合交互信息的确定。
进一步地,如图1所示,人机交互系统100还包括:业务交换界面模块130。业务交换界面模块130与解析模块110相连接,用于将综合交互信息进行接收与显示。业务交换界面模块130还用于通过外显界面与用户进行任务交互,以实现对综合交互信息的智能化处理。其中,智能化处理至少包括:信息查询、任务执行以及解析意见推荐。
在一个实施例中,如图1所示,业务交互界面模块130用于接收用户的输入信息(综合交互信息)并显示解析结果。用户可以与计算机系统或服务进行实时的、智能化的对话。无论是查询信息、寻求建议、执行任务还是解决问题,用户只需简单地与界面进行交互,就能够得到快速、精准的响应和解决方案。包含并不限于大屏、投影等方式,并支持PC、移动、pad等多个终端。
进一步地,如图1所示,执行引擎140具有自然语言处理技术以及语义理解技术。执行引擎140用于对综合交互信息进行有关文本数据结构的意图解析处理,并确定出文本操作指令。执行引擎140还用于通过计算机视觉技术,对输入的图像信息进行图像视觉特征的识别,并根据识别出的视觉特征信息,确定出对应的显示操作指令。
在一个实施例中,如图1所示,执行引擎140用于执行解析出的指令或显示识别出的图像信息。它使用自然语言处理和语义理解技术,将用户的意图转化为可执行的操作,即确定出文本操作指令。无论是控制设备、执行任务、查询信息还是与其他系统进行交互,执行引擎都能够准确地理解用户的需求,并采取相应的行动。同时,当用户提供图像作为输入时,引擎会使用计算机视觉技术对图像进行分析和识别。它能够识别出图像中的对象、场景或特定的视觉特征,并根据识别结果确定出对应的显示操作指令或显示相关的信息。
进一步地,如图1所示,数据存储处理模块150用户接收并存储文本信息、语音信息以及图像信息。并基于文本信息、语音信息以及图像信息,生成输入数据集,用于分析用户的需求与行为模式。
进一步地,如图1所示,数据存储处理模块150还用于存储与综合交互信息相关联的模型训练信息,并提供与模型训练信息对应的访问与管理接口。模型训练信息为通过解析模块110对输入信息进行有关用户意图与需求的解析训练所得。
进一步地,如图1所示,数据存储处理模块150还用于对输入信息以及综合交互信息进行有关数据结构的多维度处理,以实现对输入信息与综合交互信的数据监管。其中,多维度处理至少包括:数据清洗、数据转换以及数据特征提取。
在一个实施例中,如图1所示,数据存储处理模块150承担着数据的收集、存储和处理的任务。首先,数据存储处理模块150负责接收和存储用户的输入信息。这些输入信息可以是用户的文本输入、语音输入、图像上传等。通过收集和存储这些数据,系统可以建立一个丰富的数据集,用于分析和理解用户的需求和行为模式。除了用户输入数据,数据存储和处理模块还负责存储模型训练所需的数据。数据存储和处理模块会将这些训练数据存储在适当的数据结构中,并提供访问和管理接口,以便训练模型时能够高效地读取和处理这些数据。
在一个实施例中,如图1所示,数据存储处理模块150还会进行必要的数据处理和分析。这包括数据清洗、数据转换、特征提取等操作,以确保数据的质量和可用性。通过对数据进行处理和分析,系统可以从中发现隐藏的模式和趋势,为系统的优化和性能提升提供有价值的信息。这个数据存储和处理模块在系统的整个生命周期中起着关键的作用。它不仅提供了一个可靠的数据存储和管理系统,还为系统的训练、优化和性能提升提供了必要的数据支持。通过有效地存储和处理数据,系统可以不断学习和进化,提供更精准、更智能的服务和功能。
进一步地,如图1所示,分析响应模块160用于对输入信息进行系统预定义的异常判断。若所述输入信息为外部异常信息,则生成外部异常响应信息,并将外部异常响应信息反馈到用户中心。分析响应模块160还用于对输入信息进行指令识别判断。若输入信息转为无法识别指令,则将输入信息确定为异常指令信息,并将异常指令信息反馈到用户中心。
进一步地,如图1所示,通过分析响应模块160,将外部异常响应信息以及异常指令信息确定为异常输入信息。分析响应模块160还用于将异常输入信息进行错误分析与修正分析,分别对应生成错误信息以及修正建议信息。
进一步地,如图1所示,业务交互界面模块130通过用户界面更新算法,将错误信息以及修正建议信息进行有关用户界面的更新显示处理,以实现通过用户层面对人机交互系统100进行智能响应的反馈展示。
在一个实施例中,如图1以及图2所示,分析响应模块160旨在优化系统对异常操作的处理。目前绝大多数系统在面对异常操作时会预先定义一部分异常信息,但这些预定义的异常信息往往难以覆盖全部操作,并且缺乏灵活性。而本申请的人机交互系统100当输入信息存在异常情况时,首先会判断异常是否是系统预定义的异常,然后进一步分析用户输入错误的原因,并生成智能的外部异常响应信息返回给用户。如果用户输入的指令本身无法识别(异常指令信息),系统还将分析无法识别的原因,并提供相关的提示。
在一个实施例中,如图1所示,为了更好地反映错误分析结果,业务交互界面模块130通过用户界面更新算法,会进行错误分析和修正建议来更新用户界面。这样用户就能够清楚地看到错误的原因,并得到相应的修正建议。此外,分析响应模块160还支持多种响应方式,包括文本和语音等。无论用户采用何种方式与系统进行交互,系统都能够提供相应的智能响应。对于正常操作,该模块还具备学习和记忆的功能。系统会不断学习用户的正常操作模式,并根据这些模式给出正常的响应返回给用户。这样,系统能够更好地理解用户的需求,并提供更加个性化的服务。
作为一种可行的实施方式,本申请实施例同时还具备了:
1、多种输入输出方式:本申请的人机交互系统100支持文本、语音和图像等多种输入方式,使用户能够根据自己的喜好和需求选择最方便的输入方式。同时,系统也支持多种输出方式,而不局限于文本。
2、实现智能解析和响应:人机交互系统100通过文本解析、语音解析和图像识别等技术,能够准确解析用户输入的信息,并生成智能的响应。系统能够理解用户的意图,并根据用户的指令执行相应的操作。
3、提供自动填充和修正功能:人机交互系统100具备自动填充和修正功能,能够根据已有的语料库和算法,填充未输入的文本并提供拼写错误的修正建议。这样可以提高用户输入的准确性和效率。对于其他的异常操作,系统也能够基于用户操作给出合理的建议。
4、多个领域可用:本申请的人机交互系统100具有广泛的应用领域,包括业务办理、智能助理、智能家居、自动驾驶等。通过在不同领域的应用,交互系统能够为用户提供更多的便利和智能化的服务。
另外,本申请实施例还提供了一种人机交互设备,如图3所示,人机交互设备300具体包括:
至少一个处理器301。以及,与至少一个处理器301通信连接的存储器302。其中,存储器302存储有能够被至少一个处理器301执行的指令,以使至少一个处理器301能够运行人机交互系统所具有的:
人机交互系统包括:解析模块、上下文填充模块、执行引擎、数据存储处理模块以及分析响应模块;
解析模块与上下文填充模块相互连接,用于对输入的文本信息、语音信息以及图像信息进行识别解析,并生成对应的基础交互信息;
上下文填充模块用于对基础交互信息进行自动输入预测,得到综合交互信息;
执行引擎与解析模块相互连接,用于对综合交互信息进行数据特征的识别,并执行对应的操作命令;
数据存储处理模块与执行引擎相互连接,用于将输入信息进行数据结构的分析与存储;
分析响应模块与数据存储处理模块相互连接,用于将输入信息进行异常分类识别,并将异常输入信息进行用户层面的反馈响应。
本申请提供了一种基于人工智能的人机交互系统及设备,通过解析模块、上下文填充模块、业务交换界面模块、执行引擎、数据存储处理模块以及分析响应模块,能够处理多种类型的用户输入,包括文本、语音和图像信息。还可以自动填充未输入的文本,提高用户输入的效率。识别用户输入的语音指令,并执行相应的操作。并且可以处理用户输入的图像信息,并提供相关的识别结果。帮助分析用户输入错误的原因,并生成智能的响应和修正建议,提高了用户体验。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统及设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于人工智能的人机交互系统,其特征在于,所述人机交互系统包括:解析模块、上下文填充模块、执行引擎、数据存储处理模块以及分析响应模块;
所述解析模块与所述上下文填充模块相互连接,用于对输入的文本信息、语音信息以及图像信息进行识别解析,并生成对应的基础交互信息;
所述上下文填充模块用于对所述基础交互信息进行自动输入预测,得到综合交互信息;
所述执行引擎与所述解析模块相互连接,用于对所述综合交互信息进行数据特征的识别,并执行对应的操作命令;
所述数据存储处理模块与所述执行引擎相互连接,用于将输入信息进行数据结构的分析与存储;
所述分析响应模块与所述数据存储处理模块相互连接,用于将所述输入信息进行异常分类识别,并将异常输入信息进行用户层面的反馈响应。
2.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,所述解析模块还包括了:文本解析模块、语音解析模块以及图像识别模块;
所述解析模块通过预设的机器学习以及深度学习算法,对输入的所述文本信息、所述语音信息以及所述图像信息进行有关自然语言处理技术的意图解析,得到基础交互信息;
所述文本解析模块用于对所述文本信息进行识别处理,得到初始文本信息;对所述初始文本信息进行有关短语以及语法的类型识别,并对识别后的文本类型信息进行自动修正处理,得到纠正文本信息;
所述基础交互信息包括:所述纠正文本信息、语音文本信息以及图像文本信息。
3.根据权利要求2所述的一种基于人工智能的人机交互系统,其特征在于,
所述语音解析模块用于通过预设的语音转换指令,将所述语音信息进行文本转化,得到可进行命令执行的语音命令文本信息;
所述图像识别模块用于通过计算机视觉技术,对所述图像信息进行文字特征的边框定位,得到有关文字特征的定位信息;通过所述定位信息,遍历所述图像信息中的若干文字特征区域,并对所述文字特征区域进行文本特征的提取与转化,得到初始图像文本信息;
基于所述文本解析模块,对所述语音命令文本信息以及所述初始图像文本信息分别进行有关短语以及语法的类型识别与关联修正,分别对应得到所述语音文本信息以及所述图像文本信息。
4.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,
所述上下文填充模块用于对所述基础交互信息进行有关上下文文本的内容预测,得到预测填充信息;并基于所述基础交互信息的父级分类字段,对所述预测填充信息进行子级分类字段的筛选处理,确定出实际填充信息;
所述上下文填充模块还用于将所述实际填充信息与所述基础交换信息进行信息结合,得到所述综合交互信息。
5.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,所述人机交互系统还包括:业务交换界面模块;
所述业务交换界面模块与所述解析模块相连接,用于将所述综合交互信息进行接收与显示;
所述业务交换界面模块还用于通过外显界面与用户进行任务交互,以实现对所述综合交互信息的智能化处理;其中,所述智能化处理至少包括:信息查询、任务执行以及解析意见推荐。
6.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,
所述执行引擎具有自然语言处理技术以及语义理解技术;
所述执行引擎用于对所述综合交互信息进行有关文本数据结构的意图解析处理,并确定出文本操作指令;
所述执行引擎还用于通过计算机视觉技术,对输入的图像信息进行图像视觉特征的识别,并根据识别出的视觉特征信息,确定出对应的显示操作指令。
7.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,
所述数据存储处理模块用户接收并存储所述文本信息、所述语音信息以及所述图像信息;并基于所述文本信息、所述语音信息以及所述图像信息,生成输入数据集,用于分析用户的需求与行为模式;
所述数据存储处理模块还用于存储与所述综合交互信息相关联的模型训练信息,并提供与所述模型训练信息对应的访问与管理接口;所述模型训练信息为通过所述解析模块对所述输入信息进行有关用户意图与需求的解析训练所得;
所述数据存储处理模块还用于对所述输入信息以及所述综合交互信息进行有关数据结构的多维度处理,以实现对所述输入信息与所述综合交互信的数据监管;其中,所述多维度处理至少包括:数据清洗、数据转换以及数据特征提取。
8.根据权利要求1所述的一种基于人工智能的人机交互系统,其特征在于,
所述分析响应模块用于对所述输入信息进行系统预定义的异常判断;若所述输入信息为外部异常信息,则生成外部异常响应信息,并将所述外部异常响应信息反馈到用户中心;
所述分析响应模块还用于对所述输入信息进行指令识别判断;若所述输入信息转为无法识别指令,则将所述输入信息确定为异常指令信息,并将所述异常指令信息反馈到所述用户中心;
通过所述分析响应模块,将所述外部异常响应信息以及所述异常指令信息确定为所述异常输入信息;
所述分析响应模块还用于将所述异常输入信息进行错误分析与修正分析,分别对应生成错误信息以及修正建议信息。
9.根据权利要求8所述的一种基于人工智能的人机交互系统,其特征在于,业务交互界面模块通过用户界面更新算法,将所述错误信息以及所述修正建议信息进行有关用户界面的更新显示处理,以实现通过所述用户层面对所述人机交互系统进行智能响应的反馈展示。
10.一种基于人工智能的人机交互设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够运行根据权利要求1-9任一项所述的一种基于人工智能的人机交互系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257603.5A CN117271811A (zh) | 2023-09-26 | 2023-09-26 | 一种基于人工智能的人机交互系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257603.5A CN117271811A (zh) | 2023-09-26 | 2023-09-26 | 一种基于人工智能的人机交互系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117271811A true CN117271811A (zh) | 2023-12-22 |
Family
ID=89200419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311257603.5A Pending CN117271811A (zh) | 2023-09-26 | 2023-09-26 | 一种基于人工智能的人机交互系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271811A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118505176A (zh) * | 2024-07-22 | 2024-08-16 | 深圳市灵智数字科技有限公司 | 一种用工匹配方法、系统及可存储介质 |
-
2023
- 2023-09-26 CN CN202311257603.5A patent/CN117271811A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118505176A (zh) * | 2024-07-22 | 2024-08-16 | 深圳市灵智数字科技有限公司 | 一种用工匹配方法、系统及可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764480B (zh) | 一种信息处理的系统 | |
CN110110041A (zh) | 错词纠正方法、装置、计算机装置及存储介质 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN110287482B (zh) | 半自动化分词语料标注训练装置 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN117271811A (zh) | 一种基于人工智能的人机交互系统及设备 | |
US11972219B2 (en) | Intent recognition optimization processing method, apparatus, and storage medium | |
CN111930912A (zh) | 对话管理方法及系统、设备和存储介质 | |
CN112559690A (zh) | 一种自然语言智能数据建模技术 | |
CN111125145A (zh) | 一种通过自然语言获取数据库信息的自动化系统 | |
CN110765342A (zh) | 信息查询方法及装置、存储介质、智能终端 | |
CN112115244A (zh) | 对话交互方法、装置、存储介质及电子设备 | |
CN112148874A (zh) | 可自动新增用户潜在意图的意图识别方法及系统 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN112182171A (zh) | 一种基于人机对话调控机器人构建运行助手的方法及装置 | |
CN116521821A (zh) | 文本语义匹配方法及制冷设备系统 | |
CN117391515B (zh) | 一种基于通用大语言模型的服务质量管理方法与系统 | |
CN111581971B (zh) | 词库的更新方法、装置、终端及存储介质 | |
CN117725175A (zh) | 基于大语言模型的智能系统 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN116186259A (zh) | 一种会话线索评分方法、装置、设备及存储介质 | |
CN114970733A (zh) | 语料生成方法及装置、系统、存储介质和电子设备 | |
CN112925889A (zh) | 自然语言处理方法、装置、电子设备和存储介质 | |
CN113128202B (zh) | 一种面向物联网服务的智能编排方法和装置 | |
CN113343668B (zh) | 选择题解题方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |