CN116430999A - 一种语音助手实现指尖视觉交互技术的方法和系统 - Google Patents

一种语音助手实现指尖视觉交互技术的方法和系统 Download PDF

Info

Publication number
CN116430999A
CN116430999A CN202310461147.XA CN202310461147A CN116430999A CN 116430999 A CN116430999 A CN 116430999A CN 202310461147 A CN202310461147 A CN 202310461147A CN 116430999 A CN116430999 A CN 116430999A
Authority
CN
China
Prior art keywords
data
input
user
fingertip
technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310461147.XA
Other languages
English (en)
Inventor
俞志晨
安祺
匡亚明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangnian Infinite Technology Co ltd
Original Assignee
Beijing Guangnian Infinite Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangnian Infinite Technology Co ltd filed Critical Beijing Guangnian Infinite Technology Co ltd
Priority to CN202310461147.XA priority Critical patent/CN116430999A/zh
Publication of CN116430999A publication Critical patent/CN116430999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种语音助手实现指尖视觉交互技术的方法和系统,其特征在于,包括以下步骤:接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;分析处理所述用户输入的数据,以得到输出数据;显示播放所述输出数据。本发明提供的方法和系统能够实现多模态输入和多模态输出,支持文本输入、语音输入和图片输入,同时过AIGC生成技术和现有内容相结合,从传统文本输出,扩展为文本+图片+音频的多模态输出方式,解决了现有技术中现有AI语音助手只支持语音输入和文本输出导致的交互模式单一、产品形态封闭等问题。此外,本申请还具有兼容性强、扩展性强、内容数据从封闭域转为开放域等优点。

Description

一种语音助手实现指尖视觉交互技术的方法和系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音助手实现指尖视觉交互技术的方法和系统。
背景技术
随着人工智能(Artificial Intelligence,英文缩写为AI)的发展,AI语音助手逐渐成为智能硬件的刚需功能,如智能手机、智能车载、智能音箱、智能平板电脑、智能台灯、智能手表等。语音助手是一个通过语音识别、语音合成、语义分析等技术手段,使用户能够方便、自然的通过无线Mic及麦克风阵列等语音输入设备,可以使用自然语言和语音助手进行交互,实现语音助手与智能应用的结合和功能的整合,以及实现对智能电视的智能化控制的一个语音系统。
AI语音助手是以人类的自然语言为主要交互方式,从语言中能够充分理解出用户意图,并能够直接给出对应信息或者持续交互的系统。语音助手是以语音输入/输出方式的人机对话系统,其所采用的技术包括ASR语音识别、TTS语音合成、NLU自然语言理解、NLG自然语言生成、AI大语言模型(LLM)、数据检索技术等,其中的技术现在也在不断改善。虽然智能语音助手打破了传统设备中屏幕和键盘的作用,可以调动用户的听觉和语言来控制智能设备,开辟了新的交互方式,但是当前语音助手以语音输入/输出的交互方式为主、交互模式单一、产品形态封闭导致场景功能有限,这极大限制了语音助手类产品的用户体验及商业价值。
发明内容
针对以上问题,本发明提供一种语音助手实现指尖视觉交互技术的方法和系统,能够在AI语音助手场景下实现指尖交互技术,使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能。本发明提供的语音助手实现指尖视觉交互技术的方法和系统,拥有明显更好的智能度,可以在AI学习平板、AI学习台灯等设备上给儿童、学生等用户带来更丰富的交互方式,提供更大的使用便利。
本发明提供一种语音助手实现指尖视觉交互技术的方法,其特征在于,包括以下步骤:
接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
分析处理所述用户输入的数据,以得到输出数据;
显示播放所述输出数据。
进一步的,当所述用户输入的数据为文本数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
进一步的,当所述用户输入的数据为语音数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
通过VAD技术判断用户语音输入开始和结束,本地生成音频数据,并把数据发送到云端;所述云端包括云端中控模块和云端算法模块;
所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
云端算法模块通过ASR技术把音频转为文本,并返回识别文本结果;
通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
进一步的,当所述用户输入的数据为图片数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
通过视觉动态检测技术判断用户图片输入开始和结束,生成本地图片数据;
通过指尖识别技术判断所述本地图片数据中是否有指尖,如果为是,则获取指尖坐标;
根据所述指尖坐标,通过图片裁切技术对所述本地图片进行裁切,确定最终图片数据;
通过图片数据处理技术云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
通过版面矫正技术修正图片信息,确保后续OCR识别结果的准确率和召回率;
通过OCR技术识别图片中的文本,基于文本内容作为用户意图和数据的输入;
基于用户不同的意图,通过NLG或数据处理技术,进行不同的数据生成和数据输出,以得到输出数据。
进一步的,所述文本数据和/或语音数据的输入可以通过用户手动开启或语音唤醒的方式触发。
进一步的,所述图片数据的输入可以通过手动开启或意图触发,所述意图触发为通过文本输入、语音输入的方式触发。
本发明还提供一种语音助手实现指尖视觉交互技术的系统,包括设备端和云端,其特征在于:
所述设备端接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
所述云端分析处理所述用户输入的数据,以得到输出数据;
所述设备端显示播放所述输出数据。
进一步的,所述云端包括云端中控模块和云端算法模块。
进一步的,当所述用户输入的数据为文本数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:所述云端算法模块通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
进一步的,当所述用户输入的数据为语音数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
所述设备端通过VAD技术判断用户语音输入开始和结束,本地生成音频数据,并把数据发送到云端;
所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
所述云端算法模块通过ASR技术把音频转为文本,并向设备端返回识别文本结果;
所述云端算法模块通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
进一步的,当所述用户输入的数据为图片数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
所述设备端通过视觉动态检测技术判断用户图片输入开始和结束,生成本地图片数据;
所述设备端通过指尖识别技术判断所述本地图片数据中是否有指尖,如果为是,则获取指尖坐标;
所述设备端根据所述指尖坐标,通过图片裁切技术对所述本地图片进行裁切,确定最终图片数据;
所述云端中控模块通过图片数据处理技术对所述最终图片数据进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
所述云端算法模块通过版面矫正技术修正图片信息,确保后续OCR识别结果的准确率和召回率;
通过OCR技术识别图片中的文本,基于文本内容作为用户意图和数据的输入;
基于用户不同的意图,通过NLG或数据处理技术,进行不同的数据生成和数据输出,以得到输出数据。
进一步的,所述设备端可以通过用户手动开启或语音唤醒的方式触发所述文本数据和/或语音数据的输入。
进一步的,所述设备端可以通过手动开启或意图触发的方式触发所述图片数据的输入;所述意图触发为通过文本输入、语音输入的方式触发。
本发明产生的有益效果是:本发明提供一种语音助手实现指尖视觉交互技术的方法和系统,能够实现多模态输入和多模态输出,在AI语音助手场景下实现指尖交互技术,使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能。本发明提供的语音助手实现指尖视觉交互技术的方法和系统,拥有明显更好的智能度,可以在AI学习平板、AI学习台灯等设备上给儿童、学生等用户带来更丰富的交互方式,提供更大的使用便利。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍:
图1示出了本发明第一实施例的一种语音助手实现指尖视觉交互技术的方法的流程图。
图2示出了当用户输入数据为文本数据时的方法的流程图。
图3示出了当用户输入数据为语音数据时的方法的流程图。
图4示出了当用户输入数据为图片数据时的方法的流程图。
图5示出本发明第一实施例的一种语音助手实现指尖视觉交互技术的系统示意图。
实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
在下述介绍中,术语“第一”、“第二”仅用于描述的目的,而不能理解为暗示其相对重要性。
下述介绍提供了本发明的多个实施例,不同实施例之间可以替换或者合并组合,因此本发明也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本发明也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
实施例
图1示出了本发明第一实施例的一种语音助手实现指尖视觉交互技术的方法的流程图。
如图1所示,本发明的一种语音助手实现指尖视觉交互技术的方法,其特征在于,包括以下步骤:
步骤S101,接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
步骤S102,分析处理所述用户输入的数据,以得到输出数据;
步骤S103,显示播放所述输出数据。
现有AI语音助手只支持语音输入;本申请提供的一种语音助手实现指尖视觉交互技术的方法可以实现新AI语音助手支持语音输入和图片输入,语音输入负责常见的功能指令控制和语音搜索;图片输入配合视觉识别技术/图片分析技术/文本分析技术等视觉/图片分析/数据处理技术,负责实现指尖查/读绘本/作业批改/作业录入/做作业等儿童垂直场景类功能。
图2示出了当用户输入数据为文本数据时的方法的流程图。
如图2所示,当所述用户输入的数据为文本数据时,所述步骤S102所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
步骤S1021,通过NLU技术或AI大语言模型分析文本中的用户意图;
步骤S1022,基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等,例如:词典查词输出词典数据,闲聊/问答等文本类回复输出AIGC生成文本数据,需要视觉能力配合的功能(指尖查、读绘本等)输出“打开视觉能力”的指令等等。
还可通过TTS技术将文本转换为音频输出;
步骤S1023,云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
图3示出了当用户输入数据为语音数据时的方法的流程图。
如图3所示,当所述用户输入的数据为语音数据时,所述步骤S102,分析处理所述用户输入的数据,以得到输出数据,具体包括如下步骤:
步骤S1021’,通过VAD技术判断用户语音输入开始和结束,本地生成音频数据,并把数据发送到云端;所述云端包括云端中控模块和云端算法模块;
步骤S1022’,所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
步骤S1023’,所述云端算法模块通过ASR技术把音频转为文本,并返回识别文本结果;
步骤S1024’,通过NLU技术或AI大语言模型分析文本中的用户意图;
步骤S1025’,基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等;
还可通过TTS技术将文本转换为音频输出。
例如:词典查词输出词典数据,闲聊/问答等文本类回复输出AIGC生成文本数据,需要视觉能力配合的功能(指尖查、读绘本等)输出“打开视觉能力”的指令等等。
步骤S1026’,云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
本申请提供的一种语音助手实现指尖交互技术的方法中,当用户输入的数据为文本或语音数据时,可以实现以下的场景或功能:
语音查词典:通过语音对话+数据检索方式,进行词典数据查询,包括:字/词/成语/单词/古诗词等等;
开放域对话:通过语音对话+AIGC生成文本数据方式,进行开放域对话,覆盖日常生活中多个对话场景;
控制指令输出:通过语音对话+用户意图处理方式,输出对应的指令数据,前端基于指令进行下一步处理,包括:打开视觉能力、打开应用、系统设置等等。
图4示出了当用户输入数据为图片数据时的方法的流程图。
如图4所示,当所述用户输入的数据为图片数据时,步骤S102,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
步骤S1021’’,通过视觉动态检测技术判断用户图片输入开始和结束,生成本地图片数据;
步骤S1022’’,通过指尖识别技术判断所述本地图片数据中是否有指尖,如果为是,则获取指尖坐标;
步骤S1023’’,根据所述指尖坐标,通过图片裁切技术对所述本地图片进行裁切,确定最终图片数据;
步骤S1024’’,通过图片数据处理技术云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
步骤S1025’’,通过版面矫正技术修正图片信息,确保后续OCR识别结果的准确率和召回率;
步骤S1026’’,通过OCR技术识别图片中的文本,基于文本内容作为用户意图和数据的输入;
步骤S1027’’,基于用户不同的意图,通过NLG或数据处理技术,进行不同的数据生成和数据输出,以得到输出数据。
例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等。
本申请通过AI技术通过智能台灯、平板电脑的摄像头,实时检测捕捉并识别用户手指信息,并基于该手指信息关联或分析理解纸质书的图片和文字信息,进而输出与该场景关联的内容结果,如指尖查单词、指尖翻译、指尖点读、指尖作业批改等,指尖视觉交互技术的底层为各种深度学习算法模型。
当用户输入的数据为图像数据时,可以实现以下功能:
指尖查词典:通过视觉能力(指尖,OCR)+数据检索方式,进行词典数据查询,包括:字/词/成语/单词/古诗词等等,真正实现用户指哪里查哪里的能力;
书籍识别:通过视觉能力(图片比对)+数据检索方式,识别用户书籍封面和内页等内容,帮助用户快速检索、快速录入、翻读朗读等书本操作,大幅提升体验和减少操作流程;
全文批改/翻译/搜题/题目录入等全文本处理:通过视觉能力(版面分析,OCR)+文本数据处理能力方式,可以进行垂直领域的深度内容分析,且可以持续和全新文本数据处理能力进行结合,输出更多垂直场景功能。
进一步的,所述文本数据和/或语音数据的输入可以通过用户手动开启或语音唤醒的方式触发。
进一步的,所述图片数据的输入可以通过手动开启或意图触发,所述意图触发为通过文本输入、语音输入的方式触发。例如当检测到输入的文本或语音中包含图片输入、指尖查词、书籍识别等意图时可触发图片数据的输入。所述图片数据的输入可通过设备端的摄像头进行采集,也可通过打开或上传设备端已有的图片实现。
图5示出本发明第一实施例的一种语音助手实现指尖视觉交互技术的系统示意图。
如图5所示,一种语音助手实现指尖视觉交互技术的系统,包括设备端100和云端200,其特征在于:
所述设备端100接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
所述云端200分析处理所述用户输入的数据,以得到输出数据;
所述设备端100显示播放所述输出数据。
所述设备端可以是AI学习平板、AI学习台灯、智能手机、智能车载、智能音箱、智能平板电脑、智能台灯、智能手表等。所述设备端具有输入模块用以输入文本数据和/或语音数据和/或图片数据,具体的,可以具有输入按键、触摸屏、麦克风、摄像头等。
现有AI语音助手只支持语音输入;本申请提供的一种语音助手实现指尖视觉交互技术的系统可以实现新AI语音助手支持语音输入和图片输入,语音输入负责常见的功能指令控制和语音搜索;图片输入配合视觉识别技术/图片分析技术/文本分析技术等视觉/图片分析/数据处理技术,负责实现指尖查/读绘本/作业批改/作业录入/做作业等儿童垂直场景类功能。
进一步的,所述云端200包括云端中控模块201和云端算法模块202。
进一步的,当所述用户输入的数据为文本数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:所述云端算法模块202通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等。
所述云端中控模块201进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
进一步的,当所述用户输入的数据为语音数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
所述设备端100通过VAD技术判断用户语音输入开始和结束,本地生成音频数据,并把数据发送到云端;
所述云端中控模块201进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块202;
所述云端算法模块202通过ASR技术把音频转为文本,并向设备端100返回识别文本结果;
所述云端算法模块202通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等。
所述云端中控模块201进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
本申请提供的一种语音助手实现指尖交互技术的方法中,当用户输入的数据为文本或语音数据时,可以实现以下的场景或功能:
语音查词典:通过语音对话+数据检索方式,进行词典数据查询,包括:字/词/成语/单词/古诗词等等;
开放域对话:通过语音对话+AIGC生成文本数据方式,进行开放域对话,覆盖日常生活中多个对话场景;
控制指令输出:通过语音对话+用户意图处理方式,输出对应的指令数据,前端基于指令进行下一步处理,包括:打开视觉能力、打开应用、系统设置等等。
进一步的,当所述用户输入的数据为图片数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
所述设备端100通过视觉动态检测技术判断用户图片输入开始和结束,生成本地图片数据;
所述设备端100通过指尖识别技术判断所述本地图片数据中是否有指尖,如果为是,则获取指尖坐标;
所述设备端100根据所述指尖坐标,通过图片裁切技术对所述本地图片进行裁切,确定最终图片数据;
所述云端中控模块201通过图片数据处理技术对所述最终图片数据进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块202;
所述云端算法模块202通过版面矫正技术修正图片信息,确保后续OCR识别结果的准确率和召回率;
通过OCR技术识别图片中的文本,基于文本内容作为用户意图和数据的输入;
基于用户不同的意图,通过NLG或数据处理技术,进行不同的数据生成和数据输出,以得到输出数据。例如,通过AI算法技术及分析理解后的用户意图,实时生成内容信息,形态包括文本、图片、视频等。
本申请提供的一种语音助手实现指尖视觉交互技术的系统中,当用户输入的数据为图片时,AI技术通过智能台灯、平板电脑的摄像头,实时检测捕捉并识别用户手指信息,并基于该手指信息关联或分析理解纸质书的图片和文字信息,进而输出与该场景关联的内容结果,如指尖查单词、指尖翻译、指尖点读、指尖作业批改等,指尖视觉交互技术的底层为各种深度学习算法模型。
当用户输入的数据为图像数据时,可以实现以下功能:
指尖查词典:通过视觉能力(指尖,OCR)+数据检索方式,进行词典数据查询,包括:字/词/成语/单词/古诗词等等,真正实现用户指哪里查哪里的能力;
书籍识别:通过视觉能力(图片比对)+数据检索方式,识别用户书籍封面和内页等内容,帮助用户快速检索、快速录入、翻读朗读等书本操作,大幅提升体验和减少操作流程;
全文批改/翻译/搜题/题目录入等全文本处理:通过视觉能力(版面分析,OCR)+文本数据处理能力方式,可以进行垂直领域的深度内容分析,且可以持续和全新文本数据处理能力进行结合,输出更多垂直场景功能。
进一步的,所述设备端100可以通过用户手动开启或语音唤醒的方式触发所述文本数据和/或语音数据的输入。
进一步的,所述设备端100可以通过手动开启或意图触发的方式触发所述图片数据的输入;所述意图触发为通过文本输入、语音输入的方式触发。例如当检测到输入的文本或语音中包含图片输入、指尖查词、书籍识别等意图时可触发图片数据的输入。所述图片数据的输入可通过设备端的摄像头进行采集,也可通过打开或上传设备端已有的图片实现。
本发明提供的一种语音助手指尖视觉交互技术的方法和系统,能够实现多模态输入,现有AI语音助手只支持语音输入,本申请提供的一种语音助手指尖视觉交互技术的方法和系统能够实现新AI语音助手支持语音输入和图片输入,语音输入负责常见的功能指令控制和语音搜索;图片输入配合视觉识别技术/图片分析技术/文本分析技术等视觉/图片分析/数据处理技术,负责实现指尖查/读绘本/作业批改/作业录入/做作业等儿童垂直场景类功能。同时,本申请提供的一种语音助手指尖视觉交互技术的方法和系统还能够实现和多模态输出,现有AI语音助手只支持文本输出,且输出文本来自于数据检索,内容单一且生硬,数据更新也无法保证实效性;本申请通过AIGC生成技术和现有内容相结合,从传统文本输出,扩展为文本+图片+音频的多模态输出方式,提升输出内容的价值和体验。
此外,本申请还具有如下有益效果:
兼容性强:本申请中支持语音+图片的创新设计兼容原语音交互的方式,属于方案升级和创新
扩展性强:图片和语音+图片的创新设计运用到了多个AI技术和数据处理技术,且在方案中相互解耦。通过可以随意排列组合且可以随时加入新技术的优势,可以孵化和创新出更多垂直场景的功能,带来创新性产品,极大提升用户体验和商业价值
内容数据从封闭域转为开放域:原内容数据靠数据库和检索实现,内容单一且没有实效性;AIGC生成技术是基于大数据生成,内容生成更加丰富,支持个性化输出,以及可以覆盖大数据实时数据训练更新,内容数据转型成开放域,能够带来极大的商业模式和价值变化。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种语音助手实现指尖视觉交互技术的方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现一种语音助手实现指尖视觉交互技术的方法的步骤。在本发明实施例中,处理器为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。
以上介绍仅为本发明的优选实施例而已,并非对本发明作任何实质和形式上的限制。虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,对于本领域的技术人员来说,在不脱离本发明技术方案范围内,可以利用上述揭示的技术内容作出各种更改和变化的等效实施例。但凡未脱离本发明的精神和原则,依据本发明的技术实质对以上实施例所作的任何简单修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种语音助手实现指尖视觉交互技术的方法,其特征在于,包括以下步骤:
S101:接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
S102:分析处理所述用户输入的数据,以得到输出数据;
S103:显示播放所述输出数据。
2.根据权利要求1所述的语音助手实现指尖视觉交互技术的方法,其特征在于:
当所述用户输入的数据为文本数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
通过NLU技术或AI大语言模型分析文本中的用户意图;
基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
3.根据权利要求1所述的语音助手实现指尖视觉交互技术的方法,其特征在于:
当所述用户输入的数据为语音数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
通过VAD技术判断用户语音输入开始和结束,本地生成音频数据,并把数据发送到云端;所述云端包括云端中控模块和云端算法模块;
所述云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
云端算法模块通过ASR技术把音频转为文本,并返回识别文本结果;
通过NLU技术或AI大语言模型分析文本中的用户意图;基于用户不同的意图,通过数据检索、NLG、AIGC或数据处理技术,进行不同的数据生成和数据输出;
云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,得到输出数据。
4.根据权利要求1所述的语音助手实现指尖视觉交互技术的方法,其特征在于:
当所述用户输入的数据为图片数据时,所述分析处理所述用户输入的数据,以得到输出数据具体包括如下步骤:
通过视觉动态检测技术判断用户图片输入开始和结束,生成本地图片数据;
通过指尖识别技术判断所述本地图片数据中是否有指尖,如果为是,则获取指尖坐标;
根据所述指尖坐标,通过图片裁切技术对所述本地图片进行裁切,确定最终图片数据;
通过图片数据处理技术云端中控模块进行数据处理和加工,确保数据完整性、可用性、归一性控制处理工作,并提交数据给所述云端算法模块;
通过版面矫正技术修正图片信息,确保后续OCR识别结果的准确率和召回率;
通过OCR技术识别图片中的文本,基于文本内容作为用户意图和数据的输入;
基于用户不同的意图,通过NLG或数据处理技术,进行不同的数据生成和数据输出,以得到输出数据。
5.根据权利要求1-3任一项所述的语音助手实现指尖视觉交互技术的方法,其特征在于:
所述文本数据和/或语音数据的输入可以通过用户手动开启或语音唤醒的方式触发。
6.根据权利要求1或4任一项所述的语音助手实现指尖视觉交互技术的方法,其特征在于:
所述图片数据的输入可以通过手动开启或意图触发,所述意图触发为通过文本输入、语音输入的方式触发。
7.一种语音助手实现指尖视觉交互技术的系统,用以执行权利要求1-6所述的一种语音助手实现指尖视觉交互技术的方法,包括设备端和云端,其特征在于:
所述设备端接收用户输入的数据,所述用户输入的数据包括文本数据和/或语音数据和/或图片数据;
所述云端分析处理所述用户输入的数据,以得到输出数据;
所述设备端显示播放所述输出数据。
8.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述权利要求1-6任一项所述的一种语音助手实现指尖视觉交互技术的方法的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现权利要求1-6任一项一种语音助手实现指尖视觉交互技术的方法的步骤。
CN202310461147.XA 2023-04-26 2023-04-26 一种语音助手实现指尖视觉交互技术的方法和系统 Pending CN116430999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310461147.XA CN116430999A (zh) 2023-04-26 2023-04-26 一种语音助手实现指尖视觉交互技术的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310461147.XA CN116430999A (zh) 2023-04-26 2023-04-26 一种语音助手实现指尖视觉交互技术的方法和系统

Publications (1)

Publication Number Publication Date
CN116430999A true CN116430999A (zh) 2023-07-14

Family

ID=87088986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310461147.XA Pending CN116430999A (zh) 2023-04-26 2023-04-26 一种语音助手实现指尖视觉交互技术的方法和系统

Country Status (1)

Country Link
CN (1) CN116430999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11968088B1 (en) * 2023-06-07 2024-04-23 Microsoft Technology Licensing, Llc Artificial intelligence for intent-based networking

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11968088B1 (en) * 2023-06-07 2024-04-23 Microsoft Technology Licensing, Llc Artificial intelligence for intent-based networking

Similar Documents

Publication Publication Date Title
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN107516511B (zh) 意图识别和情绪的文本到语音学习系统
US20200294487A1 (en) Hands-free annotations of audio text
KR102449875B1 (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
US9026430B2 (en) Electronic device and natural language analysis method thereof
JPWO2011036769A1 (ja) 翻訳装置、及びプログラム
CN116430999A (zh) 一种语音助手实现指尖视觉交互技术的方法和系统
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JP6365520B2 (ja) 音声出力装置、音声出力方法、およびプログラム
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치
CN113066473A (zh) 一种语音合成方法、装置、存储介质及电子设备
US20210142784A1 (en) Speech synthesis system, method and non-transitory computer readable medium
Shakil et al. Cognitive Devanagari (Marathi) text-to-speech system
JP2020197957A (ja) 発想支援装置、発想支援システム及びプログラム
KR20200028158A (ko) 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
JP6790791B2 (ja) 音声対話装置および対話方法
JP7257010B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
WO2024111387A1 (ja) 処理装置、処理方法、及び記録媒体
JP7182997B2 (ja) 絵本表示システム
CN110942775B (zh) 数据处理方法、装置、电子设备及存储介质
US20240106776A1 (en) Sign Language Translation Method And System Thereof
CN106168945B (zh) 声音输出装置以及声音输出方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination