CN109032731A - 一种面向操作系统的基于语义理解的语音互动方法及系统 - Google Patents
一种面向操作系统的基于语义理解的语音互动方法及系统 Download PDFInfo
- Publication number
- CN109032731A CN109032731A CN201810746982.7A CN201810746982A CN109032731A CN 109032731 A CN109032731 A CN 109032731A CN 201810746982 A CN201810746982 A CN 201810746982A CN 109032731 A CN109032731 A CN 109032731A
- Authority
- CN
- China
- Prior art keywords
- software
- hardware
- outdoor scene
- user
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向操作系统的基于语义理解的语音互动方法及系统,该方法包括:获得用户实际运行环境,对用户操作设备产生的待解析的自然语言对话信息,通过基于实际运行环境的对话省略恢复获得一个或多个省略恢复结果,对这些结果进行语义解析,排序、用户目的分析的处理,根据排序得分选取其中一个或多个作为自然语言理解的结果,然后根据理解结果,给出便于用户操作设备的语音配合图形化的互动操作提示。利用本发明,在有效提高对用户使用设备的语音对话的理解的准确性和可靠性的同时,提高交互效果和交互效率。
Description
技术领域
本发明涉及一种关于各类计算机、移动终端和各类电器的面向操作系统的基于语义理解的语音互动方法及系统。
背景技术
操作系统是用户和计算机的接口,任何其他软件都必须在操作系统的支持下才能运行,而操作系统的用户界面是人与机器之间传递和交换信息的媒介,用户界面技术的每一次进步都减轻了使用者的认知负担,推动了操作系统技术的进步。
命令行界面操作系统的出现方便了人们对计算机的使用,而图形界面操作系统使用户在视觉上更易于接受,其“所见即所得”的操作方式也更人性化,为计算机、手机等系统的普及奠定了基础。
但图形界面操作系统和人与人之间的沟通质量相比仍然相距甚远,不能很好地帮助人们用好软件。例如:在自己熟悉的软件里,我们常常要问熟人才能学会使用某些功能,有些不错的功能和软件我们甚至都不知道,这影响了软件的使用效率和人们的使用意愿,有些人甚至放弃了使用,影响了软件的普及,这些问题正是操作系统用户界面技术需要解决的。
从操作系统用户界面的层面出发,以自然语言互动的形式建立系统级别的帮助系统可以有效地解决这一问题,即用户遇到与软件及其功能相关的问题,通过自然语言的形式提问,软件给出帮助,指导用户用好软件及其功能,对于超出用户当前使用软件的、而用户又需要的功能,操作系统可以提醒用户使用其它软件及功能,管理并调度相应软件并给出使用指导,彻底解决用户找不到可用软件和有软件不会用的问题。
用自然语言与计算机进行对话,这是人们长期以来所追求的,而语音识别和人机对话是其中的两个关键技术,随着语音技术的逐步成熟,人机对话技术就成为了迫切需要解决的关键问题。
人机对话跟人们之间的语音互动一样,根据环境的不同会有大量的省略,同一个词或同样的句子在不同的软件其使用含义也会存在一些差异,如:打开文件在处理纸质文件与软件使用中就有不同的含义,即使是软件使用中,如:word软件和excel软件的使用,“打开文件”所对应的文件类型也不相同,文件名也有可能不同。如何根据用户使用环境,处理好人机互动中的省略问题,准确理解用户意图,是自然语言互动操作系统中需要研究的重要课题。
在采用了语音作为互动的主要媒介后,操作系统会面临新的问题,如:用户针对多个聆听者说话时,系统必须有一个名字,以免对话时系统产生理解歧义;另外,图形界面的操作系统以文字作为提醒媒介,而图标的存在对文件存盘、关闭不用的应用软件、查杀病毒等操作也有提醒作用,大量语音人机对话的出现,会弱化文字与图标的提醒作用,语音互动操作系统在这些方面也应有所改进,以免造成用户不必要的损失。
人们在对话时,肢体语言也时常扮演重要的角色,以更接近于人类沟通方式的自然语言语音+图形+视频的互动方式将进一步地减轻人们的认知负担,提升操作系统用户界面的用户体验,提升软件的使用效率与使用质量。
发明内容
为解决现有技术中存在的上述缺陷,本发明的目的在于提供一种面向操作系统的基于语义理解的语音互动方法及系统,以提高人机对话交互效果和交互效率。
本发明是通过下述技术方案来实现的。
本发明的技术解决方案是:
一种面向操作系统的基于语义理解的语音互动方法,包括:
步骤1、建立人与操作设备互动的实景语义理解模型,包括:软硬件实景字典模型、软硬件实景对话省略恢复模型,软硬件实景语义解析模型、语义解析排序模型、用户目的分析模型和软件实景操作互动模型;
步骤2、启动基于语义理解的语音人机互动主进程,获得用户实际运行环境;
步骤3、根据分词系统的结果,结合获得的用户实际运行环境,基于软硬件实景字典模型、软硬件实景对话省略恢复模型,软硬件实景语义解析模型,对本轮交互内容在当前的软硬件实景下进行解析,获得一个或多个解析结果;
步骤4、基于语义解析排序模型,根据排序得分选择一个或多个语义解析结果作为理解结果;
步骤5、根据用户目的分析模型和语义解析结果分析对话的目的信息,包括但不限于对功能理解的需求,对执行功能的操作过程的帮助需求,对性能的了解;
步骤6、根据软件实景操作互动模型和用户需求进行操作,包括启动软件,给出解释,或提供操作过程的指导,执行缺省操作,管理对话过程。
进一步,步骤1具体为:
步骤1-1、建立软硬件实景字典模型,获取现有软件及文件,本机现有软件及文件,现有硬件及本机硬件,通过关键词的组合描述相应软硬件的静态与动态特征,包括但不限于功能、性能、软件存贮地址、软硬件及其功能的操作过程、运行状态,一个特征可以有多种表述形式;
步骤1-2、建立软硬件实景对话省略恢复模型,根据获得用户实际运行环境、对话过程及分词结果的组合特征,给出一个或多个省略恢复结果;
步骤1-3、建立软硬件实景语义解析模型,即针对用户当前实际运行环境、对话过程下的对话语义理解规则;
步骤1-4、建立语义解析排序模型,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,针对语义解析的结果进行排序,得到各语义解析结果的排序得分;
步骤1-5、用户目的分析模型,根据运行实景,软硬件实景字典模型和对话过程,基于语义解析结果,分析用户说话目的,包括但不限于软硬件功能、性能的了解和对操作过程的了解;
步骤1-6、基于软件实景操作互动模型,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并管理对话过程。
进一步,步骤1-1具体为:
步骤1-1-1软硬件实景字典模型包括静态特征与动态特征,包含了软硬件及其功能的关系,及软硬件的功能、性能和运行过程中的状态等的特征向量,及对应的特征重要度向量;
步骤1-1-2、软硬件实景字典模型中每个特征向量v都对应一个特征重要度向量b,分别描述了特征向量中每个词的权重;其中软件名、功能名、性能、文件夹名的权重为z1,其它词权重为z2,其关系为:
z1>z2;
进一步,步骤2具体为:
步骤2-1、通过软件主进程获取软件界面上控件获得焦点,软件各功能遍历关系,包括但不限于遍历时间及状态;
步骤2-2、获得不同软硬件的启动次序及相应时间和状态,统计用户使用软件、软件功能、文件的频繁程度及距离当前时间的具体时长;
步骤2-3、获得本机现有软件及存储位置,获取现有硬件配置。
进一步,步骤3具体为:
步骤3-1、调用分词系统,对当前输入文本进行分词,得到分词结果;
步骤3-2、基于获取的软硬件实景信息,将分词结果与软硬件实景字典进行匹配,得到一个或多个匹配结果;
步骤3-2-1、根据分词结果与软硬件实景字典特征进行匹配,对匹配程度进行排序,对于一个特征不同表述形式仅选择匹配程度最高的参与排序;
步骤3-2-1-1、对于实景shi对应的省略恢复分词结果Ti={x1,x2,…,xn}的词,如果与对应的特征向量的词相同,则设其权重为y1,如果是近义词,则设其权重为y2,如果是被包含词,则设其权重为y3,如果是其它情况,则设其权重为y4,则其关系为:
y1>y2>y3>y4;
步骤3-2-1-2、对于实景shi对应的省略恢复分词结果Ti,计算其实景字典中对应的特征向量B的各个分量的匹配程度ai={x11,x12,…,x1n},ai与特征向量B的特征重要度向量bi={x21,x22,…,x2n}的匹配程度ci,可以使用类似于夹角余弦的概念来衡量它们间的匹配程度;
即:
其中,θ为向量ai与bi的夹角,x1k,x2k分别为向量ai与bi第k个分量;
步骤3-2-2、选择匹配结果大于阈值的特征,得到一个或多个省略恢复结果;
步骤3-3、根据实际运行环境和对话上下文及匹配结果,针对对话中的可能省略,给出一个或多个省略恢复结果;
步骤3-3-1、上下文对话时间间隔小于某一阈值,根据上下文的内容进行省略恢复;
步骤3-3-2、上下文对话时间间隔大于某一阈值,根据获取的软硬件实景结果内容进行省略恢复;
步骤3-4、对省略恢复结果在当前软硬件实景下,进行语义解析,得到在不同实景下一个或多个语义解析结果。
进一步,步骤4具体为:
步骤4-1、结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同重要性,通过加权方式计算各语义解析结果的加权分数,并进行排序,得到各语义解析结果的排序得分;
步骤4-1-1、对于输入文本,经过分词系统,得到分词结果T,用户的软硬件实景用向量表示为Esh={sh1,sh2,……shm},各实景对应的权重向量Wi,其中当前实景焦点所对应的软件和硬件权重因子均为W1,启动的但不是实景焦点的软件权重因子均为W2,未启动的本机软件权重因子均为W3,非本机软件权重因子均为W4,其关系为:
W1>W2>W3>W4;
步骤4-1-2、针对某个实景shi,根据软硬件实景字典,补充对话省略内容,得到实景shi对应的省略恢复结果T'i={t1,t2,…ti…tn};
步骤4-1-3、计算实景shi对应的省略恢复结果T'i的单词与实景字典中相应的特征向量A各个分量的匹配程度xi,1≤i≤n;
步骤4-1-4、通过加权的方法计算输入的内容在实景shi下的语义解析结果得分Xi,1≤i≤m;
其中qi为向量A的特征重要度向量的第i个分量;
步骤4-2、按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果。
进一步,步骤5具体为:
步骤5-1、将语义解析结果对应的分词结果,与软硬件实景字典进行匹配,获得用户说话目的;
步骤5-2、在用户目的无法明确理解时,发起对话来进一步明确用户需求。
进一步,步骤6具体为:
步骤6-1、基于软件实景操作互动模型,创建当前实景下的互动生成器,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画及视频演示、文本文字,或其中若干部分或全部的组合;
步骤6-2、语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作。
进一步,所述自然语言信息为语音信息或文本信息;所述方法还包括:
在对所述自然语言语音信息进行语义解析之前,要通过语音识别系统将所述自然语言信息转换为文本信息。
本发明进而给出了一种面向操作系统的基于语义理解的语音互动系统,包括:
软硬件实景获取模块,用于获取用户软硬件系统信息,及实际运行相关信息,并对互动过程进行综合管理;
省略恢复模块,用于根据获得用户实际运行环境、对话过程及分词结果的组合特征,基于软硬件实景对话省略恢复模型,给出一个或多个省略恢复结果;
语义解析模块,用于对当前软硬件实景下,基于软硬件实景语义解析模型,给出对应各具体软硬件的多个语义解析结果;
排序模块,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,针对语义解析的结果进行排序,得到各语义解析结果的排序得分,按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果;
用户目的分析模块,用于根据运行实景,软硬件实景字典模型,对话过程及分词结果,用户目的分析模型,分析用户说话目的,包括但不限于软硬件功能、性能和操作过程;
软件实景操作互动生成模块,用于根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作;
语音识别系统,用于通过语音识别将所述自然语言语音信息转换为文本信息。
分词系统,用于将自然语言文本信息生成分词结果;
软硬件实景获取模块实时获取用户软硬件信息及实际运行信息、获取用户用自然语言的语音或文本输入的信息,经中文分词系统进行分词后,省略恢复模块根据分词结果、对话上下文、获得的实际运行环境的信息、基于软硬件实景对话省略恢复模型和软硬件实景字典模型进行省略恢复,获得一个或多个省略恢复结果;语义解析模块、排序模块和用户目的分析模块根据软硬件实景语义解析模型、语义解析排序模型和用户目的分析模型先后进行语义解析、排序和用户目分析处理,分选结果,基于理解结果软件实景操作生成模块根据软件实景互动生成模型,给出便于用户操作设备的语音配合图形化的互动操作提示。
所述自然语言信息为语音信息或文本信息。
本发明由于采取以上技术方案,其具有以下有益效果:
利用本发明,在有效提高对用户使用设备的语音对话的理解的准确性和可靠性的同时,提高交互效果和交互效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
图1是本发明实施例面向操作系统的基于语义理解的语音互动方法流程图;
图2是本发明实施例面向操作系统的基于语义理解的语音互动系统的结构示意图。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
如图1所示,是本发明实施例自然语言理解方法的一种流程图,包括以下步骤:
步骤1、建立人与操作设备互动的实景语义理解模型,包括:软硬件实景字典模型201、软硬件实景对话省略恢复模型202,软硬件实景语义解析模型203、语义解析排序模型204、用户目的分析模型205和软件实景操作互动模型206。具体为:
步骤1-1、建立软硬件实景字典模型201,获取现有软件及文件,本机现有软件及文件,现有硬件及本机硬件,通过关键词的组合描述相应软硬件的静态与动态特征,包括但不限于功能、性能、软件存贮地址、软硬件及其功能的操作过程、运行状态,一个特征可以有多种表述形式;
步骤1-1-1软硬件实景字典模型201包括静态特征与动态特征,包含了软硬件及其功能的关系,及软硬件的功能、性能和运行过程中的状态等的特征向量,给出对应的特征重要度向量;
步骤1-1-2、软硬件实景字典模型201中每个特征向量v都对应一个特征重要度向量b,分别描述了特征向量中每个词的权重。其中软硬件名、功能名、性能、文件夹名的权重为z1,其它词的权重为z2,其关系为:
z1>z2;
步骤1-2、建立软硬件实景对话省略恢复模型202,根据获得用户实际运行环境、对话过程及分词结果的组合特征,给出一个或多个省略恢复结果;
步骤1-3、建立软硬件实景语义解析模型203,即针对用户当前实际运行环境、对话过程下的对话语义理解规则;
步骤1-4、建立语义解析排序模型204,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,针对语义解析的结果进行排序,得到各语义解析结果的排序得分;
步骤1-5、用户目的分析模型205,根据运行实景,软硬件实景字典模型和对话过程,基于语义解析结果,分析用户说话目的,包括但不限于软硬件功能、性能的解释和了解操作过程;
步骤1-6、基于软件实景操作互动模型206,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并管理对话过程。
步骤2、启动基于语义理解的语音人机互动主进程,获得用户实际运行环境。具体为:
步骤2-1、通过软件主进程获取软件界面上控件获得焦点,软件各功能遍历关系,包括但不限于遍历时间及状态;
步骤2-2、获得不同软硬件的启动次序及相应时间和状态,统计用户使用软件、软件功能、文件的频繁程度及距离当前时间的具体时长;
根据用户使用软件、软件功能、文件的频繁程度的不同给予不同的权重,使用频繁程度高的权重大,使用过的软件和文件距离当前时间的长短也给予不同的权重,距离当前时间近的权重大。同时,也可以人工配置某些类型的重要程度,以反映实际应用的需求。
步骤2-3、获得本机现有软件及存储位置,获取现有硬件配置;
步骤3、根据分词系统的结果,结合获得的用户实际运行环境,基于软硬件实景字典模型201、软硬件实景对话省略恢复模型202,软硬件实景语义解析模型203,对本轮交互内容在当前的软硬件实景下进行解析,获得一个或多个解析结果。具体为:
步骤3-1、调用分词系统,对当前输入文本进行分词,得到分词结果;
步骤3-2、基于获取的软硬件实景信息,将分词结果与软硬件实景字典进行匹配,得到一个或多个匹配结果;
步骤3-2-1、根据分词结果与软硬件实景字典特征进行匹配结果,对匹配程度进行排序,对于一个特征不同表述形式仅选择匹配程度最高的参与排序;
步骤3-2-1-1、对于实景shi对应的省略恢复分词结果Ti={x1,x2,…,xn}的词,如果与对应的特征向量的词相同,则设其权重为y1,如果是近义词,则设其权重为y2,如果是被包含词,则设其权重为y3,如果是其它情况,则设其权重为y4,则其关系为:
y1>y2>y3>y4;
步骤3-2-1-2、对于实景shi对应的省略恢复分词结果Ti,计算其实景字典中对应的特征向量B的各个分量的匹配程度ai={x11,x12,…,x1n},ai与特征向量B的特征重要度向量bi={x21,x22,…,x2n}的匹配程度ci,可以使用类似于夹角余弦的概念来衡量它们间的匹配程度;
即:
其中,θ为向量ai与bi的夹角,x1k,x2k分别为向量ai与bi第k个分量;
步骤3-2-2、选择匹配结果大于阈值的特征,得到一个或多个省略恢复结果;
步骤3-3、根据实际运行环境和对话上下文及匹配结果,针对对话中的可能省略,给出一个或多个省略恢复结果;
步骤3-3-1、上下文对话时间间隔小于某一阈值,根据上下文的内容进行省略恢复;
步骤3-3-2、上下文对话时间间隔大于某一阈值,根据获取的软硬件实景结果内容进行省略恢复;
步骤3-4、对省略恢复结果在当前软硬件实景下,进行语义解析,得到在不同实景下一个或多个语义解析结果。
由于语义解析方式多种多样,具体实景和语义解析方式之间的对应关系可以事先设定好,例如以映射表的方式存在,也即,在某种特定的情况下可以采用事先选定的一种或多种语义解析方式。其中,语义解析方式可以采用例如基于句法语义分析、基于文法规则网络、敏感词匹配等任意解析方式中的一种或者多种,本发明实施例不做具体限定。
步骤4、基于语义解析排序模型204,根据排序得分选择一个或多个语义解析结果作为理解结果。具体为:
步骤4-1、结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同重要性,通过加权方式计算各语义解析结果的加权分数,并进行排序,得到各语义解析结果的排序得分;
步骤4-1-1、对于输入文本,经过分词系统,得到分词结果T,用户的软硬件实景用向量表示为Esh={sh1,sh2,……shm},各实景对应的权重向量Wi,其中当前实景焦点所对应的软件和硬件权重因子均为W1,启动的但不是实景焦点的软件权重因子均为W2,未启动的本机软件权重因子均为W3,非本机软件权重因子均为W4,其关系为:
W1>W2>W3>W4。
步骤4-1-2、针对某个实景shi,根据软硬件实景字典,补充对话省略内容,得到实景shi对应的省略恢复结果T'i={t1,t2,…ti…tn}。
步骤4-1-3、计算实景shi对应的省略恢复结果T'i的单词与实景字典中相应的特征向量A各个分量的匹配程度xi,1≤i≤n。
步骤4-1-4、通过加权的方法计算输入的内容在实景shi下的语义解析结果得分Xi,1≤i≤m。
其中qi为向量A的特征重要度向量的第i个分量;
步骤4-2、按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果。
步骤5、根据用户目的分析模型205和语义解析结果分析对话的目的信息,包括但不限于对功能理解的需求,对执行功能的操作过程的帮助需求,对性能的了解。具体为:
步骤5-1、将语义解析结果对应的分词结果,与软硬件实景字典进行匹配,获得用户说话目的;
步骤5-2、在用户目的无法明确理解时,发起对话来进一步明确用户需求。
步骤6、根据软件实景操作互动模型206和用户需求进行操作,包括启动软件,给出解释,或提供操作过程的指导,执行缺省操作,管理对话过程。具体为:
步骤6-1、基于软件实景操作互动模型206,创建当前实景下的互动生成器,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画及视频演示、文本文字,或其中若干部分或全部的组合;
步骤6-2、语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作。
优选地,自然语言信息为语音信息或文本信息;方法还包括:
在对所述自然语言语音信息进行语义解析之前,要通过语音识别系统将所述自然语言信息转换为文本信息。
正在运行的计算机打开的应用软件是办公软件word、excel、游戏软件挖地雷,当前焦点是word,正在输入文本文件。
系统获得操作系统版本及启动的其他底层软件及版本如防病毒和拼音等,获得word、excel、挖地雷版本等信息,及当前word焦点所对应的信息。
例如:语音输入的信息为“批注在哪?”,用第三方语音识别软件转换为文本信息后,得到“批注在哪?”进行分词,省略恢复后,得到“在word中,批注在哪?”“在excel中,批注在哪?”“在挖地雷中,批注在哪?”,通过和实景字典模型库匹配,标注是word中的功能,得到“在word中,批注在哪?”,“在excel中,批注在哪?”,word是焦点软件,excel是启动软件,word权重因子大于excel的,word排序结果高于excel。系统给出语音提示“word97版在功能按钮“审阅”中”,并在“审阅”上给出醒目的提示,如“闪烁”。
例如:在语音输入“批注在哪”,并获得系统回答后,紧接着的语音输入为“怎么用”,由于与前面的对话及回答的时间间隔小于阈值,用上下文对当前对话进行省略恢复,“在word和excel中,有“批注”的功能,省略恢复“在word中,批注怎么用”,“在excel中,批注怎么用?”,排序结果仍然是word高于excel。系统在给出语音步骤提示的同时,给出多种效果图及操作过程的可互动的动画演示。
在实际应用中,会出现用户表达的意图是模糊的,在此情况下就需通过对话引导用户给出准确的意图。
例如:仍是上述例子的运行环境,若用户不知道批注功能,在输入文本的过程中,用语音输入“我想在文章中加个说明,怎么弄”,经省略恢复及与实景字典模型库匹配后,得到“在word中,我想在文章中加个说明,怎么弄”,“在excel中,我想在文章中加个说明,怎么弄”,经语义解析与排序,选择“在word中,我想在文章中加个说明,怎么弄”,经与实景字典模型库匹配后,不能完全明确用户完整意图,发起对话,如:语音给出“您说的“在文章中加个说明”是想要哪种效果?同时给出批注的效果图和文章中其他说明方式的效果图,“说明”是“批注”近义词,在排序中,批注的排序依然高。
相应地,本发明实施例还提供一种面向操作系统的基于语义理解的语音互动系统,如图2所示,是本发明实施例自然语言理解系统的一种结构示意图。
该系统包括:
软硬件实景获取模块101,用于获取用户软硬件系统信息,及实际运行相关信息,并对互动过程进行综合管理;
省略恢复模块103,用于根据获得用户实际运行环境、对话过程及分词结果的组合特征,基于软硬件实景对话省略恢复模型202,通过对话上下文301给出一个或多个省略恢复结果;
语义解析模块104,用于对当前软硬件实景下,基于软硬件实景语义解析模型203,给出对应各具体软硬件的多个语义解析结果;
排序模块105,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,语义解析排序模块204针对语义解析的结果进行排序,得到各语义解析结果的排序得分,按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果;
用户目的分析模块106,用于根据运行实景,通过软硬件实景字典模型201对运行实景下的对话过程及分词结果进行解析;通过用户目的分析模型205分析用户说话目的,包括但不限于软硬件功能、性能和操作过程;
软件实景操作互动生成模块107,用于根据用户说话目的,结合对话上下文、软件实景操作互动生成模型206,综合生成对话互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作。
进一步地,面向操作系统的基于语义理解的语音互动系统随着操作系统启动后,软硬件实景获取模块101实时获取用户软硬件系统信息及实际运行相关信息,并实时获取用户用自然语言的语音或文本的输入,若为语音输入需将其转换为文本格式,然后中文分词系统102将自然语言输入的文本进行分词,接着省略恢复模块103根据分词结果、对话上下文301、获得的实际运行环境的信息、基于软硬件实景回话省略恢复模型202和软硬件实景字典模型201进行省略恢复,获得一个或多个省略恢复结果;进而语义解析模块104、排序模块105和用户目的分析模块106根据软硬件实景语义解析模型203、语义解析排序模型204和用户目的分析模型205先后对这些省略恢复结果进行语义解析、排序和用户目的分析的处理,根据排序得分选取其中一个或多个作为自然语言理解的结果,最后基于理解结果软件实景操作生成模块107根据软件实景互动生成模型206,给出便于用户操作设备的语音配合图形化的互动操作提示。
进一步地,自然语言信息为语音信息或文本信息;系统还包括:
语音识别系统,用于在所述软硬件实景语义解析模块104对所述自然语言信息进行语义解析之前,通过语音识别将所述自然语言信息转换为文本信息。
进一步地,系统还包括:分词系统102,用于生成分词结果。
本发明采用上述方法能够根据实际对话环境给出人机对话中的省略恢复内容以及根据对话准确理解用户对话目的,然后给出高质量帮助,从而彻底解决用户找不到可用软件和有软件不会用的问题。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。
Claims (10)
1.一种面向操作系统的基于语义理解的语音互动方法,其特征在于,包括:
步骤1、建立人与操作设备互动的实景语义理解模型,包括:软硬件实景字典模型、软硬件实景对话省略恢复模型,软硬件实景语义解析模型、语义解析排序模型、用户目的分析模型和软件实景操作互动模型;
步骤2、启动基于语义理解的语音人机互动主进程,获得用户实际运行环境;
步骤3、根据分词系统的结果,结合获得的用户实际运行环境,基于软硬件实景字典模型、软硬件实景对话省略恢复模型,软硬件实景语义解析模型,对本轮交互内容在当前的软硬件实景下进行解析,获得一个或多个解析结果;
步骤4、基于语义解析排序模型,根据排序得分选择一个或多个语义解析结果作为理解结果;
步骤5、根据用户目的分析模型和语义解析结果分析对话的目的信息,包括但不限于对功能理解的需求,对执行功能的操作过程的帮助需求,对性能的了解;
步骤6、根据软件实景操作互动模型和用户需求进行操作,包括启动软件,给出解释,或提供操作过程的指导,执行缺省操作,管理对话过程。
2.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤1具体为:
步骤1-1、建立软硬件实景字典模型,获取现有软件及文件,本机现有软件及文件,现有硬件及本机硬件,通过关键词的组合描述相应软硬件的静态与动态特征,包括但不限于功能、性能、软件存贮地址、软硬件及其功能的操作过程、运行状态,一个特征可以有多种表述形式;
步骤1-2、建立软硬件实景对话省略恢复模型,根据获得用户实际运行环境、对话过程及分词结果的组合特征,给出一个或多个省略恢复结果;
步骤1-3、建立软硬件实景语义解析模型,即针对用户当前实际运行环境、对话过程下的对话语义理解规则;
步骤1-4、建立语义解析排序模型,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,针对语义解析的结果进行排序,得到各语义解析结果的排序得分;
步骤1-5、用户目的分析模型,根据运行实景,软硬件实景字典模型和对话过程,基于语义解析结果,分析用户说话目的,包括但不限于对软硬件功能、性能的了解和对操作过程的了解;
步骤1-6、基于软件实景操作互动模型,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并管理对话过程。
3.根据权利要求2所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤1-1具体为:
步骤1-1-1、软硬件实景字典模型包括静态特征与动态特征,包含了软硬件及其功能的关系,及软硬件的功能、性能和运行过程中的状态等的特征向量,及对应的特征重要度向量;
步骤1-1-2、软硬件实景字典模型中每个特征向量v都对应一个特征重要度向量b,分别描述了特征向量中每个词的权重;其中软硬件名、功能名、性能、文件夹名的权重为z1,其它词权重为z2,其关系为:
z1>z2。
4.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤2具体为:
步骤2-1、通过软件主进程获取软件界面上控件,获得焦点,软件各功能遍历关系,包括但不限于遍历时间及状态;
步骤2-2、获得不同软硬件的启动次序及相应时间和状态,统计用户使用软件、软件功能、文件的频繁程度及距离当前时间的具体时长;
步骤2-3、获得本机现有软件及存储位置,获取现有硬件配置。
5.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤3具体为:
步骤3-1、调用分词系统,对当前输入文本进行分词,得到分词结果;
步骤3-2、基于获取的软硬件实景信息,将分词结果与软硬件实景字典进行匹配,得到一个或多个匹配结果;
步骤3-2-1、根据分词结果与软硬件实景字典特征进行匹配,对匹配程度进行排序,对于一个特征不同表述形式仅选择匹配程度最高的参与排序;
步骤3-2-1-1、对于实景shi对应的省略恢复分词结果Ti={x1,x2,…,xn}的词,如果与对应的特征向量的词相同,则设其权重为y1,如果是近义词,则设其权重为y2,如果是被包含词,则设其权重为y3,如果是其它情况,则设其权重为y4,则其关系为:
y1>y2>y3>y4;
步骤3-2-1-2、对于实景shi对应的省略恢复分词结果Ti,计算其与实景字典中对应的特征向量B的各个分量的匹配程度ai={x11,x12,…,x1n},ai与特征向量B的特征重要度向量bi={x21,x22,…,x2n}的匹配程度ci,可以使用类似于夹角余弦的概念来衡量它们间的匹配程度;
即:
其中,θ为向量ai与bi的夹角,x1k,x2k分别为向量ai与bi第k个分量;
步骤3-2-2、选择匹配结果大于阈值的特征,得到一个或多个省略恢复结果;
步骤3-3、根据实际运行环境和对话上下文及匹配结果,针对对话中的可能省略,给出一个或多个省略恢复结果;
步骤3-3-1、上下文对话时间间隔小于某一阈值,根据上下文的内容进行省略恢复;
步骤3-3-2、上下文对话时间间隔大于某一阈值,根据获取的软硬件实景结果内容进行省略恢复;
步骤3-4、对省略恢复结果在当前软硬件实景下,进行语义解析,得到在不同实景下一个或多个语义解析结果。
6.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤4具体为:
步骤4-1、结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同重要性,通过加权方式计算各语义解析结果的加权分数,并进行排序,得到各语义解析结果的排序得分;
步骤4-1-1、对于输入文本,经过分词系统,得到分词结果T,用户的软硬件实景用向量表示为Esh={sh1,sh2,……shm},各实景对应的权重向量Wi,其中当前实景焦点所对应的软件和硬件权重因子均为W1,启动的但不是实景焦点的软件权重因子均为W2,未启动的本机软件权重因子均为W3,非本机软件权重因子均为W4,其关系为:
W1>W2>W3>W4;
步骤4-1-2、针对某个实景shi,根据软硬件实景字典,补充对话省略内容,得到实景shi对应的省略恢复结果T'i={t1,t2,…ti…tn};
步骤4-1-3、计算实景shi对应的省略恢复结果T'i的单词与实景字典中相应的特征向量A各个分量的匹配程度xi,1≤i≤n;
步骤4-1-4、通过加权的方法计算输入的内容在实景shi下的语义解析结果得分Xi,1≤i≤m;
其中qi为向量A的特征重要度向量的第i个分量;
步骤4-2、按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果。
7.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤5具体为:
步骤5-1、将语义解析结果对应的分词结果,与软硬件实景字典进行匹配,获得用户说话目的;
步骤5-2、在用户目的无法明确理解时,发起对话来进一步明确用户需求。
8.根据权利要求1所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,步骤6具体为:
步骤6-1、基于软件实景操作互动模型,创建当前实景下的互动生成器,根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画及视频演示、文本文字,或其中若干部分或全部的组合;
步骤6-2、语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作。
9.根据权利要求1-8任一项所述的面向操作系统的基于语义理解的语音互动方法,其特征在于,所述自然语言信息为语音信息或文本信息;所述方法还包括:
在对所述自然语言语音信息进行语义解析之前,要通过语音识别系统将所述自然语言信息转换为文本信息。
10.一种面向操作系统的基于语义理解的语音互动系统,其特征在于,包括:
软硬件实景获取模块,用于获取用户软硬件系统信息,及实际运行相关信息,并对互动过程进行综合管理;
省略恢复模块,用于根据获得用户实际运行环境、对话过程及分词结果的组合特征,基于软硬件实景对话省略恢复模型,给出一个或多个省略恢复结果;
语义解析模块,用于对当前软硬件实景下,基于软硬件实景语义解析模型,给出对应各具体软硬件的多个语义解析结果;
排序模块,结合软件界面当前焦点,正在运行的应用软件及硬件、系统软件、本机未运行的软件及对话过程与当前对话的不同相关度,针对语义解析的结果进行排序,得到各语义解析结果的排序得分,按照排序得分从高到低选择排序得分大于预设阈值的语义解析结果作为对话理解的结果;
用户目的分析模块,用于根据运行实景,软硬件实景字典模型,对话过程及分词结果,用户目的分析模型,分析用户说话目的,包括但不限于软硬件功能、性能和操作过程;
软件实景操作互动生成模块,用于根据用户说话目的,结合对话上下文综合生成互动结果,包括但不限于语音、图片、动画、视频,文本文字,或其中若干部分或全部的组合,并语音提醒用户给对话装置起名字,定时提醒用户注意保存文件、关闭不用的软件、更新软件、查杀病毒等容易忘记的操作;
语音识别系统,用于通过语音识别将所述自然语言语音信息转换为文本信息;
分词系统,用于将自然语言文本信息生成分词结果;
软硬件实景获取模块实时获取用户软硬件信息及实际运行信息、获取用户用自然语言的语音或文本输入的信息,经中文分词系统进行分词后,省略恢复模块根据分词结果、对话上下文、获得的实际运行环境的信息、基于软硬件实景对话省略恢复模型和软硬件实景字典模型进行省略恢复,获得一个或多个省略恢复结果;语义解析模块、排序模块和用户目的分析模块根据软硬件实景语义解析模型、语义解析排序模型和用户目的分析模型先后进行语义解析、排序和用户目分析处理,分选结果,基于理解结果软件实景操作生成模块根据软件实景互动生成模型,给出便于用户操作设备的语音配合图形化的互动操作提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810746982.7A CN109032731B (zh) | 2018-07-09 | 2018-07-09 | 一种面向操作系统的基于语义理解的语音互动方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810746982.7A CN109032731B (zh) | 2018-07-09 | 2018-07-09 | 一种面向操作系统的基于语义理解的语音互动方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109032731A true CN109032731A (zh) | 2018-12-18 |
CN109032731B CN109032731B (zh) | 2020-04-21 |
Family
ID=64641504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810746982.7A Active CN109032731B (zh) | 2018-07-09 | 2018-07-09 | 一种面向操作系统的基于语义理解的语音互动方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109032731B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110364152A (zh) * | 2019-07-25 | 2019-10-22 | 深圳智慧林网络科技有限公司 | 语音交互方法、设备及计算机可读存储介质 |
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
CN111158648A (zh) * | 2019-12-18 | 2020-05-15 | 西安电子科技大学 | 一种基于实景语义理解的互动帮助系统开发方法及其平台 |
CN111240787A (zh) * | 2020-01-10 | 2020-06-05 | 西安电子科技大学 | 一种基于实景语义理解的互动帮助方法及其系统 |
CN111513584A (zh) * | 2020-05-07 | 2020-08-11 | 珠海格力电器股份有限公司 | 基于语音交互的菜单显示方法、装置和烹饪设备 |
CN113127105A (zh) * | 2021-03-18 | 2021-07-16 | 福建马恒达信息科技有限公司 | 一种excel自动语音工具调用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104360994A (zh) * | 2014-12-04 | 2015-02-18 | 科大讯飞股份有限公司 | 自然语言理解方法及系统 |
US20150066485A1 (en) * | 2013-08-27 | 2015-03-05 | Nuance Communications, Inc. | Method and System for Dictionary Noise Removal |
US20150262078A1 (en) * | 2014-03-13 | 2015-09-17 | Microsoft Corporation | Weighting dictionary entities for language understanding models |
CN106528522A (zh) * | 2016-08-26 | 2017-03-22 | 南京威卡尔软件有限公司 | 场景化的语义理解与对话生成方法及系统 |
-
2018
- 2018-07-09 CN CN201810746982.7A patent/CN109032731B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066485A1 (en) * | 2013-08-27 | 2015-03-05 | Nuance Communications, Inc. | Method and System for Dictionary Noise Removal |
US20150262078A1 (en) * | 2014-03-13 | 2015-09-17 | Microsoft Corporation | Weighting dictionary entities for language understanding models |
CN104360994A (zh) * | 2014-12-04 | 2015-02-18 | 科大讯飞股份有限公司 | 自然语言理解方法及系统 |
CN106528522A (zh) * | 2016-08-26 | 2017-03-22 | 南京威卡尔软件有限公司 | 场景化的语义理解与对话生成方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427605A (zh) * | 2019-05-09 | 2019-11-08 | 苏州大学 | 面向短文本理解的省略恢复方法 |
CN110364152A (zh) * | 2019-07-25 | 2019-10-22 | 深圳智慧林网络科技有限公司 | 语音交互方法、设备及计算机可读存储介质 |
CN110364152B (zh) * | 2019-07-25 | 2022-04-01 | 深圳智慧林网络科技有限公司 | 语音交互方法、设备及计算机可读存储介质 |
CN111158648A (zh) * | 2019-12-18 | 2020-05-15 | 西安电子科技大学 | 一种基于实景语义理解的互动帮助系统开发方法及其平台 |
CN111158648B (zh) * | 2019-12-18 | 2023-04-07 | 西安电子科技大学 | 一种基于实景语义理解的互动帮助系统开发方法及其平台 |
CN111240787A (zh) * | 2020-01-10 | 2020-06-05 | 西安电子科技大学 | 一种基于实景语义理解的互动帮助方法及其系统 |
CN111513584A (zh) * | 2020-05-07 | 2020-08-11 | 珠海格力电器股份有限公司 | 基于语音交互的菜单显示方法、装置和烹饪设备 |
CN111513584B (zh) * | 2020-05-07 | 2021-04-23 | 珠海格力电器股份有限公司 | 基于语音交互的菜单显示方法、装置和烹饪设备 |
CN113127105A (zh) * | 2021-03-18 | 2021-07-16 | 福建马恒达信息科技有限公司 | 一种excel自动语音工具调用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109032731B (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109032731A (zh) | 一种面向操作系统的基于语义理解的语音互动方法及系统 | |
EP3859735A2 (en) | Voice conversion method, voice conversion apparatus, electronic device, and storage medium | |
CA2929018C (en) | Natural expression processing method, processing and response method, device and system | |
CN104461525B (zh) | 一种可自定义的智能咨询平台生成系统 | |
CN106570106A (zh) | 一种输入过程中将语音信息转化为表情的方法和装置 | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
JP2017534941A (ja) | オーファン発話検出システム及び方法 | |
CN103956169A (zh) | 一种语音输入方法、装置和系统 | |
CN107040452B (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN110046227A (zh) | 对话系统的配置方法、交互方法、装置、设备和存储介质 | |
CN103186523B (zh) | 电子设备及其自然语言分析方法 | |
CN110399470A (zh) | 会话消息处理 | |
WO2010124512A1 (zh) | 人机交互系统及其相关系统、设备和方法 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
WO2024011813A1 (zh) | 一种文本扩展方法、装置、设备及介质 | |
EP3869505A2 (en) | Method, apparatus, system, electronic device for processing information and storage medium | |
CN108304424A (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN110287364A (zh) | 语音搜索方法、系统、设备及计算机可读存储介质 | |
CN116797695A (zh) | 一种数字人与虚拟白板的交互方法、系统及存储介质 | |
Kumari et al. | Enhancing college chat bot assistant with the help of richer human computer interaction and speech recognition | |
CN103020311B (zh) | 一种用户检索词的处理方法及系统 | |
Noura et al. | Natural language goal understanding for smart home environments | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN114970733A (zh) | 语料生成方法及装置、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |