CN115438168B - 适用于虚拟机器人的自然语言数据处理方法及系统 - Google Patents
适用于虚拟机器人的自然语言数据处理方法及系统 Download PDFInfo
- Publication number
- CN115438168B CN115438168B CN202211387971.7A CN202211387971A CN115438168B CN 115438168 B CN115438168 B CN 115438168B CN 202211387971 A CN202211387971 A CN 202211387971A CN 115438168 B CN115438168 B CN 115438168B
- Authority
- CN
- China
- Prior art keywords
- preset
- instruction
- text sequence
- processing
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种适用于虚拟机器人的自然语言数据处理方法及系统。该方法通过终端设备获取自闭症患者的指令语句,并通过专注力头环获取自闭症患者的专注度值,然后,专注力头环根据专注度值以及预设专注度区间范围确定处理指令,并将处理指令发送至终端设备,以指示终端设备根据处理指令确定对应的目标自然语言处理模型,终端设备根据目标自然语言处理模型对指令语句进行处理,并根据处理结果以及专注度值确定回复语句,最后,终端设备根据回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放回复语句,从而以满足自闭症患者不同专注度状态下的交互需求。
Description
技术领域
本申请涉及数据处理技术,尤其涉及一种适用于虚拟机器人的自然语言数据处理方法及系统。
背景技术
随着数字技术的快速发展,社会上的各行各业为了提高服务效率与便捷度,都会在特定的场所中设置交互设备,并在交互设备中配置虚拟机器人,以满足用户的实际需求。
目前,对于虚拟机器人的实现,大多的基于自然语言以及神经网络相关技术。其主要的技术手段是基于自然语言处理以及神经网络学习的方式,对用户所输入的指令语句进行响应式问答。
但是,目前常见的虚拟机器人大多是针对正常人设置的,而对于语言方面存在特殊性以及不稳定性的自闭症患者群体,现有的虚拟机器人并无法很好地满足交互需求。
发明内容
本申请提供一种,用以满足语言习惯存在特殊性以及不稳定性的自闭症患者群体的交互需求。
第一方面,本申请提供一种适用于虚拟机器人的自然语言数据处理方法,其特征在于,应用于虚拟机器人交互系统,所述系统包括:终端设备以及与所述终端设备通信连接的专注力头环,所述终端设备中配置有不同形象类型的虚拟机器人;所述方法,包括:
通过所述终端设备获取自闭症患者的指令语句,并通过所述专注力头环获取所述自闭症患者的专注度值;
所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令,并将所述处理指令发送至所述终端设备,以指示所述终端设备根据所述处理指令确定对应的目标自然语言处理模型;
所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理,并根据处理结果以及所述专注度值确定回复语句;
所述终端设备根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述回复语句。
可选的,在所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理之前,还包括:
对所述指令语句进行分词处理,并根据分词结果构建所述指令语句对应的文本序列;
根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率;
若所述概率大于预设阈值,则确定所述指令语句为正常指令。
可选的,所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令,包括:
若所述专注度值处于预设第一专注度区间,则所述处理指令为第一处理指令,所述第一处理指令用于指示所述终端设备选择第一自然语言处理模型;
若所述专注度值处于预设第二专注度区间,则所述处理指令为第二处理指令,所述第二处理指令用于指示所述终端设备选择第二自然语言处理模型;
其中,所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值;在所述第一自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的M个分词相互关联;在所述第二自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M。
可选的,在所述第一自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
在所述第二自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
其中,所述文本序列为,/>为所述文本序列中的第n个分词,为/>序列在预设语料库中出现的次数,/>为/>序列在预设语料库中出现的次数;所述预设语料库为在基础语料库的基础上结合自闭症患者常用语言所建立的语料库。
可选的,所述根据处理结果以及所述专注度值确定回复语句,包括:
根据所述处理结果以及预设问答模型确定初始回复语句,其中,所述预设问答模型基于Seq2seq模型建立;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数大于预设字数,则对所述初始回复语句进行精简处理,以生成所述回复语句,所述回复语句的字数小于所述预设字数;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数小于或等于预设字数,则所述回复语句为所述初始回复语句;
若所述专注度值处于所述预设第二专注度区间,则所述回复语句为所述初始回复语句。
可选的,所述对所述初始回复语句进行精简处理,以生成所述回复语句,包括:
根据预设停用词表过滤所述初始回复语句中的停用词,以生成中间回复语句;
对所述中间回复语句进行分词处理,以确定所述中间回复语句所对应的第一文本序列;
根据预设词性指定规则保留所述第一文本序列中指定词性的词语,以形成第二文本序列;
将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列;
根据所述第三文本序列生成所述回复语句。
可选的,所述的适用于虚拟机器人的自然语言数据处理方法,还包括:
通过所述终端设备获取沟通人员的沟通语句;
若所述专注度值处于所述预设第一专注度区间,则根据预设停用词表过滤所述沟通语句中的停用词,以生成中间沟通语句;
对所述中间沟通语句进行分词处理,以确定所述中间沟通语句所对应的第四文本序列;
根据预设词性指定规则保留所述第四文本序列中指定词性的词语,以形成第五文本序列;
将所述第五文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第六文本序列;
根据所述第六文本序列生成沟通处理语句;
所述终端设备根据所述沟通处理语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述沟通处理语句。
第二方面,本申请提供一种适用于虚拟机器人的自然语言数据处理系统,包括:终端设备以及与所述终端设备通信连接的专注力头环,所述终端设备中配置有不同形象类型的虚拟机器人;
所述终端设备,用于获取自闭症患者的指令语句;
所述专注力头环,用于获取所述自闭症患者的专注度值;
所述专注力头环,还用于根据所述专注度值以及预设专注度区间范围确定处理指令,并将所述处理指令发送至所述终端设备,以指示所述终端设备根据所述处理指令确定对应的目标自然语言处理模型;
所述终端设备,还用于根据所述目标自然语言处理模型对所述指令语句进行处理,并根据处理结果以及所述专注度值确定回复语句;
所述终端设备,还用于根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述回复语句。
可选的,所述终端设备,还具体用于:
对所述指令语句进行分词处理,并根据分词结果构建所述指令语句对应的文本序列;
根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率;
若所述概率大于预设阈值,则确定所述指令语句为正常指令。
可选的,所述专注力头环,还具体用于:
若所述专注度值处于预设第一专注度区间,则所述处理指令为第一处理指令,所述第一处理指令用于指示所述终端设备选择第一自然语言处理模型;
若所述专注度值处于预设第二专注度区间,则所述处理指令为第二处理指令,所述第二处理指令用于指示所述终端设备选择第二自然语言处理模型;
其中,所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值;在所述第一自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的M个分词相互关联;在所述第二自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M。
可选的,在所述第一自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
在所述第二自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
其中,所述文本序列为,/>为所述文本序列中的第n个分词,为/>序列在预设语料库中出现的次数,为/>序列在预设语料库中出现的次数;所述预设语料库为在基础语料库的基础上结合自闭症患者常用语言所建立的语料库。
可选的,所述终端设备,还具体用于:
根据所述处理结果以及预设问答模型确定初始回复语句,其中,所述预设问答模型基于Seq2seq模型建立;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数大于预设字数,则对所述初始回复语句进行精简处理,以生成所述回复语句,所述回复语句的字数小于所述预设字数;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数小于或等于预设字数,则所述回复语句为所述初始回复语句;
若所述专注度值处于所述预设第二专注度区间,则所述回复语句为所述初始回复语句。
可选的,所述终端设备,还具体用于:
根据预设停用词表过滤所述初始回复语句中的停用词,以生成中间回复语句;
对所述中间回复语句进行分词处理,以确定所述中间回复语句所对应的第一文本序列;
根据预设词性指定规则保留所述第一文本序列中指定词性的词语,以形成第二文本序列;
将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列;
根据所述第三文本序列生成所述回复语句。
可选的,所述终端设备,还具体用于:
获取沟通人员的沟通语句;
若所述专注度值处于所述预设第一专注度区间,则根据预设停用词表过滤所述沟通语句中的停用词,以生成中间沟通语句;
对所述中间沟通语句进行分词处理,以确定所述中间沟通语句所对应的第四文本序列;
根据预设词性指定规则保留所述第四文本序列中指定词性的词语,以形成第五文本序列;
将所述第五文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第六文本序列;
根据所述第六文本序列生成沟通处理语句;
所述终端设备根据所述沟通处理语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述沟通处理语句。
第三方面,本申请提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中所述的任一种可能的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面中所述的任一种可能的方法。
本申请提供的,通过终端设备获取自闭症患者的指令语句,并通过专注力头环获取自闭症患者的专注度值,然后,专注力头环根据专注度值以及预设专注度区间范围确定处理指令,并将处理指令发送至终端设备,以指示终端设备根据处理指令确定对应的目标自然语言处理模型,从而建立自闭症患者专注力高低与用于对指令语句进行处理的自然语言处理模型之间的关系,然后,终端设备根据目标自然语言处理模型对指令语句进行处理,并根据处理结果以及专注度值确定回复语句,最后,终端设备根据回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放回复语句,从而实现不同专注度对应不同的自然语言处理模型,以满足自闭症患者不同专注度状态下的交互需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理方法的流程示意图;
图2是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理方法中步骤160的流程示意图;
图3是本申请根据一示例实施例示出的精简处理步骤的流程示意图;
图4是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理系统的结构示意图;
图5是本申请根据一示例实施例示出的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着数字技术的快速发展,社会上的各行各业为了提高服务效率与便捷度,都会在特定的场所中设置交互设备,并在交互设备中配置虚拟机器人,以满足用户的实际需求。目前,对于虚拟机器人的实现,大多的基于自然语言以及神经网络相关技术。其主要的技术手段是基于自然语言处理以及神经网络学习的方式,对用户所输入的指令语句进行响应式问答。但是,目前常见的虚拟机器人大多是针对正常人设置的,所使用的自然语言模型以及神经网络都是基于正常人的语言习惯建立地,这一类虚拟机器人在和正常人进行语言沟通时,能够较好的进行有效问答。
但是,而对于语言方面存在特殊性以及不稳定性的自闭症患者群体,现有的虚拟机器人并无法很好地满足交互需求。例如,在实际精神病医院的自闭症治疗中心,采用现有的虚拟机器人与自闭症患者进行沟通时,由于其语言习惯的特殊性,经常会给出无效的答复或者是认为自闭症患者所表达的指令是个非正常的指令。其根本原因在于,自闭症患者的语言表达的有效性与其专注力具有强关联性。即自闭症患者在专注力较高的情况下,其所表达的指令语句完整度较高,且与正常人所表达的语言习惯更为接近。而在自闭症患者在专注力较低的情况下,其所表达的指令语句往往只是单个词语或者字的简单堆叠,与正常人所表达的语言习惯区别较大,此时利用基于正常人语言习惯所建立的自然语言模型进行处理时,会有较大的概率将其认定为非正常指令,虚拟机器人在这种情况下往往会让用户重新输入指令或者提示用户所输入的指令无法识别,而在自闭症患者的沟通场景下,反复出现这种情况,容易导致自闭症患者情绪发生较大的波动。
此外,近些年在自闭症治疗领域,通过基于非侵入式脑机接口技术的脑电头环来对自闭症患者进行脑控疗育的方式已经开始普及。其中,中国康复研究中心国家孤独症研究中心所开展的全国第一项针对孤独症儿童的可穿戴脑机接口临床研究实验中,也显示了,被干预的孩子在模仿社交互动,社交沟通,言语表达和问题行为方面,均得到了显著改善,初步达到了该项目的实验预期,后续脑电头环将会在自闭症治疗领域进行推广。因此,在针对这一特殊群体所开发的虚拟机器人交互系统的设计开发中,通过脑电头环所监测到的专注度值来作为后续自然语言处理模型的选择条件,既可以是基于该群体原有的产品使用习惯,还可以更加匹配该群体在不同状态下的语言表达不稳定性。
图1是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理方法的流程示意图。如图1所示,本实施例提供的方法,包括:
步骤110、通过终端设备获取自闭症患者的指令语句。
步骤120、专注力头环获取自闭症患者的专注度值。
在本实施例提供的适用于虚拟机器人的自然语言数据处理方法中,可以是应用于虚拟机器人交互系统,该系统可以包括:终端设备以及与终端设备通信连接的专注力头环,终端设备中配置有不同形象类型的虚拟机器人。其中,虚拟机器人交互系统的展示形式可以是应用在精神病医院自闭症治疗中心的导诊系统问答平台中的虚拟机器人,也可以是针对自闭症患者定制的智能家居系统中的虚拟机器人,还可以是导航系统、购物平台的自闭症患者模式下的虚拟机器人。值得说明的,在本实施例中,并不对所提供的适用于虚拟机器人的自然语言数据处理方法的具体应用仅仅在上述所举例的应用领域进行限定。
在步骤110-步骤120中,在自闭症患者触发该虚拟机器人交互系统时,可以是通过终端设备获取自闭症患者的指令语句,同时还可以通过专注力头环获取自闭症患者的专注度值。
其中,值得说明的,由于自闭症患者语言表达往往声音较小并且发音较为模糊,因此,上述终端设备的麦克风可以采用灵敏度较高的模组,并且,在利用麦克风收音之后,还可以进行降噪等处理,从而提取出有效的指令语句。
而对于上述的专注力头环,可以是将其与终端设备一同设置在所应用的场所中,也可以是自闭症患者通过将自己常用的头环与终端设备进行连接,具体的,可以是通过蓝牙、wifi等方式进行连接。此外,考虑到该群体的特殊性,还可以进一步将连接步骤进行简化,可以是通过将头环与终端设备的指定区域进行碰一碰后,建立快速连接,具体的,也是基于NFC短距通信协议,向头环和终端设备开放多设备触碰交互能力,将头环和终端设备连接起来,从而为自闭症患者提供操作极其便便捷的高效体验。
步骤130、专注力头环根据专注度值以及预设专注度区间范围确定处理指令。
步骤140、将处理指令发送至终端设备。
步骤150、终端设备根据处理指令确定对应的目标自然语言处理模型。
自闭症患者的语言表达的有效性与其专注力具有强关联性。即自闭症患者在专注力较高的情况下,其所表达的指令语句完整度较高,且与正常人所表达的语言习惯更为接近。而在自闭症患者在专注力较低的情况下,其所表达的指令语句往往只是单个词语或者字的简单堆叠,与正常人所表达的语言习惯区别较大,此时利用基于正常人语言习惯所建立的自然语言模型进行处理时,会有较大的概率将其认定为非正常指令,虚拟机器人在这种情况下往往会让用户重新输入指令或者提示用户所输入的指令无法识别。可见,现有虚拟机器人所基于的固定的自然语言处理模型,很难满足自闭症患者的实际交互需求,但是,完全重新建立特属于自闭症患者的自然语言处理模型又需要大量的理论研究,无法快速进行工程应用以及产品化。
因此,为了满足自闭症患者的实际需求,在步骤130-步骤150中可以将通过专注力头环监测到的专注度值作为选择对应自然语言处理模型的条件。具体的,可以是专注力头环根据专注度值以及预设专注度区间范围确定处理指令,并将处理指令发送至终端设备,以指示终端设备根据处理指令确定对应的目标自然语言处理模型。
可选的,若专注度值处于预设第一专注度区间,则处理指令为第一处理指令,其中,第一处理指令用于指示终端设备选择第一自然语言处理模型。若专注度值处于预设第二专注度区间,则处理指令为第二处理指令,第二处理指令用于指示终端设备选择第二自然语言处理模型。其中,预设第二专注度区间的最小值为预设第一专注度区间的最大值,即当专注度值处于预设第一专注度区间时,表征自闭症患者此时的专注力较低,而当专注度值处于预设第二专注度区间时,表征自闭症患者此时的专注力较高。
对应的,在第一自然语言处理模型中,计算指令语句对应的文本序列出现的概率时,文本序列中的M个分词相互关联;在第二自然语言处理模型中,计算指令语句对应的文本序列出现的概率时,文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M。可见,在当自闭症患者的专注力值较低时,此时其表达的语言偏向于字或词的简单堆叠,且通常非常简短的语句,可以采取各个分词关联度较低的第一自然语言处理模型,从而避免发生误判,导致需要自闭症患者反复进行输入。但是,分词关联度较低的第一自然语言处理模型对于指令语句的语义识别往往时较为薄弱的,因此,当自闭症患者的专注力值较高时,其语言会更加接近于正常人的语言风格,因此,可以采取各个分词关联度较高的第二自然语言处理模型,从而保证处理的准确性。
可选的,在第一自然语言处理模型中,指令语句对应的文本序列出现的概率的计算公式为:
在第二自然语言处理模型中,指令语句对应的文本序列出现的概率的计算公式为:
步骤160、终端设备根据目标自然语言处理模型对指令语句进行处理,并根据处理结果以及专注度值确定回复语句。
在确定对应的目标自然语言处理模型之后,终端设备根据目标自然语言处理模型对指令语句进行处理,并根据处理结果以及专注度值确定回复语句。
可选的,在进行处理之前,可以对指令语句进行分词处理,并根据分词结果构建指令语句对应的文本序列,根据自然语言处理模型计算指令语句对应的文本序列出现的概率,若概率大于预设阈值,则确定指令语句为正常指令,而对于概率小于预设阈值的,当前的模型无法进行有效的处理,为了避免对自闭症患者进行错误的信息反馈,在这种情况下,可以直接给自闭症患者一个前往人工服务点的回复语句指示,从而避免让自闭症反复进行指令输入而导致其情绪发生较大波动。
其中,根据处理结果以及专注度值确定回复语句可以是基于现有的神经网络模型,例如,可以是基于Seq2seq模型建立的预设问答模型。
在一种可能的设计中,图2是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理方法中步骤160的流程示意图。如图2所示,本实施例中所示的步骤160,可以包括:
步骤161、根据处理结果以及预设问答模型确定初始回复语句。
步骤162、若专注度值处于预设第一专注度区间,且初始回复语句的字数大于预设字数,则对初始回复语句进行精简处理,以生成回复语句。
步骤163、若专注度值处于预设第一专注度区间,且初始回复语句的字数小于或等于预设字数,则回复语句为初始回复语句。
步骤164、若专注度值处于预设第二专注度区间,则回复语句为初始回复语句。
值得说明的,自闭症患者对于外部语言的吸收与理解,同样与其专注力具有强关联性。即在自闭症患者在专注力较高的情况下,其对外部语言的吸收与理解能力较高,而在自闭症患者在专注力较低的情况下,其对外部语言的吸收与理解能力较低。因此,当自闭症患者在专注力较高的情况下时,可以通过内容完整的初始回复语句作为回复语句进行回复;而当自闭症患者在专注力较低的情况下时,过长的回复语句将导致回复效果变差,因此,在当初始回复语句的字数大于预设字数,对初始回复语句进行精简处理,以生成回复语句,而当初始回复语句的字数小于或等于预设字数,则回复语句为初始回复语句。通过步骤161-步骤164中,可以实现基于Seq2seq模型建立的预设问答模型实现有效的问答,同时通过结合当前自闭症患者的专注度来确定是否对问答结果进行精简,从而满足自闭症患者各个不同专注度状态下的回复。
而对于上述的精简处理,图3是本申请根据一示例实施例示出的精简处理步骤的流程示意图。如图3所示,上述的精简步骤,包括:
步骤210、根据预设停用词表过滤初始回复语句中的停用词,以生成中间回复语句。
步骤220、对中间回复语句进行分词处理,以确定中间回复语句所对应的第一文本序列。
步骤230、根据预设词性指定规则保留第一文本序列中指定词性的词语,以形成第二文本序列。
步骤240、将第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过为PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列。
步骤170、终端设备根据回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放回复语句。
在确定回复语句之后,终端设备还可以根据回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放回复语句。值得说明的,由于自闭症患者对于图形以及动画的感知与理解能力较强。可以通过与回复语句内容信息相对应的标虚拟机器人来进行语句回复,从而提高自闭症患者对于回复语句的信息提取效率与完整性。例如,可以通过各类小动物的形象来进行回复,在一种可能的场景中,当回复语句为洗手间位置时,可以是展示一只表现为尿急的小狗动画,进行回复语句的展示,进一步的,在展示该回复语句时,还可以增加声音较轻的背景音乐。可见,通过不同形象类型的目标虚拟机器人进行对应回复语句的展示,可以给自闭症患者较好的神经反馈体验,既能够提高其接受信息的效率,同时也能锻炼其沟通交流能力。
在本实施例中,通过终端设备获取自闭症患者的指令语句,并通过专注力头环获取自闭症患者的专注度值,然后,专注力头环根据专注度值以及预设专注度区间范围确定处理指令,并将处理指令发送至终端设备,以指示终端设备根据处理指令确定对应的目标自然语言处理模型,从而建立自闭症患者专注力高低与用于对指令语句进行处理的自然语言处理模型之间的关系,然后,终端设备根据目标自然语言处理模型对指令语句进行处理,并根据处理结果以及专注度值确定回复语句,最后,终端设备根据回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放回复语句,从而实现不同专注度对应不同的自然语言处理模型,以满足自闭症患者不同专注度状态下的交互需求。
在上述实施例的基础上,为了降低正常人员与自闭症患者之间的沟通障碍,可以通过该系统进行辅助沟通。具体的,可以是应用在自闭症患者家庭沟通场景种,由于正常人基于自己的理解以及语言习惯,会习惯性地在表达的语句中增加一些形容词或者时 停用词,此类词语对于处于专注度较低状态下的自闭症患者,将会造成额外的理解负担。因此,为了对与自闭症患者进行沟通的沟通人员所表达的语句进行有针对性地精简处理,可以是先通过终端设备获取沟通人员的沟通语句,然后,再根据当前自闭症患者的专注度状态确定是否进行精简。具体的,可以是若专注度值处于预设第一专注度区间,则根据预设停用词表过滤沟通语句中的停用词,以生成中间沟通语句;对中间沟通语句进行分词处理,以确定中间沟通语句所对应的第四文本序列;根据预设词性指定规则保留第四文本序列中指定词性的词语,以形成第五文本序列;将第五文本序列中的各个词语设置为PageRank算法中的一个节点,并通过PageRank算法计算得到的重要性最高的若干词语,以形成第六文本序列;根据第六文本序列生成沟通处理语句;最后,终端设备根据沟通处理语句的内容信息确定对应形象类型的目标虚拟机器人,并通过目标虚拟机器人播放沟通处理语句。
图4是本申请根据一示例实施例示出的适用于虚拟机器人的自然语言数据处理系统的结构示意图。如图4所示,本实施例提供的适用于虚拟机器人的自然语言数据处理系统,包括:
终端设备310以及与所述终端设备310通信连接的专注力头环320,所述终端设备310中配置有不同形象类型的虚拟机器人;
所述终端设备310,用于获取自闭症患者的指令语句;
所述专注力头环320,用于获取所述自闭症患者的专注度值;
所述专注力头环320,还用于根据所述专注度值以及预设专注度区间范围确定处理指令,并将所述处理指令发送至所述终端设备310,以指示所述终端设备310根据所述处理指令确定对应的目标自然语言处理模型;
所述终端设备310,还用于根据所述目标自然语言处理模型对所述指令语句进行处理,并根据处理结果以及所述专注度值确定回复语句;
所述终端设备310,还用于根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述回复语句。
可选的,所述终端设备310,还具体用于:
对所述指令语句进行分词处理,并根据分词结果构建所述指令语句对应的文本序列;
根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率;
若所述概率大于预设阈值,则确定所述指令语句为正常指令。
可选的,所述专注力头环320,还具体用于:
若所述专注度值处于预设第一专注度区间,则所述处理指令为第一处理指令,所述第一处理指令用于指示所述终端设备310选择第一自然语言处理模型;
若所述专注度值处于预设第二专注度区间,则所述处理指令为第二处理指令,所述第二处理指令用于指示所述终端设备310选择第二自然语言处理模型;
其中,所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值;在所述第一自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的M个分词相互关联;在所述第二自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M。
可选的,在所述第一自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
在所述第二自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
其中,所述文本序列为,/>为所述文本序列中的第n个分词,为/>序列在预设语料库中出现的次数,为/>序列在预设语料库中出现的次数;所述预设语料库为在基础语料库的基础上结合自闭症患者常用语言所建立的语料库。
可选的,所述终端设备310,还具体用于:
根据所述处理结果以及预设问答模型确定初始回复语句,其中,所述预设问答模型基于Seq2seq模型建立;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数大于预设字数,则对所述初始回复语句进行精简处理,以生成所述回复语句,所述回复语句的字数小于所述预设字数;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数小于或等于预设字数,则所述回复语句为所述初始回复语句;
若所述专注度值处于所述预设第二专注度区间,则所述回复语句为所述初始回复语句。
可选的,所述终端设备310,还具体用于:
根据预设停用词表过滤所述初始回复语句中的停用词,以生成中间回复语句;
对所述中间回复语句进行分词处理,以确定所述中间回复语句所对应的第一文本序列;
根据预设词性指定规则保留所述第一文本序列中指定词性的词语,以形成第二文本序列;
将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列;
根据所述第三文本序列生成所述回复语句。
可选的,所述终端设备310,还具体用于:
获取沟通人员的沟通语句;
若所述专注度值处于所述预设第一专注度区间,则根据预设停用词表过滤所述沟通语句中的停用词,以生成中间沟通语句;
对所述中间沟通语句进行分词处理,以确定所述中间沟通语句所对应的第四文本序列;
根据预设词性指定规则保留所述第四文本序列中指定词性的词语,以形成第五文本序列;
将所述第五文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第六文本序列;
根据所述第六文本序列生成沟通处理语句;
所述终端设备310根据所述沟通处理语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述沟通处理语句。
图5是本申请根据一示例实施例示出的电子设备的结构示意图。如图5所示,本实施例提供的一种电子设备400包括:处理器401以及存储器402;其中:
存储器402,用于存储计算机程序,该存储器还可以是flash(闪存)。
处理器401,用于执行存储器存储的执行指令,以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。
当所述存储器402是独立于处理器401之外的器件时,所述电子设备400还可以包括:
总线403,用于连接所述存储器402和处理器401。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (5)
1.一种适用于虚拟机器人的自然语言数据处理方法,其特征在于,应用于虚拟机器人交互系统,所述系统包括:终端设备以及与所述终端设备通信连接的专注力头环,所述终端设备中配置有不同形象类型的虚拟机器人;所述方法,包括:
通过所述终端设备获取自闭症患者的指令语句,并通过所述专注力头环获取所述自闭症患者的专注度值;
所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令,并将所述处理指令发送至所述终端设备,以指示所述终端设备根据所述处理指令确定对应的目标自然语言处理模型;
所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理,并根据处理结果以及所述专注度值确定回复语句;
所述终端设备根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述回复语句;
在所述终端设备根据所述目标自然语言处理模型对所述指令语句进行处理之前,还包括:
对所述指令语句进行分词处理,并根据分词结果构建所述指令语句对应的文本序列;
根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率;
若所述概率大于预设阈值,则确定所述指令语句为正常指令;
所述专注力头环根据所述专注度值以及预设专注度区间范围确定处理指令,包括:
若所述专注度值处于预设第一专注度区间,则所述处理指令为第一处理指令,所述第一处理指令用于指示所述终端设备选择第一自然语言处理模型;
若所述专注度值处于预设第二专注度区间,则所述处理指令为第二处理指令,所述第二处理指令用于指示所述终端设备选择第二自然语言处理模型;
其中,所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值;在所述第一自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的M个分词相互关联;在所述第二自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M;
在所述第一自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
在所述第二自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
所述根据处理结果以及所述专注度值确定回复语句,包括:
根据所述处理结果以及预设问答模型确定初始回复语句,其中,所述预设问答模型基于Seq2seq模型建立;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数大于预设字数,则对所述初始回复语句进行精简处理,以生成所述回复语句,所述回复语句的字数小于所述预设字数;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数小于或等于预设字数,则所述回复语句为所述初始回复语句;
若所述专注度值处于所述预设第二专注度区间,则所述回复语句为所述初始回复语句;
所述对所述初始回复语句进行精简处理,以生成所述回复语句,包括:
根据预设停用词表过滤所述初始回复语句中的停用词,以生成中间回复语句;
对所述中间回复语句进行分词处理,以确定所述中间回复语句所对应的第一文本序列;
根据预设词性指定规则保留所述第一文本序列中指定词性的词语,以形成第二文本序列;
将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列;
根据所述第三文本序列生成所述回复语句。
2.根据权利要求1所述的适用于虚拟机器人的自然语言数据处理方法,其特征在于,还包括:
通过所述终端设备获取沟通人员的沟通语句;
若所述专注度值处于所述预设第一专注度区间,则根据预设停用词表过滤所述沟通语句中的停用词,以生成中间沟通语句;
对所述中间沟通语句进行分词处理,以确定所述中间沟通语句所对应的第四文本序列;
根据预设词性指定规则保留所述第四文本序列中指定词性的词语,以形成第五文本序列;
将所述第五文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第六文本序列;
根据所述第六文本序列生成沟通处理语句;
所述终端设备根据所述沟通处理语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述沟通处理语句。
3.一种适用于虚拟机器人的自然语言数据处理系统,其特征在于,包括:终端设备以及与所述终端设备通信连接的专注力头环,所述终端设备中配置有不同形象类型的虚拟机器人;
所述终端设备,用于获取自闭症患者的指令语句;
所述专注力头环,用于获取所述自闭症患者的专注度值;
所述专注力头环,还用于根据所述专注度值以及预设专注度区间范围确定处理指令,并将所述处理指令发送至所述终端设备,以指示所述终端设备根据所述处理指令确定对应的目标自然语言处理模型;
所述终端设备,还用于根据所述目标自然语言处理模型对所述指令语句进行处理,并根据处理结果以及所述专注度值确定回复语句;
所述终端设备,还用于根据所述回复语句的内容信息确定对应形象类型的目标虚拟机器人,并通过所述目标虚拟机器人播放所述回复语句;
所述终端设备,还具体用于:
对所述指令语句进行分词处理,并根据分词结果构建所述指令语句对应的文本序列;
根据所述自然语言处理模型计算所述指令语句对应的所述文本序列出现的概率;
若所述概率大于预设阈值,则确定所述指令语句为正常指令;
所述专注力头环,还具体用于:
若所述专注度值处于预设第一专注度区间,则所述处理指令为第一处理指令,所述第一处理指令用于指示所述终端设备选择第一自然语言处理模型;
若所述专注度值处于预设第二专注度区间,则所述处理指令为第二处理指令,所述第二处理指令用于指示所述终端设备选择第二自然语言处理模型;
其中,所述预设第二专注度区间的最小值为所述预设第一专注度区间的最大值;在所述第一自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的M个分词相互关联;在所述第二自然语言处理模型中,计算所述指令语句对应的所述文本序列出现的概率时,所述文本序列中的N个分词相互关联;M与N为大于1的正整数,且N大于M。
在所述第一自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
在所述第二自然语言处理模型中,所述指令语句对应的所述文本序列出现的概率的计算公式为:
所述终端设备,还具体用于:
根据所述处理结果以及预设问答模型确定初始回复语句,其中,所述预设问答模型基于Seq2seq模型建立;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数大于预设字数,则对所述初始回复语句进行精简处理,以生成所述回复语句,所述回复语句的字数小于所述预设字数;
若所述专注度值处于所述预设第一专注度区间,且所述初始回复语句的字数小于或等于预设字数,则所述回复语句为所述初始回复语句;
若所述专注度值处于所述预设第二专注度区间,则所述回复语句为所述初始回复语句;
所述终端设备,还具体用于:
根据预设停用词表过滤所述初始回复语句中的停用词,以生成中间回复语句;
对所述中间回复语句进行分词处理,以确定所述中间回复语句所对应的第一文本序列;
根据预设词性指定规则保留所述第一文本序列中指定词性的词语,以形成第二文本序列;
将所述第二文本序列中的各个词语设置为PageRank算法中的一个节点,并通过所述PageRank算法计算得到的重要性最高的若干词语,以形成第三文本序列;
根据所述第三文本序列生成所述回复语句。
4.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1或2所述的方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211387971.7A CN115438168B (zh) | 2022-11-08 | 2022-11-08 | 适用于虚拟机器人的自然语言数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211387971.7A CN115438168B (zh) | 2022-11-08 | 2022-11-08 | 适用于虚拟机器人的自然语言数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115438168A CN115438168A (zh) | 2022-12-06 |
CN115438168B true CN115438168B (zh) | 2023-03-24 |
Family
ID=84252286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211387971.7A Active CN115438168B (zh) | 2022-11-08 | 2022-11-08 | 适用于虚拟机器人的自然语言数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438168B (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11279041B2 (en) * | 2018-10-12 | 2022-03-22 | Dream Face Technologies, Inc. | Socially assistive robot |
RU2708114C1 (ru) * | 2019-07-10 | 2019-12-04 | Общество с ограниченной ответственностью «Комплект-ОМ» | Система и способ мониторинга и обучения детей с расстройствами аутистического спектра |
-
2022
- 2022-11-08 CN CN202211387971.7A patent/CN115438168B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115438168A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bender et al. | Climbing towards NLU: On meaning, form, and understanding in the age of data | |
CN108536681B (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
US9724824B1 (en) | Sensor use and analysis for dynamic update of interaction in a social robot | |
US11222633B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
US8515892B2 (en) | Artificial intelligence system | |
US11222634B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
CN110598576A (zh) | 一种手语交互方法、装置及计算机介质 | |
CN109086860B (zh) | 一种基于虚拟人的交互方法及系统 | |
CN110096698A (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN113380234B (zh) | 基于语音识别生成表单的方法、装置、设备及介质 | |
CN106875940A (zh) | 一种基于神经网络的机器自学习构建知识图谱训练方法 | |
CN105912530A (zh) | 面向智能机器人的信息处理方法及系统 | |
CN112007255B (zh) | 基于混合现实的心理治疗方法、装置、系统及服务器 | |
CN110675871A (zh) | 一种语音识别方法及装置 | |
JP2017208003A (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6449368B2 (ja) | 会話提供装置、会話提供方法及びプログラム | |
CN115438168B (zh) | 适用于虚拟机器人的自然语言数据处理方法及系统 | |
CN111767386A (zh) | 对话处理方法、装置、电子设备及计算机可读存储介质 | |
WO2020246017A1 (ja) | 自然言語処理システム、自然言語処理方法および自然言語処理プログラム | |
CN115938586A (zh) | Emdr辅助情绪评估及干预方法、设备以及存储介质 | |
CN115759052A (zh) | 一种文本纠错方法、装置、电子设备及存储介质 | |
Bernsen et al. | First prototype of conversational HC Andersen | |
CN112836098B (zh) | 基于多角色的对话辅助方法和装置 | |
CN110718119A (zh) | 基于儿童专用穿戴智能设备的教育能力支持方法及系统 | |
Mallios | Virtual doctor: an intelligent human-computer dialogue system for quick response to people in need |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230724 Address after: 812, 7th Floor, Building 3, Shangfengyuan, Baijiatuan, Haidian District, Beijing, 100000 Patentee after: Beijing Zhongke Silicon Technology Co.,Ltd. Address before: Room 110-A, Building 1, Phase I, Jingang Scientific Innovation Park, No. 1, Kechuang Road, Yaohua Street, Qixia District, Nanjing City, Jiangsu Province, 210046 Patentee before: Tianjia Technology (Nanjing) Co.,Ltd. |