CN112256232B - 显示设备与自然语言生成后处理方法 - Google Patents

显示设备与自然语言生成后处理方法 Download PDF

Info

Publication number
CN112256232B
CN112256232B CN202011137540.6A CN202011137540A CN112256232B CN 112256232 B CN112256232 B CN 112256232B CN 202011137540 A CN202011137540 A CN 202011137540A CN 112256232 B CN112256232 B CN 112256232B
Authority
CN
China
Prior art keywords
clause
target
sentence
display device
emotion word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011137540.6A
Other languages
English (en)
Other versions
CN112256232A (zh
Inventor
邵星阳
杨善松
刘永霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202011137540.6A priority Critical patent/CN112256232B/zh
Publication of CN112256232A publication Critical patent/CN112256232A/zh
Application granted granted Critical
Publication of CN112256232B publication Critical patent/CN112256232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种显示设备与自然语言生成后处理方法,方法包括:获取语言生成模型生成的目标文本,该目标文本中包括至少一个子句;当上述至少一个子句中存在不符合语言规律的目标子句时,确定该目标子句的待替换语句,并根据该待替换语句对上述目标文本进行修复。即本申请能够对语言生成模型生成的问题句子进行检查、纠正,将其修复为通顺、符合语言规律的句子。

Description

显示设备与自然语言生成后处理方法
技术领域
本申请实施例涉及自然语言处理技术领域,尤其涉及一种显示设备与自然语言生成后处理方法。
背景技术
随着科技的不断发展,目前大多数的显示设备都可以支持人机交互功能。例如,显示设备可以先将用户发出的语音信号通过语音识别转换为文本,然后对转换后的文本进行语义解析,并通过语言生成模型生成反馈给用户的反馈语句。
然而,语言生成模型难免会生成带语病的语句,如生成的语句不通顺、重复或意义不完整。而若将带语病的语句反馈给用户,则难免会影响用户使用体验。
发明内容
本申请实施例提供一种显示设备与自然语言生成后处理方法,旨在对显示设备生成的带语病的句子进行检查、纠正。
第一方面,本申请实施例提供一种显示设备,所述显示设备包括:
音频处理器,用于对接收的音频数据处理;
视频处理器,用于对接收的视频数据处理;
显示屏,用于显示图像;
控制器,所述控制器被配置为:
获取语言生成模型生成的目标文本,所述目标文本中包括至少一个子句;
确定所述至少一个子句中是否存在不符合语言规律的目标子句;
当所述至少一个子句中存在不符合语言规律的目标子句时,确定所述目标子句的待替换语句,并根据所述待替换语句对所述目标文本进行修复。
在一种可行的实施方式中,所述控制器具体用于:
根据语言模型计算所述至少一个子句中各个子句的得分;
将所述至少一个子句中得分小于第一得分阈值的子句确定为不符合所述语言规律的目标子句。
在一种可行的实施方式中,所述控制器具体用于:
基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子;
当所述相似句子与所述目标子句的相似度大于或等于预设相似度阈值时,利用所述相似句子替换所述目标子句。
在一种可行的实施方式中,所述控制器具体用于:
基于doc2vec的平滑模型,将所述目标子句转换为空间中的句子向量;
在预设语料库中选取与所述目标子句对应的句子向量距离最近的目标句子向量,将所述目标句子向量对应的语句确定为与所述目标子句相似度最大的相似句子。
在一种可行的实施方式中,所述控制器具体用于:
当所述相似句子与所述目标子句的相似度小于所述预设相似度阈值时,从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
在一种可行的实施方式中,所述控制器具体用于:
从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
第二方面,本申请实施例提供一种自然语言生成后处理方法,该方法包括:
获取语言生成模型生成的目标文本,所述目标文本中包括至少一个子句;
确定所述至少一个子句中是否存在不符合语言规律的目标子句;
当所述至少一个子句中存在不符合语言规律的目标子句时,确定所述目标子句的待替换语句,并根据所述待替换语句对所述目标文本进行修复。
在一种可行的实施方式中,所述确定所述至少一个子句中是否存在不符合语言规律的目标子句,包括:
根据语言模型计算所述至少一个子句中各个子句的得分;
将所述至少一个子句中得分小于第一得分阈值的子句确定为不符合所述语言规律的目标子句。
在一种可行的实施方式中,所述确定所述目标子句的待替换语句,并根据所述待替换语句对所述目标文本进行修复,包括:
基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子;
当所述相似句子与所述目标子句的相似度大于或等于预设相似度阈值时,利用所述相似句子替换所述目标子句。
在一种可行的实施方式中,所述基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子,包括:
基于doc2vec的平滑模型,将所述目标子句转换为空间中的句子向量;
在预设语料库中选取与所述目标子句对应的句子向量距离最近的目标句子向量,将所述目标句子向量对应的语句确定为与所述目标子句相似度最大的相似句子。
在一种可行的实施方式中,所述确定所述目标子句的待替换语句,并根据所述待替换语句对所述目标文本进行修复,还包括:
当所述相似句子与所述目标子句的相似度小于所述预设相似度阈值时,从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
在一种可行的实施方式中,所述确定所述目标子句的待替换语句,并根据所述待替换语句对所述目标文本进行修复,包括:
从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
本申请实施例所提供的显示设备与自然语言生成后处理方法,能够对语言生成模型生成的问题句子进行检查、纠正,将其修复为通顺、符合语言规律的句子。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对本申请实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图;
图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图;
图3中示例性示出了根据示例性实施例中控制设备1001的配置框图;
图4为本申请提供的显示设备的软件系统示意图;
图5为本申请提供的显示设备能够提供的应用程序的示意图;
图6为显示设备在语音交互场景的一种应用示意图;
图7为显示设备应用在语音交互场景的流程示意图;
图8为本申请实施例中示例性示出的一种应用场景示意图;
图9为显示设备应用在语音交互场景的另一流程示意图;
图10为识别模型的供应商下发识别模型的示意图;
图11为服务器400得到识别模型的一种流程示意图;
图12为服务器对识别模型进行更新的一种流程示意图;
图13为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图一;
图14为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图二;
图15为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图三;
图16为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图四。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请中使用的术语“遥控器”,是指电子设备(如本申请中公开的显示设备)的一个组件,通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接,也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如:手持式触摸遥控器,是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。
本申请中使用的术语“手势”,是指用户通过一种手型的变化或手部运动等动作,用于表达预期想法、动作、目的/或结果的用户行为。
图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出,用户可通过移动终端1002和控制装置1001操作显示设备200。
在一些实施例中,控制装置1001可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制显示设备200的功能。
在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
在一些实施例中,移动终端1002可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端1002与显示设备200建立控制指令协议,将遥控控制键盘同步到移动终端1002上,通过控制移动终端1002上用户界面,实现控制显示设备200的功能。也可以将移动终端1002上显示音视频内容传输到显示设备200上,实现同步显示功能。
如图1中还示出,显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的,显示设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。
显示设备200,可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型,尺寸大小和分辨率等不作限定,本领技术人员可以理解的是,显示设备200可以根据需要做性能和配置上一些改变。
显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能,包括但不限于,网络电视、智能电视、互联网协议电视(IPTV)等。
图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。
在一些实施例中,显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示屏275,音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。
在一些实施例中,显示屏275,用于接收源自第一处理器输出的图像信号,进行显示视频内容和图像以及菜单操控界面的组件。
在一些实施例中,显示屏275,包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件。
在一些实施例中,显示视频内容,可以来自广播电视内容,也可以是说,可通过有线或无线通信协议接收的各种广播信号。或者,可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。
在一些实施例中,显示屏275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。
在一些实施例中,根据显示屏275类型不同,还包括用于驱动显示的驱动组件。
在一些实施例中,显示屏275为一种投影显示屏,还可以包括一种投影装置和投影屏幕。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如:通信器可以包括Wifi芯片,蓝牙通信协议芯片,有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。
在一些实施例中,显示设备200可以通过通信器220与外部控制设备100或内容提供设备之间建立控制信号和数据信号发送和接收。
在一些实施例中,用户接口265,可用于接收控制装置100(如:红外遥控器等)红外控制信号。
在一些实施例中,检测器230是显示设备200用于采集外部环境或与外部交互的信号。
在一些实施例中,检测器230包括光接收器,用于采集环境光线强度的传感器,可以通过采集环境光可以自适应性显示参数变化等。
在一些实施例中,检测器230还可以包括图像采集器,如相机、摄像头等,可以用于采集外部环境场景,以及用于采集用户的属性或与用户交互手势,可以自适应变化显示参数,也可以识别用户手势,以实现与用户之间互动的功能。
在一些实施例中,检测器230还可以包括温度传感器等,如通过感测环境温度。
在一些实施例中,显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时,可调整显示设备200显示图像色温偏冷色调,或当温度偏低的环境时,可以调整显示设备200显示图像偏暖色调。
在一些实施例中,检测器230还可声音采集器等,如麦克风,可以用于接收用户的声音。示例性的,包括用户控制显示设备200的控制指令的语音信号,或采集环境声音,用于识别环境场景类型,使得显示设备200可以自适应适应环境噪声。
在一些实施例中,如图2所示,输入/输出接口255被配置为,可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。
在一些实施例中,外部装置接口240可以包括,但不限于如下:可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。
在一些实施例中,如图2所示,调谐解调器210被配置为,通过有线或无线接收方式接收广播电视信号,可以进行放大、混频和谐振等调制解调处理,从多多个无线或有线广播电视信号中解调出音视频信号,该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号,以及EPG数据信号。
在一些实施例中,调谐解调器210解调的频点受到控制器250的控制,控制器250可根据用户选择发出控制信号,以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。
在一些实施例中,广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号,模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。这样,机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备,主体设备经过第一输入/输出接口接收音视频信号。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如:响应于接收到用于选择在显示屏275上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
如图2所示,控制器250包括随机存取存储器251(Random Access Memory,RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如:图形处理器(Graphics Processing Unit,GPU)、中央处理器254(CentralProcessing Unit,CPU)、通信接口(Communication Interface),以及通信总线256(Bus)中的至少一种。其中,通信总线连接各个部件。
在一些实施例中,RAM 251用于存储操作系统或其他正在运行中的程序的临时数据
在一些实施例中,ROM 252用于存储各种系统启动的指令。
在一些实施例中,ROM 252用于存储一个基本输入输出系统,称为基本输入输出系统(Basic Input Output System,BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。
在一些实施例中,在收到开机信号时,显示设备200电源开始启动,CPU运行ROM252中系统启动指令,将存储在存储器的操作系统的临时数据拷贝至RAM 251中,以便于启动或运行操作系统。当操作系统启动完成后,CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后,以便于启动或运行各种应用程序。
在一些实施例中,CPU处理器254,用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。
在一些示例性实施例中,CPU处理器254,可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器,用于在预加电模式中执行显示设备200一些操作,和/或在正常模式下显示画面的操作。一个或多个子处理器,用于在待机模式等状态下一种操作。
在一些实施例中,图形处理器253,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象。以及包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示屏上。
在一些实施例中,视频处理器270被配置为将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理,可得到直接可显示设备200上显示或播放的信号。
在一些实施例中,视频处理器270,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。
其中,解复用模块,用于对输入音视频数据流进行解复用处理,如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。
视频解码模块,则用于对解复用后的视频信号进行处理,包括解码和缩放处理等。
图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的GUI信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。
帧率转换模块,用于对转换输入视频帧率,如将60Hz帧率转换为120Hz帧率或240Hz帧率,通常的格式采用如插帧方式实现。
显示格式化模块,则用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出RGB数据信号。
在一些实施例中,图形处理器253可以和视频处理器可以集成设置,也可以分开设置,集成设置的时候可以执行输出给显示屏的图形信号的处理,分离设置的时候可以分别执行不同的功能,例如GPU+FRC(Frame Rate Conversion))架构。
在一些实施例中,音频处理器280,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。
在一些实施例中,视频处理器270可以包括一颗或多颗芯片组成。音频处理器,也可以包括一颗或多颗芯片组成。
在一些实施例中,视频处理器270和音频处理器280,可以单独的芯片,也可以于控制器一起集成在一颗或多颗芯片中。
供电电源290,在控制器250控制下,将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路,也可以是安装在显示设备200外部电源,在显示设备200中提供外接电源的电源接口。
用户接口265,用于接收用户的输入信号,然后,将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号,可以通过网络通信模块接收各种用户控制信号。
在一些实施例中,用户通过控制装置100或移动终端300输入用户命令,用户输入接口则根据用户的输入,显示设备200则通过控制器250响应用户的输入。
在一些实施例中,用户可在显示器275上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
存储器260,包括存储用于驱动显示设备200的各种软件模块。如:第一存储器中存储的各种软件模块,包括:基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。
基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息,并进行数模转换以及分析管理的管理模块。
例如,语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块,可以用于播放多媒体图像内容和UI界面等信息。通信模块,用于与外部设备之间进行控制和数据通信的模块。浏览器模块,用于执行浏览服务器之间数据通信的模块。服务模块,用于提供各种服务以及各类应用程序在内的模块。同时,存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。
图3示例性示出了根据示例性实施例中控制设备1001的配置框图。如图3所示,控制设备1001包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。
控制设备1001被配置为控制显示设备200,以及可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。如:用户通过操作控制设备1001上频道加减键,显示设备200响应频道加减的操作。
在一些实施例中,控制设备1001可是一种智能设备。如:控制设备1001可根据用户需求安装控制显示设备200的各种应用。
在一些实施例中,如图1所示,移动终端1002或其他智能电子设备,可在安装操控显示设备200的应用之后,可以起到控制设备1001类似功能。如:用户可以通过安装应用,在移动终端1002或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮,以实现控制设备1001实体按键的功能。
控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备1001的运行和操作,以及内部各部件之间通信协作以及外部和内部的数据处理功能。
通信接口130在控制器110的控制下,实现与显示设备200之间控制信号和数据信号的通信。如:将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。
用户输入/输出接口140,其中,输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如:用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能,输入接口通过将接收的模拟信号转换为数字信号,以及数字信号转换为相应指令信号,发送至显示设备200。
输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中,可以红外接口,也可以是射频接口。如:红外信号接口时,需要将用户输入指令按照红外控制协议转化为红外控制信号,经红外发送模块进行发送至显示设备200。再如:射频信号接口时,需将用户输入指令转化为数字信号,然后按照射频控制信号调制协议进行调制后,由射频发送端子发送至显示设备200。
在一些实施例中,控制设备1001包括通信接口130和输入输出接口140中至少一者。控制设备1001中配置通信接口130,如:WiFi、蓝牙、NFC等模块,可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码,发送至显示设备200.
存储器190,用于在控制器的控制下存储驱动和控制控制设备1001的各种运行程序、数据和应用。存储器190,可以存储用户输入的各类控制信号指令。
供电电源180,用于在控制器的控制下为控制设备1001各元件提供运行电力支持。可以电池及相关控制电路。
在一些实施例中,系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后,再加载Shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。
图4为本申请提供的显示设备的软件系统示意图,参见图4,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、K歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本申请实施例对此不做限制。
框架层为应用程序层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,触摸传感器、压力传感器等)等。
在一些实施例中,内核层还包括用于进行电源管理的电源驱动模块。
在一些实施例中,图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。
在一些实施例中,以魔镜应用(拍照应用)为例,当遥控接收装置接收到遥控器输入操作,相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值,输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作,该确认操作所对应的控件为魔镜应用图标的控件,魔镜应用调用应用框架层的接口,启动魔镜应用,进而通过调用内核层启动摄像头驱动,实现通过摄像头捕获静态图像或视频。
在一些实施例中,对于具备触控功能的显示设备,以分屏操作为例,显示设备接收用户作用于显示屏上的输入操作(如分屏操作),内核层可以根据输入操作产生相应的输入事件,并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口,然后将绘制的窗口数据发送给内核层的显示驱动,由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。
在一些实施例中,图5为本申请提供的显示设备能够提供的应用程序的示意图,如图5中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。
在一些实施例中,直播电视应用程序,可以通过不同的信号源提供直播电视。例如,直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及,直播电视应用程序可在显示设备200上显示直播电视信号的视频。
在一些实施例中,视频点播应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。例如,视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。
在一些实施例中,媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。例如,媒体中心,可以为不同于直播电视或视频点播,用户可通过媒体中心应用程序访问各种图像或音频所提供服务。
在一些实施例中,应用程序中心,可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序,或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序,将它们储存在本地储存器中,然后在显示设备200上可运行。
更为具体地,在一些实施例中,本申请前述的任一显示设备200,均可具有语音交互的功能,来提高显示设备200的智能化程度,并提高显示设备200的用户体验。
在一些实施例中,图6为显示设备在语音交互场景的一种应用示意图,其中,用户1可以通过声音说出希望显示设备200执行的指令,则对于显示设备200可以实时采集语音数据,并对语音数据中包括的用户1的指令进行识别,并在识别出用户1的指令后,直接执行该指令,在整个过程中,用户1没有实际对显示设备200或者其他设备进行操作,只是简单地说出了指令。
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,最终由控制器250对语音数据中包括的指令进行识别。
在一些实施例中,图7为显示设备应用在语音交互场景的流程示意图,可以由如图6所示场景中的设备执行,具体地,在S11中,显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250进行识别。
在一些实施例中,在如图7所示的S12中,控制器250在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令,则控制器250并在识别到语音数据中包括的指令后,可以由该控制器250执行所识别出的指令,控制显示器275增加亮度。可以理解的是,这种情况下控制器250对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况。
而在另一些实施例中,基于指令识别的模型较大、运算效率较低,还可以规定用户1在说出指令前加入关键词,例如“ABCD”,则用户需要说出“ABCD,增大亮度”的指令,使得在如图7所示的S12中,控制器250在接收到语音数据后,首先对每个语音数据中是否有“ABCD”的关键词进行识别,在识别到有关键词之后,再使用指令识别模型对语音数据中的“增大亮度”对应的具体指令进行识别。
在一些实施例中,控制器250在接收到语音数据后,还可以对语音数据进行去噪,包括去除回声和环境噪声,处理为干净的语音数据,并将处理后的语音数据进行识别。
在一些实施例中,图7为显示设备在语音交互场景的另一种应用示意图,其中,显示设备200可以通过互联网与服务器400连接,则当显示设备200采集到语音数据后,可以将语音数据通过互联网发送给服务器400,由服务器400对语音数据中包括的指令进行识别,并将识别后的指令发送回显示设备200,使得显示设备200可以直接执行所接收到的指令。这种场景与如图6所示的场景相比,减少了对显示设备200运算能力的要求,能够在服务器400上设置更大的识别模型,来进一步提高对语音数据中指令识别的准确率。
在一些实施例中,当如图2所示的显示设备200应用在如图6所示的场景中,显示设备200可以通过其声音采集器231实时采集语音数据,随后,声音采集器231将采集得到的语音数据发送给控制器250,控制器250通过通信器220将语音数据发送给服务器400,由服务器400对语音数据中包括的指令进行识别后,显示设备200再通过通信器220接收服务器400发送的指令,并最终由控制器250执行所接收到的指令。
在一些实施例中,图9为显示设备应用在语音交互场景的另一流程示意图,可以由如图8所示的场景中的设备执行,其中,在S21中,显示显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据,并将所采集到的语音数据发送给控制器250,控制器250在S22中将语音数据进一步通过通信器220发送给服务器400,由服务器在S23中识别语音数据中包括的指令,随后,服务器400将识别得到的指令在S24中发送回显示设备200,对应地,显示设备200通过通信器220接收指令后发送给控制器250,最终控制器250可以直接执行所接收到的指令。
在一些实施例中,如图7所示的S23中,服务器400在接收到语音数据后,对语音数据中包括的指令进行识别。例如,语音数据中包括用户1所出的“增大亮度”的指令。而由于指令识别的模型较大,且服务器400对每个接收到的语音数据进行识别,可能出现识别语音数据中没有指令情况,因此为了降低服务器400进行无效的识别、以及减少显示设备200和服务器400之间的通信交互数据量,在具体实现时,还可以规定用户1在说出指令前加入关键词,例如“ABCD”,则用户需要说出“ABCD,增大亮度”的指令,随后,由显示设备200的控制器250在S22中,首先通过模型较小、运算量较低的关键词识别模型,对语音数据中是否存在关键词“ABCD”进行识别,若当前控制器250正在处理的语音数据中没有识别出关键词,则控制器250不会将该语音数据发送给服务器400;若当前控制器250正在处理的语音数据中识别出关键词,则控制器250再将该语音数据全部,或者语音数据中关键词之后的部分发送给服务器400,由服务器400对所接收到的语音数据进行识别。由于此时控制器250所接收到的语音数据中包括关键词,发送给服务器400所识别的语音数据中也更有可能包括用户的指令,因此能够减少服务器400的无效识别计算,也能够减少显示设备200和服务器400之间的无效通信。
在一些实施例中,为了让显示设备200能够具有如图6所示的一种具体场景中,对语音数据中指令的识别功能,或者,让显示设备200能够具有如图6或图8所示的一种具体场景中,对语音数据中关键词的识别功能,作为显示设备200的语音交互功能的供应商,还需要制作可用于识别指令或者识别关键词的机器学习模型,例如textcnn、transform等深度学习模型。并将这些模型存储在显示设备200中,由显示设备200在进行识别时使用。
在一些实施例中,图10为识别模型的供应商下发识别模型的示意图,其中,供应商所设置的服务器400得到识别模型(可以是指令识别模型,也可以是关键词识别模型)后,可以将识别模型发送给各个显示设备200。其中,如图10所示的过程可以是显示设备200在生产时进行,由服务器400将服务器发送给每个显示设备200;或者,还可以在显示设备200开始使用后,服务器400通过互联网将识别模型发送给显示设备200。
在一些实施例中,服务器400可以具体通过采集语音数据,并基于机器学习模型进行学习的方式,得到识别模型。例如,图11为服务器400得到识别模型的一种流程示意图,其中,在S31中,各显示设备(以显示设备1-显示设备N,共N个为例)采集语音数据1-N,并在S32中将采集到的语音数据1-N发送给服务器400。随后,在S33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器进行学习,学习得到的识别模型在后续使用时,当输入一个待识别的语音数据后,识别模型将该语音数据与已经学习的语音数据进行比对,并输出每个标注信息的概率,最终最大概率对应的标注信息可以作为待识别的语音数据的识别结果。在S34中,服务器400可以将计算得到的识别模型发送各显示设备。
在一些实施例中,服务器400也可以不使用如图11所示实施例中由显示设备1-N实际采集的语音数据计算识别模型,而是可以直接由工作人员输入不同的语音数据,以及每个语音数据的标注信息,并在计算得到识别模型后发送给各显示设备。
在一些实施例中,如图11所示的采集语音数据并发送给服务器的显示设备1-N,与服务器计算得到识别模型后,发送给显示设备1-N中可以是两个独立的过程,也就是说,S32中服务器接收到N个显示设备采集的语音数据,S34中服务器可以向另外N个显示设备发送所训练得到的识别模型。这两个过程中N个显示设备可以相同或不同,或者也可以部分相同。
在一些实施例中,由于在得到识别模型时,所使用的样本数量有限,使得显示设备200所设置的识别模型不可能做到完全百分百准确的识别,因此供应商还可以通过服务器400随时收集各显示设备200在实际使用过程中所采集的语音数据,并根据所采集的语音数据对已经识别得到的识别模型进行更新,来进一步提高识别模型的识别准确性。
例如,图12为服务器对识别模型进行更新的一种流程示意图,可以理解的是,在执行如图12所示的实施例之前,每个显示设备中按照如图10所示的方式,设置了识别模型。则在如图12所示S31中,各显示设备(以显示设备1-显示设备N,共N个为例)采集语音数据1-N,并在S32中将采集到的语音数据1-N发送给服务器400。随后,在S33中,供应商的工作人员可以通过人工标注的方式,将每个语音数据以及语音数据中包括的指令或者关键词进行标注后,将语音数据本身,以及语音数据对应的标注信息作为数据送入机器学习模型中,由服务器根据接收到的新的语音数据,对已经计算得到的识别模型进行更新,并在S34中,服务器400可以将更新后的识别模型重新发送各显示设备200,使得每个显示设备200可以使用更新后的识别模型进行更新。其中,对于这N个显示设备中的任一个显示设备而言,由于新的学习模型采用了这个显示设备200所采集的语音数据,因此可以有效地提高后续对这个显示设备200对所采集的语音数据进行识别的准确性。
在一些实施例中,如图12所示的每个显示设备,可以在接收到语音数据后就发送给服务器,或者,在固定的时间段结束后将在这个时间段内采集到的语音数据发送给服务器,又或者,当采集到的一定数量的语音数据后统一发送给服务器,又或者,可以根据显示设备的用户的指示、或者根据服务器的工作人员的指示将已经接收到的语音发送给服务器。
在一些实施例中,如图12所示的N个显示设备可以在同一个约定的时刻同时将语音数据发送给服务器,由服务器根据接收到的N个语音数据对识别模型进行更新;或者,N个显示设备还可以分别将语音数据发送给服务器,服务器在接收到语音数据的数量大于N个之后,即可开始根据接收到的语音数据对识别模型进行更新。
目前,显示设备在接收到用户输入的语句后,一般先对用户输入的语句进行语义解析,然后通过语言生成模型生成反馈给用户的反馈语句。但是语言生成模型有可能会生成带有语病的句子,如果将这些带有语病的句子反馈给用户,将会严重影响用户的使用体验。
为了解决上述技术问题,本申请实施例中提供了一种显示设备与自然语言生成后处理方法,能够对语言生成模型生成的问题句子进行检查、纠正,将其修复为通顺、符合语言规律的句子。
本申请实施例以智能电视为例,当用户想要观看某一个或某一类影视节目时,可以在智能电视中输入相关的查询语句,智能电视对用户输入的查询语句进行语义解析,然后通过语言生成模型生成反馈给用户的语句。
例如,当用户想看最近热播的电视剧时,可以通过语音在智能电视中输入“我想观看电影XX”,智能电视在接收到该输入语音后,通过语音识别将该语音转换为文本,然后对该文本进行语义解析后,通过语言生成模型生成反馈给用户的语句。
其中,上述显示设备可以是智能电视,也可以是其它可以进行自然语言处理的显示设备,例如,手机、智能音箱,平板电脑等。在应用场景上,本实施例的方法可以应用于用户与显示设备进行语音交互的场景,也可以应用于其他自然语言所应用的场景,例如,用户通过键盘输入语句来与显示设备进行人机交互的场景。
在一种可行的实施方式中,当显示设备检测到用户的输入操作时,获取用户输入的语句,然后对用户输入的语句进行解析后,利用语言生成模型生成反馈给用户的文本。
其中,上述语言生成模型生成的目标文本中包括至少一个子句。
示例性的,当用户通过语音输入语句时,显示设备上的语音采集部件采集周围环境中的音频信息,如当用户希望显示设备执行某项功能时,可以说出相关语句,语音采集部件可以采集到用户发出的声音,显示设备对其进行去噪等处理后,对接收到的用户输入语句进行语音识别,得到文本形式的用户输入语句。然后通过语义解析系统对该用户输入语句进行语义解析,并通过语言生成模型生成反馈给用户的语句,即上述目标文本。
当用户通过键盘输入语句时,显示设备获取用户输入的语句,对用户输入的语句进行语义解析,然后通过语言生成模型生成反馈给用户的语句。
示例性的,上述用户输入的语句可以包括:查询某个影视作品、查询天气、设置闹铃、查询周围的餐厅信息等。
本申请实施例中,可以采用典型的语言模型来分析上述目标文本中的各个子句是否符合语言规律。例如利用语言模型计算各个子句的得分,若某个子句的得分低于预先设定的阈值,则可以确定该子句不符合语言规律。
当确定上述目标文本中存在不符合语言规律的目标子句时,确定该目标子句的替换语句,然后利用该替换语句替换上述目标子句,从而将上述目标文本修复为正常、通顺、符合语言规律的句子。
即本申请实施例所提供的显示设备,能够对语言生成模型生成的问题句子进行检查、纠正,将其修复为通顺、符合语言规律的句子。
在本申请一种可行的实施方式中,确定上述至少一个子句中是否存在不符合语言规律的目标子句的方式可以为:
根据语言模型计算上述至少一个子句中各个子句的得分;将上述至少一个子句中得分小于第一得分阈值的子句确定为不符合语言规律的目标子句。
可以理解的是,对于正常的句子,词与词之间的共现概率较高,而对不符合语法的错误语句,词与词之间的共现概率较低。基于该原则,可以使用以下语言模型构建词序列的概率分布,并根据概率分布评估一个句子是否属于正常句子。
其中,可以将子句S属于正常句子的概率p(s)作为该子句S的得分。
假设一个子句S中含有的词序列为w1w2…wi-1wi,则可以采用以下公式计算子句S属于正常句子的概率p(s):
其中,
表示词序列w1w2…wi-1wi在语料库中出现的频率。
其中,上述语言模型的训练语料包含上述语言生成模型的训练语料。
本实施例中,当子句S属于正常句子的概率p(s)小于预设第一概率阈值时,可以认为该子句S不符合语言规律;当子句S属于正常句子的概率p(s)大于或等于上述第一概率阈值时,则可以认为该子句S符合语言规律。
即本申请实施例所提供的显示设备,可以通过语言模型计算各个子句的得分,并根据该得分来确定各个子句中是否存在不符合语言规律的目标子句,检测结果较为准确。
基于上述实施例中所描述的内容,在本申请另一种可行的实施方式中,当上述至少一个子句中存在不符合语言规律的目标子句时,基于doc2vec的平滑模型,得到与上述目标子句相似度最大的相似句子。
其中,doc2vec又叫做paragraph2vec,或者sentence embeddings,是一种非监督式学习算法,可以获得句子、段落、文档的向量表达,是词向量模型word2vec的拓展,学习出来的向量可以通过计算距离来查找句子、段落或文档之间的相似性。doc2vec相对于word2vec不同之处在于,其在输入层增添了一个新句子向量paragraph vector,paragraphvector可以被看作是另一个词向量,用来记忆当前上下文所缺失的信息,或者说表征了该段落的主题。
本实施例中,预先基于doc2vec的平滑模型为预设语料库中的每个句子建立一个多维向量,其中,上述基于doc2vec的平滑模型基于doc2vec句子向量模型,其训练语料为平滑语料,包含大量通用短句。在一些实施例中,上述基于doc2vec的平滑模型的训练语料也可以包含上述语言生成模型的训练语料中的通用表述语料。
由于字符串相似或主旨相近的句子在空间中的句子向量的距离更近,因此,当上述至少一个子句中存在不符合语言规律的目标子句时,可以基于doc2vec的平滑模型将上述目标子句转换为空间中的句子向量,然后在上述语料库中选取与上述目标子句对应的句子向量距离最近的目标句子向量,然后将该目标句子向量对应的语句确定为与上述目标子句相似度最大的相似句子。
本申请实施例中,在确定与上述目标子句最相似的相似句子之后,确定该相似句子与上述目标子句之间的相似度,若该相似度大于或等于预设相似度阈值,则可以将上述目标子句替换为上述待替换语句。
在一些实施例中,上述相似句子与上述目标子句之间的相似度可以根据上述相似句子的句子向量与上述目标子句对应的句子向量之间的距离确定,距离越近,相似度越高。
即本申请实施例所提供的显示设备,当电子设备生成的目标文本中存在不符合语言规律的目标子句时,可以基于doc2vec的平滑模型选取该目标子句的最相似句子,并利用该最相似句子替换目标子句,从而纠正上述目标文本中存在的语病。
基于上述实施例中所描述的内容,在本申请又一种可行的实施方式中,当上述至少一个子句中存在不符合语言规律的目标子句时,从与上述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度。
在本申请一种可行的设计中,上述情感词是从作品评论数据中提取的包含多个维度的、积极正面的、意义完整的评论词语。并将作品类型和情感词的不同维度之间建立一对多的映射,即一种作品类型可以对应多个情感词维度。
上述情感词的维度包括:剧情、情节、节奏、配音、画面、特效、演技、创意等。将影视作品类型(如剧情、爱情、喜剧、动作、科幻、家庭、悬疑、真人秀、奇幻、动画等)和情感词的不同维度之间建立一对多的映射,即一种影视作品类型可以对应多个情感词维度。
示例性的,参见表1,表1为本实施例中提供的一种情感词表。
表1:情感词表
本实施例中,若上述目标文本与某一作品类型相关、且该目标文本中存在不符合语言规律的目标子句,则可以从相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度,再从选取的这个情感词维度中随机选取一个情感词作为待替换语句来替换上述目标子句。
本申请实施例中,在替换上述目标子句之后,再采用上述语言模型计算替换后的整个目标文本的得分,若替换后的整个目标文本的得分未达到理想值,则可以按照以上各个步骤对替换后的整个目标文本再进行检查、纠错,或者删除目标文本。
即本申请实施例所提供的显示设备,当电子设备生成的目标文本中存在不符合语言规律的目标子句时,可以基于情感词纠正的方法对问题句子进行纠正。
基于上述实施例中所描述的内容,在本申请再一种可行的实施方式中,当电子设备生成的目标文本中存在不符合语言规律的目标子句时,可以先基于doc2vec的平滑模型选取该目标子句的最相似句子,若该最相似句子与目标子句之间的相似度大于或等于预设相似度阈值,则用最相似句子替换目标子句,若该最相似句子与目标子句之间的相似度小于预设相似度阈值,则采用基于情感词的纠正方法对目标子句进行修复。
基于上述实施例中所描述的内容,本申请实施例中还提供一种自然语言生成后处理方法,参照图13,图13为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图一,在一种可行的实施方式中,该自然语言生成后处理方法包括:
S1301、获取语言生成模型生成的目标文本,该目标文本中包括至少一个子句。
本申请实施例中,当显示设备检测到用户的输入操作时,获取用户输入的语句,然后对用户输入的语句进行解析后,利用语言生成模型生成反馈给用户的文本。
其中,上述语言生成模型生成的目标文本中包括至少一个子句。
示例性的,当用户通过语音输入语句时,显示设备上的语音采集部件采集周围环境中的音频信息,如当用户希望显示设备执行某项功能时,可以说出相关语句,语音采集部件可以采集到用户发出的声音,显示设备对其进行去噪等处理后,对接收到的用户输入语句进行语音识别,得到文本形式的用户输入语句。然后通过语义解析系统对该用户输入语句进行语义解析,并通过语言生成模型生成反馈给用户的语句,即上述目标文本。
当用户通过键盘输入语句时,显示设备获取用户输入的语句,对用户输入的语句进行语义解析,然后通过语言生成模型生成反馈给用户的语句。
示例性的,上述用户输入的语句可以包括:查询某个影视作品、查询天气、设置闹铃、查询周围的餐厅信息等。
S1302、确定上述至少一个子句中是否存在不符合语言规律的目标子句。
本申请实施例中,可以采用典型的语言模型来分析上述目标文本中的各个子句是否符合语言规律。例如利用语言模型计算各个子句的得分,若某个子句的得分低于预先设定的阈值,则可以确定该子句不符合语言规律。
S1303、当上述至少一个子句中存在不符合语言规律的目标子句时,确定该目标子句的待替换语句,并根据该待替换语句对上述目标文本进行修复。
本申请实施例中,当确定上述目标文本中存在不符合语言规律的目标子句时,确定该目标子句的替换语句,然后利用该替换语句替换上述目标子句,从而将上述目标文本修复为正常、通顺、符合语言规律的句子。
即本申请实施例所提供的自然语言生成后处理方法,能够对语言生成模型生成的问题句子进行检查、纠正,将其修复为通顺、符合语言规律的句子。
基于上述实施例中所描述的内容,在本申请一种可行的实施方式中,上述步骤S1302中确定上述至少一个子句中是否存在不符合语言规律的目标子句的方式具体为:
根据语言模型计算上述至少一个子句中各个子句的得分;将上述至少一个子句中得分小于第一得分阈值的子句确定为不符合语言规律的目标子句。
可以理解的是,对于正常的句子,词与词之间的共现概率较高,而对不符合语法的错误语句,词与词之间的共现概率较低。基于该原则,可以使用以下语言模型构建词序列的概率分布,并根据概率分布评估一个句子是否属于正常句子。
其中,可以将子句S属于正常句子的概率p(s)作为该子句S的得分。
假设一个子句S中含有的词序列为w1w2…wi-1wi,则可以采用以下公式计算子句S属于正常句子的概率p(s):
其中,
表示词序列w1w2…wi-1wi在语料库中出现的频率。
其中,上述语言模型的训练语料包含上述语言生成模型的训练语料。
本实施例中,当子句S属于正常句子的概率p(s)小于预设第一概率阈值时,可以认为该子句S不符合语言规律;当子句S属于正常句子的概率p(s)大于或等于上述第一概率阈值时,则可以认为该子句S符合语言规律。
即本申请实施例所提供的自然语言生成后处理方法,可以通过语言模型计算各个子句的得分,并根据该得分来确定各个子句中是否存在不符合语言规律的目标子句,检测结果较为准确。
基于上述实施例中所描述的内容,参照图14,图14为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图二,在本申请另一种可行的实施方式中,该自然语言生成后处理方法包括:
S1401、获取语言生成模型生成的目标文本,该目标文本中包括至少一个子句。
S1402、确定上述至少一个子句中是否存在不符合语言规律的目标子句。
其中,上述步骤S1401与S1402描述的内容与上述实施例中步骤S1301与S1302描述的内容一致,详细过程可参照上述实施例,在此不再赘述。
S1403、当上述至少一个子句中存在不符合语言规律的目标子句时,基于doc2vec的平滑模型,得到与上述目标子句相似度最大的相似句子。
其中,doc2vec又叫做paragraph2vec,或者sentence embeddings,是一种非监督式学习算法,可以获得句子、段落、文档的向量表达,是词向量模型word2vec的拓展,学习出来的向量可以通过计算距离来查找句子、段落或文档之间的相似性。doc2vec相对于word2vec不同之处在于,其在输入层增添了一个新句子向量paragraph vector,paragraphvector可以被看作是另一个词向量,用来记忆当前上下文所缺失的信息,或者说表征了该段落的主题。
本实施例中,预先基于doc2vec的平滑模型为预设语料库中的每个句子建立一个多维向量,其中,上述基于doc2vec的平滑模型基于doc2vec句子向量模型,其训练语料为平滑语料,包含大量通用短句。在一些实施例中,上述基于doc2vec的平滑模型的训练语料也可以包含上述语言生成模型的训练语料中的通用表述语料。
由于字符串相似或主旨相近的句子在空间中的句子向量的距离更近,因此,当上述至少一个子句中存在不符合语言规律的目标子句时,可以基于doc2vec的平滑模型将上述目标子句转换为空间中的句子向量,然后在上述语料库中选取与上述目标子句对应的句子向量距离最近的目标句子向量,然后将该目标句子向量对应的语句确定为与上述目标子句相似度最大的相似句子。
S1404、当上述相似句子与上述目标子句的相似度大于或等于预设相似度阈值时,利用上述相似句子替换上述目标子句。
本申请实施例中,在确定与上述目标子句最相似的相似句子之后,确定该相似句子与上述目标子句之间的相似度,若该相似度大于或等于预设相似度阈值,则可以将上述目标子句替换为上述待替换语句。
在一些实施例中,上述相似句子与上述目标子句之间的相似度可以根据上述相似句子的句子向量与上述目标子句对应的句子向量之间的距离确定,距离越近,相似度越高。
即本申请实施例所提供的自然语言生成后处理方法,当显示设备生成的目标文本中存在不符合语言规律的目标子句时,可以基于doc2vec的平滑模型选取该目标子句的最相似句子,并利用该最相似句子替换目标子句,从而纠正上述目标文本中存在的语病。
基于上述实施例中所描述的内容,参照图15,图15为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图三,在本申请又一种可行的实施方式中,该自然语言生成后处理方法包括:
S1501、获取语言生成模型生成的目标文本,该目标文本中包括至少一个子句。
S1502、确定上述至少一个子句中是否存在不符合语言规律的目标子句。
其中,上述步骤S501与S502描述的内容与上述实施例中步骤S301与S302描述的内容一致,详细过程可参照上述实施例,在此不再赘述。
S1503、当上述至少一个子句中存在不符合语言规律的目标子句时,从与上述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度。
本申请实施例中,上述情感词是从作品评论数据中提取的包含多个维度的、积极正面的、意义完整的评论词语。并将作品类型和情感词的不同维度之间建立一对多的映射,即一种作品类型可以对应多个情感词维度。
在一些实施例中,上述情感词的维度包括:剧情、情节、节奏、配音、画面、特效、演技、创意等。将影视作品类型(如剧情、爱情、喜剧、动作、科幻、家庭、悬疑、真人秀、奇幻、动画等)和情感词的不同维度之间建立一对多的映射,即一种影视作品类型可以对应多个情感词维度。
S1504、在选取的情感词维度中随机选取一个目标情感词,并利用该目标情感词替换上述目标子句。
本实施例中,若上述目标文本与某一作品类型相关、且该目标文本中存在不符合语言规律的目标子句,则可以从相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度,再从选取的这个情感词维度中随机选取一个情感词作为待替换语句来替换上述目标子句。
本申请实施例中,在替换上述目标子句之后,再采用上述语言模型计算替换后的整个目标文本的得分,若替换后的整个目标文本的得分未达到理想值,则可以按照以上各个步骤对替换后的整个目标文本再进行检查、纠错,或者删除目标文本。
即本申请实施例所提供的自然语言生成后处理方法,当显示设备生成的目标文本中存在不符合语言规律的目标子句时,可以基于情感词纠正的方法对问题句子进行纠正。
基于上述实施例中所描述的内容,参照图16,图16为本申请实施例中提供的一种自然语言生成后处理方法的流程示意图四,在本申请再一种可行的实施方式中,该自然语言生成后处理方法包括:
S1601、获取语言生成模型生成的目标文本,该目标文本中包括至少一个子句。
S1602、确定上述至少一个子句中是否存在不符合语言规律的目标子句。
其中,上述步骤S1601与S1602描述的内容与上述实施例中步骤S1301与S1302描述的内容一致,详细过程可参照上述实施例,在此不再赘述。
S1603、当上述至少一个子句中存在不符合语言规律的目标子句时,基于doc2vec的平滑模型,得到与上述目标子句相似度最大的相似句子。
S1604、确定上述相似句子与目标子句的相似度是否小于预设相似度阈值,若否,则继续执行S1605;若是,则执行S1606、S1607。
S1605、利用上述相似句子替换目标子句。
S1606、从与目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度,在选取的情感词维度中随机选取一个目标情感词。
S1607、利用目标情感词替换目标子句。
即本申请实施例所提供的自然语言生成后处理方法,当显示设备生成的目标文本中存在不符合语言规律的目标子句时,可以先基于doc2vec的平滑模型选取该目标子句的最相似句子,若该最相似句子与目标子句之间的相似度大于或等于预设相似度阈值,则用最相似句子替换目标子句,若该最相似句子与目标子句之间的相似度小于预设相似度阈值,则采用基于情感词的纠正方法对目标子句进行修复。
可以理解的是,上述实施例中所描述的自然语言生成后处理方法可以由服务器执行。例如,当显示设备检测到用户的输入操作时,获取用户输入的语句,然后将用户输入的语句发送至服务器,由服务器对用户输入的语句进行解析后,利用语言生成模型生成待反馈给用户的文本,并同时检测生成的待反馈给用户的文本中是否存在不符合语言规律的目标子句,若存在,则服务器对待反馈给用户的文本进行修复后再发送至上述显示设备显示。
在一些实施方式中,上述服务器可以通过网络与显示设备进行数据交互,或者,上述服务器也可以集成于显示设备中,通过显示设备中的通信总线来与显示设备进行数据交互。
另外,上述实施例中所描述的自然语言生成后处理方法也可以由显示设备执行,例如,当显示设备检测到用户的输入操作时,获取用户输入的语句,然后对用户输入的语句进行解析后,利用语言生成模型生成待反馈给用户的文本,并同时检测生成的待反馈给用户的文本中是否存在不符合语言规律的目标子句,若存在,则对待反馈给用户的文本进行修复后再进行显示。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种显示设备,其特征在于,所述显示设备包括:
音频处理器,用于对接收的音频数据处理;
视频处理器,用于对接收的视频数据处理;
显示屏,用于显示图像;
控制器,所述控制器被配置为:
获取语言生成模型生成的目标文本,所述目标文本中包括至少一个子句;
确定所述至少一个子句中是否存在不符合语言规律的目标子句;
当所述至少一个子句中存在不符合语言规律的目标子句时,
基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子,
当所述相似句子与所述目标子句的相似度小于预设相似度阈值时,从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
2.根据权利要求1所述的显示设备,其特征在于,所述控制器具体用于:
根据语言模型计算所述至少一个子句中各个子句的得分;
将所述至少一个子句中得分小于第一得分阈值的子句确定为不符合所述语言规律的目标子句。
3.根据权利要求1所述的显示设备,其特征在于,所述控制器还用于:
当所述相似句子与所述目标子句的相似度大于或等于预设相似度阈值时,利用所述相似句子替换所述目标子句。
4.根据权利要求1所述的显示设备,其特征在于,所述控制器具体用于:
基于doc2vec的平滑模型,将所述目标子句转换为空间中的句子向量;
在预设语料库中选取与所述目标子句对应的句子向量距离最近的目标句子向量,将所述目标句子向量对应的语句确定为与所述目标子句相似度最大的相似句子。
5.一种自然语言生成后处理方法,其特征在于,所述方法包括:
获取语言生成模型生成的目标文本,所述目标文本中包括至少一个子句;
确定所述至少一个子句中是否存在不符合语言规律的目标子句;
当所述至少一个子句中存在不符合语言规律的目标子句时,基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子,
当所述相似句子与所述目标子句的相似度小于预设相似度阈值时,从与所述目标文本相关的作品类型所对应的多个情感词维度中随机选取一个情感词维度;其中,各个作品类型对应至少一个情感词维度,且各个情感词维度中包括至少一个情感词;
在选取的情感词维度中随机选取一个目标情感词,并利用所述目标情感词替换所述目标子句。
6.根据权利要求5所述的方法,其特征在于,所述确定所述至少一个子句中是否存在不符合语言规律的目标子句,包括:
根据语言模型计算所述至少一个子句中各个子句的得分;
将所述至少一个子句中得分小于第一得分阈值的子句确定为不符合所述语言规律的目标子句。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述相似句子与所述目标子句的相似度大于或等于预设相似度阈值时,利用所述相似句子替换所述目标子句。
8.根据权利要求5所述的方法,其特征在于,所述基于doc2vec的平滑模型,得到与所述目标子句相似度最大的相似句子,包括:
基于doc2vec的平滑模型,将所述目标子句转换为空间中的句子向量;
在预设语料库中选取与所述目标子句对应的句子向量距离最近的目标句子向量,将所述目标句子向量对应的语句确定为与所述目标子句相似度最大的相似句子。
CN202011137540.6A 2020-10-22 2020-10-22 显示设备与自然语言生成后处理方法 Active CN112256232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011137540.6A CN112256232B (zh) 2020-10-22 2020-10-22 显示设备与自然语言生成后处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011137540.6A CN112256232B (zh) 2020-10-22 2020-10-22 显示设备与自然语言生成后处理方法

Publications (2)

Publication Number Publication Date
CN112256232A CN112256232A (zh) 2021-01-22
CN112256232B true CN112256232B (zh) 2023-08-15

Family

ID=74265075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011137540.6A Active CN112256232B (zh) 2020-10-22 2020-10-22 显示设备与自然语言生成后处理方法

Country Status (1)

Country Link
CN (1) CN112256232B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177104B (zh) * 2021-04-28 2023-10-03 平安科技(深圳)有限公司 基于自然语言处理的语句筛选方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN111128185A (zh) * 2019-12-25 2020-05-08 北京声智科技有限公司 一种语音转文字的方法、装置、终端及存储介质
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204182B2 (en) * 2006-12-19 2012-06-19 Nuance Communications, Inc. Dialect translator for a speech application environment extended for interactive text exchanges
US10333874B2 (en) * 2016-06-29 2019-06-25 International Business Machines Corporation Modification of textual messages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN111128185A (zh) * 2019-12-25 2020-05-08 北京声智科技有限公司 一种语音转文字的方法、装置、终端及存储介质
CN111428474A (zh) * 2020-03-11 2020-07-17 中国平安人寿保险股份有限公司 基于语言模型的纠错方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112256232A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112163086B (zh) 多意图的识别方法、显示设备
CN112511882B (zh) 一种显示设备及语音唤起方法
CN111984763B (zh) 一种答问处理方法及智能设备
CN112000820A (zh) 一种媒资推荐方法及显示设备
CN111949782B (zh) 一种信息推荐方法和服务设备
CN112004157B (zh) 一种多轮语音交互方法及显示设备
CN112182196A (zh) 应用于多轮对话的服务设备及多轮对话方法
CN112002321B (zh) 显示设备、服务器及语音交互方法
CN114118064A (zh) 显示设备、文本纠错方法及服务器
CN112188249B (zh) 一种基于电子说明书的播放方法及显示设备
CN111836083B (zh) 显示设备及屏幕发声方法
KR20140022320A (ko) 영상표시장치와 서버의 동작 방법
CN111866568B (zh) 一种显示设备、服务器及基于语音的视频集锦获取方法
CN112256232B (zh) 显示设备与自然语言生成后处理方法
CN114627864A (zh) 显示设备与语音交互方法
CN113035194B (zh) 一种语音控制方法、显示设备及服务器
CN111950288B (zh) 一种命名实体识别中的实体标注方法及智能设备
CN112261290B (zh) 显示设备、摄像头以及ai数据同步传输方法
CN114155846A (zh) 一种语义槽提取方法及显示设备
CN111914114A (zh) 一种badcase挖掘方法及电子设备
CN113038217A (zh) 一种显示设备、服务器及应答语生成方法
CN112261289A (zh) 显示设备及ai算法结果获取方法
CN111914565A (zh) 电子设备及用户语句的处理方法
CN112329475B (zh) 语句处理方法及装置
CN112259096B (zh) 语音数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant