CN116245101A - 终端设备及新词发现方法 - Google Patents
终端设备及新词发现方法 Download PDFInfo
- Publication number
- CN116245101A CN116245101A CN202310099993.1A CN202310099993A CN116245101A CN 116245101 A CN116245101 A CN 116245101A CN 202310099993 A CN202310099993 A CN 202310099993A CN 116245101 A CN116245101 A CN 116245101A
- Authority
- CN
- China
- Prior art keywords
- semantic
- target text
- words
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种终端设备及新词发现方法,所述方法可以响应于指示在目标文本中检测新词的控制指令,将目标文本输入至语言模型,以得到目标文本的语义向量和预测向量,再根据语义向量和预测向量,将目标文本切分成多个候选词,以及在多个候选词中检测新词。其中,语义向量用于表征目标文本中每个字的语义特征,预测向量用于表征根据目标文本上下文信息预测得到的目标文本中相邻词的语义特征,语言模型为根据训练样本语料预训练获得的神经网络模型。所述方法可以在新词挖掘的过程中,结合文本中每个字本身的语义信息判断能否组成新词,并且可以针对特定领域的文本语义进行新词发现,提高新词发现的效率和准确性。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种终端设备及新词发现方法。
背景技术
新词是指随着时代的更新而新出现或者旧词新用的词,例如:奥力给,yyds,山寨等,为了避免新词的剧增给用户带来交流障碍,需要持续发现新词以更新现有词典,新词发现就是通过对特定语料进行挖掘,从中识别出新词。
在传统的新词发现算法中,首先根据N-gram(N元算法)进行切词,组成一个备选的全量词典,然后计算词语的互信息和左右熵,即每一个词内部的紧密度和外部的自由度,最后根据设定的阈值以及词频等信息挖掘出新的词语。上述方法通过计算语料库中每一字与前后出现的字的相互关系,根据这种相互关系判断相邻的字之间能否组合成一个新词,忽略了每个字以及前后的字组成的待选词语的语义信息,无法结合每个字本身的含义来进行新词发现。并且上述方法对语料库的规模要求较高,如果语料库的规模过小,则无法根据词频以及每个待选词语的互信息和左右熵来判断能否组成新的词语,难以达到较为准确和便利的新词发现效果。
发明内容
本申请提供了一种终端设备及新词发现方法,以解决新词发现算法中新词发现的准确性较低的问题。
第一方面,本申请提供一种终端设备,包括:存储器和控制器。其中,所述存储器被配置为存储语言模型,所述语言模型为根据训练样本语料预训练获得的神经网络模型;所述控制器被配置为执行以下程序步骤:
响应于指示在目标文本中检测新词的控制指令,将所述目标文本输入至所述语言模型,以得到所述目标文本的语义向量和预测向量,所述语义向量用于表征所述目标文本中每个字的语义特征,所述预测向量用于表征根据所述目标文本上下文信息预测得到的所述目标文本中相邻词的语义特征;
根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词,以及在所述多个候选词中检测新词。
第二方面,本申请还提供一种新词发现方法,包括:
响应于指示在目标文本中检测新词的控制指令,将所述目标文本输入至语言模型,以得到所述目标文本的语义向量和预测向量,所述语义向量用于表征所述目标文本中每个字的语义特征,所述预测向量用于表征根据所述目标文本上下文信息预测得到的所述目标文本中相邻词的语义特征,所述语言模型为根据训练样本语料预训练获得的神经网络模型;
根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词,以及在所述多个候选词中检测新词。
由以上技术方案可知,本申请提供的终端设备及新词发现方法可以响应于指示在目标文本中检测新词的控制指令,将目标文本输入至语言模型,以得到目标文本的语义向量和预测向量,再根据语义向量和预测向量,将目标文本切分成多个候选词,以及在多个候选词中检测新词。其中,语义向量用于表征目标文本中每个字的语义特征,预测向量用于表征根据目标文本上下文信息预测得到的目标文本中相邻词的语义特征,语言模型为根据训练样本语料预训练获得的神经网络模型。所述方法可以在新词挖掘的过程中,结合文本中每个字本身的语义信息判断能否组成新词,并且可以针对特定领域的文本语义进行新词发现,提高新词发现的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中终端设备与控制装置之间操作场景的示意图;
图2为本申请实施例中终端设备的硬件配置框图;
图3为本申请实施例中终端设备的硬件配置框图;
图4为本申请实施例中终端设备的软件配置示意图;
图5为本申请实施例中语言模型的预训练流程示意图;
图6为本申请实施例中新词发现方法的流程示意图;
图7为本申请实施例中遮盖“吃苹”两个字时的分析示意图;
图8为本申请实施例中遮盖“苹果”两个字时的分析示意图;
图9为本申请实施例中确定切分位置的流程示意图;
图10为本申请实施例中过滤常见词和停用词的流程示意图。
具体实施方式
为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。
应当理解,本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请实施方式提供的终端设备可以具有多种实施形式,例如,可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的终端设备的一种具体实施方式。
图1为根据实施例中终端设备与控制装置之间操作场景的示意图。如图1所示,用户可通过智能设备300或控制装置100操作终端设备200。
在一些实施例中,控制装置100可以是遥控器,遥控器和终端设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式等,通过无线或其他有线方式来控制终端设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制终端设备200。如:用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令,来实现控制终端设备200的功能。
在一些实施例中,也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制终端设备200。例如,使用在智能设备上运行的应用程序控制终端设备200。该应用程序通过配置可以在与智能设备关联的屏幕上,在直观的用户界面(UI)中为用户提供各种控制。
在一些实施例中,终端设备可以不使用上述的智能设备或控制设备接收指令,而是通过触摸或者手势等接收用户的控制。
在一些实施例中,终端设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过终端设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过终端设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
在一些实施例中,移动终端300可与终端设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。如:可以实现用移动终端300与终端设备200建立控制指令协议,将遥控控制键盘同步到移动终端300上,通过控制移动终端300上用户界面,实现控制终端设备200的功能。也可以将移动终端300上显示音视频内容传输到终端设备200上,实现同步显示功能。
在一些实施例中,终端设备200还与服务器400进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。示例的,终端设备200通过发送和接收信息,以及电子节目指南(EPG)互动,接收软件程序更新,或访问远程储存的数字媒体库。服务器400可以向终端设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为终端设备200可识别和响应的指令,起到用户与终端设备200之间交互中介作用。
如图3所示,终端设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中控制器包括处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。
显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。终端设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
用户接口,可用于接收控制装置100(如:红外遥控器等)的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
外部装置接口240可以包括但不限于如下:高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。
在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机项盒等。
控制器250,通过存储在存储器上中各种软件控制程序,来控制终端设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM RandomAccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
如图4所示,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等;也可以是第三方开发者所开发的应用程序,比如嗨见程序、K歌程序、魔镜程序等。在具体实施时,应用程序层中的应用程序包不限于以上举例,实际还可以包括其它应用程序包,本申请实施例对此不做限制。
框架层为应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图4所示,本申请实施例中应用程序框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互;位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(NotificationManager)用于控制通知消息的显示和清除;窗口管理器(WindowManager)用于管理用户界面上的图标、窗口、工具栏、壁纸和桌面部件。
在一些实施例中,活动管理器用于:管理各个应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。
在一些实施例中,窗口管理器用于管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图4所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在一些实施例中,终端设备200内置存储器,其中,存储器可以用于存储文本、自然语言处理模型、控制程序等数据。终端设备200可以从存储器中调用数据,并通过运行控制程序对调用的数据执行处理,以实现终端设备200的整体操作。例如,终端设备200可以基于预训练的语言模型进行新词发现,终端设备可以将训练好的BERT模型、Roberta模型、Albert模型等预训练的语言模型存储在存储器中,以供后续新词发现时进行调用。
新词发现旨在通过对特定语料进行挖掘,从中识别出新词。其中,新词发现算法包括多种,例如,通过计算语料库中每一字与前后出现的字的相互关系,根据这种相互关系判断相邻的字之间能否组合成一个新词,但上述方法忽略每个字以及前后的字组成的待选词语的语义信息,无法结合每个字本身的含义来进行新词发现,并且对语料库的规模要求较高,如果语料库的规模过小,则难以达到较为准确和便利的新词发现效果。
又例如,根据Punctuation-Entropy-PMI算法处理并筛选文本,使用BERT预训练模型进行文本增强,然后标记所属预测序列中的候选词,再使用BERT分类模型训练并判断候选词是否为新词。上述方案中,BERT预训练模型用于文本增强,BERT分类模型用于判断候选词是否为新词,也就是说,进行新词发现时使用分类模型结合输入文本序列和候选词的关系来判断候选词是否为新词,并未结合候选词的语义信息,无法解决语料过少或者进行特定领域的新词发现时准确性较低的问题。又例如,使用词库对待分割字符串进行分词处理,再进行BIO(Block Input Output,阻塞式输入和输出)标注,将新词发现任务转换成命名体识别任务进行处理。或者基于字符串的统计信息,即候选词的内部紧密度和外部自由度进行新词发现。
可见,上述新词发现算法是基于字符串的统计信息,或者基于预训练模型进行分类,或者命名体识别等方式进行的,在新词发现时并不能充分利用语料库和文本中每个字的语义信息,在语料过少或者进行特定领域的新词发现时,新词发现的效率和准确性较低。
为了提高新词发现的效率和准确性,本申请的部分实施例中还提供一种新词发现方法,应用于终端设备200,用于对待进行新词发现的文本进行新词挖掘。其中,能够应用所述新词发现方法的终端设备200包括:存储器以及控制器250。所述存储器被配置为存储语言模型,所述语言模型为根据训练样本语料预训练获得的神经网络模型。所述控制器250则被配置为执行上述新词发现方法。
在本申请实施例中,新词发现方法包括两个阶段,即语言模型的预训练和基于语言模型进行新词发现。图5为本申请实施例中语言模型的预训练流程示意图,如图5所示,在进行语言模型的预训练时,控制器250可以获取训练样本语料,构建神经网络模型,将训练样本语料输入神经网络模型中,以及基于神经网络模型对训练样本语料之间的语义关系进行训练,以得到语言模型。在完成模型的预训练过程以后,控制器250将预训练获得的语音模型存储在存储器中,以供后续新词发现时进行调用。
在一些实施例中,训练样本语料可以为开源的大规模语料,基于开源的大规模语料进行模型训练,可以得到较为通用的语言模型。训练样本语料还可以为来源于目标领域的文本语料,基于目标领域的语料文本进行模型训练,可以得到针对特定领域的语言模型。
可以理解的是,不同特定领域的语言模型可以实现不同特定领域的新词挖掘。基于语言模型进行新词发现的过程中,通过特定领域的语言模型可以得到文本中每个字在特定领域下的语义特征,从而得到针对特定领域的新词发现结果。
例如,训练样本语料为来源于新闻领域的语料文本,控制器250可以将来源于新闻领域的训练样本语料输入初始的神经网络模型中,进行模型训练,以得到针对新闻领域的语言模型。由于预训练的语言模型是依据新闻领域相关的语料文本进行训练得到的,在新词发现时,语言模型针对输入的文本,会输出每个字在新闻领域的语义特征,使得进行新闻领域的新词发现时,着重挖掘新闻相关的词语,实现针对新闻场景的新词发现。
上述实施例中所述的神经网络模型可以是基于自然语言处理(Natural LanguageProcessing,NLP)的模型。例如,BERT(Bidirectional Encoder Representation fromTransformers)模型以及基于BERT模型进行优化或修改所获得的其他NLP模型,如Roberta模型、Albert模型等。
在一些实施例中,可以基于BERT模型对大规模无标注的文本语料进行预训练,得到预训练的语言模型,并根据预训练的语言模型,获得文本的包含语义信息的表示,即:文本的语义表示。在基于深度神经网络的自然语言处理方法中,文本中的字/词可以采用向量表示,称为字向量/词向量。因此,预训练的语言模型可以输出字向量/词向量作为文本的语义表示。
模型的预训练过程就是逐渐调整模型参数,使得模型输出的文本语义表示能够刻画语言的本质。BERT模型的预训练过程中会使用掩码语言模型(Masked Language Model,MLM)训练文本中词之间的语义关系。具体的,将文本语料中每句话中随机遮盖/替换一个或几个字/词,使模型根据剩余词汇预测被遮盖/替换的一个或几个字/词。
可以采用n-gram mask的方法进行MLM的预训练任务,通过预测n-gram片段,每个片段的长度取值n,例如,2-gram mask的方法,即每次遮盖两个相邻的字,然后根据文本语料中前后文预测被遮盖的两个字的向量表示。
在一些实施例中,控制器250可以不进行语言模型的预训练,而是通过获取使用开源的已经训练好的预训练模型作为语言模型,存储至存储器,以供后续新词发现时进行调用。例如,已发布的中文BERT预训练模型等。
获取到预训练的语言模型后,可以基于预训练的语言模型进行新词发现。图6为本申请实施例中新词发现方法的流程示意图,如图6所示,控制器250被配置为执行上述新词发现方法,具体包括以下内容:
S100,响应于指示在目标文本中检测新词的控制指令,将目标文本输入至语言模型,以得到目标文本的语义向量和预测向量。
其中,语义向量用于表征目标文本中每个字的语义特征,预测向量用于表征根据目标文本上下文信息预测得到的目标文本中相邻词的语义特征。控制器250可以获取指示在目标文本中检测新词的控制指令,在存储器中调取语言模型,并将目标文本输入至语言模型,以通过语言模型获取目标文本的语义向量和预测向量。
具体的,控制器250将目标文本输入至语言模型,语言模型将目标文本的各个字作为输入,并输出目标文本中每个字的语义向量,语义向量为目标文本中各个字融合目标文本全文语义信息后的向量表示,即字向量,字向量包含目标文本的语义特征。获取到目标文本的语义向量后,控制器250可以根据目标文本中每个字的语义向量和语言模型进行基于语义信息的新词发现。
在进行基于语义信息的新词发现时,控制器250可以根据语言模型对目标文本进行分析,得到表征目标文本中相邻词的语义特征的预测向量。在一些实施例中,语言模型的预训练过程中,可以使用掩码语言模型训练文本中词之间的语义关系,因此,可以通过遮盖部分相邻词,然后通过语言模型根据前后文来预测被遮盖掉的相邻词的向量表示,即预测向量。
需要说明的是,相邻词是指文本中相邻的两个词,在中文环境下,词可以是单字词,也可以是多字词。
在一些实施例中,控制器250可以在目标文本中标记预设数量的遮盖符号,遮盖符号用于遮盖目标文本中相邻词,例如,遮盖符号可以为[MASK]或[M]。
将带有遮盖符号的目标文本输入至语言模型,以使语言模型根据未被遮盖符号遮盖的词对遮盖符号遮盖的相邻词进行预测,以得到目标文本中相邻词的预测向量。
示例性的,以目标文本为“我爱吃苹果”为例,可以标记预设数量的遮盖符号,遮盖掉目标文本“我爱吃苹果”中的相邻词,并通过语言模型根据目标文本中未被遮盖的词汇来预测被遮盖掉的相邻词的向量表示。例如,如图7所示,图7为本申请实施例中遮盖“吃苹”两个字时的分析示意图。通过遮盖符号[M]遮盖掉“吃苹”两个字,则语言模型会使用目标文本中前后文“我爱”和“果”来预测被遮盖掉的词的向量表示,以得到目标文本中被遮盖掉的两个字的向量表示。如图7所示,遮盖掉“吃苹”两个字后,通过语言模型预测被遮盖掉的两个字的向量表示,“我”可以通过向量x0表示,“爱”可以通过向量x1表示,“果”可以通过向量x4表示,由此,预测得到被遮盖掉的两个字的向量表示分别为x2、x3。
又例如,如图8所示,图8为本申请实施例中遮盖“苹果”两个字时的分析示意图,通过遮盖符号[M]遮盖掉“苹果”两个字,则语言模型会使用目标文本中前后文“我爱吃”来预测被遮盖掉的词的向量表示,以得到目标文本中被遮盖掉的两个字的向量表示。如图8所示,遮盖掉“苹果”两个字后,通过语言模型预测被遮盖掉的两个字的向量表示,“我”可以通过向量y0表示,“爱”可以通过向量y1表示,“吃”可以通过向量y2表示,由此,预测得到被遮盖掉的两个字的向量表示分别为y3、y4。
可以理解的是,通过每次遮盖目标文本中预设数量的相邻词,并通过语言模型根据未被遮盖的词汇对遮盖的相邻词进行预测,进而可以得到目标文本中每个相邻词的预测向量。
在一些实施例中,可以每次随机遮盖目标文本的相邻词,还可以按照目标文本的序列每次遮盖相邻词,即依次遮盖掉“我爱”,“爱吃”,“吃苹”,“苹果”,并在遮盖掉相邻词后,通过语言模型预测被遮盖掉的相邻词的向量表示,以获取目标文本中每个相邻词的预测向量。
在一些实施例中,遮盖符号的数量可以根据目标文本的序列长度决定,对于较短的文本序列,可以设置一个遮盖符号,例如,目标文本为“我爱吃苹果”可以每次设置一个遮盖符号。而对于较长的文本序列可以设置多个遮盖符号。控制器250可通过检测目标文本的序列长度,根据序列长度确定遮盖符号的数量。例如,目标文本为“凉凉夜色为你思念成河”,可以每次设置两个遮盖符号。
上述示例仅示出目标文本为一句话的情况,在一些实施例中,目标文本还可以包含多个段落,每个段落包含多句话,例如,一篇新闻的文章。通常,文本可以通过文本符号作为分界符,划分出段和句,例如,逗号、句号、感叹号等。因此,在目标文本中标记预设数量的遮盖符号时,控制器250可以按照文本符号,将目标文本划分成多个文本片段,在每个文本片段中标记遮盖符号。
此外,在终端设备200中,可以运行维护一个词库,针对于特定领域,可将特定领域中的常用句和停用句存储至预设词库中,也就是说,预设词库中可以存储常见句和停用句,在对目标文本进行新词发现时,控制器250可以按照文本符号,将目标文本划分成多个文本片段后,基于预设词库,遍历多个文本片段,在多个文本片段中筛选并过滤常见句和停用句。
S200,根据语义向量和所述预测向量,将目标文本切分成多个候选词。
获取到目标文本的语义向量和预测向量后,控制器250可以对目标文本进行分词,即将目标文本的文本序列切分成一个一个单独的词,作为候选词,以便后续进行新词检测。
语义向量表征目标文本中每个字的语义特征,预测向量表征根据目标文本上下文信息预测得到的目标文本中相邻词的语义特征。因此,可以根据语义向量和预测向量判断目标文本中每个相邻词之间语义的关联性,并根据关联性判断能否对该相邻词进行切分,即根据语义特征判断能否进行分词。
控制器250可以根据语义向量和预测向量,计算语义差距值,并根据语义差距值,确定切分位置。由于语言模型在预测被遮盖掉的相邻词时,根据目标文本的前后文对被遮盖掉的相邻词进行预测,预测得到的相邻词的预测向量与目标文本中相邻词的语义向量会有一定差距,即语义差距值,语义差距值可以表征目标文本中相邻词之间的语义关联度,即相邻词之间语义的关联性。也就是说,语义差距值越大,相邻词之间的语义关联度越小,说明该相邻字之间可以进行切分,则确定该相邻词之间为切分位置。相应的,语义差距值越小,相邻词之间的语义关联度越大,说明该相邻字之间不可以进行切分,则确定该相邻词之间为不切分位置。
确定切分位置后,可以按照切分位置对目标文本进行切分,以得到多个候选词。例如,以目标文本为“我爱吃苹果”为例,遮盖掉“吃苹”两个字后,语言模型根据目标文本中前后文“我爱”和“果”来预测中间出现的被遮盖掉的词的预测向量。由于中间的词语被遮盖,并且前后文之间并没有明确的逻辑关系,则预测得到被遮盖掉的词的预测向量与该词的语义向量之间的语义差距值较大,则在“吃苹”两个字之间进行切分。而遮盖掉“苹果”两个字后,语言模型根据目标文本中前后文“我爱吃”来预测被遮盖掉的词的预测向量,则预测得到被遮盖掉的词的预测向量与该词的语义向量之间的语义差距值较小,则在“苹果”两个字之间不进行切分。
语义向量和预测向量均是表征语义特征的向量,而语义相近的字或词在特征向量空间上的距离也会比较接近,即目标文本中相邻词的语义向量和预测向量之间的距离越近,说明语义差距值越小,相邻词之间的语义关联度越大。因此,控制器250在计算语义差距值时,可以获取预测向量和与标准向量,其中,预测向量和为目标文本中相邻词的预测向量之和,标准向量为相邻词的语义向量之和。根据字向量和词向量之间的逻辑关系,词向量可以表示为组成它的几个字向量的和,例如,“苹”的字向量为v3,“果”的字向量为v4,“苹果”一词的向量为(v3+v4)。
获取到预测向量和与标准向量后,计算预测向量和与标准向量的向量距离,以得到语义差距值。
示例性的,以目标文本为“我爱吃苹果”为例,根据语言模型可以得到该目标文本中每个字的语义向量,例如,定义“我″、“爱”、“吃”、“苹”、“果”五个字的语义向量表示分别为v0、v1、v2、v3、v4,以作为判断语义的关联性的基准。
如图7所示,遮盖掉“吃苹”两个字后,语言模型预测得到被遮盖掉的相邻词的预测向量和为(x2+x3),该相邻词的标准向量为(v2+v3)。根据预测向量和(x2+x3)与标准向量(v2+v3)计算语义差距值:
H0=d((v2+v3),(x2+x3))
其中,H0表示语义差距值,d()表示向量距离。
如图8所示,遮盖掉“苹果”两个字后,语言模型预测得到被遮盖掉的相邻词的预测向量和为(y3+y4),该相邻词的标准向量为(v3+v4)。根据预测向量和(y3+y4)与标准向量(v3+v4)计算语义差距值:
H1=d((v3+v4),(y3+y4))
其中,H1表示语义差距值,d()表示向量距离。
需要说明的是,向量距离d()可以为欧式距离,也可以为曼哈顿距离、切比雪夫距离、马氏距离等,本申请对此不做限制。
在一些实施例中,根据语义差距值,确定切分位置时,如图9所示,图9为本申请实施例中确定切分位置的流程示意图。控制器250可以获取语义差距阈值,根据语义差距阈值确定切分位置,语义差距阈值可以为用户设置输入的一个阈值。如果语义差距值大于或等于语义差距阈值,确定相邻词之间为切分位置,如果语义差距值小于语义差距阈值,确定相邻词之间为不可切分位置。例如,语义差距阈值为Ha,如图8所示,遮盖掉“苹果”两个字后,计算得到的语义差距值为H1=d((v3+v4),(y3+y4)),H1小于Ha,则确定所述相邻词之间为不可切分位置,在“苹果”两个字之间不进行切分。
需要说明的是,确定相邻词之间是否可以进行切分可以如上述方案中设定一个阈值来判定,也可以通过进行数据标注,训练一个逻辑回归等的算法来进行切分的判断。
S300,在多个候选词中检测新词。
当通过上述方案对目标文本进行切分之后,得到多个候选词,再在多个候选词中检测新词,以得到新词发现的结果。
对于在目标文本中划分出的候选词,每个候选词的词频越高,其成词的可能越高,其中,词频用于表征候选词在目标文本中出现的频率。因此,在多个候选词中检测新词时,控制器250可以统计每个候选词的词频,根据词频确定该候选词是否为新词。为了提高新词发现的准确性,可以设置一个词频阈值,在检测新词时,控制器250可以获取词频阈值,并计算每个候选词的词频,将词频与词频阈值进行比较,如果词频大于或等于词频阈值,确定候选词为新词,如果词频小于词频阈值,确定候选词不为新词。通过分析每个候选词的词频,进而得到目标文本的新词发现的结果。
目标文本中划分出的候选词中还可能包括一些常见词和停用词,因此,为了提高新词发现的效率,终端设备200中运行维护的词库中还可以存储常见词表和停用词表,例如,新闻领域中,“全面禁止”、“友好关系”等常见词。如图10所示,图10为本申请实施例中过滤常见词和停用词的流程示意图。控制器250可以遍历多个候选词,并基于预设词库,在多个候选词中筛选常见词和停用词,以及过滤常见词和停用词。
本申请实施例中,对于待新词发现的文本进行新词的挖掘过程中,应用预训练模型中的文本特征信息,该模型可以比较好的保留语料中文本的语义特征,使得在新词发现的过程中能够参考文本中每个字的语义信息。通过对待新词发现的文本进行分析,使用预训练模型中的语义信息判断每个相邻的字之间语义的关联性,根据关联性判断能否对这两个相邻字进行切分,最后得到待新词发现文本的分词结果。此分词结果完全是基于预训练模型中每个字的语义向量来进行切分的,是无监督的分词结果。并且是根据文本中每个字之间语义的关联性来进行新词挖掘的,可以针对极少量文本的新词发现,即使只有一句或者几句话,也可以根据预训练模型中的文本特征,进行准确的新词发现。同时可以实现针对特定领域的文本语义的新词发现,提高新词发现的效率和准确性。
基于上述终端设备200,在本申请的部分实施例中还提供一种新词发现方法。包括:
响应于指示在目标文本中检测新词的控制指令,将所述目标文本输入至语言模型,以得到所述目标文本的语义向量和预测向量。
其中,所述语义向量用于表征所述目标文本中每个字的语义特征,所述预测向量用于表征根据所述目标文本上下文信息预测得到的所述目标文本中相邻词的语义特征,所述语言模型为根据训练样本语料预训练获得的神经网络模型。
根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词,以及在所述多个候选词中检测新词。
由以上技术方案可知,上述实施例提供的终端设备及新词发现方法可以响应于指示在目标文本中检测新词的控制指令,将目标文本输入至语言模型,以得到目标文本的语义向量和预测向量,再根据语义向量和预测向量,将目标文本切分成多个候选词,以及在多个候选词中检测新词。其中,语义向量用于表征目标文本中每个字的语义特征,预测向量用于表征根据目标文本上下文信息预测得到的目标文本中相邻词的语义特征,语言模型为根据训练样本语料预训练获得的神经网络模型。所述方法可以在新词挖掘的过程中,结合文本中每个字本身的语义信息判断能否组成新词,并且可以针对特定领域的文本语义进行新词发现,提高新词发现的效率和准确性。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种终端设备,其特征在于,包括:
存储器,被配置为存储语言模型,所述语言模型为根据训练样本语料预训练获得的神经网络模型;
控制器,被配置为:
响应于指示在目标文本中检测新词的控制指令,将所述目标文本输入至所述语言模型,以得到所述目标文本的语义向量和预测向量,所述语义向量用于表征所述目标文本中每个字的语义特征,所述预测向量用于表征根据所述目标文本上下文信息预测得到的所述目标文本中相邻词的语义特征;
根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词,以及在所述多个候选词中检测新词。
2.根据权利要求1所述的终端设备,其特征在于,所述控制器还被配置为:
将所述目标文本输入至所述语言模型,以得到所述语言模型输出的所述目标文本中每个字的语义向量,所述语义向量为融合所述目标文本全文语义信息后的向量表示;
在所述目标文本中标记预设数量的遮盖符号,所述遮盖符号用于遮盖所述目标文本中相邻词;
将带有所述遮盖符号的目标文本输入至所述语言模型,以使所述语言模型根据未被所述遮盖符号遮盖的词对所述遮盖符号遮盖的相邻词进行预测,以得到所述目标文本中相邻词的预测向量。
3.根据权利要求1所述的终端设备,其特征在于,在所述目标文本中标记预设数量的遮盖符号的步骤,所述控制器还被配置为:
按照预设词库以及文本符号,将所述目标文本划分成多个文本片段;
在每个所述文本片段中标记所述遮盖符号。
4.根据权利要求1所述的终端设备,其特征在于,根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词的步骤,所述控制器还被配置为:
根据所述语义向量和所述预测向量,计算语义差距值,所述语义差距值用于表征所述目标文本中相邻词之间的语义关联度;
根据所述语义差距值,确定切分位置;
按照所述切分位置对所述目标文本进行切分,以得到多个候选词。
5.根据权利要求4所述的终端设备,其特征在于,根据所述语义向量和所述预测向量,计算语义差距值的步骤,所述控制器还被配置为:
获取预测向量和,所述预测向量和为所述目标文本中相邻词的预测向量之和;
获取标准向量,所述标准向量为所述相邻词的语义向量之和;
计算所述预测向量和与所述标准向量的向量距离,以得到语义差距值。
6.根据权利要求4所述的终端设备,其特征在于,根据所述语义差距值,确定切分位置的步骤,所述控制器还被配置为:
获取语义差距阈值;
如果所述语义差距值大于或等于所述语义差距阈值,确定所述相邻词之间为切分位置;
如果所述语义差距值小于所述语义差距阈值,确定所述相邻词之间为不可切分位置。
7.根据权利要求1所述的终端设备,其特征在于,在所述多个候选词中检测新词的步骤,所述控制器还被配置为:
遍历所述多个候选词;
基于预设词库,在所述多个候选词中筛选常见词和停用词;
过滤所述常见词和所述停用词。
8.根据权利要求1所述的终端设备,其特征在于,在所述多个候选词中检测新词的步骤,所述控制器还被配置为:
计算每个所述候选词的词频,所述词频用于表征所述候选词在所述目标文本中出现的频率;
获取词频阈值;
如果所述词频大于或等于所述词频阈值,确定所述候选词为新词;
如果所述词频小于所述词频阈值,确定所述候选词不为新词。
9.根据权利要求1所述的终端设备,其特征在于,所述控制器还被配置为:
获取训练样本语料,所述训练样本语料为来源于目标领域的文本语料;
构建神经网络模型,以及基于所述神经网络模型对所述训练样本语料之间的语义关系进行训练,以得到语言模型。
10.一种新词发现方法,其特征在于,所述方法包括:
响应于指示在目标文本中检测新词的控制指令,将所述目标文本输入至语言模型,以得到所述目标文本的语义向量和预测向量,所述语义向量用于表征所述目标文本中每个字的语义特征,所述预测向量用于表征根据所述目标文本上下文信息预测得到的所述目标文本中相邻词的语义特征,所述语言模型为根据训练样本语料预训练获得的神经网络模型;
根据所述语义向量和所述预测向量,将所述目标文本切分成多个候选词,以及在所述多个候选词中检测新词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310099993.1A CN116245101A (zh) | 2023-02-06 | 2023-02-06 | 终端设备及新词发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310099993.1A CN116245101A (zh) | 2023-02-06 | 2023-02-06 | 终端设备及新词发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116245101A true CN116245101A (zh) | 2023-06-09 |
Family
ID=86625566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310099993.1A Pending CN116245101A (zh) | 2023-02-06 | 2023-02-06 | 终端设备及新词发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245101A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133817A (zh) * | 2024-05-07 | 2024-06-04 | 广东南方电信规划咨询设计院有限公司 | 基于有向图分析的新词检测方法及装置 |
-
2023
- 2023-02-06 CN CN202310099993.1A patent/CN116245101A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118133817A (zh) * | 2024-05-07 | 2024-06-04 | 广东南方电信规划咨询设计院有限公司 | 基于有向图分析的新词检测方法及装置 |
CN118133817B (zh) * | 2024-05-07 | 2024-08-06 | 广东南方电信规划咨询设计院有限公司 | 基于有向图分析的新词检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5243969B2 (ja) | キーによる手書きスタイルデータのインプット | |
CN112163086B (zh) | 多意图的识别方法、显示设备 | |
CN112885354A (zh) | 一种显示设备、服务器及基于语音的显示控制方法 | |
CN114118064A (zh) | 显示设备、文本纠错方法及服务器 | |
CN113038048B (zh) | 一种远场语音唤醒方法和显示设备 | |
CN112002321B (zh) | 显示设备、服务器及语音交互方法 | |
CN116245101A (zh) | 终端设备及新词发现方法 | |
US11184670B2 (en) | Display apparatus and control method thereof | |
WO2022100283A1 (zh) | 显示设备、控件触发方法及滚动文本检测方法 | |
KR20220040997A (ko) | 전자 장치 및 그 제어 방법 | |
US11399216B2 (en) | Electronic apparatus and controlling method thereof | |
CN113490057B (zh) | 显示设备和媒资推荐方法 | |
CN114840711B (zh) | 一种智能设备与主题构建方法 | |
CN115273848A (zh) | 一种显示设备及显示设备的控制方法 | |
CN112926420B (zh) | 一种显示设备和菜单文字识别方法 | |
CN113658598B (zh) | 一种显示设备的语音交互方法及显示设备 | |
CN115270808A (zh) | 显示设备和语义理解方法 | |
KR20220143622A (ko) | 전자 장치 및 그 제어 방법 | |
CN113934501A (zh) | 翻译方法、装置、存储介质及电子设备 | |
CN111914114A (zh) | 一种badcase挖掘方法及电子设备 | |
CN116151272A (zh) | 一种终端设备及语义意图的识别方法 | |
CN114296842B (zh) | 显示设备和滚动文本检测方法 | |
CN114155846A (zh) | 一种语义槽提取方法及显示设备 | |
CN111950288A (zh) | 一种命名实体识别中的实体标注方法及智能设备 | |
CN115314737B (zh) | 一种内容显示方法、显示设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |