CN115563933B - 词编码方法、装置、存储介质与电子设备 - Google Patents

词编码方法、装置、存储介质与电子设备 Download PDF

Info

Publication number
CN115563933B
CN115563933B CN202211168503.0A CN202211168503A CN115563933B CN 115563933 B CN115563933 B CN 115563933B CN 202211168503 A CN202211168503 A CN 202211168503A CN 115563933 B CN115563933 B CN 115563933B
Authority
CN
China
Prior art keywords
word
context
words
weight
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211168503.0A
Other languages
English (en)
Other versions
CN115563933A (zh
Inventor
刘康
曹家伟
杨明川
梁伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211168503.0A priority Critical patent/CN115563933B/zh
Publication of CN115563933A publication Critical patent/CN115563933A/zh
Application granted granted Critical
Publication of CN115563933B publication Critical patent/CN115563933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供一种词编码方法、装置、存储介质与设备,涉及自然语言处理技术领域。该词编码方法包括:采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵。本公开能够在一定程度上降低专业领域中的词编码难度,提高词编码的准确度。

Description

词编码方法、装置、存储介质与电子设备
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种词编码方法、装置、存储介质与电子设备。
背景技术
对于一些专业性较强的领域,业务文本的句意往往具有较强的领域特色,比如:通信领域中,对于业务文本“接入电路代号”、“互联网共享端口接入服务”、“游戏交互时延劣质次数”、“呼叫类型编码”、“4G销售品销售点专属属性”、“业务数据容器记录期间下行传输的流量”等,由于领域特色较强,无法用常用词典对这些业务文本中的词进行编码,导致难以理解句意。
发明内容
本公开提供一种词编码方法、词编码装置、计算机可读存储介质与电子设备,以在一定程度上降低专业领域中的词编码难度,提高词编码的准确度。
根据本公开的第一方面,提供一种词编码方法,所述方法包括:利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码;采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵;所述第一权重矩阵用于对所述预设领域的词进行编码。
在一种实施方式中,所述预设领域下所述上下文词的特征,包括以下一种或多种:所述上下文词在所述预设领域中的词频;所述预设领域下所述上下文词的词性;所述上下文词与所述预设领域的主题词的关系。
在一种实施方式中,若所述预设领域下所述上下文词的特征,包括所述上下文词与所述预设领域的主题词的关系,所述根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,包括:确定所述预设领域的词袋中词的词频-逆文档频率;根据所述词袋中词的词频-逆文档频率,确定主题词;若所述上下文词是所述预设领域的主题词,则确定所述上下文词的权重为第一数值;若所述上下文词不是所述预设领域的主题词,则确定所述上下文词的权重为第二数值;所述第二数值小于所述第一数值。
在一种实施方式中,所述根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,包括:根据所述预设领域下所述上下文词的特征、以及所述上下文词与所述目标词的位置关系,确定所述上下文词的权重。
在一种实施方式中,所述根据所述预设领域下所述上下文词的特征、以及所述上下文词与所述目标词的位置关系,确定所述上下文词的权重,包括:确定所述预设领域下所述上下文词与所述目标词之间的方向,以及所述上下文词与所述目标词之间的距离;根据所述预设领域下所述上下文词的特征、所述上下文词与所述目标词之间的方向与距离,确定所述上下文词的权重。
在一种实施方式中,在利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码前,所述方法还包括:利用固定尺寸的窗口从所述待处理语句中提取所述目标词的上下文词;或者,根据所述待处理语句的长度确定动态尺寸,利用所述动态尺寸的窗口从所述待处理语句中提取所述目标词的上下文词。
在一种实施方式中,在更新所述第一权重矩阵后,所述方法还包括:获取所述预设领域的待编码词的初始编码;采用所述第一权重矩阵将所述待编码词的初始编码转换为所述待编码词的特征编码。
根据本公开的第二方面,提供一种词编码装置,所述装置包括:编码获取模块,被配置为利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码;编码转换模块,被配置为采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;编码预测模块,被配置为根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;概率分布确定模块,被配置为采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;权重矩阵更新模块,被配置为基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵;所述第一权重矩阵用于对所述预设领域的词进行编码。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的词编码方法及其可能的实现方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述第一方面的词编码方法及其可能的实现方式。
本公开的技术方案具有以下有益效果:
本方案中,首先,利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码;其次,采用词袋的第一权重矩阵将上下文词的初始编码转换为上下文词的特征编码;再次,根据预设领域下上下文词的特征,确定上下文词的权重,根据上下文词的权重对上下文词的特征编码进行加权,得到预测的上下文词的中心词的特征编码;接着,采用词袋的第二权重矩阵将中心词的特征编码转换为中心词在词袋中的概率分布;最后,基于目标词的初始编码与中心词在词袋中的概率分布,更新第一权重矩阵;第一权重矩阵用于对预设领域的词进行编码。一方面,由于在中心词的特征编码预测过程中,根据上下文词在预设领域下的特征确定上下文词的权重,使得中心词的特征编码包含了上下文词的领域化信息,由此确定中心词的概率分布并更新第一权重矩阵,使得第一权重矩阵能够学习到预设领域的信息,有利于对预设领域的词实现准确地编码,从而降低了专业性较强的预设领域的词编码难度;另一方面,本方案实现过程简单,计算量较低,具有较强的普适性,并能够部署到移动端等轻量化场景中。
附图说明
图1为本公开实施例提供的一种系统架构的示意图;
图2为本公开实施例提供的一种词编码方法的实现流程示意图;
图3为本公开实施例提供的一种词编码方法中确定上下文词权重的实现流程示意图;
图4为本公开实施例提供的一种词编码方法中确定上下文词权重的实现流程示意图;
图5为本公开实施例提供的一种词编码方法中确定上下文词的实现流程示意图;
图6为本公开实施例提供的一种词编码方法的实现流程示意图;
图7为本公开实施例提供的一种词编码装置的结构示意图;
图8为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下文将结合附图更全面地描述本公开的示例性实施方式。
附图为本公开的示意性图解,并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在硬件模块或集成电路中实现这些功能实体,或在网络、处理器或微控制器中实现这些功能实体。实施方式能够以多种形式实施,不应被理解为限于在此阐述的范例。本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或多个实施方式中。在下文的描述中,提供许多具体细节从而给出对本公开实施方式的充分说明。然而,本领域技术人员应意识到,可以在实现本公开的技术方案时省略其中的一个或多个特定细节,或者可以采用其它的方法、组元、装置、步骤等替代一个或多个特定细节。
对于一些专业性较强的领域,业务文本数据的句意往往具有较强的领域特色,比如:通信领域中,对于业务文本数据接入电路代号、互联网共享端口接入服务、游戏交互时延劣质次数、呼叫类型编码、4G销售品销售点专属属性、业务数据容器记录期间下行传输的流量等,由于领域特色较强,无法用常用词典对这些业务文本数据进行编码。
鉴于上述问题,本公开的示例性实施方式首先提供一种词编码方法,能够在一定程度上降低专业领域中业务文本数据的编码难度。
下面结合图1对上述词编码方法的一种运行环境的系统架构与应用场景进行示例性说明。
图1示出了系统架构的示意图,该系统架构100可以包括终端110和服务器120;其中,终端110可以是智能手机、平板电脑、个人电脑等,终端110可以上传待处理语句或待处理词语。服务器120可以泛指提供词编码相关服务的后台系统(如词编码服务系统),可以是一台服务器或多台服务器形成的集群。终端110与服务器120之间可以通过有线或无线的通信链路形成连接,以进行数据交互。
在一种实施方式中,用户向终端110输入待处理语句,如用户通过语音或文字向终端110输入待处理语句,在通过语音输入的情况下,终端110将语音转换为文本格式的待处理语句,再对待处理语句进行分词,从得到的词语中确定目标词和目标词的上下文词;进而,对目标词和目标词的上下文词进行独热编码,得到目标词的初始编码和目标词的上下文词的初始编码。终端110将目标词的初始编码和目标词的上下文词的初始编码发送至服务器120,服务器120通过执行上述词编码方法,得到能够准确对预设领域的词进行编码的更新后的第一权重矩阵。
在一种实施方式中,本示例性实施方式也可以基于终端110而单独实现。例如,终端110在得到目标词的初始编码和目标词的上下文词的初始编码后,通过执行上述词编码方法,得到能够准确对预设领域的词进行编码的更新后的第一权重矩阵。
图2为本公开实施例提供的一种词编码方法的实现流程示意图,可以由上述词编码系统120执行,如图2所示,该方法包括以下步骤S210至S250:
步骤S210、利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码;
步骤S220、采用词袋的第一权重矩阵将上下文词的初始编码转换为上下文词的特征编码;
步骤S230、根据预设领域下上下文词的特征,确定上下文词的权重,根据上下文词的权重对上下文词的特征编码进行加权,得到预测的上下文词的中心词的特征编码;
步骤S240、采用词袋的第二权重矩阵将中心词的特征编码转换为中心词在词袋中的概率分布;
步骤S250、基于目标词的初始编码与中心词在词袋中的概率分布,更新第一权重矩阵;第一权重矩阵用于对预设领域的词进行编码。
在上述词编码方法中,首先,利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码;其次,采用词袋的第一权重矩阵将上下文词的初始编码转换为上下文词的特征编码;再次,根据预设领域下上下文词的特征,确定上下文词的权重,根据上下文词的权重对上下文词的特征编码进行加权,得到预测的上下文词的中心词的特征编码;接着,采用词袋的第二权重矩阵将中心词的特征编码转换为中心词在词袋中的概率分布;最后,基于目标词的初始编码与中心词在词袋中的概率分布,更新第一权重矩阵;第一权重矩阵用于对预设领域的词进行编码。一方面,由于在中心词的特征编码预测过程中,根据上下文词在预设领域下的特征确定上下文词的权重,使得中心词的特征编码包含了上下文词的领域化信息,由此确定中心词的概率分布并更新第一权重矩阵,使得第一权重矩阵能够学习到预设领域的信息,有利于对预设领域的词实现准确地编码,从而降低了专业性较强的预设领域的词编码难度;另一方面,本方案实现过程简单,计算量较低,具有较强的普适性,并能够部署到移动端等轻量化场景中。
下面对图2中的每个步骤进行具体说明。
参考图2,在步骤S210中,利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码。
其中,预设领域可以是任意的非通用领域,在预设领域中,难以用常用词典对文本数据进行编码;比如:背景技术中所提及的通信领域,或者其他专业领域,此处不做限定。
词袋(Bag-of-words,BoW,或称为词袋模型)可以是通过对预设领域的语料进行收集统计而建立的词库。示例性的,可以收集预设领域中一定数量的语料,进行分词,将每个词或词频达到一定阈值的词形成集合,从而建立预设领域的词袋。可见,词袋可以包括预设领域中的词。此外,词袋还可以包括词的一个或多个方面的特征,如词频、词性、是否预设领域的主题词等。
初始编码是从整个词的层面上实现的编码,通常是基于稀疏编码方式得到的编码。例如,初始编码可以是独热编码。示例性的,预设领域的词袋包括7个词,分别编号为:1、接入,2、电路,3、代号,4、互联网,5、共享,6、端口,7、服务。每个词的独热编码可以是:接入对应独热编码(1,0,0,0,0,0,0),电路对应独热编码(0,1,0,0,0,0,0),代号对应独热编码(0,0,1,0,0,0,0),互联网对应独热编码(0,0,0,1,0,0,0),共享对应独热编码(0,0,0,0,1,0,0),端口对应独热编码(0,0,0,0,0,1,0),服务对应独热编码(0,0,0,0,0,0,1)。
对于语句“接入电路代号”,在目标词为“接入”的情况下,上下文词为“电路”和“代号”;在目标词为“电路”的情况下,上下文词为“接入”和“代号”;在目标词为“代号”的情况下,上下文词为“接入”和“电路”;上下文词的初始编码根据上述语料库中词语对应的特征向量确定即可。
继续参考图2,在步骤S220中,采用词袋的第一权重矩阵将上下文词的初始编码转换为上下文词的特征编码。
特征编码是从词的语义层面上实现的编码,通常是基于稠密编码方式得到的编码。例如,特征编码可以是嵌入(embedding)编码。第一权重矩阵用于对词的初始编码提取特征并生成特征编码,可以包括特征编码所需的权重。示例性的,第一权重矩阵可以是V行N列的矩阵,V表示词袋中词的个数,如可以是初始编码的维数;N表示特征编码的维数。第一权重矩阵中的权重是词袋中的每个词与特征编码中的每个维度之间关联的权重。
在一种实施方式中,上下文词的特征编码可以通过上下文词的初始编码与第一权重矩阵相乘得到。
继续参考图2,在步骤S230中,根据预设领域下上下文词的特征,确定上下文词的权重,根据上下文词的权重对上下文词的特征编码进行加权,得到预测的上下文词的中心词的特征编码。
其中,上下文词的特征可以包括上下文词一个方面的特征,也可以包括上下文词多个方面的特征,比如:可以包括上下文词词频、词性等特征,此处不做限定。
相应地,上下文词的权重,可以采用一个方面的特征的权重,也可以采用多个维度的特征的权重,此处不做限定。在一种实施方式中,在采用多个维度的特征的权重的情况下,可以将不同维度的特征的权重相乘的结果,作为上下文词的权重。
特征编码的转换如下公式(1)所示:
步骤S230可以通过如下公式(1)实现:
其中,W(i)表示上下文词的特征对应的权重;D(i)表示上下文词与目标词的位置关系;e(Vi)表示上下文词的特征编码,即,从第一权重矩阵中取出上下文词Vi对应的那一行;R表示上下文词为多个时,上下文词的数量。
继续参考图2,在步骤S240中,采用词袋的第二权重矩阵将中心词的特征编码转换为中心词在词袋中的概率分布。
其中,第二权重矩阵用于根据词的特征编码预测其概率分布,包括特征编码中的每个维度与词袋中的每个词之间关联的权重。在一种实施方式中,第二权重矩阵可以是第一权重矩阵的转置矩阵。
概率分布可以通过激活函数确定,比如:采用归一化指数函数确定中心词在词袋中的概率分布,如下公式(2)所示:
P(V|C(Vi))=softmax(X1×|D|×W|D|×|V|) (2);
其中,C(Vi)表示目标词的上下文词;V表示词袋;X1×|D|表示预测的上下文词的中心词的特征编码;W|D|×|V|表示第二权重矩阵。
继续参考图2,在步骤S250中,基于目标词的初始编码与中心词在词袋中的概率分布,更新第一权重矩阵;第一权重矩阵用于对预设领域的词进行编码。
其中,可以基于目标词的初始编码与中心词在词袋中的概率分布的差异,更新第一权重矩阵;在一种实施方式中,可以采用反向传播误差算法实现;具体地,可以通过以下过程实现:首先,给第一权重矩阵中的权重赋予一个随机值来初始化;其次,观察目标词的初始编码与中心词在词袋中的概率分布之间的误差,并计算这些误差的梯度;最后,在梯度方向上更新第一权重矩阵。
在一种实施方式中,预设领域下上下文词的特征,包括以下一种或多种:
上下文词在预设领域中的词频;
预设领域下上下文词的词性;
上下文词与预设领域的主题词的关系。
其中,词频是指上下文词在预设领域的语料中出现的次数,比如:预设领域的词袋中有1000个词,上下文词“接入”出现的次数为10,则上下文词“接入”的词频为1/100。
词性是指上下文词的类别,比如:名词、副词、动词等。
主题词可以通过预设领域的词袋中词语的词频-逆文档频率确定,比如:计算预设领域的词袋中所有词语的词频-逆文档频率,将词频-逆文档频率为TopN的词语作为主题词。
上下文词与主题词的关系是指上下文词与主题词之间的关联程度,比如:上下文词与主题词一致,则视为上下文词与主题词关联程度大;上下文词与主题词不同,则视为上下文词与主题词关联程度小。
在一种实施方式中,若所述预设领域下上下文词的特征,包括上下文词与预设领域的主题词的关系,图3为本公开实施例提供的一种词编码方法中确定上下文词权重的实现流程示意图,如图3所示,上述步骤230包括以下步骤S310至S340:
步骤S310、确定预设领域的词袋中词的词频-逆文档频率。
其中,词频-逆文档频率用于判断词语对于一个文档集合的重要性,词频-逆文档频率综合考虑词语的词频与逆文档频率来计算词语的权重,即,将词频与逆文档频率相乘。
词频即词语的频率,表示词语在一个文档中出现的次数。
逆文档频率是一种度量词语在文档中重要性的方式,其原理为:对于一个词语,包含此词语的文档数量越少,此词语就具有越强的文档类别特征。
步骤S320、根据词袋中词的词频-逆文档频率,确定主题词。
其中,可以将预设领域的词袋中词频-逆文档频率为TopN的词语作为主题词。
步骤S330、若上下文词是预设领域的主题词,则确定上下文词的权重为第一数值。
其中,第一数值为大于0的值,第一数值可以根据用户设置确定,也可以根据默认设置确定;比如:上下文词是预设领域的主题词时,根据用户设置第一数值取0.5;上下文词是预设领域的主题词时,根据默认设置第一数值取1等,此处不限定。
步骤S340、若上下文词不是预设领域的主题词,则确定上下文词的权重为第二数值;第二数值小于第一数值。
其中,第二数值为0,第二数值可以根据用户设置确定,也可以根据默认设置确;上下文词不是预设领域的主题词时根据用户设置第二数值取0;上下文词是预设领域的主题词时,根据默认设置第二数值取0等,此处不限定。
在一种实施方式中,为了加强上下文词与中心词之间的联系,提高中心词预测的准确性,还可以结合上下文词与目标词之间的位置关系来确定上下文词的权重,上述步骤S203包括以下步骤:
根据预设领域下上下文词的特征、以及上下文词与目标词的位置关系,确定上下文词的权重。
其中,对于上下文词的特征:在上下文词的特征为上下文词在预设领域中的词频时,可以将词频直接作为上下文词的特征的权重;在上下文词为预设领域下上下文词的词性时,由于不同词性对语句的贡献不同,因此,可以为不同词性的词语赋予对应的权重,如此,可以将该权重作为上下文词的特征的权重;在上下文词的特征为上下文词与预设领域的主题词的关系时,将第一数值或第二数值作为上下文词的特征的权重。进一步地,在上下文词的特征包括上述两种以上时,可以将不同权重的乘积作为上下文词特的特征的权重。
上下文词与目标词的位置关系,可以表征上下文词与目标词的关联度;一般情况下,上下文词与目标词越靠近,则上下文词与目标词之间的关联度越大;上下文词与目标词越远离,则上下文词与目标词之间的关联度越小;因此,可以根据上下文词与目标词的位置关系赋予上下文词权重;比如:对靠近目标词的上下文词赋予较大的权重,而对远离目标词的上下文词赋予较小的权重。
在一种实施方式中,可以将上下文词的特征的权重,以及上下文词与目标词的位置关系的权重的乘积,作为上下文词的权重。
在一种实施方式中,上下文词与目标词之间的位置关系可以通过方向和距离来度量,如此,能够在一定程度上表征上下文词与目标词在语义的关联度,图4为本公开实施例提供的一种词编码方法中确定上下文词权重的实现流程示意图,如图4所示,上述步骤包括以下步骤S410和S420:
步骤S410、确定预设领域下上下文词与目标词之间的方向,以及上下文词与目标词之间的距离。
其中,方向可以是目标词到上下文词的有向线段的方向。
距离可以是目标词到上下文词的有向线段的长度;在一种实施方式中,可以将目标词的中心到上下文词的中心的距离作为目标词与上下文词之间的距离,也可以将目标词的起始点到上下文词的起始点之间的距离作为目标词与上下文词之间的距离,还可以将目标词的终点到上下文词的终点之间的距离作为目标词与上下文词之间的距离。
步骤S420、根据预设领域下上下文词的特征、上下文词与目标词之间的方向与距离,确定上下文词的权重。
其中,上下文词与目标词的不同方向可以根据距离赋予不同的权重,在一种实施方式中,可以根据距离对LBT模型的方向权重进行变形,并应用于此;具体地,可以根据目标词与上下文词之间的距离,对靠近目标词的上下文词赋予较大的权重,对远离目标词的上下文词赋予较小的权重,且,目标词的左右两侧的上下文词的权重对称分布;比如:对于目标词两侧最近位置的上下文词赋予权重4/9,对目标词两侧次近位置的上下文词赋予权重1/9,对目标词两侧最远位置的上下文词赋予权重1/36。
在一种实施方式中,可以将上下文词的特征、上下文词与目标词之间的方向与距离的乘积确定为上下文词的权重。
在一种实施方式中,考虑到待处理语句长度不同,为了灵活对不同长度的待处理语句进行合理处理,图5为本公开实施例提供的一种词编码方法中确定上下文词的实现流程示意图,如图5所示,在上述步骤S210之前,该方法还包括以下步骤S510或S520:
步骤S510、利用固定尺寸的窗口从待处理语句中提取目标词的上下文词。
其中,固定尺寸的窗口可以通过默认设置确定,也可以通过用户设置确定,此处不限定。固定尺寸的窗口意味着从待处理语句中提取的目标词的上下文词的数量是固定的,比如:待处理语句为“游戏交互时延劣质次数”,目标词为“时延”,则目标词的上下文词为“游戏”、“交互”、“劣质”和“次数”,那么,当固定尺寸窗口的取值为3时,从上述四个上下文词中选择三个上文词作为最终的目标词的上下文词,当固定尺寸窗口的取值为2时,从上述四个上下文词中选择两个上下文词作为最终的目标词的上下文词。
目标词的上下文词的提取,可以采用一定的规则提取,也可以随机提取;比如:可以从上下文词的前部、中部、尾部各提取一部分,也可以从上下文词中随机提取一部分,此处不限定。
本步骤中,采用固定尺寸的窗口能够在待处理语句较长的情况下,降低计算量的同时,不影响后续的计算准确度。
步骤S520、根据待处理语句的长度确定动态尺寸,利用动态尺寸的窗口从待处理语句中提取目标词的上下文词。
其中,动态尺寸的窗口可以是全量窗口;即,将待处理语句中目标词的上下文词的实际数量作为动态尺寸的窗口的取值;即,提取待处理语句中目标词的全部上下文词;比如:待处理语句为“游戏交互时延劣质次数”,目标词为“时延”,则目标词的上下文词为“游戏”、“交互”、“劣质”和“次数”,那么,提取全部上下文词,即,提取上述四个上下文词,作为最终的目标词的上下文词。
图6为本公开实施例提供的一种词编码方法中确定词袋中待编码词特征编码的实现流程示意图,如图6所示,在上述步骤S250之后,该方法还包括以下步骤S610和S620:
步骤S610、获取预设领域的待编码词的初始编码。
其中,待编码词可以是预设领域的任一词。
步骤S620、采用第一权重矩阵将待编码词的初始编码转换为待编码词的特征编码。
例如,可以将待编码词的初始编码与第一权重矩阵相乘,得到待编码词的特征编码。
由此,可以实现对预设领域的所有词进行编码,得到特征编码,从而有利于对预设领域的词、语句等进行准确理解。
本公开的示例性实施方式还提供一种词编码装置700,参考图7所示,该词编码装置700可以包括:
编码获取模块710,被配置为利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码;
编码转换模块720,被配置为采用词袋的第一权重矩阵将上下文词的初始编码转换为上下文词的特征编码;
编码预测模块730,被配置为根据预设领域下上下文词的特征,确定上下文词的权重,根据上下文词的权重对上下文词的特征编码进行加权,得到预测的上下文词的中心词的特征编码;
概率分布确定模块740,被配置为采用词袋的第二权重矩阵将中心词的特征编码转换为中心词在词袋中的概率分布;
权重矩阵更新模块750,被配置为基于目标词的初始编码与中心词在词袋中的概率分布,更新第一权重矩阵;第一权重矩阵用于对预设领域的词进行编码。
在一种实施方式中,预设领域下上下文词的特征,包括以下一种或多种:上下文词在预设领域中的词频;预设领域下上下文词的词性;上下文词与预设领域的主题词的关系。
在一种实施方式中,若预设领域下上下文词的特征,包括上下文词与预设领域的主题词的关系,根据预设领域下上下文词的特征,确定上下文词的权重,包括:确定预设领域的词袋中词的词频-逆文档频率;根据词袋中词的词频-逆文档频率,确定主题词;若上下文词是预设领域的主题词,则确定上下文词的权重为第一数值;若上下文词不是预设领域的主题词,则确定上下文词的权重为第二数值;第二数值小于第一数值。
在一种实施方式中,根据预设领域下上下文词的特征,确定上下文词的权重,包括:根据预设领域下上下文词的特征、以及上下文词与目标词的位置关系,确定上下文词的权重。
在一种实施方式中,根据预设领域下上下文词的特征、以及上下文词与目标词的位置关系,确定上下文词的权重,包括:确定预设领域下上下文词与目标词之间的方向,以及上下文词与目标词之间的距离;根据预设领域下上下文词的特征、上下文词与目标词之间的方向与距离,确定上下文词的权重。
在一种实施方式中,在利用预设领域的词袋获取待处理语句中目标词的初始编码以及目标词的上下文词的初始编码前,方法还包括:利用固定尺寸的窗口从待处理语句中提取目标词的上下文词;或者,根据待处理语句的长度确定动态尺寸,利用动态尺寸的窗口从待处理语句中提取目标词的上下文词。
在一种实施方式中,在更新第一权重矩阵后,方法还包括:获取预设领域的待编码词的初始编码;采用第一权重矩阵将待编码词的初始编码转换为待编码词的特征编码。
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本公开的示例性实施方式还提供一种电子设备,该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令,如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的词编码方法,如可以执行图2的方法步骤。
下面参考图8,以通用计算设备的形式对电子设备进行示例性说明。应当理解,图8显示的电子设备800仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来限制。
如图8所示,电子设备800可以包括:处理器810、存储器820、总线830、I/O(输入/输出)接口840、网络适配器850。
存储器820可以包括易失性存储器,例如RAM821、缓存单元822,还可以包括非易失性存储器,例如ROM823。存储器820还可以包括一个或多个程序模块824,这样的程序模块824包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。例如,程序模块824可以包括上述无源光纤网络的带宽分配装置900中的各模块。
总线830用于实现电子设备800的不同组件之间的连接,可以包括数据总线、地址总线和控制总线。
电子设备800可以通过I/O接口840与一个或多个外部设备1000(例如键盘、鼠标、外置控制器等)进行通信。
电子设备800可以通过网络适配器850与一个或者多个网络通信,例如网络适配器850可以提供如3G/4G/5G等移动通信解决方案,或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器850可以通过总线830与电子设备800的其它模块通信。
尽管图8中未示出,还可以在电子设备800中设置其它硬件和/或软件模块,包括但不限于:显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims (9)

1.一种词编码方法,其特征在于,包括:
利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码;
采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;
根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;
采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;
基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵;所述第一权重矩阵用于对所述预设领域的词进行编码;
若所述预设领域下所述上下文词的特征,包括所述上下文词与所述预设领域的主题词的关系,所述根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,包括:
确定所述预设领域的词袋中词的词频-逆文档频率;
根据所述词袋中词的词频-逆文档频率,确定主题词;
若所述上下文词是所述预设领域的主题词,则确定所述上下文词的权重为第一数值;
若所述上下文词不是所述预设领域的主题词,则确定所述上下文词的权重为第二数值;所述第二数值小于所述第一数值。
2.根据权利要求1所述的词编码方法,其特征在于,所述预设领域下所述上下文词的特征,包括以下一种或多种:
所述上下文词在所述预设领域中的词频;
所述预设领域下所述上下文词的词性;
所述上下文词与所述预设领域的主题词的关系。
3.根据权利要求1所述的词编码方法,其特征在于,所述根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,包括:
根据所述预设领域下所述上下文词的特征、以及所述上下文词与所述目标词的位置关系,确定所述上下文词的权重。
4.根据权利要求3所述的词编码方法,其特征在于,所述根据所述预设领域下所述上下文词的特征、以及所述上下文词与所述目标词的位置关系,确定所述上下文词的权重,包括:
确定所述预设领域下所述上下文词与所述目标词之间的方向,以及所述上下文词与所述目标词之间的距离;
根据所述预设领域下所述上下文词的特征、所述上下文词与所述目标词之间的方向与距离,确定所述上下文词的权重。
5.根据权利要求1所述的词编码方法,其特征在于,在利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码前,所述方法还包括:
利用固定尺寸的窗口从所述待处理语句中提取所述目标词的上下文词;或者,
根据所述待处理语句的长度确定动态尺寸,利用所述动态尺寸的窗口从所述待处理语句中提取所述目标词的上下文词。
6.根据权利要求1所述的词编码方法,其特征在于,在更新所述第一权重矩阵后,所述方法还包括:
获取所述预设领域的待编码词的初始编码;
采用所述第一权重矩阵将所述待编码词的初始编码转换为所述待编码词的特征编码。
7.一种词编码装置,其特征在于,所述装置包括:
编码获取模块,被配置为利用预设领域的词袋获取待处理语句中目标词的初始编码以及所述目标词的上下文词的初始编码;
编码转换模块,被配置为采用所述词袋的第一权重矩阵将所述上下文词的初始编码转换为所述上下文词的特征编码;
编码预测模块,被配置为根据所述预设领域下所述上下文词的特征,确定所述上下文词的权重,根据所述上下文词的权重对所述上下文词的特征编码进行加权,得到预测的所述上下文词的中心词的特征编码;
概率分布确定模块,被配置为采用所述词袋的第二权重矩阵将所述中心词的特征编码转换为所述中心词在所述词袋中的概率分布;
权重矩阵更新模块,被配置为基于所述目标词的初始编码与所述中心词在所述词袋中的概率分布,更新所述第一权重矩阵;所述第一权重矩阵用于对所述预设领域的词进行编码;
若所述预设领域下所述上下文词的特征,包括所述上下文词与所述预设领域的主题词的关系,所述编码预测模块被配置为:
确定所述预设领域的词袋中词的词频-逆文档频率;
根据所述词袋中词的词频-逆文档频率,确定主题词;
若所述上下文词是所述预设领域的主题词,则确定所述上下文词的权重为第一数值;
若所述上下文词不是所述预设领域的主题词,则确定所述上下文词的权重为第二数值;所述第二数值小于所述第一数值。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述的方法。
CN202211168503.0A 2022-09-19 2022-09-19 词编码方法、装置、存储介质与电子设备 Active CN115563933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211168503.0A CN115563933B (zh) 2022-09-19 2022-09-19 词编码方法、装置、存储介质与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211168503.0A CN115563933B (zh) 2022-09-19 2022-09-19 词编码方法、装置、存储介质与电子设备

Publications (2)

Publication Number Publication Date
CN115563933A CN115563933A (zh) 2023-01-03
CN115563933B true CN115563933B (zh) 2023-12-01

Family

ID=84742844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211168503.0A Active CN115563933B (zh) 2022-09-19 2022-09-19 词编码方法、装置、存储介质与电子设备

Country Status (1)

Country Link
CN (1) CN115563933B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备
CN110147533A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110795937A (zh) * 2019-09-25 2020-02-14 卓尔智联(武汉)研究院有限公司 信息处理方法、装置及存储介质
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111401043A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 近义词挖掘方法、装置、设备及存储介质
CN112800234A (zh) * 2021-04-15 2021-05-14 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和存储介质
CN113312903A (zh) * 2021-05-27 2021-08-27 云南大学 一种5g移动业务产品词库的构建方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备
CN110147533A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN110795937A (zh) * 2019-09-25 2020-02-14 卓尔智联(武汉)研究院有限公司 信息处理方法、装置及存储介质
CN111401043A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 近义词挖掘方法、装置、设备及存储介质
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN112800234A (zh) * 2021-04-15 2021-05-14 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备和存储介质
CN113312903A (zh) * 2021-05-27 2021-08-27 云南大学 一种5g移动业务产品词库的构建方法及系统

Also Published As

Publication number Publication date
CN115563933A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN108280112B (zh) 摘要生成方法、装置及计算机设备
CN107767870B (zh) 标点符号的添加方法、装置和计算机设备
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN110134971B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
KR20180001889A (ko) 언어 처리 방법 및 장치
JP7346788B2 (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
US20240078385A1 (en) Method and apparatus for generating text
CN111061877A (zh) 文本主题提取方法和装置
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
KR20210044559A (ko) 출력 토큰 결정 방법 및 장치
CN111931494B (zh) 用于生成预测信息的方法、装置、电子设备和介质
CN110472241B (zh) 生成去冗余信息句向量的方法及相关设备
JP7211103B2 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置
CN115563933B (zh) 词编码方法、装置、存储介质与电子设备
CN113836308B (zh) 网络大数据长文本多标签分类方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant