CN109710921B - 词语相似度的计算方法、装置、计算机设备及存储介质 - Google Patents

词语相似度的计算方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109710921B
CN109710921B CN201811487581.0A CN201811487581A CN109710921B CN 109710921 B CN109710921 B CN 109710921B CN 201811487581 A CN201811487581 A CN 201811487581A CN 109710921 B CN109710921 B CN 109710921B
Authority
CN
China
Prior art keywords
word
sense
vector
word vector
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811487581.0A
Other languages
English (en)
Other versions
CN109710921A (zh
Inventor
黄妍仪
覃剑鸿
莫可京
孙炜
姜佰胜
熊浩敏
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongnong Yixun Information Technology Co ltd
Original Assignee
Shenzhen Zhongnong Yixun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongnong Yixun Information Technology Co ltd filed Critical Shenzhen Zhongnong Yixun Information Technology Co ltd
Priority to CN201811487581.0A priority Critical patent/CN109710921B/zh
Publication of CN109710921A publication Critical patent/CN109710921A/zh
Application granted granted Critical
Publication of CN109710921B publication Critical patent/CN109710921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种词语相似度的计算方法、装置、计算机设备及存储介质,包括:获取训练文本的训练义原集合;获取所述第一词语的第一义原集和所述第二词语的第二义原集;根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;分别将所述第一初始词向量和所述第二初始词向量作为词向量模型的输入,得到第一目标词向量和第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。通过上述方式,能够提高词语相似度计算的准确性。

Description

词语相似度的计算方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种词语相似度的计算方法、装置、计算机设备及存储介质。
背景技术
词语之间的词语相似性研究是自然语言处理以及人工智能领域的基础性研究,如搜索、聚类以及歧义消除等,因此,近年来,研究词语与词语之间的相似性热度不断提高。
词语相似度表示两个词语语义的可替换程度,要实现词语相似度的计算,首先需要将词语从文字转换成计算机能理解能计算的方式。目前,应用比较广泛的有word2vec模型,word2vec模型是Google发布的一种基于深度学习的工具,利用浅层神经网络,将词语用向量表示,可用于计算词语与词语的相似度。
word2vec模型是通过词语的上下文来计算词语的词向量,由于上下文内容有限,简单的通过word2vec模型表示词语,然后再计算相似度可能并不准确。
发明内容
基于此,有必要针对上述问题,提出一种准确率高的词语相似度的计算方法、装置、计算机设备及存储介质。
一种词语相似度的计算方法,所述方法包括:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
一种词语相似度的计算装置,所述装置包括:
第一获取模块,用于获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
第二获取模块,用于获取所述第一词语的第一义原集和所述第二词语的第二义原集;
第一确定模块,用于根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
第一输出模块,用于将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
第二输出模块,用于将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
第二确定模块,用于根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
本发明提出了一种词语相似度的计算方法、装置、设备及存储介质,首先获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;然后根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;最后将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在,由于一个词语的上下文可能只能表达该词语的一种含义,而一个词语通常具有多种语义,在词向量模型中,单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响,产生语义偏向,另一方面,受预设的上下文窗口影响,词向量模型的上下文视野受限,会造成一定程度的语义缺失,导致最终对词语的表达不准确,而上述词语相似度的计算方式,将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语,能对词语进行一定程度的语义补偿,另外,知网的义原标注系统能有效地拉近词向量的语义空间的距离,使得该词语的表达更为准确,即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确,而不是偏向于上下文对词语的表达,由于通过上述方式得到的词语的表达更为准确,因此,最终计算得到的相似度也将更为准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中词语相似度的计算方法的实现流程示意图;
图2为一个实施例中训练文本的示意图;
图3为一个实施例中词语、词义和义原关系的示意图;
图4为一个实施例中步骤106的实现流程示意图;
图5为一个实施例中skip-gram的三层神经网络的示意图;
图6为一个实施例中哈夫曼树的示意图;
图7为一个实施例中词语相似度的计算装置的结构框图;
图8为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种词语相似度的计算方法。该方法可以应用于服务器,也可以应用于终端。所述服务器为高性能计算机或高性能计算机集群。所述终端包括但不限于手机、平板电脑、智能手表、笔记本电脑和台式电脑。该词语相似度的计算方法具体包括如下步骤:
步骤102,获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语。
所述训练文本,为词向量模型训练时需要用到的包含多个词语的文本。所述训练文本可以包括但不限于英文的训练文本(例如图2所示)和中文的训练文本。
在具体实施的时候,为了提高训练效率和精度,需要对原始文本进行一定的处理以得到训练文本。具体的,由于原始文本中可能有标点符号,需要去掉原始文本中的标点符号,以得到训练文本;或者,原始文本中包含大量的无意义的词,例如,of、the和and等词,那么可以去掉这些词得到训练样本,最终得到的训练文本可如图2所示。需要说明的是,对于中文文本,还需要对文本进行分词。
所述训练义原集合,为训练文本中的所有不重复词语的所有不重复义原的集合。
所述词语,可以是一个字,也可以是一个词,例如,词语为“爸爸”或者“兵”。
所述第一词语和所述第二词语,为训练文本中将用于比较相似性的两个词语。
步骤104,获取所述第一词语的第一义原集和所述第二词语的第二义原集。
所述第一义原集,为第一词语的所有词义以及词义的同义关系词义的所有不重复义原的集合;所述第二义原集,为第二词语的所有词义以及词义的同义关系词义的所有不重复义原的集合。
所述词义,为词语表达的不同含义,例如,词语“兵”,表达的含义可以是“兵器”,也可以是“军人”,即词语“兵”的词义有“兵器”和“军人”。
所述同义关系词义,为与词义表达语义相同的词义,例如,词语“兵”的词义“兵器”和“军人”,其中,“兵器”的同义关系词义有“武器”,“军人”的同义关系词义有“战士”。
所述义原,是汉语中最基本的、不能再分隔的最小语义单位,例如,词义“兵器”的义原可能有“武器”和“战场”,词义“军人”的义原可能有“人”和“战场”。从知识库HowNet(知网)的原始词集中获取到训练文本中词语对应的义原。
在本发明实施例中,词语、词义和义原的关系,如图3所示,可以看出,一个词语可能有多个不同的词义,同时,一个词义对应多个义原。
例如,word2有两个词义word2-1和word2-2,且word2-1没有同义关系词义,word2-2有一个同义关系词义word2-3,word2-1有2个义原word2-1-1和word2-1-2,word2-2有2个义原word2-2-1和word2-2-2,word2-3有一个义原word2-3-1,于是得到word2的义原的集合为{word2-1-1,word2-1-2,word2-2-1,word2-2-2,word2-3-1},如果word2-1-2和word2-2-1为相同的义原,那么将word2-1-2或word2-2-1从该集合中删除得到第一(或第二)义原集合{word2-1-1,word2-1-2,word2-2-2,word2-3-1}。
第一词语和第二词语可以来自于同一个文本,也可以来自于不同的文本。当第一词语和第二词语来自于同一个文本的时候,可以直接根据该文本得到训练文本;当第一词语和第二词语来自于两个不同的文本的时候,需要将两个文本进行汇总之后得到训练文本。
在说明了词语、词义和义原之后,下面说明如何获取训练义原集合。例如,训练文本中只有两个词语:word1和word2(假设这两个词语的词义没有同义关系词义,通常情况下,一个词义是有同义关系词义的),其中,word1有两个词义word1-1和word1-2,word1-1有3个义原:word1-1-1、word1-1-2和word1-1-3,word1-2有2个义原:word1-2-1和word1-2-2;word2有两个词义word2-1和word2-2,word2-1有2个义原word2-1-1和word2-1-2,word2-2有2个义原word2-2-1和word2-2-2。于是,可以根据词语、词义和义原出现的顺序得到该训练文本的所有义原的集合{word1-1-1,word1-1-2,word1-1-3,word1-2-1,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2},但是,通过比较发现,义原word1-2-1和义原word2-1-1相同,于是,将义原word1-2-1或者义原word2-1-1从该集合中去掉,得到训练义原集合:{word1-1-1,word1-1-2,word1-1-3,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2}。
步骤106,根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量。
所述词向量,将词语以向量的方式进行表达,以便于计算机去理解自然语言。
所述初始词向量,用于作为词向量模型的输入。
在本发明实施例中,如图4所示,所述根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量,包括:
步骤106A,根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量。
所述义原向量,为只包含元素0和1的向量。具体的,首先确定义原在训练义原集合中的位置,然后将向量中该位置的值置为1,最后将其他位置的值置为0,以得到义原向量。
继续如上述例子,训练文本中有两个词语:word1和word2,训练义原集合:{word1-1-1,word1-1-2,word1-1-3,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2},于是,义原word2-2-1的义原向量为:[0 0 0 0 0 0 1 0],根据此方法,可以求得训练义原集合中每个义原的义原向量。
步骤106B,根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量。
作为一种可选的实施方式,所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量,包括:
获取所述第一义原集中每个义原的权值系数,所述第一义原集中所有义原的权值系数的和的值为1;
根据义原的权值系数和所述义原的义原向量确定所述第一词语的第一初始词向量。
例如,假设第一词语的第一义原集中只有两个义原word2-2-1和word2-2-2,训练义原集合为{word1-1-1,word1-1-2,word1-1-3,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2},义原word2-2-1的义原向量为:[0 0 0 0 0 0 1 0],义原word2-2-2的义原向量为:[0 0 0 0 0 0 0 1],word2-2-1的权值系数为0.4,word2-2-2的权值系数为0.6,于是,确定第一初始向量为:[0 0 0 0 0 0 0.4 0.6]。
在这里,所述权值系数,可以根据经验进行设置,例如,词语的某一词义用的比较少,那么该词义对应的多个义原的权值系数相对其他词义的义原的权值系数可以设置为一个更小的值。
优选的,所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量,包括:
获取所述第一义原集中的义原数目;
计算所述第一义原集中各个义原向量之和,得到义原和向量;
根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。
例如,训练义原集合为{word1-1-1,word1-1-2,word1-1-3,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2},假定义原在训练义原集合中的位置和编号对应,即义原{word1-1-1,word1-1-2,word1-1-3,word1-2-2,word2-1-1,word2-1-2,word2-2-1,word2-2-2}对应的编号为{1,2,3,4,5,6,7,8},第一义原集为{word2-1-1,word2-1-2},于是,确定第一义原集中的义原数目为2,根据以上编号或位置,义原word2-1-1的义原向量为[0 0 0 0 1 0 0 0],义原word2-1-2的义原向量为[0 0 0 0 0 1 0 0],于是得到义原和向量为[0 0 0 0 1 1 0 0],最后,根据义原数目和义原和向量得到初始词向量为[0 0 0 00.5 0.5 0 0]。具体可参考one-hot向量。
步骤106C,根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。
步骤106C确定第二初始词向量的方法与步骤106B确定第一初始词向量的方法相同,在此不再描述,例如,步骤106C包括:获取所述第二义原集中的义原数目;计算所述第二义原集中各个义原向量之和,得到义原和向量;根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量。
步骤108,将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量。
所述词向量模型包括输入层、隐层和输出层,所述第一目标词向量或所述第二目标词向量是通过输出层的哈夫曼树得到的。
首先,将所述第一初始词向量作为词向量模型的输入,与隐层权重矩阵做内积,传递到输出层。
例如,根据义原数目和义原和向量得到初始词向量为[0 0 0 0 0.5 0.5 0 0],隐层权重矩阵为[0.1 0.3 0.5;0.6 0.4 0.3;0.5 0.1 0.2;0.3 0.1 0.7;0.4 0.3 0.5;0.20.1 0.4;0.6 0.6 0.4;0.3 0.2 0.1],那么传递到输出层的词向量为[0.3 0.2 0.45]。
然后,在输出层构建哈夫曼树,以传递到输出层的词向量作为哈夫曼数的根节点,更新哈夫曼树模型参数,获得最终目标词向量。
所述目标词向量,为通过哈夫曼树模型参数θ更新初始词向量得到的。
在本发明实施例中,所述词向量模型,包括word2vec模型中的skip-gram模型。skip-gram模型的思想是通过中心词预测该中心词的上下文。如图5所示,skip-gram模型为一个三层神经网络,具体的,skip-gram模型包括输入层、隐层和输出层,所述第一目标词向量或所述第二目标词向量是通过词向量模型(skip-gram模型)的训练,不断更新输出层哈夫曼树的模型参数生成的,下面对哈夫曼树和霍夫曼编码进行讲解。哈夫曼树的构建过程如下:
(1)为训练文本中的各个词语统计词频,作为节点权重。
(2)将词语看做是有n棵树的森林,每颗树仅有一个节点。
(3)在森林中选择节点权值最小的两棵树进行合并,得到一颗新树,这两颗树分布作为新树的左右子树。新树的节点权重为左右子树的节点权重之和。
(4)将之前的根节点权值最小的两棵树从森林删除,并把新树加入森林。
(5)重复步骤(2)和(3)直到森林里只有一棵树为止。
例如图6所示,有(a,b,c,d,e,f)6个节点,节点的权值为(16,4,8,20,3),首先将权值最小的节点b和f合并得到新树,该新树的节点权重是7,此时森林里有5棵树,节点权重分别是(16,8,6,20,7),再次将节点权重最小的树6和7合并得到新树,该新树的节点权重是13,此时森林里有4颗树,节点权重依次是(16,8,20,13),依次类推,将树8和13进行合并得到新树,最终得到图6所示的哈夫曼树。
得到哈夫曼树之后,需要对各个树进行霍夫曼编码。例如,左子树编码为0,右子树编码为1,于是,可以得到节点a编码为11,节点b编码为0111,节点c编码为00,节点d编码为010,节点e编码为10,节点d编码为0110。
哈夫曼编码的目的是为了确定概率,于是,不同的编码值对应不同的概率,编码0和1的概率之和为1。例如,假设1对应的概率是P1,那么0对应的概率就是1-P1,于是,要从根节点57走到根节点d,其概率为:(1-P10)P21(1-P30),其中P10=1/(1+e-xwθ1),P21=1/(1+e-xwθ2),P30=1/(1+e-xwθ3)。
在本发明实施例中,将所述第一初始词向量作为词向量模型即skip-gram模型的输入,例如,通过对词语的所有义原的义原向量进行加权平均得到第一初始词向量为[0 00 0 0 0 0 1/3 1/3 1/3 0 0],假设到达隐层之后得到词向量为[0.3 0.6 0.1],将隐层的词向量[0.3 0.6 0.1]作为输出层的输入向量,即将[0.3 0.6 0.1]作为霍夫曼树根节点的词向量xw,然后通过梯度上升法不断更新模型参数θ和xw,以得到目标词向量。
具体的,假设输入的第一词语的上下文词语为w,霍夫曼树根节点词向量为xw,从根节点到w所在的叶子节点,包含的节点总数为lw,w在霍夫曼树中从根节点开始,经过的第i个节点表示为
Figure BDA0001894915190000111
对应的霍夫曼编码为/>
Figure BDA0001894915190000112
(0或1),节点对应的模型参数为/>
Figure BDA0001894915190000113
定义w经过的霍夫曼树某一个节点j的逻辑回归概率为:
Figure BDA0001894915190000114
那么对于一个目标输出词w,其最大似然为:
Figure BDA0001894915190000115
在词向量模型中,由于使用的是随机梯度上升法,所以并没有把所有样本的似然乘起来得到真正的训练集最大似然,仅仅每次只用一个样本更新梯度,这样做的目的是减少梯度计算量,这样可以得到w的对数似然函数L如下:
Figure BDA0001894915190000116
要得到模型中w词向量和内部节点的模型参数θ,可以使用梯度上升法。首先求模型参数
Figure BDA0001894915190000117
的梯度以及xw的梯度:
Figure BDA0001894915190000118
有了梯度表达式,就可以用梯度上升法进行迭代来一步步的求解需要的所有的
Figure BDA0001894915190000119
和xw
定义输入词向量维度为M,上下文大小为2c,步长为a,于是有:
(1)基于训练文本,根据词频建立哈夫曼树;
(2)随机初始化每个树节点的参数θ,同时初始化每个词向量xi
(3)对于2c个xi,目标设定为最优化P(xw|xi),因此,训练过程如下:
对于属于1到2c的i;
设置sum的初始值为0;
对于2到lw的j计算:
Figure BDA0001894915190000121
Figure BDA0001894915190000122
在j=lw时,xi=xi+sum;
(4)获得
Figure BDA0001894915190000123
的更新后,根据xw的梯度,可以更新目标词向量为:
Figure BDA0001894915190000124
其中,context(w)指代的是目标词语的2c个上下文,xw的初始值是输入层传递到输出层的词向量。
如果梯度收敛,则结束迭代,否则返回步骤“对于属于1到2c的i”继续执行。
步骤110,将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量。
步骤110确定第二目标词向量的方法与步骤108确定第一目标词向量的方法相同,在此不再描述。
步骤112,根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
在这里,所述根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,包括:计算所述第一目标词向量和所述第二目标词向量的余弦相似度,将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。
例如,第一目标词向量为A,第二目标词向量为B,余弦相似度cos(θ)=A·B/(||A||×||B||),cos(θ)是一个大于0小于等于1的数字,越接近1,代表两个词语的相似度越大。
可选的,在步骤112所述将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度之后,还包括:
若所述词语相似度超过预设值,则确定所述第一词语和所述第二词语为同义词。
例如,经过计算,cos(θ)的值为0.94,即两个词语的词语相似度为0.94,超过了预设值为0.9,则确定这两个词语为同义词。
上述词语相似度的计算方法,首先获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;然后根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;最后将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在,由于一个词语的上下文可能只能表达该词语的一种含义,而一个词语通常具有多种语义,在词向量模型中,单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响,产生语义偏向,另一方面,受预设的上下文窗口影响,词向量模型的上下文视野受限,会造成一定程度的语义缺失,导致最终对词语的表达不准确,而上述词语相似度的计算方式,将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语,能对词语进行一定程度的语义补偿,另外,知网的义原标注系统能有效地拉近词向量的语义空间的距离,使得该词语的表达更为准确,即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确,而不是偏向于上下文对词语的表达,由于通过上述方式得到的词语的表达更为准确,因此,最终计算得到的相似度也将更为准确。
在本发明实施例中,需要说明的是,方法中的步骤并不代表执行的先后,只是用于指示方法执行的内容,例如步骤102和步骤104,步骤104也可以在步骤102之前执行。
如图7所示,本发明实施例提供一种词语相似度的计算装置,该装置包括:
第一获取模块702,用于获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
第二获取模块704,用于获取所述第一词语的第一义原集和所述第二词语的第二义原集;
第一确定模块706,用于根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
第一输出模块708,用于将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
第二输出模块710,用于将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
第二确定模块712,用于根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
上述词语相似度的计算装置,首先获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;然后根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;最后将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在,由于一个词语的上下文可能只能表达该词语的一种含义,而一个词语通常具有多种语义,在词向量模型中,单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响,产生语义偏向,另一方面,受预设的上下文窗口影响,词向量模型的上下文视野受限,会造成一定程度的语义缺失,导致最终对词语的表达不准确,而上述词语相似度的计算方式,将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语,能对词语进行一定程度的语义补偿,另外,知网的义原标注系统能有效地拉近词向量的语义空间的距离,使得该词语的表达更为准确,即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确,而不是偏向于上下文对词语的表达,由于通过上述方式得到的词语的表达更为准确,因此,最终计算得到的相似度也将更为准确。
在一个实施例中,所述第一确定模块706,包括:
义原向量确定模块,用于根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;
第一初始词向量确定模块,用于根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;
第二初始词向量确定模块,用于根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。
在一个实施例中,所述第一初始词向量确定模块,包括:
义原数目获取模块,用于获取所述第一义原集中的义原数目;
义原和向量计算模块,用于计算所述第一义原集中各个义原向量之和,得到义原和向量;
初始词向量计算模块,用于根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。
在一个实施例中,所述第二确定模块712,包括:
余弦相似度模块,用于计算所述第一目标词向量和所述第二目标词向量的余弦相似度,将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。
在一个实施例中,所述装置,还包括:
同义词模块,用于若所述词语相似度超过预设值,则确定所述第一词语和所述第二词语为同义词。
需要说明的是,本发明实施例提出的词语相似度的计算装置与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思,装置实施例与方法实施例中的相应技术内容可互相适用,此处不再详述。
图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器、也可以是终端。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现词语相似度的计算方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行词语相似度的计算方法。网络接口用于与外部进行通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的词语相似度的计算方法可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成词语相似度的计算装置的各个程序模板。比如,第一获取模块702、第二获取模块704、第一确定模块706、第一输出模块708、第二输出模块710和第二确定模块712。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
上述计算机设备,首先获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;然后根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;最后将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在,由于一个词语的上下文可能只能表达该词语的一种含义,而一个词语通常具有多种语义,在词向量模型中,单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响,产生语义偏向,另一方面,受预设的上下文窗口影响,词向量模型的上下文视野受限,会造成一定程度的语义缺失,导致最终对词语的表达不准确,而上述词语相似度的计算方式,将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语,能对词语进行一定程度的语义补偿,另外,知网的义原标注系统能有效地拉近词向量的语义空间的距离,使得该词语的表达更为准确,即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确,而不是偏向于上下文对词语的表达,由于通过上述方式得到的词语的表达更为准确,因此,最终计算得到的相似度也将更为准确。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;
根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;
根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
获取所述第一义原集中的义原数目;
计算所述第一义原集中各个义原向量之和,得到义原和向量;
根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
计算所述第一目标词向量和所述第二目标词向量的余弦相似度,将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
若所述词语相似度超过预设值,则确定所述第一词语和所述第二词语为同义词。
需要说明的是,本发明实施例提出的计算机设备与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思,设备实施例与方法实施例中的相应技术内容可互相适用,此处不再详述。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
上述计算机可读存储介质,首先获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;获取所述第一词语的第一义原集和所述第二词语的第二义原集;然后根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;最后将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,由此使得词语与词语之间的相似度计算的准确率得到提高。具体体现在,由于一个词语的上下文可能只能表达该词语的一种含义,而一个词语通常具有多种语义,在词向量模型中,单纯的利用上下文来表达该词语可能会受训练文本中出现次数比较多的某词义影响,产生语义偏向,另一方面,受预设的上下文窗口影响,词向量模型的上下文视野受限,会造成一定程度的语义缺失,导致最终对词语的表达不准确,而上述词语相似度的计算方式,将词语的上下文和该词语在知网中的不同词义的义原进行结合来表达该词语,能对词语进行一定程度的语义补偿,另外,知网的义原标注系统能有效地拉近词向量的语义空间的距离,使得该词语的表达更为准确,即通过上述方式使得最终得到的该词语的词向量对该词语的表达更为准确,而不是偏向于上下文对词语的表达,由于通过上述方式得到的词语的表达更为准确,因此,最终计算得到的相似度也将更为准确。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;
根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;
根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
获取所述第一义原集中的义原数目;
计算所述第一义原集中各个义原向量之和,得到义原和向量;
根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
计算所述第一目标词向量和所述第二目标词向量的余弦相似度,将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。
在一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
若所述词语相似度超过预设值,则确定所述第一词语和所述第二词语为同义词。
需要说明的是,本发明实施例提出的计算机可读存储介质与本发明方法实施例提出的词语相似度的计算方法基于相同的发明构思,介质实施例与方法实施例中的相应技术内容可互相适用,此处不再详述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种词语相似度的计算方法,其特征在于,所述方法包括:
获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
获取所述第一词语的第一义原集和所述第二词语的第二义原集;
根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;
将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度;
所述根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量,包括:
根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;
根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;
根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量;
所述根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量,包括:
获取所述第一义原集中的义原数目;
计算所述第一义原集中各个义原向量之和,得到义原和向量;
根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量;
所述根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量,包括:
获取所述第二义原集中的义原数目;
计算所述第二义原集中各个义原向量之和,得到义原和向量;
根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量。
2.如权利要求1所述的方法,其特征在于,所述词向量模型包括输入层、隐层和输出层,所述第一目标词向量或所述第二目标词向量是通过输出层的哈夫曼树得到的。
3.如权利要求1至2任一项所述的方法,其特征在于,所述根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度,包括:
计算所述第一目标词向量和所述第二目标词向量的余弦相似度,将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度。
4.如权利要求3所述的方法,其特征在于,在所述将所述余弦相似度确定为所述第一词语和所述第二词语的词语相似度之后,还包括:
若所述词语相似度超过预设值,则确定所述第一词语和所述第二词语为同义词。
5.一种词语相似度的计算装置,其特征在于,所述装置包括:
第一获取模块,用于获取训练文本的训练义原集合,所述训练文本中包括第一词语和第二词语;
第二获取模块,用于获取所述第一词语的第一义原集和所述第二词语的第二义原集;
第一确定模块,用于根据所述训练义原集合、所述第一义原集和所述第二义原集,确定所述第一词语的第一初始词向量和所述第二词语的第二初始词向量;所述第一确定模块,包括:义原向量确定模块,用于根据所述第一义原集和所述第二义原集中每个义原在所述训练义原集合中的位置,确定所述第一义原集和所述第二义原集中每个义原的义原向量;第一初始词向量确定模块,用于根据所述第一义原集中每个义原的义原向量确定所述第一词语的第一初始词向量;第二初始词向量确定模块,用于根据所述第二义原集中每个义原的义原向量确定所述第二词语的第二初始词向量;用于获取所述第一义原集中的义原数目;计算所述第一义原集中各个义原向量之和,得到义原和向量;根据所述义原数目和所述义原和向量计算得到所述第一词语的第一初始词向量;用于获取所述第二义原集中的义原数目;计算所述第二义原集中各个义原向量之和,得到义原和向量;根据所述义原数目和所述义原和向量计算得到所述第二词语的第二初始词向量;
第一输出模块,用于将所述第一初始词向量作为词向量模型的输入,得到输出的与所述第一词语对应的第一目标词向量;
第二输出模块,用于将所述第二初始词向量作为所述词向量模型的输入,得到输出的与所述第二词语对应的第二目标词向量;
第二确定模块,用于根据所述第一目标词向量和所述第二目标词向量,确定所述第一词语和所述第二词语的词语相似度。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
CN201811487581.0A 2018-12-06 2018-12-06 词语相似度的计算方法、装置、计算机设备及存储介质 Active CN109710921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811487581.0A CN109710921B (zh) 2018-12-06 2018-12-06 词语相似度的计算方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811487581.0A CN109710921B (zh) 2018-12-06 2018-12-06 词语相似度的计算方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109710921A CN109710921A (zh) 2019-05-03
CN109710921B true CN109710921B (zh) 2023-05-26

Family

ID=66255421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811487581.0A Active CN109710921B (zh) 2018-12-06 2018-12-06 词语相似度的计算方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109710921B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348469A (zh) * 2019-05-21 2019-10-18 广东工业大学 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110297918A (zh) * 2019-06-25 2019-10-01 深圳市酷开网络科技有限公司 一种计算影视内容相关程度的方法、智能终端及存储介质
CN110765259A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于词汇义原的文本过滤方法及相关设备
CN110909539A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 语料库的词语生成方法、系统、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729B (zh) * 2014-04-29 2016-08-24 河海大学 一种基于语义类的多主题提取方法
CN108664464B (zh) * 2017-03-27 2021-07-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107291693B (zh) * 2017-06-15 2021-01-12 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN108776655A (zh) * 2018-06-01 2018-11-09 北京玄科技有限公司 一种有监督的词向量训练方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置

Also Published As

Publication number Publication date
CN109710921A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
CN109960800B (zh) 基于主动学习的弱监督文本分类方法及装置
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111951805A (zh) 一种文本数据处理方法及装置
CN110750965B (zh) 英文文本序列标注方法、系统及计算机设备
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN111695591A (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN115455169B (zh) 一种基于词汇知识和语义依存的知识图谱问答方法和系统
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113342927B (zh) 敏感词识别方法、装置、设备及存储介质
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN112307738B (zh) 用于处理文本的方法和装置
CN109117471B (zh) 一种词语相关度的计算方法及终端
US20200226325A1 (en) Converting unstructured technical reports to structured technical reports using machine learning
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant