CN111191004A - 文本标签提取方法、装置及计算机可读存储介质 - Google Patents

文本标签提取方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111191004A
CN111191004A CN201911374745.3A CN201911374745A CN111191004A CN 111191004 A CN111191004 A CN 111191004A CN 201911374745 A CN201911374745 A CN 201911374745A CN 111191004 A CN111191004 A CN 111191004A
Authority
CN
China
Prior art keywords
vector
text data
text
feature
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911374745.3A
Other languages
English (en)
Other versions
CN111191004B (zh
Inventor
赵琦
王科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911374745.3A priority Critical patent/CN111191004B/zh
Publication of CN111191004A publication Critical patent/CN111191004A/zh
Application granted granted Critical
Publication of CN111191004B publication Critical patent/CN111191004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及计算机技术领域,公开了一种文本标签提取方法、装置及计算机可读介质,所述文本标签提取方法包括:获取与文本数据匹配的多个标签;根据所述多个标签对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量;对所述第一特征向量及所述第二特征向量进行特征融合,并根据所述特征融合的结果,获取所述文本数据的文本标签。本发明提供的文本标签提取方法、装置及计算机可读介质能够提高文本标签抽取的准确率。

Description

文本标签提取方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种文本标签提取方法、装置及计算机可读介质。
背景技术
文本标签作为文本数据的核心语义体现以及主题信息的浓缩,不仅有助于人们快速了解一篇文章的主要内容,也有助于人们在检索大量文本数据时快速定位所需数据。现有技术中基于word2vec直接获得文本标签,word2vec的潜在假设是:相似的单词拥有相似的语境,特定的语境只有确定的语义才能够与之匹配。通过统计单词的所有语义以及最大化条件概率,使得单词和语境之间的对应关系最大化,进而满足了基本假设:相似的单词拥有相似的语境。而满足条件概率最大的单词矢量,也就成为了单词语义的合理表示。
发明人发现现有技术中至少存在如下问题:实际使用中,由于缺乏有效的语义信息,完全依赖于统计有时并不能准确捕捉单词的语义,尤其是标签的潜在含义。因此,现有技术的文本标签提取方法对于多义词存在严重的语义漂移问题,导致嵌入向量对词的表达不准确,影响文本标签抽取的准确率。
发明内容
本发明实施方式的目的在于提供一种文本标签提取方法、装置及计算机可读介质,其能够提高文本标签抽取的准确率。
为解决上述技术问题,本发明的实施方式提供了一种文本标签提取方法,包括:
获取与文本数据匹配的多个标签;根据所述多个标签对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量;对所述第一特征向量及所述第二特征向量进行特征融合,并根据所述特征融合的结果,获取所述文本数据的文本标签。
本发明的实施方式还提供了一种文本标签提取装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本标签提取方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本标签提取方法。
本发明的实施方式相对于现有技术而言,通过对文本数据进行标签识别,得到与文本数据匹配的多个标签,这些标签即为知识图谱中对文本数据属性和关系的准确描述,然后根据多个标签对文本数据进行向量转换,得到第一特征向量和第二特征向量,由于第一特征向量能够表征文本数据的标签信息,第二特征向量能够表征文本数据的属性信息,使得上述文本数据的标签信息和属性信息也能作为如何确定文本数据词义的参考特征,最后对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签,使得根据该特征融合的结果得到的文本标签能够更全面的考虑与文本数据词义有关的各个因素,从而丰富了文本数据所能表达的含义,也即增加了文本数据的语义信息,进而提高了与该文本数据对应的文本标签提取的准确率,避免了“由于缺乏有效的语义信息,使得对于多义词的文本标签提取存在严重的语义漂移问题,导致嵌入向量对词的表达不准确,影响文本标签抽取的准确率”的情况的发生。
另外,所述获取与文本数据匹配的多个标签,具体包括:从知识图谱中获取所述多个标签;所述根据所述多个标签对所述文本数据进行向量转换,具体包括:将所述文本数据作为初始标签,获取所述初始标签在所述知识图谱中与所述多个标签之间的多条路径,其中,所述初始标签到每个标签的路径均为一条;根据所述多条路径对所述文本数据进行向量转换。
另外,在根据所述多条路径对所述文本数据进行向量转换之前,还包括:判断所述多条路径的长度是否均与预设长度相同,若均与所述预设长度相同,则再执行所述根据所述多条路径对所述文本数据进行向量转换;若存在长度小于所述预设长度的路径,则在路径末端添加所述初始标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换;若存在长度大于所述预设长度的路径,则删除路径末端的标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换。通过此种方式,能够减少文本标签提取过程中的计算量,从而提高文本标签的提取速度。
另外,根据所述多条路径对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量,具体包括:将所述初始标签记为1,所述多个标签均记为0,根据所述多条路径得到所述文本数据的矩阵向量;将所述矩阵向量的每一行首尾连接,得到初始输入向量;根据所述初始输入向量输入预设的神经网络模型,得到所述第一特征向量和所述第二特征向量。
另外,在所述对所述第一特征向量及所述第二特征向量进行特征融合之前,还包括:对所述第一特征向量进行降维处理,得到预设维度的第一降维向量;对所述第二特征向量进行降维处理,得到所述预设维度的第二降维向量;所述对所述第一特征向量及所述第二特征向量进行特征融合,具体包括:对所述第一降维向量和所述第二降维向量进行特征融合。通过此种方式,能够进一步减少文本标签提取过程中的计算量,从而进一步提高文本标签的提取速度。
另外,所述对所述第一特征向量进行降维处理,得到预设维度的第一降维向量,具体包括:将所述第一特征向量与维度为e*d1的权值矩阵相乘,得到所述第一降维向量;其中,e为所述预设维度,d1为预设的第一数据库中的文本数据数量,其中,所第一数据库存储历史文本数据的标签。
另外,所述对所述第二特征向量进行降维处理,得到预设维度的第二降维向量,具体包括:将所述第二特征向量与维度为e*d2的权值矩阵相乘,得到所述第二降维向量;其中,e为所述预设维度,d2为预设的第二数据库中的文本数据数量,其中,所第二数据库存储历史文本数据的属性信息。
另外,所述对所述第一降维向量和所述第二降维向量进行特征融合,具体包括:将所述第一降维向量和所述第二降维向量输入卷积神经网络模型,对所述文本数据进行深度特征提取;所述根据所述特征融合的结果,获取所述文本数据的文本标签,具体包括:根据所述深度特征提取的结果,获取所述文本数据的文本标签。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式提供的文本标签提取方法的流程图;
图2是根据本发明第二实施方式提供的文本标签提取方法的流程图;
图3是根据本发明第三实施方式提供的文本标签提取方法的流程图;
图4是根据本发明第四实施方式提供的文本标签提取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本发明所要求保护的技术方案。
本发明的第一实施方式涉及一种文本标签提取方法,其核心在于获取与文本数据匹配的多个标签;根据所述多个标签对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量;对所述第一特征向量及所述第二特征向量进行特征融合,并根据所述特征融合的结果,获取所述文本数据的文本标签,从而提高文本标签抽取的准确率。下面对本实施方式的媒体数据插入方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的文本标签提取方法的具体流程如图1所示,包括:
S101:从知识图谱中获取与文本数据匹配的多个标签。
关于步骤S101,具体的说,知识图谱的主要目的是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,比如说人物具有年龄、身高、体重等属性。知识图谱的数据来源主要有:1、通过收集来自百科类站点和各种垂直站点的结构化数据来收集大部分常识性知识2、从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述3、通过搜索日志发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。因此,知识图谱对数据的描述能力非常强大,又由于基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,因此可以更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
S102:将文本数据作为初始标签,获取初始标签在知识图谱中与多个标签之间的多条路径。
关于步骤S102,具体的说,所述多个标签均为对初始标签属性和关系的准确描述。可以理解的是,初始标签在知识图谱中与多个标签之间的多条路径即为初始标签与多个标签之间的关系,该关系能够表征初始标签与多个标签之间的内在特性。初始标签与其他标签之间的路径可分为出度路径和入度路径,为了便于理解,下面对初始标签在知识图谱中与多个标签之间的多条路径具体为什么路径进行详细的举例说明:
在知识图谱中输入张三,得到如下四条路径:(1)张三→李四→赵五(2)张三→韩九(3)张三→王六→于七→曹十(4)张三→公孙十一,可以理解的是,上述四条路径均为出度路径(即初始标签在首端),第一条路径的长度为2,第二条路径的长度为1,第三条路径的长度为3,第四条路径的长度为1。需要说明的是,入度路径即为初始标签在末端的路径,此处不再举例赘述。
S103:根据多条路径对文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征文本数据属性信息的第二特征向量。
关于步骤S103,具体的说,将所述初始标签记为1,所述多个标签均记为0,根据所述多条路径得到所述文本数据的矩阵向量,如上述步骤中例举的路径(1)张三→李四→赵五即可表示为100,路径(2)张三→韩九即可表示为10,路径(3)张三→王六→于七→曹十即可表示为1000,路径(4)张三→公孙十一即可表示为10,这四条路径形成的矩阵向量可表示为
Figure BDA0002340630630000051
可以理解的是,路径(1)表示的向量位于矩阵向量的第一行,实际应用中也可以位于矩阵向量的其他任意一行,本实施方式并不对与各条路径对应的各个向量具体位于矩阵向量的哪一行做具体限定;然后将所述矩阵向量的每一行首尾连接,得到初始输入向量,如上述矩阵向量首尾连接后得到的初始输入向量即为[1,0,0,1,0,1,0,0,0,1,0],再将初始输入向量输入预设的神经网络模型,得到所述第一特征向量和所述第二特征向量。可以理解的是,得到的初始输入向量为one-hot向量,one-hot向量能够处理非连续型数值特征,也就是离散值,在一定程度上也扩充了特征,比如性别本身是一个特征,经过one-hot编码以后,就变成了男或女两个特征。通过此种方式,进一步细化了文本数据的特征,从而使文本标签的抽取更加准确。
值得一提的是,本实施方式中预设的神经网络模型可以为卷积神经网络(CNN),卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,能够按其阶层结构对输入信息进行平移不变分类,因此能够将初始输入向量分类得到第一特征向量和第二特征向量。在CNN结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层.全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。可以理解的是,本实施方式中CNN的全连接层为两个,将初始输入向量输入具有两个全连接层的卷积神经网络中,即可得到第一特征向量和第二特征向量。
S104:对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签。
关于步骤S104,具体的说,通过将第一特征向量及第二特征向量输入BLSTM层和CRF层,通过CRF层对每个输入的词打标签,即可获取文本数据的文本标签。
本发明的实施方式相对于现有技术而言,通过对文本数据进行标签识别,得到与文本数据匹配的多个标签,这些标签即为知识图谱中对文本数据属性和关系的准确描述,然后根据多个标签对文本数据进行向量转换,得到第一特征向量和第二特征向量,由于第一特征向量能够表征文本数据的标签信息,第二特征向量能够表征文本数据的属性信息,使得上述文本数据的标签信息和属性信息也能作为如何确定文本数据词义的参考特征,最后对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签,使得根据该特征融合的结果得到的文本标签能够更全面的考虑与文本数据词义有关的各个因素,从而丰富了文本数据所能表达的含义,也即增加了文本数据的语义信息,进而提高了与该文本数据对应的文本标签提取的准确率,避免了“由于缺乏有效的语义信息,使得对于多义词的文本标签提取存在严重的语义漂移问题,导致嵌入向量对词的表达不准确,影响文本标签抽取的准确率”的情况的发生。
本发明的第二实施方式涉及一种文本标签提取方法,第二实施方式是在第一实施方式的基础上做了进一步的改进,具体改进之处在于:在第二实施方式中,在根据所述多条路径对所述文本数据进行向量转换之前,还包括:判断所述多条路径的长度是否均与预设长度相同,若均与所述预设长度相同,则再执行所述根据所述多条路径对所述文本数据进行向量转换;若存在长度小于所述预设长度的路径,则在路径末端添加所述初始标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换;若存在长度大于所述预设长度的路径,则删除路径末端的标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换。通过此种方式,能够减少文本标签提取过程中的计算量,从而提高文本标签的提取速度。
本实施方式的具体流程如图2所示,包括:
S201:从知识图谱中获取与文本数据匹配的多个标签。
S202:将文本数据作为初始标签,获取初始标签在知识图谱中与多个标签之间的多条路径。
S203:判断多条路径的长度是否均与预设长度相同,若均与所述预设长度相同,则执行步骤S205;若存在与预设长度不同的路径,则执行步骤S204。
关于步骤S203,具体的说,本实施方式并不对预设长度的大小作具体限定,可以根据实际需求选择不同大小的预设长度。
S204:若存在长度小于预设长度的路径,则在路径末端添加初始标签,直至路径的长度与预设长度相等;若存在长度大于预设长度的路径,则删除路径末端的标签,直至路径的长度与预设长度相等,并再执行步骤S205。
关于步骤S204,具体的说,以预设长度为2为例,如在知识图谱中输入张三,得到如下四条路径:(1)张三→李四→赵五(2)张三→韩九(3)张三→王六→于七→曹十(4)张三→公孙十一,可以理解的是,第一条路径的长度为2,第二条路径的长度为1,第三条路径的长度为3,第四条路径的长度为1。则在第二条路径的末端添加初始标签,即第二条路径变为张三→韩九→张三;去除第三条路径末端的曹十,即第三条路径变为张三→王六→于七;在第四条路径的末端添加初始标签,即第四条路径变为张三→公孙十一→张三。
值得一提的是,若在知识图谱中找不到文本数据对应的标签,则构建一个新标签点,并按照规则补全文本数据的入度路径和出度路径,具体的说,假设找不到“张三”对应的标签,则在“张三”的末端添加若干个“张三”,以使路径的长度等于预设长度,如预设长度为2的话,则补全“张三”的路径为张三→张三→张三。
S205:根据多条路径对文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征文本数据属性信息的第二特征向量。
关于步骤S205,具体的说,将所述初始标签记为1,所述多个标签均记为0,根据所述多条路径得到所述文本数据的矩阵向量,如上述步骤中例举的路径(1)张三→李四→赵五即可表示为100,路径(2)张三→韩九→张三即可表示为101,路径(3)张三→王六→于七即可表示为100,路径(4)张三→公孙十一→张三即可表示为101,这四条路径形成的矩阵向量可表示为
Figure BDA0002340630630000071
可以理解的是,路径(1)表示的向量位于矩阵向量的第一行,实际应用中也可以位于矩阵向量的其他任意一行,本实施方式并不对与各条路径对应的各个向量具体位于矩阵向量的哪一行做具体限定;然后将所述矩阵向量的每一行首尾连接,得到初始输入向量,如上述矩阵向量首尾连接后得到的初始向量即为[1,0,0,1,0,1,1,0,0,1,0,1],再将初始输入向量输入预设的神经网络模型,得到第一特征向量和第二特征向量。
S206:对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签。
本实施方式中的步骤S201至步骤S202、步骤S205至步骤S206与第一实施方式中的步骤S101至步骤S104类似,为了避免重复,此处不再赘述。
本发明的实施方式相对于现有技术而言,通过对文本数据进行标签识别,得到与文本数据匹配的多个标签,这些标签即为知识图谱中对文本数据属性和关系的准确描述,然后根据多个标签对文本数据进行向量转换,得到第一特征向量和第二特征向量,由于第一特征向量能够表征文本数据的标签信息,第二特征向量能够表征文本数据的属性信息,使得上述文本数据的标签信息和属性信息也能作为如何确定文本数据词义的参考特征,最后对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签,使得根据该特征融合的结果得到的文本标签能够更全面的考虑与文本数据词义有关的各个因素,从而丰富了文本数据所能表达的含义,也即增加了文本数据的语义信息,进而提高了与该文本数据对应的文本标签提取的准确率,避免了“由于缺乏有效的语义信息,使得对于多义词的文本标签提取存在严重的语义漂移问题,导致嵌入向量对词的表达不准确,影响文本标签抽取的准确率”的情况的发生。
本发明的第三实施方式涉及一种文本标签提取方法,第三实施方式是在第一实施方式的基础上做了进一步的改进,具体改进之处在于:在第三实施方式中,在所述对所述第一特征向量及所述第二特征向量进行特征融合之前,还包括:对所述第一特征向量进行降维处理,得到预设维度的第一降维向量;对所述第二特征向量进行降维处理,得到所述预设维度的第二降维向量;所述对所述第一特征向量及所述第二特征向量进行特征融合,具体包括:对所述第一降维向量和所述第二降维向量进行特征融合。通过此种方式,能够进一步减少文本标签提取过程中的计算量,从而进一步提高文本标签的提取速度。
本实施方式的具体流程如图3所示,包括:
S301:从知识图谱中获取与文本数据匹配的多个标签。
S302:将文本数据作为初始标签,获取初始标签在知识图谱中与多个标签之间的多条路径。
S303:根据多条路径对文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征文本数据属性信息的第二特征向量。
S304:对第一特征向量进行降维处理,得到预设维度的第一降维向量;对第二特征向量进行降维处理,得到所述预设维度的第二降维向量。
关于步骤S304,具体的说,本实施方式中对第一特征向量进行降维处理,得到预设维度的第一降维向量,可以为:将所述第一特征向量与维度为e*d1的权值矩阵相乘,得到所述第一降维向量;其中,e为所述预设维度,d1为预设的第一数据库中的文本数据数量,其中,所述第一数据库存储历史文本数据的标签。可以理解的是,上述实施方式中提到,将初始输入向量输入具有两个全连接层的卷积神经网络中,即可得到第一特征向量和第二特征向量。得到的第一特征向量会作为第一个全连接层的输入,第一个全连接层中有一个维度为e*d1的权值矩阵,该权值矩阵会对第一特征向量进行矩阵乘法操作,以此将第一特征向量的维度压缩到e维。需要说明的是,本实施方式中并不对预设维度的大小作具体限定,可以根据实际需求选择不同大小的预设维度。
本实施方式中对所述第二特征向量进行降维处理,得到预设维度的第二降维向量,可以为:将所述第二特征向量与维度为e*d2的权值矩阵相乘,得到所述第二降维向量;其中,e为所述预设维度,d2为预设的第二数据库中的文本数据数量,其中,所第二数据库存储历史文本数据的属性信息。可以理解的是,得到的第二特征向量会作为第二个全连接层的输入,第二个全连接层中有一个维度为e*d2的权值矩阵,该权值矩阵会对第二特征向量进行矩阵乘法操作,以此将第一特征向量的维度压缩到e维。
S305:对第一降维向量及第二降维向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签。
关于步骤S305,具体的说,本实施方式中对所述第一降维向量和所述第二降维向量进行特征融合,可以为:将所述第一降维向量和所述第二降维向量输入卷积神经网络模型,对所述文本数据进行深度特征提取;所述根据所述特征融合的结果,获取所述文本数据的文本标签,可以为:根据所述深度特征提取的结果,获取所述文本数据的文本标签。可以理解的是,由于得到的第一降维向量和第二降维向量的维度仍较高,为了进一步减少计算量,通过将第一降维向量和第二降维向量输入多层卷积神经网络模型中,且采用池化操作来降低第一降维向量和第二降维向量的维度。
本实施方式的步骤S301至步骤S303与第一实施方式的步骤S101至步骤S103类似,为了避免重复,此处不再赘述。
本发明的实施方式相对于现有技术而言,通过对文本数据进行标签识别,得到与文本数据匹配的多个标签,这些标签即为知识图谱中对文本数据属性和关系的准确描述,然后根据多个标签对文本数据进行向量转换,得到第一特征向量和第二特征向量,由于第一特征向量能够表征文本数据的标签信息,第二特征向量能够表征文本数据的属性信息,使得上述文本数据的标签信息和属性信息也能作为如何确定文本数据词义的参考特征,最后对第一特征向量及第二特征向量进行特征融合,并根据特征融合的结果,获取文本数据的文本标签,使得根据该特征融合的结果得到的文本标签能够更全面的考虑与文本数据词义有关的各个因素,从而丰富了文本数据所能表达的含义,也即增加了文本数据的语义信息,进而提高了与该文本数据对应的文本标签提取的准确率,避免了“由于缺乏有效的语义信息,使得对于多义词的文本标签提取存在严重的语义漂移问题,导致嵌入向量对词的表达不准确,影响文本标签抽取的准确率”的情况的发生。
本发明第四实施方式涉及一种文本标签提取装置,如图4所示,包括:
至少一个处理器401;以及,
与至少一个处理器401通信连接的存储器402;其中,
存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述文本标签提取方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种文本标签提取方法,其特征在于,包括:
获取与文本数据匹配的多个标签;
根据所述多个标签对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量;
对所述第一特征向量及所述第二特征向量进行特征融合,并根据所述特征融合的结果,获取所述文本数据的文本标签。
2.根据权利要求1所述的文本标签提取方法,其特征在于,所述获取与文本数据匹配的多个标签,具体包括:
从知识图谱中获取所述多个标签;
所述根据所述多个标签对所述文本数据进行向量转换,具体包括:
将所述文本数据作为初始标签,获取所述初始标签在所述知识图谱中与所述多个标签之间的多条路径,其中,所述初始标签到每个标签的路径均为一条;
根据所述多条路径对所述文本数据进行向量转换。
3.根据权利要求2所述的文本标签提取方法,其特征在于,在根据所述多条路径对所述文本数据进行向量转换之前,还包括:
判断所述多条路径的长度是否均与预设长度相同,若均与所述预设长度相同,则再执行所述根据所述多条路径对所述文本数据进行向量转换;
若存在长度小于所述预设长度的路径,则在路径末端添加所述初始标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换;
若存在长度大于所述预设长度的路径,则删除路径末端的标签,直至所述路径的长度与所述预设长度相等,并再执行所述根据所述多条路径对所述文本数据进行向量转换。
4.根据权利要求2至3任一项所述的文本标签提取方法,其特征在于,根据所述多条路径对所述文本数据进行向量转换,得到用于表征所述文本数据标签信息的第一特征向量,以及用于表征所述文本数据属性信息的第二特征向量,具体包括:
将所述初始标签记为1,所述多个标签均记为0,根据所述多条路径得到所述文本数据的矩阵向量;
将所述矩阵向量的每一行首尾连接,得到初始输入向量;
根据所述初始输入向量输入预设的神经网络模型,得到所述第一特征向量和所述第二特征向量。
5.根据权利要求1所述的文本标签提取方法,其特征在于,在所述对所述第一特征向量及所述第二特征向量进行特征融合之前,还包括:
对所述第一特征向量进行降维处理,得到预设维度的第一降维向量;
对所述第二特征向量进行降维处理,得到所述预设维度的第二降维向量;
所述对所述第一特征向量及所述第二特征向量进行特征融合,具体包括:
对所述第一降维向量和所述第二降维向量进行特征融合。
6.根据权利要求5所述的文本标签提取方法,其特征在于,所述对所述第一特征向量进行降维处理,得到预设维度的第一降维向量,具体包括:
将所述第一特征向量与维度为e*d1的权值矩阵相乘,得到所述第一降维向量;
其中,e为所述预设维度,d1为预设的第一数据库中的文本数据数量,其中,所述第一数据库存储历史文本数据的标签信息。
7.根据权利要求5所述的文本标签提取方法,其特征在于,所述对所述第二特征向量进行降维处理,得到预设维度的第二降维向量,具体包括:
将所述第二特征向量与维度为e*d2的权值矩阵相乘,得到所述第二降维向量;
其中,e为所述预设维度,d2为预设的第二数据库中的文本数据数量,其中,所第二数据库存储历史文本数据的属性信息。
8.根据权利要求5至7任一项所述的文本标签提取方法,其特征在于,所述对所述第一降维向量和所述第二降维向量进行特征融合,具体包括:
将所述第一降维向量和所述第二降维向量输入卷积神经网络模型,对所述文本数据进行深度特征提取;
所述根据所述特征融合的结果,获取所述文本数据的文本标签,具体包括:
根据所述深度特征提取的结果,获取所述文本数据的文本标签。
9.一种文本标签提取装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的文本标签提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的文本标签提取方法。
CN201911374745.3A 2019-12-27 2019-12-27 文本标签提取方法、装置及计算机可读存储介质 Active CN111191004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374745.3A CN111191004B (zh) 2019-12-27 2019-12-27 文本标签提取方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374745.3A CN111191004B (zh) 2019-12-27 2019-12-27 文本标签提取方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111191004A true CN111191004A (zh) 2020-05-22
CN111191004B CN111191004B (zh) 2023-09-22

Family

ID=70707724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374745.3A Active CN111191004B (zh) 2019-12-27 2019-12-27 文本标签提取方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111191004B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268614A (zh) * 2021-05-25 2021-08-17 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN108460415A (zh) * 2018-02-28 2018-08-28 国信优易数据有限公司 伪标签生成模型训练方法及伪标签生成方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN108460415A (zh) * 2018-02-28 2018-08-28 国信优易数据有限公司 伪标签生成模型训练方法及伪标签生成方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268614A (zh) * 2021-05-25 2021-08-17 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质
CN113268614B (zh) * 2021-05-25 2024-06-04 平安银行股份有限公司 标签体系更新方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111191004B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111949787A (zh) 基于知识图谱的自动问答方法、装置、设备及存储介质
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN114782719B (zh) 一种特征提取模型的训练方法、对象检索方法以及装置
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN111191004B (zh) 文本标签提取方法、装置及计算机可读存储介质
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN116775875A (zh) 问题语料库构建方法和装置、问答方法、设备及存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN114169418B (zh) 标签推荐模型训练方法及装置、标签获取方法及装置
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN110502741B (zh) 中文文本的识别方法及装置
CN115774778A (zh) 简历处理方法、装置、电子设备及可读存储介质
CN110765239B (zh) 热词识别方法、装置及存储介质
CN113408285B (zh) 金融主体的识别方法、电子装置和存储介质
CN114238634B (zh) 正则表达式的生成方法及应用、装置、设备和存储介质
CN115795023B (zh) 文档推荐方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant