CN110728135B - 文本主题标引方法、装置、电子设备及计算机存储介质 - Google Patents

文本主题标引方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN110728135B
CN110728135B CN201910970014.9A CN201910970014A CN110728135B CN 110728135 B CN110728135 B CN 110728135B CN 201910970014 A CN201910970014 A CN 201910970014A CN 110728135 B CN110728135 B CN 110728135B
Authority
CN
China
Prior art keywords
text
word
words
subject
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910970014.9A
Other languages
English (en)
Other versions
CN110728135A (zh
Inventor
韩红旗
薛陕
刘志辉
张运良
悦林东
高雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Scientific And Technical Information Of China
Original Assignee
Institute Of Scientific And Technical Information Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Scientific And Technical Information Of China filed Critical Institute Of Scientific And Technical Information Of China
Priority to CN201910970014.9A priority Critical patent/CN110728135B/zh
Publication of CN110728135A publication Critical patent/CN110728135A/zh
Application granted granted Critical
Publication of CN110728135B publication Critical patent/CN110728135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及文本处理技术领域,公开了一种文本主题标引方法、装置、电子设备及计算机存储介质,其中,文本主题标引方法包括:确定待标引文本的文本词列表;接着基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量;接着基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词;接着根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。

Description

文本主题标引方法、装置、电子设备及计算机存储介质
技术领域
本申请实施例涉及文本处理技术领域,具体而言,本申请涉及一种文本主题标引方法、装置、电子设备及计算机存储介质。
背景技术
自动主题标引一般是指使用计算机系统从文献构成的各要素中,例如题名、关键词、摘要和正文,分析、发现并抽取用于揭示文献内容的主题词的过程。标引的文档可以从论文扩充到专利、图书、网页文本等其它形式的电子文档。主题标引可由人工完成,也可以由机器完成。
目前,自动主题标引的方法按技术可以分为三类:统计标引法、语言分析标引法和机器学习标引法。统计标引法的主要思想是:词在文档中出现的频率是该词对文档重要性的有效测量指标。通常认为,处于高频和低频之间的那部分词汇才最适宜做标引词。语言分析标引法,是指对被标引对象进行句法分析(Syntactical Analysis)和语义分析(Semantic Analysis),从而达到自动标引的目的;其中,句法分析标引法是通过从语法角度,来确定句子中每个词的作用(比如,是主语还是谓语)以及词与词之间的相互关系(比如,是修饰关系还是被修饰关系)来实现的;语义分析标引法是在分析词和短语在特定上下文环境中的确切含义的基础上,选择与主题含义相同的标引词来描述文献和提问。基于机器学习的自动标引方法,是利用计算机来理解和模拟人类特有的智能系统活动,学习人们如何运用自己所掌握的知识,去解决现实中的问题。
然而,本申请的发明人在实现过程中,发现:统计标引法的准确率较低,选取的标引词无法很好地表征文章的内容;语言分析标引法通过与预先准备好的解析规则或语法词典比较而实现,其实现结果直接受到“规则库”性能的影响,由于汉语复杂多变、异常灵活,预先定义的规则往往不具有较高的覆盖度,需要进行大量的人工干预的同义词识别、词义排歧等工作,导致其通用性差、应用具有较大难度;基于机器学习的自动标引方法对于不同类型数据需要训练多个分类器,训练时间较长,存在数据稀疏问题及过拟合学习问题,无法适应大规模受控词表的标注。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种文本主题标引方法,包括:
确定待标引文本的文本词列表;
基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量;
基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词;
根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。
在一种可能的实现方式中,文本词列表包括待标引文本的各个文本词及各个文本词在待标引文本中出现的次数。
在一种可能的实现方式中,基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量,包括:
基于预定词向量库,确定各个文本词分别对应的词向量;
基于平均词向量法,根据各个文本词的词向量及出现次数,确定待标引文本的文本表示向量。
在一种可能的实现方式中,在基于根据受控词表预先建立的主题词与普通词间的映射表,将与任一文本词的关联强度大于预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词之前,还包括:
建立受控词表中的各个主题词与相应的普通词之间的映射关系,并根据映射关系,得到主题词与普通词间的映射表。
在一种可能的实现方式中,建立受控词表中的一个主题词与相应的普通词之间的映射关系,包括:
根据样本文本的语料库,确定与一个主题词相关联的样本文本;
确定样本文本的各个样本文本词,并计算各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与一个主题词具有映射关系的普通词,来建立一个主题词与该普通词之间的映射关系。
在一种可能的实现方式中,根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,包括:
通过计算文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度,确定待标引文本与各个文本词分别对应的主题词之间的语义关联强度;
基于第二预定排序方式,根据语义关联强度,对各个文本词分别对应的主题词进行排序,并根据排序结果选取第二预设个数的主题词;
将第二预设个数的主题词,确定为待标引文本的目标主题词。
在一种可能的实现方式中,在计算文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度之前,还包括:
基于预定词向量库,确定各个文本词分别对应的主题词的词向量;
其中,基于预定词向量库,确定一个文本词对应的任一主题词的词向量,包括:
确定预定词向量库中是否存在与任一主题词相同的词;
如果存在,则将该词的词向量确定为任一主题词的词向量;
如果不存在,则将任一主题词划分为第二预设个数的短词,并根据预定词向量库确定各个短词的词向量,并将各个短词的词向量的平均值作为任一主题词的词向量。
一方面,提供了一种文本主题标引装置,包括:
第一确定模块,用于确定待标引文本的文本词列表;
第二确定模块,基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量;
第一处理模块,用于基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词;
第二处理模块,用于根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。
在一种可能的实现方式中,文本词列表包括待标引文本的各个文本词及各个文本词在待标引文本中出现的次数
在一种可能的实现方式中,第二确定模块具体用于:
基于预定词向量库,确定各个文本词分别对应的词向量;
基于平均词向量法,根据各个文本词的词向量及出现次数,确定待标引文本的文本表示向量。
在一种可能的实现方式中,还包括建立模块;
建立模块,具体用于建立受控词表中的各个主题词与相应的普通词之间的映射关系,并根据映射关系,得到主题词与普通词间的映射表。
在一种可能的实现方式中,建立模块在建立受控词表中的一个主题词与相应的普通词之间的映射关系时,具体用于:
根据样本文本的语料库,确定与一个主题词相关联的样本文本;
确定样本文本的各个样本文本词,并计算各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与一个主题词具有映射关系的普通词,来建立一个主题词与该普通词之间的映射关系。
在一种可能的实现方式中,第二确定模块在根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词时,具体用于:
通过计算文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度,确定待标引文本与各个文本词分别对应的主题词之间的语义关联强度;
基于第二预定排序方式,根据语义关联强度,对各个文本词分别对应的主题词进行排序,并根据排序结果选取第二预设个数的主题词;
将第二预设个数的主题词,确定为待标引文本的目标主题词。
在一种可能的实现方式中,还包括第三确定模块;
第三确定模块,用于基于预定词向量库,确定各个文本词分别对应的主题词的词向量;
第三确定模块在基于预定词向量库,确定一个文本词对应的任一主题词的词向量时,具体用于:
确定预定词向量库中是否存在与任一主题词相同的词;
如果存在,则将该词的词向量确定为任一主题词的词向量;
如果不存在,则将任一主题词划分为第二预设个数的短词,并根据预定词向量库确定各个短词的词向量,并将各个短词的词向量的平均值作为任一主题词的词向量。
一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的文本主题标引方法。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的文本主题标引方法。
本申请实施例提供的文本主题标引方法,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,实现了对受控词表中的主题词的第一轮筛选,排除了与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
根据所述文本表示向量与所述各个文本词分别对应的主题词
本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的文本主题标引方法的流程示意图;
图2为本申请实施例的文本主题标引的过程示意图;
图3为本申请实施例的分布式词向量生成示意图;
图4为本申请实施例的文本主题标引装置的基本结构示意图;
图5为本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的文本主题标引方法、装置、电子设备及计算机存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请一个实施例提供了一种文本主题标引方法,该方法由计算机设备执行,该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示,该方法包括:
步骤S110,确定待标引文本的文本词列表。
具体地,对待标引文本进行分词、停用词处理后,获得待标引文本中包含各个文本词的文本词列表,从而为后续对待标引文本进行主题标引奠定必要基础。
步骤S120,基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量。
具体地,在确定出待标引文本的文本词列表后,可以进一步确定出待标引文本的文本表示向量,其中,可以基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量。
具体地,预定词向量库是预先根据大规模的文本语料数据生成的。在根据大规模的文本语料数据生成预定词向量库的过程中,可以执行如下操作:对获取到的大规模的文本语料数据,进行清洗和分词处理,并在进行清洗和分词处理后,基于词向量技术(例如word2vec),将分词处理得到的各个词分别表示为具有特定维数的稠密的嵌入式向量,形成词向量库(即预定词向量库)。其中,经过清洗和分词处理后,语义相似的词会有相似的向量表示。
步骤S130,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词。
具体地,对待标引文本进行主题标引需要检索受控词表中每一个主题词,并将每一个主题词与待标引文本的语义信息进行对比,然而,通过受控词表中的主题词的数量巨大,如果将每一个主题词和待标引文本的语义信息进行对比的话,将带来很大的运算量。于是,可以先对受控词表中的主题词进行初步筛选,再将初步筛选得到的主题词与待标引文本的语义信息进行对比。
具体地,可以采用如下操作,来对受控词表中的主题词进行初步筛选:基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,从而初步筛选相应的主题词,排除与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
步骤S140,根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。
具体地,在根据步骤S130初步筛选相应的主题词后,可以根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
本申请实施例提供的文本主题标引方法,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,实现了对受控词表中的主题词的第一轮筛选,排除了与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
在一种可能的实现方式中,文本词列表包括待标引文本的各个文本词及各个文本词在待标引文本中出现的次数。
具体地,对于待标引文本进行分词和停用词处理,获得该待标引文本中包含的各个文本词及各个文本词在待标引文本中出现的次数,可以记作[(w1,f1),(w2,f2),...,(wq,fq)],其中,w1,w2,…,wq为待标引文本中包含的各个文本词,f1,f2,…,fq是各个文本词在待标引文本中分别出现的次数。
具体地,在确定出待标引文本的文本词列表后,可以基于预定词向量库,确定各个文本词分别对应的词向量;接着基于平均词向量法,根据各个文本词的词向量及出现次数,确定待标引文本的文本表示向量,从而基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量。
在一示例中,可以根据各个文本词的词向量及各个文本词在待标引文本中出现的次数,基于平均词向量法(AVG-W2V),获得该待标引文本的k维向量表示,即以待标引文本中各个文本词的词向量的加权平均值作为待标引文本的文本表示向量,其中,权重为待标引文本中各个文本词的词频(即次数),计算方法可以表示为如下式(1)的形式:
Figure BDA0002231749110000091
其中,(wj1,wj2,…,wjk)表示文本词wj的词向量,fj表示文本词wj在待标引文本中出现的次数。
换言之,基于待标引文本预处理获得的各个文本词及各个文本词的词频,采用平均词向量法(AVG-W2V)获得待标引文本的文本表示向量,即文本表示向量为待标引文本的所有词向量分布在每个向量维度的平均,若一个文本词出现多次,则需要进行多次计算。
在一种可能的实现方式中,在基于根据受控词表预先建立的主题词与普通词间的映射表,将与任一文本词的关联强度大于预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词之前,还包括:建立受控词表中的各个主题词与相应的普通词之间的映射关系,并根据映射关系,得到主题词与普通词间的映射表。
其中,建立受控词表中的一个主题词与相应的普通词之间的映射关系,包括:
根据样本文本的语料库,确定与一个主题词相关联的样本文本;
确定样本文本的各个样本文本词,并计算各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与一个主题词具有映射关系的普通词,来建立一个主题词与该普通词之间的映射关系。
具体地,为避免将待标引文本与受控词表中的每一个主题词进行对比,通过文本语料库建立主题词与普通词的映射关系,将一个主题词与若干个普通词建立映射关系,如下表1所示:
表1主题词与普通词间的映射表
主题词 普通词1 普通词2 ... 普通词n
Thesaurus-1 Word11 Word12 ... Word1n
Thesaurus-2 Word21 Word22 ... Word2n
... ... ... ... ...
Thesaurus-m Wordm1 Wordm2 Wordmn
在一种可选方案中,可以采用如下方法建立受控词表中的一个主题词与相应的普通词之间的映射关系:从受控词表中获取主题词的列表,对每一个主题词,在文本语料库中进行检索,获取该主题词覆盖的全部文档集合,然后对获取到的全部文档集合中的全部文本进行分词和停用词处理,对全部文本的各个文本词分别计算TF-IDF(Term Frequency–Inverse Document Frequency,词频逆文本频率)值,然后按照从小到大的顺序对各个TF-IDF进行排序,并将第一预设个数(例如N个)的排序后的TF-IDF所对应的样本文本词,确定为主题词具有映射关系的普通词,来建立一个主题词与该普通词之间的映射关系。换言之,将依据TF-IDF排序后的前n个文本词作为与相应主题词具有关联度强的词汇列表,即利用主题词与普通词的映射关系表,可以获得与一个普通词关联性高的主题词列表。
在一种可能的实现方式中,根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,包括:
通过计算文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度,确定待标引文本与各个文本词分别对应的主题词之间的语义关联强度;
基于第二预定排序方式,根据语义关联强度,对各个文本词分别对应的主题词进行排序,并根据排序结果选取第二预设个数的主题词;
将第二预设个数的主题词,确定为待标引文本的目标主题词。
具体地,在计算所述文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度之前,还包括:
基于预定词向量库,确定各个文本词分别对应的主题词的词向量;
其中,基于预定词向量库,确定一个文本词对应的任一主题词的词向量,包括:
确定预定词向量库中是否存在与任一主题词相同的词;
如果存在,则将该词的词向量确定为任一主题词的词向量;
如果不存在,则将任一主题词划分为第二预设个数的短词,并根据预定词向量库确定各个短词的词向量,并将各个短词的词向量的平均值作为任一主题词的词向量。
具体地,基于预定词向量库,可生成受控词表中主题词的词向量表示。如果受控词表中的主题词在预定词向量库中存在对应的词,则采用该词的向量表示作为该主题词的向量表示,否则将主题词切分为更短的若干个词,并用短词的平均向量作为主题词的向量表示,从而形成大规模词向量数据,包含普通词的词向量和主题词的词向量。换言之,通过对主题词在文本语料库中分布的分析,可以获得与主题词关联性高的M个普通词,M对每一个主题词可以为固定数值,也可以是变动数值,从而获得普通词与主题词的映射关系表。
具体地,在生成受词表中主题词的词向量表示的过程中,可以首先获取受控词表中的主题词列表,然后逐词循环采用如下方法获得每一个主题词的向量表示:
对于一个主题词,假设为wi,在预定词向量库中检索是否存在与主题词wi相同的词,如果存在,则利用预定词向量库中该词的向量表示(wi1,wi2,...,wik)作为该主题词的向量表示;如果不存在,则将该主题词切分为p个短词,并将其中无意义的连接词去掉,假设一个主题词切分后为wi (1),wi (2),...,wi (p),接着在预定词向量库中检索,获得每一个短词的向量表示,则采用这些短词向量的平均值(如下式2所示)作为该主题词的向量表示。
Figure BDA0002231749110000121
具体地,在根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词的过程中,对于待标引文本中包含的每一个普通词,查找主题词与普通词的映射表,从而获得待标引文本中的各个文本词分别对应的全部主题词,也就是说,这些主题词与待标引文本存在语义关系。计算每一个主题词的词向量与待标引文本的文本表示向量的余弦相似度,获得每一个主题词与待标引文本的文本表示向量的语义关联度。按照语义关联度对主题词进行排序,取前M个主题词作为标注结果,也可输出全部主题词作为标注结果。
如图2所示,给出了本申请实施例的文本主题标引的一种实现方式,在该实现方式中包括如下6个步骤:
步骤1,分布式词向量库生成。获取大规模的文本语料数据,对文本语料数据进行清洗和分词处理,基于词向量技术(例如word2vec),将词表示为具有特定维数的稠密的嵌入式向量,形成词向量库,其中,经过处理后,语义相似的词会有相似的向量表示,从而得到相应的词向量库。
其中,基于词向量库,可以生成受控词表中主题词的词向量表示。如果受控词表中的主题词在词向量库中存在对应的词,则采用该词的向量表示作为主题词的向量表示,否则将主题词切分为更短的若干个词,并用短词的平均向量作为主题词的向量表示。该步骤是标引的准备阶段,目的是形成大规模词向量数据,包含普通词和主题词的词向量。
在实际应用中,搜集大规模文本语料数据,并对文本语料进行清洗和处理,形成可机器批量处理的规范格式数据,例如从文献数据库中获取大量的论文和专利数据,剔除重复的数据,将论文文本数据(标题、摘要,正文)和专利文本数据(标题、摘要、权利要求、说明书)进行无用标签删除、分词、数字文本过滤、格式转换等处理。接着,基于词向量技术将词转化为稠密的嵌入式向量,使得语义相似的词会有相似的向量表示。在生成分布式词向量时,可以采用Word2Vec词向量技术,也可以采用其它的词向量技术。其中,Word2Vec技术是谷歌公司在2013年发布的一款高效的自然语言处理工具,可以将词表征为实数值向量。,它利用深度学习的思想,通过训练,将每个词映射成k维实数向量(k一般为模型中的超参数),通过词之间的距离(比如余弦相似度、欧氏距离等)来判断它们之间的语义相似度,其基本原理如图3所示。
其中,经过词向量技术处理后,可以获得语料库中每一个词的向量表示,设向量的维数为k,则对于一个词wi,可以表示为(wi1,wi2,...,wik),所有词的向量构成一个词向量库。
步骤2,普通词与主题词的映射关系表生成。为待标引文本赋词时(即标引主题词),需要考虑检索受控词表中的每一个主题词,并将每一个主题词和待标引文本的语义信息进行对比。一般情况下,受控词表会很大,如果所有的检索运算都在整个受控词表范围进行,将带来很大的运算量,而通过对主题词在文本语料库中分布的分析,可以获得与主题词关联性高的L个普通词,L对每一个主题词可以为固定数值,也可以是变动数值,从而获得普通词与主题词的映射关系表。该步骤是文本标引的准备阶段,目的是生成与每个文本词语义关联度特别强的主题词的词汇集合。
步骤3,获得待标引文本的文本表示向量。首先,对待标引文本进行分词与停用词处理后,获得待标引文本中包含的各个文本词的词列表,统计每个文本词出现的数量(词频)。接着,基于待标引文本预处理获得的词列表及词频,采用平均词向量法(AVG-W2V)获得待标引文本的向量分布,即待标引文本的文本表示量在每个向量维度的平均,若一个文本词出现多次,则需要进行多次计算。本步骤获得的待标引文本的文本表示向量与词向量的维数一致,为计算待标引文本与主题词的语义相关度提供了前提保障。
步骤4,待标引文本的文本表示向量与主题词的词向量的比对过程的运算约减处理。一般情况下,需要对比待标引文本与受控词表中每一个主题词间的语义关系才能确定标引结果,这带来了大量的运算量。基于构建的普通词与主题词的映射表,可以大幅度减少运算量。待标引文本的文本表示向量与主题词的词向量比对时,根据普通词与主题词的映射表,只检索到数量不大的主题词,从而大幅度减少了检索的运算量,有效减少比对的次数,大大提高效率。
步骤5,待标引文本的主题标引。将待标引文本的文本表示向量和筛选出来的受控词表中的主题词的词向量进行语义相似性比较。语义相似性计算采用余弦方法,也可以采用其它方法。接着,对相似度结果进行排序,选择排名靠前的前T个主题词对待标引文本进行标引,T可以根据需要设定,当然,也可以输出全部的主题词。
本申请实施例的方法,基于分布式词向量的自然语言处理方法应用于文档的主题标引,可以更好地应对信息资源的快速增长,所造成的信息相对过剩问题,可以很好的提高信息组织的效率,方便人们高效地管理和检索文档。该方法可以广泛应用于搜索引擎、新闻服务、电子图书馆等领域,在全文检索、文本分类、信息过滤和文档摘要等任务中发挥重要作用。
本申请实施例的方法,具体如下优势:
(1)能够更好的反映文档的深层语义
基于分布式词向量方法获得文档的向量分布,由于在训练过程中考虑了每个词的上下文,使获得的分布式词向量带有语义信息,因而能够更好地发掘科研文献的深层语义和主题间的潜在关联。
(2)更适用于处理大规模数据
由于使用词向量技术进行词嵌入,训练向量空间模型的速度比以往的方法都快,而且将基于词向量的自然语言处理方法应用于文档的主题标引,可以很好地适用于处理大数据。此外,词向量是提前预先训练好的,其向量维数较传统向量空间模型生成的稀疏型向量大幅减少,使得可以更快速地计算向量之间语义。
(3)减少语义相似计算的运算量
本方案采用普通词与主题词映间的射表技术,解决了待标引文本需与全部主题词进行语义相似比较的问题,只需将待标文本与少量的主题词进行语义对比,大幅度地减少了运算量。
图4为本申请又一实施例提供的一种文本主题标引装置的结构示意图,如图4所示,该装置40可以包括第一确定模块41、第二确定模块42、第一处理模块43及第二处理模块44,其中:
第一确定模块41,用于确定待标引文本的文本词列表;
第二确定模块42,基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量;
第一处理模块43,用于基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词;
第二处理模块44,用于根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。
在一种可能的实现方式中,文本词列表包括待标引文本的各个文本词及各个文本词在待标引文本中出现的次数
在一种可能的实现方式中,第二确定模块具体用于:
基于预定词向量库,确定各个文本词分别对应的词向量;
基于平均词向量法,根据各个文本词的词向量及出现次数,确定待标引文本的文本表示向量。
在一种可能的实现方式中,还包括建立模块;
建立模块,具体用于建立受控词表中的各个主题词与相应的普通词之间的映射关系,并根据映射关系,得到主题词与普通词间的映射表。
在一种可能的实现方式中,建立模块在建立受控词表中的一个主题词与相应的普通词之间的映射关系时,具体用于:
根据样本文本的语料库,确定与一个主题词相关联的样本文本;
确定样本文本的各个样本文本词,并计算各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与一个主题词具有映射关系的普通词,来建立一个主题词与该普通词之间的映射关系。
在一种可能的实现方式中,第二确定模块在根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词时,具体用于:
通过计算文本表示向量与各个文本词分别对应的主题词的词向量之间的余弦相似度,确定待标引文本与各个文本词分别对应的主题词之间的语义关联强度;
基于第二预定排序方式,根据语义关联强度,对各个文本词分别对应的主题词进行排序,并根据排序结果选取第二预设个数的主题词;
将第二预设个数的主题词,确定为待标引文本的目标主题词。
在一种可能的实现方式中,还包括第三确定模块;
第三确定模块,用于基于预定词向量库,确定各个文本词分别对应的主题词的词向量;
第三确定模块在基于预定词向量库,确定一个文本词对应的任一主题词的词向量时,具体用于:
确定预定词向量库中是否存在与任一主题词相同的词;
如果存在,则将该词的词向量确定为任一主题词的词向量;
如果不存在,则将任一主题词划分为第二预设个数的短词,并根据预定词向量库确定各个短词的词向量,并将各个短词的词向量的平均值作为任一主题词的词向量。
本申请实施例提供的装置,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,实现了对受控词表中的主题词的第一轮筛选,排除了与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
本申请另一实施例提供了一种电子设备,如图5所示,图5所示的电子设备500包括:处理器501和存储器503。其中,处理器501和存储器503相连,如通过总线502相连。进一步地,电子设备500还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个,该电子设备500的结构并不构成对本申请实施例的限定。
其中,处理器501应用于本申请实施例中,用于实现图4所示的第一确定模块、第二确定模块、第一处理模块及第二处理模块的功能。
处理器501可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI总线或EISA总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器503用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现图4所示实施例提供的文本主题标引装置的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:确定待标引文本的文本词列表;基于预定词向量库,根据文本词列表,确定待标引文本的文本表示向量;基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词;根据文本表示向量与各个文本词分别对应的主题词,确定待标引文本的目标主题词,并通过目标主题词对待标引文本进行主题标引。
其中,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,实现了对受控词表中的主题词的第一轮筛选,排除了与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例所示的方法。其中,基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为任一文本词的主题词,来得到各个文本词分别对应的主题词,实现了对受控词表中的主题词的第一轮筛选,排除了与文本词关联强度比较低的主题词,避免后续在确定目标主题词的过程中,再次对该关联强度比较低的主题词进行比对,从而大幅度减少运算量、有效减少比对次数、极大提高文本主题标引的效率。
本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种文本主题标引方法,其特征在于,包括:
确定待标引文本的文本词列表;
基于预定词向量库,根据所述文本词列表,确定所述待标引文本的文本表示向量;
根据样本文本的语料库,确定与所述一个主题词相关联的样本文本;
确定所述样本文本的各个样本文本词,并计算所述各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与所述一个主题词具有映射关系的普通词,来建立所述一个主题词与该普通词之间的映射关系,并根据所述映射关系,得到主题词与普通词间的映射表;
基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为所述任一文本词的主题词,来得到所述各个文本词分别对应的主题词;
根据所述文本表示向量与所述各个文本词分别对应的主题词,确定所述待标引文本的目标主题词,并通过所述目标主题词对所述待标引文本进行主题标引。
2.根据权利要求1所述的方法,其特征在于,所述文本词列表包括所述待标引文本的各个文本词及各个文本词在所述待标引文本中出现的次数。
3.根据权利要求2所述的方法,其特征在于,所述基于预定词向量库,根据所述文本词列表,确定所述待标引文本的文本表示向量,包括:
基于所述预定词向量库,确定所述各个文本词分别对应的词向量;
基于平均词向量法,根据所述各个文本词的词向量及出现次数,确定所述待标引文本的文本表示向量。
4.根据权利要求1所述的方法,其特征在于,根据所述文本表示向量与所述各个文本词分别对应的主题词,确定所述待标引文本的目标主题词,包括:
通过计算所述文本表示向量与所述各个文本词分别对应的主题词的词向量之间的余弦相似度,确定所述待标引文本与所述各个文本词分别对应的主题词之间的语义关联强度;
基于第二预定排序方式,根据所述语义关联强度,对所述各个文本词分别对应的主题词进行排序,并根据排序结果选取第二预设个数的主题词;
将所述第二预设个数的主题词,确定为所述待标引文本的目标主题词。
5.根据权利要求4所述的方法,其特征在于,在计算所述文本表示向量与所述各个文本词分别对应的主题词的词向量之间的余弦相似度之前,还包括:
基于所述预定词向量库,确定所述各个文本词分别对应的主题词的词向量;
其中,基于所述预定词向量库,确定一个文本词对应的任一主题词的词向量,包括:
确定所述预定词向量库中是否存在与所述任一主题词相同的词;
如果存在,则将该词的词向量确定为所述任一主题词的词向量;
如果不存在,则将所述任一主题词划分为第二预设个数的短词,并根据所述预定词向量库确定各个短词的词向量,并将各个短词的词向量的平均值作为所述任一主题词的词向量。
6.一种文本主题标引装置,其特征在于,包括:
第一确定模块,用于确定待标引文本的文本词列表;
第二确定模块,基于预定词向量库,根据所述文本词列表,确定所述待标引文本的文本表示向量;
建立模块,用于根据样本文本的语料库,确定与所述一个主题词相关联的样本文本;
确定所述样本文本的各个样本文本词,并计算所述各个样本文本词的词频逆文本频率TF-IDF;
基于第一预定排序方式,对各个TF-IDF进行排序,并将第一预设个数的排序后的TF-IDF所对应的样本文本词,确定为与所述一个主题词具有映射关系的普通词,来建立所述一个主题词与该普通词之间的映射关系,并根据所述映射关系,得到主题词与普通词间的映射表;
第一处理模块,用于基于根据受控词表预先建立的主题词与普通词间的映射表,通过将与任一文本词的关联强度大于第一预定阈值的主题词确定为所述任一文本词的主题词,来得到所述各个文本词分别对应的主题词;
第二处理模块,用于根据所述文本表示向量与所述各个文本词分别对应的主题词,确定所述待标引文本的目标主题词,并通过所述目标主题词对所述待标引文本进行主题标引。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述的文本主题标引方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-5任一项所述的文本主题标引方法。
CN201910970014.9A 2019-10-12 2019-10-12 文本主题标引方法、装置、电子设备及计算机存储介质 Active CN110728135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910970014.9A CN110728135B (zh) 2019-10-12 2019-10-12 文本主题标引方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910970014.9A CN110728135B (zh) 2019-10-12 2019-10-12 文本主题标引方法、装置、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110728135A CN110728135A (zh) 2020-01-24
CN110728135B true CN110728135B (zh) 2023-06-09

Family

ID=69220042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910970014.9A Active CN110728135B (zh) 2019-10-12 2019-10-12 文本主题标引方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110728135B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507064B (zh) * 2020-11-09 2022-05-24 国网天津市电力公司 一种基于主题感知的跨模态序列到序列生成方法
CN113191123A (zh) * 2021-04-08 2021-07-30 中广核工程有限公司 工程设计档案信息的标引方法、装置、计算机设备
CN115713085B (zh) * 2022-10-31 2023-11-07 北京市农林科学院 文献主题内容分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202050A (zh) * 2016-07-18 2016-12-07 东软集团股份有限公司 主题信息获取方法、装置和电子设备
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丹 ; 杨晓蓉 ; 马健 ; .基于自动标引的自然语言检索方法研究.图书馆杂志.2016,(06),全文. *

Also Published As

Publication number Publication date
CN110728135A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
US9589208B2 (en) Retrieval of similar images to a query image
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN108804421B (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
CN108241613A (zh) 一种提取关键词的方法及设备
Rezaei et al. Multi-document extractive text summarization via deep learning approach
CN113254655B (zh) 文本分类方法、电子设备及计算机存储介质
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
Tian et al. Automatic image annotation with real-world community contributed data set
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Li et al. Keywords extraction algorithm of financial review based on dirichlet multinomial model
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant