CN112612889B - 一种多语种文献分类方法、装置及存储介质 - Google Patents

一种多语种文献分类方法、装置及存储介质 Download PDF

Info

Publication number
CN112612889B
CN112612889B CN202011578542.9A CN202011578542A CN112612889B CN 112612889 B CN112612889 B CN 112612889B CN 202011578542 A CN202011578542 A CN 202011578542A CN 112612889 B CN112612889 B CN 112612889B
Authority
CN
China
Prior art keywords
category
document
representative
documents
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011578542.9A
Other languages
English (en)
Other versions
CN112612889A (zh
Inventor
贾士杨
冯凯
王元卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202011578542.9A priority Critical patent/CN112612889B/zh
Publication of CN112612889A publication Critical patent/CN112612889A/zh
Application granted granted Critical
Publication of CN112612889B publication Critical patent/CN112612889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请提供了一种多语种文献分类方法、装置及存储介质,所述多语种文献分类方法包括步骤:文献接收,所述文献包括中文文献和外文文献;代表词提取,根据所述文献内容提取文献的关系词,每篇所述文献的关系词至少为一个,对所述代表词进行聚类,得出所述文献的代表词;文献类别表接收,所述文献类别表设置有多个基础类别;文献分类,将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类。分别对所述中文文献和外文文献提取代表词,计算代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,将中文文献和外文文献同时进行分类。

Description

一种多语种文献分类方法、装置及存储介质
技术领域
本申请涉及信息处理技术领域,尤其涉及一种多语种文献分类方法、装置及存储介质。
背景技术
随着科学技术的飞速发展,大量的论文、专利等科学文献不断涌现。对于一些公司或者企业来说,需要再多个网络库中进行检索,因此在互联网中进行文献检索已经不能满足这些使用者的需求。于是,面对海量的文献,越来越多的公司、企业、团体开始构建自己的学术知识库。
但是,构建知识库需要对文献进行分类,再将分类完成的文献构建为知识库,网络中的文献包括中文文献和外文文献,由于中文文献和外文文献为不同语种的文献,在语言上不能互通,难以同时对多语种的文献进行分类,因此通常公司、企业自己建立的学术知识库为单一语种的知识库,这样的知识库所覆盖的范围有限。
因此,将中文文献和外文文献同时进行分类是现有技术中亟待解决的问题。
有鉴于此,本申请提出一种多语种文献分类方法、装置及存储介质。
发明内容
本申请的目的在于提供一种多语种文献分类方法、装置及存储介质,将中文文献和外文文献同时进行分类。
本申请的第一方面提供了一种多语种文献分类方法,包括以下步骤:
文献接收,所述文献包括中文文献和外文文献;
代表词提取,根据所述文献内容提取文献的关系词,每篇所述文献的关系词至少为一个,对所述代表词进行聚类,得出所述文献的代表词;
文献类别表接收,所述文献类别表设置有多个基础类别;
文献分类,将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类。
采用上述方案,分别对所述中文文献和外文文献提取代表词,所述代表词皆为该文献类别的表征,将多语种的代表词转化为相同表示方法的词向量,再计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,通过向量表征的方式解决了文献语种难以互通的问题,将中文文献和外文文献同时进行分类。
进一步地,单一所述文献可以有多个代表词。
进一步地,所述文献可以通过在互联网中下载的方式获取,也可以为通过爬虫的方式获取。
进一步地,所述代表词提取的步骤包括:
关系词处理,对所述文献的文献内容进行分词处理,得出该文献的关系词;
代表词处理,接收所述关系词,将所述关系词导入LDA主题模型,进行LDA主题模型抽取,得出代表词。
采用上述方案,首先通过分词处理得出文献的关系词,再将关系词导入LDA主题模型得出代表词,逐层提取文献的代表信息,提高文献分类的精确度。
优选地,所述文献内容中包括多个语段,所述关系词处理的步骤包括:
代表语段提取,所述代表语段包括文献的题目、摘要或关键词;
代表语段处理,对所述代表语段进行分词处理,得出该文献的关系词。
采用上述方案,所述文献的题目、摘要或关键词通常为文献代表性的语段,对文献的题目、摘要或关键词进行分词,一方面提高分类精准度,另一方面减少分词处理量,提高处理效率。
进一步地,所述文献类别表可以为《中华人民共和国学科分类与代码国家标准》,所述基础类别即为《中华人民共和国学科分类与代码国家标准》的底层类别。
进一步地,所述文献分类的步骤包括:
词向量转化,接收所述代表词,将所述代表词导入Bert模型生成代表词向量,接收所述基础类别,将所述基础类别转化为类别词向量;
相关度获取,接收所述代表词向量和类别词向量,通过领域映射算法得出相关度;
类别分配,根据所述相关度对每个所述类别词向量下的代表词向量从大到小排序,提取所述类别词向量下相关度较高的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
采用上述方案,根据所述领域映射算法得出相关度,对每个所述类别词向量下的代表词向量从大到小排序,所述基础类别有多个,每个所述代表词均能计算出与所述基础类别的相关度,提取提取所述类别词向量下相关度较高的代表词向量所对应的文献,提高文献与所述基础类别的对应度,提高分类精准度。
进一步地,所述领域映射算法包括欧几里得距离、皮尔逊相关系数或余弦相似度公式。
优选地,所述领域映射算法为余弦相似度公式,所述余弦相似度公式如下:
Figure BDA0002865218530000031
A为所述代表词向量,B为所述类别词向量,sim(A,B)为相关度,n为所述代表词向量和类别词向量的向量维度。
采用上述方案,根据余弦相似度公式计算相似度,提高相似度计算精准度,提高类别分配的精准度。
优选地,所述类别分配的步骤包括:提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
采用上述方案,筛选出相关度较高的部分文献,当处理大规模的文献时,便于对大规模的文献进行处理,并且能有效筛除相关度低的文献。
更优选地,所述类别分配的步骤还包括:
接收相关度阈值;
判断所述类别词向量下是否存在相关度低于所述相关度阈值的代表词向量;
若存在,则从该基础类别中删除该代表词向量对应的文献。
采用上述方案,将相关度较低的文献直接从该基础类别中删除,避免相关度较低的文献混杂在类别中,造成不必要的空间占用。
进一步地,所述多语种文献分类方法的步骤还包括知识库构建,所述知识库构建的步骤包括,根据所述文献类别表将各个基础类别下的文献进行汇总,构建为知识库。
采用上述方案,将分配好的文献汇总,构建为知识库,该知识库中包括有中文文献和外文文献,提高知识库的覆盖范围。
本申请的第二方面提供了一种多语种文献分类系统,包括:
文献接收模块,所述文献包括中文文献和外文文献;
代表词提取模块,用于根据所述文献内容提取文献的关系词,每篇所述文献的关系词至少为一个,对所述代表词进行聚类,得出所述文献的代表词;
文献类别表接收模块,所述文献类别表设置有多个基础类别;
文献分类模块,用于将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类。
采用上述方案,分别对所述中文文献和外文文献提取代表词,所述代表词皆为该文献类别的表征,将多语种的代表词转化为相同表示方法的词向量,再计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,通过向量表征的方式解决了文献语种难以互通的问题,将中文文献和外文文献同时进行分类。
进一步地,单一所述文献可以有多个代表词。
进一步地,所述文献可以通过在互联网中下载的方式获取,也可以为通过爬虫的方式获取。
进一步地,所述代表词提取模块包括:
关系词处理模块,用于对所述文献的文献内容进行分词处理,得出该文献的关系词;
代表词处理模块,用于接收所述关系词,将所述关系词导入LDA主题模型,进行LDA主题模型抽取,得出代表词。
优选地,所述文献内容中包括多个语段,所述关系词处理模块包括:
代表语段提取模块,所述代表语段包括文献的题目、摘要或关键词;
代表语段处理模块,用于对所述代表语段进行分词处理,得出该文献的关系词。
进一步地,所述文献类别表可以为《中华人民共和国学科分类与代码国家标准》,所述基础类别即为《中华人民共和国学科分类与代码国家标准》的底层类别。
进一步地,所述文献分类模块包括:
词向量转化模块,用于接收所述代表词,将所述代表词导入Bert模型生成代表词向量,接收所述基础类别,将所述基础类别转化为类别词向量;
相关度获取模块,用于接收所述代表词向量和类别词向量,通过领域映射算法得出相关度;
类别分配模块,用于根据所述相关度对每个所述类别词向量下的代表词向量从大到小排序,提取所述类别词向量下相关度较高的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
进一步地,所述领域映射算法包括欧几里得距离、皮尔逊相关系数或余弦相似度公式。
优选地,所述领域映射算法为余弦相似度公式,所述余弦相似度公式如下:
Figure BDA0002865218530000041
A为所述代表词向量,B为所述类别词向量,sim(A,B)为相关度,n为所述代表词向量和类别词向量的向量维度。
优选地,所述类别分配模块的功能包括:提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
更优选地,所述类别分配模块的功能还包括:
接收相关度阈值;
判断所述类别词向量下是否存在相关度低于所述相关度阈值的代表词向量;
若存在,则从该基础类别中删除该代表词向量对应的文献。
进一步地,所述多语种文献分类系统还包括知识库构建模块,用于根据所述文献类别表将各个基础类别下的文献进行汇总,构建为知识库。
本申请的第三方面提供了一种多语种文献分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的多语种文献分类方法。
本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的多语种文献分类方法。
综上所述,本申请具有以下有益效果:
1、本申请的多语种文献分类方法,分别对所述中文文献和外文文献提取代表词,所述代表词皆为该文献类别的表征,将多语种的代表词转化为相同表示方法的词向量,再计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,通过向量表征的方式解决了文献语种难以互通的问题,将中文文献和外文文献同时进行分类;
2、本申请的多语种文献分类方法,所述文献的题目、摘要或关键词通常为文献代表性的语段,对文献的题目、摘要或关键词进行分词,一方面提高分类精准度,另一方面减少分词处理量,提高处理效率;
3、本申请的多语种文献分类方法,根据所述领域映射算法得出相关度,对每个所述类别词向量下的代表词向量从大到小排序,所述基础类别有多个,每个所述代表词均能计算出与所述基础类别的相关度,提取提取所述类别词向量下相关度较高的代表词向量所对应的文献,提高文献与所述基础类别的对应度,提高分类精准度;
4、本申请的多语种文献分类方法,将分配好的文献汇总,构建为知识库,该知识库中包括有中文文献和外文文献,提高知识库的覆盖范围。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请多语种文献分类方法一种实施方式的流程图;
图2为本申请多语种文献分类方法另一种实施方式的流程图;
图3为图2步骤细化的流程图;
图4为本申请多语种文献分类方法一种优选实施方式的流程图;
图5为本申请多语种文献分类系统一种实施方式的示意图;
图6为本申请多语种文献分类系统另一种实施方式的示意图;
图7为本申请多语种文献分类系统模块细化的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
如图1、7所示,本申请的第一方面提供了一种多语种文献分类方法,包括以下步骤:
S100、文献接收,所述文献包括中文文献和外文文献;
在具体实施过程中,所述文献包括论文和专利,所述中文文献为中文记载的文献,所述外文文献包括英文、日文或韩文记载的文献。
在本申请一个优选的实施方式中,所述外文文献为英文文献。
S200、代表词提取,根据所述文献内容提取文献的关系词,每篇所述文献的关系词至少为一个,对所述代表词进行聚类,得出所述文献的代表词;
在具体实施过程中,所述代表词可以为词语、汉字或者短句。
S300、文献类别表接收,所述文献类别表设置有多个基础类别;
在具体实施过程中,所述文献类别表为学科分类标准,所述基础类别为学科分类标准的的最下层分类。
在具体实施过程中,所述S300、文献类别表接收可以与S100、文献接收同时进行。
S400、文献分类,将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类。
在具体实施过程中,根据所述代表词向量和类别词向量之间的相关度,得出所述代表词向量对应文献和基础类别之间的相关性,在同一基础类别下,各文献与该基础类别的相关度不同,将相关度较高的文献归类在该基础类别下。
采用上述方案,分别对所述中文文献和外文文献提取代表词,所述代表词皆为该文献类别的表征,将多语种的代表词转化为相同表示方法的词向量,再计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,通过向量表征的方式解决了文献语种难以互通的问题,将中文文献和外文文献同时进行分类。
在具体实施过程中,单一所述文献可以有多个代表词。
在具体实施过程中,所述文献可以通过在互联网中下载的方式获取,也可以为通过爬虫的方式获取。
在具体实施过程中,若所述文献过爬虫的方式获取,则需要进行爬虫清洗,所述爬虫清洗用于筛除爬虫造成的数据污染,如特殊符号等,所述特殊符号包括*、#、¥、%等。
在具体实施过程中,所述爬虫清洗可以通过Java实现。
如图3所示,在具体实施过程中,所述S200、代表词提取的步骤包括:
S210、关系词处理,对所述文献的文献内容进行分词处理,得出该文献的关系词;
在具体实施过程中,所述分词处理可以使用jieba分词、ansj分词或Hanlp分词或者空格分词。
在具体实施过程中,所述分词处理可以为对文献所有内容进行分词,也可以对文献部分内容进行分词。
在本申请一个优选的实施方式中,当所述文献为中文文献时使用jieba分词,当所述文献为外文文献时使用空格分词。
S220、代表词处理,接收所述关系词,将所述关系词导入LDA主题模型,进行LDA主题模型抽取,得出代表词。
在具体实施过程中,所述LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
采用上述方案,首先通过分词处理得出文献的关系词,再将关系词导入LDA主题模型得出代表词,逐层提取文献的代表信息,提高文献分类的精确度。
如图4所示,在本申请一个优选的实施方式中,所述文献内容中包括多个语段,所述S210、关系词处理的步骤包括:
S211、代表语段提取,所述代表语段包括文献的题目、摘要或关键词;
在具体实施过程中,所述文献内容包括文献的题目、摘要、关键词和作者等。
在具体实施过程中,所述代表语段提取可以通过Java识别语段标签的方式实现,如所述题目为title标签,摘要为abstract标签。
S212、代表语段处理,对所述代表语段进行分词处理,得出该文献的关系词。
采用上述方案,所述文献的题目、摘要或关键词通常为文献代表性的语段,对文献的题目、摘要或关键词进行分词,一方面提高分类精准度,另一方面减少分词处理量,提高处理效率。
在具体实施过程中,所述文献类别表可以为《中华人民共和国学科分类与代码国家标准》,所述基础类别即为《中华人民共和国学科分类与代码国家标准》的底层类别。
在具体实施过程中,所述《中华人民共和国学科分类与代码国家标准》的底层类别包括一般系统论、耗散结构理论、协同学和突变论等。
如图3所示,在具体实施过程中,所述S400、文献分类的步骤包括:
S410、词向量转化,接收所述代表词,将所述代表词导入Bert模型生成代表词向量,接收所述基础类别,将所述基础类别转化为类别词向量;
在具体实施过程中,所述Bert模型(Bidirectional Encoder Representationsfrom Transformers)——基于Transformer的双向编码表示法,由Google发布,是一种对语言表征进行预训练的方法,即是经过大型文本语料库训练后获得的通用"语言理解"模型,该模型可用于自然语言处理下游任务。
在具体实施过程中,将所述基础类别转化为类别词向量,通过Bert模型实现。
S420、相关度获取,接收所述代表词向量和类别词向量,通过领域映射算法得出相关度;
在具体实施过程中,所述代表词向量和类别词向量均可以为二维向量或三维向量等。
S430、类别分配,根据所述相关度对每个所述类别词向量下的代表词向量从大到小排序,提取所述类别词向量下相关度较高的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
采用上述方案,根据所述领域映射算法得出相关度,对每个所述类别词向量下的代表词向量从大到小排序,所述基础类别有多个,每个所述代表词均能计算出与所述基础类别的相关度,提取提取所述类别词向量下相关度较高的代表词向量所对应的文献,提高文献与所述基础类别的对应度,提高分类精准度。
在具体实施过程中,所述领域映射算法包括欧几里得距离、皮尔逊相关系数或余弦相似度公式。
在本申请一个优选的实施方式中,所述领域映射算法为余弦相似度公式,所述余弦相似度公式如下:
Figure BDA0002865218530000091
A为所述代表词向量,B为所述类别词向量,sim(A,B)为相关度,n为所述代表词向量和类别词向量的向量维度,║A║为向量A的范数,║B║为向量B的范数。
在具体实施过程中,范数,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,其为矢量空间内的所有矢量赋予非零的正长度或大小。
采用上述方案,根据余弦相似度公式计算相似度,提高相似度计算精准度,提高类别分配的精准度。
在具体实施过程中,对所述文献A的文献内容进行分词处理,得出该文献A的关系词为“人工神经网络,模糊逻辑,概念化,机器学习,智能代理”,将上述关键词输入LDA主题模型得出代表词为“人工智能”。
在具体实施过程中,将代表词“人工智能”导入Bert模型生成代表词向量可以为(0,1,2),所述基础类别包括“人工智能理论”,将所述“人工智能理论”导入Bert模型生成类别词向量可以为(1,2,3),词向量为3维向量,n=3,i从1叠加到3,A1=0、A2=1、A3=3、B1=1、B2=2、B3=3,计算相关度可以为:
Figure BDA0002865218530000092
在具体实施过程中,所述代表词可以为“Artificial Intelligence”,将“Artificial Intelligence”导入Bert模型生成代表词向量可以为(1,2,3),所述基础类别包括“人工智能理论”,将所述“人工智能理论”导入Bert模型生成类别词向量可以为(1,2,3),计算相关度可以为:
Figure BDA0002865218530000101
在本申请一个优选的实施方式中,所述S430、类别分配的步骤包括:提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
在具体实施过程中,所述文献接收可以同时接收8篇文献,所述8篇文献代表词一共可以为10个,生成的代表词向量为10个,分别计算10个代表词向量与类别词向量B的相关度可以为0.1、0.7、0.6、0.43、0.76、0.21、0.85、0.33、0.52、0.68;提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,即为提取0.85代表词向量所对应的文献。
采用上述方案,筛选出相关度较高的部分文献,当处理大规模的文献时,便于对大规模的文献进行处理,并且能有效筛除相关度低的文献。
在本申请一个优选的实施方式中,所述S430、类别分配的步骤还包括:
接收相关度阈值;
判断所述类别词向量下是否存在相关度低于所述相关度阈值的代表词向量;
若存在,则从该基础类别中删除该代表词向量对应的文献。
采用上述方案,将相关度较低的文献直接从该基础类别中删除,避免相关度较低的文献混杂在类别中,造成不必要的空间占用。
在具体实施过程中,若生成的代表词向量为100个,则提取相关度高的前10个代表词向量,所述相关度阈值可以为0.6,判断相关度高的前10个代表词向量中是否有相关度低于0.6的,若有,则从该基础类别中删除该代表词向量对应的文献。
如图2、3、4所示,在具体实施过程中,所述多语种文献分类方法的步骤还包括S500、知识库构建,所述知识库构建的步骤包括,根据所述文献类别表将各个基础类别下的文献进行汇总,构建为知识库。
采用上述方案,将分配好的文献汇总,构建为知识库,该知识库中包括有中文文献和外文文献,提高知识库的覆盖范围。
如图5所示,本申请的第二方面提供了一种多语种文献分类系统,包括:
文献接收模块100,所述文献包括中文文献和外文文献;
代表词提取模块200,用于根据所述文献内容提取文献的关系词,每篇所述文献的关系词至少为一个,对所述代表词进行聚类,得出所述文献的代表词;
文献类别表接收模块300,所述文献类别表设置有多个基础类别;
文献分类模块400,用于将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类。
采用上述方案,分别对所述中文文献和外文文献提取代表词,所述代表词皆为该文献类别的表征,将多语种的代表词转化为相同表示方法的词向量,再计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类,通过向量表征的方式解决了文献语种难以互通的问题,将中文文献和外文文献同时进行分类。
在具体实施过程中,单一所述文献可以有多个代表词。
在具体实施过程中,所述文献可以通过在互联网中下载的方式获取,也可以为通过爬虫的方式获取。
如图7所示,在具体实施过程中,所述代表词提取模块200包括:
关系词处理模块210,用于对所述文献的文献内容进行分词处理,得出该文献的关系词;
代表词处理模块220,用于接收所述关系词,将所述关系词导入LDA主题模型,进行LDA主题模型抽取,得出代表词。
如图7所示,在本申请一个优选的实施方式中,所述文献内容中包括多个语段,所述关系词处理模块210包括:
代表语段提取模块211,所述代表语段包括文献的题目、摘要或关键词;
代表语段处理模块212,用于对所述代表语段进行分词处理,得出该文献的关系词。
在具体实施过程中,所述文献类别表可以为《中华人民共和国学科分类与代码国家标准》,所述基础类别即为《中华人民共和国学科分类与代码国家标准》的底层类别。
如图7所示,在具体实施过程中,所述文献分类模块400包括:
词向量转化模块410,用于接收所述代表词,将所述代表词导入Bert模型生成代表词向量,接收所述基础类别,将所述基础类别转化为类别词向量;
相关度获取模块420,用于接收所述代表词向量和类别词向量,通过领域映射算法得出相关度;
类别分配模块430,用于根据所述相关度对每个所述类别词向量下的代表词向量从大到小排序,提取所述类别词向量下相关度较高的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
在具体实施过程中,所述领域映射算法包括欧几里得距离、皮尔逊相关系数或余弦相似度公式。
在本申请一个优选的实施方式中,所述领域映射算法为余弦相似度公式,所述余弦相似度公式如下:
Figure BDA0002865218530000121
A为所述代表词向量,B为所述类别词向量,sim(A,B)为相关度。
在本申请一个优选的实施方式中,所述类别分配模块430的功能包括:提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
在本申请一个优选的实施方式中,所述类别分配模块430的功能还包括:
接收相关度阈值;
判断所述类别词向量下是否存在相关度低于所述相关度阈值的代表词向量;
若存在,则从该基础类别中删除该代表词向量对应的文献。
如图6、7所示,在本申请一个优选的实施方式中,所述多语种文献分类系统还包括知识库构建模块500,用于根据所述文献类别表将各个基础类别下的文献进行汇总,构建为知识库。
本申请的第三方面提供了一种多语种文献分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的多语种文献分类方法。
本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的多语种文献分类方法。
应当指出,对于本领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种多语种文献分类方法,其特征在于,包括以下步骤:
文献接收,所述文献包括中文文献和外文文献;
代表词提取,对所述文献的文献内容进行分词处理,得出该文献的关系词,每篇所述文献的关系词至少为一个,接收所述关系词,将所述关系词导入LDA主题模型,进行LDA主题模型抽取,得出代表词;
文献类别表接收,所述文献类别表设置有多个基础类别;
文献分类,将所述代表词转化为代表词向量,将所述基础类别转化为类别词向量,计算所述代表词向量和类别词向量之间的相关度,根据所述相关度对所述文献进行分类;
所述文献分类的步骤包括:
类别分配,根据所述相关度对每个所述类别词向量下的代表词向量从大到小排序,提取所述类别词向量下相关度较高的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
2.根据权利要求1所述的多语种文献分类方法,其特征在于:所述文献内容中包括多个语段,所述关系词处理的步骤包括:
代表语段提取,所述代表语段包括文献的题目、摘要或关键词;
代表语段处理,对所述代表语段进行分词处理,得出该文献的关系词。
3.根据权利要求1或2所述的多语种文献分类方法,其特征在于:所述文献分类的步骤包括:
词向量转化,接收所述代表词,将所述代表词导入Bert模型生成代表词向量,接收所述基础类别,将所述基础类别转化为类别词向量;
相关度获取,接收所述代表词向量和类别词向量,通过领域映射算法得出相关度。
4.根据权利要求3所述的多语种文献分类方法,其特征在于:所述领域映射算法为余弦相似度公式,所述余弦相似度公式如下:
Figure FDA0003208823100000011
A为所述代表词向量,B为所述类别词向量,sim(A,B)为相关度,n为所述代表词向量和类别词向量的向量维度。
5.根据权利要求1或4所述的多语种文献分类方法,其特征在于:所述类别分配的步骤包括:提取所述类别词向量下相关度较高前10%的代表词向量所对应的文献,作为该类别词向量对应基础类别下的文献。
6.根据权利要求5所述的多语种文献分类方法,其特征在于:所述类别分配的步骤还包括:
接收相关度阈值;
判断所述类别词向量下是否存在相关度低于所述相关度阈值的代表词向量;
若存在,则从该基础类别中删除该代表词向量对应的文献。
7.根据权利要求1或6所述的多语种文献分类方法,其特征在于:所述多语种文献分类方法的步骤还包括知识库构建,所述知识库构建的步骤包括,根据所述文献类别表将各个基础类别下的文献进行汇总,构建为知识库。
8.一种多语种文献分类装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一项所述的多语种文献分类方法。
9.一种存储介质,其特征在于,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成如权利要求1-7任一项所述的多语种文献分类方法。
CN202011578542.9A 2020-12-28 2020-12-28 一种多语种文献分类方法、装置及存储介质 Active CN112612889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011578542.9A CN112612889B (zh) 2020-12-28 2020-12-28 一种多语种文献分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011578542.9A CN112612889B (zh) 2020-12-28 2020-12-28 一种多语种文献分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112612889A CN112612889A (zh) 2021-04-06
CN112612889B true CN112612889B (zh) 2021-10-29

Family

ID=75248220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011578542.9A Active CN112612889B (zh) 2020-12-28 2020-12-28 一种多语种文献分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112612889B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
JP2016095677A (ja) * 2014-11-14 2016-05-26 カシオ計算機株式会社 設定装置、情報分類装置、設定装置の分類面設定方法、情報分類装置の情報分類方法及びプログラム
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109033096A (zh) * 2018-09-12 2018-12-18 合肥汇众知识产权管理有限公司 专利文献的分类翻译方法及系统
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193291A1 (en) * 2015-12-30 2017-07-06 Ryan Anthony Lucchese System and Methods for Determining Language Classification of Text Content in Documents
CN107861939B (zh) * 2017-09-30 2021-05-14 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
JP2016095677A (ja) * 2014-11-14 2016-05-26 カシオ計算機株式会社 設定装置、情報分類装置、設定装置の分類面設定方法、情報分類装置の情報分類方法及びプログラム
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN106599181A (zh) * 2016-12-13 2017-04-26 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109033096A (zh) * 2018-09-12 2018-12-18 合肥汇众知识产权管理有限公司 专利文献的分类翻译方法及系统
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Study on the Classification of Mixed Text Based on Conceptual Vector Space Model and Bayes;Yaxiong Li 等;《 2009 International Conference on Asian Language Processing》;20100115;第269-272页 *
一种混合语种文本的多维度多情感分析方法;李妍慧;《计算机工程》;20191213;第46卷(第12期);第113-119页 *
基于双向长短时记忆单元和卷积神经网络的多语种文本分类方法;孟先艳;《计算机应用研究》;20190902;第37卷(第9期);第2669-2673页 *
基于深度学习的多语种短文本分类方法的研究;刘娇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第12(2018)期);I138-1880 *

Also Published As

Publication number Publication date
CN112612889A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
Sleeman et al. Topic modeling for RDF graphs
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN107506472A (zh) 一种学生浏览网页分类方法
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Feng et al. Automatic approach of sentiment lexicon generation for mobile shopping reviews
Helmy et al. Applying deep learning for Arabic keyphrase extraction
Jo Inverted index based modified version of k-means algorithm for text clustering
Krishna et al. An efficient approach for text clustering based on frequent itemsets
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
Adek et al. Online Newspaper Clustering in Aceh using the Agglomerative Hierarchical Clustering Method
Sandhiya et al. A review of topic modeling and its application
El-Rashidy et al. Reliable plagiarism detection system based on deep learning approaches
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
Kayest et al. Optimization driven cluster based indexing and matching for the document retrieval
Ding et al. The research of text mining based on self-organizing maps
Aoumeur et al. Improving the polarity of text through word2vec embedding for primary classical arabic sentiment analysis
Zobeidi et al. Effective text classification using multi-level fuzzy neural network
Liu Automatic argumentative-zoning using word2vec
CN112612889B (zh) 一种多语种文献分类方法、装置及存储介质
Li Research on an Enhanced Web Information Processing Technology based on AIS Text Mining
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
Dastgheib et al. Persian Text Classification Enhancement by Latent Semantic Space.
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Tohalino et al. Using citation networks to evaluate the impact of text length on the identification of relevant concepts
Pinto et al. Intelligent and fuzzy systems applied to language & knowledge engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant