CN105808768A - 一种基于图书的概念-描述词知识网络的构建方法 - Google Patents

一种基于图书的概念-描述词知识网络的构建方法 Download PDF

Info

Publication number
CN105808768A
CN105808768A CN201610163737.4A CN201610163737A CN105808768A CN 105808768 A CN105808768 A CN 105808768A CN 201610163737 A CN201610163737 A CN 201610163737A CN 105808768 A CN105808768 A CN 105808768A
Authority
CN
China
Prior art keywords
word
catalogue
obtains
descriptor
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610163737.4A
Other languages
English (en)
Other versions
CN105808768B (zh
Inventor
鲁伟明
龚军
庄越挺
吴飞
魏宝刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610163737.4A priority Critical patent/CN105808768B/zh
Publication of CN105808768A publication Critical patent/CN105808768A/zh
Application granted granted Critical
Publication of CN105808768B publication Critical patent/CN105808768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图书的概念‑描述词知识网络的构建方法。基于图书构建概念‑描述词知识网络本质上是一种知识图谱构建技术。本发明首先从数字图书中抽取得到目录项,在此基础上利用分词工具和正则表达式对目录进行预处理。然后训练语言模型将各个词、词相应的特征以及词对应的标注用词嵌入进行表达,进而用词嵌入匹配算法抽取得到目录短语。随后训练分类器将目录短语分类成概念和描述词,通过概念和描述的映射构建得到概念‑描述词知识网络。本发明从图书中构建概念‑描述词知识网络,有效的完成了对图书知识的抽取和分解。

Description

一种基于图书的概念-描述词知识网络的构建方法
技术领域
本发明涉及利用自然语言处理、数据挖掘等方法进行知识图谱的构建,尤其涉及基于图书的概念-描述词知识网络的构建方法。
背景技术
随着以Linking Open Data为代表的链接数据公开项目的全面发展,以及各类语义Web数据源的飞速增长,大量的资源描述框架(RDF)数据发布到互联网中。互联网环境发生了巨大的改变,从原来的仅包含网页间超链接的文档万维网(Document Web),转变成描述各类实体以及实体之间关系的数据万维网(Data Web)。人们已经不能够满足于原有的文档内容呈现方式,基于此,谷歌,百度和搜狗等搜索引擎公司纷纷发布了自己的知识图谱,来提高搜索质量,从而拉开了语义搜索的序幕。
知识图谱旨在对现实世界中存在的各种实体或概念进行描述,正如谷歌的辛格博士所说的:“The world is not made of strings,but is made of things.”。在图谱中,每一个实体(或概念)通过唯一的标识符(identifier)确定,每个属性-值对(attribute-value pair,也叫AVP)用来刻画实体的内在特性,而连接两个实体的关系(relation)用来刻画它们间的某种关联。上述的实体、属性-值对以及关系是对现实世界的建模,可以用图模型来进行表达。目前,可以通过W3C提出的RDF和属性图(Property Graph)来对知识图谱进行表示。目前,主流的知识图谱包括谷歌知识图谱、搜狗知立方和百度知心。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种从图书中构建概念-描述词知识网络的方法。
本发明解决其技术问题采用的技术方案包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
2)基于词嵌入匹配算法的短语抽取:在步骤1)的基础上,训练得到词嵌入匹配模型,从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入,通过向量间的计算得到得分最高的标注,最终从图书目录中抽取得到短语;
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
所述的步骤2)包括:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型参数为输入特征矩阵α和标注矩阵β;
2.2)对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
score i = exp ( I ω · O i ) Σ j m exp ( I ω · O j )
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
所述的步骤2.1)包括:
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
J = - Σ k = 1 K δ ( a k ) log exp ( I k · O ( a k ) ) Σ j exp ( I k · O ( a k , j ) ) + Σ k = 1 K λ 2 ( | | I k | | 2 + | | O ( a k ) | | 2 )
δ ( a k ) = 1 , i f a k = a k ‾ 0 , o t h e r w i s e
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
所述的步骤3)包括:
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
min 1 2 | | ω | | 2 + C Σ i = 1 I ζ i
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
本发明方法与现有技术相比具有的有益效果:
1、该方法采用的数据来自于出版的图书,图书的作者无不是所处领域的专家,具备丰富的经验和深厚的领域知识。数据的高质量项为方法的效果提供了保证。
2、该方法具有很好的扩展性,当有新的图书数据加进来时,可以按照本方法的各个步骤进行处理。
3、该方法将图书中知识进行抽取和分解,从图书中提炼知识,能够方便后续的知识重组或者人们的工作学习。
附图说明
图1是本发明的总体流程图;
图2是步骤2.1)的流程图;
图3是实施例结果的样例展示图。
具体实施方式
如图1所示,本发明方法,包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
所述步骤1)中的自然语言处理工具为NLPIR汉语分词系统,同过该工具将目录分词,并保存分词结果中的词性。
2)基于词嵌入匹配算法的短语抽取,具体步骤如下:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型主要参数为输入特征矩阵α和标注矩阵β;
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
J = - Σ k = 1 K δ ( a k ) l o g exp ( I k · O ( a k ) ) Σ j exp ( I k · O ( a k , j ) ) + Σ k = 1 K λ 2 ( | | I k | | 2 + | | O ( a k ) | | 2 )
δ ( a k ) = 1 , i f a k = a k ‾ 0 , o t h e r w i s e
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
2.2)如图2所示,对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
score i = exp ( I ω · O i ) Σ j m exp ( I ω · O j )
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
min 1 2 | | ω | | 2 + C Σ i = 1 I ζ i
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
下面结合本发明的方法详细说明本实例实施的具体步骤,如下:
(1)实例采用的数据集均来自于数字图书馆中的图书。本实例一共从工程科教图书资源中抽取了53059本工业技术的图书,共计目录251129条。图书涉及类别:农业、生物、化工、计算机、电子、机械制造、航空航天、医药、自动化等。所有目录经过步骤1)的去无用前缀和分词处理。
(2)用BIO模型对(1)中数据标注得到词嵌入匹配模型的训练语料,用词嵌入匹配模型抽取目录短语,并利用支持向量机将目录短语分类成概念和描述词。
(3)将(2)中每个目录的概念和描述词组成二元组存入图数据库中。数据实例如图3所示。

Claims (4)

1.一种基于图书的概念-描述词知识网络的构建方法,其特征在于包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
2)基于词嵌入匹配算法的短语抽取:在步骤1)的基础上,训练得到词嵌入匹配模型,从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入,通过向量间的计算得到得分最高的标注,最终从图书目录中抽取得到短语;
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
2.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤2)包括:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型参数为输入特征矩阵α和标注矩阵β;
2.2)对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
score i = exp ( I ω · O i ) Σ j m exp ( I ω · O j )
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
3.根据权利2所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤2.1)包括:
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
J = - Σ k = 1 K δ ( a k ) l o g exp ( I k · O ( a k ) ) Σ j exp ( I k · O ( a k , j ) ) + Σ k = 1 K λ 2 ( | | I k | | 2 + | | O ( a k ) | | 2 )
δ ( a k ) = 1 , i f a k = a k ‾ 0 , o t h e r w i s e
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
4.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤3)包括:
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
min 1 2 | | ω | | 2 + C Σ i = 1 I ζ i
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
CN201610163737.4A 2016-03-19 2016-03-19 一种基于图书的概念-描述词知识网络的构建方法 Active CN105808768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610163737.4A CN105808768B (zh) 2016-03-19 2016-03-19 一种基于图书的概念-描述词知识网络的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610163737.4A CN105808768B (zh) 2016-03-19 2016-03-19 一种基于图书的概念-描述词知识网络的构建方法

Publications (2)

Publication Number Publication Date
CN105808768A true CN105808768A (zh) 2016-07-27
CN105808768B CN105808768B (zh) 2019-03-26

Family

ID=56453571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610163737.4A Active CN105808768B (zh) 2016-03-19 2016-03-19 一种基于图书的概念-描述词知识网络的构建方法

Country Status (1)

Country Link
CN (1) CN105808768B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372118A (zh) * 2016-08-24 2017-02-01 武汉烽火普天信息技术有限公司 面向大规模媒体文本数据的在线语义理解搜索系统及方法
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107729497A (zh) * 2017-10-20 2018-02-23 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法
CN107908650A (zh) * 2017-10-12 2018-04-13 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
CN109739977A (zh) * 2018-12-07 2019-05-10 浙江大学 基于非监督学习的图书概念前后序关系抽取方法
CN110569709A (zh) * 2019-07-16 2019-12-13 浙江大学 一种基于知识重组的场景解析方法
CN110704522A (zh) * 2019-09-04 2020-01-17 南京航空航天大学 一种基于语义分析的概念数据模型自动转换方法
CN110928989A (zh) * 2019-11-01 2020-03-27 暨南大学 一种基于语言模型的年报语料库构建方法
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130057715A (ko) * 2011-11-24 2013-06-03 한국과학기술정보연구원 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130057715A (ko) * 2011-11-24 2013-06-03 한국과학기술정보연구원 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
W LU ET AL: "Mining RDF from Tables in Chinese Encyclopedias", 《SPRINGER INTERNATIONAL PUBLISHING》 *
崔德文等: "基于语义网格的数字图书馆知识组织中领域本体构建研究", 《科技信息》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372118B (zh) * 2016-08-24 2019-05-03 武汉烽火普天信息技术有限公司 面向大规模媒体文本数据的在线语义理解搜索系统及方法
CN106372118A (zh) * 2016-08-24 2017-02-01 武汉烽火普天信息技术有限公司 面向大规模媒体文本数据的在线语义理解搜索系统及方法
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
CN106940726A (zh) * 2017-03-22 2017-07-11 山东大学 一种基于知识网络的创意自动生成方法与终端
CN106940726B (zh) * 2017-03-22 2020-09-01 山东大学 一种基于知识网络的创意自动生成方法与终端
CN107908650A (zh) * 2017-10-12 2018-04-13 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN107908650B (zh) * 2017-10-12 2019-11-05 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN107729497B (zh) * 2017-10-20 2020-08-14 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN107729497A (zh) * 2017-10-20 2018-02-23 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN107862069A (zh) * 2017-11-21 2018-03-30 广州星耀悦教育科技有限公司 一种分类数据库的构建方法以及图书分类的方法
CN108491469A (zh) * 2018-03-07 2018-09-04 浙江大学 引入概念标签的神经协同过滤概念描述词推荐算法
CN108491469B (zh) * 2018-03-07 2021-03-30 浙江大学 引入概念标签的神经协同过滤概念描述词推荐方法
CN109739977A (zh) * 2018-12-07 2019-05-10 浙江大学 基于非监督学习的图书概念前后序关系抽取方法
CN109739977B (zh) * 2018-12-07 2020-10-23 浙江大学 基于非监督学习的图书概念前后序关系抽取方法
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN110569709A (zh) * 2019-07-16 2019-12-13 浙江大学 一种基于知识重组的场景解析方法
CN110704522A (zh) * 2019-09-04 2020-01-17 南京航空航天大学 一种基于语义分析的概念数据模型自动转换方法
CN110704522B (zh) * 2019-09-04 2023-04-07 南京航空航天大学 一种基于语义分析的概念数据模型自动转换方法
CN110928989A (zh) * 2019-11-01 2020-03-27 暨南大学 一种基于语言模型的年报语料库构建方法

Also Published As

Publication number Publication date
CN105808768B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN105808768A (zh) 一种基于图书的概念-描述词知识网络的构建方法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
JP6466952B2 (ja) 文章生成システム
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN107305539A (zh) 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
Chen et al. Simplified tinybert: Knowledge distillation for document retrieval
CN111984782A (zh) 藏文文本摘要生成方法和系统
Foxcroft et al. Name2vec: Personal names embeddings
Zhu et al. Part-of-speech-based long short-term memory network for learning sentence representations
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
Gupta et al. Combining graph-based dependency features with convolutional neural network for answer triggering
CN102622405B (zh) 基于语言实义单元数估计的短文本间文本距离的计算方法
Wang et al. A method of abstractness ratings for Chinese concepts
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Huang et al. Learning phrase representations based on word and character embeddings
Xie et al. Knowledge graph construction for intelligent analysis of social networking user opinion
CN113901783A (zh) 面向领域的文档查重方法及系统
Kamanur et al. Investigation and use of methods for defining the extends of similarity of Kazakh language sentences
Phan et al. Vietnamese Sentence Paraphrase Identification Using Sentence-BERT and PhoBERT
Alamir et al. Arabic question-answering system using search engine techniques
Prasad et al. Lexicon based extraction and opinion classification of associations in text from Hindi weblogs
de Aragão Fraga On Automatic Generation of Knowledge Connections
Dai RETRACTED ARTICLE: Research on Chinese and English language information retrieval algorithm based on bilingual theme model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant