CN105808768A - 一种基于图书的概念-描述词知识网络的构建方法 - Google Patents
一种基于图书的概念-描述词知识网络的构建方法 Download PDFInfo
- Publication number
- CN105808768A CN105808768A CN201610163737.4A CN201610163737A CN105808768A CN 105808768 A CN105808768 A CN 105808768A CN 201610163737 A CN201610163737 A CN 201610163737A CN 105808768 A CN105808768 A CN 105808768A
- Authority
- CN
- China
- Prior art keywords
- word
- catalogue
- obtains
- descriptor
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图书的概念‑描述词知识网络的构建方法。基于图书构建概念‑描述词知识网络本质上是一种知识图谱构建技术。本发明首先从数字图书中抽取得到目录项,在此基础上利用分词工具和正则表达式对目录进行预处理。然后训练语言模型将各个词、词相应的特征以及词对应的标注用词嵌入进行表达,进而用词嵌入匹配算法抽取得到目录短语。随后训练分类器将目录短语分类成概念和描述词,通过概念和描述的映射构建得到概念‑描述词知识网络。本发明从图书中构建概念‑描述词知识网络,有效的完成了对图书知识的抽取和分解。
Description
技术领域
本发明涉及利用自然语言处理、数据挖掘等方法进行知识图谱的构建,尤其涉及基于图书的概念-描述词知识网络的构建方法。
背景技术
随着以Linking Open Data为代表的链接数据公开项目的全面发展,以及各类语义Web数据源的飞速增长,大量的资源描述框架(RDF)数据发布到互联网中。互联网环境发生了巨大的改变,从原来的仅包含网页间超链接的文档万维网(Document Web),转变成描述各类实体以及实体之间关系的数据万维网(Data Web)。人们已经不能够满足于原有的文档内容呈现方式,基于此,谷歌,百度和搜狗等搜索引擎公司纷纷发布了自己的知识图谱,来提高搜索质量,从而拉开了语义搜索的序幕。
知识图谱旨在对现实世界中存在的各种实体或概念进行描述,正如谷歌的辛格博士所说的:“The world is not made of strings,but is made of things.”。在图谱中,每一个实体(或概念)通过唯一的标识符(identifier)确定,每个属性-值对(attribute-value pair,也叫AVP)用来刻画实体的内在特性,而连接两个实体的关系(relation)用来刻画它们间的某种关联。上述的实体、属性-值对以及关系是对现实世界的建模,可以用图模型来进行表达。目前,可以通过W3C提出的RDF和属性图(Property Graph)来对知识图谱进行表示。目前,主流的知识图谱包括谷歌知识图谱、搜狗知立方和百度知心。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种从图书中构建概念-描述词知识网络的方法。
本发明解决其技术问题采用的技术方案包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
2)基于词嵌入匹配算法的短语抽取:在步骤1)的基础上,训练得到词嵌入匹配模型,从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入,通过向量间的计算得到得分最高的标注,最终从图书目录中抽取得到短语;
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
所述的步骤2)包括:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型参数为输入特征矩阵α和标注矩阵β;
2.2)对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox;
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
所述的步骤2.1)包括:
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
所述的步骤3)包括:
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
本发明方法与现有技术相比具有的有益效果:
1、该方法采用的数据来自于出版的图书,图书的作者无不是所处领域的专家,具备丰富的经验和深厚的领域知识。数据的高质量项为方法的效果提供了保证。
2、该方法具有很好的扩展性,当有新的图书数据加进来时,可以按照本方法的各个步骤进行处理。
3、该方法将图书中知识进行抽取和分解,从图书中提炼知识,能够方便后续的知识重组或者人们的工作学习。
附图说明
图1是本发明的总体流程图;
图2是步骤2.1)的流程图;
图3是实施例结果的样例展示图。
具体实施方式
如图1所示,本发明方法,包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
所述步骤1)中的自然语言处理工具为NLPIR汉语分词系统,同过该工具将目录分词,并保存分词结果中的词性。
2)基于词嵌入匹配算法的短语抽取,具体步骤如下:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型主要参数为输入特征矩阵α和标注矩阵β;
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
2.2)如图2所示,对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox;
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
下面结合本发明的方法详细说明本实例实施的具体步骤,如下:
(1)实例采用的数据集均来自于数字图书馆中的图书。本实例一共从工程科教图书资源中抽取了53059本工业技术的图书,共计目录251129条。图书涉及类别:农业、生物、化工、计算机、电子、机械制造、航空航天、医药、自动化等。所有目录经过步骤1)的去无用前缀和分词处理。
(2)用BIO模型对(1)中数据标注得到词嵌入匹配模型的训练语料,用词嵌入匹配模型抽取目录短语,并利用支持向量机将目录短语分类成概念和描述词。
(3)将(2)中每个目录的概念和描述词组成二元组存入图数据库中。数据实例如图3所示。
Claims (4)
1.一种基于图书的概念-描述词知识网络的构建方法,其特征在于包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工具将目录分词,保存每个词的词性;
2)基于词嵌入匹配算法的短语抽取:在步骤1)的基础上,训练得到词嵌入匹配模型,从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入,通过向量间的计算得到得分最高的标注,最终从图书目录中抽取得到短语;
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得到概念和描述词,然后将概念-描述词对存储到图数据库中。
2.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤2)包括:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型参数为输入特征矩阵α和标注矩阵β;
2.2)对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标注符号x对应的标注向量Ox;
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
3.根据权利2所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤2.1)包括:
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量,是模型的正则化项,防止模型过拟合,其中λ是正则化项的惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1)中的α和β。
4.根据权利1所述的一种基于图书的概念-描述词知识网络的构建方法,其特征在于所述的步骤3)包括:
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
subject to yi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述词对,存储到Neo4j图数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610163737.4A CN105808768B (zh) | 2016-03-19 | 2016-03-19 | 一种基于图书的概念-描述词知识网络的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610163737.4A CN105808768B (zh) | 2016-03-19 | 2016-03-19 | 一种基于图书的概念-描述词知识网络的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105808768A true CN105808768A (zh) | 2016-07-27 |
CN105808768B CN105808768B (zh) | 2019-03-26 |
Family
ID=56453571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610163737.4A Active CN105808768B (zh) | 2016-03-19 | 2016-03-19 | 一种基于图书的概念-描述词知识网络的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808768B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372118A (zh) * | 2016-08-24 | 2017-02-01 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 |
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN106940726A (zh) * | 2017-03-22 | 2017-07-11 | 山东大学 | 一种基于知识网络的创意自动生成方法与终端 |
CN107729497A (zh) * | 2017-10-20 | 2018-02-23 | 同济大学 | 一种基于知识图谱的词嵌入深度学习方法 |
CN107862069A (zh) * | 2017-11-21 | 2018-03-30 | 广州星耀悦教育科技有限公司 | 一种分类数据库的构建方法以及图书分类的方法 |
CN107908650A (zh) * | 2017-10-12 | 2018-04-13 | 浙江大学 | 基于海量数字图书的知识脉络自动构建方法 |
CN108491469A (zh) * | 2018-03-07 | 2018-09-04 | 浙江大学 | 引入概念标签的神经协同过滤概念描述词推荐算法 |
CN109739977A (zh) * | 2018-12-07 | 2019-05-10 | 浙江大学 | 基于非监督学习的图书概念前后序关系抽取方法 |
CN110569709A (zh) * | 2019-07-16 | 2019-12-13 | 浙江大学 | 一种基于知识重组的场景解析方法 |
CN110704522A (zh) * | 2019-09-04 | 2020-01-17 | 南京航空航天大学 | 一种基于语义分析的概念数据模型自动转换方法 |
CN110928989A (zh) * | 2019-11-01 | 2020-03-27 | 暨南大学 | 一种基于语言模型的年报语料库构建方法 |
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130057715A (ko) * | 2011-11-24 | 2013-06-03 | 한국과학기술정보연구원 | 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 |
CN104217038A (zh) * | 2014-09-30 | 2014-12-17 | 中国科学技术大学 | 一种针对财经新闻的知识网络构建方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN104573006A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种公共卫生突发事件领域知识库的构建方法 |
-
2016
- 2016-03-19 CN CN201610163737.4A patent/CN105808768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130057715A (ko) * | 2011-11-24 | 2013-06-03 | 한국과학기술정보연구원 | 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 |
CN104217038A (zh) * | 2014-09-30 | 2014-12-17 | 中国科学技术大学 | 一种针对财经新闻的知识网络构建方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN104573006A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种公共卫生突发事件领域知识库的构建方法 |
Non-Patent Citations (2)
Title |
---|
W LU ET AL: "Mining RDF from Tables in Chinese Encyclopedias", 《SPRINGER INTERNATIONAL PUBLISHING》 * |
崔德文等: "基于语义网格的数字图书馆知识组织中领域本体构建研究", 《科技信息》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372118B (zh) * | 2016-08-24 | 2019-05-03 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 |
CN106372118A (zh) * | 2016-08-24 | 2017-02-01 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 |
CN106528610A (zh) * | 2016-09-28 | 2017-03-22 | 厦门理工学院 | 一种基于路径张量分解的知识图谱表示学习方法 |
CN106940726A (zh) * | 2017-03-22 | 2017-07-11 | 山东大学 | 一种基于知识网络的创意自动生成方法与终端 |
CN106940726B (zh) * | 2017-03-22 | 2020-09-01 | 山东大学 | 一种基于知识网络的创意自动生成方法与终端 |
CN107908650A (zh) * | 2017-10-12 | 2018-04-13 | 浙江大学 | 基于海量数字图书的知识脉络自动构建方法 |
CN107908650B (zh) * | 2017-10-12 | 2019-11-05 | 浙江大学 | 基于海量数字图书的知识脉络自动构建方法 |
CN107729497B (zh) * | 2017-10-20 | 2020-08-14 | 同济大学 | 一种基于知识图谱的词嵌入深度学习方法 |
CN107729497A (zh) * | 2017-10-20 | 2018-02-23 | 同济大学 | 一种基于知识图谱的词嵌入深度学习方法 |
CN107862069A (zh) * | 2017-11-21 | 2018-03-30 | 广州星耀悦教育科技有限公司 | 一种分类数据库的构建方法以及图书分类的方法 |
CN108491469A (zh) * | 2018-03-07 | 2018-09-04 | 浙江大学 | 引入概念标签的神经协同过滤概念描述词推荐算法 |
CN108491469B (zh) * | 2018-03-07 | 2021-03-30 | 浙江大学 | 引入概念标签的神经协同过滤概念描述词推荐方法 |
CN109739977A (zh) * | 2018-12-07 | 2019-05-10 | 浙江大学 | 基于非监督学习的图书概念前后序关系抽取方法 |
CN109739977B (zh) * | 2018-12-07 | 2020-10-23 | 浙江大学 | 基于非监督学习的图书概念前后序关系抽取方法 |
US10956487B2 (en) | 2018-12-26 | 2021-03-23 | Industrial Technology Research Institute | Method for establishing and processing cross-language information and cross-language information system |
CN110569709A (zh) * | 2019-07-16 | 2019-12-13 | 浙江大学 | 一种基于知识重组的场景解析方法 |
CN110704522A (zh) * | 2019-09-04 | 2020-01-17 | 南京航空航天大学 | 一种基于语义分析的概念数据模型自动转换方法 |
CN110704522B (zh) * | 2019-09-04 | 2023-04-07 | 南京航空航天大学 | 一种基于语义分析的概念数据模型自动转换方法 |
CN110928989A (zh) * | 2019-11-01 | 2020-03-27 | 暨南大学 | 一种基于语言模型的年报语料库构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105808768B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808768A (zh) | 一种基于图书的概念-描述词知识网络的构建方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
JP6466952B2 (ja) | 文章生成システム | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN107305539A (zh) | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 | |
Chen et al. | Simplified tinybert: Knowledge distillation for document retrieval | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
Foxcroft et al. | Name2vec: Personal names embeddings | |
Zhu et al. | Part-of-speech-based long short-term memory network for learning sentence representations | |
Dawar et al. | Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
Gupta et al. | Combining graph-based dependency features with convolutional neural network for answer triggering | |
CN102622405B (zh) | 基于语言实义单元数估计的短文本间文本距离的计算方法 | |
Wang et al. | A method of abstractness ratings for Chinese concepts | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Huang et al. | Learning phrase representations based on word and character embeddings | |
Xie et al. | Knowledge graph construction for intelligent analysis of social networking user opinion | |
CN113901783A (zh) | 面向领域的文档查重方法及系统 | |
Kamanur et al. | Investigation and use of methods for defining the extends of similarity of Kazakh language sentences | |
Phan et al. | Vietnamese Sentence Paraphrase Identification Using Sentence-BERT and PhoBERT | |
Alamir et al. | Arabic question-answering system using search engine techniques | |
Prasad et al. | Lexicon based extraction and opinion classification of associations in text from Hindi weblogs | |
de Aragão Fraga | On Automatic Generation of Knowledge Connections | |
Dai | RETRACTED ARTICLE: Research on Chinese and English language information retrieval algorithm based on bilingual theme model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |