CN111008530A - 一种基于文档分词的复杂语义识别方法 - Google Patents

一种基于文档分词的复杂语义识别方法 Download PDF

Info

Publication number
CN111008530A
CN111008530A CN201911217564.XA CN201911217564A CN111008530A CN 111008530 A CN111008530 A CN 111008530A CN 201911217564 A CN201911217564 A CN 201911217564A CN 111008530 A CN111008530 A CN 111008530A
Authority
CN
China
Prior art keywords
document
word
terms
words
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911217564.XA
Other languages
English (en)
Inventor
唐昱润
宫法明
马玉辉
李昕
司朋举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201911217564.XA priority Critical patent/CN111008530A/zh
Publication of CN111008530A publication Critical patent/CN111008530A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于文档分词的复杂语义识别方法,该方法包含:将原始文档分成较小的段落,在此基础上进行去除停用词、分段和分句等预处理操作;结合一阶和二阶隐马尔科夫模型,自适应的选取合适的隐马尔科夫模型进行分词,以该模型为基础,再次结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵,实现石油领域专业术语和组合词的精确识别;利用混合策略抽取相关领域的概念术语,通过专业术语、组合词与概念术语建立连续的词袋模型,在词袋模型上采用支持向量机分类器对多个向量进行多特征提取,实现基于文档分词的复杂语义识别。本发明的方法能够有效地解决大数据环境下石油领域内部专业纷繁复杂、深层语义难以识别的问题。

Description

一种基于文档分词的复杂语义识别方法
技术领域
本发明属于自然语言处理领域,涉及一种基于文档分词的复杂语义识别方法。
背景技术
在信息技术不断发展的今天,石油领域相关活动的信息化程度越来越高,油田信息系统对各种知识库的应用日益频繁。石油领域内部专业纷繁复杂,新的技术及术语不断更新,信息没有经过结构化表示,这些问题影响了石油领域的知识表示、信息共享、软件复用和高效管理。语义分析就是对信息进行分词,建立语义计算模型,识别其中的语义关系,使计算机能够理解。在互联网时代,信息资源飞速增长,想要快速找到自己所需要的信息,就必须使用语义分析技术,语义分析变得越来越重要。
文档中的词是最小的能独立运行的语言单位,由于中文具有连续书写的特点,如果不进行分词,计算机很难理解文本包含的信息,无法进行语义分析。目前常用的中文分词算法有:基于统计的算法、基于规则的算法、两者相结合的算法和基于语义的算法。基于统计的算法是利用字母之间的统计关系推断字边界的位置,然后计算相邻字母的贡献频率进行分词,效率比较低。基于规则的方法使用依赖关系抽取关系词对,通过关系词对进行模式匹配识别语义关系,准确率很高,但由于自身局限性,所以召回率并不是很高。通过模式匹配的方法来识别语义关系,但是汉语表达的句式多种多样,无法涵盖所有内容,且没有领域适应性。因此,如何在数据繁多和极其复杂的关系中,充分地利用文档中的分词进行准确高效的复杂语义识别成为一个亟待解决的难题。
发明内容
本发明为了克服上述缺陷,提出了一种基于文档分词的复杂语义识别方法,本发明具体步骤如下:
S1,在对文档进行分词之前,将文档分成较小的段落,便于后期的分词算法的实现;
S2,在较小段落的基础上进行预处理,包括去除停用词、分段和分句等操作;
S3,结合一阶和二阶隐马尔科夫模型,自适应的选取合适的隐马尔科夫模型进行分词;
S4,以自适应隐马尔科夫模型为基础,结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵,实现石油领域专业术语和组合词的精确识别;
S5,利用基于混合策略的领域概念抽取算法,实现从大规模领域资料中抽取相关概念术语;
S6,通过专业术语、组合词与概念术语建立连续的词袋模型;
S7,在词袋模型上采用支持向量机分类器对多个向量进行多特征提取,实现相似关系的语义识别;
S8,输出分词后的文档与识别后的语义关系。
本发明的技术方案特征和改进为:
对于步骤S2,本发明主要利用去除停用词、分段和分句等方法以实现文档分词的预处理,去除停用词处理是为了提高检索效率和减少存储空间,在处理文本时会将这些无意义的词剔除掉,通过人工构建选取本身并无实际意义,只有结合其他词语或句子才有一定的作用的停用词,将要去除的停用整理形成停用词表;分段分句处理是利用一些具有分割作用的符号将文档进行切分,包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表,然后扫描整篇文档与分割符号表中的分隔符进行匹配,匹配成功则进行分割标记。
对于步骤S4,本发明采用的自适应隐马尔科夫模型是根据术语集预先判断待分文档包含专业术语的多少,然后与阈值进行比较,若包含专业术语数量大于阈值,说明该段落包含的专业术语多,应该进行准确分词,调用二阶隐马尔科夫模型进行分词,否则进行快速分词,调用一阶隐马尔科夫模型进行分词;通过将石油领域各个子学科从1到i进行编号,统计每个子学科最常用的n个专业术语,如石油勘探开发领域最常用的术语有勘探、测井、储量、井、压差等;然后将各个子学科的代表性专业术语构成一个集合,总的术语集Q表示如下
Figure RE-GDA0002401080570000021
式(1)中,Qi表示编号为i子学科的术语集,N表示为每个子学科的最多个的专业术语,通过判断输入的文档属于哪一个子学科领域,假设输入文档为D,属于的子学科编号为m,提取术语集Q=Qm,假设Qm中含有的代表性术语个数为n,遍历Qm搜索文档D中含有的代表性专业术语数量表示为:
X=[x1,x2,…,xn] (2)
式(2)中,xi表示文档D中含有编号为i的代表性术语的数量,则文档D含有代表性专业术语的数量表示为:
Figure RE-GDA0002401080570000031
式(3)中,numD是通过文档D中的代表性术语数量叠加得到,而专业术语数量阈值s是通过字数num以及比例系数α来确定,即专业术语数量阈值s=numα,进而判断隐马尔科夫模型的使用,如下所示:
Figure RE-GDA0002401080570000032
式(4)中,若专业术语的数量numD小于专业术语数量阈值s,则调用一阶隐马尔科夫模型进行快速分词,否则使用二阶隐马尔科夫模型进行准确分词。
对于步骤S5,本发明采用基于混合策略的领域概念抽取算法,将统计学概念抽取与改进的词典概念抽取相结合,通过对大量文档进行分析并提取统计数据,将符合条件的字串序列提取出来以建立领域词典,将词语与领域词典中的词语进行匹配,如果匹配成功,则该词语就是领域词语,通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度,通常采用设定相关度阈值的方式进行术语的抽取;将二者结合的方法能够针对不同的情况进行具体分析,对两种方法扬长避短,从而获得较好的概念抽取结果。
对于步骤S7,本发明采用支持向量机在词袋模型上对多个向量进行多特征提取,利用多个向量多个特征进行语义识别,对于两个向量u=(u1,…,un)和v=(v1,...,vn),如果两个词语具有相似关系,则两个向量在同维度上的分量也具有相似关系,他们的向量差就很小,某一维度的分量和就很大,各个向量特征定义如下:
Figure RE-GDA0002401080570000033
式(5)中,fdiff表示向量差特征,fadd表示向量和特征,fmul表示向量乘特征,fcat表示向量连接特征;其次,通过两个向量u和v进行不同的组合运算,完成对不同特征的表示学习,将词语转转换成词向量的形式,将词向量进行特征计算,导入到支持向量机训练SVM分类器,最终将上下义、总分、类义关系识别出来。
本发明的基于文档分词的复杂语义识别方法,解决了现有技术对大数据环境下石油领域内部专业纷繁复杂、深层语义难以识别的问题,具有以下优点:
(1)本发明的方法能够有效地解决石油工业内数量庞大的知识表示问题,实现了知识库的构建与复杂语义的表示与识别;
(2)本发明的方法能够将统计学概念抽取与改进的词典概念抽取相结合,通过对大量文档进行分析并提取统计数据,从而获得较好的概念抽取结果;
(3)本发明的方法能够利用自适应隐马尔科夫分词模型对单句进行分词处理,结合领域词典、互信息和语法语义约束矩阵对分词结果进行校准,实现石油领域文档分词。
附图说明
图1为本发明中基于文档分词的复杂语义识别方法的流程图。
图2为本发明中分词预处理的流程图。
图3为本发明中自适应隐马尔科夫分词算法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
一种基于文档分词的复杂语义识别方法,如图1所示,为本发明的基于文档分词的复杂语义识别方法的流程图,该方法包含:
S1,文档划分,获得的石油领域内相关专业文档数据可以看作是未经处理的粗语料文本,由于粗语料是未经处理的语料库,包含的数据信息杂乱无章,直接利用其进行语义关系识别会大大降低识别的准确率。在对文档进行分词之前,将文档分成较小的段落,便于后期的分词算法的实现。
S2,文档预处理,在较小段落的基础上进行预处理,包括去除停用词、分段和分句等操作以实现文档分词的预处理。去除停用词处理是为了提高检索效率和减少存储空间,在处理文本时会将这些无意义的词剔除掉,通过人工构建选取本身并无实际意义,只有结合其他词语或句子才有一定的作用的停用词,将要去除的停用整理形成停用词表。分段分句处理是利用一些具有分割作用的符号将文档进行切分,包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表,然后扫描整篇文档与分割符号表中的分隔符进行匹配,匹配成功则进行分割标记,分词预处理的流程如图2所示。具体地,将文档进行全篇扫描与停用词表、分割符号表进行匹配,如果匹配到停用词表,则进行去除停用词继续扫描,如果匹配到分割符号表,则进行段落句子分割。
S3,自适应选取合适的隐马尔科夫模型,结合一阶和二阶隐马尔科夫模型,自适应的选取合适的隐马尔科夫模型进行分词。根据术语集预先判断待分文档包含专业术语的多少,然后与阈值进行比较,若包含专业术语数量大于阈值,说明该段落包含的专业术语多,应该进行准确分词,调用二阶隐马尔科夫模型进行分词;否则进行快速分词,调用一阶隐马尔科夫模型进行分词。假设待分文档为D,经过与处理后有r个段落和s个最小字串,字串 Yi=yi1,yi2,...,yim,yij表示一个单字。调用自适应隐马尔科夫模型进行分词,然后判断分好的单词是否在领域词典中,若在领域词典中,则判断该单词相邻上下单词之间的紧密度,判断是否需要进行重新分词,否则带入约束矩阵再进行语法约束和语义约束校准结果,最后输出分词结果。算法流程图如图3所示,具体分词步骤如下:
(1)输入字串Yi,调用自适应隐马尔科夫模型进行分词,计算该句所在段落包含术语集中专业术语的数量,如果大于某一阈值,则进行步骤(2),否则进行步骤(3);
(2)调用二阶隐马尔科夫模型进行分词,将字串Yi分成单词序列Xi=xi1,xi2,...,xin,进行步骤(4);
(3)调用一阶隐马尔科夫模型进行分词,将字串Yi分成单词序列Xi=xi1,xi2,...,xin,进行步骤(4);
(4)遍历Xi,判断xij(j=1,...,n)是否在领域词典中,若xij在领域词典中,进行步骤(5),否则进行步骤(6);
(5)查找单词xij的相邻上下单词,并记录单词xij、xij-1、xij+1和句子编号i到数组S,进行步骤(8);
(6)将单词带入约束矩阵进行验证,若满足约束矩阵,则进行步骤(8),否则记录并剔除该分词方式,进行步骤(1);
(7)判断组合词频率是否大于阈值,如大于阈值,则将编号为i的句子作为字串输入,进行步骤(1),否则进行步骤(6);
(8)判断数组S是否完全遍历,若遍历结束,则结束分词,输出分词结果,否则遍历整个文档统计组合词xi,j-1xij,xi,jxi,j+1频率,进行步骤(7)。
S4,组合词精确识别,为了使分词更加准确,提出了矩阵约束法,其主要的内容就是一个语法语义约束矩阵,其中矩阵中的元素代表两个词之间词性是否符合语法规则和语义是否符合逻辑规则。如何高效准确快速的建立矩阵以及矩阵的好坏,对分词结果的准确率提高有重要意义,约束矩阵是一个0-1的二值矩阵,表示了约束情况。对于元素pij,如果第i行对应的单词词性和第j列单词的词性有约束,那么pij值为1,否则为0。同样地,语义约束矩阵采用同样的方法进行构建。以自适应隐马尔科夫模型为基础,结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵,实现石油领域专业术语和组合词的精确识别。
S5,基于混合策略的领域概念抽取,通过该算法将统计学概念抽取与改进的词典概念抽取相结合,通过对大量文档进行分析并提取统计数据,将符合条件的字串序列提取出来以建立领域词典,将词语与领域词典中的词语进行匹配,如果匹配成功,则该词语就是领域词语,通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度,通常采用设定相关度阈值的方式进行术语的抽取;将二者结合的方法能够针对不同的情况进行具体分析,对两种方法扬长避短,从而获得较好的概念抽取结果。
S6,连续词袋模型的构建,将文档看成是由单词组成的集合,对抽取到的石油领域内的相关概念进行语义关系识别,根据连续词袋模型将概念表示成词向量的形式,利用改进词向量训练算法对词向量进行扩展强化训练,使词向量包含上下文语义信息。词袋模型的训练以中心词上下文的词作为输入,以中心词的词向量作为输出,不考虑与中心词之间距离大小,只要在范围内就可以。
S7,SVM多特征提取,采用支持向量机在词袋模型上对多个向量进行多特征提取,利用多个向量多个特征进行语义识别。对于两个向量,如果两个词语具有相似关系,则两个向量在同维度上的分量也具有相似关系,它们的向量差就很小,某一维度的分量和就很大。通过两个向量进行不同的组合运算,完成对不同特征的表示学习,将词语转转换成词向量的形式,将词向量进行特征计算,导入到支持向量机训练SVM分类器,最终将上下义、总分、类义关系识别出来。。
S8,输出分词后的文档与识别后的语义关系。
综上所述,本发明的基于文档分词的复杂语义识别方法在大数据环境下解决了石油领域内部专业纷繁复杂、深层语义难以识别的问题,构建了石油工业内数量庞大的知识库,可以结合领域词典、互信息和语法语义约束矩阵对分词结果进行校准,实现了石油领域文档分词,可适用于多个领域。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (5)

1.一种基于文档分词的复杂语义识别方法,其特征及具体步骤如下:
S1,在对文档进行分词之前,将文档分成较小的段落,便于后期的分词算法的实现;
S2,在较小段落的基础上进行预处理,包括去除停用词、分段和分句等操作;
S3,结合一阶和二阶隐马尔科夫模型,自适应的选取合适的隐马尔科夫模型进行分词;
S4,以自适应隐马尔科夫模型为基础,结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵,实现石油领域专业术语和组合词的精确识别;
S5,利用基于混合策略的领域概念抽取算法,实现从大规模领域资料中抽取相关概念术语;
S6,通过专业术语、组合词与概念术语建立连续的词袋模型;
S7,在词袋模型上采用支持向量机分类器对多个向量进行多特征提取,实现相似关系的语义识别;
S8,输出分词后的文档与识别后的语义关系。
2.根据权利要求1所述的一种基于文档分词的复杂语义识别方法,其特征在于,步骤S2,本发明主要利用去除停用词、分段和分句等方法以实现文档分词的预处理,去除停用词处理是为了提高检索效率和减少存储空间,在处理文本时会将这些无意义的词剔除掉,通过人工构建选取本身并无实际意义,只有结合其他词语或句子才有一定的作用的停用词,将要去除的停用整理形成停用词表;分段分句处理是利用一些具有分割作用的符号将文档进行切分,包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表,然后扫描整篇文档与分割符号表中的分隔符进行匹配,匹配成功则进行分割标记。
3.根据权利要求1所述的一种基于文档分词的复杂语义识别方法,其特征在于,对于步骤S4,本发明采用的自适应隐马尔科夫模型是根据术语集预先判断待分文档包含专业术语的多少,然后与阈值进行比较,若包含专业术语数量大于阈值,说明该段落包含的专业术语多,应该进行准确分词,调用二阶隐马尔科夫模型进行分词,否则进行快速分词,调用一阶隐马尔科夫模型进行分词;通过将石油领域各个子学科从1到i进行编号,统计每个子学科最常用的n个专业术语,如石油勘探开发领域最常用的术语有勘探、测井、储量、井、压差等;然后将各个子学科的代表性专业术语构成一个集合,总的术语集Q表示如下:
Figure RE-FDA0002401080560000011
式(1)中,Qi表示编号为i子学科的术语集,N表示为每个子学科的最多个的专业术语,通过判断输入的文档属于哪一个子学科领域,假设输入文档为D,属于的子学科编号为m,提取术语集Q=Qm,假设Qm中含有的代表性术语个数为n,遍历Qm搜索文档D中含有的代表性专业术语数量表示为:
X=[x1,x2,…,xn] (2)
式(2)中,xi表示文档D中含有编号为i的代表性术语的数量,则文档D含有代表性专业术语的数量表示为:
Figure RE-FDA0002401080560000021
式(3)中,numD是通过文档D中的代表性术语数量叠加得到,而专业术语数量阈值s是通过字数num以及比例系数α来确定,即专业术语数量阈值s=num·α,进而判断隐马尔科夫模型的使用,如下所示:
Figure RE-FDA0002401080560000022
式(4)中,若专业术语的数量numD小于专业术语数量阈值s,则调用一阶隐马尔科夫模型进行快速分词,否则使用二阶隐马尔科夫模型进行准确分词。
4.根据权利要求1所述的一种基于文档分词的复杂语义识别方法,其特征在于,对于步骤S5,本发明采用基于混合策略的领域概念抽取算法,将统计学概念抽取与改进的词典概念抽取相结合,通过对大量文档进行分析并提取统计数据,将符合条件的字串序列提取出来以建立领域词典,将词语与领域词典中的词语进行匹配,如果匹配成功,则该词语就是领域词语,通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度,通常采用设定相关度阈值的方式进行术语的抽取;将二者结合的方法能够针对不同的情况进行具体分析,对两种方法扬长避短,从而获得较好的概念抽取结果。
5.根据权利要求1所述的一种基于文档分词的复杂语义识别方法,其特征在于,对于步骤S7,本发明采用支持向量机在词袋模型上对多个向量进行多特征提取,利用多个向量多个特征进行语义识别,对于两个向量u=(u1,…,un)和v=(v1,…,vn),如果两个词语具有相似关系,则两个向量在同维度上的分量也具有相似关系,他们的向量差就很小,某一维度的分量和就很大,各个向量特征定义如下:
Figure RE-FDA0002401080560000031
式(5)中,fdiff表示向量差特征,fadd表示向量和特征,fmul表示向量乘特征,fcat表示向量连接特征;其次,通过两个向量u和v进行不同的组合运算,完成对不同特征的表示学习,将词语转转换成词向量的形式,将词向量进行特征计算,导入到支持向量机训练SVM分类器,最终将上下义、总分、类义关系识别出来。
CN201911217564.XA 2019-12-03 2019-12-03 一种基于文档分词的复杂语义识别方法 Pending CN111008530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911217564.XA CN111008530A (zh) 2019-12-03 2019-12-03 一种基于文档分词的复杂语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911217564.XA CN111008530A (zh) 2019-12-03 2019-12-03 一种基于文档分词的复杂语义识别方法

Publications (1)

Publication Number Publication Date
CN111008530A true CN111008530A (zh) 2020-04-14

Family

ID=70113537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911217564.XA Pending CN111008530A (zh) 2019-12-03 2019-12-03 一种基于文档分词的复杂语义识别方法

Country Status (1)

Country Link
CN (1) CN111008530A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065343A (zh) * 2021-03-25 2021-07-02 天津大学 一种基于语义的企业研发资源信息建模方法
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法
CN114154484A (zh) * 2021-11-12 2022-03-08 中国长江三峡集团有限公司 基于混合深度语义挖掘的施工专业术语库智能构建方法
CN117708324A (zh) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 一种文本主题分类方法、装置、芯片及终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065343A (zh) * 2021-03-25 2021-07-02 天津大学 一种基于语义的企业研发资源信息建模方法
CN113159921A (zh) * 2021-04-23 2021-07-23 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113392183A (zh) * 2021-05-31 2021-09-14 南京师范大学 一种儿童范畴图谱知识的表征与计算方法
CN114154484A (zh) * 2021-11-12 2022-03-08 中国长江三峡集团有限公司 基于混合深度语义挖掘的施工专业术语库智能构建方法
CN117708324A (zh) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 一种文本主题分类方法、装置、芯片及终端

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN108415953A (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN111061882A (zh) 一种知识图谱构建方法
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN112069826A (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN114997288A (zh) 一种设计资源关联方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200414