CN108090070A - 一种中文实体属性抽取方法 - Google Patents
一种中文实体属性抽取方法 Download PDFInfo
- Publication number
- CN108090070A CN108090070A CN201611031896.5A CN201611031896A CN108090070A CN 108090070 A CN108090070 A CN 108090070A CN 201611031896 A CN201611031896 A CN 201611031896A CN 108090070 A CN108090070 A CN 108090070A
- Authority
- CN
- China
- Prior art keywords
- data
- page
- entry
- entity attribute
- extensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文实体属性抽取方法,该方法包括提取百度百科词条页面的文本、使用词条标签对页面过滤、使用剩余页面中信息框的数据进行远程标注获得训练数据、对训练数据进行分词和泛化、将泛化后的训练数据转化为词向量,然后经过分类器后得到分类结果,并填充到对应类别的属性槽中;本中文实体属性抽取方法,不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,在实体属性抽取任务中具有更高的准确率。
Description
技术领域
本发明涉及信息抽取技术领域,具体为一种中文实体属性抽取方法。
背景技术
随着互联网的飞速发展,通过网络获取的数据也呈指数级增长,如何从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫。而这正是信息抽取这一研究领域力图解决的问题。实体属性、关系抽取是信息抽取任务之一,目的是从非结构化文本中抽取实体属性以及实体之间的关系。该任务是基于命名实体识别的一种更深层次的研究,能够为事件抽取,自动问答,机器翻译以及自然语言处理相关领域的研究提供前提保障。
目前,中文实体属性抽取算法主要有两种,第一种是基于规则匹配的方法,对于开放网页文本结构不固定、数据源格式众多的特点,该方法不仅要定义大量的规则,而且匹配效率很低,不利于工程推广。第二种是一个是基于传统机器学习算法实现,最常用的是SVM模型以及最大熵模型,SVM是一种可用于分类和回归问题的、较为复杂的机器学习算法模型,主要是一个线性分类的过程。通过在特征空间中找到一个分离超平面,从而将各样本的特征划分到不同的类别中。最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵值最大的模型是最好的模型。也就是说,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。然而对于自然语言的语义分析任务,传统的机器学习算法,对训练数据有极强的依赖性,需要人工标注大量数据,而且只能使用浅层的特征对数据分类,致使抽取性能较差。
机器对中文句子进行语义理解一直以来是NLP中的一个难题,但随着人工神经网络(ANN)对数据的理解逐渐加深,人们开始使用人工神经网络来解决这一难题,并且针对不同的任务出现了不同种类神经网络模型。但是,这些网络模型对于句子的语义理解依旧存在“梯度的爆发与消失”问题。
在基于机器学习的知识抽取过程中,还有一大难题是如何得到足够数量的训练数据集。现阶段,权威的人工标注数据集的数量较少,而自行构建一个人工标注数据集既费时又费力。
发明内容
本发明的目的在于提供一种中文实体属性抽取方法,不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,在实体属性抽取任务中具有更高的准确率,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种中文实体属性抽取方法,包括以下抽取步骤:
S1:提取百度百科词条页面的文本,从中获得百科信息框、词条标签等信息;
S2:使用词条标签对页面过滤,保留与目标类标签相关的词条页面;
S3:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;
S4:对训练数据进行分词和泛化;
S5:使用Word2Vec工具,将泛化后的训练数据转化为词向量;
S6:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM深度学习网络分类器;
S7:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到类别对应的属性槽中。
优选的,所述步骤S1包括以下提取过程:
S1-1:假设待爬取URL集合已爬URL集合选择种子页面集合P,则W=P;
S1-2:从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪CL L∩A,W=W-{p}+CL L∩A;
S1-3:循环上述S1-2过程,直至
S1-4:若数据集不够,则选择新的种子,重复S1-2过程到S1-3过程;
S1-5:否则,停止爬取。
优选的,所述步骤S3包括以下提取过程:
S3-1:假设当前输入词条是d,读取词条信息框中每个属性对集合Q;
S3-2:对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子s;
S3-3:句子s作为训练语句,pi作为该句子所属的类别,共同构成标注数据,并将其加入至训练集中;
S3-4:循环步骤S3-2和步骤S3-3,直到Q=ø。
优选的,所述步骤S4对训练数据进行分词和泛化,包括以下过程:
S4-1:假设标注数据集为D,读取一条标注数据di;
S4-2:使用HanLP工具对di分词;
S4-3:依照分词结果中的词性标记,将词性相同的几个连续词合并,用词性代替;
S4-4:依照词性标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;
S4-5:重复S4-2过程到S4-4过程,直到所有数据标注完成。
优选的,所述LSTM网络模型最后添加有dropout层,且比例设置为40%,batch大小设置为32,迭代次数设置为10次。
与现有技术相比,本发明的有益效果是:本中文实体属性抽取方法,通过使用一个双向LSTM神经网络来学习实体之间的关系特征,与以往的方法比,这种方法不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。
附图说明
图1为本发明的原理框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行亲楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种中文实体属性抽取方法,包括以下抽取步骤:
第一步:提取百度百科词条页面的文本,从中获得百科信息框、词条标签等信息;其中,假设待爬取URL集合W=ø,待爬和已爬URL集合A=ø,选择种子页面集合P,则W=P;再从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪ ,W=W-{p}+;循环上述过程,直至W=ø;若数据集不够,则选择新的种子,重复上述提取过程,直至W=ø;否则,停止爬取;并对百度百科数据的提取和保存,在这里至少要对每个页面提取出信息框(class=”basic-info”)和词条标签(id=”open-tag-item”)上的信息,前者是自动标注语料的来源,后者是特定类实体过滤的字段。
第二步:使用词条标签对页面过滤,去掉有关人物传记、影视人物、游戏人物等虚拟人物和与人物不相关的实体页面;比如百度百科中的张小凡(仙侠小说《诛仙》男主人公),其标签为虚拟人物,文化人物,动漫形象,人物虽然标签中带着人物,但是却并不属于系统所需的真实人物类实体,因此只需保留与目标类标签相关的词条页面。
第三步:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;其中,具体过程为假设当前输入词条是d,读取词条信息框中每个属性对集合Q,对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子s,句子s作为训练语句,pi作为该句子所属的类别,将标注结果加入训练集中,再循环操作,直到q=ø为止。
第四步:对训练数据进行分词和泛化;其中,具体过程为假设标注数据集为D,读取一条标注数据di,使用HanLP工具对di分词,依照分词结果中的词性标记,将词性相同的两个连续词合并,用词性代替,并依照词性进行标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;再重复操作过程,直到所有数据标注完成。
第五步:使用Word2Vec工具,将泛化后的训练数据转化为词向量,其中Word2Vec工具为谷歌的开源项目。
第六步:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM神经网络分类器;其中,将向量化的标注数据作为输入数据,训练双向LSTM分类器,双向LSTM分类器的构建可以使用Keras框架以及GPU加速,且在LSTM网络模型最后添加有dropout层,比例设置为40%,batch大小设置为32,迭代次数设置为10次,以避免抽取器训练过程中产生过拟合的现象。
第七步:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到属性槽中。
综上所述:本发明使用了一个深度学习模型来解决中文实体属性抽取的问题,该模型使用一个双向LSTM神经网络来学习实体之间的关系特征;与以往的方法比,这种方法不需要人工定义特征以及其他的额外资源,得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性,采用本方法得到的抽取模型较之其他用传统方法生成的模型在实体属性抽取任务中具有更高的准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种中文实体属性抽取方法,其特征在于,包括以下抽取步骤:
S1:提取百度百科词条页面的文本,从中获得百科信息框、词条标签等信息;
S2:使用词条标签对页面过滤,保留与目标类标签相关的词条页面;
S3:将过滤后的词条页面中信息框的数据作为输入,使用远距离监督方式抽取出自动标注的训练数据;
S4:对训练数据进行分词和泛化;
S5:使用Word2Vec工具,将泛化后的训练数据转化为词向量;
S6:将处理后的词向量作为抽取分类器的训练集,迭代训练双向LSTM深度学习网络分类器;
S7:对自由文本重复步骤S4的方法进行分词和泛化,然后经过分类器得到分类结果,并填充到类别对应的属性槽中。
2.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述步骤S1包括以下提取过程:
S1-1:假设待爬取URL集合W=ø,已爬URL集合A=ø,选择种子页面集合P,则W=P;
S1-2:从W中选择一个URL,p,爬取页面提取出其中的标签、信息框数据,以及网页中所有的百科和百度域名下的锚文本集合L,则A=A∪,W=W-{p}+;
S1-3:循环上述S1-2过程,直至W=ø;
S1-4:若数据集不够,则选择新的种子,重复S1-2过程到S1-3过程;
S1-5:否则,停止爬取。
3.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述步骤S3包括以下提取过程:
S3-1:假设当前输入词条是d,读取词条信息框中每个属性对集合Q;
S3-2:对于每一个属性对q,读取属性标签pi以及对应的属性值vi,在互联网中搜索同时包含d和vi的句子s;
S3-3:句子s作为训练语句,pi作为该句子所属的类别,共同构成标注数据,并将其加入至训练集中;
S3-4:循环步骤S3-2和步骤S3-3,直到Q=ø。
4.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述步骤S4对训练数据进行分词和泛化,包括以下过程:
S4-1:假设标注数据集为D,读取一条标注数据di;
S4-2:使用HanLP工具对di分词;
S4-3:依照分词结果中的词性标记,将词性相同的几个连续词合并,用词性代替;
S4-4:依照词性标记,将名词用n替换,动词用v替换,命名实体用ner替换,数词用num替换;
S4-5:重复S4-2过程到S4-4过程,直到所有数据标注完成。
5.根据权利要求1所述的一种中文实体属性抽取方法,其特征在于,所述LSTM网络模型最后添加有dropout层,且比例设置为40%,batch大小设置为32,迭代次数设置为10次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611031896.5A CN108090070B (zh) | 2016-11-22 | 2016-11-22 | 一种中文实体属性抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611031896.5A CN108090070B (zh) | 2016-11-22 | 2016-11-22 | 一种中文实体属性抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090070A true CN108090070A (zh) | 2018-05-29 |
CN108090070B CN108090070B (zh) | 2021-08-24 |
Family
ID=62169677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611031896.5A Active CN108090070B (zh) | 2016-11-22 | 2016-11-22 | 一种中文实体属性抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090070B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN109614482A (zh) * | 2018-10-23 | 2019-04-12 | 北京达佳互联信息技术有限公司 | 标签的处理方法、装置、电子设备及存储介质 |
CN109657207A (zh) * | 2018-11-29 | 2019-04-19 | 爱保科技(横琴)有限公司 | 条款的格式化处理方法和处理装置 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
CN109726404A (zh) * | 2018-12-29 | 2019-05-07 | 安徽省泰岳祥升软件有限公司 | 端到端模型的训练数据增强方法、装置及介质 |
CN109919175A (zh) * | 2019-01-16 | 2019-06-21 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN110728148A (zh) * | 2018-06-29 | 2020-01-24 | 富士通株式会社 | 实体关系抽取方法和装置 |
CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
CN112883191A (zh) * | 2021-02-05 | 2021-06-01 | 山东麦港数据系统有限公司 | 一种农业实体自动识别的分类方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN105244020A (zh) * | 2015-09-24 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105740226A (zh) * | 2016-01-15 | 2016-07-06 | 南京大学 | 使用树形神经网络和双向神经网络实现中文分词 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
-
2016
- 2016-11-22 CN CN201611031896.5A patent/CN108090070B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
CN105244020A (zh) * | 2015-09-24 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
CN105740226A (zh) * | 2016-01-15 | 2016-07-06 | 南京大学 | 使用树形神经网络和双向神经网络实现中文分词 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11157698B2 (en) | 2018-06-15 | 2021-10-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text |
CN109062937A (zh) * | 2018-06-15 | 2018-12-21 | 北京百度网讯科技有限公司 | 训练描述文本生成模型的方法、生成描述文本的方法及装置 |
CN110728148B (zh) * | 2018-06-29 | 2023-07-14 | 富士通株式会社 | 实体关系抽取方法和装置 |
CN110728148A (zh) * | 2018-06-29 | 2020-01-24 | 富士通株式会社 | 实体关系抽取方法和装置 |
CN110874534B (zh) * | 2018-08-31 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN109614482A (zh) * | 2018-10-23 | 2019-04-12 | 北京达佳互联信息技术有限公司 | 标签的处理方法、装置、电子设备及存储介质 |
CN109614482B (zh) * | 2018-10-23 | 2022-06-03 | 北京达佳互联信息技术有限公司 | 标签的处理方法、装置、电子设备及存储介质 |
WO2020082938A1 (zh) * | 2018-10-23 | 2020-04-30 | 北京达佳互联信息技术有限公司 | 标签的处理方法、装置、电子设备及存储介质 |
CN109657207A (zh) * | 2018-11-29 | 2019-04-19 | 爱保科技(横琴)有限公司 | 条款的格式化处理方法和处理装置 |
CN109657207B (zh) * | 2018-11-29 | 2023-11-03 | 爱保科技有限公司 | 条款的格式化处理方法和处理装置 |
CN109710725A (zh) * | 2018-12-13 | 2019-05-03 | 中国科学院信息工程研究所 | 一种基于文本分类的中文表格列标签恢复方法和系统 |
CN109726404B (zh) * | 2018-12-29 | 2023-11-10 | 安徽省泰岳祥升软件有限公司 | 端到端模型的训练数据增强方法、装置及介质 |
CN109726404A (zh) * | 2018-12-29 | 2019-05-07 | 安徽省泰岳祥升软件有限公司 | 端到端模型的训练数据增强方法、装置及介质 |
CN109919175A (zh) * | 2019-01-16 | 2019-06-21 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN109919175B (zh) * | 2019-01-16 | 2020-10-23 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN110472235A (zh) * | 2019-07-22 | 2019-11-19 | 北京航天云路有限公司 | 一种面向中文文本的端到端实体关系联合抽取方法 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111680127A (zh) * | 2020-06-11 | 2020-09-18 | 暨南大学 | 一种面向年报的公司名称和关系抽取方法 |
CN112182346A (zh) * | 2020-10-26 | 2021-01-05 | 上海蜜度信息技术有限公司 | 一种对突发事件的实体信息进行抽取的方法与设备 |
CN112883191A (zh) * | 2021-02-05 | 2021-06-01 | 山东麦港数据系统有限公司 | 一种农业实体自动识别的分类方法及装置 |
CN112883191B (zh) * | 2021-02-05 | 2023-03-24 | 山东麦港数据系统有限公司 | 一种农业实体自动识别的分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108090070B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090070A (zh) | 一种中文实体属性抽取方法 | |
Bang et al. | Explaining a black-box by using a deep variational information bottleneck approach | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
Yang et al. | Identifying semantic edit intentions from revisions in wikipedia | |
CN110489755A (zh) | 文本生成方法和装置 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN109062939A (zh) | 一种面向汉语国际教育的智能导学方法 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN106980683A (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
CN106611055A (zh) | 基于层叠式神经网络的中文模糊限制信息范围检测方法 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN112395393A (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN108121702A (zh) | 数学主观题评阅方法及系统 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN110263165A (zh) | 一种基于半监督学习的用户评论情感分析方法 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN110147552A (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200701 Address after: 410000 room 1301, building 8, Xincheng science and Technology Park, 588 yueluxi West Avenue, Changsha high tech Development Zone, Changsha City, Hunan Province Applicant after: Hunan Sifang Tianjian Information Technology Co., Ltd Address before: 100055, room 1, building 248, 1401 Guang'an Avenue, Xicheng District, Beijing Applicant before: BEIJING GAODIG INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |