CN113743087B - 一种基于神经网络词汇扩展段落的文本生成方法及系统 - Google Patents

一种基于神经网络词汇扩展段落的文本生成方法及系统 Download PDF

Info

Publication number
CN113743087B
CN113743087B CN202111044245.0A CN202111044245A CN113743087B CN 113743087 B CN113743087 B CN 113743087B CN 202111044245 A CN202111044245 A CN 202111044245A CN 113743087 B CN113743087 B CN 113743087B
Authority
CN
China
Prior art keywords
data
article
keywords
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111044245.0A
Other languages
English (en)
Other versions
CN113743087A (zh
Inventor
陈海林
张蓬
赵绪龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Trueland Information Technology Shanghai Co ltd
Original Assignee
Trueland Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Trueland Information Technology Shanghai Co ltd filed Critical Trueland Information Technology Shanghai Co ltd
Priority to CN202111044245.0A priority Critical patent/CN113743087B/zh
Publication of CN113743087A publication Critical patent/CN113743087A/zh
Application granted granted Critical
Publication of CN113743087B publication Critical patent/CN113743087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于神经网络词汇扩展段落的文本生成方法及系统,属于文本处理技术领域,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;通过按段落生成的方式,更好的控制文章生成的字数要求,使用户使用文本生成的体验感更好。

Description

一种基于神经网络词汇扩展段落的文本生成方法及系统
技术领域
本发明属于文本处理技术领域,具体是一种基于神经网络词汇扩展段落的文本生成方法及系统。
背景技术
文本生成是自然语言处理中非常重要的研究方向,应用场景非常广泛,主要是应用到格式化数据文本的生成,或者生成资讯类的内容,解释类文本的生成等。目前非格式化的文本生成任务的常见的方向大致有:摘要生成、文本复述等。文本复述生成,需要大量的素材做支撑,才能形成复述生成的效果,且训练复述模型所需的平行语料需要足够充足且规整;而在现实中却很难获得大规模的此类平行语料。诗歌生成及小说生成,不细究生成效果,可有一定的研究价值,但大多数情况为研究者实施,实验性意义更大,而不是为应用层面考虑。
采用神经网络词汇扩展段落的文本生成,可在一定范围内的语料中进行训练,即可得出较为良好的扩充生成文章的效果。在已经积累的用户特征数据、用户偏好数据、文章素材数据,以及通过关系抽取、实体识别所增加的标签特征数据的基础上,进行深度学习网络训练的语句/文章生成方式,可大大扩充生成文章的多样性、原创性。
发明内容
为了解决上述方案存在的问题,本发明提供了一种基于神经网络词汇扩展段落的文本生成方法及系统。
本发明的目的可以通过以下技术方案实现:
一种基于神经网络词汇扩展段落的文本生成系统,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户。
进一步地,文章数据库在保存文章数据前,对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据。
进一步地,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记。
进一步地,建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
进一步地,输入模块的工作方法包括:
设置检索单元和关键词库,选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据。
进一步地,根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户。
进一步地,文本生成模块根据获取的数据生成文本的方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据。
一种基于神经网络词汇扩展段落的文本生成方法,具体方法包括:
步骤一:建立预测模型;
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
步骤四:向用户展示文本数据。
与现有技术相比,本发明的有益效果是:解决了一般文本生成所使用的bert等常见的自编码的模型生成文本质量不高,语句不通顺的问题;通过按段落生成的方式,更好的控制文章生成的字数要求,使用户使用文本生成的体验感更好;通过从句子提取核心词,以句子作为训练语料,可以使模型更好的收敛,增加文本生成的严谨性,多样性,生成文本的质量更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于神经网络词汇扩展段落的文本生成系统,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据;因为每篇公开的文章基本都有发文日,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记;文章数据库对保存的文章数据进行分段,产生分段数据,分段数据即为文章数据中的句子,相当于一句话,可以根据段落和句号进行分段;对分段数据进行数据预处理,数据预处理包括数据的清洗和提取,提取分段数据中的核心词,此处提及的分段数据为经过数据预处理的数据;提取关键词为常规技术,不是本发明的改进点,因此不进行详细叙述了,可以使用神经网络模型进行训练;将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户。
数据采集模块采集文章数据的方法包括:
制定文章数据采集领域,根据文章数据采集领域从互联网中进行文章数据采集。
建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
所述输入模块用于用户输入预测参数,并根据预测参数设置预测输入数据,预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围;所属行业领域指的是目标文章所述的行业领域,具体方法包括:
设置检索单元和关键词库,检索单元用于检索关键词,关键词库用于储存关键词,可以根据训练集数据中的关键词进行储存;选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,即为包含关键词的句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,数据预处理包括数据的清洗和提取,处理对象就是筛选出的匹配句子,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据;
根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户,其中N为比例系数,且50≥N≥10;
所述文本生成模块用于根据获取的数据生成文本,具体方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成新的句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据;启发式规则为本领域公知常识,因此不进行详细叙述。
示例性的,用户选择的行业领域:机械及行业设备/农业机械;推荐的关键词为:耙齿、微纳米供氧机、刮粪机、石磨、混合机、装载机、碎枝机等,用户选择:微纳米供氧机,选择的文章篇数为一,输出结果为:
微纳米供氧机:
微纳米气泡快速发生置,把气体(如:空气、氧气、臭氧等)用高速旋回切割方式溶入水中,快速地制取纳米气泡水,提高气体的溶解效率,满足对水体进行处理的要求,因此可以广泛应用于工业、农业以及生活用水的处理中。
产品特点:
1、气泡直径100nm-10μm;
2、上升速度慢;
3、自身增压溶解;
4、比表面积大;
5、表面带电荷;
6、微纳米气泡发生装置便于和现有设备结合;
7、不同种类气液可自由组合,不同气源(空气、氧气、臭氧、二氧化碳等)。
应用领域:
农业生产:营养液增氧与消毒、增氧灌溉;
水产与畜牧养殖:水质净化与消毒、水体增氧;
污水治理:水质净化、消毒、增氧;
医疗养生:消毒、洗浴保健;
食品加工:果蔬清洗、消毒、保鲜。
一种基于神经网络词汇扩展段落的文本生成方法,具体方法包括:
步骤一:建立预测模型;
采集文章数据,对采集的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据;当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记;对文章数据进行分段,产生分段数据,对分段数据进行数据预处理,数据预处理包括数据的清洗和提取,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
设置检索单元和关键词库,检索单元用于检索关键词,关键词库用于储存关键词,可以根据训练集数据中的关键词进行储存;选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,数据预处理包括数据的清洗和提取,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
当获得的文本数据不满足用户需求时,返回步骤二,由用户添加新的关键词;
步骤四:向用户展示文本数据。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (7)

1.一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,包括数据采集模块、文章数据库、储存模块、建模模块、输入模块、文本生成模块和服务器;
所述数据采集模块用于采集文章数据,并将采集到的文章数据发送到文章数据库进行保存,文章数据库对保存的文章数据进行分段,并对分段数据进行数据预处理,提取分段数据中的核心词,将分段数据和对应的核心词整合标记为训练集数据,将训练集数据发送到储存模块进行储存;通过建模模块建立预测模型,并将预测模型发送至文本生成模块;
用户通过输入模块输入预测参数,预测参数包括所属行业领域、关键词、生成文章篇数和每个段落字数范围;输入模块根据输入的预测参数获得预测输入数据,将预测输入数据发送到文本生成模块,文本生成模块根据获取的数据生成文本,并将文本发送给用户;
文章数据库在保存文章数据前,对接收的文章数据进行校核,当接收的文章数据为重复文章数据时,保存发文日最近的文章数据,删除另一个文章数据。
2.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,当文章数据中没有发文日时,以最新获取的文章数据的时间为发文日,并将发文日进行标记。
3.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,建模模块建立预测模型的方法包括:
编写seq2seq模型,seq2seq模型采取encode端和decode端各用xlnet模型结构,从储存模块中获取训练集数据,使用训练集数据对seq2seq模型进行训练,将训练后的seq2seq模型标记为预测模型。
4.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,输入模块的工作方法包括:
设置检索单元和关键词库,选择所属行业领域,根据所属行业领域向用户推荐关键词,用户从推荐的关键词中进行选择,当推荐的关键词中没有用户需要的关键词时,通过检索单元进行检索,获得关键词;设置生成文章篇数和每个段落字数范围;
将关键词输入到文章数据库中进行匹配,获得匹配句子,获取用户需求字数范围和匹配句子的字数,筛选出符合用户要求的匹配句子,进行数据预处理,将数据预处理后的句子标记为基础句子,提取基础句子中的核心词;将核心词标记为预测输入数据。
5.根据权利要求4所述的一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,根据所属行业领域向用户推荐关键词的方法包括:
获取所属行业领域,根据所属行业领域在关键词库中进行匹配,获得同领域关键词,标记为待选关键词,获取待选关键词的使用次数,根据待选关键词的使用次数对待选关键词进行排序,选取排序前N个待选关键词推荐给用户。
6.根据权利要求1所述的一种基于神经网络词汇扩展段落的文本生成系统,其特征在于,文本生成模块根据获取的数据生成文本的方法包括:
获取预测输入数据和预测模型,将预测输入数据输入到预测模型中,获得句子,标记为输出句子,生成句子的规则是beam search,对输出句子依据启发式规则进行排序,形成文本数据。
7.根据权利要求1-6任一项所述的一种基于神经网络词汇扩展段落的文本生成系统的生成方法,其特征在于,具体方法包括:
步骤一:建立预测模型;
步骤二:获取用户输入的预测参数,并根据预测参数设置预测输入数据;
步骤三:将预测输入数据输入到预测模型中,获得输出句子,对输出句子依据启发式规则进行排序,形成文本数据;
步骤四:向用户展示文本数据。
CN202111044245.0A 2021-09-07 2021-09-07 一种基于神经网络词汇扩展段落的文本生成方法及系统 Active CN113743087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111044245.0A CN113743087B (zh) 2021-09-07 2021-09-07 一种基于神经网络词汇扩展段落的文本生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111044245.0A CN113743087B (zh) 2021-09-07 2021-09-07 一种基于神经网络词汇扩展段落的文本生成方法及系统

Publications (2)

Publication Number Publication Date
CN113743087A CN113743087A (zh) 2021-12-03
CN113743087B true CN113743087B (zh) 2024-04-26

Family

ID=78736558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111044245.0A Active CN113743087B (zh) 2021-09-07 2021-09-07 一种基于神经网络词汇扩展段落的文本生成方法及系统

Country Status (1)

Country Link
CN (1) CN113743087B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301140A (ja) * 2008-06-10 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111274776A (zh) * 2020-01-21 2020-06-12 中国搜索信息科技股份有限公司 一种基于关键词的文章生成方法
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质
CN111881307A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 一种演示文稿生成方法、装置、计算机设备及存储介质
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009301140A (ja) * 2008-06-10 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN110888991A (zh) * 2019-11-28 2020-03-17 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN111274776A (zh) * 2020-01-21 2020-06-12 中国搜索信息科技股份有限公司 一种基于关键词的文章生成方法
CN111639486A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 段落搜索方法、装置、电子设备及存储介质
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统
CN111881307A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 一种演示文稿生成方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本分类的农业种植信息集成推荐方法研究;彭争;唐东明;;西南民族大学学报(自然科学版);20180125(第01期) *

Also Published As

Publication number Publication date
CN113743087A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
Syed et al. Full-text or abstract? examining topic coherence scores using latent dirichlet allocation
Verbeek et al. Linking science to technology: Using bibliographic references in patents to build linkage schemes
Teletchea After 7 years and 1000 citations: comparative assessment of the DNA barcoding and the DNA taxonomy proposals for taxonomists and non-taxonomists
CN108334495A (zh) 短文本相似度计算方法及系统
Roy et al. Learning annotated hierarchies from relational data
RAMirez et al. Linking of digital images to phylogenetic data matrices using a morphological ontology
Bowler et al. The sustainability of rural systems: geographical interpretations
Zhong et al. Knowledge mapping of carbon footprint research in a LCA perspective: A visual analysis using CiteSpace
CA2883388A1 (en) Mental modeling method and system
Dolques et al. Performance-friendly rule extraction in large water data-sets with AOC posets and relational concept analysis
CN113743087B (zh) 一种基于神经网络词汇扩展段落的文本生成方法及系统
Gordon et al. TSI-GNN: extending graph neural networks to handle missing data in temporal settings
AL-Khassawneh et al. Extractive Arabic text summarization-graph-based approach
Parmenter et al. Inventing the Neolithic? Putting evidence-based interpretation back into the study of faunal remains from causewayed enclosures
Braun et al. Africa and Asia: comparisons of the earliest archaeological evidence
Breimer et al. Longitudinal and cross-sectional study of registered nurses in Sweden who undertake a PhD showing that nurses continue to publish in English after their PhD but male nurses are more productive than female nurses
Hu et al. Topic-based embeddings for learning from large knowledge graphs
CN113051455B (zh) 一种基于网络文本数据的水务舆情识别方法
O’Mahony et al. Modelling the distribution of the red macroalgae Asparagopsis to support sustainable aquaculture development
Schwartz Digital partnership: Combining text mining and GIS in a spatial history of sea fishing in the United Kingdom, 1860 to 1900
Kuksenok et al. Automating large-scale annotation for analysis of social media content
Fountain et al. Meaning representation in natural language categorization
Delmore Automation in the global meat industry
Prodocimo et al. Estuarine pufferfishes (Sphoeroides testudineus and S. greeleyi) submitted to sea water dilution during ebb tide: a field experiment
Bai et al. Expert decision support technique for algal bloom governance in urban lakes based on text analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant