CN112395385A - 基于人工智能的文本生成方法、装置、计算机设备及介质 - Google Patents

基于人工智能的文本生成方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN112395385A
CN112395385A CN202011289791.6A CN202011289791A CN112395385A CN 112395385 A CN112395385 A CN 112395385A CN 202011289791 A CN202011289791 A CN 202011289791A CN 112395385 A CN112395385 A CN 112395385A
Authority
CN
China
Prior art keywords
text
vector
word segmentation
preset
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011289791.6A
Other languages
English (en)
Other versions
CN112395385B (zh
Inventor
白祚
罗炳峰
莫洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011289791.6A priority Critical patent/CN112395385B/zh
Publication of CN112395385A publication Critical patent/CN112395385A/zh
Application granted granted Critical
Publication of CN112395385B publication Critical patent/CN112395385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,公开了一种基于人工智能的文本生成方法、装置、计算机设备及存储介质,所述方法包括:通过获取预设语料库中的初始文本,并对初始文本进行片段切分,得到文本片段,采用预设的文本向量表示模型,对文本片段向量化处理,得到片段向量,针对片段向量,构建向量索引,获取每个待扩展的模版的表述,作为待扩充类别,并采用预设的文本向量表示模型,对待扩充类别进行向量表示,得到查询向量,基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本,本发明提升了文本生成的效率。

Description

基于人工智能的文本生成方法、装置、计算机设备及介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于人工智能的文本生成方法、装置、计算机设备及介质。
背景技术
随着基于模板的文本生成系统相比于基于统计学习和深度学习的方法,具有高度的可控性,以及良好的可干预性,因而长期以来一直是工业界文本生成的最主要的方法之一。
但是,传统的基于模板的文本生成系统由于模板种类较少,其生成的文本往往句式和文法都比较固定,相比于基于模型的文本生成方法多样性更差。为了提高基于模板的文本生成系统的多样性,人们往往通过专家经验的方式完善模板,或者通过大量阅读相关文本来获取新模板的灵感。然而,专家经验往往带来较大的经济成本,并且所涉及的范畴也较小,使得文本多样化不够;而人工阅读大量相关文本来获取灵感则会带来极大的工作量,使得效率低下。因此,亟需一种高效的的文本生成方法。
发明内容
本发明实施例提供一种基于人工智能的文本生成方法、装置、计算机设备和存储介质,以提高文本生成的效率。
为了解决上述技术问题,本申请实施例提供一种基于人工智能的文本生成方法,包括:
获取预设语料库中的初始文本,并对所述初始文本进行片段切分,得到文本片段;
采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量;
针对所述片段向量,构建向量索引;
获取每个待扩展的模版的表述,作为待扩充类别,并采用所述预设的文本向量表示模型,对所述待扩充类别进行向量表示,得到查询向量;
基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本。
可选地,所述对所述初始文本进行片段切分,得到文本片段包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始文本进行分词解析,得到M个分词序列;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
依据所述基础分词,对所述初始文本进行切分,得到所述文本片段。
可选地,所述词序列数据包括词序列以及每个所述词序列的词序列频度,所述针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的整数;
依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2...an-1)之后的概率,将所述概率作为所述分词序列的发生概率:
Figure BDA0002783469950000031
其中,C(a1a2...an-1)为词序列(a1a2...an-1)的词序列频度。
可选地,所述预设的文本向量表示模型为BERT网络模型,在所述采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量之前,所述基于人工智能的文本生成方法还包括:
从所述预设语料库中获取训练数据,其中,所述训练数据包括样本句子a和匹配句子p;
从所述预设语料库中随机选取负样本句子n,其中,负样本句子n不属于样本句子a和匹配句子p;
对样本句子a、匹配句子p和负样本句子n分别进行编码,得到向量sa,向量sp和向量sn
将所述向量向量sa、向量sp和向量sn输入到BERT网络模型中进行训练,得到所述预设的文本向量表示模型。
可选地,所述基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本包括:
采用相似度计算的方式,计算所述查询向量与每个所述向量索引的相似度值;
获取相似度值大于预设阈值的向量索引对应的文本片段,作为候选文本,并依据所述相似度值由大到小的顺序,对所述候选文本进行排序。
可选地,在所述基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本之后,所述基于人工智能的文本生成方法还包括:
将所述候选文本发送至客户端;
接收所述客户端发送的更新文本,并使用所述更新文本更新所述待扩充类别的候选文本。
为了解决上述技术问题,本申请实施例还提供一种基于人工智能的文本生成装置,包括:
文本切分模块,用于获取预设语料库中的初始文本,并对所述初始文本进行片段切分,得到文本片段;
文本量化模块,用于采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量;
索引构建模块,用于针对所述片段向量,构建向量索引;
向量确定模块,用于获取每个待扩展的模版的表述,作为待扩充类别,并采用所述预设的文本向量表示模型,对所述待扩充类别进行向量表示,得到查询向量;
向量查询模块,用于基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本。
可选地,所述文本切分模块包括:
词序列确定单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始文本进行分词解析,得到M个分词序列;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
基础分词确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
文本切分单元,用于依据所述基础分词,对所述初始文本进行切分,得到所述文本片段。
可选地,所述概率计算单元包括:
分词获取子单元,用于针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的整数;
计算子单元,用于依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2...an-1)之后的概率,将所述概率作为所述分词序列的发生概率:
Figure BDA0002783469950000051
其中,C(a1a2...an-1)为词序列(a1a2...an-1)的词序列频度。
可选地,所述预设的文本向量表示模型为BERT网络模型,所述基于人工智能的文本生成装置还包括:
第一数据选取模块,用于从所述预设语料库中获取训练数据,其中,所述训练数据包括样本句子a和匹配句子p;
第二数据选取模块,用于从所述预设语料库中随机选取负样本句子n,其中,负样本句子n不属于样本句子a和匹配句子p;
向量编码模块,用于对样本句子a、匹配句子p和负样本句子n分别进行编码,得到向量sa,向量sp和向量sn
模型训练模块,用于将所述向量向量sa、向量sp和向量sn输入到BERT网络模型中进行训练,得到所述预设的文本向量表示模型。
可选地,所述向量查询模块包括:
相似度计算单元,用于采用相似度计算的方式,计算所述查询向量与每个所述向量索引的相似度值;
文本选取单元,用于获取相似度值大于预设阈值的向量索引对应的文本片段,作为候选文本,并依据所述相似度值由大到小的顺序,对所述候选文本进行排序。
可选地,所述基于人工智能的文本生成装置还包括:
文本发送模块,用于将所述候选文本发送至客户端;
文本更新模块,用于接收所述客户端发送的更新文本,并使用所述更新文本更新所述待扩充类别的候选文本。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于人工智能的文本生成方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于人工智能的文本生成方法的步骤。
本发明实施例提供的基于人工智能的文本生成方法、装置、计算机设备及存储介质,通过获取预设语料库中的初始文本,并对初始文本进行片段切分,得到文本片段,采用预设的文本向量表示模型,对文本片段向量化处理,得到片段向量,针对片段向量,构建向量索引,获取每个待扩展的模版的表述,作为待扩充类别,并采用预设的文本向量表示模型,对待扩充类别进行向量表示,得到查询向量,基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本,通过向量查询的方式,提高了获取相同类别文本的速度,提升文本生成的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的基于人工智能的文本生成方法的一个实施例的流程图;
图3是根据本申请的基于人工智能的文本生成装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于人工智能的文本生成方法由服务器执行,相应地,基于人工智能的文本生成装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种基于人工智能的文本生成方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:获取预设语料库中的初始文本,并对初始文本进行片段切分,得到文本片段。
具体地,从服务端预设的语料库中获取初始文本,并通过预设的分词方式对这些初始文本进行片段切分,得到文本片段。
其中,预设的分词方式包括但不限于:通过第三方分词工具或者分词算法等。
其中,常见的第三方分词工具包括但不限于:Stanford NLP分词器、ICTClAS分词系统、ansj分词工具和HanLP中文分词工具等。
其中,分词算法包括但不限于:最大正向匹配(Maximum Matching,MM)算法、逆向最大匹配(ReverseDirectionMaximum Matching Method,RMM)算法、双向最大匹配(Bi-directction Matching method,BM)算法、隐马尔科夫模型(Hidden Markov Model,HMM)和N-gram模型等。
容易理解地,通过分词的方式提取基础分词,一方面,可以过滤掉有效基础语句中一些无意义的词汇,另一方面,也有利于后续使用这些基础分词生成词向量。
值得说明的是,本实施例中,对语料库文本进行切分时,我们先通过任意分词工具对语料中的句子进行分词,并通过词性标注模型识别各个词语的词性。实际切分时,分为两种颗粒度,每种颗粒度采用不同的切分策略,具体如下:
短句级别:以逗号,句号,分号等标点符号,和连词等词性作为分隔符进行切分,切分结果为一个一个的短句。同时,考虑到部分相连的短句会表达完整的语义,在一具体实施方式中,保留相邻的两个或三个短句组合而成更长的短句;
短语级别:除了短句级别的切分词,还需要使用动词,代词,介词,引号等作为分隔符进行切分。切分结果为短语,包括名词短语,动词短语,介词短语等。同时,考虑到部分相连的短语可能表达完整的语义,在一具体实施方式中,保留相邻的两个或三个短语组合而成的更长的短语。
本实施例中,为保持语义完整性,切分结果要保留作为分隔符的切分词。
需要说明的是,为进一步地提高后续处理效率,本实施例还对重复短句和更长的短句需要去重处理,具体才采用字符串匹配的方式进行去重。
S202:采用预设的文本向量表示模型,对文本片段向量化处理,得到片段向量。
具体地,通过预设的文本向量表示模型对得到的文本片段进行向量化处理,将文本片段转化为向量的方式,得到片段向量,以使后续可以通过向量的方式进行快速索引。
其中,预设的文本向量表示模型包括但不限于词向量池化、SentenceBert、卷积神经网络等。文本片段向量表示模型还可以是任意任务上预训练的模型(如word2vec,BERT等),预训练任务包括但不限于文本分类,文本匹配,文本蕴含,文本生成等任务。
进一步地,预设的文本向量表示模型通过有标注的文本匹配数据训练得到,给定包含若干同义文本对(x,y)的数据集,以及文本片段向量表示模型f(x)。其中,f(x)的输入是一段文本,输出是表示该文本的向量。通过优化Loss(f(x),f(y),f(y’))来训练文本片段表示模型。其中x和y是数据集中语义相同的文本对,y’是随机选取的数据集中该文本对以外的文本。损失函数Loss(f(x),f(y),f(y’))包括但不限于hinge loss,binary crossentropy loss等。优化方法包括但不限于随机梯度下降算法,adam算法等。
S203:针对片段向量,构建向量索引。
具体地,可以采用可以使用任意向量索引引擎对片段向量,构建向量索引,常见的向量索引引擎包括但不限于Faiss,Milvus等。
S204:获取每个待扩展的模版的表述,作为待扩充类别,并采用预设的文本向量表示模型,对待扩充类别进行向量表示,得到查询向量。
具体地,获取每个待扩展的模版的表述,作为待扩充类别,进而采用所述预设的文本向量表示模型,依据步骤S202提供的向量化处理方法,对待扩充类别进行向量表示,得到查询向量。
需要说明的是,若模板组件的表述中存在待填充槽位,需要先将槽位进行实例化后再进行检索。
S205:基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本。
具体地,对检索结果的精排,一方面由于向量检索是近似检索,其计算的相似度相比于原始文本片段向量的相似度会有一些误差,所以可以使用原始文本向量表示重新计算相似度,把相似度高的排在前面;另一方面,也可以使用精度更高的文本匹配模型计算更精准的文本相似度。这里,文本相似度的计算为两个文本片段向量之间的相似度计算,通常可以采用L2距离或者cosine相似度。
本实施例中,通过获取预设语料库中的初始文本,并对初始文本进行片段切分,得到文本片段,采用预设的文本向量表示模型,对文本片段向量化处理,得到片段向量,针对片段向量,构建向量索引,获取每个待扩展的模版的表述,作为待扩充类别,并采用预设的文本向量表示模型,对待扩充类别进行向量表示,得到查询向量,基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本,通过向量查询的方式,提高了获取相同类别文本的速度,提升文本生成的效率。
在本实施例的一些可选的实现方式中,步骤S201中,对初始文本进行片段切分,得到文本片段包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始文本进行分词解析,得到M个分词序列;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
依据基础分词,对初始文本进行切分,得到文本片段。
具体地,训练语料库是用来为了对使用自然语言中的基础语句进行评估,而使用相关语料进行训练得到的语料库,通过使用N-gram模型对预设的训练语料库中每个语料进行统计分析,得出预设的训练语料库中一个语料H出现在另一个语料I之后的次数,进而得到“语料I+语料H”组成的词序列出现的词序列数据。本发明实施例中训练语料库中的内容包含但不限于:模板内容对应的语料信息、网络语料和通用语料库等。
其中,语料库(Corpus)是指经科学取样和加工的大规模电子文本库。语料库是语言学研究的基础资源,也是经验主义语言研究方法的主要资源,应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面,语料,即语言材料,语料是语言学研究的内容,也是构成语料库的基本单元。
例如,在一具体实施方式中,预设的训练语料库为通过网络爬虫的方式对模板相关语料进行爬取,得到,模板相关领域的语料库。
其中,词序列是指由至少两个语料按照一定顺序组合而成的序列,词序列频度是指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例,这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如,某个词序列“爱吃西红柿”在整个语料库中出现的次数为100次,整个语料库所有分词出现的次数之和为100000次,则词序列“爱吃西红柿”的词序列频度为0.0001。
其中,N-gram模型是大词汇连续文字语义识别中常用的一种语言模型,利用上下文中相邻词间的搭配信息,在需要把连续无空格的文字转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,提高了词序列确定的准确性。
值得说明的是,为了提高模板改写效率,在本实施例中,获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据的过程,可以在审核之前进行,并将得到的词序列数据进行存储,在需要对待发布内容进行语义识别时,直接调用该词序列数据即可。
进一步地,针对每个初始文本,断句方式不一样,理解出的语句可能存在差别,为保证语句理解的正确性,服务端在获取到初始文本后,获取该初始文本的M个分词序列的组成,M为所有可能出现的分词序列的总数。
其中,每个分词序列均是将一个初始文本进行划分得到的一种结果,得到的包含至少两个分词的文字序列。
例如,在一具体实施方式中,一基础语句为“今天真热”,对该基础语句进行解析,得到分词序列A为:“今天”、“真”、“热”,得到分词序列B为:“今”、“天真”、“热”等。
对分词序列计算发生概率具体可参考后续实施例的描述,为避免重复,此处不再赘述。
本实施例中,通过采用N-gram模型对初始文本进行片段切分,提高片段切分的准确性。
在本实施例的一些可选的实现方式中,词序列数据包括词序列以及每个词序列的词序列频度,针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的整数;
依据词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2...an-1)之后的概率,将概率作为分词序列的发生概率:
Figure BDA0002783469950000151
其中,C(a1a2...an-1)为词序列(a1a2...an-1)的词序列频度。
需要说明的是,获取该分词序列内的分词是分别按照词序从前到后的顺序依次获取。
具体地,由上述实施例可知,每个词序列的词序列频度均通过N-gram模型对训练语料库的分析得出,此处仅需按照公式(1)进行计算即可。
值得说明的是,由于N-gram模型使用的训练语料库较为庞大,而且数据稀疏严重,时间复杂度高,对于兴趣点计算出的发生概率数值偏小,所以也可以使用二元模型来计算发生概率。
其中,二元模型是通过使用公式(1)来分别计算分词a2出现在分词a1之后的概率A1,分词a3出现在分词a2之后的概率A2,...,分词an出现在分词an-1之后的概率An-1,进而使用公式(3)计算整个词序列(a1a2...an-1an)的发生概率:
P(T')=A1A2...An-1
本实施例中,通过对每次分词出现在其他分词之后的概率进行计算,快速获取概率最大的分词组合,有利于提高分词的准确性。
在本实施例的一些可选的实现方式中,预设的文本向量表示模型为BERT网络模型,在步骤S202之前,基于人工智能的文本生成方法还包括:
从预设语料库中获取训练数据,其中,训练数据包括样本句子a和匹配句子p;
从预设语料库中随机选取负样本句子n,其中,负样本句子n不属于样本句子a和匹配句子p;
对样本句子a、匹配句子p和负样本句子n分别进行编码,得到向量sa,向量sp和向量sn
将向量向量sa、向量sp和向量sn输入到BERT网络模型中进行训练,得到预设的文本向量表示模型。
本实施例中,通过从预设语料库中获取样本句子、匹配句子和负样本句子,进而进行向量转化,输入BERT网络模型进行训练,得到预设的文本向量表示模型,有利于提高预设的文本向量表示模型进行向量转化的准确率。
在本实施例的一些可选的实现方式中,步骤S205中,基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本包括:
采用相似度计算的方式,计算查询向量与每个向量索引的相似度值;
获取相似度值大于预设阈值的向量索引对应的文本片段,作为候选文本,并依据相似度值由大到小的顺序,对候选文本进行排序。
具体地,对检索结果的精排,一方面由于向量检索是近似检索,其计算的相似度相比于原始文本片段向量的相似度会有一些误差,所以可以使用原始文本向量表示重新计算相似度,把相似度高的排在前面;另一方面,也可以使用精度更高的文本匹配模型计算更精准的文本相似度。这里,文本相似度的计算为两个文本片段向量之间的相似度计算,通常可以采用L2距离或者cosine相似度,并依据相似度值由大到小的顺序,对候选文本进行排序。
本实施例中,通过向量的方式进行相似文本的快速查询检索,有利于提高获取相似文本的效率和准确率。
在本实施例的一些可选的实现方式中,在步骤S205之后,也即,在基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本之后,基于人工智能的文本生成方法还包括:
将候选文本发送至客户端;
接收客户端发送的更新文本,并使用更新文本更新待扩充类别的候选文本。
具体地,将候选文本发送至客户端,由客户端进行筛选调整,并接收客户端发送的筛选调整后的更新文本,采用更新文本对待扩充类别的候选文本进行更新。
其中,筛选指人工去除掉与查询结果不想关的文本片段,或者和已有模板组件重复度过高的文本片段,或者不适合改写为模板组件的文本片段。改写指的是将文本片段中的部分词按照需求改写为可填充的槽位(如姓名,职业,年龄,疾病等),并将文本片段按照自己的需求改写为自己希望的形式。这里检索出的文本片段更多地承担的是写作灵感的职能。
本实施例中,通过对文本进行更新处理,有利于提高相似文本获取的准确度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例基于人工智能的文本生成方法一一对应的基于人工智能的文本生成装置的原理框图。如图3所示,该基于人工智能的文本生成装置包括文本切分模块31、文本量化模块32、索引构建模块33、向量确定模块34和向量查询模块35。各功能模块详细说明如下:
文本切分模块31,用于获取预设语料库中的初始文本,并对初始文本进行片段切分,得到文本片段;
文本量化模块32,用于采用预设的文本向量表示模型,对文本片段向量化处理,得到片段向量;
索引构建模块33,用于针对片段向量,构建向量索引;
向量确定模块34,用于获取每个待扩展的模版的表述,作为待扩充类别,并采用预设的文本向量表示模型,对待扩充类别进行向量表示,得到查询向量;
向量查询模块35,用于基于向量索引进行查询,获取与查询向量相关的片段向量对应的文本片段,作为待扩充类别的候选文本。
可选地,文本切分模块31包括:
词序列确定单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始文本进行分词解析,得到M个分词序列;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
基础分词确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
文本切分单元,用于依据基础分词,对初始文本进行切分,得到文本片段。
可选地,概率计算单元包括:
分词获取子单元,用于针对每个分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的整数;
计算子单元,用于依据词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2...an-1)之后的概率,将概率作为分词序列的发生概率:
Figure BDA0002783469950000191
其中,C(a1a2...an-1)为词序列(a1a2...an-1)的词序列频度。
可选地,预设的文本向量表示模型为BERT网络模型,基于人工智能的文本生成装置还包括:
第一数据选取模块,用于从预设语料库中获取训练数据,其中,训练数据包括样本句子a和匹配句子p;
第二数据选取模块,用于从预设语料库中随机选取负样本句子n,其中,负样本句子n不属于样本句子a和匹配句子p;
向量编码模块,用于对样本句子a、匹配句子p和负样本句子n分别进行编码,得到向量sa,向量sp和向量sn
模型训练模块,用于将向量向量sa、向量sp和向量sn输入到BERT网络模型中进行训练,得到预设的文本向量表示模型。
可选地,向量查询模块35包括:
相似度计算单元,用于采用相似度计算的方式,计算查询向量与每个向量索引的相似度值;
文本选取单元,用于获取相似度值大于预设阈值的向量索引对应的文本片段,作为候选文本,并依据相似度值由大到小的顺序,对候选文本进行排序。
可选地,基于人工智能的文本生成装置还包括:
文本发送模块,用于将候选文本发送至客户端;
文本更新模块,用于接收客户端发送的更新文本,并使用更新文本更新待扩充类别的候选文本。
关于基于人工智能的文本生成装置的具体限定可以参见上文中对于基于人工智能的文本生成方法的限定,在此不再赘述。上述基于人工智能的文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于人工智能的文本生成方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于人工智能的文本生成方法,其特征在于,所述基于人工智能的文本生成方法包括:
获取预设语料库中的初始文本,并对所述初始文本进行片段切分,得到文本片段;
采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量;
针对所述片段向量,构建向量索引;
获取每个待扩展的模版的表述,作为待扩充类别,并采用所述预设的文本向量表示模型,对所述待扩充类别进行向量表示,得到查询向量;
基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本。
2.如权利要求1所述的基于人工智能的文本生成方法,其特征在于,所述对所述初始文本进行片段切分,得到文本片段包括:
获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
对初始文本进行分词解析,得到M个分词序列;
针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
依据所述基础分词,对所述初始文本进行切分,得到所述文本片段。
3.如权利要求2所述的基于人工智能的文本生成方法,其特征在于,所述词序列数据包括词序列以及每个所述词序列的词序列频度,所述针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率包括:
针对每个所述分词序列,获取该分词序列内的所有分词a1,a2,...,an-1,an,其中,n为大于1的整数;
依据所述词序列数据,使用如下公式计算n个分词中第n个分词an出现在词序列(a1a2...an-1)之后的概率,将所述概率作为所述分词序列的发生概率:
Figure FDA0002783469940000021
其中,C(a1a2...an-1)为词序列(a1a2...an-1)的词序列频度。
4.如权利要求1所述的基于人工智能的文本生成方法,其特征在于,所述预设的文本向量表示模型为BERT网络模型,在所述采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量之前,所述基于人工智能的文本生成方法还包括:
从所述预设语料库中获取训练数据,其中,所述训练数据包括样本句子a和匹配句子p;
从所述预设语料库中随机选取负样本句子n,其中,负样本句子n不属于样本句子a和匹配句子p;
对样本句子a、匹配句子p和负样本句子n分别进行编码,得到向量sa,向量sp和向量sn
将所述向量向量sa、向量sp和向量sn输入到BERT网络模型中进行训练,得到所述预设的文本向量表示模型。
5.如权利要求1至4任一项所述的基于人工智能的文本生成方法,其特征在于,所述基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本包括:
采用相似度计算的方式,计算所述查询向量与每个所述向量索引的相似度值;
获取相似度值大于预设阈值的向量索引对应的文本片段,作为候选文本,并依据所述相似度值由大到小的顺序,对所述候选文本进行排序。
6.如权利要求1所述的基于人工智能的文本生成方法,其特征在于,在所述基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本之后,所述基于人工智能的文本生成方法还包括:
将所述候选文本发送至客户端;
接收所述客户端发送的更新文本,并使用所述更新文本更新所述待扩充类别的候选文本。
7.一种基于人工智能的文本生成装置,其特征在于,所述基于人工智能的文本生成装置包括:
文本切分模块,用于获取预设语料库中的初始文本,并对所述初始文本进行片段切分,得到文本片段;
文本量化模块,用于采用预设的文本向量表示模型,对所述文本片段向量化处理,得到片段向量;
索引构建模块,用于针对所述片段向量,构建向量索引;
向量确定模块,用于获取每个待扩展的模版的表述,作为待扩充类别,并采用所述预设的文本向量表示模型,对所述待扩充类别进行向量表示,得到查询向量;
向量查询模块,用于基于所述向量索引进行查询,获取与所述查询向量相关的片段向量对应的文本片段,作为所述待扩充类别的候选文本。
8.如权利要求7所述的基于人工智能的文本生成装置,其特征在于,所述文本切分模块包括:
词序列确定单元,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
分词解析单元,用于对初始文本进行分词解析,得到M个分词序列;
概率计算单元,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
基础分词确定单元,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为初始语句中包含的基础分词;
文本切分单元,用于依据所述基础分词,对所述初始文本进行切分,得到所述文本片段。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于人工智能的文本生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于人工智能的文本生成方法。
CN202011289791.6A 2020-11-17 2020-11-17 基于人工智能的文本生成方法、装置、计算机设备及介质 Active CN112395385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011289791.6A CN112395385B (zh) 2020-11-17 2020-11-17 基于人工智能的文本生成方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011289791.6A CN112395385B (zh) 2020-11-17 2020-11-17 基于人工智能的文本生成方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN112395385A true CN112395385A (zh) 2021-02-23
CN112395385B CN112395385B (zh) 2023-07-25

Family

ID=74606360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011289791.6A Active CN112395385B (zh) 2020-11-17 2020-11-17 基于人工智能的文本生成方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN112395385B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113435843A (zh) * 2021-06-28 2021-09-24 平安信托有限责任公司 批复文件生成方法、装置、电子设备及存储介质
CN113704386A (zh) * 2021-10-27 2021-11-26 深圳前海环融联易信息科技服务有限公司 一种基于深度学习的文本推荐方法、装置及相关介质
CN114970467A (zh) * 2022-05-30 2022-08-30 平安科技(深圳)有限公司 基于人工智能的作文初稿生成方法、装置、设备及介质
CN115544033A (zh) * 2022-09-14 2022-12-30 北京海泰方圆科技股份有限公司 查重向量库更新、数据查重方法、装置、设备和介质
CN116610775A (zh) * 2023-07-20 2023-08-18 科大讯飞股份有限公司 人机交互方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170199931A1 (en) * 2014-09-25 2017-07-13 Alibaba Group Holding Limited Text message processing
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
US20180341630A1 (en) * 2017-05-24 2018-11-29 Nathan J. DeVries System and method of document generation
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111563375A (zh) * 2020-05-07 2020-08-21 北京捷通华声科技股份有限公司 一种文本生成方法和装置
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170199931A1 (en) * 2014-09-25 2017-07-13 Alibaba Group Holding Limited Text message processing
US20180341630A1 (en) * 2017-05-24 2018-11-29 Nathan J. DeVries System and method of document generation
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN111079442A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111563375A (zh) * 2020-05-07 2020-08-21 北京捷通华声科技股份有限公司 一种文本生成方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113157871B (zh) * 2021-05-27 2021-12-21 宿迁硅基智能科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113435843A (zh) * 2021-06-28 2021-09-24 平安信托有限责任公司 批复文件生成方法、装置、电子设备及存储介质
CN113704386A (zh) * 2021-10-27 2021-11-26 深圳前海环融联易信息科技服务有限公司 一种基于深度学习的文本推荐方法、装置及相关介质
WO2023070732A1 (zh) * 2021-10-27 2023-05-04 深圳前海环融联易信息科技服务有限公司 一种基于深度学习的文本推荐方法、装置及相关介质
CN114970467A (zh) * 2022-05-30 2022-08-30 平安科技(深圳)有限公司 基于人工智能的作文初稿生成方法、装置、设备及介质
CN114970467B (zh) * 2022-05-30 2023-09-01 平安科技(深圳)有限公司 基于人工智能的作文初稿生成方法、装置、设备及介质
CN115544033A (zh) * 2022-09-14 2022-12-30 北京海泰方圆科技股份有限公司 查重向量库更新、数据查重方法、装置、设备和介质
CN115544033B (zh) * 2022-09-14 2023-08-15 北京海泰方圆科技股份有限公司 查重向量库更新、数据查重方法、装置、设备和介质
CN116610775A (zh) * 2023-07-20 2023-08-18 科大讯飞股份有限公司 人机交互方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112395385B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US9424246B2 (en) System and method for inputting text into electronic devices
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN110737768B (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110163181B (zh) 手语识别方法及装置
Xu et al. Exploiting shared information for multi-intent natural language sentence classification.
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
CN114330343A (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN113901836A (zh) 基于上下文语义的词义消歧方法、装置及相关设备
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN110059192A (zh) 基于五笔码的字符级文本分类方法
CN112417875A (zh) 配置信息的更新方法、装置、计算机设备及介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant