CN110888970B - 文本生成方法、装置、终端和存储介质 - Google Patents

文本生成方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN110888970B
CN110888970B CN201911204286.4A CN201911204286A CN110888970B CN 110888970 B CN110888970 B CN 110888970B CN 201911204286 A CN201911204286 A CN 201911204286A CN 110888970 B CN110888970 B CN 110888970B
Authority
CN
China
Prior art keywords
candidate
sentence
text
sentences
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911204286.4A
Other languages
English (en)
Other versions
CN110888970A (zh
Inventor
王子璇
闫桂霞
王晓利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911204286.4A priority Critical patent/CN110888970B/zh
Publication of CN110888970A publication Critical patent/CN110888970A/zh
Application granted granted Critical
Publication of CN110888970B publication Critical patent/CN110888970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本生成方法、装置、终端和存储介质;本发明实施例可以获取文本信息的候选句集合,候选句集合中包括多个候选句;对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;基于频繁项集在候选句组中确定代表句;生成目标文本,目标文本中包括代表句。本发明实施例可以利用文本信息确定中候选句的频繁项,并根据频繁项在聚类得到的候选句组中得确定该候选句组对应的代表句,从而生成目标文本。本方案实施例可以自动、高效地生成文本。由此,本方案实施例可以有效提升文本生成的效率。

Description

文本生成方法、装置、终端和存储介质
技术领域
本发明涉及计算机领域,具体涉及一种文本生成方法、装置、终端和存储介质。
背景技术
近年来,随着计算机发展,人工问答可以由机器替代。目前出现了各种问答系统,用于给用户提供技术指导、申报反馈、搜索查询等服务,替代了传统的人工客服。比如,语音助手、人工智能客服、各种软件应用的问答中心(Frequently Asked Questions,FAQ)功能,等等。
问答系统的表达效果以及问答性能与其FAQ语料库中语料的准确度、丰富度息息相关,然而,撰写语料文本需要消耗大量的人力以及时间,因此,目前用于交互式问答的文本生成方法效率低下。
发明内容
本发明实施例提供一种文本生成方法、装置、终端和存储介质,可以提升文本生成的效率。
本发明实施例提供一种文本生成方法,包括:
获取用户历史文本的候选句集合,所述候选句集合中包括多个候选句;
对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,所述频繁项集中包括多个频繁项;
基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到候选句组;
基于所述频繁项集在所述候选句组中确定代表句;
生成目标文本,所述目标文本中包括所述代表句。
本发明实施例还提供一种文本生成装置,包括:
获取单元,用于获取用户历史文本的候选句集合,所述候选句集合中包括多个候选句;
分析单元,用于对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,所述频繁项集中包括多个频繁项;
聚类单元,用于基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到多个候选句组;
确定单元,用于基于所述频繁项集在所述候选句组中确定代表句;
生成单元,用于生成目标文本,所述目标文本中包括所述代表句。
本发明实施例还提供一种终端,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种文本生成方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本生成方法中的步骤。
本发明实施例可以获取用户历史文本的候选句集合,候选句集合中包括多个候选句;对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;基于频繁项集在候选句组中确定代表句;生成目标文本,目标文本中包括代表句。
在本发明可以先挖掘多个候选句之间同时出现的字、词等频繁项,再根据这些频繁项来对候选句进行聚类分组,并在每个候选句组中确定该组的合适的代表句,从而得到包含该代表句的目标文本,该目标文本即可作为该组中所有句子的代表,故本方案无需对候选句进行人工筛选、分组,就可以自动、高效地生成文本,。
相比于传统的文本生成方法,本方案可以得到更准确的代表句,此外,本方案利用用户历史文本,可以生成与该用户历史文本所属专业领域相同的目标文本,对于不同专业领域的文本,本方法均具有通用性,故生成的目标文本可以满足用户需求。
由此,本方案实施例可以有效提升文本生成的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的文本生成方法的场景示意图;
图1b是本发明实施例提供的文本生成方法的第一种流程示意图;
图1c是本发明实施例提供的文本生成方法的频繁项关系树结构示意图;
图2是本发明实施例提供的文本生成方法的第二种流程示意图;
图3是本发明实施例提供的文本生成装置的第一种结构示意图;
图4是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本生成方法、装置、终端和存储介质。
其中,该文本生成装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该文本生成装置还可以集成在多个电子设备中,比如,文本生成装置可以集成在多个服务器中,由多个服务器来实现本发明的文本生成方法。
参考图1a,该电子设备可以获取用户历史文本的候选句集合,候选句集合中包括多个候选句;对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;基于频繁项集在候选句组中确定代表句;生成目标文本,目标文本中包括代表句。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本实施例中,提供了一种文本生成方法,如图1b所示,该文本生成方法的具体流程可以如下:
101、获取用户历史文本的候选句集合,候选句集合中包括多个候选句。
其中,候选句是指可以用于生成目标文本的句子,其中,句中可以包括文字、数字、符号、字符等文本内容。
该候选句为用户历史文本中的短句,该用户历史文本是用户在历史时间的用户文本信息,比如,用户的历史提问文本、历史反馈文本、历史咨询文本,等等。
获取历史用户文本的方式具有多种,比如,可以直接获取用户在历史时间在终端上输入的用户文本,也可以通过网络从数据库中获取,还可以在历史时间由其它媒体转换获得,等等。
比如,可以在历史时间获取用户的用户音频、视频、图片、动态图像等等不同类型的媒体数据,并将这些媒体数据转换为文本类型的用户文本。
例如,在一些实施例中,可以在历史时间获得目标用户的提问语音,并对该提问语音进行语音转换处理,得到该提问语音对应的历史用户文本。
例如,在一些实施例中,可以在历史时间获得目标用户的用户照片,并采用图像识别的方式提取该用户照片中的关键字信息,从而根据该关键字信息得到该提问语音对应的历史用户文本。
在一些实施例中,步骤101可以包括步骤101(1)、步骤101(2)以及步骤101(3),如下:
101(1)获取用户历史文本。
101(2)对用户历史文本进行关键词提取,得到述用户历史文本中的关键词。
其中,关键词是决定了用户历史文本内容的关键性词语。
在一些实施例中,为了细分关键词的类型,从而提高生成文本的丰富度以及准确性,关键词可以包括高频关键词、语义关键词,用户历史文本中可以包括多个字词,故步骤101(2)可以包括如下步骤:
a.获取预设的专业词集合,预设的专业词集合中包括多个专业词;
b.对用户历史文本中的字词进行关键词分析,得到用户历史文本中的高频关键词;
c.在用户历史文本中,基于高频关键词将与专业词语义相似的字词确定为语义关键词。
其中,字词包括文字和词语、成语、短语等等。
其中,专业词为某领域的专业业务词汇,比如,在电子游戏领域,专业词可以包括:五杀、超神、蹲人,等等;再比如,在金融领域,专业词可以包括:红利、汇率、涨幅,等等。
预设的专业词集合从本地内存中读取,也可以通过网络从数据库中获得,还可以有技术人员设定,等等。
其中,高频关键词是指经常出现在用户历史文本中、与专业词语义相似的字词;语义关键词指与某一专业词语义相似,但与其他专业词语义相差较大的字词。
除此之外,字词还可以包括疑问关键词,该疑问关键词为表达反问、问句、疑惑的字词,可从语言学书籍、文献、日常生活中常用的通用词汇,比如,疑问关键词可以包括:难道、怎么、如何,等等。
在一些实施例中,可以采用多种算法计算得到关键词,从而在这些关键词中确定高频关键词,使得生成的文本更加准确,步骤b具体可以包括如下步骤:
统计用户历史文本中字词的词频;
基于词频从用户历史文本的字词中确定第一高频关键词;
对用户历史文本中字词进行关系分析,得到字词之间的字词关系;
基于字词关系对用户历史文本中的字词进行排序处理,得到排序后的字词,并在排序后的字词中确定第二高频关键词;
基于第一高频关键词、第二高频关键词在用户历史文本中确定高频关键词。
其中,词频是指某个字词出现在文本中的频率;字词关系是指某一字词在目标字词的上下文位置上的关系。
其中,可以采用多种信息检索算法以及数据挖掘算法来从用户历史文本的字词中确定第一高频关键词,比如,可以采用无监督的TF-IDF(term frequency–inversedocument frequency)算法来挖掘用户历史文本中的第一高频关键词。
其中,可以采用多种关键词提取算法来对用户历史文本中字词进行关系分析,得到字词之间的字词关系,并基于字词关系对用户历史文本中的字词进行排序处理,得到排序后的字词,并在排序后的字词中确定第二高频关键词。
比如,可以采用TextRank算法来对用户历史文本中字词进行关系分析,得到字词之间的字词关系,并基于字词关系对用户历史文本中的字词进行排序处理,得到排序后的字词,并在排序后的字词中确定第二高频关键词。
在一些实施例中,为了使得语义关键词可以进一步表达意图,步骤c具体包括如下步骤:
在高频关键词中确定与专业词相似的相似高频关键词;
在相似高频关键词中确定与专业词不相似的差异关键词;
基于差异关键词和相似高频关键词,在用户历史文本的字词中确定语义关键词。
其中,可以根据词向量、词义、词位置等信息来判断高频关键词是否与专业词相似,以及判断相似高频关键词是否与专业词不相似。
比如,将用户历史文本中的高频关键词的集合记为M,将语义关键词记为P,将相似高频关键词的集合记为S,将差异关键词的集合记为T,将专业词的集合记为N。
其中,语义关键词P的定义如下:
P=S∩T
其中,M中有m个高频关键词,N中有n个专业词,则首先可以计算高频关键词和专业词之间的词向量相似度,记为cosMiNj,其中,i指M中第i个词,j指N中第j个词,参考表1,相似度矩阵表,如下:定义如下:
表1
根据cosMiNj对N中的专业词Nj进行排序,将其序号记为Oij
根据cosMiNj值最大的专业词Nj,计算Nj与M中每个高频关键词之间的向量相似度,并根据向量相似度排序后,取前x个向量相似度大的高频关键词作为相似高频关键词,统称为集合S。
然后,对于M中的每一个高频关键词,对其标注权重W(Mi),如下:
W(Mi)=var([sqrtOij,j∈[1,n]]),i∈[1,m]]
其中sqrt表示开方,var表示求列表的方差。
在本实施例中,可以根据权重W(Mi)进行排序,取前y个权重大的高频关键词作为集合T。
用户历史文本中的高频关键词与专业词集合中同时出现的高频关键词集合H定义如下:
H=M-P+N
101(3)基于关键词对用户历史文本进行文本拆分,得到候选句集合,候选句集合中包括多个候选句。
其中,可以通过对用户历史文本进行符号替换、繁简转换、同义词转换、标点符号分句、分词、去停用词等方法来进行文本拆分。
比如,在一些实施例中,为了使得生成的文本更加丰富、准确,关键词可以包括高频关键词、语义关键词、疑问关键词、其它关键词,步骤101(3)具体可以包括如下步骤:
对用户历史文本拆分组合处理,得到多个子文本;
统计子文本中关键词的个数;
当子文本中存在疑问关键词时,基于疑问关键词个数、高频关键词个数、语义关键词个数以及其它关键词个数计算子文本的关键词有效率;
当子文本中不存在疑问关键词时,基于高频关键词个数、语义关键词个数以及其它关键词个数计算子文本的关键词有效率;
根据关键词有效率从多个子文本中确定候选句。
其中,可以通过对用户历史文本进行符号替换、繁简转换、同义词转换、标点符号分句、分词、去停用词等方法来将用户历史文本拆分为多个子文本。
对于每个子文本,可以根据子文本中所出现的语义关键词集合P、相似高频关键词集合H,以及疑问关键词Q、其他关键词的个数来计算子文本的关键词有效率。
其中,疑问关键词集合Q中的疑问关键词是用于表达疑问、问句、反问等内容的通用词汇,疑问关键词集合可从语言学书籍、文献等文本中搜集获得,还可以由技术人员设置,还可以从数据库中获得,等等。
其中,关键词有效率W(s)定义如下:
其中,CP表示子文本中语义关键词集合P中语义关键词的数量,CH表示子文本中相似高频关键词集合中相似高频关键词的数量,C表示子文本中其他关键词的数量。
在本实施例中,可以将W(s)最高的子文本中确定候选句。
102、对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项。
其中,关联分析(Association analysis)又称关联挖掘,可以查找文本中字词之间的频繁模式、关联、相关性、因果结构,等信息。
文本中字词之间的关系可以由频繁项集的形式表示,其中,频繁项集中可以包括多个频繁项,频繁项集是指若干个项的集合,其支持度大于等于最小支持度的集合。其中,支持度是指某个字词集合在文本中出现的频率。
具体地,可以采用多种关联分析算法对候选句集合中的候选句进行关联分析,比如,采用FP-Growth算法(一种关联分析算法)对候选句集合中的候选句进行关联分析。
例如,在一些实施例中,候选句中可以包括多个字词,采用FPgrowth算法对候选句集合中的候选句进行关联分析,步骤102具体可以包括如下步骤:
基于候选句中的字词构建频繁项关系树,频繁项关系树中包括字词结点;
基于字词结点遍历繁项关系树,得到字词结点的频繁项子集;
根据字词结点的频繁项子集生成候选句的频繁项集。
其中,频繁项关系树(Frequent Pattern Tree)是一种特殊的前缀树,由频繁项头表和项前缀树构成,项前缀树包括多个字词结点。
例如,参考图1c,频繁项关系树可以将字词按照支持度排序,并把每个字词按降序依次插入到一棵以零值(NULL)为根结点的树中,同时在每个结点处记录该结点出现的支持度。
其中,频繁项关系树中每条路径代表一个项集,每个结点与频繁项头表的一个项头之间存在一条线索,每当基于字词结点遍历繁项关系树,得到字词结点的频繁项子集时,可以根据线索找到字词的所有结点,然后找出这些结点的分支,并记录结点的出现次数。
103、基于频繁项对候选句集合中的候选句进行聚类处理,得到多个候选句组。
其中,可以采用多种聚类(Cluster)算法来基于频繁项对候选句集合中的候选句进行聚类处理,比如,采用K均值(K-Means)聚类算法、均值漂移聚类算法、基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、凝聚层次聚类算法等等。
比如,在一些实施例中,可以进行凝聚层次聚类算法,其中,第一层是按照频繁项是否出现在候选句中,将候选句分配到不同的频繁项中形成小类的算法,第二层使用层次聚类,对第一层得到的小类进行二次优化的算法,由此,可以使得聚类效果更加合理,进一步提升了生成文本的准确度与丰富性。
故步骤103可以包括步骤103(1)、103(2)、103(3)以及103(4),如下:
103(1)计算候选句相对于频繁项集中所有频繁项的频繁程度。
其中,频繁程度与候选句中出现频繁项的次数、候选句的字词数量以及频繁项集中频繁项的个数有关,可以表示候选句中频繁项的占比。
比如,在一些实施例中,频繁项中可以包括至少一个子频繁项,候选句中可以包括多个字词,步骤103(1)包括如下步骤:
统计候选句中字词的个数、候选句中频繁项出现的次数,以及频繁项中子频繁项的个数;
根据字词的个数和频繁项出现的次数计算频繁项占比;
基于频繁项占比以及频繁项中子频繁项的个数计算频繁项的频繁程度。
其中,频繁程度公式如下:
FreqScore=len_freq_items+count(freq)/count(all_words)
其中,len_freq_items是频繁项中包含子频繁项的个数,count(freq)是频繁项在候选句中出现的次数,count(all_words)是候选句中字词的数量。
103(2)基于频繁程度在频繁项集中确定目标频繁项。
比如,将频繁程度最高的频繁项确定为目标频繁项。
103(3)基于目标频繁项对候选句进行初始分组处理,得到初始候选句组。
比如,将均对应同一个目标频繁项的候选句分为一组。
103(4)用于对初始候选句组中的候选句进行层次聚类处理,得到多候选句组。
比如,可以采用单次层次(asingle-linkage)聚类、完整层次(acomplete-linkage)聚类、平均层次(average-linkage)聚类等聚类法处理进行层次聚类处理,得到多候选句组。
比如,为了使得聚类结果更加聚拢、合理,在一些实施例中,采用平均连动聚类法进行第二层聚类,步骤103(4)可以包括如下步骤:
将初始候选句组中的每个候选句进行向量化处理,得到初始候选句组中每个候选句的句向量;
根据句向量计算初始候选句组之间的组平均聚类距离;
基于平均聚类距离将初始候选句组进行聚类融合,得到候选句组。
根据句向量计算初始候选句组之间的组平均聚类距离是从两个初始候选句组中各选一个初始候选句进行距离计算,根据两个初始候选句组中初始候选句之间的平均距离作为两个初始候选句组之间的平均聚类距离。
其中,距离可以为初始候选句之间的向量距离。
具体地,可以采用各种词向量转换算法计算初始候选句的向量,比如,采用词袋模型、向量空间模型、词嵌入模型等等计算初始候选句的向量。
在一些实施例中,还可以将候选句中字词的词频作为权值,计算初始候选句组之间的组平均聚类距离。
104、基于频繁项集在候选句组中确定代表句。
其中,代表句是指候选句组中最能表达出用户历史文本原意的句子,其中频繁项的出现率最高。
故在一些实施例中,步骤104具体可以包括如下步骤:
统计候选句组中候选句的个数,以及候选句中频繁项的出现率;
基于候选句组中候选句的个数以及出现率,在候选句组中确定代表句。
其中,出现率Wi定义如下:
Wi=count(G∩Si)/count(Si),Si∈S
其中,S为候选句组,G为候选句Si中出现的频繁项组。
105、生成目标文本,目标文本中包括代表句。
目标文本中可以包括代表句,此外,还可以包括频繁项等信息。
比如,目标文本中可以包括1个代表句:“抢不到摊位”,以及该代表句的频繁项集包括多个频繁项,分别为“不到”、“摊位||抢”、“摊位”、“开挂”。
在一些实施例中,为了提高该目标文本的适用性和概括性,候选句组中可以包括代表句和非代表句,步骤105具体包括如下步骤:
计算代表句和非代表句之间的语义距离;
基于语义距离在非代表句中确定候选非代表句;
对候选非代表句进行文法分析,得到候选非代表句中词句之间的文法依存关系;
基于依存关系在候选非代表句中确定与代表句文法相似的目标非代表句;
生成目标文本,目标文本包括代表句和目标非代表句。
其中,文法依存关系是表示文本的句法结构,以及字词关系,比如,文法依存关系可以包括主谓关系、动宾关系、间宾关系,等等。
比如,目标文本中可以包括1个代表句:“抢不到摊位”,以及该代表句的频繁项集包括多个频繁项,分别为“不到”、“摊位||抢”、“摊位”、“开挂”,以及目标非代表句“摊位无法抢到”、“摊位都抢不到”、“根本抢不到摊位”、“有人开挂抢摊位”。
由上可知,本发明实施例可以获取用户历史文本的候选句集合,候选句集合中包括多个候选句;对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;基于频繁项集在候选句组中确定代表句;生成目标文本,目标文本中包括代表句。本发明实施例可以利用用户历史文本确定中候选句的频繁项,并根据频繁项在聚类得到的候选句组中得确定该候选句组对应的代表句,从而生成目标文本。本方案实施例可以自动、高效地生成文本。由此,本方案实施例可以有效提升文本生成的效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以本方案具体应用于生成FAQ问题文本为例,对本发明实施例的方法进行详细说明。
参考图2,本方案实施例的具体流程如下:
201、历史FAQ反馈文本核心词提取:
在本实施例中,可以从数据库中获取历史时刻用户发送的历史FAQ反馈文本,并对该历史FAQ反馈文本进行关键词提取。
其中,关键词包括高频关键词、语义关键词。
具体步骤如下:
(1)、历史FAQ反馈文本中高频关键词提取:
在本实施例中,可以先采用无监督的TF-IDF算法对历史FAQ反馈文本进行关键词抽取,得到第一高频关键词;
采用TextRank算法对历史FAQ反馈文本进行关键词抽取,得到第二高频关键词;
取第一高频关键词和第二高频关键词的交集,得到历史FAQ反馈文本中的高频关键词集合M(其中包括m个高频关键词)。
(2)、语义关键词提取:
在本实施例中,可以先获取专业词集合N(其中包括n个专业词);
计算专业词与高频关键词之间的余弦相似度(m*n个余弦相似度),参考表1,将表1中所示的余弦相似度进行由大到小排序,并将排序序号标记为Oij;其中,i表示高频关键词集合M中第i个高频关键词Mi,j表示专业词集合N中第j个专业词Nj
然后,根据余弦相似度最大的专业和高频关键词集合M再次计算高频关键词Mi与其余弦值,根据余弦相似度,选取前n/2个高频关键词,记为相似高频关键词集合S;
然后,对于高频关键词集合M中的每一个高频关键词Mi,计算其权重W(Mi),公式如下:
W(Mi)=var([sqrt(Oij),j∈[1,n]]),i∈[1,m]
通过对各高频关键词Mi的序号标记Oij平方根计算差异度,按照差异度大小从高到低排序,取前一半高频关键词Mi作为差异关键词集合T;
然后,根据相似高频关键词集合S和差异关键词集合T可以求得语义关键词集合P,其定义为:
P=S∩T
然后,根据历史FAQ反馈文本中的高频关键词集合M、语义关键词集合P、专业词集合N可以得出历史FAQ反馈文本与专业词集合中同时出现的高频关键词集合H,其定义为:
H=M-P+N
此外,还可以通过网络从数据库中获得疑问关键词集合Q。
202、根据核心词对历史FAQ反馈文本进行预处理,得到候选句:
由于历史FAQ反馈文本的文本质量参差不齐,本实施例可以对历史FAQ反馈文本进行常规预处理,比如,符号替换、繁简转换等,从而得到较为标准的历史FAQ反馈文本。
然后,由于词语可以有多种表达方式,故本实施例可以进一步进行同义词转换,将表达同样含义的不同词汇进行归一化。
然后,以标点符号为分句规则对历史FAQ反馈文本进行分句,在经过分词和去除停用词后,得到多个子文本。
然后,在本实施例中,可以对各个子文本及其排列组合所得到的组合子文本分别进行打分,定义如下:
其中,CP表示子文本s中出现语义关键词集合P中语义关键词词的数量;CH表示子文本s中出现高频关键词集合H中高频关键词的数量;C表示子文本s中其他关键词的数量;Q表示疑问关键词。
最后,选择W(s)最高的子文本或组合子文本,并为其还原停用词,得到候选句。
203、提取候选句的频繁项:
在本实施例中,可以采用FP-Growth算法提取候选句的频繁项。
当候选句中的字词重复度较高,且字词数量较多的情况下,通过FP-Growth算法可以有效减低提取候选句的频繁项时递归结构造成计算资源消耗大、计算时间长等问题,从而提高文本生成效率,并且优化了文本生成的稳定性。
204、根据频繁项对候选句进行聚类,得到候选句组:
在本实施例中,可以根据目标频繁项进行初始分组处理,将对应相同的目标频繁项的候选句分为一组,形成初始候选句组。
首先,根据候选句中可能出现频繁项的频繁程度,在频繁项集中确定目标频繁项。
其中,频繁程度公式如下:
FreqScore=len_freq_items+count(freq)/count(all_words)
其中,len_freq_items是频繁项中包含子频繁项的个数,count(freq)是频繁项在候选句中出现的次数,count(all_words)是候选句中所有字词的数量。
然后,对初始候选句组进行二次聚类,从而优化聚类结果,使得聚类结果更为聚拢且合理。
具体地,可以采用层次聚类对初始候选句组进行二次聚类,比如使用平均联动(average linkage)层次聚类法。
其中,平均联动层次聚类过程中,可以对初始候选句组中的初始候选句进行向量化,在本实施例中,可以采用向量空间模型对初始候选句组中的初始候选句进行向量化,以及,采用词频作为向量化的权重,从而根据初始候选句组之间初始候选句向量的向量距离进行平均联动层次聚类。
205、在候选句组中选取代表句:
在平均联动层次聚类过程中,可以得到待筛选候选句组S及其对应的频繁项集G。
在本实施例中,可以选择待筛选候选句组S中所包括候选句数量大于20的前50个待筛选候选句作为候选句,得到候选句组。
然后,选择候选句组中出频繁项现率最高的候选句作为代表句。
其中,出现率Wi定义如下:
Wi=count(G∩Si)/count(Si),Si∈S。
206、为代表句扩充文法,得到非代表句,并根据代表句、代表句以及频繁项生成目标文本:
最后,可以根据候选句组中的非代表句与高频项进行计算排序。
具体地,可以使用WMD算法计算非代表句与代表句之间的语义距离,由低到高选择前50%的非代表句作为候选非代表句A。
然后,对候选非代表句A进行问法分析,统计候选非代表句A中各个词句之间依存关系,及其次数。
然后,根据依存关系,及其次数计算候选非代表句A和代表句之间的文法相似度,从低到高排序,记为集合B,
最后,取候选非代表句A与集合B的交集(A∩B)作为目标非代表句。
在本实施例中,目标文本中可以包括代表句、目标非代表句以及关键词。
比如,参考表2,目标文本如下:
表2
由上可知,本申请实施例可以对历史FAQ反馈文本进行核心词提取;根据核心词对历史FAQ反馈文本进行预处理,得到候选句;提取候选句的频繁项;根据频繁项对候选句进行聚类,得到候选句组;在候选句组中选取代表句;为代表句扩充文法,得到非代表句,并根据代表句、代表句以及频繁项生成目标文本。
本发明实施例可以利用用户历史文本确定中候选句的频繁项,并根据频繁项在聚类得到的候选句组中得确定该候选句组对应的代表句,从而生成目标文本。本方案实施例可以自动、高效地生成文本。
相比于传统的文本生成方法,本方案可以更稳定地扩充文法,得到丰富、准确的非代表句;此外,本方案根据历史FAQ反馈文本进行文本生成可以满足用户需求,具有跨领域的通用性,可以自动生成文本。由此,本方案实施例可以有效提升文本生成的效率。
为了更好地实施以上方法,本发明实施例还提供一种文本生成装置,该文本生成装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以文本生成装置具体集成在XX为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该文本生成装置可以包括获取单元301、分析单元302、聚类单元303、确定单元304以及生成单元305如下:
(一)获取单元301:
获取单元301可以用于获取用户历史文本的候选句集合,候选句集合中包括多个候选句。
在一些实施例中,获取单元301可以包括获取子单元、提取子单元以及拆分子单元,如下:
(1)获取子单元:
获取子单元可以用于获取用户历史文本。
(2)提取子单元:
提取子单元可以用于对用户历史文本进行关键词提取,得到述用户历史文本中的关键词。
(3)拆分子单元:
拆分子单元可以用于基于关键词对用户历史文本进行文本拆分,得到候选句集合,候选句集合中包括多个候选句。
在一些实施例中,关键词可以包括高频关键词、语义关键词、疑问关键词、其它关键词,拆分子单元具体可以用于:
对用户历史文本进行文本拆分,得到候选句集合,包括:
对用户历史文本拆分组合处理,得到多个子文本;
统计子文本中关键词的个数;
当子文本中存在疑问关键词时,基于疑问关键词个数、高频关键词个数、语义关键词个数以及其它关键词个数计算子文本的关键词有效率;
当子文本中不存在疑问关键词时,基于高频关键词个数、语义关键词个数以及其它关键词个数计算子文本的关键词有效率;
根据关键词有效率从多个子文本中确定候选句。
在一些实施例中,关键词可以包括高频关键词、语义关键词,用户历史文本中可以包括多个字词,提取子单元可以包括获取子模块、分析子模块以及确定子模块,如下:
a.获取子模块:
获取子模块可以用于获取预设的专业词集合,预设的专业词集合中包括多个专业词。
b.分析子模块:
分析子模块可以用于对用户历史文本中的字词进行关键词分析,得到用户历史文本中的高频关键词。
在一些实施例中,分析子模块具体可以用于:
统计用户历史文本中字词的词频;
基于词频从用户历史文本的字词中确定第一高频关键词;
对用户历史文本中字词进行关系分析,得到字词之间的字词关系;
基于字词关系对用户历史文本中的字词进行排序处理,得到排序后的字词,并在排序后的字词中确定第二高频关键词;
基于第一高频关键词、第二高频关键词在用户历史文本中确定高频关键词。
c.确定子模块:
确定子模块可以用于在用户历史文本中,基于高频关键词将与专业词语义相似的字词确定为语义关键词。
在一些实施例中,确定子模块具体可以用于:
在高频关键词中确定与专业词相似的相似高频关键词;
在相似高频关键词中确定与专业词不相似的差异关键词;
基于差异关键词和相似高频关键词,在用户历史文本的字词中确定语义关键词。
(二)分析单元302:
分析单元302可以用于对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项。
在一些实施例中,候选句中可以包括多个字词,分析单元302具体可以用于:
基于候选句中的字词构建频繁项关系树,频繁项关系树中包括字词结点;
基于字词结点遍历繁项关系树,得到字词结点的频繁项子集;
根据字词结点的频繁项子集生成候选句的频繁项集。
(三)聚类单元303:
聚类单元303可以用于基于频繁项对候选句集合中的候选句进行聚类处理,得到多个候选句组。
在一些实施例中,聚类单元303可以包括程度子单元、目标子单元、初始子单元以及聚类子单元,如下:
(1)程度子单元:
程度子单元可以用于计算候选句相对于频繁项集中所有频繁项的频繁程度。
在一些实施例中,频繁项中可以包括至少一个子频繁项,候选句中包括多个字词,程度子单元具体可以用于:
统计候选句中字词的个数、候选句中频繁项出现的次数,以及频繁项中子频繁项的个数;
根据字词的个数和频繁项出现的次数计算频繁项占比;
基于频繁项占比以及频繁项中子频繁项的个数计算频繁项的频繁程度。
(2)目标子单元:
目标子单元可以用于基于频繁程度在频繁项集中确定目标频繁项。
(3)初始子单元:
初始子单元可以用于基于目标频繁项对候选句进行初始分组处理,得到初始候选句组。
(4)聚类子单元:
聚类子单元可以用于对初始候选句组中的候选句进行层次聚类处理,得到多候选句组。
在一些实施例中,聚类子单元具体可以用于
将初始候选句组中的每个候选句进行向量化处理,得到初始候选句组中每个候选句的句向量;
根据句向量计算初始候选句组之间的组平均聚类距离;
基于平均聚类距离将初始候选句组进行聚类融合,得到候选句组。
(四)确定单元304:
确定单元304可以用于基于频繁项集在候选句组中确定代表句。
在一些实施例中,确定单元304具体可以用于:
统计候选句组中候选句的个数,以及候选句中频繁项的出现率;
基于候选句组中候选句的个数以及出现率,在候选句组中确定代表句。
(五)生成单元305:
生成单元305可以用于生成目标文本,目标文本中包括代表句。
在一些实施例中,候选句组中可以包括代表句和非代表句,生成单元305具体可以用于:
计算代表句和非代表句之间的语义距离;
基于语义距离在非代表句中确定候选非代表句;
对候选非代表句进行文法分析,得到候选非代表句中词句之间的文法依存关系;
基于依存关系在候选非代表句中确定与代表句文法相似的目标非代表句;
生成目标文本,目标文本包括代表句和目标非代表句。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的文本生成装置由获取单元获取用户历史文本的候选句集合,候选句集合中包括多个候选句;由分析单元对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;由聚类单元基于频繁项对候选句集合中的候选句进行聚类处理,得到多个候选句组;由确定单元基于频繁项集在候选句组中确定代表句;由生成单元生成目标文本,目标文本中包括代表句。由此,本方案实施例可以有效提升文本生成的效率。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该文本生成装置还可以集成在多个电子设备中,比如,文本生成装置可以集成在多个服务器中,由多个服务器来实现本发明的文本生成方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体检测。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取用户历史文本的候选句集合,候选句集合中包括多个候选句;
对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;
基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;
基于频繁项集在候选句组中确定代表句;
生成目标文本,目标文本中包括代表句。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本发明实施例可以获取用户历史文本的候选句集合,候选句集合中包括多个候选句;对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;基于频繁项集在候选句组中确定代表句;生成目标文本,目标文本中包括代表句。由此,本方案实施例可以有效提升文本生成的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本生成方法中的步骤。例如,该指令可以执行如下步骤:
获取用户历史文本的候选句集合,候选句集合中包括多个候选句;
对候选句集合中的候选句进行关联分析,得到候选句的频繁项集,频繁项集中包括多个频繁项;
基于频繁项对候选句集合中的候选句进行聚类处理,得到候选句组;
基于频繁项集在候选句组中确定代表句;
生成目标文本,目标文本中包括代表句。其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本生成方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种文本生成方法、装置、终端和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种文本生成方法,其特征在于,包括:
获取用户历史文本的候选句集合,所述候选句集合中包括多个候选句;
对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,所述频繁项集中包括多个频繁项;
基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到候选句组;
基于所述频繁项集在所述候选句组中确定代表句,所述候选句组中包括代表句和非代表句,所述代表句是指候选句组中最能表达出用户历史文本原意的句子,所述非代表句为所述代表句扩充文法所得到的句子;
计算所述代表句和所述非代表句之间的语义距离;
基于所述语义距离在非代表句中确定候选非代表句;
对所述候选非代表句进行文法分析,得到所述候选非代表句中词句之间的文法依存关系;
基于所述依存关系在所述候选非代表句中确定与所述代表句文法相似的目标非代表句;
生成目标文本,所述目标文本包括代表句和目标非代表句。
2.如权利要求1所述的文本生成方法,其特征在于,基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到候选句组,包括:
计算所述候选句相对于所述频繁项集中所有频繁项的频繁程度;
基于所述频繁程度在所述频繁项集中确定目标频繁项;
基于所述目标频繁项对所述候选句进行初始分组处理,得到初始候选句组;
对所述初始候选句组中的候选句进行层次聚类处理,得到多候选句组。
3.如权利要求2所述的文本生成方法,其特征在于,所述频繁项中包括至少一个子频繁项,所述候选句中包括多个字词,计算所述候选句相对于所述频繁项集中所有频繁项的频繁程度,包括:
统计所述候选句中字词的个数、所述候选句中所述频繁项出现的次数,以及所述频繁项中子频繁项的个数;
根据所述字词的个数和所述频繁项出现的次数计算频繁项占比;
基于所述频繁项占比以及所述频繁项中子频繁项的个数计算所述频繁项的频繁程度。
4.如权利要求2所述的文本生成方法,其特征在于,对所述初始候选句组中的候选句进行层次聚类处理,得到候选句组,包括:
将所述初始候选句组中的每个候选句进行向量化处理,得到初始候选句组中每个候选句的句向量;
根据所述句向量计算初始候选句组之间的组平均聚类距离;
基于所述平均聚类距离将所述初始候选句组进行聚类融合,得到候选句组。
5.如权利要求1所述的文本生成方法,其特征在于,所述获取用户历史文本的候选句集合,包括:
获取用户历史文本;
对所述用户历史文本进行关键词提取,得到述用户历史文本中的关键词;
基于所述关键词对所述用户历史文本进行文本拆分,得到候选句集合,所述候选句集合中包括多个候选句。
6.如权利要求5所述的文本生成方法,其特征在于,所述关键词包括高频关键词、语义关键词、疑问关键词、其它关键词,基于所述关键词对所述用户历史文本进行文本拆分,得到候选句集合,包括:
对所述用户历史文本拆分组合处理,得到多个子文本;
统计所述子文本中关键词的个数;
当所述子文本中存在所述疑问关键词时,基于所述疑问关键词个数、高频关键词个数、语义关键词个数以及其它关键词个数计算所述子文本的关键词有效率;
当所述子文本中不存在所述疑问关键词时,基于所述高频关键词个数、语义关键词个数以及其它关键词个数计算所述子文本的关键词有效率;
根据所述关键词有效率从多个子文本中确定候选句。
7.如权利要求5所述的文本生成方法,其特征在于,所述关键词包括高频关键词和语义关键词,所述用户历史文本中包括多个字词,对所述用户历史文本进行关键词提取,得到述用户历史文本中的关键词,包括:
获取预设的专业词集合,所述预设的专业词集合中包括多个专业词;
对所述用户历史文本中的字词进行关键词分析,得到所述用户历史文本中的高频关键词;
在所述用户历史文本中,基于所述高频关键词将与所述专业词语义相似的字词确定为语义关键词。
8.如权利要求7所述的文本生成方法,其特征在于,对所述用户历史文本中的字词进行关键词分析,得到所述用户历史文本中的高频关键词,包括:
统计所述用户历史文本中字词的词频;
基于所述词频从所述用户历史文本的字词中确定第一高频关键词;
对所述用户历史文本中字词进行关系分析,得到所述字词之间的字词关系;
基于所述字词关系对所述用户历史文本中的字词进行排序处理,得到排序后的字词,并在所述排序后的字词中确定第二高频关键词;
基于所述第一高频关键词、第二高频关键词在所述用户历史文本中确定高频关键词。
9.如权利要求7所述的文本生成方法,其特征在于,在所述用户历史文本中,基于所述高频关键词将与所述专业词语义相似的字词确定为语义关键词,包括:
在所述高频关键词中确定与所述专业词相似的相似高频关键词;
在所述相似高频关键词中确定与所述专业词不相似的差异关键词;
基于所述差异关键词和相似高频关键词,在所述用户历史文本的字词中确定语义关键词。
10.如权利要求1所述的文本生成方法,其特征在于,基于所述频繁项集在所述候选句组中确定代表句,包括:
统计所述候选句组中候选句的个数,以及所述候选句中频繁项的出现率;
基于所述候选句组中候选句的个数以及所述出现率,在所述候选句组中确定代表句。
11.如权利要求1所述的文本生成方法,其特征在于,所述候选句中包括多个字词,对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,包括:
基于所述候选句中的字词构建频繁项关系树,所述频繁项关系树中包括字词结点;
基于所述字词结点遍历所述繁项关系树,得到所述字词结点的频繁项子集;
根据所述字词结点的频繁项子集生成所述候选句的频繁项集。
12.一种文本生成装置,其特征在于,包括:
获取单元,用于获取用户历史文本的候选句集合,所述候选句集合中包括多个候选句;
分析单元,用于对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,所述频繁项集中包括多个频繁项;
聚类单元,用于基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到多个候选句组;
确定单元,用于基于所述频繁项集在所述候选句组中确定代表句,所述候选句组中包括代表句和非代表句,所述代表句是指候选句组中最能表达出用户历史文本原意的句子,所述非代表句为所述代表句扩充文法所得到的句子;
生成单元,用于计算所述代表句和所述非代表句之间的语义距离;基于所述语义距离在非代表句中确定候选非代表句;对所述候选非代表句进行文法分析,得到所述候选非代表句中词句之间的文法依存关系;基于所述依存关系在所述候选非代表句中确定与所述代表句文法相似的目标非代表句;生成目标文本,所述目标文本包括代表句和目标非代表句。
13.一种终端,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的文本生成方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~11任一项所述的文本生成方法中的步骤。
CN201911204286.4A 2019-11-29 2019-11-29 文本生成方法、装置、终端和存储介质 Active CN110888970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911204286.4A CN110888970B (zh) 2019-11-29 2019-11-29 文本生成方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911204286.4A CN110888970B (zh) 2019-11-29 2019-11-29 文本生成方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN110888970A CN110888970A (zh) 2020-03-17
CN110888970B true CN110888970B (zh) 2023-10-03

Family

ID=69749594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911204286.4A Active CN110888970B (zh) 2019-11-29 2019-11-29 文本生成方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN110888970B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446213B (zh) * 2020-11-26 2022-10-14 电子科技大学 一种文本语料扩充方法
CN112989205A (zh) * 2021-04-14 2021-06-18 北京有竹居网络技术有限公司 媒体文案推荐方法、装置、介质及电子设备
CN112860906B (zh) * 2021-04-23 2021-07-16 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统
CN114048300A (zh) * 2021-11-23 2022-02-15 融安云网(北京)技术有限公司 一种基于人工智能的行业解决方案生成方法、系统及设备
US12111837B1 (en) 2023-04-25 2024-10-08 Microsoft Technology Licensing, Llc Dense retrieval employing progressive distillation training

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G.Suresh Reddy 等.《A Frequent Term BasedText Clustering Approach Using Novel Similarity Measure》.《2014 IEEE International Advance Computing Conference (IACC)》.2014,全文. *
易小凯.《问答系统中特征提取方法研究》.《电脑知识与技术》.2018,全文. *

Also Published As

Publication number Publication date
CN110888970A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
Giachanou et al. Like it or not: A survey of twitter sentiment analysis methods
Irfan et al. A survey on text mining in social networks
Toba et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers
Pandarachalil et al. Twitter sentiment analysis for large-scale data: an unsupervised approach
Aggarwal et al. An introduction to text mining
Stojanovski et al. Deep neural network architecture for sentiment analysis and emotion identification of Twitter messages
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
US11875585B2 (en) Semantic cluster formation in deep learning intelligent assistants
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
Terragni et al. Word embedding-based topic similarity measures
Winters et al. Automatic joke generation: Learning humor from examples
Wiegand et al. Non-syntactic word prediction for AAC
Singh et al. Word sense disambiguation for Punjabi language using deep learning techniques
Barla et al. From ambiguous words to key-concept extraction
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
Budikova et al. ConceptRank for search-based image annotation
Kaur et al. Semantic-based integrated plagiarism detection approach for english documents
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Zhang et al. Improving entity linking in Chinese domain by sense embedding based on graph clustering
Jain et al. An evolutionary game theory based approach for query expansion
Abd Allah et al. Contribution to the methods of indexing Arabic textual documents to improve the performance of IRS
Papagiannopoulou et al. Keywords lie far from the mean of all words in local vector space
Carvalho et al. Lexical to discourse-level corpus modeling for legal question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022589

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant