CN113886553A - 一种文本生成方法、装置、设备以及存储介质 - Google Patents
一种文本生成方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113886553A CN113886553A CN202111272247.5A CN202111272247A CN113886553A CN 113886553 A CN113886553 A CN 113886553A CN 202111272247 A CN202111272247 A CN 202111272247A CN 113886553 A CN113886553 A CN 113886553A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- representative
- questions
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000463 material Substances 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 42
- 238000013145 classification model Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种文本生成方法、装置、设备以及存储介质,涉及数据处理领域,尤其涉及信息检索、智能搜索、大数据等领域。具体实现方案为:获取原始物料,原始物料包括至少一个问答对和商品详情信息;提取至少一个问答对中的问题;对至少一个问答对中的问题进行聚类,得到至少一个代表问题;针对每个代表问题,基于商品详情信息,提取回答代表问题的答案,并将代表问题与答案组成问答类文本。本公开实现生成问答类文本,能够自动为用户提出的问题作出解答,满足用户需求,能够节省人力资源。
Description
技术领域
本公开涉及数据处理领域,尤其涉及信息检索、智能搜索、大数据等领域。
背景技术
文本生成技术是一种利用机器学习或深度学习等理论,从文本语料数据中提取特定有价值信息的一种先进技术。该技术可以极大的节省人力,代替人工从海量文本数据中抽取高价值内容,例如,问答类文本生成等等。
发明内容
本公开提供了一种文本生成方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种文本生成方法,包括:
获取原始物料,所述原始物料包括至少一个问答对和商品详情信息;
提取所述至少一个问答对中的问题;
对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题;
针对每个代表问题,基于所述商品详情信息,提取回答所述代表问题的答案,并将所述代表问题与所述答案组成问答类文本。
根据本公开的第二方面,提供了一种文本生成装置,包括:
获取模块,用于获取原始物料,所述原始物料包括至少一个问答对和商品详情信息;
第一提取模块,用于提取所述至少一个问答对中的问题;
聚类模块,用于对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题;
第二提取模块,用于针对每个代表问题,基于所述商品详情信息,提取回答所述代表问题的答案;
组成模块,用于将所述代表问题与所述答案组成问答类文本。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述的方法。
本公开实现生成问答类文本,基于该问答类文本能够自动为用户提出的问题作出解答,满足用户需求。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的文本生成方法的流程图;
图2是根据本公开实施例的对至少一个问答对中的问题进行聚类,得到至少一个代表问题的流程图;
图3是根据本公开实施例的通过聚类得到代表问题的示意图;
图4是根据本公开实施例的基于所述商品详情信息,提取回答所述代表问题的答案的流程图;
图5是根据本公开实施例的文本生成流程示意图;
图6是根据本公开实施例的文本生成装置的一种结构示意图;
图7是根据本公开实施例的文本生成装置的另一种结构示意图;
图8是用来实现本公开实施例的文本生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关的文本生成主要有以下几种方法:(1)基于模版的方法,通过人工的方式设定一些文本模版,模版中的空白部分需要根据实际信息进行填充。(2)基于文本摘要的方法,利用深度网络结构训练一个模型,可以从文本语料中提取关键信息,生成答案文本。(3)基于知识图谱的方法,基于目前行业中广泛应用的知识类信息提取技术,从文本语料中挖掘商品知识信息,绘制一个商品知识图谱,最终实现答案的生成。
针对基于模板的方法,需要人为设置一些固定不变的答案模版,不同类型的问题对应不同的模版,生成答案时只需要填写模版中空白的位置。针对基于模板的方法应用场景只能用在简单类型的问答文本生成的场景中,例如天气类问答等,应用范围比较有限,很难应用到toB电商复杂场景中问答文本生成中。
针对基于文本摘要的方法,利用深度网络训练一个自然语言处理模型,然后通过模型从原始语料中提取答案文本。这种方式虽然不依赖模版,有很大的自主性,但是从原始语料中提取的摘要可能缺乏针对性,不能很好的回答某个一个问题,很多情况下挖掘的文本和问题之间相关性较差,都是答非所问。
针对基于知识图谱的方法,首先从原始语料中挖掘出知识信息,构建一个知识图谱,然后借助这个图谱生成答案文本。知识图谱构建过程比较复杂,一般针对比较简单的场景可以从原始语料中提取关键信息,通用性强而且针对性好。但是对于较为复杂的问题,难以聚合多个知识点进行回答。即不适合toB电商场景等复杂场景。
在当今互联网信息检索中,问答类文本的应用场景非常广泛。例如,在toB电商场景中,用户为了详细了解产品,一般会提出大量的问题,其中,toB表示在企业业务中,以企业作为服务主体为企业客户提供平台、产品或服务并赚取利润的业务模式,也可以把它称之为企业服务。挖掘问题并有针对地生成问题对应的答案,是问答类文本生成过程中的重点及难点内容。
本公开实施例经中分析发现,在toB电商场景中,用户的问题具有同质性,是指不同用户提出的问题大同小异,区别只是一些形容词或副词有些差别,例如挖掘机多少钱和挖掘机的价格是多少。且这些问题的答案一般都包含在商品详情信息中。可以借助文本生成技术依靠产品详情等语料数据,为用户提出的问题生产答案。基于此,本公开实施例中利用商品详情信息和历史问答对组成的原始语料,挖掘用户问题,并从商品详情信息中提取问题的答案,以生成问答对文本。
下面对本公开实施例提供的文本生成方法进行详细说明。
本公开实施例提供的文本生成方法可以应用于电子设备,具体地,电子设备可以包括服务器、终端,等等。
本公开实施例提供的文本生成方法,可以包括:
获取原始物料,原始物料包括至少一个问答对和商品详情信息;
提取至少一个问答对中的问题;
对至少一个问答对中的问题进行聚类,得到至少一个代表问题;
针对每个代表问题,基于商品详情信息,提取回答代表问题的答案,并将代表问题与答案组成问答类文本。
本公开实施例,根据包括多个问答对以及商品详情信息的原始语料,生成问答类文本。如此,当用户提出问题时,可以依据该问答类文本中为用户提出问题找到对应的答案,即能够自动为用户提出的问题作出解答,满足用户需求,进而,能够节省人力资源,提升用户体验。
图1是本公开实施例提供的文本生成方法的流程图。参见图1,对本公开实施例提供的文本生成方法进行详细说明。
S101,获取原始物料。
原始物料包括至少一个问答对和商品详情信息。
至少一个问答对可以包括用户提出的问题以及针对该问题的答案组成的问答对,其中,用户提出的问题可以包括历史查询过程中用户提出的问题。例如,toB电商场景下的积累的问答数据,包括用户提出的问题以及商家客服的回答。问题对中一个问题可能对应有多个答案,每个答案涵盖的内容会有所差别。或者,一个问题对应一个答案。
商品详情信息表示与商品相关的信息,可以包括商品的详情页所包括的内容,例如,商品的价格、尺寸、款式介绍,等等。
一种可实现方式中,在获取原始物料之后,可以对原始物料进行预处理。其中,预处理过程可以理解为规范原始语料的过程,可以包括剔除原始物料的文本中的空白字符和不合法字符、纠正错误字符,等等。
S102,提取至少一个问答对中的问题。
从问答对中提取问题,例如,从toB电商场景下积累的问答数据中提取问题,这些问题均是用户实际提出的问题,如此,这些问题可以准确地反映用户在toB电商场景下的实际需求,有助于电商系统去理解用户,抓住用户,提高用户活跃度和留存率。
S103,对至少一个问答对中的问题进行聚类,得到至少一个代表问题。
不同用户提出的问题具有同质性,简单理解,不同用户提出的问题实质是相同的,例如,一用户提出的问题是:“这件衣服多少钱”,另一用户提出的问题是:“这件衣服价格是多少”,则可以将实质相同的这些问题看作是同一类问题,也可以理解为一个代表问题。
一种可实现方式中,可以对提取出的问题进行分类,例如,“挖掘机多少钱”属于价格类问题、“挖掘机怎么修”属于维修类问题。具体地,可以预先抽取样本数据进行人工标注,即标注问答对中各个问题对应的类别,利用标注后的样本数据训练得到用于确定问题对应的问题类别的文本分类模型,例如,用于文本分类的卷积神经网络(ConvolutionalNeural Networks for Sentence Classification,TextCNN),然后,利用训练好的该TextCNN确定各个问题对应的问题类别。如果问题的种类比较多,少量标注样本难以覆盖种类比较多的问题。但如果标注过多样本,又会耗费较多的人力资源。这种方式适用于问题种类比较少的场景。
另一种可实现方式中,针对比较复杂的场景,例如,toB电商场景,可以通过聚类的方式自动挖掘问题。如图2所示,S103可以包括:
S201,分别为每一个问题确定语义向量。
可以利用语义向量模型,例如word2vec模型为每个问题计算一个语义级别的向量,即语义向量。
这个步骤的目的是将语义相关的内容放到一个相近的数值空间中,例如价格与多少钱在语义上是相关的,那么它们的语义向量之间的距离就会很近,这是后续聚类操作的基础。
S202,依据各个问题的语义向量的距离,对至少一个问答对中的问题进行聚类,得到至少一个代表问题。
可以计算各个问题的语义向量之间的距离,如果语义向量之间的距离小于预设距离阈值,则可以将该语义向量对应的问题聚类成一个代表问题。
或者,可以使用聚类算法进行自适应聚类,例如,使用基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)对多个问题进行聚类。顾名思义,DBSCAN算法会将某个中心点附近一段距离类密度较高的簇作为同一类,中心点的选择是随机的,因而它不需要提前指定类的数目,符合问题种类比较多的场景,例如toB电商场景。本公开实施例中利用DBSCAN随机选择多个语义向量,针对各个语义向量,将与该语义向量的距离在预设距离阈值内的作为一簇,得到一个代表问题。如此,可以聚类得到至少一个代表问题。
如图3所示一个例子中,问题对中包括用户提出的问题A、用户提出的问题B和用户提出的问题C,分别将问题A、问题B和问题C输入向量模型,对问题A、问题B和问题C进行向量化,得到问题A的语义向量,问题B的语义向量和问题C的语义向量,然后,通过聚类模块,基于问题A的语义向量,问题B的语义向量和问题C的语义向量,对问题A、问题B和问题C进行聚类得到问题A和问题B,问题A和问题B即为聚类得到的代表问题。
利用word2vec计算出问题文本的语义向量,然后,利用DBSCAN算法将问题语义向量聚类成多个同质问题,即聚类得到至少一个代表问题。
本公开实施例中,通过语义向量模型计算出各个问题的向量表示,再经过聚类算法迭代,将相近的问题聚合到一起,最终提炼出典型问题若干个,也即提取出至少一个代表问题。这种方式中不需要进行标注,通过聚类自动挖掘出至少一个代表问题,能够适用于问题种类比较多的场景,且无需占用过多的人力资源。
S104,针对每个代表问题,基于商品详情信息,提取回答代表问题的答案,并将代表问题与答案组成问答类文本。
商品详情信息包括与商品相关的信息,一般情况下,在电商场景下,用户提出的问题都是关于商品的,可以理解,用户提出的问题的答案一般都包含在商品详情信息中。基于此,本公开实施例中从商品详情信息中为各个代表问题提取对应的答案。
一种可选的实施例中,S104中针对每个代表问题,基于商品详情信息,提取回答代表问题的答案,如图4所示,可以包括:
S401,将商品详情信息拆分为多个段落。
商品详情信息可以包括商品详情文本,可以将商品详情文本拆分成不同段落。段落可长可短,一种情况下,一个段落至少包含一个句子。
S402,针对每一段落,依据段落分别与各个代表问题的关联程度,将与段落关联程度最高的代表问题作为段落回答的代表问题。
段落与代表问题的关联程度也可以理解为段落属于该代表问题的相关程度。
一种可实现方式中,可以将段落输入文本分类模型,通过文本分类模型输出与段落关联程度最高的代表问题,并将文本分类模型输出的代表问题作为段落回答的代表问题。
例如,用于确定段落对应的代表问题的文本分类模型可以是TextCNN文本分类模型,该TextCNN文本分类模型将段落转换为语义向量,然后提取段落的语义向量的关键特征,最终进行文本分类判别,即确定段落对应的代表问题。
具体地,可以分别将每个段落加载到该文本分类模型中,针对每一段落,该文本分类模型生成一组分数,这组分数中每个分数表示该段落与一代表问题的关联程度,分数越高,则表示该段落与该代表问题的关联程度越高,分数越高,代表和某个类别越相关。该文本分类模型从这组分数中选择最高的一个,输出该最高的分数对应的代表问题。也可以理解为,该文本分类模型从分数中选择最高的一个,即相关程度最高的一个,作为这个段落对应的类别,也就是这个段落所对应回答的问题。
其中,如果有的段落的类别不明确,则过滤掉该段落,因为实际商品详情中有的段落是冗余的。例如,在选择出段落与各个代表问题的分数中最高的分数后,将该分数与一预设分数进行比较,如果该分数小于该预设分数,则该文本分类模型输出“段落不存在对应的代表问题”,此时,将该段落过滤,即后续计算过程中不再使用该段落,其中,预设分数根据实际需求确定。
最终在预设分数之上的每个段落都会找到最匹配的代表问题。其中,每个段落可以确定出唯一一个代表问题。例如,段落1对应代表问题1,段落2对应代表问题2,段落3对应代表问题1,段落4对应代表问题3,等等。
采用该实施例,可以预先训练得到文本分类模型,该文本分类模型的输入是一文本,输出则是该文本对应的代表问题,如此,利用预先训练的文本分类模型可以更方便地确定各个段落对应的代表问题。
训练得到该文本分类模型可以通过如下步骤实现:
针对各个问答对,标注样本问答对中的答案文本以及答案文本对应的代表问题标注信息;标注样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息;利用多个答案文本以及以及各个答案文本对应的代表问题标注信息,训练得到文本分类模型,多个答案文本包括样本问答对中的答案文本和样本商品详情信息中的答案文本。
样本问答对中的答案文本以及答案文本对应的代表问题标注信息,以及样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息即训练文本分类模型的样本数据。可以将一答案文本和对应的代表问题标注信息作为一个样本对进行训练。
可以获取一初始模型,针对一样本对,将样本对中的答案文本输入该初始模型,调整初始模型的参数,使得初始模型的输出、与该样本对中代表问题标注信息对应的代表问题的差异小于预设值,预设值可以根据实际需求来确定,例如,预设值可以为0.1、0.01等等,对一样本对执行一次上述过程称之为一次迭代,对多个样本对分别执行上述步骤,直至满足迭代结束条件,例如,迭代次数达到预设迭代次数,或者模型的精度达到预设精度,此时训练完成,得到训练好的文本分类模型,其中,预设精度表示模型的输出与代表问题标注信息对应的代表问题的差异,可以根据实际需求来确定。
其中,样本问答对可以包括上述原始语料中的问答对,也可以包括其他场景下获取的问答对,例如,针对另外的商品的问答对,另外的商品不同于上述原始语料中问答对所针对的商品。同理,样本商品详情信息可以包括上述原始语料中的商品详情信息,也可以包括其他场景下获取的商品详情信息,例如,针对另外的商品的商品详情信息。
本公开实施例中,样本问答对和样本商品详情信息来源于多个场景下的实际数据,确定段落对应的代表问题的文本分类模型是利用多个样本问答对和样本商品详情信息训练得到的,能够更加准确地反映段落与代表问题的对应关系,使得确定的代表问题与段落更匹配,为段落确定出更加准确地代表问题。
S403,响应于多个段落回答的代表问题相同,对回答的代表问题相同的多个段落进行整合,得到回答的代表问题相同的多个段落、所回答的代表问题的答案。
每个代表问题可以对应多个段落,即多个段落对应的代表问题有可能是相同的。本公开实施例中为一个代表问题提取一个答案,这种情况下,即需要对回答的代表问题相同的多个段落进行整合。例如,段落1对应代表问题1,段落3对应代表问题1,也可以对段落1和段落3进行整合,得到代表问题1对应的答案。
当回答的代表问题相同的多个段落不存在冗余,且该多个段落直接拼语句通顺,则可以直接将回答的代表问题相同的多个段落进行拼接,得到个回答该代表问题的答案。
但是,一般情况下,回答的代表问题相同的多个段落有可能存在冗余,另外,直接将该多个段落进行简单拼接也可能会造成语义上会不通顺,需要调整顺序。
可以预先训练一个文本摘要抽取模型,该文本摘要抽取模型可以基于自然语言处理框架实现,将回答的代表问题相同的多个段落输入该文本摘要抽取模型,该文本摘要抽取模型提取该多个段落的核心内容,也可以理解为去除冗余信息,同时,还可以进行语义顺序和语法的调整,得到精炼的、满足语法及语义顺序的答案,完成了对答案的完善。
通过将回答的代表问题相同的多个段落进行整合,以得到语句表达精练、通顺、满足语法要求的答案,提高答案文本的质量。
本公开实施例中,综合考虑问答对以及商家商品详情信息组成的语料库,生成问答对文本。对语料库中的问题生成语义向量,对多个问题的语义向量进行聚类,得到至少一个代表问题,也可以理解为聚类得到多个问题类别;利用语料库训练得到文本分类模型,将商品详情信息划分为多个段落,分别将每一段落输入该文本分类模型,得到该段落对应的代表问题,对代表问题的答案文本进行优化调整后,将调整后的答案文本作为代表问题的答案,完成问答类文本的生成过程。如此,依据该问答类文本可以自动为用户提出的问题作出解答,满足用户需求,节省了大量人力资源。
同时,综合考虑问答对以及商家商品详情信息组成的语料库,商品详情信息包含用户所提出问题的答案,从商品详情信息中提取问题的答案,可以提高生成的问题和答案的精准度,另外,生成答案的过程中考虑了商品详情信息中的所有内容,也即拆分得到的各个段落,如此,在为用户提供答案过程中可以尽量保留完整的信息提供给用户,在解答用户问题的过程中,可以为用户提高更加准确及完整答案,提高用户体验等。
一个具体的实施例中,如图5所示,本公开实施例提供的文本生成方法包括四个阶段:(1)预处理;(2)问题挖掘;(3)答案生成;(4)答案整合。
预处理阶段可以理解为规范原始语料的过程,具体可以包括过滤非法字符、纠正错误字符,等等。
问题挖掘阶段主要包括向量模型、相似聚类和结果产出。
向量模型过程可以包括:利用语义向量模型,例如word2vec模型为每个问题计算一个语义级别的向量,即语义向量。
相似聚类过程包括依据各个问题的语义向量的距离,对问题进行聚类,得到至少一个代表问题。例如,利用DBSCAN随机选择多个语义向量,针对各个语义向量,将与该语义向量的距离在预设距离阈值内的作为一簇,得到一个代表问题。简单理解,具有相似性的多个问题聚类为一代表问题。
结果产出即聚类得到至少一个代表问题,也可以理解为同质类问题。
答案生成阶段主要包括拆分文本、模型训练和答案汇总。
拆分文本包括将商品详细信息拆分为多个段落。
答案生成阶段的模型训练包括利用样本问答对中的答案文本以及答案文本对应的代表问题标注信息,以及样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息训练得到文本分类模型,该文本分类模型的输入是一文本,输出是该文本对应的代表问题。
答案汇总可以理解为回答相同问题的段落进行汇总。
答案整合阶段主要包括模型训练和信息提取。
答案整合阶段训练得到文本摘要抽取模型,该文本摘要抽取模型可以基于自然语言处理框架实现,将回答的代表问题相同的多个段落输入该文本摘要抽取模型,该文本摘要抽取模型提取该多个段落的核心内容,也可以理解为去除冗余信息,同时,还可以进行语义顺序和语法的调整,得到精炼的、满足语法及语义顺序的答案,即实现信息提取。
生成的该问答类文本可以应用于toB电商场景。在生成问答类文本之后,获取到用户提出的问题;确定用户提出的问题属于哪一个代表问题;从生成的问答类文本中获取该代表问题对应的答案,将该答案反馈至用户。如此,可以自动地为用户反馈其所提出问题对应的答案,满足用户需求。
本公开实施例中通过聚类挖掘出同质类问题,即得到至少一个代表问题。且从商品详情信息为各个代表问题提取答案,因为商品详情信息包含商品相关的信息,而用户提出的问题一般也是针对商品的,可以理解,商品详情信息为生成问题对应的答案提供了较为准确的模板,从商品详情信息中提取答案,如此,可以为代表问题提取到更加准确地答案,基于代表问题以及答案得到的问答类文本比较适合于电商场景,可以满足电商场景下用户的咨询,可以准确、快速地为用户提出的问题查找到对应的答案,且极大的降低人力支出,减少客服的沟通成本,提升产品体验。
本公开实施例还提供了一种文本生成装置,如图6所示,包括:
获取模块601,用于获取原始物料,原始物料包括至少一个问答对和商品详情信息;
第一提取模块602,用于提取至少一个问答对中的问题;
聚类模块603,用于对至少一个问答对中的问题进行聚类,得到至少一个代表问题;
第二提取模块604,用于针对每个代表问题,基于商品详情信息,提取回答代表问题的答案;
组成模块605,用于将代表问题与答案组成问答类文本。
可选的,聚类模块603,具体用于分别为每一个问题确定语义向量;依据各个问题的语义向量的距离,对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题。
可选的,第二提取模块604,具体用于将商品详情信息拆分为多个段落;针对每一段落,依据段落分别与各个代表问题的关联程度,将与段落关联程度最高的代表问题作为段落回答的代表问题;响应于多个段落回答的代表问题相同,对回答的代表问题相同的多个段落进行整合,得到回答的代表问题相同的多个段落、所回答的代表问题的答案。
可选的,第二提取模块604,具体用于将段落输入文本分类模型,通过文本分类模型输出与段落关联程度最高的代表问题,并将文本分类模型输出的代表问题作为段落回答的代表问题。
可选的,如图7所示,装置还包括:
标注模块701,用于针对各个问答对,标注样本问答对中的答案文本以及答案文本对应的代表问题标注信息;标注样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息;
训练模块702,用于利用多个答案文本以及以及各个答案文本对应的代表问题标注信息,训练得到文本分类模型,多个答案文本包括样本问答对中的答案文本和样本商品详情信息中的答案文本。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如文本生成方法。例如,在一些实施例中,文本生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文本生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种文本生成方法,包括:
获取原始物料,所述原始物料包括至少一个问答对和商品详情信息;
提取所述至少一个问答对中的问题;
对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题;
针对每个代表问题,基于所述商品详情信息,提取回答所述代表问题的答案,并将所述代表问题与所述答案组成问答类文本。
2.根据权利要求1所述的方法,其中,所述对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题,包括:
分别为每一个问题确定语义向量;
依据各个问题的语义向量的距离,对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题。
3.根据权利要求1所述的方法,其中,所述针对每个代表问题,基于所述商品详情信息,提取回答所述代表问题的答案,包括:
将所述商品详情信息拆分为多个段落;
针对每一段落,依据所述段落分别与各个代表问题的关联程度,将与所述段落关联程度最高的代表问题作为所述段落回答的代表问题;
响应于多个段落回答的代表问题相同,对回答的代表问题相同的多个段落进行整合,得到回答的代表问题相同的多个段落、所回答的代表问题的答案。
4.根据权利要求3所述的方法,其中,所述针对每一段落,依据所述段落分别与各个代表问题的关联程度,将与所述段落关联程度最高的代表问题作为所述段落回答的代表问题,包括:
将所述段落输入文本分类模型,通过所述文本分类模型输出与所述段落关联程度最高的代表问题,并将所述文本分类模型输出的代表问题作为所述段落回答的代表问题。
5.根据权利要求1至4任一项所述的方法,所述方法还包括:
针对各个问答对,标注样本问答对中的答案文本以及所述答案文本对应的代表问题标注信息;
标注样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息;
利用所述多个答案文本以及以及各个答案文本对应的代表问题标注信息,训练得到所述文本分类模型,所述多个答案文本包括所述样本问答对中的答案文本和所述样本商品详情信息中的答案文本。
6.一种文本生成装置,包括:
获取模块,用于获取原始物料,所述原始物料包括至少一个问答对和商品详情信息;
第一提取模块,用于提取所述至少一个问答对中的问题;
聚类模块,用于对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题;
第二提取模块,用于针对每个代表问题,基于所述商品详情信息,提取回答所述代表问题的答案;
组成模块,用于将所述代表问题与所述答案组成问答类文本。
7.根据权利要求6所述的装置,其中,所述聚类模块,具体用于分别为每一个问题确定语义向量;依据各个问题的语义向量的距离,对所述至少一个问答对中的问题进行聚类,得到至少一个代表问题。
8.根据权利要求6所述的装置,其中,所述第二提取模块,具体用于将所述商品详情信息拆分为多个段落;针对每一段落,依据所述段落分别与各个代表问题的关联程度,将与所述段落关联程度最高的代表问题作为所述段落回答的代表问题;响应于多个段落回答的代表问题相同,对回答的代表问题相同的多个段落进行整合,得到回答的代表问题相同的多个段落、所回答的代表问题的答案。
9.根据权利要求8所述的装置,其中,所述第二提取模块,具体用于将所述段落输入文本分类模型,通过所述文本分类模型输出与所述段落关联程度最高的代表问题,并将所述文本分类模型输出的代表问题作为所述段落回答的代表问题。
10.根据权利要求6至9任一项所述的装置,所述装置还包括:
标注模块,用于针对各个问答对,标注样本问答对中的答案文本以及所述答案文本对应的代表问题标注信息;标注样本商品详情信息中的答案文本以及各个答案文本对应的代表问题标注信息;
训练模块,用于利用所述多个答案文本以及以及各个答案文本对应的代表问题标注信息,训练得到所述文本分类模型,所述多个答案文本包括所述样本问答对中的答案文本和所述样本商品详情信息中的答案文本。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272247.5A CN113886553A (zh) | 2021-10-29 | 2021-10-29 | 一种文本生成方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272247.5A CN113886553A (zh) | 2021-10-29 | 2021-10-29 | 一种文本生成方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886553A true CN113886553A (zh) | 2022-01-04 |
Family
ID=79015026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111272247.5A Pending CN113886553A (zh) | 2021-10-29 | 2021-10-29 | 一种文本生成方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886553A (zh) |
-
2021
- 2021-10-29 CN CN202111272247.5A patent/CN113886553A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN112733042A (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN109508367A (zh) | 自动提取问答语料的方法、在线智能客服系统及电子设备 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN112926308A (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN112541070A (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN114037485A (zh) | 基于商家评论的服务质量评价方法、装置、设备及介质 | |
CN113220999A (zh) | 用户特征的生成方法、装置、电子设备和存储介质 | |
CN114021548A (zh) | 敏感信息检测方法、训练方法、装置、设备以及存储介质 | |
CN115510212A (zh) | 一种文本事件抽取方法、装置、设备及存储介质 | |
CN114625834A (zh) | 企业的行业信息确定方法、装置及电子设备 | |
US20230206007A1 (en) | Method for mining conversation content and method for generating conversation content evaluation model | |
CN114461665B (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114996574A (zh) | 画像标签的构建方法、装置及电子设备 | |
CN113886543A (zh) | 生成意图识别模型的方法、装置、介质及程序产品 | |
CN113886553A (zh) | 一种文本生成方法、装置、设备以及存储介质 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |