CN110413745A - 选择代表文本的方法、确定标准问题的方法及装置 - Google Patents

选择代表文本的方法、确定标准问题的方法及装置 Download PDF

Info

Publication number
CN110413745A
CN110413745A CN201910540531.2A CN201910540531A CN110413745A CN 110413745 A CN110413745 A CN 110413745A CN 201910540531 A CN201910540531 A CN 201910540531A CN 110413745 A CN110413745 A CN 110413745A
Authority
CN
China
Prior art keywords
text
collection
output probability
semantic
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910540531.2A
Other languages
English (en)
Other versions
CN110413745B (zh
Inventor
梁忠平
温祖杰
蒋亮
张家兴
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910540531.2A priority Critical patent/CN110413745B/zh
Publication of CN110413745A publication Critical patent/CN110413745A/zh
Application granted granted Critical
Publication of CN110413745B publication Critical patent/CN110413745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种选择代表文本的方法、确定标准问题的方法及装置,选择代表文本的方法包括:首先根据文本集合中各个文本的特征向量,确定文本集合的语义中心对应的中心向量;然后确定各个文本的特征向量与中心向量的距离;进一步将各个文本分别输入预先训练的语言模型,可得到各个文本分别对应的输出概率,输出概率用于指示对应的文本语义清晰的可能性;之后即可至少综合考虑各个文本分别对应的输出概率、各个文本分别对应的距离,从文本集合中选择一个文本作为代表文本。

Description

选择代表文本的方法、确定标准问题的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及选择代表文本的方法、确定标准问题的方法及装置。
背景技术
在一些业务场景中,需要从由若干个文本组成的文本集合中选择代表文本,并基于选择的代表文本实现相应的业务。比如,在构建智能客服机器人所对应的问答知识库时,需要对大量用户问题分别对应的文本进行聚类分析,以将各个问题分别对应的文本划分为多个文本集合(也可称为类簇),划分至同一个文本集合的各个文本语义相似,之后,则可从各个文本集合中分别选择一个文本作为代表文本,并基于选择的代表文本确定组成问答知识库的标准问题,以便智能客服机器人实现智能问答业务。
发明内容
本说明书一个或多个实施例提供了一种选择代表文本的方法、确定标准问题的方法及装置,可实现从文本集合中选择更加规范的代表文本。
第一方面,提供了一种选择代表文本的方法,所述方法包括:
根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量;
确定各个所述文本的特征向量与所述中心向量的距离;
将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性;
至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述文本集合为,对多个文本进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本语义相似。
在一种可能的实施方式中,
所述语言模型是基于至少两个语义清晰的训练文本训练得到的。
优选地,
所述根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量,包括:计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。
在一种可能的实施方式中,
所述方法还包括:确定各个所述文本的文本长度;
所述至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本,包括:根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本,包括:
对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的GBDT(Gradient Boosting Decision Tree,梯度决策提升树)模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;
根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本,包括:
对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;
根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
在所述至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本之前,所述方法还包括:
对各个所述文本分别对应的输出概率进行归一化处理。
第二方面,提供了一种选择代表文本的装置,所述装置包括:
中心确定模块,配置为根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量;
距离确定模块,配置为确定各个所述文本的特征向量与所述中心向量的距离;
概率确定模块,配置为将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性;
代表选择模块,配置为至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述文本集合为,对多个文本进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本语义相似。
在一种可能的实施方式中,
所述语言模型是基于至少两个语义清晰的训练文本训练得到的。
在一种可能的实施方式中,
所述中心确定模块,用于计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。
在一种可能的实施方式中,
所述装置还包括:
长度确定模块,配置为确定各个所述文本的文本长度;
所述代表选择模块,配置为根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述代表选择模块,包括:
模型调用单元,配置为对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的GBDT模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;
第一选择单元,配置为根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述代表选择模块,包括:
分值确定单元,配置为对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;
第二选择单元,配置为根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,
所述装置还包括:
归一化处理模块,配置为对各个所述文本分别对应的输出概率进行归一化处理,并触发所述代表选择模块。
第三方面,提供了一种确定标准问题的方法,所述方法包括:
对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似;
对于每个所述文本集合,根据第一方面中任一所述的方法,从所述文本集合中选择一个文本作为代表文本;
根据选择的各个所述代表文本确定标准问题。
在一种可能的实施方式中,
所述对至少两个用户问题分别对应的文本进行聚类分析,包括:
获取至少两个用户问题分别对应的所述文本的高维特征向量;
根据各个所述文本的高维特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
第四方面,提供了一种确定标准问题的装置,所述装置包括:
聚类分析模块,配置为对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似;
代表选择模块,配置为对于每个所述文本集合,根据第一方面中任一所述的方法,从所述文本集合中选择一个文本作为代表文本;
问题确定模块,配置为根据选择的各个所述代表文本确定标准问题。
在一种可能的实施方式中,
所述聚类分析模块,包括:
向量化处理单元,配置为获取至少两个用户问题分别对应的所述文本的高维特征向量;
聚类分析单元,配置为根据各个所述文本的高维特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如第一方面、第三方面中任一项所述的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面、第三方面中任一项所述的方法。
通过本说明书一个或多个实施例提供的方法及装置,可首先根据文本集合中各个文本的特征向量,确定文本集合的语义中心对应的中心向量,进而确定出各个文本的特征向量与中心向量的距离,即确定出文本集合中各个文本与该文本集合的语义中心的距离;进一步通过预先训练的语言模型得到各个文本分别对应的输出概率;一个文本对应的输出概率,可指示该文本语义清晰的可能性,同时,一个文本与文本集合的语义中心的距离,可指示该文本能够表达文本集合中各个文本的核心语义的可能性;因此,后续进一步通过至少根据各个文本分别对应的输出概率及距离来选择代表文本,可更为有效的避免语义不清的文本被选择为代表文本,使得选择的代表文本语义清晰且能够表达文本集合中各个文本的核心语义,即实现从文本集合中选择更加规范的代表文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了一个或多个实施例适用的一种应用场景的示意图;
图2示出本说明书实施例提供的一种选择代表文本的方法的流程图;
图3示出本说明书实施例提供的另一种选择代表文本的方法的流程图;
图4示出本说明书实施例提供的一种确定标准问题的方法的流程图;
图5示出本说明书实施例提供的一种选择代表文本的装置的结构示意图;
图6示出本说明书实施例提供的一种确定标准问题的装置的结构示意图。
具体实施方式
下面结合附图,对本说明书所提供的各个非限制性实施例进行详细描述。
图1示出了一个或多个实施例适用的一种应用场景的示意图。
在如图1所示的应用场景中,标准问题的产生是智能客服机器人实现智能问答业务的必要条件,计算设备可从大量用户问题分别对应的文本中选择代表文本,进而根据选择的各个代表文本确定一个或多个标准问题。具体地,可通过在如图1所示计算设备中部署本说明书任意一个或多个实施例提供的装置,以便计算设备实施本说明书一个或多个实施例提供的方法,首先得到若干个文本集合,然后从各个文本集合中分别选择一个代表文本,并根据选择的各个代表文本得到对应的标准问题。之后,工作人员可结合实际业务情况针对计算设备得到的各个标准问题,分别配置其对应的标准答案,形成“标准问题+标准答案”的组合,并将得到的每个标准问题及其对应的标准答案存储到问答知识库。当用户向智能客服机器人提供“问题X”时,智能客服机器人可根据其获取的“问题X”查询问答知识库,得到与“问题X”最为匹配的标准问题,进而根据预先形成的“标准问题+标准答案”的组合,得到相对应的标准答案“答案Y”,并将得到的“答案Y”提供给用户,实现智能问答业务。
为了更好地为用户提供智能问答,希望标准问题能够清楚而准确地反映对应文本集合中多个用户问题的核心语义。为此,在本说明书的实施例中,从文本集合中选择代表文本时,不仅考虑文本本身在语义上是否具有代表性,还进一步综合考虑文本是否表达规范,例如语义是否清晰、是否简洁流畅等。具体而言,可以利用文本集合中一个文本与文本集合的语义中心的距离,指示该文本能够表达文本集合中各个文本的核心语义的可能性;此外,还可以利用预先训练的语言模型得到一个文本语义清晰的可能性。综合以上因素,进行代表文本的选择。
换而言之,本说明书一个或多个实施例的基本构思是,提供了一种选择代表文本的方法、确定标准问题的方法及装置,可首先根据文本集合中各个文本的特征向量,确定文本集合的语义中心对应的中心向量,进而确定出各个文本的特征向量与中心向量的距离,即确定出文本集合中各个文本与该文本集合的语义中心的距离;进一步通过预先训练的语言模型得到各个文本分别对应的输出概率,输出概率用于指示对应的文本语义清晰的可能性;后续则可通过至少根据各个文本分别对应的输出概率及距离来选择代表文本。基于该基本构思,可更为有效的避免语义不清的文本被选择为代表文本,使得选择的代表文本语义清晰且能够表达文本集合中各个文本的核心语义,即实现从文本集合中选择更加规范的代表文本。
图2示出了一种选择代表文本的方法的流程示意图。
如图2所示,选择代表文本的方法的执行主体可以是如图1所示应用场景中的计算设备,该计算设备包括但不限于服务器或一般计算机,该方法至少可以包括如下步骤22~步骤28:
步骤22,根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量。
对于文本集合中的各个文本,可预先将其转化为特征向量的形式以便于后续分析。例如,对于文本集合中的一个文本而言,可首先对该文本进行分词处理以得到组成该文本的若干个分词,然后基于Word2vec工具或其他方式得到每个分词分别对应的词向量,进而对各个分词分别对应的词向量进行综合,得到文本的句子向量。该句子向量可作为文本的特征向量。也可以按照预设规则对句子向量的维度进行调整(比如,对维度较高的句子向量进行降维),将调整后的向量作为该文本的特征向量。
为了确保后续选择的代表文本能够较好的表达文本集合中各个文本的核心语义,在一种可能的实施方式中,所述文本集合为,对多个文本进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本语义相似。举例来说,可结合实际业务需求,采集一个或多个用户提出的多个用户问题,然后对各个用户问题分别对应的文本进行聚类分析以得到至少两个文本集合(也可称为类簇),划分至同一个文本集合中的各个文本具有相似的语义;具体如,“XXX产品的免费保修时间是多少”及“XXX可以在多长时间内享受免费保修”两个文本,对包括前述两个文本的多个文本进行聚类分析时,前述两个文本即可能被认定为语义相似,从而被划分至同一个文本集合中。
不难理解的,也可通过其他方式得到文本集合,比如,工作人员可结合其实际业务需求,人工选择语义相似的多个文本组成文本集合。
在一种可能的实施方式中,步骤22包括:计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。对于一个文本集合,当文本集合中各个文本的语义相似时,各个文本的特征向量的均值能够较为准确的表达该文本集合的语义中心,计算的均值可被确定为文本集合的语义中心对应的中心向量。
步骤24,确定各个所述文本的特征向量与所述中心向量的距离。
这里,文本的特征向量与中心向量之间的距离用于度量文本的特征向量与中心向量之间的相似性,即度量文本与该文本所属文本集合的语义中心的相似性;因此,该距离包括但不限欧氏距离或标准化欧式距离,比如还可以是夹角余弦。
步骤26,将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性。
在一种可能的实施方式中,所述语言模型是基于大量语义清晰的训练文本训练得到的。不难理解的,工作人员可结合实际业务场景指定用于训练语言模型的训练文本。
在一个示例中,训练得到的语言模型可以是N-Gram语言模型。具体地,对于一个文本S,该文本S可以表示为由W1、W2、…Wn共n个分词顺序排列组成的分词序列,可通过训练得到的N-Gram语言模型计算出在已知文本S中位于第i个分词Wi之前的各个分词的前提下,出现第i个分词Wi的条件概率;具体如,首先统计用于训练语言模型的各个训练文本中,由W1、W2…Wi依次组成的分词序列的第一数量,然后统计由位于分词Wi之前的i-1个分词依次组成的分词序列的第二数量,该第一数量与第二数量的比值即可被确定为文本S中Wi的条件概率;之后,即可根据文本S中各个分词的条件概率,计算出文本S对应的输出概率,具体如,对文本S中各个分词的条件概率进行求积运算,将求积运算得到的结果作为文本S对应的输出概率。
在另一个示例中,训练得到的语言模型可以是Transformer语言模型。训练得到的Transformer语言模型可以包括Embedding层、堆叠的多个“Encoder-Decoder”结构、线性层(Linear)及分类网络层(Soft Max)。对于输入Transformer语言模型的一个文本,首先,Embedding层可将该文本中的各个分词依次转换为具有一定长度的词向量,然后形成对应的第一词向量序列,形成的第一词向量序列可输入位于底层的“Encoder-Decoder”结构;对于该文本中各个分词Ti分别对应的词向量wi,堆叠的多个“Encoder-Decoder”结构可根据第一词向量序列中位于wi之前的第二词向量序列,得到向量列表Li,并通过位于顶层的“Encoder-Decoder”结构将Li输出至线性层,Li中的各个向量与可能出现在该文本中Ti所在位置的各个样本词一一对应,样本词为用于训练Transformer的训练文本中的词,且样本词中包括Ti;线性层可以是一个简单的全连接神经网络,对于wi对应的向量列表Li,线性层可对向量列表Li中的各个向量进行转换,得到各个样本词分别对应的得分;对于根据一个向量列表Li得到的、各个样本词分别对应的得分,分类网络层可对各个样本词分别对应的得分进行归一化处理,得到各个样本词分别对应的条件概率,样本词中包括Ti,因此,这里即可得到该文本中的分词Ti对应的条件概率,从而实现根据该文本中位于Ti之前的各个词,预测Ti出现的条件概率,相应的,可进一步将预测的、该文本中各个分词分别对应的条件概率作求积运算,将求积运算得到的结果作为文本对应的输出概率。
不难理解的,还可以通过其它类型的语言模型得到一个文本所对应的输出概率。
结合以上各个示例可知,通过语言模型得到的一个文本所对应的输出概率,能够指示输入语言模型的文本语义清晰的可能性;具体地,一个文本对应的输出概率越高,则说明该文本语义清晰的可能性越高;反之,一个文本对应的输出概率越低,则说明该文本语义清晰的可能性越低。
步骤28,至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
这里,选择的代表文本对应的输出概率应尽可能大,距离尽可能小,具体可根据文本集合中每个文本分别对应的输出概率及距离,通过预先训练的决策模型(具体如梯度提升决策树模型或评分函数)对每个文本的规范程度进行评分,选择评分最大的文本作为代表文本。
在一种可能的实施方式中,可根据各个文本分别对应的输出概率,计算预先训练的语言模型分别相对于各个文本的困惑度(PPL,perplexity),然后根据各个文本分别对应的困惑度、各个文本分别对应的距离,从文本集合中选择一个文本作为代表文本。这里,对于一个文本而言,该文本对应的输出概率与语言模型相对于该文本的困惑度负相关,当一个文本的输出概率越小时,语言模型相对于该文本的困惑度越大,此时,说明该文本语义清晰的可能性越小;反之,当一个文本的输出概率越大时,语言模型相对于该文本的困惑度越小,此时,说明该文本语义清晰的可能性越大;因此,选择的代表文本对应的困惑度应尽可能小,距离尽可能小。
图3示出了另一种选择代表文本的方法的流程图。
如图3所示,在如图2所示实施例的基础上,该方法还包括如下步骤32:
步骤32,确定各个所述文本的文本长度。
所述步骤28,具体可以包括如下步骤282:
步骤282,根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
该实施例中,文本长度包括但不限于对应的文本的字符总量;文本的文本长度越大,则其语义复杂程度越高,文本长度越小,则其语义的简洁程度越高。
该实施例中,通过综合考虑各个文本分别对应的输出概率、各个文本分别对应的距离以及各个文本的文本长度,有利于选择出语义清晰、能够代表文本集合中各个文本的核心语义、语义表达更为简洁的代表文本,即有利于选择出更加规范的代表文本。
具体地,至少可以通过如下两种实现方式A及实现方式B中的任意一种或多种相结合来实现上述步骤282。
实现方式A:对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的GBDT模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
在一个实施例中,GBDT模型可以是根据若干个能够被选择为代表文本的文本分别对应的输出概率、距离及文本长度训练得到的。
在实现方式A中,包括但不限于选择第一业务分值中的最大值所对应的文本作为代表文本。
实现方式B:对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
在实现方式B中,可构建出一个评分函数,构建的评分函数满足实现方式B中所述第二业务分值分别与文本对应的输出概率、文本对应的距离及文本的文本长度之间的相关关系,如此,对于每个文本,即可将该文本对应的输出概率、该文本对应的距离及该文本的文本长度代入构建的评分函数,得到该文本对应的第二业务分值。
在实现方式B中,包括但不限于选择第二业务分值中的最大值所对应的文本作为代表文本。
需要说明的是,将文本对应的输出概率对应替换为文本对应的困惑度时,文本对应的第二业务分值与文本对应的困惑度负相关。
实现方式A可与实现方式B相结合,即综合考虑每个文本的第一业务分值及第二业务分值,比如,计算第一业务分值和第二业务分值的平均分值,选择平均分值最大的文本集合中平均分值最大的一个文本作为相应的代表文本。
在一种可能的实施方式中,在所述至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本之前,所述方法还包括:对各个所述文本分别对应的输出概率进行归一化处理。具体地,对于每个文本分别对应的输出概率,可将该文本所对应的输出概率与各个文本分别对应的输出概率的总和之间的比值,确定为该文本对应的输出概率,实现对各个文本的输出概率进行归一化处理;如此,各个文本分别对应的完成归一化处理之后的输出概率,能够更为直观的体现同一个文本集合中,不同文本之间语义清晰的可能性之间的相对差异。
图4示出了一种确定标准问题的方法的流程示意图。
基于与前述各个实施例相同的构思,如图4所示,选择代表文本的方法的执行主体可以为如图1所示的计算设备,计算设备具体可以是服务器、一般计算机,该方法具体可以包括如下步骤42~步骤46:
步骤42,对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似。
在一种可能的实现方式中,步骤42包括如下步骤422及步骤424:
步骤422,获取至少两个用户问题分别对应的所述文本的高维特征向量。
这里,通过获取用户问题分别对应的文本的高维特征向量,确保获取的各个高维特征向量能够较为完整的表达各个文本的语义,有利于后续将语义相似的各个文本划分至相同的文本集合中。
步骤424,根据各个所述文本的高维特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
这里,HDBSCAN算法是一种基于密度的聚类分析算法,该算法不需要指定文本集合的数目,不依赖于各个文本分别对应的高维特征向量之间的距离,且具有对噪声数据不敏感的特点,基于该算法对文本进行聚类分析,有利于确保划分至同一个文本集合中的各个文本具有相似的语义。
步骤44,对于每个所述文本集合,根据本说明书任意一个实施例提供的选择代表文本的方法,从所述文本集合中选择一个文本作为代表文本。
步骤46,根据选择的各个所述代表文本确定标准问题。
这里,包括但不限于将确定的各个代表文本直接作为标准问题,比如,还可以由工作人员根据得到的各个代表文本人工指定标准问题。
本说明书实施例提供的确定标准问题的方法,可对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,然后根据本说明书任意一个实施例提供的选择代表文本的方法,从得到的各个文本集合中分别选择一个文本作为代表文本,后续即可根据更为规范的代表文本确定标准问题,避免确定标准问题时因代表文本语义不清而无法快速确定标准问题的情况,有利于更为高效的确定出标准问题。
图5示出了一种选择代表文本的装置的结构示意图。
基于与前述选择代表文本的方法实施例相同的构思,如图5所示,还提供了一种选择代表文本的装置,该装置可以部署于如图1所示的计算设备中,具体包括:
中心确定模块52,配置为根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量;
距离确定模块54,配置为确定各个所述文本的特征向量与所述中心向量的距离;
概率确定模块56,配置为将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性;
代表选择模块58,配置为至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
在一种可能的实施方式中,所述文本集合为,进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本的语义相似。
在一种可能的实施方式中,所述语言模型是基于至少两个语义清晰的训练文本训练得到的。
在一种可能的实施方式中,所述中心确定模块52,用于计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。
在一种可能的实施方式中,所述选择代表文本的装置还包括:
长度确定模块,配置为确定各个所述文本的文本长度;
所述代表选择模块58,配置为根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
在一种可能的实施方式中,所述代表选择模块58,包括:
模型调用单元,配置为对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的GBDT模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;
第一选择单元,配置为根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,所述代表选择模块58,包括:
分值确定单元,配置为对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;
第二选择单元,配置为根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
在一种可能的实施方式中,所述选择代表文本的装置还包括:
归一化处理模块,配置为对各个所述文本分别对应的输出概率进行归一化处理,并触发所述代表选择模块58。
图6示出了一种确定标准问题的装置的结构示意图。
基于与前述确定标准问题的方法实施例相同的构思,如图6所示,还提供了一种确定标准问题的装置,该装置可以部署于如图1所示的计算设备中,具体可以包括:
聚类分析模块62,配置为对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似;
代表选择模块64,配置为根据本发明任意一个实施例中提供的选择代表文本的装置,从所述文本集合中选择一个文本作为代表文本;
问题确定模块66,配置为根据选择的各个所述代表文本确定标准问题。
不难理解的,前述各个实施例中提供的选择代表文本的装置,可以作为确定标准问题的装置中的代表选择模块64。
在一种可能的实施方式中,所述聚类分析模块62,包括:
向量化处理单元,配置为获取至少两个用户问题分别对应的所述文本的高维特征向量;
聚类分析单元,配置为根据各个所述文本的高维特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
上述各个实施例中提供的装置可以由任何具有计算、处理能力的软件、硬件或其组合来实现。一般的,上述装置集成在服务器或一般计算机等计算设备中。
本说明书还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现说明中任意一个实施例描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能所对应的计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令/代码进行传输,以便这些功能所对应的计算机程序被计算机执行时,通过计算机实现本发明任意一个实施例中所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同、相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (22)

1.一种选择代表文本的方法,所述方法包括:
根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量;
确定各个所述文本的特征向量与所述中心向量的距离;
将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性;
至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
2.根据权利要求1所述的方法,其中,
所述文本集合为,对多个文本进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本语义相似。
3.根据权利要求1所述的方法,其中,
所述语言模型是基于至少两个语义清晰的训练文本训练得到的。
4.根据权利要求1所述的方法,其中,
所述根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量,包括:计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。
5.根据权利要求1所述的方法,其中,
所述方法还包括:确定各个所述文本的文本长度;
所述至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本,包括:根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
6.根据权利要求5所述的方法,其中,
所述根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本,包括:
对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的梯度决策提升树GBDT模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;
根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
7.根据权利要求5所述的方法,其中,
所述根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本,包括:
对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;
根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
8.根据权利要求1至7中任一所述的方法,其中,
在所述至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本之前,所述方法还包括:
对各个所述文本分别对应的输出概率进行归一化处理。
9.一种选择代表文本的装置,所述装置包括:
中心确定模块,配置为根据文本集合中各个文本的特征向量,确定所述文本集合的语义中心对应的中心向量;
距离确定模块,配置为确定各个所述文本的特征向量与所述中心向量的距离;
概率确定模块,配置为将各个所述文本分别输入预先训练的语言模型,得到各个所述文本分别对应的输出概率,所述输出概率用于指示对应的所述文本语义清晰的可能性;
代表选择模块,配置为至少根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离,选择一个所述文本作为代表文本。
10.根据权利要求9所述的装置,其中,
所述文本集合为,对多个文本进行聚类分析所得到的至少两个文本集合中的一个,其中,划分至同一个文本集合中的文本语义相似。
11.根据权利要求9所述的装置,其中,
所述语言模型是基于至少两个语义清晰的训练文本训练得到的。
12.根据权利要求9所述的装置,其中,
所述中心确定模块,用于计算所述文本集合中各个所述文本的特征向量的均值,将所述均值确定为所述文本集合的语义中心对应的中心向量。
13.根据权利要求9所述的装置,其中,
所述装置还包括:
长度确定模块,配置为确定各个所述文本的文本长度;
所述代表选择模块,配置为根据各个所述文本分别对应的输出概率、各个所述文本分别对应的距离以及各个所述文本的文本长度,选择一个所述文本作为代表文本。
14.根据权利要求13所述的装置,其中,
所述代表选择模块,包括:
模型调用单元,配置为对于每个所述文本,将所述文本对应的输出概率、所述文本对应的距离以及所述文本的长度,输入预先训练的梯度决策提升树GBDT模型,使得所述GBDT模型输出用于指示所述文本的规范程度的第一业务分值;
第一选择单元,配置为根据各个所述文本分别对应的第一业务分值,选择一个所述文本作为代表文本。
15.根据权利要求13所述的装置,其中,
所述代表选择模块,包括:
分值确定单元,配置为对于每个所述文本,确定用于指示所述文本的规范程度的第二业务分值,其中,所述文本的第二业务分值与所述文本对应的输出概率正相关,所述文本的第二业务分值与所述文本对应的距离负相关,所述文本的第二业务分值与所述文本的文本长度负相关;
第二选择单元,配置为根据各个所述文本分别对应的第二业务分值,选择一个所述文本作为代表文本。
16.根据权利要求9至15中任一所述的装置,其中,
所述装置还包括:
归一化处理模块,配置为对各个所述文本分别对应的输出概率进行归一化处理,并触发所述代表选择模块。
17.一种确定标准问题的方法,所述方法包括:
对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似;
对于每个所述文本集合,根据权利要求1至8中任一所述的方法,从所述文本集合中选择一个文本作为代表文本;
根据选择的各个所述代表文本确定标准问题。
18.根据权利要求17所述的方法,其中,
所述对至少两个用户问题分别对应的文本进行聚类分析,包括:
获取至少两个用户问题分别对应的所述文本的特征向量;
根据各个所述文本的特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
19.一种确定标准问题的装置,所述装置包括:
聚类分析模块,配置为对至少两个用户问题分别对应的文本进行聚类分析,得到至少两个文本集合,其中,划分至同一个文本集合中的文本语义相似;
代表选择模块,配置为对于每个所述文本集合,根据权利要求1至8中任一所述的方法,从所述文本集合中选择一个文本作为代表文本;
问题确定模块,配置为根据选择的各个所述代表文本确定标准问题。
20.根据权利要求19所述的装置,其中,
所述聚类分析模块,包括:
向量化处理单元,配置为获取至少两个用户问题分别对应的所述文本的特征向量;
聚类分析单元,配置为根据各个所述文本的特征向量,基于HDBSCAN算法对各个所述文本进行聚类分析。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8、权利要求17-18中任一项所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8、权利要求17-18中任一项所述的方法。
CN201910540531.2A 2019-06-21 2019-06-21 选择代表文本的方法、确定标准问题的方法及装置 Active CN110413745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910540531.2A CN110413745B (zh) 2019-06-21 2019-06-21 选择代表文本的方法、确定标准问题的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910540531.2A CN110413745B (zh) 2019-06-21 2019-06-21 选择代表文本的方法、确定标准问题的方法及装置

Publications (2)

Publication Number Publication Date
CN110413745A true CN110413745A (zh) 2019-11-05
CN110413745B CN110413745B (zh) 2023-06-23

Family

ID=68359470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910540531.2A Active CN110413745B (zh) 2019-06-21 2019-06-21 选择代表文本的方法、确定标准问题的方法及装置

Country Status (1)

Country Link
CN (1) CN110413745B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN107038154A (zh) * 2016-11-25 2017-08-11 阿里巴巴集团控股有限公司 一种文本情感识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雄等: "基于词项聚类的文本语义标签抽取研究", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置

Also Published As

Publication number Publication date
CN110413745B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
KR102414491B1 (ko) 컴퓨터 학습 및 이해를 위한 아키텍처 및 프로세스들
CN108288468B (zh) 语音识别方法及装置
KR101709187B1 (ko) 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN108228576B (zh) 文本翻译方法及装置
CN105677795B (zh) 抽象语义的推荐方法、推荐装置及推荐系统
CN111026886A (zh) 一种针对专业场景的多轮对话处理方法
CN108470188B (zh) 基于图像分析的交互方法及电子设备
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN110414004A (zh) 一种核心信息提取的方法和系统
CN117390497B (zh) 基于大语言模型的类目预测方法、装置和设备
CN114722839A (zh) 人机协同对话交互系统及方法
KR20210070904A (ko) 다중 문서 질의 응답을 위한 방법 및 장치
CN113609264B (zh) 电力系统节点的数据查询方法、装置
CN115497465B (zh) 语音交互方法、装置、电子设备和存储介质
CN110413745A (zh) 选择代表文本的方法、确定标准问题的方法及装置
CN111259124A (zh) 对话管理方法、装置、系统及存储介质
CN110532363A (zh) 一种基于决策树的任务导向型自动对话方法
CN117475351A (zh) 视频分类方法、装置、计算机设备及计算机可读存储介质
CN109545202A (zh) 一种调整语义逻辑混乱的语料的方法及系统
CN118051635A (zh) 基于大语言模型的对话式图像检索方法和装置
CN115062139A (zh) 一种对话文本摘要模型自动搜索方法
CN114020897A (zh) 一种对话情感识别方法及相关装置
CN115525740A (zh) 对话应答语句的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant