CN108628906A - 短文本模板挖掘方法、装置、电子设备和可读存储介质 - Google Patents

短文本模板挖掘方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN108628906A
CN108628906A CN201710181878.3A CN201710181878A CN108628906A CN 108628906 A CN108628906 A CN 108628906A CN 201710181878 A CN201710181878 A CN 201710181878A CN 108628906 A CN108628906 A CN 108628906A
Authority
CN
China
Prior art keywords
keyword
cluster
word
sequence
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710181878.3A
Other languages
English (en)
Other versions
CN108628906B (zh
Inventor
李开宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710181878.3A priority Critical patent/CN108628906B/zh
Publication of CN108628906A publication Critical patent/CN108628906A/zh
Application granted granted Critical
Publication of CN108628906B publication Critical patent/CN108628906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

本发明实施例提供一种短文本模板挖掘方法、装置、电子设备和可读存储介质,能够有效地处理模板中的同义词和语序问题,生成准确易用的短文本模板。该方法包括:从问题文本中抽取关键词,以组成分词序列;将所述关键词根据词义进行聚类,以得到关键词簇;将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;选取最优排列方式的词簇序列作为短文本模板。

Description

短文本模板挖掘方法、装置、电子设备和可读存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种短文本模板挖掘方法、装置、电子设备和可读存储介质。
背景技术
在自然语言处理领域中,不管是聚类模型、分类模型、搜索rank算法等,都普遍存在特征表达能力不强,包含信息量不够。这里的特征往往指的是文本中的词特征;由于大数据的普及,导致不是所有的词都能对应足够的样本。
现有技术中,解决上述问题最常用的方式就是进行特征挖掘,对已有特征进行扩充;主流思路是通过对频繁组合词,进行挖掘,得到组合特征,来提升特征对文本的表达能力。例如,将文本转化为有序词集合,使用Fp-Growth算法,通过构造一个树结构(FP-Tree)来压缩数据记录,挖掘频繁项集,频繁项即是共现次数高的词组合,也就是模板;再如,将文本转化为有序词集合后,建立语言模型N-gram,通过概率统计的方法,生成词与词共现的概率模型,通过概率模型来判断模板的生成条件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
一方面,现有技术的方案没有考虑同义词情况,导致模板的覆盖能力十分局限,同时在语料少时,由于统计次数不够,会导致无法生成模板;另一方面,语法结构具有多样性,不同词序的模板可能表示相同意义,而现有技术的方案无法准确识别这类情况。
发明内容
有鉴于此,本发明实施例提供一种短文本模板挖掘方法、装置、电子设备和可读存储介质,能够有效地处理模板中的同义词和语序问题,生成准确易用的短文本模板。
为实现上述目的,根据本发明实施例的一个方面,提供了一种短文本模板挖掘方法。
本发明实施例的一种短文本模板挖掘方法,包括:从问题文本中抽取关键词,以组成分词序列;将所述关键词根据词义进行聚类,以得到关键词簇;将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;选取最优排列方式的词簇序列作为短文本模板。
可选的,从问题文本中抽取关键词,还包括:对所述问题文本进行预处理,以得到原始词;从所述原始词中抽取关键词。
可选的,从所述原始词中抽取关键词,还包括:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;根据所述权重从所述原始词中抽取关键词;删除除所述关键词外的其他原始词。
可选的,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:使用预设语料训练所述关键词,以得到所述关键词的词向量;根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
可选的,选取最优排列方式的词簇序列作为短文本模板,包括:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和;选择连接紧密度最大的所述排列方式作为所述短文本模板。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种短文本模板挖掘装置。
本发明实施例的一种短文本模板挖掘装置,包括:问题文本处理模块,用于从问题文本中抽取关键词,以组成分词序列;关键词处理模块,用于将所述关键词根据词义进行聚类,以得到关键词簇;模板挖掘模块,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;模板确定模块,用于选取最优排列方式的词簇序列作为短文本模板。
可选的,所述问题文本处理模块包括:预处理模块,用于对所述问题文本进行预处理,以得到原始词;关键词抽取模块,用于从所述原始词中抽取关键词。
可选的,所述关键词抽取模块还用于:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;根据所述权重从所述原始词中抽取关键词;删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。
可选的,所述关键词处理模块包括:词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量;词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
可选的,所述模板确定模块还用于:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,wi的值为所述第i个关键词簇中各所述关键词的词向量的和;选择连接紧密度最大的所述排列方式作为所述短文本模板。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种实现短文本模板挖掘的电子设备。
本发明实施例的一种电子设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例的短文本模板挖掘方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种非暂态计算机可读存储介质。
本发明实施例的一种非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例的短文本模板挖掘方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的短文本模板挖掘方法的主要步骤的示意图;
图2是根据本发明实施例的短文本模板挖掘装置的主要模块的示意图;
图3是用来实现本发明实施例的短文本模板挖掘方法的电子设备的硬件结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例的技术方案通过词义聚类,将词义相近的关键词聚类形成关键词簇,再选择关键词簇的最优排列方式作为短文本模板,从而解决了现有技术无法覆盖同义词判断的问题。此外,本发明实施例的技术方案还通过计算关键词簇的不同排列方式下使用的频率,即“连接紧密度”,从而选择关键词簇的最优排列方式,提高了生成的短文本模板的准确度,能够更好地匹配用户的提问,提高自动回复系统的用户满意度。
图1是根据本发明实施例的短文本模板挖掘方法的主要步骤的示意图。
如图1所示,本发明实施例的一种短文本模板挖掘方法主要包括以下步骤:
S10,从问题文本中抽取关键词,以组成分词序列。所述问题文本是由聊天系统的记录单元(例如聊天系统服务器等)记录的,用户提问问题的文本。通过对问题文本进行分词并去除问题文本中的非必要部分(例如问候语、语气词、预设的停用词、标点符号等),再对保留下的词语按照一定标准进行筛选,从而完成关键词的抽取。关键词抽取完成后,原属同一问题文本的关键词即组成了分词序列。
S11,将所述关键词根据词义进行聚类,以得到关键词簇。本步骤关键词的词义采用数学方式进行计算和定义;例如,可以通过预设语料对关键词进行训练,得到关键词的词向量,以向量代表关键词在预设语料中的词义。进行聚类的具体方式可以是层次聚类等,聚类产出例如表1所示:
表1关键词聚类产出
序号 关键词簇
…… ……
21 时间|时间段
22 多久|几天|多长时间
23 送|免费送|赠送|送么
24 安装时间|约定|单约
25 有没有|带不带|可有|有无
26 想|顺便
27 厂商|厂家
28 配件|零件
29 购买|订购|够买
30 价格|价钱|价|价位
31 配送|送达
32 收|收取|不收
33 问下|问问
34 有货|到货
35 时候|什么时候|啥时候
…… ……
S12,将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列。在经过S11的聚类后,每个关键词都处于一个关键词簇中,将分词序列中的关键词分别替换为该关键词所在的关键词簇,即得到由关键词簇组成的词簇序列。
S13,选取最优排列方式的词簇序列作为短文本模板。通过统计不同排列方式的词簇序列在预设语料中出现的情况,即可判断出哪种排列方式的词簇序列可以覆盖最多种类的用户提问,选择该词簇序列作为优选后的短文本模板。
从上面所述可以看出,本实施例提供的一种短文本模板挖掘方法,通过将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板,解决了现有技术无有效处理同义词的问题,能够提高模板的准确度。另外,由于通过将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,大幅降低了人力成本。
在一些可选的实施例中,S10,从问题文本中抽取关键词,还包括:
S20,对所述问题文本进行预处理,以得到原始词。对问题文本进行预处理,目的是取出问题文本中的无效内容并分词,例如在初步获取到问题文本后,可以采用黑名单的方式(将希望清除的字、词、短语、句子、符号等内容加入一个集合中,使用该集合对文本内容进行匹配,以从文本中清除这些内容)进行问候语清洗;在使用分词工具(例如开源的JAVA软件Ansj等)对问题文本进行分词后,再次利用黑名单的方式去掉停用词(Stop Words,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词)与标点符号,保留下来的词即原始词。
例如,用户的原始问题文本为“您好!请问什么时候才有货啊?”,在经过黑名单匹配并分词后,转化为分词序列{什么时候,有货}。
S21,从所述原始词中抽取关键词。
可选的,S21,从所述原始词中抽取关键词,还包括:
S22,根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重。例如,可以表示为权重=词频-逆文档频率*系数1+信息熵*系数2+词性出现频次占比*系数3,通过根据使用场景设置适当的系数1、系数2和系数3的值,可以获取最合适的权重。在一些可选的方式中,可以设置系数1>系数2>系数3,表示词频-逆文档频率、信息熵、词性出现频次在权重的重要程度依次降低(需要说明的是,由于词频-逆文档频率、信息熵、词性出现频次占比计算得到的数值并不存在直接的可比性,因此所述系数也需要进行适应性调整,以使这三个变量处于可比较的水平,所以此处系数1>系数2>系数3只是表示变量重要性的关系,而非严格的数值大小关系)。
S23,根据所述权重从所述原始词中抽取关键词。例如,可以对一条问题文本中的原始词按照权重由高到低的顺序进行排序,并取出前几个作为关键词;再如,可以预设一个关键词阈值,将权重高于此阈值的原始词抽取出来以得到关键词。
S24,删除除所述关键词外的其他原始词。
在一些可选的实施例中,S11,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:
S30,使用预设语料训练所述关键词,以得到所述关键词的词向量。词向量表示了关键词在预设语料中的特征,可以使用word2vec等工具使用预设语料对关键词进行训练,以得到关键词在该预设语料中的词向量。
S31,根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。通过词向量的方式计算两个词之间的相似度时,通常以余弦相似度作为判断标准,即通过计算两个词对应的词向量的余弦乘积,得到的结果越接近1,则表示两个词在预设语料中的词义越接近。
例如,在执行步骤S12,将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列时,仍以“您好!请问什么时候才有货啊?”为例,在经过黑名单匹配并分词后,转化为分词序列“什么时候,有货”;在替换后,转化为词簇序列“什么时候{时候、啥时候},有货{到货}”。
在一些可选的实施例中,S13,选取最优排列方式的词簇序列作为短文本模板,包括:
S40,计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度。
例如在一个词簇序列中有词簇1、词簇2、词簇3、词簇4,那么对应的排列组合有{词簇1、词簇2、词簇3、词簇4}、{词簇1、词簇2、词簇4、词簇3}、{词簇2、词簇1、词簇3、词簇4}……
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和。
关于Pmax(Wi|Wi+1),可以表示为:Pmax(Wi|Wi+1)=Max{P[Wi(1)|Wi+1(1)],P[Wi(1)|Wi+1(2)],...,P[Wi(X)|Wi+1(Y)]},其中Wi(m)表示在关键词簇Wi中的第m个关键词,Pmax[Wi(m)|Wi+1(n)]表示在预设语料中,关键词簇Wi+1中的第n个关键词出现的前提下,关键词簇Wi中第m个关键词出现的概率,X和Y分别表示关键词簇Wi和关键词簇Wi+1中关键词的总数。
例如,关键词簇1有两个关键词A和B,关键词簇2有两个关键词C和D,则Pmax(W1|W2)=Max[P(A|C),P(B|C),P(A|D),P(B|D)]。
S41,选择连接紧密度最大的所述排列方式作为所述短文本模板。
本实施例通过“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的问题。
根据本发明实施例的短文本模板挖掘方法可以看出,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。
图2是根据本发明实施例的短文本模板挖掘装置的主要模块的示意图。
如图2所示,本发明实施例的短文本模板挖掘装置210,包括:
问题文本处理模块210,用于从问题文本中抽取关键词,以组成分词序列。关键词处理模块220,用于将所述关键词根据词义进行聚类,以得到关键词簇。模板挖掘模块230,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列。以及模板确定模块240,用于选取最优排列方式的词簇序列作为短文本模板。
可选的,所述问题文本处理模块210包括:预处理模块,用于对所述问题文本进行预处理,以得到原始词。关键词抽取模块,用于从所述原始词中抽取关键词。
可选的,所述关键词抽取模块还用于:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重。根据所述权重从所述原始词中抽取关键词。删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。
可选的,所述关键词处理模块220包括:词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量。词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
可选的,所述模板确定模块240还用于:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度,选择连接紧密度最大的所述排列方式作为所述短文本模板。其中:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,wi的值为所述第i个关键词簇中各所述关键词的词向量的和。
选择连接紧密度最大的所述排列方式作为所述短文本模板。
从上述描述可以看出,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明所提供的短文本模板挖掘方法。
本发明的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明所提供的短文本模板挖掘方法。
如图3所示,是实现本发明实施例的短文本模板挖掘方法的电子设备的硬件结构示意图。如图3,该电子设备包括:一个或多个处理器31以及存储器32,图3中以一个处理器31为例。其中,存储器32即为本发明所提供的非暂态计算机可读存储介质。
短文本模板挖掘方法的电子设备还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的短文本模板挖掘方法对应的程序指令/模块(例如,附图2所示的问题文本处理模块210、关键词处理模块220、模板挖掘模块230、模板确定模块240及其包含的功能模块)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的短文本模板挖掘方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据短文本模板挖掘装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至短文本模板挖掘装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与短文本模板挖掘装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器32中,当被所述一个或者多个处理器31执行时,执行上述任意方法实施例中的短文本模板挖掘装置方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
根据本发明实施例的技术方案,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种短文本模板挖掘方法,其特征在于,包括:
从问题文本中抽取关键词,以组成分词序列;
将所述关键词根据词义进行聚类,以得到关键词簇;
将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;
选取最优排列方式的词簇序列作为短文本模板。
2.根据权利要求1所述的方法,其特征在于,从问题文本中抽取关键词,还包括:
对所述问题文本进行预处理,以得到原始词;
从所述原始词中抽取关键词。
3.根据权利要求2所述的方法,其特征在于,从所述原始词中抽取关键词,还包括:
根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;
根据所述权重从所述原始词中抽取关键词;
删除除所述关键词外的其他原始词。
4.根据权利要求1所述的方法,其特征在于,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:
使用预设语料训练所述关键词,以得到所述关键词的词向量;
根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
5.根据权利要求4所述的方法,其特征在于,选取最优排列方式的词簇序列作为短文本模板,包括:
计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和;
选择连接紧密度最大的所述排列方式作为所述短文本模板。
6.一种短文本模板挖掘装置,其特征在于,包括:
问题文本处理模块,用于从问题文本中抽取关键词,以组成分词序列;
关键词处理模块,用于将所述关键词根据词义进行聚类,以得到关键词簇;
模板挖掘模块,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;
模板确定模块,用于选取最优排列方式的词簇序列作为短文本模板。
7.根据权利要求6所述的装置,其特征在于,所述问题文本处理模块包括:
预处理模块,用于对所述问题文本进行预处理,以得到原始词;
关键词抽取模块,用于从所述原始词中抽取关键词。
8.根据权利要求7所述的装置,其特征在于,所述关键词抽取模块还用于:
根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;
根据所述权重从所述原始词中抽取关键词。
删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。
9.根据权利要求6所述的装置,其特征在于,所述关键词处理模块包括:
词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量;
词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。
10.根据权利要求9所述的方法,其特征在于,所述模板确定模块还用于:
计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:
其中
n表示所述词簇序列中包含的关键词簇数量;Wi表示所述词簇序列中的第i个关键词簇,Pmax(Wi|Wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,wi的值为所述第i个关键词簇中各所述关键词的词向量的和;
选择连接紧密度最大的所述排列方式作为所述短文本模板。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN201710181878.3A 2017-03-24 2017-03-24 短文本模板挖掘方法、装置、电子设备和可读存储介质 Active CN108628906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710181878.3A CN108628906B (zh) 2017-03-24 2017-03-24 短文本模板挖掘方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710181878.3A CN108628906B (zh) 2017-03-24 2017-03-24 短文本模板挖掘方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN108628906A true CN108628906A (zh) 2018-10-09
CN108628906B CN108628906B (zh) 2021-01-26

Family

ID=63707661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710181878.3A Active CN108628906B (zh) 2017-03-24 2017-03-24 短文本模板挖掘方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN108628906B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473103A (zh) * 2018-11-16 2019-03-15 上海玖悦数码科技有限公司 一种会议纪要生成方法
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN111046282A (zh) * 2019-12-06 2020-04-21 贝壳技术有限公司 文本标签设置方法、装置、介质以及电子设备
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111414479A (zh) * 2020-03-16 2020-07-14 北京智齿博创科技有限公司 基于短文本聚类技术的标签抽取方法
CN111597326A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 生成商品描述文本的方法及装置
CN111930805A (zh) * 2020-08-10 2020-11-13 中国平安人寿保险股份有限公司 一种信息挖掘方法及计算机设备
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US20090198674A1 (en) * 2006-12-29 2009-08-06 Tonya Custis Information-retrieval systems, methods, and software with concept-based searching and ranking
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
JP2014032536A (ja) * 2012-08-03 2014-02-20 Ntt Docomo Inc 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105159931A (zh) * 2015-08-06 2015-12-16 上海智臻智能网络科技股份有限公司 用于生成同义词的方法和装置
CN105912600A (zh) * 2016-04-05 2016-08-31 上海智臻智能网络科技股份有限公司 问答知识库及其建立方法、智能问答方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090198674A1 (en) * 2006-12-29 2009-08-06 Tonya Custis Information-retrieval systems, methods, and software with concept-based searching and ranking
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
JP2014032536A (ja) * 2012-08-03 2014-02-20 Ntt Docomo Inc 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105159931A (zh) * 2015-08-06 2015-12-16 上海智臻智能网络科技股份有限公司 用于生成同义词的方法和装置
CN105912600A (zh) * 2016-04-05 2016-08-31 上海智臻智能网络科技股份有限公司 问答知识库及其建立方法、智能问答方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘以林: "《中华学生科普文库(35)语言文字的演变》", 31 December 1998 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN110162753B (zh) * 2018-11-08 2022-12-13 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN109522338A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN109522338B (zh) * 2018-11-09 2021-01-29 天津开心生活科技有限公司 临床术语挖掘方法、装置、电子设备及计算机可读介质
CN109473103A (zh) * 2018-11-16 2019-03-15 上海玖悦数码科技有限公司 一种会议纪要生成方法
CN111597326A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 生成商品描述文本的方法及装置
CN111597326B (zh) * 2019-02-21 2024-03-05 北京汇钧科技有限公司 生成商品描述文本的方法及装置
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN111046282A (zh) * 2019-12-06 2020-04-21 贝壳技术有限公司 文本标签设置方法、装置、介质以及电子设备
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法
CN111291186A (zh) * 2020-01-21 2020-06-16 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111291186B (zh) * 2020-01-21 2024-01-09 北京捷通华声科技股份有限公司 一种基于聚类算法的上下文挖掘方法、装置和电子设备
CN111414479A (zh) * 2020-03-16 2020-07-14 北京智齿博创科技有限公司 基于短文本聚类技术的标签抽取方法
CN111414479B (zh) * 2020-03-16 2023-03-21 北京智齿博创科技有限公司 基于短文本聚类技术的标签抽取方法
CN111930805A (zh) * 2020-08-10 2020-11-13 中国平安人寿保险股份有限公司 一种信息挖掘方法及计算机设备
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN114443850B (zh) * 2022-04-06 2022-07-22 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质

Also Published As

Publication number Publication date
CN108628906B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN108628906A (zh) 短文本模板挖掘方法、装置、电子设备和可读存储介质
Klinkmüller et al. Increasing recall of process model matching by improved activity label matching
CN105975531B (zh) 基于对话知识库的机器人对话控制方法和系统
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN106257441B (zh) 一种基于词频的skip语言模型的训练方法
CN110765759B (zh) 意图识别方法及装置
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN104281565B (zh) 语义词典构建方法和装置
CN106022708A (zh) 一种预测员工离职的方法
CN109829052A (zh) 一种基于人机交互的开放式对话方法和系统
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN109726289A (zh) 事件检测方法及装置
CN102253930A (zh) 一种文本翻译的方法及装置
CN104298683B (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN112949907B (zh) 一种工程造价的定额匹配方法、装置、设备及存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN110287321A (zh) 一种基于改进特征选择的电力文本分类方法
CN107451212A (zh) 基于相关搜索的同义挖掘方法和装置
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant