CN110134777A - 问题去重方法、装置、电子设备和计算机可读存储介质 - Google Patents

问题去重方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN110134777A
CN110134777A CN201910457996.1A CN201910457996A CN110134777A CN 110134777 A CN110134777 A CN 110134777A CN 201910457996 A CN201910457996 A CN 201910457996A CN 110134777 A CN110134777 A CN 110134777A
Authority
CN
China
Prior art keywords
corpus
vocabulary
word
typical
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910457996.1A
Other languages
English (en)
Other versions
CN110134777B (zh
Inventor
王卓然
亓超
马宇驰
陈华荣
秦海龙
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NONGXIN TECHNOLOGY (BEIJING) Co.,Ltd.
Tencent Technology Shenzhen Co Ltd
Beijing Research Center for Information Technology in Agriculture
Original Assignee
Triangle Animal (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Triangle Animal (beijing) Technology Co Ltd filed Critical Triangle Animal (beijing) Technology Co Ltd
Priority to CN201910457996.1A priority Critical patent/CN110134777B/zh
Publication of CN110134777A publication Critical patent/CN110134777A/zh
Application granted granted Critical
Publication of CN110134777B publication Critical patent/CN110134777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种问题去重方法、装置、电子设备及计算机可读存储介质。该方法包括:对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频‑逆文本频率,基于各个问题语料分别对应的多个问题词汇的词频‑逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。本申请实施例实现了计算得到问题类别的数量,具有较高的准确性,进一步基于一个问题类别得到对应的一个标准问题,能有效的针对大数量的问题进行去重处理。

Description

问题去重方法、装置、电子设备和计算机可读存储介质
技术领域
本申请涉及互联网信息技术领域,具体而言,本发明涉及一种问题去重方法、装置、电子设备和计算机可读存储介质。
背景技术
自动问答系统(Question-Answer System,QA系统)也叫聊天机器人系统,是一种依靠发达的互联网信息技术,借助于通讯工具实现人与机器之间沟通交流的智能聊天系统。
目前的自动问答系统主要是基于检索的方式实现的,通过从一个预设的信息服务平台中获取大量的问题和答案,对大量的问题和答案进行聚类合并后,得到能存储在自动问答系统中的问题和答案。当系统接收到目标问题后,从自动问答系统中匹配最接近的问题,将该问题对应的答案作为目标问题的答案输出。
在对大量的问题和答案进行聚类合并的过程中,常采用K-means迭代求解的聚类分析算法,该算法随机选择K个算法作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距它最近的聚类中心,因此聚类中心以及分配给它们的对象就是一个聚类。该方法中聚类的数量具有随机性,导致对问题进行归类的效果不好。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是聚类数量具有随机性导致对问题进行归类的效果不好的技术缺陷。
第一方面,提供了一种问题去重方法,该方法包括:
对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对所述多个问题语料进行归类处理,得到多个问题类别;
基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
第二方面,提供了一种问题去重装置,该装置包括:
分词计算模块,用于对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
归类模块,用于基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对所述多个问题语料进行归类处理,得到多个问题类别;
确定模块,用于基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行上述所述的问题去重方法。
例如,本申请的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如本申请的第一方面所示的问题去重方法对应的操作。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述所述的问题去重方法。
例如,本申请实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的问题去重方法。
本申请实施例提供的技术方案带来的有益效果是:
通过利用各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,该问题类别的数量是经过计算得到的,非预设的数量,具有较高的准确性,进一步基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题,即一个问题类别对应一个标准问题,能有效的针对大数量的问题进行去重处理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种问题去重方法的流程示意图;
图2为本申请实施例提供的一种问题去重装置的结构示意图;
图3为本申请实施例提供的一种问题去重的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前,在对大量的问题和答案进行聚类合并的过程中,常采用K-means迭代求解的聚类分析算法,该算法随机选择K个算法作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距它最近的聚类中心,因此聚类中心以及分配给它们的对象就是一个聚类。该方法中聚类的数量具有随机性,导致对问题进行归类的效果不好。
本申请提供的问题去重方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种问题去重方法,如图1所示,该方法包括:
S101,对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
互联网上存在大量的论坛或者平台,如中国农技推广信息服务平台、知乎等,用户1在论坛或者平台上发布问题,用户2可在对应的论坛或者平台上发布的对应的答案。因此,一个论坛或者平台上对应有大量的问题。第一数量的基础问题语料可指一个论坛/平台上的全部/部分问题,也可指得到多个论坛/平台上的全部/部分问题。多个问题语料指针对待归类的目标问题语料,是从一个论坛/平台上得到的,或者,从多个论坛/平台上得到的。
S102,基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别;
词频-逆文本频率是一种用于信息检索与数据挖掘的常用加权技术,用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,即这篇文章的关键词。
词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是词频TF与逆文本频率IDF的乘积,其中,总文档数与含有某一个词汇的文档数的比值的常用对数即为该词汇的逆文本频率。
S103,基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
多个问题语料归类处理后得到多个问题类别,每个问题类别包括至少一个问题语料,每个问题类别中的问题语料为相同问题的不同或相同表达,如“为什么这么设置”和“为什么这样设置”表达的是同样的意思。进一步地,确定各个问题类别分别对应的一个标准问题。
其中,从一个问题类别中依据预设的标准确定与该问题类别对应的标准问题,例如,选择问题类别中与具有最多回复答案的问题作为标准问题。
在本申请实施例中,通过利用各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,该问题类别的数量是经过计算得到的,非预设的数量,具有较高的准确性,进一步基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题,即一个问题类别对应一个标准问题,能有效的针对大数量的问题进行去重处理。
实施例二
本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,S102具体包括:
步骤A:针对任两个问题语料,基于任两个问题语料中每个问题语料的多个问题词汇的词频-逆文本频率,建立与任两个问题语料一一对应的两个问题向量,并计算两个问题向量之间的相似度;
步骤B:若相似度大于预设第一阈值,则将任两个问题语料归类为同一个问题类别,若相似度不大于预设第一阈值,则将任两个问题语料归类为两个问题类别;
重复执步骤A与步骤B,直到将多个问题语料均归类至相应的问题类别。
对多个问题语料中的任两个问题语料,基于每个问题语料的多个问题词汇的词频-逆文本频率,建议与每个问题语料对应问题向量,计算两个问题向量之间的余弦相似度,若余弦相似度大于预设第一阈值,则将该两个问题语料归为一类,若余弦相似度不大于预设第一阈值,则将该两个问题语料归为两类。重复执行上述步骤内容,直到将多个问题语料均归类至相应的问题类别。
在又一个具体实施例中,该方法还包括S104(图中未标出):
S104,基于第一数量的基础问题语料,提取专业词汇;
对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,包括S1011(图中未标出)和S1012(图中未标出):
S1011,对多个问题语料分别进行分词操作,得到每一问题语料对应的分词结果;
S1012,基于专业词汇和预设的通用词汇对任一问题语料对应的分词结果进行筛选操作,得到多个问题词汇。
现有的大规模文本去重场景都是基于通用文本进行的去重,对于垂直门户网站来说,由于垂直门户网站具有针对本网站的专业词汇,通常情况下,通用文本中不包括全部或者部分专业词汇。因此,基于通用文本进行去重的效果较差。由于分词的准确度对于去重效果至关重要,因此,本申请基于第一数量的基础问题语料,提取基础问题语料中的专业词汇,在专业词汇的基础上进行去重,能提高去重的效果。
基于第一数量的基础问题语料,提取专业词汇的方式为:
针对任一基础问题语料进行分词,得到多个词;
步骤C:计算第一个词和第二个词之间的互信息,若互信息小于预设第二阈值,则将第二个词作为第一个词,第三个词作为第二个词,重新执行步骤C,若互信息不小于预设第二阈值则将第一个词和第二个词的结合确定为中间词,计算中间词的左熵和右熵,若左熵小于预设第三阈值,右熵小于预设第四阈值,则将中间词作为第一个词,将第三个词作为第二个词,重新执行步骤C,若左熵不小于预设第三阈值,右熵不小于预设第四阈值,则当中间词不属于预设的通用词汇时,确定中间词为专业词,将第三个词和第四个词分别作为第一个词和第二个词,重新执行步骤C。
其中,互信息是计算语言学模型分析的常用方法,用于度量两个对象之间的相互性。左右熵一般用于统计方法中的新词发现,计算一个词的左熵和右熵,熵越大,越说明是一个新词。熵表示不确定性,熵越大,不确定越大,也就是这个词的左右搭配越丰富,选择越多。
进一步地,对多个问题语料分别进行分词操作,得到每一问题语料对应的分词结果,利用专业词汇和预设的通用词汇对任一问题语料对应的分词结果进行筛选操作,得到多个问题词汇。
在又一具体的实施例中,S101之前还包括S105(图中未标出):
S105,利用专业词汇对第一数量的基础问题语料进行筛选,得到多个问题语料,并确定各个问题语料分别对应的答案语料。
由于在第一数量的基础问题语料中,除高质量的问题语料外,可能还存在一些与专业知识无关的问题,因此需要对问题进行清洗,筛选出待归类的问题语料,并确定待归类的答案语料。
具体地,基于第一数量的基础问题语料,提取专业词汇,第一数量的基础问题语料中存在一些与专业知识无关的问题,利用专业词汇对第一数量的基础问题语料进行筛选,得到多个问题语料。由于基础问题语料中存在具有对应关系的问题和答案,因此,根据筛选出的多个问题语料能确定各个问题语料分别对应的答案语料。
在又一具体的实施例中,利用专业词汇对第一数量的基础问题语料进行筛选,得到多个问题语料,包括S1051(图中未标出)、S1052(图中未标出)和S1053(图中未标出):
S1051,筛选出第一数量的基础问题语料中包含专业词汇的问题语料;
S1052,利用所预设的通用文本和专业词汇滤除筛选出的问题语料中的异常词汇;
S1053,利用预设支持向量机分类模型对滤除异常词汇后的问题语料进行预测处理,得到多个问题语料。
异常词汇包括口语化的词汇、错误词汇和多余词汇等。针对筛选出的包含专业词汇的问题语料,滤除异常词汇后,利用支持向量机分类模型进行预测处理,以便确定问题的具体含义确定问题的正确表述,得到多个问题语料。
支持向量机分类模型(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,类似于感知机模型。旨在求出n维空间的最优超平面,将正负类分开。这里的最优是指使在两类样本点距离超平面的最近距离达到最大,而距离最大又使得它区别于感知机模型。SVM经过一系列改进和扩展后,用于文本分类领域,能对滤除异常词汇后的问题语料进行预测处理,得到多个问题语料。
在又一个具体的实施例中,该方法还包括S106(图中未标出)和S107(图中未标出):
S106,基于各个问题类别分别对应的至少一个问题语料的答案语料,确定各个问题类别对应的标准答案;
S107,将各个问题类别分别对应的标准问题与相应问题类别对应的标准答案建立对应关系,以建立问答系统。
其中,按照预设的标准确定一个问题类别中对应的标准答案,例如,针对一个问题类别对应的至少一个问题语料的答案语料,根据答案语料中专业词汇的个数,以及该问题类别对应的标准问题的长度,确定一个标准答案。
由于各个问题类别中的各个问题语料均对应一个或者多个答案语料,针对各个问题类别中的各个问题语料对应的一个或者多个答案语料,确定与各个问题类别对应的标准答案。将各个问题类别分别对应的标准问题与相应问题类别对应的标准答案建立对应关系,以建立问答系统,便于获取到用户发布的目标问题后,问答系统基于目标问题匹配标准问题,进而确定与匹配到的标准问题对应的标准答案,将标准答案作为目标问题对应的答案输出,反馈给用户。
优选地,本申请中的问答系统为垂直领域的人机交互问答系统,由用户提出问题,系统进行回复。
在又一个具体的实施例中,该方法还包括S108(图中未标出)和S109(图中未标出):
S108,通过问答系统,确定接收到目标问题对应的标准问题;
S109,基于问答系统,得到标准问题对应的标准答案,作为目标问题的答案。
获取到用户发送的目标问题后,通过问答系统,确定与接收到的目标问题对应的语义相近的标准问题,并通过问答系统确定与标准问题对应的标准答案,将该标准答案作为目标问题的答案,反馈给用户,实现在问答领域上的人机交互。
在又一个具体的实施例中,确定接收到目标问题对应的标准问题包括S1081(图中未标出)、S1082(图中未标出)和S1083(图中未标出):
S1081,计算目标问题与问答系统中各个标准问题之间的词语重合度得分,并基于预设语义模型计算目标问题与问答系统中各个标准问题之间的语义距离;
S1082,利用词语重合度得分和语义距离进行线性加权操作,得到目标问题与各个标准问题之间的相似度;
S1083,将相似度最大的标准问题确定为目标问题的标准问题。
N-Gram模型能利用上下文中相邻词间的搭配信息,实现到汉字的自动转换,计算出具有最大概率的句子。因此,利用N-Gram模型计算目标问题与问答系统中各个标准问题之间的词语重合度得分,和/或,利用词频-逆文本频率计算目标问题与问答系统中各个标准问题之间词语重合度得分。基于预设语义模型计算目标问题与问答系统中各个标准问题之间的语义距离,其中,预设语义模型为Word2Vec语义模型。Word2Vec语义模型可以在百万数量级的词典和上亿的数据集上进行高效地训练,其次,Word2Vec语义模型得到的是词向量的训练结果,可以很好地度量词与词之间的相似性,进而计算目标问题与问答系统中各个标准问题之间的语义距离。
进一步地,利用词语重合度得分和语义距离进行线性加权操作,得到目标问题与各个标准问题之间的相似度,将相似度最大的标准问题确定为目标问题的标准问题,便于基于问答系统确定与标准问题对应的标准答案,作为目标问题的答案并反馈用户。
在又一个具体的实施例中,该方法还包括S110(图中未标出):
S110,基于目标问题,从问答系统中各个标准问题中匹配得到候选标准问题;
确定接收到目标问题对应的标准问题,包括S1084(图中未标出)、S1085(图中未标出)和S1086(图中未标出):
S1084,计算目标问题与各个候选标准问题之间的词语重合度得分,并基于预设语义模型计算目标问题与各个候选标准问题之间的语义距离;
S1085,利用词语重合度得分和语义距离进行线性加权操作,得到目标问题与各个候选标准问题之间的相似度;
S1086,将相似度最大的候选标准问题确定为目标问题的标准问题。
当问题系统中的标准问题数量较多时,基于目标问题,从问答系统中各个标准问题中匹配得到候选标准问题,其中,采用预设搜索服务器如Elastic Search,在问答系统中各个标准问题中匹配得到一个或者多个候选标准问题。基于候选标准问题计算目标问题与各个候选标准问题之间的词语重合度得分和语义距离,基于词语重合度得分和语义距离计算目标问题与各个候选标准问题之间的相似度,将相似度最大的候选标准问题确定为目标问题的标准问题,便于基于问答系统确定与标准问题对应的标准答案,作为目标问题的答案并反馈用户。
在本申请实施例中,通过利用各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,该问题类别的数量是经过计算得到的,非预设的数量,具有较高的准确性,进一步基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题,即一个问题类别对应一个标准问题,能有效的针对大数量的问题进行去重处理。
实施例三
本申请实施例提供了一种问题去重装置,如图2所示,该问题去重装置20可以包括:分词计算模块201、归类模块202以及确定模块203,其中,
分词计算模块201,用于对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
归类模块202,用于基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别;
确定模块203,用于基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
在另一具体的实施例中,归类模块202包括:
建立计算模块,用于执行步骤A:针对任两个问题语料,基于任两个问题语料中每个问题语料的多个问题词汇的词频-逆文本频率,建立与任两个问题语料一一对应的两个问题向量,并计算两个问题向量之间的相似度;
第一归类模块,用于执行步骤B:若相似度大于预设第一阈值,则将任两个问题语料归类为同一个问题类别,若相似度不大于预设第一阈值,则将任两个问题语料归类为两个问题类别;
重复模块,用于重复执行所述建立计算模块与所述第一归类模块执行的动作,直到将多个问题语料均归类至相应的问题类别。
在另一具体的实施例中,该模块还包括提取模块(图中未标出):
提取模块,基于第一数量的基础问题语料,提取专业词汇;
分词计算模块201包括分词模块(图中未标出)、第一筛选模块(图中未标出)和第一计算模块(图中未标出):
分词模块,用于对多个问题语料分别进行分词操作,得到每一问题语料对应的分词结果;
第一筛选模块,用于基于专业词汇和预设的通用词汇对任一问题语料对应的分词结果进行筛选操作,得到多个问题词汇;
第一计算模块,用于基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率。
在另一具体的实施例中,分词计算模块201之前还包括筛选确定模块(图中未标出):
筛选确定模块,用于利用专业词汇对第一数量的基础问题语料进行筛选,得到多个问题语料,并确定各个问题语料分别对应的答案语料。
在另一具体的实施例中,筛选确定模块包括第二筛选模块(图中未标出)、滤除模块(图中未标出)、预测模块(图中未标出)和第一确定模块(图中未标出):
第二筛选模块,用于筛选出所述第一数量的基础问题语料中包含所述专业词汇的问题语料;
滤除模块,用于利用所述预设的通用文本和所述专业词汇滤除筛选出的问题语料中的异常词汇;
预测模块,用于利用预设支持向量机分类模型对滤除异常词汇后的问题语料进行预测处理,得到所述多个问题语料;
第一确定模块,用于确定各个问题语料分别对应的答案语料。
在另一具体的实施例中,该装置还包括第二确定模块(图中未标出)和建立模块(图中未标出):
第二确定模块,用于基于各个问题类别分别对应的至少一个问题语料的答案语料,确定各个问题类别对应的标准答案;
建立模块,用于将各个问题类别分别对应的标准问题与相应问题类别对应的标准答案建立对应关系,以建立问答系统。
在另一具体的实施例中,该装置还包括第三确定模块(图中未标出)和第一得到模块(图中未标出):
第三确定模块,用于通过问答系统,确定接收到目标问题对应的标准问题;
第一得到模块,用于基于问答系统,得到标准问题对应的标准答案,作为目标问题的答案。
在另一具体的实施例中,第三确定模块包括第二计算模块(图中未标出)、第二得到模块(图中未标出)和第四确定模块(图中未标出):
第二计算模块,用于通过问答系统,计算目标问题与问答系统中各个标准问题之间的词语重合度得分,并基于预设语义模型计算目标问题与问答系统中各个标准问题之间的语义距离;
第二得到模块,用于利用词语重合度得分和语义距离进行线性加权操作,得到目标问题与各个标准问题之间的相似度;
第四确定模块,用于将相似度最大的标准问题确定为目标问题的标准问题。
在另一具体的实施例中,该装置还包括匹配模块(图中未标出):
匹配模块,用于基于目标问题,从问答系统中各个标准问题中匹配得到候选标准问题;
第三确定模块包括第三计算模块(图中未标出)、第三得到模块(图中未标出)和第五确定模块(图中未标出):
第三计算模块,用于通过问答系统,计算目标问题与各个候选标准问题之间的词语重合度得分,并基于预设语义模型计算目标问题与各个候选标准问题之间的语义距离;
第三得到模块,用于利用词语重合度得分和语义距离进行线性加权操作,得到目标问题与各个候选标准问题之间的相似度;
第五确定模块,用于将相似度最大的候选标准问题确定为目标问题的标准问题。
本实施例的问题去重装置可执行本申请实施例一和/或本申请实施例二提供的一种问题去重方法,其实现原理相类似,此处不再赘述。
在本申请实施例中,通过利用各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,该问题类别的数量是经过计算得到的,非预设的数量,具有较高的准确性,进一步基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题,即一个问题类别对应一个标准问题,能有效的针对大数量的问题进行去重处理。
实施例四
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备2000包括:处理器2001和收发器2004。其中,处理器2001和收发器2004相连,如通过总线2002相连。可选的,电子设备2000还可以包括存储器2003。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一和/或实施例二所示的方法。
本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过利用各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对多个问题语料进行归类处理,得到多个问题类别,该问题类别的数量是经过计算得到的,非预设的数量,具有较高的准确性,进一步基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题,即一个问题类别对应一个标准问题,能有效的针对大数量的问题进行去重处理。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种问题去重方法,其特征在于,包括:
对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对所述多个问题语料进行归类处理,得到多个问题类别;
基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
2.根据权利要求1所述的方法,其特征在于,所述基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对所述多个问题语料进行归类处理,得到多个问题类别,包括:
步骤A:针对任两个问题语料,基于任两个问题语料中每个问题语料的多个问题词汇的词频-逆文本频率,建立与所述任两个问题语料一一对应的两个问题向量,并计算所述两个问题向量之间的相似度;
步骤B:若所述相似度大于预设第一阈值,则将所述任两个问题语料归类为同一个问题类别,若所述相似度不大于预设第一阈值,则将所述任两个问题语料归类为两个问题类别;
重复执行所述步骤A与所述步骤B,直到将所述多个问题语料均归类至相应的问题类别。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
基于所述第一数量的基础问题语料,提取专业词汇;
所述对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,包括:
对多个问题语料分别进行分词操作,得到每一问题语料对应的分词结果;
基于所述专业词汇和预设的通用词汇对任一问题语料对应的分词结果进行筛选操作,得到多个所述问题词汇。
4.根据权利要求3所述的方法,其特征在于,所述对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇之前,还包括:
利用所述专业词汇对第一数量的基础问题语料进行筛选,得到所述多个问题语料,并确定各个问题语料分别对应的答案语料。
5.根据权利要求4所述的方法,其特征在于,利用所述专业词汇对第一数量的基础问题语料进行筛选,得到所述多个问题语料,包括:
筛选出所述第一数量的基础问题语料中包含所述专业词汇的问题语料;
利用所述预设的通用文本和所述专业词汇滤除筛选出的问题语料中的异常词汇;
利用预设支持向量机分类模型对滤除异常词汇后的问题语料进行预测处理,得到所述多个问题语料。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
基于各个问题类别分别对应的至少一个问题语料的答案语料,确定各个问题类别对应的标准答案;
将各个问题类别分别对应的标准问题与相应问题类别对应的标准答案建立对应关系,以建立问答系统。
7.根据权利要求6所述的方法,其特征在于,还包括:
通过所述问答系统,确定接收到目标问题对应的标准问题;
基于所述问答系统,得到所述标准问题对应的标准答案,作为所述目标问题的答案。
8.根据权利要求7所述的方法,其特征在于,所述确定接收到目标问题对应的标准问题,包括:
计算所述目标问题与所述问答系统中各个标准问题之间的词语重合度得分,并基于预设语义模型计算所述目标问题与所述问答系统中各个标准问题之间的语义距离;
利用所述词语重合度得分和所述语义距离进行线性加权操作,得到所述目标问题与各个标准问题之间的相似度;
将相似度最大的标准问题确定为所述目标问题的标准问题。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述目标问题,从所述问答系统中各个标准问题中匹配得到候选标准问题;
所述确定接收到目标问题对应的标准问题,包括:
计算所述目标问题与各个候选标准问题之间的词语重合度得分,并基于预设语义模型计算所述目标问题与各个候选标准问题之间的语义距离;
利用所述词语重合度得分和所述语义距离进行线性加权操作,得到所述目标问题与各个候选标准问题之间的相似度;
将相似度最大的候选标准问题确定为所述目标问题的标准问题。
10.一种问题去重装置,其特征在于,包括:
分词计算模块,用于对多个问题语料分别进行分词操作得到每一问题语料对应的多个问题词汇,并基于第一数量的基础问题语料计算各个问题词汇的词频-逆文本频率;
归类模块,用于基于各个问题语料分别对应的多个问题词汇的词频-逆文本频率,对所述多个问题语料进行归类处理,得到多个问题类别;
确定模块,用于基于各个问题类别分别对应的至少一个问题语料,确定各个问题类别分别对应的标准问题。
11.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~9任一项所述的问题去重方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9任一项所述的问题去重方法。
CN201910457996.1A 2019-05-29 2019-05-29 问题去重方法、装置、电子设备和计算机可读存储介质 Active CN110134777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910457996.1A CN110134777B (zh) 2019-05-29 2019-05-29 问题去重方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910457996.1A CN110134777B (zh) 2019-05-29 2019-05-29 问题去重方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110134777A true CN110134777A (zh) 2019-08-16
CN110134777B CN110134777B (zh) 2021-11-26

Family

ID=67582640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910457996.1A Active CN110134777B (zh) 2019-05-29 2019-05-29 问题去重方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110134777B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543551A (zh) * 2019-09-04 2019-12-06 北京香侬慧语科技有限责任公司 一种问题语句处理方法和装置
CN111159370A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 一种短会话新问题生成方法、存储介质和人机交互装置
CN111241239A (zh) * 2020-01-07 2020-06-05 科大讯飞股份有限公司 重题检测方法、相关设备及可读存储介质
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112883715A (zh) * 2019-11-29 2021-06-01 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
US20180032897A1 (en) * 2016-07-26 2018-02-01 International Business Machines Corporation Event clustering and classification with document embedding
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法
US20180097749A1 (en) * 2016-10-03 2018-04-05 Nohold, Inc. Interactive virtual conversation interface systems and methods
US20180173697A1 (en) * 2013-09-09 2018-06-21 Ayasdi, Inc. Automated discovery using textual analysis
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和系统
CN109033221A (zh) * 2018-06-29 2018-12-18 上海银赛计算机科技有限公司 答案生成方法、装置及服务器
CN105045812B (zh) * 2015-06-18 2019-01-29 上海高欣计算机系统有限公司 文本主题的分类方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173697A1 (en) * 2013-09-09 2018-06-21 Ayasdi, Inc. Automated discovery using textual analysis
CN105045812B (zh) * 2015-06-18 2019-01-29 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
US20180032897A1 (en) * 2016-07-26 2018-02-01 International Business Machines Corporation Event clustering and classification with document embedding
US20180097749A1 (en) * 2016-10-03 2018-04-05 Nohold, Inc. Interactive virtual conversation interface systems and methods
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和系统
CN109033221A (zh) * 2018-06-29 2018-12-18 上海银赛计算机科技有限公司 答案生成方法、装置及服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543551A (zh) * 2019-09-04 2019-12-06 北京香侬慧语科技有限责任公司 一种问题语句处理方法和装置
CN110543551B (zh) * 2019-09-04 2022-11-08 北京香侬慧语科技有限责任公司 一种问题语句处理方法和装置
CN112883715A (zh) * 2019-11-29 2021-06-01 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN112883715B (zh) * 2019-11-29 2023-11-07 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN111159370A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 一种短会话新问题生成方法、存储介质和人机交互装置
CN111241239A (zh) * 2020-01-07 2020-06-05 科大讯飞股份有限公司 重题检测方法、相关设备及可读存储介质
CN111241239B (zh) * 2020-01-07 2022-12-02 科大讯飞股份有限公司 重题检测方法、相关设备及可读存储介质
CN112613295A (zh) * 2020-12-21 2021-04-06 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质
CN112613295B (zh) * 2020-12-21 2023-12-22 竹间智能科技(上海)有限公司 语料识别方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN110134777B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN112711953B (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN111581354A (zh) 一种faq问句相似度计算方法及其系统
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN113780007A (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN113254655B (zh) 文本分类方法、电子设备及计算机存储介质
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
Ranjan et al. Document classification using lstm neural network
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Al Mahmud et al. A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text
KR102155692B1 (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN115310564B (zh) 一种分类标签更新方法及系统
CN116304058B (zh) 企业负面信息的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200727

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 100029, Beijing, Chaoyang District new East Street, building No. 2, -3 to 25, 101, 8, 804 rooms

Applicant before: Tricorn (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200927

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Applicant after: BEIJING RESEARCH CENTER FOR INFORMATION TECHNOLOGY IN AGRICULTURE

Applicant after: NONGXIN TECHNOLOGY (BEIJING) Co.,Ltd.

Address before: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant