CN110032631B - 一种信息反馈方法、装置和存储介质 - Google Patents

一种信息反馈方法、装置和存储介质 Download PDF

Info

Publication number
CN110032631B
CN110032631B CN201910231997.4A CN201910231997A CN110032631B CN 110032631 B CN110032631 B CN 110032631B CN 201910231997 A CN201910231997 A CN 201910231997A CN 110032631 B CN110032631 B CN 110032631B
Authority
CN
China
Prior art keywords
information
corpus
sample
fed back
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910231997.4A
Other languages
English (en)
Other versions
CN110032631A (zh
Inventor
赵瑞辉
韦伟
乔倩倩
谭雯雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910231997.4A priority Critical patent/CN110032631B/zh
Publication of CN110032631A publication Critical patent/CN110032631A/zh
Application granted granted Critical
Publication of CN110032631B publication Critical patent/CN110032631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息反馈方法、装置和存储介质;本发明实施例先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;接着,使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;该方案可以有效地提高信息反馈的准确性。

Description

一种信息反馈方法、装置和存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种信息反馈方法、装置和存储介质。
背景技术
目前,通用领域的问答技术已经比较成熟,现有系统能够对用户提出的问题给出通用性的合理回答。然而,当问答系统应用于垂直领域时,用户提出的很多问题具有极高的专业性。一方面,用户期待得到专业性强、针对性强的回答,而不是通用性的回答;另一方面,用户本身时常也无法准确表述专业性问题。此时,利用通用性问答技术很难给出令人满意的答复。
发明内容
本发明实施例提供一种信息反馈方法、装置和存储介质,可以有效地提高信息反馈的准确性。
本发明实施例提供一种信息反馈方法,包括:
采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;
获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;
计算每个语料簇的语料关系度;
根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;
使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;
利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
相应的,本发明实施例还提供一种信息反馈装置,包括:
采集单元,用于采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;
获取单元,用于获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;
计算单元,用于计算每个语料簇的语料关系度;
聚类单元,用于根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;
生成单元,用于使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;
确定单元,用于利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
可选的,在一些实施例中,所述计算单元可以包括提取子单元和构建子单元,如下:
计算子单元,用于计算每个语料簇中有连接关系的语料间的编辑距离,根据所述编辑距离构建语料关系图;
调整子单元,用于对所述语料关系图进行调整,得到语料关系度。
可选的,在一些实施例中,所述计算子单元,具体用于确定所述语料簇中有连接关系的语料间的权重;根据所述权重计算所述语料间的编辑距离。
可选的,在一些实施例中,所述调整子单元,具体用于以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度。
可选的,在一些实施例中,所述获取单元可以包括获取子单元和语料分类子单元,如下:
所述获取子单元,用于获取待反馈信息样本的粗粒度类别集;
所述语料分类子单元,用于将采集到的待反馈信息样本集根据所述粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。
可选的,在一些实施例中,所述确定单元可以包括训练子单元和信息分类子单元,如下:
所述训练子单元,用于利用所述知识树图谱对预设的分类器进行训练,得到类别分类器;
所述信息分类子单元,用于基于所述类别分类器对待反馈信息进行分类。
可选的,在一些实施例中,所述训练子单元,具体用于根据所述知识树图谱采用预设的分类器对所述待反馈样本信息进行分类,得到所述待反馈样本信息的预测值;获取所述待反馈样本信息的真实值,并根据所述待反馈样本信息的真实值和预测值对所述分类器进行收敛,得到类别分类器。
可选的,在一些实施例中,所述采集单元可以包括采集子单元和建立子单元,如下:
采集子单元,用于采集多个待反馈信息样本和多个反馈信息样本;
建立子单元,用于建立所述多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
此外,本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例提供的任一种信息反馈方法中的步骤。
本发明实施例先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;接着,使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;由于该方案可以先计算语料关系度,再根据语料关系度进行聚类生成知识树图谱,以在短时间内获得大量的细粒度类别,然后使用该知识树图谱对待反馈信息进行分类,以提高待反馈信息分类的准确性,确保最终确定待反馈信息对应的反馈信息的准确度,所以,相对于仅仅依靠机器对待反馈信息确定反馈信息的方案而言,该方案可以输出与待反馈信息相匹配的反馈信息,该方案更具有针对性,可以有效提高信息反馈的准确性,大大改善了反馈效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的信息反馈方法的场景示意图;
图1b是本发明实施例提供的信息反馈方法的流程图;
图2a是本发明实施例提供的信息反馈方法的另一流程图;
图2b是本发明实施例提供的语料关系度的调整过程示意图;
图2c是本发明实施例提供的高血压的知识树图谱;
图2d是本发明实施例提供的高血压知识树图谱的构建过程示意图;
图2e是本发明实施例提供的高血压的问题与回答的流程图;
图2f是本发明实施例提供的高血压的问题与对应的回答的示意图;
图3本发明实施例提供的信息反馈装置的结构示意图;
图4是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信息反馈方法、装置和存储介质。其中,该信息反馈装置可以集成在网络设备中,该网络设备可以是服务器,也可以是终端等设备。
例如,以该信息反馈装置集成在服务器中为例,参见图1a,首先,采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;当服务器接收到待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇,比如接收到人工构建样本信息的知识点以及按知识点划分的多个语料簇,再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,当服务器接收到终端发送的待反馈信息时,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息,比如,获取服务器中已存储的人工结合知识树图谱给出类别对应的反馈信息,以发送给终端,并在终端上进行显示,等等。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从信息反馈装置的角度进行描述,该信息反馈装置具体可以集成在网络设备中,该网络设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(Personal Computer,PC)等设备。
一种信息反馈方法,包括:先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
如图1b所示,该信息反馈方法的具体流程可以如下:
101、采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本。
例如,具体可以采集多个待反馈信息样本和多个反馈信息样本,建立所述多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
其中,采集多个待反馈信息样本和多个反馈信息样本的方式可以有很多种,比如,可以利用网络爬取技术从网络中爬取到大量待反馈信息样本和反馈信息样本,等等。
其中,将采集到的待反馈信息样本集和反馈信息样本建立对应关系的方式也可以有很多种,比如,每个待反馈信息样本是一个语料,每个反馈信息样本也是一个语料,为了提高语料分类的专业性,可以由专业人员将待反馈信息样本集和反馈信息样本集分别进行分类归纳,总结得出主要的待反馈信息样本,由专业人员归纳整理出对应的反馈信息样本,然后,建立多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
102、获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇。
例如,具体可以获取待反馈信息样本的粗粒度类别集,比如,可以接收用户通过终端发送待反馈信息样本的粗粒度类别集,或接收其他设备发送的待反馈信息样本的粗粒度类别集,又或者,还可以从本地存储空间中获取已整理好的待反馈信息样本的粗粒度类别集,然后,将采集到的待反馈信息样本集根据该粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。其中,所述粗粒度类别集包括多个粗粒度类别。
其中,待反馈信息样本的粗粒度类别集可以由机器生成,为了待反馈信息样本分类的专业性,也可以由专业人员对待反馈信息样本进行粗粒度分类,等等。然后,根据粗粒度类别集对整理后的语料进行标注分类,得到每个粗粒度类别的语料簇。
其中,粗粒度类别指的是将待反馈信息样本分成几个大类,每个大类即待反馈信息样本的粗粒度类别,即一级类别,分成的几个大类的集合就是粗粒度类别集。粗粒度类别可以根据实际情况的需要,在一级类别下再划分二级类别,亦可以属于粗粒度类别。粗粒度类别可根据实际情况进行设置。所谓语料,即语言材料,而语料簇即多个语料的集合。
103、计算每个语料簇的语料关系度;例如,具体可以如下:
(1)计算每个语料簇中有连接关系的语料间的编辑距离,根据该编辑距离构建语料关系图。
例如,具体可以确定该语料簇中有连接关系的语料间的权重,根据该权重计算该语料间的编辑距离,比如,经过人工数据标注后,每个结点都包含了一定量的语料,即语料簇,假设它包含n个语料句,每一语料句为一个点,即对应的点集为V={v1,v2…vn};E为这些点之间的边集,对于u和v两点,如果{u,v}在E中,则代表他们之间有边;w为边的权重集,w(x,y)表示x和y之间边的权重。通过编辑距离(LevenshteinDistance)算法计算编辑距离得到。若两句话之间的编辑距离大于0.8,则舍去此边,认为这两句话不连接。定义一个点u的相邻点集,如下:
Γ(u)={v∈V|{u,v}∈E}∪{u}
并定义两个点u和v之间的编辑距离为:
Figure BDA0002006999110000071
根据以上编辑距离的计算构建出该结点下的语料对应的语料关系图,这些点集形成了一个拓扑结构。
(2)对该语料关系图进行调整,得到语料关系度。
例如,具体可以以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度。比如,考虑到拓扑结构中点与点之间的相互作用,可以根据这种相互作用来对权重集进行微调,并构建一个函数来衡量微调的程度,比如,可以利用以下三种相互作用:
A、直接连接的点之间的相互作用。对于直接有边连接的两点u和v,它们的紧密程度显然是比没有边直接连接的两点更大的,因此,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响DI,可得到表达式如下:
Figure BDA0002006999110000072
其中,deg(u)表示u这一点的度,也就是u的邻居数。在此,deg(u)这一参数主要是为了归一化,避免点的邻居数量对结果造成干扰。
B、当两点均和同一个第三点(邻居)连接时,它们之间的紧密程度更高。相应的,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响CI,可得到表达式如下:
Figure BDA0002006999110000081
C、当两点各自都有且仅有一个邻居时,可以通过观察它们各自唯一的邻居来衡量这两个点的关系。若点u的邻居点和v相似,则u的邻居应该和v更近,进一步可以得出u和v之间的距离也应该进一步变小。设凝聚度参数为λ(lambda),通过调整λ可以改变距离变化的强度,从而调节聚类结果的紧密度。此作用可得到表达式如下:
Figure BDA0002006999110000082
Figure BDA0002006999110000083
综合以上三种作用力,可以得到总的距离调节公式为:
d(u,v,t+1)=d(u,v,t)+DI(t)+CI(t)+EI(t)
其中,t表示调节次数,初始时t=0。该式子表示的是在每一次微调后,任意两点间距离的变化情况。两点间的距离变化主要由它们是否连接(DI)、是否有公共邻居(CI)或是否有唯一的邻居点(EI)决定。
通过以上的逐步微调公式,可以根据网络的拓扑结构逐步改变句子点之间的距离,使得同一类的数据越来越近,距离趋近于1;异类数据越来越远,距离趋近于0。在迭代多步后图中各点之间的距离仅存在等于1或等于0两种情况。
104、根据该语料关系度对该语料簇进行聚类,得到细粒度类别集。
例如,具体可以根据计算每个语料簇中语料间的编辑距离,并通过调整语料间的编辑距离来对该语料簇进行聚类,得到细粒度类别集。比如,可以通过各点之间的距离,当各点之间的距离仅存在等于1或等于0两种情况时,该语料簇聚类完成。可以通过查看点与点之间的关系即可得到语料聚类后的结果。
其中,细粒度类别指的是将样本信息分成几个大类后,再把每个大类细分成多个小类,这些小类即样本信息的细粒度类别,多个小类的集合就是细粒度类别集。
105、使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱。
例如,具体可以根据粗粒度类别集和细粒度类别集与样本信息的层级关系,生成样本信息的知识树图谱。
其中,知识树本质上就是一个层级式知识图,它表达了为实现某一组织目标的所有相关组织知识间的因果关系或从属关系,则知识树图谱为按层级式编制的图集。
106、利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
例如,具体可以利用该知识树图谱对预设的分类器进行训练,得到类别分类器,比如,可以根据所述知识树图谱采用预设的分类器对所述待反馈样本信息进行分类,得到所述待反馈样本信息的预测值;获取所述待反馈样本信息的真实值,并根据所述待反馈样本信息的真实值和预测值对所述分类器进行收敛,得到类别分类器。然后,基于该类别分类器对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。其中,样本信息组中的反馈信息样本可能为一个或多个,若为多个可以从中选择其中一个作为反馈信息。比如,可以在知识树这一多叉树上的每个结点训练一个多类别分类器,就可以将待反馈信息分类到对应的结点上。此类别分类器可以由多种形式实现,比如,利用支持向量机(Support Vector Machine,SVM)、逻辑回归分类器(Logistic Regression,LR)、长短期记忆网络(Long Short-TermMemory,LSTM),等等。
由上可知,本发明实施例先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;由于该方案可以先计算语料关系度,再根据语料关系度进行聚类生成知识树图谱,以在短时间内获得大量的细粒度类别,然后使用该知识树图谱对待反馈信息进行分类,以提高待反馈信息分类的准确性,确保最终确定待反馈信息对应的反馈信息的准确度,所以,相对于仅仅依靠机器对待反馈信息确定反馈信息的方案而言,该方案可以输出与待反馈信息相匹配的反馈信息,该方案更具有针对性,可以有效提高信息反馈的准确性,大大改善了反馈效果。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息反馈装置具体集成在网络设备,其以样本信息具体为高血压,对高血压的相关问题为待反馈信息(以下简称问题),对高血压的相关问题对应的回答为反馈信息(以下简称回答),为例进行说明。
如图2a所示,一种信息反馈方法,具体流程可以如下:
201、网络设备采集高血压的问答样本集,该问答样本集包括问题样本集和回答样本集。
例如,网络设备可以利用网络爬取技术从网络中爬取到大量高血压相关的问答对,然后,由专业人员将问题集和回答集分别进行分类归纳,总结得出主要的问题,由专业人员归纳整理出对应的标准回答,并建立高血压的问题样本集和回答样本集的数据库,简称为问答对数据库,网络设备接收用户发送的问答对数据库,等等。
202、网络设备获取高血压问题样本集的粗粒度类别集以及每个粗粒度类别的语料簇。
例如,网络设备具体可以获取高血压问题样本集的粗粒度类别集,比如,可以接收用户通过终端发送高血压问题样本集的粗粒度类别集,或接收其他设备发送的高血压问题样本集的粗粒度类别集,又或者,还可以从本地存储空间中获取已整理好的高血压问题样本集的粗粒度类别集,然后,将采集到的待反馈信息样本集根据该粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。比如,高血压问题样本集的粗粒度类别集可以由专业人员对高血压问题样本集进行粗粒度分类,如预防、治疗、并发症、生活方式、就医指导、分型、病因、症状、诊断、预后咨询以及空等等一级粗粒度类别。进一步的,一级粗粒度类别还可以划分为二级粗粒度类别,比如,治疗可以进一步划分为用药、手术治疗、中医药治疗、偏方、保健品及保健器械等等,并发症可以划分为脑血管病、心力衰竭、冠心病及肾衰竭等等,生活方式可以划分为运动、睡眠、饮食以及精神放松等等,就医指导可以划分为就医推荐、流程咨询等等,分型可以划分为一级高血压、二级高血压、三级高血压、单纯收缩期高血压、少儿高血压、顽固性高血压、妊娠高血压、继发性高血压、老年高血压、以及假性高血压等等,病因可以划分为遗传免疫、环境因素、精神因素、不良习惯、以及药物等等,症状可以划分为头颈、五官、四肢、躯干、以及内脏等等,诊断可以划分为体检报告、心电图、电子计算机断层扫描(Computed Tomography,CT)、磁共振成像(Magnetic Resonance Imaging,MRI)、超声、以及血压等等,预后咨询可以划分为危害、后遗症、以及能否痊愈等等,以构建高血压知识树的主干,然后,再将采集到的问题样本集按照划分出的粗粒度类别进行分类,比如,每个粗粒度类别都为一个结点,由标注人员为已有的问题打出专业标签。在打标签时,首先按照最细粒度的标签进行标注,即尽量按照知识树主干最外层的标签标注,也就是二级粗粒度类别。若找不到合适的最细粒度标签,则考虑用最近的上一级标签标注,即一级粗粒度类别。标注完成后将得到一组语料,此语料包括用户可能问到的问题,和与其对应的、处于知识树主干上某一结点的标签,即得到这些粗粒度类别对应的多个语料簇。
203、网络设备计算每个语料簇的语料关系度;例如,具体可以如下:
(1)网络设备计算每个语料簇中有连接关系的语料间的编辑距离,根据该编辑距离构建语料关系图。
例如,具体可以确定该语料簇中有连接关系的语料间的权重,根据该权重计算该语料间的编辑距离,比如,经过人工数据标注后,每个结点都包含了一定量的语料,即语料簇,假设它包含n个语料句,每一语料句为一个点,即对应的点集为V={v1,v2…vn};E为这些点之间的边集,对于u和v两点,如果{u,v}在E中,则代表他们之间有边;w为边的权重集,w(x,y)表示x和y之间边的权重。通过编辑距离算法计算编辑距离得到。若两句话之间的编辑距离大于0.8,则舍去此边,认为这两句话不连接。定义一个点u的相邻点集,如下:
Γ(u)={v∈V|{u,v}∈E}∪{u}
并定义两个点u和v之间的编辑距离为:
Figure BDA0002006999110000121
根据以上编辑距离的计算构建出该结点下的语料对应的语料关系图,比如,该语料关系图可以是无向带权图,如图2b(a)所示。由图2b(a)可以看出,这些点集形成了一个拓扑结构,但哪些点应该为同一类、一共有多少类,却很难确定。因此,可以执行以下步骤(2)。
(2)网络设备对该语料关系图进行调整,得到语料关系度。
例如,具体可以以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度。比如,考虑到拓扑结构中点与点之间的相互作用,可以根据这种相互作用来对权重集进行微调,并构建一个函数来衡量微调的程度,比如,可以利用以下三种相互作用:
A、直接连接的点之间的相互作用。对于直接有边连接的两点u和v,它们的紧密程度显然是比没有边直接连接的两点更大的,因此,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响DI,可得到表达式如下:
Figure BDA0002006999110000122
其中,deg(u)表示u这一点的度,也就是u的邻居数。在此,deg(u)这一参数主要是为了归一化,避免点的邻居数量对结果造成干扰。
B、当两点均和同一个第三点(邻居)连接时,它们之间的紧密程度更高。相应的,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响CI,可得到表达式如下:
Figure BDA0002006999110000131
C、当两点各自都有且仅有一个邻居时,可以通过观察它们各自唯一的邻居来衡量这两个点的关系。若点u的邻居点和v相似,则u的邻居应该和v更近,进一步可以得出u和v之间的距离也应该进一步变小。设凝聚度参数为λ(lambda),通过调整λ可以改变距离变化的强度,从而调节聚类结果的紧密度。此作用可得到表达式如下:
Figure BDA0002006999110000132
Figure BDA0002006999110000133
综合以上三种作用力,可以得到总的距离调节公式为:
d(u,v,t+1)=d(u,v,t)+DI(t)+CI(t)+EI(t)
其中,t表示调节次数,初始时t=0。该式子表示的是在每一次微调后,任意两点间距离的变化情况。两点间的距离变化主要由它们是否连接(DI)、是否有公共邻居(CI)或是否有唯一的邻居点(EI)决定。
通过以上的逐步微调公式,可以根据网络的拓扑结构逐步改变句子点之间的距离,如图2b(b)所示,使得同一类的数据越来越近,距离趋近于1;异类数据越来越远,距离趋近于0。在迭代多步后图中各点之间的距离仅存在等于1或等于0两种情况,如图2b(c)所示。
204、网络设备根据该语料关系度对该语料簇进行聚类,得到细粒度类别集。
例如,网络设备具体可以根据计算每个语料簇中语料间的编辑距离,并通过调整语料间的编辑距离来对该语料簇进行聚类,得到细粒度类别集。比如,可以通过各点之间的距离,当各点之间的距离仅存在等于1或等于0两种情况时,该语料簇聚类完成。可以通过查看点与点之间的关系即可得到语料聚类后的结果。比如,粗粒度类别中的用药可以聚类为用药安全、用药方案等等,运动可以聚类为游泳、跑步等等,饮食可以聚类为盐、油、奶及奶制品、坚果类、畜禽类、水产品、蛋类、蔬菜类、水果类、谷薯类、水、酒、茶、豆类、糖类以及菌菇类等等,其中,盐还可以聚类为食盐、海盐等等,油可以聚类为花生油、猪油等等。
相比于传统的K均值聚类算法(k-means clustering algorithm),这种聚类方法不需要使用者手动确定类别数(即k-means中的k),能够很好得适应不同簇语料需要分为不同类数的情况。另外,无向带权图法是一种无监督机器学习方法,能够在没有任何训练语料的情况下表现出优异的聚类效果。由于无向带权图聚类方法,使其能够在短时间内自动获得大量细化分类。例如,高血压问答中,在“饮食”这一粗粒度类别下有2000多个细粒度类别,“药物”下有超过1万个细粒度类别。
205、网络设备使用该粗粒度类别集和细粒度类别集,生成高血压的知识树图谱。
例如,网络设备具体可以根据粗粒度类别集和细粒度类别集与样本信息的层级关系,生成高血压的知识树图谱,该高血压的知识树图谱可以如图2c所示。其中,该高血压的知识树图谱的构建过程可以如图2d所示。
206、网络设备利用该知识树图谱对问题进行分类。
例如,网络设备具体可以利用该知识树图谱对预设的分类器进行训练,得到类别分类器,比如,可以根据所述知识树图谱采用预设的分类器对所述待反馈样本信息进行分类,得到所述待反馈样本信息的预测值;获取所述待反馈样本信息的真实值,并根据所述待反馈样本信息的真实值和预测值对所述分类器进行收敛,得到类别分类器。然后,基于该类别分类器对用户发送的问题进行分类,比如,可以在知识树这一多叉树上的每个结点训练一个多类别分类器,就可以将待反馈信息分类到对应的结点上。此类别分类器可以由多种形式实现,比如,利用支持向量机、逻辑回归分类器、长短期记忆网络,等等。在本实施例中主要采用Transformer(变换器)模型的双向编码器(BidirectionalEncoderRepresentations from Transformers,BERT)作为粗粒度分类器,长短期记忆网络作为细粒度分类器。然后,将用户发送的问题分类到对应的结点上。其中,该网络设备还可以对该问题先进行预处理后再分类到对应的结点上,比如,该预处理可以是提取关键字、关键词等等。
207、网络设备根据分类结果确定问题对应的问答对,将问答对中的回答样本作为该问题的回答。
例如,如图2e所示,网络设备具体可以接收专业人员将回答与问题整理出的结构一一对应的高血压数据库,然后,对树状结构中的每一个结点(包括叶子结点和非叶结点)进行同粒度准确回答,其中,问答对中的回答样本可能为一个或多个,若为多个可以从中选择其中一个作为该问题的回答。比如,当该网络设备为服务器时,确定用户通过终端发送给服务器的问题在对应的结点上的准确回答,将该回答由服务器发送到用户的终端,并在该终端上进行显示,其中,该网络设备还可以对该回答进行预处理再由服务器发送到用户的终端,该预处理可以是添加相应的标点符号、更正语法错误等等。又比如,当该网络设备为终端时,确定用户在终端输入的问题在对应的结点上的准确回答,将该回答在用户的终端进行显示,比如可以如图2f所示。
由上可知,本发明实施例先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;由于该方案可以先计算语料关系度,再根据语料关系度进行聚类生成知识树图谱,以在短时间内获得大量的细粒度类别,然后使用该知识树图谱对待反馈信息进行分类,以提高待反馈信息分类的准确性,确保最终确定待反馈信息对应的反馈信息的准确度,所以,相对于仅仅依靠机器对待反馈信息确定反馈信息的方案而言,该方案可以输出与待反馈信息相匹配的反馈信息,该方案更具有针对性,可以有效提高信息反馈的准确性,大大改善了反馈效果。由于该信息反馈装置利用专业人员先对信息进行粗粒度分类,然后再利用聚类算法进行细粒度分类,因此,对于特定的专业领域,知识树这一体系能够系统化得按照不同粒度组织领域知识,最大程度上将口语化表达和专业知识相对应,适用于垂直领域。而由于知识树体系的层次结构和庞大的细粒度结点群,本申请能够将问题分类到不同粒度上,从而根据问题的粒度给出对应粒度的回答,对于可回答的问题,均给出尽可能详细的正面回复,并且在保证分类全面性的前提下,减轻了专业人员的负担;当系统移植到其他话题时,能够快速得完成相关知识树构建过程,高效轻便,容易移植。
为了更好地实施以上方法,相应的,本发明实施例还提供一种信息反馈装置,该信息反馈装置具体可以集成在网络设备中,该网络设备可以是服务器,也可以是终端等设备。
例如,如图3所示,该信息反馈装置可以包括采集单元301、获取单元302、计算单元303、聚类单元304、生成单元305和确定单元306,如下:
(1)采集单元301;
采集单元301,用于采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;
可选的,在一些实施例中,采集单元301可以包括采集子单元和建立子单元,如下:
采集子单元,用于采集多个待反馈信息样本和多个反馈信息样本;
建立子单元,用于建立所述多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
例如,采集子单元具体可以利用网络爬取技术从网络中爬取到大量待反馈信息样本和反馈信息样本,由专业人员将待反馈信息样本集和反馈信息样本集分别进行分类归纳,总结得出主要的待反馈信息样本,由专业人员归纳整理出对应的反馈信息样本,然后,建立多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
(2)获取单元302;
获取单元302,用于获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇。
例如,获取单元302,具体可以用于获取待反馈信息样本的粗粒度类别集,比如,可以接收用户通过终端发送待反馈信息样本的粗粒度类别集,或接收其他设备发送的待反馈信息样本的粗粒度类别集,又或者,还可以从本地存储空间中获取已整理好的待反馈信息样本的粗粒度类别集,然后,将采集到的待反馈信息样本集根据该粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。
可选的,在一些实施例中,获取单元可以包括获取子单元和语料分类子单元,如下:
获取子单元,用于获取待反馈信息样本的粗粒度类别集;
语料分类子单元,用于将采集到的待反馈信息样本集根据该粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。
(3)计算单元303;
计算单元303,用于计算每个语料簇的语料关系度。
可选的,在一些实施例中,该计算单元303可以包括计算子单元和调整子单元,如下:
计算子单元,用于计算每个语料簇中有连接关系的语料间的编辑距离,根据该编辑距离构建语料关系图。
例如,计算子单元,具体可以用于确定该语料簇中有连接关系的语料间的权重,根据该权重计算该语料间的编辑距离,比如,经过人工数据标注后,每个结点都包含了一定量的语料,即语料簇,假设它包含n个语料句,每一语料句为一个点,即对应的点集为V={v1,v2…vn};E为这些点之间的边集,对于u和v两点,如果{u,v}在E中,则代表他们之间有边;w为边的权重集,w(x,y)表示x和y之间边的权重。通过编辑距离(Levenshtein Distance)算法计算编辑距离得到。若两句话之间的编辑距离大于0.8,则舍去此边,认为这两句话不连接。定义一个点u的相邻点集,如下:
Γ(u)={v∈V|{u,v}∈E}∪{u}
并定义两个点u和v之间的编辑距离为:
Figure BDA0002006999110000181
根据以上编辑距离的计算构建出该结点下的语料对应的语料关系图,这些点集形成了一个拓扑结构,但哪些点应该为同一类、一共有多少类,却很难确定。因此,可以执行以下调整子单元的操作。
调整子单元,用于对该语料关系图进行调整,得到语料关系度。
例如,调整子单元,具体可以用于以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度。比如,考虑到拓扑结构中点与点之间的相互作用,可以根据这种相互作用来对权重集进行微调,并构建一个函数来衡量微调的程度,比如,可以利用以下三种相互作用:
A、直接连接的点之间的相互作用。对于直接有边连接的两点u和v,它们的紧密程度显然是比没有边直接连接的两点更大的,因此,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响DI,可得到表达式如下:
Figure BDA0002006999110000182
其中,deg(u)表示u这一点的度,也就是u的邻居数。在此,deg(u)这一参数主要是为了归一化,避免点的邻居数量对结果造成干扰。
B、当两点均和同一个第三点(邻居)连接时,它们之间的紧密程度更高。相应的,它们之间的距离也应该调整到更小。量化此种作用对点之间距离的影响CI,可得到表达式如下:
Figure BDA0002006999110000191
C、当两点各自都有且仅有一个邻居时,可以通过观察它们各自唯一的邻居来衡量这两个点的关系。若点u的邻居点和v相似,则u的邻居应该和v更近,进一步可以得出u和v之间的距离也应该进一步变小。设凝聚度参数为λ(lambda),通过调整λ可以改变距离变化的强度,从而调节聚类结果的紧密度。此作用可得到表达式如下:
Figure BDA0002006999110000192
Figure BDA0002006999110000193
综合以上三种作用力,可以得到总的距离调节公式为:
d(u,v,t+1)=d(u,v,t)+DI(t)+CI(t)+EI(t)
其中,t表示调节次数,初始时t=0。该式子表示的是在每一次微调后,任意两点间距离的变化情况。两点间的距离变化主要由它们是否连接(DI)、是否有公共邻居(CI)或是否有唯一的邻居点(EI)决定。
通过以上的逐步微调公式,可以根据网络的拓扑结构逐步改变句子点之间的距离,使得同一类的数据越来越近,距离趋近于1;异类数据越来越远,距离趋近于0。在迭代多步后图中各点之间的距离仅存在等于1或等于0两种情况。
(4)聚类单元304;
聚类单元304,用于根据该语料关系度对该语料簇进行聚类,得到细粒度类别集。
例如,聚类单元304,具体可以用于根据计算每个语料簇中语料间的编辑距离,并通过调整语料间的编辑距离来对该语料簇进行聚类,得到细粒度类别集。比如,可以通过各点之间的距离,当各点之间的距离仅存在等于1或等于0两种情况时,该语料簇聚类完成。可以通过查看点与点之间的关系即可得到语料聚类后的结果。
(5)生成单元305;
生成单元305,用于使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱。
例如,生成单元305,具体可以用于根据粗粒度类别集和细粒度类别集与样本信息的层级关系,生成样本信息的知识树图谱。
其中,知识树本质上就是一个层级式知识图,它表达了为实现某一组织目标的所有相关组织知识间的因果关系或从属关系,则知识树图谱为按层级式编制的图集。
(6)确定单元306;
确定单元306,用于利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
例如,确定单元306,具体可以用于利用该知识树图谱对预设的分类器进行训练,得到类别分类器,基于该类别分类器对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。其中,样本信息组中的反馈信息样本可能为一个或多个,若为多个可以从中选择其中一个作为反馈信息。比如,可以在知识树这一多叉树上的每个结点训练一个多类别分类器,就可以将待反馈信息分类到对应的结点上。此类别分类器可以由多种形式实现,比如,利用支持向量机、逻辑回归分类器、长短期记忆网络,等等。
可选的,在一些实施例中,确定单元可以包括训练子单元和信息分类子单元,如下:
训练子单元,用于利用该知识树图谱对预设的分类器进行训练,得到类别分类器;
训练子单元,具体可以用于根据所述知识树图谱采用预设的分类器对所述待反馈样本信息进行分类,得到所述待反馈样本信息的预测值;获取所述待反馈样本信息的真实值,并根据所述待反馈样本信息的真实值和预测值对所述分类器进行收敛,得到类别分类器。
信息分类子单元,用于基于该类别分类器对待反馈信息进行分类。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本发明实施例先由采集单元301采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;由获取单元302获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇,由计算单元303计算每个语料簇的语料关系度,再由聚类单元304根据该语料关系度对该语料簇进行聚类,得到细粒度类别集,接着,由生成单元305使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱,然后,由确定单元306利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;由于该方案可以先计算语料关系度,再根据语料关系度进行聚类生成知识树图谱,以在短时间内获得大量的细粒度类别,然后使用该知识树图谱对待反馈信息进行分类,以提高待反馈信息分类的准确性,确保最终确定待反馈信息对应的反馈信息的准确度,所以,相对于仅仅依靠机器对待反馈信息确定反馈信息的方案而言,该方案可以输出与待反馈信息相匹配的反馈信息,该方案更具有针对性,可以有效提高信息反馈的准确性,大大改善了反馈效果。
此外,本发明实施例还提供一种网络设备,如图4所示,其示出了本发明实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
网络设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本发明实施例先采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息;由于该方案可以先计算语料关系度,再根据语料关系度进行聚类生成知识树图谱,以在短时间内获得大量的细粒度类别,然后使用该知识树图谱对待反馈信息进行分类,以提高待反馈信息分类的准确性,确保最终确定待反馈信息对应的反馈信息的准确度,所以,相对于仅仅依靠机器对待反馈信息确定反馈信息的方案而言,该方案可以输出与待反馈信息相匹配的反馈信息,该方案更具有针对性,可以有效提高信息反馈的准确性,大大改善了反馈效果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种信息反馈方法中的步骤。例如,该指令可以执行如下步骤:
采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;再计算每个语料簇的语料关系度;根据该语料关系度对该语料簇进行聚类,得到细粒度类别集;接着,使用该粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;然后,利用该知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种信息反馈方法中的步骤,因此,可以实现本发明实施例所提供的任一种信息反馈方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种信息反馈方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种信息反馈方法,其特征在于,包括:
采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;
获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;
计算每个语料簇中有连接关系的语料间的编辑距离;
根据所述编辑距离构建语料关系图;
以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;
若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;
若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;
继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度;
根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;
使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;
利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
2.根据权利要求1所述的方法,其特征在于,所述计算每个语料簇中有连接关系的语料间的编辑距离,包括:
确定所述语料簇中有连接关系的语料间的权重;
根据所述权重计算所述语料间的编辑距离。
3.根据权利要求1或2任一项所述的方法,其特征在于,所述获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇,包括:
获取待反馈信息样本的粗粒度类别集;
将采集到的待反馈信息样本集根据所述粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。
4.根据权利要求1或2任一项所述的方法,其特征在于,所述利用所述知识树图谱对待反馈信息进行分类,包括:
利用所述知识树图谱对预设的分类器进行训练,得到类别分类器;
基于所述类别分类器对待反馈信息进行分类。
5.根据权利要求4所述的方法,其特征在于,所述利用所述知识树图谱对预设的分类器进行训练,得到类别分类器,包括:
根据所述知识树图谱采用预设的分类器对所述待反馈信息样本进行分类,得到所述待反馈信息样本的预测值;
获取所述待反馈信息样本的真实值,并根据所述待反馈信息样本的真实值和预测值对所述分类器进行收敛,得到类别分类器。
6.根据权利要求1或2任一项所述的方法,其特征在于,所述采集多组样本信息,包括:
采集多个待反馈信息样本和多个反馈信息样本;
建立所述多个待反馈信息样本和多个反馈信息样本之间的对应关系,得到多组样本信息。
7.一种信息反馈装置,其特征在于,包括:
采集单元,用于采集多组样本信息,每组样本信息包括待反馈信息样本和反馈信息样本;
获取单元,用于获取待反馈信息样本的粗粒度类别集以及每个粗粒度类别的语料簇;
计算单元包括计算子单元和调整子单元,如下:
计算子单元,用于计算每个语料簇中有连接关系的语料间的编辑距离,根据所述编辑距离构建语料关系图;
调整子单元,用于以一个语料作为一个点,将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值;若第一语料点和第二语料点同时与第三语料连接,则将第一语料点和第二语料点间的距离增加第二函数值;若第一语料点和第二语料点同时与第三语料连接且仅与第三语料点连接,则将第一语料点和第二语料点间的距离增加第三函数值;继续执行将语料间有连接关系的第一语料点和第二语料点间的距离增加第一函数值的步骤,直到第一语料点和第二语料点间的距离达到预设阈值,得到语料关系度;
聚类单元,用于根据所述语料关系度对所述语料簇进行聚类,得到细粒度类别集;
生成单元,用于使用所述粗粒度类别集和细粒度类别集,生成样本信息的知识树图谱;
确定单元,用于利用所述知识树图谱对待反馈信息进行分类,根据分类结果确定待反馈信息对应的样本信息组,将样本信息组中的反馈信息样本作为待反馈信息对应的反馈信息。
8.根据权利要求7所述的装置,其特征在于,所述计算子单元,用于确定所述语料簇中有连接关系的语料间的权重;根据所述权重计算所述语料间的编辑距离。
9.根据权利要求7或8所述的装置,其特征在于,所述获取单元包括获取子单元和语料分类子单元,如下:
所述获取子单元,用于获取待反馈信息样本的粗粒度类别集;
所述语料分类子单元,用于将采集到的待反馈信息样本集根据所述粗粒度类别集进行分类,得到多个粗粒度类别的语料簇。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项所述的信息反馈方法中的步骤。
CN201910231997.4A 2019-03-26 2019-03-26 一种信息反馈方法、装置和存储介质 Active CN110032631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910231997.4A CN110032631B (zh) 2019-03-26 2019-03-26 一种信息反馈方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910231997.4A CN110032631B (zh) 2019-03-26 2019-03-26 一种信息反馈方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110032631A CN110032631A (zh) 2019-07-19
CN110032631B true CN110032631B (zh) 2021-07-02

Family

ID=67236613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910231997.4A Active CN110032631B (zh) 2019-03-26 2019-03-26 一种信息反馈方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110032631B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427625B (zh) * 2019-07-31 2022-12-27 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理系统
CN110888971B (zh) * 2019-11-29 2022-05-24 支付宝(杭州)信息技术有限公司 机器人客服与用户的多轮交互方法和装置
CN111081337B (zh) * 2020-03-23 2020-06-26 腾讯科技(深圳)有限公司 一种协同任务预测方法及计算机可读存储介质
CN111813905B (zh) * 2020-06-17 2024-05-10 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN107480708A (zh) * 2017-07-31 2017-12-15 微梦创科网络科技(中国)有限公司 一种复杂模型的聚类方法及系统
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN108509484A (zh) * 2018-01-31 2018-09-07 腾讯科技(深圳)有限公司 分类器构建及智能问答方法、装置、终端及可读存储介质
CN109273101A (zh) * 2018-09-05 2019-01-25 百度在线网络技术(北京)有限公司 基于决策树的人机交互方法、装置、计算机设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US20050102309A1 (en) * 2003-11-06 2005-05-12 Mdteknix, Inc. Configurable framework for storing and retrieving arbitrary information from a database

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN107480708A (zh) * 2017-07-31 2017-12-15 微梦创科网络科技(中国)有限公司 一种复杂模型的聚类方法及系统
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN108509484A (zh) * 2018-01-31 2018-09-07 腾讯科技(深圳)有限公司 分类器构建及智能问答方法、装置、终端及可读存储介质
CN109273101A (zh) * 2018-09-05 2019-01-25 百度在线网络技术(北京)有限公司 基于决策树的人机交互方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese question answering system based on question classification and similarity;Guo Dongwei et al;《International Conference on Information Science and Technology》;20110510;第377-380页 *
中文问答系统中问题分类相关技术的研究;梁晓月;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615;第2016年卷(第06期);第I138-1484页 *

Also Published As

Publication number Publication date
CN110032631A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110032631B (zh) 一种信息反馈方法、装置和存储介质
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
Akbari et al. From tweets to wellness: Wellness event detection from twitter streams
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
US11062142B2 (en) Natural language unification based robotic agent control
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN112052356B (zh) 多媒体分类方法、装置和计算机可读存储介质
Jaspers et al. Machine learning techniques for the automation of literature reviews and systematic reviews in EFSA
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
KR20210113336A (ko) 머신 러닝에 기반한 타깃 객체 속성 예측 방법 및 관련 디바이스
CN112052308A (zh) 一种摘要文本提取方法、装置、存储介质和电子设备
CN115858886B (zh) 数据处理方法、装置、设备及可读存储介质
WO2022099081A1 (en) Systems and methods for hosting wellness programs
Alwidian et al. Predicting autism spectrum disorder using machine learning technique
Gkatzia Content selection in data-to-text systems: A survey
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
Hezarjaribi et al. Human-in-the-loop learning for personalized diet monitoring from unstructured mobile data
US20230223132A1 (en) Methods and systems for nutritional recommendation using artificial intelligence analysis of immune impacts
CN115439919A (zh) 模型更新方法、装置、设备、存储介质及程序产品
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Bhaskoro et al. An extraction of medical information based on human handwritings
Hafiz et al. Heart Disease Prediction based on Machine learning Technique
Kaczmarek et al. Applying matrix factorization techniques to compare experts’ categorization process during case formulation task performed by concept maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant