CN113761178A - 一种数据的展示方法和装置 - Google Patents

一种数据的展示方法和装置 Download PDF

Info

Publication number
CN113761178A
CN113761178A CN202110918223.6A CN202110918223A CN113761178A CN 113761178 A CN113761178 A CN 113761178A CN 202110918223 A CN202110918223 A CN 202110918223A CN 113761178 A CN113761178 A CN 113761178A
Authority
CN
China
Prior art keywords
data
answer
group
question
answer data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110918223.6A
Other languages
English (en)
Inventor
朱向荣
董光喆
韦鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110918223.6A priority Critical patent/CN113761178A/zh
Publication of CN113761178A publication Critical patent/CN113761178A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据的展示方法和装置,其中,所述方法包括:获取包含多个问题数据和对应的多个回答数据的数据集合;对多个问题数据进行聚类处理得到至少一组问题组数据;对问题组数据对应的回答组数据进行识别处理得到回答组数据中各回答数据之间的关联关系;根据关联关系为回答组数据的一个或多个回答数据添加风险标识;展示问题组数据和添加风险标识的回答组数据。本发明实施例不仅可以展示代表类似的问题数据的问题组数据和对应的回答组数据,提升了用户查找问题数据及回答数据的效率,还可以利用风险标识对存在风险的回答数据进行突出展示,避免了错误的回答数据对用户产生误导。

Description

一种数据的展示方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据的展示方法和装置。
背景技术
随着互联网技术的发展,越来越多的需求可以在互联网上实现。例如,用户在应用程序中浏览旅游景点的相关信息时,通常会产生各种疑问。而且,在应用程序中会为旅游景点提供问题栏。该问题栏包含存在的问题以及问题对应的回答。如果某用户在问题栏中未找到与自己相关的问题及回答,但是该问题及答案的确存在。那么该用户可能会在问题栏中提出一个与已存在的问题类似的问题。久而久之,问题栏中会存在大量类似的问题。
目前,问题栏中的问题通常按照提问时间进行排序,用户若想找到与自己相关的问题及回答,可能需要浏览大量的问题及回答,增加了用户的操作步骤,浪费了用户的操作时间,导致用户查找问题及回答的效率很低。而且,问题对应的回答有对有错,错误的回答会对用户产生误导。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据的展示方法和装置。
为了解决上述问题,根据本发明实施例的第一方面,公开了一种数据的展示方法,包括:获取数据集合,所述数据集合包含多个问题数据和分别与多个所述问题数据对应的多个回答数据;对多个所述问题数据进行聚类处理得到至少一组问题组数据;对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系;根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识;展示所述问题组数据和添加所述风险标识的所述回答组数据。
可选地,所述对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系,包括:提取所述回答组数据中每两个所述回答数据的字向量;对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征;对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系。
可选地,所述提取所述回答组数据中每两个所述回答数据的字向量,包括:将所述问题组数据和每两个所述回答数据输入至BERT模型,输出所述字向量。
可选地,所述对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征,包括:对所述字向量进行平均池化处理得到每两个所述回答数据的句向量;将每两个所述句向量拼接为所述向量特征。
可选地,所述对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系,包括:根据预设的分类函数对所述向量特征进行分类处理得到每两个所述回答数据之间的多种所述关联关系。
可选地,所述根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识,包括:对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值;若所述回答数据的风险值大于预设的风险阈值,则为所述回答数据添加所述风险标识。
可选地,多种所述关联关系包含冲突关系、一致关系和无关关系;所述对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值,包括:针对所述回答组数据的第一回答数据,将第二回答数据与所述第一回答数据之间的所述冲突关系的映射值,与所述第二回答数据的权重值的乘积,减去所述第二回答数据与所述第一回答数据之间的所述一致关系或所述无关关系的映射值,与所述权重值的乘积得到所述第一回答数据与所述第二回答数据之间的权重差值;将所述第一回答数据与所述第二回答数据之间的权重差值,与所述第一回答数据与其他的所述第二回答数据之间的权重差值相加,得到所述第一回答数据的风险值;其中,所述第一回答数据为所述回答组数据中任一所述回答数据,所述第二回答数据为除所述第一回答数据之外的,所述回答组数据中任一所述回答数据。
可选地,所述对多个所述问题数据进行聚类处理得到至少一组问题组数据,包括:提取多个所述问题数据的字向量;对所述字向量进行平均池化处理得到多个所述问题数据的向量特征;根据所述向量特征计算多个所述问题数据之间的相似度;将所述相似度大于预设的相似度阈值的多个所述问题数据确定为一组所述问题组数据。
可选地,所述对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系,包括:当所述回答组数据的多个所述回答数据的数量大于预设的数量阈值时,对所述回答组数据进行识别处理,得到所述关联关系。
根据本发明实施例的第二方面,还公开了一种数据的展示装置,包括:获取模块,用于获取数据集合,所述数据集合包含多个问题数据和分别与多个所述问题数据对应的多个回答数据;聚类模块,用于对多个所述问题数据进行聚类处理得到至少一组问题组数据;识别模块,用于对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系;添加模块,用于根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识;展示模块,用于展示所述问题组数据和添加所述风险标识的所述回答组数据。
可选地,所述识别模块,包括:第一提取模块,用于提取所述回答组数据中每两个所述回答数据的字向量;第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征;分类模块,用于对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系。
可选地,所述第一提取模块,用于将所述问题组数据和每两个所述回答数据输入至BERT模型,输出所述字向量。
可选地,所述第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的句向量;将每两个所述句向量拼接为所述向量特征。
可选地,所述分类模块,用于根据预设的分类函数对所述向量特征进行分类处理得到每两个所述回答数据之间的多种所述关联关系。
可选地,所述添加模块,用于对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值;若所述回答数据的风险值大于预设的风险阈值,则为所述回答数据添加所述风险标识。
可选地,多种所述关联关系包含冲突关系、一致关系和无关关系;所述添加模块,用于针对所述回答组数据的第一回答数据,将第二回答数据与所述第一回答数据之间的所述冲突关系的映射值,与所述第二回答数据的权重值的乘积,减去所述第二回答数据与所述第一回答数据之间的所述一致关系或所述无关关系的映射值,与所述权重值的乘积得到所述第一回答数据与所述第二回答数据之间的权重差值;将所述第一回答数据与所述第二回答数据之间的权重差值,与所述第一回答数据与其他的所述第二回答数据之间的权重差值相加,得到所述第一回答数据的风险值;其中,所述第一回答数据为所述回答组数据中任一所述回答数据,所述第二回答数据为除所述第一回答数据之外的,所述回答组数据中任一所述回答数据。
可选地,所述聚类模块,包括:第二提取模块,用于提取多个所述问题数据的字向量;第二池化模块,用于对所述字向量进行平均池化处理得到多个所述问题数据的向量特征;相似度模块,用于根据所述向量特征计算多个所述问题数据之间的相似度;确定模块,用于将所述相似度大于预设的相似度阈值的多个所述问题数据确定为一组所述问题组数据。
可选地,所述识别模块,用于当所述回答组数据的多个所述回答数据的数量大于预设的数量阈值时,对所述回答组数据进行识别处理,得到所述关联关系。
与现有技术相比,本发明实施例提供的技术方案具有如下优点:
本发明实施例提供的一种数据的展示方案,获取数据集合,该数据集合包含多个问题数据和分别与多个问题数据对应的多个回答数据。对多个问题数据进行聚类处理得到至少一组问题组数据,然后对问题组数据对应的回答组数据进行识别处理,得到回答组数据中各回答数据之间的关联关系,在根据关联关系为回答组数据的一个或多个回答数据添加风险标识,最终展示问题组数据和添加风险标识的回答组数据。本发明实施例对多个问题数据进行聚类处理得到至少一组问题组数据,可以将多个问题数据中类似的问题数据聚类为一组问题组数据。聚类得到的每组问题组数据表示一组类似的问题数据。同时,类似的问题数据聚类为一组之后,类似的问题对应的回答数据也会聚类为一组,即回答组数据。进一步地,本发明实施例还对问题组数据对应的回答组数据进行识别处理,得到回答组数据中两两回答数据之间的关联关系,进而根据关联关系对回答组数据中的回答数据进行风险识别,为存在风险的回答数据添加风险标识。最终,不仅可以展示代表类似的问题数据的问题组数据和对应的回答组数据,提升了用户查找问题数据及回答数据的效率,还可以利用风险标识对存在风险的回答数据进行突出展示,避免了错误的回答数据对用户产生误导。
附图说明
图1是本发明实施例的一种数据的展示方法的步骤流程图;
图2是本发明实施例的一种回答组数据的识别处理步骤流程图;
图3是本发明实施例的一种基于语义关系的相似问题聚合及风险回答检测方案的流程示意图;
图4是本发明实施例的相同问题聚类模块的示意图;
图5是本发明实施例的冲突问题检测模块的示意图;
图6是本发明实施例的一种数据的展示装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明实施例的一种数据的展示方法的步骤流程图。该数据的展示方法具体可以包括如下步骤:
步骤101,获取数据集合。
在本发明的实施例中,数据集合可以包含多个问题数据和分别与多个问题数据对应的多个回答数据。其中,问题数据与对应的回答数据可以组成一组问答数据。通常,一组问答数据包含一个问题数据和一个回答数据。例如,数据集合包含问题数据q1、q2和q3,以及回答数据a1、a2和a3。问题数据q1与回答数据a1相对应,即回答数据a1为问题数据q1的答案。问题数据q2与回答数据a2相对应,问题数据q3与回答数据a3相对应。
步骤102,对多个问题数据进行聚类处理得到至少一组问题组数据。
在本发明的实施例中,对数据集合中的问题数据进行聚类处理,目的在于将数据集合中类似的问题数据划分为一组。也就是说,一组问题组数据代表一组类似的问题数据。例如,问题数据q1为“景点的开放时间是多少?”,问题数据q2为“景点在什么时间段可以允许游客进入?”。经过对问题数据q1和q2进行聚类处理,得到问题组数据Qz1。该问题组数据Qz1包含问题数据q1和q2。表示问题数据q1和q2为类似的问题数据。
步骤103,对问题组数据对应的回答组数据进行识别处理,得到回答组数据中各回答数据之间的关联关系。
在本发明的实施例中,在对问题数据进行聚类处理之后,不仅可以将类似的问题数据聚类为一组问题组数据,相应地,类似的问题数据对应的回答数据也归为一组回答组数据。接上例,问题组数据Qz1对应的回答组数据Az1,回答组数据Az1包含回答数据a1和a2。
对回答组数据中的回答数据进行识别处理,目的在于得到各回答数据之间的关联关系。在实际应用中,关联关系可以包含但不限于:冲突关系、一致关系和无关关系。其中,冲突关系表示两个回答数据是矛盾的、相反的;一致关系表示两个回答数据是相同的或者包含的;无关关系表示两个回答数据没有关系。
步骤104,根据关联关系为回答组数据的一个或多个回答数据添加风险标识。
在本发明的实施例中,若回答组数据中存在错误的回答数据或者有风险的回答数据,则为错误的回答数据或有风险的回答数据添加风险标识。该风险标识可以为文字、颜色、图片等。本发明的实施例对风险标识的类型和展示形式等不做具体限制。
步骤105,展示问题组数据和添加风险标识的回答组数据。
在本发明的实施例中,在展示数据集合中的问题数据和对应的回答数据时,按照问题组数据和回答组数据的形式进行展示,并且,在回答组数据中还可以重点展示添加有风险标识的回答数据,或者在添加有风险标识的回答数据附近展示风险标识。例如,数据集合包含问题数据q1、q2和q3,以及回答数据a1、a2和a3。在展示数据集合时,可以按照问题组数据Qz1及回答组数据Az1的形式展示,若数据集合中不存在与问题数据q3类似的问题数据,则可以单独展示问题数据q3及对应的回答数据a3。而且,如果回答组数据Az1中的回答数据a1添加有风险标识,则可以在回答数据a1附近展示风险标识,以提醒用户回答数据a1具有风险或者不准确。
本发明实施例提供的一种数据的展示方案,获取数据集合,该数据集合包含多个问题数据和分别与多个问题数据对应的多个回答数据。对多个问题数据进行聚类处理得到至少一组问题组数据,然后对问题组数据对应的回答组数据进行识别处理,得到回答组数据中各回答数据之间的关联关系,在根据关联关系为回答组数据的一个或多个回答数据添加风险标识,最终展示问题组数据和添加风险标识的回答组数据。本发明实施例对多个问题数据进行聚类处理得到至少一组问题组数据,可以将多个问题数据中类似的问题数据聚类为一组问题组数据。聚类得到的每组问题组数据表示一组类似的问题数据。同时,类似的问题数据聚类为一组之后,类似的问题对应的回答数据也会聚类为一组,即回答组数据。进一步地,本发明实施例还对问题组数据对应的回答组数据进行识别处理,得到回答组数据中两两回答数据之间的关联关系,进而根据关联关系对回答组数据中的回答数据进行风险识别,为存在风险的回答数据添加风险标识。最终,不仅可以展示代表类似的问题数据的问题组数据和对应的回答组数据,提升了用户查找问题数据及回答数据的效率,还可以利用风险标识对存在风险的回答数据进行突出展示,避免了错误的回答数据对用户产生误导。
在本发明的一种优选实施例中,如图2所示,示出了本发明实施例的一种回答组数据的识别处理步骤流程图。对问题组数据对应的回答组数据进行识别处理,得到回答组数据中各回答数据之间的关联关系的一种实施方式,包括如下步骤:
步骤201,提取回答组数据中每两个回答数据的字向量。
本发明的实施例中,上述关联关系可以理解为两个回答数据之间的关系,因此,需要对回答组数据中的每两个回答数据进行识别处理得到每两个回答数据之间的关联关系。
在实际应用中,提取每两个回答数据的字向量时,可以将问题组数据和每两个回答数据输入至BERT模型,输出每两个回答数据的字向量。该BERT模型的输入分为两部分,一部分为问题组数据,另一部分为回答组数据的两个回答数据。该BERT模型的输入分为两部分的目的在于,通过BERT模型的自注意力计算之后,与问题组数据有关的部分会得到重视,与问题组数据不相关的部分会得到忽略,从而降低不相关部分对后续关联关系判断的影响。该BERT模型的输出是回答数据的字向量,由于问题组数据对回答数据之间的关联关系的判断无直接影响,因此该BERT模型的输出不包含问题组数据的字向量。
步骤202,对字向量进行平均池化处理得到每两个回答数据的向量特征。
本发明的实施例中,对字向量进行平均池化处理得到回答数据的向量特征时,可以对每两个回答数据的字向量进行平均池化处理得到每两个回答数据的句向量,再将每两个句向量和两个句向量之间的差值的绝对值拼接为向量特征。
步骤203,对向量特征进行分类处理得到每两个回答数据之间的关联关系。
本发明的实施例中,对向量特征进行分类处理时,可以根据预设的分类函数对向量特征进行分类处理得到每两个回答数据之间的多种关联关系。
在实际应用中,上述预设的分类函数可以为如下公式:
o=softmax(W([u;v;|u-v|])+b)
其中,“o”表示多种关联关系对应概率;“W”表示权重矩阵;“b”表示平移矩阵;“u”表示上述两个回答数据中其中一个回答数据的句向量;“v”表示上述两个回答数据中另一个回答数据的句向量;“|u-v|”表示两个回答数据的句向量之间的差值的绝对值。
需要说明的是,上述分类函数输出为一个数组,该数组表示多种关系的概率,例如,输出包含冲突关系的概率、一致关系的概率和无关关系的概率的数组。
上述概率对应的数值范围不同,可以表示不同的关联关系。例如,若概率大于0.7,则表示概率对应的关联关系为冲突关系;若概率小于0.2,则表示概率对应的关联关系为无关关系;若概率大于或等于0.2,且小于或等于0.7,则表示概率对应的关联关系为一致关系。
在本发明的一种优选实施例中,根据关联关系为回答组数据的一个或多个回答数据添加风险标识的一种实施方式为,对关联关系的映射值进行加权求和处理得到回答组数据的每个回答数据的风险值;若回答数据的风险值大于预设的风险阈值,则为回答数据添加风险标识;若回答数据的风险值小于或等于预设的风险阈值,则不为回答数据添加风险标识。
在实际应用中,针对回答组数据的第一回答数据,将第二回答数据与第一回答数据之间的冲突关系的映射值,与第二回答数据的权重值的乘积,减去第二回答数据与第一回答数据之间的一致关系或无关关系的映射值,与权重值的乘积得到第一回答数据与第二回答数据之间的权重差值。将第一回答数据与第二回答数据之间的权重差值,与第一回答数据与其他的第二回答数据之间的权重差值相加,得到第一回答数据的风险值。
其中,第一回答数据为回答组数据中任一回答数据,第二回答数据为除第一回答数据之外的,回答组数据中任一回答数据。
例如,可以通过如下公式计算回答组数据中每个回答数据的风险值:
Figure BDA0003206414940000091
其中,“sj”表示回答组数据中第j个回答数据的风险值,“i”和“j”均表示回答组数据中回答数据的标号,“n”表示回答组数据中回答数据的数量,“αi”表示第i个回答数据的权重值,“qi”表示问题组数据q对应的回答组数据中的第i个问题数据,“qj”表示问题组数据q对应的回答组数据中的第j个问题数据,“L(qi,qj)”表示“qi”和“qj”之间的关联关系,“I”表示关联关系的映射值。
在本发明的一种优选实施例中,对多个问题数据进行聚类处理得到至少一组问题组数据的一种实施方式为,提取多个问题数据的字向量;对多个问题数据的字向量进行平均池化处理得到多个问题数据的向量特征;根据多个问题数据的向量特征计算多个问题数据之间的相似度;将相似度大于预设的相似度阈值的多个问题数据确定为一组问题组数据。
在本发明的一种优选实施例中,由于每组回答组数据包含的回答数据的数量可能有多有少,考虑到回答数据太小导致的回答组数据不具有统计意义,因此,在对回答组数据进行识别处理时,需要满足回答组数据的多个回答数据的数量大于预设的数量阈值,才对回答组数据进行识别处理。在实际应用中,预设的数量阈值可以设置为10。本发明实施例对数量阈值的数值和单位等不做具体限制。
基于上述关于一种数据的展示方法的实施例的相关说明,下面介绍一种基于语义关系的相似问题聚合及风险回答检测方案。参照图3,示出了一种基于语义关系的相似问题聚合及风险回答检测方案的流程示意图。输入数据为所有问题和回答的集合,依次经过相同问题聚类、冲突回答检测和风险回答识别之后,输出为风险回答标识,该方案包括以下三个模块:
1)相同问题聚类模块:由于问题和回答的展示空间有限,用户并不知道与自己相关的问题可能已经存在,所以会有问题反复被问。该模块的作用是识别出相同或相似的问题,然后将这些相同或相似的问题聚集到一起形成问题组。
2)冲突问题检测模块:相同或相似的问题聚集到一起之后,这些问题的回答自然也聚集到了一起,本模块的作用是识别出这些回答之间的关系:冲突关系、一致关系、无关关系。冲突关系是指两个回答是矛盾的、相反的;一致关系是指两个回答是相同的或者包含的;无关关系是指两个回答的内容没有关系。
3)风险回答识别模块:同一问题组下的回答两两判断关系之后,该模块基于上述检测结果识别出有风险的回答。
下面分别对上述三个模块进行详细阐述。
1)相同问题聚类模块
参照图4,示出了相同问题聚类模块的示意图。该模块的功能是将相同或相似的问题聚集到一起。在图4中主要包括预训练BERT模型①、向量表示提取模块②、相似度计算模块③三个子模块。子模块①为在旅游语料上继续训练的BERT模型,输入为问题句子,输出为字维度的向量表示;子模块②中将字维度的向量表示进行平均池化(avg pooling)操作,作为整个问题句子的向量表示;模块③采用计算句子向量表示的余弦(cosine)相似度作为两个句子的相似度,取阈值0.8作为阈值,两个问题句子向量表示的cosine相似度大于0.8则认为问题相同或相似,否则认为问题不相同或不相似。
2)冲突问题检测模块
参照图5,示出了冲突问题检测模块的示意图。本模块的输入为经过相同问题聚类模块聚合之后的问题组和对应的回答即回答组,输出为同一问题组下的回答之间的关系。该模块主要包括以下几个部分:
预训练BERT模型①
此BERT模型与相同问题聚类模块中的预训练BERT模型结构相同,但是输入和输出方式不同。此BERT模型的输入分为两部分,左边是问题,右边是回答。这种设计使得通过BERT模型的自注意力(self attention)计算之后,与问题有关的部分会得到重视,与问题不相关的部分会得到忽视,从而降低不相关部分对下游关系判断的影响。此BERT模型的输出也是字级别的向量表示,但是只输出回答对应的部分,舍弃问题对应的部分,因为问题部分对两个回答的关系判定并无直接影响。
特征构造模块④
经过模型①得到问题对应的字维度的向量之后,分别对两个问题的对应的字维度向量进行avg pooling得到回答句子1向量表示u和回答句子2的向量表示v。将向量u,v,|u-v|进行拼接作为向量特征。
分类模块⑤
本模块的输入为拼接之后的向量[u;v;|u-v|],此模型为有监督模型,所以分为训练环节和预测环节。在训练过程中通过梯度下降方法对交叉熵损失值进行最小化,在预测过程中输出三种关系的对应的概率。
3)风险回答识别模块
经过冲突问题检测模块,得到一组相同或相似的问题下的两两回答之间的关系。根据关系的映射值和权重值进行加权求和处理得到每个回答的风险值。其中,若某回答的回答时间越晚,则其权重值越高。关于权重值的计算公式为:
a=e-δ*发布时间与今天的时间间隔
其中,“a”表示权重值,“δ”表示权重系数,该权重系数表示权重值与时间间隔之间的相关性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明实施例的一种数据的展示装置的结构框图,该数据的展示装置具体可以包括如下模块:
获取模块61,用于获取数据集合,所述数据集合包含多个问题数据和分别与多个所述问题数据对应的多个回答数据;
聚类模块62,用于对多个所述问题数据进行聚类处理得到至少一组问题组数据;
识别模块63,用于对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系;
添加模块64,用于根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识;
展示模块65,用于展示所述问题组数据和添加所述风险标识的所述回答组数据。
在本发明的一种优选实施例中,所述识别模块63,包括:
第一提取模块,用于提取所述回答组数据中每两个所述回答数据的字向量;
第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征;
分类模块,用于对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系。
在本发明的一种优选实施例中,所述第一提取模块,用于将所述问题组数据和每两个所述回答数据输入至BERT模型,输出所述字向量。
在本发明的一种优选实施例中,所述第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的句向量;将每两个所述句向量拼接为所述向量特征。
在本发明的一种优选实施例中,所述分类模块,用于根据预设的分类函数对所述向量特征进行分类处理得到每两个所述回答数据之间的多种所述关联关系。
在本发明的一种优选实施例中,所述添加模块64,用于对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值;若所述回答数据的风险值大于预设的风险阈值,则为所述回答数据添加所述风险标识。
在本发明的一种优选实施例中,多种所述关联关系包含冲突关系、一致关系和无关关系;
所述添加模块64,用于针对所述回答组数据的第一回答数据,将第二回答数据与所述第一回答数据之间的所述冲突关系的映射值,与所述第二回答数据的权重值的乘积,减去所述第二回答数据与所述第一回答数据之间的所述一致关系或所述无关关系的映射值,与所述权重值的乘积得到所述第一回答数据与所述第二回答数据之间的权重差值;将所述第一回答数据与所述第二回答数据之间的权重差值,与所述第一回答数据与其他的所述第二回答数据之间的权重差值相加,得到所述第一回答数据的风险值;
其中,所述第一回答数据为所述回答组数据中任一所述回答数据,所述第二回答数据为除所述第一回答数据之外的,所述回答组数据中任一所述回答数据。
在本发明的一种优选实施例中,所述聚类模块62,包括:
第二提取模块,用于提取多个所述问题数据的字向量;
第二池化模块,用于对所述字向量进行平均池化处理得到多个所述问题数据的向量特征;
相似度模块,用于根据所述向量特征计算多个所述问题数据之间的相似度;
确定模块,用于将所述相似度大于预设的相似度阈值的多个所述问题数据确定为一组所述问题组数据。
在本发明的一种优选实施例中,所述识别模块63,用于当所述回答组数据的多个所述回答数据的数量大于预设的数量阈值时,对所述回答组数据进行识别处理,得到所述关联关系。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据的展示方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种数据的展示方法,其特征在于,包括:
获取数据集合,所述数据集合包含多个问题数据和分别与多个所述问题数据对应的多个回答数据;
对多个所述问题数据进行聚类处理得到至少一组问题组数据;
对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系;
根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识;
展示所述问题组数据和添加所述风险标识的所述回答组数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系,包括:
提取所述回答组数据中每两个所述回答数据的字向量;
对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征;
对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系。
3.根据权利要求2所述的方法,其特征在于,所述提取所述回答组数据中每两个所述回答数据的字向量,包括:
将所述问题组数据和每两个所述回答数据输入至BERT模型,输出所述字向量。
4.根据权利要求2所述的方法,其特征在于,所述对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征,包括:
对所述字向量进行平均池化处理得到每两个所述回答数据的句向量;
将每两个所述句向量拼接为所述向量特征。
5.根据权利要求2所述的方法,其特征在于,所述对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系,包括:
根据预设的分类函数对所述向量特征进行分类处理得到每两个所述回答数据之间的多种所述关联关系。
6.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识,包括:
对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值;
若所述回答数据的风险值大于预设的风险阈值,则为所述回答数据添加所述风险标识。
7.根据权利要求6所述的方法,其特征在于,多种所述关联关系包含冲突关系、一致关系和无关关系;
所述对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值,包括:
针对所述回答组数据的第一回答数据,将第二回答数据与所述第一回答数据之间的所述冲突关系的映射值,与所述第二回答数据的权重值的乘积,减去所述第二回答数据与所述第一回答数据之间的所述一致关系或所述无关关系的映射值,与所述权重值的乘积得到所述第一回答数据与所述第二回答数据之间的权重差值;
将所述第一回答数据与所述第二回答数据之间的权重差值,与所述第一回答数据与其他的所述第二回答数据之间的权重差值相加,得到所述第一回答数据的风险值;
其中,所述第一回答数据为所述回答组数据中任一所述回答数据,所述第二回答数据为除所述第一回答数据之外的,所述回答组数据中任一所述回答数据。
8.根据权利要求1所述的方法,其特征在于,所述对多个所述问题数据进行聚类处理得到至少一组问题组数据,包括:
提取多个所述问题数据的字向量;
对所述字向量进行平均池化处理得到多个所述问题数据的向量特征;
根据所述向量特征计算多个所述问题数据之间的相似度;
将所述相似度大于预设的相似度阈值的多个所述问题数据确定为一组所述问题组数据。
9.根据权利要求1所述的方法,其特征在于,所述对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系,包括:
当所述回答组数据的多个所述回答数据的数量大于预设的数量阈值时,对所述回答组数据进行识别处理,得到所述关联关系。
10.一种数据的展示装置,其特征在于,包括:
获取模块,用于获取数据集合,所述数据集合包含多个问题数据和分别与多个所述问题数据对应的多个回答数据;
聚类模块,用于对多个所述问题数据进行聚类处理得到至少一组问题组数据;
识别模块,用于对所述问题组数据对应的回答组数据进行识别处理,得到所述回答组数据中各所述回答数据之间的关联关系;
添加模块,用于根据所述关联关系为所述回答组数据的一个或多个所述回答数据添加风险标识;
展示模块,用于展示所述问题组数据和添加所述风险标识的所述回答组数据。
11.根据权利要求10所述的装置,其特征在于,所述识别模块,包括:
第一提取模块,用于提取所述回答组数据中每两个所述回答数据的字向量;
第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的向量特征;
分类模块,用于对所述向量特征进行分类处理得到每两个所述回答数据之间的关联关系。
12.根据权利要求11所述的装置,其特征在于,所述第一提取模块,用于将所述问题组数据和每两个所述回答数据输入至BERT模型,输出所述字向量。
13.根据权利要求11所述的装置,其特征在于,所述第一池化模块,用于对所述字向量进行平均池化处理得到每两个所述回答数据的句向量;将每两个所述句向量拼接为所述向量特征。
14.根据权利要求11所述的装置,其特征在于,所述分类模块,用于根据预设的分类函数对所述向量特征进行分类处理得到每两个所述回答数据之间的多种所述关联关系。
15.根据权利要求10所述的装置,其特征在于,所述添加模块,用于对所述关联关系的映射值进行加权求和处理得到所述回答组数据的每个所述回答数据的风险值;若所述回答数据的风险值大于预设的风险阈值,则为所述回答数据添加所述风险标识。
16.根据权利要求15所述的装置,其特征在于,多种所述关联关系包含冲突关系、一致关系和无关关系;
所述添加模块,用于针对所述回答组数据的第一回答数据,将第二回答数据与所述第一回答数据之间的所述冲突关系的映射值,与所述第二回答数据的权重值的乘积,减去所述第二回答数据与所述第一回答数据之间的所述一致关系或所述无关关系的映射值,与所述权重值的乘积得到所述第一回答数据与所述第二回答数据之间的权重差值;将所述第一回答数据与所述第二回答数据之间的权重差值,与所述第一回答数据与其他的所述第二回答数据之间的权重差值相加,得到所述第一回答数据的风险值;
其中,所述第一回答数据为所述回答组数据中任一所述回答数据,所述第二回答数据为除所述第一回答数据之外的,所述回答组数据中任一所述回答数据。
17.根据权利要求10所述的装置,其特征在于,所述聚类模块,包括:
第二提取模块,用于提取多个所述问题数据的字向量;
第二池化模块,用于对所述字向量进行平均池化处理得到多个所述问题数据的向量特征;
相似度模块,用于根据所述向量特征计算多个所述问题数据之间的相似度;
确定模块,用于将所述相似度大于预设的相似度阈值的多个所述问题数据确定为一组所述问题组数据。
18.根据权利要求10所述的装置,其特征在于,所述识别模块,用于当所述回答组数据的多个所述回答数据的数量大于预设的数量阈值时,对所述回答组数据进行识别处理,得到所述关联关系。
CN202110918223.6A 2021-08-11 2021-08-11 一种数据的展示方法和装置 Withdrawn CN113761178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110918223.6A CN113761178A (zh) 2021-08-11 2021-08-11 一种数据的展示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110918223.6A CN113761178A (zh) 2021-08-11 2021-08-11 一种数据的展示方法和装置

Publications (1)

Publication Number Publication Date
CN113761178A true CN113761178A (zh) 2021-12-07

Family

ID=78788988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110918223.6A Withdrawn CN113761178A (zh) 2021-08-11 2021-08-11 一种数据的展示方法和装置

Country Status (1)

Country Link
CN (1) CN113761178A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统
CN111339248A (zh) * 2020-02-12 2020-06-26 平安科技(深圳)有限公司 数据属性填充方法、装置、设备及计算机可读存储介质
CN111382235A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种问答知识库的优化方法及其装置
CN111461812A (zh) * 2020-02-28 2020-07-28 北京三快在线科技有限公司 对象推荐方法、装置、电子设备及可读存储介质
CN111522839A (zh) * 2020-04-25 2020-08-11 华中科技大学 一种基于深度学习的自然语言查询方法
US20200334334A1 (en) * 2019-04-18 2020-10-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
CN112184021A (zh) * 2020-09-28 2021-01-05 中国人民解放军国防科技大学 一种基于相似支持集的答案质量评估方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN111382235A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种问答知识库的优化方法及其装置
US20200334334A1 (en) * 2019-04-18 2020-10-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统
CN111339248A (zh) * 2020-02-12 2020-06-26 平安科技(深圳)有限公司 数据属性填充方法、装置、设备及计算机可读存储介质
CN111461812A (zh) * 2020-02-28 2020-07-28 北京三快在线科技有限公司 对象推荐方法、装置、电子设备及可读存储介质
CN111522839A (zh) * 2020-04-25 2020-08-11 华中科技大学 一种基于深度学习的自然语言查询方法
CN112184021A (zh) * 2020-09-28 2021-01-05 中国人民解放军国防科技大学 一种基于相似支持集的答案质量评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAQI HOU ET AL.: "A Neural Relation Extraction Model for Distant Supervision in Counter-Terrorism Scenario", 《IEEE ACCESS ( VOLUME: 8)》 *
张健: "基于深度学习的情感分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN105824959B (zh) 舆情监控方法及系统
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
US20230058194A1 (en) Text classification method and apparatus, device, and computer-readable storage medium
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN112989038B (zh) 句子级用户画像生成方法、装置及存储介质
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN114741581A (zh) 一种图像分类方法、装置、计算机设备及介质
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN111368093B (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN114398909A (zh) 用于对话训练的问题生成方法、装置、设备和存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN115827990B (zh) 搜索方法及装置
CN110096708B (zh) 一种定标集确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211207