CN111159401A - 基于短会的关联信息提方法、装置、电子设备及存储介质 - Google Patents
基于短会的关联信息提方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111159401A CN111159401A CN201911329749.XA CN201911329749A CN111159401A CN 111159401 A CN111159401 A CN 111159401A CN 201911329749 A CN201911329749 A CN 201911329749A CN 111159401 A CN111159401 A CN 111159401A
- Authority
- CN
- China
- Prior art keywords
- request content
- session request
- session
- similar
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 20
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000010276 construction Methods 0.000 claims description 12
- 239000002131 composite material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 6
- 230000002829 reductive effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于短会话的关联信息提取方法、装置、电子设备和计算机可读存储介质,通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
Description
技术领域
本发明涉及客服机器人领域,尤其是涉及一种基于短会的关联信息提方法、装置、电子设备及存储介质。
背景技术
特定领域内的客服机器人使用场景中,例如购物、理财、政务等,客户会话内容通常具有简短、相似性高、干扰信息多、有一定的节奏性等特点。客服机器人对用户会话请求内容的理解和预测能力决定了客服机器人的智能程度,为此如何提高客服机器人的会话理解意图和预测能力,为客户提供精准的个性化推荐是本领域亟待解决的技术问题。
发明内容
为了改善相关技术中的不足,本发明第一方面致力于提供一种基于短会话的关联信息提取方法,包括:
获取会话请求内容;
构建相似会话请求内容集,比较会话请求内容,将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
构建相似会话请求内容集列表,根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;
确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
具体的,构建相似会话请求内容集包括,比较属于同一会话ID的会话请求内容,构建所述同一会话ID的相似会话请求内容集。
具体的,构建相似会话请求内容集列表包括,将不同会话ID的相似会话请求内容集中相似度满足第三预设条件的会话请求内容合并形成相似会话请求内容全集,并为该相似会话请求内容全集设置一全集主旨句。
具体的,前一会话请求内容和后前一会话请求内容均具有业务含义。
进一步的,在获取会话请求内容之前,还包括对所述会话请求内容预处理。
具体的,所述相似度为所述综合相似度,计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7,0.9]取值;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05,0.15]取值;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05,0.15]取值。
具体的,所述α取0.9,所述β取0.05;所述γ取0.05。
具体的,所述主旨句为会话请求内容集中预定频率的并具有业务含义的会话请求内容语句或者根据会话请求内容集中具有业务含义的会话请求内容归纳形成的语句。
本发明的第二方面提供一种基于短会的关联信息提取装置,包括:会话请求内容获取模块、相似会话请求内容集构建模块、相似会话请求内容集列表构建模块、关联信息确定模块和关联信息提取模块,
所述会话请求内容获取模块用于获取会话请求内容;
所述相似会话请求内容集构建模块用于构建相似会话请求内容集,比较会话请求内容,将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
所述相似会话请求内容集列表构建模块用于构建相似会话请求内容集列表,根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;
所述关联信息确定模块用于确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
所述关联信息提取模块用于提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
本发明的第三个方面提供一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据第一方面所述的基于短会的关联信息提取方法。
本发明的第四个方面一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述第一方面所述的基于短会的关联信息提取方法。
根据本发明提供的基于短会话的关联信息提取方法、装置、电子设备和计算机可读存储介质,通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
附图说明
图1为本发明基于短会的关联信息提取方法示意图
图2为本发明一个ID内会话请求内容聚类过程的示意图
图3为本发明夸ID内会话请求内容融合聚类过程的示意图
图4为本发明基于短会的关联信息提取装置结构示意图
图5为本发明基于短会的关联信息提取电子设备的结构示意图
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供一种基于短会话的关联信息提取方法,如图1所述,该方法包括以下步骤:
步骤S101,获取会话请求内容;
具体的短会话指一般业务问答系统或机器人使用过程中的人机交互会话内容,具有一定的时序性、内容简短、内容离散性高等特点。关联信息也即上下文关联信息,为存在于同一会话中的具有一定关联关系的会话请求内容,例如客户向问答机器人问“信用卡开卡”的同时又问了“信用卡销卡”,这两个会话存在于同一会话同时具有一定的业务含义,则视它们为上下文关联信息。
由于客户交互过程中具有不确定性、多样化等特点,请求流水内容中包含了大量与业务不相关的干扰会话请求内容,例如日常对话、1-2个字的极短内容、一串特殊字符或者数字等。因此在获取会话请求内容之前需要对会话请求内容预处理,去除那些具有干扰性的请求流水,只保留具有一定业务含义的请求流水内容作为会话请求内容,滤除会话中的极短内容,例如日常会话中的表示语气或者停顿词,例如,嗯、你好,是、对啊等内容;滤除会话中的数字、特殊字符或者不具有业务含义的内容。
获取会话请求内容的方式可以是通过电子装置的输入单元,例如摄像头,语音识别系统,键盘,触碰屏幕等,还可以是读取存储在本地或者互联网服务器,云端的内容来获取,本实施例对获取手段不做具体限制。
本实施例采用多重过滤机制,避免了无关对话内容对上下文关联信息提取的干扰。
步骤S102,构建相似会话请求内容集,比较会话请求内容,将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
其中第一预设条件为根据统计分析需要选定的相似度阈值,具体的第一预设条件为相似度大于相似度阈值。
如图2所示,具体的将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集的方式如下:第一步对多条会话请求内容流水进行去重处理,过滤重复请求内容。该步骤为可选步骤,如果统计精确度要求比较低或者在数据清洗阶段已经对重复内容去过重的情况下,该步骤可以省略。
第二步根据流水号顺序,依次选择该会话请求内容Ri(i=0,1,2.,......),判断该请求内容状态是否为“已处理”状态,如果是则表示该条已经进行了聚类处理,可以跳过继续选择下一条会话请求内容分析。
第三步对于不是“已处理”状态的会话请求内容Ri,先将其归为一簇,并将其设置为主旨句,建立其相似请求内容集。
第四步从会话请求内容Ri开始,依次选择会话请求内容Rj,判断该会话请求内容状态是否为“已处理”状态,如果是则表示该条已经进行了聚类处理,可以跳过继续选择下一条会话请求内容分析。
第五步对于不是“已处理”状态的会话请求内容Rj,将其与Ri进行相似度比较,如果相似度大于设置阈值,则认为它们是同一簇,为表达的中心思想比较一致的相似问题。将其加入到Ri的相似会话请求内容集,并将其状态设置为“已处理”。如果相似度小于或等于设置的相似度阈值,则表示它们属于独立问题,暂不处理,跳过该条内容。重复上述步骤,最终得到一个会话ID内所有会话请求内容的聚类后列表。
步骤S103,构建相似会话请求内容集列表,根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;
具体的上述步骤S102中根据流水号的顺序依次进行相似度比较,将表达相同内容或者近似内容的会话请求内容作为一组聚类,由于会话请求内容在会话中出现的先后顺序与会话流水顺序对应,即会话流水顺序可以表征会话请求内容在会话中出现的顺序,因此本实施例以会话请求内容流水号的顺序作为会话请求内容在会话中的顺序构建会话流水内容列表,该列表中如果Ri为代表相同或者近似中心意思的会话请求内容集,那么将其后代表相同的意思的会话请求内容放入该会话请求内容集中,如果Ri0(本申请Ri0会话请求内容集Ri中的一条会话请求内容)的下一条会话请求内容Rj0的具体业务含义与会话请求内容集Ri的具体业务含义不同,则将与Rj0中心意思相同或者接近的会话请求内容归入Rj代表的内容集中。由于会话请求内容Ri0与会话请求内容Rj0具有下上文的顺序,因此会话内容集Ri和会话内容集Rj也具有上下文的顺序。将会话内容集合Ri、Rj按照上下文顺序排列,形成相似会话请求内容列表。
步骤S104,确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
具体的,本申请针对的是对大量客户会话请求水流进行分析,上下文会话请求内容的水流中存在可能没有关联性的内容,本文所阐述的关联性是指当第一会话请求内容出现时,第二会话请求内容在第一会话请求内容后出现的可能性为大概率事件时,也即满足一定概率(或者出现频次)要求时则认为第一会话请求内容和第二会话请求内容具有上下文关联关系。该概率可以采用P2/P1计算,其中P1为第一会话请求内容集中会话请求内容条目数,P2为第二会话请求内容集中会话请求内容条目数。本申请中的关联度采用上述概率表征。
步骤S105,提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
具体的,第二预设条件设定为关联度(P2/P1)>50%,本数值设定仅仅是处于举例的目的,可以根据需要设定,在部分场景下如果关联度(P2/P1)大于该场景下的后一事件在前一事件后出现概率的平均价值,就可以为认定为是大概率事件时,可以将第二预设条件设为关联度(P2/P1)>平均值。
提取关联信息是指,将符合关联度的上一会话请求内容集和下一会话请求内容集的作为输出内容。
本发明提供一种可能的实施方式,构建相似会话请求内容集包括,比较属于同一会话ID的会话请求内容,构建所述同一会话ID的相似会话请求内容集。本实施例中以会话ID为单位进行比较该会话ID中各会话请求内容的相似度,属于同一个会话ID的表达不同主题思想的相似会话请求内容集合归入在一个ID会话中,也即该会话ID中包含多个具有不同具体业务含义的相似会话请求内统集合,当下文实施例中夸会话ID融合会话请求内容集合是,该集合相对于后续实施例是以ID为单位的相似会话请求内容子集。
具体的,构建相似会话请求内容集列表包括,将不同会话ID的相似会话请求内容集中相似度满足第三预设条件的会话请求内容集合并形成相似会话请求内容全集,并为该相似会话请求内容全集设置一全集主旨句。
本实施例分析的对象是大量的客户会话请求内容,这些会话请求内容可能来自于不同的客户,也可能是来自于多个终端上不同客户的会话请求内容流水。因此为了将所有数据作为全集来统计分析,需要将不同会话ID下的相似会话请求内容集中满足第三预设条件的会话请求内容集合并处理,其中第三预设条件的设定可与第一预设条件相同,但为了统计方便可以将代表每个相似会话请求内容集的主旨句进行相似度比较,将相似的主旨句的各集合融合后合并,形成一个具有具体业务中心意思的全集,并为该全集设置一个全集主旨句。
对于上述形成相似会话请求内容全集流程如图3所示:
输入相似会话请求内容集列表,选择其中一个ID的相似会话请求内容集Si,该相似会话请求内容集Si的主旨句为S0,遍历相似会话请求内容集列表,将相似会话请求内容全集中的其余ID中的相似会话请求内容集Sj的主旨句Sn与主旨句S0进行相似度比较,如果上述两个主旨句S0和Sn的相似度满足第三预设条件,则将分属于不同ID的相似会话请求内容集合并,遍历完集合后,为具有相同中心思想的全集相似会话请求内容全集设定一个全集主旨句。然后选择下一个相似会话请求内容集Si+1重复上述步骤,直至完成全部相似内容的融合合并。
经过上述处理的全集中各相似会话请求全集仍然保持着会话顺序,并不会应为融合打乱上下文的逻辑顺序。将融合后的全集作为相似会话请求内容集列表。
本申请可能实施方式与上述实施方式仅是为单一会话ID为单位进行还是将全部会话ID融合后进行处理,在本质上没有区别,仅仅是处理对象颗粒度不同。
需要强调的是本发明中前一会话请求内容和后前一会话请求内容均具有业务含义。
本实施例中所述相似度的确定方式可以选择会话内容、关键词、词顺序中的至少一个维度计算相似度。发明人进过深入研究,提出了一种综合相似度计算方式,该综合相似度考虑了上述全部维度,相似度比较更可靠。具体的计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7,0.9]取值,优选的α设为0.9,根据需要也可以将α的值选择0.8;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05,0.15]取值,优选的β设为0.05,根据需要也可以将β的值选择0.10或者0.15;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05,0.15]取值,优选的γ设为0.05,根据需要也可以将γ的值选择0.10或者0.15。
上述计算方式是本申请设计的优选方式,其他能够比较语句相似度的方式也适用于本发明实施例。
具体的,所述主旨句为会话请求内容集中预定频率的并具有业务含义的会话请求内容语句或者根据会话请求内容集中具有业务含义的会话请求内容归纳形成的语句。
根据本发明提供的基于短会话的关联信息提取方法通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
如图5所示,本发明的第二方面提供一种基于短会的关联信息提取装置,包括:会话请求内容获取模块、相似会话请求内容集构建模块、相似会话请求内容集列表构建模块、关联信息确定模块和关联信息提取模块,
所述会话请求内容获取模块用于获取会话请求内容;
具体的短会话指一般业务问答系统或机器人使用过程中的人机交互会话内容,具有一定的时序性、内容简短、内容离散性高等特点。关联信息也即上下文关联信息,为存在于同一会话中的具有一定关联关系的会话请求内容,例如客户向问答机器人问“信用卡开卡”的同时又问了“信用卡销卡”,这两个会话存在于同一会话同时具有一定的业务含义,则视它们为上下文关联信息。
由于客户交互过程中具有不确定性、多样化等特点,请求流水内容中包含了大量与业务不相关的干扰请求内容,例如日常对话、1-2个字的极短内容、一串特殊字符或者数字等。因此在获取会话请求内容之前需要对会话请求内容预处理,去除那些具有干扰性的请求流水,只保留具有一定业务含义的请求流水内容作为会话请求内容,滤除会话中的极短内容,例如日常会话中的表示语气或者停顿词,例如,嗯、你好,是、对啊等内容;滤除会话中的数字、特殊字符或者不具有业务含义的内容。
获取会话请求内容的方式可以是通过电子装置的输入单元,例如摄像头,语音识别系统,键盘,触碰屏幕等,还可以是读取存储在本地或者互联网服务器,云端的内容来获取,本实施例对获取手段不做具体限制。
本实施例采用多重过滤机制,避免了无关对话内容对上下文关联信息提取的干扰。
所述相似会话请求内容集构建模块用于构建相似会话请求内容集,比较会话请求内容,将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
其中第一预设条件为根据统计分析需要选定的相似度阈值,具体的为相似度大于相似度阈值。
如图2所示,具体的将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集的方式如下:第一步对多条会话请求内容流水进行去重处理,过滤重复请求内容。该步骤为可选步骤,统计精确度要求比较低或者在数据清洗阶段已经对重复内容去过重的情况下,该步骤可以省略。
第二步根据流水号顺序,依次选择该会话请求内容Ri(i=0,1,2.,......),判断该请求内容状态是否为“已处理”状态,如果是则表示该条已经进行了聚类处理,可以跳过继续选择下一条请求内容分析。
第三步对于不是“已处理”状态的请求内容Ri,先将其归为一簇,并将其设置为主旨句,建立其相似请求内容集。
第四步从会话请求内容Ri开始,依次选择请求内容Rj,判断该会话请求内容状态是否为“已处理”状态,如果是则表示该条已经进行了聚类处理,可以跳过继续选择下一条会话请求内容分析。
第五步对于不是“已处理”状态的会话请求内容Rj,将其与Ri进行相似度比较,如果相似度大于设置阈值,则认为它们是同一簇,表达的中心思想比较一致的相似问题。将其加入到Ri的相似会话请求内容集,并将其状态设置为“已处理”。如果相似度小于或等于设置的相似度阈值,则表示它们属于独立问题,暂不处理,跳过该条内容。重复上述,最终得到一个会话ID内所有会话请求内容的聚类后列表。
所述相似会话请求内容集列表构建模块用于构建相似会话请求内容集列表,根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;
具体的上述根据流水号的顺序依次进行相似度比较,将表达相同内容或者近似内容的会话请求作为一组聚类,由于会话请求内容在会话中出现的先后顺序与会话流水顺序对应,即会话流水顺序可以表征会话请求内容在会话中出现的顺序,因此本实施例以会话请求内容流水号的顺序作为会话请求内容在会话中的顺序构建会话流水内容列表,该列表中如果Ri为代表相同或者近似中心意思的会话请求内容集,那么将其后代表相同的意思的会话请求内容放入该会话请求内容集中,如果Ri0(本申请中Ri0为会话请求内容集Ri中的一条会话请求内容)的下一条会话请求内容Rj0的具体业务含义与会话请求内容集Ri的具体业务含义不同,则将与Rj0中心意思相同或者接近的会话请求内容归入Rj代表的内容集中。由于会话请求内容Ri0与会话请求内容Rj0具有下上文的顺序,因此会话内容集Ri和会话内容集Rj也具有上下文的顺序。将会话内容集合Ri、Rj按照上下文顺序排列,形成相似会话请求内容列表。
所述关联信息确定模块用于确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
具体的,本申请针对的是对大量客户会话请求水流进行分析,上下会话请求内容的水流中存在可能没有关联性的内容,本文所阐述的关联性是指当第一会话请求内容出现时,第二会话请求内容在第一会话请求内容后出现的可能性为大概率事件时,也即满足一定概率(或者出现频次)要求时则认为第一会话请求内容和第二会话请求内容具有上下文关联关系。该概率可以采用P2/P1计算,其中P1为第一会话请求内容集中会话请求内容条目数,P2为第二会话请求内容集中会话请求内容条目数。本申请中的关联度采用上述概率表征。
所述关联信息提取模块用于提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
具体的,第二预设条件设定为关联度(P2/P1)>50%,本数值设定仅仅是处于举例的目的,可以根据需要设定,在部分场景下如果关联度(P2/P1)大于该场景下的后一事件在前一事件后出现概率的平均价值,就可以为认定为是大概率事件时,也可以将第二预设条件设为关联度(P2/P1)>平均值。
提取关联信息是指,将符合关联度的上一会话请求内容集和下一会话请求内容集的作为输出内容。
根据本发明提供的基于短会话的关联信息提取装置,通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
本申请实施例提供了一种短会话关联信息提取装置适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现会话请求内容获取模块、相似会话请求内容集构建模块、相似会话请求内容集列表构建模块、关联信息确定模块和关联信息提取模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现实施例提供的短会话关联信息提取装置的功能。
本申请实施例提供了一种电子设备,与相关技术相比,本申请实施例通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,与相关技术相比,本申请实施例提供了一种电子设备,与相关技术相比,本申请实施例通过获取会话请求内容,构建相似会话请求内容集,利用上述会话请求内容集根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;然后确定关联信息后提取关联信息。采用本申请技术方案科学合理的提取相关性强、意图明确的具有业务含义的会话请求内容,可以准确把握客户请求意图之间的关联关系、分析多客户群相似问题,能有效提升客服机器人业务素材收集效率,降低人工干预,明显提升其个性化精准推荐、相似性扩展等能力。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (11)
1.一种基于短会话的关联信息提取方法,其特征在于:
获取会话请求内容;
构建相似会话请求内容集,比较所述会话请求内容,将相似度满足第一预设条件的所述会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
构建相似会话请求内容集列表,根据所述会话请求内容在会话中出现的先后顺序构建所述相似会话请求内容集列表;
确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
2.根据权利要求1所述的基于短会话的关联信息提取方法,其特征在于:构建相似会话请求内容集包括,
比较属于同一会话ID的所述会话请求内容,构建所述同一会话ID的相似会话请求内容集。
3.根据权利要求2所述的基于短会话的关联信息提取方法,其特征在于:构建相似会话请求内容集列表包括,
将不同会话ID的所述相似会话请求内容集中相似度满足第三预设条件的所述会话请求内容合并形成相似会话请求内容全集,并为该相似会话请求内容全集设置一全集主旨句。
4.根据权利要求1所述基于短会话的关联信息提取方法,其特征在于:所述前一会话请求内容和所述后一会话请求内容均具有业务含义。
5.根据权利要求1所述基于短会话的关联信息提取方法,其特征在于:在获取所述会话请求内容之前,还包括对所述会话请求内容预处理。
6.根据权利要求1所述的基于短会的关联信息提取方法,其特征在于,所述相似度为综合相似度,计算方式为:
Q=C·α+W·β+S·γ
其中Q为综合相似度得分;
C为基于内容计算的相似度,α为基于内容计算的相似度对应的权重值,α在[0.7-0.9]取值;
W为基于关键词命中计算的相似度,β为基于关键词命中计算的相似度对应的权重值,β在[0.05-0.15]取值;
S:基于词顺序计算的相似度,γ为基于词顺序计算的相似度对应的权重值,γ在[0.05-0.15]取值。
7.根据权利要求6所述的短会话新问题生成方法,其特征在于:所述α取0.9,所述β取0.05;所述γ取0.05。
8.根据权利要求1所述的基于短会的关联信息提取方法,其特征在于,所述主旨句为所述会话请求内容集中预定频率的并具有业务含义的会话请求内容语句或者根据会话请求内容集中具有业务含义的所述会话请求内容归纳形成的语句。
9.一种基于短会的关联信息提取装置,其特征在于,包括:会话请求内容获取模块、相似会话请求内容集构建模块、相似会话请求内容集列表构建模块、关联信息确定模块和关联信息提取模块,
所述会话请求内容获取模块用于获取会话请求内容;
所述相似会话请求内容集构建模块用于构建相似会话请求内容集,比较会话请求内容,将相似度满足第一预设条件的会话请求内容配置到所述相似会话请求内容集,并为该相似会话请求内容集设置一主旨句;
所述相似会话请求内容集列表构建模块用于构建相似会话请求内容集列表,根据会话请求内容在会话中出现的先后顺序构建相似会话请求内容列表;
所述关联信息确定模块用于确定关联信息,统计后一会话请求内容在前一会话请求内容后出现的频次,根据所述频次确定所述后一会话请求内容和所述前一会话请求内容的关联度;
所述关联信息提取模块用于提取关联信息,将所述关联度满足第二预设条件的后一会话请求内容作为前一会话请求内容的关联信息。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至8任一项所述的基于短会的关联信息提取方法。
11.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至8中任一项所述的基于短会的关联信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329749.XA CN111159401A (zh) | 2019-12-20 | 2019-12-20 | 基于短会的关联信息提方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329749.XA CN111159401A (zh) | 2019-12-20 | 2019-12-20 | 基于短会的关联信息提方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159401A true CN111159401A (zh) | 2020-05-15 |
Family
ID=70557652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911329749.XA Pending CN111159401A (zh) | 2019-12-20 | 2019-12-20 | 基于短会的关联信息提方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159401A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN106155522A (zh) * | 2016-06-29 | 2016-11-23 | 上海智臻智能网络科技股份有限公司 | 会话数据处理、知识库建立、优化、交互方法及装置 |
EP3260996A1 (en) * | 2016-06-23 | 2017-12-27 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
CN108090077A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于自然语言检索的综合相似度计算方法 |
CN109753568A (zh) * | 2018-12-27 | 2019-05-14 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
US20190182382A1 (en) * | 2017-12-13 | 2019-06-13 | Genesys Telecomminications Laboratories, Inc. | Systems and methods for chatbot generation |
-
2019
- 2019-12-20 CN CN201911329749.XA patent/CN111159401A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
EP3260996A1 (en) * | 2016-06-23 | 2017-12-27 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
CN106155522A (zh) * | 2016-06-29 | 2016-11-23 | 上海智臻智能网络科技股份有限公司 | 会话数据处理、知识库建立、优化、交互方法及装置 |
CN108090077A (zh) * | 2016-11-23 | 2018-05-29 | 中国科学院沈阳计算技术研究所有限公司 | 一种基于自然语言检索的综合相似度计算方法 |
US20190182382A1 (en) * | 2017-12-13 | 2019-06-13 | Genesys Telecomminications Laboratories, Inc. | Systems and methods for chatbot generation |
CN109753568A (zh) * | 2018-12-27 | 2019-05-14 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407178B (zh) | 一种会话摘要生成方法、装置、服务器设备以及终端设备 | |
CN111428049A (zh) | 一种事件专题的生成方法、装置、设备和存储介质 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN110445939B (zh) | 容量资源的预测方法及装置 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN115034220B (zh) | 一种异常日志检测方法、装置、电子设备及存储介质 | |
CN109819128A (zh) | 一种电话录音的质检方法和装置 | |
CN111738863A (zh) | 用户数据筛选方法、装置及系统 | |
CN113010664B (zh) | 一种数据处理方法、装置及计算机设备 | |
CN114444514B (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN111159401A (zh) | 基于短会的关联信息提方法、装置、电子设备及存储介质 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN113159178A (zh) | 问题扩展方法、装置、服务器及介质 | |
CN113536805A (zh) | 热点事件的舆情分析方法、装置、设备及存储介质 | |
CN110535749A (zh) | 对话推送方法、装置、电子设备及存储介质 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
CN108959295A (zh) | 一种原生对象的识别方法和装置 | |
CN109241428B (zh) | 用户性别的确定方法、装置、服务器及存储介质 | |
CN114942980B (zh) | 一种确定文本匹配方法及装置 | |
CN111079010B (zh) | 一种数据处理方法、装置及系统 | |
CN117009474A (zh) | 对话模板生成方法、装置和计算机可读存储介质 | |
CN114691870A (zh) | 一种意图识别故障的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220908 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |