CN112597295A - 摘要提取方法、装置、计算机设备和存储介质 - Google Patents
摘要提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112597295A CN112597295A CN202011412961.5A CN202011412961A CN112597295A CN 112597295 A CN112597295 A CN 112597295A CN 202011412961 A CN202011412961 A CN 202011412961A CN 112597295 A CN112597295 A CN 112597295A
- Authority
- CN
- China
- Prior art keywords
- sentence
- keyword database
- keyword
- keywords
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 4
- 239000010931 gold Substances 0.000 description 4
- 229910052737 gold Inorganic materials 0.000 description 4
- 241000227425 Pieris rapae crucivora Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000015220 hamburgers Nutrition 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 239000000796 flavoring agent Substances 0.000 description 2
- 235000019634 flavors Nutrition 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种摘要提取方法、装置、计算机设备和存储介质,其中,方法包括:读取会话中的多个句子及关键字数据库;关键字数据库中存储有多个关键字及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,能够实现通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种摘要提取方法、装置、计算机设备和存储介质。
背景技术
随着互联网电子商务的蓬勃发展,在线客服作为与客户沟通交流的渠道,已成为电子商务网站的重要组成部分,同时也是展示企业形象的重要工具。在线客服经常需要在短时间内浏览大量的会话记录信息,以快速了解客户信息和需求。例如,在接听其他人工客服或客服机器人转接进线时,需要快速了解客户与前一个客服的聊天记录,以了解客户需求,或者,在接收到客户的留言信息时,其中,客户留言中可能包含数量较多的内容以及多个问题描述,此时客服需要阅读大量的消息记录以整理出简短且有效的信息及数据。因此,计算机设备自动化对聊天记录进行提炼,生成摘要就显得尤为重要。
相关技术中,计算机设备基于句子的高频词聚类,来生成摘要。然而,由于客户在咨询时,一般简单几句即可说明意图,与词频无关,因此上述摘要提取方法不适用于客户咨询场景。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
本申请提出一种摘要提取方法、装置、计算机设备和存储介质,以实现通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性,用于解决现有技术中基于高频词聚类来生成摘要的方式,不适用于客户咨询场景的技术问题。
本申请第一方面实施例提出了一种摘要提取方法,包括:
读取会话中的多个句子,以及读取关键字数据库;其中,所述关键字数据库中存储有多个关键字,以及每个所述关键字对应的标签;
将每个所述句子与关键字数据库中的关键字匹配,以得到每个所述句子在所述关键字数据库中的匹配关键字;
根据每个所述句子在所述关键字数据库中的匹配关键字,确定每个所述句子在所述关键字数据库中的匹配标签数量;所述匹配标签数量,是在所述关键字数据库中匹配关键字所对应标签的数量;
根据每个所述句子在所述关键字数据库中的匹配标签数量,确定每个所述句子为摘要句子的概率;
根据所述概率,从所述多个句子中选取目标句子,以将所述目标句子作为所述会话的摘要。
本申请实施例的摘要提取方法,通过读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量是在关键字数据库中匹配关键字所对应标签的数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性。
本申请第二方面实施例提出了一种摘要提取装置,包括:
读取模块,用于读取会话中的多个句子,以及读取关键字数据库;其中,所述关键字数据库中存储有多个关键字,以及每个所述关键字对应的标签;
匹配模块,用于将每个所述句子与关键字数据库中的关键字匹配,以得到每个所述句子在所述关键字数据库中的匹配关键字;
确定模块,用于根据每个所述句子在所述关键字数据库中的匹配关键字,确定每个所述句子在所述关键字数据库中的匹配标签数量;所述匹配标签数量,是在所述关键字数据库中匹配关键字所对应标签的数量;
预测模块,用于根据每个所述句子在所述关键字数据库中的匹配标签数量,确定每个所述句子为摘要句子的概率;
提取模块,用于根据所述概率,从所述多个句子中选取目标句子,以将所述目标句子作为所述会话的摘要。
本申请实施例的摘要提取装置,通过读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量是在关键字数据库中匹配关键字所对应标签的数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性。
本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的摘要提取方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面实施例提出的摘要提取方法。
本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行本申请第一方面实施例提出的摘要提取方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的摘要提取方法的流程示意图;
图2为本申请实施例二所提供的摘要提取方法的流程示意图;
图3为本申请实施例三所提供的摘要提取方法的流程示意图;
图4为本申请实施例四所提供的摘要提取方法的流程示意图;
图5为本申请实施例五所提供的摘要提取装置的结构示意图;
图6为本申请实施例六所提供的摘要提取装置的结构示意图;
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
传统的文本摘要抽取的方法,依赖于抽取式的摘要抽取方法,具体地,主要是基于简单统计的方法,根据文本中的句子与词语出现频率等因素判断文本中的句子的重要程度,根据句子的重要程度,抽取句子作为文本的摘要。在研究初期,通过统计简单直观的文本特征,如词频、词位置、特定的线索词、标题等,从文本中识别重要句子,以组成摘要。
目前比较实用的抽取式的摘要抽取方法是文本排序和通过句子聚类/分类等方法。在这类方法中,抽取式自动摘要问题被转化为一个二元分类问题,一个句子要么是摘要句,要么是非摘要句。首先通过人工将重要句子标注出来,然后提取这些重要句子的特征,学习算法通过统计分析学习,得到特征与句子重要性之间的关系,进而得到合适的分类器。之后,向分类器输入句子,即可得到句子的重要性得分,之后依据句子重要性得分的高低,抽取重要句子,以生成摘要。其中,较为广泛使用的算法包括朴素贝叶斯算法、决策树算法、最大熵算法、隐马尔科夫算法等。
然而,上述基于高词频聚类的摘要抽取方法,并不适用于客户咨询场景,原因为,客户在咨询时,一般简单几句即可说明意图,与词频无关。
因此,本申请主要针对现有技术中基于高频词聚类来生成摘要的方式,不适用于客户咨询场景的技术问题,提出一种摘要提取方法。
本申请实施例的摘要提取方法,通过读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量是在关键字数据库中匹配关键字所对应标签的数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性。
下面参考附图描述本申请实施例的摘要提取方法、装置、计算机设备和存储介质。
图1为本申请实施例一所提供的摘要提取方法的流程示意图。
本申请实施例以该摘要提取方法被配置于摘要提取装置中来举例说明,该摘要提取装置可以应用于任一计算机设备中,以使该计算机设备可以执行摘要提取功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该摘要提取方法可以包括以下步骤:
步骤101,读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签。
本申请实施例中,关键字数据库为预先设置的数据库,该关键字数据库中可以存储有多个关键字,以及每个关键字对应的标签。例如,当关键字为白条、百条、白條或普通百条时,该关键字对应的标签可以为百条,再例如,当关键字为手续费或违约金时,该关键字对应的标签可以为手续费。
本申请实施例中,会话可以为任一会话,会话中的多个句子是指属于同一会话中的多个消息语句。
本申请实施例中,计算机设备可以读取属于同一会话中的多个句子,以及读取关键字数据库。
进一步地,为了提升处理效率,计算机设备可以对会话中的聊天信息进行预处理,比如筛除聊天信息中被咨询一方的消息语句以及系统发送的消息语句,而仅保留主动咨询一方,即聊天发起者的消息语句,从而仅获取属于同一会话中聊天发起者的消息语句,作为该会话中的多个句子。
在本申请实施例的一种可能的实现方式中,当会话中包含音频消息和/或视频消息时,计算机设备可以基于语音识别技术,将音频信息转化为文本信息,以生成对应的句子,和/或,将视频中的音频信息转化为文本信息,以生成对应的句子,由此,通过将音频消息和/或视频消息转化为文本消息,可以有效避免最终生成的摘要中遗漏音频信息和/或视频信息中的重要信息,从而保证后续摘要生成结果的准确性。
步骤102,将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字。
本申请实施例中,针对会话中的每个句子,可以将该句子与关键字数据库中的关键字进行匹配,确定关键字数据库中与该句子匹配的关键字,本申请中记为匹配关键字。
在本申请实施例的一种可能的实现方式中,针对会话中的每个句子,可以采用自然语言处理(Natural Language Processing,简称NLP)技术中的语义分析技术,对该句子进行分解,得到分词序列,将该句子的分词序列中各个分词与关键字数据库中的关键字进行匹配,将关键字数据库中与该分词序列中的分词匹配的关键字作为匹配关键字。其中,语义分析技术主要是理解词语、句子、主题、类别等语义信息。
在本申请实施例的另一种可能的实现方式中,针对会话中的每个句子,可以采用分词算法,对该句子进行分词,得到该句子的多个文本片段,将该句子的多个文本片段与关键字数据库中的关键字进行匹配,将关键字数据库中与该句子中的文本片段匹配的关键字作为匹配关键字。
步骤103,根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量,是在关键字数据库中匹配关键字所对应标签的数量。
本申请实施例中,针对会话中的每个句子,在确定该句子在关键字数据库中的匹配关键字后,可以统计该句子在关键字数据库中的匹配标签数量,其中,匹配标签数量,是在关键字数据库中匹配关键字所对应标签的数量。
举例而言,假设某个句子与关键字数据库中的5个匹配关键字匹配,则该句子在关键字数据库中的匹配标签数量可以为5。
需要说明的是,不同关键字对应的标签可能相同,比如,当手续费或违约金对应的标签均为手续费,白条、百条、白條或普通百条对应的标签均为百条,为了提升后续摘要生成结果的准确性,在本申请实施例的一种可能的实现方式中,针对会话中的每个句子,可以确定该句子在关键字数据库中的匹配关键字所对应的标签,将该句子的匹配关键字所对应的标签去重后进行计数,以得到该句子在关键字数据库中的匹配标签数量。
步骤104,根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率。
本申请实施例中,针对会话中的每个句子,在确定该句子在关键字数据库中的匹配标签数量后,可以根据匹配标签数量,确定该句子为摘要句子的概率。其中,该句子为摘要句子的概率,与该句子在关键字数据库中的匹配标签数量成正向关系,即该句子在关键字数据库中的匹配标签数量越大,该句子作为摘要句子的概率越大,反之,该句子在关键字数据库中的匹配标签数量越小,该句子作为摘要句子的概率越小。
步骤105,根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。
本申请实施例中,可以根据各句子为摘要句子的概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。例如,可以将各句子为摘要句子的概率,按照概率的取值从大至小按序排列,选取排序在前的预设个数的句子,作为目标句子,从而可以将目标句子作为会话的摘要。
作为一种应用场景,当该摘要提取方法应用于电子商务网站、语音客服等平台的在线客户服务系统时,可以对每个会话自动提取摘要,从而可以帮助在线客服快速了解客户信息以及客户需求。
本申请实施例的摘要提取方法,通过读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量是在关键字数据库中匹配关键字所对应标签的数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性。
在本申请实施例的一种可能的实现方式中,关键字数据库可以为多个,为了提升摘要生成结果的准确性,可以根据多个关键字数据库的权重,对各关键字数据库中的匹配标签数量进行加权计算,得到加权数量,根据各句子的加权数量,确定各句子为摘要句子的概率。下面结合实施例二,对上述过程进行详细说明。
图2为本申请实施例二所提供的摘要提取方法的流程示意图。
如图2所示,该摘要提取方法可以包括以下步骤:
步骤201,读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库为多个,每个关键字数据库中存储有多个关键字以及每个关键字对应的标签。
应当理解的是,在客户咨询场景中,客户咨询的问题和被咨询的企业业务、业务办理操作相关,因此,作为本申请实施例的一种可能的实现方式,关键字数据库可以包括主业务关键字数据库、属性关键字数据库、操作关键字数据库、合作商户关键字数据库、抽象概念关键字数据库中的多个组合。
本申请实施例中,在每个客户咨询过程中,可以提取相应会话的“标准问题”,以及与“标准问题”对应的“相似问法”,将所有的“标准问题”和“相似问法”使用分词算法进行分析,并排除“动词”、“形容词”、“代词”,形成初始词库。之后,可以结合初始词库,识别出业务主体的主业务,提取出“主业务关键字”及其对应的“主业务标签”,并使用同义词扩写算法对“主业务关键字”进行同义词扩写,形成“主业务关键字数据库”,“主业务关键字数据库”存储有“主业务关键字”与“主业务标签”之间的对应关系。
其中,“标准问题”是指客户咨询过程中,常见的咨询问题的标准问法,举例而言,该“标准问题”例如可以为“开通了自动还款为什么没扣款”。
“相似问法”是指客户咨询过程中,常见的咨询问题的标准问法的详细问法或对标准问法的扩写,举例而言,该“相似问法”例如可以为“我选了自动还款为啥没成功呢”。
关键字可以为字或也可以为词,作为对句子打标签的原始依据,如果关键字中间有间隔,中间不关心的词可以为*代替,比如关键字可以为“会*吗”。
同义词是指与关键字具有相同含义的字词,采用该同义词替换关键字后,整个句子的含义不发生改变。
需要说明的是,多个关键字可以被归类为一个标签,因而标签可以认为是多个关键字的归类或代表。举例而言,当标签为“异常”时,该标签可以代表以下关键字:失败、不成功、超时、异常、开小差等等。
主业务标签是指企业主营的一级业务分类,以金融业务举例,主业务标签可以为钱包、理财、支付、征信、贷款等。
作为一种示例,参见表1,可以以列表形式,存储“主业务关键字”与“主业务标签”之间的对应关系。
主业务标签 | 主业务关键字 |
白条 | 白条 |
白条 | 百条 |
白条 | 白條 |
白条 | 普通白条 |
家装白条 | 家居卖场白条 |
家装白条 | 家居白条 |
家装白条 | 装修白条 |
婚庆白条 | 婚庆白条 |
婚庆白条 | 结婚*白条 |
安居白条 | 租房*白条 |
安居白条 | 安居白条 |
安居白条 | 自如白条 |
表1主业务关键字数据库
进一步地,本申请中,还可以结合初始词库,根据主业务,提取出与主业务相关的“属性关键字”及其对应的“属性标签”,并使用同义词扩写算法对“属性关键字”进行同义词扩写,形成“属性关键字数据库”,该“属性关键字数据库”存储有“属性关键字”与“属性标签”之间的对应关系。
其中,属性是指可以被具体化为某个值的名词,属性标签例如可以为账号、密码、邮箱、手机号、额度、订单号、服务费等。
作为一种示例,参见表2,可以以列表形式,存储“属性关键字”与“属性标签”之间的对应关系。
属性标签 | 属性关键字 |
账号 | 账号 |
账号 | 用户名 |
账号 | 账户 |
手续费 | 手续费 |
手续费 | 服务费 |
违约金 | 违约金 |
违约金 | 逾期费 |
违约金 | 罚息 |
密码 | 密码 |
密码 | pin码 |
表2属性关键字数据库
进一步地,本申请中,还可以结合初始词库,根据主业务、属性,提取出与主业务或属性相关的“操作关键字”及其对应的“操作标签”,并使用同义词扩写算法对“操作关键字”进行同义词扩写,形成“操作关键字数据库”,“操作关键字数据库”存储有“操作关键字”与“操作标签”之间的对应关系。
其中,操作标签是指代表对主业务或属性进行操作的一些业务动词,操作标签例如可以为补仓、分红、行权、上传、续投、续约、添加、删除等。
作为一种示例,参见表3,可以以列表形式,存储“操作关键字”与“操作标签”之间的对应关系。
操作标签 | 操作关键字 |
注册 | 注册 |
认证 | 认证 |
认证 | 校验 |
认证 | 验证 |
修改 | 修改 |
修改 | 变更 |
修改 | 更改 |
修改 | 更换 |
修改 | 调整 |
充值 | 充值 |
充值 | 充*费 |
充值 | 手机交费 |
表3操作关键字数据库
进一步地,本申请中,还可以结合初始词库,提取出与主体相关的“合作商户关键字”及其对应的“合作商户标签”,并使用同义词扩写算法对“合作商户关键字”进行同义词扩写,形成“合作商户关键字数据库”,“合作商户关键字数据库”存储有“合作商户关键字”与“合作商户标签”之间的对应关系。作为一种示例,参见表4,可以以列表形式,存储“合作商户关键字”与“合作商户标签”之间的对应关系。
其中,合作商户标签是指与企业业务有直接关联或间接关联的关联方,合作商户标签例如可为家乐福、汉堡王、百草味、达达、别的网站、海底捞、南方科技大学、肯德基等。
合作商户标签 | 合作商户关键字 |
京东到家 | 京东到家 |
家乐福 | 家乐福 |
汉堡王 | 汉堡王 |
百草味 | 百草味 |
达达 | 达达 |
别的网站 | 别的网站 |
海底捞 | 海底捞 |
表4合作商户关键字数据库
进一步地,可以对“相似问法”使用分词算法进行分词和词性分析,排除“动词”、“形容词”、“代词”,再去除“主业务关键字”、“属性关键字”、“操作关键字”、“合作商户关键字”,剩下的词做人工梳理,形成“抽象概念关键字”,并提取出每个“抽象概念关键字”对应的“抽象概念标签”,形成“抽象概念关键字数据库”。
例如,可以从10万条相似问法中,总结出高频的抽象概念,该抽象概念可以被认为是意图的一部分,其中,抽象概念不可被具体化为某个值,或者不能归类为属性,是比较抽象而又常见的名词,或者表示状态的副词。比如,抽象概念标签可以为定义、包含、风险、区别、优惠、资格等。
作为一种示例,参见表5,可以以列表形式,存储“抽象概念关键字”与“抽象概念标签”之间的对应关系。
抽象概念标签 | 抽象概念关键字 |
定义 | 是什么 |
定义 | 是什麼 |
定义 | 是干什么的 |
风险 | 有保障 |
风险 | 安全吗 |
风险 | 安全么 |
风险 | 保本 |
区别 | 一样吗 |
区别 | 一样嘛 |
区别 | 一样么 |
表5抽象概念关键字数据库
本申请实施例中,计算机设备可以读取属于同一会话中的多个句子,以及读取预设的多个关键字数据库。
步骤202,将每个句子与每个关键字数据库中的关键字匹配,以得到每个句子在每个关键字数据库中的匹配关键字。
本申请实施例中,针对会话中的每个句子,可以将该句子与多个关键字数据库中的各关键字进行匹配,确定每个关键库中与该句子匹配的关键字,将各关键库中与该句子匹配的关键字,作为对应关键字数据库中的匹配关键字。
步骤203,根据每个句子在每个关键字数据库中的匹配关键字,确定每个句子在每个关键字数据库中的匹配标签数量;匹配标签数量,是在相应关键字数据库中匹配关键字所对应标签的数量。
本申请实施例中,针对会话中的每个句子,在确定该句子在每个关键字数据库中的匹配关键字后,可以统计该句子在每个关键字数据库中的匹配标签数量。
需要说明的是,不同关键字对应的标签可能相同,比如,当手续费或违约金对应的标签均为手续费,白条、百条、白條或普通百条对应的标签均为百条,为了提升后续摘要生成结果的准确性,在本申请实施例的一种可能的实现方式中,针对会话中的每个句子,可以确定该句子在每个关键字数据库中的匹配关键字所对应的标签,将该句子的匹配关键字所对应的标签去重后进行计数,以得到该句子在每个关键字数据库中的匹配标签数量。
举例而言,假设某个句子在“主业务关键字数据库”中的匹配关键字为白条、普通白条,由于白条和普通白条的标签均为“百条”,则可以对匹配关键字所对应的标签进行去重,得到该句子在主业务关键字数据库中的匹配标签数量为1。再例如,假设上述句子在“属性关键字数据库”中的匹配关键字为账号、用户名、密码,由于账号和用户名对应的标签均为账号,则可以对匹配关键字所对应的标签进行去重,得到该句子在主业务关键字数据库中的匹配标签数量为2。
步骤204,查询多个关键字数据库的权重。
本申请实施例中,可以预先设置每个关键字数据库对应的权重,其中,各关键字数据库对应的权重可以根据实际情况设定。
步骤205,对每个句子,根据多个关键字数据库的权重,以及每个关键字数据库中的匹配标签数量,确定加权数量。
例如,假设句子在主业务关键字数据库、属性关键字数据库、操作关键字数据库、合作商户关键字数据库、抽象概念关键字数据库中的匹配标签数量,分别为A、B、C、D、E,标记主业务关键字数据库、属性关键字数据库、操作关键字数据库、合作商户关键字数据库、抽象概念关键字数据库对应的权重,分别为a,b,c,d,e,则加权数量为:a*A+b*B+c*C+d*D+e*E。
步骤206,根据每个句子的加权数量,确定每个句子为摘要句子的概率。
本申请实施例中,针对会话中的每个句子,该句子为摘要句子的概率与该句子的加权数量成正向关系,即该句子的加权数量越大,该句子作为摘要句子的概率越大,反之,该句子的加权数量越小,该句子作为摘要句子的概率越小。
步骤207,根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。
步骤207的执行过程可以参见上述实施例中步骤105的执行过程,在此不做赘述。
本申请实施例的摘要提取方法,通过查询多个关键字数据库的权重;对每个句子,根据多个关键字数据库的权重,以及每个关键字数据库中的匹配标签数量,确定加权数量;根据每个句子的加权数量,确定每个句子为摘要句子的概率。由此,可以提升客户咨询场景中摘要提取的准确性。
应当理解的是,在客户咨询场景中,疑问句中可能含有客户意图等重要信息,因而疑问句的重要程度较高,因此,在本申请实施例的一种可能的实现方式中,为了提升客户咨询场景中摘要提取的准确性,计算机设备可以识别每个句子的类型,根据每个句子的类型所对应的分值,以及该句子的加权数量,确定该句子为摘要句子的概率。其中,疑问句类型对应的分值大于非疑问句类型对应的分值,分值用于表征句子含有重要信息的概率。下面结合实施例三,对上述过程进行详细说明。
图3为本申请实施例三所提供的摘要提取方法的流程示意图。
如图3所示,在图2所示实施例的基础上,步骤206具体可以包括以下步骤:
步骤301,对每个句子进行类型识别,以确定每个句子的类型;其中,类型,用于表征每个句子属于疑问句类型或非疑问句类型。
在本申请实施例的一种可能的实现方式中,为了提升识别结果的准确性,可以基于机器学习技术,对每个句子进行类型识别,确定每个句子的类型。
作为一种示例,可以采用分类模型对每个句子进行类型识别,确定每个句子的类型;其中,类型可以包括多个疑问句类型和非疑问句类型,多个疑问句类型分别对不同对象进行提问。
例如,类型可以包括六个疑问句类型,分别为方法(How)、对象(Who)、内容(What)、地址(Where)、原因(Why)、判断(Yes or No),以及非疑问句类型,比如其他类型。
本申请实施例中,可以获取大量训练语句,比如训练语句可以为上述实施例中的“相似问法”,而后对训练语句进行类型标记,比如标记为方法(How)、对象(Who)、内容(What)、地址(Where)、原因(Why)、判断(Yes or No)或其他。而后,可以采用类型标记后的训练语句,并使用分类算法,对分类模型进行训练。之后,可以采用经过训练后的分类模型,对每个句子进行类型识别,以确定每个句子的类型。
步骤302,查询每个句子的类型所对应的分值;其中,疑问句类型对应的分值大于非疑问句类型对应的分值。
本申请实施例中,分值,用于表征句子含有重要信息的概率,若句子含有重要信息的概率越高,则分值越大,反之,若句子含有重要信息的概率越底,则分值越小。
例如,针对会话中的每个句子,若该句子的类型为疑问句类型(比如为How、Who、What、Where、Why、Yes or No),则该句子的类型所对应的分值可以为1,若该句子的类型为非疑问句类型(比如其他类型),则该句子的类型所对应的分值可以为0。
需要说明的是,上述疑问句类型对应的分值和非疑问句类型对应的分值仅为示例,实际应用时,可以根据实际需求设置疑问句类型对应的分值和非疑问句类型对应的分值,只需保证疑问句类型对应的分值大于非疑问句类型对应的分值即可,本申请对此并不做限制。
需要说明的是,严格意义上,为了提升模型预测结果的准确性,类和类之间应该保证互斥,即某个句子如果被分到A类,就一定不会被分到其他类。在本申请中,为了降低模型的复杂度,仅要求在分类和分类之间有交叉时,该交叉产生的误差可以被容忍即可。
步骤303,对每个句子,根据加权数量与分值,确定每个句子为摘要句子的概率。
仍以步骤205中的例子进行示例,标记句子的类型所对应的分值为F,句子的类型所对应的权重为f,则句子为摘要句子的概率可以为:a*A+b*B+c*C+d*D+e*E+f*F。
需要说明的是,在客户咨询场景中,根据客服聊天的特性可知,客户的前几句对话中出现关键信息的概率较大,因此,为了提升摘要提取的准确性,可以根据各句子在会话中的顺序,修正各句子为摘要句子的概率。下面结合实施例四,对上述过程进行详细说明。
图4为本申请实施例四所提供的摘要提取方法的流程示意图。
如图4所示,该摘要提取方法可以包括以下步骤:
步骤401,读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签。
步骤401的执行过程可以参见上述实施例中步骤101或步骤201的执行过程,在此不做赘述。
步骤402,将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字。
步骤403,根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量,是在关键字数据库中匹配关键字所对应标签的数量。
步骤402至403的执行过程可以参见上述实施例中步骤102至103的执行过程,或者参见上述实施例中步骤202至203的执行过程,在此不做赘述。
步骤404,根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率。
步骤404的执行过程可以参见上述实施例中步骤104的执行过程,或者,参见上述实施例中步骤204至206的执行过程,在此不做赘述。
步骤405,确定每个句子在会话中的顺序。
需要说明的是,每个消息语句,即句子均具有对应的生成时间,每个句子在会话中的顺序,可以根据每个句子的生成时间确定,即句子的生成时间越晚,该句子的排序越靠后,而句子的生成时间越早,该句子的排序越靠前。
因此,本申请中,可以根据每个句子的生成时间,确定该句子在会话中的顺序。
步骤406,根据每个句子的顺序,确定每个句子的系数;其中,顺序在前的句子的系数大于顺序在后的句子的系数。
本申请实施例中,在确定会话中的每个句子的顺序后,可以根据各句子的顺序,确定各句子的系数,其中,排序在前的句子的系数大于排序在后的句子的系数。
举例而言,假设会话中共有6个句子,6个句子根据生成时间从早到晚依次排序,得到句子1、句子2、句子3、句子4、句子5、句子6,句子1的系数可以为1.3、句子2的系数可以为1.2、句子3的系数可以为1.1、句子4的系数可以为1、句子5的系数可以为0.9、句子6的系数可以为0.8。
步骤407,根据每个句子的系数,对每个句子的概率进行修正。
本申请实施例中,在确定每个句子的系数后,可以根据各句子的系数,对相应句子的概率进行修正。比如,针对会话中的每个句子,可以将该句子的系数,与该句子为摘要句子的概率进行相乘,得到修正后的概率。
也就是说,可以增加排序在前的句子为摘要句子的概率,而缩小排序在后的句子为摘要句子的概率,从而提升摘要提取的准确性。
步骤408,根据修正后的概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。
本申请实施例中,可以将修正后的概率,按照概率的取值从大至小按序排列,选取排序在前的预设个数的句子,作为目标句子,从而可以将目标句子作为会话的摘要。即将各句子,按照概率的取值大小降序排列,选取排序在前的预设个数的句子,作为会话的摘要。
作为一种示例,可以将客户单次咨询的聊天记录做为输入,对聊天记录中的每个句子进行如下操作:对该句子进行分词,再分别和“主业务关键字数据库”、“属性关键字数据库”、“操作关键字数据库”、“合作商户关键字数据库”、“抽象概念关键字数据库”进行匹配,匹配到的关键字,按对应的标签进行去重后计数,分别记作:A、B、C、D、E次。并将该句子输入至分类模型,以由分类模型输出得到该句子的类型,如果为“其他”类型,记0分,否则,记1分,由字母F代表句子的类型对应的得分。则句子为摘要句子的概率为:a*A+b*B+c*C+d*D+e*E+f*F。并根据客服聊天的特性,增加排序在前的句子对应的概率,最后可以将本次客户咨询的所有句子按照概率的取值大小降序排列,抽取排序在前的N个句子,作为本次咨询的摘要。
需要说明的是,实际使用过程中,业务可能发生变化,而随着业务的发展变化,各关键字数据库中的关键字可能发生变更,因此,本申请中,为了提升摘要提取的准确性,可以对各关键字数据库中的关键字,以及各关键字对应的标签进行动态更新,比如对关键字、标签进行增加、删减。
实际应用过程中,句子中还可能出现纠错关键字,如果句子中出现纠错关键字,还可以对该句子中的纠错关键字进行纠错,例如,对该纠错关键字进行替换处理。比如,关键字“是什么”单独存在的时候,表示:问waht,同时出现“原因”时,应将“waht”识别为原因“what”,以提升识别结果的准确性,从而提升后续摘要生成结果的准确性。
本申请实施例的摘要提取方法,基于客户咨询场景,和被咨询企业业务,及其业务办理操作相结合,能有效抽取客户咨询的核心点,形成更加准确的摘要。并且,各关键字数据库可由人工丰富业务关键词、各关键字和标签之间的对应关系,可干预性较强,从而可以提升摘要提取的准确性。
为了实现上述实施例,本申请还提出一种摘要提取装置。
图5为本申请实施例五所提供的摘要提取装置的结构示意图。
如图5所示,该摘要提取装置100可以包括:读取模块110、匹配模块120、确定模块130、预测模块140以及提取模块150。
其中,读取模块110,用于读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签。
匹配模块120,用于将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字。
确定模块130,用于根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量,是在关键字数据库中匹配关键字所对应标签的数量。
预测模块140,用于根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率。
提取模块150,用于根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。
进一步地,在本申请实施例的一种可能的实现方式中,当关键字数据库为多个时,参见图6,在图5所示实施例的基础上,预测模块140,可以包括:
查询单元141,用于查询多个关键字数据库的权重。
第一确定单元142,用于对每个句子,根据多个关键字数据库的权重,以及每个关键字数据库中的匹配标签数量,确定加权数量。
第二确定单元143,用于根据每个句子的加权数量,确定每个句子为摘要句子的概率。
进一步地,在本申请实施例的一种可能的实现方式中,第二确定单元143,可以包括:
识别子单元,用于对每个句子进行类型识别,以确定每个句子的类型;其中,类型,用于表征每个句子属于疑问句类型或非疑问句类型。
查询子单元,用于查询每个句子的类型所对应的分值;其中,疑问句类型对应的分值大于非疑问句类型对应的分值。
确定子单元,用于对每个句子,根据加权数量与分值,确定每个句子为摘要句子的概率。
进一步地,在本申请实施例的一种可能的实现方式中,识别子单元,具体用于:采用分类模型对每个句子进行类型识别,以确定每个句子的类型;其中,类型包括多个疑问句类型和非疑问句类型,多个疑问句类型分别对不同对象进行提问。
进一步地,在本申请实施例的一种可能的实现方式中,参见图6,在图5所示实施例的基础上,摘要提取装置100还可以包括:
修正模块160,用于:确定每个句子在会话中的顺序;根据每个句子的顺序,确定每个句子的系数;其中,顺序在前的句子的系数大于顺序在后的句子的系数;根据每个句子的系数,对每个句子的概率进行修正。
进一步地,在本申请实施例的一种可能的实现方式中,匹配模块120,具体用于:将每个句子进行分词,以得到每个句子的多个文本片段;对每个句子,将多个文本片段与关键字数据库中的关键字匹配,以得到关键字数据库中的匹配关键字。
进一步地,在本申请实施例的一种可能的实现方式中,确定模块130,具体用于:确定每个句子在关键字数据库中的匹配关键字所对应的标签;对每个句子的匹配关键字所对应的标签去重后进行计数,以得到匹配标签数量。
需要说明的是,前述对摘要提取方法实施例的解释说明也适用于该实施例的摘要提取装置,此处不再赘述。
本申请实施例的摘要提取装置,通过读取会话中的多个句子,以及读取关键字数据库;其中,关键字数据库中存储有多个关键字,以及每个关键字对应的标签;将每个句子与关键字数据库中的关键字匹配,以得到每个句子在关键字数据库中的匹配关键字;根据每个句子在关键字数据库中的匹配关键字,确定每个句子在关键字数据库中的匹配标签数量;匹配标签数量是在关键字数据库中匹配关键字所对应标签的数量;根据每个句子在关键字数据库中的匹配标签数量,确定每个句子为摘要句子的概率;根据概率,从多个句子中选取目标句子,以将目标句子作为会话的摘要。由此,通过关键字数据库收录交互场景下所需的关键字,以便进行摘要提取,可以使得计算机设备自动化提取的会话摘要更加具有针对性,可以提升客户咨询场景中摘要提取的准确性。
为了实现上述实施例,本申请还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述实施例提出的摘要提取方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如本申请前述实施例提出的摘要提取方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行如本申请前述实施例提出的摘要提取方法。
图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (16)
1.一种摘要提取方法,其特征在于,包括:
读取会话中的多个句子,以及读取关键字数据库;其中,所述关键字数据库中存储有多个关键字,以及每个所述关键字对应的标签;
将每个所述句子与关键字数据库中的关键字匹配,以得到每个所述句子在所述关键字数据库中的匹配关键字;
根据每个所述句子在所述关键字数据库中的匹配关键字,确定每个所述句子在所述关键字数据库中的匹配标签数量;所述匹配标签数量,是在所述关键字数据库中匹配关键字所对应标签的数量;
根据每个所述句子在所述关键字数据库中的匹配标签数量,确定每个所述句子为摘要句子的概率;
根据所述概率,从所述多个句子中选取目标句子,以将所述目标句子作为所述会话的摘要。
2.根据权利要求1所述的摘要提取方法,其特征在于,所述关键字数据库为多个,所述根据每个所述句子在所述关键字数据库中的匹配标签数量,确定每个所述句子为摘要句子的概率,包括:
查询多个所述关键字数据库的权重;
对每个所述句子,根据所述多个关键字数据库的权重,以及每个所述关键字数据库中的匹配标签数量,确定加权数量;
根据每个所述句子的所述加权数量,确定每个所述句子为摘要句子的概率。
3.根据权利要求2所述的摘要提取方法,其特征在于,所述根据每个所述句子的所述加权数量,确定每个所述句子为摘要句子的概率,包括:
对每个所述句子进行类型识别,以确定每个所述句子的类型;其中,所述类型,用于表征每个所述句子属于疑问句类型或非疑问句类型;
查询每个所述句子的类型所对应的分值;其中,所述疑问句类型对应的分值大于所述非疑问句类型对应的分值;
对每个所述句子,根据所述加权数量与所述分值,确定每个所述句子为摘要句子的概率。
4.根据权利要求3所述的摘要提取方法,其特征在于,所述对每个所述句子进行类型识别,以确定每个所述句子的类型,包括:
采用分类模型对每个所述句子进行类型识别,以确定每个所述句子的类型;其中,所述类型包括多个所述疑问句类型和非疑问句类型,所述多个疑问句类型分别对不同对象进行提问。
5.根据权利要求1所述的摘要提取方法,其特征在于,所述根据所述概率,从所述多个句子中选取目标句子之前,还包括:
确定每个所述句子在所述会话中的顺序;
根据每个所述句子的顺序,确定每个所述句子的系数;其中,顺序在前的句子的系数大于顺序在后的句子的系数;
根据每个所述句子的系数,对每个所述句子的概率进行修正。
6.根据权利要求1-5任一项所述的摘要提取方法,其特征在于,所述将每个所述句子与关键字数据库中的关键字匹配,以得到每个所述句子在所述关键字数据库中的匹配关键字,包括:
将每个所述句子进行分词,以得到每个所述句子的多个文本片段;
对每个所述句子,将所述多个所述文本片段与所述关键字数据库中的关键字匹配,以得到所述关键字数据库中的匹配关键字。
7.根据权利要求1-5任一项所述的摘要提取方法,其特征在于,所述根据每个所述句子在所述关键字数据库中的匹配关键字,确定每个所述句子在所述关键字数据库中的匹配标签数量,包括:
确定每个所述句子在所述关键字数据库中的匹配关键字所对应的标签;
对每个所述句子的匹配关键字所对应的标签去重后进行计数,以得到所述匹配标签数量。
8.一种摘要提取装置,其特征在于,包括:
读取模块,用于读取会话中的多个句子,以及读取关键字数据库;其中,所述关键字数据库中存储有多个关键字,以及每个所述关键字对应的标签;
匹配模块,用于将每个所述句子与关键字数据库中的关键字匹配,以得到每个所述句子在所述关键字数据库中的匹配关键字;
确定模块,用于根据每个所述句子在所述关键字数据库中的匹配关键字,确定每个所述句子在所述关键字数据库中的匹配标签数量;所述匹配标签数量,是在所述关键字数据库中匹配关键字所对应标签的数量;
预测模块,用于根据每个所述句子在所述关键字数据库中的匹配标签数量,确定每个所述句子为摘要句子的概率;
提取模块,用于根据所述概率,从所述多个句子中选取目标句子,以将所述目标句子作为所述会话的摘要。
9.根据权利要求8所述的摘要提取装置,其特征在于,所述关键字数据库为多个,所述预测模块,包括:
查询单元,用于查询多个所述关键字数据库的权重;
第一确定单元,用于对每个所述句子,根据所述多个关键字数据库的权重,以及每个所述关键字数据库中的匹配标签数量,确定加权数量;
第二确定单元,用于根据每个所述句子的所述加权数量,确定每个所述句子为摘要句子的概率。
10.根据权利要求9所述的摘要提取装置,其特征在于,所述第二确定单元,包括:
识别子单元,用于对每个所述句子进行类型识别,以确定每个所述句子的类型;其中,所述类型,用于表征每个所述句子属于疑问句类型或非疑问句类型;
查询子单元,用于查询每个所述句子的类型所对应的分值;其中,所述疑问句类型对应的分值大于所述非疑问句类型对应的分值;
确定子单元,用于对每个所述句子,根据所述加权数量与所述分值,确定每个所述句子为摘要句子的概率。
11.根据权利要求10所述的摘要提取装置,其特征在于,所述识别子单元,具体用于:
采用分类模型对每个所述句子进行类型识别,以确定每个所述句子的类型;其中,所述类型包括多个所述疑问句类型和非疑问句类型,所述多个疑问句类型分别对不同对象进行提问。
12.根据权利要求8所述的摘要提取装置,其特征在于,所述装置,还包括修正模块,用于:
确定每个所述句子在所述会话中的顺序;
根据每个所述句子的顺序,确定每个所述句子的系数;其中,顺序在前的句子的系数大于顺序在后的句子的系数;
根据每个所述句子的系数,对每个所述句子的概率进行修正。
13.根据权利要求8-12任一项所述的摘要提取装置,其特征在于,所述匹配模块,具体用于:
将每个所述句子进行分词,以得到每个所述句子的多个文本片段;
对每个所述句子,将所述多个所述文本片段与所述关键字数据库中的关键字匹配,以得到所述关键字数据库中的匹配关键字。
14.根据权利要求8-12任一项所述的摘要提取装置,其特征在于,所述确定模块,具体用于:
确定每个所述句子在所述关键字数据库中的匹配关键字所对应的标签;
对每个所述句子的匹配关键字所对应的标签去重后进行计数,以得到所述匹配标签数量。
15.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-7中任一所述的摘要提取方法。
16.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的摘要提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412961.5A CN112597295B (zh) | 2020-12-03 | 2020-12-03 | 摘要提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412961.5A CN112597295B (zh) | 2020-12-03 | 2020-12-03 | 摘要提取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597295A true CN112597295A (zh) | 2021-04-02 |
CN112597295B CN112597295B (zh) | 2024-02-02 |
Family
ID=75188781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412961.5A Active CN112597295B (zh) | 2020-12-03 | 2020-12-03 | 摘要提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597295B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115334367A (zh) * | 2022-07-11 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 视频的摘要信息生成方法、装置、服务器以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
WO2018196561A1 (zh) * | 2017-04-25 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法、装置及存储介质 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN109657052A (zh) * | 2018-12-12 | 2019-04-19 | 中国科学院文献情报中心 | 一种论文摘要蕴含细粒度知识元的抽取方法及装置 |
CN110069769A (zh) * | 2018-01-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 应用标签生成方法、装置及存储设备 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
US20200184151A1 (en) * | 2018-11-30 | 2020-06-11 | Thomson Reuters Special Services Llc | Systems and methods for identifying an event in data |
CN111414471A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2020
- 2020-12-03 CN CN202011412961.5A patent/CN112597295B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
WO2018196561A1 (zh) * | 2017-04-25 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法、装置及存储介质 |
CN110069769A (zh) * | 2018-01-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 应用标签生成方法、装置及存储设备 |
US20200184151A1 (en) * | 2018-11-30 | 2020-06-11 | Thomson Reuters Special Services Llc | Systems and methods for identifying an event in data |
CN109657052A (zh) * | 2018-12-12 | 2019-04-19 | 中国科学院文献情报中心 | 一种论文摘要蕴含细粒度知识元的抽取方法及装置 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN110597988A (zh) * | 2019-08-28 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN111414471A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115334367A (zh) * | 2022-07-11 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 视频的摘要信息生成方法、装置、服务器以及存储介质 |
CN115334367B (zh) * | 2022-07-11 | 2023-10-17 | 北京达佳互联信息技术有限公司 | 视频的摘要信息生成方法、装置、服务器以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112597295B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200250247A1 (en) | Domain specific natural language understanding of customer intent in self-help | |
JP4148522B2 (ja) | 表現検出システム、表現検出方法、及びプログラム | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
JP3962382B2 (ja) | 表現抽出装置、表現抽出方法、プログラム及び記録媒体 | |
CN112346567B (zh) | 基于ai的虚拟交互模型生成方法、装置及计算机设备 | |
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
US20080027893A1 (en) | Reference resolution for text enrichment and normalization in mining mixed data | |
US20100169317A1 (en) | Product or Service Review Summarization Using Attributes | |
CN108319720A (zh) | 基于人工智能的人机交互方法、装置及计算机设备 | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
Ferreira et al. | A comparative study of feature extraction algorithms in customer reviews | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN112911326A (zh) | 弹幕信息处理方法、装置、电子设备和存储介质 | |
CN113626573A (zh) | 一种销售会话异议及应对提取方法及系统 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112597295B (zh) | 摘要提取方法、装置、计算机设备和存储介质 | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
CN111159370A (zh) | 一种短会话新问题生成方法、存储介质和人机交互装置 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |