CN113590828A - 一种通话关键信息的获取方法及装置 - Google Patents

一种通话关键信息的获取方法及装置 Download PDF

Info

Publication number
CN113590828A
CN113590828A CN202110926678.2A CN202110926678A CN113590828A CN 113590828 A CN113590828 A CN 113590828A CN 202110926678 A CN202110926678 A CN 202110926678A CN 113590828 A CN113590828 A CN 113590828A
Authority
CN
China
Prior art keywords
call
readability
information
call text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110926678.2A
Other languages
English (en)
Other versions
CN113590828B (zh
Inventor
李欢欢
钟雪君
章小雨
陈亚萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Eastcom Software Technology Co ltd
Original Assignee
Hangzhou Eastcom Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Eastcom Software Technology Co ltd filed Critical Hangzhou Eastcom Software Technology Co ltd
Priority to CN202110926678.2A priority Critical patent/CN113590828B/zh
Publication of CN113590828A publication Critical patent/CN113590828A/zh
Application granted granted Critical
Publication of CN113590828B publication Critical patent/CN113590828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种通话关键信息的获取方法及装置,该获取方法包括:获取待处理的通话录音信息;对通话录音信息进行语音识别,确定通话录音信息对应的通话文本信息;通过预先配置的可读性识别算法对通话文本信息的可读性进行识别,确定通话文本信息的可读性是否满足要求;若是,则处理通话文本信息,确定通话关键信息,通话关键信息包括通话文本的摘要和/或通话文本的关键词。本申请实施例提供的通话关键信息的获取方法,在实现提高对通话信息的关键信息的获取效率的基础上,增加了对通话关键信息的获取的准确性,提升了用户的使用体验。

Description

一种通话关键信息的获取方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种通话关键信息的获取方法及装置。
背景技术
通信宽带装维工作人员与客户之间的语音通话录音中包含的信息对于后续的管理维护具有重要意义,目前获取通话录音的关键信息,往往需要人工收听该通话录音后进行关键信息的提取记录,或者通过语音识别技术将通话录音识别转化为文本信息,人工从该文本信息中提取关键信息。
因此,现有的通话关键信息的获取方法存在着需要较大的人力成本,以及获取效率低下的问题。
发明内容
本申请实施例提供一种通话关键信息的获取方法及装置,在实现降低人力成本和提高对通话信息的关键信息的获取效率的基础上,增加了对通话关键信息的获取的准确性,提升了用户的使用体验。
第一方面,本申请实施例提供了一种通话关键信息的获取方法,包括获取待处理的通话录音信息;对通话录音信息进行语音识别,确定通话录音信息对应的通话文本信息;通过预先配置的可读性识别算法对通话文本信息的可读性进行识别,确定通话文本信息的可读性是否满足要求;若是,则处理通话文本信息,确定通话关键信息,通话关键信息包括通话文本的摘要和/或通话文本的关键词。
在一个可能的实现中,所述通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求,包括:对所述通话文本信息进行中文分词处理,确定多个分词,所述多个分词中包括停用词;对所述多个分词进行特征向量提取,得到词频矩阵,所述词频矩阵表征所述多个分词中各个分词出现的次数;将所述词频矩阵分别输入预训练的第一可读性分类器和第二可读性分类器,得到第一可读性分类结果和第二可读性分类结果;基于所述第一可读性分类结果和第二可读性分类结果,确定所述通话文本信息的可读性是否满足要求。
在另一个可能的实现中,所述第一可读性分类器为随机森林模型,所述第二可读性分类器为伯努利朴素贝叶斯模型。
在另一个可能的实现中,所述处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词,包括:
将所述通话文本信息进行分句处理,得到多个句子序列;
将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要;
判断所述通话文本的摘要表征的事件类型是否属于预设的事件类型,其中,所述预设的事件类型包括报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种;
若是,则对所述通话文本进行关键词提取,得到所述通话文本的关键词,基于所述通话文本的摘要和通话文本的关键词,确定所述通话关键信息;
若否,则将所述通话文本的摘要确定为通话关键信息。
在另一个可能的实现中,所述预先训练的生成式摘要生成模型包括预先训练的编码器模型、和预先训练的基于注意力机制的解码器模型;所述将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要,包括:将所述多个句子序列输入所述编码器模型,编码得到所述多个句子序列中各个句子序列对应的语义向量,其中所述语义向量中表征所述句子序列的语义;将所述多个语义向量输入解码器模型,得到所述通话文本的摘要。
在另一个可能的实现中,所述编码器模型为循环神经网络模型,所述解码器模型为基于注意力机制的循环神经网络模型。
在另一个可能的实现中,所述对所述通话文本进行关键词提取,得到所述通话文本的关键词,包括:对所述通话文本进行中文词性标注,提取预设词性的分词,其中,所述预设词性的分词为表征地址和/或时间的特征词;基于提取得到的分词,确定所述通话文本的关键词。
第二方面,本申请实施例提供了一种通话关键信息的获取装置,包括:
获取模块,用于获取待处理的通话录音信息;
语音识别模块,用于对所述通话录音信息进行语音识别,确定所述通话录音信息对应的通话文本信息;
可读性判断模块,用于通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求;
通话关键信息生成模块,用于在通话文本信息的可读性满足要求时,处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词。
在另一个可能的实现中,可读性判断模块具体用于,对所述通话文本信息进行中文分词处理,确定多个分词,所述多个分词中包括停用词;对所述多个分词进行特征向量提取,得到词频矩阵,所述词频矩阵表征所述多个分词中各个分词出现的次数;将所述词频矩阵分别输入预训练的第一可读性分类器和第二可读性分类器,得到第一可读性分类结果和第二可读性分类结果;基于所述第一可读性分类结果和第二可读性分类结果,确定所述通话文本信息的可读性是否满足要求。
在另一个可能的实现中,所述第一可读性分类器为随机森林模型,所述第二可读性分类器为伯努利朴素贝叶斯模型。
在另一个可能的实现中,通话关键信息生成模块具体用于,将所述通话文本信息进行分句处理,得到多个句子序列;将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要;判断所述通话文本的摘要表征的事件类型是否属于预设的事件类型,其中,所述预设的事件类型包括报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种;若是,则对所述通话文本进行关键词提取,得到所述通话文本的关键词,基于所述通话文本的摘要和通话文本的关键词,确定所述通话关键信息;若否,则将所述通话文本的摘要确定为通话关键信息。
在另一个可能的实现中,所述预先训练的生成式摘要生成模型包括预先训练的编码器模型、和预先训练的基于注意力机制的解码器模型;所述将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要,包括:将所述多个句子序列输入所述编码器模型,编码得到所述多个句子序列中各个句子序列对应的语义向量,其中所述语义向量中表征所述句子序列的语义;将所述多个语义向量输入解码器模型,得到所述通话文本的摘要。
在另一个可能的实现中,所述编码器模型为循环神经网络模型,所述解码器模型为基于注意力机制的循环神经网络模型。
在另一个可能的实现中,所述对所述通话文本进行关键词提取,得到所述通话文本的关键词,包括:对所述通话文本进行中文词性标注,提取预设词性的分词,其中,所述预设词性的分词为表征地址和/或时间的特征词;基于提取得到的分词,确定所述通话文本的关键词。
第三方面,本申请提供了一种通话关键信息的获取设备,包括处理器和存储器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码,执行第一方面的方法。
第四方面,本申请还提供了一种计算机存储介质,包括:可读存储介质和存储在所述可读存储介质中的计算机程序,当所述计算机程序运行时,实现第一方面的方法。
本申请实施例提供的通话关键信息的获取方法,在实现提高对通话信息的关键信息的获取效率的基础上,增加了对通话关键信息的获取的准确性,提升了用户的使用体验。
附图说明
图1为本申请实施例提供的通话关键信息的获取方法的应用场景图;
图2为本申请实施例提供的一种通话关键信息的获取方法的流程图;
图3为Seq2Seq的架构图;
图4为本申请实施例提供的一种通话关键信息的获取装置的结构示意图;
图5本申请实施例提供的一种通话关键信息的获取设备的结构示意图。
具体实施方式
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
图1为本申请实施例提供的通话关键信息的获取方法的应用场景图。如图1所示,包括终端设备11、终端设备12和终端设备13、网络20、服务器30和通信终端41、通信终端42。终端设备11、终端设备12、终端设备13和服务器30通过网络20实现通信连接,本申请实施例并不限定网络20的实现类型,例如网络20可以为有线通信链路(例如光纤或电缆等)和无线通信链路等。
用户可以使用终端设备11、终端设备12和终端设备13通过网络20实现与服务器30的信息交互,以接收或发送消息。终端设备11、终端设备12和终端设备13上可以安装各种客户端应用软件,例如通话关键信息获取应用、浏览器应用等。
终端设备11、终端设备12和终端设备13为支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑和穿戴式设备等。
服务器30可以是提供各种服务的服务器,例如对终端设备11、终端设备12和终端设备13上的各种应用提供支持的数据库服务器或云服务器。此外,服务器30还可以通过电信网络(例如通过调用电信供应商提供的接口)或者互联网(例如通过网络电话VoIP)分别呼叫通信终端41和通信终端42,以使通信终端41和通信终端42之间进行通话,并获取通话录音信息;或者在通信终端41和通信终端42直接进行通话时,获取通信终端41和通信终端42发送的通话录音信息;或者接收由用户采集录音的服务器(图1中未示出)发生的通话录音信息。服务器30对接收到的信息数据进行存储、分析等处理,并将处理结果反馈给终端设备。
容易理解的是,本申请实施例提供的通话关键信息的获取方法可以由服务器30执行,相应的,本申请实施例提供的通话关键信息的获取装置设置于服务器30中,通话关键信息的获取设备可以为服务器30。
应当理解,图1中的终端设备、网络、服务器和通信终端的数量仅仅为示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和通信终端。
图2为本申请实施例提供的一种通话关键信息的获取方法的流程图。如图2所示,该方法包括步骤S201-步骤S205。
在步骤S201中,获取待处理的通话录音信息。
可以通过多种方式获取通话录音信息,例如,服务器可以通过合作的运营商提供的下载地址下载获取通话录音文件的方式来获取通话录音信息;或者,通过在本地对用户的通话进行录音的方式获取通话录音信息;或者,通过从用户使用通话的通信终端(利用图1中的通话终端41和/或通话终端42)或者对通话录音信息进行采集的其他设备接收通话录音信息的方式获取通话录音信息等,本申请实施例对获取通话录音信息的方式不进行限定,可根据实际情况选择合适的通话录音信息的获取方式。
在一个示例中,还可以对获取到的通话录音文件进行大小和格式的效验,将文件过小或过大和格式错误的通话录音文件过滤掉,以得到符合要求的通话录音文件。
在另一个示例中,通话录音信息包括通话内容和通话用户信息(即来电用户信息和接听用户信息),如此,可以得知是哪位客户来电咨询通信宽带业务或通信宽带的售后服务,和哪位工作人员接听了客户的来电。
在步骤S202中,对通话录音信息进行语音识别,确定通话录音信息对应的通话文本信息。
服务器可以通过各种语音识别技术对上述通话录音信息进行语音识别,示例性的,通过模板匹配的方法(例如,基于模式匹配的动态时间规整法和基于统计模型的隐马尔科夫模型),或者通过预训练的人工神经网络识别等方法。
在另一个示例中,还可以对录音信息进行声纹特征的识别,识别出通话双方各自对应的通话文本信息,从而可以得知那些是客户的讲话内容,那些是工作人员的讲话内容。
在步骤S203中,判断通话文本信息可读性是否满足要求。
若通话文本信息可读性满足要求,则执行步骤S204;若通话文本信息可读性不满足要求,则执行步骤S205。以防止因语音识别效果不好或者通话用户使用方言而导致识别不准确,进而造成语音识别出的通话文本信息不准确,进而势必导致后续的针对通话文本信息的摘要和关键词提取的不准确,因此,判断通话文本信息可读性是否满足要求是保证后续步骤的通话文本信息的摘要和关键词的准确性的必要步骤,保证了最终输出的通话关键信息的准确性,提供用户使用体验。
示例性的,首先对通话文本信息进行中文分词处理,确定多个分词,多个分词中包括停用词。例如,使用中文分词算法,基于中文在基本文法上有其特殊性的原则,结合字符串匹配、理解和统计的分词方法,对通话文本信息进行分词处理,特别保留停用词。
容易理解的是,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,在本申请实施例中,停用词的比例可能直接影响一段文本的可读性判断,因此分词处理时将停用词保留,以便于进行可读性判断。
本申请实施例中的中文分词算法可采用多种中文分词算法,例如Jieba分词和LTP分词等中文分词算法。
然后,对上述得到的多个分词进行特征向量提取,得到词频矩阵,该词频矩阵表征多个分词中各个分词出现的次数。例如,使用一种文本特征提取方法CountVectorize,对分词后的文本进行特征提取,CountVectorize会将文本中的词语转换为词频矩阵。不同于bagofword(词袋法)的地方在于其不光对单词索引编码,还统计每一个单词出现的次数,提供了一个简单的方法,既可以标记文本的集合,也可以生成每个已知单词的索引,将每个文本编码为一个向量。同一个矢量化器可以用在包含词汇表中没有包括的单词的文本上。不过,没有包括的词会被忽略,并且不会在结果向量中计数。
在其他示例中,对分词的特征向量提取还可以采用其他特征向量提取算法模型,例如Word2vec和TF-IDF等算法模型。
最后将上述得到的词频矩阵分别输入预训练的第一可读性分类器和第二可读性分类器,得到第一可读性分类结果和第二可读性分类结果;基于第一可读性分类结果和第二可读性分类结果,确定通话文本信息的可读性是否满足要求。示例性的,第一可读性分类器可以为随机森林模型,第二可读性分类森林模型,也就是说将上述得到的词频矩阵输入随机森林(RF)算法和伯努利(Bernoulli)朴素贝叶斯分类器组成的级联分类器,对文本可读性进行二分类识别。
随机森林算法模型就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。
对于机器学习中的决策树而言,如果带分类的事物集合可以划分为多个类别当中,则某个类Xi的信息可以定义如下:
I(X=xi)=-log2p(xi) (5.1)
其中,I(x)用来表示随机变量的信息,p(xi)指是当xi发生时的概率。
熵是用来度量不确定性的,当熵越大,X=xi的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。随机森林是集成学习的一个子类,它依靠于决策树的投票选择来决定最后的分类结果。
伯努利朴素贝叶斯分类器主要用于文本分类。伯努利分布指的是对于随机变量x有,参数为p(0<p<1),特征x都只能取得两个离散的值0,1,可以用伯努利分布描述这样的数据:
Figure BDA0003209498380000091
它是一个离散型机率分布,是N=1时二项分布的特殊情况,其中θ表示伯努利分布中表示不同分类的参数矩阵。
朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。
对每个类别计算一个概率p(ci),然后计算所有特征的条件概率p(fi|ci),那么分类的时候依据贝叶斯找一个最可能的类别:
Figure BDA0003209498380000101
其中,p(classi|f0,f1,…,fn)表示所有某一类的条件概率,
Figure BDA0003209498380000102
表示某一类别的概率。
然后级联两个分类器的结果,得到文本可读性的判定。
示例性的,随机森林分类器和伯努利贝叶斯分类器分别输出两个类别的概率,根据4个概率值,训练两个模型的置信度阈值。
首先,输出随机森林分类器两个类别的概率值,与标注样本标签,统计两类样本在不同阈值下的准确率,分析分类器偏好,即随机森林分类器对哪一个类别具有更好的分类准确率;然后,输出伯努利贝叶斯分类器两个类别概率值,与标注样本标签,同样统计两类样本在不同阈值下的准确率,分析分类器偏好;最后,根据分类器偏好结果,与训练的两个分类器置信度阈值,完成级联分类器的逻辑:
1.测试样本经过两个分类器计算,得到4个置信度:
Figure BDA0003209498380000103
其中,
Figure BDA0003209498380000104
为随机森林正样本置信度,
Figure BDA0003209498380000105
为随机森林负样本置信度,
Figure BDA0003209498380000106
为伯努利贝叶斯正样本置信度,
Figure BDA0003209498380000107
为伯努利贝叶斯负样本置信度,且满足:
Figure BDA0003209498380000108
以及分类器分类初判结果,即按照阈值为0.5得到的正负样本分类结果:LRF、LBNL
2.级联分类器逻辑如下所示:
(1)若LRF为正;
(1.1)若LRF=LBNL
(1.1.1)
Figure BDA0003209498380000109
则结果为LRF
(1.1.2)PR+F<THRF,则结果为LBNL
(1.2)若LRF≠LBNL
(1.2.1)
Figure BDA0003209498380000111
则结果为LBNL
(1.2.2)
Figure BDA0003209498380000112
(1.2.2.1)
Figure BDA0003209498380000113
则结果为负;
(1.2.2.2)
Figure BDA0003209498380000114
则结果为LRF
(2)若LRF为负;
(2.1)
Figure BDA0003209498380000115
则结果为正;
(2.2)
Figure BDA0003209498380000116
则结果为负;
其中,THRF表示随机森林分类器置信度阈值,THBNL表示伯努利贝叶斯分类器置信度阈值。
在一些其他示例中,为了进一步保证通话文本的可读性,当第一可读性分类器和第二可读性分类器输出的第一可读性分类结果和第二可读性分类结果均为可读时,才判断通话文本的可读性满足要求,也就是说,只有当两个分类器均判断通话文本可读时,才判断通话文本可读,其他情况均为不可读。
在步骤S204中,处理通话文本信息,确定通话关键信息。
即若通话文本信息可读性满足要求,则对通话文本信息进行处理,得到通话关键信息,其中,通话关键信息包括通话文本的摘要和/或通话文本的关键词。
在一种示例中,通话文本的摘要可基于生成式摘要生成模型得到,例如,将通话文本信息进行分句处理,得到多个句子序列,将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定通话文本的摘要。
然后,判断通话文本的摘要表征的事件类型是否属于预设的事件类型,其中,预设的事件类型包括报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种;若是,则对通话文本进行关键词提取,得到通话文本的关键词,基于通话文本的摘要和通话文本的关键词,确定通话关键信息;若否,则将通话文本的摘要确定为通话关键信息。
示例性的,装维工作人员与客户的通话一般可分为一下几种情况:报障、催单/催装/催修、改约、告知故障已修复/安装已完成、取消安装、业务咨询、预约换猫提速、预约上门、预约维修/安装/移机和其他等。对具有可读性的通话文本,需要通过内容摘要的提取,归纳为上述的几种情况,以便于管理。
本申请实施例中,采用带Attention的Seq2Seq的预训练方式,则必须同时引入两个模型(encoder和decoder)。所谓seq2seq,就是指一般的序列到序列的转换任务,比如机器翻译、自动文摘等等,这种任务的特点是输入序列和输出序列是不对齐的,训练的时候,需要标注数据对。Attention的思想就是:每一步解码时,不仅仅要结合encoder编码出来的固定大小的向量(通读全文),还要往回查阅原来的每一个字词(精读局部),两者配合来决定当前步的输出。
假如原句子为X=(a,b,c,d,e,f),目标输出为Y=(P,Q,R,S,T),一个带Attention模块的Seq2Seq架构(参见图3)。
左边是对输入的encoder,它负责把输入(可能是变长的)编码为一个固定大小的向量,这个向量,理论上就包含了输入句子的全部信息。而decoder负责将刚才编码出来的向量解码为期望的输出。
而在decoder在执行每一步时,不能提前使用后面步的输入。需要建模:p(Y|X)=p(Y1|X)p(Y2|X,Y1)p(Y3|X,Y1,Y2)p(Y4|X,Y1,Y2,Y3)p(Y5|X,Y1,Y2,Y3,Y4)
(5.4)
如式5.4所示解码过程中,需要找到最大概率的Y,如果在第一步p(Y|X)时,直接选择最大概率的那个(目标P),然后带入第二步p(Y2|X,Y1),再次选择最大概率的Y2,依次类推,每一步都选择当前最大概率的输出,那么就称为贪心搜索,是一种最低成本的解码方案。
在本申请实施例的seq2seq训练过程中,还有一个非常重要的先验知识,内容摘要中的大部分字词都在文本中出现过(注:仅仅是出现过,并不一定是连续出现,更不能说摘要包含在文本中)。这样一来,可以用文本中的词集作为一个先验分布,加到解码过程的分类模型中,使得模型在解码输出时更倾向选用文本中已有的字词。
容易理解的,encoder模型和decoder可以为现有的任意可实现本申请方案的机器学习网络模型,例如循环神经网络(Recurrent Neural Network,RNN)模型,或长短期记忆网络(Long Short-Term Memory,LSTM)模型等。
在另一个示例中,通话文本的摘要也可基于抽取式摘要生成模型得到,例如,基于Textrank算法得到通话文本的摘要,该算法是一种用于文本的基于图的排序算法。一般技术方案流程如下:首先基于词库将文本分割成若干组成单元(句子或词),其次构建节点连接图,用句子之间的相似度作为边的权重,接着通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。
如果,通话文本的摘要表征的事件类型属于预设的事件类型,例如,报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种,则对通话文本进行关键词提取,得到通话文本的关键词。当摘要表征的事件类型属于预设的事件类型时,通话文本中会有涉及时间、地址的信息,需要对这类特殊字段,进行进一步信息抽取。
本申请实施例中关键词提取可以采用LTP(语言技术平台)中的中文分词和词性标注能力,对各短句中包含词性标注为nt或包含时间特征词的短句进行原文抽取,对各短句中包含词性标注为ni/nl/ns/nd或包含地点特征词的短句进行原文本抽取。
例如,通话文本信息为“你好,我想安装300M的光纤宽带”,“好的,麻烦说下您的地址和什么时候在家,方便上门安装”,“好的,我是**小区,8月10号下午两点在家,可以过来安装”,则通话文本的摘要为“预约安装,300M光纤宽带”,通话文本的关键词为“**小区,8月10号下午两点”,结合通话文本的摘要和关键词确定,通话文本的关键信息为:预约安装,300M光纤宽带,**小区,8月10号下午两点。
在步骤S205中,当通话文本信息可读性不满足要求时,输出可读性不满足要求提示或者直接输出错误结果。
示例性的,当通话文本信息可读性不满足要求时,不继续对通话文本信息进行关键信息提取,直接输出不可读提示。
在另一个示例中,当通话文本信息可读性不满足要求时,还可将该通话录音信息进行标记分类,使人工处理该录音信息识别记录通话的关键信息。
容易理解的是,上述通话关键信息的获取可以在图1中的服务器中执行实现,也可在终端设备中执行实现。
与前述方法实施例基于相同的构思,本申请实施例中还提供了一种通话关键信息的获取装置400,该通话关键信息的获取装置400包括用以实现图2和图3所示的通话关键信息的获取方法的各个步骤的单元或手段。
图4为本申请实施例提供的一种通话关键信息的获取装置的结构示意图。如图4所示,该通话关键信息的获取装置400至少包括:
获取模块401,用于获取待处理的通话录音信息;
语音识别模块402,用于对所述通话录音信息进行语音识别,确定所述通话录音信息对应的通话文本信息;
可读性判断模块403,用于通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求;
通话关键信息生成模块404,用于在通话文本信息的可读性满足要求时,处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词。
在另一个可能的实现中,可读性判断模块403具体用于,对所述通话文本信息进行中文分词处理,确定多个分词,所述多个分词中包括停用词;对所述多个分词进行特征向量提取,得到词频矩阵,所述词频矩阵表征所述多个分词中各个分词出现的次数;将所述词频矩阵分别输入预训练的第一可读性分类器和第二可读性分类器,得到第一可读性分类结果和第二可读性分类结果;基于所述第一可读性分类结果和第二可读性分类结果,确定所述通话文本信息的可读性是否满足要求。
在另一个可能的实现中,所述第一可读性分类器为随机森林模型,所述第二可读性分类器为伯努利朴素贝叶斯模型。
在另一个可能的实现中,通话关键信息生成模块404具体用于,将所述通话文本信息进行分句处理,得到多个句子序列;将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要;判断所述通话文本的摘要表征的事件类型是否属于预设的事件类型,其中,所述预设的事件类型包括报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种;若是,则对所述通话文本进行关键词提取,得到所述通话文本的关键词,基于所述通话文本的摘要和通话文本的关键词,确定所述通话关键信息;若否,则将所述通话文本的摘要确定为通话关键信息。
在另一个可能的实现中,所述预先训练的生成式摘要生成模型包括预先训练的编码器模型、和预先训练的基于注意力机制的解码器模型;所述将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要,包括:将所述多个句子序列输入所述编码器模型,编码得到所述多个句子序列中各个句子序列对应的语义向量,其中所述语义向量中表征所述句子序列的语义;将所述多个语义向量输入解码器模型,得到所述通话文本的摘要。
在另一个可能的实现中,所述编码器模型为循环神经网络模型,所述解码器模型为基于注意力机制的循环神经网络模型。
在另一个可能的实现中,所述对所述通话文本进行关键词提取,得到所述通话文本的关键词,包括:对所述通话文本进行中文词性标注,提取预设词性的分词,其中,所述预设词性的分词为表征地址和/或时间的特征词;基于提取得到的分词,确定所述通话文本的关键词。
根据本申请实施例的通话关键信息的获取装置400可对应于执行本申请实施例中描述的方法,并且通话关键信息的获取装置400中的各个模块的上述和其它操作和/或功能分别为了实现图2和图3中的各个方法的相应流程,为了简洁,在此不再赘述。
图5为本申请实施例提供的一种通话关键信息的获取设备的结构示意图。
如图5所示,所述通话关键信息的获取设备500包括处理器501、存储器502和通信接口503。其中,处理器501、存储器502和通信接口503通信连接,也可以通过无线传输等其他手段实现通信。该通信接口503用于与其他设备进行通信连接,例如与其他服务器或通信终端通信连接以获取通话录音信息等;该存储器502存储可执行程序代码,且处理器501可以调用存储器502中存储的程序代码执行前述方法实施例中的通话关键信息的获取方法。
应理解,在本申请实施例中,该处理器501可以是中央处理单元CPU,该处理器501还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502还可以包括非易失性随机存取存储器。例如,存储器502还可以存储训练数据集。
该存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
应理解,根据本申请实施例的通话关键信息的获取设备500可对应于本申请实施例中的通话关键信息的获取装置,并可以对应于执行根据本申请实施例中图2和图3所示方法中的相应主体,并且通话关键信息的获取设备500中的各个器件的上述和其它操作和/或功能分别为了实现图2和图3的各个方法的相应流程,为了简洁,在此不再赘述。
本申请实施例提供了一种芯片系统,该芯片系统包括处理器、存储器,存储器中存储有指令,当指令被处理器执行时,使得上述任一项方法被实现。
本申请实施例提供了一种计算机存储介质,包括计算机指令,当计算机指令在被处理器执行时,使得上述任一项方法被实现。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得上述任一项方法被实现。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种通话关键信息的获取方法,其特征在于,包括:
获取待处理的通话录音信息;
对所述通话录音信息进行语音识别,确定所述通话录音信息对应的通话文本信息;
通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求;
若是,则处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词。
2.根据权利要求1所述的获取方法,其特征在于,所述通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求,包括:
对所述通话文本信息进行中文分词处理,确定多个分词,所述多个分词中包括停用词;
对所述多个分词进行特征向量提取,得到词频矩阵,所述词频矩阵表征所述多个分词中各个分词出现的次数;
将所述词频矩阵分别输入预训练的第一可读性分类器和第二可读性分类器,得到第一可读性分类结果和第二可读性分类结果;
基于所述第一可读性分类结果和第二可读性分类结果,确定所述通话文本信息的可读性是否满足要求。
3.根据权利要求2所述的获取方法,其特征在于,所述第一可读性分类器为随机森林模型,所述第二可读性分类器为伯努利朴素贝叶斯模型。
4.根据权利要求1-3任一项所述的获取方法,其特征在于,所述处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词,包括:
将所述通话文本信息进行分句处理,得到多个句子序列;
将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要;
判断所述通话文本的摘要表征的事件类型是否属于预设的事件类型,其中,所述预设的事件类型包括报障、改约、预约换猫提速、预约上门、预约维修、预约安装、预约移机中的一种或多种;
若是,则对所述通话文本进行关键词提取,得到所述通话文本的关键词,基于所述通话文本的摘要和通话文本的关键词,确定所述通话关键信息;
若否,则将所述通话文本的摘要确定为通话关键信息。
5.根据权利要求4所述的获取方法,其特征在于,所述预先训练的生成式摘要生成模型包括预先训练的编码器模型、和预先训练的基于注意力机制的解码器模型;
所述将所述多个句子序列依次输入预先训练的生成式摘要生成模型,确定所述通话文本的摘要,包括:
将所述多个句子序列输入所述编码器模型,编码得到所述多个句子序列中各个句子序列对应的语义向量,其中所述语义向量中表征所述句子序列的语义;
将所述多个语义向量输入解码器模型,得到所述通话文本的摘要。
6.根据权利要求5所述的获取方法,其特征在于,所述编码器模型为循环神经网络模型,所述解码器模型为基于注意力机制的循环神经网络模型。
7.根据权利要求1-6任一项所述的获取方法,其特征在于,所述对所述通话文本进行关键词提取,得到所述通话文本的关键词,包括:
对所述通话文本进行中文词性标注,提取预设词性的分词,其中,所述预设词性的分词为表征地址和/或时间的特征词;
基于提取得到的分词,确定所述通话文本的关键词。
8.一种通话关键信息的获取装置,其特征在于,包括:
获取模块,用于获取待处理的通话录音信息;
语音识别模块,用于对所述通话录音信息进行语音识别,确定所述通话录音信息对应的通话文本信息;
可读性判断模块,用于通过预先配置的可读性识别算法对所述通话文本信息的可读性进行识别,确定所述通话文本信息的可读性是否满足要求;
通话关键信息生成模块,用于在通话文本信息的可读性满足要求时,处理所述通话文本信息,确定所述通话关键信息,所述通话关键信息包括所述通话文本的摘要和/或所述通话文本的关键词。
9.一种通话关键信息的获取设备,其特征在于,包括处理器和存储器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码,使得如权利要求1-7任一项所述的方法被实现。
10.一种计算机存储介质,其特征在于,包括:可读存储介质和存储在所述可读存储介质中的计算机程序,当所述计算机程序运行时,使得如权利要求1-7任一项所述的方法被实现。
CN202110926678.2A 2021-08-12 2021-08-12 一种通话关键信息的获取方法及装置 Active CN113590828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110926678.2A CN113590828B (zh) 2021-08-12 2021-08-12 一种通话关键信息的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110926678.2A CN113590828B (zh) 2021-08-12 2021-08-12 一种通话关键信息的获取方法及装置

Publications (2)

Publication Number Publication Date
CN113590828A true CN113590828A (zh) 2021-11-02
CN113590828B CN113590828B (zh) 2024-07-12

Family

ID=78257538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110926678.2A Active CN113590828B (zh) 2021-08-12 2021-08-12 一种通话关键信息的获取方法及装置

Country Status (1)

Country Link
CN (1) CN113590828B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595990A (zh) * 2023-05-18 2023-08-15 保利物业服务股份有限公司 一种物业投诉电话通话处理方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
KR20190059185A (ko) * 2017-11-22 2019-05-30 한양대학교 산학협력단 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
US20200074312A1 (en) * 2018-08-15 2020-03-05 Royal Bank Of Canada System and method for call centre management
US20200159755A1 (en) * 2017-05-08 2020-05-21 National Institute Of Information And Communications Technology Summary generating apparatus, summary generating method and computer program
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN111651999A (zh) * 2020-05-11 2020-09-11 重庆大学 一种面向ad量表书写能力检测的文本语义分析自动评价系统
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112052329A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN105657129A (zh) * 2016-01-25 2016-06-08 百度在线网络技术(北京)有限公司 通话信息获取方法和装置
US20200159755A1 (en) * 2017-05-08 2020-05-21 National Institute Of Information And Communications Technology Summary generating apparatus, summary generating method and computer program
KR20190059185A (ko) * 2017-11-22 2019-05-30 한양대학교 산학협력단 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
US20200074312A1 (en) * 2018-08-15 2020-03-05 Royal Bank Of Canada System and method for call centre management
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN111651999A (zh) * 2020-05-11 2020-09-11 重庆大学 一种面向ad量表书写能力检测的文本语义分析自动评价系统
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112052329A (zh) * 2020-09-02 2020-12-08 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595990A (zh) * 2023-05-18 2023-08-15 保利物业服务股份有限公司 一种物业投诉电话通话处理方法及系统

Also Published As

Publication number Publication date
CN113590828B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN110298019B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US11425064B2 (en) Customized message suggestion with user embedding vectors
CN110019742B (zh) 用于处理信息的方法和装置
CN112948534A (zh) 一种智能人机对话的交互方法、系统和电子设备
WO2023108994A1 (zh) 一种语句生成方法及电子设备、存储介质
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
US11416539B2 (en) Media selection based on content topic and sentiment
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112084334A (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN115840808B (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN111930936A (zh) 一种平台留言文本挖掘方法及系统
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113590828B (zh) 一种通话关键信息的获取方法及装置
CN110413770B (zh) 将群消息归类到群话题的方法及装置
CN111783424A (zh) 一种文本分句方法和装置
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN115114924A (zh) 命名实体识别方法、装置、计算设备和存储介质
CN113988866A (zh) 一种基于大数据分析电信网络诈骗预警与处置方法
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
CN112489633B (zh) 语音特征编码网络的训练方法、装置及存储介质
CN111639483B (zh) 一种评价方面确定方法和装置
CN112992128B (zh) 一种智能语音机器人的训练方法、装置和系统
CN114548083B (zh) 标题生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant