CN111259649A - 信息交互平台的交互数据分类方法、装置及存储介质 - Google Patents
信息交互平台的交互数据分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111259649A CN111259649A CN202010061143.9A CN202010061143A CN111259649A CN 111259649 A CN111259649 A CN 111259649A CN 202010061143 A CN202010061143 A CN 202010061143A CN 111259649 A CN111259649 A CN 111259649A
- Authority
- CN
- China
- Prior art keywords
- numbered
- sentences
- interactive data
- word
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003993 interaction Effects 0.000 title claims description 55
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于互联网交互信息处理技术领域,本发明提供一种信息交互平台的交互数据分类方法、装置及计算机可读存储介质,其中的方法包括:对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;剔除编号语句中没有语义价值的词语,得到精选编号语句;计算出组成精选编号语句中的词语在交互数据语料库中出现的词频;确定组成精选编号语句的词语在交互数据语料库中的权重;将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量;根据编号特征向量计算每两个编号语句的相似值;根据相似值对编号语句进行归类。本发明通过客服与用户的聊天记录直接总结出用户的痛点问题,节约时间、节省人力、提高工作效率。
Description
技术领域
本发明属于互联网交互信息处理技术领域,尤其涉及一种信息交互平台的交互数据分类方法、装置及计算机可读存储介质。
背景技术
用户的痛点问题指用户最迫切的诉求,每个平台都会关注用户的痛点问题有哪些。然后针对用户的痛点问题给用户提供解决方法,为用户提供更好的服务,从而吸引和稳定用户的数量。传统发现用户痛点问题的方法是通过走访用户或者让用户反馈问题和评价服务从而得出用户的诉求,这种直接面对用户的行为在一定程度上让用户付出了时间成本,用户体验也不好。
目前,解决上述问题的方法为:收集与用户的聊天记录,然后通过大量的人工对用户的聊天记录进行分析整理,工作量大,需要耗费大量的人力,而且工作效率低,浪费时间。
发明内容
基于上述现有技术中存在的问题,本发明提供一种信息交互平台的交互数据分类方法、装置及计算机可读存储介质,其主要目的在于,通过从客服人员与用户的交互数据语料库中获取交互数据,对获取的交互数据进行一系列处理,最终得到用户的痛点问题分类,本发明通过客服人员与用户的聊天记录,直接总结出用户的痛点问题,节约时间、节省人力、提高工作效率。
为实现上述目的,本发明提供一种信息交互平台的交互数据分类方法,该方法包括:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
优选地,所述对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从所述交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出所述时间排序语句中的语料最小单元,其中,所述语料最小单元为用户每次所发送的对话语句;
对所述语料最小单元进行编号。
优选地,所述根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语的步骤包括:
将所述编号语句的语料最小单元进行分词处理,得到分词集合;
将所述分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
优选地,所述预设的权重算法为TF-IDF算法,所述TF-IDF算法的公式为:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示词语在聊天记录语料库中出现的词频,Tn表示词语在聊天记录语料库中出现的次数,Dn表示聊天记录语料库中的总词数,N表示语料最小单元的总个数,Nw表示出现该词语的语料最小单元的个数。
优选地,所述根据所述词频,确定组成所述精选编号语句的词语在所述聊天记录语料库中的权重的步骤包括:
将所述精选编号语句的词语通过所述TF-IDF算法计算得到的参数值作为该词语在所述交互数据语料库中的权重。
优选地,将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量的步骤包括:
将所述编号语句做分词处理,得到编号语句词集;
将所述编号语句词集做并集处理,得到词全集;
将所述词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将所述精选编号语句的词语在所述交互数据语料库中的权重按照该词语在所述有序词集中的位置进行排序处理,得到所述精选编号语句的词语的权重序列集合;
将所述精选编号语句的词语的权重序列表集合作为所述精选编号语句的编号特征向量。
优选地,所述根据所述编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
优选地,所述根据所述相似值对所述编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于所述预设阈值的两个编号特征向量所对应的编号语句归为同类。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被所述处理器执行时实现如下步骤:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被处理器执行时,实现如上所述的信息交互平台的交互数据分类方法中的任意步骤。
本发明提出的信息交互平台的交互数据分类方法、装置及计算机可读存储介质,通过从客服人员与用户的聊天交互数据语料库中获取交互数据,对交互数据依次进行编号、剔除无意义词语、计算词语在交互数据语料库中的权重、编号特征向量处理、相似性计算等技术处理,最终得到用户痛点问题分类,与现有技术相比较,本发明节约时间、节省人力、提高工作效率。
附图说明
图1为本发明信息交互平台的交互数据分类方法较佳实施例的应用环境示意图;
图2为图1中信息交互平台的交互数据分类程序较佳实施例的模块示意图;
图3为本发明信息交互平台的交互数据分类方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种信息交互平台的交互数据分类方法,应用于一种电子装置1。参照图1所示,为本发明信息交互平台的交互数据分类方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口13及通信总线14。
存储器11包括至少一种类型的可读存储介质。该至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器11,例如电子装置1上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(FlashCard)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的信息交互平台的交互数据分类程序10等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行信息交互平台的交互数据分类程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线14用于实现上述这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括摄像装置,摄像装置既可以是电子装置1的一部分,也可以独立于电子装置1。在一些实施例中,电子装置1为智能手机、平板电脑、便携计算机等具有摄像头的终端设备,则摄像装置即为电子装置1的摄像头。在其他实施例中,电子装置1可以为服务器,摄像装置独立于该电子装置1、与该电子装置1通过有线或者无线网络连接。例如,该摄像装置安装于特定场所,如办公场所、监控区域,对进入该特定场所的目标进行实时拍摄得到实时图像,通过网络将拍摄得到的实时图像传输至处理器12。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。该触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统以及信息交互平台的交互数据分类程序10;处理器12执行存储器11中存储的信息交互平台的交互数据分类程序10时实现如下步骤:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成精选编号语句中的词语在交互数据语料库中出现的词频;
根据词频,确定组成精选编号语句的词语在交互数据语料库中的权重;
将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量;
根据编号特征向量计算每两个编号语句的相似值;
根据相似值对编号语句进行归类。
为了使交互数据具有时间顺序,作为本发明的一个优选实施例,对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出时间排序语句中的语料最小单元,其中,语料最小单元为用户每次所发送的对话语句;
对语料最小单元进行编号。
为了方便除去编号语句中没有语义价值的词语,作为本发明的一个优选实施例,根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语的步骤包括:
将编号语句的语料最小单元进行分词处理,得到分词集合;
将分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
在本发明的一个优选实施例中,权重算法为TF-IDF算法,TF-IDF算法(termfrequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse DocumentFrequency)。
TF-IDF算法的公式为:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示词语在聊天记录语料库中出现的词频,Tn表示词语在聊天记录语料库中出现的次数,Dn表示聊天记录语料库中的总词数,N表示语料最小单元的总个数,Nw表示出现该词语的语料最小单元的个数。
在本发明的一个优选实施例中,根据词频,确定组成精选编号语句的词语在聊天记录语料库中的权重的步骤包括:
将精选编号语句的词语通过TF-IDF算法计算得到的参数值作为该词语在交互数据语料库中的权重。
在本发明的一个优选实施例中,将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量的步骤包括:
将编号语句做分词处理,得到编号语句词集;
将编号语句词集做并集处理,得到词全集;
将词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将精选编号语句的词语在交互数据语料库中的权重按照该词语在有序词集中的位置进行排序处理,得到精选编号语句的词语的权重序列集合;
将精选编号语句的词语的权重序列表集合作为精选编号语句的编号特征向量。
在本发明的一个优选实施例中,根据编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
在本发明的一个优选实施例中,根据相似值对编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于预设阈值的两个编号特征向量所对应的编号语句归为同类。
在其他实施例中,信息交互平台的交互数据分类程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。
本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中信息交互平台的交互数据分类程序10较佳实施例的程序模块图。所述信息交互平台的交互数据分类程序10可以被分割为:编码模块110、词语剔除模块120、词频获取模块130、权重获取模块140、编号特征向量模块150、相似值计算模块160、分类模块170。所述模块110-170所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
编码模块110:用于对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句。
词语剔除模块120:用于根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语,得到精选编号语句。
词频获取模块130:用于利用预设的权重算法,计算出组成精选编号语句中的词语在交互数据语料库中出现的词频。
权重获取模块140:用于根据词频,确定组成精选编号语句的词语在交互数据语料库中的权重。
编号特征向量模块150:用于将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量。
相似值计算模块160:用于根据编号特征向量计算每两个编号语句的相似值。
分类模块170:用于根据相似值对编号语句进行归类。
此外,本发明还提供一种信息交互平台的交互数据分类方法。参照图3所示,为本发明信息交互平台的交互数据分类方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,信息交互平台的交互数据分类方法包括:步骤S10-步骤S70。
步骤S10,对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句。
具体地,每天通过信息交互平台采集客服人员与用户的聊天记录,其中,信息交互平台为客服人员与用户之间的沟通平台,以汽配平台为例,每天修理厂和配件商买卖双方之间交易过程中都会产生大量的聊天记录(即交互数据),这些聊天记录一般通过ES(elastic-search)存取引擎存储在聊天记录语料库中(即交互数据语料库)中,处理器12从聊天记录语料库中获取聊天记录语句,由于从聊天记录预料库中获取的聊天记录语句量较大,语句较为混乱,所以需要对获取到的聊天语句进行编号处理,得到编号语句。
其中,对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出时间排序语句中的语料最小单元,其中,语料最小单元为用户每次所发送的对话语句;
对语料最小单元进行编号。
具体地,按时间顺序对聊天记录的每一段话(或者一句话)进行编号。这里的每一段话是指用户交流中每点击发送按钮输入的每一段话或者一句话。以用户的每一个发送作为分析对象,即语料最小单元,用户的每一次发送都会有时间记录,然后根据时间的先后对每一个用户的所有语料最小单元进行编号,编号依次为从1到n,n为用户发送的语句数量。
步骤S20,根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语,得到精选编号语句。
没有语义价值的词语会影响后续语句相似性的判断,所以需要除去编号语句中存在的没有语义价值的词语。
其中,根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语的步骤包括:
将编号语句的语料最小单元进行分词处理,得到分词集合;
将分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
具体地,没有语义价值的词语集合根据实际情况预先设定,例如:“你”、“我”、“吗”、“的”、“是”、“而”等这样常见的语义价值不大的词,为了更好理解此部分内容,举例如下,将编号语句的语料最小单元进行分词处理,得到分词集合R1,将分词集合R1和预设的没有语义价值的词语集合R2【你、我、吗、的、是、而】做差集,去除无语义后的词集R=R1-R2,则R为得到的精选编号语句集合。
步骤S30,利用预设的权重算法,计算出组成精选编号语句中的词语在交互数据语料库中出现的词频。
其中,权重算法为TF-IDF算法,TF-IDF算法的公式为:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示词语在聊天记录语料库中出现的词频,Tn表示词语在聊天记录语料库中出现的次数,Dn表示聊天记录语料库中的总词数,N表示语料最小单元的总个数,Nw表示出现该词语的语料最小单元的个数。
步骤S40,根据词频,确定组成精选编号语句的词语在交互数据语料库中的权重。
其中,根据词频,确定组成精选编号语句的词语在聊天记录语料库中的权重的步骤包括:
将精选编号语句的词语通过TF-IDF算法计算得到的参数值作为该词语在交互数据语料库中的权重。
具体地,利用权重算法,计算出每个精选编号语句中的词语在聊天记录语料库中出现的词频,精选编号语句的词语通过TF-IDF算法计算得到的参数值,即TF-IDF值,作为该词语在聊天记录语料库中的权重。
步骤S50,将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量。
其中,将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量的步骤包括:
将编号语句做分词处理,得到编号语句词集;
将编号语句词集做并集处理,得到词全集;
将词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将精选编号语句的词语在交互数据语料库中的权重按照该词语在有序词集中的位置进行排序处理,得到精选编号语句的词语的权重序列集合;
将精选编号语句的词语的权重序列表集合作为精选编号语句的编号特征向量。
具体地,将每个编号语句进行分词处理,得到多个编号语句词集,再对多个编号语句词集并集处理,得到词全集C,词全集C包含了整个聊天记录语料库中的词语,根据集合的特性,词全集C里面没有重复的词。
对词全集C按照汉语拼音的字母顺序进行排序得到有序集合CS,将精选编号语句的词语在聊天记录语料库中的权重根据该词所在有序词集CS的位置摆放,得到精选编号语句的词语的权重序列表。每个编号语句词集中没有出现在CS的,其权重视为0。将每个精选编号语句的词语在聊天记录语料库中的权重序列表看成是由n个特征词构成的特征向量。精选编号语句的词语的权重序列表和词集特征向量是一一对应的。
为了更好的理解,下面对此进行举例:
所有编号语句的词集做并集处理后,得到词全集,按照汉语拼音的字母顺序进行排序得到有序集合,例如:CS={件,明天,品质,配送,认证,什么,时候,原厂件,…}
其中一个精选编号语句对应的词集S1={品质,配送,什么},通过权重算法计算得到的该精选编号语句中各个词语在聊天记录语料库中的权重序列表为WS1={0.56,0.03,0.16},参照CS对应的特征向量为FV1={0,0,0.56,0.03,0,0.16,0,0…}
其中一个精选编号语句对应的词集S2={明天,时候,原厂件},通过权重算法计算得到的该精选编号语句中各个词语在聊天记录语料库中的权重序列表为WS1={0.3,0.12,0.8},参照CS对应的特征向量为FV2={0,0.3,0,0,0,0,0.12,0.8…}。
步骤S60,根据编号特征向量计算每两个编号语句的相似值。
具体地,将精选编号语句通过编号特征向量,两两进行相似值计算,得到每两个精选编号语句的相似值,优选相似值计算公式为余弦定理,当然也可采用其它相似值计算公式,在此不做特别限定。
其中,根据编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
步骤S70,根据相似值对编号语句进行归类。
具体地,把相近程度符合预设阈值的编号语句合并成一类。这就可以把所有语句按照相似性归类为N类,N<n(n为所有语句的总数),把每一类看做一类问题,对每一类问题进一步提取总结为一个问题,这样就可以把所有用户的问题提取出来。
其中,根据相似值对编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于预设阈值的两个编号特征向量所对应的编号语句归为同类。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被处理器执行时实现如下操作:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成精选编号语句中的词语在交互数据语料库中出现的词频;
根据词频,确定组成精选编号语句的词语在交互数据语料库中的权重;
将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量;
根据编号特征向量计算每两个编号语句的相似值;
根据相似值对编号语句进行归类。
优选地,对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出时间排序语句中的语料最小单元,其中,语料最小单元为用户每次所发送的对话语句;
对语料最小单元进行编号。
优选地,根据预设的没有语义价值的词语集合,剔除编号语句中没有语义价值的词语的步骤包括:
将编号语句的语料最小单元进行分词处理,得到分词集合;
将分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
优选地,预设的权重算法为TF-IDF算法,TF-IDF算法的公式为:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示词语在聊天记录语料库中出现的词频,Tn表示词语在聊天记录语料库中出现的次数,Dn表示聊天记录语料库中的总词数,N表示语料最小单元的总个数,Nw表示出现该词语的语料最小单元的个数。
优选地,根据词频,确定组成精选编号语句的词语在聊天记录语料库中的权重的步骤包括:
将精选编号语句的词语通过TF-IDF算法计算得到的参数值作为该词语在所述交互数据语料库中的权重。
优选地,将组成精选编号语句的词语在交互数据语料库中的权重整理为编号特征向量的步骤包括:
将编号语句做分词处理,得到编号语句词集;
将编号语句词集做并集处理,得到词全集;
将词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将精选编号语句的词语在交互数据语料库中的权重按照该词语在有序词集中的位置进行排序处理,得到精选编号语句的词语的权重序列集合;
将精选编号语句的词语的权重序列表集合作为精选编号语句的编号特征向量。
优选地,根据编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
优选地,根据相似值对编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于预设阈值的两个编号特征向量所对应的编号语句归为同类。
本发明之计算机可读存储介质的具体实施方式与上述信息交互平台的交互数据分类方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种信息交互平台的交互数据分类方法,应用于电子装置,其特征在于,所述方法包括:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
2.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从所述交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出所述时间排序语句中的语料最小单元,其中,所述语料最小单元为用户每次所发送的对话语句;
对所述语料最小单元进行编号。
3.根据权利要求2所述的信息交互平台的交互数据分类方法,其特征在于,所述根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语的步骤包括:
将所述编号语句的语料最小单元进行分词处理,得到分词集合;
将所述分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
4.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述预设的权重算法为TF-IDF算法,所述TF-IDF算法的公式为:
TF-IDF=TF*log(N/Nw),
TF=Tn/Dn;
其中,TF表示词语在聊天记录语料库中出现的词频,Tn表示词语在聊天记录语料库中出现的次数,Dn表示聊天记录语料库中的总词数,N表示语料最小单元的总个数,Nw表示出现该词语的语料最小单元的个数。
5.根据权利要求4所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述词频,确定组成所述精选编号语句的词语在所述聊天记录语料库中的权重的步骤包括:
将所述精选编号语句的词语通过所述TF-IDF算法计算得到的参数值作为该词语在所述交互数据语料库中的权重。
6.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量的步骤包括:
将所述编号语句做分词处理,得到编号语句词集;
将所述编号语句词集做并集处理,得到词全集;
将所述词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将所述精选编号语句的词语在所述交互数据语料库中的权重按照该词语在所述有序词集中的位置进行排序处理,得到所述精选编号语句的词语的权重序列集合;
将所述精选编号语句的词语的权重序列表集合作为所述精选编号语句的编号特征向量。
7.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
8.根据权利要求7所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述相似值对所述编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于所述预设阈值的两个编号特征向量所对应的编号语句归为同类。
9.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被所述处理器执行时实现如下步骤:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被处理器执行时,实现如权利要求1至8中任一项所述的信息交互平台的交互数据分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061143.9A CN111259649A (zh) | 2020-01-19 | 2020-01-19 | 信息交互平台的交互数据分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061143.9A CN111259649A (zh) | 2020-01-19 | 2020-01-19 | 信息交互平台的交互数据分类方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259649A true CN111259649A (zh) | 2020-06-09 |
Family
ID=70947982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010061143.9A Pending CN111259649A (zh) | 2020-01-19 | 2020-01-19 | 信息交互平台的交互数据分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259649A (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008128423A1 (fr) * | 2007-04-19 | 2008-10-30 | Shenzhen Institute Of Advanced Technology | Système de dialogue intelligent et son procédé de réalisation |
US20110238410A1 (en) * | 2010-03-26 | 2011-09-29 | Jean-Marie Henri Daniel Larcheveque | Semantic Clustering and User Interfaces |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类系统及方法 |
CN105488029A (zh) * | 2015-11-30 | 2016-04-13 | 西安闻泰电子科技有限公司 | 基于knn的智能手机即时通讯工具取证方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109948143A (zh) * | 2019-01-25 | 2019-06-28 | 网经科技(苏州)有限公司 | 社区问答系统的答案抽取方法 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
KR20190133931A (ko) * | 2018-05-24 | 2019-12-04 | 한국과학기술원 | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 |
CN110674378A (zh) * | 2019-09-26 | 2020-01-10 | 科大国创软件股份有限公司 | 基于余弦相似度和最小编辑距离的中文语义识别方法 |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
-
2020
- 2020-01-19 CN CN202010061143.9A patent/CN111259649A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008128423A1 (fr) * | 2007-04-19 | 2008-10-30 | Shenzhen Institute Of Advanced Technology | Système de dialogue intelligent et son procédé de réalisation |
US20110238410A1 (en) * | 2010-03-26 | 2011-09-29 | Jean-Marie Henri Daniel Larcheveque | Semantic Clustering and User Interfaces |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类系统及方法 |
CN105488029A (zh) * | 2015-11-30 | 2016-04-13 | 西安闻泰电子科技有限公司 | 基于knn的智能手机即时通讯工具取证方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108628825A (zh) * | 2018-04-10 | 2018-10-09 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
KR20190133931A (ko) * | 2018-05-24 | 2019-12-04 | 한국과학기술원 | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109948143A (zh) * | 2019-01-25 | 2019-06-28 | 网经科技(苏州)有限公司 | 社区问答系统的答案抽取方法 |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
CN110674378A (zh) * | 2019-09-26 | 2020-01-10 | 科大国创软件股份有限公司 | 基于余弦相似度和最小编辑距离的中文语义识别方法 |
CN110704641A (zh) * | 2019-10-11 | 2020-01-17 | 零犀(北京)科技有限公司 | 一种万级意图分类方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
张俊飞: "改进TF-IDF结合余弦定理计算中文语句相似度", 现代计算机, no. 32, 15 November 2017 (2017-11-15), pages 22 - 25 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086394B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
US11023533B2 (en) | Node task data display method and apparatus, storage medium and computer equipment | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN107992523B (zh) | 移动应用的功能选项查找方法及终端设备 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN110851598A (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN111209490A (zh) | 基于用户信息的交友推荐方法、电子装置及存储介质 | |
CN113836131A (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN111552767A (zh) | 搜索方法、搜索装置以及计算机设备 | |
CN112883730A (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN111553191A (zh) | 基于人脸识别的视频分类方法、装置及存储介质 | |
CN110598123A (zh) | 基于画像相似性的信息检索推荐方法、装置及存储介质 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
US20140172874A1 (en) | Intelligent analysis queue construction | |
CN111414455A (zh) | 舆情分析方法、装置、电子设备及可读存储介质 | |
CN116226526A (zh) | 一种知识产权智能检索平台及方法 | |
CN111259649A (zh) | 信息交互平台的交互数据分类方法、装置及存储介质 | |
CN106446696A (zh) | 一种信息处理方法及电子设备 | |
CN114547242A (zh) | 一种问卷调研的方法、装置、电子设备及可读存储介质 | |
CN114780712A (zh) | 一种基于质量评价的新闻专题生成方法及装置 | |
CN115186151A (zh) | 简历筛选方法、装置、设备及存储介质 | |
US11457192B2 (en) | Digital evidence management method and digital evidence management system | |
CN112597760A (zh) | 文档中的领域词提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |