CN102419975B - 一种基于语音识别的数据挖掘方法和系统 - Google Patents

一种基于语音识别的数据挖掘方法和系统 Download PDF

Info

Publication number
CN102419975B
CN102419975B CN201010295597.9A CN201010295597A CN102419975B CN 102419975 B CN102419975 B CN 102419975B CN 201010295597 A CN201010295597 A CN 201010295597A CN 102419975 B CN102419975 B CN 102419975B
Authority
CN
China
Prior art keywords
data
speech recognition
voice document
voice
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010295597.9A
Other languages
English (en)
Other versions
CN102419975A (zh
Inventor
刘致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201010295597.9A priority Critical patent/CN102419975B/zh
Publication of CN102419975A publication Critical patent/CN102419975A/zh
Application granted granted Critical
Publication of CN102419975B publication Critical patent/CN102419975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种语音识别的数据挖掘方法和系统,方法包括:从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将该语音文件转换为文本数据;对转换的文本数据进行数据挖掘,得到最终的可用数据。通过本发明的方法和系统,实现了对语音信息的数据挖掘,并提高了语音渠道的客服数据统计的准确性。

Description

一种基于语音识别的数据挖掘方法和系统
技术领域
本发明涉及数据挖掘技术,尤其涉及一种基于语音识别的数据挖掘方法和系统。
背景技术
数据挖掘技术是一种用于得到产品反馈信息的主要技术。很多产品(如游戏、应用软件、聊天工具、杀毒软件等)在用户使用后,为了收集用户的反馈信息,都会为用户提供诸多的平台,让用户进行信息反馈,这些平台包括电话投诉中心、投诉网站、客户邮件咨询中心等等。通过对用户的反馈信息进行数据挖掘,可以得到大量有用的信息,如:用户对某产品的售后服务的满意程度,如何改进产品的建议,产品常见问题待解决等等。
目前的数据挖掘主要是对文本数据的挖掘,即利用用户反馈的文本信息进行搜集、整理、数据筛选等处理,以便得到用户反馈的信息成果,例如:可以先通过论坛、投诉邮箱、投诉网站等平台收集大量的反馈信息,再对这些收集的信息进行分类、分析,将分析结果报告给相关人员,相关人员根据报告做出相应的具体策划和针对性处理,最终根据策划和针对性处理来改进相关产品。
随着市场竞争的越来越激烈,不断要求以更快、更方便、更准确的数据挖掘方法来实现对产品反馈信息的收集、分析等处理,以实现对相关产品的更快、更好改进。现有的数据挖掘方法主要有两种,如图1所示,一种是收录用户通过网页、邮件输入的文本信息,根据对这些信息的分析结果做出相应的策划和针对性处理;另一种是通过问卷调查的方式,即用户通过回答问卷来反馈信息,通过对问卷的统计进行信息的挖掘,从而做出相应的策划和针对性处理。
然而,现有的数据挖掘方法都是基于网络渠道的文本信息挖掘,并不涉及到电话/语音方面的语音数据挖掘方案,而电话/语音也是用户比较常用的一种信息反馈方式。由于缺少对语音数据的挖掘方案,因此现有技术无法对用户通过电话/语音反馈的信息进行较好的利用,这也不利于对相关产品的更快、更好改进。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于语音识别的数据挖掘方法和系统,以实现对语音信息的数据挖掘。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种基于语音识别的数据挖掘方法,该方法包括:
从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据;
对转换的文本数据进行数据挖掘,得到最终的可用数据。
所述从语音文件数据库中提取语音文件,具体为:
根据预设的查询条件遍历所述语音文件数据库,提取符合所述查询条件的语音文件。
所述对转换的文本数据进行数据挖掘,得到最终的可用数据,具体为:
预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;
分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
所述相关度用浮点数表示,取值范围在0到1之间。
本发明还提供了一种基于语音识别的数据挖掘系统,该系统包括:
语音文件数据库,用于存储语音文件;
文件提取模块,用于从语音文件数据库中提取语音文件;
语音识别模块,用于通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据;
数据挖掘模块,用于对转换的文本数据进行数据挖掘,得到最终的可用数据。
所述文件提取模块进一步用于,根据预设的查询条件遍历所述语音文件数据库,提取符合所述查询条件的语音文件。
所述数据挖掘模块进一步用于,预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
所述相关度用浮点数表示,取值范围在0到1之间。
本发明所提供的一种基于语音识别的数据挖掘方法和系统,从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将该语音文件转换为文本数据;对转换的文本数据进行数据挖掘,得到最终的可用数据。本发明采用语音识别技术对语音信息进行数据挖掘,提高了语音渠道的客服数据统计的准确性,通过对语音数据的分析、统计,最终挖掘得到完整、准确的数据。
附图说明
图1为现有的数据挖掘示意图;
图2为本发明一种基于语音识别的数据挖掘方法的流程图;
图3为本发明实施例中基于语音识别的数据挖掘示意图;
图4为本发明一种基于语音识别的数据挖掘系统的组成结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
为实现对语音信息的数据挖掘,本发明提供的一种基于语音识别的数据挖掘方法,如图2所示,主要包括以下步骤:
步骤201,从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将该语音文件转换为文本数据。
语音文件数据库是用于存储语音文件的数据库,例如:在电话投诉中心的数据库中,存储的是用户通过语音渠道反馈的产品相关信息(即电话录音),该信息通常是以rm或mp3等音频格式存储在数据库中的。
其中,语音文件的提取可以根据预设的查询条件来执行,即根据预设的查询条件遍历语音文件数据库,提取符合该查询条件的语音文件;例如:假设预设的查询条件为“上一周的所有电话记录”,那么语音文件的提取操作是遍历语音文件数据库,将该数据库中符合“上一周的所有电话记录”查询条件的所有语音文件都提取出来。在提取语音文件之后,可以通过语音识别操作对提取的语音文件进行语义分析,将该语音文件转换为由自然语言组成的文本数据,并对转换的文本数据进行存储。
步骤202,对转换的文本数据进行数据挖掘,得到最终的可用数据。
具体的,可以预先设定数据挖掘的方向,并根据该数据挖掘的方向预设分类集合;然后,分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对该相关度的计算结果进行统计,进而得到最终的可用数据。关于文本数据与预设分类集合的相关度计算,以及计算结果的统计操作,将在后续的实施例中详细说明。
其中,数据挖掘的方向可以为以下至少一种:产品分类、类型分类、满意度分类等等。所谓产品分类,是指将上述文本数据按照产品的不同种类进行分类,例如:区分哪些是属于产品A的文本数据,哪些是属于产品B的文本数据等等。所谓类型分类,是指将上述文本数据按照内容反映的不同类型进行分类,例如:区分哪些是属于用户建议的文本数据,哪些是属于用户投诉的文本数据,哪些是属于用户表扬的文本数据等等。所谓满意度分类,是指将上述文本数据按照内容反映的用户满意度进行分类,例如:区分哪些是表现用户满意的文本数据,哪些是表现用户不满意的文本数据等等。需要说明的是,数据挖掘的方向并不仅限于上述所举,可以根据实际需要进行扩展。
另外,相关度的值可以用浮点数来表示,相关度的取值范围在0到1之间,取值为0表示完全不相关,取值为1表示非常相关。
下面以产品分类为例,对上述基于语音识别的数据挖掘方法进一步详细阐述。
如图3所示,为本发明实施例中基于语音识别的数据挖掘示意图,用户通过拨打客服电话进行产品的相关信息反馈,电话投诉中心的服务器对电话内容进行录音,并将录音得到的语音文件以rm或mp3的格式存储在专门的语音文件数据库中;随后进行的数据挖掘操作具体包括以下步骤:
步骤1,预先设定提取语音文件时的查询条件,以及预先设定数据挖掘的方向为产品分类,并预设产品分类的集合。
例如:预设的查询条件为“上一周的所有电话记录”;预设数据挖掘的方向为产品分类,且产品分类的集合A={QQ直播、QQ游戏},则集合A即为包含两个产品(QQ直播和QQ游戏)的集合。
步骤2,根据预设的查询条件遍历语音文件数据库,提取符合该查询条件的所有语音文件。
接续上述举例,当预设的查询条件为“上一周的所有电话记录”时,语音文件的提取操作是遍历语音文件数据库,将该数据库中符合“上一周的所有电话记录”查询条件的所有语音文件都提取出来;可以以Xi来标识提取的各个语音文件。
步骤3,通过语音识别操作对提取的各个语音文件Xi进行语义分析,将语音文件Xi转换为由自然语言组成的文本数据,并对该文本数据进行存储。
实际应用中,语音识别的技术有多种,本发明的实施例并不对语音识别的具体实现手段进行限定,将音频格式的语音文件识别为由自然语言组成的文本数据的任何实现手段,应当都属于本发明的保护范围内。
步骤4,分别计算各个语音文件Xi与预设产品分类的集合的相关度。
首先,定义一个相关度向量a=[a1,a2],该向量是一个一维向量,其中,a1表示Xi对QQ直播的相关度,使用浮点数表示,取值范围为0到1,0表示完全不相关,1表示非常相关;a2表示Xi对QQ游戏的相关度,使用浮点数表示,取值范围为0到1,0表示完全不相关,1表示非常相关。随后,采用向量概率统计的方式计算所得Xi对QQ直播的相关度、Xi对QQ游戏的相关度分别写入向量a中的a1、a2。
步骤5,对相关度的计算结果进行统计,进而得到最终的可用数据。
对上述对应各个Xi的相关度计算结果a进行数据统计,即可以得到用户对产品集合中的各个产品(QQ直播、QQ游戏)的关注度信息,该关注度信息反映了用户对各个产品的关注程度。参考该关注度信息,有利于进行有针对性的市场策划。
需要说明的是,以上是以产品分类为例进行的说明,通过基于产品分类的数据挖掘,可以获得用户对各个产品的关注度信息。对于基于类型分类、或基于满意度分类的数据挖掘,其具体操作与前述类似,此处不再赘述。基于类型分类的数据挖掘,可以区分出用户对产品的不同类型的反馈信息;基于满意度分类的数据挖掘,可以获得用户对各个产品的满意程度。
对应上述基于语音识别的数据挖掘方法,本发明还提供了一种基于语音识别的数据挖掘系统,如图4所示,该系统包括:语音文件数据库10、文件提取模块20、语音识别模块30和数据挖掘模块40。其中,语音文件数据库10,用于存储语音文件。文件提取模块20,连接语音文件数据库10,用于从语音文件数据库10中提取语音文件。语音识别模块30,连接文件提取模块20,用于通过语音识别操作对文件提取模块20提取的语音文件进行语义分析,将该语音文件转换为文本数据。数据挖掘模块40,连接语音识别模块30,用于对转换的文本数据进行数据挖掘,得到最终的可用数据。
较佳的,文件提取模块20进一步用于,根据预设的查询条件遍历语音文件数据库10,从中提取符合该查询条件的语音文件。
较佳的,数据挖掘模块40进一步用于,预先设定数据挖掘的方向,并根据该数据挖掘的方向预设分类集合;分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对该相关度的计算结果进行统计,得到最终的可用数据。
其中,数据挖掘的方向为以下至少一种:产品分类、类型分类、满意度分类等等。相关度可以用浮点数表示,取值范围在0到1之间,取值为0表示完全不相关,取值为1表示非常相关。
综上所述,本发明从语音文件数据库中提取语音文件,然后通过语音识别系统对这些语音文件进行语义分析,转化为由自然语言组成的文本数据后存储;再通过自然语言处理和语义分析的系统对这些数据进行分句、分词后,从这些数中挖掘出可用的数据,删除无用的数据后再次存储,最终再由人工对存储的数据进行处理。本发明通过采用基于语音识别的数据挖掘,提高了语音渠道的客服数据统计的准确性,通过对语音数据的分析、统计,最终挖掘得到完整、准确的数据。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.一种基于语音识别的数据挖掘方法,其特征在于,该方法包括:
根据预设的查询条件遍历语音文件数据库,提取符合所述查询条件的语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据,并对转换的文本数据进行存储;
预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;
分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
2.根据权利要求1所述基于语音识别的数据挖掘方法,其特征在于,所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
3.根据权利要求1所述基于语音识别的数据挖掘方法,其特征在于,所述相关度用浮点数表示,取值范围在0到1之间。
4.一种基于语音识别的数据挖掘系统,其特征在于,该系统包括:
语音文件数据库,用于存储语音文件;
文件提取模块,用于根据预设的查询条件遍历所述语音文件数据库,提取符合所述查询条件的语音文件;
语音识别模块,用于通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据,并对转换的文本数据进行存储;
数据挖掘模块,用于预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
5.根据权利要求4所述基于语音识别的数据挖掘系统,其特征在于,所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
6.根据权利要求4所述基于语音识别的数据挖掘系统,其特征在于,所述相关度用浮点数表示,取值范围在0到1之间。
CN201010295597.9A 2010-09-27 2010-09-27 一种基于语音识别的数据挖掘方法和系统 Active CN102419975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010295597.9A CN102419975B (zh) 2010-09-27 2010-09-27 一种基于语音识别的数据挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010295597.9A CN102419975B (zh) 2010-09-27 2010-09-27 一种基于语音识别的数据挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN102419975A CN102419975A (zh) 2012-04-18
CN102419975B true CN102419975B (zh) 2015-11-25

Family

ID=45944357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010295597.9A Active CN102419975B (zh) 2010-09-27 2010-09-27 一种基于语音识别的数据挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN102419975B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794122B (zh) * 2014-01-20 2020-04-17 腾讯科技(北京)有限公司 一种位置信息推荐方法、装置和系统
CN104156833B (zh) * 2014-08-29 2017-10-20 江苏省电力公司扬州供电公司 加载于电力人工声讯系统的智能电力故障报修接单系统及其运行方法
CN106504753A (zh) * 2015-09-07 2017-03-15 上海隆通网络系统有限公司 一种在it运维管理系统中的语音识别方法及系统
CN105427858B (zh) * 2015-11-06 2019-09-03 科大讯飞股份有限公司 实现语音自动分类的方法及系统
CN105630869B (zh) * 2015-12-15 2019-02-05 北京奇虎科技有限公司 一种语音数据的存储方法和装置
JP7039118B2 (ja) * 2017-06-29 2022-03-22 株式会社オプティム コールセンター会話内容表示システム、方法及びプログラム
CN109993543A (zh) * 2017-12-28 2019-07-09 中国移动通信集团广东有限公司 一种投诉处理方法及系统
CN108520740B (zh) * 2018-04-13 2022-04-19 国家计算机网络与信息安全管理中心 基于多种特征的音频内容一致性分析方法和分析系统
CN108776900A (zh) * 2018-07-02 2018-11-09 北京市天元网络技术股份有限公司 网络投诉智能定界方法及系统
CN112738345A (zh) * 2020-12-10 2021-04-30 南方电网数字电网研究院有限公司 用于业务管控智能语音的导航呼叫系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567964A (zh) * 2003-06-18 2005-01-19 霍菊芬 农业信息的语音收集、发布及反馈系统
CN101231660A (zh) * 2008-02-19 2008-07-30 林超 电话自然对话中关键信息的挖掘系统及其方法
CN101529418A (zh) * 2006-01-19 2009-09-09 维里德克斯有限责任公司 用于获取、分析和挖掘数据和信息的系统和方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100927596B1 (ko) * 2007-09-21 2009-11-23 한국전자통신연구원 데이터 보호형 패턴 인식 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567964A (zh) * 2003-06-18 2005-01-19 霍菊芬 农业信息的语音收集、发布及反馈系统
CN101529418A (zh) * 2006-01-19 2009-09-09 维里德克斯有限责任公司 用于获取、分析和挖掘数据和信息的系统和方法
CN101231660A (zh) * 2008-02-19 2008-07-30 林超 电话自然对话中关键信息的挖掘系统及其方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法

Also Published As

Publication number Publication date
CN102419975A (zh) 2012-04-18

Similar Documents

Publication Publication Date Title
CN102419975B (zh) 一种基于语音识别的数据挖掘方法和系统
US9245225B2 (en) Prediction of user response actions to received data
CN101231660A (zh) 电话自然对话中关键信息的挖掘系统及其方法
CN105354196B (zh) 信息推送方法和信息推送装置
CN111681653A (zh) 呼叫控制方法、装置、计算机设备以及存储介质
CN111722984B (zh) 告警数据处理方法、装置、设备及计算机存储介质
CN103838867A (zh) 日志处理方法和装置
CN107657048A (zh) 用户识别方法及装置
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN111158831A (zh) 基于即时通讯应用的数据处理方法、装置、设备及介质
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN101251853A (zh) 基于用户交互记录来挖掘用户属性的方法及系统
CN102333084A (zh) 基于用户属性的信息推送方法及系统
CN107563807A (zh) 一种基于数据挖掘的区域广告推送系统
CN112235470B (zh) 基于语音识别的来电客户跟进方法、装置及设备
CN104410973A (zh) 一种播放录音的诈骗电话识别方法和系统
CN103186522A (zh) 电子设备及其自然语言分析方法
CN110619035A (zh) 识别面试视频中关键词的方法、装置、设备及存储介质
CN108363748A (zh) 基于知乎的话题画像系统及话题画像方法
CN105550253A (zh) 一种类型关系的获取方法及装置
CN106293354B (zh) 快捷菜单自适应显示控制方法、服务器及便携式终端
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN110348669B (zh) 智能规则生成方法、装置、计算机设备及存储介质
CN107506407A (zh) 一种文件分类、调用的方法及装置
CN115409553B (zh) 一种基于大数据和位置信息的广告投放系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant