CN108416052A - 一种针对语义分析行业数据分类方法 - Google Patents
一种针对语义分析行业数据分类方法 Download PDFInfo
- Publication number
- CN108416052A CN108416052A CN201810227544.XA CN201810227544A CN108416052A CN 108416052 A CN108416052 A CN 108416052A CN 201810227544 A CN201810227544 A CN 201810227544A CN 108416052 A CN108416052 A CN 108416052A
- Authority
- CN
- China
- Prior art keywords
- industry data
- industry
- data
- directed
- class library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对语义分析行业数据分类方法,包括获取与客户进行电话交流的语音数据;对所述语音数据进行语音识别,得到相应的文本数据;对所述文本数据进行预处理,分割为语句和符号;构建行业数据分类库;对语句进行依存语法分析,构建行业数据分类表达树;基于所述行业数据分类表达树,结合所述符号和所述行业数据分类库的修正计算对应的行业数据分类值。
Description
技术领域
本申请属于机器学习技术领域,特别是涉及一种针对语义分析行业数据分类方法。
背景技术
现代社会,很多企业是依靠电话销售来实现自己的赢利。
在传统技术中,企业通常在自己的电话销售部门设置多个座席,每个座席上由一个电销人员,手动查找潜在客户的电话号码,再人工拨打该号码,待电话接通后与客户进行交流,事后进行分析总结,有成交希望的继续跟进直至促成交易。
在研究中发现,传统技术的缺陷在于,企业的电话销售大部分工作依赖人工,需要人工查询号码、人工拨打,人工和客户进行交流,再进行分析是否有成交可能,由此可见,人工依赖度高,效率低下。
发明内容
有鉴于此,本申请所要解决的是现有技术中企业的电话销售完全依赖人工交流和分析而导致的效率低下的问题。本发明提供了一种针对语义分析行业数据分类方法,可以解决上述问题。
为了解决上述技术问题,本发明通过以下技术方案得以实现:
一种针对语义分析行业数据分类方法,包括:
获取与客户进行电话交流的语音数据;
对所述语音数据进行语音识别,得到相应的文本数据;
对所述文本数据进行预处理,分割为语句和符号;
构建行业数据分类库;
对语句进行依存语法分析,构建行业数据分类表达树;
基于所述行业数据分类表达树,结合所述符号和所述行业数据分类库的修正计算对应的行业数据分类值。
在一个实施例中,所述构建行业数据分类库包括:构建专业用语行业数据分类库,以及构建口语或网络用语行业数据分类库。
在一个实施例中,所述专业用语行业数据分类库采集专业行业词语,并使用数值1和-1对应每个专业行业词语的行业数据分类值。
在一个实施例中,行业数据分类值为1表征客户倾向于签单,行业数据分类值为-1表征客户倾向于拒绝签单。
在一个实施例中,所述构建口语或网络用语行业数据分类库的步骤,包括:
对所述文本数据进行分词,并滤除所述专业行业词语,形成口语或网络用语词集;
计算每个口语或网络用语行业词语的上下文熵;
采用最大信息熵算法确定口语或网络用语词集对应的行业数据分类值。
在一个实施例中,所述对语句进行依存语法分析,构建行业数据分类表达树的步骤,包括:
通过分词、词性标注、句法分析过程,识别所述语句的依存语法结构;
识别所述依存语法结构结构的句法关系类型和情感模式;
根据所述情感模式,采用情感表达式构建算法确定对应的行业数据分类表达树。
与现有技术相比,本申请可以获得包括以下技术效果:
1)本发明提供的一种针对语义分析行业数据分类方法,能够极大地减少企业的人工成本,提高电话销售的效率。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为一个实施例中的针对语义分析行业数据分类方法的流程示意图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
参见图1,一种针对语义分析行业数据分类方法,包括:
获取与客户进行电话交流的语音数据;
对所述语音数据进行语音识别,得到相应的文本数据;
对所述文本数据进行预处理,分割为语句和符号;
构建行业数据分类库;
对语句进行依存语法分析,构建行业数据分类表达树;
基于所述行业数据分类表达树,结合所述符号和所述行业数据分类库的修正计算对应的行业数据分类值。
在一个实施例中,所述构建行业数据分类库包括:构建专业用语行业数据分类库,以及构建口语或网络用语行业数据分类库。
在一个实施例中,所述专业用语行业数据分类库采集专业行业词语,并使用数值1和-1对应每个专业行业词语的行业数据分类值。
在一个实施例中,行业数据分类值为1表征客户倾向于签单,行业数据分类值为-1表征客户倾向于拒绝签单。
在一个实施例中,所述构建口语或网络用语行业数据分类库的步骤,包括:
对所述文本数据进行分词,并滤除所述专业行业词语,形成口语或网络用语词集;
计算每个口语或网络用语行业词语的上下文熵;
采用最大信息熵算法确定口语或网络用语词集对应的行业数据分类值。
在一个实施例中,所述对语句进行依存语法分析,构建行业数据分类表达树的步骤,包括:
通过分词、词性标注、句法分析过程,识别所述语句的依存语法结构;
识别所述依存语法结构结构的句法关系类型和情感模式;
根据所述情感模式,采用情感表达式构建算法确定对应的行业数据分类表达树。
与现有技术相比,本发明提供的一种针对语义分析行业数据分类方法,能够极大地减少企业的人工成本,提高电话销售的效率。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (6)
1.一种针对语义分析行业数据分类方法,其特征在于,包括:
获取与客户进行电话交流的语音数据;
对所述语音数据进行语音识别,得到相应的文本数据;
对所述文本数据进行预处理,分割为语句和符号;
构建行业数据分类库;
对语句进行依存语法分析,构建行业数据分类表达树;
基于所述行业数据分类表达树,结合所述符号和所述行业数据分类库的修正计算对应的行业数据分类值。
2.如权利要求1所述的针对语义分析行业数据分类方法,其特征在于,所述构建行业数据分类库包括:构建专业用语行业数据分类库,以及构建口语或网络用语行业数据分类库。
3.如权利要求2所述的针对语义分析行业数据分类方法,其特征在于,所述专业用语行业数据分类库采集专业行业词语,并使用数值1和-1对应每个专业行业词语的行业数据分类值。
4.如权利要求3所述的针对语义分析行业数据分类方法,其特征在于,行业数据分类值为1表征客户倾向于签单,行业数据分类值为-1表征客户倾向于拒绝签单。
5.如权利要求2所述的针对语义分析行业数据分类方法,其特征在于,所述构建口语或网络用语行业数据分类库的步骤,包括:
对所述文本数据进行分词,并滤除所述专业行业词语,形成口语或网络用语词集;
计算每个口语或网络用语行业词语的上下文熵;
采用最大信息熵算法确定口语或网络用语词集对应的行业数据分类值。
6.如权利要求1所述的针对语义分析行业数据分类方法,其特征在于,所述对语句进行依存语法分析,构建行业数据分类表达树的步骤,包括:
通过分词、词性标注、句法分析过程,识别所述语句的依存语法结构;
识别所述依存语法结构结构的句法关系类型和情感模式;
根据所述情感模式,采用情感表达式构建算法确定对应的行业数据分类表达树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227544.XA CN108416052A (zh) | 2018-03-20 | 2018-03-20 | 一种针对语义分析行业数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810227544.XA CN108416052A (zh) | 2018-03-20 | 2018-03-20 | 一种针对语义分析行业数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108416052A true CN108416052A (zh) | 2018-08-17 |
Family
ID=63132911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810227544.XA Pending CN108416052A (zh) | 2018-03-20 | 2018-03-20 | 一种针对语义分析行业数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416052A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062195A1 (zh) * | 2020-09-27 | 2022-03-31 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
US9262688B1 (en) * | 2011-09-24 | 2016-02-16 | Z Advanced Computing, Inc. | Method and system for analyzing and recognition of an emotion or expression from multimedia, text, or sound track |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
-
2018
- 2018-03-20 CN CN201810227544.XA patent/CN108416052A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
US9262688B1 (en) * | 2011-09-24 | 2016-02-16 | Z Advanced Computing, Inc. | Method and system for analyzing and recognition of an emotion or expression from multimedia, text, or sound track |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨佳能等: "基于语义分析的中文微博情感分类方法", 《山东大学学报(理学版)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062195A1 (zh) * | 2020-09-27 | 2022-03-31 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tandera et al. | Personality prediction system from facebook users | |
Deng et al. | Introducing shared-hidden-layer autoencoders for transfer learning and their application in acoustic emotion recognition | |
CN106599317B (zh) | 问答系统的测试数据处理方法、装置及终端 | |
US10692016B2 (en) | Classifying unstructured computer text for complaint-specific interactions using rules-based and machine learning modeling | |
CN109559221A (zh) | 基于用户数据的催收方法、装置和存储介质 | |
US11556572B2 (en) | Systems and methods for coverage analysis of textual queries | |
US10860566B1 (en) | Themes surfacing for communication data analysis | |
JP2019511036A (ja) | 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 | |
US20180341903A1 (en) | Identifying task and personality traits | |
US11568175B2 (en) | Dynamic intent classification based on environment variables | |
US11194974B2 (en) | Teaching syntax by adversarial distraction | |
CN111177350A (zh) | 智能语音机器人的话术形成方法、装置和系统 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN107229627A (zh) | 一种文本处理方法、装置及计算设备 | |
CN109598000A (zh) | 语义关系识别方法、装置、计算机设备和存储介质 | |
CN110390094A (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN108416051A (zh) | 一种针对行业应用的智能对话逻辑算法 | |
CN108830643A (zh) | 一种营销推广方法和系统 | |
US20200050621A1 (en) | Verifying textual claims with a document corpus | |
US10942954B2 (en) | Dataset adaptation for high-performance in specific natural language processing tasks | |
CN108416052A (zh) | 一种针对语义分析行业数据分类方法 | |
CN112749276A (zh) | 用于处理数据的计算机实现的方法以及设备 | |
CN108471478A (zh) | 一种提高电话外呼效率的方式 | |
Azar et al. | Query-based single document summarization using an ensemble noisy auto-encoder | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180817 |
|
WD01 | Invention patent application deemed withdrawn after publication |