CN111901554B - 基于语义聚类的通话通道构建方法、装置和计算机设备 - Google Patents
基于语义聚类的通话通道构建方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111901554B CN111901554B CN202010733115.7A CN202010733115A CN111901554B CN 111901554 B CN111901554 B CN 111901554B CN 202010733115 A CN202010733115 A CN 202010733115A CN 111901554 B CN111901554 B CN 111901554B
- Authority
- CN
- China
- Prior art keywords
- semantic
- call
- voice data
- preset
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000004891 communication Methods 0.000 claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims description 92
- 238000012549 training Methods 0.000 claims description 48
- 238000012795 verification Methods 0.000 claims description 45
- 238000013507 mapping Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000008451 emotion Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 15
- 230000008909 emotion recognition Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Accounting & Taxation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及人工智能技术领域,应用于智慧城市中,揭示了一种基于语义聚类的通话通道构建方法、装置、计算机设备,所述方法包括:利用第一收音设备,获取第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入语义识别模型,从而得到n个语义识别结果;进行聚类处理,得到多个语义组;得到多个指定语义识别结果;获取对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。本申请还涉及区块链技术,语义识别模型可存储于区块链中。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于语义聚类的通话通道构建方法、装置、计算机设备和存储介质。
背景技术
随着通信技术的发展,多人语音通话,甚至于多人视频语音通话已成为可能。传统的多人视频语音通话技术是给参与的每个人(每个终端)均开设一个视频语音通话接口,以使每个人都能够参与到多人视频语音通话中。但是这种传统的多人视频语音通话技术在参与人数过多时,耗费的计算机资源过多,且通话效率不高。
发明内容
本申请的基于语义聚类的通话通道构建方法、装置、计算机设备和存储介质,旨在克服目前视频通话耗费的计算机资源过多,以及通话效率不高的缺陷。
本申请提出一种基于语义聚类的通话通道构建方法,应用于第一通话终端,包括:
利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
进一步地,所述语义识别模型基于神经网络模型训练而成,所述将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果的步骤之前,包括:
调取预先收集的m个训练用语音数据;
将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
将所述m个样本组按预设比例划分为训练组和验证组;
将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
进一步地,所述根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组的步骤,包括:
根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量均为t维向量;
构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
进一步地,所述根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果的步骤,包括:
将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,分别输入预设的情绪识别模型中,从而得到所述情绪识别模型输出的n个情绪值;
从每个语义组中均选出一个指定语义识别结果,所述指定语义识别结果在对应的语义组中的情绪值最大,从而得到与所述多个语义组对应的多个指定语义识别结果。
进一步地,所述构建所述多个指定通话终端之间的视频通话通道的步骤之后,包括:
构建第一次级语音通话通道、...、第p次级语音通话通道;其中,所述第一次级语音通话通道以第一指定通话终端为权限管理终端,所述第一指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成;...;所述第p次级语音通话通道以第p指定通话终端为权限管理终端,所述第p指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成,从而形成包容n个通话终端的通话网络;其中,所述多个指定通话终端共有p个。
本申请提供一种基于语义聚类的通话通道构建装置,应用于第一通话终端,包括:
第一通话语音数据获取单元,用于利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
多个通话语音数据获取单元,用于获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
语义识别结果获取单元,用于将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
语义识别结果聚类单元,用于根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
指定语义识别结果获取单元,用于根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
指定通话终端获取单元,用于根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
视频通话通道构建单元,用于构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
进一步地,所述语义识别模型基于神经网络模型训练而成,所述装置,包括:
训练用语音数据调取单元,用于调取预先收集的m个训练用语音数据;
语音识别文本获取单元,用于将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
相似度值计算单元,用于根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
样本组构建单元,用于构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
样本组划分单元,用于将所述m个样本组按预设比例划分为训练组和验证组;
训练单元,用于将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
验证单元,用于利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
标记单元,用于若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
进一步地,所述语义识别结果聚类单元,包括:
向量映射子单元,用于根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
相似程度值计算子单元,用于根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量均为t维向量;
语义组构建子单元,用于构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于语义聚类的通话通道构建方法、装置、计算机设备和存储介质,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到n个语义识别结果;对所述n个语义识别结果进行聚类处理,从而得到多个语义组;从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。
附图说明
图1为本申请一实施例的基于语义聚类的通话通道构建方法的流程示意图;
图2为本申请一实施例的基于语义聚类的通话通道构建装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于语义聚类的通话通道构建方法,应用于第一通话终端,包括:
S1、利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
S2、获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
S3、将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
S4、根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
S5、根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
S6、根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
S7、构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
本申请通过特别的设计,实现了减少计算机资源的耗费,并且提高了通话效率。具体地,本申请通过对n个通话语音数据的语义识别,并进行语义聚类,从而得到多个语义组,再选出多个指定语义识别结果,选出与所述多个指定语义识别结果对应的多个指定通话终端,并构建所述多个指定通话终端之间的视频通话通道(该视频通话是与所述预设问题相关的)。从而参与视频通话通道的通话终端的数量减少,因此减少计算机资源的耗费,并且提高了通话效率(因为每个通话终端的代表均在视频通话通道中,因此不会有通话信息的遗漏,并且参与终端的减小,使得信息交流更高效)。
如上述步骤S1-S2所述,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复。本申请的初始通话终端有n个,即第一通话终端、第二通话终端、第三通话终端、...、第n通话终端,需要对这n个通话终端进行削减,以达到减少计算机资源的耗费,并且提高通话效率的目的。因此,本申请通过预设问题,并获取对预设问题的答复的方式,分别获取了第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,以为对n个通话终端进行聚类划分作准备。其中收音设备例如为麦克风。需要注意的是,所述预设问题是即将形成的通话的谈论主题。
如上述步骤S3所述,将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果。其中,所述语义识别模型可采用任意可行模型,例如为神经网络模型、长短期记忆网络模型等。所述语义识别模型用于识别出语义,其可采用任意可行方式实现。例如,所述语义识别模型先进行语音识别,以将语音数据识别为文字文本,再对文字文本进行语义识别。所述语义识别模型可采用监督或者无监督学习的方式训练得到,例如以预收集的语音数据与人工标注的语义识别类型(例如可为积极、次积极、中性、消极等)为训练数据对神经网络模型进行训练而得到,从而语义识别模型可胜任语义识别任务。
如上述步骤S4所述,根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同。其中所述语义聚类方法可采用任意可行聚类方法,例如当语义识别结果为语义识别类型(例如可为积极、次积极、中性、消极等)时(当然,语义识别结果也可为其他任意可行形式,例如为识别出的一句话),将相同的语义识别类型对应的语义识别结果聚类为同一个语义组,即可得到多个语义组。或者,将所述n个语义识别结果映射为高维空间中的坐标点,再采用坐标聚类的方式,以将所述n个语义识别结果对应的坐标点聚类为多个组,从而得到多个语义组。
如上述步骤S5-S7所述,根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。其中,所述识别结果筛选方法可采用任意可行方法,例如当前述语义聚类方法进行聚类时能够生成一个聚类中心,那么识别结果筛选方法则以离聚类中心最近的语义识别结果作为指定语义识别结果。由于存在语义识别结果-通话语音数据-通话终端的对应关系,因此可获取与所述多个指定语义识别结果对应的多个指定通话终端。此时,所述多个指定通话终端即为多个语义组的代表。再构建所述多个指定通话终端之间的视频通话通道,从而实现了减少视频通话通道中的通话终端数量,但却不会使通话信息的损失,反而提高了通话效率。
进一步地,所述根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端的步骤之后,包括:将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据均发送给所述第二通话终端、第三通话终端、...、第n通话终端,并要求所述第二通话终端、第三通话终端、...、第n通话终端分别进行语义识别、语义聚类、识别结果筛选和指定通话终端获取的过程,以分别得到第二终端序列、第三终端序列、...、第n终端序列,其中每个终端序列均包括了多个指定通话终端;获取所述第二通话终端、第三通话终端、...、第n通话终端分别发送的所述第二终端序列、第三终端序列、...、第n终端序列;判断所述第二终端序列、第三终端序列、...、第n终端序列是否均与所述第一通话终端得到多个指定语义识别结果相同;若相同,则生成视频通话通道构指令,所述视频通话通道构指令用于指示构建所述多个指定通话终端之间的视频通话通道。从而,本申请以去中心化的方式,实现了视频通话通道的构建,以防止由于单个终端对于多个指定通话终端的选定时可能造成的错误或者人为干涉的风险,从而提高了通话信息交互的效率与可信度。
在一个实施方式中,所述语义识别模型基于神经网络模型训练而成,所述将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果的步骤S3之前,包括:
S21、调取预先收集的m个训练用语音数据;
S22、将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
S23、根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
S24、构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
S25、将所述m个样本组按预设比例划分为训练组和验证组;
S26、将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
S27、利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
S28、若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
如上所述,实现了将所述中间模型记为所述语义识别模型。普通的语义识别模型,需要预先进行人工标识以实现监督学习。本申请却采用了特别的设计,无需人工标识,从而提高了适用数据的范围,提高了模型训练速度。具体地,本申请调取预先收集的m个训练用语音数据;将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成,从而借助现有的语音识别模型减去了人工标识过程,从而没有人工标识的语音数据也能用于训练。再将所述m个样本组按预设比例划分为训练组和验证组;将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型,从而使所述语义识别模型适宜进行语义识别。
在一个实施方式中,所述根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组的步骤S4,包括:
S401、根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
S402、根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量均为t维向量;
S403、构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
如上所述,实现了根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组。其中,所述预设的向量映射方法可采用任意可行方法,例如当所述语义识别结果为一句文字文本时,所述向量映射方法为通过查询预设的词向量库,以获取所述语义识别结果中的单词对应的词向量,再对词向量进行叠加等处理方法,以得到高维向量。再根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q。需要注意的是,本申请采用的是特别的相似程度值计算方法,其中不仅涉及到向量之间的数值差异,更考虑到向量之间的角度差异,从而使计算结果更加准确。再构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值,从而将相似或者相同的语义识别结果聚为同一个语义组。从而实现准确地聚类处理。
在一个实施方式中,所述根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果的步骤S5,包括:
S501、将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,分别输入预设的情绪识别模型中,从而得到所述情绪识别模型输出的n个情绪值;
S502、从每个语义组中均选出一个指定语义识别结果,所述指定语义识别结果在对应的语义组中的情绪值最大,从而得到与所述多个语义组对应的多个指定语义识别结果。
如上所述,实现了得到与所述多个语义组对应的多个指定语义识别结果。每个指定语义识别结果将代表多个通话终端进行视频通话,因此指定语义识别结果的选取非常重要。本申请通过再次利用语音数据的方式,实现了数据了复用,并且保证选出的通话终端能够在将来的视频通话中能够进行充分的通话交互。具体地,将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,分别输入预设的情绪识别模型中,从而得到所述情绪识别模型输出的n个情绪值。其中,所述情绪识别模型可为任意可行模型,例如为基于神经网络模型训练而成,并采用包括语音数据和对应的人工标识的情绪值的训练数据来训练,从而所述情绪识别模型可识别出语音数据的情绪值,并且该情绪值越大表明越激动,也即能够在后续的通话过程中力争已方观点(即,从每个语义组中均选出一个指定语义识别结果,所述指定语义识别结果在对应的语义组中的情绪值最大,从而得到与所述多个语义组对应的多个指定语义识别结果)。
在一个实施方式中,所述构建所述多个指定通话终端之间的视频通话通道的步骤S7之后,包括:
S71、构建第一次级语音通话通道、...、第p次级语音通话通道;其中,所述第一次级语音通话通道以第一指定通话终端为权限管理终端,所述第一指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成;...;所述第p次级语音通话通道以第p指定通话终端为权限管理终端,所述第p指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成,从而形成包容n个通话终端的通话网络;其中,所述多个指定通话终端共有p个。
如上所述,实现了构建次级语音通话通道。本申请为了弥补视频通话通道中可能存在的信息缺失,因此构建了第一次级语音通话通道、...、第p次级语音通话通道。从而本申请的整个通话通道是这样的结构:主框架为多个指定通话终端之间的视频通话通道,并以每个指定通话终端为核心,形成次级语音通话通道。通过这种设计,使得主体的视频通话能够高效进行并保证较少的算力损耗(因为视频数量较少),而次级语音通话通道保证每个非指定通话终端的通话终端也能进行补充信息(通过对应的指定通话终端来完成),从而保证了信息的完整性。其中,权限管理终端指具有对级语音通话通道进行管理的终端,其权限管理例如为设置发言权限和/或设置收听权限等。
本申请的基于语义聚类的通话通道构建方法,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到n个语义识别结果;对所述n个语义识别结果进行聚类处理,从而得到多个语义组;从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。
参照图2,本申请实施例提供一种基于语义聚类的通话通道构建装置,应用于第一通话终端,包括:
第一通话语音数据获取单元10,用于利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
多个通话语音数据获取单元20,用于获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
语义识别结果获取单元30,用于将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
语义识别结果聚类单元40,用于根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
指定语义识别结果获取单元50,用于根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
指定通话终端获取单元60,用于根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
视频通话通道构建单元70,用于构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述语义识别模型基于神经网络模型训练而成,所述装置,包括:
训练用语音数据调取单元,用于调取预先收集的m个训练用语音数据;
语音识别文本获取单元,用于将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
相似度值计算单元,用于根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
样本组构建单元,用于构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
样本组划分单元,用于将所述m个样本组按预设比例划分为训练组和验证组;
训练单元,用于将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
验证单元,用于利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
标记单元,用于若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述语义识别结果聚类单元,包括:
向量映射子单元,用于根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
相似程度值计算子单元,用于根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量均为t维向量;
语义组构建子单元,用于构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述指定语义识别结果获取单元,包括:
n个情绪值获取子单元,用于将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,分别输入预设的情绪识别模型中,从而得到所述情绪识别模型输出的n个情绪值;
指定语义识别结果获取子单元,用于从每个语义组中均选出一个指定语义识别结果,所述指定语义识别结果在对应的语义组中的情绪值最大,从而得到与所述多个语义组对应的多个指定语义识别结果。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
次级语音通话通道构单元,用于构建第一次级语音通话通道、...、第p次级语音通话通道;其中,所述第一次级语音通话通道以第一指定通话终端为权限管理终端,所述第一指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成;...;所述第p次级语音通话通道以第p指定通话终端为权限管理终端,所述第p指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成,从而形成包容n个通话终端的通话网络;其中,所述多个指定通话终端共有p个。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
本申请的基于语义聚类的通话通道构建装置,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到n个语义识别结果;对所述n个语义识别结果进行聚类处理,从而得到多个语义组;从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于语义聚类的通话通道构建方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义聚类的通话通道构建方法。
上述处理器执行上述基于语义聚类的通话通道构建方法,其中所述方法包括的步骤分别与执行前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到n个语义识别结果;对所述n个语义识别结果进行聚类处理,从而得到多个语义组;从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于语义聚类的通话通道构建方法,其中所述方法包括的步骤分别与执行前述实施方式的基于语义聚类的通话通道构建方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;获取第二通话语音数据、第三通话语音数据、...、第n通话语音数据;将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到n个语义识别结果;对所述n个语义识别结果进行聚类处理,从而得到多个语义组;从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;获取与所述多个指定语义识别结果对应的多个指定通话终端;构建所述多个指定通话终端之间的视频通话通道。从而实现了减少计算机资源的耗费,并且提高了通话效率。
进一步地,本申请中的语义识别模型,被存储于预设的区块链节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请可应用于智慧城市领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于语义聚类的通话通道构建方法,其特征在于,应用于第一通话终端,包括:
利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
2.根据权利要求1所述的基于语义聚类的通话通道构建方法,其特征在于,所述语义识别模型基于神经网络模型训练而成,所述将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果的步骤之前,包括:
调取预先收集的m个训练用语音数据;
将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
将所述m个样本组按预设比例划分为训练组和验证组;
将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
3.根据权利要求1所述的基于语义聚类的通话通道构建方法,其特征在于,所述根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组的步骤,包括:
根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量B 均为t维向量;
构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
4.根据权利要求1所述的基于语义聚类的通话通道构建方法,其特征在于,所述根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果的步骤,包括:
将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,分别输入预设的情绪识别模型中,从而得到所述情绪识别模型输出的n个情绪值;
从每个语义组中均选出一个指定语义识别结果,所述指定语义识别结果在对应的语义组中的情绪值最大,从而得到与所述多个语义组对应的多个指定语义识别结果。
5.根据权利要求1所述的基于语义聚类的通话通道构建方法,其特征在于,所述构建所述多个指定通话终端之间的视频通话通道的步骤之后,包括:
构建第一次级语音通话通道、...、第p次级语音通话通道;其中,所述第一次级语音通话通道以第一指定通话终端为权限管理终端,所述第一指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成;...;所述第p次级语音通话通道以第p指定通话终端为权限管理终端,所述第p指定通话终端对应的所述语义组中的其他通话终端作为参与终端而构成,从而形成包容n个通话终端的通话网络;其中,所述多个指定通话终端共有p个。
6.一种基于语义聚类的通话通道构建装置,其特征在于,应用于第一通话终端,包括:
第一通话语音数据获取单元,用于利用所述第一通话终端上预设的第一收音设备,获取输入的第一通话语音数据;其中所述第一通话语音数据是所述第一通话终端的使用者针对预设问题的答复;
多个通话语音数据获取单元,用于获取第二通话终端、第三通话终端、...、第n通话终端分别发送的第二通话语音数据、第三通话语音数据、...、第n通话语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据指所述第二通话终端、第三通话终端、...、第n通话终端上预设的第二收音设备、第三收音设备、...、第n收音设备分别采集的语音数据;其中所述第二通话语音数据、第三通话语音数据、...、第n通话语音数据分别是所述第二通话终端、第三通话终端、...、第n通话终端的使用者针对所述预设问题的答复;
语义识别结果获取单元,用于将所述第一通话语音数据、第二通话语音数据、第三通话语音数据、...、第n通话语音数据,输入预设的语义识别模型中,从而得到所述语义识别模型对应输出的n个语义识别结果;
语义识别结果聚类单元,用于根据预设的语义聚类方法,对所述n个语义识别结果进行聚类处理,从而得到多个语义组;其中同一个语义组中的语义识别结果相同;
指定语义识别结果获取单元,用于根据预设的识别结果筛选方法,从每个语义组中均选出一个指定语义识别结果,从而得到与所述多个语义组对应的多个指定语义识别结果;
指定通话终端获取单元,用于根据预设的语义识别结果与通话终端的对应关系,获取与所述多个指定语义识别结果对应的多个指定通话终端;
视频通话通道构建单元,用于构建所述多个指定通话终端之间的视频通话通道;其中每个指定通话终端上均预设有摄像头。
7.根据权利要求6所述的基于语义聚类的通话通道构建装置,其特征在于,所述语义识别模型基于神经网络模型训练而成,所述装置,包括:
训练用语音数据调取单元,用于调取预先收集的m个训练用语音数据;
语音识别文本获取单元,用于将所述m个训练用语音数据输入已训练完成的语音识别模型中,从而得到所述语音识别模型输出的m个语音识别文本;其中所述m个语音识别文本由第一语音识别文本、第二语音识别文本、...、第m语音识别文本构成;
相似度值计算单元,用于根据预设的相似算法,计算所述m个语音识别文本与预设的多个参照语义之间的相似度值;
样本组构建单元,用于构建与所述m个语音识别文本对应的m个样本组,其中第一个样本组由第一语音识别文本和与所述第一语音识别文本最相似的参照语义构成,第二个样本组由第二语音识别文本和与所述第二语音识别文本最相似的参照语义构成,...,第m个样本组由第m语音识别文本和与所述第m语音识别文本最相似的参照语义构成;
样本组划分单元,用于将所述m个样本组按预设比例划分为训练组和验证组;
训练单元,用于将所述训练组输入预设的神经网络模型中进行训练,从而得到中间模型;
验证单元,用于利用所述验证组对所述中间模型进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
标记单元,用于若所述验证结果为验证通过,则将所述中间模型记为所述语义识别模型。
8.根据权利要求6所述的基于语义聚类的通话通道构建装置,其特征在于,所述语义识别结果聚类单元,包括:
向量映射子单元,用于根据预设的向量映射方法,将所述n个语义识别结果分别映射为高维空间的n个高维向量;
相似程度值计算子单元,用于根据公式:
计算出一个高维向量A与一个高维向量B的相似程度值Q,从而得到与所述n个高维向量对应的多个相似程度值;其中,A、B均为所述n个高维向量中的任意一个高维向量,Ai为高维向量A的第i个分向量,Bi为高维向量B的第i个分向量,高维向量A与高维向量B 均为t维向量;
语义组构建子单元,用于构建多个语义组,其中每个语义组均至少包括两个语义识别结果,并且同一个语义组中的语义识别结果两两之间的相似程度值Q小于预设的相似阈值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010733115.7A CN111901554B (zh) | 2020-07-27 | 2020-07-27 | 基于语义聚类的通话通道构建方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010733115.7A CN111901554B (zh) | 2020-07-27 | 2020-07-27 | 基于语义聚类的通话通道构建方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111901554A CN111901554A (zh) | 2020-11-06 |
CN111901554B true CN111901554B (zh) | 2022-11-11 |
Family
ID=73190857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010733115.7A Active CN111901554B (zh) | 2020-07-27 | 2020-07-27 | 基于语义聚类的通话通道构建方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111901554B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112634881B (zh) * | 2020-12-30 | 2023-08-11 | 广州博士信息技术研究院有限公司 | 一种基于科技成果数据库的语音智能识别方法及系统 |
CN113099045B (zh) * | 2021-04-15 | 2023-02-10 | 杭州蓦然认知科技有限公司 | 一种线路优化的方法、装置和系统 |
CN113793306A (zh) * | 2021-08-23 | 2021-12-14 | 上海派影医疗科技有限公司 | 一种基于分片处理的乳腺病理图像识别检测方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185862A1 (zh) * | 2016-04-28 | 2017-11-02 | 腾讯科技(深圳)有限公司 | 识别恶意电话及建立识别模型的方法、装置、设备 |
CN107800900A (zh) * | 2017-07-25 | 2018-03-13 | 平安科技(深圳)有限公司 | 通话数据处理方法、装置、存储介质和计算机设备 |
CN111126233A (zh) * | 2019-12-18 | 2020-05-08 | 中国平安财产保险股份有限公司 | 基于距离值的通话通道构建方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307252A1 (en) * | 2010-06-15 | 2011-12-15 | Microsoft Corporation | Using Utterance Classification in Telephony and Speech Recognition Applications |
-
2020
- 2020-07-27 CN CN202010733115.7A patent/CN111901554B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185862A1 (zh) * | 2016-04-28 | 2017-11-02 | 腾讯科技(深圳)有限公司 | 识别恶意电话及建立识别模型的方法、装置、设备 |
CN107800900A (zh) * | 2017-07-25 | 2018-03-13 | 平安科技(深圳)有限公司 | 通话数据处理方法、装置、存储介质和计算机设备 |
CN111126233A (zh) * | 2019-12-18 | 2020-05-08 | 中国平安财产保险股份有限公司 | 基于距离值的通话通道构建方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111901554A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111901554B (zh) | 基于语义聚类的通话通道构建方法、装置和计算机设备 | |
CN111897673B (zh) | 运维故障根因识别方法、装置、计算机设备和存储介质 | |
CN111143525A (zh) | 车辆信息获取方法、装置和智能移车系统 | |
EP3979098A1 (en) | Data processing method and apparatus, storage medium, and electronic apparatus | |
CN113642984B (zh) | 基于人工智能的员工考勤方法、装置、设备及存储介质 | |
CN112131888A (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN110175272A (zh) | 一种基于特征建模实现工单收敛的控制方法及控制装置 | |
CN113435517A (zh) | 异常数据点输出方法、装置、计算机设备和存储介质 | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN113840040A (zh) | 一种人机协作的外呼方法、装置、设备及存储介质 | |
CN113360644B (zh) | 文本模型再训练的方法、装置、设备及存储介质 | |
CN114398183A (zh) | 基于区块链的任务分配方法、装置、设备以及存储介质 | |
CN114203173A (zh) | 机器人预约客户的方法、装置、计算机设备及存储介质 | |
CN111899765A (zh) | 基于情绪预测模型的语音发送方法、装置和计算机设备 | |
CN113761217A (zh) | 基于人工智能的题目集数据处理方法、装置和计算机设备 | |
US20230370503A1 (en) | Dynamic group session data access protocols | |
CN116776857A (zh) | 客户通话关键信息提取方法、装置、计算机设备及介质 | |
CN111883112B (zh) | 基于多模式标识的语义识别方法、装置和计算机设备 | |
CN113919953B (zh) | 跨链生成智能合约的实现方法、装置、设备以及存储介质 | |
CN113064997B (zh) | 基于bert模型的意图分析方法、装置、设备及介质 | |
CN113268563B (zh) | 基于图神经网络的语义召回方法、装置、设备及介质 | |
CN116911757A (zh) | 一种业务实现方法、装置和存储介质 | |
CN114547053A (zh) | 基于系统的数据处理方法、装置、计算机设备和存储介质 | |
CN113641808A (zh) | 基于槽位信息的解答方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |