CN114999533A - 基于情绪识别的智能问答方法、装置、设备及存储介质 - Google Patents
基于情绪识别的智能问答方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114999533A CN114999533A CN202210653632.2A CN202210653632A CN114999533A CN 114999533 A CN114999533 A CN 114999533A CN 202210653632 A CN202210653632 A CN 202210653632A CN 114999533 A CN114999533 A CN 114999533A
- Authority
- CN
- China
- Prior art keywords
- voice
- emotion
- text
- detection result
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000008451 emotion Effects 0.000 claims abstract description 136
- 238000001514 detection method Methods 0.000 claims abstract description 115
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种基于情绪识别的智能问答方法,包括:对用户语音进行时序声纹处理,得到用户语音的声纹特征,对用户语音进行文本转换,得到语音文本;根据声纹特征和语音文本进行综合情绪检测,得到第一检测结果,对语音文本进行文本情绪检测,得到第二检测结果;根据第一检测结果及第二检测结果生成情绪标签;对语音文本进行语义识别,利用语义识别结果在问答库中匹配得到业务话术;利用情绪标签在情绪反馈话术库中匹配得到目标反馈话术,并根据业务话术和目标反馈话术生成目标回答话术。本发明还提出一种基于情绪识别的智能问答装置、设备以及存储介质。本发明可以提高智能问答的匹配性和准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于情绪识别的智能问答方法、装置、设备及存储介质。
背景技术
智能问答在生活中的应用越来越广泛,目前,在大多数智能问答系统中,通常根据用户发出的语音给出对应的答案,未考虑用户的语调或文本情绪的变换,因此,生成的答案的匹配性较低、用户的体验感差。现有技术中,对用户答案进行情绪分析,根据分析结果生成答案的过程中,也存在有由于语音数据良莠不齐、情绪检测角度单一等造成的生成答案匹配性较低,不够准确等问题。
发明内容
本发明提供一种基于情绪识别的智能问答方法、装置、设备及存储介质,其主要目的在于解决智能问答过程中的匹配性和准确性较低的问题。
为实现上述目的,本发明提供的一种基于情绪识别的智能问答方法,包括:
获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
根据所述第一检测结果及所述第二检测结果生成情绪标签;
对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
可选地,所述对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,包括:
对所述用户语音进行强度检测,得到语音强度;
删除所述用户语音中所述语音强度小于预设强度阈值的部分,得到多个语音段;
分别对所述多个语音段进行时序检测,得到每个语音段的语音时刻;
分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征。
可选地,所述分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征,包括:
对所述不同语音时刻的语音段进行降噪处理,得到降噪语音段;
对所述降噪语音段进行多维度卷积处理,得到多维度特征;
对所述多维度特征进行均值池化处理,得到池化特征;
利用第一全连接层对所述池化特征进行全连接处理,得到全连接语音段特征;
利用第二全连接层对所述全连接语音段特征进行全连接处理,得到所述不同语音时刻的输入语音段的声纹特征。
可选地,所述根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,包括:
对所述语音文本进行词性占比分析,得到占比权重;
获取所述声纹特征的声纹强度,并根据所述声纹强度以及对应的语音时刻计算平均音量;
统计所述语音文本的文本字数,根据所述文本字数及所述对应的语音时刻计算语音速度;
利用所述占比权重、所述平均音量及所述语音速度计算情绪值,并将所述情绪值作为第一检测结果。
可选地,所述对所述语音文本进行文本情绪检测,得到第二检测结果,包括:
提取所述语音文本中与情绪关联的关键词;
基于预设的情绪词典库对所述关键词进行情绪词替换,得到替换文本;
将所述替换文本输入通过预训练的情绪识别模型,得到第二检测结果。
可选地,所述利用语义识别结果在预设的问答库中匹配得到业务话术,包括:
获取所述问答库中每一个现有问题的文本语义;
根据所述语义识别结果和所述问答库中现有问题的文本语义进行相似度检测;
选取相似度检测结果中相似度最大的文本语义作为目标语义,并根据所述目标语义从所述问答库中提取对应的业务话术。
可选地,所述根据所述第一检测结果及所述第二检测结果生成情绪标签,包括:
对所述第一检测结果及所述第二检测结果进行权重运算,得到目标情绪分值;
利用预设的情绪标签表匹配所述目标情绪分值,得到情绪标签。
为了解决上述问题,本发明还提供一种基于情绪识别的智能问答装置,所述装置包括:
用户语音处理模块,用于获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
情绪检测结果生成模块,用于根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
情绪标签生成模块,用于根据所述第一检测结果及所述第二检测结果生成情绪标签;
业务话术获取模块,用于对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
目标回答话术生成模块,用于利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于情绪识别的智能问答方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于情绪识别的智能问答方法。
本发明实施例本发明通过对用户语音进行时序声纹特征提取,有利于减少用户语音中包含的无用信息的含量,降低对语言进行分析时计算资源的占用,提高分析效率及精确率;通过声纹情绪检测和语音文本情绪检测两方面生成情绪标签,实现了情绪分析的多角度性,提高了用户语音情绪检测的准确性;通过根据情绪标签和语音文本两个方面生成回答话术,从而提高了智能问答的匹配性和准确性。因此本发明提出的基于情绪识别的智能问答方法、装置、设备及存储介质,可以解决进行解决智能问答过程中的匹配性和准确性较低的问题。
附图说明
图1为本发明一实施例提供的基于情绪识别的智能问答方法的流程示意图;
图2为本发明一实施例提供的获取用户语音的声纹特征的流程示意图;
图3为本发明一实施例提供的获取声纹特征的流程示意图;
图4为本发明一实施例提供的根据声纹特征和语音文本进行综合情绪检测的流程示意图;
图5为本发明一实施例提供的根据语音文本进行文本情绪检测的流程示意图;
图6为本发明一实施例提供的生成情绪标签的流程示意图;
图7为本发明一实施例提供的生成业务话术的流程示意图;
图8为本发明一实施例提供的基于情绪识别的智能问答装置的功能模块图;
图9为本发明一实施例提供的实现所述基于情绪识别的智能问答方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于情绪识别的智能问答方法。所述基于情绪识别的智能问答方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于情绪识别的智能问答方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于情绪识别的智能问答方法的流程示意图。在本实施例中,所述基于情绪识别的智能问答方法包括以下步骤S1-S5:
S1、获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本。
本发明实施例可以通过在用户或客服的服务终端中的声音采集设备来获取用户语音,例如,通过预先安装于服务终端内的录音应用,或者具有声音采集功能的计算机程序,或者可进行音频采集的麦克风来获取用户语音,利用服务终端进行用户语音的采集,可提高获取的用户语音的实时性。
本发明另一实施例中,还可利用具有数据抓取功能的python语句从用于存储用户语音的区块链节点中抓取预先存储的用户语音,利用区块链对数据的高吞吐性,可提高获取所述用户语音的效率。
详细地,请参阅图2所示,所述对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,包括以下步骤S21-S24:
S21、对所述用户语音进行强度检测,得到语音强度;
S22、删除所述用户语音中所述语音强度小于预设强度阈值的部分,得到多个语音段;
S23、分别对所述多个语音段进行时序检测,得到每个语音段的语音时刻;
S24、分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征。
本发明实施例可采用分贝仪等具有声音检测功能的设备对所述用户语音进行强度检测,如PocketRTA分贝测试仪、SIA SmaartLive分贝测试工具等对所述用户语音进行强度检测,得到语音强度。或者,利用python或java等计算机语言编写的具有声音强度检测功能的计算机程序对所述用户语音进行强度检测,得到语音强度。
本发明实施例中,当获取语音强度后,通过对所述用户语音中声音强度小于预设强度阈值的部分进行删除,保留所述用户语音中声音强度大于或等于预设强度阈值的部分,进而得到多个语音段。例如,存在时长为30秒的用户语音,其中,0-10秒、20-25秒语音强度小于预设强度阈值,则删除该用户语音中0-10秒和20-25秒的部分,得到10-20秒、和25-30秒两段语音段。
本发明一个实际应用场景中,由于用户与客服机器人等对话时,不同角色之间或同一角色在说话时往往会出现断句、停顿的情况,例如,当用户提出一个问题,客服机器人在对用户的问题进行回答前,会出现一定的无声时期;再例如,用户在对一件事进行阐述时,由于内容较长,语句中间出现的停顿等。本发明实施例通过对用户语音进行强度检测,进而删除掉用户语音中不存在人声的部分,有利于减少后续对语言进行分析时计算资源的占用,提高分析效率。
本发明实施例中,在对所述多个语音段进行时序检测,得到每个语音段的语音时刻时,可以采用如下时序检测算法:
其中,Ti为第i个语音段的语音时刻,t1为第i个语音段的起始时刻,t2第i个语音段的终止时刻,α为预设的常数系数,且α通常为2。
例如,存在10点10分10秒至10点20分30秒的语音段A,则语音段A的起始时刻t1为10点10分10秒,语音段A的终止时刻为10点20分30秒,当α为2时,则通过上述时序检测算法得出语音段A的语音时刻为10点15分15秒。
本发明实施例中,请参阅图3所示,所述分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征,包括以下步骤S31-S35:
S31、对所述不同语音时刻的语音段进行降噪处理,得到降噪语音段;
S32、对所述降噪语音段进行多维度卷积处理,得到多维度特征;
S33、对所述多维度特征进行均值池化处理,得到池化特征;
S34、利用第一全连接层对所述池化特征进行全连接处理,得到全连接语音段特征;
S35、利用第二全连接层对所述全连接语音段特征进行全连接处理,得到所述不同语音时刻的输入语音段的声纹特征。
本发明实施例中为了去除所述语音段中的噪声,利用预设的降噪滤波器对所述输入语音段进行噪声过滤处理,得到降噪语音段,其中,所述滤波器包括但不限于巴特沃斯滤波器、切比雪夫滤波器和贝塞尔滤波器等。
详细地,由于语音段中可能包含大量噪声(例如,背景噪声,电流噪声等),直接对语音段进行分析会占用大量计算资源,造成分析效率低下,本发明实施例将不同语音时刻的语音段进行降噪处理,可减少语音段中的噪音,进而突出人声部分,有利于提高后续进行语音分析的效率和精确度。
本发明实施例中,采用具有多重卷积层的卷积神经网络对所述降噪语音段进行多维度卷积处理,即采用具有不同尺寸卷积核的卷积神经网络对所述降噪语音段进行卷积,可基于不同尺寸的卷积核得到所述降噪语音段不同维度的特征,实现了对降噪语音段的特征进行多维提取,进而提高后续语音分析时的精确度。
本发明实施例对多维度特征进行均值池化处理,利用均值池化能保留更多特征的特性,实现对多维对维度特征的最大保留,有利于提高后续语音分析时的精确度。
本发明实施例可采用包含双全连接层的卷积神经网络对池化特征进行两次全连接处理,可提高网络复杂度,进而提高获得的声纹特征的精确度。
详细地,本发明实施例中,可采用声学模型对所述用户语音进行文本转换,得到语音文本。所述声学模型通过对每个字进行发声的建模,以建立包含多个字,及每个字对应的标准发声的数据库,通过对所述用户语音中每个时刻下用户发声的采集,以获取每个时刻下用户的发声,进而将该发声与预先构建的包含多个字,及每个字对应的标准发声的数据库中的字进行概率匹配,以此实现对用户语音进行语音识别,得到语音文本。所述声学模型包括但不限于基于HMM(Hidden Markov Model,隐马尔可夫模型)、GMM(Gaussian MixtureModel,高斯混合模型)。
本发明实施例中,通过声学模型对所述用户语音进行语音识别时,由于不需要对语言进行卷积、池化等特征提取的处理,因此可以有利于提高语音识别、获取语音文本的效率。
S2、根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果。
本发明实施例中,可采用具有情绪识别功能的智能模型对所述声纹特征进行情绪检测,得到情绪检测结果。所述智能模型包括但不限于:PLSA(Probabilistic LatentSemantic Analysis,概率潜语义分析)模型,LDA(Latent Dirichlet Allocation,隐狄利克雷分配)模型。
本发明实施例中,请参阅图4所示,所述根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,包括以下步骤S41-S44:
S41、对所述语音文本进行词性占比分析,得到占比权重;
S42、获取所述声纹特征的声纹强度,并根据所述声纹强度以及对应的语音时刻计算平均音量;
S43、统计所述语音文本的文本字数,根据所述文本字数及所述对应的语音时刻计算语音速度;
S44、利用所述占比权重、所述平均音量及所述语音速度计算情绪值,并将所述情绪值作为第一检测结果。
具体地,所述根据所述声纹特征的声纹强度以及对应的语音时刻计算平均音量,包括:
利用如下均值算法计算所述平均音量:
其中,Voii为所述第i个声纹特征对应的语音段的平均音量,Di为所述第i个声纹特征对应的语音段的的语音强度,s1为第i个声纹特征对应的语音段的起始时刻,s2第i个声纹特征对应的语音段的终止时刻。
进一步地,所述根据所述文本字数及所述对应的语音时刻计算语音速度,包括:
利用如下速率算法计算所述语音速度:
其中,Vn为所述第n个声纹特征对应的语音段的语音速度,N为所述第n个声纹特征对应的语音段的文本字数,s1为第i个声纹特征对应的语音段的起始时刻,s2第i个声纹特征对应的语音段的终止时刻。
本发明实施例中,所述利用所述占比权重、所述平均音量及所述语音速度计算情绪值,包括:
利用如下权重算法占比权重、平均音量和语音速度计算情绪值:
J=Δ*(θ*Wi+β*Voii+γ*Vn)
其中,J为所述情绪值,Wi为所述第i个声纹特征对应的语音段的占比权重,Voii为所述第i个声纹特征对应的语音段的平均音量,Vn为所述第n个声纹特征对应的语音段的语音速度,θ、β、γ为预设常数系数,Δ为预设模型参数。
本发明实施例中,请参阅图5所示,所述对所述语音文本进行文本情绪检测,得到第二检测结果,包括以下步骤S51-S53:
S51、提取所述语音文本中与情绪关联的关键词;
S52、基于预设的情绪词典库对所述关键词进行情绪词替换,得到替换文本;
S53、将所述替换文本输入通过预训练的情绪识别模型,得到第二检测结果。
详细地,本发明实施例中与情绪关联的关键词是指通过该词语能够从一定角度反映情绪;本发明实施例中,可建立情绪关联的关键词词典库,在其中通过收录能反映情绪的词语,例如“哈哈”、“哼”、“难受”等等词语;在提取语音文本中的关键词时,可通过将语音文本划分成词段,并将得到的词段依次与关键词词典库中收录的词语进行比对,可确定待识别文本中与情绪关联的关键词。
本发明实施例中,可以通过词频逆文档频率统计方法确定各词段的词频时,词频越大表示这个词段在待识别文本中越有可能为关键词;本发明实施例可以设置预设阈值来对关键词进行筛选和过滤。
本发明实施例中,所述情绪词典库中收录了情绪词语,例如包括“开心”、“伤心”、“愤怒”、“疑惑”等等词语,基于情绪词典库中的情绪词,可以将语音文本中的各关键词替换为对应关联的情绪词,替换完成后得到的文本则为替换文本。
本发明实施例中,所述情绪识别模型可以是预先利用训练文本经过训练确定的神经网络模型,所述情绪识别模型包括但不限于随机森林模型。
S3、根据所述第一检测结果及所述第二检测结果生成情绪标签。
本发明实施例中,请参阅图6所示,所述根据所述第一检测结果及所述第二检测结果生成情绪标签,包括以下步骤S61-S62:
S61、对所述第一检测结果及所述第二检测结果进行权重运算,得到目标情绪分值;
S62、利用预设的情绪标签表匹配所述目标情绪分值,得到情绪标签。
详细地,获得的情绪检测结果所对应的重要性可以是不同的,因此可以通过权重运算确定目标情绪分值。
本发明实施例中,情绪分值与情绪标签的对应关系可以存储于情绪标签表中,在确定目标情绪分值后,可以利用情绪标签表根据所述目标情绪分值,匹配得到对应的情绪标签。
例如,情绪分值在0-40之间,对应的情绪标签可以为不悦;情绪分值在40-70之间,对应的情绪标签可以为正常;情绪分值在70-100之间,对应的情绪标签可以为愉悦。
S4、对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术。
本发明实施例中,可以采用自然语言处理(NLP)模型对所述语音文本进行语义识别,所述语义识别结果表现为文本向量的形式。
本发明实施例中,请参阅图7所示,所述利用语义识别结果在预设的问答库中匹配得到业务话术,包括以下步骤S71-S73:
S71、获取所述问答库中每一个现有问题的文本语义;
S72、根据所述语义识别结果和所述问答库中现有问题的文本语义进行相似度检测;
S73、选取相似度检测结果中相似度最大的文本语义作为目标语义,并根据所述目标语义从所述问答库中提取对应的业务话术。
本发明实施例中,通过计算所述语义识别结果和所述问答库中现有问题的文本语义对应的文本向量的距离值,进而得到相似度结果。
详细地,计算所述语义识别结果和所述问答库中现有问题的文本语义对应的文本向量的距离值,可以通过如下公式:
其中,D为所述距离值,R为问答库中第i个问题的文本语义,T为语音文本的语义识别结果,θ为预设系数。
S5、利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
本发明实施例中,所述情绪反馈话术库中可以存储有不同情绪标签对应的调节语句(即反馈话术),通过该调节语句可以调节对话氛围,缓解对话情绪,提高用户的体验感。
本发明实施例中,可以通过预设的对话模板对所述业务话术和目标反馈话术进行拆解、组合等形式的调整,进而生成目标回答话术,回答用户语音中所提出的问题以及调节用户情绪。
本发明实施例本发明通过对用户语音进行时序声纹特征提取,有利于减少用户语音中包含的无用信息的含量,降低对语言进行分析时计算资源的占用,提高分析效率及精确率;通过声纹情绪检测和语音文本情绪检测两方面生成情绪标签,实现了情绪分析的多角度性,提高了用户语音情绪检测的准确性;通过根据情绪标签和语音文本两个方面生成回答话术,从而提高了智能问答的匹配性和准确性。因此本发明提出的基于情绪识别的智能问答方法,可以解决进行解决智能问答过程中的匹配性和准确性较低的问题。
如图8所示,是本发明一实施例提供的基于情绪识别的智能问答装置的功能模块图。
本发明所述基于情绪识别的智能问答装置100可以安装于电子设备中。根据实现的功能,所述基于情绪识别的智能问答装置100可以包括用户语音处理模块101、情绪检测结果生成模块102、情绪标签生成模块103、业务话术获取模块104及目标回答话术生成模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述用户语音处理模块101,用于获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
所述情绪检测结果生成模块102,用于根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
所述情绪标签生成模块103,用于根据所述第一检测结果及所述第二检测结果生成情绪标签;
所述业务话术获取模块104,用于对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
所述目标回答话术生成模块105,用于利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
详细地,本发明实施例中所述基于情绪识别的智能问答装置100中所述的各模块在使用时采用与上述图1至图7中所述的基于情绪识别的智能问答方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图9所示,是本发明一实施例提供的实现基于情绪识别的智能问答方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于情绪识别的智能问答程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于情绪识别的智能问答程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于情绪识别的智能问答程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图9仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图9示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于情绪识别的智能问答程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
根据所述第一检测结果及所述第二检测结果生成情绪标签;
对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
根据所述第一检测结果及所述第二检测结果生成情绪标签;
对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于情绪识别的智能问答方法,其特征在于,所述方法包括:
获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
根据所述第一检测结果及所述第二检测结果生成情绪标签;
对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
2.如权利要求1所述的基于情绪识别的智能问答方法,其特征在于,所述对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,包括:
对所述用户语音进行强度检测,得到语音强度;
删除所述用户语音中所述语音强度小于预设强度阈值的部分,得到多个语音段;
分别对所述多个语音段进行时序检测,得到每个语音段的语音时刻;
分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征。
3.如权利要求2所述的基于情绪识别的智能问答方法,其特征在于,所述分别对不同语音时刻的语音段进行声纹特征提取,得到声纹特征,包括:
对所述不同语音时刻的语音段进行降噪处理,得到降噪语音段;
对所述降噪语音段进行多维度卷积处理,得到多维度特征;
对所述多维度特征进行均值池化处理,得到池化特征;
利用第一全连接层对所述池化特征进行全连接处理,得到全连接语音段特征;
利用第二全连接层对所述全连接语音段特征进行全连接处理,得到所述不同语音时刻的输入语音段的声纹特征。
4.如权利要求1所述的基于情绪识别的智能问答方法,其特征在于,所述根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,包括:
对所述语音文本进行词性占比分析,得到占比权重;
获取所述声纹特征的声纹强度,并根据所述声纹强度以及对应的语音时刻计算平均音量;
统计所述语音文本的文本字数,根据所述文本字数及所述对应的语音时刻计算语音速度;
利用所述占比权重、所述平均音量及所述语音速度计算情绪值,并将所述情绪值作为第一检测结果。
5.如权利要求1所述的基于情绪识别的智能问答方法,其特征在于,所述对所述语音文本进行文本情绪检测,得到第二检测结果,包括:
提取所述语音文本中与情绪关联的关键词;
基于预设的情绪词典库对所述关键词进行情绪词替换,得到替换文本;
将所述替换文本输入通过预训练的情绪识别模型,得到第二检测结果。
6.如权利要求1所述的基于情绪识别的智能问答方法,其特征在于,所述利用语义识别结果在预设的问答库中匹配得到业务话术,包括:
获取所述问答库中每一个现有问题的文本语义;
根据所述语义识别结果和所述问答库中现有问题的文本语义进行相似度检测;
选取相似度检测结果中相似度最大的文本语义作为目标语义,并根据所述目标语义从所述问答库中提取对应的业务话术。
7.如权利要求1至6中任一项所述的基于情绪识别的智能问答方法,其特征在于,所述根据所述第一检测结果及所述第二检测结果生成情绪标签,包括:
对所述第一检测结果及所述第二检测结果进行权重运算,得到目标情绪分值;
利用预设的情绪标签表匹配所述目标情绪分值,得到情绪标签。
8.一种基于情绪识别的智能问答装置,其特征在于,所述装置包括:
用户语音处理模块,用于获取用户语音,对所述用户语音进行时序声纹处理,得到所述用户语音的声纹特征,对所述用户语音进行文本转换,得到语音文本;
情绪检测结果生成模块,用于根据所述声纹特征和所述语音文本进行综合情绪检测,得到第一检测结果,对所述语音文本进行文本情绪检测,得到第二检测结果;
情绪标签生成模块,用于根据所述第一检测结果及所述第二检测结果生成情绪标签;
业务话术获取模块,用于对所述语音文本进行语义识别,利用语义识别结果在预设的问答库中匹配得到业务话术;
目标回答话术生成模块,用于利用所述情绪标签在预设的情绪反馈话术库中匹配得到目标反馈话术,并根据所述业务话术和所述目标反馈话术生成目标回答话术。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于情绪识别的智能问答方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于情绪识别的智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653632.2A CN114999533A (zh) | 2022-06-09 | 2022-06-09 | 基于情绪识别的智能问答方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653632.2A CN114999533A (zh) | 2022-06-09 | 2022-06-09 | 基于情绪识别的智能问答方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999533A true CN114999533A (zh) | 2022-09-02 |
Family
ID=83033539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210653632.2A Pending CN114999533A (zh) | 2022-06-09 | 2022-06-09 | 基于情绪识别的智能问答方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999533A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116389644A (zh) * | 2022-11-10 | 2023-07-04 | 八度云计算(安徽)有限公司 | 一种基于大数据分析的外呼系统 |
CN116597821A (zh) * | 2023-07-17 | 2023-08-15 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的智能客服语音识别方法和系统 |
-
2022
- 2022-06-09 CN CN202210653632.2A patent/CN114999533A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116389644A (zh) * | 2022-11-10 | 2023-07-04 | 八度云计算(安徽)有限公司 | 一种基于大数据分析的外呼系统 |
CN116389644B (zh) * | 2022-11-10 | 2023-11-03 | 八度云计算(安徽)有限公司 | 一种基于大数据分析的外呼系统 |
CN116597821A (zh) * | 2023-07-17 | 2023-08-15 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的智能客服语音识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
CN107564511A (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN114999533A (zh) | 基于情绪识别的智能问答方法、装置、设备及存储介质 | |
CN114461777B (zh) | 智能问答方法、装置、设备及存储介质 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN113807103B (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN113420556A (zh) | 基于多模态信号的情感识别方法、装置、设备及存储介质 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN113064994A (zh) | 会议质量评估方法、装置、设备及存储介质 | |
CN114155832A (zh) | 基于深度学习的语音识别方法、装置、设备及介质 | |
CN113327586A (zh) | 一种语音识别方法、装置、电子设备以及存储介质 | |
CN113160819A (zh) | 用于输出动画的方法、装置、设备、介质和产品 | |
CN112201253A (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN114842880A (zh) | 智能客服语音节奏调节方法、装置、设备及存储介质 | |
CN113808616A (zh) | 语音合规检测方法、装置、设备及存储介质 | |
CN112233648B (zh) | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 | |
CN111324710B (zh) | 一种基于虚拟人的在线调研方法、装置和终端设备 | |
CN115512698B (zh) | 一种语音语义分析方法 | |
CN115631748A (zh) | 基于语音对话的情感识别方法、装置、电子设备及介质 | |
CN113990286A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113808577A (zh) | 语音摘要的智能提取方法、装置、电子设备及存储介质 | |
CN114186028A (zh) | 咨诉工单处理方法、装置、设备及存储介质 | |
CN114429137A (zh) | 语音智能匹配方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |