CN110650250B - 语音对话的处理方法、系统、设备和存储介质 - Google Patents

语音对话的处理方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN110650250B
CN110650250B CN201910910610.8A CN201910910610A CN110650250B CN 110650250 B CN110650250 B CN 110650250B CN 201910910610 A CN201910910610 A CN 201910910610A CN 110650250 B CN110650250 B CN 110650250B
Authority
CN
China
Prior art keywords
recording
slice
file
texts
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910910610.8A
Other languages
English (en)
Other versions
CN110650250A (zh
Inventor
王黎黎
赵桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN201910910610.8A priority Critical patent/CN110650250B/zh
Publication of CN110650250A publication Critical patent/CN110650250A/zh
Application granted granted Critical
Publication of CN110650250B publication Critical patent/CN110650250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2218Call detail recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种语音对话的处理方法、系统、设备及存储介质,该方法包括:将语音对话双方的媒体流录制在不同声道,生成一录音文件;将录音文件拆分成左、右声道录音文件;对左、右声道录音文件分别进行切片处理,生成若干个包含第一、第二开始时间的左、右声道录音切片文件;对若干个左、右声道录音切片文件分别进行语音识别,生成若干个包含第一、第二开始时间的左、右声道切片文本;根据第一、第二开始时间对若干个左、右声道切片文本进行排序,生成语音对话的对话文本文件。本发明将语音对话的音频文件转化成对话形式的对话文本,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高且长度降低,可大大提高了语音的识别率。

Description

语音对话的处理方法、系统、设备和存储介质
技术领域
本发明涉及语音的自动化处理领域,尤其涉及一种语音对话的处理方法、系统、设备和存储介质。
背景技术
现阶段很多企业对外呼通话有质量或者其它要求,然而语音形式的文件很不利于检查,通话录音调听的过程需要投入大量的人力、物力及时间。为了节约成本,同时提高调听的便利性,采用文字的方式替换传统的录音调听模式会更高效。但是现有的语音识别一般是一段录音整体识别,识别率不高,且不能区分对话双方。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音识别率不高且不能区分对话双方的缺陷,提供一种语音对话的处理方法、系统、设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种语音对话的处理方法,该处理方法包括如下步骤:
将语音对话双方的媒体流录制在不同声道,生成一录音文件;
将所述录音文件拆分成左声道录音文件和右声道录音文件;
对所述左声道录音文件和所述右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件;
对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件分别进行语音识别,生成若干个包含所述第一开始时间的左声道切片文本和若干个包含所述第二开始时间的右声道切片文本;
根据所述第一开始时间和所述第二开始时间对所述若干个左声道切片文本和所述若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
较佳地,所述生成一录音文件的步骤之后还包括:将所述录音文件保存至一文件服务器;
所述生成语音对话的对话文本文件的步骤之后还包括:将所述对话文本文件保存至所述文件服务器;所述对话文本文件与所述录音文件保存在同一文件夹中。
较佳地,使用ffmpeg(Fast Forward Mpeg,一种多媒体音视频处理工具)对所述左声道录音文件和所述右声道录音文件分别进行切片处理;
使用语音识别ASR(Automatic Speech Recognition,自动语音识别)集群对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件进行语音识别。
较佳地,设置若干个预设关键字,在所述生成若干个左声道切片文本和若干个右声道切片文本的步骤之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文本中高亮所述预设关键字。
本发明还提供一种语音对话的处理系统,该处理系统包括录音模块、声道拆分模块、切片模块、语音识别模块和拼接模块;
所述录音模块用于将语音对话双方的媒体流录制在不同声道,生成一录音文件;
所述声道拆分模块用于将所述录音文件拆分成左声道录音文件和右声道录音文件;
所述切片模块用于对所述左声道录音文件和所述右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件;
所述语音识别模块用于对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件分别进行语音识别,生成若干个包含所述第一开始时间的左声道切片文本和若干个包含所述第二开始时间的右声道切片文本;
所述拼接模块用于根据所述第一开始时间和所述第二开始时间对所述若干个左声道切片文本和所述若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
较佳地,所述语音对话的对话系统还包括一存储模块和一文件服务器,所述存储模块用于在所述录音模块生成一录音文件之后,将所述录音文件保存至所述文件服务器;
所述存储模块用于在所述拼接模块生成语音对话的对话文本文件之后,将所述对话文本文件保存至所述文件服务器;所述对话文本文件与所述录音文件保存在同一文件夹中。
较佳地,所述切片模块使用ffmpeg对所述左声道录音文件和所述右声道录音文件分别进行切片处理;
所述语音识别模块使用语音识别ASR集群对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件进行语音识别。
较佳地,所述语音对话的对话系统还包括一匹配模块,所述匹配模块用于设置若干个预设关键字,所述匹配模块还用于在所述生成若干个左声道切片文本和若干个右声道切片文本之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文中中高亮所述预设关键字。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的语音对话的处理方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音对话的处理方法的步骤。
本发明的积极进步效果在于:将外呼通话的对话双方分别录制在不同的声道,形成立体声录音文件,再通过声道拆分工具将其拆分成左右两个声道的录音,分别对两个声道的录音进行切片形成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,分别识别各个录音切片文件形成录音切片文本,最后根据左右声道切片文本的开始时间排序形成对话形式的对话文本文件;录音文件和对话文本文件保存入文件服务器的同一文件夹中,在切片文本中匹配预设关键字,高亮显示命中的关键字。通过上述的处理,将外呼通话的音频文件转化成对话形式的对话文本,并高亮显示命中的关键字,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高,长度大大降低,大大提高了语音的识别率,同时可以根据命中的关键字进行不同的应用分析及处理。
附图说明
图1为本发明实施例1的语音对话的处理方法的流程图。
图2为本发明实施例2的语音对话的处理方法的流程图。
图3为本发明实施例3的语音对话的处理系统的模块示意图。
图4为本发明实施例4的语音对话的处理系统的模块示意图。
图5为本发明实施例5的实现语音对话的处理方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种语音对话的处理方法,如图1所示,该方法包括如下步骤:
S101、将语音对话双方的媒体流录制在不同声道,生成一录音文件。
供应商发起外呼时,将语音对话双方的媒体流录制在不同声道,生成一个立体声录音文件。
S102、将录音文件拆分成左声道录音文件和右声道录音文件。
使用声道拆分工具将录音文件拆分成左声道录音文件和右声道录音文件,再分别对左右声道的录音文件做进一步处理。
S103、对左声道录音文件和右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件。
以左右声道里每段对话中等待对方说话的自然间隔将左右声道录音文件切分成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,保存在内存中。
S104、对若干个左声道录音切片文件和若干个右声道录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本。
对上述左右声道的录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本,保存在内存中。
S105、根据第一开始时间和第二开始时间对若干个左声道切片文本和若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
按照每个切片文本的第一开始时间或第二开始时间进行升序排列,将左右声道切片文本按照开始时间的先后顺序进行排列,形成语音对话双方的对话文本文件,对话文本文件的名称与录音文件的名称前缀相同。
本实施例将外呼通话的对话双方分别录制在不同的声道,形成立体声录音文件,再通过声道拆分工具将其拆分成左右两个声道的录音,分别对两个声道的录音进行切片形成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,分别识别各个录音切片文件形成切片文本,最后根据左右声道切片文本的开始时间排序形成对话形式的对话文本文件。通过上述的处理,将外呼通话的音频文件转化成对话形式的对话文本,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高,长度大大降低,大大提高了语音的识别率。
实施例2
本实施例提供一种语音对话的处理方法,如图2所示,该方法包括如下步骤:
S201、将语音对话双方的媒体流录制在不同声道,生成一录音文件。
供应商发起外呼时,将语音对话双方的媒体流录制在不同声道,生成一个立体声录音文件,调用restful接口(representational state transfer表征性状态转移)将录音文件保存在文件服务器中,录音文件在文件服务器中的保存路径保存在数据库中。
S202、将录音文件拆分成左声道录音文件和右声道录音文件。
通过HTTP方式从文件服务器中将录音文件下载到本地,使用声道拆分工具将录音文件拆分成左声道录音文件和右声道录音文件,再分别对左右声道的录音文件做进一步处理。
S203、使用ffmpeg对左声道录音文件和右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件。
ffmpeg是一套可以用来记录、转换数字音频或视频,并将其转化为流的开源计算机程序,广泛应用于音视频的处理。以左右声道里每段对话中等待对方说话的自然间隔将左右声道录音文件进行切片处理,以如下的一段对话为例说明切片处理过程,供应商语音录制在左声道,客户语音录制在右声道。
供应商[1]:“就是您刚才下了一单,是寒假要带孩子到澳大利亚去玩?然后请问一下您两个儿童是几岁?个别是几岁?”
客户[1]:“应该是八岁,一个14岁。”
供应商[2]:“然后您这边的话最早的出行日期是单号还是可以在可以做网线呢?”
客户[2]:“因为今年还不知道他什么时候放假,所以我预估是那个时候那个也可以看看他们放假的时间”
供应商[3]:“好的,那我就得看一下。你们就是预计要去10天就是来回加上能不能听懂?能不能多一点吗?还是就是十天,是因为有点尴尬。”
客户[3]:“是的,可以的呀,如果你们的课件有更好的,什么都可以的呀。”
供应商[4]:“要这样好吧,你睡吧。你那边的话有没有看到工资有没有拿几个澳大利亚的城市是特别想去的?一定要给你安排到的呢?”
客户[4]:“我这会儿还没有,然后到时我你因为我也很多同学在大量留学,说过几个,我国现在我应为还没时间去看呢,看她推荐哪些东西?”
供应商[5]:“额,不对。好吧。那你请问以下,孩子的话,男孩还是女孩?”
客户[5]:“都是男孩子。”
供应商[6]:“那看会不会比较喜欢那种比较要动的比较多的那种体验的项目?”
左右声道录音开始的时间记作LSplitStartTime和RSplitStartTime,左右声道录音总时长记作TotalTime,使用ffmpeg分别对上述左右声道的录音文件进行静默音检测,得到关键字组LSilenceStartTime[n]、LSilenceEndTime[n]和RSilenceStartTime[m]、RSilenceEndTime[m]分别表示左右声道录音中多段静默音的开始时间和结束时间。
该录音中供应商首先说话,所以LSplitStartTime与LSilenceStartTime[1]中间的录音为第一片左声道录音切片文件,即上文中供应商[1]的语音部分,LSplitStartTime和LSilenceStartTime[1]分别作为第一左声道录音切片文件的第一开始时间和结束时间保存在内存中。LSilenceStartTime[1]和LSilenceEndTime[1]之间是客户[1]的语音部分,供应商的第二段语音开始于LSilenceEndTime[1],结束于LSilenceStartTime[2],给LSplitStartTime赋值LSilenceEndTime[1],那么LSplitStartTime与LSilenceStartTime[2]中间的录音为第二片左声道录音切片文件,即上文中供应商[2]的语音部分,LSplitStartTime和LSilenceStartTime[2]分别作为第二左声道录音切片文件的第一开始时间和结束时间保存在内存中。以此类推,第i录音切片文件均为LSplitStartTime与LSilenceStartTime[i]之间的部分,保存完每个左声道录音切片文件的第一开始时间和结束时间后,将LSilenceEndTime[i]赋值给LSplitStartTime。到最后获取到TotalTime时,前一个时间片是LSilenceEndTime[5],则最后一个录音切片文件是LSplitStartTime到TotalTime之间的录音;否则认为录音切片结束。
客户的右声道录音文件处理过程与左声道类似,只是起始时右声道静默,RSplitStartTime与RSilenceStartTime[1]相等,一直到RSilenceEndTime[1]右声道才开始有语音,所以给RSplitStartTime赋值RSilenceEndTime[1],RSplitStartTime与RSilenceStartTime[2]之间的录音为第一片右声道录音切片文件,即上文中客户[1]的语音部分,RSplitStartTime和RSilenceStartTime[2]分别作为第一右声道录音切片文件的第二开始时间和结束时间保存在内存中。同左声道的处理过程,将右声道录音文件切分成5段。只是最后一段录音处理时,当获取到TotalTime时,前一个时间片是RSilenceStartTime[6],RSilenceEndTime[6]与TotalTime是相等的,所以录音切片过程已经结束。
通过上述的处理过程将左右声道录音文件切分成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,保存在内存中。
S204、使用语音识别ASR集群对若干个左声道录音切片文件和若干个右声道录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本。
语音识别ASR集群是一组相互独立的、通过高速网络互联的自动语音识别计算机,它们构成了一个组并以单一系统的模式加以管理,对外提供快速可靠的语音识别服务。通过HTTP方式调用语音识别ASR集群对上述左右声道的录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本,保存在内存中并更新数据库。
S205、设置若干个预设关键字,在若干个左声道切片文本和若干个右声道切片文本中匹配预设关键字,若命中则在命中的左声道切片文本或右声道切片文本中高亮预设关键字。
预先设置若干个预设关键字,用以标记需要后续检查或跟进处理的关键字信息,如分析用户行为方面,就会关注小孩、老人等关键字及其同义词、相近词,防止跳单方面就特别关注手机号、微信号等关键字,供应商考核方面可能“无车”的对话比较多就表示供应商的该产品应该加入车辆配置。根据不同的对话双方可以预设不同的预设关键字,预设关键字保存在数据库中。上述步骤生成左右声道的切片文本之后,在生成的若干个左声道切片文本和若干个右声道切片文本中匹配数据库中的预设关键字,如果命中就在命中的左声道切片文本或右声道切片文本中高亮显示预设关键字,并在数据库里对应的切片文本中保存命中的预设关键字。命中的预设关键字可以用于进行用户行为分析、供应商考核、防止跳单、客服服务质量检查等方面。
S206、根据第一开始时间和第二开始时间对若干个左声道切片文本和若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
按照每个切片文本的第一开始时间或第二开始时间进行升序排列,将左右声道切片文本按照开始时间的先后顺序进行排列,形成语音对话双方的对话文本文件,对话文本文件的名称与录音文件的名称前缀相同。然后调用restful接口将对话文本文件保存在文件服务器中与录音文件相同的文件夹里。
本实施例中数据库用于保存各个任务、录音切片文件、切片文本文件、切片文本命中预设关键字以及录音文件、对话文本文件在文件服务器的保存地址。
本实施例将外呼通话的对话双方分别录制在不同的声道,形成立体声录音文件,再通过声道拆分工具将其拆分成左右两个声道的录音,分别对两个声道的录音进行切片形成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,分别识别各个录音切片文件形成切片文本,最后根据左右声道切片文本的开始时间排序形成对话形式的对话文本文件;录音文件和对话文本文件保存入文件服务器的同一文件夹中,在切片文本中匹配预设关键字,高亮显示命中的关键字。通过上述的处理,将外呼通话的音频文件转化成对话形式的对话文本,并高亮显示命中的关键字,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高,长度大大降低,大大提高了语音的识别率,同时可以根据命中的关键字进行不同的应用分析及处理。
实施例3
本实施例提供一种语音对话的处理系统,如图3所示,该处理系统包括录音模块1、声道拆分模块2、切片模块3、语音识别模块4和拼接模块5。
录音模块1用于将语音对话双方的媒体流录制在不同声道,生成一录音文件。
供应商发起外呼时,录音模块1将语音对话双方的媒体流录制在不同声道,生成一个立体声录音文件。
声道拆分模块2用于将所述录音文件拆分成左声道录音文件和右声道录音文件。
声道拆分模块2使用声道拆分工具将录音文件拆分成左声道录音文件和右声道录音文件,再分别对左右声道的录音文件做进一步处理。
切片模块3用于对左声道录音文件和右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件。
切片模块3以左右声道里每段对话中等待对方说话的自然间隔将左右声道录音文件进行切片处理,具体切片过程见实施例2的说明。切片模块3通过切片处理过程将左右声道录音文件切分成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,保存在内存中。
语音识别模块4用于对若干个左声道录音切片文件和若干个右声道录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本。
拼接模块5用于根据第一开始时间和第二开始时间对若干个左声道切片文本和若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
拼接模块5按照每个切片文本的第一开始时间或第二开始时间进行升序排列,将左右声道切片文本按照开始时间的先后顺序进行排列,形成语音对话双方的对话文本文件,对话文本文件的名称与录音文件的名称前缀相同。
本实施例将外呼通话的对话双方分别录制在不同的声道,形成立体声录音文件,再通过声道拆分工具将其拆分成左右两个声道的录音,分别对两个声道的录音进行切片形成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,分别识别各个录音切片文件形成切片文本,最后根据左右声道切片文本的开始时间排序形成对话形式的对话文本文件。通过上述的处理,将外呼通话的音频文件转化成对话形式的对话文本,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高,长度大大降低,大大提高了语音的识别率。
实施例4
本实施例提供一种语音对话的处理系统,如图4所示,该处理系统包括录音模块1、声道拆分模块2、切片模块3、语音识别模块4、拼接模块5、存储模块6、匹配模块7和文件服务器8。
录音模块1用于将语音对话双方的媒体流录制在不同声道,生成一录音文件。
供应商发起外呼时,录音模块1将语音对话双方的媒体流录制在不同声道,生成一个立体声录音文件,存储模块6调用restful接口将录音文件保存在文件服务器8中,录音文件在文件服务器8中的保存路径保存在数据库中。
声道拆分模块2用于将所述录音文件拆分成左声道录音文件和右声道录音文件。
通过HTTP方式从文件服务器中将录音文件下载到本地,声道拆分模块2使用声道拆分工具将录音文件拆分成左声道录音文件和右声道录音文件,再分别对左右声道的录音文件做进一步处理。
切片模块3用于对左声道录音文件和右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件。
ffmpeg是一套可以用来记录、转换数字音频或视频,并将其转化为流的开源计算机程序,广泛应用于音视频的处理。切片模块3以左右声道里每段对话中等待对方说话的自然间隔将左右声道录音文件进行切片处理,具体切片过程见实施例2的说明。切片模块3通过切片处理过程将左右声道录音文件切分成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,保存在内存中。
语音识别模块4用于对若干个左声道录音切片文件和若干个右声道录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本。
语音识别ASR集群是一组相互独立的、通过高速网络互联的自动语音识别计算机,它们构成了一个组并以单一系统的模式加以管理,对外提供快速可靠的语音识别服务。语音识别模块4通过HTTP方式调用语音识别ASR集群对上述左右声道的录音切片文件分别进行语音识别,生成若干个包含第一开始时间的左声道切片文本和若干个包含第二开始时间的右声道切片文本,保存在内存中并更新数据库。
匹配模块7用于设置若干个预设关键字,匹配模块7还用于在生成若干个左声道切片文本和若干个右声道切片文本之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文中中高亮所述预设关键字。
拼接模块5用于根据第一开始时间和第二开始时间对若干个左声道切片文本和若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
拼接模块5按照每个切片文本的第一开始时间或第二开始时间进行升序排列,将左右声道切片文本按照开始时间的先后顺序进行排列,形成语音对话双方的对话文本文件,对话文本文件的名称与录音文件的名称前缀相同。然后拼接模块5调用restful接口将对话文本文件保存在文件服务器8中与录音文件相同的文件夹里。
本实施例将外呼通话的对话双方分别录制在不同的声道,形成立体声录音文件,再通过声道拆分工具将其拆分成左右两个声道的录音,分别对两个声道的录音进行切片形成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件,分别识别各个录音切片文件形成切片文本,最后根据左右声道切片文本的开始时间排序形成对话形式的对话文本文件;录音文件和对话文本文件保存入文件服务器的同一文件夹中,在切片文本中匹配预设关键字,高亮显示命中的关键字。通过上述的处理,将外呼通话的音频文件转化成对话形式的对话文本,并高亮显示命中的关键字,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高,长度大大降低,大大提高了语音的识别率,同时可以根据命中的关键字进行不同的应用分析及处理。
实施例5
图5为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1或2中的语音对话的处理方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或2中的语音对话的处理方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或2中的语音对话的处理方法中的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1或2中的语音对话的处理方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种语音对话的处理方法,其特征在于,所述语音对话的处理方法包括如下步骤:
将语音对话双方的媒体流录制在不同声道,生成一录音文件;
将所述录音文件拆分成左声道录音文件和右声道录音文件;
利用等待对方说话的自然间隔,对所述左声道录音文件和所述右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件;
对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件分别进行语音识别,生成若干个包含所述第一开始时间的左声道切片文本和若干个包含所述第二开始时间的右声道切片文本;
根据所述第一开始时间和所述第二开始时间对所述若干个左声道切片文本和所述若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
2.如权利要求1所述的语音对话的处理方法,其特征在于,所述生成一录音文件的步骤之后还包括:将所述录音文件保存至一文件服务器;
所述生成语音对话的对话文本文件的步骤之后还包括:将所述对话文本文件保存至所述文件服务器;所述对话文本文件与所述录音文件保存在同一文件夹中。
3.如权利要求1所述的语音对话的处理方法,其特征在于,使用ffmpeg对所述左声道录音文件和所述右声道录音文件分别进行切片处理;
使用语音识别ASR集群对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件进行语音识别。
4.如权利要求1所述的语音对话的处理方法,其特征在于,设置若干个预设关键字,在所述生成若干个左声道切片文本和若干个右声道切片文本的步骤之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文本中高亮所述预设关键字。
5.一种语音对话的处理系统,其特征在于,所述语音对话的处理系统包括录音模块、声道拆分模块、切片模块、语音识别模块和拼接模块;
所述录音模块用于将语音对话双方的媒体流录制在不同声道,生成一录音文件;
所述声道拆分模块用于将所述录音文件拆分成左声道录音文件和右声道录音文件;
所述切片模块用于利用等待对方说话的自然间隔,对所述左声道录音文件和所述右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件;
所述语音识别模块用于对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件分别进行语音识别,生成若干个包含所述第一开始时间的左声道切片文本和若干个包含所述第二开始时间的右声道切片文本;
所述拼接模块用于根据所述第一开始时间和所述第二开始时间对所述若干个左声道切片文本和所述若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
6.如权利要求5所述的语音对话的处理系统,其特征在于,所述语音对话的对话系统还包括一存储模块和一文件服务器,所述存储模块用于在所述录音模块生成一录音文件之后,将所述录音文件保存至所述文件服务器;
所述存储模块用于在所述拼接模块生成语音对话的对话文本文件之后,将所述对话文本文件保存至所述文件服务器;所述对话文本文件与所述录音文件保存在同一文件夹中。
7.如权利要求5所述的语音对话的处理系统,其特征在于,所述切片模块使用ffmpeg对所述左声道录音文件和所述右声道录音文件分别进行切片处理;
所述语音识别模块使用语音识别ASR集群对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件进行语音识别。
8.如权利要求5所述的语音对话的处理系统,其特征在于,所述语音对话的对话系统还包括一匹配模块,所述匹配模块用于设置若干个预设关键字,所述匹配模块还用于在所述生成若干个左声道切片文本和若干个右声道切片文本之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文中中高亮所述预设关键字。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-4中任一项所述的语音对话的处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的语音对话的处理方法的步骤。
CN201910910610.8A 2019-09-25 2019-09-25 语音对话的处理方法、系统、设备和存储介质 Active CN110650250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910910610.8A CN110650250B (zh) 2019-09-25 2019-09-25 语音对话的处理方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910910610.8A CN110650250B (zh) 2019-09-25 2019-09-25 语音对话的处理方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110650250A CN110650250A (zh) 2020-01-03
CN110650250B true CN110650250B (zh) 2022-03-08

Family

ID=68992711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910910610.8A Active CN110650250B (zh) 2019-09-25 2019-09-25 语音对话的处理方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110650250B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312219B (zh) * 2020-01-16 2023-11-28 上海携程国际旅行社有限公司 电话录音标注方法、系统、存储介质和电子设备
CN114079695A (zh) * 2020-08-18 2022-02-22 北京有限元科技有限公司 记录语音通话内容的方法、装置以及存储介质
CN113035188A (zh) * 2021-02-25 2021-06-25 平安普惠企业管理有限公司 通话文本生成方法、装置、设备及存储介质
CN113037610B (zh) * 2021-02-25 2022-08-19 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10171908B1 (en) * 2015-07-27 2019-01-01 Evernote Corporation Recording meeting audio via multiple individual smartphones
CN105681532B (zh) * 2016-03-07 2019-03-12 携程旅游信息技术(上海)有限公司 基于Softpbx的呼叫中心的录音系统及方法
CN109213977A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 庭审笔录的生成系统
US10719222B2 (en) * 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
CN107888771B (zh) * 2017-11-08 2021-06-15 陕西中联电科电子有限公司 一种基于安卓平台的多语音融合通信方法
CN108922538B (zh) * 2018-05-29 2023-04-07 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN109842712B (zh) * 2019-03-12 2021-07-20 贵州财富之舟科技有限公司 通话记录生成的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110650250A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN110650250B (zh) 语音对话的处理方法、系统、设备和存储介质
US11289077B2 (en) Systems and methods for speech analytics and phrase spotting using phoneme sequences
US10204158B2 (en) Audio summarization of meetings driven by user participation
US8326643B1 (en) Systems and methods for automated phone conversation analysis
US8798255B2 (en) Methods and apparatus for deep interaction analysis
CN109565621B (zh) 用于实现视频管理的方法、系统和计算机存储介质
US9898536B2 (en) System and method to perform textual queries on voice communications
US20140278405A1 (en) Automatic note taking within a virtual meeting
US20050143994A1 (en) Recognizing speech, and processing data
US10846330B2 (en) System and methods for vocal commenting on selected web pages
US20160189713A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
US9075874B2 (en) Making user generated audio content on the spoken web navigable by community tagging
US20150066935A1 (en) Crowdsourcing and consolidating user notes taken in a virtual meeting
US20160189107A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
US20160189103A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
US11605385B2 (en) Project issue tracking via automated voice recognition
US9922644B2 (en) Analysis of professional-client interactions
US20190155843A1 (en) A secure searchable media object
US20230188643A1 (en) Ai-based real-time natural language processing system and method thereof
CN113744712A (zh) 智能外呼语音拼接方法、装置、设备、介质和程序产品
Walter-Tscharf Multi-tenant Cloud SaaS Application for a meeting to task transition via deep learning models
JP2012003703A (ja) 談話内訳算出システムおよび談話内訳算出プログラム
Zergat et al. The voice as a material clue: a new forensic Algerian Corpus
US10789425B2 (en) Generating a response to a natural language command based on a concatenated graph
US20230297605A1 (en) Generating a conversation summary using a label space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant