CN110021302A - 一种智能办公会议系统及会议记录方法 - Google Patents
一种智能办公会议系统及会议记录方法 Download PDFInfo
- Publication number
- CN110021302A CN110021302A CN201910166335.3A CN201910166335A CN110021302A CN 110021302 A CN110021302 A CN 110021302A CN 201910166335 A CN201910166335 A CN 201910166335A CN 110021302 A CN110021302 A CN 110021302A
- Authority
- CN
- China
- Prior art keywords
- information
- speaker
- audio
- segmentation
- frequency information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Abstract
本发明公开了一种智能办公会议系统及会议记录方法,其通过获取说话人的音频信息;根据所述音频信息进行声纹识别,得到所述说话人的身份信息;根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;根据所述说话人的身份信息,对所述文本信息或者所述音频信息进行说话人分割,得到每个说话人对应的分割文本信息;根据所述说话人的身份信息和所述分割文本信息,输出会议记录,从而实现智能化办公,无需后期整理,提高工作效率。
Description
技术领域
本发明涉及通信技术领域,特别是一种智能办公会议系统及对应的方法。
背景技术
会议记录是指在会议过程中,由记录人员把会议的组织情况和具体内容记录下来,就形成了会议记录。"记"有详记与略记之别。略记是记会议大要,会议上的重要或主要言论。传统的人工记录方式通常只能实现略记,若要实现快速有效的详记,则需要利用摄像机、麦克风以及录音笔等设备对会议过程中各人员进行录音或录像;会议结束后,还需要通过查看、回放录音及录像做成会议记录,或者通过语音识别的方式将录下来的内容还原成文字记录。
对于现有技术的会议记录,一方面,人工记录方式不仅效率低而且容易出错;另一方面,录音录像的记录方式虽然能够记录得更详细,但其后期整理过程也是相当的繁杂和费时,效率低。
在当前社会中,几乎每时每刻都有人在进行各种大大小小的会议,如何实现快速的、准确的、详细的记录每个与会人员的发言内容、发言时间,以便最大限度地再现会议情境,是一个亟待解决的问题。
发明内容
本发明为解决上述问题,提供了一种智能办公会议系统及会议记录方法,其通过对会议的音频信息进行说话人的身份识别和文本化处理,自动输出每个说话人的发言内容,无需后期整理,从而实现智能化办公,提高工作效率。
为实现上述目的,本发明采用的技术方案为:
本发明的目的之一,在于提供一种智能办公会议系统,其包括:
麦克风阵列,用于获取说话人的音频信息;
声纹识别模块,用于根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
语音识别模块,用于根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
说话人分割模块,根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;或者,根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息,再通过所述语音识别模块将所述分割音频信息转换为分割文本信息;
记录输出模块,根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
优选的,所述的麦克风阵列包括两个以上不同方位的麦克风阵元,并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位,得到说话人的声源位置信息;所述说话人分割模块根据所述说话人的身份信息和声源位置信息,对所述文本信息或所述音频信息进行说话人分割。
优选的,所述声源定位进一步包括:
计算所述音频信息中的声源到达所述麦克风阵列中的各麦克风阵元之间的相对时间差;
根据所述相对时间差计算出声源到达各麦克风阵元的距离差;
结合阵列拓扑结构用几何算法或搜索确定声源位置信息。
优选的,根据所述说话人的身份信息和声源位置信息,对所述文本信息或所述音频信息进行说话人分割,进一步包括:
根据所述声源位置信息对所述文本信息和/或所述音频信息进行预分割,得到分割后的信息片段;
判断相邻两个信息片段的声源位置信息是否发生改变:
若所述声源位置信息不变,则判定为所述相邻两个信息片段属于相同说话人,并将所述相邻两个信息片段进行合并,对合并后的信息片段进一步通过所述声纹识别模块进行判断所述说话人的身份信息;
若所述声源位置信息发生改变,则判定为所述相邻两个信息片段属于不同说话人,则对两个信息片段分别通过所述声纹识别模块进行判断各个说话人的身份信息。
优选的,所述的声纹识别模块,是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中,对当前说话人的音频信息进行声纹识别时,将识别到的声纹信息与声纹库中的声纹信息进行匹配,将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。
优选的,还包括存储模块,用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中。
优选的,还包括时间戳控制器,用于对所述音频信息和所述文本信息标记时间戳。
优选的,还包括降噪处理模块,所述麦克风阵列获取说话人的音频信息后,先通过所述降噪处理模块对所述音频信息进行降噪处理,再对降噪后的音频信息进行声纹识别和语音识别。
本发明的目的之二,在于提供一种智能办公会议系统的会议记录方法,其包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
本发明的目的之三,在于提供一种智能办公会议系统的会议记录方法,其包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息;
将所述分割音频信息转换为分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
本发明的有益效果是:
(1)本发明通过对会议的音频信息进行说话人的身份识别和文本化处理,自动输出每个说话人的发言内容,无需后期整理,从而实现智能化办公,提高整理会议文档的效率,提高工作效率,减轻会议记录人员的工作压力,并且准确率高。
(2)本发明结合声源定位技术和声纹识别技术进行说话人分割,不仅算法效率更高,而且分割结果更准确。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种智能办公会议系统的处理过程流程简图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
第一实施例(音频分割法):
本发明提供了一种智能办公会议系统,其包括:
麦克风阵列,用于获取说话人的音频信息;
声纹识别模块,用于根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
语音识别模块,用于根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
说话人分割模块,用于根据所述说话人的身份信息,对所述音频信息或所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;
记录输出模块,根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
本实施例中,所述说话人分割模块中,是根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息,再通过所述语音识别模块将所述分割音频信息转换为分割文本信息。
本实施例中,所述的麦克风阵列包括两个以上不同方位的麦克风阵元,本实施例中,在会议室的三个左上,左下,右上三个方位放置录音麦克风,并在软件中标记三个麦克风的相对位置,可从会议室的各个方向的说话人声音进行录音,记录每个说话人的说话内容。
如图1所示,本实施例中还进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位,得到说话人的声源位置信息;所述说话人分割模块根据所述说话人的身份信息和声源位置信息,对所述所述音频信息进行说话人分割。
其中,所述声源定位进一步包括:
计算所述音频信息中的声源到达所述麦克风阵列中的各麦克风阵元之间的相对时间差;
根据所述相对时间差计算出声源到达各麦克风阵元的距离差;
结合阵列拓扑结构用几何算法或搜索确定声源位置信息。
其中,根据所述说话人的身份信息和声源位置信息,对所述音频信息进行说话人分割,进一步包括:
根据所述声源位置信息对所述音频信息进行预分割,得到分割后的信息片段(音频片段);
判断相邻两个信息片段的声源位置信息是否发生改变:
若所述声源位置信息不变,则判定为所述相邻两个信息片段属于相同说话人,并将所述相邻两个信息片段进行合并,对合并后的信息片段进一步通过所述声纹识别模块进行判断所述说话人的身份信息;
若所述声源位置信息发生改变,则判定为所述相邻两个信息片段属于不同说话人,则对两个信息片段分别通过所述声纹识别模块进行判断各个说话人的身份信息。
在会议中,麦克风每次收到声音时,由于同一个位置发出的声波,在空气中传播到各个方位的麦克风需要的时间不同,收音时间会有延迟,由此可计算出发声的方位。
持续同一个方位发出的声音即是同一个说话人的一段语音,只需执行一次声纹识别。每当有一段语音的发声方位与上一段语音的方位发生改变时,即可作为身份改变的时间点。当一段录音(即两次身份改变时间点之间的语音)完成后,将此段内容进行声纹识别,确认所属的具体说话人。
说话人确认完毕后,对所述音频信息进行语音内容的识别,转换成文字信息之后,依据识别出的身份信息,将该文字信息及其对应的身份信息写入数据库,完成此段会议内容的处理。
本实施例的说话人分割方法的主要特点是将发声位置的变化结合声纹识别出说话人身份与时间点,从而达到说话人记录分割的目的,适用于室内场景。
本实施例中,所述的声纹识别模块,是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中,对当前说话人的音频信息进行声纹识别时,将识别到的声纹信息与声纹库中的声纹信息进行匹配,将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。
另外,本实施例中,还包括存储模块、时间戳控制器、降噪处理模块等。其中,所述存储模块用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中;所述时间戳控制器用于对所述音频信息和所述文本信息标记时间戳;所述麦克风阵列获取说话人的音频信息后,先通过所述降噪处理模块对所述音频信息进行降噪处理,再对降噪后的音频信息进行声纹识别和语音识别,避免噪音对会议录音产生干扰,进而导致音质不清楚等。
第二实施例(文本分割+音频分割):
本实施例与第一实施例的主要区别在于:本实施例的所述说话人分割模块中,是根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息。
本实施例中还进一步结合声源位置信息进行说话人分割,具体分割过程如下:所述的麦克风阵列包括两个以上不同方位的麦克风阵元,并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位,得到说话人的声源位置信息;所述说话人分割模块根据所述说话人的身份信息和声源位置信息,对所述文本信息进行说话人分割。
其中,根据所述说话人的身份信息和声源位置信息,对所述文本信息进行说话人分割,进一步包括:
根据所述声源位置信息对所述文本信息和所述音频信息进行预分割,得到分割后的信息片段(文本片段和音频片段);
判断相邻两个信息片段的声源位置信息是否发生改变:
若所述声源位置信息不变,则判定为所述相邻两个信息片段属于相同说话人,并将所述相邻两个信息片段(文本片段和音频片段)进行合并,对合并后的信息片段(音频片段)进一步通过所述声纹识别模块进行判断所述说话人的身份信息;
若所述声源位置信息发生改变,则判定为所述相邻两个信息片段属于不同说话人,则对两个信息片段(音频片段)分别通过所述声纹识别模块进行判断各个说话人的身份信息。
本实施例的分割方法采用音频分割和文本分割的同步分割的方法。
本实施例的其余模块及处理过程与第一实施例基本相似,在此不进行赘述。
第三实施例(基于音频分割的会议记录方法)
与第一实施例的智能办公会议系统相对应的,本发明还提供一种智能办公会议系统的会议记录方法,其包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息;
将所述分割音频信息转换为分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
第四实施例(基于文本分割+音频分割的会议记录方法)
与第二实施例的智能办公会议系统相对应的,本发明还提供一种智能办公会议系统的会议记录方法,其包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于方法实施例而言,由于其与系统实施例基本相似,所以描述的比较简单,相关之处参见系统实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种智能办公会议系统,其特征在于,包括:
麦克风阵列,用于获取说话人的音频信息;
声纹识别模块,用于根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
语音识别模块,用于根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
说话人分割模块,根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;或者,根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息,再通过所述语音识别模块将所述分割音频信息转换为分割文本信息;
记录输出模块,根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
2.根据权利要求1所述的一种智能办公会议系统,其特征在于:所述的麦克风阵列包括两个以上不同方位的麦克风阵元,并进一步根据不同方位的麦克风阵元所捕捉的音频信息对所述说话人进行声源定位,得到说话人的声源位置信息;所述说话人分割模块根据所述说话人的身份信息和声源位置信息,对所述文本信息或所述音频信息进行说话人分割。
3.根据权利要求2所述的一种智能办公会议系统,其特征在于:所述声源定位进一步包括:
计算所述音频信息中的声源到达所述麦克风阵列中的各麦克风阵元之间的相对时间差;
根据所述相对时间差计算出声源到达各麦克风阵元的距离差;
结合阵列拓扑结构用几何算法或搜索确定声源位置信息。
4.根据权利要求2所述的一种智能办公会议系统,其特征在于:根据所述说话人的身份信息和声源位置信息,对所述文本信息或所述音频信息进行说话人分割,进一步包括:
根据所述声源位置信息对所述文本信息和/或所述音频信息进行预分割,得到分割后的信息片段;
判断相邻两个信息片段的声源位置信息是否发生改变:
若所述声源位置信息不变,则判定为所述相邻两个信息片段属于相同说话人,并将所述相邻两个信息片段进行合并,对合并后的信息片段进一步通过所述声纹识别模块进行判断所述说话人的身份信息;
若所述声源位置信息发生改变,则判定为所述相邻两个信息片段属于不同说话人,则对两个信息片段分别通过所述声纹识别模块进行判断各个说话人的身份信息。
5.根据权利要求1所述的一种智能办公会议系统,其特征在于:所述的声纹识别模块,是通过预先获取每个说话人的声纹信息和对应的身份信息并存储在声纹库中,对当前说话人的音频信息进行声纹识别时,将识别到的声纹信息与声纹库中的声纹信息进行匹配,将匹配得到的声纹信息所对应的身份信息作为当前说话人的身份信息。
6.根据权利要求1至5任一项所述的一种智能办公会议系统,其特征在于:还包括存储模块,用于将所述音频信息及其对应的身份信息、文本信息存储于会议记录数据库中。
7.根据权利要求1至5任一项所述的一种智能办公会议系统,其特征在于:还包括时间戳控制器,用于对所述音频信息和所述文本信息标记时间戳。
8.根据权利要求1至5任一项所述的一种智能办公会议系统,其特征在于:还包括降噪处理模块,所述麦克风阵列获取说话人的音频信息后,先通过所述降噪处理模块对所述音频信息进行降噪处理,再对降噪后的音频信息进行声纹识别和语音识别。
9.一种智能办公会议系统的会议记录方法,其特征在于,包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述音频信息进行语音识别,将所述音频信息转换为文本信息;
根据所述说话人的身份信息,对所述文本信息进行说话人分割,得到每个说话人对应的分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
10.一种智能办公会议系统的会议记录方法,其特征在于,包括以下步骤:
获取说话人的音频信息;
根据所述音频信息进行声纹识别,得到所述说话人的身份信息;
根据所述说话人的身份信息,对所述音频信息进行说话人分割,得到每个说话人对应的分割音频信息;
将所述分割音频信息转换为分割文本信息;
根据所述说话人的身份信息和所述分割文本信息,输出会议记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910166335.3A CN110021302A (zh) | 2019-03-06 | 2019-03-06 | 一种智能办公会议系统及会议记录方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910166335.3A CN110021302A (zh) | 2019-03-06 | 2019-03-06 | 一种智能办公会议系统及会议记录方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110021302A true CN110021302A (zh) | 2019-07-16 |
Family
ID=67189389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910166335.3A Pending CN110021302A (zh) | 2019-03-06 | 2019-03-06 | 一种智能办公会议系统及会议记录方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021302A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517295A (zh) * | 2019-08-30 | 2019-11-29 | 上海依图信息技术有限公司 | 一种结合语音识别的实时人脸轨迹跟踪方法及装置 |
CN110767226A (zh) * | 2019-10-30 | 2020-02-07 | 山西见声科技有限公司 | 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端 |
CN111081245A (zh) * | 2019-12-24 | 2020-04-28 | 杭州纪元通信设备有限公司 | 一种基于语音识别的呼叫中心的菜单系统 |
CN112017632A (zh) * | 2020-09-02 | 2020-12-01 | 浪潮云信息技术股份公司 | 一种自动化会议记录生成方法 |
CN112185413A (zh) * | 2020-09-30 | 2021-01-05 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN112581941A (zh) * | 2020-11-17 | 2021-03-30 | 北京百度网讯科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN112833901A (zh) * | 2020-12-31 | 2021-05-25 | 金茂智慧科技(广州)有限公司 | 一种车位占用后的车辆导航方法、装置、介质及终端设备 |
CN113113017A (zh) * | 2021-04-08 | 2021-07-13 | 百度在线网络技术(北京)有限公司 | 音频的处理方法和装置 |
CN113129898A (zh) * | 2021-04-08 | 2021-07-16 | 上海交通大学 | 一种机器辅助的会议记录系统及方法 |
CN113225441A (zh) * | 2021-07-09 | 2021-08-06 | 北京中电慧声科技有限公司 | 一种会议电话系统 |
CN113470624A (zh) * | 2021-09-03 | 2021-10-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 声音检测方法 |
CN113660378A (zh) * | 2020-05-12 | 2021-11-16 | 宁波维度数字科技有限公司 | 智能化语音自动会议记录生成系统 |
CN113873366A (zh) * | 2021-10-12 | 2021-12-31 | 宁波维度数字科技有限公司 | 一种多功能会议无线音箱 |
CN114125494A (zh) * | 2021-09-29 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 内容审核辅助处理方法、装置及电子设备 |
CN112185413B (zh) * | 2020-09-30 | 2024-04-12 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN104427292A (zh) * | 2013-08-22 | 2015-03-18 | 中兴通讯股份有限公司 | 会议纪要的提取方法及装置 |
CN105810206A (zh) * | 2014-12-30 | 2016-07-27 | 富泰华工业(深圳)有限公司 | 会议记录装置及其自动生成会议记录的方法 |
CN105810208A (zh) * | 2014-12-30 | 2016-07-27 | 富泰华工业(深圳)有限公司 | 会议记录装置及其自动生成会议记录的方法 |
WO2018053077A1 (en) * | 2016-09-14 | 2018-03-22 | Nuance Communications, Inc. | Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr) |
CN108520756A (zh) * | 2018-03-20 | 2018-09-11 | 北京时代拓灵科技有限公司 | 一种说话人语音分离的方法及装置 |
-
2019
- 2019-03-06 CN CN201910166335.3A patent/CN110021302A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
CN104427292A (zh) * | 2013-08-22 | 2015-03-18 | 中兴通讯股份有限公司 | 会议纪要的提取方法及装置 |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN105810206A (zh) * | 2014-12-30 | 2016-07-27 | 富泰华工业(深圳)有限公司 | 会议记录装置及其自动生成会议记录的方法 |
CN105810208A (zh) * | 2014-12-30 | 2016-07-27 | 富泰华工业(深圳)有限公司 | 会议记录装置及其自动生成会议记录的方法 |
WO2018053077A1 (en) * | 2016-09-14 | 2018-03-22 | Nuance Communications, Inc. | Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr) |
CN108520756A (zh) * | 2018-03-20 | 2018-09-11 | 北京时代拓灵科技有限公司 | 一种说话人语音分离的方法及装置 |
Non-Patent Citations (1)
Title |
---|
石俊峰: ""基于麦克风阵列声源定向及其应用的研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517295A (zh) * | 2019-08-30 | 2019-11-29 | 上海依图信息技术有限公司 | 一种结合语音识别的实时人脸轨迹跟踪方法及装置 |
CN110767226A (zh) * | 2019-10-30 | 2020-02-07 | 山西见声科技有限公司 | 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端 |
CN110767226B (zh) * | 2019-10-30 | 2022-08-16 | 山西见声科技有限公司 | 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端 |
CN111081245A (zh) * | 2019-12-24 | 2020-04-28 | 杭州纪元通信设备有限公司 | 一种基于语音识别的呼叫中心的菜单系统 |
CN113660378A (zh) * | 2020-05-12 | 2021-11-16 | 宁波维度数字科技有限公司 | 智能化语音自动会议记录生成系统 |
CN112017632A (zh) * | 2020-09-02 | 2020-12-01 | 浪潮云信息技术股份公司 | 一种自动化会议记录生成方法 |
CN112185413A (zh) * | 2020-09-30 | 2021-01-05 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN112185413B (zh) * | 2020-09-30 | 2024-04-12 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN112581941A (zh) * | 2020-11-17 | 2021-03-30 | 北京百度网讯科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN112833901A (zh) * | 2020-12-31 | 2021-05-25 | 金茂智慧科技(广州)有限公司 | 一种车位占用后的车辆导航方法、装置、介质及终端设备 |
CN113113017A (zh) * | 2021-04-08 | 2021-07-13 | 百度在线网络技术(北京)有限公司 | 音频的处理方法和装置 |
CN113129898A (zh) * | 2021-04-08 | 2021-07-16 | 上海交通大学 | 一种机器辅助的会议记录系统及方法 |
CN113113017B (zh) * | 2021-04-08 | 2024-04-09 | 百度在线网络技术(北京)有限公司 | 音频的处理方法和装置 |
CN113225441A (zh) * | 2021-07-09 | 2021-08-06 | 北京中电慧声科技有限公司 | 一种会议电话系统 |
CN113225441B (zh) * | 2021-07-09 | 2021-10-08 | 北京中电慧声科技有限公司 | 一种会议电话系统 |
CN113470624A (zh) * | 2021-09-03 | 2021-10-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 声音检测方法 |
CN114125494A (zh) * | 2021-09-29 | 2022-03-01 | 阿里巴巴(中国)有限公司 | 内容审核辅助处理方法、装置及电子设备 |
CN113873366A (zh) * | 2021-10-12 | 2021-12-31 | 宁波维度数字科技有限公司 | 一种多功能会议无线音箱 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110021302A (zh) | 一种智能办公会议系统及会议记录方法 | |
Fan et al. | Cn-celeb: a challenging chinese speaker recognition dataset | |
EP3791390B1 (en) | Voice identification enrollment | |
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
Moattar et al. | A review on speaker diarization systems and approaches | |
Pardo et al. | Speaker diarization for multiple-distant-microphone meetings using several sources of information | |
Yella et al. | Overlapping speech detection using long-term conversational features for speaker diarization in meeting room conversations | |
WO2014082445A1 (zh) | 一种语音会议纪要的分类方法、设备和系统 | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
CN109905764A (zh) | 一种视频中目标人物语音截取方法及装置 | |
CN107171816A (zh) | 电话会议中的数据处理方法及装置 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
Martínez-González et al. | Spatial features selection for unsupervised speaker segmentation and clustering | |
CN113920560A (zh) | 多模态说话人身份识别方法、装置和设备 | |
Barra-Chicote et al. | Speaker diarization based on intensity channel contribution | |
CN114792522A (zh) | 音频信号处理、会议记录与呈现方法、设备、系统及介质 | |
KR101592518B1 (ko) | 음성 신호의 동기화를 기반으로 한 온라인 회의 방법, 온라인 회의를 위한 음성 신호 동기화 처리 장치 및 이를 수행하기 위한 기록 매체 | |
JP2008109686A (ja) | 音声会議端末装置およびプログラム | |
CN108053828A (zh) | 确定控制指令的方法、装置和家用电器 | |
US20130297311A1 (en) | Information processing apparatus, information processing method and information processing program | |
Basu et al. | An overview of speaker diarization: Approaches, resources and challenges | |
Vajaria et al. | Exploring co-occurence between speech and body movement for audio-guided video localization | |
Fredouille et al. | The NIST 2004 spring rich transcription evaluation: two-axis merging strategy in the context of multiple distance microphone based meeting speaker segmentation | |
Zheng et al. | Interpretable binaural ratio for visually guided binaural audio generation | |
Milner et al. | DNN approach to speaker diarisation using speaker channels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |
|
RJ01 | Rejection of invention patent application after publication |