CN107910006A - 语音识别方法、装置和多信源语音区分识别系统 - Google Patents
语音识别方法、装置和多信源语音区分识别系统 Download PDFInfo
- Publication number
- CN107910006A CN107910006A CN201711274450.XA CN201711274450A CN107910006A CN 107910006 A CN107910006 A CN 107910006A CN 201711274450 A CN201711274450 A CN 201711274450A CN 107910006 A CN107910006 A CN 107910006A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- treatment unit
- source
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004069 differentiation Effects 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Abstract
本发明公开了一种语音识别方法、装置和多信源语音区分识别系统。该语音识别方法包括:从至少两路音频处理单元接收信号,所述信号包括语音信号以及标识语音信源的硬件标识;将所述语音信号识别为文本信息;根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。本发明能够在无人干预或操作下,解决同一台计算机设备上多人同步或不同步谈话时,自动将语音转文字,正确区分语音信源,自动对应输出信源的文本内容,最大限度减少人工操作,降低工作人员的劳动强度,保障了语音内容的真实客观性,提高整体工作效率。
Description
技术领域
本发明涉及语音信源识别领域,特别涉及一种语音识别方法、装置和多信源语音区分识别系统。
背景技术
近年来,随着语音设备和智能语音转文字技术的广泛推行,推动了现场办案(现场办公,会议)对话等工作智能化。然而,基于目前的语音设备和软件并不能实现区分多人同时语音转文字,依靠的是传统的人为输入方式,实施过程繁杂,效率低下。
在利用语音设备或软件进行文本记录时,信源区分是人为切换,导致记录过程中出现误录,特别是在长时间工作的情况下工作人员处于疲劳状况,更不能准确的区分信源讲话内容。而且,工作人员可能加入自己的见解和语句上修饰,由此导致不能准确地反映当时的对话场景,影响文本记录内容的真实性。
在使用现有智能语音转文字设备或软件时,大多是基于个人或人机对话的智能语音转文字技术实现,因为多信源同步或异步进行语音对话,声音重叠使软件无法区分信源各自语音内容。导致要由人工确认信息,未能自动记录完整的文字记录。
发明内容
为了解决上述的至少一个问题,本发明提供了一种全新的多语音自动识别信源技术方法。
根据本发明的第一实施方式,提供了一种语音识别方法,包括:
从至少两路音频处理单元接收信号,所述信号包括语音信号以及标识语音信源的硬件标识;
将所述语音信号识别为文本信息;
根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。
在上述的语音识别方法中,预先设置所述语音信源的优先级,在同时接收到多路所述音频处理单元的信号时,根据所述优先级进行语音识别。
在上述的语音识别方法中,所述音频处理单元包括设置在计算机设备内的内置音频处理单元和/或设置在所述计算机设备外的外置音频处理单元。
在上述的语音识别方法中,各个所述音频处理单元接收来自对应的麦克风的音频信号。
在上述的语音识别方法中,所述硬件标识为所述音频处理单元、所述麦克风、所述音频处理单元与所述计算机设备的接口、或所述麦克风与所述音频处理单元的接口的硬件标识。
根据本发明的第二实施方式,提供了一种语音识别装置,包括:
信号接收模块,用于从至少两路音频处理单元接收语音信号以及标识语音信源的硬件标识;
语音识别模块,用于将所述语音信号识别为文本信息;
记录模块,用于根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。
在上述的语音识别装置中,还包括:
优先级设置模块,用于预先设置所述语音信源的优先级;
在同时接收到多路所述音频处理单元的信号时,所述语音识别模块根据所述优先级进行语音识别。
根据本发明的第三实施方式,提供了一种计算机可读存储介质,其存储有计算机程序,在所述计算机程序被执行时实现上述的语音识别方法。
根据本发明的第四实施方式,提供了一种多信源语音区分识别系统,包括:
至少两路音频处理单元,用于与麦克风连接;
计算机设备,包括用于语音识别的语音识别模块,所述语音识别模块根据从所述音频处理单元获取的硬件标识区分语音信源,并将经语音识别后的文本内容与相应的语音信源关联记录。
在上述的多信源语音区分识别系统中,所述语音识别模块包括优先级设置模块,用于设置语音的信息来源的优先级。
在上述的多信源语音区分识别系统中,所述音频处理单元是具备处理音频数据能力并且具有通讯能力的模块。
在上述的多信源语音区分识别系统中,所述音频处理单元包括USB声卡、PCI-E声卡和/或单片机声卡。
在上述的多信源语音区分识别系统中,还包括USB分线器,用于将所述USB声卡连接至所述计算机设备。
在上述的多信源语音区分识别系统中,所述至少两路音频处理单元包括内置音频处理单元和/或外置音频处理单元,并且所述内置音频处理单元设置在所述计算机设备内。
在上述的多信源语音区分识别系统中,所述计算机设备为便携式计算机、台式计算机、移动终端或工控电脑。
在上述的多信源语音区分识别系统中,还包括多个麦克风,所述多个麦克风包括有线麦克风和/或无线麦克风。
在上述的多信源语音区分识别系统中,所述音频处理单元包括麦克风无线接收器和/或有线麦克风接口。
在上述的多信源语音区分识别系统中,所述无线麦克风包括2.4G无线发射模块;
所述麦克风无线接收器包括2.4G无线接收模块。
本发明提供的多信源语音区分识别方案能够实时自动的区分多信源语音对话并将语音转化成对应信源所述的文字信息,记录时可以不用人工介入,不仅减少了劳动力投入,而且极大地提高了录入的工作效率,解决了工作人员长时间超负荷工作时导致笔录出现错误的情况。
而且,本发明的多信源语音区分识别方案利用了多路音频处理单元,语音识别模块根据从各个音频处理单元获取的硬件标识区分语音信源,并将经语音识别后的文本内容与相应的语音信源关联地记录,因此,能够智能定位发言信源,精确地输入发言者对话内容。
由于本发明提供的多信源语音区分识别方案的识别率高,能够区分不同的语音信源,因此,能恢复完整对话内容,保证语音记录完整性,无缝对接,当然,也就减少人为的文字修饰,保障了发言的真实性。
此外,在计算机设备没有音频处理单元或者只有一个音频处理单元时,利用了外置音频处理单元,而且外置音频处理单元与计算机设备通过USB接口或通讯接口进行连接,因此,可以不对现有的计算机设备做硬件上的改造也能够实现多信源语音区分。由于可以采用USB接口与外置音频处理单元连接,大大地拓展了本发明的多信源语音区分识别方案可应用的地域和可应用的设备,即使在偏远地区或者在仅具备有限硬件条件的地方也能方便地应用本发明的方案。
本发明的多信源语音区分识别方案能使计算机操作更智能化、简单化、人性化等优点,大大提高了语音信源识别的自动化水平,其可广泛用于司法、执法、政务、商务、医疗会诊、会议记录、教学等工作,简化和方便了司法、执法等工作的后续的事务性工作,有效地提高了工作效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。
图1为本发明的语音识别方法的一个实施例的示意性流程图。
图2为本发明的语音识别装置的一个实施例的示意性结构图。
图3为本发明的多信源语音区分识别系统的一个实施例的示意性结构图。
主要元件符号说明:
200-语音识别装置;210-信号接收模块;220-语音识别模块;230-记录模块;300-计算机设备;310-语音识别模块;320-内置音频处理单元;330-外置音频处理单元;340-麦克风。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图结合实施例,对本发明进一步详细说明。
在下文中,将更全面地描述本发明的各种实施例。本发明可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本发明的各种实施例限于在此公开的特定实施例的意图,而是应将本发明理解为涵盖落入本发明的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在下文中,可在本发明的各种实施例中使用的术语“包括”或“可包括”指示所公开的功能、操作或元件的存在,并且不限制一个或更多个功能、操作或元件的增加。此外,如在本发明的各种实施例中所使用,术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
在本发明的各种实施例中,表述“A或/和B”包括同时列出的文字的任何组合或所有组合,例如,可包括A、B、以及A和B二者。
在本发明的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件,不过可不限制相应组成元件。例如,以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如,第一用户装置和第二用户装置指示不同用户装置,尽管二者都是用户装置。例如,在不脱离本发明的各种实施例的范围的情况下,第一元件可被称为第二元件,同样地,第二元件也可被称为第一元件。
应注意到:在本发明中,除非另有明确的规定和定义,“安装”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接、也可以是可拆卸连接、或者一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也是可以通过中间媒介间接相连;可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本发明的各种实施例。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
为解决上述至少一个技术问题,本发明的多信源语音区分识别方案,能够在多人同步语音的过程中,准确地记录语音信息来源并实现精准的、实时区分信源。在该全新的解决方案中,在计算机设备连接至少两路音频处理单元,在每个音频处理单元上分别对应连接一个有线或者无线麦克风,声音经过麦克风接收并传输到各自音频处理单元。
由于语音信息由不同的音频处理单元传输到计算机,计算机上的实时多信源语音区分识别系统可利用音频处理单元来定位语音信息;以便于在语音过程中自动记录每段语音内容,达到智能化处理文字信息的效果。本发明的电子笔录是通过多个麦克风经过多个音频处理单元收集来自不同信源的声音,并通过语音识别模块转化为相对应的文字,记录在文本框上,其识别率非常高。比如,两个麦克风A、B和两路音频处理单元A、B,A信源说你好时,可在文本框上显示“A信源:你好”;然后,B信源跟着说你好时,可在文本框上显示“B信源:你好”。当然,本发明不局限于A、B两个麦克风和两路音频处理单元,可能是更多个麦克风和更多路音频处理单元。
此外,考虑到例如审讯过程中可能会出现声音重合状况,多信源语音区分识别系统还可以设定语音来源优先级,避免在审讯过程中出现声音重合而无法确定语音信息来源,最终导致语音信源区分过程中文本信息出现混乱的状况。
图1示出了本发明的语音识别方法的一个实施例的示意性流程图。在步骤S110中,从至少两路音频处理单元接收信号,所述信号包括语音信号以及标识语音信源的硬件标识。语音信源为语音信号的来源。
所述音频处理单元可以是设置在计算机设备内的内置音频处理单元和/或设置在所述计算机设备外的外置音频处理单元。各个音频处理单元接收来自对应的麦克风的音频信号。硬件标识可以为所述音频处理单元、所述麦克风、所述音频处理单元与所述计算机设备的接口、或所述麦克风与所述音频处理单元的接口的硬件标识。
在步骤S120中,将所述语音信号识别为文本信息。由于存在同时收到多路语音信号的情况,优选在步骤S110之前,预先设置所述语音信源的优先级,在同时接收到多路所述音频处理单元的信号时,根据所述优先级进行语音识别。
在步骤S130中,根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。由于能够根据硬件标识正确区分语音信源,自动对应输出信源的文本内容,最大限度减少人工操作,降低工作人员的劳动强度,保障了语音内容的真实客观性,提高整体工作效率。
图2示出了本发明的语音识别装置的一个实施例的示意性结构图。图2中的语音识别装置200可包括:信号接收模块210,用于从至少两路音频处理单元接收语音信号以及标识语音信源的硬件标识;语音识别模块220,用于将所述语音信号识别为文本信息;记录模块230,用于根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。
优选设置有优先级设置模块,用于预先设置所述语音信源的优先级;在同时接收到多路所述音频处理单元的信号时,所述语音识别模块220根据所述优先级进行语音识别。语音识别装置200的模块用于执行语音识别方法中的对应步骤,而且在语音识别方法中的可选项也可相应地应用于语音识别装置200中,这里不再一一详细地描述。
图3示出了本发明的多信源语音区分识别系统的一个实施例的示意性结构图。
图3中的一种多信源语音区分识别系统,包括:麦克风340,用于处理语音;内置音频处理单元320和外置音频处理单元330,与麦克风340一一对应地连接;计算机设备300,包括用于语音识别的语音识别模块310,所述语音识别模块310根据从内置音频处理单元320和外置音频处理单元330获取的硬件标识区分语音信源,并将经语音识别后的文本内容与相应的语音信源关联地记录。尽管在图3的多信源语音区分识别系统中包括了麦克风,但是本发明的多信源语音区分识别系统可以不包括麦克风,此时,麦克风可以作为与本发明的多信源语音区分识别系统配合使用的额外配件。
麦克风340可以使用有线麦克风或无线麦克风,当然,也可以同时使用有线麦克风和无线麦克风。图3中外置音频处理单元330和麦克风340通过虚线连接,表示两者之间通过无线方式连接。当然,麦克风340也可以通过无线连接方式(例如蓝牙方式)与内置音频处理单元320连接。
使用有线麦克风时,可以有线连接到外置音频处理单元330上的有线麦克风接口。外置音频处理单元330还可以包括麦克风无线接收器,用于连接无线麦克风。
因此,在外置音频处理单元330上可以包括麦克风无线接收器、有线麦克风接口、或者麦克风无线接收器和有线麦克风接口两者。
在使用无线麦克风时,无线麦克风可以包括2.4G无线发射模块,麦克风无线接收器可以包括2.4G无线接收模块。
2.4G无线模块工作在全球免申请ISM频道2400M-2483M范围内,实现开机自动扫频功能,共有50个工作信道,可以同时供50个用户在同一场合同时工作,无需使用者人工协调、配置信道。音频处理单元和无线麦克风也可以通过例如蓝牙进行音频数据的传输。
尽管图3中示出的是同时包括内置音频处理单元320和外置音频处理单元330,当然,也可以全部采用内置音频处理单元或全部采用外置音频处理单元。音频处理单元可包括声卡。声卡也叫音频卡,是多媒体技术中最基本的组成部分,是实现声波/字信号相互转换的一种硬件。声卡可以是PCI-E声卡、USB声卡、单片机声卡等。外置音频处理单元和内置音频处理单元均是把来自麦克风340的原始声音信号加以转换,输出给语音识别模块310。
本发明中的语音识别模块310要将麦克风340获取的音频信号转换为相应的文本信息。
语音识别模块310需要利用语音识别技术,也被称为自动语音识别(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
语音识别可以包括两个阶段:训练和识别。训练和识别可对输入语音进行预处理和特征提取。训练阶段所做的具体工作可以是收集大量的语音语料,经过预处理和特征提取后得到特征矢量参数,最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作可包括将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较,然后把相似性最高的输入特征矢量作为识别结果输出。这样,最终就达到了语音识别的目的。语音识别模块310可以是经过训练后的模块。
本发明的中的语音识别是针对非特定人的识别,即,识别对象是针对不同的人员。因此,语音识别模块310可处理多人的语音进行录音和训练,经过学习,能达到很高的识别率。
语音识别模块310可以是存储在计算机设备300的存储器上的软件或者可以是计算机设备300内部的硬件电路。
在语音识别模块310为硬件电路时,其可为一种基于嵌入式的语音识别技术的模块,可包括语音识别芯片和一些其他的附属电路,能够方便的与计算机设备300的主控芯片进行通讯。
由于现场办案、医疗会诊的时候,常常需要移动办公,因此,计算机设备300优选为便携式计算机等方便移动办公的计算机设备。
计算机设备300可以包括多个USB接口或其他通讯接口(例如蓝牙通信接口),可以通过计算机设备300上的各个USB接口与各个外置音频处理单元330一一对应连接。语音识别模块310可以根据相应的外置音频处理单元330来确定语音信息的来源。
另外,在计算机设备300的USB接口较少,比如只有一个USB接口时,不能够直接同时连接多个外置音频处理单元330时,可以利用USB分线器(图中未示出)来转接。USB分线器直接连接计算机设备300,外置音频处理单元330可连接至USB分线器。
USB分线器(USB Hub)指的是一种可以将一个USB接口扩展为多个,并可以使这些接口同时使用的装置。USB HUB根据所属USB协议可分为例如USB2.0HUB、USB3.0HUB与USB3.1HUB。
外置音频处理单元330除了通过USB接口与计算机设备300连接外,外置音频处理单元330也可以通过其他接口方式与计算机设备300连接,例如通过蓝牙、WiFi等无线连接方式。
多信源语音区分识别系统优选还包括摄像模块,用于处理影像,这样可以在处理音频的同时收集有关影像信息。摄像头可以单独设置,也可以设置在计算机设备300上。
此外,语音识别模块310可以包括优先级设置模块,用于设置所述述语音的来源的优先级。例如,可以通过设置多个麦克风340的优级、音频处理单元的优先级、或者相应USB接口的优先级来设置语音来源的优先级,可以根据上述各硬件的唯一标识信息来设置。实质上是针对多个麦克风340处理到的语音进行语音识别的优先级设置。
例如,在计算机设备300上连接了两个音频处理单元A和B,分别接上两个麦克风A’和B’(音频处理单元和麦克风对应),在两个人分别对麦克风A’和B’同时讲话时,两个声音同时传回设备,如果将两个人的语音信息均识别出来,则不清楚两个识别文本的放置位置,可能导致识别信息混乱。
如果通过优先级设置模块将音频处理单元A设置为高优先级,那么在音频处理单元A和B同时获取语音时,可以自动延时对音频处理单元B接收的麦克风B’的语音识别。
需要说明的是,上述的舍弃仅仅是延时的对音频处理单元B所获取的语音的识别,而不是舍弃对该音频的保存。
另外,如果通过优先级设置模块设置音频处理单元A为高优先级,那么在音频处理单元A和B同时获取语音时,也可以将音频处理单元A和B的语音都进行语音识别,在识别后可以将音频处理单元A的相关识别文本放置在前,音频处理单元B的相关识别文本放置在后,并用括号标注。
在图3中,麦克风340通过内置音频处理单元320和外置音频处理单元330与计算机设备300相连,但是多个麦克风340也可以全部与内置音频处理单元或全部与外置音频处理单元一一对应地连接。
本发明中的硬件标识可以是例如外置和/或内置音频处理单元的标识、与各音频处理单元连接的麦克风的标识、外置音频处理单元连接的USB接口的标识等。优选采用音频处理单元的硬件标识。
图3中示出了三组音频处理单元和麦克风340,然而,本发明不限于此,也可以包括二组或更多组的音频处理单元和麦克风340。
另外,尽管本发明涉及的多信源语音区分识别系统,显然,也可以用于单人的语音识别,此时,只需要一个音频处理单元和一个麦克风即可。如果计算机设备本身包含内置音频处理单元,此时,该麦克风也可以与计算机设备300的内置音频处理单元连接。
本发明公开了一种多个语音信源识别系统,包括至少两路音频处理单元,作为与计算机设备连接的中间件,计算机包括但不仅限于支持语音转文字模块,计算机根据从所述音频处理单元获取的硬件标识自动区分语音信源,并获取相对应的语音信号,同时经语音识别转文字后的文本内容与相对应的语音信源关联记录。本发明能够在无人干预或操作下,解决同一台计算机设备上多人同步或不同步谈话时,自动将语音转文字,正确区分语音信源,自动对应输出信源的文本内容,最大限度减少人工操作,降低工作人员的劳动强度,保障了语音内容的真实客观性,提高整体工作效率。
通过上述的多信源语音区分识别系统,本发明能够解决在现场办案、审讯、司法、执法、政务、商务、医疗会诊、教学等环境下,在多人语音对话场景下,可以此系统可以智能区分语音信源,并对每段语音做出定位、标注,并将其内容自动转为文字,以便于在语音过程中自动记录每段语音内容,避免了工作人员在记录中进行修改的手动操作,达到智能化处理语音内容的效果。
此外,使用过程中,难免出现声音重合的状况,本发明的多信源语音区分识别系统还可以设定优先级,自动识别优先级别的语音信号,避免在多语音识别过程中出现声音重合而无法确定语音信息来源,最终导致语音对话过程中文本信息出现混乱的状况。
需要说明的是,本发明中提及的术语“计算机设备”也是一个广义上的术语,可以是例如服务器、个人电脑、笔记本电脑、工控电脑、移动终端(例如平板电脑,手机、ipad)等。
本发明还提供了一种计算机存储介质,其存储有计算机程序,在所述计算机程序被执行时实现上述的语音识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
从至少两路音频处理单元接收信号,所述信号包括语音信号以及标识语音信源的硬件标识;
将所述语音信号识别为文本信息;
根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。
2.根据权利要求1所述的语音识别方法,其特征在于:
预先设置所述语音信源的优先级,在同时接收到多路所述音频处理单元的信号时,根据所述优先级进行语音识别。
3.根据权利要求1所述的语音识别方法,其特征在于:
所述音频处理单元包括设置在计算机设备内的内置音频处理单元和/或设置在所述计算机设备外的外置音频处理单元。
4.根据权利要求3所述的语音识别方法,其特征在于:
各个所述音频处理单元接收来自对应的麦克风的音频信号。
5.根据权利要求4所述的语音识别方法,其特征在于:
所述硬件标识为所述音频处理单元、所述麦克风、所述音频处理单元与所述计算机设备的接口、或所述麦克风与所述音频处理单元的接口的硬件标识。
6.一种语音识别装置,其特征在于,包括:
信号接收模块,用于从至少两路音频处理单元接收语音信号以及标识语音信源的硬件标识;
语音识别模块,用于将所述语音信号识别为文本信息;
记录模块,用于根据所述硬件标识将所述文本信息与相应的语音信源关联地记录。
7.根据权利要求6所述的语音识别装置,其特征在于,还包括:
优先级设置模块,用于预先设置所述语音信源的优先级;
在同时接收到多路所述音频处理单元的信号时,所述语音识别模块根据所述优先级进行语音识别。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,在所述计算机程序被执行时实现根据权利要求1-5中任一项所述的语音识别方法。
9.一种多信源语音区分识别系统,其特征在于,包括:
至少两路音频处理单元,用于与麦克风连接;
计算机设备,包括用于语音识别的语音识别模块,所述语音识别模块根据从所述音频处理单元获取的硬件标识区分语音信源,并将经语音识别后的文本内容与相应的语音信源关联记录。
10.根据权利要求9所述的多信源语音区分识别系统,其特征在于:
所述至少两路音频处理单元包括内置音频处理单元和/或外置音频处理单元,并且所述内置音频处理单元设置在所述计算机设备内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711274450.XA CN107910006A (zh) | 2017-12-06 | 2017-12-06 | 语音识别方法、装置和多信源语音区分识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711274450.XA CN107910006A (zh) | 2017-12-06 | 2017-12-06 | 语音识别方法、装置和多信源语音区分识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107910006A true CN107910006A (zh) | 2018-04-13 |
Family
ID=61854039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711274450.XA Pending CN107910006A (zh) | 2017-12-06 | 2017-12-06 | 语音识别方法、装置和多信源语音区分识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107910006A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840277A (zh) * | 2019-02-20 | 2019-06-04 | 西南科技大学 | 一种政务服务智能问答方法及系统 |
CN111833899A (zh) * | 2020-07-27 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
CN112885359A (zh) * | 2021-01-29 | 2021-06-01 | 焦作大学 | 一种语音识别系统 |
US20220084525A1 (en) * | 2020-09-17 | 2022-03-17 | Zhejiang Tonghuashun Intelligent Technology Co., Ltd. | Systems and methods for voice audio data processing |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763382A (zh) * | 2008-12-25 | 2010-06-30 | 新奥特硅谷视频技术有限责任公司 | 一种基于角色和优先级设置的信息处理的方法和装置 |
CN103093754A (zh) * | 2013-02-21 | 2013-05-08 | 中国对外翻译出版有限公司 | 用于同声传译业务的语音弱化处理方法 |
CN103247289A (zh) * | 2012-02-01 | 2013-08-14 | 鸿富锦精密工业(深圳)有限公司 | 记录系统及方法、声音输入装置和语音记录装置及方法 |
US20150112684A1 (en) * | 2013-10-17 | 2015-04-23 | Sri International | Content-Aware Speaker Recognition |
CN104756473A (zh) * | 2012-09-14 | 2015-07-01 | 谷歌公司 | 处理并发语音 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
CN106409286A (zh) * | 2016-09-23 | 2017-02-15 | 努比亚技术有限公司 | 一种实现音频处理的方法及装置 |
CN207718803U (zh) * | 2017-12-06 | 2018-08-10 | 广州宝镜智能科技有限公司 | 多信源语音区分识别系统 |
-
2017
- 2017-12-06 CN CN201711274450.XA patent/CN107910006A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763382A (zh) * | 2008-12-25 | 2010-06-30 | 新奥特硅谷视频技术有限责任公司 | 一种基于角色和优先级设置的信息处理的方法和装置 |
CN103247289A (zh) * | 2012-02-01 | 2013-08-14 | 鸿富锦精密工业(深圳)有限公司 | 记录系统及方法、声音输入装置和语音记录装置及方法 |
CN104756473A (zh) * | 2012-09-14 | 2015-07-01 | 谷歌公司 | 处理并发语音 |
CN103093754A (zh) * | 2013-02-21 | 2013-05-08 | 中国对外翻译出版有限公司 | 用于同声传译业务的语音弱化处理方法 |
US20150112684A1 (en) * | 2013-10-17 | 2015-04-23 | Sri International | Content-Aware Speaker Recognition |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
CN106409286A (zh) * | 2016-09-23 | 2017-02-15 | 努比亚技术有限公司 | 一种实现音频处理的方法及装置 |
CN207718803U (zh) * | 2017-12-06 | 2018-08-10 | 广州宝镜智能科技有限公司 | 多信源语音区分识别系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840277A (zh) * | 2019-02-20 | 2019-06-04 | 西南科技大学 | 一种政务服务智能问答方法及系统 |
CN111833899A (zh) * | 2020-07-27 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
CN111833899B (zh) * | 2020-07-27 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 一种基于多音区的语音检测方法、相关装置及存储介质 |
US20220084525A1 (en) * | 2020-09-17 | 2022-03-17 | Zhejiang Tonghuashun Intelligent Technology Co., Ltd. | Systems and methods for voice audio data processing |
CN112885359A (zh) * | 2021-01-29 | 2021-06-01 | 焦作大学 | 一种语音识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108039988B (zh) | 设备控制处理方法及装置 | |
CN110428809B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN108399923B (zh) | 多人发言中发言人识别方法以及装置 | |
CN107910006A (zh) | 语音识别方法、装置和多信源语音区分识别系统 | |
CN109388701A (zh) | 会议记录生成方法、装置、设备和计算机存储介质 | |
JP2020503541A (ja) | 声紋の作成・登録の方法及び装置 | |
CN105512348A (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN111261162B (zh) | 语音识别方法、语音识别装置及存储介质 | |
CN109271533A (zh) | 一种多媒体文件检索方法 | |
CN105488227A (zh) | 一种电子设备及其基于声纹特征处理音频文件的方法 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN110335592B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN106022208A (zh) | 人体动作识别方法及装置 | |
CN104361311B (zh) | 多模态在线增量式来访识别系统及其识别方法 | |
CN110970018A (zh) | 语音识别方法和装置 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN207718803U (zh) | 多信源语音区分识别系统 | |
CN104866308A (zh) | 一种场景图像的生成方法及装置 | |
CN109783624A (zh) | 基于知识库的答案生成方法、装置和智能会话系统 | |
CN107862071A (zh) | 生成会议记录的方法和装置 | |
CN109660865A (zh) | 为视频自动打视频标签的方法及装置、介质和电子设备 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN109065036A (zh) | 语音识别的方法、装置、电子设备及计算机可读存储介质 | |
CN107197404B (zh) | 一种音效自动调节方法、装置和一种录播系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |