CN111785271A - 语音识别处理方法及系统、电子设备 - Google Patents
语音识别处理方法及系统、电子设备 Download PDFInfo
- Publication number
- CN111785271A CN111785271A CN202010413074.3A CN202010413074A CN111785271A CN 111785271 A CN111785271 A CN 111785271A CN 202010413074 A CN202010413074 A CN 202010413074A CN 111785271 A CN111785271 A CN 111785271A
- Authority
- CN
- China
- Prior art keywords
- voice data
- text
- data
- processed
- different objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Abstract
本发明提供了一种语音识别处理方法及系统、电子设备。所述语音识别处理方法,其包括以下步骤:获取待处理语音数据;将所述待处理语音数据中至少两个不同对象的语音数据分离;将每个对象的语音数据转换为文本数据;及显示所述文本数据的文字信息及对应的对象标识。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种语音识别处理方法及系统、电子设备。
背景技术
随着各种智能语音助手及智能语音软件的逐渐普及,语音识别处理技术已经成为一项重要的技术,然而,现有一些智能语音助手及软件较难满足人们日益增加的语音翻译及/或文字记录等要求,特别是在多人发言的会议环境下的语音翻译及/或文字记录等要求,有必要改善。
发明内容
本发明提供一种语音识别处理方法与系统、电子设备。
根据本发明的一种实施例,一种语音识别处理方法,其包括以下步骤:
获取待处理语音数据;
将所述待处理语音数据中至少两个不同对象的语音数据分离;
将每个对象的语音数据转换为文本数据;
显示所述文本数据的文字信息及对应的对象标识。
根据本发明的一种实施例,所述对象标识为所述文字信息的颜色,所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色。
根据本发明的一种实施例,所述对象标识为所述文字信息的颜色、字体或字体大小,所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。
根据本发明的一种实施例,所述方法还包括以下步骤:将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。
根据本发明的一种实施例,所述方法还包括以下步骤:所述方法还包括以下步骤,将每个对象的语音数据存储为预定格式,并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字后。
根据本发明的另一种实施例,一种语音识别处理系统包括:
获取单元,用于获取待处理语音数据;
分离单元,用于将所述待处理语音数据中至少两个不同对象的语音数据分离;
转换单元,用于将每个对象的语音数据转换为文本数据;
显示单元,用于显示所述文本数据的文字信息及对应的对象标识。
根据本发明的一种实施例,所述对象标识为所述文字信息的颜色、字体或字体大小,所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。
根据本发明的一种实施例,所述系统还包括签名单元,用于获取并显示所述至少两个不同对象的签名信息。
根据本发明的一种实施例,所述系统还包括记录档案生成单元,用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。
根据本发明的一种实施例,所述系统还包括存储单元及链接嵌入单元,所述存储单元用于将每个对象的语音数据存储,所述链接嵌入单元用于将每个对象的语音数据存储链接嵌入所述电子记录档案中的文本数据的文字后。
根据本发明的一种实施例,一种电子设备包括处理器及显示屏,所述处理器用于获取待处理语音数据、将所述待处理语音数据中至少两个不同对象的语音数据分离、将每个对象的语音数据转换为文本数据及控制所述显示屏显示所述文本数据的文字信息及对应的对象标识。
本发明语音识别处理方法及系统中,可以将待处理语音数据中至少两个不同对象的语音数据分离;以及将每个对象的语音数据转换为文本数据并显示所述文本数据的文字信息及对应的对象标识,可以满足多人发言时的语音数据分离、文本显示等,可方便的使用在会议环境中,自动记录会议记录,提高工作效率。通过对象标识可以识别不同对象的发言,增加各对象签名的步骤也可以方便各对象确认记录是否正确,以及生成电子记录档案及嵌入每个对象的语音数据在电子记录档案中,有助于确认记录的文字信息及修改,均有较高的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明一种实施例的语音识别处理方法的流程图。
图2是本发明一种实施例的语音识别处理系统的方框图。
图3是本发明一种实施例的电子设备的方框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明一种实施例的语音识别处理方法的流程图。所述语音识别处理方法可以运行在手机、个人电脑、平板电脑、录音笔等电子设备中。所述语音识别处理方法可以包括以下步骤S11、S12、S13、S14。
步骤S11,获取待处理语音数据。具体地,所述步骤S11中,可以由所述电子设备的麦克风获取所述待处理的语音数据,也可以通过所述电子设备接收到的外部设备传输的或者所述电子设备自行在网络中下载的语音数据作为待处理的语音数据。
步骤S12,将所述待处理语音数据中至少两个不同对象的语音数据分离。可以通过语义分析,或者振幅及/或频率分析,将所述待处理语音数据中的不同对象的语音数据分离。如,一般地,不同对象由于距离麦克风远近的不同,二者的音频数据振幅及/或频率有所不同,特别是振幅,因此,可以依据振幅的差别将二者分离,如振幅较大的为用户语音数据,振幅较小的为对象语音数据。另外,也可以依据正常的语音对话模板将所述语音数据分离成两个语音数据,如一个人问,一个人回答的对话模式,将不同对象的语音数据分离是非常容易的。
步骤S13,将每个对象的语音数据转换为文本数据。可以理解,通过语音文字转换技术,可以将每个对象的语音数据转换为文本数据。
步骤S14,显示所述文本数据的文字信息及对应的对象标识。可以理解,所述电子设备可以控制在其显示屏上显示所述文本数据的文字信息及对应的对象标识。其中。所述对象标识为所述文字信息的颜色、字体或字体大小,即所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。
进一步地,所述方法还可以包括以下步骤S15,获取并显示所述至少两个不同对象的签名信息。具体地,每个对象可以通过所述电子设备的触摸屏输入前面信息,使得所述电子设备获取并显示所述至少两个不同对象的签名信息。
更进一步地,所述方法还包括以下步骤S16:将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。其中,所述预设模板文件可以为WORD档、PDF档或图片档。
此外,所述方法还包括以下步骤S17,将每个对象的语音数据存储为预定格式,并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字信息后。所述预定格式可以为MP3或WMA等,从而当所述电子记录档案被开启后,可以通过开启所述存储链接获取并播放所述语音数据以确认文本数据的文字信息是否准确。
请参阅图2,图2是本发明一种实施例的语音识别处理系统的方框图。所述语音识别处理系统20可以为一应用软件,运行于手机、个人电脑、平板电脑、录音笔等电子设备上,被电子设备的处理器执行时可以执行上述语音识别处理方法的各步骤。具体地,所述语音识别处理系统20可以包括获取单元21、分离单元22、转换单元23、显示单元24、签名生成单元25、档案生成单元26、及链接嵌入单元27。
所述获取单元21用于获取待处理语音数据。具体地,可以由所述电子设备的麦克风获取所述待处理的语音数据,也可以通过所述电子设备20接收到的外部设备传输的或者所述电子设备自行在网络中下载的语音数据作为待处理的语音数据。
所述分离单元22用于将所述待处理语音数据中至少两个不同对象的语音数据分离。具体地,可以通过语义分析,或者振幅及/或频率分析,将所述待处理语音数据中的不同对象的语音数据分离。如,一般地,不同对象由于距离麦克风远近的不同,二者的音频数据振幅及/或频率有所不同,特别是振幅,因此,可以依据振幅的差别将二者分离,如振幅较大的为用户语音数据,振幅较小的为对象语音数据。另外,也可以依据正常的语音对话模板将所述语音数据分离成两个语音数据,如一个人问,一个人回答的对话模式,将不同对象的语音数据分离是非常容易的。
所述转换单元23用于将每个对象的语音数据转换为文本数据。可以理解,通过语音文字转换技术,可以将每个对象的语音数据转换为文本数据。
所述显示单元24用于显示所述文本数据的文字信息及对应的对象标识。可以理解,所述电子设备的处理器可以控制在其显示屏上显示所述文本数据的文字信息及对应的对象标识。其中。所述对象标识为所述文字信息的颜色、字体或字体大小,即所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。
进一步地,所述签名生成单元25用于获取并显示所述至少两个不同对象的签名信息。具体地,每个对象可以通过所述电子设备的触摸屏输入前面信息,使得所述电子设备获取并显示所述至少两个不同对象的签名信息。
所述档案生成单元26用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。其中,所述预设模板文件可以为WORD档、PDF档或图片档。
所述链接嵌入单元27将每个对象的语音数据存储为预定格式,并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字信息后。所述预定格式可以为MP3或WMA等,从而当所述电子记录档案被开启后,可以通过开启所述存储链接获取并播放所述语音数据以确认文本数据的文字信息是否准确。
如图3所示,本发明还提高一种电子设备30,所述电子设备30包括麦克风31、处理器32、存储器33、显示屏24。所述麦克风31、所述存储器33、显示屏24可以均通过总线与所述处理器32耦接。所述存储器33中可以存储计算机程序指令,所述处理器32通过执行所述存储器33中的程序指令可以运行上述语音识别处理方法。可以理解,所述处理器32可以通过所述麦克风31获取所述待处理语音数据。所述显示屏24可以为触摸显示屏,所述处理器32也可以通过控制所述触摸显示屏实现上述步骤S14、S15、S16及S17,此处就不再赘述。
本发明语音识别处理方法及系统20及电子设备30中,可以将待处理语音数据中至少两个不同对象的语音数据分离;以及将每个对象的语音数据转换为文本数据并显示所述文本数据的文字信息及对应的对象标识,可以满足多人发言时的语音数据分离、文本显示等,可方便的使用在会议环境中,自动记录会议记录,提高工作效率。通过对象标识可以识别不同对象的发言,增加各对象签名的步骤也可以方便各对象确认记录是否正确,以及生成电子记录档案及嵌入每个对象的语音数据在电子记录档案中,有助于确认记录的文字信息及修改,均有较高的实用性。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种语音识别处理方法,其包括以下步骤:
获取待处理语音数据;
将所述待处理语音数据中至少两个不同对象的语音数据分离;
将每个对象的语音数据转换为文本数据;及
显示所述文本数据的文字信息及对应的对象标识。
2.如权利要求1所述的方法,其特征在于:所述对象标识为所述文字信息的颜色、字体或字体大小,所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。
3.如权利要求1所述的方法,其特征在于:所述方法还包括以下步骤:获取并显示所述至少两个不同对象的签名信息。
4.如权利要求3所述的方法,其特征在于:所述方法还包括以下步骤:将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。
5.如权利要求4所述的方法,其特征在于:所述方法还包括以下步骤:所述方法还包括以下步骤,将每个对象的语音数据存储为预定格式,并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字后。
6.一种语音识别处理系统,其特征在于:所述语音识别处理系统包括:
获取单元,用于获取待处理语音数据;
分离单元,用于将所述待处理语音数据中至少两个不同对象的语音数据分离;
转换单元,用于将每个对象的语音数据转换为文本数据;
显示单元,用于显示所述文本数据的文字信息及对应的对象标识。
7.如权利要求6所述的系统,其特征在于:所述系统还包括签名单元,用于获取并显示所述至少两个不同对象的签名信息。
8.如权利要求7所述的系统,其特征在于:所述系统还包括记录档案生成单元,用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。
9.如权利要求8所述的系统,其特征在于:所述系统还包括存储单元及链接嵌入单元,所述存储单元用于将每个对象的语音数据存储,所述链接嵌入单元用于将每个对象的语音数据存储链接嵌入所述电子记录档案中的文本数据的文字后。
10.一种电子设备,其特征在于:所述电子设备包括处理器及显示屏,所述处理器用于获取待处理语音数据、将所述待处理语音数据中至少两个不同对象的语音数据分离、将每个对象的语音数据转换为文本数据及控制所述显示屏显示所述文本数据的文字信息及对应的对象标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413074.3A CN111785271A (zh) | 2020-05-15 | 2020-05-15 | 语音识别处理方法及系统、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413074.3A CN111785271A (zh) | 2020-05-15 | 2020-05-15 | 语音识别处理方法及系统、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785271A true CN111785271A (zh) | 2020-10-16 |
Family
ID=72753867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010413074.3A Pending CN111785271A (zh) | 2020-05-15 | 2020-05-15 | 语音识别处理方法及系统、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785271A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104427292A (zh) * | 2013-08-22 | 2015-03-18 | 中兴通讯股份有限公司 | 会议纪要的提取方法及装置 |
US20160098995A1 (en) * | 2014-10-02 | 2016-04-07 | Nedelco, Inc. | Speech to text training method and system |
KR20160129787A (ko) * | 2016-05-31 | 2016-11-09 | 대한민국(관리부서: 행정자치부 국립과학수사연구원장) | 디지털 녹취 파일 녹취록 생성 방법 |
WO2018107605A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN108986826A (zh) * | 2018-08-14 | 2018-12-11 | 中国平安人寿保险股份有限公司 | 自动生成会议记录的方法、电子装置及可读存储介质 |
CN109741754A (zh) * | 2018-12-10 | 2019-05-10 | 上海思创华信信息技术有限公司 | 一种会议语音识别方法及系统、存储介质及终端 |
CN110704571A (zh) * | 2019-08-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 |
CN110717031A (zh) * | 2019-10-15 | 2020-01-21 | 南京摄星智能科技有限公司 | 一种智能会议纪要生成方法和系统 |
CN111048095A (zh) * | 2019-12-24 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音转写方法、设备及计算机可读存储介质 |
-
2020
- 2020-05-15 CN CN202010413074.3A patent/CN111785271A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104427292A (zh) * | 2013-08-22 | 2015-03-18 | 中兴通讯股份有限公司 | 会议纪要的提取方法及装置 |
US20160098995A1 (en) * | 2014-10-02 | 2016-04-07 | Nedelco, Inc. | Speech to text training method and system |
KR20160129787A (ko) * | 2016-05-31 | 2016-11-09 | 대한민국(관리부서: 행정자치부 국립과학수사연구원장) | 디지털 녹취 파일 녹취록 생성 방법 |
WO2018107605A1 (zh) * | 2016-12-16 | 2018-06-21 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN108986826A (zh) * | 2018-08-14 | 2018-12-11 | 中国平安人寿保险股份有限公司 | 自动生成会议记录的方法、电子装置及可读存储介质 |
CN109741754A (zh) * | 2018-12-10 | 2019-05-10 | 上海思创华信信息技术有限公司 | 一种会议语音识别方法及系统、存储介质及终端 |
CN110704571A (zh) * | 2019-08-16 | 2020-01-17 | 平安科技(深圳)有限公司 | 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 |
CN110717031A (zh) * | 2019-10-15 | 2020-01-21 | 南京摄星智能科技有限公司 | 一种智能会议纪要生成方法和系统 |
CN111048095A (zh) * | 2019-12-24 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音转写方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493850B (zh) | 成长型对话装置 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN105975569A (zh) | 一种语音处理的方法及终端 | |
US11281707B2 (en) | System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111666746A (zh) | 会议纪要的生成方法及装置、电子设备及存储介质 | |
CN103310790A (zh) | 电子装置及语音识别方法 | |
CN111683317B (zh) | 一种应用于耳机的提示方法、装置、终端及存储介质 | |
CN110798578A (zh) | 一种来电事务管理方法、装置以及相关设备 | |
CN111063355A (zh) | 会议记录的生成方法及记录终端 | |
CN112612877A (zh) | 多类型消息智能答复方法、装置、计算机设备及存储介质 | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
US10824790B1 (en) | System and method of extracting information in an image containing file for enhanced utilization and presentation | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
JP7200533B2 (ja) | 情報処理装置およびプログラム | |
CN110992958B (zh) | 内容记录方法、装置、电子设备及存储介质 | |
CN106873798B (zh) | 用于输出信息的方法和装置 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
WO2019003395A1 (ja) | コールセンター会話内容表示システム、方法及びプログラム | |
KR20000024318A (ko) | 인터넷을 이용한 tts 시스템 및 tts 서비스 방법 | |
CN110908631A (zh) | 情感交互方法、装置、设备及计算机可读存储介质 | |
CN111785271A (zh) | 语音识别处理方法及系统、电子设备 | |
EP3010016A1 (en) | Input information support apparatus, method for supporting input information, and input information support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |