CN111583905A - 一种语音识别转化方法及系统 - Google Patents

一种语音识别转化方法及系统 Download PDF

Info

Publication number
CN111583905A
CN111583905A CN202010439672.8A CN202010439672A CN111583905A CN 111583905 A CN111583905 A CN 111583905A CN 202010439672 A CN202010439672 A CN 202010439672A CN 111583905 A CN111583905 A CN 111583905A
Authority
CN
China
Prior art keywords
data
family
language
keyword
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010439672.8A
Other languages
English (en)
Other versions
CN111583905B (zh
Inventor
杨彦
罗文华
马芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Wisdom Dragon Machinery Design Co ltd
Shenzhen Aikebei Electronics Co ltd
Original Assignee
Yancheng Institute of Industry Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Institute of Industry Technology filed Critical Yancheng Institute of Industry Technology
Priority to CN202010439672.8A priority Critical patent/CN111583905B/zh
Publication of CN111583905A publication Critical patent/CN111583905A/zh
Application granted granted Critical
Publication of CN111583905B publication Critical patent/CN111583905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音识别转化方法及系统,所述方法包括如下步骤:获取待识别的语音数据;根据多个语系数据库,识别所述语音数据所对应的语系;根据所述语系,从多个语系数据库中获取与所述语音数据对应的所述语系数据库;所述语系数据库,包括多个语种数据子库;从多个所述语种数据子库中获取与所述语音数据对应的语种;根据文本转换数据库,将所述语音数据转换为所述语种对应的文本数据;提取所述文本数据的关键词数据;获取所述语音数据中所述关键词数据对应的关键词语音数据,并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。

Description

一种语音识别转化方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音识别转化方法及系统。
背景技术
随着科学技术的不断发展,语音识别技术已经融入到了人们生活的方方面面。例如,人们在不方便手动输入文字时,通过将语音数据输入电子设备,电子设备对语音数据进行自动转换为文本数据。
但目前,传统的语音识别技术需要人工设置语音转换的语种,并不能够实现将语音数据转化为与语音数据具有相同语种的文本数据。因此,急需一种语音识别转化方法及系统。
发明内容
为解决上述技术问题,本发明提供一种语音识别转化方法及系统,用以实现对语音数据的语种的自动识别,转化为与语音数据具有相同语种的文本数据。
本发明实施例中提供了一种语音识别转化方法,所述方法包括如下步骤:
S101、获取待识别的语音数据;
S102、根据多个语系数据库,识别所述语音数据所对应的语系;
S103、根据所述语系,从多个语系数据库中获取与所述语音数据对应的所述语系数据库;所述语系数据库,包括多个语种数据子库;
S104、从多个所述语种数据子库中获取与所述语音数据对应的语种;
S105、根据文本转换数据库,将所述语音数据转换为所述语种对应的文本数据;
S106、提取所述文本数据的关键词数据;
S107、获取所述语音数据中所述关键词数据对应的关键词语音数据,并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。
在一个实施例中,多个所述语系数据库,包括印欧语系数据库,闪含语系数据库,阿尔泰语系数据库,乌拉尔语系数据库,高加索语系数据库,汉藏语系数据库和德拉维达语系数据库。
在一个实施例中,所述步骤S101、获取待识别的语音数据之后,所述方法包括:用于对所述语音数据进行预处理;具体步骤包括:
检测获取所述语音数据中的静音区间;
根据所述静音区间,对所述语音数据进行过滤处理,获取过滤处理后的语音数据。
在一个实施例中,所述步骤S102、根据多个语系数据库,识别所述语音数据所对应的语系;具体步骤包括:
获取所述语音数据的语系数据;具体包括:
将所述语音数据根据语音时长均等的分为两段子语音数据,并分别提取所述两段子语音数据的音频特征,形成两个语音频特征矩阵;并通过以下公式(1),获取语系数据:
Figure BDA0002503621400000021
其中F为语系数据,(Y1Y2…Yn)为第一段语音音频特征矩阵,(y1y2…yn)为第二段语音音频特征矩阵;
并将所述语系数据与多个所述语系数据库内预设的语系阈值数据进行比对,获取所述语音数据的所对应的语系;
所述语系阈值数据,包括所述印欧语系数据库对应的印欧语系阈值数据、所述闪含语系数据库对应的闪含语系阈值数据、所述阿尔泰语系数据库对应的阿尔泰语系阈值数据、所述乌拉尔语系数据库对应的乌拉尔语系阈值数据、所述高加索语系数据库对应的高加索语系阈值数据、所述汉藏语系数据库对应的汉藏语系阈值数据和所述德拉维达语系数据库对应的德拉维达语系阈值数据。
在一个实施例中,所述步骤S102之后,所述方法还包括:
判断对所述语音数据的语系识别是否成功;
若识别成功,执行所述步骤S103;
若识别失败,则根据所述语系数据和所述语系阈值数据,计算所述语音数据的与所述语系阈值数据的语系类间距离数据;
获取所述语系类间距离中的最小值数据,并将所述最小值数据对应的语系作为所述语音数据的语系;
所述语系类间距离,包括所述语系数据与所述印欧语系阈值数据之间的印欧语系类间距离数据、所述语系数据与所述闪含语系阈值数据之间的闪含语系类间数据、所述语系数据与所述阿尔泰语系阈值数据之间的阿尔泰语系类间数据、所述语系数据与所述乌拉尔语系阈值数据之间的乌拉尔语系类间数据、所述语系数据与所述高加索语系阈值数据之间的高加索语系类间数据、所述语系数据与所述汉藏语系阈值数据之间的汉藏语系类间数据和所述语系数据与所述德拉维达语系阈值数据之间的德拉维达语系类间距离。
在一个实施例中,所述S106、提取所述文本数据的关键词数据;具体步骤包括:
对所述文本数据进行分词处理,获取多个词组;具体包括如下步骤:
建立分词模型;其具体步骤如下所示S201-S203:
S201将所述文本数据中的第一个字标注为B,
S202提取所述文本数据中标注为B的后一个字,并标注为C,同时提取所述文本数据中中C所对应的字的所有前一个字去重后组成集合D,利用公式(2)判断所述标注为B的字是否是词语的结束字段;
Figure BDA0002503621400000041
其中,P1,P2为中间函数,length(D)为集合D中间的字的个数,P(B)为出现标注为B所对应的字的概率,P(C)为出现标注为C所对应的字的概率,length(all)为文本总长度,P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率,若最终B=B则,标注B不变,若B=E则将所述标注为B改为标注为E;
S203判断所述C是否为最后一个字,若是,则将所述标注C改为标注E,分词结束;若不是,则将所述标注为C改为标注为B,重复步骤S202和S203;
对所述文本数据分词的步骤为:
将文本数据的开始阶段和所有标注为E的字段后面增加切割线,则任意两个切割线之间为一个词组,提取所有词组,形成词组向量F1,对所述词组向量F1去除重复值,形成相应的词组集合F2,则所述集合F2中的词组则为分词处理后获取的词组,F2中含有词组个数为N个;
提取所述词组中的关键词数据;具体步骤包括:
首先利用公式(3)计算集合F2中每个词组的关键得分;
Figure BDA0002503621400000042
其中,Qi为F2中第i个词组的得分,e为自然常数,lenght(F2i)为F2中第i个词组的长度,P(F2i)为F2中第i个词组的长度在向量F1中出现的次数,i=1、2、3……n;
利用公式(4)确定关键词数据;
gjc=find(max(Q1,Q2,Q3……QN))
(4)
其中,gjc为最终得到的关键词,find(A)为寻找出A的值所对应的关键词,max()求取最大值;则gjc所对应的词则为确定的关键词数据。
一种语音识别转换系统,包括获取模块、语系识别模块、数据库选择模块、语种识别模块、文本转换模块、关键词提取模块和所述数据库更新模块;其中,所述获取模块,用于获取待识别的语音数据;
所述语系识别模块,用于根据多个语系数据库,识别与所述语音数据所对应的语系;
所述数据库选择模块,用于根据所述语系,从多个语系数据库中获取与所述语音数据对应的所述语系数据库;所述语系数据库,包括多个语种数据子库;
所述语种识别模块,用于从多个所述语种数据子库中获取与所述语音数据对应的语种;
所述文本转换模块,用于根据文本转换数据库,将所述语音数据转换为所述语种对应的文本数据;
所述关键词提取模块,用于提取所述文本数据的关键词数据;
所述数据库更新模块,用于获取所述语音数据中所述关键词数据对应的关键词语音数据,并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中。
在一个实施例中,所述文本转换数据库,包括信息类别识别单元、第一存储区和第二存储区;
所述信息类别识别单元,用于将所述关键词语音数据向所述第一存储区传输,还用于将所述关键词数据向所述第二存储区传输;所述第一存储区,用于对所述关键词语音数据通过第一加密算法运算后进行存储;所述第二存储区,用于对所述关键词数据通过第二加密算法运算后进行存储;所述第一存储区中还存储有所述关键词语音数据对应的所述关键词数据的存储地址;
所述第一加密算法或者所述第二加密算法,包括等值加密算法、对称加密算法中的一种或多种。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供一种语音识别转化方法的结构示意图;
图2为本发明所提供一种语音识别转化系统的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种语音识别转化方法,如图1所示,方法包括如下步骤:
S101、获取待识别的语音数据;
S102、根据多个语系数据库,识别语音数据所对应的语系;
S103、根据语系,从多个语系数据库中获取与语音数据对应的语系数据库;语系数据库,包括多个语种数据子库;
S104、从多个语种数据子库中获取与语音数据对应的语种;
S105、根据文本转换数据库,将语音数据转换为语种对应的文本数据;
S106、提取文本数据的关键词数据;
S107、获取语音数据中关键词数据对应的关键词语音数据,并将关键词数据和关键词语音数据存储到文本转换数据库中。
上述方法的工作原理在于:通过多个语系数据库,获取待识别的语音数据所对应的语系;根据语系,选择与语音数据相对应的语系数据库,语系数据库中存储有多个语种数据子库;通过多个语种数据子库,获取待识别的语音数据的语种;并根据文本转换数据库,将语音数据转换为该语种所对应的文本数据;
提取文本数据中的关键词数据,并在语音数据中获取关键词数据所对应的关键词语音数据向文本转换数据库传输进行存储。
上述方法的有益效果在于:通过多个语系数据库,实现了对语音数据的语系的获取;通过语系数据库中的多个语种数据子库,实现了对语音数据的语种的获取;并根据文本转换数据库,实现了将语音数据按照语种转换为文本数据;从而实现了语音识别转化的功能;上述方法通过语种的识别,将所获取的语音数据转化为与语音数据相同语种的文本数据,从而实现了将语音数据转化为文本数据;并且通过多个语系数据库以及语系数据库中的多个语种数据子库,实现了对不同语种的语音数据的转化。并且提取所生成的文本数据中的关键词数据,获取语音数据中关键词数据对应的关键词语音数据,将关键词语音数据和关键词数据向文本转换数据库传输进行存储,从而实现了对文本转换数据库的更新,进一步地提高了以后语音识别转换的效率;解决了传统技术中语音转化时需要人工设置语音转换语种的不便,能够实现对语音数据的语种的自动识别,转化为与语音数据具有相同语种的文本数据。
在一个实施例中,多个语系数据库,包括印欧语系数据库,闪含语系数据库,阿尔泰语系数据库,乌拉尔语系数据库,高加索语系数据库,汉藏语系数据库和德拉维达语系数据库。上述技术方案中按照世界七大语系设置了七个语系语系数据库,从而实现了对语音数据的语系的识别。
在一个实施例中,步骤S101、获取待识别的语音数据之后,方法包括:用于对语音数据进行预处理;具体步骤包括:
检测获取语音数据中的静音区间;
根据静音区间,对语音数据进行过滤处理,获取过滤处理后的语音数据。上述技术方案中通过检测静音区间,过滤处理了语音数据中的静音部分,减少了后续步骤工作所需的时间,提高了工作效率。
在一个实施例中,步骤S102、根据多个语系数据库,识别语音数据所对应的语系;具体步骤包括:
获取语音数据的语系数据;具体包括:将语音数据根据语音时长均等的分为两段子语音数据,并分别提取两段子语音数据的音频特征,形成两个语音频特征矩阵;并通过以下公式(1),获取语系数据:
Figure BDA0002503621400000081
其中F为语系数据,(Y1Y2…Yn)为第一段语音音频特征矩阵,(y1y2…yn)为第二段语音音频特征矩阵;
并将语系数据与多个语系数据库内预设的语系阈值数据进行比对,获取语音数据的所对应的语系;
语系阈值数据,包括印欧语系数据库对应的印欧语系阈值数据、闪含语系数据库对应的闪含语系阈值数据、阿尔泰语系数据库对应的阿尔泰语系阈值数据、乌拉尔语系数据库对应的乌拉尔语系阈值数据、高加索语系数据库对应的高加索语系阈值数据、汉藏语系数据库对应的汉藏语系阈值数据和德拉维达语系数据库对应的德拉维达语系阈值数据。上述技术方案中通过获取语音数据的语系数据,并将语系数据与预设的多个语系数据库所对应的语系阈值数据进行比对,当语系数据在某一个语系数据库所对应的语系阈值数据范围内时,则判定语音数据为该语系数据库所对应的语系,从而实现了对语音数据语种的识别。
例如:所获取的语音数据的语系数据为3.45;印欧语系数据库对应的印欧语系阈值数据为1-2、闪含语系数据库对应的闪含语系阈值数据为3-4、阿尔泰语系数据库对应的阿尔泰语系阈值数据为5-6、乌拉尔语系数据库对应的乌拉尔语系阈值数据为7-8、高加索语系数据库对应的高加索语系阈值数据为9-10、汉藏语系数据库对应的汉藏语系阈值数据为11-12和德拉维达语系数据库对应的德拉维达语系阈值数据为13-14;则判定该语音数据的语系为闪含语系。
在一个实施例中,步骤S102之后,方法还包括:
判断对语音数据的语系识别是否成功;
若识别成功,执行步骤S103;
若识别失败,则根据语系数据和语系阈值数据,计算语音数据的与语系阈值数据的语系类间距离数据;
获取语系类间距离中的最小值数据,并将最小值数据对应的语系作为语音数据的语系;
语系类间距离,包括语系数据与印欧语系阈值数据之间的印欧语系类间距离数据、语系数据与闪含语系阈值数据之间的闪含语系类间数据、语系数据与阿尔泰语系阈值数据之间的阿尔泰语系类间数据、语系数据与乌拉尔语系阈值数据之间的乌拉尔语系类间数据、语系数据与高加索语系阈值数据之间的高加索语系类间数据、语系数据与汉藏语系阈值数据之间的汉藏语系类间数据和语系数据与德拉维达语系阈值数据之间的德拉维达语系类间距离。上述技术方案中对语音数据的语系识别是否成功进行了判断,当语系识别成功后,执行后续步骤;当语系识别失败后,则计算语系数据与多个语系阈值数据之间的多个语系类间距离数据,语系类间距离中的最小值数据作为语音数据的语系,从而实现了对所有语音数据语系的准确识别。
例如:所获取的语音数据的语系数据为4.65;印欧语系阈值数据为1-2、闪含语系阈值数据为3-4、阿尔泰语系阈值数据为5-6、乌拉尔语系阈值数据为7-8、高加索语系阈值数据为9-10、汉藏语系阈值数据为11-12和德拉维达语系阈值数据为13-14;语音数据的语系数据4.65不在任何一个语系阈值数据中,则识别失败;
通过计算获取语系数据3.45与印欧语系阈值数据1-2之间的印欧语系类间距离数据为2.65、语系数据与闪含语系阈值数据3-4之间的闪含语系类间数据为0.65、语系数据与阿尔泰语系阈值数据5-6之间的阿尔泰语系类间数据0.35、语系数据与乌拉尔语系阈值数据7-8之间的乌拉尔语系类间数据2.35、语系数据与高加索语系阈值数据9-10之间的高加索语系类间数据4.35、语系数据与汉藏语系阈值数据11-12之间的汉藏语系类间数据6.35和语系数据与德拉维达语系阈值数据13-14之间的德拉维达语系类间距离8.35;语系类间距离中的最小值数据为阿尔泰语系类间数据0.35,则认定该语音数据的语系为阿尔泰语系。
在一个实施例中,S106、提取文本数据的关键词数据;具体步骤包括:
对文本数据进行分词处理,获取多个词组;具体包括如下步骤:
建立分词模型;其具体步骤如下所示S201-S203:
S201、将文本数据中的第一个字标注为B,
S202、提取文本数据中标注为B的后一个字,并标注为C,同时提取文本数据中中C所对应的字的所有前一个字去重后组成集合D,利用公式(2)判断标注为B的字是否是词语的结束字段;
Figure BDA0002503621400000101
其中,P1,P2为中间函数,length(D)为集合D中间的字的个数,P(B)为出现标注为B所对应的字的概率,P(C)为出现标注为C所对应的字的概率,length(all)为文本总长度,P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率,若最终B=B则,标注B不变,若B=E则将标注为B改为标注为E;利用公式(2),可以在不借助额外的样本数据库的情况下,将所述文本数据进行分词,且对分词进行处理时,在考虑第j个字的时候仅仅需要判断第j+1个字的情况,使判断计算量大幅度减小。
S203、判断C是否为最后一个字,若是,则将标注C改为标注E,分词结束;若不是,则将标注为C改为标注为B,重复步骤S202和S203;
对文本数据分词的步骤为:
将文本数据的开始阶段和所有标注为E的字段后面增加切割线,则任意两个切割线之间为一个词组,提取所有词组,形成词组向量F1,对词组向量F1去除重复值,形成相应的词组集合F2,则集合F2中的词组则为分词处理后获取的词组,F2中含有词组个数为N个;
提取词组中的关键词数据;具体步骤包括:
首先利用公式(3)计算集合F2中每个词组的关键得分;
Figure BDA0002503621400000111
其中,Qi为F2中第i个词组的得分,e为自然常数,lenght(F2i)为F2中第i个词组的长度,P(F2i)为F2中第i个词组的长度在向量F1中出现的次数,i=1、2、3……n;利用公式(3)在求解关键词数据的时候,并不仅仅是对词组进行出现次数最多的情况确认为关键词数据,而且充分的考虑了词组长短,避免了一些单独的语气助词成为关键词数据。
利用公式(4)确定关键词数据;
gjc=find(max(Q1,Q2,Q3……QN))
(4)
其中,gjc为最终得到的关键词,find(A)为寻找出A的值所对应的关键词,max()求取最大值;则gjc所对应的词则为确定的关键词数据。通过上述技术方案确定的关键词数据,实现了文本数据不借助任何外界样本数据库的情况下,利用少量的计算获取关键词数据,从而有效地提高了获取关键词数据的效率;上述技术方案中通过公式(2)、(3)和(4),实现了对文本数据中的关键词数据的获取,并通过步骤S107将关键词数据和关键词语音数据向文本转换数据库传输,从而实现了对文本转换数据库的自动更新,进一步提高了步骤S105的文本转换效率。
一种语音识别转换系统,如图2所示,包括获取模块21、语系识别模块22、数据库选择模块23、语种识别模块24、文本转换模块25、关键词提取模块26和数据库更新模块27;其中,
获取模块21,用于获取待识别的语音数据;
语系识别模块22,用于根据多个语系数据库,识别与语音数据所对应的语系;
数据库选择模块23,用于根据语系,从多个语系数据库中获取与语音数据对应的语系数据库;语系数据库,包括多个语种数据子库;
语种识别模块24,用于从多个语种数据子库中获取与语音数据对应的语种;
文本转换模块25,用于根据文本转换数据库,将语音数据转换为语种对应的文本数据;
关键词提取模块26,用于提取文本数据的关键词数据;
数据库更新模块27,用于获取语音数据中关键词数据对应的关键词语音数据,并将关键词数据和关键词语音数据存储到文本转换数据库中。
上述系统的工作原理在于:获取模块21将语音数据向语系识别模块22传输;语系识别模块22根据多个语系数据库获取语音数据所对应的语系,并向数据库选择模块23传输;数据库选择模块23,用于根据语系从多个语系数据库中获取语音数据所对应的语系数据库;语种识别模块24根据语系数据库中多个语种数据子库,获取语音数据所对应的语种;文本转换模块25,用于根据文本转换数据库,按照所获取的语种将语音数据转换为文本数据;
关键词提取模块26,用于提取文本数据中的关键词数据;数据库更新模块24,用于根据关键词数据从语音数据中获取与关键词数据相对应的关键词语音数据,并将关键词数据和关键词语音数据向文本转换数据库传输进行存储。
上述系统的有益效果在于:通过语系识别模块,实现了对语音数据的语系的获取;通过数据库选择模块和语种识别模块,实现了对语音数据的语种的获取;并通过文本转换模块根据文本转换数据库,实现了将语音数据按照语种转换为文本数据;从而实现了语音识别转化的功能;上述系统通过语种的识别,将所获取的语音数据转化为与语音数据相同语种的文本数据,从而实现了将语音数据转化为文本数据;并且通过多个语系数据库以及语系数据库中的多个语种数据子库,实现了对不同语种的语音数据的转化。通过关键词提取模块,提取所生成的文本数据中的关键词数据;通过数据库更新模块,获取语音数据中关键词数据对应的关键词语音数据,将关键词语音数据和关键词数据向文本转换数据库传输进行存储,从而实现了对文本转换数据库的更新,进一步地提高了系统的音识别转换的效率;解决了传统技术中语音转化时需要人工设置语音转换语种的不便,从而实现了系统对语音数据的语种的自动识别,转化为与语音数据具有相同语种的文本数据。
在一个实施例中,文本转换数据库,包括信息类别识别单元、第一存储区和第二存储区;
信息类别识别单元,用于将关键词语音数据向第一存储区传输,还用于将关键词数据向第二存储区传输;第一存储区,用于对关键词语音数据通过第一加密算法运算后进行存储;第二存储区,用于对关键词数据通过第二加密算法运算后进行存储;第一存储区中还存储有关键词语音数据对应的关键词数据的存储地址;
第一加密算法或者第二加密算法,包括等值加密算法、对称加密算法中的一种或多种。上述技术方案中通过信息类别识别单元将关键词语音数据和关键词数据分别向第一存储区和第二存储区传输进行存储,并且第一存储区和第二存储区分别采用第一加密算法和第二加密算法对所存储的数据进行加密处理,有效地提高了文本转换数据库的存储数据的安全性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种语音识别转化方法,其特征在于,所述方法包括如下步骤:
S101、获取待识别的语音数据;
S102、根据多个语系数据库,识别所述语音数据所对应的语系;
S103、根据所述语系,从多个语系数据库中获取与所述语音数据对应的所述语系数据库;所述语系数据库,包括多个语种数据子库;
S104、从多个所述语种数据子库中获取与所述语音数据对应的语种;
S105、根据文本转换数据库,将所述语音数据转换为所述语种对应的文本数据;
S106、提取所述文本数据的关键词数据;
S107、获取所述语音数据中所述关键词数据对应的关键词语音数据,并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中;
所述S106、提取所述文本数据的关键词数据;具体步骤包括:
对所述文本数据进行分词处理,获取多个词组;具体包括如下步骤:
建立分词模型;其具体步骤如下所示S201-S203:
S201将所述文本数据中的第一个字标注为B,
S202提取所述文本数据中标注为B的后一个字,并标注为C,同时提取所述文本数据中中C所对应的字的所有前一个字去重后组成集合D,利用公式(2)判断所述标注为B的字是否是词语的结束字段;
Figure FDA0002503621390000011
Figure FDA0002503621390000012
Figure FDA0002503621390000013
其中,P1,P2为中间函数,length(D)为集合D中间的字的个数,P(B)为出现标注为B所对应的字的概率,P(C)为出现标注为C所对应的字的概率,length(all)为文本总长度,P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率,若最终B=B则,标注B不变,若B=E则将所述标注为B改为标注为E;
S203判断所述C是否为最后一个字,若是,则将所述标注C改为标注E,分词结束;若不是,则将所述标注为C改为标注为B,重复步骤S202和S203;
对所述文本数据分词的步骤为:
将文本数据的开始阶段和所有标注为E的字段后面增加切割线,则任意两个切割线之间为一个词组,提取所有词组,形成词组向量F1,对所述词组向量F1去除重复值,形成相应的词组集合F2,则所述集合F2中的词组则为分词处理后获取的词组,F2中含有词组个数为N个;
提取所述词组中的关键词数据;具体步骤包括:
首先利用公式(3)计算集合F2中每个词组的关键得分;
Figure FDA0002503621390000021
其中,Qi为F2中第i个词组的得分,e为自然常数,lenght(F2i)为F2中第i个词组的长度,P(F2i)为F2中第i个词组的长度在向量F1中出现的次数,i=1、2、3……n;
利用公式(4)确定关键词数据;
gjc=find(max(Q1,Q2,Q3……QN))
(4)
其中,gjc为最终得到的关键词,find(A)为寻找出A的值所对应的关键词,max()求取最大值;则gjc所对应的词则为确定的关键词数据。
2.如权利要求1所述的方法,其特征在于,
多个所述语系数据库,包括印欧语系数据库,闪含语系数据库,阿尔泰语系数据库,乌拉尔语系数据库,高加索语系数据库,汉藏语系数据库和德拉维达语系数据库。
3.如权利要求1所述的方法,其特征在于,
所述步骤S101、获取待识别的语音数据之后,所述方法包括:用于对所述语音数据进行预处理;具体步骤包括:
检测获取所述语音数据中的静音区间;
根据所述静音区间,对所述语音数据进行过滤处理,获取过滤处理后的语音数据。
4.如权利要求1所述的方法,其特征在于,
所述步骤S102之后,所述方法还包括:
判断对所述语音数据的语系识别是否成功;
若识别成功,执行所述步骤S103;
若识别失败,则根据所述语系数据和所述语系阈值数据,计算所述语音数据的与所述语系阈值数据的语系类间距离数据;
获取所述语系类间距离中的最小值数据,并将所述最小值数据对应的语系作为所述语音数据的语系;
所述语系类间距离,包括所述语系数据与所述印欧语系阈值数据之间的印欧语系类间距离数据、所述语系数据与所述闪含语系阈值数据之间的闪含语系类间数据、所述语系数据与所述阿尔泰语系阈值数据之间的阿尔泰语系类间数据、所述语系数据与所述乌拉尔语系阈值数据之间的乌拉尔语系类间数据、所述语系数据与所述高加索语系阈值数据之间的高加索语系类间数据、所述语系数据与所述汉藏语系阈值数据之间的汉藏语系类间数据和所述语系数据与所述德拉维达语系阈值数据之间的德拉维达语系类间距离。
5.一种语音识别转换系统,其特征在于,包括获取模块、语系识别模块、数据库选择模块、语种识别模块、文本转换模块、关键词提取模块和所述数据库更新模块;其中,
所述获取模块,用于获取待识别的语音数据;
所述语系识别模块,用于根据多个语系数据库,识别与所述语音数据所对应的语系;
所述数据库选择模块,用于根据所述语系,从多个语系数据库中获取与所述语音数据对应的所述语系数据库;所述语系数据库,包括多个语种数据子库;
所述语种识别模块,用于从多个所述语种数据子库中获取与所述语音数据对应的语种;
所述文本转换模块,用于根据文本转换数据库,将所述语音数据转换为所述语种对应的文本数据;
所述关键词提取模块,用于提取所述文本数据的关键词数据;
所述数据库更新模块,用于获取所述语音数据中所述关键词数据对应的关键词语音数据,并将所述关键词数据和关键词语音数据存储到所述文本转换数据库中;
所述语系识别模块根据多个语系数据库,识别所述语音数据所对应的语系;具体步骤包括:
所述关键词提取模块,用于提取所述文本数据的关键词数据;具体步骤包括:
对所述文本数据进行分词处理,获取多个词组;具体包括如下步骤:
建立分词模型;其具体步骤如下所示:
将所述文本数据中的第一个字标注为B,
提取所述文本数据中标注为B的后一个字,并标注为C,同时提取所述文本数据中中C所对应的字的所有前一个字去重后组成集合D,利用公式(2)判断所述标注为B的字是否是词语的结束字段;
Figure FDA0002503621390000051
Figure FDA0002503621390000052
Figure FDA0002503621390000053
其中,P1,P2为中间函数,length(D)为集合D中间的字的个数,P(B)为出现标注为B所对应的字的概率,P(C)为出现标注为C所对应的字的概率,length(all)为文本总长度,P(BC)为标注为B所对应字和标注为C所对应的字同时出现的概率,若最终B=B则,标注B不变,若B=E则将所述标注为B改为标注为E;
判断所述C是否为最后一个字,若是,则将所述标注C改为标注E,分词结束;若不是,则将所述标注为C改为标注为B,重复步骤S202和S203;
对所述文本数据分词的步骤为:
将文本数据的开始阶段和所有标注为E的字段后面增加切割线,则任意两个切割线之间为一个词组,提取所有词组,形成词组向量F1,对所述词组向量F1去除重复值,形成相应的词组集合F2,则所述集合F2中的词组则为分词处理后获取的词组,F2中含有词组个数为N个;
提取所述词组中的关键词数据;具体步骤包括:
首先利用公式(3)计算集合F2中每个词组的关键得分;
Figure FDA0002503621390000054
其中,Qi为F2中第i个词组的得分,e为自然常数,lenght(F2i)为F2中第i个词组的长度,P(F2i)为F2中第i个词组的长度在向量F1中出现的次数,i=1、2、3……n;
利用公式(4)确定关键词数据;
gjc=find(max(Q1,Q2,Q3……QN))
(4)
其中,gjc为最终得到的关键词,find(A)为寻找出A的值所对应的关键词,max()求取最大值;则gjc所对应的词则为确定的关键词数据。
6.如权利要求5所述的系统,其特征在于,
所述文本转换数据库,包括信息类别识别单元、第一存储区和第二存储区;
所述信息类别识别单元,用于将所述关键词语音数据向所述第一存储区传输,还用于将所述关键词数据向所述第二存储区传输;所述第一存储区,用于对所述关键词语音数据通过第一加密算法运算后进行存储;所述第二存储区,用于对所述关键词数据通过第二加密算法运算后进行存储;所述第一存储区中还存储有所述关键词语音数据对应的所述关键词数据的存储地址;
所述第一加密算法或者所述第二加密算法,包括等值加密算法、对称加密算法中的一种或多种。
CN202010439672.8A 2019-04-29 2019-04-29 一种语音识别转化方法及系统 Active CN111583905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439672.8A CN111583905B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910356270.9A CN110070853B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统
CN202010439672.8A CN111583905B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201910356270.9A Division CN110070853B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统

Publications (2)

Publication Number Publication Date
CN111583905A true CN111583905A (zh) 2020-08-25
CN111583905B CN111583905B (zh) 2021-03-30

Family

ID=67369504

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910356270.9A Active CN110070853B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统
CN202010439672.8A Active CN111583905B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910356270.9A Active CN110070853B (zh) 2019-04-29 2019-04-29 一种语音识别转化方法及系统

Country Status (1)

Country Link
CN (2) CN110070853B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021087665A1 (zh) * 2019-11-04 2021-05-14 深圳市欢太科技有限公司 数据处理方法、装置、服务器和存储介质
CN110929085B (zh) * 2019-11-14 2023-12-19 国家电网有限公司 基于元语义分解的电力客服留言生成模型样本处理系统及方法
CN111027528B (zh) * 2019-11-22 2023-10-03 华为技术有限公司 语种识别方法、装置、终端设备及计算机可读存储介质
CN111798835A (zh) * 2020-07-25 2020-10-20 深圳市维度统计咨询股份有限公司 一种语音识别转化系统及方法
CN112581957B (zh) * 2020-12-04 2023-04-11 浪潮电子信息产业股份有限公司 一种计算机语音控制方法、系统及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
CN106683662A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种语音识别方法和装置
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
CN107221318B (zh) * 2017-05-12 2020-03-31 广东外语外贸大学 英语口语发音评分方法和系统
WO2019022722A1 (en) * 2017-07-25 2019-01-31 Hewlett-Packard Development Company, L.P. LANGUAGE IDENTIFICATION WITH VOCAL AND VISUAL ANTHROPOMETRIC CHARACTERISTICS
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108510977B (zh) * 2018-03-21 2020-05-22 清华大学 语种识别方法及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
CN106683662A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种语音识别方法和装置
CN107945805A (zh) * 2017-12-19 2018-04-20 程海波 一种智能化跨语言语音识别转化方法
CN109616096A (zh) * 2018-12-29 2019-04-12 北京智能管家科技有限公司 多语种语音解码图的构建方法、装置、服务器和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. GONZALEZ-DOMINGUEZ 等: ""A Real-Time End-to-End Multilingual Speech Recognition Architecture"", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
王洪海: ""基于声学特征的自动语言辨识研究"", 《CNKI中国硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN110070853A (zh) 2019-07-30
CN111583905B (zh) 2021-03-30
CN110070853B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111583905B (zh) 一种语音识别转化方法及系统
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN106649783B (zh) 一种同义词挖掘方法和装置
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN109145276A (zh) 一种基于拼音的语音转文字后的文本校正方法
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN109977398A (zh) 一种特定领域的语音识别文本纠错方法
CN105095196A (zh) 文本中新词发现的方法和装置
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN115618883A (zh) 一种业务语义识别方法及装置
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN112231451A (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN114266256A (zh) 一种领域新词的提取方法及系统
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN109545186B (zh) 一种语音识别训练系统及方法
CN115983266A (zh) 用于银行征信数据审核的拼音变体文本识别方法及系统
CN113886420B (zh) Sql语句的生成方法、装置、电子设备及存储介质
CN111881678B (zh) 一种基于无监督学习的领域词发现方法
CN108595584B (zh) 一种基于数字标记的汉字输出方法和系统
CN113420564A (zh) 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN112668328A (zh) 媒体智能校对算法
CN110955768A (zh) 一种基于句法分析的问答系统答案生成方法
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
Xia et al. An efficient off-line handwritten Japanese address recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230406

Address after: 518000 Room 401, building B, Runfeng Industrial Park, 4197 Bao'an Avenue, Gushu community, Xixiang street, Bao'an District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen aikebei Electronics Co.,Ltd.

Address before: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee before: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Effective date of registration: 20230406

Address after: 230000 b-1018, Woye Garden commercial office building, 81 Ganquan Road, Shushan District, Hefei City, Anhui Province

Patentee after: HEFEI WISDOM DRAGON MACHINERY DESIGN Co.,Ltd.

Address before: No. 285, Jiefang South Road, Chengnan New District, Yancheng City, Jiangsu Province, 224000

Patentee before: YANCHENG INSTITUTE OF INDUSTRY TECHNOLOGY