CN112001155A - 智能语音标注方法和系统 - Google Patents
智能语音标注方法和系统 Download PDFInfo
- Publication number
- CN112001155A CN112001155A CN202011048837.5A CN202011048837A CN112001155A CN 112001155 A CN112001155 A CN 112001155A CN 202011048837 A CN202011048837 A CN 202011048837A CN 112001155 A CN112001155 A CN 112001155A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- sample information
- vector set
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了智能语音标注方法和系统,其能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
Description
技术领域
本发明涉及智能教育的技术领域,特别涉及智能语音标注方法和系统。
背景技术
学生在阅读资料文本的过程中常常需要对资料文本包含的词语和/或文字进行标注,以此增加相应词语/文字含义解释,从而便于提高学生对资料文本的理解程度和学习效率。而现有的对资料文本进行标注都是通过手动的方式来相应的纸质资料文本或者电子资料文本上逐一地增加相应的标注内容,这种方式需要耗费大量时间对资料文本进行浏览和标注,其不仅效率低下,并且还容易发生误标注或者遗漏标注的情况,从而大大地降低文本标注的有效性和可靠性。可见,现有技术需要通过非手动标注的方式就能够对不同文本数据进行全面的和准确的标注手段。
发明内容
针对现有技术存在的缺陷,本发明提供智能语音标注方法和系统,其通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
本发明提供智能语音标注方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度;
步骤S3,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作;
进一步,在所述步骤S1中,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
步骤S102,对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值;
进一步,在所述步骤S2中,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
步骤S201,对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
步骤S202,根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000];
进一步,在所述步骤S3中,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
步骤S301,根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
本发明还提供智能语音标注系统,其特征在于,其包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
所述语音样本获取模块用于对用户进行录音,以此获得来自所述用户的语音样本信息;
所述语音向量集合生成模块用于对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
所述语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合;
所述向量集合相似度确定模块用于确定所述语音向量集合与所述语义向量集合之间的匹配度;
所述标注操作模块用于根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作;
进一步,所述语音样本获取模块对用户进行录音,以此获得来自所述用户的语音样本信息具体包括:
采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
以及,
所述语音向量集合生成模块对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
再根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值;
进一步,所述语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合具体包括:
对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
以及,
所述向量集合相似度确定模块确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000];
进一步,所述标注操作模块根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
相比于现有技术,该智能语音标注方法和系统通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的智能语音标注方法的流程示意图。
图2为本发明提供的智能语音标注系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的智能语音标注方法的流程示意图。该智能语音标注方法包括如下步骤:
步骤S1,对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与该语义向量集合之间的匹配度;
步骤S3,根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作。
上述技术方案的有益效果为:该智能语音标注方法能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
优选地,在该步骤S1中,对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对该用户进行多方位录音,以此获得来自该用户的语音样本信息;
步骤S102,对该语音样本信息进行卡尔曼滤波降噪处理,以此消除该语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对该语音样本信息进行傅里叶变换处理,从而获得与该语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与该语音样本信息对应的语音向量集合,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示该语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示该语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
上述技术方案的有益效果为:采用阵列麦克风对用户进行多方位录音以及对录音得到的语音样本信息进行卡尔曼滤波降噪处理,以此消除其中的背景噪声,这样能够提高对该语音样本信息处理的准确性;此外,通过上述公式(1),对该语音样本信息进行傅里叶变换处理能够有效地从该语音样本信息中提取得到相应的语音向量集合,从而便于后续对该语音向量集合进行可靠的处理。
优选地,在该步骤S2中,对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与该语义向量集合之间的匹配度具体包括:
步骤S201,对该待标注学习文本进行语义识别处理,以此获得与该待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成该语义向量集合;
步骤S202,根据下面公式(2),确定该语音向量集合与该语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示该语音向量集合中第t秒时对应的语音数据的语音向量值与该语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示该语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示该语义向量集合中第m组文字对应的语义向量值,Om-1表示该语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示该语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
上述技术方案的有益效果为:对该待标注学习文本包含的每一组文字进行语义识别处理,能够将每一组文字一一对应转换为语义向量值,从而保证得到的语义向量集合能够全面地反映该待标注学习文本的真实语义情况;此外,通过上述公式(2)计算得到该语音向量集合与该语义向量集合之间的匹配度,能够保证对该语音样本信息和该待标注学习文本进行有效的和量化的比对处理。
优选地,在该步骤S3中,根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作具体包括:
步骤S301,根据该匹配度和下面公式(3),确定该待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示该语音向量集合中第t秒的语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值匹配时、该第m组文字在该待标注学习文本中对应的行位置,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示该语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示该语音样本信息中第t秒语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值之和,T表示该语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据该行位置H(Rm),对该待标注学习文本中该行位置H(Rm)对应的文字进行相应语音数据的标注操作。具体地,将所述语音向量集合中第t秒的语音数据标注在该行位置H(Rm)处,作为对该行位置H(Rm)的文字语音解释。
上述技术方案的有益效果为:通过上述公式(3),计算该待标注学习文本需要进行标注操作的文字所在的行位置,能够便于对该待标注学习文本进行全面的浏览和文字标注,从而提高对该待标注学习文本进行标注操作的全面性和准确性。
参阅图2,为本发明实施例提供的智能语音标注系统的结构示意图。该智能语音标注系统包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
该语音样本获取模块用于对用户进行录音,以此获得来自该用户的语音样本信息;
该语音向量集合生成模块用于对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合;
该语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合;
该向量集合相似度确定模块用于确定该语音向量集合与该语义向量集合之间的匹配度;
该标注操作模块用于根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作。
上述技术方案的有益效果为:该智能语音标注系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
优选地,该语音样本获取模块对用户进行录音,以此获得来自该用户的语音样本信息具体包括:
采用阵列麦克风对该用户进行多方位录音,以此获得来自该用户的语音样本信息;
以及,
该语音向量集合生成模块对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合具体包括:
对该语音样本信息进行卡尔曼滤波降噪处理,以此消除该语音样本信息中的背景噪声;
再根据下面公式(1),对该语音样本信息进行傅里叶变换处理,从而获得与该语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与该语音样本信息对应的语音向量集合,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示该语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示该语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
上述技术方案的有益效果为:采用阵列麦克风对用户进行多方位录音以及对录音得到的语音样本信息进行卡尔曼滤波降噪处理,以此消除其中的背景噪声,这样能够提高对该语音样本信息处理的准确性;此外,通过上述公式(1),对该语音样本信息进行傅里叶变换处理能够有效地从该语音样本信息中提取得到相应的语音向量集合,从而便于后续对该语音向量集合进行可靠的处理。
优选地,该语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合具体包括:
对该待标注学习文本进行语义识别处理,以此获得与该待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成该语义向量集合;
以及,
该向量集合相似度确定模块确定该语音向量集合与该语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定该语音向量集合与该语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示该语音向量集合中第t秒时对应的语音数据的语音向量值与该语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示该语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示该语义向量集合中第m组文字对应的语义向量值,Om-1表示该语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示该语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
上述技术方案的有益效果为:对该待标注学习文本包含的每一组文字进行语义识别处理,能够将每一组文字一一对应转换为语义向量值,从而保证得到的语义向量集合能够全面地反映该待标注学习文本的真实语义情况;此外,通过上述公式(2)计算得到该语音向量集合与该语义向量集合之间的匹配度,能够保证对该语音样本信息和该待标注学习文本进行有效的和量化的比对处理。
优选地,该标注操作模块根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作具体包括:
根据该匹配度和下面公式(3),确定该待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示该语音向量集合中第t秒的语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值匹配时、该第m组文字在该待标注学习文本中对应的行位置,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示该语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示该语音样本信息中第t秒语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值之和,T表示该语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据该行位置H(Rm),对该待标注学习文本中该行位置H(Rm)对应的文字进行相应语音数据的标注操作。
上述技术方案的有益效果为:通过上述公式(3),计算该待标注学习文本需要进行标注操作的文字所在的行位置,能够便于对该待标注学习文本进行全面的浏览和文字标注,从而提高对该待标注学习文本进行标注操作的全面性和准确性。
从上述实施例的内容可知,该智能语音标注方法和系统通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.智能语音标注方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度;
步骤S3,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作。
2.如权利要求1所述的智能语音标注方法,其特征在于:
在所述步骤S1中,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
步骤S102,对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
3.如权利要求2所述的智能语音标注方法和,其特征在于:
在所述步骤S2中,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
步骤S201,对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
步骤S202,根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
4.如权利要求3所述的智能语音标注方法,其特征在于:
在所述步骤S3中,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
步骤S301,根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
5.智能语音标注系统,其特征在于,其包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
所述语音样本获取模块用于对用户进行录音,以此获得来自所述用户的语音样本信息;
所述语音向量集合生成模块用于对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
所述语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合;
所述向量集合相似度确定模块用于确定所述语音向量集合与所述语义向量集合之间的匹配度;
所述标注操作模块用于根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作。
6.如权利要求5所述的智能语音标注系统,其特征在于:
所述语音样本获取模块对用户进行录音,以此获得来自所述用户的语音样本信息具体包括:
采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
以及,
所述语音向量集合生成模块对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
再根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
7.如权利要求6所述的智能语音标注系统,其特征在于:
所述语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合具体包括:
对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
以及,
所述向量集合相似度确定模块确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
8.如权利要求7所述的智能语音标注系统,其特征在于:
所述标注操作模块根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011048837.5A CN112001155B (zh) | 2020-09-29 | 2020-09-29 | 智能语音标注方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011048837.5A CN112001155B (zh) | 2020-09-29 | 2020-09-29 | 智能语音标注方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001155A true CN112001155A (zh) | 2020-11-27 |
CN112001155B CN112001155B (zh) | 2021-04-30 |
Family
ID=73474996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011048837.5A Active CN112001155B (zh) | 2020-09-29 | 2020-09-29 | 智能语音标注方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001155B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343709A (zh) * | 2021-06-22 | 2021-09-03 | 北京三快在线科技有限公司 | 意图识别模型的训练方法、意图识别方法、装置及设备 |
WO2023273702A1 (zh) * | 2021-06-29 | 2023-01-05 | 华为技术有限公司 | 一种语音信息与演示信息同步的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
CN111079714A (zh) * | 2020-01-02 | 2020-04-28 | 上海乂学教育科技有限公司 | 智能在线笔记生成系统 |
US20200168210A1 (en) * | 2018-11-26 | 2020-05-28 | Sogang University Research Foundation | Device and method for analyzing speech act |
-
2020
- 2020-09-29 CN CN202011048837.5A patent/CN112001155B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
US20200168210A1 (en) * | 2018-11-26 | 2020-05-28 | Sogang University Research Foundation | Device and method for analyzing speech act |
CN111079714A (zh) * | 2020-01-02 | 2020-04-28 | 上海乂学教育科技有限公司 | 智能在线笔记生成系统 |
Non-Patent Citations (1)
Title |
---|
沈映泉: "利用人类计算技术的语音语料库标注方法及其实现", 《智能系统学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343709A (zh) * | 2021-06-22 | 2021-09-03 | 北京三快在线科技有限公司 | 意图识别模型的训练方法、意图识别方法、装置及设备 |
CN113343709B (zh) * | 2021-06-22 | 2022-08-16 | 北京三快在线科技有限公司 | 意图识别模型的训练方法、意图识别方法、装置及设备 |
WO2023273702A1 (zh) * | 2021-06-29 | 2023-01-05 | 华为技术有限公司 | 一种语音信息与演示信息同步的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112001155B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Handwritten Urdu character recognition using one-dimensional BLSTM classifier | |
CN109271401B (zh) | 一种题目搜索、批改方法、装置、电子设备和存储介质 | |
WO2021114840A1 (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN109919147A (zh) | 服装吊牌图像中文本识别的方法 | |
CN109800761A (zh) | 基于深度学习模型创建纸质文档结构化数据的方法和终端 | |
CN110232340B (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN112001155B (zh) | 智能语音标注方法和系统 | |
CN109902285B (zh) | 语料分类方法、装置、计算机设备及存储介质 | |
CN109189895B (zh) | 一种针对口算题的题目批改方法及装置 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN114429635A (zh) | 书本管理方法 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
Bharambe et al. | Automatic answer evaluation using machine learning | |
US20200294410A1 (en) | Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets | |
Ahmed et al. | A generic method for automatic ground truth generation of camera-captured documents | |
Nguyen et al. | Handwriting recognition and automatic scoring for descriptive answers in Japanese language tests | |
CN116884006A (zh) | 结合视觉扫描识别与纠正的数学解题方法和系统 | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 | |
CN111079489B (zh) | 一种内容识别方法及电子设备 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
Granell et al. | Processing a large collection of historical tabular images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20221020 Granted publication date: 20210430 |