CN112001155A - 智能语音标注方法和系统 - Google Patents

智能语音标注方法和系统 Download PDF

Info

Publication number
CN112001155A
CN112001155A CN202011048837.5A CN202011048837A CN112001155A CN 112001155 A CN112001155 A CN 112001155A CN 202011048837 A CN202011048837 A CN 202011048837A CN 112001155 A CN112001155 A CN 112001155A
Authority
CN
China
Prior art keywords
voice
speech
sample information
vector set
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011048837.5A
Other languages
English (en)
Other versions
CN112001155B (zh
Inventor
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202011048837.5A priority Critical patent/CN112001155B/zh
Publication of CN112001155A publication Critical patent/CN112001155A/zh
Application granted granted Critical
Publication of CN112001155B publication Critical patent/CN112001155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了智能语音标注方法和系统,其能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。

Description

智能语音标注方法和系统
技术领域
本发明涉及智能教育的技术领域,特别涉及智能语音标注方法和系统。
背景技术
学生在阅读资料文本的过程中常常需要对资料文本包含的词语和/或文字进行标注,以此增加相应词语/文字含义解释,从而便于提高学生对资料文本的理解程度和学习效率。而现有的对资料文本进行标注都是通过手动的方式来相应的纸质资料文本或者电子资料文本上逐一地增加相应的标注内容,这种方式需要耗费大量时间对资料文本进行浏览和标注,其不仅效率低下,并且还容易发生误标注或者遗漏标注的情况,从而大大地降低文本标注的有效性和可靠性。可见,现有技术需要通过非手动标注的方式就能够对不同文本数据进行全面的和准确的标注手段。
发明内容
针对现有技术存在的缺陷,本发明提供智能语音标注方法和系统,其通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
本发明提供智能语音标注方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度;
步骤S3,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作;
进一步,在所述步骤S1中,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
步骤S102,对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
Figure BDA0002708886440000021
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值;
进一步,在所述步骤S2中,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
步骤S201,对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
步骤S202,根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
Figure BDA0002708886440000031
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000];
进一步,在所述步骤S3中,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
步骤S301,根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
Figure BDA0002708886440000041
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
本发明还提供智能语音标注系统,其特征在于,其包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
所述语音样本获取模块用于对用户进行录音,以此获得来自所述用户的语音样本信息;
所述语音向量集合生成模块用于对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
所述语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合;
所述向量集合相似度确定模块用于确定所述语音向量集合与所述语义向量集合之间的匹配度;
所述标注操作模块用于根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作;
进一步,所述语音样本获取模块对用户进行录音,以此获得来自所述用户的语音样本信息具体包括:
采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
以及,
所述语音向量集合生成模块对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
再根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
Figure BDA0002708886440000051
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值;
进一步,所述语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合具体包括:
对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
以及,
所述向量集合相似度确定模块确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
Figure BDA0002708886440000061
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000];
进一步,所述标注操作模块根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
Figure BDA0002708886440000062
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
相比于现有技术,该智能语音标注方法和系统通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的智能语音标注方法的流程示意图。
图2为本发明提供的智能语音标注系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的智能语音标注方法的流程示意图。该智能语音标注方法包括如下步骤:
步骤S1,对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与该语义向量集合之间的匹配度;
步骤S3,根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作。
上述技术方案的有益效果为:该智能语音标注方法能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
优选地,在该步骤S1中,对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对该用户进行多方位录音,以此获得来自该用户的语音样本信息;
步骤S102,对该语音样本信息进行卡尔曼滤波降噪处理,以此消除该语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对该语音样本信息进行傅里叶变换处理,从而获得与该语音样本信息对应的语音向量集合:
Figure BDA0002708886440000091
在上述公式(1)中,Type表示与该语音样本信息对应的语音向量集合,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示该语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示该语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
上述技术方案的有益效果为:采用阵列麦克风对用户进行多方位录音以及对录音得到的语音样本信息进行卡尔曼滤波降噪处理,以此消除其中的背景噪声,这样能够提高对该语音样本信息处理的准确性;此外,通过上述公式(1),对该语音样本信息进行傅里叶变换处理能够有效地从该语音样本信息中提取得到相应的语音向量集合,从而便于后续对该语音向量集合进行可靠的处理。
优选地,在该步骤S2中,对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与该语义向量集合之间的匹配度具体包括:
步骤S201,对该待标注学习文本进行语义识别处理,以此获得与该待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成该语义向量集合;
步骤S202,根据下面公式(2),确定该语音向量集合与该语义向量集合之间的匹配度:
Figure BDA0002708886440000101
在上述公式(2),Sim(Rt,Om)表示该语音向量集合中第t秒时对应的语音数据的语音向量值与该语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示该语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示该语义向量集合中第m组文字对应的语义向量值,Om-1表示该语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示该语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
上述技术方案的有益效果为:对该待标注学习文本包含的每一组文字进行语义识别处理,能够将每一组文字一一对应转换为语义向量值,从而保证得到的语义向量集合能够全面地反映该待标注学习文本的真实语义情况;此外,通过上述公式(2)计算得到该语音向量集合与该语义向量集合之间的匹配度,能够保证对该语音样本信息和该待标注学习文本进行有效的和量化的比对处理。
优选地,在该步骤S3中,根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作具体包括:
步骤S301,根据该匹配度和下面公式(3),确定该待标注学习文本需要进行标注操作的文字所在的行位置:
Figure BDA0002708886440000111
在上述公式(3)中,H(Rm)表示该语音向量集合中第t秒的语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值匹配时、该第m组文字在该待标注学习文本中对应的行位置,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示该语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示该语音样本信息中第t秒语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值之和,T表示该语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据该行位置H(Rm),对该待标注学习文本中该行位置H(Rm)对应的文字进行相应语音数据的标注操作。具体地,将所述语音向量集合中第t秒的语音数据标注在该行位置H(Rm)处,作为对该行位置H(Rm)的文字语音解释。
上述技术方案的有益效果为:通过上述公式(3),计算该待标注学习文本需要进行标注操作的文字所在的行位置,能够便于对该待标注学习文本进行全面的浏览和文字标注,从而提高对该待标注学习文本进行标注操作的全面性和准确性。
参阅图2,为本发明实施例提供的智能语音标注系统的结构示意图。该智能语音标注系统包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
该语音样本获取模块用于对用户进行录音,以此获得来自该用户的语音样本信息;
该语音向量集合生成模块用于对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合;
该语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合;
该向量集合相似度确定模块用于确定该语音向量集合与该语义向量集合之间的匹配度;
该标注操作模块用于根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作。
上述技术方案的有益效果为:该智能语音标注系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
优选地,该语音样本获取模块对用户进行录音,以此获得来自该用户的语音样本信息具体包括:
采用阵列麦克风对该用户进行多方位录音,以此获得来自该用户的语音样本信息;
以及,
该语音向量集合生成模块对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合具体包括:
对该语音样本信息进行卡尔曼滤波降噪处理,以此消除该语音样本信息中的背景噪声;
再根据下面公式(1),对该语音样本信息进行傅里叶变换处理,从而获得与该语音样本信息对应的语音向量集合:
Figure BDA0002708886440000131
在上述公式(1)中,Type表示与该语音样本信息对应的语音向量集合,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示该语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示该语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
上述技术方案的有益效果为:采用阵列麦克风对用户进行多方位录音以及对录音得到的语音样本信息进行卡尔曼滤波降噪处理,以此消除其中的背景噪声,这样能够提高对该语音样本信息处理的准确性;此外,通过上述公式(1),对该语音样本信息进行傅里叶变换处理能够有效地从该语音样本信息中提取得到相应的语音向量集合,从而便于后续对该语音向量集合进行可靠的处理。
优选地,该语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合具体包括:
对该待标注学习文本进行语义识别处理,以此获得与该待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成该语义向量集合;
以及,
该向量集合相似度确定模块确定该语音向量集合与该语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定该语音向量集合与该语义向量集合之间的匹配度:
Figure BDA0002708886440000132
在上述公式(2),Sim(Rt,Om)表示该语音向量集合中第t秒时对应的语音数据的语音向量值与该语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示该语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示该语义向量集合中第m组文字对应的语义向量值,Om-1表示该语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示该语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
上述技术方案的有益效果为:对该待标注学习文本包含的每一组文字进行语义识别处理,能够将每一组文字一一对应转换为语义向量值,从而保证得到的语义向量集合能够全面地反映该待标注学习文本的真实语义情况;此外,通过上述公式(2)计算得到该语音向量集合与该语义向量集合之间的匹配度,能够保证对该语音样本信息和该待标注学习文本进行有效的和量化的比对处理。
优选地,该标注操作模块根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行该标注操作具体包括:
根据该匹配度和下面公式(3),确定该待标注学习文本需要进行标注操作的文字所在的行位置:
Figure BDA0002708886440000141
在上述公式(3)中,H(Rm)表示该语音向量集合中第t秒的语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值匹配时、该第m组文字在该待标注学习文本中对应的行位置,Rt表示该语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示该语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示该语音样本信息中第t秒语音数据对应的语音向量值与该语义向量集合中第m组文字对应的语义向量值之和,T表示该语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据该行位置H(Rm),对该待标注学习文本中该行位置H(Rm)对应的文字进行相应语音数据的标注操作。
上述技术方案的有益效果为:通过上述公式(3),计算该待标注学习文本需要进行标注操作的文字所在的行位置,能够便于对该待标注学习文本进行全面的浏览和文字标注,从而提高对该待标注学习文本进行标注操作的全面性和准确性。
从上述实施例的内容可知,该智能语音标注方法和系统通过对用户进行录音,以此获得来自该用户的语音样本信息,并对该语音样本信息进行预处理,从而获得与该语音样本信息对应的语音向量集合,并对待标注学习文本进行语义识别处理,以此获得与该待标注学习文本对应的语义向量集合,再确定该语音向量集合与所述语义向量集合之间的匹配度,再根据该匹配度,确定该待标注学习文本需要进行标注操作的文字的位置信息,再根据该位置信息,对相应的文字进行所述标注操作;可见,该智能语音标注方法和系统能够以来自用户的语音样本信息作为标注操作的依据,其对该语音样本信息进行处理得到相应的语音向量集合,同时对待标注学习文本进行处理以得到相应的语义向量集合,并根据上述两个向量集合之间的匹配度,确定需要进行标注操作的文字的位置信息,从而便于准确地对相应文字进行标注,这样能够使用户通过语音控制的方式就能够准确地和全面地对待标注学习文本进行细化标注操作,以此提高文本标注的有效性和可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.智能语音标注方法,其特征在于,其包括如下步骤:
步骤S1,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
步骤S2,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度;
步骤S3,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作。
2.如权利要求1所述的智能语音标注方法,其特征在于:
在所述步骤S1中,对用户进行录音,以此获得来自所述用户的语音样本信息,并对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
步骤S101,采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
步骤S102,对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
步骤S103,根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
Figure FDA0002708886430000011
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
3.如权利要求2所述的智能语音标注方法和,其特征在于:
在所述步骤S2中,对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合,再确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
步骤S201,对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
步骤S202,根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
Figure FDA0002708886430000021
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
4.如权利要求3所述的智能语音标注方法,其特征在于:
在所述步骤S3中,根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
步骤S301,根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
Figure FDA0002708886430000031
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
步骤S302,根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
5.智能语音标注系统,其特征在于,其包括语音样本获取模块、语音向量集合生成模块、语义向量集合生成模块、向量集合相似度确定模块和标注操作模块;其中,
所述语音样本获取模块用于对用户进行录音,以此获得来自所述用户的语音样本信息;
所述语音向量集合生成模块用于对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合;
所述语义向量集合生成模块用于对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合;
所述向量集合相似度确定模块用于确定所述语音向量集合与所述语义向量集合之间的匹配度;
所述标注操作模块用于根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作。
6.如权利要求5所述的智能语音标注系统,其特征在于:
所述语音样本获取模块对用户进行录音,以此获得来自所述用户的语音样本信息具体包括:
采用阵列麦克风对所述用户进行多方位录音,以此获得来自所述用户的语音样本信息;
以及,
所述语音向量集合生成模块对所述语音样本信息进行预处理,从而获得与所述语音样本信息对应的语音向量集合具体包括:
对所述语音样本信息进行卡尔曼滤波降噪处理,以此消除所述语音样本信息中的背景噪声;
再根据下面公式(1),对所述语音样本信息进行傅里叶变换处理,从而获得与所述语音样本信息对应的语音向量集合:
Figure FDA0002708886430000041
在上述公式(1)中,Type表示与所述语音样本信息对应的语音向量集合,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+1表示所述语音样本信息中第t+1秒语音数据对应的语音向量值,sum(Rt,Rt+1)表示第t秒语音数据对应的语音向量值与第t+1秒语音数据对应的语音向量值之和,T表示所述语音样本信息包含的语音数据的总时长,e表示自然常数,α表示预设语音向量修正系数、且其取值为0.25;f(Rt)表示语音向量集合包含的元素Rt在语音向量集合中对应的值。
7.如权利要求6所述的智能语音标注系统,其特征在于:
所述语义向量集合生成模块对待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本对应的语义向量集合具体包括:
对所述待标注学习文本进行语义识别处理,以此获得与所述待标注学习文本包含的每一组文字对应的语义向量值,从而将所有语义向量值组成所述语义向量集合;
以及,
所述向量集合相似度确定模块确定所述语音向量集合与所述语义向量集合之间的匹配度具体包括:
根据下面公式(2),确定所述语音向量集合与所述语义向量集合之间的匹配度:
Figure FDA0002708886430000051
在上述公式(2),Sim(Rt,Om)表示所述语音向量集合中第t秒时对应的语音数据的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之间的匹配度,Type(Rt)表示所述语音向量集合包含的元素Rt对应的f(Rt)的值,Om表示所述语义向量集合中第m组文字对应的语义向量值,Om-1表示所述语义向量集合中第m-1组文字对应的语义向量值,sum(Om,Om-1)表示语义向量值Om与语义向量值Om-1之和,M表示所述语义向量集合包含的语义向量值的总数量、且其取值为[50,1000]。
8.如权利要求7所述的智能语音标注系统,其特征在于:
所述标注操作模块根据所述匹配度,确定所述待标注学习文本需要进行标注操作的文字的位置信息,再根据所述位置信息,对相应的文字进行所述标注操作具体包括:
根据所述匹配度和下面公式(3),确定所述待标注学习文本需要进行标注操作的文字所在的行位置:
Figure FDA0002708886430000061
在上述公式(3)中,H(Rm)表示所述语音向量集合中第t秒的语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值匹配时、所述第m组文字在所述待标注学习文本中对应的行位置,Rt表示所述语音样本信息中第t秒语音数据对应的语音向量值,Rt+5表示所述语音样本信息中第t+5秒语音数据对应的语音向量值,sum(Rt,Rt+5)表示第t秒语音数据对应的语音向量值与第t+5秒语音数据对应的语音向量值之和,sum(Rt,Om)表示所述语音样本信息中第t秒语音数据对应的语音向量值与所述语义向量集合中第m组文字对应的语义向量值之和,T表示所述语音样本信息包含的语音数据的总时长,μ表示预设匹配修正系数、且其取值为1.5,INT()取值函数运算;
再根据所述行位置H(Rm),对所述待标注学习文本中所述行位置H(Rm)对应的文字进行相应语音数据的标注操作。
CN202011048837.5A 2020-09-29 2020-09-29 智能语音标注方法和系统 Active CN112001155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011048837.5A CN112001155B (zh) 2020-09-29 2020-09-29 智能语音标注方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011048837.5A CN112001155B (zh) 2020-09-29 2020-09-29 智能语音标注方法和系统

Publications (2)

Publication Number Publication Date
CN112001155A true CN112001155A (zh) 2020-11-27
CN112001155B CN112001155B (zh) 2021-04-30

Family

ID=73474996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011048837.5A Active CN112001155B (zh) 2020-09-29 2020-09-29 智能语音标注方法和系统

Country Status (1)

Country Link
CN (1) CN112001155B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343709A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 意图识别模型的训练方法、意图识别方法、装置及设备
WO2023273702A1 (zh) * 2021-06-29 2023-01-05 华为技术有限公司 一种语音信息与演示信息同步的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
CN111079714A (zh) * 2020-01-02 2020-04-28 上海乂学教育科技有限公司 智能在线笔记生成系统
US20200168210A1 (en) * 2018-11-26 2020-05-28 Sogang University Research Foundation Device and method for analyzing speech act

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
US20200168210A1 (en) * 2018-11-26 2020-05-28 Sogang University Research Foundation Device and method for analyzing speech act
CN111079714A (zh) * 2020-01-02 2020-04-28 上海乂学教育科技有限公司 智能在线笔记生成系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈映泉: "利用人类计算技术的语音语料库标注方法及其实现", 《智能系统学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343709A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 意图识别模型的训练方法、意图识别方法、装置及设备
CN113343709B (zh) * 2021-06-22 2022-08-16 北京三快在线科技有限公司 意图识别模型的训练方法、意图识别方法、装置及设备
WO2023273702A1 (zh) * 2021-06-29 2023-01-05 华为技术有限公司 一种语音信息与演示信息同步的方法及装置

Also Published As

Publication number Publication date
CN112001155B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Ahmed et al. Handwritten Urdu character recognition using one-dimensional BLSTM classifier
CN109271401B (zh) 一种题目搜索、批改方法、装置、电子设备和存储介质
WO2021114840A1 (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN109919147A (zh) 服装吊牌图像中文本识别的方法
CN109800761A (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN110232340B (zh) 建立视频分类模型以及视频分类的方法、装置
CN112001155B (zh) 智能语音标注方法和系统
CN109902285B (zh) 语料分类方法、装置、计算机设备及存储介质
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN114429635A (zh) 书本管理方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
Bharambe et al. Automatic answer evaluation using machine learning
US20200294410A1 (en) Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets
Ahmed et al. A generic method for automatic ground truth generation of camera-captured documents
Nguyen et al. Handwriting recognition and automatic scoring for descriptive answers in Japanese language tests
CN116884006A (zh) 结合视觉扫描识别与纠正的数学解题方法和系统
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN111079489B (zh) 一种内容识别方法及电子设备
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
Granell et al. Processing a large collection of historical tabular images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20221020

Granted publication date: 20210430