CN109145149A - 一种信息对齐方法、装置、设备及可读存储介质 - Google Patents
一种信息对齐方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN109145149A CN109145149A CN201810934833.3A CN201810934833A CN109145149A CN 109145149 A CN109145149 A CN 109145149A CN 201810934833 A CN201810934833 A CN 201810934833A CN 109145149 A CN109145149 A CN 109145149A
- Authority
- CN
- China
- Prior art keywords
- notes
- text fragments
- recording
- text
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 239000012634 fragment Substances 0.000 claims abstract description 553
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000005520 cutting process Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 8
- 238000013481 data capture Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 68
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息对齐方法、装置、设备及可读存储介质,方法包括:获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。使用本申请方案可以自动为用户确定与笔记文本片段对齐的音频片段,减少了用户查找时间,提升了工作效率。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体地说,涉及一种信息对齐方法、装置、设备及可读存储介质。
背景技术
随着社会的进步,当前已经进入了信息时代。信息、知识的传播可以通过多种渠道,如书籍、报刊等阅读材料,以及演讲、会议、课堂讲授等包含主讲人和听众的场景下,由主讲人讲授,听众学习记录的方式。
对于包含主讲人和听众的场景下,在主讲人演讲或讲话过程中,为方便后续理解,听众可以对理解的内容加以概括或备注并记录在笔记本上,形成笔记内容。另一方面,还可以对主讲人讲话过程进行全程录音,便于听众回顾整个讲话过程。
本案发明人研究发现,现有技术虽然听众能够获取到笔记内容及讲话录音,但是对于时间较长的讲话录音,听众需要遍历整个录音内容,以找到与所记录笔记语义对齐的音频片段,进而才能够进行后续的会议报告总结、归纳等工作。由此可见,现有技术亟需一种将笔记文本与会议音频对齐的方案。
发明内容
有鉴于此,本申请提供了一种信息对齐方法、装置、设备及可读存储介质,能够将笔记文本与会议音频对齐,大大减少用户查找音频的时间,提升工作效率。
为了实现上述目的,现提出的方案如下:
一种信息对齐方法,包括:
获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
优选地,所述获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,包括:
获取触摸屏接收的连续的手写笔记点信息,及所述连续的手写笔记点信息的开始时间戳和结束时间戳;
识别所述连续的手写笔记点信息对应的识别文本片段,并将所述开始时间戳和结束时间戳作为所述笔记文本片段的记录时间段,多个识别文本片段组成第一笔记文本。
优选地,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段;所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容;
将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段;
根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
优选地,所述针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段,包括:
分别提取待处理笔记文本片段及第二笔记文本中每一笔记文本片段的关键词;
根据待处理笔记文本片段提取的关键词,确定待处理笔记文本片段的向量化特征,以及,根据第二笔记文本中每一笔记文本片段提取的关键词,确定对应笔记文本片段的向量化特征;
分别计算待处理笔记文本片段的向量化特征,与第二笔记文本中每一笔记文本片段的向量化特征的向量距离;
从所述第二笔记文本中选取向量距离满足设定向量距离条件的笔记文本片段,作为目标笔记文本片段。
优选地,所述根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段,包括:
根据所述待处理笔记文本片段的记录时间段,确定候选时间范围,所述候选时间范围包含所述待处理笔记文本片段的记录时间段;
确定所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,处于所述候选时间范围内的时间戳;
将处于所述候选时间范围内的时间戳中,所有开始记录时间戳中最靠前的一个作为修正后开始记录时间戳,所有结束记录时间戳中最靠后的一个作为修正后结束记录时间戳;
由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述待处理笔记文本片段的修正后记录时间段。
优选地,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
获取音频对应的由识别文本片段组成的识别文本;
针对每一所述笔记文本片段,提取所述笔记文本片段的关键词;
参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段;
根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
优选地,所述根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
确定各所述匹配识别文本片段中位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段;
将所述首部匹配识别文本片段在所述音频中对应音频片段的开始录制时间,与所述笔记文本片段的开始记录时间戳进行比较,选取两个时间中靠前一个时间作为扩展后开始记录时间戳;
将所述尾部匹配识别文本片段在所述音频中对应音频片段的结束录制时间,与所述笔记文本片段的结束记录时间戳进行比较,选取两个时间中靠后一个时间作为扩展后结束记录时间戳;
根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段。
优选地,所述根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段,包括:
由所述扩展后开始记录时间戳和所述扩展后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
优选地,所述根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段,包括:
确定所述识别文本中,与所述扩展后开始记录时间戳至所述扩展后结束记录时间戳这一时间段对应的候选识别文本;
按照时间顺序,将所述候选识别文本划分为两部分:第一部分和第二部分;
确定所述第一部分中与所述笔记文本片段文本相似度最高的识别文本片段,作为第一识别文本片段;
确定所述第二部分中与所述笔记文本片段相似度最高的识别文本片段,作为第二识别文本片段;
将所述第一识别文本片段在所述音频中对应音频片段的开始录制时间,作为修正后开始记录时间戳;
将所述第二识别文本片段在所述音频中对应音频片段的结束录制时间,作为修正后结束记录时间戳;
由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
优选地,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度,所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长;
由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
一种信息对齐装置,包括:
数据获取单元,用于获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
时间修正单元,用于对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
笔记对齐单元,用于将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
优选地,所述数据获取单元包括:
手写笔记点信息获取单元,用于获取触摸屏接收的连续的手写笔记点信息,及所述连续的手写笔记点信息的开始时间戳和结束时间戳;
手写识别单元,用于识别所述连续的手写笔记点信息对应的识别文本片段,并将所述开始时间戳和结束时间戳作为所述笔记文本片段的记录时间段,多个识别文本片段组成第一笔记文本。
优选地,所述时间修正单元包括:
第二笔记文本获取单元,用于获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段;所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容;
目标笔记文本片段确定单元,用于将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段;
笔记辅助时间修正单元,用于根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
优选地,所述目标笔记文本片段确定单元包括:
关键词提取单元,用于分别提取待处理笔记文本片段及第二笔记文本中每一笔记文本片段的关键词;
向量化特征确定单元,用于根据待处理笔记文本片段提取的关键词,确定待处理笔记文本片段的向量化特征,以及,根据第二笔记文本中每一笔记文本片段提取的关键词,确定对应笔记文本片段的向量化特征;
向量距离计算单元,用于分别计算待处理笔记文本片段的向量化特征,与第二笔记文本中每一笔记文本片段的向量化特征的向量距离;
向量距离筛选单元,用于从所述第二笔记文本中选取向量距离满足设定向量距离条件的笔记文本片段,作为目标笔记文本片段。
优选地,所述笔记辅助时间修正单元包括:
第一笔记辅助时间修正子单元,用于根据所述待处理笔记文本片段的记录时间段,确定候选时间范围,所述候选时间范围包含所述待处理笔记文本片段的记录时间段;
第二笔记辅助时间修正子单元,用于确定所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,处于所述候选时间范围内的时间戳;
第三笔记辅助时间修正子单元,用于将处于所述候选时间范围内的时间戳中,所有开始记录时间戳中最靠前的一个作为修正后开始记录时间戳,所有结束记录时间戳中最靠后的一个作为修正后结束记录时间戳;
第四笔记辅助时间修正子单元,用于由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述待处理笔记文本片段的修正后记录时间段。
优选地,所述时间修正单元包括:
识别文本获取单元,用于获取音频对应的由识别文本片段组成的识别文本;
关键词提取单元,用于针对每一所述笔记文本片段,提取所述笔记文本片段的关键词;
匹配识别文本片段确定单元,用于参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段;
语义辅助时间修正单元,用于根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
优选地,所述语义辅助时间修正单元,包括:
第一语义辅助时间修正子单元,用于确定各所述匹配识别文本片段中位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段;
第二语义辅助时间修正子单元,用于将所述首部匹配识别文本片段在所述音频中对应音频片段的开始录制时间,与所述笔记文本片段的开始记录时间戳进行比较,选取两个时间中靠前一个时间作为扩展后开始记录时间戳;
第三语义辅助时间修正子单元,用于将所述尾部匹配识别文本片段在所述音频中对应音频片段的结束录制时间,与所述笔记文本片段的结束记录时间戳进行比较,选取两个时间中靠后一个时间作为扩展后结束记录时间戳;
第四语义辅助时间修正子单元,用于根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段。
优选地,所述第四语义辅助时间修正子单元,包括:
扩展时间戳定义单元,用于由所述扩展后开始记录时间戳和所述扩展后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
优选地,所述第四语义辅助时间修正子单元,包括:
候选识别文本确定单元,用于确定所述识别文本中,与所述扩展后开始记录时间戳至所述扩展后结束记录时间戳这一时间段对应的候选识别文本;
候选识别文本划分单元,用于按照时间顺序,将所述候选识别文本划分为两部分:第一部分和第二部分;
第一识别文本片段确定单元,用于确定所述第一部分中与所述笔记文本片段文本相似度最高的识别文本片段,作为第一识别文本片段;
第二识别文本片段确定单元,用于确定所述第二部分中与所述笔记文本片段相似度最高的识别文本片段,作为第二识别文本片段;
第一及第二识别文本片段使用单元,用于将所述第一识别文本片段在所述音频中对应音频片段的开始录制时间,作为修正后开始记录时间戳;将所述第二识别文本片段在所述音频中对应音频片段的结束录制时间,作为修正后结束记录时间戳;由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
优选地,所述时间修正单元包括:
时间平移单元,用于将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度;所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长;由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
一种信息对齐设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的信息对齐方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的信息对齐方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的信息对齐方法,获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。由此可见,本申请获取了音频对应第一笔记文本中各笔记文本片段的记录时间段,并再次对该记录时间段进行了修正,保证修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段,在此基础上按照修正后记录时间段将笔记文本片段与音频对齐。使用本申请方案可以自动为用户确定与笔记文本片段对齐的音频片段,减少了用户查找时间,提升了工作效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种信息对齐方法流程图;
图2a-2c示例了三种笔记文本效果示意图;
图3示例了一种多个时间戳先后顺序示意图;
图4为本申请实施例公开的一种信息对齐装置结构示意图;
图5为本申请实施例公开的一种信息对齐设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的信息对齐方案,适用于包含主讲人与听众的场景下,对主讲人讲话进行录音,同时听众在主讲人讲话过程中,对理解的内容加以概括或备注,为方便后续理解所记录的笔记内容。一般地,听众在演讲或者会议的过程中所记录的笔记内容都是对原演讲者音频高度提炼的结果,合理的将其和原演讲者音频进行对齐,能够极大地提高原音频内容的可懂性,条理也更加清晰。接下来,结合附图1对本申请信息对齐方法进行介绍,如图1所示,该方法包括:
步骤S100、获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段。
其中,记录时间段包含笔记文本片段的开始记录时间戳和结束记录时间戳。
按照方案所应用的场景不同,这里的音频也不同,如演讲场景下,音频可以是演讲人的录音文件,课堂授课场景下,音频可以是讲课人的录音文件等。除此之外,音频还可以是故事音频、采访音频等各种形式。
定义当前需要进行笔记内容与音频对齐的笔记为第一笔记文本,该第一笔记文本可以是第一对象针对该音频所编辑后的笔记文本。定义除第一对象外的其它针对该音频编辑笔记文本的对象为第二对象,第二对象针对该音频所编辑的笔记文本定义为第二笔记文本。可以理解的是,第二对象的个数并不限定。
其中,第一笔记文本包含的笔记文本片段可以是组成笔记文本的基本单元,或基本单元的组合,如笔记文本片段可以是句子,段落等。
本步骤中,在获取第一笔记文本的同时,还获取第一笔记文本包含的每一笔记文本片段的记录时间段,该记录时间段即为第一对象记录笔记文本片段的开始记录时间戳,及结束记录时间戳。
本步骤中获取第一笔记文本及每一笔记文本片段的记录时间段的过程,可以通过触摸屏实现,具体地,可以获取触摸屏接收的连续的手写笔记点信息,以及该连续的手写笔记点信息的开始时间戳和结束时间戳。一段连续的手写笔记点信息对应一个笔记文本片段,可以通过手写识别技术识别连续的手写笔记点信息对应的识别文本片段,并将该连续的手写笔记点信息的开始时间戳和结束时间戳作为对应识别文本片段的记录时间段。最终,多段连续的手写笔记点信息识别为多个识别文本片段,多个识别文本片段组成第一笔记文本。
通过一个具体实例说明如下:
音频对应的识别文本为:
“同学们,早上好,这次课程我们主要回顾一下上次学的内容。上次我们讲到导数的一些性质,一阶导数为零的点叫做驻点,计算驻点的二阶导数,如果大于0表示此驻点是极小值点,如果小于0表示此驻点是极大值点。这次我们要讲的是,导数的这些性质有很好的应用,比如在最优化问题中,我们可以将问题表示成一个函数,然后利用导数的性质来求解”。
针对上述音频,存在三位听众记录了笔记文本,分别如图2a,2b,2c所示。
以第一位听众的笔记文本图2a为例,其包含三个笔记文本片段,分别为“复习上次内容”、“驻点求极值”、“导数的应用”。以“复习上次内容”为例,对应的记录时间段为:t11,t12。
步骤S110、对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
其中,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段。
可以理解的是,听众在听到音频内容,并经过理解后编辑得到笔记文本片段的记录时间段,与音频中相同语义音频片段的录制时间可能并不完全对应。基于此,本步骤中,按照趋近于音频中与笔记文本片段相同语义的音频片段的录制时间段的策略,对笔记文本片段的记录时间段进行修正,得到笔记文本片段对应的修正后记录时间段。
步骤S120、将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
可以理解的是,笔记文本片段的修正后记录时间段更贴近于音频中相同语义的音频片段的录制时间,因此本步骤中按照修正后记录时间段,将笔记文本片段与音频进行对齐,能够得到每一笔记文本片段在音频中对齐后的音频片段。
本申请实施例公开的信息对齐方法,获取了音频对应第一笔记文本中各笔记文本片段的记录时间段,并再次对该记录时间段进行了修正,保证修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段,在此基础上按照修正后记录时间段将笔记文本片段与音频对齐。使用本申请方案可以自动为用户确定与笔记文本片段对齐的音频片段,减少了用户查找时间,提升了工作效率。同时,也极大地提高原音频内容的可懂性,条理也更加清晰。
本申请实施例介绍了上述步骤S110,对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段的几种可选实施方式,接下来分别进行介绍。
第一种可选方式:
本实施例中可以借助第二对象对所述音频记录的第二笔记文本,对第一笔记文本的记录时间段进行修正。其中,第二笔记文本的个数并不限定,可以是一个或多个。具体实现过程可以包括:
S1、获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段。
其中,所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容。
第二笔记文本及其包含的每一笔记文本片段的记录时间段的获取方式,与第一笔记文本相同,此处不再赘述。
以附图2a-2c为例,假设图2a为第一对象对音频记录的第一笔记文本,则可以定义图2b和图2c为第二对象对音频记录的第二笔记文本。其中,图2b和图2c为不同的第二对象对音频记录的两份不同的第二笔记文本。
S2、将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段。
仍以图2a为第一笔记文本为例进行说明。分别将“复习上次内容”、“驻点求极值”、“导数的应用”作为待处理笔记文本片段。
针对每一待处理笔记文本片段,在每一个第二笔记文本中,查找相似度满足设定相似度条件的目标笔记文本片段。
以待处理笔记文本片段为“复习上次内容”为例,假设在图2b对应的第二笔记文本片段中找到的相似度满足设定相似度条件的目标笔记文本片段为“回顾上次内容”;在图2c对应的第二笔记文本片段中找到的相似度满足设定相似度条件的目标笔记文本片段为“讲解导数的应用”。
S3、根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
具体地,上述在第二笔记文本中查找到与待处理笔记文本片段相似度满足设定相似度条件的目标笔记文本片段,因此可以基于目标笔记文本片段的记录时间段,来对待处理笔记文本片段的记录时间段进行修正,得到修正后记录时间段。本实施例借助第二对象对相似笔记文本片段的记录时间段,来修正第一对象的待处理笔记文本片段的记录时间段,使得修正后记录时间段更加贴近于真实值。
仍使用上述例子进行说明,定义待处理笔记文本片段“复习上次内容”的记录时间段为:t11,t12,目标笔记文本片段“回顾上次内容”的记录时间段为:t21,t22,目标笔记文本片段“讲解导数的应用”的记录时间段为:t31,t32。
则可以基于t21,t22和t31,t32,对t11,t12进行修正。
进一步可选的,上述S2,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段的过程,具体可以包括:
S21、分别提取待处理笔记文本片段及第二笔记文本中每一笔记文本片段的关键词。
具体地,笔记文本片段的关键词能够反映笔记文本片段的核心点。可以采用关键词提取技术从笔记文本片段中提取关键词,常见的关键词提取技术如TF-IDF(termfrequency–inverse document frequency)关键词提取方法等。
本步骤中,针对待处理笔记文本片段,及第二笔记文本中每一笔记文本片段,分别提取关键词。
以待处理笔记文本片段“复习上次内容”为例,提取的关键词可以包括:“复习”、“上次”、“内容”。
S22、根据待处理笔记文本片段提取的关键词,确定待处理笔记文本片段的向量化特征,以及,根据第二笔记文本中每一笔记文本片段提取的关键词,确定对应笔记文本片段的向量化特征。
具体地,待处理笔记文本片段提取关键词之后,可以通过词嵌入wordembedding技术得到每个关键词的向量化特征,进一步可以将关键词的向量化特征通过加强平均得到对应待处理笔记文本片段的句子级别的向量化特征。
同理,针对第二笔记文本中每一笔记文本片段。
S23、分别计算待处理笔记文本片段的向量化特征,与第二笔记文本中每一笔记文本片段的向量化特征的向量距离。
上一步骤中已经得到待处理笔记文本片段的向量化特征,以及第二笔记文本片段中每一笔记文本片段的向量化特征。本步骤中,针对第二笔记文本中每一笔记文本片段,分别计算与待处理笔记文本片段的向量化特征的向量距离,如欧式距离等。向量距离的大小代表了两个笔记文本片段的相似程度。
S24、从所述第二笔记文本中选取向量距离满足设定向量距离条件的笔记文本片段,作为目标笔记文本片段。
本实施例中可以预先设置向量距离条件,如向量距离最大且超过设定向量距离阈值等。
在此基础上,从第二笔记文本中选取向量距离满足设定向量距离条件的笔记文本片段,作为目标笔记文本片段。
再进一步的,对上述S3,根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段的过程进行介绍。
在已知了目标笔记文本片段的记录时间段及待处理笔记文本片段的记录时间段之后,可以采用多种策略来确定待处理笔记文本片段的修正后记录时间段,一种最简单的方式例如,将各目标笔记文本片段的记录时间段中所有的开始记录时间戳,选取最靠前的一个或求取平均值/中值,结果作为修正后开始记录时间戳;将各目标笔记文本片段的记录时间段中所有的结束记录时间戳,选取最靠后的一个或求取平均值/中值,结果作为修正后结束记录时间戳。
本实施例中,考虑到可能存在部分目标笔记文本片段属于噪声,为了避免作为噪声的目标笔记文本片段对待处理笔记文本片段的记录时间段的修正影响,本实施例提供了一种处理方式,具体包括:
S31、根据所述待处理笔记文本片段的记录时间段,确定候选时间范围,所述候选时间范围包含所述待处理笔记文本片段的记录时间段。
具体地,可以扩展时间窗长与待处理笔记文本片段的记录时间段成正相关的函数关系,确定自待处理笔记文本片段的开始记录时间戳向前扩展的时间窗长,和/或自待处理笔记文本片段的结束记录时间戳向后扩展的时间窗长,最终由向前扩展的时间窗长和/或向后扩展的时间窗长,以及待处理笔记文本片段的记录时间段,组成候选时间范围。
通过基于待处理笔记文本片段的记录时间段,确定候选时间范围,确保不会将音频中与待处理笔记文本片段对应的音频片段遗漏,增加了方案的鲁棒性。
一种可选的方式中,向前扩展的时间窗长、向后扩展的时间窗长可以等于待处理笔记文本片段的记录时间段长度。
参见图3,其示例了各时间戳先后顺序示意图。
其中,待处理笔记文本片段“复习上次内容”的记录时间段为:t11,t12,目标笔记文本片段“回顾上次内容”的记录时间段为:t21,t22,目标笔记文本片段“讲解导数的应用”的记录时间段为:t31,t32。t1′1至t1′2为基于t11,t12扩展后的候选时间范围。
其中,t11-t′11=t12-t11=t′12-t12。
S32、确定所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,处于所述候选时间范围内的时间戳。
其中,目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,分别包含开始记录时间戳和结束记录时间戳,针对这些时间戳,确定处于候选时间范围内的时间戳。
参见图3示例的情况,确定处于t1′1至t1′2内的时间戳,包括:t11,t12和t21,t22。
由图3可知,图3对应笔记文本中确定的目标笔记文本片段的记录时间段t31,t32均处于候选时间范围之外,因此可以将其看作噪声排除。
S33、将处于所述候选时间范围内的时间戳中,所有开始记录时间戳中最靠前的一个作为修正后开始记录时间戳,所有结束记录时间戳中最靠后的一个作为修正后结束记录时间戳。
对于上述图3示例的情况,处于t1′1至t1′2内的时间戳中,开始记录时间戳包括t11和t21,从中选取最靠前的一个t11作为修正后开始记录时间戳。结束记录时间戳包括t12和t22,从中选取最靠后的一个t22作为修正后结束记录时间戳。
S34、由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述待处理笔记文本片段的修正后记录时间段。
以图3示例的情况,最终得到的待处理笔记文本片段的修正后记录时间段为:t11,t22。
本实施例提供的方案,基于待处理笔记文本片段的记录时间段进行扩展,得到候选时间段范围,能够尽可能保留音频中与待处理笔记文本片段对应的音频片段,增加了方案的鲁棒性。进一步,将处于候选时间段范围外的时间戳滤除,仅根据处于候选时间段范围内的时间戳来确定修正后记录时间段,排除了噪声干扰。
可以理解的是,上述S33中,还可以将处于所述候选时间范围内的时间戳中,最靠前的一个时间戳作为修正后开始记录时间戳,最靠后的一个时间戳作为修正后结束记录时间戳。或者,将处于所述候选时间范围内的时间戳中,所有开始记录时间戳求平均值或中值,结果作为修正后开始记录时间戳,所有结束记录时间戳求平均值或中值,结果作为修正后结束记录时间戳,等等其他可选策略。
第二种可选方式:
本实施例中可以基于音频对应识别文本中,与第一笔记文本中每一笔记文本片段相似识别文本片段的音频片段录制时间,对笔记文本片段的记录时间段进行修正,具体实现过程可以包括:
S1、获取音频对应的由识别文本片段组成的识别文本。
具体地,可以通过语音识别模型,将音频识别为由识别文本片段组成的识别文本。其中,识别文本片段可以是组成识别文本的基本单元,或基本单元的组合,如识别文本片段可以是句子,段落等。
S2、针对每一所述笔记文本片段,提取所述笔记文本片段的关键词。
具体地,前述已经介绍过对笔记文本片段提取关键词的具体实现方式,详细可以参照前述介绍,此处不再赘述。
S3、参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段。
具体地,以关键词作为匹配条件,在识别文本中确定与其匹配的识别文本片段。
需要说明的是,若存在与关键词匹配的识别文本片段,则可以将该存在的识别文本片段作为匹配识别文本片段。若不存在与关键词匹配的识别文本片段,则可以将整个识别文本包含的所有识别文本片段均作为匹配识别文本片段。
以图2a中“驻点求极值”作为笔记文本片段为例,提取关键词包括:“驻点”、“极值”。以关键词为匹配条件,在识别文本中进行匹配,得到的匹配识别文本片段包括:“一阶导数为零的点叫做驻点”、“计算驻点的二阶导数”、“如果大于0表示此驻点是极小值点”、“如果小于0表示此驻点是极大值点”共四个匹配识别文本片段。
S4、根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
具体地,在上述步骤得到与笔记文本片段包含的关键词匹配的识别文本片段之后,该匹配识别文本片段即为与笔记文本片段相同语义的识别文本片段,因此可以基于匹配识别文本片段在音频中对应音频片段的录制时间,对笔记文本片段的记录时间段进行修正,以使得修正后记录时间段更加贴近于音频中相同语义音频片段的录制时间。
可选的,上述S4,根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段的过程,具体可以包括:
S41、确定各所述匹配识别文本片段中位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段。
具体地,匹配识别文本片段可以是一个或多个,若匹配识别文本片段为一个,则该唯一一个匹配识别文本片段同时作为首部匹配识别文本片段和尾部识别文本片段。若匹配识别文本片段为多个,则从中确定位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段。
本步骤中所谓的位置是指匹配识别文本片段在音频对应识别文本中的排序位置。
仍以上述示例的四个匹配识别文本片段为例,从中确定的首部匹配识别文本片段为:“一阶导数为零的点叫做驻点”;尾部识别文本片段为“如果小于0表示此驻点是极大值点”。
S42、将所述首部匹配识别文本片段在所述音频中对应音频片段的开始录制时间,与所述笔记文本片段的开始记录时间戳进行比较,选取两个时间中靠前一个时间作为扩展后开始记录时间戳。
具体地,可以确定出首部匹配识别文本片段在音频中对应音频片段的开始录制时间,进而将该开始录制时间与笔记文本片段的开始记录时间戳进行比较,选取其中靠前的一个时间作为扩展后开始记录时间戳。
S43、将所述尾部匹配识别文本片段在所述音频中对应音频片段的结束录制时间,与所述笔记文本片段的结束记录时间戳进行比较,选取两个时间中靠后一个时间作为扩展后结束记录时间戳。
同理,可以确定出尾部匹配识别文本片段在音频中对应音频片段的结束录制时间,进而将该结束录制时间与笔记文本片段的结束记录时间戳进行比较,选取其中靠后的一个时间作为扩展后结束记录时间戳。
S44、根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段。
上述步骤中确定了扩展后开始记录时间戳及扩展后结束记录时间戳,将其作为笔记文本片段的修正后记录时间段,能够尽可能保留音频中与笔记文本片段对应的音频片段,增加了方案的鲁棒性。
一种可选的实施方式中,上述S44中可以直接由所述扩展后开始记录时间戳和所述扩展后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
另一种可选的实施方式中,上述S44可以按照如下方式实现:
S441、确定所述识别文本中,与所述扩展后开始记录时间戳至所述扩展后结束记录时间戳这一时间段对应的候选识别文本。
具体地,上述已经确定了扩展后开始记录时间戳及扩展后结束记录时间戳,对于这两个时间戳组成的时间段,可以在识别文本中确定与该时间段对应的候选识别文本。具体地,可以确定该时间段在音频中对应的音频片段,进而将确定的音频片段的识别结果作为候选识别文本。
S442、按照时间顺序,将所述候选识别文本划分为两部分:第一部分和第二部分。
具体地,最终所需确定的修正后记录时间段也是由修正后开始记录时间戳和修正后结束记录时间戳组成,为了确定修正后开始记录时间戳和修正后结束记录时间戳,可以将候选识别文本划分为两部分。
可选的,第一部分和第二部分可以是均分得到,也可以按照设定比例划分得到。
S443、确定所述第一部分中与所述笔记文本片段文本相似度最高的识别文本片段,作为第一识别文本片段。
其中,第一部分中与笔记文本片段文本相似度最高的第一识别文本片段,可以认为与笔记文本片段相同语义的最开始一个识别文本片段。
S444、确定所述第二部分中与所述笔记文本片段相似度最高的识别文本片段,作为第二识别文本片段。
其中,第二部分中与笔记文本片段文本相似度最高的第二识别文本片段,可以认为与笔记文本片段相同语义的最后一个识别文本片段。
具体地,在进行文本相似度计算过程,可以先提取文本的关键词,并获取关键词的词向量表达特征,进而由关键词的词向量表达特征确定文本的向量表达特征,进而通过文本的向量表达特征来计算两个文本片段的相似度。
S445、将所述第一识别文本片段在所述音频中对应音频片段的开始录制时间,作为修正后开始记录时间戳。
S446、将所述第二识别文本片段在所述音频中对应音频片段的结束录制时间,作为修正后结束记录时间戳。
S447、由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
本实施例中,在确定了扩展后开始记录时间戳及扩展后结束记录时间戳,进一步据此从识别文本中确定出候选识别文本,并基于文本相似度从候选识别文本中确定与笔记文本片段相同语义的第一个识别文本片段:第一识别文本片段,以及最后一个识别文本片段:第二识别文本片段,最后根据第一识别文本片段在音频中的开始录制时间确定修正后开始记录时间戳,根据第二识别文本片段在音频中的结束录制时间确定修正后结束记录时间戳,使得确定的最终修正后记录时间段更加精确。
第三种可选方式:
本实施例中可以基于对象听写习惯,对笔记文本片段的记录时间段进行修正。
可以理解的是,对象从听到音频信息到记录下对该音频信息的笔记内容,会存在一定的时间延迟。本申请实施例可以预先统计得到该延迟时间,作为设定时间长度。可选的,本申请可以针对不同对象分别统计其由听到音频信息至记录该听到的音频信息对应笔记的间隔时长,作为与对象对应的设定时间长度。除此之外,本申请还可以针对所有对象,统计得到一个具备普适性的设定时间长度。
基于此,本申请将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度,由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
其中,所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长。
下面对本申请实施例提供的信息对齐装置进行描述,下文描述的信息对齐装置与上文描述的信息对齐方法可相互对应参照。
参见图4,图4为本申请实施例公开的一种信息对齐装置结构示意图。如图4所示,该装置可以包括:
数据获取单元11,用于获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
时间修正单元12,用于对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
笔记对齐单元13,用于将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
可选的,所述数据获取单元可以包括:
手写笔记点信息获取单元,用于获取触摸屏接收的连续的手写笔记点信息,及所述连续的手写笔记点信息的开始时间戳和结束时间戳;
手写识别单元,用于识别所述连续的手写笔记点信息对应的识别文本片段,并将所述开始时间戳和结束时间戳作为所述笔记文本片段的记录时间段,多个识别文本片段组成第一笔记文本。
可选的,所述时间修正单元可以包括:
第二笔记文本获取单元,用于获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段;所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容;
目标笔记文本片段确定单元,用于将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段;
笔记辅助时间修正单元,用于根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
可选的,所述目标笔记文本片段确定单元可以包括:
关键词提取单元,用于分别提取待处理笔记文本片段及第二笔记文本中每一笔记文本片段的关键词;
向量化特征确定单元,用于根据待处理笔记文本片段提取的关键词,确定待处理笔记文本片段的向量化特征,以及,根据第二笔记文本中每一笔记文本片段提取的关键词,确定对应笔记文本片段的向量化特征;
向量距离计算单元,用于分别计算待处理笔记文本片段的向量化特征,与第二笔记文本中每一笔记文本片段的向量化特征的向量距离;
向量距离筛选单元,用于从所述第二笔记文本中选取向量距离满足设定向量距离条件的笔记文本片段,作为目标笔记文本片段。
可选的,所述笔记辅助时间修正单元可以包括:
第一笔记辅助时间修正子单元,用于根据所述待处理笔记文本片段的记录时间段,确定候选时间范围,所述候选时间范围包含所述待处理笔记文本片段的记录时间段;
第二笔记辅助时间修正子单元,用于确定所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,处于所述候选时间范围内的时间戳;
第三笔记辅助时间修正子单元,用于将处于所述候选时间范围内的时间戳中,所有开始记录时间戳中最靠前的一个作为修正后开始记录时间戳,所有结束记录时间戳中最靠后的一个作为修正后结束记录时间戳;
第四笔记辅助时间修正子单元,用于由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述待处理笔记文本片段的修正后记录时间段。
可选的,所述时间修正单元可以包括:
识别文本获取单元,用于获取音频对应的由识别文本片段组成的识别文本;
关键词提取单元,用于针对每一所述笔记文本片段,提取所述笔记文本片段的关键词;
匹配识别文本片段确定单元,用于参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段;
语义辅助时间修正单元,用于根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
可选的,所述语义辅助时间修正单元,可以包括:
第一语义辅助时间修正子单元,用于确定各所述匹配识别文本片段中位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段;
第二语义辅助时间修正子单元,用于将所述首部匹配识别文本片段在所述音频中对应音频片段的开始录制时间,与所述笔记文本片段的开始记录时间戳进行比较,选取两个时间中靠前一个时间作为扩展后开始记录时间戳;
第三语义辅助时间修正子单元,用于将所述尾部匹配识别文本片段在所述音频中对应音频片段的结束录制时间,与所述笔记文本片段的结束记录时间戳进行比较,选取两个时间中靠后一个时间作为扩展后结束记录时间戳;
第四语义辅助时间修正子单元,用于根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段。
可选的,所述第四语义辅助时间修正子单元,可以包括:
扩展时间戳定义单元,用于由所述扩展后开始记录时间戳和所述扩展后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
可选的,所述第四语义辅助时间修正子单元,可以包括:
候选识别文本确定单元,用于确定所述识别文本中,与所述扩展后开始记录时间戳至所述扩展后结束记录时间戳这一时间段对应的候选识别文本;
候选识别文本划分单元,用于按照时间顺序,将所述候选识别文本划分为两部分:第一部分和第二部分;
第一识别文本片段确定单元,用于确定所述第一部分中与所述笔记文本片段文本相似度最高的识别文本片段,作为第一识别文本片段;
第二识别文本片段确定单元,用于确定所述第二部分中与所述笔记文本片段相似度最高的识别文本片段,作为第二识别文本片段;
第一及第二识别文本片段使用单元,用于将所述第一识别文本片段在所述音频中对应音频片段的开始录制时间,作为修正后开始记录时间戳;将所述第二识别文本片段在所述音频中对应音频片段的结束录制时间,作为修正后结束记录时间戳;由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
可选的,所述时间修正单元可以包括:
时间平移单元,用于将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度;所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长;由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
本申请实施例提供的信息对齐装置可应用于信息对齐设备,如PC终端、云平台、服务器及服务器集群等。可选的,图5示出了信息对齐设备的硬件结构框图,参照图5,信息对齐设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种信息对齐方法,其特征在于,包括:
获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
2.根据权利要求1所述的方法,其特征在于,所述获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,包括:
获取触摸屏接收的连续的手写笔记点信息,及所述连续的手写笔记点信息的开始时间戳和结束时间戳;
识别所述连续的手写笔记点信息对应的识别文本片段,并将所述开始时间戳和结束时间戳作为所述笔记文本片段的记录时间段,多个识别文本片段组成第一笔记文本。
3.根据权利要求1所述的方法,其特征在于,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段;所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容;
将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段;
根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段,包括:
根据所述待处理笔记文本片段的记录时间段,确定候选时间范围,所述候选时间范围包含所述待处理笔记文本片段的记录时间段;
确定所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段中,处于所述候选时间范围内的时间戳;
将处于所述候选时间范围内的时间戳中,所有开始记录时间戳中最靠前的一个作为修正后开始记录时间戳,所有结束记录时间戳中最靠后的一个作为修正后结束记录时间戳;
由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述待处理笔记文本片段的修正后记录时间段。
5.根据权利要求1所述的方法,其特征在于,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
获取音频对应的由识别文本片段组成的识别文本;
针对每一所述笔记文本片段,提取所述笔记文本片段的关键词;
参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段;
根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
6.根据权利要求5所述的方法,其特征在于,所述根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
确定各所述匹配识别文本片段中位置最靠前的一个匹配识别文本片段,作为首部匹配识别文本片段,以及位置最靠后的一个匹配识别文本片段,作为尾部识别文本片段;
将所述首部匹配识别文本片段在所述音频中对应音频片段的开始录制时间,与所述笔记文本片段的开始记录时间戳进行比较,选取两个时间中靠前一个时间作为扩展后开始记录时间戳;
将所述尾部匹配识别文本片段在所述音频中对应音频片段的结束录制时间,与所述笔记文本片段的结束记录时间戳进行比较,选取两个时间中靠后一个时间作为扩展后结束记录时间戳;
根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段。
7.根据权利要求6所述的方法,其特征在于,所述根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段,包括:
由所述扩展后开始记录时间戳和所述扩展后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
8.根据权利要求6所述的方法,其特征在于,所述根据所述扩展后开始记录时间戳和所述扩展后结束记录时间戳,确定所述笔记文本片段的修正后记录时间段,包括:
确定所述识别文本中,与所述扩展后开始记录时间戳至所述扩展后结束记录时间戳这一时间段对应的候选识别文本;
按照时间顺序,将所述候选识别文本划分为两部分:第一部分和第二部分;
确定所述第一部分中与所述笔记文本片段文本相似度最高的识别文本片段,作为第一识别文本片段;
确定所述第二部分中与所述笔记文本片段相似度最高的识别文本片段,作为第二识别文本片段;
将所述第一识别文本片段在所述音频中对应音频片段的开始录制时间,作为修正后开始记录时间戳;
将所述第二识别文本片段在所述音频中对应音频片段的结束录制时间,作为修正后结束记录时间戳;
由所述修正后开始记录时间戳和所述修正后结束记录时间戳组成所述笔记文本片段的修正后记录时间段。
9.根据权利要求1所述的方法,其特征在于,所述对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,包括:
将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度,所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长;
由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
10.一种信息对齐装置,其特征在于,包括:
数据获取单元,用于获取音频对应的第一笔记文本及所述第一笔记文本包含的每一笔记文本片段的记录时间段,所述记录时间段包含笔记文本片段的开始记录时间戳及结束记录时间戳;
时间修正单元,用于对每一所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段,所述修正后记录时间段趋近于所述音频中与所述笔记文本片段相同语义的音频片段的录制时间段;
笔记对齐单元,用于将每一所述笔记文本片段,与所述音频中所述修正后记录时间段对应的音频片段对齐。
11.根据权利要求10所述的装置,其特征在于,所述时间修正单元包括:
第二笔记文本获取单元,用于获取音频对应的第二笔记文本,及所述第二笔记文本包含的每一笔记文本片段的记录时间段;所述第二笔记文本与所述第一笔记文本为不同对象对所述音频记录的笔记内容;
目标笔记文本片段确定单元,用于将第一笔记文本包含的每一笔记文本片段作为待处理笔记文本片段,针对每一待处理笔记文本片段,在所述第二笔记文本中查找相似度满足设定相似度条件的目标笔记文本片段;
笔记辅助时间修正单元,用于根据所述目标笔记文本片段的记录时间段及所述待处理笔记文本片段的记录时间段,确定所述待处理笔记文本片段的修正后记录时间段。
12.根据权利要求10所述的装置,其特征在于,所述时间修正单元包括:
识别文本获取单元,用于获取音频对应的由识别文本片段组成的识别文本;
关键词提取单元,用于针对每一所述笔记文本片段,提取所述笔记文本片段的关键词;
匹配识别文本片段确定单元,用于参考所述关键词,在所述识别文本中确定与所述关键词匹配的识别文本片段,作为匹配识别文本片段;
语义辅助时间修正单元,用于根据所述匹配识别文本片段在所述音频中对应音频片段的录制时间段,对所述笔记文本片段的记录时间段进行修正,得到修正后记录时间段。
13.根据权利要求10所述的装置,其特征在于,所述时间修正单元包括:
时间平移单元,用于将所述笔记文本片段的开始记录时间戳和结束记录时间戳分别向前调整设定时间长度;所述设定时间长度为所述第一笔记文本记录对象由听到音频信息至记录该听到的音频信息对应笔记的间隔时长;由调整后的开始记录时间戳和调整后的结束记录时间戳组成修正后记录时间段。
14.一种信息对齐设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-9中任一项所述的信息对齐方法的各个步骤。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9中任一项所述的信息对齐方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934833.3A CN109145149B (zh) | 2018-08-16 | 2018-08-16 | 一种信息对齐方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934833.3A CN109145149B (zh) | 2018-08-16 | 2018-08-16 | 一种信息对齐方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145149A true CN109145149A (zh) | 2019-01-04 |
CN109145149B CN109145149B (zh) | 2021-05-04 |
Family
ID=64789677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810934833.3A Active CN109145149B (zh) | 2018-08-16 | 2018-08-16 | 一种信息对齐方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145149B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223365A (zh) * | 2019-06-14 | 2019-09-10 | 广东工业大学 | 一种笔记生成方法、系统、装置及计算机可读存储介质 |
CN110648666A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 一种基于会议概要提升会议转写性能的方法与系统 |
CN111091834A (zh) * | 2019-12-23 | 2020-05-01 | 科大讯飞股份有限公司 | 文本与音频对齐方法及相关产品 |
CN114449333A (zh) * | 2020-10-30 | 2022-05-06 | 华为终端有限公司 | 视频笔记生成方法及电子设备 |
WO2022141176A1 (en) * | 2020-12-30 | 2022-07-07 | Citrix Systems, Inc. | Contextual notes for online meetings |
CN115050393A (zh) * | 2022-06-23 | 2022-09-13 | 安徽听见科技有限公司 | 获取回听音频的方法、装置、设备及存储介质 |
CN115906781A (zh) * | 2022-12-15 | 2023-04-04 | 广州文石信息科技有限公司 | 音频识别加锚点方法、装置、设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070645A (ja) * | 2003-08-27 | 2005-03-17 | Casio Comput Co Ltd | テキスト音声同期装置およびテキスト音声同期処理プログラム |
CN101101590A (zh) * | 2006-07-04 | 2008-01-09 | 王建波 | 一种声音与文字对应关系表生成方法及定位方法 |
CN101651788A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种在线语音文本对齐系统及方法 |
CN101964204A (zh) * | 2010-08-11 | 2011-02-02 | 方正科技集团苏州制造有限公司 | 一种录音和笔记对应的方法 |
CN103680561A (zh) * | 2012-08-31 | 2014-03-26 | 英业达科技有限公司 | 人声信号与其文字说明资料的同步的系统及其方法 |
CN104882152A (zh) * | 2015-05-18 | 2015-09-02 | 广州酷狗计算机科技有限公司 | 生成歌词文件的方法及装置 |
CN105117414A (zh) * | 2015-07-29 | 2015-12-02 | 天脉聚源(北京)教育科技有限公司 | 一种视频中笔记和动作同步的方法及装置 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN106055659A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种歌词数据匹配方法及其设备 |
CN107273388A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 庭审录像的处理方法和装置及查询方法和装置 |
-
2018
- 2018-08-16 CN CN201810934833.3A patent/CN109145149B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070645A (ja) * | 2003-08-27 | 2005-03-17 | Casio Comput Co Ltd | テキスト音声同期装置およびテキスト音声同期処理プログラム |
CN101101590A (zh) * | 2006-07-04 | 2008-01-09 | 王建波 | 一种声音与文字对应关系表生成方法及定位方法 |
CN101651788A (zh) * | 2008-12-26 | 2010-02-17 | 中国科学院声学研究所 | 一种在线语音文本对齐系统及方法 |
CN101964204A (zh) * | 2010-08-11 | 2011-02-02 | 方正科技集团苏州制造有限公司 | 一种录音和笔记对应的方法 |
CN103680561A (zh) * | 2012-08-31 | 2014-03-26 | 英业达科技有限公司 | 人声信号与其文字说明资料的同步的系统及其方法 |
CN104882152A (zh) * | 2015-05-18 | 2015-09-02 | 广州酷狗计算机科技有限公司 | 生成歌词文件的方法及装置 |
CN105117414A (zh) * | 2015-07-29 | 2015-12-02 | 天脉聚源(北京)教育科技有限公司 | 一种视频中笔记和动作同步的方法及装置 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN107273388A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 庭审录像的处理方法和装置及查询方法和装置 |
CN106055659A (zh) * | 2016-06-01 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种歌词数据匹配方法及其设备 |
Non-Patent Citations (1)
Title |
---|
高红坤: "基于SailAlign的中文语音文语对齐的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223365A (zh) * | 2019-06-14 | 2019-09-10 | 广东工业大学 | 一种笔记生成方法、系统、装置及计算机可读存储介质 |
CN110648666A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 一种基于会议概要提升会议转写性能的方法与系统 |
CN110648666B (zh) * | 2019-09-24 | 2022-03-15 | 上海依图信息技术有限公司 | 一种基于会议概要提升会议转写性能的方法与系统 |
CN111091834A (zh) * | 2019-12-23 | 2020-05-01 | 科大讯飞股份有限公司 | 文本与音频对齐方法及相关产品 |
CN111091834B (zh) * | 2019-12-23 | 2022-09-06 | 科大讯飞股份有限公司 | 文本与音频对齐方法及相关产品 |
CN114449333A (zh) * | 2020-10-30 | 2022-05-06 | 华为终端有限公司 | 视频笔记生成方法及电子设备 |
CN114449333B (zh) * | 2020-10-30 | 2023-09-01 | 华为终端有限公司 | 视频笔记生成方法及电子设备 |
WO2022141176A1 (en) * | 2020-12-30 | 2022-07-07 | Citrix Systems, Inc. | Contextual notes for online meetings |
US11455088B2 (en) | 2020-12-30 | 2022-09-27 | Citrix Systems, Inc. | Contextual notes for online meetings |
CN115050393A (zh) * | 2022-06-23 | 2022-09-13 | 安徽听见科技有限公司 | 获取回听音频的方法、装置、设备及存储介质 |
CN115906781A (zh) * | 2022-12-15 | 2023-04-04 | 广州文石信息科技有限公司 | 音频识别加锚点方法、装置、设备及可读存储介质 |
CN115906781B (zh) * | 2022-12-15 | 2023-11-24 | 广州文石信息科技有限公司 | 音频识别加锚点方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109145149B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145149A (zh) | 一种信息对齐方法、装置、设备及可读存储介质 | |
CN109065031B (zh) | 语音标注方法、装置及设备 | |
US10133538B2 (en) | Semi-supervised speaker diarization | |
CN110430476B (zh) | 直播间搜索方法、系统、计算机设备和存储介质 | |
JP4466564B2 (ja) | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
CN107968959B (zh) | 一种教学视频的知识点分割方法 | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN108305632A (zh) | 一种会议的语音摘要形成方法及系统 | |
CN109033060B (zh) | 一种信息对齐方法、装置、设备及可读存储介质 | |
US20180013718A1 (en) | Account adding method, terminal, server, and computer storage medium | |
CN106851401A (zh) | 一种自动添加字幕的方法及系统 | |
WO2011160741A1 (en) | A method for indexing multimedia information | |
CN105185377A (zh) | 一种基于语音的文件生成方法及装置 | |
US20210081699A1 (en) | Media management system for video data processing and adaptation data generation | |
CN110287364B (zh) | 语音搜索方法、系统、设备及计算机可读存储介质 | |
CN110442855B (zh) | 一种语音分析方法和系统 | |
US20190213998A1 (en) | Method and device for processing data visualization information | |
CN109815311B (zh) | 一种可识别普通书籍的点读方法及系统 | |
KR102170844B1 (ko) | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 | |
CN108899016B (zh) | 一种语音文本规整方法、装置、设备及可读存储介质 | |
KR101783872B1 (ko) | 동영상 검색 시스템 및 방법 | |
CN114155841A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN113889081A (zh) | 语音识别方法、介质、装置和计算设备 | |
CN108831473B (zh) | 一种音频处理方法及装置 | |
CN103186583A (zh) | 一种基于移动终端的信息记录和检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |