CN101996631B - 用于对齐文本的方法和装置 - Google Patents
用于对齐文本的方法和装置 Download PDFInfo
- Publication number
- CN101996631B CN101996631B CN200910168621.XA CN200910168621A CN101996631B CN 101996631 B CN101996631 B CN 101996631B CN 200910168621 A CN200910168621 A CN 200910168621A CN 101996631 B CN101996631 B CN 101996631B
- Authority
- CN
- China
- Prior art keywords
- text
- referenced
- target text
- phoneme
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于对齐文本的方法和装置。该方法包括:获取目标文本和参考文本;以及基于音素相似度,在字的级别对齐目标文本和参考文本。本发明还公开了应用上述方法的用于自动归档多媒体资源的方法,以及用于自动检索多媒体资源的方法。
Description
技术领域
本发明涉及语音处理技术领域,具体地,涉及用于对齐文本的方法及其装置,用于自动归档多媒体资源的方法,以及用于自动检索多媒体资源的方法。
背景技术
目前,随着信息技术的发展,多媒体资源日益普遍,相应的用于存储多媒体资源的存储库的规模越来越庞大。例如,在新闻中心和电视台通常存在数量庞大的需要查询和管理的广播新闻资源,这些资源通常包括节目视频和广播稿。过去的节目视频往往没有集成用于查询内容的元数据,不便于查询和管理。而广播稿是文字文本,容易查询其中的内容,提供了查询节目视频的天然接口。如果人工来查询和管理这些广播新闻资源,则费时费力,并且很多时候不可能实现。因此,希望能够自动地对齐节目视频和广播稿。也希望能够自动地将节目视频和广播稿集成为便于检索的多媒体资源。希望检索引擎能够自动根据广播稿检索要查询的字或短语,从与广播稿对齐的音频文件中回放所查询的内容。
又如,目前在开会或演讲时,往往会记录视频或者音频。这些视频/音频形式的会议记录可以存放在服务器上供以后浏览。会议和演讲中使用的文稿,例如PPT(Powerpoint)文稿,提供了用于浏览会议记录的天然接口。在浏览文稿的同时回放会议记录的情况下,需要很好地同步文稿的文字内容和视频/音频形式的会议记录中的语音内容。
现有的方法首先找到对应的视频/音频和参考文本对,然后使用语音识别引擎来解码音频数据,获得语音识别结果。使用动态编程算法进行特征最大匹配,以便实现句子级别的对齐。这些方法受到识别率和参考文本的准确性的影响,在识别率低或者参考文本含错的情况下,对齐效果差,甚至可能不能输出对齐结果。而且,这些方法不能够获得精确的时间信息。
现有技术中还存在一些其他方法,使用基于音素的强制对齐来对齐视频/音频中的语音与参考文本。但是这些方法受到句子级别对齐的精度的影响,可能不能输出对齐结果;另一方面,含错的参考文本也限制了对齐效果。此外,强制对齐基于音素的声学模型,其计算量大。关于强制对齐的详细内容可以参见文献〔Lussier E F.A Tutorial onpronunciation modeling for large vocabulary speech recognition[J].Lecture Notes in Computer Science,2003,2705:38-77.〕。
美国专利申请公开US 5649060A1,“Automatic indexing andaligning of audio and text using speech recognition”,公开了一种方法,通过语音识别器产生语音识别结果,然后通过识别结果与正确文本的对齐,将时间信息传递给正确的文本,从而实现音频的自动编辑和检索。然而,该方法主要通过文字的相同来实现对齐,其对齐效果极大地依赖于语音识别效果,而且该方法不能用于对齐音频和含错的参考文本。
美国专利申请公开US2008294433A1提出了一种文本和语音的对应工具。其中,利用语音活动检测得到候选的句子端点,通过强制对齐的方法得到音频和句子的最优对应,然后再对齐下一个句子,以此类推得到所有的对应关系,最终实现词级的对齐。如前面所述的,强制对齐基于声学模型,所需的计算量大,并且在复杂语境下的对齐效果较差。
Jan Nouza等人的论文“Automatic Align between Speech Recordsand Their Text Transcriptions for Audio Archive Indexing andSearching”,INFOS2008,March 27-29,2008 Cairo-Egypt,公开了一种方法,首先通过文本得到与之相关的语言模型,进而根据该语言模型得到性能相对较好的识别结果,然后通过文本对齐的方法将标准文本分成小的片段,然后对于没有准确对齐的片段采用强制对齐的方式得到最优的对齐结果。其中对齐效果取决于自动语音识别(AutomaticSpeech Recognition,ASR)系统的识别结果,并且强制对齐所需的计算量大。
对于象相声或者脱口秀这类节目,语言非常自由,并且带有很多口音,语言识别效果很差。使用基于文字相同来对齐的现有方法,可能无法对齐节目和参考文本(例如,相声稿或者剧本),甚至不能输出对齐结果。使用强制对齐的方法,则计算量可能非常大。因为这种情况下很难准确划分句子,而越长的语音段的强制对齐,计算量越大。
因此,需要一种高效的对齐视频/音频和参考文本的方法,其对于低准确性的识别结果和容错的参考文本,都能够快速地实现良好的对齐结果。
发明内容
考虑到语音识别过程中,出现的大量错误是同音异义字,或者发音相近的字,本发明提出以音素作为基元,通过音素相似度来对齐语音数据的识别文本和参考文本。这样,可以减少语音识别错误或者参考文本中的错误对对齐效果的影响。本发明提出的解决方案不使用强制对齐。对于某个语系,音素相似度可以预先计算并且存储,从而在本发明提出的对齐算法中,可以直接利用音素相似度,减少了计算复杂度。
此外,本发明还提出了分层次的对齐方式。首先基于混淆度,将整个文档切分成多个段落。接着,可选地通过连续字串匹配确定锚点,再根据锚点将段落划分成更小的片段。然后,以片段为基础,通过音素相似度来对齐语音数据的识别文本和参考文本。从而可以处理较长的文档,进一步简化对齐算法和加快对齐的速度。
根据本发明的第一方面,提出了一种用于对齐两个文本的方法,包括:获取目标文本和参考文本;以及,基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
根据本发明的第二方面,提出了一种用于对齐文本的装置,包括:输入模块,用于获取目标文本和参考文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
根据本发明的第三方面,提出了一种用于自动归档多媒体资源的方法,所述方法包括:a.获取原始多媒体资源和参考文本;b.识别原始多媒体资源中的语音数据,生成目标文本;c.基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;d.基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;以及e.将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件。
根据本发明的第四方面,提出了一种用于自动检索多媒体资源的方法,其中所述多媒体资源包括语音数据和其参考文本,所述方法包括:a.获取检索关键字;b.获取多媒体资源和参考文本;c.识别多媒体资源中的语音数据,生成目标文本;d.基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;e.基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;f.在参考文本中检索并且标识关键字;以及g.根据参考文本中检索到的关键字和所述时间链接,在多媒体资源中标识所述关键字的出现位置。
附图说明
通过结合附图参考下面对本发明的实施方式的详细描述,本发明的上述以及其他特征将更加明显。在附图中,
图1示意性地示出了根据本发明一个实施方式的对齐目标文本和参考文本的方法的流程图;
图2示意性地示出了根据本发明的一个实施方式,基于混淆度,在段落级别对齐目标文本和参考文本的过程;
图3示意性地示出了根据本发明的一个实施方式,基于音素相似度,在字的级别对齐目标文本和参考文本的过程;
图4a示出了根据本发明一个实施方式的参考文本与目标文本中的字的发音相似度表;
图4b示出了根据本发明一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法;
图5a示出了两个英语单词的音素的发音相似度表;
图5b示出了两个英语单词的最佳音素匹配路径的DTW算法;
图5c示出了根据本发明另一个实施方式的参考文本与目标文本中的字的发音相似度表;
图5d示出了根据本发明另一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法;
图6示意性地示出了根据本发明一个实施方式的用于对齐文本的装置的框图;
图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图;以及
图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
在下文中,将参考附图通过实施方式对本发明用于对齐语音数据的方法和装置进行详细的描述。
图1示出了根据本发明的一个示例性实施方式的用于对齐目标文本和参考文本的方法。以下以一个相声为例对本发明的方法进行说明。
在步骤S102,获取语音数据,例如,从服务器中获取一段相声的音频。在本说明书中,语音数据不仅指狭义的语音数据,也可以广义地指包括语音数据的任何音频或者视频数据,诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。语音数据的识别文本可以是用任何现有技术识别语音数据生成的识别文本。此外,本发明的音频或者视频数据不限于任何特定的存储格式。
在步骤S104中,对语音数据进行语音识别,将获得的语音数据的识别文本作为目标文本。例如,通过对获取的相声音频进行自动语音识别(ASR)生成该相声的识别文本。
应当理解,获取语音数据并且对语音数据进行识别的步骤S102和S104对于本发明的方法并不是必须的。当前有多种自动语音识别软件或服务可以提供语音的识别文本。因此,可以直接从自动语音识别软件或服务获得语音的识别文本,也即直接从服务器或者其他设备获得目标文本。
在步骤S106中,从服务器或者其他设备获得与语音数据相对应的参考文本,例如,从服务器中获取所述相声的相声稿。在本说明书中,参考文本指语音数据对应的文字稿,可以是诸如电影的字幕、新闻广播的文字稿、以及会议使用的PPT演示稿等等。此外,本发明的参考文本不限于任何特定的存储格式。
在本发明中,可以允许目标文本存在较多的识别错误。在字误识率(Character Error Rate,CER)较高的情况下也能够得到较好的对齐效果。例如,在本实施方式中,相声因为包括较多的方言或个性化的语言习惯,使用一般的ASR得到的识别结果中字误识率较高。但是针对这种情况,使用本发明的对齐方法仍然能够得到较好的对齐结果。
另一方面,参考文本也可以是不完整的文稿,或者也允许存在一些错误,其不会严重影响最终的对齐效果。
接着,在步骤S108中,基于混淆度的方法,在段落级别对齐目标文本和参考文本。可以通过任何已知的技术,例如语音活动检测(Voice Activity Detection,VAD),粗略地将目标文本分成各个句子。然后基于混淆度的方法,将各个句子映射到不同的段落,从而将目标文本分成与参考文本中的段落相对应的段落。后面,将参考图2对此进行更详细的说明。
应该理解,段落对齐后,以下描述的基于音素相似度的对齐可以在段落的基础上进行。这将大大简化基于音素相似度的对齐算法,提高对齐的速度。根据本发明的这种分层次的方法便于处理较长的文档。但是,步骤S108并不是必须的。对于较短的文本,可以不进行分段,将整个文本作为一个段落进行处理。
步骤S110中,针对目标文本和参考文本进行连续字串匹配,确定锚点(anchor)。锚点即执行连续字串匹配所获得的目标文本和参考文本中的完全匹配的字串。可以认为这些锚点表示了可靠性很高的准确对齐结果。根据锚点,可以将其前后部分分成不同的片段。从而,可以在步骤106的执行结果的基础上,将段落分成不同的片段。以下描述的基于音素相似度的对齐可以在比段落长度更短的片段的基础上进行。这将进一步简化基于音素相似度的对齐算法,提高对齐的速度。连续字串匹配可以按照从长到短的顺序执行,以便找到完全匹配的字串。例如可以先寻找匹配10个字长的字串,然后依次寻找9个字长的字串,8个字长的字串,以此类推。将找到的完全匹配的字串作为锚点。根据锚点,将目标文本的段落分成片段,从而针对每个片段,执行后续的精确对齐。
应该理解,所示出的步骤的顺序只是示例性的,并且可以以其他的顺序来执行所示出的步骤。例如,步骤S110也可以在步骤S108之前。当步骤S110在步骤S108之前时,可以针对目标文本和参考文本的全文,执行连续字串匹配。此外,在这种情况下,还有可能基于锚点来调整段落的切分。如果目标文本的一个段落结尾处的句子中的字串与参考文本的下一段的开始的句子中的字串完全匹配(即,该文字可以作为锚点),则可以将目标文本中的所述句子映射到下一段,重新划分段落的边界。当步骤S110在步骤S108之后时,可以针对目标文本和参考文本的全文,执行连续字串匹配,也可以针对每个段落,分别执行连续字串匹配。
而且,应该理解,步骤S110并不是必须的,查找锚点只是为了进一步减小需要对齐的文本的长度,进一步提高对齐的速度和准确性。
在步骤S112中,基于音素相似度,在字的级别对齐目标文本和参考文本。与现有技术中通过文字的相同来实现对齐的方法不同,在本发明中,通过音素的相同或相近来实现目标文本和参考文本在字的级别对齐。应该理解,本发明可以用于各种语言,因此本发明中的术语“字”不局限于汉语中的汉字,而是意指任何语言的基本单元,例如英语中的单词。
应该理解,音素是某一种语言的语音体系中的最小单元。不同的语言或方言具有不同的音素体系。例如,汉语和英语具有不同的音素体系,东北话和上海话也具有不同的音素体系。各语言的音素体系中音素的多寡相差甚多,有十几个的,也有多到一百多的,但都是有限的数目。在各自的语言中,音素与音素之间的相似程度不一样。为了简单起见,可以分为相似和不相似。可以在执行目标文本和参考文本的对齐时,规定尽量可以将相同和相似的音素对齐,而不对齐不相似的音素。
例如,在汉语拼音中,音素“ING”和音素“IN”相似,但是和音素“AO”不相似。在本发明的方法中,提出可以基于音素相似度,将相似的音素或具有相似音素的字对齐。例如,汉字“英”和“印”发音相近,然而是不同的字。在语音识别时,“英”很可能被错误地识别成“印”。在这种情况下,现有技术的通过文字相同实现对齐的方法不能得到对齐结果,因为“英”和“印”是不同的字。然而,使用本发明的方法,则可以将“英”和“印”对齐。以参考文本“英”和目标文本“印”为例,简单描述本发明的一种示例性对齐方法。首先,将每个汉字基于其拼音拆分为两个音素,例如声母部分和韵母部分(对于含双韵母的汉字,可以利用已知的相应技巧将其拆分成两个部分)。例如,汉字“英”的拼音是“YING”,可以分解为两个音素,“Y”和“ING”。汉字“印”的拼音为是“YIN”,可以分解为两个音素,“Y”和“IN”。然后,比较这两个汉字的音素的相似度。如果这两个汉字的两个音素都分别相同或相似,则认为这两个汉字的音素相似,否则,则认为这两个汉字的音素不相似。在该例子中,它们的第一个音素“Y”是相同的。它们的第二个音素“IN”和“ING”不相同,但是相似。因此,可以认为这两个汉字“英”和“印”的音素相似。最后,基于音素相似度,对齐参考文本和识别文本。例如,基于其音素相似,将“英”和“印”对齐。
例如,在英语中,同样可以基于音素相似度,在词(word)的级别对齐目标文本和参考文本。下面通过一个具体的例子来进行说明。
They drive 00 some of the core computer science and software research areas
They trying to sum up the court computer science and software research area
其中,在上的一行是目标文本,在下的一行是参考文本。可以看出目标文本中有多处错误,尤其是“trying to sum up the court”被识别成“drive 00 some of the core”(00表示无声或静音),其中6个词中有5个词错误。对于这种情况,现有技术的通过文字相同实现对齐的方法不能实现好的对齐效果,甚至无法输出对齐结果。但是使用本发明的方法,基于音素相似度,可以如上文示出的那样,在词级实现对齐。例如,所示例子中的单词“some”和“sum”对应的音素都是[sm],三个音素都相同,因此基于音素相同可以对齐单词“some”和“sum”。又如,所示例子中的单词“drive”和“trying”对应的音素分别是[dr ai v]和[tr ai],其中它们的第一音素[dr]和[tr]相似,第二音素[ai]相同。在两个单词对应的大多数音素分别相同或者相似的情况下,可以认为这两个单词的音素相似。例如,可以认为单词“drive”和“trying”的音素相似。因此基于其音素相似,可以对齐单词“drive”和“trying”。
上面以简单的例子示出了本发明提出的基于音素相似度进行对齐的方法。可见,现有技术中基于文本匹配对齐的方法要求目标文本的准确率比较高,否则目标文本与参考文本无法匹配。采用本发明基于音素的方法则对目标文本的准确率的要求大大降低。只要目标文本的音素与参考文本的音素相似,即可实现目标文本与参考文本的对齐,因而提高了对齐的效果。因此,使用本发明的方法对齐语音数据的识别文本和参考文本时,对识别文本的识别率的要求比较低。
应该理解,基于音素相似度的匹配可以采用更复杂的算法,得到更佳的效果。后面,将针对图3描述一个例子,其中使用DTW算法,基于音素相似度执行对齐。
接着,在步骤S114中,执行边界微调。容易理解,在字的级别对齐目标文本和参考文本后,可以进一步进行微调。例如,在字的级别对齐目标文本和参考文本后,可能其中的大部分文字是对齐的,仍而仍然有少量没有对齐的部分。没有对齐的部分可能是目标文本中多余的文字(也即参考文本中缺少的文字,称为插入错误),也可能是目标文本中缺少的文字(也即参考文本中多余的文字,称为删除错误)。应该理解,插入错误和删除错误都是相对的。可以将参考文本中多余的字(也即目标文本中缺少的字)称为插入错误,而将参考文本中缺少的字(也即参考文本中多余的字)称为删除错误。对齐的文字中也可能是一部分是匹配的(相同的)文字,而一部分是失配的(不同的)文字。在微调时,可以使用可信度高的对齐结果(例如,匹配的文字)来微调可信度低的对齐结果(例如插入错误或者删除错误,甚至是失配的文字)。对于一个插入错误,例如可以将它的持续时间平摊到它的前一个字(或多个字)和后一个字(或多个字);对于一个删除错误,可以从它前后的一个或多个字的持续时间中,匀出一部分时间用于该删除错误对应的字。
根据本发明,还可以执行其他微调操作。例如,在存在连续的插入错误字的情况下,可以认为是参考文本中原本就不完整的,少了某些片段,或者可以认为是目标文本中多余地识别了媒体中的背景音乐或者噪声,因此可以忽略其对应的时间关系。
通过这些微调操作,可以获得目标文本和参考文本的更佳的对齐结果。
在步骤S116中,在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐,参考文本可以获得语音数据的时间信息,也即在语音数据与参考文本之间建立时间链接。例如,在一个实施方式中,语音数据的识别文本中的每个字标记有时间戳。在语音数据与参考文本之间建立时间链接可以是根据对齐结果,将识别文本中的每个字的时间戳复制给参考文本中的每个字。另外,在语音数据与参考文本之间建立时间链接还可以是根据对齐结果,在参考文本中的每一句的开始加入时间以自动生成视频字幕文件。
在语音数据与参考文本之间建立时间链接后,可以通过参考文本中的内容直接找到其在语音数据中发生的时刻。
可选地,可以将参考文本中的重点内容或目标内容作成超链接的方式。通过选择参考文本中的超链接,用户可以不必从头开始回放即可直接回放语音数据中的用户感兴趣的内容。
应该注意,步骤S116是可选的。如果只是需要对齐文本,则不需要执行步骤116。
应该理解,上面示出的方法仅是示例性的,本发明的方法并不局限于上面示出的步骤和顺序。本领域技术人员根据所示实施方式的教导可以进行许多变化和修改。例如,在其他实施方式中,可以省略某些步骤,例如步骤S114等,或者增加一些步骤,例如增加识别步骤,或者以其他顺序执行示出的步骤,例如步骤S110可以在步骤S108之前。容易理解,所示出的步骤可以迭代执行,例如可以在步骤S112中在音素或字的级别对齐文本之后,重新调整段落的边界。然后再次执行步骤S112,得到更好的对齐结果。
图2示意性地示出了根据本发明的一个实施方式,基于混淆度,在段落级别对齐目标文本和参考文本的过程。
在步骤S202中,针对参考文本的每个段,建立语言模型(LanguageModel,LM)。例如,其可以是公知的N元文法LM。
在步骤S204中,基于所建立的LM,针对目标文本中的每个句子到每个段落的可能的映射,计算混淆度分数。首先考虑第一个句子。如果参考文本存在N个段,则存在N中可能的映射。针对每种可能的映射,计算其混淆度分数。对应于某一个段落,该句子的信息熵可以表示如下:
其中P(W)是针对给定的LM,分配给句子W的概率,而NW是以字为单位的句子的长度。该句子的混淆度分数可以表示为PP(X)=2H(X),其描述了语言的混淆程度。关于混淆度的概念的更详细的信息,可以参考X.Huang,A.Acero和H.-W.Hon等人的著作“Spoken LanguageProcessing:A Guide to Theory,Algorithm and System Development.Prentice Hall,2001”,尤其是其中的11.3章。在此,通过引用并入其全部内容。
然后,在步骤S206中,选择N种可能映射中,其混淆度分数为最小的映射结果,将该句子映射到一个段落。
可以重复步骤S204和S206,将第二个句子映射到一个段落。依次类推,将目标文本中的所有句子都映射到段落。从而实现在段落级别对齐目标文本和参考文本。
可选地,在步骤S208中,可以基于逻辑关系来调整句子到段落的映射结果,获得最终的段落对齐结果。某些情况下,在步骤206得到的段落对齐结果中可能存在段落划分错误。例如,句子的前后关系与句子所映射到的段落的前后关系不一致,因此需要进行平滑。这可能是某个段落的结尾处的句子被错误地映射到了下一段。或者可能是某个段落的开始处的句子被错误地映射到上一段。甚至,有可能是某两个段落的结尾和开头的两个句子被错误地看成了一个句子,并且被错误地映射到其中的一个段落。这些情况下,可以通过平滑来重新划分段落边界,得到更准确的段落对齐结果。
在一个实施方式中,可以基于下面的规则来执行平滑:
规则1:如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落2并且混淆度分数为小;句子3映射到段落1,则修改句子2的映射结果,将句子2改为映射到段落1;
规则2:如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落3并且混淆度值为小;句子3映射到段落2,则修改句子2的映射结果,将句子2改为映射到段落2。
在另外的实施方式中,可以基于如下规则来执行平滑:
如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落2并且混淆度值为小;句子3映射到段落2,则同时将句子2映射到段落2和段落1。然后,根据后续的锚点和/或基于音素相似度的字级对齐结果来重新划分段落边界。
应该理解,在该步骤中,还可以使用现有技术中的任何已知的其他段落边界平滑方法。
下面,参考图3详细描述图1中步骤S112的一个实施方式。图3示意性地示出了使用动态时间规整DTW算法,基于音素相似度,在字的级别对齐目标文本和参考文本的过程。应该理解,在执行步骤S112之前,可能已经进行了段落对齐,和/或根据锚点将文本分成了小的片段。因此,在图3中的目标文本和参考文本可以是指整个文本,可以是指一个段落,或者指一个小片段。通常,越小的片段生成的音素序列越短,则执行DTW算法所需的复杂度越小。
在步骤S302中,解析出目标文本对应的音素以及参考文本对应的音素。例如,可以将每个汉字分别拆分为声母部分,即第一音素,和韵母部分,即第二音素(对于含双韵母的汉字,可以利用已知的相应技巧将其拆分成两个部分)。
例如,参考文本和目标文本如下:
参考文本:印钞票还这么印呢这个
目标文本:英超刚才咱们说呢
解析出的音素序列如下:
参考文本:Y IN CH AO PI AO H AI ZH E M E Y IN N E ZH E
目标文本:Y ING CH AO G ANG C AI Z AN M EN SHU O。
在步骤S304中,使用DTW算法,利用音素相似度计算路径惩罚值,寻找匹配目标文本与参考文本的最佳路径。
下面通过图4a和图4b来具体描述使用DTW算法寻找最佳匹配路径的一个实施方式,其中所使用的语言是中文。
图4a以表格的形式示出了所考虑的例子中的参考文本与目标文本中的字的发音相似度。在图4a的表格中,以参考文本为表格的列,以目标文本为表格的行。表格的元素a(i,j)表示目标文本中的第i个字与参考文本中的第j个字的发音相似度。
字的发音相似度可以基于字对应的音素相似度来计算。
不同音素之间的音素相似度可以预先确定。在本例子中,音素相似度由音素的声学模型距离来度量,例如由马氏距离来度量。具体地,每个音素i的特征(例如,采用美尔频标倒谱系数(Mel FrequencyCepstral Coefficients,MFCC))分布为ci~N(μi,∑i),n为特征维数。其表示音素i的概率分布Ci服从均值矢量为μi、协方差矩阵为∑i的高斯分布;其中MFCC的特征维数为n。
两个音素i和j之间的马氏距离(即Mahalanobis距离)可以根据下面的公式计算:
本发明中的音素相似度还可以例如用其他距离来度量,例如欧式距离或者巴特查里亚距离来度量音素相似性。容易理解,在以距离度量音素相似度的情况下,音素相似度的值越大表示相似程度越小。音素相似度还可以如前面曾描述的那样,简单地以相似和不相似的二值判定来度量。
应该理解,所述音素相似度的度量可以预先确定。在本发明的方法中,可以简单地通过查找预先确定的音素相似性表或者数据库来找到音素相似度。
基于音素相似度,对任意两个给定汉字,根据下面的方法来计算字的发音相似度:将两个汉字的第一音素的相似度(距离)加上第二音素的相似度(距离),其和即为这两个汉字的发音相似度(距离)。当然,也可以将约化后的平均单音素相似度来表示字的相似度。也即,将两个汉字的音素相似度的和除以音素数目2作为这两个汉字的发音相似度。为了简单起见,在本实施方式中,以各音素的相似度之和为两个汉字的发音相似度。
例如,在比较汉字“英(Y-ING)”与“印(Y-IN)”时,第一音素的相似度为0,第二音素的相似度近似为0.16(其可以通过查表获得),所以两汉字的发音相似度(距离)即为0.16。类似地,钞和超的发音相似度近似是12.19,等等。
任意汉字与空音节(无声,在表格左上角中标记为0)之间的距离为常数,例如在图4a中是8。该常数是一个经验取值,是比所有汉字两两之间距离的平均值略低的一个数值。
为了简单起见,在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下,本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况,以应对高精度需求。
图4b以积累距离矩阵的形式示出了根据本发明的一个实施方式找到的最佳匹配路径。在图4b的矩阵中,以参考文本为矩阵的列,以目标文本为矩阵的行。矩阵的任意元素b(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。
对任意选定矩阵元b(i,j)的取值,均可由其左侧b(i-1,j),上方b(i,j-1),以及左上b(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为b(i,j)=max(b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)),其中三个项b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)分别表示三个相应的矩阵元路径,即纵向路径、横向路径和斜向路径,并且其中a(i,j)是图4a的表格中的元素,表示对应的两个字的发音相似度。如图中虚线框内的子矩阵元所示,三个路径的匹配方式如下:
纵向路径对应:刚0
0票
横向路径对应:0刚
票0
斜向路径对应:超刚
钞票
其中,0表示空音节。
斜向路径和纵向路径分别表示插入错误或者删除错误。针对插入错误或者删除错误,惩罚值可以是一个常量,在本例子中设为8。斜向路径的路径惩罚值对应于a(i,j),即对应的两个字的发音相似度。斜向路径中对应的两个字可能是相同的,则a(i,j)为0。斜向路径中对应的两个字可能是不同的,称为替代错误。
在图4b的矩阵中,仅需给出普适初始条件即b(0,0)=0,b(0,1)=-8,b(1,0)=-8,即可参考上述方式以及图4a中的发音相似度计算出完整矩阵。
在图4b的矩阵计算过程中,在得出每个矩阵元的具体取值的同时,可以保留每个矩阵元是从哪个相邻元素衍生而来,即衍生路径。在图4b的矩阵中,用虚线箭头(点划线箭头和点虚线箭头)标记了衍生路径。
通常,在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素,即右下角元素。例如,在图4b的矩阵中,仅存在一条这样的路径,并且将该路径用点划线箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。
DTW算法的原理是现有技术中已知的,在所示出的实施方式的教导下,本领域技术人员容易想到还可以使用DTW算法的其他实现方式来找到目标文本与参考文本之间的最佳匹配路径。
然后,在步骤S306中,基于所找到的最佳路径,对齐目标文本和参考文本。在本实施中,对齐的结果如下:
印钞票还这么印呢这个
英超刚才咱们00 00说呢
其中0000表示空音节。
应该理解,图3中示出的步骤仅是示例性的,还可以有所变化。例如,在另一个实施方式子中,还可以在步骤S304之前,判断要对齐的两个音素序列中的音素是否都包括在音素相似性表中,如果不是,则将该音素添加到音素相似性表中,并且计算该音素与表中的其他音素的距离值,作为音素相似度。还应该理解,对于参考文字与识别文字的最佳字段匹配路径,可以得到句子的似然度得分;经过归一化的似然度得分可以作为置信度,来进一步判断句子对齐的效果。
上文示出了本发明应用于中文的一个具体实施方式。但是应该理解,本发明的对齐方法可以应用于任何语言。基本方法都是以字或单词为基本单元,然后依据基本单元之间的发音相似度,在该基本单元级别上实现参考文本与目标文本的对齐。其区别仅在于基本单元的发音相似度计算稍有不同。例如,中文以汉字为基本单元。每个汉字在声韵母音标体系下都包含两个音素(可看成声母部分和韵母部分)。因此汉字间的相似度可以用声母相似度与韵母相似度之和来表示。但是,更一般地,在其他语言中,基本单位包含的音素数目可能不一样。例如,英语中以单词为基本单位。不同的单词含有的音素数目往往不同。在这种情况下,可以先通过DTW算法找出两个单词之间的最佳音素匹配方式,而后计算单词的发音相似度。对于不同的语言,本发明的方法的其余步骤相同。
下面以图5a-5d说明步骤S112的另一个实施方式,其中使用的语言是英语。
下面以to和some两个单词的发音相似度计算为例说明一般情况下单词相似度的计算方法。to包含两个音素,标记为T和AX。some包含三个音素,分别标记为S、AH和M。在图5a的表格中,以to包含的音素为表格的列,以some包含的音素为表格的行。表格的元素a(i,j)表示to的第i个音素与some的第j个音素的发音相似度。应该理解,音素相似度的度量可以预先确定。在本发明的方法中,可以简单地通过查找预先确定的音素相似性表或者数据库来找到所需的音素相似度。在图5a中,音素相似度由音素的声学模型距离来度量。并且,在图5a中,发音音素与空音节的音素相似度设为常数8。当然,其也可以依据经验设为其它常数。同样,为了简单起见,在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下,本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况,以应对高精度需求。
基于图5a中的音素相似性,可以通过DTW算法找出这两个单词之间的最佳音素匹配方式。所述DTW算法与图4b中示出的相同,在此不再详述。图5b示出了通过DTW算法得到的累积距离矩阵以及最佳匹配路径(以箭头表示)。矩阵的任意元素b(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似,对任意选定矩阵元b(i,j)的取值,均可由其左侧b(i-1,j),上方b(i,j-1),以及左上b(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为b(i,j)=max(b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)),其中三个项b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)分别表示三个相应的矩阵元路径,a(i,j)是图5a的表格中的元素,表示对应的两个单词的发音相似度。可以看出,单词to和some的最佳音素匹配方式如下:
即T AX 00
S AH M,
其中00表示空音节。通过增加相应的空音节,可以将原本具有不同数目音素的两个单词看成是具有相同数目的音素。也即,可以认为to和some都具有3个音素。
然后,可以将约化后的平均单音素相似度来表示单词相似度。例如,将单词to与some的单词相似度表示为其音素相似度之和除以其所包含的音素数目,即14.65/3=4.88。容易理解,图5b中的累积距离矩阵的最后一个元素的值表示了to与some的音素相似度之和14.65。
在得到单词相似度之后,在英语情况下的参考文本与目标文本的对齐操作与中文情况下完全相同。
下面的例子中,参考文本是“they drive some of the core”,目标文本是“they tring to some up the court”。
首先依照上述方法计算出单词间的相似度。图5c以表格的形式示出了所考虑的例子中的参考文本与目标文本中的单词的发音相似度。在图5c的表格中,以参考文本为表格的列,以目标文本为表格的行。表格的元素c(i,j)表示目标文本中的第i个单词与参考文本中的第j个单词的发音相似度。
图5d以积累距离矩阵的形式示出了对于上述例子,根据本发明的方法找到的最佳匹配路径。在图5d的矩阵中,以参考文本为矩阵的列,以目标文本为矩阵的行。矩阵的任意元素d(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似,对任意选定矩阵元d(i,j)的取值,均可由其左侧d(i-1,j),上方d(i,j-1),以及左上d(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为d(i,j)=max(d(i-1,j)-8,d(i,j-1)-8,d(i-1,j-1)-c(i,j)),其中三个项d(i-1,j)-8,d(i,j-1)-8,d(i-1,j-1)-c(i,j)分别表示三个相应的矩阵元路径,c(i,j)是图5c的表格中的元素,表示对应的两个单词的发音相似度。在图5d的矩阵中,仅需给出普适初始条件即d(0,0)=0,d(0,1)=-8,d(1,0)=-8,即可参考上述方式以及图5c中的发音相似度计算出完整矩阵。
在图5d的矩阵计算过程中,在得出每个矩阵元的具体取值的同时,可以保留每个矩阵元是从哪个相邻元素衍生而来,即衍生路径。通常,在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素,即右下角元素。例如,在图5d的矩阵中,仅存在一条这样的路径,并且将该路径用箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。
基于图5d中的最佳匹配路径,对齐的结果如下:
参考文本they drive 00 some of the core
目标文本they trying to sum up the court。
图6示意性地示出了根据本发明一个实施方式的对齐文本的装置600的框图。装置600用于执行前文所述的本发明的用于对齐文本的方法。装置600包括:输入模块602、字对齐模块606、以及链接模块608。
输入模块602用于获取目标文本和参考文本。输入模块602可以直接从服务器或者其他设备直接获得目标文本和参考文本。可选地,在本发明的一个实施方式中,输入模块602进一步包括语音识别模块6021。这种输入模块602可以从服务器或者其他设备获得语音和参考文本,然后通过语音识别模块6021识别语音数据,生成目标文本。如前文所述的,本发明中,语音识别模块6021不要求具有高的识别性能。
字对齐模块606用于基于音素相似度,在字的级别对齐目标文本和参考文本。在所述的实施方式中,字对齐模块606可以包括下述子模块:解析模块6061,用于解析出目标文本对应的音素以及参考文本对应的音素;DTW模块6062,其使用DTW算法,利用音素相似度计算路径惩罚值,找到匹配目标文本与参考文本的最佳路径;对齐子模块6063,其基于最佳路径,对齐目标文本和参考文本。应该理解,字对齐模块606可以有不同的实现方式。当以不同于DTW算法的方式来基于音素相似度,在字的级别对齐目标文本和参考文本时,字对齐模块606可以包括不同的子模块。
链接模块608用于基于目标文本与参考文本的对齐,在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即,识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐,参考文本可以获得语音数据的时间信息,也即在语音数据与参考文本之间建立时间链接。在一个实施方式中,链接模块608用于将识别文本中的每个字的时间戳复制给参考文本中的每个字。可选地,链接模块608可以将参考文本中的重点内容或目标内容作成超链接的方式。用户通过选择参考文本中的超链接,可以直接回放语音数据中的对应内容,不需要从头开始回放。应该注意,链接模块608并不是必须的。
可选地,装置600还可以包括段落对齐模块604,用于基于混淆度,在段落级别对齐目标文本与参考文本。段落对齐模块604可以包括:LM模块6041,用于针对参考文本的每个段落,建立语言模型LM;计算混淆度模块6042,用于基于所述段落的语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;映射模块6043,用于选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
可选地,段落对齐模块604进一步包括平滑模块6044,用于基于逻辑规则,对映射模块6043输出的映射结果进行平滑,调整可信度低的句子到段落的映射关系。
可选地,装置600还可以包括定锚模块610,用于针对目标文本和参考文本进行连续字串匹配,确定锚点。可以按照从长到短的顺序,顺序地进行字串匹配,找到完全匹配的字串。在一个实施方式中,定锚模块610从输入模块602接收目标文本和参考文本,并且将确定锚点的目标文本和参考文本输出给段落对齐模块604。在另一个实施方式中,定锚模块610接收段落对齐模块604输出的在段落级别对齐的目标文本和参考文本。针对每个段落,进行连续字串匹配,确定锚点。根据锚点,将目标文本的段落分成较小的片段。然后将每个小片段输出给字对齐模块606进行处理。
可选地,装置600还可以包括边界微调模块612。边界微调模块612接收字对齐模块606输出的在字的级别对齐的目标文本和参考文本。在所述文本中确定那些可信度高的对齐结果,例如对齐的相同文字。使用所确定的可信度高的对齐结果来微调可信度低的对齐结果,从而获得更佳的对齐效果。例如,使用所确定的可信度高的对齐结果来微调识别中的插入错误或者删除错误。
应该理解,本发明的对齐方法不局限于对齐语音数据的识别文本与参考文本。本发明的对齐方法可以一般地用于对齐目标文本与参考文本。例如,本发明的对齐方法可以用于对齐学生听写的文本和正确的参考文本。然后,根据对齐结果或者DTW算法中的路径惩罚值详细评价目标文本的正确率。
至此,通过示例的方式,描述了本发明的用于对齐目标文本和参考文本的技术方案,其中通过音素相似度,实现在音素级对齐目标文本和参考文本。本发明的对齐方案比现有的强制对齐技术方案运算速度要快,因为本发明的技术方案中音素相似度可以直接获得(预先确定,或者通过查表获得),而强制对齐的技术方案需要建立音素的声学模型,其计算量大。
与现有的通过相同文字实现对齐的技术相比,本发明的技术方案对目标文本的准确率要求低,允许目标文本和参考文本中存在较多的错误,同时获得较好的对齐效果。
此外,本发明还提出了分层级的对齐方案:首先基于混淆度,在段落级别对齐目标文本和参考文本;然后再基于音素相似度,在字的级别对齐。本发明的分层级的对齐方案可以用于处理较大的文档,以容错的方式和较少的计算量实现精确的对齐。
本发明的用于对齐目标文本和参考文本的方法,尤其是自动对齐语音数据和参考文本的技术方案,可以有多种应用。以下详细说明对本发明的不同应用。
图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图。其可以用于自动将电视台存在的大量的新闻节目视频和对应的广播稿转换成集成的多媒体资源进行存档。
在步骤S702中,获取原始多媒体资源和参考文本,其中原始的多媒体资源中不包括可以用于检索的元数据。原始的多媒体资源可以是各种视频或音频资源,诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。
在步骤S704中,识别原始多媒体资源中的语音数据,生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见,在此不再详述。
在步骤S706中,基于音素相似度,在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见,在此不再详述。
在步骤S708中,基于目标文本与参考文本的对齐,在语音与参考文本之间建立时间链接。例如,通过目标文本和参考文本的对齐,参考文本可以获得语音数据的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见,在此不再详述。
在步骤S710中,将步骤S708中建立的时间链接加入原始多媒体资源,生成新的多媒体资源存档文件。例如,可以将带有时间信息的参考文本中的内容作为多媒体资源的元数据,从而生成新的多媒体资源存档文件。新的多媒体资源存档文件具有可检索的元数据。
利用本发明的自动归档多媒体资源的方法,例如可以将大量的过去的电影、节目视频或者广播等多媒体资源转换成可以具有可检索元数据的多媒体资源,从而有利于对这些媒体资源的使用。
本发明还提供了用于执行上述方法的用于自动归档多媒体资源的装置,所述装置包括:输入模块,用于获取原始多媒体资源和参考文本;识别模块,用于识别原始多媒体资源中的语音数据,生成目标文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接;以及归档模块,用于将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件。
该用于自动归档多媒体资源的装置可以通过在图6所示的装置600的基础上增加上述的归档模块来实现。为了简单起见,在此处不再进行详细描述。
应该理解,图6中的装置600的实现可以有许多变化形式。因此,本发明的用于自动归档多媒体资源的装置也可以有许多类似的变化形式。
本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于自动检索多媒体资源。图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。在该实施方式中,以VOA慢速英语为例。多媒体资源是VOA广播音频。
在步骤S802中,获取检索关键字。在本实施方式中,输入要检索的英语单词。
在步骤S804中,获取多媒体资源和参考文本。在该实施方式中,多媒体资源是VOA广播音频,参考文本是该音频对应的参考教材。
在步骤S806中,识别多媒体资源中的语音数据,生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见,在此不再详述。
在步骤S808中,基于音素相似度,在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见,在此不再详述。
在步骤S810中,基于目标文本与参考文本的对齐,在语音数据与参考文本之间建立时间链接。在本实施方式中,通过目标文本和VOA参考教材的对齐,参考教材可以获得语音数据的时间信息,也即VOA广播音频的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见,在此不再详述。
在步骤S812中,在参考文本中检索并且标识关键字。在本实施方式中,在VOA的参考教材中检索并且标识输入的检索关键字。
在步骤S814中,根据参考文本中检索到的关键字和所建立的时间链接,在多媒体资源中标识所述关键字的出现位置。在本实施方式中,根据VOA参考教材中检索到的关键字和步骤S810中建立的时间链接,可以在VOA广播音频中标识所输入的关键字的出现位置。
从而用户(例如学习者)可以直接点击VOA广播音频中的标记回放希望聆听的内容,而不需要从头回放全部音频。
本发明还提供了用于执行上述方法的用于自动检索多媒体资源的装置,其中所述多媒体资源包括语音数据和其参考文本,所述装置包括:输入模块,用于获取检索关键字、多媒体资源和参考文本;识别模块,用于识别多媒体资源中的语音数据,生成目标文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接;检索模块,用于在所述参考文本中检索关键字;以及标识模块,用于根据所述参考文本中检索到的关键字和所述时间链接,在多媒体资源中标识所述关键字的出现位置。
该用于自动检索多媒体资源的装置例如可以通过在图6所示的装置600的基础上进行如下修改来实现:修改输入模块602,使得其不仅用于多媒体资源和参考文本,还用于获取检索关键字;以及,增加上述的检索模块和标识模块。为此简单起见,在此不再进行详细描述。
应该理解,图6中的装置600的实现可以有许多变化形式。因此,本发明的用于自动检索多媒体资源的装置也可以有许多类似的变化形式。
本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于许多应用,例如有针对性地浏览会议视频/音频记录等。在此不再详述。
通过以上对具体实施例的描述,本领域技术人员可以理解,上述的装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置及其部件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
虽然这里通过具体实施方式描述了本发明,但是本发明的范围不限于这些具体实施方式。本发明的范围由所附权利要求及其任何等同含义限定。
Claims (24)
1.一种用于对齐文本的方法,包括以下步骤:
获取目标文本和参考文本;
基于音素相似度,在字的级别对齐所述目标文本和所述参考文本,
其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
2.根据权利要求1所述的方法,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
3.根据权利要求2所述的方法,进一步包括步骤:基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
4.根据权利要求1所述的方法,其中,所述路径惩罚值是路径的每一步的惩罚值的和,路径的每一步的惩罚值按以下计算:
针对相同的字,惩罚值为0;
针对替代错误,惩罚值对应于两个字的发音相似度,所述发音相似度基于其对应的音素相似度;和
针对插入错误或者删除错误,惩罚值是一个常量。
5.根据权利要求1-4中任一所述的方法,其中,所述音素相似度是预先确定的。
6.根据权利要求1-4中任意一项所述的方法,其中所述音素相似度由音素的声学模型距离来度量。
7.根据权利要求6所述的方法,其中所述声学模型距离包括:欧式距离、马氏距离或者巴特查里亚距离。
8.根据权利要求1-3任一所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:基于混淆度,在段落级别对齐所述目标文本与所述参考文本。
9.根据权利要求8所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤包括:
针对参考文本的每个段落,建立语言模型;
基于所述语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;
选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
10.根据权利要求9所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤进一步包括:
对所述选择的映射结果进行平滑。
11.根据权利要求1所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:针对所述目标文本和所述参考文本进行连续字串匹配,以确定锚点,从而将所述目标文本和所述参考文本划分成更小的片段。
12.一种用于对齐文本的装置,包括:
输入模块,用于获取目标文本和参考文本;
字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本,
其中所述字对齐模块包括:
解析模块,用于解析出所述目标文本对应的音素以及所述参考文本对应的音素;
动态时间规整DTW模块,其使用DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
对齐子模块,其基于所述最佳路径,对齐所述目标文本和参考文本。
13.根据权利要求12所述的装置,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
14.根据权利要求13所述的装置,进一步包括:链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
15.根据权利要求12所述的装置,其中,所述路径惩罚值是路径的每一步的惩罚值的和,路径的每一步的惩罚值按以下计算:
针对相同的字,惩罚值为0;
针对替代错误,惩罚值对应于两个字的发音相似度,所述发音相似度基于其对应的音素相似度;和
针对插入错误或者删除错误,惩罚值是一个常量。
16.根据权利要求12-15中任一所述的装置,其中,所述音素相似度是预先确定的。
17.根据权利要求12-15中任一所述的装置,其中所述音素相似性由音素的声学模型距离来度量。
18.根据权利要求17所述的装置,其中所述距离包括:欧式距离、马氏距离或者巴特查里亚距离。
19.根据权利要求12-15任一所述的装置,进一步包括段落对齐模块,用于:基于混淆度,在段落级别对齐所述目标文本与所述参考文本。
20.根据权利要求19所述的装置,其中所述段落对齐模块包括:
语言模型LM模块,用于针对参考文本的每个段落,建立语言模型LM;
计算混淆度模块,用于基于所述语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;
映射模块,用于选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
21.根据权利要求20所述的装置,其中段落对齐模块进一步包括:
平滑模块,用于对所述选择的映射结果进行平滑。
22.根据权利要求12所述的装置,其进一步包括:定锚模块,用于针对所述目标文本和所述参考文本进行连续字串匹配,确定锚点,从而将所述目标文本和所述参考文本划分成更小的片段。
23.一种用于归档多媒体资源的方法,所述方法包括:
获取原始多媒体资源和参考文本;
识别原始多媒体资源中的语音数据,生成目标文本;
基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;
基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;以及
将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件,
其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
24.一种用于检索多媒体资源的方法,其中所述多媒体资源包括语音数据和其参考文本,所述方法包括:
获取检索关键字;
获取多媒体资源,所述多媒体资源具有参考文本以及通过识别多媒体资源中的语音数据而得到的目标文本,所述参考文本和所述目标文本基于音素相似度,在字的级别被对齐,并且基于所述对齐,所述参考文本与所述语音数据之间被建立时间链接;
在参考文本中检索并且标识关键字;以及
根据所标识的关键字在所述参考文本中的位置和所述时间链接,在多媒体资源中定位对应于所述关键字的多媒体资源的部分,
其中通过如下方式,所述参考文本和所述目标文本基于音素相似度,在字的级别被对齐:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910168621.XA CN101996631B (zh) | 2009-08-28 | 2009-08-28 | 用于对齐文本的方法和装置 |
US12/869,921 US8527272B2 (en) | 2009-08-28 | 2010-08-27 | Method and apparatus for aligning texts |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910168621.XA CN101996631B (zh) | 2009-08-28 | 2009-08-28 | 用于对齐文本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101996631A CN101996631A (zh) | 2011-03-30 |
CN101996631B true CN101996631B (zh) | 2014-12-03 |
Family
ID=43626161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910168621.XA Active CN101996631B (zh) | 2009-08-28 | 2009-08-28 | 用于对齐文本的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8527272B2 (zh) |
CN (1) | CN101996631B (zh) |
Families Citing this family (231)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
CN102411563B (zh) | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US8548800B2 (en) * | 2010-10-29 | 2013-10-01 | Verizon Patent And Licensing Inc. | Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance |
US20120158398A1 (en) * | 2010-12-17 | 2012-06-21 | John Denero | Combining Model-Based Aligner Using Dual Decomposition |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8855797B2 (en) | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) * | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US8965934B2 (en) * | 2011-11-16 | 2015-02-24 | Quova, Inc. | Method and apparatus for facilitating answering a query on a database |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9679608B2 (en) | 2012-06-28 | 2017-06-13 | Audible, Inc. | Pacing content |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9099089B2 (en) * | 2012-08-02 | 2015-08-04 | Audible, Inc. | Identifying corresponding regions of content |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9367196B1 (en) | 2012-09-26 | 2016-06-14 | Audible, Inc. | Conveying branched content |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
US9632647B1 (en) | 2012-10-09 | 2017-04-25 | Audible, Inc. | Selecting presentation positions in dynamic content |
US9223830B1 (en) | 2012-10-26 | 2015-12-29 | Audible, Inc. | Content presentation analysis |
US9280906B2 (en) | 2013-02-04 | 2016-03-08 | Audible. Inc. | Prompting a user for input during a synchronous presentation of audio content and textual content |
CN103165130B (zh) * | 2013-02-06 | 2015-07-29 | 程戈 | 语音文本匹配云系统 |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9489360B2 (en) | 2013-09-05 | 2016-11-08 | Audible, Inc. | Identifying extra material in companion content |
KR102140438B1 (ko) * | 2013-09-10 | 2020-08-04 | 주식회사 청담러닝 | 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템 |
JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
EP2851896A1 (en) * | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN104360996A (zh) * | 2014-11-27 | 2015-02-18 | 武汉传神信息技术有限公司 | 双语文本的句子对齐方法 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9484033B2 (en) * | 2014-12-11 | 2016-11-01 | International Business Machines Corporation | Processing and cross reference of realtime natural language dialog for live annotations |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
CN105159870B (zh) * | 2015-06-26 | 2018-06-29 | 徐信 | 一种精准完成连续自然语音文本化的处理系统及方法 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9672867B2 (en) | 2015-08-05 | 2017-06-06 | International Business Machines Corporation | Automated creation and maintenance of video-based documentation |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
CN105244022B (zh) * | 2015-09-28 | 2019-10-18 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10755729B2 (en) | 2016-11-07 | 2020-08-25 | Axon Enterprise, Inc. | Systems and methods for interrelating text transcript information with video and/or audio information |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN109686383B (zh) * | 2017-10-18 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种语音分析方法、装置及存储介质 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN108172212B (zh) * | 2017-12-25 | 2020-09-11 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
CN108734110B (zh) * | 2018-04-24 | 2022-08-09 | 达而观信息科技(上海)有限公司 | 基于最长公共子序列的文本段落识别对比方法及系统 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10558761B2 (en) * | 2018-07-05 | 2020-02-11 | Disney Enterprises, Inc. | Alignment of video and textual sequences for metadata analysis |
CN109033060B (zh) * | 2018-08-16 | 2023-01-17 | 科大讯飞股份有限公司 | 一种信息对齐方法、装置、设备及可读存储介质 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
CN112863547B (zh) * | 2018-10-23 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 虚拟资源转移处理方法、装置、存储介质及计算机设备 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109600299B (zh) * | 2018-11-19 | 2021-06-25 | 维沃移动通信有限公司 | 一种消息发送方法及终端 |
CN109766304A (zh) * | 2018-12-11 | 2019-05-17 | 中新金桥数字科技(北京)有限公司 | 基于iPad的关于Epub图书双语言对照阅读的方法及其系统 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109754783B (zh) * | 2019-03-05 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 用于确定音频语句的边界的方法和装置 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110223678A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN110442876B (zh) * | 2019-08-09 | 2023-09-05 | 深圳前海微众银行股份有限公司 | 文本挖掘方法、装置、终端及存储介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110718223B (zh) * | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN110706707B (zh) * | 2019-11-13 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN111341305B (zh) * | 2020-03-05 | 2023-09-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN112541062B (zh) * | 2020-11-27 | 2022-11-25 | 北京百分点科技集团股份有限公司 | 平行语料对齐方法、装置、存储介质及电子设备 |
CN112801817B (zh) * | 2020-12-29 | 2023-07-21 | 广东电网有限责任公司电力科学研究院 | 一种电能质量数据中心构建方法及其系统 |
CN112908308B (zh) * | 2021-02-02 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
US20220335075A1 (en) * | 2021-04-14 | 2022-10-20 | International Business Machines Corporation | Finding expressions in texts |
CN112836484B (zh) * | 2021-04-20 | 2021-08-27 | 北京妙医佳健康科技集团有限公司 | 一种文本对齐方法、装置、电子设备、计算机可读存储介质 |
CN113314124B (zh) * | 2021-06-15 | 2022-03-25 | 宿迁硅基智能科技有限公司 | 文本输出方法及系统、存储介质、电子装置 |
CN113782008B (zh) * | 2021-09-22 | 2024-03-26 | 上海喜马拉雅科技有限公司 | 文本音频对齐方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649060A (en) * | 1993-10-18 | 1997-07-15 | International Business Machines Corporation | Automatic indexing and aligning of audio and text using speech recognition |
US7165032B2 (en) * | 2002-09-13 | 2007-01-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
CN101004911A (zh) * | 2006-01-17 | 2007-07-25 | 国际商业机器公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
JP2007328283A (ja) * | 2006-06-09 | 2007-12-20 | Kenwood Corp | 対話装置、プログラム、及び対話方法 |
CN101188110A (zh) * | 2006-11-17 | 2008-05-28 | 陈健全 | 提高文本和语音匹配效率的方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US6172675B1 (en) * | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6636238B1 (en) * | 1999-04-20 | 2003-10-21 | International Business Machines Corporation | System and method for linking an audio stream with accompanying text material |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
DE60142967D1 (de) | 2000-06-09 | 2010-10-14 | British Broadcasting Corp | Erzeugung von untertiteln für bewegte bilder |
CN100431003C (zh) * | 2004-11-12 | 2008-11-05 | 中国科学院声学研究所 | 一种基于混淆网络的语音解码方法 |
US8694317B2 (en) * | 2005-02-05 | 2014-04-08 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
US20080294433A1 (en) * | 2005-05-27 | 2008-11-27 | Minerva Yeung | Automatic Text-Speech Mapping Tool |
NO325191B1 (no) * | 2005-12-30 | 2008-02-18 | Tandberg Telecom As | Sokbar multimedia strom |
US8005666B2 (en) * | 2006-10-24 | 2011-08-23 | National Institute Of Advanced Industrial Science And Technology | Automatic system for temporal alignment of music audio signal with lyrics |
US8185375B1 (en) * | 2007-03-26 | 2012-05-22 | Google Inc. | Word alignment with bridge languages |
US8131545B1 (en) * | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
US8244519B2 (en) * | 2008-12-03 | 2012-08-14 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
US8275604B2 (en) * | 2009-03-18 | 2012-09-25 | Microsoft Corporation | Adaptive pattern learning for bilingual data mining |
-
2009
- 2009-08-28 CN CN200910168621.XA patent/CN101996631B/zh active Active
-
2010
- 2010-08-27 US US12/869,921 patent/US8527272B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5649060A (en) * | 1993-10-18 | 1997-07-15 | International Business Machines Corporation | Automatic indexing and aligning of audio and text using speech recognition |
US7165032B2 (en) * | 2002-09-13 | 2007-01-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
CN101004911A (zh) * | 2006-01-17 | 2007-07-25 | 国际商业机器公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
JP2007328283A (ja) * | 2006-06-09 | 2007-12-20 | Kenwood Corp | 対話装置、プログラム、及び対話方法 |
CN101188110A (zh) * | 2006-11-17 | 2008-05-28 | 陈健全 | 提高文本和语音匹配效率的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101996631A (zh) | 2011-03-30 |
US8527272B2 (en) | 2013-09-03 |
US20110054901A1 (en) | 2011-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101996631B (zh) | 用于对齐文本的方法和装置 | |
Makhoul et al. | Speech and language technologies for audio indexing and retrieval | |
Chelba et al. | Retrieval and browsing of spoken content | |
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
US6263308B1 (en) | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process | |
US20070208561A1 (en) | Method and apparatus for searching multimedia data using speech recognition in mobile device | |
US20100292989A1 (en) | Symbol insertion apparatus and symbol insertion method | |
Kruspe et al. | Bootstrapping a System for Phoneme Recognition and Keyword Spotting in Unaccompanied Singing. | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
Furui | Recent progress in corpus-based spontaneous speech recognition | |
Parlak et al. | Performance analysis and improvement of Turkish broadcast news retrieval | |
Lecouteux et al. | Integrating imperfect transcripts into speech recognition systems for building high-quality corpora | |
Zhang et al. | Improving lecture speech summarization using rhetorical information | |
Ogata et al. | Automatic transcription for a web 2.0 service to search podcasts | |
Knill et al. | Impact of ASR performance on free speaking language assessment | |
Wang | Experiments in syllable-based retrieval of broadcast news speech in Mandarin Chinese | |
WO2014033855A1 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
Mamou et al. | Combination of multiple speech transcription methods for vocabulary independent search | |
Robert-Ribes et al. | Automatic generation of hyperlinks between audio and transcript. | |
Wang | Mandarin spoken document retrieval based on syllable lattice matching | |
Saz et al. | Lightly supervised alignment of subtitles on multi-genre broadcasts | |
EP1826686A1 (en) | Voice-controlled multimedia retrieval system | |
Nouza et al. | Large-scale processing, indexing and search system for Czech audio-visual cultural heritage archives | |
Turunen | Reducing the effect of OOV query words by using morph-based spoken document retrieval. | |
Kurimo et al. | An evaluation of a spoken document retrieval baseline system in finish. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |