CN101996631B - 用于对齐文本的方法和装置 - Google Patents

用于对齐文本的方法和装置 Download PDF

Info

Publication number
CN101996631B
CN101996631B CN200910168621.XA CN200910168621A CN101996631B CN 101996631 B CN101996631 B CN 101996631B CN 200910168621 A CN200910168621 A CN 200910168621A CN 101996631 B CN101996631 B CN 101996631B
Authority
CN
China
Prior art keywords
text
referenced
target text
phoneme
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910168621.XA
Other languages
English (en)
Other versions
CN101996631A (zh
Inventor
张世磊
施勤
双志伟
秦勇
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200910168621.XA priority Critical patent/CN101996631B/zh
Priority to US12/869,921 priority patent/US8527272B2/en
Publication of CN101996631A publication Critical patent/CN101996631A/zh
Application granted granted Critical
Publication of CN101996631B publication Critical patent/CN101996631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于对齐文本的方法和装置。该方法包括:获取目标文本和参考文本;以及基于音素相似度,在字的级别对齐目标文本和参考文本。本发明还公开了应用上述方法的用于自动归档多媒体资源的方法,以及用于自动检索多媒体资源的方法。

Description

用于对齐文本的方法和装置
技术领域
本发明涉及语音处理技术领域,具体地,涉及用于对齐文本的方法及其装置,用于自动归档多媒体资源的方法,以及用于自动检索多媒体资源的方法。
背景技术
目前,随着信息技术的发展,多媒体资源日益普遍,相应的用于存储多媒体资源的存储库的规模越来越庞大。例如,在新闻中心和电视台通常存在数量庞大的需要查询和管理的广播新闻资源,这些资源通常包括节目视频和广播稿。过去的节目视频往往没有集成用于查询内容的元数据,不便于查询和管理。而广播稿是文字文本,容易查询其中的内容,提供了查询节目视频的天然接口。如果人工来查询和管理这些广播新闻资源,则费时费力,并且很多时候不可能实现。因此,希望能够自动地对齐节目视频和广播稿。也希望能够自动地将节目视频和广播稿集成为便于检索的多媒体资源。希望检索引擎能够自动根据广播稿检索要查询的字或短语,从与广播稿对齐的音频文件中回放所查询的内容。
又如,目前在开会或演讲时,往往会记录视频或者音频。这些视频/音频形式的会议记录可以存放在服务器上供以后浏览。会议和演讲中使用的文稿,例如PPT(Powerpoint)文稿,提供了用于浏览会议记录的天然接口。在浏览文稿的同时回放会议记录的情况下,需要很好地同步文稿的文字内容和视频/音频形式的会议记录中的语音内容。
现有的方法首先找到对应的视频/音频和参考文本对,然后使用语音识别引擎来解码音频数据,获得语音识别结果。使用动态编程算法进行特征最大匹配,以便实现句子级别的对齐。这些方法受到识别率和参考文本的准确性的影响,在识别率低或者参考文本含错的情况下,对齐效果差,甚至可能不能输出对齐结果。而且,这些方法不能够获得精确的时间信息。
现有技术中还存在一些其他方法,使用基于音素的强制对齐来对齐视频/音频中的语音与参考文本。但是这些方法受到句子级别对齐的精度的影响,可能不能输出对齐结果;另一方面,含错的参考文本也限制了对齐效果。此外,强制对齐基于音素的声学模型,其计算量大。关于强制对齐的详细内容可以参见文献〔Lussier E F.A Tutorial onpronunciation modeling for large vocabulary speech recognition[J].Lecture Notes in Computer Science,2003,2705:38-77.〕。
美国专利申请公开US 5649060A1,“Automatic indexing andaligning of audio and text using speech recognition”,公开了一种方法,通过语音识别器产生语音识别结果,然后通过识别结果与正确文本的对齐,将时间信息传递给正确的文本,从而实现音频的自动编辑和检索。然而,该方法主要通过文字的相同来实现对齐,其对齐效果极大地依赖于语音识别效果,而且该方法不能用于对齐音频和含错的参考文本。
美国专利申请公开US2008294433A1提出了一种文本和语音的对应工具。其中,利用语音活动检测得到候选的句子端点,通过强制对齐的方法得到音频和句子的最优对应,然后再对齐下一个句子,以此类推得到所有的对应关系,最终实现词级的对齐。如前面所述的,强制对齐基于声学模型,所需的计算量大,并且在复杂语境下的对齐效果较差。
Jan Nouza等人的论文“Automatic Align between Speech Recordsand Their Text Transcriptions for Audio Archive Indexing andSearching”,INFOS2008,March 27-29,2008 Cairo-Egypt,公开了一种方法,首先通过文本得到与之相关的语言模型,进而根据该语言模型得到性能相对较好的识别结果,然后通过文本对齐的方法将标准文本分成小的片段,然后对于没有准确对齐的片段采用强制对齐的方式得到最优的对齐结果。其中对齐效果取决于自动语音识别(AutomaticSpeech Recognition,ASR)系统的识别结果,并且强制对齐所需的计算量大。
对于象相声或者脱口秀这类节目,语言非常自由,并且带有很多口音,语言识别效果很差。使用基于文字相同来对齐的现有方法,可能无法对齐节目和参考文本(例如,相声稿或者剧本),甚至不能输出对齐结果。使用强制对齐的方法,则计算量可能非常大。因为这种情况下很难准确划分句子,而越长的语音段的强制对齐,计算量越大。
因此,需要一种高效的对齐视频/音频和参考文本的方法,其对于低准确性的识别结果和容错的参考文本,都能够快速地实现良好的对齐结果。
发明内容
考虑到语音识别过程中,出现的大量错误是同音异义字,或者发音相近的字,本发明提出以音素作为基元,通过音素相似度来对齐语音数据的识别文本和参考文本。这样,可以减少语音识别错误或者参考文本中的错误对对齐效果的影响。本发明提出的解决方案不使用强制对齐。对于某个语系,音素相似度可以预先计算并且存储,从而在本发明提出的对齐算法中,可以直接利用音素相似度,减少了计算复杂度。
此外,本发明还提出了分层次的对齐方式。首先基于混淆度,将整个文档切分成多个段落。接着,可选地通过连续字串匹配确定锚点,再根据锚点将段落划分成更小的片段。然后,以片段为基础,通过音素相似度来对齐语音数据的识别文本和参考文本。从而可以处理较长的文档,进一步简化对齐算法和加快对齐的速度。
根据本发明的第一方面,提出了一种用于对齐两个文本的方法,包括:获取目标文本和参考文本;以及,基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
根据本发明的第二方面,提出了一种用于对齐文本的装置,包括:输入模块,用于获取目标文本和参考文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
根据本发明的第三方面,提出了一种用于自动归档多媒体资源的方法,所述方法包括:a.获取原始多媒体资源和参考文本;b.识别原始多媒体资源中的语音数据,生成目标文本;c.基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;d.基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;以及e.将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件。
根据本发明的第四方面,提出了一种用于自动检索多媒体资源的方法,其中所述多媒体资源包括语音数据和其参考文本,所述方法包括:a.获取检索关键字;b.获取多媒体资源和参考文本;c.识别多媒体资源中的语音数据,生成目标文本;d.基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;e.基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;f.在参考文本中检索并且标识关键字;以及g.根据参考文本中检索到的关键字和所述时间链接,在多媒体资源中标识所述关键字的出现位置。
附图说明
通过结合附图参考下面对本发明的实施方式的详细描述,本发明的上述以及其他特征将更加明显。在附图中,
图1示意性地示出了根据本发明一个实施方式的对齐目标文本和参考文本的方法的流程图;
图2示意性地示出了根据本发明的一个实施方式,基于混淆度,在段落级别对齐目标文本和参考文本的过程;
图3示意性地示出了根据本发明的一个实施方式,基于音素相似度,在字的级别对齐目标文本和参考文本的过程;
图4a示出了根据本发明一个实施方式的参考文本与目标文本中的字的发音相似度表;
图4b示出了根据本发明一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法;
图5a示出了两个英语单词的音素的发音相似度表;
图5b示出了两个英语单词的最佳音素匹配路径的DTW算法;
图5c示出了根据本发明另一个实施方式的参考文本与目标文本中的字的发音相似度表;
图5d示出了根据本发明另一个实施方式的寻找参考文本与目标文本之间的最佳匹配路径的DTW算法;
图6示意性地示出了根据本发明一个实施方式的用于对齐文本的装置的框图;
图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图;以及
图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
在下文中,将参考附图通过实施方式对本发明用于对齐语音数据的方法和装置进行详细的描述。
图1示出了根据本发明的一个示例性实施方式的用于对齐目标文本和参考文本的方法。以下以一个相声为例对本发明的方法进行说明。
在步骤S102,获取语音数据,例如,从服务器中获取一段相声的音频。在本说明书中,语音数据不仅指狭义的语音数据,也可以广义地指包括语音数据的任何音频或者视频数据,诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。语音数据的识别文本可以是用任何现有技术识别语音数据生成的识别文本。此外,本发明的音频或者视频数据不限于任何特定的存储格式。
在步骤S104中,对语音数据进行语音识别,将获得的语音数据的识别文本作为目标文本。例如,通过对获取的相声音频进行自动语音识别(ASR)生成该相声的识别文本。
应当理解,获取语音数据并且对语音数据进行识别的步骤S102和S104对于本发明的方法并不是必须的。当前有多种自动语音识别软件或服务可以提供语音的识别文本。因此,可以直接从自动语音识别软件或服务获得语音的识别文本,也即直接从服务器或者其他设备获得目标文本。
在步骤S106中,从服务器或者其他设备获得与语音数据相对应的参考文本,例如,从服务器中获取所述相声的相声稿。在本说明书中,参考文本指语音数据对应的文字稿,可以是诸如电影的字幕、新闻广播的文字稿、以及会议使用的PPT演示稿等等。此外,本发明的参考文本不限于任何特定的存储格式。
在本发明中,可以允许目标文本存在较多的识别错误。在字误识率(Character Error Rate,CER)较高的情况下也能够得到较好的对齐效果。例如,在本实施方式中,相声因为包括较多的方言或个性化的语言习惯,使用一般的ASR得到的识别结果中字误识率较高。但是针对这种情况,使用本发明的对齐方法仍然能够得到较好的对齐结果。
另一方面,参考文本也可以是不完整的文稿,或者也允许存在一些错误,其不会严重影响最终的对齐效果。
接着,在步骤S108中,基于混淆度的方法,在段落级别对齐目标文本和参考文本。可以通过任何已知的技术,例如语音活动检测(Voice Activity Detection,VAD),粗略地将目标文本分成各个句子。然后基于混淆度的方法,将各个句子映射到不同的段落,从而将目标文本分成与参考文本中的段落相对应的段落。后面,将参考图2对此进行更详细的说明。
应该理解,段落对齐后,以下描述的基于音素相似度的对齐可以在段落的基础上进行。这将大大简化基于音素相似度的对齐算法,提高对齐的速度。根据本发明的这种分层次的方法便于处理较长的文档。但是,步骤S108并不是必须的。对于较短的文本,可以不进行分段,将整个文本作为一个段落进行处理。
步骤S110中,针对目标文本和参考文本进行连续字串匹配,确定锚点(anchor)。锚点即执行连续字串匹配所获得的目标文本和参考文本中的完全匹配的字串。可以认为这些锚点表示了可靠性很高的准确对齐结果。根据锚点,可以将其前后部分分成不同的片段。从而,可以在步骤106的执行结果的基础上,将段落分成不同的片段。以下描述的基于音素相似度的对齐可以在比段落长度更短的片段的基础上进行。这将进一步简化基于音素相似度的对齐算法,提高对齐的速度。连续字串匹配可以按照从长到短的顺序执行,以便找到完全匹配的字串。例如可以先寻找匹配10个字长的字串,然后依次寻找9个字长的字串,8个字长的字串,以此类推。将找到的完全匹配的字串作为锚点。根据锚点,将目标文本的段落分成片段,从而针对每个片段,执行后续的精确对齐。
应该理解,所示出的步骤的顺序只是示例性的,并且可以以其他的顺序来执行所示出的步骤。例如,步骤S110也可以在步骤S108之前。当步骤S110在步骤S108之前时,可以针对目标文本和参考文本的全文,执行连续字串匹配。此外,在这种情况下,还有可能基于锚点来调整段落的切分。如果目标文本的一个段落结尾处的句子中的字串与参考文本的下一段的开始的句子中的字串完全匹配(即,该文字可以作为锚点),则可以将目标文本中的所述句子映射到下一段,重新划分段落的边界。当步骤S110在步骤S108之后时,可以针对目标文本和参考文本的全文,执行连续字串匹配,也可以针对每个段落,分别执行连续字串匹配。
而且,应该理解,步骤S110并不是必须的,查找锚点只是为了进一步减小需要对齐的文本的长度,进一步提高对齐的速度和准确性。
在步骤S112中,基于音素相似度,在字的级别对齐目标文本和参考文本。与现有技术中通过文字的相同来实现对齐的方法不同,在本发明中,通过音素的相同或相近来实现目标文本和参考文本在字的级别对齐。应该理解,本发明可以用于各种语言,因此本发明中的术语“字”不局限于汉语中的汉字,而是意指任何语言的基本单元,例如英语中的单词。
应该理解,音素是某一种语言的语音体系中的最小单元。不同的语言或方言具有不同的音素体系。例如,汉语和英语具有不同的音素体系,东北话和上海话也具有不同的音素体系。各语言的音素体系中音素的多寡相差甚多,有十几个的,也有多到一百多的,但都是有限的数目。在各自的语言中,音素与音素之间的相似程度不一样。为了简单起见,可以分为相似和不相似。可以在执行目标文本和参考文本的对齐时,规定尽量可以将相同和相似的音素对齐,而不对齐不相似的音素。
例如,在汉语拼音中,音素“ING”和音素“IN”相似,但是和音素“AO”不相似。在本发明的方法中,提出可以基于音素相似度,将相似的音素或具有相似音素的字对齐。例如,汉字“英”和“印”发音相近,然而是不同的字。在语音识别时,“英”很可能被错误地识别成“印”。在这种情况下,现有技术的通过文字相同实现对齐的方法不能得到对齐结果,因为“英”和“印”是不同的字。然而,使用本发明的方法,则可以将“英”和“印”对齐。以参考文本“英”和目标文本“印”为例,简单描述本发明的一种示例性对齐方法。首先,将每个汉字基于其拼音拆分为两个音素,例如声母部分和韵母部分(对于含双韵母的汉字,可以利用已知的相应技巧将其拆分成两个部分)。例如,汉字“英”的拼音是“YING”,可以分解为两个音素,“Y”和“ING”。汉字“印”的拼音为是“YIN”,可以分解为两个音素,“Y”和“IN”。然后,比较这两个汉字的音素的相似度。如果这两个汉字的两个音素都分别相同或相似,则认为这两个汉字的音素相似,否则,则认为这两个汉字的音素不相似。在该例子中,它们的第一个音素“Y”是相同的。它们的第二个音素“IN”和“ING”不相同,但是相似。因此,可以认为这两个汉字“英”和“印”的音素相似。最后,基于音素相似度,对齐参考文本和识别文本。例如,基于其音素相似,将“英”和“印”对齐。
例如,在英语中,同样可以基于音素相似度,在词(word)的级别对齐目标文本和参考文本。下面通过一个具体的例子来进行说明。
They drive 00 some of the core computer science and software research areas
They trying to sum up the court computer science and software research area
其中,在上的一行是目标文本,在下的一行是参考文本。可以看出目标文本中有多处错误,尤其是“trying to sum up the court”被识别成“drive 00 some of the core”(00表示无声或静音),其中6个词中有5个词错误。对于这种情况,现有技术的通过文字相同实现对齐的方法不能实现好的对齐效果,甚至无法输出对齐结果。但是使用本发明的方法,基于音素相似度,可以如上文示出的那样,在词级实现对齐。例如,所示例子中的单词“some”和“sum”对应的音素都是[sm],三个音素都相同,因此基于音素相同可以对齐单词“some”和“sum”。又如,所示例子中的单词“drive”和“trying”对应的音素分别是[dr ai v]和[tr ai],其中它们的第一音素[dr]和[tr]相似,第二音素[ai]相同。在两个单词对应的大多数音素分别相同或者相似的情况下,可以认为这两个单词的音素相似。例如,可以认为单词“drive”和“trying”的音素相似。因此基于其音素相似,可以对齐单词“drive”和“trying”。
上面以简单的例子示出了本发明提出的基于音素相似度进行对齐的方法。可见,现有技术中基于文本匹配对齐的方法要求目标文本的准确率比较高,否则目标文本与参考文本无法匹配。采用本发明基于音素的方法则对目标文本的准确率的要求大大降低。只要目标文本的音素与参考文本的音素相似,即可实现目标文本与参考文本的对齐,因而提高了对齐的效果。因此,使用本发明的方法对齐语音数据的识别文本和参考文本时,对识别文本的识别率的要求比较低。
应该理解,基于音素相似度的匹配可以采用更复杂的算法,得到更佳的效果。后面,将针对图3描述一个例子,其中使用DTW算法,基于音素相似度执行对齐。
接着,在步骤S114中,执行边界微调。容易理解,在字的级别对齐目标文本和参考文本后,可以进一步进行微调。例如,在字的级别对齐目标文本和参考文本后,可能其中的大部分文字是对齐的,仍而仍然有少量没有对齐的部分。没有对齐的部分可能是目标文本中多余的文字(也即参考文本中缺少的文字,称为插入错误),也可能是目标文本中缺少的文字(也即参考文本中多余的文字,称为删除错误)。应该理解,插入错误和删除错误都是相对的。可以将参考文本中多余的字(也即目标文本中缺少的字)称为插入错误,而将参考文本中缺少的字(也即参考文本中多余的字)称为删除错误。对齐的文字中也可能是一部分是匹配的(相同的)文字,而一部分是失配的(不同的)文字。在微调时,可以使用可信度高的对齐结果(例如,匹配的文字)来微调可信度低的对齐结果(例如插入错误或者删除错误,甚至是失配的文字)。对于一个插入错误,例如可以将它的持续时间平摊到它的前一个字(或多个字)和后一个字(或多个字);对于一个删除错误,可以从它前后的一个或多个字的持续时间中,匀出一部分时间用于该删除错误对应的字。
根据本发明,还可以执行其他微调操作。例如,在存在连续的插入错误字的情况下,可以认为是参考文本中原本就不完整的,少了某些片段,或者可以认为是目标文本中多余地识别了媒体中的背景音乐或者噪声,因此可以忽略其对应的时间关系。
通过这些微调操作,可以获得目标文本和参考文本的更佳的对齐结果。
在步骤S116中,在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐,参考文本可以获得语音数据的时间信息,也即在语音数据与参考文本之间建立时间链接。例如,在一个实施方式中,语音数据的识别文本中的每个字标记有时间戳。在语音数据与参考文本之间建立时间链接可以是根据对齐结果,将识别文本中的每个字的时间戳复制给参考文本中的每个字。另外,在语音数据与参考文本之间建立时间链接还可以是根据对齐结果,在参考文本中的每一句的开始加入时间以自动生成视频字幕文件。
在语音数据与参考文本之间建立时间链接后,可以通过参考文本中的内容直接找到其在语音数据中发生的时刻。
可选地,可以将参考文本中的重点内容或目标内容作成超链接的方式。通过选择参考文本中的超链接,用户可以不必从头开始回放即可直接回放语音数据中的用户感兴趣的内容。
应该注意,步骤S116是可选的。如果只是需要对齐文本,则不需要执行步骤116。
应该理解,上面示出的方法仅是示例性的,本发明的方法并不局限于上面示出的步骤和顺序。本领域技术人员根据所示实施方式的教导可以进行许多变化和修改。例如,在其他实施方式中,可以省略某些步骤,例如步骤S114等,或者增加一些步骤,例如增加识别步骤,或者以其他顺序执行示出的步骤,例如步骤S110可以在步骤S108之前。容易理解,所示出的步骤可以迭代执行,例如可以在步骤S112中在音素或字的级别对齐文本之后,重新调整段落的边界。然后再次执行步骤S112,得到更好的对齐结果。
图2示意性地示出了根据本发明的一个实施方式,基于混淆度,在段落级别对齐目标文本和参考文本的过程。
在步骤S202中,针对参考文本的每个段,建立语言模型(LanguageModel,LM)。例如,其可以是公知的N元文法LM。
在步骤S204中,基于所建立的LM,针对目标文本中的每个句子到每个段落的可能的映射,计算混淆度分数。首先考虑第一个句子。如果参考文本存在N个段,则存在N中可能的映射。针对每种可能的映射,计算其混淆度分数。对应于某一个段落,该句子的信息熵可以表示如下:
H ( W ) = 1 N W log 1 P ( W ) - - - ( 1 )
其中P(W)是针对给定的LM,分配给句子W的概率,而NW是以字为单位的句子的长度。该句子的混淆度分数可以表示为PP(X)=2H(X),其描述了语言的混淆程度。关于混淆度的概念的更详细的信息,可以参考X.Huang,A.Acero和H.-W.Hon等人的著作“Spoken LanguageProcessing:A Guide to Theory,Algorithm and System Development.Prentice Hall,2001”,尤其是其中的11.3章。在此,通过引用并入其全部内容。
然后,在步骤S206中,选择N种可能映射中,其混淆度分数为最小的映射结果,将该句子映射到一个段落。
可以重复步骤S204和S206,将第二个句子映射到一个段落。依次类推,将目标文本中的所有句子都映射到段落。从而实现在段落级别对齐目标文本和参考文本。
可选地,在步骤S208中,可以基于逻辑关系来调整句子到段落的映射结果,获得最终的段落对齐结果。某些情况下,在步骤206得到的段落对齐结果中可能存在段落划分错误。例如,句子的前后关系与句子所映射到的段落的前后关系不一致,因此需要进行平滑。这可能是某个段落的结尾处的句子被错误地映射到了下一段。或者可能是某个段落的开始处的句子被错误地映射到上一段。甚至,有可能是某两个段落的结尾和开头的两个句子被错误地看成了一个句子,并且被错误地映射到其中的一个段落。这些情况下,可以通过平滑来重新划分段落边界,得到更准确的段落对齐结果。
在一个实施方式中,可以基于下面的规则来执行平滑:
规则1:如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落2并且混淆度分数为小;句子3映射到段落1,则修改句子2的映射结果,将句子2改为映射到段落1;
规则2:如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落3并且混淆度值为小;句子3映射到段落2,则修改句子2的映射结果,将句子2改为映射到段落2。
在另外的实施方式中,可以基于如下规则来执行平滑:
如果目标文本中的连续的三个句子中,句子1映射到段落1;句子2映射到段落2并且混淆度值为小;句子3映射到段落2,则同时将句子2映射到段落2和段落1。然后,根据后续的锚点和/或基于音素相似度的字级对齐结果来重新划分段落边界。
应该理解,在该步骤中,还可以使用现有技术中的任何已知的其他段落边界平滑方法。
下面,参考图3详细描述图1中步骤S112的一个实施方式。图3示意性地示出了使用动态时间规整DTW算法,基于音素相似度,在字的级别对齐目标文本和参考文本的过程。应该理解,在执行步骤S112之前,可能已经进行了段落对齐,和/或根据锚点将文本分成了小的片段。因此,在图3中的目标文本和参考文本可以是指整个文本,可以是指一个段落,或者指一个小片段。通常,越小的片段生成的音素序列越短,则执行DTW算法所需的复杂度越小。
在步骤S302中,解析出目标文本对应的音素以及参考文本对应的音素。例如,可以将每个汉字分别拆分为声母部分,即第一音素,和韵母部分,即第二音素(对于含双韵母的汉字,可以利用已知的相应技巧将其拆分成两个部分)。
例如,参考文本和目标文本如下:
参考文本:印钞票还这么印呢这个
目标文本:英超刚才咱们说呢
解析出的音素序列如下:
参考文本:Y IN CH AO PI AO H AI ZH E M E Y IN N E ZH E
目标文本:Y ING CH AO G ANG C AI Z AN M EN SHU O。
在步骤S304中,使用DTW算法,利用音素相似度计算路径惩罚值,寻找匹配目标文本与参考文本的最佳路径。
下面通过图4a和图4b来具体描述使用DTW算法寻找最佳匹配路径的一个实施方式,其中所使用的语言是中文。
图4a以表格的形式示出了所考虑的例子中的参考文本与目标文本中的字的发音相似度。在图4a的表格中,以参考文本为表格的列,以目标文本为表格的行。表格的元素a(i,j)表示目标文本中的第i个字与参考文本中的第j个字的发音相似度。
字的发音相似度可以基于字对应的音素相似度来计算。
不同音素之间的音素相似度可以预先确定。在本例子中,音素相似度由音素的声学模型距离来度量,例如由马氏距离来度量。具体地,每个音素i的特征(例如,采用美尔频标倒谱系数(Mel FrequencyCepstral Coefficients,MFCC))分布为ci~N(μi,∑i),n为特征维数。其表示音素i的概率分布Ci服从均值矢量为μi、协方差矩阵为∑i的高斯分布;其中MFCC的特征维数为n。
两个音素i和j之间的马氏距离(即Mahalanobis距离)可以根据下面的公式计算:
d 2 ( c i , c j ) = ( μ i - μ j ) T ( Σ i + Σ j 2 ) - 1 ( μ i - μ j ) .
本发明中的音素相似度还可以例如用其他距离来度量,例如欧式距离或者巴特查里亚距离来度量音素相似性。容易理解,在以距离度量音素相似度的情况下,音素相似度的值越大表示相似程度越小。音素相似度还可以如前面曾描述的那样,简单地以相似和不相似的二值判定来度量。
应该理解,所述音素相似度的度量可以预先确定。在本发明的方法中,可以简单地通过查找预先确定的音素相似性表或者数据库来找到音素相似度。
基于音素相似度,对任意两个给定汉字,根据下面的方法来计算字的发音相似度:将两个汉字的第一音素的相似度(距离)加上第二音素的相似度(距离),其和即为这两个汉字的发音相似度(距离)。当然,也可以将约化后的平均单音素相似度来表示字的相似度。也即,将两个汉字的音素相似度的和除以音素数目2作为这两个汉字的发音相似度。为了简单起见,在本实施方式中,以各音素的相似度之和为两个汉字的发音相似度。
例如,在比较汉字“英(Y-ING)”与“印(Y-IN)”时,第一音素的相似度为0,第二音素的相似度近似为0.16(其可以通过查表获得),所以两汉字的发音相似度(距离)即为0.16。类似地,钞和超的发音相似度近似是12.19,等等。
任意汉字与空音节(无声,在表格左上角中标记为0)之间的距离为常数,例如在图4a中是8。该常数是一个经验取值,是比所有汉字两两之间距离的平均值略低的一个数值。
为了简单起见,在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下,本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况,以应对高精度需求。
图4b以积累距离矩阵的形式示出了根据本发明的一个实施方式找到的最佳匹配路径。在图4b的矩阵中,以参考文本为矩阵的列,以目标文本为矩阵的行。矩阵的任意元素b(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。
对任意选定矩阵元b(i,j)的取值,均可由其左侧b(i-1,j),上方b(i,j-1),以及左上b(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为b(i,j)=max(b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)),其中三个项b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)分别表示三个相应的矩阵元路径,即纵向路径、横向路径和斜向路径,并且其中a(i,j)是图4a的表格中的元素,表示对应的两个字的发音相似度。如图中虚线框内的子矩阵元所示,三个路径的匹配方式如下:
纵向路径对应:刚0
              0票
横向路径对应:0刚
              票0
斜向路径对应:超刚
              钞票
其中,0表示空音节。
斜向路径和纵向路径分别表示插入错误或者删除错误。针对插入错误或者删除错误,惩罚值可以是一个常量,在本例子中设为8。斜向路径的路径惩罚值对应于a(i,j),即对应的两个字的发音相似度。斜向路径中对应的两个字可能是相同的,则a(i,j)为0。斜向路径中对应的两个字可能是不同的,称为替代错误。
在图4b的矩阵中,仅需给出普适初始条件即b(0,0)=0,b(0,1)=-8,b(1,0)=-8,即可参考上述方式以及图4a中的发音相似度计算出完整矩阵。
在图4b的矩阵计算过程中,在得出每个矩阵元的具体取值的同时,可以保留每个矩阵元是从哪个相邻元素衍生而来,即衍生路径。在图4b的矩阵中,用虚线箭头(点划线箭头和点虚线箭头)标记了衍生路径。
通常,在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素,即右下角元素。例如,在图4b的矩阵中,仅存在一条这样的路径,并且将该路径用点划线箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。
DTW算法的原理是现有技术中已知的,在所示出的实施方式的教导下,本领域技术人员容易想到还可以使用DTW算法的其他实现方式来找到目标文本与参考文本之间的最佳匹配路径。
然后,在步骤S306中,基于所找到的最佳路径,对齐目标文本和参考文本。在本实施中,对齐的结果如下:
印钞票还这么印呢这个
英超刚才咱们00 00说呢
其中0000表示空音节。
应该理解,图3中示出的步骤仅是示例性的,还可以有所变化。例如,在另一个实施方式子中,还可以在步骤S304之前,判断要对齐的两个音素序列中的音素是否都包括在音素相似性表中,如果不是,则将该音素添加到音素相似性表中,并且计算该音素与表中的其他音素的距离值,作为音素相似度。还应该理解,对于参考文字与识别文字的最佳字段匹配路径,可以得到句子的似然度得分;经过归一化的似然度得分可以作为置信度,来进一步判断句子对齐的效果。
上文示出了本发明应用于中文的一个具体实施方式。但是应该理解,本发明的对齐方法可以应用于任何语言。基本方法都是以字或单词为基本单元,然后依据基本单元之间的发音相似度,在该基本单元级别上实现参考文本与目标文本的对齐。其区别仅在于基本单元的发音相似度计算稍有不同。例如,中文以汉字为基本单元。每个汉字在声韵母音标体系下都包含两个音素(可看成声母部分和韵母部分)。因此汉字间的相似度可以用声母相似度与韵母相似度之和来表示。但是,更一般地,在其他语言中,基本单位包含的音素数目可能不一样。例如,英语中以单词为基本单位。不同的单词含有的音素数目往往不同。在这种情况下,可以先通过DTW算法找出两个单词之间的最佳音素匹配方式,而后计算单词的发音相似度。对于不同的语言,本发明的方法的其余步骤相同。
下面以图5a-5d说明步骤S112的另一个实施方式,其中使用的语言是英语。
下面以to和some两个单词的发音相似度计算为例说明一般情况下单词相似度的计算方法。to包含两个音素,标记为T和AX。some包含三个音素,分别标记为S、AH和M。在图5a的表格中,以to包含的音素为表格的列,以some包含的音素为表格的行。表格的元素a(i,j)表示to的第i个音素与some的第j个音素的发音相似度。应该理解,音素相似度的度量可以预先确定。在本发明的方法中,可以简单地通过查找预先确定的音素相似性表或者数据库来找到所需的音素相似度。在图5a中,音素相似度由音素的声学模型距离来度量。并且,在图5a中,发音音素与空音节的音素相似度设为常数8。当然,其也可以依据经验设为其它常数。同样,为了简单起见,在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下,本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况,以应对高精度需求。
基于图5a中的音素相似性,可以通过DTW算法找出这两个单词之间的最佳音素匹配方式。所述DTW算法与图4b中示出的相同,在此不再详述。图5b示出了通过DTW算法得到的累积距离矩阵以及最佳匹配路径(以箭头表示)。矩阵的任意元素b(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似,对任意选定矩阵元b(i,j)的取值,均可由其左侧b(i-1,j),上方b(i,j-1),以及左上b(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为b(i,j)=max(b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)),其中三个项b(i-1,j)-8,b(i,j-1)-8,b(i-1,j-1)-a(i,j)分别表示三个相应的矩阵元路径,a(i,j)是图5a的表格中的元素,表示对应的两个单词的发音相似度。可以看出,单词to和some的最佳音素匹配方式如下:
即T  AX    00
  S  AH    M,
其中00表示空音节。通过增加相应的空音节,可以将原本具有不同数目音素的两个单词看成是具有相同数目的音素。也即,可以认为to和some都具有3个音素。
然后,可以将约化后的平均单音素相似度来表示单词相似度。例如,将单词to与some的单词相似度表示为其音素相似度之和除以其所包含的音素数目,即14.65/3=4.88。容易理解,图5b中的累积距离矩阵的最后一个元素的值表示了to与some的音素相似度之和14.65。
在得到单词相似度之后,在英语情况下的参考文本与目标文本的对齐操作与中文情况下完全相同。
下面的例子中,参考文本是“they drive some of the core”,目标文本是“they tring to some up the court”。
首先依照上述方法计算出单词间的相似度。图5c以表格的形式示出了所考虑的例子中的参考文本与目标文本中的单词的发音相似度。在图5c的表格中,以参考文本为表格的列,以目标文本为表格的行。表格的元素c(i,j)表示目标文本中的第i个单词与参考文本中的第j个单词的发音相似度。
图5d以积累距离矩阵的形式示出了对于上述例子,根据本发明的方法找到的最佳匹配路径。在图5d的矩阵中,以参考文本为矩阵的列,以目标文本为矩阵的行。矩阵的任意元素d(i,j)表示到达该位置的所有可能路径中的最佳路径的惩罚值。与图4b中类似,对任意选定矩阵元d(i,j)的取值,均可由其左侧d(i-1,j),上方d(i,j-1),以及左上d(i-1,j-1)三个相邻矩阵元取值决定。具体计算方法为d(i,j)=max(d(i-1,j)-8,d(i,j-1)-8,d(i-1,j-1)-c(i,j)),其中三个项d(i-1,j)-8,d(i,j-1)-8,d(i-1,j-1)-c(i,j)分别表示三个相应的矩阵元路径,c(i,j)是图5c的表格中的元素,表示对应的两个单词的发音相似度。在图5d的矩阵中,仅需给出普适初始条件即d(0,0)=0,d(0,1)=-8,d(1,0)=-8,即可参考上述方式以及图5c中的发音相似度计算出完整矩阵。
在图5d的矩阵计算过程中,在得出每个矩阵元的具体取值的同时,可以保留每个矩阵元是从哪个相邻元素衍生而来,即衍生路径。通常,在矩阵中只有少数几条路径(多数情况下是一条)通向矩阵的最后一个元素,即右下角元素。例如,在图5d的矩阵中,仅存在一条这样的路径,并且将该路径用箭头标记。该路径即找到的最佳匹配路径。该路径的行进方向即对应参考文字与识别文字的最佳字段匹配方式。
基于图5d中的最佳匹配路径,对齐的结果如下:
参考文本they drive  00  some of  the  core
目标文本they trying to  sum  up  the  court。
图6示意性地示出了根据本发明一个实施方式的对齐文本的装置600的框图。装置600用于执行前文所述的本发明的用于对齐文本的方法。装置600包括:输入模块602、字对齐模块606、以及链接模块608。
输入模块602用于获取目标文本和参考文本。输入模块602可以直接从服务器或者其他设备直接获得目标文本和参考文本。可选地,在本发明的一个实施方式中,输入模块602进一步包括语音识别模块6021。这种输入模块602可以从服务器或者其他设备获得语音和参考文本,然后通过语音识别模块6021识别语音数据,生成目标文本。如前文所述的,本发明中,语音识别模块6021不要求具有高的识别性能。
字对齐模块606用于基于音素相似度,在字的级别对齐目标文本和参考文本。在所述的实施方式中,字对齐模块606可以包括下述子模块:解析模块6061,用于解析出目标文本对应的音素以及参考文本对应的音素;DTW模块6062,其使用DTW算法,利用音素相似度计算路径惩罚值,找到匹配目标文本与参考文本的最佳路径;对齐子模块6063,其基于最佳路径,对齐目标文本和参考文本。应该理解,字对齐模块606可以有不同的实现方式。当以不同于DTW算法的方式来基于音素相似度,在字的级别对齐目标文本和参考文本时,字对齐模块606可以包括不同的子模块。
链接模块608用于基于目标文本与参考文本的对齐,在语音数据与参考文本之间建立时间链接。通过对语音数据进行语音识别而得到的目标文本(也即,识别文本)通常具有语音数据的时间信息。通过识别文本和参考文本的对齐,参考文本可以获得语音数据的时间信息,也即在语音数据与参考文本之间建立时间链接。在一个实施方式中,链接模块608用于将识别文本中的每个字的时间戳复制给参考文本中的每个字。可选地,链接模块608可以将参考文本中的重点内容或目标内容作成超链接的方式。用户通过选择参考文本中的超链接,可以直接回放语音数据中的对应内容,不需要从头开始回放。应该注意,链接模块608并不是必须的。
可选地,装置600还可以包括段落对齐模块604,用于基于混淆度,在段落级别对齐目标文本与参考文本。段落对齐模块604可以包括:LM模块6041,用于针对参考文本的每个段落,建立语言模型LM;计算混淆度模块6042,用于基于所述段落的语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;映射模块6043,用于选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
可选地,段落对齐模块604进一步包括平滑模块6044,用于基于逻辑规则,对映射模块6043输出的映射结果进行平滑,调整可信度低的句子到段落的映射关系。
可选地,装置600还可以包括定锚模块610,用于针对目标文本和参考文本进行连续字串匹配,确定锚点。可以按照从长到短的顺序,顺序地进行字串匹配,找到完全匹配的字串。在一个实施方式中,定锚模块610从输入模块602接收目标文本和参考文本,并且将确定锚点的目标文本和参考文本输出给段落对齐模块604。在另一个实施方式中,定锚模块610接收段落对齐模块604输出的在段落级别对齐的目标文本和参考文本。针对每个段落,进行连续字串匹配,确定锚点。根据锚点,将目标文本的段落分成较小的片段。然后将每个小片段输出给字对齐模块606进行处理。
可选地,装置600还可以包括边界微调模块612。边界微调模块612接收字对齐模块606输出的在字的级别对齐的目标文本和参考文本。在所述文本中确定那些可信度高的对齐结果,例如对齐的相同文字。使用所确定的可信度高的对齐结果来微调可信度低的对齐结果,从而获得更佳的对齐效果。例如,使用所确定的可信度高的对齐结果来微调识别中的插入错误或者删除错误。
应该理解,本发明的对齐方法不局限于对齐语音数据的识别文本与参考文本。本发明的对齐方法可以一般地用于对齐目标文本与参考文本。例如,本发明的对齐方法可以用于对齐学生听写的文本和正确的参考文本。然后,根据对齐结果或者DTW算法中的路径惩罚值详细评价目标文本的正确率。
至此,通过示例的方式,描述了本发明的用于对齐目标文本和参考文本的技术方案,其中通过音素相似度,实现在音素级对齐目标文本和参考文本。本发明的对齐方案比现有的强制对齐技术方案运算速度要快,因为本发明的技术方案中音素相似度可以直接获得(预先确定,或者通过查表获得),而强制对齐的技术方案需要建立音素的声学模型,其计算量大。
与现有的通过相同文字实现对齐的技术相比,本发明的技术方案对目标文本的准确率要求低,允许目标文本和参考文本中存在较多的错误,同时获得较好的对齐效果。
此外,本发明还提出了分层级的对齐方案:首先基于混淆度,在段落级别对齐目标文本和参考文本;然后再基于音素相似度,在字的级别对齐。本发明的分层级的对齐方案可以用于处理较大的文档,以容错的方式和较少的计算量实现精确的对齐。
本发明的用于对齐目标文本和参考文本的方法,尤其是自动对齐语音数据和参考文本的技术方案,可以有多种应用。以下详细说明对本发明的不同应用。
图7示意性地示出了根据本发明一个实施方式的用于自动归档多媒体资源的方法的流程图。其可以用于自动将电视台存在的大量的新闻节目视频和对应的广播稿转换成集成的多媒体资源进行存档。
在步骤S702中,获取原始多媒体资源和参考文本,其中原始的多媒体资源中不包括可以用于检索的元数据。原始的多媒体资源可以是各种视频或音频资源,诸如其可以是电影、电视节目、新闻广播、以及会议的视频/音频记录等等。
在步骤S704中,识别原始多媒体资源中的语音数据,生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见,在此不再详述。
在步骤S706中,基于音素相似度,在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见,在此不再详述。
在步骤S708中,基于目标文本与参考文本的对齐,在语音与参考文本之间建立时间链接。例如,通过目标文本和参考文本的对齐,参考文本可以获得语音数据的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见,在此不再详述。
在步骤S710中,将步骤S708中建立的时间链接加入原始多媒体资源,生成新的多媒体资源存档文件。例如,可以将带有时间信息的参考文本中的内容作为多媒体资源的元数据,从而生成新的多媒体资源存档文件。新的多媒体资源存档文件具有可检索的元数据。
利用本发明的自动归档多媒体资源的方法,例如可以将大量的过去的电影、节目视频或者广播等多媒体资源转换成可以具有可检索元数据的多媒体资源,从而有利于对这些媒体资源的使用。
本发明还提供了用于执行上述方法的用于自动归档多媒体资源的装置,所述装置包括:输入模块,用于获取原始多媒体资源和参考文本;识别模块,用于识别原始多媒体资源中的语音数据,生成目标文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接;以及归档模块,用于将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件。
该用于自动归档多媒体资源的装置可以通过在图6所示的装置600的基础上增加上述的归档模块来实现。为了简单起见,在此处不再进行详细描述。
应该理解,图6中的装置600的实现可以有许多变化形式。因此,本发明的用于自动归档多媒体资源的装置也可以有许多类似的变化形式。
本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于自动检索多媒体资源。图8示意性地示出了根据本发明一个实施方式的用于自动检索多媒体资源的方法的流程图。在该实施方式中,以VOA慢速英语为例。多媒体资源是VOA广播音频。
在步骤S802中,获取检索关键字。在本实施方式中,输入要检索的英语单词。
在步骤S804中,获取多媒体资源和参考文本。在该实施方式中,多媒体资源是VOA广播音频,参考文本是该音频对应的参考教材。
在步骤S806中,识别多媒体资源中的语音数据,生成目标文本。该步骤的实现与图1中的段落S102中描述的识别步骤类似。为了简单起见,在此不再详述。
在步骤S808中,基于音素相似度,在字的级别对齐目标文本和参考文本。该步骤的实现与图1中的段落S112类似。为了简单起见,在此不再详述。
在步骤S810中,基于目标文本与参考文本的对齐,在语音数据与参考文本之间建立时间链接。在本实施方式中,通过目标文本和VOA参考教材的对齐,参考教材可以获得语音数据的时间信息,也即VOA广播音频的时间信息。该步骤的实现与图1中的段落S116类似。为了简单起见,在此不再详述。
在步骤S812中,在参考文本中检索并且标识关键字。在本实施方式中,在VOA的参考教材中检索并且标识输入的检索关键字。
在步骤S814中,根据参考文本中检索到的关键字和所建立的时间链接,在多媒体资源中标识所述关键字的出现位置。在本实施方式中,根据VOA参考教材中检索到的关键字和步骤S810中建立的时间链接,可以在VOA广播音频中标识所输入的关键字的出现位置。
从而用户(例如学习者)可以直接点击VOA广播音频中的标记回放希望聆听的内容,而不需要从头回放全部音频。
本发明还提供了用于执行上述方法的用于自动检索多媒体资源的装置,其中所述多媒体资源包括语音数据和其参考文本,所述装置包括:输入模块,用于获取检索关键字、多媒体资源和参考文本;识别模块,用于识别多媒体资源中的语音数据,生成目标文本;字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接;检索模块,用于在所述参考文本中检索关键字;以及标识模块,用于根据所述参考文本中检索到的关键字和所述时间链接,在多媒体资源中标识所述关键字的出现位置。
该用于自动检索多媒体资源的装置例如可以通过在图6所示的装置600的基础上进行如下修改来实现:修改输入模块602,使得其不仅用于多媒体资源和参考文本,还用于获取检索关键字;以及,增加上述的检索模块和标识模块。为此简单起见,在此不再进行详细描述。
应该理解,图6中的装置600的实现可以有许多变化形式。因此,本发明的用于自动检索多媒体资源的装置也可以有许多类似的变化形式。
本发明的用于自动对齐语音数据和参考文本的技术方案还可以用于许多应用,例如有针对性地浏览会议视频/音频记录等。在此不再详述。
通过以上对具体实施例的描述,本领域技术人员可以理解,上述的装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置及其部件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
虽然这里通过具体实施方式描述了本发明,但是本发明的范围不限于这些具体实施方式。本发明的范围由所附权利要求及其任何等同含义限定。

Claims (24)

1.一种用于对齐文本的方法,包括以下步骤:
获取目标文本和参考文本;
基于音素相似度,在字的级别对齐所述目标文本和所述参考文本,
其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
2.根据权利要求1所述的方法,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
3.根据权利要求2所述的方法,进一步包括步骤:基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
4.根据权利要求1所述的方法,其中,所述路径惩罚值是路径的每一步的惩罚值的和,路径的每一步的惩罚值按以下计算:
针对相同的字,惩罚值为0;
针对替代错误,惩罚值对应于两个字的发音相似度,所述发音相似度基于其对应的音素相似度;和
针对插入错误或者删除错误,惩罚值是一个常量。
5.根据权利要求1-4中任一所述的方法,其中,所述音素相似度是预先确定的。
6.根据权利要求1-4中任意一项所述的方法,其中所述音素相似度由音素的声学模型距离来度量。
7.根据权利要求6所述的方法,其中所述声学模型距离包括:欧式距离、马氏距离或者巴特查里亚距离。
8.根据权利要求1-3任一所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:基于混淆度,在段落级别对齐所述目标文本与所述参考文本。
9.根据权利要求8所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤包括:
针对参考文本的每个段落,建立语言模型;
基于所述语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;
选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
10.根据权利要求9所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤进一步包括:
对所述选择的映射结果进行平滑。
11.根据权利要求1所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:针对所述目标文本和所述参考文本进行连续字串匹配,以确定锚点,从而将所述目标文本和所述参考文本划分成更小的片段。
12.一种用于对齐文本的装置,包括:
输入模块,用于获取目标文本和参考文本;
字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本,
其中所述字对齐模块包括:
解析模块,用于解析出所述目标文本对应的音素以及所述参考文本对应的音素;
动态时间规整DTW模块,其使用DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
对齐子模块,其基于所述最佳路径,对齐所述目标文本和参考文本。
13.根据权利要求12所述的装置,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
14.根据权利要求13所述的装置,进一步包括:链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
15.根据权利要求12所述的装置,其中,所述路径惩罚值是路径的每一步的惩罚值的和,路径的每一步的惩罚值按以下计算:
针对相同的字,惩罚值为0;
针对替代错误,惩罚值对应于两个字的发音相似度,所述发音相似度基于其对应的音素相似度;和
针对插入错误或者删除错误,惩罚值是一个常量。
16.根据权利要求12-15中任一所述的装置,其中,所述音素相似度是预先确定的。
17.根据权利要求12-15中任一所述的装置,其中所述音素相似性由音素的声学模型距离来度量。
18.根据权利要求17所述的装置,其中所述距离包括:欧式距离、马氏距离或者巴特查里亚距离。
19.根据权利要求12-15任一所述的装置,进一步包括段落对齐模块,用于:基于混淆度,在段落级别对齐所述目标文本与所述参考文本。
20.根据权利要求19所述的装置,其中所述段落对齐模块包括:
语言模型LM模块,用于针对参考文本的每个段落,建立语言模型LM;
计算混淆度模块,用于基于所述语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;
映射模块,用于选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
21.根据权利要求20所述的装置,其中段落对齐模块进一步包括:
平滑模块,用于对所述选择的映射结果进行平滑。
22.根据权利要求12所述的装置,其进一步包括:定锚模块,用于针对所述目标文本和所述参考文本进行连续字串匹配,确定锚点,从而将所述目标文本和所述参考文本划分成更小的片段。
23.一种用于归档多媒体资源的方法,所述方法包括:
获取原始多媒体资源和参考文本;
识别原始多媒体资源中的语音数据,生成目标文本;
基于音素相似度,在字的级别对齐所述目标文本和所述参考文本;
基于所述目标文本与所述参考文本的对齐,在所述语音与所述参考文本之间建立时间链接;以及
将所述时间链接加入所述原始多媒体资源,生成新的多媒体资源存档文件,
其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
24.一种用于检索多媒体资源的方法,其中所述多媒体资源包括语音数据和其参考文本,所述方法包括:
获取检索关键字;
获取多媒体资源,所述多媒体资源具有参考文本以及通过识别多媒体资源中的语音数据而得到的目标文本,所述参考文本和所述目标文本基于音素相似度,在字的级别被对齐,并且基于所述对齐,所述参考文本与所述语音数据之间被建立时间链接;
在参考文本中检索并且标识关键字;以及
根据所标识的关键字在所述参考文本中的位置和所述时间链接,在多媒体资源中定位对应于所述关键字的多媒体资源的部分,
其中通过如下方式,所述参考文本和所述目标文本基于音素相似度,在字的级别被对齐:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
CN200910168621.XA 2009-08-28 2009-08-28 用于对齐文本的方法和装置 Active CN101996631B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200910168621.XA CN101996631B (zh) 2009-08-28 2009-08-28 用于对齐文本的方法和装置
US12/869,921 US8527272B2 (en) 2009-08-28 2010-08-27 Method and apparatus for aligning texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910168621.XA CN101996631B (zh) 2009-08-28 2009-08-28 用于对齐文本的方法和装置

Publications (2)

Publication Number Publication Date
CN101996631A CN101996631A (zh) 2011-03-30
CN101996631B true CN101996631B (zh) 2014-12-03

Family

ID=43626161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910168621.XA Active CN101996631B (zh) 2009-08-28 2009-08-28 用于对齐文本的方法和装置

Country Status (2)

Country Link
US (1) US8527272B2 (zh)
CN (1) CN101996631B (zh)

Families Citing this family (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US8548800B2 (en) * 2010-10-29 2013-10-01 Verizon Patent And Licensing Inc. Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US8965934B2 (en) * 2011-11-16 2015-02-24 Quova, Inc. Method and apparatus for facilitating answering a query on a database
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9099089B2 (en) * 2012-08-02 2015-08-04 Audible, Inc. Identifying corresponding regions of content
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
CN103165130B (zh) * 2013-02-06 2015-07-29 程戈 语音文本匹配云系统
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
KR102140438B1 (ko) * 2013-09-10 2020-08-04 주식회사 청담러닝 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
EP2851896A1 (en) * 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9484033B2 (en) * 2014-12-11 2016-11-01 International Business Machines Corporation Processing and cross reference of realtime natural language dialog for live annotations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105159870B (zh) * 2015-06-26 2018-06-29 徐信 一种精准完成连续自然语音文本化的处理系统及方法
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9672867B2 (en) 2015-08-05 2017-06-06 International Business Machines Corporation Automated creation and maintenance of video-based documentation
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105244022B (zh) * 2015-09-28 2019-10-18 科大讯飞股份有限公司 音视频字幕生成方法及装置
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10755729B2 (en) 2016-11-07 2020-08-25 Axon Enterprise, Inc. Systems and methods for interrelating text transcript information with video and/or audio information
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109686383B (zh) * 2017-10-18 2021-03-23 腾讯科技(深圳)有限公司 一种语音分析方法、装置及存储介质
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108172212B (zh) * 2017-12-25 2020-09-11 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及系统
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及系统
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
CN109033060B (zh) * 2018-08-16 2023-01-17 科大讯飞股份有限公司 一种信息对齐方法、装置、设备及可读存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN112863547B (zh) * 2018-10-23 2022-11-29 腾讯科技(深圳)有限公司 虚拟资源转移处理方法、装置、存储介质及计算机设备
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109600299B (zh) * 2018-11-19 2021-06-25 维沃移动通信有限公司 一种消息发送方法及终端
CN109766304A (zh) * 2018-12-11 2019-05-17 中新金桥数字科技(北京)有限公司 基于iPad的关于Epub图书双语言对照阅读的方法及其系统
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109754783B (zh) * 2019-03-05 2020-12-25 百度在线网络技术(北京)有限公司 用于确定音频语句的边界的方法和装置
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110223678A (zh) * 2019-06-12 2019-09-10 苏州思必驰信息科技有限公司 语音识别方法及系统
CN110442876B (zh) * 2019-08-09 2023-09-05 深圳前海微众银行股份有限公司 文本挖掘方法、装置、终端及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN111341305B (zh) * 2020-03-05 2023-09-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN112541062B (zh) * 2020-11-27 2022-11-25 北京百分点科技集团股份有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112801817B (zh) * 2020-12-29 2023-07-21 广东电网有限责任公司电力科学研究院 一种电能质量数据中心构建方法及其系统
CN112908308B (zh) * 2021-02-02 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
US20220335075A1 (en) * 2021-04-14 2022-10-20 International Business Machines Corporation Finding expressions in texts
CN112836484B (zh) * 2021-04-20 2021-08-27 北京妙医佳健康科技集团有限公司 一种文本对齐方法、装置、电子设备、计算机可读存储介质
CN113314124B (zh) * 2021-06-15 2022-03-25 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
CN113782008B (zh) * 2021-09-22 2024-03-26 上海喜马拉雅科技有限公司 文本音频对齐方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition
US7165032B2 (en) * 2002-09-13 2007-01-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
CN101004911A (zh) * 2006-01-17 2007-07-25 国际商业机器公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
JP2007328283A (ja) * 2006-06-09 2007-12-20 Kenwood Corp 対話装置、プログラム、及び対話方法
CN101188110A (zh) * 2006-11-17 2008-05-28 陈健全 提高文本和语音匹配效率的方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
DE60142967D1 (de) 2000-06-09 2010-10-14 British Broadcasting Corp Erzeugung von untertiteln für bewegte bilder
CN100431003C (zh) * 2004-11-12 2008-11-05 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US20080294433A1 (en) * 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
US8005666B2 (en) * 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
US8275604B2 (en) * 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649060A (en) * 1993-10-18 1997-07-15 International Business Machines Corporation Automatic indexing and aligning of audio and text using speech recognition
US7165032B2 (en) * 2002-09-13 2007-01-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
CN101004911A (zh) * 2006-01-17 2007-07-25 国际商业机器公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
JP2007328283A (ja) * 2006-06-09 2007-12-20 Kenwood Corp 対話装置、プログラム、及び対話方法
CN101188110A (zh) * 2006-11-17 2008-05-28 陈健全 提高文本和语音匹配效率的方法

Also Published As

Publication number Publication date
CN101996631A (zh) 2011-03-30
US8527272B2 (en) 2013-09-03
US20110054901A1 (en) 2011-03-03

Similar Documents

Publication Publication Date Title
CN101996631B (zh) 用于对齐文本的方法和装置
Makhoul et al. Speech and language technologies for audio indexing and retrieval
Chelba et al. Retrieval and browsing of spoken content
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US6263308B1 (en) Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US20070208561A1 (en) Method and apparatus for searching multimedia data using speech recognition in mobile device
US20100292989A1 (en) Symbol insertion apparatus and symbol insertion method
Kruspe et al. Bootstrapping a System for Phoneme Recognition and Keyword Spotting in Unaccompanied Singing.
WO2003010754A1 (fr) Systeme de recherche a entree vocale
Furui Recent progress in corpus-based spontaneous speech recognition
Parlak et al. Performance analysis and improvement of Turkish broadcast news retrieval
Lecouteux et al. Integrating imperfect transcripts into speech recognition systems for building high-quality corpora
Zhang et al. Improving lecture speech summarization using rhetorical information
Ogata et al. Automatic transcription for a web 2.0 service to search podcasts
Knill et al. Impact of ASR performance on free speaking language assessment
Wang Experiments in syllable-based retrieval of broadcast news speech in Mandarin Chinese
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
Mamou et al. Combination of multiple speech transcription methods for vocabulary independent search
Robert-Ribes et al. Automatic generation of hyperlinks between audio and transcript.
Wang Mandarin spoken document retrieval based on syllable lattice matching
Saz et al. Lightly supervised alignment of subtitles on multi-genre broadcasts
EP1826686A1 (en) Voice-controlled multimedia retrieval system
Nouza et al. Large-scale processing, indexing and search system for Czech audio-visual cultural heritage archives
Turunen Reducing the effect of OOV query words by using morph-based spoken document retrieval.
Kurimo et al. An evaluation of a spoken document retrieval baseline system in finish.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant