CN1227613C - 注释数据生成、音素或字搜索及添加的相应设备与方法 - Google Patents

注释数据生成、音素或字搜索及添加的相应设备与方法 Download PDF

Info

Publication number
CN1227613C
CN1227613C CNB018156142A CN01815614A CN1227613C CN 1227613 C CN1227613 C CN 1227613C CN B018156142 A CNB018156142 A CN B018156142A CN 01815614 A CN01815614 A CN 01815614A CN 1227613 C CN1227613 C CN 1227613C
Authority
CN
China
Prior art keywords
node
data
phoneme
link
piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB018156142A
Other languages
English (en)
Other versions
CN1457476A (zh
Inventor
贾森·P·A·查理斯沃斯
菲利普·N·加纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1457476A publication Critical patent/CN1457476A/zh
Application granted granted Critical
Publication of CN1227613C publication Critical patent/CN1227613C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

生成对数据文件做注释的数据的设备包括:接收音素或字数据的接收装置;生成定义与接收的音素或字数据对应的音素格或字格的注释数据的第一生成装置,其包括:生成定义网格内按时间排序的多个节点的节点数据的第二生成装置;生成定义网格内的多个链接的链接数据的第三生成装置,各链接从一第一节点延伸到一第二节点;生成把每个节点或链接与来自音素或字数据的音素或字关联起来的联合数据的第四生成装置;及生成块数据的第五生成装置,块数据用于在满足一块标准的按时间排序的块序列中排列所述节点,该块标准为起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外。

Description

注释数据生成、音素或字搜索及添加的相应设备与方法
技术领域
本发明涉及数据库中存储的数据文件的注释,以便于随后进行的检索。本发明还涉及用于生成向该数据文件添加的注释数据的系统,以及在数据库中搜索注释数据的系统,以便响应用户的输入查询检索所需数据文件。本发明还涉及用于将节点和链接的无序列表转换为节点和链接的分块列表的系统。
背景技术
信息数据库是众所周知的,其问题是如何快速、有效地从数据库中定位并检索所需的信息。现有数据库搜索工具允许用户使用打字关键字来搜索数据库。虽然上述工具是快速有效的,但此类搜索并不适合不同类型的数据库,如视频或音频数据库。
发明内容
根据一个方面,本发明目的在于提供一种用于给数据库中的数据文件做注释的数据结构,从而能够响应用户的输入查询执行快速有效的搜索。
根据另一方面,本发明提供定义音素和字格的数据,作为给数据库中存储的数据文件做注释的注释数据。该数据最好定义众多节点以及连接此类节点的链接,该数据把众多音素和相应的众多链接联系起来,该数据把至少一个单词和至少一个所述链接联系起来,该数据定义上述节点的数据块排列,从而链接仅仅延伸到指定的最大数目的数据块。另外,上述链接最好仅仅延伸到后续数据块。
根据另一方面,本发明提供一种用于搜索数据库的装置,该数据库采用上述注释数据给其内存储的数据文件做注释。最好将该装置排列为:响应用户的查询或输入,生成音素数据,然后使用生成的音素数据,搜索该数据库。另外,最好根据用户的输入或查询生成字数据。
根据另一方面,本发明提供用于生成与接收的音素和字数据相对应的音素和字格的装置,该装置包括:用于定义众多链接和链接之间的众多节点的装置,用于把链接和音素或单词联系起来的装置,以及用于按照时间排序的数据块顺序排列此类节点的装置,其中链接仅仅延伸到该序列后面的指定的最大数目的数据块中。对链接而言,所允许的最大延伸最好为延伸到后续数据块。另外,最好将该装置排列为:在构造网格时增量添加节点或链接,并且将现有节点块划分为至少两个节点块。
根据另一方面,本发明提供一种用于向上述类型的音素和字格添加音素或单词的装置,并将该装置排列为:根据所允许的从一个数据块延伸到另一个数据块的链接的程度,分析需要修改的定义当前音素和字格的数据。上述分析最好依赖于标识前一数据块中发起的任意链接延伸到的每个数据块中的最新节点的位置点在网格内的位置,以及标识每个数据块中延伸到后继数据块的链接之最早节点的位置点在网格内的位置。
根据另一方面,本发明提供一种用于向上述类型的音素和字格添加音素或单词的方法,该方法包括:根据所允许的从一个数据块延伸到另一个数据块的链接的程度,分析需要修改的定义当前音素和字格的数据。上述分析最好依赖于标识前一数据块中发起的任意链接延伸到的每个数据块中的最新节点的相应位置点在网格内的位置。
根据另一方面,提供用于将节点和链接的无序列表转换为节点和链接之分块列表的方法和装置。通过填充和分割处理形成数据块:将后继节点插入到数据块中,直至数据块变满,然后开始一个新数据块。如果新节点使得已经满的数据块溢出,则将该数据块分割为两个或多个数据块。利用链接能够通向的数据块约束加快数据块分割处理,并确定留在老数据块中的节点和进入新数据块中的节点。
根据另一方面,提供一种用于生成注释数据的设备,该注释数据被用于对数据文件做注释,该设备包括:用于接收音素或字数据的接收装置;以及用于生成注释数据的第一生成装置,该注释数据定义与接收的音素或字数据相对应的音素格或字格;其中第一生成装置包括:用于生成节点数据的第二生成装置,该节点数据定义网格内按时间排序的多个节点;用于生成链接数据的第三生成装置,该链接数据定义网格内的多个链接,各链接从一个第一节点延伸到一个第二节点;用于生成联合数据的第四生成装置,该联合数据把每个节点或链接与来自所述音素或字数据的音素或字关联起来;以及用于生成块数据的第五生成装置,所述块数据用于在满足一种块标准的按时间排序的块序列中排列所述节点,该块标准为起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外。
根据另一方面,提供一种用于向定义音素或字格的数据结构添加与一个或多个音素或字相对应的数据的设备,包括数据库,该数据库存储:用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;该设备包括:节点处理装置,用于在确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点的情况下,将节点插入到网格中,并且在确定其不存在的情况下,在网格中插入与所述开始和结束时间相对应的节点;链接处理装置,用于在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;选择装置,用于选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;用于分析所选的现有节点的链接数据的分析装置;以及用于修改所分析的链接数据的装置;其中针对每个其他节点,选择装置能够选择包含该其他节点的块中该其他节点之前的节点,以及在包含该其他节点的块之前一个块数的块的每个中的所有节点,该块数小于或等于所述预定块数。
根据另一方面,提供一种生成用于给数据文件做注释的注释数据的方法,该方法包括以下步骤:接收音素或字数据;以及生成注释数据,该注释数据定义与接收的音素或字数据相对应的音素或字格;其中生成定义网格的注释数据的步骤包括:生成节点数据,该节点数据定义该网格内的多个按时间排序的节点;生成链接数据,该链接数据定义该网格内的多个链接,每个链接从第一节点延伸到第二节点;生成联合数据,该联合数据把每个链接或节点与来自音素或字数据的音素或字关联起来;以及生成块数据,该块数据用于在满足块标准的按时间排序的块序列中排列节点,该块标准为起自任意给定块中的节点的链接不延伸到该序列中预定块数后的块中的节点之外。
根据另一方面,提供一种向定义音素或字格的数据结构添加与一个或多个音素或字相对应的数据的方法,该数据结构包括用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据,该方法包括以下步骤:如果确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点,则将节点插入到网格中,如果不存在,则在网格中插入与开始或结束时间相对应的节点;在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;分析所选的现有节点的链接数据;以及修改经过分析的链接数据;其中对于每个其他节点,选择步骤选择包含其他节点的块中该其他节点之前的节点,以及在包含其他节点的块之前一个块数的块中的每个中的所有节点。
根据另一方面,提供一种用于生成注释数据的设备,该注释数据用于对一个数据文件进行注释,所述设备包括:接收装置,用于接收音素或字数据;生成装置,用于生成注释数据,该注释数据定义与接收的音素或字数据相应的音素或字格;其中所述生成装置包括:第一生成装置,用于生成定义该格中的多个节点的节点数据;第二生成装置,用于生成定义该格中的多个链接中的链接数据,每一个链接均将一个第一节点链接到一个第二节点;以及第三生成装置,用于生成决数据,该块数据用于在块的一个序列中排列所述节点,使得起自任何给定块中的节点的链接不延伸到所述序列中一个预定块数之后的块中的节点之外。
根据另一方面,提供一种用于生成注释数据的方法,该注释数据用于对一个数据文件进行注释,所述方法包括以下步骤:接收音素或字数据;以及生成注释数据,该注释数据定义与接收的音素或字数据相应的音素或字格;其中生成定义所述格的注释数据的所述步骤包括:生成定义该格中的多个节点的节点数据;生成定义该格中的多个链接的链接数据,每一个链接都从一个第一节点延伸到一个第二节点;以及生成块数据,该块数据用于在块的一个序列中排列所述节点,使得起自任何给定块中的节点的链接不延伸到所述序列中一个预定块数之后的块中的节点之外。
根据另一方面,提供一种搜索设备,包括:数据库,该数据库存储:用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;用于生成与用户的输入查询相对应的音素或字数据的装置;用于利用为该输入查询而生成的音素或字数据对音素或字格进行搜索的装置;以及用于根据所述搜索装置的输出而输出搜索结果的装置。
根据另一方面,提供一种搜索方法,包括步骤:提供数据库,该数据库包括:用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;生成与用户的输入查询相对应的音素或字数据;利用为输入查询而生成的音素或字数据对音素或字格进行搜索;以及根据所述搜索步骤的结果而输出搜索结果。
附图说明
以下参照附图说明本发明的典型实施方式,其中附图为:
图1为计算机的示意图,对该计算机进行编程以实现本发明的实施方式;
图2为一个框图,表示能够生成用于数据文件之附件的音素和单词注释数据的音素和单词注释单元;
图3为一个框图,表示音素和单词注释器根据输入的视频数据文件生成的注释数据;
图4a为音素网格的示意图,用于输入的视频数据文件中的音频串实例;
图4b为体现本发明之一个方面的字格和音素网格的示意图,用于输入的视频数据文件中的音频串实例;
图5为用户终端的示意框图,该终端允许用户利用语音查询检索数据库中的信息;
图6为一对字格和音素网格的示意图,如两个发言人的音频串;
图7为用户终端的示意框图,该终端允许利用根据用户输入的音频信号生成的注释数据,给数据文件做注释;
图8为音素和字格注释数据的示意图,该注释数据是为了给数据文件做注释而根据用户输入的发言生成的;
图9为用户终端的示意框图,该终端允许利用根据用户的打字输入生成的注释数据,给数据文件做注释;
图10为音素和字格注释数据的示意图,该注释数据是为了给数据文件做注释而根据用户的打字输入生成的;
图11为一个示意框图,表示文档注释系统的形式;
图12为备择文档注释系统的示意框图;
图13为另一种文档注释系统的示意框图;
图14为一个示意框图,表示根据视频数据文件中包含的脚本数据生成音素和字格的方式;
图15a为字格和音素网格的示意图,表示字格节点的相对定时;
图15b为一个示意图,表示划分为数据块的字格和音素网格节点;
图16a为一个示意图,表示与字格和音素网格之一个节点相对应的数据的格式;
图16b为一个示意图,表示定义字格和音素网格的数据流;
图17为一个流程图,表示根据本发明之一种实施方式构造字格和音素网格的过程;
图18a至18h为示意图,表示字格和音素网格的构造;
图19a至19h为示意图,表示定义字格和音素网格的数据流的构造;
图20a至20c为示意图,表示插入长链接时字格和音素网格的更新处理;
图21a至21b为示意图,表示插入附加节点时字格和音素网格的更新处理;
图22为一个流程图,表示调整偏移量的过程;
图23a和23b为示意图,表示将数据块分割处理应用于字格和音素网格;以及
图24为一个框图,表示音素和单词注释器根据输入的视频数据文件生成注释数据的方法。
具体实施方式
可以使用专用硬件电路实现本发明的实施方式,但是本文使用计算机软件(即,代码)实现所述实施方式,其中计算机软件连同诸如个人计算机、工作站、影印机、传真机、个人数字助理(PDA)之类的处理硬件一起运行。
图1表示可对其进行编程以实现本发明之实施方式的个人计算机(PC)1。经由接口11,将键盘3、定点设备5、麦克风7和电话线9,连接到PC1。用户可利用键盘3和定点设备5控制该系统。麦克风7将用户输入的声频语音信号,转换为等效电信号,然后提供给PC1进行处理。将内部调制解调器和语言接收电路(未示出)连接到电话线9,从而PC1能够与远程计算机或远程用户通信。
在诸如磁盘13之类的存储设备上,或者通过经由内部调制解调器和电话线9从因特网(未示出)上下载软件,提供使得PC1根据本发明运行的程序指令,以便与现有PC1一同使用。
数据文件注释
图2为一个框图,表示在本实施方式中利用音素和单词注释单元25生成输入数据文件23的注释数据的方式。如图所示,在数据组合单元27中,组合生成的音素和单词注释数据21与数据文件23,然后将输出的组合数据文件,输入到数据库29中。在本实施方式中,注释数据21包括组合音素(或具有音素特征的成分)和字格,音素和字格允许用户利用语音查询检索数据库中的信息。正如熟练技术人员理解的那样,数据文件23可以为各种类型的数据文件,如视频文件、音频文件和多媒体文件等。
人们提出了通过使视频数据文件的音频数据通过自动语音识别单元,生成音频流的N个最佳单词列表作为注释数据的系统。然而,基于单词的系统有许多问题。这些问题包括:(i)现有语音识别系统进行识别时会出现许多基础错误;(ii)现有自动语音识别系统使用约含20,000至100,000单词的字典,并且不能生成词汇表之外的单词;以及(iii)生成的N个最佳列表随每个步骤中的假设数指数增长,因此长时间发言的注释数据将变得非常大。
当使用同一自动语音识别系统生成注释数据,然后使用该系统检索相应数据文件时,由于可能出现相同的译码错误,所以第一个问题无关紧要。然而,由于自动语音识别系统每年都在进步,因此未来将不会出现某些类型的错误,从而未来将不能检索相应数据文件。关于第二个问题,该问题对视频数据应用非常重要,因为用户很可能使用名称和地点(语音识别字典不包括的名称和地点)作为输入查询条目。对于上述名称,自动语音识别系统通常利用发音相似的单词代替词汇表不包括的单词,因此造成讹误译码。因此,不能根据请求检索所需的数据文件。
相反,借助提议的音素和字格注释数据,可以利用数据库29中的单词数据进行快速有效的搜索,如果此搜索不能提供所需的数据文件,则使用更鲁棒的音素数据进行搜索。音素和字格为只有一个入口点和一个出口点的有向无环图。它代表数据文件内音频流的不同语法分析。它并不仅仅是具有许多选择的单词序列,因为每个单词并非只能由一个选择取代,一个单词可以代替两个或多个单词或音素,并且整个结构能够代替一个或多个单词或音素。因此,音素和字格内的数据密度基本对全部音频数据保持线性,而不是像N个最佳单词列表技术那样呈指数增长。正如语音识别的熟练技术人员了解的那样,由于音素是字典独立的,并且允许字典处理词汇表之外的单词,如名称、地点、外来词等,所以使用音素数据更鲁棒。使用音素数据还能使得该系统更能适应未来,因为即使原始的自动语音识别系统不理解单词,也能检索数据库中存储的数据文件。
以下参照图3说明生成视频数据文件之音素和字格注释数据的方式。如图所示,视频数据文件31包括视频数据31-1和音频数据31-2,前者定义构成视频序列的图像序列,后者定义与视频序列关联的音频。众所周知,音频数据31-2和视频数据31-1在时间上同步,因此使用时,同时向用户提供视频和音频数据。
正如图3所示,在本实施方式中,将音频数据31-2输入到自动语音识别单元33中,单元33能够生成与音频数据流31-2相对应的音素网格。自动语音识别单元33是一项普通技术,因此不再赘述。有关此类语音识别系统之详细信息,请该者参阅《语音识别基础》,作者Lawrence Rabiner和Biing-Hwang Juang,第42页至第50页。
图4a表示语音识别单元33输出的、短语“...now is the winterof our...”对应的输入音频的音素网格数据的形式。自动语音识别单元33辨别以上输入音频发言对应的许多不同的可能音素串。例如,语音识别系统认为音频串中的第一个音素为/m/或/n/。为清晰起见,仅仅显示第一音素的选择。正如语音识别的熟练技术人员了解的那样,不同可能性可以具有由语音识别单元33生成的特有权重,权重表示语音识别单元的输出的置信度。例如,音素/n/的权重为0.9,而音素/m/的权重为0.1,表示语音识别系统对相应部分的音频代表音素/n/相当确信,但也有可能为音素/m/。然而,在本实施方式中,并不对音素进行加权处理。
正如图3所示,将自动语音识别单元33输出的音素网格数据35,输入到字译码器37中,后者能够辨别音素网格数据35内的可能单词。在本实施方式中,把字译码器37辨别的单词,合并到音素网格数据结构中。例如,对于图4a所示的音素网格,字译码器37识别单词“NOW”、“IS”、“THE”、“WINTER”、“OF”和“OUR”。正如图4b所示,将辨别出的单词添加到语音识别单元33输出的音素网格数据结构中,以生成构成注释数据31-3的音素和字格数据结构。然后组合注释数据31-3与视频数据文件31,以便生成增音视频数据文件31′,并在数据库29中存储该文件。正如熟练技术人员理解的那样,与音频数据31-2和视频数据31-1在时间上同步类似,使注释数据31-3与视频数据31-1和音频数据31-2在时间上同步,并将其关联起来,因此通过搜索定位注释数据31-3的对应部分,可以检索所需的视频和音频数据。
在本实施方式中,数据库29中存储的注释数据31-3具有以下通式:
标题
- 开始时间
- 表示单词、音素或二者之混合的标志
- 时间索引,将存储器内注释数据块的位置关联到给定的时间点。
- 使用的单词集(即,字典)
- 使用的音素集
- 音素概率数据
- 词汇所属语言
数据块(i)i=0,1,2,......
节点Nj j=0,1,2,......
-节点从起始块的时间偏移量
-音素链接(k)k=0,1,2,......
节点Ni的偏移量=Nk-Nj(Nk为链接K延伸到的节点)或者如果Nk在数据块(i+1)中,则节点Nj的偏移量=Nk+Nb-Nj(其中Nb为数据块(i)中的节点数)
与链接(k)关联的音素
-单词链接(l)l=0,1,2,......
节点Nj的偏移量=Ni-Nj(Nj为链接l延伸到的节点)或者如果Nk在数据块(i+1)中,则节点Nj的偏移量=Nk+Nb-Nj(其中Nb为数据块(i)中的节点数)
与链接(l)关联的单词
标题中的开始时间数据能够辨别数据的传输时间和日期。例如,如果视频文件是新闻广播,则开始时间包括广播的准确时间和广播日期。
由于并非数据库内的所有数据文件均包含上述组合音素和字格注释数据,所以提供以上标志,后者标识注释数据是字注释数据,还是音素注释数据,抑或是混合数据,此时,将使用不同的搜索策略来搜索注释数据。
在本实施方式中,将注释数据划分为数据块,以便允许搜索跳到给定音频数据流的注释数据的中间位置。因此,标题包括一个时间索引,时间索引将存储器内注释数据块的位置,关联到起始时间和与块的开始相对应的时间之间的给定时间偏移量。
标题还包括定义所用单词集(即,字典)、所用音素集以及词汇所属语言的数据。同时,标题可以包含用于生成注释数据的自动语音识别系统的详细信息,以及生成注释数据期间使用的任何适当设置。
音素概率数据定义诸如自动语音识别系统之类的、生成注释数据的系统的插入、删除、错误识别和译码的概率。
标题之后是注释数据块,对于数据块内的每个节点,注释数据块辨别该节点从起始块的时间偏移量,利用音素将该节点链接到其他节点的音素链接,以及利用单词将该节点链接到其他节点的单词链接。每个音素链接和单词链接辨别与该链接关联的音素或单词。同时辨别到当前节点的偏移量。例如,如果利用音素链接将节点N50链接到节点N55,则到节点N50的偏移量为5。正如熟练技术人员理解的那样,通过使用上述偏移量表示允许将连续注释数据划分为单独块。
在自动语音识别单元输出权重的实施方式中,该数据结构还包括权重或置信度分值,其中权重表示语音识别单元输出的置信度。具体而言,为各节点提供置信度分值,后者表示到达该节点的置信度,并且每个音素和单词链接将包含依赖于相应音素或单词之权重的跃迁分值。通过放弃具有较低置信度分值的匹配,使用上述权重控制数据文件的搜索和检索。
数据文件检索
图5为用户终端59的框图,利用该用户终端从数据库29中检索带有注释的数据文件。例如,用户终端59可以为个人计算机、手持设备等。如图所示,在本实施方式中,用户终端59包括带有注释的数据文件的数据库29,自动语音识别单元51,搜索引擎53,控制单元55和显示器57。操作时,自动语音识别单元51能够处理经由麦克风7和输入线路61接收的来自用户39的输入语音查询,以生成相应音素和单词数据。该数据可以采取音素和字格的形式,但并非必需如此。然后将音素和单词数据输入到控制单元55中,控制单元55开始利用搜索引擎53搜索数据库29。然后将搜索引擎53生成的搜索结果传回到控制单元55,后者分析搜索结果,生成并通过显示器57向用户显示正确的显示数据。共同未决申请PCT/GB00/00718与GB9925561.4说明了以上搜索技术的详细信息,这里引用其内容作为参考。
备择实施方式
正如熟练技术人员理解的那样,数据库中数据文件的此类音素和单词注释,为用户利用语音搜索数据库提供了一种方便有效的方式。在所示实施方式中,给单一音频数据流做注释,然后在数据库中进行存储以便用户检索。正如熟练技术人员理解的那样,当输入数据文件与视频数据文件相对应时,数据文件内的音频数据通常包括不同发言人的音频数据。可以针对每个发言人的音频数据,生成独立的音素和字格注释数据,而不是生成该音频数据的单一注释数据流。通过根据语音信号的节距或其他区别特征辨别与每个发言人相对应的音频数据,然后分别给不同发言人的音频做注释,实现上述处理。如果音频数据是采用立体声方式记录的,或者在生成音频数据时使用一组麦克风,则由于能够通过处理音频数据抽取每个发言人的数据,所以也能实现上述处理。
图6表示上述实施方式中的注释数据的格式,其中第一发言人发出单词“...this so”,而第二发言人回答“yes”。如图所示,彼此相对于对方同步不同发言人的音频数据的注释数据,从而注释数据仍然与数据文件内的视频和音频数据同步。在此类实施方式中,数据结构中的标题信息最好包括注释数据内不同发言人的列表,以及为每个发言人定义该发言人的语言、重音、方言和语音集的数据,并且每个数据库均能辨别在该数据库内起作用的发言人。
在上述实施方式中,利用语音识别系统生成注释数据,以便给数据库中的数据文件做注释。正如熟练技术人员理解的那样,也可以利用其他技术生成上述注释数据。例如,操作员可以收听音频数据,然后生成语音和单词转录,从而手工生成注释数据。
在上述实施方式中,注释数据是根据数据文件本身中存储的音频生成的。正如熟练技术人员理解的那样,也可以采用其他技术来输入注释数据。图7表示用户终端59的形式,该用户终端允许用户经由麦克风7输入语音注释数据,以便给数据库29中存储的数据文件91做注释。在本实施方式中,数据文件91包括诸如照相机之类的设备生成的二维图像。用户终端59允许用户39利用适当注释给2D图像做注释,以便随后利用该注释检索数据库29中的2D图像。在本实施方式中,利用自动语音识别单元51,将输入的语音注释信号转换为音素和字格注释数据,然后传送到控制单元55。响应用户的输入,控制单元55从数据库29中检索正确的2D文件,然后将音素和单词注释数据附加到数据文件91上。此后将增音数据文件返回到数据库29。在上述注释处理步骤中,控制单元55能够在显示器57上显示2D图像,从而用户确保该注释数据是与正确的数据文件91关联的。
自动语音识别单元51生成音素和字格注释数据,其方法是(i)生成输入发言的音素网格;(ii)然后辨别音素网格内的单词;以及(iii)最后组合二者。图8表示为输入发言“picture of the Taj-Mahal”生成的音素和字格注释数据的形式。如图所示,自动语音识别单元辨别与输入发言相对应的许多不同的可能音素串。正如图8所示,将自动语音识别单元51在音素网格内识别的单词,合并到音素网格数据结构中。如图所示,对于以上示例短语,自动语音识别单元51识别单词“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”。然后,控制单元55将以上注释数据添加到2D图像数据文件91中,并在数据库29中存储该文件。
正如熟练技术人员理解的那样,可以利用本实施方式为各种类型的图像做注释,如给病人的x光图片、诸如NMR扫描和超声波扫描之类的3D视频做注释。也可以对诸如音频数据或地震数据之类的一维数据作注释。
在上述实施方式中,利用有声注释给数据文件做注释。正如熟练技术人员理解的那样,也可以采用其他技术来输入注释数据。例如,图9表示用户终端59的形式,该用户终端允许用户通过键盘3输入打字注释数据,以便给数据库29中存储的数据文件91作注释。在本实施方式中,由语音转录单元75将打字输入转换为音素和字格注释数据(通过使用内部语音字典(未示出)),然后传送到控制单元55。响应用户的输入,控制单元55从数据库29中检索正确的2D文件,然后将音素和单词注释数据附加到数据文件91上。此后将增音数据文件返回到数据库29。在上述注释处理步骤中,控制单元55能够在显示器57上显示2D图像,从而用户确保该注释数据是与正确的数据文件91关联的。
图10表示为输入发言“picture of the Taj-Mahal”生成的音素和字格注释数据的形式。正如图2所示,音素和字格为只有一个入口点和一个出口点的有向无环图。它表示用户输入的不同语法分析。如图所示,语音转录单元75辨别与打字输入相对应的许多不同的可能音素串。
图11为说明文档注释系统的框图。特别地,如图11所示,利用文档扫描仪103文本文档101转换为图像数据文件。然后将图像数据文件传送到光学字符识别(OCR)单元105,后者将文档101的图像数据转换为电子文本。接着,将电子文本提供给语音转录单元107,该单元生成音素和单词注释数据109,并将其添加到扫描仪103输出的图像文件中,以形成数据文件111。如图所示,在数据库29中存储数据文件111,以便随后检索。在本实施方式中,注释文件109包括上述组合音素和字格,组合音素和字格允许用户利用语音查询检索数据库29中的数据文件111。
图12表示图15所示文档注释系统的修改。图16所示系统与图11所示系统之间的区别在于,通过使用光学字符识别单元105的输出,而不是扫描仪103输出的图像文件,生成数据文件113。图12所示系统的其他部分与图11所示系统的其他部分相同,因此不再赘述。
图13表示图11所示文档注释系统的另一种修改。在图13所示的实施方式中,利用传真单元115而非扫描仪103接收输入文档。然后按照图11所示的处理扫描仪103输出的图像数据的方式,处理传真机输出的图像数据,因此不再赘述。
在上述实施方式中,利用语音转录单元107生成注释数据,以便给图像或文本数据做注释。正如熟练技术人员理解的那样,也可以使用其他技术。例如,操作员可以根据文档本身的图像手工生成上述注释数据。
在第一实施方式中,将数据文件31的音频数据传送到自动语音识别单元,以生成音素注释数据。在某些情况中,数据文件中存在音频数据的转录副本。图14表示此种实施方式。在本实施方式中,数据文件81代表具有视频数据81-1、音频数据81-2和脚本数据81-3的数字视频文件,脚本数据81-3定义电视片中不同演员的台词。如图所示,将脚本数据81-3传送到文本至音素转换器83,该转换器通过使用存储的字典,生成音素网格数据85,其中字典将单词翻译为可能的音素序列。然后,组合音素网格数据85与脚本数据81-3,以生成上述音素和字格注释数据81-4。接着,将注释数据添加到数据文件81中,以生成增音数据文件81′,并添加到数据库29中。正如熟练技术人员理解的那样,由于脚本数据通常包含说话人的指示,所以上述实施方式便于生成视频数据文件内不同发言人的不同音素和字格注释数据。然后,通过利用自动语音识别系统(未示出)强行调整脚本数据与音频数据的时间,实现音素和字格注释数据与视频和音频数据的同步。
在上述实施方式中,利用音素(或具有音素特征的成分)和字格给数据文件做注释。正如语音识别和语音处理领域的熟练技术人员理解的那样,详细说明书和权利要求书中的单词“音素”并不限于其语言学上的含义,而是包括标准语音识别系统辨别、使用的各种子词,如音素、字节、片假名(日语字母表)等。
网格生成
在以上详细说明书中,参照图3说明图4b所示的音素和字格数据结构的生成。以下参照图15至17说明该数据结构的最佳形式,包括将节点划分为数据块的最佳方式。此后,参照图18至22说明生成最佳数据结构的一种方式。
图15a表示网格的每个节点相对于公用零时的定时,在本例中,设置公用零时以至第一节点在0.1秒处出现。请注意,图15a只是示意图,因此时轴不是线性的。
正如图15b所示,在本实施方式中,将所有节点划分为三个数据块。在本实施方式中,利用块标记或块标志202、204、206和208作为进入数据块的节点的分界线。块标记204、206和208位于每个数据块的最后一个节点之后,但是为了清晰起见,在图15b中将其表示为有一点间隔。块标记204标记块0的结束和块1的开始,同样,块标记206标记块1的结束和块2的开始。块标记208位于网格的结尾,因此仅仅表示块2的结束。块标记202位于时间t=0.00秒的位置,以便提供块0的开始的分界线。在本实施方式中,块0具有5个节点,块1具有5个节点,块2具有7个节点。
相对于每个块的开始时间,提供每个节点的时间。这并不影响块0中所有节点的定时。然而按照图15a,对于其他各块,新的偏移定时与每个节点的绝对定时不同。在本实施方式中,除块0之外的其他各块的开始时间为前一块的最后一个节点的时间。例如,正如在图15a中看到的那样,音素/ih/和/z/之间的节点在0.71秒处出现,并且是块1的最后一个节点。正如从图15a看到的那样,下一节点,即,音素/z/和音素/dh/之间的节点,在0.94秒处出现,0.94秒为0.71秒之后的0.23秒。因此,正如在图15b中看到的那样,块1的第一节点的偏移时间为0.23秒。
使用相对于每个块的开始而不是整个网格的开始确定的时间偏移量,能够在动态范围方面提供以下优点。随着网格总时间的增加,需要相应增加用于记录网格结构内的定时值的数据类型的动态范围,这会消耗大量内存。如果网格结构是为未知长度的数据文件提供的,例如,如果希望公用网格结构能够给时长为一分钟的电视广告或时长为数小时的电影或电视节目做注释,则情况将进一步恶化。相反,由于只需容纳单一数据块的最大期望时间偏移量,并且与数据文件的总的持续时间无关,所以能够显著减少划分为数据块的网格结构的对应数据类型的动态范围。在本实施方式中,使用的数据类型提供整数值,其中每个整数值表示以百分之一秒为单位测量的偏移时间。
图15b还说明标识为α和β的部分网格结构。以下说明该条目的重要性。
以下参照图16a说明保存音素和网格数据结构之最佳方式中的每个节点的数据的格式,图16a举例说明网格的第一节点的数据的格式。该节点的数据的形式为7个数据成分210、212、214、216、218、220和222。
第一数据成分210规定该节点距离数据块的开始的时间偏移量。在本例中,其值为0.10秒,并利用上述整数数据类型表示。
第二数据成分212表示图15a和15b所示的从第一节点延伸出来的单词链接“NOW”。第三数据成分规定前一链接(即,单词链接“NOW”)的节点偏移量,表示前一链接经过的节点数。现在参照图15a和15b,可以看出,单词链接“NOW”延伸到的节点为该链接从该节点开始延伸到的第三节点,因此节点偏移量为3,正如图16a中数值003表示的那样。在本实施方式中,用于实现节点偏移量的数据类型为提供整数值的数据类型。
正如图16a所示,第四数据成分216表示从第一节点延伸到第二节点的音素/n/,因此节点偏移量为1,并使得第五数据成分218的值为001。同样,第六数据成分220表示音素链接/m/,第七数据成分222表示该链接的节点偏移量等于1,并用001表示。
可以采用任何一种合适方式,作为数据成分212、216和220表示与其链接关联的各个单词或音素的方式。在本实施方式中,数据成分212、216和220由与单词索引项值(在单词链接情况中)或音素索引项值(在音素链接情况中)相对应的整数值组成。索引项值用来标识包含单词或音素列表的对应单词或音素索引中的项目。在本实施方式中,在早先说明的注释数据31-3的标题部分中,存储对应单词或音素索引。在其他实施方式中,标题本身仅仅包含存储一个或多个单词或音素索引的独立数据库的交叉引用标识。
通常,可以按照任何希望的相对顺序,采用图16a所示的数据格式,放置与给定节点相对应的不同链接。然而,在本实施方式中,采用以下优选顺序,亦即,首先将具有最大节点偏移量的单词或音素链接(“最长”链接),放置到该序列中。此时,“最长”链接为节点偏移量为3个节点的单词链接“NOW”,因此,将该链接放置到节点偏移量均为1的“较短”音素链接/n/和/m/的前面。稍后说明以上优选排列的优点。
将图16a所示形式的每个节点的数据,放置到按时间排序的序列中,以形成定义全部网格(除标题以外)的数据流。图16b表示图15b所示网格的数据流。如图所示,该数据流另外包括充当节点标志的数据成分225至241,以标识它们之后的数据成分指向的下一个节点。该数据流还包括其他数据成分244、246、248和250,实现先前参照图15b描述的块标记202、204、206和208。
早些时候参照图4b说明了网格数据结构的数据块排列的主要优点,即,允许搜索跳到给定音频数据流的注释数据的中间位置。为此,参照图4b说明的标题还包括一个时间索引,时间索引将存储器内注释数据块的位置,关联到起始时间和与块的开始相对应的时间之间的给定时间偏移量。正如上面参照图15b说明的那样,在本实施方式中,给定数据块之开始对应的时间,为给定数据库的前一数据块中最后一个节点的时间。
以下说明图15b所示数据块排列展示的其他特征和优点。根据单词或音素链接在数据库之间的允许延伸程度,确定数据块。例如,在本实施方式中,块位置实现以下标准,链接不能进入相邻数据块之外的其他数据块。例如,考虑块0的节点,可以从图15b中看出,音素链接/n/、/m/、/oh/、/w/和/ih/以及单词链接“NOW”只能进入源节点所在的相同数据块,即,标准允许的数据块,而音素链接/z/和单词链接“IS”分别从块0进入块1,即,标准允许的相邻块。然而,没有进入块2的链接,因为此类链接将延伸到块0的相邻块(即,块1)之外,这正是标准所不允许的。
借助于上面实现的数据块,通过遵守上述标准,能够获得以下优点。如果稍后需要将其他数据插入到音素和字格结构中,则包括插入一个或多个附加节点。此时,需要将“越过”新插入节点的现有链接的节点偏移量加1,因为越过新插入节点的现有链接的节点数将包括新插入的节点。例如,正如从图15b看到的那样,如果在块2中时间为0.50秒的位置插入一个新节点,则从位于0.47秒的节点延伸到位于0.55秒的节点的音素链接/v/,其节点偏移量将为2,而不是其原始值1,同样,从位于0.34秒的节点延伸到位于0.55秒的节点的单词链接“OF”,其节点偏移量需要从原始节点偏移量2变为3。正如图16b所示数据流表示的那样,需要将数值为001的数据成分252的数值变为002,并将原始值为002的数据成分254的数值变为003。
在插入附加节点并处理由此引起的节点偏移量的改变时,必须从新插入的节点开始向后搜索网格数据结构,目的是分析早先存在的节点,以确定其节点偏移量足以延伸到新插入节点之外的链接。根据以上标准排列网格数据结构的数据块的优点在于,能够减少需要分析的早先存在的节点的数目。更确切地说,只需分析插入节点的同一数据块中新插入节点之前的节点,以及插入新节点的数据块之前一相邻数据块中的节点。例如,如果在块2中0.50秒的位置插入一个新节点,则只需分析块2中新插入节点之前的四个现有节点,以及块1中的5个节点。鉴于以上讨论的数据块标准,无需搜索块0中的任意节点。
随着网格长度的增加以及形成的数据块数目的增加,以上优点将更加有利。另外,上述优点不仅适用于在其他完全网格中插入新节点,而且适用于正在进行的网格构建过程,当无需按照严格时间顺序在网格中插入节点时出现后一种情况。
另外请注意,可以改变特别选择的只允许链接延伸到相邻数据块的标准,例如,标准只允许链接延伸到四个数据块,因此最多只需向后搜索四个数据块。对于比较大的网格,特别是具有成百上千个数据块的网格而言,在减少所需处理量方面,仍然具有明显优势。熟练技术人员可以理解,可以选择任意合适的块数作为标准的界限,只需相应修改向后搜索的块数即可。
本实施方式的网格数据结构包括另一种优选改进,优选改进涉及延伸到相邻数据块的单词或音素链接。特别地,网格数据结构还包括规定每个数据块之两个特征点的数据。每个数据块的两个特征点为图15b所示的α和β。
将给定数据块的β定义为:从前一数据块中发起的任一链接延伸到的给定数据块内的最新节点的时间。因此,对于块1而言,β位于该块内的第一节点(即,音素链接/z/和单词链接“IS”延伸到的节点),因为不存在从块0发起的延伸到块1之第一节点之外的其他链接。对于块2而言,β位于第三节点,因为单词链接“WINTER”从块1延伸到该节点。对于网格结构的第一块(即,块0)而言,实质上不存在延伸到该块的链接。因此,将本数据块的β定义为在网格开始前出现。
将给定数据块的α定义为:链接从给定数据块延伸到下一数据块的给定数据块中最早节点的时间。对于块0而言,两个链接延伸到块1,即,单词链接“IS”和音素链接/z/。对于上述链接,单词链接“IS”在块0中的起始节点比音素链接/z/的起始节点更早,因此α位于单词链接“IS”的起始节点。同样,块1的α位于单词链接“WINTER”的起始节点。对于网格的最后一个数据块而言,此时为块2,本质上不存在延伸到其他数据块的链接,所以将α定义为该块内的最后一个节点。因此可以理解,概念上β代表其前面的节点对前一数据块有影响的数据块内的最新位置点,而α代表其后面的节点对下一数据块有影响的数据块内的最早位置点。
正如熟练技术人员理解的那样,可以利用特定节点的标识或时间规格指定每个α和β。在本实施方式中,利用节点指定标识。可以采用多种不同方式存储用于指定网格数据结构内之α和β的数据。例如,图16b所示类型的数据成分可以在数据流内的有关位置包含标志或标记。然而,在本实施方式中,通过在网格数据结构之标题部分的查找表中存储各个节点的标识,指定所有位置点。
首先,在插入新节点时,每个数据块的α和β的规格对分析网格中先前节点的节点偏移量具有某些优点。特别地,当在给定数据块中的β位置后插入新节点时,只需分析给定数据块中前面的节点,无需分析给定数据块之前一数据块中的节点。其原因在于,由于新插入的节点位于给定数据块内的β位置后,所以根据定义不存在从前一数据块延伸到新插入节点之后的链接,因为β的位置定义前一数据块中的链接延伸到的最大程度。因此,无需搜索分析前一数据块中的节点,当数据块的平均长度增加时,上述处理非常有利。作为选择,如果将新节点插入到给定数据块之β位置前的给定数据块中,则必须考虑从前一数据块发起的链接,但只需考虑前一数据块中位于α位置或位于α位置之后的节点。这是因为根据α的定义,位于前一数据块之α前面的前一数据块中的节点,均没有延伸到给定数据块的链接。因此,能够再次减少处理,并且随着每个数据块的长度的增加,上述减少将非常显著。此外,给定数据块中α的位置趋向于该数据块的结尾,所以对长数据块而言,能够节省用于分析全部在先数据块所使用的大部分处理资源。
其次,当在以下过程中使用α和β重新定义现有网格内的数据块,以便在遵循上述标准(即,任何链接均不能延伸到一个数据块之外)的情况下提供更小、排列更均匀的数据块时,每个数据块的α和β的规格具有某些优点。在上述过程中,根据现有数据块内α和β的相对位置,分割现有数据块。在一种方法中,假设α在给定数据块内的β之后,则通过在β和α之间的某个位置分割给定数据块,将其划分为两个数据块。同样,在构造网格数据结构的优选过程中,有利使用规定β和α的数据确定何时将现有数据块分割为更小数据块。
如上所述,在本实施方式中,正如图16a所示,首先将给定节点的最长链接放置到给定节点的数据成分序列中。这对于将新节点插入到网格数据结构中的过程很有利,其中在该过程中,必须分析先前的节点,以确定从这些节点发起的链接是否延伸到新插入的节点之外。通过总是将从任意给定节点发起的最长链接,放置在该节点的数据成分序列中的特定位置,此时为该序列内的最早位置,如果证实该链接并未越过新插入的节点,则无需分析该节点之数据成分序列内的所有剩余链接,因为根据定义,其跨度小于已经分析的最长链接的跨度。因此能够进一步缩短处理时间。
以下参照图17至19说明生成上述网格数据结构的优选方法。在优选方法中,将组成数据组织为数据成分集合,并且在构造网格结构时,每次将一个数据成分集合添加到网格结构中。每个数据成分集合包括以下三项之一:
(i)两个新节点以及它们之间的所有链接(在向网格添加节点的情况下,不会将这些节点连接到网格中已经存在的节点上);或
(ii)一个新节点以及以该节点作为结尾的各个链接;或
(iii)该网格内的现有节点之间的一个链接。
图17是一个流程图,表示优选方法中使用的处理步骤。在图17所示处理步骤的以下说明中,论证将这些步骤应用于图15b所示的网格的构造,进而说明将该方法应用于已按照时间顺序对其节点排序的输入数据时,该方法的运行方式。此后,通过描述将数据添加到图15b所示网格数据结构的各种不同方法,描述将附加节点插入现有的按时间排序的节点序列时,应用处理步骤的方式(构造新网格或修改现有网格)。
一般而言,在将每个数据成分集合添加到网格中时,更新数据块的各种终点,α和β。当数据块中的节点数到达临界值时,在本例中为9,分析α和β的位置,并且如果合适,则将该数据块分割为两小块。再次更新各种各样的α和β,并且在添加附加数据成分后,按相同方式继续进行处理。
以下详细说明图17展示的处理步骤。同时参照图18a至18h,该图表示图15b所示图解表现形式的网格结构的构造。另外参照图19a至19h,该图表示用于定义与图16所示形式相对应的网格的数据流的构造。
参照图17,在步骤S61中,自动语音识别单元33定义第一块(即,块0)的开始。在图18a中,利用参考号数202表示用于定义第一块的开始的块标记。其实现方式是,在数据流中插入组成块标志的数据成分244(见图19a)。
在步骤S63中,自动语音识别单元33将渐增计数器设置为1。
在步骤S65中,自动语音识别单元33将第一个数据成分集合插入到定义网格数据结构的数据流中。更确切地说,自动语音识别单元33收集与网格的前两个数据相对应的数据,以及它们之间的音素链接(此时为音素链接/n/和/m/)。然后,另外收集字译码器37辨别的所有单词,作为与以上两个节点之间的链接关联的单词,尽管对于前两个节点,不存在此类单词。接着,将相应数据成分插入到数据流中。特别地,再次参照图19a,插入用于定义网格结构之第一节点的数据260,数据260由组成节点标志的数据成分以及指示节点时间的数据成分组成。此后,插入数据262,该数据包括组成音素链接/n/的数据成分和节点偏移值001,然后插入数据264,该数据包括组成音素链接/m/的数据成分和节点偏移值001。最后,插入数据266,该数据包括组成节点标志的数据成分以及组成第二节点之时间的数据成分。从而插入第一数据成分集合的全部组成部分260、262、264和266。同时可以在图18a中看到前两个节点以及它们之间的音素链接/n/和/m/。在步骤S67中,自动语音识别单元33判断新插入的数据成分集合中是否包括新节点。此时答案为“是”,因此处理转到步骤S69,在步骤S69中,自动语音识别单元判断新节点是否位于当前网格结构的结尾。此时答案为“是”。事实上,当利用图17的流程图中所示的方法,构造按时间顺序对其数据进行排序的数据网格时,在目前情况下,判断步骤S67和S69的答案总是肯定的。流程图包含上述判断步骤的目的,仅仅是为了说明该处理能够将附加节点或链接插入到网格中,如果需要的话(稍后给出此种情况的示例)。
此时,处理转到步骤S71,在步骤S71中,自动语音识别单元33定义最后一个数据块的结尾为:位于网格结尾的新插入的节点的后面。在此处理阶段中,只有一个数据块,因此在定义最后一个数据块的结尾时,事实上已经定义了单一数据块的结尾。在图18a中,将新定义的数据块的现行结尾表示为项目203,并且正如图19a所示,在数据流中表示为由块标志组成的数据成分245。
接着,自动语音识别单元33确定全部α和β位置点。此时,只有一个数据块,因此确定只有一个α和一个β。上文描述了用于确定第一数据块中之α和β的过程。图18a表示由此得出的位置。正如上文所述,关于数据流,将α和β位置输入到标题数据中。
在步骤S79中,自动语音识别单元33判断是否有“无效”的α和β值,意指或者其α和β值不确定,或者α和β所处位置违反上文描述的标准,即,任何链接均不能延伸到相邻数据块之外。此时,在构造网格时,上述判定步骤判定不存在无效值,因此处理转到步骤S81。在步骤S81中,自动语音识别单元判断刚刚在其内部插入节点的数据块内的节点数是否达到或超过预定临界值。设置预定临界值的目的在于,为提供更小数据块长度或更均匀的数据块间隔而分析或修改数据块结构前,该数据块中必须具有的最少节点数。在执行数据块分割,数据存储数据块标志数据时,就需要的资源而言,还有间接成本。因此,对节点数小于临界值的数据块进行数据块分割将影响效率(counter productive)。临界值的选择取决于正在考虑的网格或数据文件的特定特征。如上所述,在本实施方式中,将该值设置为9。因此,在此处理阶段中,由于总共只插入了两个节点,所以判断步骤S81的答案为“否”。
对于需要插入的第一个数据成分集合而言,完成上述处理步骤,图18a和19a表示网格和数据流的现行形式。
接着,该过程转到步骤S89,在该步骤中,自动语音识别单元判断还有需要添加的数据成分集合,因此在步骤S91中,将n的值加1,然后对下一个数据成分集合,重复从步骤S65开始的处理步骤。此时,下一个数据成分集合包括用于规定网格之第三节点及其时间(0.41秒)的数据(图19b中的项目270)和用于规定音素链接/oh/及其节点偏移量(001)的数据。图18b表示插入音素链接/oh/和第三节点后的情况。在步骤S71中,按图18b所示方式放置该数据块的结尾203,将结尾203定义为位于最后一个节点之后,在数据流中,利用由块标志组成的数据成分245实现上述处理,并将其放置在新插入的数据268和270的后面。在图18b中表示步骤S75确定的位于新的端节点的α的新位置。在步骤S79中,再次确定不存在无效α或β,并且由于节点数仅仅为3(即,小于9),所以最新的数据成分集合的处理完成,图18b和图19b表示当前的网格和数据流。
随着过程继续,插入代表下一个数据成分集合的第四节点以及在该节点结束的两个链接,即,音素链接/w/和单词链接“NOW”。正如对上一个数据成分集合描述的那样,执行从步骤S65开始的处理步骤,由此得到图18c所示的网格结构和图19c所示的数据流。在图19c中可以看出,与音素链接/w/对应的数据272以及与最新节点对应的数据274,恰好在位于数据流结尾的最后一个块标志的前面,把与单词链接“NOW”对应的数据276放置在该链接之发起节点(即,第一节点)的数据流中。此外,并将其放置在从第一节点发起的其他链接(即,音素链接/n/和/m/)的前面,因为音素链接的节点偏移量为001,小于单词链接“NOW”的节点偏移量003。
该过程按上述方式继续而无需任何更改,以插入第五、第六、第七和第八节点,从而分别提供图18d和图19d所示的网格结构和数据流。
在从步骤S65开始的该过程的下一个循环中,插入的数据成分集合为第九节点以及在该节点结束的音素链接/w/。在按上述方式执行步骤S67、S69、S71和S75之后,网格排列如图18e-1所示,数据块的结尾203位于新插入的第九节点后,α位于第九节点。在步骤S79中,自动语音识别单元判断不存在的无效的α和β值,因此处理转到步骤S81。到该步骤为止的过程与前一个数据成分集合的过程相同。然而,由于此时新插入的节点使得单一数据块中的节点总数变为9,所以当自动语音识别单元执行判断步骤S81时,首次确定该数据块中的节点数大于等于9。因此,此时该过程转到步骤S83,在步骤S83中,自动语音识别单元判断α是否大于β,即,在该数据块中α是否在β的后面。本例正是此种情况(事实上,对网格的第一数据块而言,总是如此,因为β是为第一网格定义的)。
可以理解,本方法的基本步骤是,当数据块中的节点数到达9时,将该数据块划分为两个数据块,其前提是α大于β。等待到达某个节点数的原因在于,上文说明的资源的间接成本。α大于β这一标准的原因在于,确保通过分割原始数据块形成的两个数据块均服从上文说明的标准,不允许任何链接延伸到相邻数据块之外的其他数据块。
因此,此时该过程转到步骤S85,在步骤S85中,自动语音识别单元将图18e-1的单一数据块,分割为两个数据块。其实现方式是定义新的数据块结尾205,根据任意所需标准确定其位置,其中标准规定β和α之间的某个位置。在本实施方式中,标准为在β和α之间的中间位置(根据节点数,如果需要的话则进行上舍入)插入新的数据块结尾。因此,正如图18e-2所示,通过在第五节点后插入一个新的数据块结尾205,分割该数据块。正如图19e所示,通过在数据流中插入由块标志组成的数据成分298,实现上述处理。另外,自动语音识别单元33按照与该数据块的开始时间的偏移量,重新计算新生成的第二数据块内所有节点的时间,其中开始时间为整个网格的第五节点的时间(0.71秒)。因此,由此得到的图19e所示的数据流包含新插入的数据成分298,与音素链接/w/有关的新插入的数据300,以及与端节点有关的新插入的数据302。此外,将数据成分304、306、308和310的时间值变为新的偏移量。
在步骤S87中,利用自动语音识别单元确定α和β更新值。由于现在有两个数据块,所以需要确定两个β和两个α。图18e-2表示α和β的新位置。
此后,按上述方式继续图17的过程,以便插入整个网格的第十至第十三节点,并且块1中的节点数小于临界值9。从而分别提供图18f和图19f所示的网格结构和数据流。
插入的下一个数据成分集合包括第十四节点以及在该节点结束的音素链接/oh/。图18g-1表示对该数据成分集合执行步骤S65至S79之后的情况。插入最新的数据成分集合使得第二数据块中的节点数变为9,并且α在β的后面。因此,自动语音识别单元33执行步骤S85,在步骤S85中,在需要分割的数据块的第五节点后,插入新的数据块结尾207,如图18g-2所示。正如图19g所示,通过在数据流中插入由新块标志组成的数据成分330,实现上述处理。同时,自动语音识别单元33计算新生成的第三数据块中所有节点的调整偏移时间(图19g中的334、336、338、340)。此后,在步骤S87中,自动语音识别单元确定α和β的更新值,以便提供用于第二数据块的新的α值和用于第三数据块的新的β值,图18g-2表示以上两种情况。
对需要添加的3个剩余数据成分集合,重复图17所示的过程,从而提供图18h和图19h所示的网格结构和数据流。
此时,在步骤S89中,自动语音识别单元33确定已经不存在需要插入的数据成分集合,因此,完成现行网格数据结构,并与图15b和16b所示的网格相对应。
以下利用实例论证由于后面插入延伸到相邻数据块的长链接引起的两个数据块的合并处理。以上实例中不会出现此种情况,原因在于数据是完全按照时间顺序添加到网格中的。相反,在以下实例中,在图15b的网格到达此步骤后,需要在现有节点之间插入附加链接。发生此种情况的原因有许多。一种可能性是,网格是在早期完成的,然后作为注释数据,但后来需要修改。另一种可能性是,首先处理所有音素数据,然后处理所有单词数据,或相反。还有另一种可能性是,为提供单一网格而单独添加不同声道(即,不同发言人)的数据。
然而,在本例中,插入早期的计时链接本质上是最初进行的网格构造的一部分,尽管需要在结尾单独处理组成附加链接的数据成分,因为当音素数据通过第二语音识别词汇表时,构成自动语音识别单元33识别的单词。在本例中,第二词汇表包括用户选择的专有名称地点词汇表。因此,在本例中,在步骤S89中,确定需要插入另一个数据成分集合,然后在步骤S91中将n的值加1,在步骤S65中插入该数据。该数据组成单词链接“ESTONIA”,并且从块0的第四节点延伸到块2的第三节点,如图20a所示。
在步骤S67中,自动语音识别单元33识别未插入新节点,因此,处理转到步骤S75,在步骤S75中,确定α和β的更新位置。然而,由于新插入的链接从块0开始,向右经过块1,延伸到块2结束,所以违反了上文描述的禁止链接延伸到相邻数据块之外的标准,并且不能生成块1的有效α和β。在图20a中表示为,块1的α事实上需要在块0中出现,块1的β需要在块2中出现。因此,在下一步骤S79中,确定α和β无效。
因此该过程转到步骤S77,步骤S77包括合并数据块。可以使用任何合适的标准来选择需要合并的数据块,例如,该标准可以基于提供间隔最均匀的数据块,或者合并违反(标准的)数据块与前一个数据块。然而,在本例中,总是选择合并违反(标准的)数据块与前一个数据块,亦即,在本例中,将合并块1和块2。其实现方式是,去除划分块1和块2的块标记,从而只剩下两个数据块,如图20b所示。然后,该过程返回到步骤S75,在步骤S75中,再次判断α和β。图20b表示由此得到的α和β的位置。
在步骤S79中,自动语音识别单元33判定α和β有效,因此过程转到步骤S81。在本例中,由于块1中有12个节点并且α大于β,所以该过程转到步骤S85,并且使用与上述过程相同的过程,分割块1。然而,上文使用的、规定新数据块分割位置(即,β和α之间的节点数之一半的位置)标准,在本例中包含改进,当需要分割的数据块的节点数大于9时,分割处理应使得两个分割块中较早获得的数据块中的节点数小于等于8。以避免数据块分割处理的低效重复。因此,在本例中,将新的块标记插入到正在分割的数据块的第八节点后,如图20c所示。在步骤S87中,再次判断α和β,图20c表示新位置。请注意,α和β位于块1中的同一节点。在本例中,在步骤S89中,判定不存在需要添加的其他数据成分集合,因此,该过程结束。
在参照图20a至20c说明的上述过程中,通过按照与上文实例相对应的方式更改图16b的数据流,实现网格的更改。特别地,通过去除包含划分原始块1和2之原始块标志的有关数据成分248,实现用于合并两个数据块的步骤S77。
以下参照图21a至21d说明根据图17之流程图展示的过程处理数据的另一个实例。在本例中,在将第七节点添加到图15c的网格后,添加附加数据成分。因此,图17的步骤S89中,需要添加其他成分,然后该过程经由增加步骤S91再次返回到插入步骤S65。然而,添加以下实例中之附加数据成分所使用的方法步骤,构成一种更新或修改任意适合的原始网格的独立方法,而不考虑原始网格本身是如何生成的。
在以下实例中,通过与图9所示键盘3和语音转录单元75之形式相同的键盘和语音转录单元,添加附加数据。在本例中,将语音转录单元的输出连接到自动语音识别单元33。用户利用该装置输入与视频数据31-1之特定部分相对应的注释数据。在业界中有时将此类数据称为“元数据”。例如,视频数据的特定部分可以表示某个演员的许多特写,其中用户希望在以后需要时能够利用注释数据进行定位/检索。因此,用户输入单词“PROFILE A B C D E”,并且规定只转录单词链接,而不转录音素链接。从而提供以下数据成分:
(i)第一个新节点,第二个新节点,以及它们之间的单词链接“PROFILE”;
(ii)第三个新接点,以及第二个新节点和第三个新节点之间的单词链接“A”;
(iii)第四个新接点,以及第三个新节点和第四个新节点之间的单词链接“B”;
(iv)第五个新接点,以及第四个新节点和第五个新节点之间的单词链接“C”;
(v)第六个新接点,以及第五个新节点和第六个新节点之间的单词链接“D”;以及
(vi)第七个新接点,以及第六个新节点和第七个新节点之间的单词链接“E”。
再次参照图17,在步骤S65中,由自动语音识别单元33将上述数据成分(i)插入到图15b之网格中图21a所示的位置。在步骤S67中,自动语音识别单元33判定插入了新节点。在步骤S69中,自动语音识别单元判定既未在网格的开始也未在网格的结尾插入新节点。换句话说,新节点被插入到现有网格内,因此可能需要调整该网格中一个或几个现有节点的节点偏移量。所以该过程转到步骤S73,在步骤S73中,自动语音识别单元33调整现有节点的节点偏移量。在步骤S73中,可以采用调整偏移量的任何合适方法。在本例中采用优选方法,稍后参照图22的流程图说明该方法。
在调整偏移量之后,按照较早实例采用的方式,执行图17的过程,然后返回到步骤S65,以便插入数据成分(ii)。然后对数据成分(ii)和(iii)重复关于数据成分(i)的上述过程。图21b表示插入数据成分(i)、(ii)、(iii)之后并且该过程到达步骤S81时的情况。此时,在插入附加数据成分时,第一次判定第二数据块中的节点数等于9。因此,在步骤S83中,自动语音识别单元33分割该数据块,然后在步骤S87中,确定新的α和β,从而得到图21c所示的新的块结构。请注意,确定新数据块之结尾的标准为,使得新生成的第二数据块的长度尽量长一些,但不允许将数据块的结尾放置在α。
然后按相同方式继续该过程,插入数据成分(iv)、(v)、(vi),一直到处理数据成分(vi)时的步骤S81。此时,网格具有图21d所示形式,即,块2中有9个节点,步骤S81的结果为该过程再次转到步骤S83。请注意,本例使得块2中的β位于α的后面,换句话说,延伸到块2中的最长链接超过离开块2的最早链接的开始位置,正如在图21d中看到的那样。如果在此种情况下分割块2,形成的新数据块将违反本实施方式的基本标准,即,任何链接均不能延伸到相邻数据块之外的其他数据块。鉴于上述情况,图17的方法不允许分割块2,即使该块有9个节点,并利用以下方式实现上述处理,判断步骤S83的结果为α不大于β,从而该过程直接转到步骤S89。在本例中,在步骤S89中确定不存在需要添加的其他数据成分集合,因此该过程结束。
以下参照图22的流程图,说明实现步骤S73之偏移量调整的上述优选过程,图22表示用于新插入节点的过程。优选方法使用以下事实,即,各块中的α和β位置是已知的。自动语音识别单元33分析新插入节点之前的节点,以确定从这些节点发起的延伸到新插入节点的位置之外的所有链接。若发现此类节点,则需要将受影响的链接的节点偏移值加1,以适应以下事实,新插入的节点在其范围内。如果新插入的节点在给定数据块内的β的后面,则只需分析新插入节点之前以及给定数据块内的节点,因为本质上不存在从前一数据块延伸到β之外的链接。作为选择,如果新插入的节点位于给定数据块内的β的前面,则需要分析给定数据块中新插入节点之前的节点以及前一数据块中的节点,但只包括与α相对应节点之后的节点。无需分析前一数据块中α之前的节点,因为本质上不存在从α之前的节点发起的、延伸到插入新节点的数据块的链接。
利用图22所示的处理步骤实现上述过程。在步骤S010中,自动语音识别单元33将渐增计数器i的值设置为1。利用渐增计数器控制对连续不断的早期节点逐一重复应用该过程。在步骤S103中,确定位于插入节点前一个位置的节点。参照图21a,对于发起单词链接“PROFILE”的新插入节点,位于其前一个位置的节点为发起单词链接“THE”的节点。在步骤S105中,确定从确定节点发起的所有链接为单词链接“THE”和音素链接/dh/。自动语音识别单元33确定上述链接的节点偏移值,单词链接“THE”的偏移值为002,音素链接/dh/的偏移值为001,因此在步骤S107中,将其节点偏移值加1,分别变为新值003和002。在步骤S109中,判断新插入的节点是否在β的前面。此时位于β的后面,因此,只需要向后分析到本块的第一节点,并且在步骤S111中,判断当前确定的节点,即,其节点偏移值改变的节点,是否为本块的第一节点。此时,答案为“是”,并且由于无需调整其他节点的偏移值,所以该过程结束。然而,如果本块中还有需要处理的节点,则该过程继续到步骤S113,在该步骤中,将i的值加1,然后从步骤S103开始对下一个早期节点重复该过程。在以上实例中,如果新插入的节点位于β的前面,则该过程继续直至处理了前一块中与α对应的节点前的每个节点。为了实现上述处理,当插入节点位于β的前面时,该过程转到步骤S115,在该步骤中,自动语音识别单元判断确定节点是否位于前一块的α位置。若是,则过程结束。否则,该过程转到步骤S117,在步骤S117中,将i的值加1,然后从步骤S103开始重复该过程。
以下说明分割数据块的另一种方式。当给定数据块中的节点数到达临界值,并且α位于给定数据块中的β的后面时,调整给定数据块和前一个数据块,以便生成三个新数据块,从而代替两个数据块。以下参照图23a和23b详细说明该过程。
图23a表示某个网格内的节点序列,利用音素链接(如音素链接412)、单词链接414的尾部以及另一个单词链接416链接该网格。利用块标记402、404和406将以上节点划分为数据块,块标记构成网格的块n和(n+1)。该图分别表示块n和块(n+1)的α和β的位置。图23a表示插入代表音素链接413以及该链接之间之两个节点的数据后的网格状态。现在块(n+1)中的节点数为9,并且由于α在β的后面,所以需要重新调整该数据块。正如图23b所示,利用三个数据块,即,块n、块(n+1)和块(n+2),代替图23a中的两个数据块。其实现方式为,删除块分割符404,替换为两个新的块分割符408和410,分别位于块n中的β的后面和块(n+1)中的β的后面。此后,重新计算每块的α和β,图23b表示其新位置。重新调整数据块的过程提供间隔非常均匀的数据块。当给定数据块具有所需分割节点数并且其α在β的后面,而前一个数据块中的β在α的后面时,尤其如此。请注意,图23a正是此种情况。因此在优选实施方式中,当前一个数据块中的β在α的后面时,利用在两个β之间生成一个新数据块的过程,实现数据块分割,而当前一个数据块中的β在α的前面时,数据块分割遵循最初说明的划分过程,即,划分α和β之间的数据块。
在上一段说明的实施方式的另一种方案中,可以将两个新的块分割符分别放置在更接近(与每个数据块中的节点数相比)块n中的β和块(n+1)中的β位置,而不是位于两个β位置。
在上述实施方式中,在数据块中排列节点前,相对于公用零时提供网格中每个节点的定时,从而第一节点在0.10秒时出现。将第一块的开始时间设置为公用零时。其他各块的开始时间为前一块的最后一个节点的时间。然而,在备择实施方式中,可以按绝对形式提供每个节点的定时,并且为划分每个数据块之开始的块标记提供世界标准时(UST)时戳,与下舍入到秒的数据块的第一节点的绝对时间相对应。利用4字节整数实现UST时戳,4字节整数能够表示从1970年1月1日以来的秒数。然后,相对于该数据块之开始的下舍入时间,确定并存储每个数据块中的节点的时间,作为偏移时间。在本实施方式中,由于将每个块的时间下舍入到秒,因此如果允许数据块持续时间小于1秒,则有可能为两个或多个数据块分配相同时戳。因此,当使用UST时戳时,不允许数据块持续时间小于1秒。其实现方式是,规定预定的数据块持续时间,如1秒,在分割当前数据块之前必须超过持续时间。除早先叙述的要求(在分割当前数据块之前,当前数据块包含的节点数必须大于预定值)之外,该要求也起作用。作为选择,也可以适应比较短的数据块持续时间,其实现方法为,采用除UST之外的时戳约定,然后以比允许的最小持续时间更精确的方式,下舍入块标记时间。
在上述实施方式中,利用配备有必需功能性的自动语音识别单元33,确定并生成音素和字格结构。正如熟练技术人员理解的那样,可以使用标准自动语音识别单元连同单独的网格构造单元,后者包括用于确定并生成上述音素和字格结构的功能性。图24表示采用标准自动语音识别单元40的实施方式,其中单元40输出音素序列。正如图3所表示装置那样,字译码器37辨别来自音素数据35的单词。在图24所示的实施方式中,将辨别的单词添加到音素数据中,以生成音素和单词数据42。然后将其传送到网格构造单元44,该单元确定并生成上述音素和字格结构,从而形成音素和单词注释数据31-3。在包含只输出单词的标准自动语音识别单元的其他实施方式中,利用单词音素字典生成音素,然后利用网格构造单元(未示出)组合单词和音素,从而形成上述音素和字格结构。
在上述实施方式中,把音素和单词数据与网格的链接联系起来。正如熟练技术人员理解的那样,也可以改为把单词和/或音素数据与节点联系起来。此时,与每个节点关联的数据最好包括与其关联的每个单词或音素的开始时间和结束时间。
以上描述了用于将节点和链接的无序列表组织为有序、分块列表的技术。并且特别描述了对音素和单词的无序列表进行排序的技术。然而,正如熟练技术人员理解的那样,可以将该技术应用于其他种类的数据网格。例如,可以将该技术应用于只有音素的网格或只有单词的网格。作为选择,可以将该技术应用于根据手写识别系统生成的网格,其中手写识别系统经过字符识别处理生成可能字符的网格。此时,不能按时间对节点和链接排序,而是按空间排序,从而字符相对于其他字符出现在有序网格中与该字符在页面上的位置相对应的位置。

Claims (58)

1.一种用于生成注释数据的设备,该注释数据被用于对数据文件做注释,该设备包括:
用于接收音素或字数据的接收装置;以及
用于生成注释数据的第一生成装置,该注释数据定义与接收的音素或字数据相对应的音素格或字格;
其中第一生成装置包括:
用于生成节点数据的第二生成装置,该节点数据定义网格内按时间排序的多个节点;
用于生成链接数据的第三生成装置,该链接数据定义网格内的多个链接,各链接从一个第一节点延伸到一个第二节点;
用于生成联合数据的第四生成装置,该联合数据把每个节点或链接与来自所述音素或字数据的音素或字关联起来;以及
用于生成块数据的第五生成装置,所述块数据用于在满足一种块标准的按时间排序的块序列中排列所述节点,该块标准为起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外。
2.根据权利要求1的设备,其中所述块标准为起自任意给定块中的节点的链接不延伸到下一块中的节点之外。
3.根据权利要求1的设备,其中第一生成装置包括:通过处理每个节点的节点数据和每个链接的链接数据而形成音素或字格的处理装置,该处理装置包括:
i)用于向网格的当前块添加一个或多个节点和关联的链接,直至当前块中的节点数达到一个预定数值的装置;
ii)用于根据所述块标准确定当前块能够被分割的第一确定装置;以及
iii)用于将当前块分割为至少两个节点块的分割装置。
4.根据权利要求3的设备,对于每个音素或字,该设备能够分别生成与该音素或字数据相对应的节点数据和链接数据。
5.根据权利要求4的设备,该设备能够在形成音素或字格前生成所有节点数据和所有链接数据。
6.根据权利要求4的设备,该设备能够在为每个音素或字生成节点数据和链接数据时,将所述每个音素或字的节点数据和链接数据增量添加到音素或字格中。
7.根据权利要求6的设备,该设备能够通过以下步骤增量添加节点数据和链接数据:
判断是否存在与正在处理的当前音素或字的开始和结束时间相对应的节点;
如果该节点不存在,则将与开始或结束时间相对应的节点添加到网格中;以及
在与正在处理的当前音素或字的开始和结束时间相对应的节点之间,添加一个链接。
8.根据权利要求3至7之任一权利要求的设备,进一步包括:
第二确定装置,用于确定每个块的第一定时或节点的点(β)和每个块的第二定时或节点的点(α),该第一定时或节点的点(β)用于标识从前一块发起的链接延伸到的块内的最后节点,该第二定时或节点的点(α)用于标识延伸到下一块的链接所来自的块内的最早节点,
其中第一确定装置通过确定第一定时或节点的点(β)在第二定时或节点的点(α)之前,根据所述块标准,确定可以分割当前节点块,并且
分割装置能够响应于第一确定装置确定能够分割当前节点块,而分割当前块。
9.根据权利要求8的设备,其中当向网格添加其他节点时,第二确定装置能够更新每个块的第一定时或节点的点(β)和第二定时或节点的点(α)。
10.根据权利要求8的设备,其中分割装置能够分割第一定时或节点的点(β)和第二定时或节点的点(α)之间的当前块。
11.根据权利要求8的设备,其中分割装置通过形成从前一块的第一定时或节点的点(β)或其附近开始,并在当前块的第一定时或节点的点(β)或其附近结束的新块,来分割当前块。
12.根据权利要求8的设备,其中如果前一块的第一定时或节点的点(β)在前一块的第二定时或节点的点(α)的后面,则分割装置通过形成从前一块的第一定时或节点的点(β)或其附近开始,并在当前块的第一定时或节点的点(β)或其附近结束的新块,来分割当前块,如果前一块的第一定时或节点的点(β)在前一块的第二定时或节点的点(α)的前面,则分割装置分割第一定时或节点的点(β)和第二定时或节点的点(α)之间的当前块。
13.根据权利要求1至7之任一权利要求的设备,还包括第六生成装置,用于根据输入音频或文本数据生成音素或字数据。
14.根据权利要求13的设备,其中数据文件包括音频数据,并且第六生成装置包括一个自动语音识别系统,用于生成数据文件中的音频数据的音素数据。
15.根据权利要求14的设备,其中第六生成装置包括一个字译码器,用于通过辨别自动语音识别系统生成的音素数据内的可能字,来生成字数据。
16.根据权利要求15的设备,其中数据文件包括文本数据,并且第六生成装置包括一个文本至音素转换器,用于根据数据文件中的文本数据生成音素数据。
17.根据权利要求13的设备,其中第六生成装置包括以下装置之一:
a)用于接收并处理输入语音注释信号的装置;
b)用于接收并处理文本注释的装置;以及
c)用于接收代表文本文档的图像数据的装置,和将所述图像数据转换为文本数据的字符识别单元。
18.根据权利要求1至7之任一权利要求的设备,其中所述第一生成装置能够生成定义每个所述节点的时戳信息的数据。
19.根据权利要求1至7之任一权利要求的设备,其中所述第一生成装置能够生成定义数据库内每个块的位置的数据。
20.根据权利要求18的设备,其中所述数据文件包括时序信号,并且所述第一生成装置能够生成与所述时序信号时间同步的时戳数据。
21.根据权利要求20的设备,其中所述时序信号为音频或视频信号。
22.根据权利要求1至7之任一权利要求的设备,还包括用于向所生成的音素格或字格添加与一个或多个音素或字相对应的数据的设备,该用于添加的设备包括:
i)节点处理装置,用于在确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点的情况下,将节点插入到网格中,并且在确定其不存在的情况下,在网格中插入与所述开始和结束时间相对应的节点;
ii)链接处理装置,用于在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;
iii)选择装置,用于选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;
iv)用于分析所选的现有节点的链接数据的分析装置;以及
v)用于修改所分析的链接数据的装置;
其中针对每个其他节点,选择装置能够选择包含该其他节点的块中该其他节点之前的节点,以及在包含该其他节点的块之前一个块数的块的每个中的所有节点,该块数小于或等于所述预定块数。
23.一种用于向定义音素或字格的数据结构添加与一个或多个音素或字相对应的数据的设备,包括数据库,该数据库存储:用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;该设备包括:
i)节点处理装置,用于在确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点的情况下,将节点插入到网格中,并且在确定其不存在的情况下,在网格中插入与所述开始和结束时间相对应的节点;
ii)链接处理装置,用于在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;
iii)选择装置,用于选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;
iv)用于分析所选的现有节点的链接数据的分析装置;以及
v)用于修改所分析的链接数据的装置;
其中针对每个其他节点,选择装置能够选择包含该其他节点的块中该其他节点之前的节点,以及在包含该其他节点的块之前一个块数的块的每个中的所有节点,该块数小于或等于所述预定块数。
24.根据权利要求23的设备,其中对于要插入到给定块内的其他节点,选择装置只选择i)给定块中在正在插入的节点之前的节点,以及ii)前一块中的所有节点。
25.根据权利要求23的设备,其中所述数据结构使得起自任意给定块中的节点的链接不延伸到下一块中的节点之外,并且还包括用于定义每个块的第一定时或节点的点(β)的数据,该第一定时或节点的点(β)用于标识从前一块中发起的链接延伸到的块内的最后节点;和用于定义每个块的第二定时和节点的点(α)的数据,该第二定时或节点的点(α)用于标识延伸到该下一块的链接所来自的块内的最早节点,其中对于要在一个给定块中在由定时或节点的点定义的一个插入位置处插入的一个进一步的节点,选择装置能够做出如下选择:
a)在插入位置在给定块的第一定时或节点的点(β)之后的情况下,只选择该给定块中在该插入位置之前的现有节点;
b)在插入位置在该给定块的第一定时或节点的点(β)之前的情况下,只选择:i)该给定块中在插入位置之前的现有节点,和ii)前一块中在该前一块的第二定时或节点的点(α)之处或之后的那些节点。
26.根据权利要求23至25之任一权利要求的设备,其中所述数据结构使得对于具有多个链接的节点,根据链接的范围以预定方式排列这些链接的每个的数据,并且分析装置被构造成只分析从每个所选节点发起的最长链接。
27.一种生成用于给数据文件做注释的注释数据的方法,该方法包括以下步骤:
i)接收音素或字数据;以及
ii)生成注释数据,该注释数据定义与接收的音素或字数据相对应的音素或字格;
其中生成定义网格的注释数据的步骤包括:
生成节点数据,该节点数据定义该网格内的多个按时间排序的节点;
生成链接数据,该链接数据定义该网格内的多个链接,每个链接从第一节点延伸到第二节点;
生成联合数据,该联合数据把每个链接或节点与来自音素或字数据的音素或字关联起来;以及
生成块数据,该块数据用于在满足块标准的按时间排序的块序列中排列节点,该块标准为起自任意给定块中的节点的链接不延伸到该序列中预定块数后的块中的节点之外。
28.根据权利要求27的方法,其中块标准为起自任意给定块中的节点的链接不延伸到下一块中的节点之外。
29.根据权利要求27的方法,其中生成定义网格的注释数据的步骤包括以下用于通过处理每个节点的节点数据和每个链接的链接数据来形成音素或字格的步骤:
i)向网格的当前块添加一个或多个节点及关联链接,直至当前块中的节点数达到预定数;
ii)根据所述块标准确定能够分割当前块;以及
iii)将当前块分割为至少两个节点块。
30.根据权利要求29的方法,其中对于每个音素或字,与该音素或字数据相对应地单独生成节点数据和链接数据。
31.根据权利要求30的方法,其中在形成音素或字格前,生成所有节点数据和所有链接数据。
32.根据权利要求30的方法,其中在为每个音素或字生成节点数据和链接数据时,将每个所述音素或字的所述节点数据和链接数据增量添加到音素或字格中。
33.根据权利要求32的方法,其中通过以下步骤增量添加节点数据和链接数据:
判断是否存在与正在处理的当前音素或字的开始和结束时间相对应的节点;
如果该节点不存在,则将与开始或结束时间相对应的节点添加到网格中;以及
在与正在处理的当前音素或字的开始和结束时间相对应的节点之间,添加一个链接。
34.根据权利要求27至33之任一权利要求的方法,进一步包括以下步骤:
确定每个数据块的第一定时或节点的点(β),以标识从前一块发起的链接所延伸到的块内的最后节点,和每个数据块的第二定时或节点的点(α),以标识延伸到下一块的链接所来自的块内的最早节点;
其中根据所述块标准确定可以分割当前节点块的步骤包括,确定第一定时或节点的点(β)在第二定时或节点的点(α)之前,并且响应于确定能够分割当前节点块,将当前块分割为至少两个块。
35.根据权利要求34的方法,进一步包括以下步骤:当向网格添加其他节点时,更新每个块的第一定时或节点的点(β)和第二定时或节点的点(α)。
36.根据权利要求34的方法,其中分割当前块的步骤包括:分割第一定时或节点的点(β)和第二定时或节点的点(α)之间的当前块。
37.根据权利要求34的方法,其中分割当前块的步骤包括:形成从前一块的第一定时或节点的点(β)或其附近开始,并在当前块的第一定时或节点的点(β)或其附近结束的新块。
38.根据权利要求34的方法,其中如果前一块的第一定时或节点的点(β)在前一块的第二定时或节点的点(α)的后面,则分割当前块的步骤包括,形成从前一块的第一定时或节点的点(β)或其附近开始,并在当前块的第一定时或节点的点(β)或其附近结束的新块,如果前一块的第一定时或节点的点(β)在前一块的第二定时或节点的点(α)的前面,则该步骤包括分割第一定时或节点的点(β)和第二定时或节点的点(α)之间的当前块。
39.根据权利要求27至33的任一权利要求的方法,还包括以下步骤:根据输入音频或文本数据生成音素或字数据。
40.根据权利要求39的方法,其中数据文件包括音频数据,并且所述方法进一步包括:
利用自动语音识别系统生成数据文件中的音频数据的音素数据;以及
利用字译码器,通过辨别自动语音识别系统生成的音素数据内的可能字,来生成字数据;
其中所述注释生成步骤利用生成的音素和字数据产生定义音素和字格的注释数据。
41.根据权利要求39的方法,其中数据文件包括文本数据,并且其中:
该方法进一步包括利用文本到音素转换器由所述数据文件中的文本数据产生音素数据;并且
所述注释生成步骤利用生成的音素数据和所述数据文件中的文本数据产生定义音素和字格的注释数据。
42.根据权利要求39的方法,其中生成音素或字数据的步骤包括以下步骤之一:
a)接收并处理输入语音注释信号;
b)接收并处理文本注释;以及
c)接收代表文本文档的图像数据,并将所述图像数据转换为文本数据。
43.根据权利要求27至33的任一权利要求的方法,还包括:生成定义每个所述节点的时戳信息的数据。
44.根据权利要求27至33的任一权利要求的方法,还包括:生成定义数据库内每个块的位置的数据。
45.根据权利要求43的方法,其中所述数据文件包括时序信号,并且生成的时戳数据与所述时序信号时间同步。
46.根据权利要求45的方法,其中所述时序信号为音频或视频信号。
47.根据权利要求27的方法,还包括通过按以下步骤处理每个节点的节点数据和每个链接的链接数据来形成音素或字格:
i)添加两个节点的节点数据与它们之间的一个或多个链接的链接数据;
ii)添加块数据,以提供两个新添加的节点构成的初始节点块;
iii)将一个或多个其他节点或链接的其他节点数据或链接数据添加到初始节点块中;
iv)重复(iii)直至初始块中的节点数达到预定节点数;
v)根据所述块标准确定可以分割的初始节点块;
vi)添加其他块数据以便将初始节点块分割为至少两个当前节点块;
vii)将一个或多个其他节点或链接的其他节点数据或链接数据添加到当前节点块之一中;
viii)重复(vii)直至识别任何当前块中的节点数达到预定节点数;
ix)根据所述块标准确定可以分割的所识别的当前块;
x)添加其他块数据以便将所识别的当前块分割为至少两个块;
xi)重复(viii)、(ix)和(x)直至将针对音素或字数据生成的所有节点和链接的节点数据和链接数据,添加到音素或字格中。
48.根据权利要求27至33的任一权利要求的方法,还包括通过以下处理向定义音素或字格的注释数据添加与一个或多个音素或字相对应的数据的步骤:
i)在确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点的情况下,将节点插入到网格中,并且在确定其不存在的情况下,在网格中插入与所述开始和结束时间相对应的节点;
ii)在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;
iii)选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;
iv)分析所选的现有节点的链接数据;以及
v)修改所分析的链接数据;
其中针对每个其他节点,选择步骤选择包含该其他节点的块中该其他节点之前的节点,以及在包含该其他节点的块之前一个块数的块的每个中的所有节点,该块数小于或等于所述预定块数。
49.一种向定义音素或字格的数据结构添加与一个或多个音素或字相对应的数据的方法,该数据结构包括用于定义网格内按时间排序的多个节点的数据;用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;用于把音素或字与至少一个节点或链接相关联的数据;以及用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据,该方法包括以下步骤:
i)如果确定网格中存在与要添加的音素或字的开始和结束时间相对应的节点,则将节点插入到网格中,如果不存在,则在网格中插入与开始或结束时间相对应的节点;
ii)在与要添加的音素或字的开始和结束时间相对应的节点之间添加一个链接;
iii)选择可能具有由于插入其他节点而需要修改的关联链接数据的现有节点;
iv)分析所选的现有节点的链接数据;以及
v)修改经过分析的链接数据;
其中对于每个其他节点,选择步骤选择包含其他节点的块中该其他节点之前的节点,以及在包含其他节点的块之前一个块数的块中的每个中的所有节点,所述块数小于或等于所述预定块数。
50.根据权利要求49的方法,其中对于要插入到给定块内的其他节点,选择步骤只选择i)给定块中在正在插入的节点之前的节点,以及ii)前一块中的所有节点。
51.根据权利要求49的方法,其中所述数据结构使得起自任意给定块中的节点的链接不延伸到下一块中的节点之外,并且还包括用于定义每个块的第一定时或节点的点(β)的数据,该第一定时或节点的点(β)用于标识从前一块中发起的链接延伸到的块内的最后节点;和用于定义每个块的第二定时和节点的点(α)的数据,该第二定时或节点的点(α)用于标识延伸到该下一块的链接所来自的块内的最早节点,并且对于要在给定块中在由定时或节点的点定义的插入位置处插入的其他节点,选择步骤做出如下选择:
a)如果插入位置在给定块的第一定时或节点的点(β)的后面,则只选择给定块中在插入位置前面的现有节点;以及
b)如果插入位置在给定块的第一定时或节点的点(β)的前面,则只选择i)给定块中在插入位置前面的现有节点,与ii)前一块中在前一块的第二定时或节点的点(α)处或后面的节点。
52.根据权利要求49至51的任一权利要求的方法,其中所述数据结构使得对于具有多个链接的节点,根据这些链接的范围以预定方式排列这些链接的每个的数据,并且分析步骤只分析从每个所选节点发起的最长链接。
53.一种用于生成注释数据的设备,该注释数据用于对一个数据文件进行注释,所述设备包括:
接收装置,用于接收音素或字数据;
生成装置,用于生成注释数据,该注释数据定义与接收的音素或字数据相应的音素或字格;
其中所述生成装置包括:
第一生成装置,用于生成定义该格中的多个节点的节点数据;
第二生成装置,用于生成定义该格中的多个链接中的链接数据,每一个链接均将一个第一节点链接到一个第二节点;以及
第三生成装置,用于生成块数据,该块数据用于在块的一个序列中排列所述节点,使得起自任何给定块中的节点的链接不延伸到所述序列中一个预定块数之后的块中的节点之外。
54.一种用于生成注释数据的方法,该注释数据用于对一个数据文件进行注释,所述方法包括以下步骤:
接收音素或字数据;以及
生成注释数据,该注释数据定义与接收的音素或字数据相应的音素或字格;
其中生成定义所述格的注释数据的所述步骤包括:
生成定义该格中的多个节点的节点数据;
生成定义该格中的多个链接的链接数据,每一个链接都从一个第一节点延伸到一个第二节点;以及
生成块数据,该块数据用于在块的一个序列中排列所述节点,使得起自任何给定块中的节点的链接不延伸到所述序列中一个预定块数之后的块中的节点之外。
55.一种搜索设备,包括:
数据库,该数据库存储:
用于定义网格内按时间排序的多个节点的数据;
用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;
用于把音素或字与至少一个节点或链接相关联的数据;以及
用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;
用于生成与用户的输入查询相对应的音素或字数据的装置;
用于利用为该输入查询而生成的音素或字数据对音素或字格进行搜索的装置;以及
用于根据所述搜索装置的输出而输出搜索结果的装置。
56.根据权利要求55的设备,其中所述数据结构定义音素和字格,并且所述设备包括:
用于生成与用户的输入查询相对应的音素和字数据的装置,以及
用于利用为输入查询而生成的字音素和数据搜索音素和字格的装置。
57.一种搜索方法,包括步骤:
提供数据库,该数据库包括:
用于定义网格内按时间排序的多个节点的数据;
用于定义网格内的多个链接的数据,各链接从一个第一节点延伸到一个第二节点;
用于把音素或字与至少一个节点或链接相关联的数据;以及
用于在按时间排序的块的序列中排列所述节点,使得起自任意给定块中的节点的链接不延伸到该序列中预定块数之后的块中的节点之外的数据;
生成与用户的输入查询相对应的音素或字数据;
利用为输入查询而生成的音素或字数据对音素或字格进行搜索;以及
根据所述搜索步骤的结果而输出搜索结果。
58.根据权利要求57的方法,其中所述数据结构定义音素和字格,并且其中所述方法包括以下步骤:
生成与用户的输入查询相对应的音素和字数据,以及
利用为输入查询而生成的音素和字数据搜索音素和字格。
CNB018156142A 2000-09-29 2001-09-28 注释数据生成、音素或字搜索及添加的相应设备与方法 Expired - Fee Related CN1227613C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0023930.1A GB0023930D0 (en) 2000-09-29 2000-09-29 Database annotation and retrieval
GB0023930.1 2000-09-29

Publications (2)

Publication Number Publication Date
CN1457476A CN1457476A (zh) 2003-11-19
CN1227613C true CN1227613C (zh) 2005-11-16

Family

ID=9900403

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018156142A Expired - Fee Related CN1227613C (zh) 2000-09-29 2001-09-28 注释数据生成、音素或字搜索及添加的相应设备与方法

Country Status (8)

Country Link
US (1) US7240003B2 (zh)
EP (1) EP1327206A2 (zh)
JP (1) JP2004510256A (zh)
KR (1) KR100612169B1 (zh)
CN (1) CN1227613C (zh)
AU (1) AU2001290136A1 (zh)
GB (1) GB0023930D0 (zh)
WO (1) WO2002027546A2 (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
JP4175093B2 (ja) * 2002-11-06 2008-11-05 日本電信電話株式会社 トピック境界決定方法及び装置及びトピック境界決定プログラム
GB0230097D0 (en) * 2002-12-24 2003-01-29 Koninkl Philips Electronics Nv Method and system for augmenting an audio signal
JP2005027048A (ja) * 2003-07-02 2005-01-27 Minolta Co Ltd 撮像装置および画像への注釈情報の付与方法
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7912699B1 (en) * 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
JP4638726B2 (ja) * 2004-12-22 2011-02-23 株式会社アルファジェン サンプルセット製造方法、遺伝子整列プログラム及びサンプルセット
US8225335B2 (en) 2005-01-05 2012-07-17 Microsoft Corporation Processing files from a mobile device
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US7756710B2 (en) * 2006-07-13 2010-07-13 Sri International Method and apparatus for error correction in speech recognition applications
US20100145968A1 (en) * 2007-01-17 2010-06-10 Verbal World, Inc. Methods and Apparatus for Manipulation of Primary Audio Optical Data Content and Associated Secondary Data Content
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
DE602007008912D1 (de) * 2007-10-24 2010-10-14 Harman Becker Automotive Sys Verfahren und System zur Spracherkennung zum Durchsuchen einer Datenbank
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8447604B1 (en) 2010-04-12 2013-05-21 Adobe Systems Incorporated Method and apparatus for processing scripts and related data
US8788434B2 (en) * 2010-10-28 2014-07-22 Google Inc. Search with joint image-audio queries
US8971651B2 (en) 2010-11-08 2015-03-03 Sony Corporation Videolens media engine
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
US8938393B2 (en) * 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8849041B2 (en) * 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
EP2680165B1 (en) * 2012-06-28 2016-01-06 JaJah Ltd System and method to perform textual queries on voice communications
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP6562698B2 (ja) * 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
US10452661B2 (en) 2015-06-18 2019-10-22 Microsoft Technology Licensing, Llc Automated database schema annotation
US10769495B2 (en) * 2018-08-01 2020-09-08 Adobe Inc. Collecting multimodal image editing requests
CN111354348B (zh) * 2018-12-21 2024-04-26 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
KR20210033258A (ko) 2019-09-18 2021-03-26 삼성전자주식회사 시퀀스 처리 방법 및 장치

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
WO1994014270A1 (en) 1992-12-17 1994-06-23 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
DE69423838T2 (de) 1993-09-23 2000-08-03 Xerox Corp., Rochester Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JPH10507536A (ja) 1994-11-01 1998-07-21 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
JP4180110B2 (ja) 1995-03-07 2008-11-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
CN1130688C (zh) 1995-05-03 2003-12-10 皇家菲利浦电子有限公司 基于新字建模的语音识别方法和装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1018109B1 (en) 1997-09-24 2003-03-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
JP2002539528A (ja) 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval

Also Published As

Publication number Publication date
EP1327206A2 (en) 2003-07-16
US7240003B2 (en) 2007-07-03
JP2004510256A (ja) 2004-04-02
AU2001290136A1 (en) 2002-04-08
KR100612169B1 (ko) 2006-08-14
CN1457476A (zh) 2003-11-19
WO2002027546A3 (en) 2002-06-20
US20030177108A1 (en) 2003-09-18
WO2002027546A8 (en) 2002-08-15
WO2002027546A2 (en) 2002-04-04
GB0023930D0 (en) 2000-11-15
KR20030072327A (ko) 2003-09-13

Similar Documents

Publication Publication Date Title
CN1227613C (zh) 注释数据生成、音素或字搜索及添加的相应设备与方法
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1096036C (zh) 以格阵作关键字的字典检索装置和方法
CN1174332C (zh) 转换表达方式的方法和装置
CN1168068C (zh) 语音合成系统与语音合成方法
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
US7590605B2 (en) Lattice matching
CN1113305C (zh) 语言处理装置和方法
CN1409842A (zh) 模式匹配方法和装置
CN1343337A (zh) 数据库注释和获取
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1530926A (zh) 语音识别词典制作装置及信息检索装置
CN1215457C (zh) 语句识别装置和方法
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1975857A (zh) 会话控制装置
CN1316707A (zh) 数据压缩与检索方法和数据检索设备及记录媒体
CN1591425A (zh) 用于产生网站导航的方法
CN101080927A (zh) 内容推荐装置
CN1949227A (zh) 一种针对可播放媒体文件的搜索方法、系统及装置
CN1163836C (zh) 图象信息检索系统和方法
CN1932819A (zh) 一种互联网音频文件的聚类方法、搜索方法及系统
CN1647069A (zh) 对话控制系统和对话控制方法
CN1275223A (zh) 自然语言处理装置及方法
CN1254786C (zh) 在语音合成系统中将提示音与文本语音合成输出的方法
CN1315722A (zh) 用于汉语语音识别系统的连续语音处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051116

Termination date: 20150928

EXPY Termination of patent right or utility model