CN1457476A - 数据库注释与检索 - Google Patents

数据库注释与检索 Download PDF

Info

Publication number
CN1457476A
CN1457476A CN01815614A CN01815614A CN1457476A CN 1457476 A CN1457476 A CN 1457476A CN 01815614 A CN01815614 A CN 01815614A CN 01815614 A CN01815614 A CN 01815614A CN 1457476 A CN1457476 A CN 1457476A
Authority
CN
China
Prior art keywords
data
node
phoneme
word
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01815614A
Other languages
English (en)
Other versions
CN1227613C (zh
Inventor
贾森·P·A·查理斯沃斯
菲利普·N·加纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1457476A publication Critical patent/CN1457476A/zh
Application granted granted Critical
Publication of CN1227613C publication Critical patent/CN1227613C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种给数据库内的数据文件做注释的数据结构。注释数据包括音素和字格,从而能够响应用户的输入查询,快速有效地搜索数据库中所需信息的数据文件。音素和字格包括许多按时间排序的节点,以及节点之间的许多链表。每个链表具有与其关联的音素或单词。在按时间排序的数据块序列中排列所有节点,从而能够方便地将其他数据添加到网格中。

Description

数据库注释与检索
本发明涉及数据库中存储的数据文件的注释,以便于随后进行的检索。本发明还涉及用于生成向该数据文件添加的注释数据的系统,以及在数据库中搜索注释数据的系统,以便响应用户的输入查询检索所需数据文件。本发明还涉及用于将节点和链表的无序列表转换为节点和链表的分块列表的系统。
信息数据库是众所周知的,其问题是如何快速、有效地从数据库中定位并检索所需的信息。现有数据库搜索工具允许用户使用打字关键字来搜索数据库。虽然上述工具是快速有效的,但此类搜索并不适合不同类型的数据库,如视频或音频数据库。
根据一个方面,本发明目的在于提供一种用于给数据库中的数据文件做注释的数据结构,从而能够响应用户的输入查询执行快速有效的搜索。
根据另一方面,本发明提供定义音素和字格的数据,作为给数据库中存储的数据文件做注释的注释数据。该数据最好定义众多节点以及连接此类节点的链表,该数据把众多音素和相应的众多链表联系起来,该数据把至少一个单词和至少一个所述链表联系起来,该数据定义上述节点的数据块排列,从而链表仅仅延伸到指定的最大数目的数据块。另外,上述链表最好仅仅延伸到后续数据块。
根据另一方面,本发明提供一种用于搜索数据库的装置,该数据库采用上述注释数据给其内存储的数据文件做注释。最好将该装置排列为:响应用户的查询或输入,生成音素数据,然后使用生成的音素数据,搜索该数据库。另外,最好根据用户的输入或查询生成字数据。
根据另一方面,本发明提供用于生成与接收的音素和字数据相对应的音素和字格的装置,该装置包括:用于定义众多链表和链表之间的众多节点的装置,用于把链表和音素或单词联系起来的装置,以及用于按照时间排序的数据块顺序排列此类节点的装置,其中链表仅仅延伸到该序列后面的指定的最大数目的数据块中。对链表而言,所允许的最大延伸最好为延伸到后续数据块。另外,最好将该装置排列为:在构造网格时增量添加节点或链表,并且将现有节点块划分为至少两个节点块。
根据另一方面,本发明提供一种用于向上述类型的音素和字格添加音素或单词的装置,并将该装置排列为:根据所允许的从一个数据块延伸到另一个数据块的链表的程度,分析需要修改的定义当前音素和字格的数据。上述分析最好依赖于标识前一数据块中发起的任意链表延伸到的每个数据块中的最新节点的位置点在网格内的位置,以及标识每个数据块中延伸到后继数据块的链表之最早节点的位置点在网格内的位置。
根据另一方面,本发明提供一种用于向上述类型的音素和字格添加音素或单词的方法,该方法包括:根据所允许的从一个数据块延伸到另一个数据块的链表的程度,分析需要修改的定义当前音素和字格的数据。上述分析最好依赖于标识前一数据块中发起的任意链表延伸到的每个数据块中的最新节点的相应位置点在网格内的位置。
根据另一方面,提供用于将节点和链表的无序列表转换为节点和链表之分块列表的方法和装置。通过填充和分割处理形成数据块:将后继节点插入到数据块中,直至数据块变满,然后开始一个新数据块。如果新节点使得已经满的数据块溢出,则将该数据块分割为两个或多个数据块。利用链表能够通向的数据块约束加快数据块分割处理,并确定留在老数据块中的节点和进入新数据块中的节点。
以下参照附图说明本发明的典型实施方式,其中附图为:
图1为计算机的示意图,对该计算机进行编程以实现本发明的实施方式;
图2为一个框图,表示能够生成用于数据文件之附件的音素和单词注释数据的音素和单词注释单元;
图3为一个框图,表示音素和单词注释器根据输入的视频数据文件生成的注释数据;
图4a为音素网格的示意图,用于输入的视频数据文件中的音频串实例;
图4b为体现本发明之一个方面的字格和音素网格的示意图,用于输入的视频数据文件中的音频串实例;
图5为用户终端的示意框图,该终端允许用户利用语音查询检索数据库中的信息;
图6为一对字格和音素网格的示意图,如两个发言人的音频串;
图7为用户终端的示意框图,该终端允许利用根据用户输入的音频信号生成的注释数据,给数据文件做注释;
图8为音素和字格注释数据的示意图,该注释数据是为了给数据文件做注释而根据用户输入的发言生成的;
图9为用户终端的示意框图,该终端允许利用根据用户的打字输入生成的注释数据,给数据文件做注释;
图10为音素和字格注释数据的示意图,该注释数据是为了给数据文件做注释而根据用户的打字输入生成的;
图11为一个示意框图,表示文档注释系统的形式;
图12为备择文档注释系统的示意框图;
图13为另一种文档注释系统的示意框图;
图14为一个示意框图,表示根据视频数据文件中包含的脚本数据生成音素和字格的方式;
图15a为字格和音素网格的示意图,表示字格节点的相对定时;
图15b为一个示意图,表示划分为数据块的字格和音素网格节点;
图16a为一个示意图,表示与字格和音素网格之一个节点相对应的数据的格式;
图16b为一个示意图,表示定义字格和音素网格的数据流;
图17为一个流程图,表示根据本发明之一种实施方式构造字格和音素网格的过程;
图18a至18h为示意图,表示字格和音素网格的构造;
图19a至19h为示意图,表示定义字格和音素网格的数据流的构造;
图20a至20c为示意图,表示插入长链表时字格和音素网格的更新处理;
图21a至21b为示意图,表示插入附加节点时字格和音素网格的更新处理;
图22为一个流程图,表示调整偏移量的过程;
图23a和23b为示意图,表示将数据块分割处理应用于字格和音素网格;以及
图24为一个框图,表示音素和单词注释器根据输入的视频数据文件生成注释数据的方法。
可以使用专用硬件电路实现本发明的实施方式,但是本文使用计算机软件(即,代码)实现所述实施方式,其中计算机软件连同诸如个人计算机、工作站、影印机、传真机、个人数字助理(PDA)之类的处理硬件一起运行。
图1表示可对其进行编程以实现本发明之实施方式的个人计算机(PC)1。经由接口11,将键盘3、定点设备5、麦克风7和电话线9,连接到PC 1。用户可利用键盘3和定点设备5控制该系统。麦克风7将用户输入的声频语音信号,转换为等效电信号,然后提供给PC 1进行处理。将内部调制解调器和语言接收电路(未示出)连接到电话线9,从而PC 1能够与远程计算机或远程用户通信。
在诸如磁盘13之类的存储设备上,或者通过经由内部调制解调器和电话线9从因特网(未示出)上下载软件,提供使得PC1根据本发明运行的程序指令,以便与现有PC1一同使用。
数据文件注释
图2为一个框图,表示在本实施方式中利用音素和单词注释单元25生成输入数据文件23的注释数据的方式。如图所示,在数据组合单元27中,组合生成的音素和单词注释数据21与数据文件23,然后将输出的组合数据文件,输入到数据库29中。在本实施方式中,注释数据21包括组合音素(或具有音素特征的成分)和字格,音素和字格允许用户利用语音查询检索数据库中的信息。正如熟练技术人员理解的那样,数据文件23可以为各种类型的数据文件,如视频文件、音频文件和多媒体文件等。
人们提出了通过使视频数据文件的音频数据通过自动语音识别单元,生成音频流的N个最佳单词列表作为注释数据的系统。然而,基于单词的系统有许多问题。这些问题包括:(i)现有语音识别系统进行识别时会出现许多基础错误;(ii)现有自动语音识别系统使用约含20,000至100,000单词的字典,并且不能生成词汇表之外的单词;以及(iii)生成的N个最佳列表随每个步骤中的假设数指数增长,因此长时间发言的注释数据将变得非常大。
当使用同一自动语音识别系统生成注释数据,然后使用该系统检索相应数据文件时,由于可能出现相同的译码错误,所以第一个问题无关紧要。然而,由于自动语音识别系统每年都在进步,因此未来将不会出现某些类型的错误,从而未来将不能检索相应数据文件。关于第二个问题,该问题对视频数据应用非常重要,因为用户很可能使用名称和地点(语音识别字典不包括的名称和地点)作为输入查询条目。对于上述名称,自动语音识别系统通常利用发音相似的单词代替词汇表不包括的单词,因此造成讹误译码。因此,不能根据请求检索所需的数据文件。
相反,借助提议的音素和字格注释数据,可以利用数据库29中的单词数据进行快速有效的搜索,如果此搜索不能提供所需的数据文件,则使用更鲁棒的音素数据进行搜索。音素和字格为只有一个入口点和一个出口点的有向无环图。它代表数据文件内音频流的不同语法分析。它并不仅仅是具有许多选择的单词序列,因为每个单词并非只能由一个选择取代,一个单词可以代替两个或多个单词或音素,并且整个结构能够代替一个或多个单词或音素。因此,音素和字格内的数据密度基本对全部音频数据保持线性,而不是像N个最佳单词列表技术那样呈指数增长。正如语音识别的熟练技术人员了解的那样,由于音素是字典独立的,并且允许字典处理词汇表之外的单词,如名称、地点、外来词等,所以使用音素数据更鲁棒。使用音素数据还能使得该系统更能适应未来,因为即使原始的自动语音识别系统不理解单词,也能检索数据库中存储的数据文件。
以下参照图3说明生成视频数据文件之音素和字格注释数据的方式。如图所示,视频数据文件31包括视频数据31-1和音频数据31-2,前者定义构成视频序列的图像序列,后者定义与视频序列关联的音频。众所周知,音频数据31-2和视频数据31-1在时间上同步,因此使用时,同时向用户提供视频和音频数据。
正如图3所示,在本实施方式中,将音频数据31-2输入到自动语音识别单元33中,单元33能够生成与音频数据流31-2相对应的音素网格。自动语音识别单元33是一项普通技术,因此不再赘述。有关此类语音识别系统之详细信息,请读者参阅《语音识别基础》,作者Lawrence Rabiner和Biing-Hwang Juang,第42页至第50页。
图4a表示语音识别单元33输出的、短语“…now is the winterof our…”对应的输入音频的音素网格数据的形式。自动语音识别单元33辨别以上输入音频发言对应的许多不同的可能音素串。例如,语音识别系统认为音频串中的第一个音素为/m/或/n/。为清晰起见,仅仅显示第一音素的选择。正如语音识别的熟练技术人员了解的那样,不同可能性可以具有由语音识别单元33生成的特有权重,权重表示语音识别单元的输出的置信度。例如,音素/n/的权重为0.9,而音素/m/的权重为0.1,表示语音识别系统对相应部分的音频代表音素/n/相当确信,但也有可能为音素/m/。然而,在本实施方式中,并不对音素进行加权处理。
正如图3所示,将自动语音识别单元33输出的音素网格数据35,输入到字译码器37中,后者能够辨别音素网格数据35内的可能单词。在本实施方式中,把字译码器37辨别的单词,合并到音素网格数据结构中。例如,对于图4a所示的音素网格,字译码器37识别单词“NOW”、“IS”、“THE”、“WINTER”、“OF”和“OUR”。正如图4b所示,将辨别出的单词添加到语音识别单元33输出的音素网格数据结构中,以生成构成注释数据31-3的音素和字格数据结构。然后组合注释数据31-3与视频数据文件31,以便生成增音视频数据文件31′,并在数据库29中存储该文件。正如熟练技术人员理解的那样,与音频数据31-2和视频数据31-1在时间上同步类似,使注释数据31-3与视频数据31-1和音频数据31-2在时间上同步,并将其关联起来,因此通过搜索定位注释数据31-3的对应部分,可以检索所需的视频和音频数据。
在本实施方式中,数据库29中存储的注释数据31-3具有以下通式:
标题
-开始时间
-表示单词、音素或二者之混合的标志
-时间索引,将存储器内注释数据块的位置关联到给定的时间点。
-使用的单词集(即,字典)
-使用的音素集
-音素概率数据
-词汇所属语言
数据块(i)i=0,1,2,……
节点Nj j=0,1,2,……
-节点从起始块的时间偏移量
-音素链表(k)k=0,1,2,……
节点Nj的偏移量=Nk-Nj(Nk为链表K延伸到的节点)或者如果Nk在数据块(i+1)中,则节点Nj的偏移量=Nk+Nb-Nj(其中Nb为数据块(i)中的节点数)
与链表(k)关联的音素
-单词链表(l)l=0,1,2,……
节点Ni的偏移量=Ni-Nj(Ni为链表l延伸到的节点)或者如果Nk在数据块(i+1)中,则节点Nj的偏移量=Nk+Nb-Nj(其中Nb为数据块(i)中的节点数)
与链表(l)关联的单词
标题中的开始时间数据能够辨别数据的传输时间和日期。例如,如果视频文件是新闻广播,则开始时间包括广播的准确时间和广播日期。
由于并非数据库内的所有数据文件均包含上述组合音素和字格注释数据,所以提供以上标志,后者标识注释数据是字注释数据,还是音素注释数据,抑或是混合数据,此时,将使用不同的搜索策略来搜索注释数据。
在本实施方式中,将注释数据划分为数据块,以便允许搜索跳到给定音频数据流的注释数据的中间位置。因此,标题包括一个时间索引,时间索引将存储器内注释数据块的位置,关联到起始时间和与块的开始相对应的时间之间的给定时间偏移量。
标题还包括定义所用单词集(即,字典)、所用音素集以及词汇所属语言的数据。同时,标题可以包含用于生成注释数据的自动语音识别系统的详细信息,以及生成注释数据期间使用的任何适当设置。
音素概率数据定义诸如自动语音识别系统之类的、生成注释数据的系统的插入、删除、错误识别和译码的概率。
标题之后是注释数据块,对于数据块内的每个节点,注释数据块辨别该节点从起始块的时间偏移量,利用音素将该节点链接到其他节点的音素链表,以及利用单词将该节点链接到其他节点的单词链表。每个音素链表和单词链表辨别与该链表关联的音素或单词。同时辨别到当前节点的偏移量。例如,如果利用音素链表将节点N50链接到节点N55,则到节点N50的偏移量为5。正如熟练技术人员理解的那样,通过使用上述偏移量表示允许将连续注释数据划分为单独块。
在自动语音识别单元输出权重的实施方式中,该数据结构还包括权重或置信度分值,其中权重表示语音识别单元输出的置信度。具体而言,为各节点提供置信度分值,后者表示到达该节点的置信度,并且每个音素和单词链表将包含依赖于相应音素或单词之权重的跃迁分值。通过放弃具有较低置信度分值的匹配,使用上述权重控制数据文件的搜索和检索。
数据文件检索
图5为用户终端59的框图,利用该用户终端从数据库29中检索带有注释的数据文件。例如,用户终端59可以为个人计算机、手持设备等。如图所示,在本实施方式中,用户终端59包括带有注释的数据文件的数据库29,自动语音识别单元51,搜索引擎53,控制单元55和显示器57。操作时,自动语音识别单元51能够处理经由麦克风7和输入线路61接收的来自用户39的输入语音查询,以生成相应音素和单词数据。该数据可以采取音素和字格的形式,但并非必需如此。然后将音素和单词数据输入到控制单元55中,控制单元55开始利用搜索引擎53搜索数据库29。然后将搜索引擎53生成的搜索结果传回到控制单元55,后者分析搜索结果,生成并通过显示器57向用户显示正确的显示数据。共同未决申请PCT/GB00/00718与GB9925561.4说明了以上搜索技术的详细信息,这里引用其内容作为参考。
备择实施方式
正如熟练技术人员理解的那样,数据库中数据文件的此类音素和单词注释,为用户利用语音搜索数据库提供了一种方便有效的方式。在所示实施方式中,给单一音频数据流做注释,然后在数据库中进行存储以便用户检索。正如熟练技术人员理解的那样,当输入数据文件与视频数据文件相对应时,数据文件内的音频数据通常包括不同发言人的音频数据。可以针对每个发言人的音频数据,生成独立的音素和字格注释数据,而不是生成该音频数据的单一注释数据流。通过根据语音信号的节距或其他区别特征辨别与每个发言人相对应的音频数据,然后分别给不同发言人的音频做注释,实现上述处理。如果音频数据是采用立体声方式记录的,或者在生成音频数据时使用一组麦克风,则由于能够通过处理音频数据抽取每个发言人的数据,所以也能实现上述处理。
图6表示上述实施方式中的注释数据的格式,其中第一发言人发出单词“…this so”,而第二发言人回答“yes”。如图所示,彼此相对于对方同步不同发言人的音频数据的注释数据,从而注释数据仍然与数据文件内的视频和音频数据同步。在此类实施方式中,数据结构中的标题信息最好包括注释数据内不同发言人的列表,以及为每个发言人定义该发言人的语言、重音、方言和语音集的数据,并且每个数据库均能辨别在该数据库内起作用的发言人。
在上述实施方式中,利用语音识别系统生成注释数据,以便给数据库中的数据文件做注释。正如熟练技术人员理解的那样,也可以利用其他技术生成上述注释数据。例如,操作员可以收听音频数据,然后生成语音和单词转录,从而手工生成注释数据。
在上述实施方式中,注释数据是根据数据文件本身中存储的音频生成的。正如熟练技术人员理解的那样,也可以采用其他技术来输入注释数据。图7表示用户终端59的形式,该用户终端允许用户经由麦克风7输入语音注释数据,以便给数据库29中存储的数据文件91做注释。在本实施方式中,数据文件91包括诸如照相机之类的设备生成的二维图像。用户终端59允许用户39利用适当注释给2D图像做注释,以便随后利用该注释检索数据库29中的2D图像。在本实施方式中,利用自动语音识别单元51,将输入的语音注释信号转换为音素和字格注释数据,然后传送到控制单元55。响应用户的输入,控制单元55从数据库29中检索正确的2D文件,然后将音素和单词注释数据附加到数据文件91上。此后将增音数据文件返回到数据库29。在上述注释处理步骤中,控制单元55能够在显示器57上显示2D图像,从而用户确保该注释数据是与正确的数据文件91关联的。
自动语音识别单元51生成音素和字格注释数据,其方法是(i)生成输入发言的音素网格;(ii)然后辨别音素网格内的单词;以及(iii)最后组合二者。图8表示为输入发言“picture of the Taj-Mahal”生成的音素和字格注释数据的形式。如图所示,自动语音识别单元辨别与输入发言相对应的许多不同的可能音素串。正如图8所示,将自动语音识别单元51在音素网格内识别的单词,合并到音素网格数据结构中。如图所示,对于以上示例短语,自动语音识别单元51识别单词“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“iam”、“ah”、“hal”、“ha”和“al”。然后,控制单元55将以上注释数据添加到2D图像数据文件91中,并在数据库29中存储该文件。
正如熟练技术人员理解的那样,可以利用本实施方式为各种类型的图像做注释,如给病人的X光图片、诸如NMR扫描和超声波扫描之类的3D视频做注释。也可以对诸如音频数据或地震数据之类的一维数据作注释。
在上述实施方式中,利用有声注释给数据文件做注释。正如熟练技术人员理解的那样,也可以采用其他技术来输入注释数据。例如,图9表示用户终端59的形式,该用户终端允许用户通过键盘3输入打字注释数据,以便给数据库29中存储的数据文件91作注释。在本实施方式中,由语音转录单元75将打字输入转换为音素和字格注释数据(通过使用内部语音字典(未示出)),然后传送到控制单元55。响应用户的输入,控制单元55从数据库29中检索正确的2D文件,然后将音素和单词注释数据附加到数据文件91上。此后将增音数据文件返回到数据库29。在上述注释处理步骤中,控制单元55能够在显示器57上显示2D图像,从而用户确保该注释数据是与正确的数据文件91关联的。
图10表示为输入发言“picture of the Taj-Mahal”生成的音素和字格注释数据的形式。正如图2所示,音素和字格为只有一个入口点和一个出口点的有向无环图。它表示用户输入的不同语法分析。如图所示,语音转录单元75辨别与打字输入相对应的许多不同的可能音素串。
图11为说明文档注释系统的框图。特别地,如图11所示,利用文档扫描仪103文本文档101转换为图像数据文件。然后将图像数据文件传送到光学字符识别(OCR)单元105,后者将文档101的图像数据转换为电子文本。接着,将电子文本提供给语音转录单元107,该单元生成音素和单词注释数据109,并将其添加到扫描仪103输出的图像文件中,以形成数据文件111。如图所示,在数据库29中存储数据文件111,以便随后检索。在本实施方式中,注释文件109包括上述组合音素和字格,组合音素和字格允许用户利用语音查询检索数据库29中的数据文件111。
图12表示图15所示文档注释系统的修改。图16所示系统与图11所示系统之间的区别在于,通过使用光学字符识别单元105的输出,而不是扫描仪103输出的图像文件,生成数据文件113。图12所示系统的其他部分与图11所示系统的其他部分相同,因此不再赘述。
图13表示图11所示文档注释系统的另一种修改。在图13所示的实施方式中,利用传真单元115而非扫描仪103接收输入文档。然后按照图11所示的处理扫描仪103输出的图像数据的方式,处理传真机输出的图像数据,因此不再赘述。
在上述实施方式中,利用语音转录单元107生成注释数据,以便给图像或文本数据做注释。正如熟练技术人员理解的那样,也可以使用其他技术。例如,操作员可以根据文档本身的图像手工生成上述注释数据。
在第一实施方式中,将数据文件31的音频数据传送到自动语音识别单元,以生成音素注释数据。在某些情况中,数据文件中存在音频数据的转录副本。图14表示此种实施方式。在本实施方式中,数据文件81代表具有视频数据81-1、音频数据81-2和脚本数据81-3的数字视频文件,脚本数据81-3定义电视片中不同演员的台词。如图所示,将脚本数据81-3传送到文本至音素转换器83,该转换器通过使用存储的字典,生成音素网格数据85,其中字典将单词翻译为可能的音素序列。然后,组合音素网格数据85与脚本数据81-3,以生成上述音素和字格注释数据81-4。接着,将注释数据添加到数据文件81中,以生成增音数据文件81′,并添加到数据库29中。正如熟练技术人员理解的那样,由于脚本数据通常包含说话人的指示,所以上述实施方式便于生成视频数据文件内不同发言人的不同音素和字格注释数据。然后,通过利用自动语音识别系统(未示出)强行调整脚本数据与音频数据的时间,实现音素和字格注释数据与视频和音频数据的同步。
在上述实施方式中,利用音素(或具有音素特征的成分)和字格给数据文件做注释。正如语音识别和语音处理领域的熟练技术人员理解的那样,详细说明书和权利要求书中的单词“音素”并不限于其语言学上的含义,而是包括标准语音识别系统辨别、使用的各种子词,如音素、字节、片假名(日语字母表)等。
网格生成
在以上详细说明书中,参照图3说明图4b所示的音素和字格数据结构的生成。以下参照图15至17说明该数据结构的最佳形式,包括将节点划分为数据块的最佳方式。此后,参照图18至22说明生成最佳数据结构的一种方式。
图15a表示网格的每个节点相对于公用零时的定时,在本例中,设置公用零时以至第一节点在0.1秒处出现。请注意,图15a只是示意图,因此时轴不是线性的。
正如图15b所示,在本实施方式中,将所有节点划分为三个数据块。在本实施方式中,利用块标记或块标志202、204、206和208作为进入数据块的节点的分界线。块标记204、206和208位于每个数据块的最后一个节点之后,但是为了清晰起见,在图15b中将其表示为有一点间隔。块标记204标记块0的结束和块1的开始,同样,块标记206标记块1的结束和块2的开始。块标记208位于网格的结尾,因此仅仅表示块2的结束。块标记202位于时间t=0.00秒的位置,以便提供块0的开始的分界线。在本实施方式中,块0具有5个节点,块1具有5个节点,块2具有7个节点。
相对于每个块的开始时间,提供每个节点的时间。这并不影响块0中所有节点的定时。然而按照图15a,对于其他各块,新的偏移定时与每个节点的绝对定时不同。在本实施方式中,除块0之外的其他各块的开始时间为前一块的最后一个节点的时间。例如,正如在图15a中看到的那样,音素/ih/和/z/之间的节点在0.71秒处出现,并且是块1的最后一个节点。正如从图15a看到的那样,下一节点,即,音素/z/和音素/dh/之间的节点,在0.94秒处出现,0.94秒为0.71秒之后的0.23秒。因此,正如在图15b中看到的那样,块1的第一节点的偏移时间为0.23秒。
使用相对于每个块的开始而不是整个网格的开始确定的时间偏移量,能够在动态范围方面提供以下优点。随着网格总时间的增加,需要相应增加用于记录网格结构内的定时值的数据类型的动态范围,这会消耗大量内存。如果网格结构是为未知长度的数据文件提供的,例如,如果希望公用网格结构能够给时长为一分钟的电视广告或时长为数小时的电影或电视节目做注释,则情况将进一步恶化。相反,由于只需容纳单一数据块的最大期望时间偏移量,并且与数据文件的总的持续时间无关,所以能够显著减少划分为数据块的网格结构的对应数据类型的动态范围。在本实施方式中,使用的数据类型提供整数值,其中每个整数值表示以百分之一秒为单位测量的偏移时间。
图15b还说明标识为α和β的部分网格结构。以下说明该条目的重要性。
以下参照图16a说明保存音素和网格数据结构之最佳方式中的每个节点的数据的格式,图16a举例说明网格的第一节点的数据的格式。该节点的数据的形式为7个数据成分210、212、214、216、218、220和222。
第一数据成分210规定该节点距离数据块的开始的时间偏移量。在本例中,其值为0.10秒,并利用上述整数数据类型表示。
第二数据成分212表示图15a和15b所示的从第一节点延伸出来的单词链表“NOW”。第三数据成分规定前一链表(即,单词链表“NOW”)的节点偏移量,表示前一链表经过的节点数。现在参照图15a和15b,可以看出,单词链表“NOW”延伸到的节点为该链表从该节点开始延伸到的第三节点,因此节点偏移量为3,正如图16a中数值003表示的那样。在本实施方式中,用于实现节点偏移量的数据类型为提供整数值的数据类型。
正如图16a所示,第四数据成分216表示从第一节点延伸到第二节点的音素/n/,因此节点偏移量为1,并使得第五数据成分218的值为001。同样,第六数据成分220表示音素链表/m/,第七数据成分222表示该链表的节点偏移量等于1,并用001表示。
可以采用任何一种合适方式,作为数据成分212、216和220表示与其链表关联的各个单词或音素的方式。在本实施方式中,数据成分212、216和220由与单词索引项值(在单词链表情况中)或音素索引项值(在音素链表情况中)相对应的整数值组成。索引项值用来标识包含单词或音素列表的对应单词或音素索引中的项目。在本实施方式中,在早先说明的注释数据31-3的标题部分中,存储对应单词或音素索引。在其他实施方式中,标题本身仅仅包含存储一个或多个单词或音素索引的独立数据库的交叉引用标识。
通常,可以按照任何希望的相对顺序,采用图16a所示的数据格式,放置与给定节点相对应的不同链表。然而,在本实施方式中,采用以下优选顺序,亦即,首先将具有最大节点偏移量的单词或音素链表(“最长”链表),放置到该序列中。此时,“最长”链表为节点偏移量为3个节点的单词链表“ NOW”,因此,将该链表放置到节点偏移量均为1的“较短”音素链表/n/和/m/的前面。稍后说明以上优选排列的优点。
将图16a所示形式的每个节点的数据,放置到按时间排序的序列中,以形成定义全部网格(除标题以外)的数据流。图16b表示图15b所示网格的数据流。如图所示,该数据流另外包括充当节点标志的数据成分225至241,以标识它们之后的数据成分指向的下一个节点。该数据流还包括其他数据成分244、246、248和250,实现先前参照图15b描述的块标记202、204、206和208。
早些时候参照图4b说明了网格数据结构的数据块排列的主要优点,即,允许搜索跳到给定音频数据流的注释数据的中间位置。为此,参照图4b说明的标题还包括一个时间索引,时间索引将存储器内注释数据块的位置,关联到起始时间和与块的开始相对应的时间之间的给定时间偏移量。正如上面参照图15b说明的那样,在本实施方式中,给定数据块之开始对应的时间,为给定数据库的前一数据块中最后一个节点的时间。
以下说明图15b所示数据块排列展示的其他特征和优点。根据单词或音素链表在数据库之间的允许延伸程度,确定数据块。例如,在本实施方式中,块位置实现以下标准,链表不能进入相邻数据块之外的其他数据块。例如,考虑块0的节点,可以从图15b中看出,音素链表/n/、/m/、/oh/、/w/和/ih/以及单词链表“NOW”只能进入源节点所在的相同数据块,即,标准允许的数据块,而音素链表/z/和单词链表“IS”分别从块0进入块1,即,标准允许的相邻块。然而,没有进入块2的链表,因为此类链表将延伸到块0的相邻块(即,块1)之外,这正是标准所不允许的。
借助于上面实现的数据块,通过遵守上述标准,能够获得以下优点。如果稍后需要将其他数据插入到音素和字格结构中,则包括插入一个或多个附加节点。此时,需要将“越过”新插入节点的现有链表的节点偏移量加1,因为越过新插入节点的现有链表的节点数将包括新插入的节点。例如,正如从图15b看到的那样,如果在块2中时间为0.50秒的位置插入一个新节点,则从位于0.47秒的节点延伸到位于0.55秒的节点的音素链表/v/,其节点偏移量将为2,而不是其原始值1,同样,从位于0.34秒的节点延伸到位于0.55秒的节点的单词链表“OF”,其节点偏移量需要从原始节点偏移量2变为3。正如图16b所示数据流表示的那样,需要将数值为001的数据成分252的数值变为002,并将原始值为002的数据成分254的数值变为003。
在插入附加节点并处理由此引起的节点偏移量的改变时,必须从新插入的节点开始向后搜索网格数据结构,目的是分析早先存在的节点,以确定其节点偏移量足以延伸到新插入节点之外的链表。根据以上标准排列网格数据结构的数据块的优点在于,能够减少需要分析的早先存在的节点的数目。更确切地说,只需分析插入节点的同一数据块中新插入节点之前的节点,以及插入新节点的数据块之前一相邻数据块中的节点。例如,如果在块2中0.50秒的位置插入一个新节点,则只需分析块2中新插入节点之前的四个现有节点,以及块1中的5个节点。鉴于以上讨论的数据块标准,无需搜索块0中的任意节点。
随着网格长度的增加以及形成的数据块数目的增加,以上优点将更加有利。另外,上述优点不仅适用于在其他完全网格中插入新节点,而且适用于正在进行的网格构建过程,当无需按照严格时间顺序在网格中插入节点时出现后一种情况。
另外请注意,可以改变特别选择的只允许链表延伸到相邻数据块的标准,例如,标准只允许链表延伸到四个数据块,因此最多只需向后搜索四个数据块。对于比较大的网格,特别是具有成百上千个数据块的网格而言,在减少所需处理量方面,仍然具有明显优势。熟练技术人员可以理解,可以选择任意合适的块数作为标准的界限,只需相应修改向后搜索的块数即可。
本实施方式的网格数据结构包括另一种优选改进,优选改进涉及延伸到相邻数据块的单词或音素链表。特别地,网格数据结构还包括规定每个数据块之两个特征点的数据。每个数据块的两个特征点为图15b所示的α和β。
将给定数据块的β定义为:从前一数据块中发起的任一链表延伸到的给定数据块内的最新节点的时间。因此,对于块1而言,β位于该块内的第一节点(即,音素链表/z/和单词链表“IS”延伸到的节点),因为不存在从块0发起的延伸到块1之第一节点之外的其他链表。对于块2而言,β位于第三节点,因为单词链表“WINTER”从块1延伸到该节点。对于网格结构的第一块(即,块0)而言,实质上不存在延伸到该块的链表。因此,将本数据块的β定义为在网格开始前出现。
将给定数据块的α定义为:链表从给定数据块延伸到下一数据块的给定数据块中最早节点的时间。对于块0而言,两个链表延伸到块1,即,单词链表“IS”和音素链表/z/。对于上述链表,单词链表“IS”在块0中的起始节点比音素链表/z/的起始节点更早,因此α位于单词链表“IS”的起始节点。同样,块1的α位于单词链表“WINTER”的起始节点。对于网格的最后一个数据块而言,此时为块2,本质上不存在延伸到其他数据块的链表,所以将α定义为该块内的最后一个节点。因此可以理解,概念上β代表其前面的节点对前一数据块有影响的数据块内的最新位置点,而α代表其后面的节点对下一数据块有影响的数据块内的最早位置点。
正如熟练技术人员理解的那样,可以利用特定节点的标识或时间规格指定每个α和β。在本实施方式中,利用节点指定标识。可以采用多种不同方式存储用于指定网格数据结构内之α和β的数据。例如,图16b所示类型的数据成分可以在数据流内的有关位置包含标志或标记。然而,在本实施方式中,通过在网格数据结构之标题部分的查找表中存储各个节点的标识,指定所有位置点。
首先,在插入新节点时,每个数据块的α和β的规格对分析网格中先前节点的节点偏移量具有某些优点。特别地,当在给定数据块中的β位置后插入新节点时,只需分析给定数据块中前面的节点,无需分析给定数据块之前一数据块中的节点。其原因在于,由于新插入的节点位于给定数据块内的β位置后,所以根据定义不存在从前一数据块延伸到新插入节点之后的链表,因为β的位置定义前一数据块中的链表延伸到的最大程度。因此,无需搜索分析前一数据块中的节点,当数据块的平均长度增加时,上述处理非常有利。作为选择,如果将新节点插入到给定数据块之β位置前的给定数据块中,则必须考虑从前一数据块发起的链表,但只需考虑前一数据块中位于α位置或位于α位置之后的节点。这是因为根据α的定义,位于前一数据块之α前面的前一数据块中的节点,均没有延伸到给定数据块的链表。因此,能够再次减少处理,并且随着每个数据块的长度的增加,上述减少将非常显著。此外,给定数据块中α的位置趋向于该数据块的结尾,所以对长数据块而言,能够节省用于分析全部在先数据块所使用的大部分处理资源。
其次,当在以下过程中使用α和β重新定义现有网格内的数据块,以便在遵循上述标准(即,任何链表均不能延伸到一个数据块之外)的情况下提供更小、排列更均匀的数据块时,每个数据块的α和β的规格具有某些优点。在上述过程中,根据现有数据块内α和β的相对位置,分割现有数据块。在一种方法中,假设α在给定数据块内的β之后,则通过在β和α之间的某个位置分割给定数据块,将其划分为两个数据块。同样,在构造网格数据结构的优选过程中,有利使用规定β和α的数据确定何时将现有数据块分割为更小数据块。
如上所述,在本实施方式中,正如图16a所示,首先将给定节点的最长链表放置到给定节点的数据成分序列中。这对于将新节点插入到网格数据结构中的过程很有利,其中在该过程中,必须分析先前的节点,以确定从这些节点发起的链表是否延伸到新插入的节点之外。通过总是将从任意给定节点发起的最长链表,放置在该节点的数据成分序列中的特定位置,此时为该序列内的最早位置,如果证实该链表并未越过新插入的节点,则无需分析该节点之数据成分序列内的所有剩余链表,因为根据定义,其跨度小于已经分析的最长链表的跨度。因此能够进一步缩短处理时间。
以下参照图17至19说明生成上述网格数据结构的优选方法。在优选方法中,将组成数据组织为数据成分集合,并且在构造网格结构时,每次将一个数据成分集合添加到网格结构中。每个数据成分集合包括以下三项之一:
(i)两个新节点以及它们之间的所有链表(在向网格添加节点的情况下,不会将这些节点连接到网格中已经存在的节点上);或
(ii)一个新节点以及以该节点作为结尾的各个链表;或
(iii)该网格内的现有节点之间的一个链表。
图17是一个流程图,表示优选方法中使用的处理步骤。在图17所示处理步骤的以下说明中,论证将这些步骤应用于图15b所示的网格的构造,进而说明将该方法应用于已按照时间顺序对其节点排序的输入数据时,该方法的运行方式。此后,通过描述将数据添加到图15b所示网格数据结构的各种不同方法,描述将附加节点插入现有的按时间排序的节点序列时,应用处理步骤的方式(构造新网格或修改现有网格)。
一般而言,在将每个数据成分集合添加到网格中时,更新数据块的各种终点,α和β。当数据块中的节点数到达临界值时,在本例中为9,分析α和β的位置,并且如果合适,则将该数据块分割为两小块。再次更新各种各样的α和β,并且在添加附加数据成分后,按相同方式继续进行处理。
以下详细说明图17展示的处理步骤。同时参照图18a至18h,该图表示图15b所示图解表现形式的网格结构的构造。另外参照图19a至19h,该图表示用于定义与图16所示形式相对应的网格的数据流的构造。
参照图17,在步骤S61中,自动语音识别单元33定义第一块(即,块0)的开始。在图18a中,利用参考号数202表示用于定义第一块的开始的块标记。其实现方式是,在数据流中插入组成块标志的数据成分244(见图19a)。
在步骤S63中,自动语音识别单元33将渐增计数器设置为1。
在步骤S65中,自动语音识别单元33将第一个数据成分集合插入到定义网格数据结构的数据流中。更确切地说,自动语音识别单元33收集与网格的前两个数据相对应的数据,以及它们之间的音素链表(此时为音素链表/n/和/m/)。然后,另外收集字译码器37辨别的所有单词,作为与以上两个节点之间的链表关联的单词,尽管对于前两个节点,不存在此类单词。接着,将相应数据成分插入到数据流中。特别地,再次参照图19a,插入用于定义网格结构之第一节点的数据260,数据260由组成节点标志的数据成分以及指示节点时间的数据成分组成。此后,插入数据262,该数据包括组成音素链表/n/的数据成分和节点偏移值001,然后插入数据264,该数据包括组成音素链表/m/的数据成分和节点偏移值001。最后,插入数据266,该数据包括组成节点标志的数据成分以及组成第二节点之时间的数据成分。从而插入第一数据成分集合的全部组成部分260、262、264和266。同时可以在图18a中看到前两个节点以及它们之间的音素链表/n/和/m/。在步骤S67中,自动语音识别单元33判断新插入的数据成分集合中是否包括新节点。此时答案为“是”,因此处理转到步骤S69,在步骤S69中,自动语音识别单元判断新节点是否位于当前网格结构的结尾。此时答案为“是”。事实上,当利用图17的流程图中所示的方法,构造按时间顺序对其数据进行排序的数据网格时,在目前情况下,判断步骤S67和S69的答案总是肯定的。流程图包含上述判断步骤的目的,仅仅是为了说明该处理能够将附加节点或链表插入到网格中,如果需要的话(稍后给出此种情况的示例)。
此时,处理转到步骤S71,在步骤S71中,自动语音识别单元33定义最后一个数据块的结尾为:位于网格结尾的新插入的节点的后面。在此处理阶段中,只有一个数据块,因此在定义最后一个数据块的结尾时,事实上已经定义了单一数据块的结尾。在图18a中,将新定义的数据块的现行结尾表示为项目203,并且正如图19a所示,在数据流中表示为由块标志组成的数据成分245。
接着,自动语音识别单元33确定全部α和β位置点。此时,只有一个数据块,因此确定只有一个α和一个β。上文描述了用于确定第一数据块中之α和β的过程。图18a表示由此得出的位置。正如上文所述,关于数据流,将α和β位置输入到标题数据中。
在步骤S79中,自动语音识别单元33判断是否有“无效”的α和β值,意指或者其α和β值不确定,或者α和β所处位置违反上文描述的标准,即,任何链表均不能延伸到相邻数据块之外。此时,在构造网格时,上述判定步骤判定不存在无效值,因此处理转到步骤S81。在步骤S81中,自动语音识别单元判断刚刚在其内部插入节点的数据块内的节点数是否达到或超过预定临界值。设置预定临界值的目的在于,为提供更小数据块长度或更均匀的数据块间隔而分析或修改数据块结构前,该数据块中必须具有的最少节点数。在执行数据块分割,数据存储数据块标志数据时,就需要的资源而言,还有间接成本。因此,对节点数小于临界值的数据块进行数据块分割将影响效率(counter productive)。临界值的选择取决于正在考虑的网格或数据文件的特定特征。如上所述,在本实施方式中,将该值设置为9。因此,在此处理阶段中,由于总共只插入了两个节点,所以判断步骤S81的答案为“否”。
对于需要插入的第一个数据成分集合而言,完成上述处理步骤,图18a和19a表示网格和数据流的现行形式。
接着,该过程转到步骤S89,在该步骤中,自动语音识别单元判断还有需要添加的数据成分集合,因此在步骤S91中,将n的值加1,然后对下一个数据成分集合,重复从步骤S65开始的处理步骤。此时,下一个数据成分集合包括用于规定网格之第三节点及其时间(0.41秒)的数据(图19b中的项目270)和用于规定音素链表/oh/及其节点偏移量(001)的数据。图18b表示插入音素链表/oh/和第三节点后的情况。在步骤S71中,按图18b所示方式放置该数据块的结尾203,将结尾203定义为位于最后一个节点之后,在数据流中,利用由块标志组成的数据成分245实现上述处理,并将其放置在新插入的数据268和270的后面。在图18b中表示步骤S75确定的位于新的端节点的α的新位置。在步骤S79中,再次确定不存在无效α或β,并且由于节点数仅仅为3(即,小于9),所以最新的数据成分集合的处理完成,图18b和图19b表示当前的网格和数据流。
随着过程继续,插入代表下一个数据成分集合的第四节点以及在该节点结束的两个链表,即,音素链表/w/和单词链表“NOW”。正如对上一个数据成分集合描述的那样,执行从步骤S65开始的处理步骤,由此得到图18c所示的网格结构和图19c所示的数据流。在图19c中可以看出,与音素链表/w/对应的数据272以及与最新节点对应的数据274,恰好在位于数据流结尾的最后一个块标志的前面,把与单词链表“NOW”对应的数据276放置在该链表之发起节点(即,第一节点)的数据流中。此外,并将其放置在从第一节点发起的其他链表(即,音素链表/n/和/m/)的前面,因为音素链表的节点偏移量为001,小于单词链表“NOW”的节点偏移量003。
该过程按上述方式继续而无需任何更改,以插入第五、第六、第七和第八节点,从而分别提供图18d和图19d所示的网格结构和数据流。
在从步骤S65开始的该过程的下一个循环中,插入的数据成分集合为第九节点以及在该节点结束的音素链表/w/。在按上述方式执行步骤S67、S69、S71和S75之后,网格排列如图18e-1所示,数据块的结尾203位于新插入的第九节点后,α位于第九节点。在步骤S79中,自动语音识别单元判断不存在的无效的α和β值,因此处理转到步骤S81。到该步骤为止的过程与前一个数据成分集合的过程相同。然而,由于此时新插入的节点使得单一数据块中的节点总数变为9,所以当自动语音识别单元执行判断步骤S81时,首次确定该数据块中的节点数大于等于9。因此,此时该过程转到步骤S83,在步骤S83中,自动语音识别单元判断α是否大于β,即,在该数据块中α是否在β的后面。本例正是此种情况(事实上,对网格的第一数据块而言,总是如此,因为β是为第一网格定义的)。
可以理解,本方法的基本步骤是,当数据块中的节点数到达9时,将该数据块划分为两个数据块,其前提是α大于β。等待到达某个节点数的原因在于,上文说明的资源的间接成本。α大于β这一标准的原因在于,确保通过分割原始数据块形成的两个数据块均服从上文说明的标准,不允许任何链表延伸到相邻数据块之外的其他数据块。
因此,此时该过程转到步骤S85,在步骤S85中,自动语音识别单元将图18e-1的单一数据块,分割为两个数据块。其实现方式是定义新的数据块结尾205,根据任意所需标准确定其位置,其中标准规定β和α之间的某个位置。在本实施方式中,标准为在β和α之间的中间位置(根据节点数,如果需要的话则进行上舍入)插入新的数据块结尾。因此,正如图18e-2所示,通过在第五节点后插入一个新的数据块结尾205,分割该数据块。正如图19e所示,通过在数据流中插入由块标志组成的数据成分298,实现上述处理。另外,自动语音识别单元33按照与该数据块的开始时间的偏移量,重新计算新生成的第二数据块内所有节点的时间,其中开始时间为整个网格的第五节点的时间(0.71秒)。因此,由此得到的图19e所示的数据流包含新插入的数据成分298,与音素链表/w/有关的新插入的数据300,以及与端节点有关的新插入的数据302。此外,将数据成分304、306、308和310的时间值变为新的偏移量。
在步骤S87中,利用自动语音识别单元确定α和β更新值。由于现在有两个数据块,所以需要确定两个β和两个α。图18e-2表示α和β的新位置。
此后,按上述方式继续图17的过程,以便插入整个网格的第十至第十三节点,并且块1中的节点数小于临界值9。从而分别提供图18f和图19f所示的网格结构和数据流。
插入的下一个数据成分集合包括第十四节点以及在该节点结束的音素链表/oh/。图18g-1表示对该数据成分集合执行步骤S65至S79之后的情况。插入最新的数据成分集合使得第二数据块中的节点数变为9,并且α在β的后面。因此,自动语音识别单元33执行步骤S85,在步骤S85中,在需要分割的数据块的第五节点后,插入新的数据块结尾207,如图18g-2所示。正如图19g所示,通过在数据流中插入由新块标志组成的数据成分330,实现上述处理。同时,自动语音识别单元33计算新生成的第三数据块中所有节点的调整偏移时间(图19g中的334、336、338、340)。此后,在步骤S87中,自动语音识别单元确定α和β的更新值,以便提供用于第二数据块的新的α值和用于第三数据块的新的β值,图18g-2表示以上两种情况。
对需要添加的3个剩余数据成分集合,重复图17所示的过程,从而提供图18h和图19h所示的网格结构和数据流。
此时,在步骤S89中,自动语音识别单元33确定已经不存在需要插入的数据成分集合,因此,完成现行网格数据结构,并与图15b和16b所示的网格相对应。
以下利用实例论证由于后面插入延伸到相邻数据块的长链表引起的两个数据块的合并处理。以上实例中不会出现此种情况,原因在于数据是完全按照时间顺序添加到网格中的。相反,在以下实例中,在图15b的网格到达此步骤后,需要在现有节点之间插入附加链表。发生此种情况的原因有许多。一种可能性是,网格是在早期完成的,然后作为注释数据,但后来需要修改。另一种可能性是,首先处理所有音素数据,然后处理所有单词数据,或相反。还有另一种可能性是,为提供单一网格而单独添加不同声道(即,不同发言人)的数据。
然而,在本例中,插入早期的计时链表本质上是最初进行的网格构造的一部分,尽管需要在结尾单独处理组成附加链表的数据成分,因为当音素数据通过第二语音识别词汇表时,构成自动语音识别单元33识别的单词。在本例中,第二词汇表包括用户选择的专有名称地点词汇表。因此,在本例中,在步骤S89中,确定需要插入另一个数据成分集合,然后在步骤S91中将n的值加1,在步骤S65中插入该数据。该数据组成单词链表“ESTONIA”,并且从块0的第四节点延伸到块2的第三节点,如图20a所示。
在步骤S67中,自动语音识别单元33识别未插入新节点,因此,处理转到步骤S75,在步骤S75中,确定α和β的更新位置。然而,由于新插入的链表从块0开始,向右经过块1,延伸到块2结束,所以违反了上文描述的禁止链表延伸到相邻数据块之外的标准,并且不能生成块1的有效α和β。在图20a中表示为,块1的α事实上需要在块0中出现,块1的β需要在块2中出现。因此,在下一步骤S79中,确定α和β无效。
因此该过程转到步骤S77,步骤S77包括合并数据块。可以使用任何合适的标准来选择需要合并的数据块,例如,该标准可以基于提供间隔最均匀的数据块,或者合并违反(标准的)数据块与前一个数据块。然而,在本例中,总是选择合并违反(标准的)数据块与前一个数据块,亦即,在本例中,将合并块1和块2。其实现方式是,去除划分块1和块2的块标记,从而只剩下两个数据块,如图20b所示。然后,该过程返回到步骤S75,在步骤S75中,再次判断α和β。图20b表示由此得到的α和β的位置。
在步骤S79中,自动语音识别单元33判定α和β有效,因此过程转到步骤S81。在本例中,由于块1中有12个节点并且α大于β,所以该过程转到步骤S85,并且使用与上述过程相同的过程,分割块1。然而,上文使用的、规定新数据块分割位置(即,β和α之间的节点数之一半的位置)标准,在本例中包含改进,当需要分割的数据块的节点数大于9时,分割处理应使得两个分割块中较早获得的数据块中的节点数小于等于8。以避免数据块分割处理的低效重复。因此,在本例中,将新的块标记插入到正在分割的数据块的第八节点后,如图20c所示。在步骤S87中,再次判断α和β,图20c表示新位置。请注意,α和β位于块1中的同一节点。在本例中,在步骤S89中,判定不存在需要添加的其他数据成分集合,因此,该过程结束。
在参照图20a至20c说明的上述过程中,通过按照与上文实例相对应的方式更改图16b的数据流,实现网格的更改。特别地,通过去除包含划分原始块1和2之原始块标志的有关数据成分248,实现用于合并两个数据块的步骤S77。
以下参照图21a至21d说明根据图17之流程图展示的过程处理数据的另一个实例。在本例中,在将第七节点添加到图15c的网格后,添加附加数据成分。因此,图17的步骤S89中,需要添加其他成分,然后该过程经由增加步骤S91再次返回到插入步骤S65。然而,添加以下实例中之附加数据成分所使用的方法步骤,构成一种更新或修改任意适合的原始网格的独立方法,而不考虑原始网格本身是如何生成的。
在以下实例中,通过与图9所示键盘3和语音转录单元75之形式相同的键盘和语音转录单元,添加附加数据。在本例中,将语音转录单元的输出连接到自动语音识别单元33。用户利用该装置输入与视频数据31-1之特定部分相对应的注释数据。在业界中有时将此类数据称为“元数据”。例如,视频数据的特定部分可以表示某个演员的许多特写,其中用户希望在以后需要时能够利用注释数据进行定位/检索。因此,用户输入单词“PROFILE A B C D E”,并且规定只转录单词链表,而不转录音素链表。从而提供以下数据成分:
(i)第一个新节点,第二个新节点,以及它们之间的单词链表“PROFILE”;
(ii)第三个新接点,以及第二个新节点和第三个新节点之间的单词链表“A”;
(iii)第四个新接点,以及第三个新节点和第四个新节点之间的单词链表“B”;
(iv)第五个新接点,以及第四个新节点和第五个新节点之间的单词链表“C”;
(v)第六个新接点,以及第五个新节点和第六个新节点之间的单词链表“D”;以及
(vi)第七个新接点,以及第六个新节点和第七个新节点之间的单词链表“E”。
再次参照图17,在步骤S65中,由自动语音识别单元33将上述数据成分(i)插入到图15b之网格中图21a所示的位置。在步骤S67中,自动语音识别单元33判定插入了新节点。在步骤S69中,自动语音识别单元判定既未在网格的开始也未在网格的结尾插入新节点。换句话说,新节点被插入到现有网格内,因此可能需要调整该网格中一个或几个现有节点的节点偏移量。所以该过程转到步骤S73,在步骤S73中,自动语音识别单元33调整现有节点的节点偏移量。在步骤S73中,可以采用调整偏移量的任何合适方法。在本例中采用优选方法,稍后参照图22的流程图说明该方法。
在调整偏移量之后,按照较早实例采用的方式,执行图17的过程,然后返回到步骤S65,以便插入数据成分(ii)。然后对数据成分(ii)和(iii)重复关于数据成分(i)的上述过程。图21b表示插入数据成分(i)、(ii)、(iii)之后并且该过程到达步骤S81时的情况。此时,在插入附加数据成分时,第一次判定第二数据块中的节点数等于9。因此,在步骤S83中,自动语音识别单元33分割该数据块,然后在步骤S87中,确定新的α和β,从而得到图21c所示的新的块结构。请注意,确定新数据块之结尾的标准为,使得新生成的第二数据块的长度尽量长一些,但不允许将数据块的结尾放置在α。
然后按相同方式继续该过程,插入数据成分(iv)、(v)、(vi),一直到处理数据成分(vi)时的步骤S81。此时,网格具有图21d所示形式,即,块2中有9个节点,步骤S81的结果为该过程再次转到步骤S83。请注意,本例使得块2中的β位于α的后面,换句话说,延伸到块2中的最长链表超过离开块2的最早链表的开始位置,正如在图21d中看到的那样。如果在此种情况下分割块2,形成的新数据块将违反本实施方式的基本标准,即,任何链表均不能延伸到相邻数据块之外的其他数据块。鉴于上述情况,图17的方法不允许分割块2,即使该块有9个节点,并利用以下方式实现上述处理,判断步骤S83的结果为α不大于β,从而该过程直接转到步骤S89。在本例中,在步骤S89中确定不存在需要添加的其他数据成分集合,因此该过程结束。
以下参照图22的流程图,说明实现步骤S73之偏移量调整的上述优选过程,图22表示用于新插入节点的过程。优选方法使用以下事实,即,各块中的α和β位置是已知的。自动语音识别单元33分析新插入节点之前的节点,以确定从这些节点发起的延伸到新插入节点的位置之外的所有链表。若发现此类节点,则需要将受影响的链表的节点偏移值加1,以适应以下事实,新插入的节点在其范围内。如果新插入的节点在给定数据块内的β的后面,则只需分析新插入节点之前以及给定数据块内的节点,因为本质上不存在从前一数据块延伸到β之外的链表。作为选择,如果新插入的节点位于给定数据块内的β的前面,则需要分析给定数据块中新插入节点之前的节点以及前一数据块中的节点,但只包括与α相对应节点之后的节点。无需分析前一数据块中α之前的节点,因为本质上不存在从α之前的节点发起的、延伸到插入新节点的数据块的链表。
利用图22所示的处理步骤实现上述过程。在步骤S010中,自动语音识别单元33将渐增计数器i的值设置为1。利用渐增计数器控制对连续不断的早期节点逐一重复应用该过程。在步骤S103中,确定位于插入节点前一个位置的节点。参照图21a,对于发起单词链表“PROFILE”的新插入节点,位于其前一个位置的节点为发起单词链表“THE”的节点。在步骤S105中,确定从确定节点发起的所有链表为单词链表“THE”和音素链表/dh/。自动语音识别单元33确定上述链表的节点偏移值,单词链表“THE”的偏移值为002,音素链表/dh/的偏移值为001,因此在步骤S107中,将其节点偏移值加1,分别变为新值003和002。在步骤S109中,判断新插入的节点是否在β的前面。此时位于β的后面,因此,只需要向后分析到本块的第一节点,并且在步骤S111中,判断当前确定的节点,即,其节点偏移值改变的节点,是否为本块的第一节点。此时,答案为“是”,并且由于无需调整其他节点的偏移值,所以该过程结束。然而,如果本块中还有需要处理的节点,则该过程继续到步骤S113,在该步骤中,将i的值加1,然后从步骤S103开始对下一个早期节点重复该过程。在以上实例中,如果新插入的节点位于β的前面,则该过程继续直至处理了前一块中与α对应的节点前的每个节点。为了实现上述处理,当插入节点位于β的前面时,该过程转到步骤S115,在该步骤中,自动语音识别单元判断确定节点是否位于前一块的α位置。若是,则过程结束。否则,该过程转到步骤S117,在步骤S117中,将i的值加1,然后从步骤S103开始重复该过程。
以下说明分割数据块的另一种方式。当给定数据块中的节点数到达临界值,并且α位于给定数据块中的β的后面时,调整给定数据块和前一个数据块,以便生成三个新数据块,从而代替两个数据块。以下参照图23a和23b详细说明该过程。
图23a表示某个网格内的节点序列,利用音素链表(如音素链表412)、单词链表414的尾部以及另一个单词链表416链接该网格。利用块标记402、404和406将以上节点划分为数据块,块标记构成网格的块n和(n+1)。该图分别表示块n和块(n+1)的α和β的位置。图23a表示插入代表音素链表413以及该链表之间之两个节点的数据后的网格状态。现在块(n+1)中的节点数为9,并且由于α在β的后面,所以需要重新调整该数据块。正如图23b所示,利用三个数据块,即,块n、块(n+1)和块(n+2),代替图23a中的两个数据块。其实现方式为,删除块分割符404,替换为两个新的块分割符408和410,分别位于块n中的β的后面和块(n+1)中的β的后面。此后,重新计算每块的α和β,图23b表示其新位置。重新调整数据块的过程提供间隔非常均匀的数据块。当给定数据块具有所需分割节点数并且其α在β的后面,而前一个数据块中的β在α的后面时,尤其如此。请注意,图23a正是此种情况。因此在优选实施方式中,当前一个数据块中的β在α的后面时,利用在两个β之间生成一个新数据块的过程,实现数据块分割,而当前一个数据块中的β在α的前面时,数据块分割遵循最初说明的划分过程,即,划分α和β之间的数据块。
在上一段说明的实施方式的另一种方案中,可以将两个新的块分割符分别放置在更接近(与每个数据块中的节点数相比)块n中的β和块(n+1)中的β位置,而不是位于两个β位置。
在上述实施方式中,在数据块中排列节点前,相对于公用零时提供网格中每个节点的定时,从而第一节点在0.10秒时出现。将第一块的开始时间设置为公用零时。其他各块的开始时间为前一块的最后一个节点的时间。然而,在备择实施方式中,可以按绝对形式提供每个节点的定时,并且为划分每个数据块之开始的块标记提供世界标准时(UST)时戳,与下舍入到秒的数据块的第一节点的绝对时间相对应。利用4字节整数实现UST时戳,4字节整数能够表示从1970年1月1日以来的秒数。然后,相对于该数据块之开始的下舍入时间,确定并存储每个数据块中的节点的时间,作为偏移时间。在本实施方式中,由于将每个块的时间下舍入到秒,因此如果允许数据块持续时间小于1秒,则有可能为两个或多个数据块分配相同时戳。因此,当使用UST时戳时,不允许数据块持续时间小于1秒。其实现方式是,规定预定的数据块持续时间,如1秒,在分割当前数据块之前必须超过持续时间。除早先叙述的要求(在分割当前数据块之前,当前数据块包含的节点数必须大于预定值)之外,该要求也起作用。作为选择,也可以适应比较短的数据块持续时间,其实现方法为,采用除UST之外的时戳约定,然后以比允许的最小持续时间更精确的方式,下舍入块标记时间。
在上述实施方式中,利用配备有必需功能性的自动语音识别单元33,确定并生成音素和字格结构。正如熟练技术人员理解的那样,可以使用标准自动语音识别单元连同单独的网格构造单元,后者包括用于确定并生成上述音素和字格结构的功能性。图24表示采用标准自动语音识别单元40的实施方式,其中单元40输出音素序列。正如图3所表示装置那样,字译码器37辨别来自音素数据35的单词。在图24所示的实施方式中,将辨别的单词添加到音素数据中,以生成音素和单词数据42。然后将其传送到网格构造单元44,该单元确定并生成上述音素和字格结构,从而形成音素和单词注释数据31-3。在包含只输出单词的标准自动语音识别单元的其他实施方式中,利用单词音素字典生成音素,然后利用网格构造单元(未示出)组合单词和音素,从而形成上述音素和字格结构。
在上述实施方式中,把音素和单词数据与网格的链表联系起来。正如熟练技术人员理解的那样,也可以改为把单词和/或音素数据与节点联系起来。此时,与每个节点关联的数据最好包括与其关联的每个单词或音素的开始时间和结束时间。
以上描述了用于将节点和链表的无序列表组织为有序、分块列表的技术。并且特别描述了对音素和单词的无序列表进行排序的技术。然而,正如熟练技术人员理解的那样,可以将该技术应用于其他种类的数据网格。例如,可以将该技术应用于只有音素的网格或只有单词的网格。作为选择,可以将该技术应用于根据手写识别系统生成的网格,其中手写识别系统经过字符识别处理生成可能字符的网格。此时,不能按时间对节点和链表排序,而是按空间排序,从而字符相对于其他字符出现在有序网格中与该字符在页面上的位置相对应的位置。

Claims (76)

1.一种定义网格的数据,包括:
用于定义该网格内的许多有序节点的数据;
用于定义该网格内的许多链表的数据,各链表从一个第一节点延伸到一个第二节点;以及
用于在有序数据块的一个序列内排列所有节点的数据,从而从任意给定数据块中之节点发起的链表,不会延伸到该序列后面的预定块数的数据块中的节点之外。
2.根据权利要求1的数据,其中所述数据定义许多按时间排序的节点,并且其中所述数据在按时间排序的数据块序列中排列所有节点。
3.根据权利要求1或2的数据还包括:用于定义与所述节点和/或所述链表关联的信息项的数据。
4.用于定义数据库中使用的音素和/或单词网格的数据,该数据包括:
用于定义该网格内的许多按时间排序的节点的数据;
用于定义该网格内的许多链表的数据,各链表从第一节点延伸到第二节点;
用于把音素或单词与至少一个节点或链表联系起来的数据;以及
用于在按时间排序的数据块序列内排列所有节点的数据,从而从任意给定数据块中之节点发起的链表,不会延伸到该序列后面的预定块数的数据块中的节点之外。
5.根据上述权利要求之任一权利要求的数据,其中从任意给定数据块中之节点发起的链表,不会延伸到下一数据块中的节点之外。
6.根据权利要求5的数据还包括:
用于定义各数据块之第一定时(即,节点β)的数据,以标识从前一数据块发起的链表延伸到的数据块内的最新节点。
7.根据权利要求6的数据还包括:
用于定义各数据块之第二定时(即,节点α)的数据,以标识延伸到下一数据块的链表在发起数据块内的最早节点。
8.根据权利要求7的数据,其中将各节点的数据及其链表排列为数据序列,并且按照与所有节点之时间顺序相对应的顺序,将所述各节点的数据序列一并排列到数据流中。
9.根据上述权利要求之任一权利要求的数据,其中对于具有许多链表的节点而言,依靠相应链表的宽度,按预定方式排列每个链表的数据。
10.根据取决于权利要求8的权利要求9的数据,其中对于具有许多链表的节点而言,与数据序列内的众多链表的其他链表相比,最长链表的数据总是处于相同的相对位置。
11.根据权利要求10的数据,其中最长链表的数据总是位于该数据序列内的众多链表中的第一位置或最后位置。
12.根据上述权利要求之任一权利要求的数据,当在数据库中使用时,还包括用于定义各数据块在所述数据库内的位置的数据。
13.根据上述权利要求之任一权利要求的数据还包括:用于定义所述节点之每个节点的时戳信息的数据。
14.根据权利要求4的数据还包括:用于定义所述节点之每个节点的时戳信息的数据,其中把定义音素和字格的所述数据与定义时序信号的其他数据联系起来,并且所述时戳信息与所述时序信号同步。
15.根据权利要求14的数据,其中所述其他数据定义音频和/或视频信号。
16.根据权利要求15的数据,其中所述其他数据定义至少语音数据,并且定义所述音素和字格的所述数据是根据所述其他数据导出的。
17.根据权利要求16的数据,其中其中所述语音数据包括音频数据,并且定义所述音素和字格的所述数据是通过向自动语音识别系统传送所述音频信号导出的。
18.根据权利要求16或17的数据,其中所述语音数据定义许多发言人的口头言词,并且所述数据定义用于各发言人之口头言词的独立音素和字格。
19.一种响应用户的输入查询而对包括权利要求4至18之任一权利要求的数据的数据库进行搜索的装置,该装置包括:
用于生成与用户的输入查询相对应的音素数据的装置;
用于利用为该输入的查询而生成的音素数据对音素和字格进行搜索的装置;以及
用于根据所述搜索装置的输出而输出搜索结果的装置。
20.根据权利要求19的装置还包括:用于生成与用户的输入查询相对应的单词数据的装置,以及使用为输入查询生成的单词数据搜索音素和字格的装置。
21.一种响应用户的输入查询而搜索包括权利要求4至18之任一权利要求的数据的数据库的方法,该方法包括以下步骤:
生成与用户的输入查询相对应的音素数据;
使用为输入查询生成的音素数据对音素和字格进行搜索;以及
根据所述搜索步骤的输出而输出搜索结果。
22.根据权利要求21的方法还包括以下步骤:生成与用户的输入查询相对应的单词数据,以及使用为输入查询生成的单词数据搜索音素和字格。
23.一种用于生成注释数据的装置,利用注释数据给数据文件做注释,该装置包括:
用于接收音素和/或单词数据的接收装置;以及
用于生成注释数据的第一生成装置,注释数据定义与接收的音素和/或单词数据相对应的音素和/或字格;
其中第一生成装置包括:
用于生成节点数据的第二生成装置,节点数据定义网格内按时间排序的许多节点;
用于生成链表数据的第三生成装置,链表数据定义网格内的许多链表,各链表从第一节点延伸到第二节点;
用于生成联合数据的第四生成装置,联合数据把每个节点或链表与音素和/或单词数据中的音素或单词联系起来;以及
用于生成块数据的第五生成装置,以便在满足块标准的按时间排序的块序列中排列所有节点,块标准为从任意给定数据块中之节点发起的链表,不会延伸到该序列后面的预定块数的数据块中的节点之外。
24.根据权利要求23的装置,其中块标准为从任意给定数据块中之节点发起的链表,不会延伸到下一数据块中的节点之外。
25.根据权利要求23或24的装置,其中第一生成装置包括:通过处理每个节点的节点数据和每个链表的链表数据形成音素和/或字格的处理装置,该处理装置包括:
i)用于向网格之现行数据块添加一个或多个节点及其关联链表直至现行数据块中的节点数达到预定数值的装置;
ii)根据所述块标准确定是否分割现行数据块的第一确定装置;以及
iii)用于将现行数据块分割为至少两个数据块的分割装置。
26.根据权利要求25的装置,对于每个音素和/或单词,该装置能够独立生成与该音素和/或单词数据相对应的节点数据和链表数据。
27.根据权利要求26的装置,该装置能够在形成音素和/或字格前,生成所有节点数据和所有链表数据。
28.根据权利要求26的装置,该装置能够将每个音素和/或单词的节点数据和链表数据,逐渐添加到音素和/或字格中,就象是为每个所述音素和/或单词生成的。
29.根据权利要求28的装置,该装置能够逐渐添加节点数据和链表数据,其方法为:
判断是否存在与正在处理的现行音素或单词的开始和结束时间相对应的节点;
如果该节点不存在,将与开始和/或结束时间相对应的节点添加到网格中;以及
在与正在处理的现行音素或单词的开始和结束时间相对应的节点之间,添加一个链表。
30.根据权利要求25至29之任一权利要求的装置,还包括第二确定装置,用于确定各数据块之第一定时(即,节点β),以标识从前一数据块发起的链表延伸到的数据块内的最新节点,和各数据块之第二定时(即,节点α),以标识延伸到下一数据块的链表在发起数据块内的最早节点;并且
其中第一确定装置通过确定第一定时(即,节点β)在第二定时(即,节点α)之前,根据所述块标准确定可以分割现行数据块的节点,并且分割装置能够响应第一确定装置做出的分割现行数据块的决定,分割现行数据块。
31.根据权利要求30的装置,其中当向网格添加其他节点时,第二确定装置能够更新第一定时(即,节点β)和第二定时(即,节点α)。
32.根据权利要求30或31的装置,其中分割装置能够分割第一定时(即,节点β)和第二定时(即,节点α)之间的现行数据块。
33.根据权利要求30或权利要求31的装置,其中分割装置通过形成从前一块之第一定时(即,节点β)或其附近开始,并在现行数据块之第一定时(即,节点β)或其附近结束的新数据块,分割现行数据块。
34.根据权利要求30或权利要求31的装置,其中如果前一块的第一定时(即,节点β)在前一块的第二定时(即,节点α)的后面,则分割装置通过形成从前一块之第一定时(即,节点β)或其附近开始,并在现行数据块之第一定时(即,节点β)或其附近结束的新数据块,分割现行数据块,如果前一块的第一定时(即,节点β)在前一块的第二定时(即,节点α)的前面,则分割装置分割第一定时(即,节点β)和第二定时(即,节点α)之间的现行数据块。
35.根据权利要求23至34之任一权利要求的装置,还包括第六生成装置,用于根据输入音频或文本数据生成音素和/或单词数据。
36.根据权利要求35的装置,其中数据文件包括音频数据,并且第六生成装置包括一个自动语音识别系统,用于生成数据文件中的音频数据的音素数据。
37.根据权利要求36的装置,其中第六生成装置包括一个字译码器,通过辨别自动语音识别系统生成的音素数据内的可能单词,生成单词数据。
38.根据权利要求35的装置,其中数据文件包括文本数据,并且第六生成装置包括一个文本至音素转换器,用于根据数据文件中的文本数据生成音素数据。
39.根据权利要求32的装置,其中第六生成装置包括以下装置之一:
a)用于接收并处理输入语音注释信号的装置;
b)用于接收并处理文本注释的装置;以及
c)用于接收代表文本文档的图像数据的装置,和将所述图像数据转换为文本数据的字符识别单元。
40.根据权利要求23至39之任一权利要求的装置,其中所述第一生成装置能够生成定义每个所述节点之时戳信息的数据。
41.根据权利要求23至40之任一权利要求的装置,其中所述第一生成装置能够生成定义数据库内每个数据块之位置的数据。
42.根据权利要求40或41的装置,其中所述数据文件包括时序信号,并且所述第一生成装置能够生成与所述时序信号同步的时戳数据。
43.根据权利要求42的装置,其中所述时序信号为音频和/或视频信号。
44.一种用于向定义权利要求4至18之任一权利要求的音素和/或字格的数据中,添加与一个或多个音素或单词相对应的数据的装置,该装置包括:
i)节点处理装置,如果确定网格中存在与需要添加的音素或单词的开始和结束时间相对应的节点,则将节点插入到网格中,如果不存在,则在网格中插入与开始和/或结束时间相对应的接点;
ii)链表处理装置,在与需要添加的音素或单词的开始和结束时间相对应的节点之间添加一个链表;
iii)选择装置,选择由于插入其他节点而需要修改其关联链表数据的现有节点;
iv)分析所选的现有节点的链表数据的分析装置;以及
v)用于修改分析后的链表数据的装置,如果需要的话;
其中对每个其他节点而言,选择装置能够选择包含其他节点的数据块中其他节点之前的节点,以及包含其他节点的数据块之前预定块数之内的每个数据块中的所有节点。
45.根据权利要求44的装置,其中对于需要插入到给定数据块内的其他节点而言,选择装置只能选择i)给定数据块中正在插入的节点之前的节点,以及ii)前一数据块中的所有节点。
46.根据权利要求44的装置,其中数据为权利要求7要求的数据,并且对于需要在给定数据块中定时(即,节点)定义的插入位置插入的其他节点而言,选择装置可以选择:
a)给定数据块中插入位置前面的现有节点,如果插入位置在给定数据块之第一定时(即,节点β)的后面的话;以及
b)i)给定数据块中插入位置前面的现有节点,与ii)前一数据块中第二定时(即,节点α)后面的节点,如果插入位置在给定数据块之第一定时(即,节点β)的前面的话。
47.根据权利要求44至46之任一权利要求的装置,其中数据为权利要求9或其相关权利要求要求的数据,并且将分析装置安装为,只分析从每个所选节点发起的最长链表。
48.根据权利要求23至43之任一权利要求的装置还包括:根据权利要求44至47之任一权利要求的装置,用于将与一个或多个音素或单词相对应的数据,添加到先前接收的音素和单词数据中。
49.一种生成注释数据以便给数据文件做注释的方法,该方法包括以下步骤:
i)接收音素和/或单词数据;以及
ii)生成注释数据,注释数据定义与接收的音素和/或单词数据相对应的音素和/或字格;
其中生成定义网格的注释数据的步骤包括:
生成节点数据,节点数据定义该网格内的许多按时间排序的节点;
生成链表数据,链表数据定义该网格内的许多链表的数据,各链表从第一节点延伸到第二节点;
生成联合数据,联合数据把每个链表或节点与音素和/或单词数据的音素或单词联系起来;以及
生成块数据,以便在满足块标准的按时间排序的块序列中排列所有节点,块标准为从任意给定数据块中之节点发起的链表,不会延伸到该序列后面的预定块数的数据块中的节点之外。
50.根据权利要求49的方法,其中块标准为从任意给定数据块中之节点发起的链表,不会延伸到下一数据块中的节点之外。
51.根据权利要求49或50的方法,其中生成定义网格之注释数据的步骤包括以下步骤:通过处理每个节点的节点数据和每个链表的链表数据形成音素和/或字格:
i)用于向网格之现行数据块添加一个或多个节点及其关联链表直至现行数据块中的节点数达到预定数值;
ii)根据所述块标准确定是否分割现行数据块;以及
iii)用于将现行数据块分割为至少两个数据块。
52.根据权利要求51的方法,其中对于每个音素和/或单词,独立生成与该音素和/或单词数据相对应的节点数据和链表数据。
53.根据权利要求52的方法,其中在形成音素和/或字格前,生成所有节点数据和所有链表数据。
54.根据权利要求52的方法,其中将每个音素和/或单词的节点数据和链表数据,逐渐添加到音素和/或字格中,就象是为每个所述音素和/或单词生成的。
55.根据权利要求54的方法,其中通过以下处理逐渐添加节点数据和链表数据:
判断是否存在与正在处理的现行音素或单词的开始和结束时间相对应的节点;
如果该节点不存在,将与开始和/或结束时间相对应的节点添加到网格中;以及
在与正在处理的现行音素或单词的开始和结束时间相对应的节点之间,添加一个链表。
56.根据权利要求51至55之任一权利要求的方法,还包括以下步骤,确定各数据块之第一定时(即,节点β),以标识从前一数据块发起的链表延伸到的数据块内的最新节点,和各数据块之第二定时(即,节点α),以标识延伸到下一数据块的链表在发起数据块内的最早节点;并且
其中根据所述块标准确定可以分割现行数据块节点的步骤包括,确定第一定时(即,节点β)在第二定时(即,节点α)之前,并且响应分割现行数据块节点的决定,将现行数据块分割为至少两个数据块。
57.根据权利要求56的方法还包括以下步骤:当向网格添加其他节点时,更新每个数据块的第一定时(即,节点β)和第二定时(即,节点α)。
58.根据权利要求56或57的方法,其中分割现行数据块的步骤包括:分割第一定时(即,节点β)和第二定时(即,节点α)之间的现行数据块。
59.根据权利要求56或权利要求57的方法,其中分割现行数据块的步骤包括:形成从前一块之第一定时(即,节点β)或其附近开始,并在现行数据块之第一定时(即,节点β)或其附近结束的新数据块。
60.根据权利要求56或权利要求57的方法,其中如果前一块的第一定时(即,节点β)在前一块的第二定时(即,节点α)的后面,则分割现行数据块的步骤包括,形成从前一块之第一定时(即,节点β)或其附近开始,并在现行数据块之第一定时(即,节点β)或其附近结束的新数据块,如果前一块的第一定时(即,节点β)在前一块的第二定时(即,节点α)的前面,则该步骤包括分割第一定时(即,节点β)和第二定时(即,节点α)之间的现行数据块。
61.根据权利要求49至60之任一权利要求的方法,还包括以下步骤,根据输入音频或文本数据生成音素和/或单词数据。
62.根据权利要求61的方法,其中数据文件包括音频数据,并且生成音素和单词数据的步骤包括:
利用自动语音识别系统生成数据文件中的音频数据的音素数据;以及
通过辨别自动语音识别系统生成的音素数据内的可能单词,利用字译码器生成单词数据。
63.根据权利要求61的方法,其中数据文件包括文本数据,并且生成音素和单词数据的步骤包括,利用文本至音素转换器生成数据文件中的文本数据的音素数据。
64.根据权利要求61的方法,其中生成音素和单词数据的步骤包括以下步骤之一:
a)接收并处理输入语音注释信号;
b)接收并处理文本注释;以及
c)接收代表文本文档的图像数据,并将所述图像数据转换为文本数据的字符识别单元。
65.根据权利要求49至64之任一权利要求的方法还包括:生成定义每个所述节点之时戳信息的数据。
66.根据权利要求49至65之任一权利要求的方法还包括:生成定义数据库内每个数据块之位置的数据。
67.根据权利要求65或66的方法,其中所述数据文件包括时序信号,并且生成的时戳数据与所述时序信号同步。
68.根据权利要求67的方法,其中所述时序信号为音频和/或视频信号。
69.根据权利要求49或50的方法还包括,通过按以下方式处理每个节点的节点数据和每个链表的链表数据,形成音素和/或字格:
i)添加两个节点的节点数据与它们之间的一个或多个链表的链表数据;
ii)添加块数据,以提供两个新添加的节点构成的初始块节点;
iii)将一个或多个其他节点和/或链表的其他节点数据和/或链表数据添加到初始块中;
iv)重复(iii)直至初始块中的节点数达到预定节点数;
v)根据所述块标准确定可以分割初始块节点;
vi)添加其他块数据以便将初始块节点分割为至少两个当前块节点;
vii)将一个或多个其他节点和/或链表的其他节点数据和/或链表数据添加到当前块中;
viii)重复(vii)直至当前块中的节点数达到预定节点数;
ix)根据所述块标准确定可以分割当前块;
x)添加其他块数据以便将当前块分割为至少两个数据块;
xi)如果需要的话,重复(viii)、(ix)和(x)直至将为音素和/或单词数据生成的所有节点和链表的节点数据和链表数据,添加到音素和/或字格中。
70.一种用于向定义权利要求4至18之任一权利要求的音素和/或字格的数据中,添加与一个或多个音素或单词相对应的数据的方法,该方法包括以下步骤:
i)如果确定网格中存在与需要添加的音素或单词的开始和结束时间相对应的节点,则将节点插入到网格中,如果不存在,则在网格中插入与开始和/或结束时间相对应的接点;
ii)在与需要添加的音素或单词的开始和结束时间相对应的节点之间添加一个链表;
iii)选择由于插入其他节点而需要修改其关联链表数据的现有节点;
iv)分析所选的现有节点的链表数据;以及
v)修改分析后的链表数据的方法,如果需要的话;
其中对每个其他节点而言,选择步骤选择包含其他节点的数据块中其他节点之前的节点,以及包含其他节点的数据块之前预定块数之内的每个数据块中的所有节点。
71.根据权利要求70的方法,其中对于需要插入到给定数据块内的其他节点而言,选择步骤只选择i)给定数据块中正在插入的节点之前的节点,以及ii)前一数据块中的所有节点。
72.根据权利要求70的方法,其中数据为权利要求7要求的数据,并且对于需要在给定数据块中定时(即,节点)定义的插入位置插入的其他节点而言,选择步骤选择:
a)给定数据块中插入位置前面的现有节点,如果插入位置在给定数据块之第一定时(即,节点β)的后面的话;以及
b)i)给定数据块中插入位置前面的现有节点,与ii)前一数据块中第二定时(即,节点α)后面的节点,如果插入位置在给定数据块之第一定时(即,节点β)的前面的话。
73.根据权利要求70至72之任一权利要求的方法,其中数据为权利要求9或其相关权利要求要求的数据,并且分析步骤只分析从每个所选节点发起的最长链表。
74.根据权利要求49至69之任一权利要求的方法还包括以下步骤:利用根据权利要求70至73之任一权利要求的方法,将其他数据添加到网格中。
75.一种数据载体,用于传送根据权利要求1至18之任一权利要求的数据,或传送用于控制处理器实现权利要求21、22以及49至74之任一方法的可由处理器执行的指令。
76.用于控制处理器实现权利要求21、22以及49至74之任一方法的可由处理器执行的指令。
CNB018156142A 2000-09-29 2001-09-28 注释数据生成、音素或字搜索及添加的相应设备与方法 Expired - Fee Related CN1227613C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0023930.1 2000-09-29
GBGB0023930.1A GB0023930D0 (en) 2000-09-29 2000-09-29 Database annotation and retrieval

Publications (2)

Publication Number Publication Date
CN1457476A true CN1457476A (zh) 2003-11-19
CN1227613C CN1227613C (zh) 2005-11-16

Family

ID=9900403

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018156142A Expired - Fee Related CN1227613C (zh) 2000-09-29 2001-09-28 注释数据生成、音素或字搜索及添加的相应设备与方法

Country Status (8)

Country Link
US (1) US7240003B2 (zh)
EP (1) EP1327206A2 (zh)
JP (1) JP2004510256A (zh)
KR (1) KR100612169B1 (zh)
CN (1) CN1227613C (zh)
AU (1) AU2001290136A1 (zh)
GB (1) GB0023930D0 (zh)
WO (1) WO2002027546A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329126A (zh) * 2010-10-28 2013-09-25 谷歌公司 利用联合图像-音频查询的搜索
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN111354348A (zh) * 2018-12-21 2020-06-30 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
JP4175093B2 (ja) * 2002-11-06 2008-11-05 日本電信電話株式会社 トピック境界決定方法及び装置及びトピック境界決定プログラム
GB0230097D0 (en) * 2002-12-24 2003-01-29 Koninkl Philips Electronics Nv Method and system for augmenting an audio signal
JP2005027048A (ja) * 2003-07-02 2005-01-27 Minolta Co Ltd 撮像装置および画像への注釈情報の付与方法
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7912699B1 (en) * 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
JP4638726B2 (ja) * 2004-12-22 2011-02-23 株式会社アルファジェン サンプルセット製造方法、遺伝子整列プログラム及びサンプルセット
US8225335B2 (en) * 2005-01-05 2012-07-17 Microsoft Corporation Processing files from a mobile device
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US7634407B2 (en) 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US7756710B2 (en) * 2006-07-13 2010-07-13 Sri International Method and apparatus for error correction in speech recognition applications
CN101641676A (zh) * 2007-01-17 2010-02-03 语言世界公司 用于操纵主要视听数据内容和关联次要数据内容的方法和装置
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
EP2058800B1 (en) * 2007-10-24 2010-09-01 Harman Becker Automotive Systems GmbH Method and system for recognizing speech for searching a database
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US9191639B2 (en) 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
US8959071B2 (en) 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
US8938393B2 (en) * 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
US8849041B2 (en) * 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
ES2566569T3 (es) * 2012-06-28 2016-04-13 Jajah Ltd Sistema y método para realizar consultas textuales en comunicaciones de voz
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP6562698B2 (ja) * 2015-04-28 2019-08-21 株式会社東芝 ラティス確定装置、パターン認識装置、ラティス確定方法およびプログラム
US10452661B2 (en) 2015-06-18 2019-10-22 Microsoft Technology Licensing, Llc Automated database schema annotation
US10769495B2 (en) * 2018-08-01 2020-09-08 Adobe Inc. Collecting multimodal image editing requests
KR20210033258A (ko) 2019-09-18 2021-03-26 삼성전자주식회사 시퀀스 처리 방법 및 장치

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
AU5803394A (en) 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
DE69514382T2 (de) 1994-11-01 2001-08-23 British Telecomm Spracherkennung
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
CN1150515C (zh) 1995-03-07 2004-05-19 英国电讯公司 语音识别方法和装置
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
JPH10503033A (ja) 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2302199B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
EP1018109B1 (en) 1997-09-24 2003-03-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329126A (zh) * 2010-10-28 2013-09-25 谷歌公司 利用联合图像-音频查询的搜索
CN103329126B (zh) * 2010-10-28 2018-04-24 谷歌有限责任公司 利用联合图像-音频查询的搜索
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN111354348A (zh) * 2018-12-21 2020-06-30 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111354348B (zh) * 2018-12-21 2024-04-26 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Also Published As

Publication number Publication date
CN1227613C (zh) 2005-11-16
WO2002027546A8 (en) 2002-08-15
KR20030072327A (ko) 2003-09-13
KR100612169B1 (ko) 2006-08-14
JP2004510256A (ja) 2004-04-02
WO2002027546A2 (en) 2002-04-04
US7240003B2 (en) 2007-07-03
EP1327206A2 (en) 2003-07-16
AU2001290136A1 (en) 2002-04-08
US20030177108A1 (en) 2003-09-18
GB0023930D0 (en) 2000-11-15
WO2002027546A3 (en) 2002-06-20

Similar Documents

Publication Publication Date Title
CN1227613C (zh) 注释数据生成、音素或字搜索及添加的相应设备与方法
CN1096036C (zh) 以格阵作关键字的字典检索装置和方法
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1174332C (zh) 转换表达方式的方法和装置
CN1113305C (zh) 语言处理装置和方法
CN1168068C (zh) 语音合成系统与语音合成方法
CN1343337A (zh) 数据库注释和获取
CN1409842A (zh) 模式匹配方法和装置
CN1533163A (zh) 电子节目指南数据的自由文本和属性搜索
CN1316707A (zh) 数据压缩与检索方法和数据检索设备及记录媒体
CN1530926A (zh) 语音识别词典制作装置及信息检索装置
CN1703734A (zh) 从声音确定音符的方法和装置
CN1975857A (zh) 会话控制装置
CN1215457C (zh) 语句识别装置和方法
CN1269897A (zh) 用于选择数据集的方法和/或系统
CN1761958A (zh) 用于查找串的方法和设备
CN1959674A (zh) 网络搜索方法、网络搜索设备和用户终端
CN1744087A (zh) 搜索文档的文档处理装置及其控制方法
CN1591425A (zh) 用于产生网站导航的方法
CN1163836C (zh) 图象信息检索系统和方法
CN1949227A (zh) 一种针对可播放媒体文件的搜索方法、系统及装置
CN1932819A (zh) 一种互联网音频文件的聚类方法、搜索方法及系统
CN1275223A (zh) 自然语言处理装置及方法
CN1254786C (zh) 在语音合成系统中将提示音与文本语音合成输出的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20051116

Termination date: 20150928

EXPY Termination of patent right or utility model