CN1886726A - 转录音频信号的方法和设备 - Google Patents

转录音频信号的方法和设备 Download PDF

Info

Publication number
CN1886726A
CN1886726A CNA2004800350512A CN200480035051A CN1886726A CN 1886726 A CN1886726 A CN 1886726A CN A2004800350512 A CNA2004800350512 A CN A2004800350512A CN 200480035051 A CN200480035051 A CN 200480035051A CN 1886726 A CN1886726 A CN 1886726A
Authority
CN
China
Prior art keywords
document
textual portions
transcribing
designed
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800350512A
Other languages
English (en)
Inventor
G·格罗鲍尔
M·帕佩
K·弗里姆庞-安沙哈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1886726A publication Critical patent/CN1886726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

在用于将文档(DO)的包含信号部分(SP)的音频信号(AS)转录为包含文本部分(TP)的文本的方法,该文档(DO)被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分(TP),可以预计的是信号部分(SP)被转录为文本部分(TP),并产生表示各个至少一个信号部分(SP)和各个通过转录所获得的至少一个文本部分(TP)之间的至少一个时间关系的关系数据(RD),以及识别文档(DO)的结构,以及以关系数据(RD)描述所识别的文档(DO)的结构。

Description

转录音频信号的方法和设备
技术领域
本发明涉及用于将文档的包含信号部分的音频信号转录为包含文本部分的文本的方法,该文档被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分。
本发明进一步涉及用于将文档的包含信号部分的音频信号转录为包含文本部分的文本的设备,该文档被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分。
本发明进一步涉及适于转录音频信号的计算机程序产品。
本发明进一步涉及运行前一段中所述计算机程序产品的计算机。
背景技术
从专利文献US5031113可以获知这种方法、设备、计算机程序产品和计算机。
在已知设备的情况下,借助于已知设备能够执行已知方法,并且已知设备是借助于处理已知计算机程序产品的已知计算机而实现的,文档是基于音频信号而产生的。在此期间,包含在音频信号中的信号部分被识别为文本部分并被存储。而且产生并存储关系数据,该关系数据表示信号部分和所识别的文本部分的时间(temporal)关系。借助于设备,能够经由扬声器以有声方式再现音频信号,并且能够经由监视器以可视方式再现文档。在音频信号的有声再现中,关系数据用于文本部分的同步视觉重点(synchronized visual emphasis),其表示各个信号部分的时间关系(temporal relation),在专家圈里称为“同步重放”。
在已知设备的情况下存在这样的问题:在文档不仅包含通过转录产生的文本还包含诸如不可改变格式的域名或者图片或者文本块或者视听对象之类的其他元素的情况下,在使用“同步重放”时,并且实际上特别是在通过转录产生的文本由不是自己口述(dedicate)文本的雇员读完和检查的情况下会发生很大的困难,因为不是通过转录产生的这些其他元素不被考虑,或者不被充分考虑。
发明内容
本发明的目的在于消除在第一段中所述类型的方法的情况下所存在的问题,以及在第二段中所述类型的设备的情况下所存在的问题,以及在第三段中所述类型的计算机程序产品的情况下所存在的问题,以及在第四段中所述类型的计算机的情况下所存在的问题,并创建改进的方法、改进的设备、改进的计算机程序产品和改进的计算机。
为了实现上述目的,在根据本发明的方法的情况下,可以预计依据本发明的特征,这样就能够以下述方式特征化本发明的方法。
一种用于将文档的包含信号部分的音频信号转录为包含文本部分的文本的方法,该文档被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分,该方法具有以下所列出的步骤,即:
将信号部分转录为文本部分,并产生表示各个至少一个信号部分和各个通过转录所获得的至少一个文本部分之间的至少一个时间关系的时间数据,并且识别文档结构并以关系数据描述所识别的文档结构。
为了实现上述目的,在根据本发明的设备的情况下,可以预计依据本发明的特征,这样就能够以下述方式特征化根据本发明的设备:
一种用于将文档的包含信号部分的音频信号转录为包含文本部分的文本的设备,该文档被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分,具有用于将信号部分转录为文本部分的转录装置,并具有设计为产生关系数据的关系数据产生装置,这些关系数据表示各个至少一个信号部分和各个通过转录所获得的至少一个文本部分之间的至少一个时间关系,并且具有设计为识别文档结构的结构识别装置,并具有设计为用关系数据描述所识别的文档结构的结构描述装置。
为了实现上述目的,在适于转录音频信号的计算机程序产品的情况下,根据本发明可以预计的是,计算机程序产品能够直接装载到计算机的存储器中并且包括软件代码部分,其中当计算机程序产品在计算机上运行时利用该计算机根据能够执行根据本发明的方法。
为了实现上述目的,在根据本发明的计算机的情况下,可以预计的是计算机具有计算单元和内部存储器,并运行根据以上段落的计算机程序产品。
通过提供根据本发明的措施所获得的优势在于,要产生的文档结构不仅显示在文档本身中,也显示在关系数据中,由此能够产生相当复杂的文档并且更为重要的是能够进一步以视听方式处理相当复杂的文档。
通过提供如权利要求2或权利要求9所述的其他措施所获得的更多优势在于:在准备作为模板的文档中已存在的结构,例如由预定的表格域所给定的文档结构,被以关系数据可靠地描述。
通过提供如权利要求3或权利要求10所述的其他措施所获得的更多优势在于:只通过包含在要转录的音频信号中的结构指令识别的文档结构(例如因为它们是由一个人口述的)因此实际上被实时识别(即在转录期间被识别),并且被以关系数据可靠地描述。
在根据本发明的解决方案的情况下,例如能够预计的是,对于每个识别的文档结构元素产生具有关系数据的独立文件,也就是产生关系数据的物理分组。如果另外预计根据权利要求4或权利要求11的措施将是特别有利的,因为使用所述特征,可以尽可能简单并且可靠地实现分组为单个文件,这样可以避免对多个文件的相对耗时处理。在这种情况下,关系数据的分组例如能够通过借助于表示所识别的文档结构的结构数据来标记关系数据而发生。然而同样能够预计的是,结构上合成整体(belong together)的关系数据被分到一个文件的多个部分中,每个部分被指定为所识别的文档结构的结构元素。
通过提供如权利要求5或者权利要求12所述的措施获得的更多优势在于提高了识别文本部分的效率。这是个特别的情况,因为例如在表示放射学家的报告的文档情况下,在转录放射学家的行政指令的情况下,不需要放射线学的上下文,而是更为有限的涉及一般指令的上下文就足够了。同样应用在报告的摘要被转录的情况下,并且例如实际上已经提前知道了在摘要中将主要使用标准公式或者标准短语。同样应用在文档中的结构是通过不同语言给出的情况下,例如在各部分中使用。因此,例如在可提供第一语言模型或者第二语言模型的情况下,保证在自动选择各个语言模型的情况下发生转录,并且如果适用,可根据由两种不同语言、不同的编辑人员给出的结构,随后进一步有选择地处理文档。
通过提供如权利要求6或者权利要求13所述的措施获得的优势在于,通过转录产生的文档的所有文本元素能够没有问题地并且最重要地以正确的序列连贯地再现,而没有文本元素被忽略。
通过提供如权利要求7或者权利要求14所述的措施获得的优势在于能够实现文本部分连贯的有声再现,一方面是通过转录音频信号而产生的,而另一方面是通过除了转录音频信号之外的方式产生的。以其他方式产生的这种文本部分能够例如通过将文本手动输入到文档中或者通过插入预定文本元素或者文本对象,例如表格的域名,或者通过插入预定文本块,或者通过校正通过转录而产生的文本而产生。
参照下文所述的实施例本发明的这些和其他方面将显而易见并且将被阐明。
下面基于附图所示的设计示例进一步详细描述本发明,然而本发明并不限制于此。
附图说明
图1以方块图的形式示意性地显示了根据本发明实施例的设备。
图2以纯文本显示了包含在借助于根据图1的设备进行处理的文档中的一些信息。
图3以纯文本显示了相对于根据图2的文档结构而划分的关系数据,再现文档的音频信号的信号部分和文本的文本部分之间的至少一个时间关系。
具体实施方式
图1所示的是设计为将文档DO的包含信号部分SP的音频信号AS转录为包含文本部分TP的文本的设备1。音频信号表示说话者给出的口述。图2所示的是预计用于再现信息的文档DO,该信息至少部分地对应于通过转录所获得的文本部分TP。在当前情况下,文档DO具有不对应于转录的文本部分TP的模板部分,例如预定的表格域名“作者:(Author:)”或者“日期:(Date:)”,其在文档模板中是以固定方式设置的。
设备1具有第一输入IN1,在此能够将音频信号AS提供给设备。要注意的是如果设备1具有以非常熟知的方式设立的装置,音频信号AS也能够以其他方式提供,例如借助于数据载体或者经由数据网络以数字表示的形式。
设备1还具有第二输入IN2,在此能够将处理信号WS提供给设备;这一点是以下要详细描述的。
设备1还具有转录装置2,设计为接收音频信号AS并用于将信号部分SP转录为文本部分TP。关于这一点要注意的是,相应地调节音频信号AS对于本领域的技术人员而言是显而易见的,其中例如过滤器元件和转换元件用于转换为数字表示;这一点在此不做进一步的详细描述。对信号部分SP进行转录考虑到说话者数据(未明确示于图1中)和可选上下文而发生。上下文数据同样没有明确地示于图1中,其表示可供选择的多个上下文,其中每个上下文定义或者包括语言,语言模型和词典。说话者数据代表各个说话者。基于所提供的音频信号AS,转录装置2设计为产生文本数据TXD,表示识别的文本部分TP。
设备1还具有文档数据存储介质3,设计并提供用于存储文档DO和打算用于文档DO的模板数据TD,及文本数据TXD。转录装置2设计为与文档数据存储介质3一起工作以能够将文本数据TXD插入到文档DO打算提供给该文本数据的区域。而且借助于文档数据存储介质3能够存储表示被插入到文档DO中的对象OO的对象数据OD;这一点下面将进一步详细描述。
设备1还具有文档处理装置4,设计为经由第二输入IN2接收处理信号WS。考虑到处理信号WS,文档处理装置4还设计为产生并传送处理数据WD,其被提供用于改变借助于对文档数据存储介质3中的信号部分SP的转录所产生的文本部分TP。借助于文档处理装置4,例如图2所示的、明显被错误识别的文本部分TP能够在时间标记t93和t100之间被校正,示例为删除文本标记t93和t100之间的这些文本部分TP并将经校正的文本部分TP’插入到文本标记t100和t101之间。对于通过校正手段所获得的其他文本部分TP’,在音频信号AS中没有对应的信号部分SP,因为它们是手动插入的。这同样适用于图2所示的对象OO。
转录装置2还设计为产生和传送相关于音频信号AS内信号部分SP的时间tn中的开始点和时间tm中的结束点的信息,以及相关于表示借助于转录装置2分别产生的文本部分TP数量的文本部分数量WN的信息。
设备1还具有设计为产生关系数据RD的关系数据产生装置5,这些关系数据RD表示各个信号部分SP和各个至少一个转录的文本部分TP之间的时间关系。为此,关系数据产生装置5设计为接收和处理相关于音频信号AS内信号部分SP的时间tn中的开始点和时间tm中的结束点的信息,以及相关于文本部分数量WN的信息。关系数据产生装置5还设计为传送关系数据RD。
设备1还具有设计为识别文档DO结构的结构识别装置6,下面将详细描述。
为了识别文档DO结构,结构识别装置6具有设计为关于一结构分析文档DO的第一分析阶段7。第一分析阶段6[sic]设计为访问文档数据存储介质3并读取和考虑模板数据TD。第一分析阶段6[sic]设计为作为其分析的结果传送第一分析数据AD1,该分析数据表示基于模板数据TD可识别的文档DO结构。在当前情况下,该可识别结构涉及存在预计用于输入文本的两个表格域,安置在两个表格域名“作者:(Author:)”和“日期(Date)”的附近。然而可识别结构也能够通过图片或者不可改变的文本段实现。对于这一点要注意的是,除了对于文档用户可视的结构元素之外,在文档的正常使用中甚至也考虑不可见的结构元素,这是通过设置来定义的,例如在当前字处理程序的情况下称为所谓的书签或者所谓的构造,并且不被计算在通过文档将为用户再现的信息之内,因为它们主要用于与输入控制、输出控制、或者文档自动处理有关的方面。
为了识别文档DO的结构,结构识别装置5还具有第二分析阶段8,设计为关于文档DO的结构分析所获得的文本部分TP。第二分析阶段8设计为接收由信号部分SP转录的文本数据TXD,并用于关于说话者发出的结构指令分析文本数据TXD,其中结构指令被预计用于或者适用于产生和/或改变和/或设定文档DO中的结构。这可以包括诸如给要被格式化为标题的各条文本的口头格式分配(诸如打算用于格式化标题的标题格式的分配),或者还插入、删除或者重写通过口述头命令实现的文本部分TP。
第二分析阶段8还设计为有关借助于处理数据WD对文档DO的当前结构进行的修改,或者有关文档DO中最近定义的结构接收处理数据WD并分析处理数据WD。例如,这可以包括对标题层次的修改或者插入或删除诸如图片、文本或者对象之类的元素,对于这些元素而言在音频信号AS中不存在对应的信号部分SP。同样对于这一点要注意的是,第二分析阶段8也能够设计为访问文档数据存储介质3并用于分析通过语言或者手动处理产生的文档DO的结构。
第二分析阶段8类似于第一分析阶段7设计为传送表示分析结果的第二分析数据AD2。
设备1还具有结构描述装置9,设计为接收第一分析数据AD1和第二分析数据AD2以及关系数据RD。结构描述装置9设计为借助于第一分析数据AD1和第二分析数据AD2用关系数据RD描述由分析数据AD1和AD2所表示或者识别的文档DO的结构。结构描述装置9还设计为传送关于文档DO结构所构造的关系数据SRD,在当前情况下其表示图3中所示的逻辑分组的关系数据RD。
设备1还具有设计为存储构造的关系数据SRD的关系数据存储介质10。提供结构描述装置9来访问关系数据存储介质10,其中构造的关系数据SRD能够存储在关系数据存储介质10中,或者已经存储的关系数据SRD能够被修改。
在图3中,以纯文本再现的是对图2所示的文档DO构造的关系数据SRD的描述。图3显示了逐行列出的条目,所述条目对应于文档DO的元素并借助于数字1到56来计数。第一列C1显示了各个文档条目的号码。第二行[sic]C2显示了音频信号AS内信号部分SP时间内的各个起始点,其对应于经由各个号码的文档DO的元素,例如由信号部分SP转录的文本部分TP。第三列C3显示了上述音频信号AS内信号部分SP时间内的各个结束点。从图3中可以看出,借助构造的关系数据表示的文档条目不仅涉及借助于音频信号AS的转录而产生的那些元素,也涉及以其他方式产生的那些元素,并且这些元素位于音频信号AS的信号部分SP之间的文档中,例如行4O和52的元素。对于各个文档条目,列C4表示了对文档DO中包含的结构的从属关系(affiliation)。这里要特别指出的是,即使是诸如在时间标记t78和t79之间或者在时间标记t100和t101之间记录的那些文档条目之类的文档条目,都是以关系数据RD表示的,对于这些文档条目不存在音频信号AS,以便能够日后保证(如果必要的话)对包括或者忽略这些元素的音频信号AS的音频再现,或者(保证)能够回顾信息和/或修改文档。
设备1还具有设计为存储音频数据AD的音频数据存储介质11,所述音频数据AD表示音频信号AS并由转录装置2传送到音频信号存储介质11。音频数据AD以非常熟知的数字表示方式来表示音频信号AS,其中能够访问信号部分SP以备之后用于考虑构造的关系数据SRD来再现音频信号AS。
转录装置2还可以依据所识别的文档DO结构,也就是依据构造的关系数据SRD而配置,其中在当前情况下依据该结构在三个不同上下文之间作出选择。因此如果识别到我们在处理结构元素“报告标题”,则选择第一上下文,以及如果是结构元素“章节标题”,则选择第二上下文,以及如果是结构元素“文本”,则选择第三上下文。由此,可以保证一出现结构元素“文本”,就提供具有最大词法作用域(lexical scope)的上下文,这通常对于涉及结构元素“报告标题”或者“章节标题”的信号部分SP的转录是不必要的。而且,如果识别的是它包括结构元素“作者”,则选择第四上下文-实质上与名字相关。而且,如果识别的是它包括结构元素“日期”,则选择第五上下文-实质上与详细日期相关。
对于这一点要注意的是,考虑到所识别的结构、语言或者语言模型在不同说话者数据之间作出选择。同时要提到的是,只有在所识别的结构已经到达构造的关系数据SRD时对转录装置2而言不需要考虑文档DO的结构,而一旦这些识别的结构由结构识别装置6例如直接传送到转录装置2,那么所述结构已经基于第一分析数据AD1和/或基于第二分析数据AD2被纳入考虑。
设备1还具有调整装置12,设计为借助于构造的关系数据SRD调整转录装置2的各个上下文。为此,调整装置12设计为从关系数据存储介质9读取构造的关系数据SRD,并且用于从文档存储介质3读取文本数据TXD,以及用于分析使用构造的关系数据SRD的文本数据TXD,和/或用于在第一次产生并存储文本数据TXD之后,借助于构造的关系数据SRD分析对已经记录的文本数据TXD的修改。作为文本数据TXD的分析结果,调整装置12设计为将改变或者调整信息CI传送到转录装置2,借助于该信息能够调整各个上下文这样今后对于转录而言能够得到更好的结果。
设备1还具有再现控制装置13,设计为鉴于所识别的文档DO结构以与在文档DO的文本部分TP的视觉再现情况下所转录的文本部分TP的视觉重点同步地实现音频信号AS的信号部分SP的有声再现。为此,再现控制装置13设计为访问存储在关系数据存储介质10中的构造的关系数据SRD,并用于访问存储在文档存储介质3中的那些文本数据TXD,利用构造的关系数据SRD将它们标识为存在信号部分SP的那些文本数据TXD,其是利用音频数据AD表示的。再现控制装置13还设计为访问音频数据AD中的信号部分SP,这些信号部分SP被记录在构造的关系数据SRD中的各个时间标记tn和tm限制在时间段内。再现控制装置13还设计为将表示各个信号部分SP的音频数据AD同步传送到第一再现设备14,并用于将时间顺序相应的文本显示控制数据TDCD发送到第二再现设备15。利用文本显示控制数据TDCD,首先能够将文档DO的信息传送到第二再现设备15,该设备设计用于视觉再现该信息,而其次能够定义各个文本部分TP的同步重点,同时以音频数据AD的形式将对应于此的信号部分SP传送到第一再现设备14。
在当前情况下,由具有集成扬声器的音频放大器实现的第一再现设备14和由监视器实现的第二再现设备15都分别经由分配的信号输出OUT1和OUT2连接到设备2。然而对于这一点要提出的是,两个设备14和15也可以由经由设备2的一个单个信号输出连接到设备2的组合设备形成。而且,两个设备14和15也可以集成在设备1中。
设备1具有设计为将文本数据TXD合成到合成语音中的语音合成装置16,这使得合成装置可以为音频信号AS中不存在信号部分SP的那些文本部分TP’实现有声再现。语音合成装置16在输入端连接于再现控制装置13,而在输出端连接于信号输出OUT1。
再现控制装置13还设计为与语音合成装置16相协作,并且利用语音合成装置16来实现其他文本部分TP’的有声再现,所述文本部分TP’是通过转录音频信号AS所获得的文本部分TP之外另外产生的,这些其他文本部分TP’位于通过转录文档DO中的音频信号AS所获得的文本部分TP的邻近。如果必要的话,通过对再现控制装置13的监视,如果这些其他文本部分TP’例如已经到达文档DO作为对象OO的组成部分或者通过校正,则可以在再现其他文本部分TP’期间执行音频信号AS的再现的中断,如基于图2所示。
下面基于根据图1的设备1的设计示例说明设备1的操作方法。
根据应用示例,假设商人口述关于商业计划的报告。利用连接于第一输入IN1的麦克风产生音频信号AS并提供至设备1。
利用设备1能够执行转录音频信号AS的方法。口述开始时,图2所示处于其最终处理状态的文档DO实质上是空的,并且只具有预定的、不可改变的模板数据TD,表示预定的表格域名,并且实际在当前情况下表示表格域名“作者:(Author:)”和“日期(Date:)”。
对于该方法,信号部分SP被转录为对应的文本部分TP,并产生表示各个信号部分SP和各个至少一个转录的文本部分TP之间的当前关系的关系数据RD。
在当前情况下,商人首先口述以下词语:“作者:MichaelSchneider”。
为了提高识别和转录处理,利用设备1识别文档DO的结构并且以关系数据RD描述识别的文档DO的结构。为此,由接收音频信号AS开始,利用第一分析阶段7分析文档DO的结构并确定存在两个上述的表格域名。第一分析数据AD1表示该分析结果,其是通过产生构造的关系数据SRD利用结构描述装置9以关系数据RD描述的,并且在转录装置2的情况下被用来丢弃表示口语字“作者:”的信号部分。而且,对于转录选择第四上下文,其中只有一些已知姓名供以选择。这促进并提高了图2所示的文本时间标记t1到t4之间包含的字的转录。日期转录类似地进行;这是利用几个信号部分SP来表示的,使用第五上下文。这里,在时间标记t5和t6之间出现的信号部分SP被集合在一起,因为在识别到表示日期的结构元素时,转录装置2应用预定的日期格式。
在口述表格域的条目之后,商人可以定义用于随后文本的任何结构。为了考虑这一点,根据该方法,关于要产生的文档DO的结构分析所识别的文本部分TP,也就是文本数据TXD。因此例如商人口述了下列短语:“报告标题商业计划报告(Report heading Business PlanReport)”。利用第二分析阶段8,使用所识别的文本部分TP接着识别到这是涉及文档DO的主标题的结构元素。
因此,在时间标记t7、t8和t9、t10和t11、t12之间识别的文本部分TP被分配了结构元素“报告标题”,如图3所示,逻辑分组的关系数据RD作为构造的关系数据SRD产生。
在基于字“报告标题”识别了该结构元素之后,基于所识别的结构元素,对于转录装置2,配置转录装置2以使用第二上下文,其包括每天的商业上下文中标题的最普通表达。
商人继续口述“章节标题介绍(chapter heading introduction)”,这同样导致另一个结构元素,即结构元素“章节标题(chapterheading)”被识别。在这种情况下,选择第二上下文,然而其与涉及主标题的上下文相比,具有更宽的词法作用域。而且,与时间标记t13和t14之间的信号部分SP对应的识别的文本部分TP由结构元素“章节标题”标记在关系数据存储介质9中。
因为在接下来的口述短语中没有出现其他口述的构造指令,该指令由时间标记t15到t44之间的信号部分SP表示,选择包含最大词典的上下文用于转录,并且这些信号部分SP的关系数据RD被分配了结构元素“文本(text)”。
之后,再次基于口述的文本识别结构元素“章节标题”,并且与时间标记t45和t46之间的信号部分对应的文本部分TP被逻辑上分配给该结构元素。
由于缺乏任何可识别的结构元素,在时间标记t47到t78的范围内要说的下一个句子被分配了结构元素“文本”,其中再次将具有最大词典的第三上下文应用于转录。
之后,商人将既有图片又有文本的对象OO插入到文档DO中;然而没有音频信号AS与该文本相对应,因为它是通过原文输入产生的。在当前情况下利用触摸输入装置18,即连接于第二输入IN2的键盘以及字处理介质4实现插入对象OO。然而要提到的是,插入对象OO可以通过利用转录装置2转录的口述命令来产生,并且识别为命令以及由设备1中的其他装置(这里未示出)执行。因此,在当前情况下利用第二分析阶段8识别插入对象OD[sic],并且在关系数据存储介质9中记录该对象存在于时间标记t78和t79之间。
位于时间标记t79和t100之间的下一个口述文本最初被分配给结构元素“文本”。然而,在使用第三上下文的转录中,在时间标记t93和t100之间出现错误,该错误由商人利用输入装置18校正。为此,删除时间标记t93和t100之间的文本部分TP,并且加入替换删除的文本部分TP的新文本部分TP’并设置在时间标记t101之前。借助于第二分析阶段8在文档DO中记录或者识别该变化,并且利用结构元素“跳过的文本(text to skip)”来标记原来放在时间标记t93和t100之间前面的文本部分TP,这样在有声再现存储的音频数据AD的情况下跳过这些文本部分TP。而且,利用结构元素“插入的文本:没有音频(text inserted:no audio)”来标记在时间标记t101之前的手动输入的其他文本部分TP’,该结构元素定义了这样的事实:这是随后校正或者修改过的口述文本,并且对于新添加的文本部分TP’没有相应的信号部分SP包含在存储的音频数据AD中。
在口述中接着出现的信号部分SP由结构元素“文本”表征在关系数据存储介质9中,因为没有其他结构元素能够利用结构识别装置5来识别,因此不能被分配。
文本口述之后可能地校正口述的文本,根据该方法,商人启动再现模式,借助于此能够实现对转录的音频信号AS的准确视听追踪,同步于分别由时间标记tn和tm表示的信号部分SP所对应的文本部分TP的视觉重点,其中同步视听再现文本部分TP和信号部分SP是利用构造的关系数据SRD进行的。由此可以实现,例如对于视觉重点文档OD的非口述元素被跳过或者忽略。
根据该方法还可以保证,除了通过转录音频信号AS产生的文本部分TP之外产生的其他文本部分TP’是利用能够由合成装置也就是语音合成装置16产生的语音再现的。该方法还保证,如果其他文本部分被插入到通过转录产生的文本部分TP之间,则必要的话中断在再现其他文本部分TP’的过程中再现音频信号AS。
由此可以实现,根据文档DO中校正或者插入的位置,也将它们考虑以正确顺序或者以与通过转录而产生的文本部分TP的正确连接再现。
在当前情况下设备1是由具有计算单元和内部存储器、运行计算机程序产品的计算机实现的,未示于图1中。计算机程序产品存储于计算机可读数据载体或者介质上,未示于图1中,例如DVD或者CD或者非易失性半导体存储器。计算机程序产品也能够从计算机可读介质加载到计算机的内部存储器,这样借助于计算机,在计算机程序产品在计算机上运行时执行根据本发明用于将信号部分SP转录为文本部分TP的方法。
对于这一点要注意的是,设备1也能够通过分布于计算机网络上、作为一个计算机系统运行的多个计算机实现,这样设备1的各个功能就能够例如由各个计算机接管。
要注意的是,即使已经以其他方式获得的其他文本部分TP’位于通过转录获得的文本部分TP的开始或者结尾,都保证同时再现文本部分TP和其他文本部分TP’。
要注意的是,构造的关系数据SRD也可以包括口述或者手动启动的命令,由此另一个贡献在于回顾能够由文档再现的信息的形成的能力。
还要注意的是根据本发明的设备还可以被私人地使用或者用于医疗目的或者用于安全性管理领域,其中这种举例并不是决定性的。
关于信号部分SP和通过转录获得的文本部分TP之间的分配,要注意的是例如口述词语“今天(Today)”被识别为连贯的(coherent)信号部分SP,而来自几个文本部分TP的即“2003年11月31日(31stNov.2003)”是通过转录产生的,这样在当前情况下关系数据RD再现一个单一信号部分SP和三个文本部分TP之间的时间关系。对于这一点还要注意的是,信号部分SP和通过转录获得的文本部分TP之间的分配也能够这样规定,以便例如由至少三个信号部分SP(即表示字“31”和“十一月(November)”和“2003”的那些信号部分表示的)口述日期“31stNov.2003”集中在一起转录为一个单一文本部分TP,例如“今天(today)”或者“明天(tomorrow)”或者“昨天(yesterday)”,这样在当前情况下关系数据RD再现了三个信号部分SP和一个文本部分TP之间的时间关系。

Claims (17)

1.一种用于将文档(DO)的包含信号部分(SP)的音频信号(AS)转录为包含文本部分(TP)的文本的方法,该文档(DO)被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分(TP),该方法具有以下所列出的步骤,即:
将信号部分(SP)转录为文本部分(TP),以及
产生表示各个至少一个信号部分(SP)和各个通过转录所获得的至少一个文本部分(TP)之间的至少一个时间关系的关系数据(RD),以及
识别文档(DO)的结构,以及
以关系数据(RD)描述所识别的文档(DO)的结构。
2.如权利要求1所述的方法,其中识别文档(DO)的结构通过分析文档(DO)而进行。
3.如权利要求1所述的方法,其中识别文档(DO)的结构通过分析所识别的文本部分(TP)而进行。
4.如权利要求1所述的方法,其中描述所识别的文档(DO)的结构通过逻辑分组关系数据(RD)而进行。
5.如权利要求1所述的方法,其中提供用于转录文本部分(TP)的转录装置(2)是依据所识别的结构而配置的。
6.如权利要求1所述的方法,其中有声再现音频信号(AS)的信号部分(SP)是在与具有文本部分(TP)的视觉再现的已转录的文本部分(TP)的视觉重点相同的时间进行的,并且在此期间将所识别的文档(DO)的结构纳入考虑。
7.如权利要求3所述的方法,其中其他文本部分(TP’)是除了通过转录音频信号(AS)所获得的文本部分(TP)之外另外产生的,这些其他文本部分(TP’)位于通过转录文档(DO)中的音频信号(AS)所获得的文本部分(TP)的邻近,利用能够由合成装置产生的语音进行再现,以及其中必要的话在再现其他文本部分(TP’)的期间中断音频信号(AS)的再现。
8.一种用于将文档(DO)的包含信号部分(SP)的音频信号(AS)转录为包含文本部分(TP)的文本的设备(1),该文档(DO)被预计用于信息的再现,该信息至少部分对应于通过转录所获得的文本部分(TP),
具有用于将信号部分(SP)转录为文本部分(TP)的转录装置(2),以及
具有设计为产生关系数据(RD)的关系数据产生装置(5),这些关系数据(RD)表示各个至少一个信号部分(SP)和各个通过转录所获得的至少一个文本部分(TP)之间的至少一个时间关系,以及
具有设计为识别文档(DO)结构的结构识别装置(6),以及
具有设计为以关系数据(RD)描述所识别的文档(DO)结构的结构描述装置(9)。
9.如权利要求8所述的设备(1),其中结构识别装置(6)是利用设计为关于其结构分析文档(DO)的第一分析阶段(7)来实现的。
10.如权利要求8所述的设备(1),其中结构识别装置(6)是利用设计为关于文档(DO)的结构分析所获得的文本部分(TP)的第二分析阶段(8)来实现的。
11.如权利要求8所述的设备(1),其中结构描述装置(9)设计为逻辑分组关系数据(RD)。
12.如权利要求8所述的设备(1),其中转录装置(2)能够依据所识别的结构而配置。
13.如权利要求8所述的设备(1),其中提供再现控制装置(13),设计为鉴于所识别的文档(DO)的结构在与在文本部分(TP)的视觉再现情况下所转录的文本部分(TP)的视觉重点相同的时间实现音频信号(AS)的信号部分(SP)的有声再现。
14.如权利要求13所述的设备(1),其中提供设计用于将文本部分(TP,TP’)合成为语音的语音合成装置(16),并且其中利用语音合成装置(16),再现控制装置(13)设计为实现对除了通过转录音频信号所获得的文本部分(TP)之外另外产生的其他文本部分(TP’)进行有声再现,这些其他文本部分(TP’)位于通过转录文档(DO)中的音频信号(AS)所获得的文本部分(TP)的邻近,其中必要的话在再现其他文本部分(TP’)的期间中断音频信号(AS)的再现。
15.一种适于转录音频信号(AS)的计算机程序产品,其能够直接加载到计算机的存储器内并包括软件代码部分,其中利用计算机在计算机程序产品在计算机上运行时能够执行如权利要求1所述的方法。
16.如权利要求15所述的计算机程序产品,其中计算机程序产品存储于计算机可读介质上。
17.一种具有计算单元和内部存储器的计算机,其运行如权利要求15所述的计算机程序产品。
CNA2004800350512A 2003-11-28 2004-11-24 转录音频信号的方法和设备 Pending CN1886726A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104444 2003-11-28
EP03104444.9 2003-11-28

Publications (1)

Publication Number Publication Date
CN1886726A true CN1886726A (zh) 2006-12-27

Family

ID=34626426

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800350512A Pending CN1886726A (zh) 2003-11-28 2004-11-24 转录音频信号的方法和设备

Country Status (5)

Country Link
US (1) US20070067168A1 (zh)
EP (1) EP1692610A2 (zh)
JP (1) JP2007512612A (zh)
CN (1) CN1886726A (zh)
WO (1) WO2005052785A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
CN101326573A (zh) 2005-12-08 2008-12-17 皇家飞利浦电子股份有限公司 动态创建语境的方法和系统
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US9412372B2 (en) * 2012-05-08 2016-08-09 SpeakWrite, LLC Method and system for audio-video integration

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
US6813603B1 (en) * 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US7444285B2 (en) * 2002-12-06 2008-10-28 3M Innovative Properties Company Method and system for sequential insertion of speech recognition results to facilitate deferred transcription services

Also Published As

Publication number Publication date
EP1692610A2 (en) 2006-08-23
WO2005052785A2 (en) 2005-06-09
US20070067168A1 (en) 2007-03-22
JP2007512612A (ja) 2007-05-17
WO2005052785A3 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
CN105245917B (zh) 一种多媒体语音字幕生成的系统和方法
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US7240003B2 (en) Database annotation and retrieval
US7996223B2 (en) System and method for post processing speech recognition output
US8560327B2 (en) System and method for synchronizing sound and manually transcribed text
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US20080255837A1 (en) Method for locating an audio segment within an audio file
JP2006178087A (ja) 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
US8972269B2 (en) Methods and systems for interfaces allowing limited edits to transcripts
JP2010510556A (ja) 編集可能なオーディオストリームにおける音声の認識
CN1292523A (zh) 背景声频恢复系统
CN1568501A (zh) 标注所识别文本的部分的校正装置
WO2003102920A1 (en) A method for locating an audio segment within an audio file
CN101326573A (zh) 动态创建语境的方法和系统
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2014146066A (ja) 文書データ生成装置、文書データ生成方法及びプログラム
JP4536481B2 (ja) コンピュータシステム、修正作業を支援するための方法、及びプログラム
CN1886726A (zh) 转录音频信号的方法和设备
US20060084047A1 (en) System and method of segmented language learning
US20030097253A1 (en) Device to edit a text in predefined windows
JP2012226651A (ja) 情報処理装置、情報処理方法及びプログラム
JP5802139B2 (ja) 音声処理装置及びプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication