CN1285068C - 使用上下文无关文法的文本规范化方法 - Google Patents
使用上下文无关文法的文本规范化方法 Download PDFInfo
- Publication number
- CN1285068C CN1285068C CNB988047896A CN98804789A CN1285068C CN 1285068 C CN1285068 C CN 1285068C CN B988047896 A CNB988047896 A CN B988047896A CN 98804789 A CN98804789 A CN 98804789A CN 1285068 C CN1285068 C CN 1285068C
- Authority
- CN
- China
- Prior art keywords
- text
- rule
- context
- replacement
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种文本规范化器(38),对从语音识别器(32)输出的文本进行规范化。文本的规范化所产生的文本(50),对文本的接收者来说是不太难处理的并且是更为惯用的。文本(50)可以被规范化而包括音频内容(58),视频内容(56),或者音频和视频内容的组合。文本(50)也可以被规范化而产生超文本文件(60)。文本的规范化是使用上下文无关文法进行的。上下文无关文法包括一些规定如何将文本规范化的规则。上下文无关文法可以被组成树形,用以对文本进行语法分析并使规范化简单易行。上下文无关文法是可扩充的并易于改变。
Description
本发明一般涉及数据处理系统,更具体地说,涉及使用上下文无关文法对文本进行规范化。
近年来语音识别器逐渐普及。语音识别器一般包括在计算机系统中运行的软件,用以识别单词和短语。语音识别器一般输出与它对话语输入的解释相应的文本。例如,如果讲话者讲出“dog”这个言词,语音识别器对这个言词加以识别并输出文本“dog”。
令人遗憾的是,语音识别器所产生的原文的输出常常是接受者所难以处理或不熟悉的。例如,如果讲话者讲出短语“one hundred foety seven,”语音识别器输出“one hundred forty seven”而不是数字序列“147”。语音识别器对表示数据,时间,货币量,电话号码,地址和缩写的输入所产生的原文的输出,同样地是难处理的。结果是原文输出的接受者不得不对文本进行人工编辑,使它成为更易于接受的形式。由于语音识别器正被并入文件生成软件,语音识别器若不能产生可接受的原文的输出,就会极大地减弱这类软件的效用。
本发明通过提供文本规范化的方便性,可克服现有技术的语音识别器的局限。文本的规范化产生的输出文本,更易于为接受者所接受。规范化也可包括以非原文的内容,例如音频内容,视频内容或甚至是超文本文件,替代原文的内容。
根据本发明的第一方面,一种方法在具有语音识别机的计算机系统中被实践,用以识别语音输入的内容。计算机系统接收从语音识别机来的与语音输入相应的文本。应用上下文无关文法对被接收文本的替代内容加以识别。以替代内容代替接收文本。
根据本发明的另一个方面,在计算机系统中提供了一个文件,规定对文本进行规范化的上下文无关文法的规则。从识别语音输入中的语音部分的语音识别器来的文本被接收。文本对应于语音输入。文本的至少一部分被规范化,用以替代带有已规范化的字母数字串(“字母数字”在这个上下文本中的使用扩充为包括ASCII码和单一码)。规范化包括应用上下文无关文法中的规则,以已规范化的字母数字串替代被规范的文本的一部分。
根据本发明的又一个方面,在计算机系统中提供了包括文本规范化器的应用程序接口(API)。计算机运行应用程序,并包含语音识别器,用来对语音输入的语音部分进行识别并输出与被识别的语音部分相应的文本。从语音识别器来的文本被文本规范化器接收。文本规范化器应用上下文无关文法中的规则更换文本的内容并产生已规范的文本,从而使文本被规范化。已规范化的文本被传送给应用程序。
根据本发明的再一个方面,计算机系统包括语音识别器,用来对语音输入的语音部分进行识别,并产生与被识别的语音部分相应的输出文本。计算机系统还包括含有文本规范化规则的上下文无关文法,和文本规范化器,该文本规范化器应用上下文无关文法中的至少一个规则,对语音识别器来的文本的输出进行规范化。
下面将对本发明优选实施例有关的附图进行说明。
图1是表示适用于实施本发明优选实施例的计算机系统方块图。
图2是表示适用于实施本发明优选实施例的扩充系统方块图。
图3A-3E表示不同规范化类型的语音识别器,文本规范化器和应用程序之间的数据流。
图4表示保持上下文本无文法的文本文件逻辑格式。
图5表示图4文本文件中所规定的其他规则的类别。
图6是表示使用文本文件对文本进行规范化的步骤流程图。
图7表示上下文无关文法树的一个例示部分。
图8是表示为确定何时应用上下文无关方法中的规则所进行的步骤流程图。
图9表示文本一部分的规范化的一个例子。
图10是表示应用程序接收规范化文本所进行的步骤流程图。
图11是表示用另一种上下文无关文法替换一种上下文无关文法所进行的步骤流程图。
图12是表示为编辑上下文无关文法所进行的步骤流程图。
本发明优选实施例提供一种机理,用于规范从语音识别器接收到的文本。上下文无关文法被应用于进行文本的规范化。上下文无关文法包括若干条专门用于怎样对文本进行规范化的规则。这些规则被应用于从语音识别器接收来的文本输出,以产生规范化的文本。在本发明优选实施例中,文本规范化是在一个应用程序接口(API)内进行的,这个应用程序接口可被用于接收语音输入的相应文本的应用程序调用。
本发明的优选实施例可提供多种类型的文本规范化。例如,文本可被规范,以产生规范的文本。类似地,文本可被规范,产生不同类型的中间内容。文本可被规范,产生音频内容和视频内容。文本甚至可被规范,产生替代文本的超文本文件。
本发明的优选实施例中使用的上下文无关文法是可扩充的。如下面将要详细叙述的,在文本文件中规定了上下文无关文法,这种文本文件可以用规定不同上下文无关文法的替代文本文件来代替。另外,文本文件可被编辑,以便改变上下文无关文法的内容。由于在文本文件中规定上下文无关文法,所以,上下文无关文法是人可读的。
图1表示适用于实施本发明优选实施例的计算机系统10。计算机系统10包括中心处理单元(CPU)12,它总管计算机的操作。CPU 12可由许多种不同型号的微处理器中的任何一种实现。计算机系统也可包括许多外围装置,包括键盘14,鼠标16,话筒18,视频显示器20,和扬声器22。传声器18可用于接收从扬声器来的语音输入,而场声器22可用于输出音频,例如语音。计算机系统10也包括网络适配器24,用于计算机与网络的接口,例如局域网络(LAN)或者广域网络(WAN)。熟悉技术的人员了解,许多不同型号的网络适配器可用于实施本发明。计算机系统10还包括调制解调器,使得计算机能够通过模拟电话线与远程计算资源通信。
计算机系统10另外还包括主存储器28和辅助存储器30。熟悉技术的人员知道,主存储器可被用作随机存取存储器(RAM),或其他形式的内部存储器。辅助存储器30可采用硬磁盘驱动形式,CD-ROM驱动形式,或其他类型的辅助存储装置。通常,辅助存储器30可被用作辅助存储装置,这种辅助存储装置存放计算机可读的可更换的存储媒体,例如CD-ROMs。
主存储器28可保存软件或组成语音识别器32的其他代码。语音识别器可以是语音识别机器形式,也可以包括一些辅助工具,例如字典和类似物。在May 1,1966发稿的题目为“Method And System For SpeechRecognition Using Contlnuous Density Hidden Markov Models,”ApplicatlonNo.08/655,273,的未决专利申请中,谈到一种合适的语音识别机,在这里直接并入以作参考。熟悉技术的人员了解,语音识别器32的部件也可存储在辅助存储器30。主存储器28保存语音应用程序接口(API)34,该程序接口与语音识别器32一起工作,产生与语音输入中被识别的语音相对应的文本输出。应用程序36可调用语音API34,以接收与语音输入中被识别的部分相关的文本输出。这些应用程序36可包括口授录音应用程序,字处理程序,输送页程序和类似的。语音API34可包括用于进行文本规范化的文本规范化器38。文本规范化器38是对语音API34从语音识别器32接收到的文本负责进行规范化的资源。下面,将对本文规范化器38所进行的规范化类型给于详细叙述。
熟悉技术的人员了解,文本规范化器38不必是语音API34的一个部件,而宁可作为单独的入口存在,或者可合并到语音识别器32。语音识别器使用如图1所示的上下文无关文法40,它被存储在辅助存储器30中。熟悉技术的人员了解,上下文无关文法40也可存储在主存储器28中。
应当了解,图1所表示的计算机结构仅仅是为了说明,而不限制本发明。本发明可用其他的计算机系统结构实施。这些其他的结构可以包括比图1表示的结构少几个部件,也可包括不同于图1所示的附加的部件。此外,本发明不必用单个处理计算机实施,而宁可在多个处理机的环境中实施,包括多处理器和分布式系统。
图2表示一个例子,在这里,计算机系统10是接入网络44的客户计算机。这个网络44可以是LAN或者WAN。网络44可以是互连网,局内网或者局外网。客户计算机10包括连网支持42。连网支持42可包括网络操作系统、常规操作系统或者甚至网浏览器。连网支持42允许客户计算机10与网络44中的服务器46通信。服务器46可保存媒体内容48,例如规范化文本要用的音频数据,视频数据,电文数据或者客户计算机所用的超文本文件。
如上所述,文本规范化器38规范从语音识别器32接收到的文本,以产生规范的内容。图3A表示语音识别器32,文本规范化器38和应用程序36之间的数据流程。通常,语音识别器32输出文本50,该文本对应于通过传声器从语音输入接收到的,或者存储在辅助存储器30中的所识别的语音部分。文本50可每次向文本规范化器38输出一个字。但是,熟悉技术的人员了解,语音识别器32的所产生的文本输出颗粒度是可变化的,并且可包括字母,或者甚至是短语。文本规范化器38产生规范化的内容52,传递到应用程序36。
图3B表示一个例子,在这里,文本规范器38产生规范化的文本54,传递给应用程序36。规范化的文本54包括能代替由识别器32已输出的文本50的替代文本。但是,如图3C所示,文本规范化器38可以作另一种规范化,产生图像数据56,例如位图,元文件,或者其他表示形式图像,传递给应用程序36。文本50可规定表现图像的标识符。在这个例子中,文本规范化器38用标识别符标识的实际图像表现,来代替标识符。
图3D表示一个例子,在这里,文本规范化器38接收从识别器32来的文本50,并产生与规范化的内容相同的音频内容58,在这种情况下,文本50可识别一个保存音频数据的音频夹子,或者文件。这个标识符在规范化时可用与文件关联的音频文件夹子代替。另一方面,文本可以是规范化器38能有音频表现的字或短语,而希望以音频表现代替字或短语。
图3E表示一个例子,在这里,文本规范化器38接收从语音识别器32来的文本50,并且向应用程序36输出超文本文件60。文本50可包括标识符,例如与超文本文件60关联的均匀的资料位置(URL)。当文本规范化器38接收需要规范的文本50时,使用关联的超文本文件60代替文本。
应当了解,文本规范化器可以组合所得到规范化的不同类型的中间内容,再传送给应用程序。也应当了解,文本规范化器38可以凭借网络44中的中间内容或资源,以实现规范化。为了简单和清楚的目的,下面集中讨论如图3B所表示的例子,在这里,文本规范化器38对文本50进行规范化,产生规范化的文本54。
如上所述,上下文无关文法40作为文本文件被存储起来。文本文件保持上下文无关文法的规则的规定。图4表示文本文件62的逻辑结构。文本文件分成三个主要部分64、66和68。每个部分都用文本文件62中的标题或者标记来描写(例如,“[spacing],”“[capitalization],”“[Rules]”)。第一部分是空格部64,它规定上下文无关文法有关空格的规则。这些规则被做成一个表。在这个表中的规则规定的一个例子如下:
左 | 右 | 替代 | 开关 |
“.”“.” | “”“” | “00”“0” | {1}{!1} |
这个表包括:“左”列,它规定出现在左边的字符,“右”列,它规定出现在右边的字符,“替代”列,它保持建议的右字符的替代,以及“开关”列,它规定规则是否有效。上述例子中的第一规则规定,如果句号(也就是左字符)后跟一个空格(也就是右字符),则单个空格被两个空格代替。开关列保持值“1”,指示这条规则是有效的。第二规则(在上例第一规则下面的规定)指示的是句号只被单个空格跟随。然而,开关列保持值“!1,”,则指示规则无效。
应当注意,用户接口,例如特性图表,或被提供而允许用户选择哪个空格规则有效。用户的选择被用来设置表中的开关段。
大写字母部分66也被组织为一个类似空格部分54提供的表。这个部分66保持大写字规则,例如跟在结束句子的句号后面的字中,第一个字母被大写。这些规则也被执行为可开关的,以便用户可对大写字母选项进行选择。
第三部分是另外一个规则部分68。这个另外的规则部分保存许多不同的与大写字母或空格无关的规定。这个部分用“规则”标题或标记来描写。这种规则的一个例子如下:
<Digits>=[1+]<0..9>
<0..9>=zero“0”
<0..9>=one“1”
<0..9>=nine“9”
这个规则指示所写的数字可包括一个或多个包含数字的字,并且,规则还规定数字可代替所写的数字串(也就是,“1”可替代“one”)。
图5表示根据本发明优选实施例可被执行的其他规则的类别。词汇表类型规则70规定用替代文本代替文本。用户可键入这样的替代,作为词汇表的一部分,以允许缩短将文本加入到文件中的途径。数码类型72包括这样的规则,该规则规定用唯一包含数字的数字表示,代替所写的字型(也就是一个字串)。例如,在这个规则类型72的应用规则中,用“147”可代替“One hundred forty seven”。
日期类型74包括关于如何对日期的说法进行规范化的一些规则。例如,输出文本“april first nineteen ninety seven”被规范化为“April 1,1997.”
货币类型76保存对货币量的说明进行规范化的规则。例如,短语“tencents”用这个类型76的规则规范化为“10?”。
时间类型78保存用于对时间的说明进行规范化的规则。例如,用这个类型78中的规则,文本“four O’clock in the afteruoon”可规范化为“4p.m.”。
分数类型80将分数规范化为数学形式。因此,用这个类型80的规则,文本“one-fourth”可规范化为“1/4”。
首字母缩写词类型82对规定首字母缩写词的文本进行规范化。例如,使用这个类型82的规则,文本“CIA”可规范化为“CIA”。
地址类型84包括对地址的说明进行规范化的规则。例如,用这个类型84中的规则,字串“one hundred fify sixth”可规范化为“156th”。
电话号码类型86电话号码的说明进行规范化。当用户说电话号码时,语音识别器可将电话号码解释为一串数字。例如,用这个类型86中的规则,字串“nine three six three zero zero zeyo zero”可规范化为“939-3000”。
城市,州,由政编码类型88保存规定如何显现城市,州和邮政编码序列的规则。例如,用这个类型88中的规则,文本“Seattle Washington nineeight zero five two”可规范化为“Seattle,WA98052”。
测量单位类型90是关于测量说明的规则。例如,用这个类型90的规则,文本“nineteen feet”将规范化为“19ft”。
熟悉技术的人员将了解,文本文件62可具有与图4表示的不同格式。另外,文本文件62可包括用音频内容或视频内容代替文本的规则。这些规则也可包括用超文本文件代替文本。熟悉技术的人员将了解,上下文无关文法在实施本发明时不必规定为文本文件。
熟悉技术的人员还将了解,与图5表示的那些规则不同的一些附加类别的规则可被利用。更进一步说,只有少量的规则类别或不同的规则类别与图5表示的不同。
为了利用上下文无关文法40,文本文件62必须被读出,并且进行处理。图6是表示利用规范化文本的上下文无关文法所执行的步骤流程图。首先,保存上下文无关文法的文本文件62被读(图6的步骤92)。使用保存在这里的内容建立上下文无关文法的树形表示法(图6的步骤94)。这个树形表示法被用来对从语音识别器32接收到的输入文本进行分析。树的每个路径规定规范文本的规则部分。因此,从语音识别器32接收到的文本由文本规范化器38进行处理,以便将文本与树中包含的规则进行比较,并进行适当的规范化。所以,文本从语音识别器接收进来(图6的步骤96),并被规范化(图6的步骤98)。树基本上起分析机构的作用,用于决定从语音识别器32接收到的文本什么部分应当规范化,以及这一部分应当如何被规范化。
图7表示一个根据从文本文件读出的规则建立的树的一部分的例子。树以二进制形式存储为最佳。子树规定前面已经在文本文件62中作为例子提供的规则所说明的“Digits”规则部分。树包括后跟数字规则节点102的开始规则节点100。节点104和106规定,如果接收的文本是“zero”,则文本是被规范化,并用“0”代替的。类似地,节点108、110、112和114分别指示用“1”代替“one”以及用“9”代替“nine”。
用一个例子说明图7所表示的子树怎样被使用,是有帮助的。假定,文本规范化器38接收串“zero”,文本规范化器从开始规则100开始,然后确定,串“zero”规定一个数字。后面的路径是到104,确定存在着匹配。文本规范器然后使用节点106所规定的替代或被规范化的串“0”,对所接收的串进行规范化。
规则的应用不必要以逐字为基础。而是系统在寻找能应用于从语音识别器32接收到的文本中的最长一串的规范化规则。图8是表示应用规则所进行的步骤流程图。通常,当至少完整的规则已被识别,没有另外的规则部分能被应用时,将应用这个规则。因此,在图8的步骤116中,文本规范化器判定:对文本的给定部分的规范化规则是否找出。如果文本规范化器已找出规则(看图8的步骤116),则文本规范化应用这个规则对非规范化文本中的最长串进行规范化(图8的步骤120)。应当注意,可能有可应用多个规则的情况,这里就必须有确定实际利用哪个规则的标准。本发明优选实施例采用对非规范化串中的最长部分进行规范化的规则。但是,如果判定存在已用过的规则要进一步应用时(看图8的步骤116),则另外的规则部分被应用(图8的步骤118)。
用一个例子说明何时应用规则并如何进行规范化,是有帮助的,图9表示一个文本串“five chickens at twenty cents each.”的例子。这些字被存储在由文本规范化器38使用的文本缓冲器122中。第一个字,“five,”由文本规范化器38处理,以确定是否存在任何适配的规则。数字规则126,对这个字将是适配的。在应用规则之前,文本规范化器38注意到下一个字“chickens”,由于没有规则可应用于短语“five chickens,”,文本规范化器38知道已经完成了规则的查找(看图8步骤116),并应用数字规则,用“5”代替“five”。值“5”被存储到已处理缓冲器124中,该缓冲器保存已规范化的文本输出。
系统没有关于“chickens”的规则,所以,将这个字传送到已处理缓冲器124。类似地,文本规范化器38没有关于字“at”的规则,所以,将这个字“at”传送到处理缓冲器124。但是,当文本规范化器38遇到“twenty,”时,具有可应用的数码规则(数码规则128)。在实际使用规则之前,文本规范化器38注意到下一个字“cents”,判定没有规则对短语“twenty cents”进行规范化。结果,数码规则128用“20”代替“twenty”。随后,流通规则130用
代替“cents”。最后,字“each”不作规范化,以文字形式传送到处理缓冲器124。
如上所述,文本规范化器38在语音API34被使用。图10是表示在这个上下文中如何使用文本规范化器的步骤流程图。最初,应用程序36调用语音API34,以接收输入语音的文本解释(图10的步骤132)。语音识别器处理语音输入,以产生文本的输出(图10的步骤134)。文本规范化器38然后对文本进行如上所述的规范化(图10的步骤136)。语音API34将已规范的内容向前输送,请求应用程序36(图10的步骤138)。
本发明优选实施例的优点是灵活的可扩充的。上下文无关文法是可扩充的,其内容可改变,可增加,或者可规定一套新的上下文无关文法。图11是表示用新的上下文无关文法代替现有的上下文无关文法所进行的步骤流程图。现有的上下文无关文法可通过提供新的文本文件来替换。新文本文件保存新的上下文无关文法的规定。计算机系统10读上下文无关文法的新文本文件(图11的步骤140)。文本文件中的信息被利用来建立新上下文无关文法的新树形(图17的步骤142)。然后新树被用于对文本进行规范化(图11的步骤144)。
每次用户希望改变上下文无关文法时,不需要替换整个文本文件,而只要对文本文件进行编辑。图12是表示以这种方式改变上下文无关文法所进行的步骤流程图。最初,上下文无关文法检查文件,(图12的步骤146)。根据从以适配方式改变树形的已编辑过文本文件中读来的内容,对树形进行修改(图12的步骤148)。然后用修改的树形对文本进行规范化(图12的步骤150)。
尽管已参考优选实施例对本发明做了叙述,熟悉技术的人员了解,在不违背本发明附加的权利要求规定所意指的范围内,可以在形式和细节上做出各种改变,例如,文本规范化通常可应用许多不同类型的任何中间内容代替文本的内容。而且,文本规范化器不必要是语音API34的部件,或是系统所提供资源的部件。
Claims (30)
1.一种在计算机系统中应用的方法,该计算机系统具有能识别语音输入内容的语音识别机,该方法包括下列计算机实现步骤:
接收与来自语音识别机的语音输入相应的文本;
应用上下文无关文法,确定所接收的文本的替代内容;和
以替代内容代替文本。
2.根据权利要求1所述的方法,其中,替代内容包括字母数字串。
3.根据权利要求1所述的方法,其中,替代内容包括图形内容。
4.根据权利要求1所述的方法,其中,所接收的文本是分布系统中的媒体内容的标识符,且替代内容是媒体内容。
5.根据权利要求4所述的方法,其中,所接收文本是同样资源的定位器。
6.根据权利要求5所述的方法,其中,替代内容是超文本文件。
7.根据权利要求1所述的方法,其中,替代内容是超文本文件。
8.根据权利要求1所述的方法,其中,替代内容包括音频内容。
9.根据权利要求1所述的方法,其中,上下文无关文法包括至少一个规则,据以用替代内容代替所接收的文本。
10.根据权利要求1所述的方法,其中,计算机系统运行应用程序,并且其中,替代内容被输送给应用程序。
11.根据权利要求1所述的方法,其中,所接收的文本是字串,并且替代内容是与至少某个字串相应的一系列数字。
12.根据权利要求1所述的方法,其中,所接收的文本是说明地址的字串,并且替代内容包括说明地址的至少一部分的一系列数字。
13.根据权利要求1所述的方法,其中,所接收的文本是识别货币量的字串,替代内容包括说明货币量的数字的货币符号。
14.根据权利要求1所述的方法,其中,所接收的文本是表明分数的字串,替代内容包括数字和联合表明分数的数字运算符号。
15.一种在计算机系统中应用的方法,该计算机系统具有用来识别语音输入的语音部分的语音识别器,该方法包括下列计算机实现步骤:
提供文本规范化所用的上下文无关文法规则的文件;
从语音识别器接收文本,所述文本与语音输入相对应;
对所述文本的至少一个部分进行规范化,用规范化的字母数字串代替所述文本的这个部分,所述规范化包括应用上下文无关文法的规则,用规范化的字母数字串代替被规范化的所述文本的这个部分。
16.根据权利要求15所述的方法,进一步包括用替代文件代替文件的步骤,该替代文件提出不同的上下文无关文法的规则,并用不同的上下文无关文法对新的文本进行规范化。
17.根据权利要求15所述的方法,包括用文件为用于规范化的上下文无关文法建造一个树形结构的步骤。
18.根据权利要求15所述的方法,其中,文件是文本文件。
19.根据权利要求15所述的方法,其中,文件包括有关大写字开头的规则。
20.根据权利要求15所述的方法,其中,文件包括有关空格的规则。
21.根据权利要求15所述的方法,其中,文件包含开关的规定,该开关确定是否把一个规则用作上下文无关文法的组成部分。
22.根据权利要求15所述的方法,进一步包括更换文件内容,以改变上下文无关文法的步骤。
23.根据权利要求15所述的方法,进一步包括接收附加的文本,并用上下文无关文法的中一个规则对附加的文本进行规范化,从而以非原文内容更换附加文本的步骤。
24.根据权利要求23所述的方法,其中,非原文内容包括图像数据。
25.根据权利要求23所述的方法,其中非原文内容包括音频数据。
26.一种在计算机系统中应用的方法,该计算机系统具有应用程序和用来识别语音输入的语音部分并输出与语音被识别部分相应的文本的语音识别器,该方法包括下列计算机实现步骤:
提供包含文本规范化器的应用程序接口(API);
在文本规范化器接收来自语音识别器的文本;
通过应用上下文无关文法的规则,应用文本的规则,更换文本的内容并产生规范化的文本,对文本进行规范化;和
将已规范化的文本输送给应用程序。
27.根据权利要求26所述的方法,其中,应用程序接口(API)是语音应用程序接口(API),它向应用程序提供与被识别的语音输入相应的文本输出。
28.根据权利要求26所述的方法,其中,应用程序请求从应用程序接口(API)来的文件即时经过被规范化的文本输送到应用程序。
29.计算机系统,包括:
语音识别器,用于识别语音输入的语音部分,并产生与被识别的语音部分相应的文本的输出;
上下文无关文法,它包含文本规范化用的规则;和
在文本规范化器中,应用至少一个规则对来自语音识别器的文本输出进行规范化。
30.根据权利要求29所述的计算机系统,其中,文本规范化器是应用程序接口(API)的一部分。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/840,117 US5970449A (en) | 1997-04-03 | 1997-04-03 | Text normalization using a context-free grammar |
US08/840,117 | 1997-04-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1255224A CN1255224A (zh) | 2000-05-31 |
CN1285068C true CN1285068C (zh) | 2006-11-15 |
Family
ID=25281495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB988047896A Expired - Lifetime CN1285068C (zh) | 1997-04-03 | 1998-04-03 | 使用上下文无关文法的文本规范化方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5970449A (zh) |
EP (1) | EP1016074B1 (zh) |
JP (1) | JP2001519043A (zh) |
CN (1) | CN1285068C (zh) |
DE (1) | DE69829389T2 (zh) |
WO (1) | WO1998044484A1 (zh) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2945887B2 (ja) * | 1997-10-09 | 1999-09-06 | オリンパス光学工業株式会社 | コードイメージ記録装置 |
US6523031B1 (en) * | 1997-11-21 | 2003-02-18 | International Business Machines Corporation | Method for obtaining structured information exists in special data format from a natural language text by aggregation |
JP2000163418A (ja) * | 1997-12-26 | 2000-06-16 | Canon Inc | 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
US6513002B1 (en) * | 1998-02-11 | 2003-01-28 | International Business Machines Corporation | Rule-based number formatter |
US6493662B1 (en) * | 1998-02-11 | 2002-12-10 | International Business Machines Corporation | Rule-based number parser |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
JP3709305B2 (ja) * | 1999-07-01 | 2005-10-26 | 日立オムロンターミナルソリューションズ株式会社 | 地名文字列照合方法、地名文字列照合装置、地名文字列認識装置及び郵便物区分システム |
US6762699B1 (en) | 1999-12-17 | 2004-07-13 | The Directv Group, Inc. | Method for lossless data compression using greedy sequential grammar transform and sequential encoding |
US6640098B1 (en) * | 2000-02-14 | 2003-10-28 | Action Engine Corporation | System for obtaining service-related information for local interactive wireless devices |
US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) * | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US20020099734A1 (en) * | 2000-11-29 | 2002-07-25 | Philips Electronics North America Corp. | Scalable parser for extensible mark-up language |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US7136846B2 (en) * | 2001-04-06 | 2006-11-14 | 2005 Keel Company, Inc. | Wireless information retrieval |
US7152029B2 (en) | 2001-07-18 | 2006-12-19 | At&T Corp. | Spoken language understanding that incorporates prior knowledge into boosting |
US20030115066A1 (en) * | 2001-12-17 | 2003-06-19 | Seeley Albert R. | Method of using automated speech recognition (ASR) for web-based voice applications |
US7343372B2 (en) | 2002-02-22 | 2008-03-11 | International Business Machines Corporation | Direct navigation for information retrieval |
US7257531B2 (en) * | 2002-04-19 | 2007-08-14 | Medcom Information Systems, Inc. | Speech to text system using controlled vocabulary indices |
US7146320B2 (en) * | 2002-05-29 | 2006-12-05 | Microsoft Corporation | Electronic mail replies with speech recognition |
US7328146B1 (en) | 2002-05-31 | 2008-02-05 | At&T Corp. | Spoken language understanding that incorporates prior knowledge into boosting |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
US7343604B2 (en) | 2003-07-25 | 2008-03-11 | International Business Machines Corporation | Methods and apparatus for creation of parsing rules |
US7672436B1 (en) | 2004-01-23 | 2010-03-02 | Sprint Spectrum L.P. | Voice rendering of E-mail with tags for improved user experience |
US20050216256A1 (en) * | 2004-03-29 | 2005-09-29 | Mitra Imaging Inc. | Configurable formatting system and method |
US20050240408A1 (en) * | 2004-04-22 | 2005-10-27 | Redin Jaime H | Method and apparatus for entering verbal numerals in electronic devices |
DE102004028724A1 (de) * | 2004-06-14 | 2005-12-29 | T-Mobile Deutschland Gmbh | Verfahren zur natürlichsprachlichen Erkennung von Nummern |
US8335688B2 (en) * | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US7630892B2 (en) * | 2004-09-10 | 2009-12-08 | Microsoft Corporation | Method and apparatus for transducer-based text normalization and inverse text normalization |
CN100462966C (zh) * | 2004-09-14 | 2009-02-18 | 株式会社Ipb | 将文件配置成时间序列的文件相关图的制成装置 |
US8977953B1 (en) * | 2006-01-27 | 2015-03-10 | Linguastat, Inc. | Customizing information by combining pair of annotations from at least two different documents |
EP2030197A4 (en) * | 2006-06-22 | 2012-04-04 | Multimodal Technologies Llc | ASSISTANCE FOR AUTOMATIC DECISION |
WO2008066981A2 (en) * | 2006-08-21 | 2008-06-05 | Western Slope Utilities, Inc. | Systems and methods for pipeline rehabilitation installation |
US8671341B1 (en) | 2007-01-05 | 2014-03-11 | Linguastat, Inc. | Systems and methods for identifying claims associated with electronic text |
US7813929B2 (en) * | 2007-03-30 | 2010-10-12 | Nuance Communications, Inc. | Automatic editing using probabilistic word substitution models |
US20080312928A1 (en) * | 2007-06-12 | 2008-12-18 | Robert Patrick Goebel | Natural language speech recognition calculator |
US20090157385A1 (en) * | 2007-12-14 | 2009-06-18 | Nokia Corporation | Inverse Text Normalization |
JP2009244639A (ja) * | 2008-03-31 | 2009-10-22 | Sanyo Electric Co Ltd | 発話装置、発話制御プログラムおよび発話制御方法 |
US9460708B2 (en) * | 2008-09-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition |
US8364487B2 (en) * | 2008-10-21 | 2013-01-29 | Microsoft Corporation | Speech recognition system with display information |
US8990088B2 (en) * | 2009-01-28 | 2015-03-24 | Microsoft Corporation | Tool and framework for creating consistent normalization maps and grammars |
US8370155B2 (en) * | 2009-04-23 | 2013-02-05 | International Business Machines Corporation | System and method for real time support for agents in contact center environments |
CN102339228B (zh) * | 2010-07-22 | 2017-05-10 | 上海果壳电子有限公司 | 上下文无关文法的解析方法 |
US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
US9110852B1 (en) * | 2012-07-20 | 2015-08-18 | Google Inc. | Methods and systems for extracting information from text |
US9146919B2 (en) * | 2013-01-16 | 2015-09-29 | Google Inc. | Bootstrapping named entity canonicalizers from English using alignment models |
US9471561B2 (en) * | 2013-12-26 | 2016-10-18 | International Business Machines Corporation | Adaptive parser-centric text normalization |
US9535904B2 (en) * | 2014-03-26 | 2017-01-03 | Microsoft Technology Licensing, Llc | Temporal translation grammar for language translation |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
EP3369002A4 (en) * | 2015-10-26 | 2019-06-12 | 24/7 Customer, Inc. | METHOD AND DEVICE FOR FACILITATING THE PREDICTION OF CUSTOMER VISIONS |
US20170154029A1 (en) * | 2015-11-30 | 2017-06-01 | Robert Martin Kane | System, method, and apparatus to normalize grammar of textual data |
US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
US11482308B2 (en) | 2017-08-10 | 2022-10-25 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US10496382B2 (en) * | 2018-02-22 | 2019-12-03 | Midea Group Co., Ltd. | Machine generation of context-free grammar for intent deduction |
US11250382B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US10789955B2 (en) * | 2018-11-16 | 2020-09-29 | Google Llc | Contextual denormalization for automatic speech recognition |
CN111370083B (zh) * | 2018-12-26 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种文本结构化方法及装置 |
US11182504B2 (en) * | 2019-04-29 | 2021-11-23 | Microsoft Technology Licensing, Llc | System and method for speaker role determination and scrubbing identifying information |
US11482214B1 (en) * | 2019-12-12 | 2022-10-25 | Amazon Technologies, Inc. | Hypothesis generation and selection for inverse text normalization for search |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5349526A (en) * | 1991-08-07 | 1994-09-20 | Occam Research Corporation | System and method for converting sentence elements unrecognizable by a computer system into base language elements recognizable by the computer system |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
DE69327446T2 (de) * | 1992-11-18 | 2000-05-11 | Canon Information Syst Inc | Verfahren und Gerät zur Gewinnung von Text aus einer strukturierten Datei und zu dessen Umsetzung in Sprache |
DE69326431T2 (de) * | 1992-12-28 | 2000-02-03 | Toshiba Kawasaki Kk | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
JPH0736882A (ja) * | 1993-07-19 | 1995-02-07 | Fujitsu Ltd | 辞書検索装置 |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
-
1997
- 1997-04-03 US US08/840,117 patent/US5970449A/en not_active Expired - Lifetime
-
1998
- 1998-04-03 JP JP54205298A patent/JP2001519043A/ja active Pending
- 1998-04-03 EP EP98915327A patent/EP1016074B1/en not_active Expired - Lifetime
- 1998-04-03 DE DE69829389T patent/DE69829389T2/de not_active Expired - Lifetime
- 1998-04-03 CN CNB988047896A patent/CN1285068C/zh not_active Expired - Lifetime
- 1998-04-03 WO PCT/US1998/006852 patent/WO1998044484A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
DE69829389T2 (de) | 2006-02-09 |
JP2001519043A (ja) | 2001-10-16 |
DE69829389D1 (de) | 2005-04-21 |
US5970449A (en) | 1999-10-19 |
CN1255224A (zh) | 2000-05-31 |
EP1016074B1 (en) | 2005-03-16 |
EP1016074A1 (en) | 2000-07-05 |
WO1998044484A1 (en) | 1998-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1285068C (zh) | 使用上下文无关文法的文本规范化方法 | |
US7702680B2 (en) | Document summarization by maximizing informative content words | |
US7831911B2 (en) | Spell checking system including a phonetic speller | |
US6862566B2 (en) | Method and apparatus for converting an expression using key words | |
US7574347B2 (en) | Method and apparatus for robust efficient parsing | |
CN1135485C (zh) | 利用计算机系统的日文文本字的识别 | |
US8660834B2 (en) | User input classification | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
JP5113750B2 (ja) | 定義の抽出 | |
CN1667699A (zh) | 为字母-声音转换生成有互信息标准的大文法音素单元 | |
US20070100890A1 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
US6098042A (en) | Homograph filter for speech synthesis system | |
US9196251B2 (en) | Contextual conversion platform for generating prioritized replacement text for spoken content output | |
CN1227657A (zh) | 采用基于字典的词类概率的自然语言语法分析程序 | |
JP2002082945A (ja) | 自然言語処理システム用トークナイザ | |
CN1573926A (zh) | 用于文本和语音分类的区别性语言模型训练 | |
CN112818089B (zh) | 文本注音方法、电子设备及存储介质 | |
US7536296B2 (en) | Automatic segmentation of texts comprising chunks without separators | |
CN1879149A (zh) | 音频对话系统和语音浏览方法 | |
CN1193304C (zh) | 切分非切分语言的输入字符序列的方法 | |
US7593846B2 (en) | Method and apparatus for building semantic structures using self-describing fragments | |
CN111160033A (zh) | 一种基于神经网络的命名实体识别方法、计算设备及存储介质 | |
JP2001265792A (ja) | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 | |
TW202109349A (zh) | 通訊伺服器裝置、通訊裝置及其操作方法 | |
Trost | Review of:“GENERALIZED LR PARSING” Masaru Tomita (ed.), 1991, Kluwer, Boston |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170825 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington, USA Patentee before: Microsoft Corp. |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20061115 |