CN110598201A - 从概率输入识别准确转录 - Google Patents
从概率输入识别准确转录 Download PDFInfo
- Publication number
- CN110598201A CN110598201A CN201910480285.6A CN201910480285A CN110598201A CN 110598201 A CN110598201 A CN 110598201A CN 201910480285 A CN201910480285 A CN 201910480285A CN 110598201 A CN110598201 A CN 110598201A
- Authority
- CN
- China
- Prior art keywords
- computer
- variant
- sentence
- transcription
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 178
- 230000035897 transcription Effects 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 claims abstract description 100
- 230000002068 genetic effect Effects 0.000 claims abstract description 18
- 238000007670 refining Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002103 transcriptional effect Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004519 grease Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
提供了一种用于识别句子的准确转录的方法。确定句子中每个单词的转录选项。确定选项的概率分数。通过从具有加权选择的概率分数的选项中随机选择而生成句子转录的变体。通过对变体执行句法、语义和冗余分析来生成变体的似真分数。基于似真分数、概率分数和变体,通过采用遗传进化技术重复确定和精炼句子的暂定转录,直到最终的精炼暂定转录是句子的准确转录。
Description
技术领域
本发明涉及语音和文本识别,更具体地,涉及识别书面文本或语音的准确转录(transcription)。
背景技术
用于信息提取、决策制定、定理证明和查询应答的自动系统通常执行复杂的计算,涉及大量知识库和推理规则语义库(corpus)。专家系统提供的答案的质量与输入的准确性密切相关。在许多情况下,输入是不确定的,因为它们是概率系统、诸如话音识别或提供假设的统计方法的输出。假设作为“正确”值的每个输入的最可能的值不是最佳值,因为可能生成更好结果的替代输入组合被丢弃。
因为概率输入可能生成大量的输入组合,所以由于计算复杂性的原因,处理每一个组合是不可行的。限制每一个输入的可选者数量增加了错过好答案的可能性,而仍然允许使得寻找解不可行的大搜索空间的可能性。作为一个例子,对于只有50个输入的系统,将每个输入限制为仅两个可选者会生成大量(即250个)场景。使用语义分析给单词或单词序列分配分数的已知技术必须将输入的数量限制在低的数量,诸如3到6个,以便将输入的组合的数量保持在可管理的水平。
发明内容
在一个实施例中,本发明提供了一种识别句子准确转录的方法。该方法包括计算机确定句子的单词中所包括的每个单词的转录的多个选项,所述句子最初作为书面文本或语音被接收。该方法还包括计算机确定选项的概率分数。概率分数指示多个选项是每个单词的准确转录的相应可能性。该方法还包括,计算机通过使用由硬件随机数生成器或伪随机数生成器生成的数字从每个单词的转录的多个选项当中进行选择,来生成句子转录的变体。从选项当中进行选择由概率分数加权。该方法还包括计算机通过执行变体的句法、语义和冗余分析来生成变体的似真分数(plausibility score)。似真分数指示变体是似真(plausible)句子的相应可能性。该方法还包括,基于似真分数、概率分数和变体,计算机通过对变体采用遗传进化技术重复确定和精炼句子的暂定转录,直到最终的精炼暂定转录是句子的准确转录。
前述实施例提供了一种遗传进化技术,该技术高效地探索具有大量输入并且对每个输入有大量可能值的宽搜索空间,从而相对于使用对解空间(solution space)探索的暴力搜索或野蛮截断的已知技术提供了大准确性和速度增益。前述实施例高效地找到一个或多个句子的准确转录,而不使用增加丢失潜在准确转录的概率的对输入组合的硬微调(hard trimming)。前述实施例允许对句子中的每个单词进行大量的假设,并且可以对文本进行各种各样的翻译。
在前述实施例的一个可选方面,确定和精炼暂定转录的步骤包括,基于似真分数,计算机将变体划分为互斥的第一组变体和第二组变体。第一组指示比由第二组指示的任何句子更似真的句子。确定和精炼暂定转录的步骤还包括计算机丢弃第二组。确定和精炼暂定转录的步骤还包括计算机从第一组中的变体生成第一父代变体和第二父代变体的配对。通过使用由硬件随机数生成器或伪随机数生成器生成的数字来生成配对。确定和精炼暂定转录的步骤还包括计算机通过从每一配对生成两个子代变体来生成子代变体,其中每个子代变体中的单词从第一父代变体继承,从第二父代变体继承,或者通过使用硬件随机数生成器或伪随机数生成器基于概率分数从用于单词转录的多个选项中随机选择。确定和精炼暂定转录的步骤还包括计算机确定子代变体的似真分数。确定和精炼暂定转录的步骤还包括计算机将子代变体添加到第一组变体以创建新一组的变体。确定和精炼暂定转录的步骤还包括计算机将新一组的变体中的变体识别为具有最大似真分数的变体。确定和精炼暂定转录的步骤还包括基于所识别的具有最大似真分数的变体,计算机确定所识别的变体是句子的暂定转录。前述方面提供了一种遗传探索方法,其高效地搜索解空间,同时有利地避免了已知的穷举搜索技术的计算复杂性问题,已知的穷举搜索技术随着每个输入的假设数量增加而经历输入组合的指数爆炸。解空间的高效搜索有利地避免了需要大量的服务器或其他重要计算资源来找到准确的转录;相反,高效搜索可以通过使用更有限的计算资源、诸如智能手机来执行。
在前述实施例的一个可选方面,该方法还包括计算机确定暂定转录不是句子的准确转录。该方法还包括,基于暂定转录不是句子的准确转录,计算机通过重复以下步骤来精炼句子的暂定转录:划分变体,丢弃第二组,生成配对,生成子代变体,确定子代变体的似真分数,将子代变体添加到第一组,识别变体,以及确定所识别的变体是句子的暂定转录。该方法还包括,响应于执行预定次数的重复步骤或者句子的精炼暂定转录相对于先前的精炼暂定转录的改进没有达超过预定阈值的量,计算机确定句子的精炼暂定转录是最终的精炼暂定转录。该方法还包括计算机将最终的精炼暂定转录呈现为句子的准确转录。前述方面有利地允许高效搜索解空间,因为遗传探索方法中的重复(即世代(generation)数)可以保持足够低的数量,该足够低的数量在乘以句子中的单词数时,显著少于上升为每个单词的假设的数的幂的单词数,这是已知的穷举搜索技术所处理的更大的计算复杂性。
在前述实施例的一个可选方面,执行变体的句法、语义和冗余分析的步骤包括计算机生成指示满足语法规则的变体的句法的度量的第一分数。执行变体的句法、语义和冗余分析的步骤还包括计算机生成指示变体片段与文档语料库中包括的片段匹配的频率的第二分数。执行变体的句法、语义和冗余分析的步骤还包括计算机基于由变体指示的句子中不同单词的数量与由变体指示的句子中单词的总数的比率生成第三分数。生成变体的似真分数的步骤包括通过将包括在第一分数、第二分数和第三分数中的分数相加来生成每个似真分数。前述方面有利地允许为整个句子计算分数。
在前述实施例的一个可选方面,执行变体的句法、语义和冗余分析的步骤包括计算机执行变体中包括的第一变体的冗余分析。执行第一变体的冗余分析包括确定由第一变体指示的句子中不同单词的数量d。执行第一变体的冗余分析还包括确定由第一变体指示的句子中单词的总数t。执行第一变体的冗余分析还包括通过计算来确定第一变体的冗余分数。前述方面有利地提供了一种基于熵(即句子中单词冗余的度量)的评分系统,该系统不能高效地用于限于少量单词(如3到6个单词)的已知的穷举搜索技术中。
在前述实施例的一个可选方面,该方法还包括计算机确定变体中包括的第二变体的冗余分数。该方法还包括计算机确定第一变体的冗余分数大于第二变体的冗余分数。该方法还包括,基于第一变体的冗余分数大于第二变体的冗余分数,计算机确定第一变体比第二变体更有可能是句子的准确转录。前述方面有利地使用冗余分数在准确性方面区分句子的不同转录。
在另一实施例中,本发明提供了一种用于识别句子的准确转录的计算机程序产品。该计算机程序产品包括计算机可读存储介质。计算机可读程序代码存储在计算机可读存储介质中。计算机可读存储介质本身不是瞬时信号。计算机可读程序代码由计算机系统的中央处理单元(CPU)执行,以使计算机系统执行一种方法。该方法包括计算机系统确定句子的单词中所包括的每个单词的转录的多个选项,所述句子最初作为书面文本或语音被接收。该方法还包括计算机系统确定选项的概率分数。概率分数指示多个选项是每个单词的准确转录的相应可能性。该方法还包括,计算机系统通过使用由硬件随机数生成器或伪随机数生成器生成的数字从每个单词的转录的多个选项当中进行选择,来生成句子的转录变体。从选项当中进行选择由概率分数加权。该方法还包括计算机系统通过执行变体的句法、语义和冗余分析来生成变体的似真分数。似真分数指示变体是似真句子的相应可能性。该方法还包括,基于似真分数、概率分数和变体,计算机系统通过对变体采用遗传进化技术重复确定和精炼句子的暂定转录,直到最终的精炼暂定转录是句子的准确转录。
前述计算机程序产品实施例的优点包括上述相对于提供识别句子准确转录的方法的实施例的优点。前述计算机程序产品实施例的可选方面包括以上相对于提供识别句子准确转录的方法的实施例所讨论的方面。计算机程序产品实施例的可选方面的优点包括以上相对于提供识别句子准确转录的方法的实施例所讨论的优点。
在另一实施例中,本发明提供了一种计算机系统,其包括:中央处理单元(CPU);存储器,被耦合到CPU;以及计算机可读存储介质,被耦合到CPU。计算机可读存储介质包含由CPU经由存储器执行以实施识别句子准确转录的方法的指令。该方法包括计算机系统确定句子的单词中所包括的每个单词的转录的多个选项,所述句子最初作为书面文本或语音被接收。该方法还包括计算机系统确定选项的概率分数。概率分数指示多个选项是每个单词的准确转录的相应可能性。该方法还包括,计算机系统通过使用由硬件随机数生成器或伪随机数生成器生成的数字从每个单词的转录的多个选项当中进行选择,来生成句子的转录变体。从选项当中进行选择由概率分数加权。该方法还包括计算机系统通过执行变体的句法、语义和冗余分析来生成变体的似真分数。似真分数指示变体是似真句子的相应可能性。该方法还包括,基于似真分数、概率分数和变体,计算机系统通过对变体采用遗传进化技术重复确定和精炼句子的暂定转录,直到最终的精炼暂定转录是句子的准确转录。
前述计算机系统实施例的优点包括以上相对于提供识别句子准确转录的方法的实施例所讨论的优点。前述计算机系统实施例的可选方面包括以上相对于提供识别句子准确转录的方法的实施例所讨论的方面。计算机系统实施例的可选方面的优点包括以上相对于提供识别句子准确转录的方法的实施例所讨论的优点。
附图说明
图1是根据本发明实施例的用于识别准确转录的系统的框图。
图2A-2B描绘了根据本发明实施例的识别准确转录的过程的流程图,其中该过程在图1的系统中实施。
图3A-3B描绘了根据本发明实施例的使用图2A-2B的过程来识别话音查询的准确转录的示例。
图4是根据本发明实施例的包括在图1的系统中并实施图2A-2B的过程的计算机的框图。
具体实施方式
概况
本发明的实施例通过基于(多个)句子或段落中每个单词的选项的概率分数生成转录的随机变体,来迭代地前进到整个句子、多个句子或段落的准确转录。本发明的实施例采用遗传算法(也称为遗传进化技术或遗传探索方法)通过搭配(mate)父代变体的随机配对以及包括基于每个单词的选项的概率分数的随机突变(mutation)事件来遗传地进化变体。
用于识别单词的已知技术受到处理大量组合的缓慢和低效的限制。已知的单词识别技术使用“良好(goodness)”度量来评估识别一个单词或少量单词的准确性,但是这些常规度量不是专门设计来处理长句子或段落的。上述已知技术的缓慢和低效的限制提供了独特的挑战,本发明的实施例克服了该挑战,本发明的实施例采用遗传进化方法来进化根据每个单词选项的概率分数来随机创建的初始转录变体,从而避免大量组合的处理。此外,本发明的实施例通过使用(1)语义分析和(2)冗余分析来改进处理长句子和段落的传统良好度量,语义分析可以在文档语料库中搜索匹配任何长度或多个句子中的整个句子(而不是单个单词或少量单词)的文本,冗余分析评估重复单词的一个或多个句子的转录的变体比不重复单词的另一变体更准确。
用于识别准确转录的系统
图1是根据本发明实施例的用于识别准确转录的系统100的框图。系统100包括执行基于软件的准确转录识别系统104的计算机102。计算机102接收作为书面文本或口头语音的(多个)输入句子106。(多个)句子106可以是单个句子、多个句子、包括一个或多个段落的句子、或者包括文档的一整页的句子。
在一个实施例中,光学字符识别(optical character recognition,OCR)系统(未示出)将OCR应用于作为书写文本的(多个)输入句子106,以(i)识别要从(多个)输入句子106转录的单词的可能单词选项108,以及(ii)确定可能单词选项108的概率分数110。OCR系统可以由计算机102或另一计算机(未示出)执行。在另一实施例中,语音到文本系统(未示出)将语音到文本分析应用于作为录音的(多个)输入句子106,以(i)识别要从(多个)输入句子106转录的单词的可能单词选项108,以及(ii)确定可能单词选项108的概率分数110。语音到文本系统可以由计算机102或另一计算机(未示出)执行。
准确转录识别系统104从(多个)输入句子106中的每个单词的可能单词选项108中随机进行选择,以生成转录变体112(即(多个)输入句子106的转录变体)。基于概率分数110对随机选择进行加权。例如,对于输入句子“What is the capital of Greece”,准确转录识别系统104可以确定第一变体“hot his the captain of green”,第二变体“what easethe capable off grease”,第三变体“what is the capable of grease”等。
准确转录识别系统104确定转录变体112的似真分数114。在一个或多个实施例中,准确转录识别系统104通过对转录变体112中包括的每个变体中的文本采用句法分析、语义分析和冗余分析来确定似真分数114。
准确转录识别系统104应用遗传进化技术来迭代地生成(多个)输入句子106的暂定转录,该暂定转录随着迭代而改进,直到准确转录识别系统104确定最近的暂定转录(即最终暂定转录)不需要进一步精炼,并将最近的暂定转录指定为输入的准确转录116(即(多个)输入句子106的准确转录)。
图1中示出的组件的功能将在下面对图2A-2B、图3A-3B和图4的讨论中更详细地描述。
用于识别准确转录的过程
图2A-2B描绘了根据本发明实施例的识别准确转录的过程的流程图,其中该过程在图1的系统中实施。图2A-2B的过程开始于图2A中的步骤200。在步骤202中,准确转录识别系统104(见图1)接收(多个)输入句子106(见图1)。在一个实施例中,(多个)输入句子106(见图1)包括100个或更多个单词。
在步骤204中,准确转录识别系统104(见图1)确定要从(多个)输入句子106(见图1)转录的每个单词的可能单词选项108(见图1),并确定可能单词选项108(见图1)的概率分数110(见图1)。概率分数110(见图1)中包括的概率分数将可能单词选项108(见图1)中包括的相应单词选项与相应单词选项是(多个)输入句子106(见图1)中包括的单词的准确转录的概率成比例地进行排序。可替代地,如果可能单词选项108的概率估计不可用,则单词选项被认为是等概率的。
作为示例,步骤202包括准确转录识别系统104(见图1)接收以音频格式记录在音频文件中用自然语言表达的查询。计算机102对音频文件进行语音到文本转换算法,该算法分割音频文件以分离单词,翻译所分割的音频文件以识别单词,并将每个识别的单词与其含义相关联。在上述分割、翻译和关联的步骤中,输出是不确定的,并且许多选项是可能的,从而确定查询的许多可能变体。因此,准确转录识别系统104(见图1)为每个单词列出许多假设,并为每个选项确定置信度分数(即概率分数)。准确转录识别系统104(见图1)确定,使用蛮力、穷举搜索技术从所有可能的变体当中识别有意义的、准确的查询是不可行的,因此继续下面描述的图2A-2B的步骤。
在步骤206中,准确转录识别系统104(见图1)通过从要从(多个)输入句子106(见图1)转录的每个单词的可能单词选项108(见图1)当中随机进行选择,来生成(多个)输入句子的N个转录变体。基于可能单词选项108(见图1)的概率分数110(见图1),对随机选择进行加权。如本文在对图2A-2B的讨论中所使用的,N是大于或等于4的整数。如下所述,因为在步骤214中生成了N/4个配对,所以N必须至少为4。准确转录识别系统104(见图1)通过使用由硬件随机数生成器或基于软件的伪随机数生成器生成的数字来执行随机选择。
在步骤208中,准确转录识别系统104(见图1)分别为N个转录变体生成N个似真分数,其中在步骤206中生成N个转录变体。准确转录识别系统104(见图1)根据相应的N个似真分数对N个转录变体进行排序。在一个实施例中,第一转录变体具有比第二转录变体更高的似真分数,这意味着第一转录变体比第二转录变体更有意义、更准确、更合理并且形成得更好。
在一个实施例中,准确转录识别系统104(见图1)通过执行句法、语义和冗余分析来执行步骤208,以生成N个转录变体的相应句法、语义和冗余分数。对于N个转录变体中的每一个,准确转录识别系统104(见图1)组合相应的句法、语义和冗余分数,以生成转录变体的似真分数。在一个实施例中,转录变体的似真分数是句法、语义和冗余分数的总和。通过使用句法、语义和冗余分数的组合,较高的似真分数指示在句法上更合理的转录变体由于文档语料库中相似文本的证据而具有更合理的含义,并且具有重复相同单词的趋势。例如,如果输入具有单词“Greece”的9个实例,但是对于这9个实例,在“Greece”和“grease”之间选择转录变体,那么由准确转录识别系统104(见图1)生成的解倾向于增加了冗余分数的、包括重复9次“Greece”的解。
在步骤208之前,另一系统(图1中未示出)对(多个)输入句子106(见图1)中的单词执行词汇分析,以通过与字典中的条目相匹配来确保在步骤202中接收的(多个)输入句子是合适的自然语言。
前述句法分析包括准确转录识别系统104(见图1)对照语法规则来检查转录变体,以测量变体在多大程度上正确遵循语法规则以及包括对句子中主语、动词和宾语的使用以及动词变形(conjugation)、单数和复数一致性等的评估。响应于句法分析,准确转录识别系统104(见图1)输出预定数字范围内的句法分数(如整数0到100,其中0识别完全不合适的语法,100识别完全正确的语法)。
前述语义分析包括准确转录识别系统104(见图1)在文档语料库中执行转录变体的搜索。在一个实施例中,准确转录识别系统104(见图1)执行句子级的搜索(即,被搜索的每个片段是完整的句子)。准确转录识别系统104(见图1)将每个片段的搜索结果映射到预定范围(如0到100)内的分数,然后计算分数的平均值以生成整个转录变体的整体语义分数。
前述冗余分析包括准确转录识别系统104(见图1)确定转录变体中单词的数量以及转录变体中不同单词的数量,并基于前述单词的数量以及不同单词的数量来确定冗余分数。在一个实施例中,准确转录识别系统104(见图1)如下计算冗余分数:
在步骤210中,基于步骤208中生成的似真分数,准确转录识别系统104(见图1)识别包括在N个转录变体中的最佳N/2个转录变体和包括在N个转录变体中的最差N/2个转录变体。最佳N/2个转录变体是包括在N个转录变体中具有步骤208中生成的N个似真分数当中最高N/2个似真分数的转录变体。最差N/2个转录变体是包括在N个转录变体中具有步骤208中生成的N个似真分数当中最低N/2个似真分数的转录变体。步骤210是应用于转录变体以确定(多个)输入句子106(见图1)的准确转录的遗传进化技术中所使用的循环的开始。
步骤210还开始了图2A-2B过程中的循环,该循环实施了从一组转录变体中识别准确转录变体的遗传进化技术。
在步骤212中,准确转录识别系统104(见图1)丢弃在步骤210中识别的最差N/2个转录变体,使得丢弃的转录变体可以由通过最佳N/2个转录变体的遗传进化获得的新变体所替代,如图2A-2B的过程的剩余步骤中所述。
在步骤214中,准确转录识别系统104(见图1)通过随机配对在步骤210中识别的最佳N/2个变体中所包括的转录变体,生成转录变体的N/4个父代配对。准确转录识别系统104(见图1)通过使用由硬件随机数生成器或基于软件的伪随机数生成器生成的数字来执行随机配对。
在步骤214之后,图2A-2B的过程继续到图2B的步骤216。在步骤216中,准确转录识别系统104(见图1)通过从步骤214(见图2A)中生成的N/4个父代配对中的每一个配对生成两个子代转录变体来生成N/2个子代转录变体。对于从包括第一父代和第二父代的父代配对生成的子代转录变体中的给定单词,准确转录识别系统104(见图1)通过以下步骤生成该单词:(i)基于第一预定概率从第一父代继承(即,选择)该单词,(ii)基于第二预定概率从第二父代继承该单词,或者(iii)从该单词的可能选项中随机选择。通过从单词的可能选项当中随机进行选择来生成该单词是基于第三预定概率的。单词的可能选项被包括在可能单词选项108中(见图1)。第一预定概率、第二预定概率和第三预定概率之和等于1。例如,准确转录识别系统104(见图1)可以(i)以45%的概率从第一父代继承第一单词的单词选项,或者(ii)以45%的概率从第二父代继承第一单词的单词选项,或者(iii)以10%的概率从第一单词的可能单词选项当中随机选择单词选项。对于从单词的可能选项随机进行选择,准确转录识别系统104(见图1)基于与单词的可能选项相对应的概率分数进行选择,其中与单词的可能选项相对应的概率分数被包括在概率分数110中(见图1)。此外,准确转录识别系统104(见图1)使用由硬件随机数生成器或基于软件的伪随机数生成器生成的数字来从单词的可能选项中进行随机选择。
在步骤218中,准确转录识别系统104(见图1)为步骤216中生成的N/2个子代转录变体生成N/2个似真分数。在一个实施例中,准确转录识别系统104(见图1)通过对N/2个子代转录变体执行前述句法、语义和冗余分析来执行步骤218。
在步骤220中,准确转录识别系统104(见图1)将N/2个子代转录变体添加到N/2个父代转录变体(即,在图2A的步骤210的最近执行中识别的最佳N/2个转录变体),以创建新一组的N个转录变体。
在步骤222中,准确转录识别系统104(见图1)将暂定准确转录(即,暂定解)确定为新一组的N个转录变体中具有最大(即,最高)似真分数的转录变体。
在步骤224中,准确转录识别系统104(见图1)确定在步骤222中确定的暂定解是否需要精炼。在一个实施例中,准确转录识别系统104(见图1)精炼暂定解预定次数(即,对于固定次数的世代,通过在步骤224的“是”分支中循环预定次数)(例如,从步骤224的“是”分支开始执行循环的100次迭代)。在另一实施例中,准确转录识别系统104(见图1)通过步骤224的“是”分支迭代地精炼暂定解至少达预定次数,并且执行进一步迭代精炼,直到暂定解的似真分数没有比先前暂定解提高阈值量(即,最高排序的解的适合度正在达到或已经达到平稳状态,使得连续迭代不会产生更好的结果)。
如果准确转录识别系统104(见图1)在步骤224中确定需要精炼步骤222中确定的暂定解,则遵循步骤224的“是”分支,并且图2A-2B的过程使用新一组的N个转录变体循环回到步骤210(见图2A)。
如果准确转录识别系统104(见图1)在步骤224中确定不再需要精炼在步骤222中确定的暂定解,则跟随步骤224的“否”分支并执行步骤226。
在步骤226中,准确转录识别系统104(见图1)识别并呈现作为最终准确转录的暂定准确转录。
图2A-2B的过程在步骤228结束。
示例
图3A-3B描绘了根据本发明实施例的使用图2A-2B的过程来识别话音查询的准确转录的示例。在图3A的步骤300中,准确转录识别系统104(见图1)接收由6个单词(即单词1、单词2、…、单词6)组成的话音查询。步骤300是步骤202的示例(见图2A)
在步骤302中,准确转录识别系统104(见图1)确定单词1、单词2、…、单词6的可能单词选项。例如,准确转录识别系统104(见图1)确定单词1有5个可能单词选项:hot、what、worm、was和hod。在步骤302中,准确转录识别系统104(见图1)还确定单词1、单词2、…、单词6中的每一个的可能单词选项的概率分数。在步骤302中,概率分数在分数对应的单词后面的括号中。例如,准确转录识别系统104(见图1)确定,对于单词1的可能单词选项,hot、what、worm、was和hod的概率分数分别为60、40、25、30和10。步骤302是步骤204的示例(见图2A)。
在步骤304中,准确转录识别系统104(见图1)生成N个转录变体,包括变体1、变体2和变体3,分别是“hot his the captain of green”、“what ease the capable offgrease”和“worm is the capital off green”。步骤304是步骤206的示例(见图2A)。
在步骤306中,准确转录识别系统104(见图1)确定N个转录变体的似真分数,根据似真分数对N个转录变体进行排序,并根据排序识别最佳N/2个转录变体,其中最佳N/2个转录变体包括最佳变体1、最佳变体2和最佳变体3,分别包括“what is the capable ofgrease”、“what is the Capitol of Greece”和“what his the capital of Greece”。准确转录识别系统104(见图1)通过对步骤304中生成的N个转录变体执行句法、语义和冗余分析来确定似真分数。步骤306是图2A中步骤208和210的例子。
在图3B的步骤308中,准确转录识别系统104(见图1)随机配对最佳N/2个转录变体(即最佳N/2个父代转录变体)中包括的变体,这生成了父代转录的N/4个变体配对,包括由父代1和父代2(即p1和p2)组成的配对1,其中p1是转录变体“what is the capable ofgrease”,p2是转录变体“what his the capital of Greece”。步骤308是步骤214的示例(见图2A)。
在步骤310中,准确转录识别系统104(见图1)通过从N/4个父代配中的每一个配对中生成两个子代转录变体来生成N/2个子代转录变体,包括来自配对1的子代转录变体子代1和子代转录变体子代2。对于从由第一父代和第二父代组成的配对生成的子代转录变体中的给定单词,该单词是(i)根据第一概率从第一父代继承的,(ii)根据第二概率从第二父代继承的,或者(iii)基于单词选项的概率分数从该单词的可能单词选项中随机选择的。
在步骤310中,(p1)表示相对应的单词是从第一父代继承的,(p2)表示相对应的单词是从第二父代继承的,并且(随机)表示相对应的单词是从该单词的可能单词选项中随机选择的。
对于步骤310中的示例,从p1继承的概率是45%,从p2继承的概率是45%,从可能单词选项中随机选择的概率是10%。对于子代1,准确转录识别系统104(见图1)从p1继承“what”作为单词1,从p1继承“is”作为单词2,随机选择单词选项“the”作为单词3,从p2继承“capital”作为单词4,从p1继承“of”作为单词5,并从p1继承“grease”作为单词6。对于子代2,准确转录识别系统104(见图1)从p2继承“what”作为单词1,随机选择单词选项“ease”作为单词2,从p1继承“the”作为单词3,从p2继承“capital”作为单词4,从p2继承“of”作为单词5,从p2继承“Greece”作为单词6。步骤310是步骤216的示例(见图2B)。
在步骤310之后和步骤312之前,准确转录识别系统104(见图1)执行句法、语义和冗余分析,以生成步骤310中生成的N/2个子代的似真分数。
在步骤312中,准确转录识别系统104(见图1)通过将N/2个子代添加到在步骤308中随机配对中使用的N/2个父代转录变体来创建新一组的N个转录变体。步骤312是步骤220的示例(见图2B)。
在步骤314中,准确转录识别系统104(见图1)通过确定“what ease the capitalof Greece”在新一组的N个转录变体当中具有最大似真分数来确定暂定解。暂定解“whatease the capital of Greece”将指导遗传进化技术的连续迭代,以生成准确的转录变体。步骤314是步骤222的示例(见图2B)。
在步骤316中,准确转录识别系统104(见图1)经由循环通过步骤224的“是”分支(见图2A)来精炼暂定解,以迭代地执行图2A中的步骤210到图2B中的步骤224,这在执行等于预定的100次迭代的100次迭代之后生成暂定转录“what is the capital of Greece”。在步骤316中,准确转录识别系统104(见图1)确定不需要进一步精炼暂定转录,因为已经执行了预定次数的迭代,并且作为响应,将最近暂定转录“what is the capital of Greece”识别为在步骤300中接收的话音查询的最终准确转录(见图3A)。步骤316是步骤224(见图2B)的示例,迭代地执行从步骤224的“是”分支(见图2B)开始的循环以及步骤226(见图2B)。
计算机系统
图4是根据本发明实施例的包括在图1的系统中并实施图2A-2B的过程的计算机102的框图。计算机102是通常包括中央处理单元(CPU)402、存储器404、输入/输出(I/O)接口406和总线408的计算机系统。此外,计算机102耦合到I/O设备410和计算机数据存储单元412。CPU 402执行计算机102的计算和控制功能,包括执行包含在程序代码414中的用于准确转录识别系统104(见图1)执行识别准确转录的方法的指令,其中指令由CPU 402经由存储器404执行。CPU 402可以包括单个处理单元,或者在一个或多个位置跨一个或多个处理单元(例如,在客户端和服务器上)分布。
存储器404包括已知的计算机可读存储介质,如下所述。在一个实施例中,存储器404的高速缓存存储器元件提供至少一些程序代码(如程序代码414)的临时存储,以便减少在执行程序代码的指令时必须从大容量存储装置中检索代码的次数。此外,类似于CPU402,存储器404可以驻留在单个物理位置,包括一种或多种类型的数据存储装置,或者以各种形式跨多个物理系统分布。此外,存储器404可以包括分布在例如局域网(LAN)或广域网(WAN)上的数据。
I/O接口406包括用于与外部资源交换信息的任何系统。I/O设备410包括任何已知类型的外部设备,包括显示器、键盘等。总线408在计算机102中的每个组件之间提供通信链路,并且可以包括任何类型的传输链路,包括电、光、无线等。
I/O接口406还允许计算机102在计算机数据存储单元412或另一计算机数据存储单元(未示出)上存储信息(例如,诸如程序代码414数据或程序指令),和从计算机数据存储单元412或另一计算机数据存储单元检索该信息。计算机数据存储单元412包括已知的计算机可读存储介质,如下所述。在一个实施例中,计算机数据存储单元412是非易失性数据存储设备,诸如磁盘驱动器(即硬盘驱动器)或光盘驱动器(如接收CD-ROM的CD-ROM驱动器)。
存储器404和/或存储单元412可以存储计算机程序代码414,计算机程序代码414包括由CPU 402经由存储器404执行以识别准确转录的指令。尽管图4将存储器404描绘为包括程序代码,但是本发明设想了存储器404不同时包括所有代码414,而是一次仅包括代码414的一部分的实施例。
此外,存储器404可以包括操作系统(未示出),并且可以包括图4中未示出的其他系统。
耦合到计算机102的存储单元412和/或一个或多个其他计算机数据存储单元(未示出)可以包括可能的单词选项108(见图1)、概率分数110(见图1)、转录变体112(见图1)和/或似真分数114(见图1)。
如本领域技术人员将理解的,在第一实施例中,本发明可以是一种方法;在第二实施例中,本发明可以是一种系统;并且在第三实施例中,本发明可以是一种计算机程序产品。
本发明的实施例的任何组件都可以由服务提供商部署、管理、服务等,服务提供商针对识别准确转录提供部署或集成计算基础设施。因此,本发明的实施例公开了一种用于支持计算机基础设施的过程,其中该过程包括为包括一个或多个处理器(例如,CPU 402)的计算机系统(例如,计算机102)中的集成、托管、维护和部署计算机可读代码(例如,程序代码414)中的至少一个提供至少一个支持服务,其中(多个)处理器执行代码中包含的使得计算机系统识别准确转录的指令。另一实施例公开了一种用于支持计算机基础设施的过程,其中该过程包括将计算机可读程序代码集成到包括处理器的计算机系统中。集成的步骤包括通过使用处理器将程序代码存储在计算机系统的计算机可读存储设备中。该程序代码在被处理器执行时实施一种识别准确转录的方法。
虽然可以理解,用于识别准确转录的程序代码414可以通过经由加载计算机可读存储介质(如计算机数据存储单元412)直接手动加载到客户端、服务器和代理计算机(未示出)中来部署,但是程序代码414也可以通过将程序代码414发送到一个中央服务器或一组中央服务器来自动或半自动地部署到计算机102中。程序代码414然后被下载到将执行程序代码414的客户端计算机(如计算机102)中。可替代地,程序代码414经由电子邮件直接发送到客户计算机。程序代码414然后被分离到客户端计算机上的目录,或者通过执行将程序代码414分离到目录中的程序的电子邮件上的按钮被加载到客户端计算机上的目录中。另一选择是将程序代码414直接发送到客户端计算机硬盘上的目录。在存在代理服务器的情况下,该过程选择代理服务器代码,确定在哪些计算机上放置代理服务器代码,传输代理服务器代码,然后在代理计算机上安装代理服务器代码。程序代码414被传输到代理服务器,然后被存储在代理服务器上。
本发明的另一实施例提供了一种在订阅、广告和/或费用的基础上执行处理步骤的方法。也就是说,服务提供商可以提供创建、维护、支持识别准确转录的过程等。在这种情况下,服务提供商可以创建、维护、支持计算机基础设施等,该计算机基础设施执行一个或多个顾客的处理步骤。作为回报,服务提供商可以根据订阅和/或费用协议从(多个)客户处接收支付,和/或服务提供商可以从对一个或多个第三方的广告内容的销售接收支付。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质(即存储器404和计算机数据存储单元412),其上载有用于使处理器(如CPU 402)实现本发明的各个方面的计算机可读程序指令414。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令(如程序代码414)的有形设备(如计算机102)。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令(如程序代码414)可以从计算机可读存储介质下载到各个计算/处理设备(如计算机102),或者通过网络(未示出)、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备(如计算机数据存储单元412)。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡(未示出)或者网络接口(未示出)从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令(如程序代码414)可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言——诸如Smalltalk、C++等,以及过程式编程语言——诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(局域网)或广域网(广域网)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图(如图2A-2B)和/或框图(如图1和图4)描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令(如程序代码414)实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置(如计算机102)的处理器(如CPU 402),从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质(如计算机数据存储单元412)中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令(如程序代码414)加载到计算机(如计算机102)、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以生成计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
虽然这里为了说明的目的已经描述了本发明的实施例,但是对于本领域技术人员来说,许多修改和变体将变得显而易见。因此,所附权利要求旨在涵盖落入本发明的真实精神和范围内的所有这些修改和变体。
Claims (11)
1.一种识别句子的准确转录的方法,该方法包括以下步骤:
计算机确定句子的单词中所包括的每个单词的转录的多个选项,所述句子最初作为书面文本或语音被接收;
计算机确定选项的概率分数,所述概率分数指示多个选项是每个单词的准确转录的相应可能性;
计算机通过使用由硬件随机数生成器或伪随机数生成器生成的数字,从每个单词的转录的多个选项当中进行选择来生成句子的转录的变体,所述选择由所述概率分数加权;
计算机通过执行所述变体的句法、语义和冗余分析来生成变体的似真分数,所述似真分数指示变体是似真句子的相应可能性;以及
基于似真分数、概率分数和变体,计算机通过对变体采用遗传进化技术重复确定和精炼句子的暂定转录,直到最终的精炼暂定转录是句子的准确转录。
2.根据权利要求1所述的方法,其中确定和精炼暂定转录的步骤包括以下步骤:
基于似真分数,计算机将变体划分为互斥的第一组变体和第二组变体,所述第一组指示比由所述第二组指示的任何句子更似真的句子;
计算机丢弃所述第二组;
计算机从所述第一组中的变体生成第一父代变体和第二父代变体的配对,所述配对通过使用由硬件随机数生成器或伪随机数生成器生成的数字而生成;
计算机通过从每一配对生成两个子代变体来生成子代变体,其中每个子代变体中的单词从第一父代变体继承,从第二父代变体继承,或者通过使用硬件随机数生成器或伪随机数生成器基于所述概率分数从单词的转录的多个选项中随机选择;
计算机确定子代变体的似真分数;
计算机将子代变体添加到所述第一组变体以创建新一组的变体;以及
计算机将所述新一组的变体中的变体识别为具有最大似真分数的变体,并且基于所识别的具有最大似真分数的变体,计算机确定所识别的变体是句子的暂定转录。
3.根据权利要求2所述的方法,还包括以下步骤:
计算机确定所述暂定转录不是句子的准确转录;
基于所述暂定转录不是句子的准确转录,计算机通过重复以下步骤来精炼句子的暂定转录:划分变体,丢弃第二组,生成配对,生成子代变体,确定子代变体的似真分数,将子代变体添加到第一组,识别变体,以及确定所识别的变体是句子的暂定转录;以及
响应于执行预定次数的重复步骤或者句子的精炼暂定转录相对于先前的精炼暂定转录的改进没有达超过预定阈值的量,计算机确定句子的精炼暂定转录是最终的精炼暂定转录;和
计算机将所述最终的精炼暂定转录呈现为句子的准确转录。
4.根据权利要求1所述的方法,其中执行变体的句法、语义和冗余分析的步骤包括以下步骤:
计算机生成指示变体的句法满足语法规则的度量的第一分数;
计算机生成指示变体片段与文档语料库中包括的片段匹配的频率的第二分数;以及
计算机基于由变体指示的句子中不同单词的数量与由变体指示的句子中单词的总数的比率生成第三分数,其中生成变体的似真分数的步骤包括通过将包括在所述第一分数、第二分数和第三分数中的分数相加来生成每个似真分数。
5.根据权利要求1所述的方法,其中执行变体的句法、语义和冗余分析的步骤包括计算机通过以下步骤执行变体中包括的第一变体的冗余分析的步骤:
确定由第一变体指示的句子中不同单词的数量d;
确定由第一变体指示的句子中单词的总数t;以及
通过计算来确定第一变体的冗余分数。
6.根据权利要求5所述的方法,还包括以下步骤:
计算机确定变体中包括的第二变体的冗余分数;
计算机确定第一变体的冗余分数大于第二变体的冗余分数;以及
基于第一变体的冗余分数大于第二变体的冗余分数,计算机确定第一变体比第二变体更有可能是句子的准确转录。
7.根据权利要求1所述的方法,还包括以下步骤:
计算机接收作为录音中用自然语言表达的查询的句子;
计算机通过分割存储录音的音频文件并翻译所分割的音频文件来识别句子中的单词;以及
计算机将所识别的单词与相应含义相关联,其中每个单词的转录的多个选项基于以下步骤中的每一个步骤的多个结果:分割音频文件,翻译所分割的音频文件,以及将所识别的单词与相应含义相关联。
8.根据权利要求1所述的方法,还包括以下步骤:
为在计算机中创建、集成、托管、维护和部署计算机可读程序代码中的至少一个提供至少一种支持服务,所述程序代码由计算机的处理器执行以实施以下步骤:确定每个单词的转录的多个选项,确定概率分数,生成句子的转录的变体,生成变体的似真分数,以及重复确定和精炼句子的暂定转录直到最终的精炼暂定转录是句子的准确转录。
9.一种用于识别句子的准确转录的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有存储在所述计算机可读存储介质上的计算机可读程序代码,其中所述计算机可读存储介质本身不是瞬时信号,所述计算机可读程序代码由计算机系统的中央处理单元CPU执行,以使所述计算机系统执行根据权利要求1-8中任一权利要求所述的方法。
10.一种计算机系统,包括:
中央处理单元CPU;
存储器,被耦合到CPU;以及
计算机可读存储介质,被耦合到CPU,所述计算机可读存储介质包含由CPU经由所述存储器执行以实施根据权利要求1-8中任一项所述的方法的指令。
11.一种计算机系统,包括根据权利要求1-8中任一项所述的方法执行步骤的模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/005,926 | 2018-06-12 | ||
US16/005,926 US10629205B2 (en) | 2018-06-12 | 2018-06-12 | Identifying an accurate transcription from probabilistic inputs |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598201A true CN110598201A (zh) | 2019-12-20 |
CN110598201B CN110598201B (zh) | 2023-04-07 |
Family
ID=68764231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910480285.6A Active CN110598201B (zh) | 2018-06-12 | 2019-06-04 | 从概率输入识别准确转录 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10629205B2 (zh) |
CN (1) | CN110598201B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210193148A1 (en) * | 2019-12-23 | 2021-06-24 | Descript, Inc. | Transcript correction through programmatic comparison of independently generated transcripts |
US11263407B1 (en) * | 2020-09-01 | 2022-03-01 | Rammer Technologies, Inc. | Determining topics and action items from conversations |
KR102584452B1 (ko) * | 2020-10-07 | 2023-10-05 | 한국전자통신연구원 | 기계 독해 학습 데이터 자동 생성 장치 및 그 방법 |
US11093718B1 (en) * | 2020-12-01 | 2021-08-17 | Rammer Technologies, Inc. | Determining conversational structure from speech |
US11302314B1 (en) | 2021-11-10 | 2022-04-12 | Rammer Technologies, Inc. | Tracking specialized concepts, topics, and activities in conversations |
US11599713B1 (en) | 2022-07-26 | 2023-03-07 | Rammer Technologies, Inc. | Summarizing conversational speech |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050198026A1 (en) * | 2004-02-03 | 2005-09-08 | Dehlinger Peter J. | Code, system, and method for generating concepts |
US20080103762A1 (en) * | 2006-10-27 | 2008-05-01 | Kirshenbaum Evan R | Providing a position-based dictionary |
US20110112833A1 (en) * | 2009-10-30 | 2011-05-12 | Frankel David P | Real-time transcription of conference calls |
US20120035959A1 (en) * | 2010-08-06 | 2012-02-09 | Sunjay Berdia | System and methods for an intelligent medical practice system employing a learning knowledge base |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
CN105190608A (zh) * | 2013-03-19 | 2015-12-23 | 国际商业机器公司 | 可定制、低延迟交互式计算机辅助翻译 |
CN107039040A (zh) * | 2016-01-06 | 2017-08-11 | 谷歌公司 | 语音识别系统 |
CN107210036A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议词语云 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1497751A4 (en) | 2002-04-05 | 2009-10-21 | At & T Corp | METHOD AND SYSTEM FOR DETECTION AND EXTRACTION OF NAMED ENTITIES OF SPONTANEOUS COMMUNICATIONS |
US7587308B2 (en) * | 2005-11-21 | 2009-09-08 | Hewlett-Packard Development Company, L.P. | Word recognition using ontologies |
WO2008106655A1 (en) * | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
US8385971B2 (en) * | 2008-08-19 | 2013-02-26 | Digimarc Corporation | Methods and systems for content processing |
US8886206B2 (en) * | 2009-05-01 | 2014-11-11 | Digimarc Corporation | Methods and systems for content processing |
US8644611B2 (en) * | 2009-06-03 | 2014-02-04 | Raytheon Bbn Technologies Corp. | Segmental rescoring in text recognition |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US9043206B2 (en) * | 2010-04-26 | 2015-05-26 | Cyberpulse, L.L.C. | System and methods for matching an utterance to a template hierarchy |
CN103154936B (zh) * | 2010-09-24 | 2016-01-06 | 新加坡国立大学 | 用于自动化文本校正的方法和系统 |
BR122017002789B1 (pt) * | 2013-02-15 | 2021-05-18 | Voxy, Inc | sistemas e métodos para aprendizagem de idioma |
US10282469B2 (en) * | 2014-03-25 | 2019-05-07 | Oath Inc. | System and method for summarizing a multimedia content item |
US20160162569A1 (en) * | 2014-12-09 | 2016-06-09 | Idibon, Inc. | Methods and systems for improving machine learning performance |
GB2537927A (en) * | 2015-04-30 | 2016-11-02 | Fujitsu Ltd | Term Probabilistic Model For Co-occurrence Scores |
-
2018
- 2018-06-12 US US16/005,926 patent/US10629205B2/en active Active
-
2019
- 2019-06-04 CN CN201910480285.6A patent/CN110598201B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050198026A1 (en) * | 2004-02-03 | 2005-09-08 | Dehlinger Peter J. | Code, system, and method for generating concepts |
US20080103762A1 (en) * | 2006-10-27 | 2008-05-01 | Kirshenbaum Evan R | Providing a position-based dictionary |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US20110112833A1 (en) * | 2009-10-30 | 2011-05-12 | Frankel David P | Real-time transcription of conference calls |
US20120035959A1 (en) * | 2010-08-06 | 2012-02-09 | Sunjay Berdia | System and methods for an intelligent medical practice system employing a learning knowledge base |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
CN105190608A (zh) * | 2013-03-19 | 2015-12-23 | 国际商业机器公司 | 可定制、低延迟交互式计算机辅助翻译 |
CN107210036A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议词语云 |
CN107039040A (zh) * | 2016-01-06 | 2017-08-11 | 谷歌公司 | 语音识别系统 |
Non-Patent Citations (2)
Title |
---|
于霆: "IBM公司报导语音识别和转录的进展", 《系统工程与电子技术》 * |
刘宇鹏等: "基于WordNet词义消歧的系统融合", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
US20190378513A1 (en) | 2019-12-12 |
US10629205B2 (en) | 2020-04-21 |
CN110598201B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598201B (zh) | 从概率输入识别准确转录 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
US10915564B2 (en) | Leveraging corporal data for data parsing and predicting | |
US10606946B2 (en) | Learning word embedding using morphological knowledge | |
US10109275B2 (en) | Word hash language model | |
US20180121415A1 (en) | Probabilistic matching for dialog state tracking with limited training data | |
US20200364299A1 (en) | Systems and methods for unsupervised autoregressive text compression | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
US8731930B2 (en) | Contextual voice query dilation to improve spoken web searching | |
US20130124492A1 (en) | Statistical Machine Translation Based Search Query Spelling Correction | |
US20180068221A1 (en) | System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus | |
US11720757B2 (en) | Example based entity extraction, slot filling and value recommendation | |
JP7116309B2 (ja) | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム | |
KR20060044753A (ko) | 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현 | |
US20120209590A1 (en) | Translated sentence quality estimation | |
US20190155942A1 (en) | Searching multilingual documents based on document structure extraction | |
US11416539B2 (en) | Media selection based on content topic and sentiment | |
US20190317993A1 (en) | Effective classification of text data based on a word appearance frequency | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
JP5975938B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
US20230046248A1 (en) | Machine learning models for detecting topic divergent digital videos | |
WO2020052060A1 (zh) | 用于生成修正语句的方法和装置 | |
CN111259180A (zh) | 图像推送方法、装置、电子设备和存储介质 | |
US20220215173A1 (en) | Entity recognition based on multi-task learning and self-consistent verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |