CN1495641B - 将语音字符转换成书面字符的方法和设备 - Google Patents

将语音字符转换成书面字符的方法和设备 Download PDF

Info

Publication number
CN1495641B
CN1495641B CN03155007XA CN03155007A CN1495641B CN 1495641 B CN1495641 B CN 1495641B CN 03155007X A CN03155007X A CN 03155007XA CN 03155007 A CN03155007 A CN 03155007A CN 1495641 B CN1495641 B CN 1495641B
Authority
CN
China
Prior art keywords
vector
input data
word
documents
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN03155007XA
Other languages
English (en)
Other versions
CN1495641A (zh
Inventor
木田泰夫
岩崎满
原启介
高野卓巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN1495641A publication Critical patent/CN1495641A/zh
Application granted granted Critical
Publication of CN1495641B publication Critical patent/CN1495641B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种方法、设备、系统和信号方位媒体,通过发现与输入数据相似的文献和用相似的文献建立专用字典,专用字典包括在相似文献中发现的字的加权列表,以此把诸如语音或语音字符的输入数据转换为文本。加权较高的字在输入数据中使用的可能性较高,所以,根据加权列表来选择转换文本中的字。可以用向量空间模型来搜索相似的文献。

Description

将语音字符转换成书面字符的方法和设备
技术领域
本发明通常涉及语音字符到书面字符的转换,本发明尤其涉及转换发音相同但写法不同的字。 
背景技术
日本书面语使用10000多个字符,称为日本汉字,它不是基于语音学的。大量的字符对有效地在计算机中输入文本是个挑战。输入日文文本的普通方法是让用户以称为假名的语音学字符键入文本,计算机用称为假名-日本汉字转换的过程把假名字符转换为日本汉字文本。 
假名-日本汉字转换是复杂的过程。新近的假名-日本汉字转换引擎利用语法分析,例如,形容词可以在名词之前,还利用语义分析,例如,“夏天”可以指“高温”,但不会是指“辛辣”。假名-日本汉字转换与字符或语音识别共享的类似性质是:对于给定的输入,有多种可能的结果,转换过程需要对可能的结果分级,目的是把最可能的输出呈现给用户。该输出可以是错误结果,称为转换差错。通过计算用正确转换的字数除以转换的总字数来测量转换差错频率。转换精度是用户在假名-日本汉字转换引擎之间选择时最重要的因子,新近的转换引擎具有96-97%的转换精度。 
一类转换差错称为上下文依赖类。上下文依赖差错的实例是发音相同从而具有相同的假名语音字符的字,但是多个日本汉字字符取决于上下文。例如,日本语音发音“sousha”可以是指乐器的“演奏者”或“奔跑者”。都发音为“sousha”,但是写法不同。如果用户以假名键入:<the“sousha”ofthe piano was Mary>,转换引擎的语义分析就能确定日本汉字“sousha”应转换为意思是“演奏者”而不是“奔跑者”的日本汉字符号,这是因为“sousha”的上下文中有“piano”。相反,如果用户以假名键入:<The“sousha”was Mary>,转换引擎的语义分析就没有用来解释“sousha”的适当的上下文,必须随意猜测日本汉字字符,这可能出错。 
另一个普通的转换差错出现在名字上,可能发音相同而写法不同。例如,普通的日本名字“Keiko”可以有10种以上的写法。如果用户知道两个名为Keiko的人,一个是用户的朋友,另一个是用户的老板,用户可能想向这两个人写电子邮件,以假名键入:<Hi,“Keiko”,let’s go skiing this weekend>以及<“Keiko”,let’stalk about the project schedule>。用户会想要让转换引擎把第一个“Keiko”转换为与名为Keiko的朋友有关的日本汉字字符,把第二个“Keiko”转换为与名为Keiko的老板有关的日本汉字字符。不幸的是,现有转换引擎所使用的语法和语义分析不能选择正确的日本汉字字符,因为现有的转换引擎不知道一个“Keiko”去滑雪,而另一个“Keiko”去谈计划安排。 
虽然已经对假名和日本汉字描述了上述问题,但是,这对所有不同写法的字具有相同发音或相同语音表达的语言都同样适用。例如,英文书面词“main”和“mane”有相同的发音。语义信息对分析口语句子是没有帮助的:“The mainwas cut”与“The mane was cut”中,“main”指管子,“mane”指动物毛发。 
由于转换引擎的购买者根据转换精度来作出购买决定,所以,提供执行更精确地转换的解决方案至关重要。 
发明内容
在通过把诸如讲话或语音字符的输入数据转换为文本的实施例中,提供了一种方法、设备、系统和信号方位媒体,通过发现类似于输入数据的文献和用类似的文献产生专用字典来把输入数据转换为文本,专用字典包括来自类似文献的字的加权列表。加权较高的字可在输入数据中使用的可能性较高,所以,根据加权列表选择转换的文本中的字。在实施例中,可以把向量空间模型用于搜索类似的文献。 
本发明提供一种将字符的语言或语音表达转换成字符的书面表达的方法,包含: 
计算输入数据的向量; 
计算多个文献的多个向量; 
把输入数据的向量与多个文献的多个向量中的每个向量进行比较; 
根据输入数据的向量与多个文献的多个向量的接近度来选择多个文献的子集; 
在所述多个文献的子集中确定字的频率;和 
根据频率将输入数据转换成文本。 
本发明还提供一种系统,包含: 
处理器;和 
与处理器耦连的存储装置,所述存储装置包含字典和转换引擎,以将输入数据转换成文本,其中,所述存储装置还包含在处理上执行时使所述转换引擎执行以下动作的指令: 
计算输入数据的向量; 
计算多个文献的多个向量; 
把输入数据的向量与多个文献的多个向量中的每个向量进行比较; 
根据输入数据的向量与多个文献的多个向量的接近度来选择多个文献的子集; 
在所述多个文献的子集中确定字的频率;和 
根据频率将输入数据转换成文本。 
本发明还提供一种将字符的语言或语音表达转换成字符的书面表达的设备,包含: 
用来计算输入数据的向量的装置; 
用来计算多个文献的多个向量的装置; 
用来把输入数据的向量与多个文献的多个向量中的每个向量进行比较的装置; 
用来根据输入数据的向量,将多个文献分为与输入数据相似的第一子集和与所述数据不相似的第二子集的装置; 
用来在第一子集中确定字的频率的装置;和 
用来根据频率将输入数据转换成文本的装置。 
附图说明
图1描绘了本发明实施例的实例部件的框图。 
图2描绘了根据本发明的实施例对实例文献和它们的相关实例向量的图示。 
图3描绘了根据本发明实施例的实例处理的流程图。 
图4描绘了用来实现本发明的实施例的实例系统的框图。 
具体实施方式
在下文对本发明的示例实施例的详细描述中,参考形成其一部分的附图(相似的数字表示相似的元件),其中,用对实践本发明的具体示例实施例进行说明的方式来显示。充分详细地描述这些实施例,使本领域的技术人员能实践本发明,但是,可以利用其它实施例,可以进行逻辑的、机械的、电气的、其它的改变而不背离本发明的范围。因而,下面的详细描述不是要进行限制,本发明的范围只由所附的权利要求书来定义。 
在下面的描述中,解释大量具体细节,以提供对本发明的完全理解。然而,要知道,可以不用这些具体细节来实践本发明。其它情况下,没有详细显示已知的电路、结构和技术,目的是不使本发明混淆不清。 
图1描绘了本发明的实施例的示例部件的框图。图解说明了输入数据105、转换引擎110、预先存在的文献115、字典120、专用字典125以及转换的文本199。 
输入数据105包含用户想要转换的数据。在一个实施例中,输入数据105包括语音字符,诸如用户希望转换为日本汉字的假名。在另一实施例中,输入数据105包括与语音-文本应用有关的日语口语表达。在另一实施例中,输入数据包括与语音-文本应用有关的英语口语或者任何其它语言的表达,该表达可以是任何形式,诸如一般的字,或者标记有语音部分的字。在所示的实例中,输入数据105包括表示假名语音字符的“Keiko”、“project”、“schedule”以及“meeting”。 
转换引擎110读取输入数据105并用字典120、专用字典125和预先存在的文献115将其转换为转换的文本199。转换引擎110产生表示输入数据105的向量,用该向量搜索预先存在的文献115,查找与输入数据105类似的文献的子集,参考图2和3在下文中进一步描述。 
在一个实施例中,转换引擎110可以是孤立应用。但是,在另一实施例中,转换引擎110可以是把经假名键盘或其它输入方法输入的字符的语音表达转换为日本汉字字符的实用新型的一部分。在又一实施例中,转换引擎110可以是把口头语音或口头语音的表达转换为字符文本的语音-文本应用的一部分。转换引擎110不限于日本语言,可以用于其它适当的语言。 
预先存在的文献115可以包括用户已经书写的文献,但在另一实施例中,预先存在的文献115可以包括任何一组用户希望用作对转换引擎110的输入的文 献。如实例所示,预先存在的文献115包括文献130、135、140、145和146。文献130、135、140和145是转换引擎110确定的与输入数据105类似或接近的文献,不类似的文献146是转换引擎110确定为不与输入数据105类似的文献。下面参考图2和3,描述转换引擎110用来区分类似的文献和不类似的文献的技术。 
文献130包括日本汉字字符“Keiko-boss”和“schedule”。文献135包括日本汉字字符“Keiko-boss”、“project”和“meeting”。文献140包括日本汉字字符“Keiko-boss”、“schedule”和meeting。文献145包括日本汉字字符“Keiko-friend”、“skiing”和“meeting”。使用“Keiko-boss”和“Keiko-friend”是要表达根据名为“Keiko”的人与讲话者或用户的关系而具有不同的相应日本汉字字符的日本汉字或者“Keiko”的语音表达。例如,日本汉字字符依Keiko是用户的朋友或是老板而不同。 
虽然把文献130、135、140和145说明为包括日本汉字字符,但是,在另一实施例中,它们可以包括在任何语言中的字符。例如,许多语言包含在语音处理器(例如语音-文本应用)中具有相同发音和相同语音表达而书写形式不同的字。 
字典120包括语音表达及与其相对频率一起的各个书面字符的列表、部分语音信息(例如,名词、动词、形容词等)以及语义信息(例如,通常用在音乐的上下文中的字钢琴)。字典120的内容通常称为加权列表,这是因为该列表由相对频率加权。在一个实施例中,可以根据使用该字典的应用,以不同的相对频率呈现多个字典。例如,一些字在普通会话中很少用,而可能频繁地在法律或医学应用中使用。在另一实施例中,字典120可以包括更多或更少的项目。 
专用字典125包括假名域126、日本汉字域127和频率域126。在与域假名-日本汉字转换无关的另一实施例中,假名域126可以由语音表达域来代替,日本汉字域可以由文本域来代替。专用字典125还可以包括部分语音信息、语义信息和其它适当的域。 
专用字典125包括字典120的加权列表,具有通过把输入数据105与预先存在的文献115进行比较而修改的相对频率,参考图2和3在下文中进一步描述。在预先存在的文献115的类似子集中使用更频繁的字在专用字典125中有更高的频率128,在预先存在的文献115的类似子集中使用频率较低的字在专用字典125中具有较低的频率128。例如,在类似的文献130、135、140和145中把 “Keiko-boss”使用了3次,所以,“Keiko-boss”在专用字典125中的频率128是“3”。“Keiko-friend”在类似的文献130、135、140和145中使用了1次,所以,“Keiko-friend”在专用字典125中的频率128是“1”。 
虽然,专用字典125所示的实例以频率128进入,频率128与在类似的现有文献中使用的字的次数确切相应,在另一实施例中,频率128是相对的或成比例的。在又一实施例中,没呈现频率128,可以只以在专用字典125中进入的顺序来反映。在一个实施例中,“转换的总记分”基于频率128,如下所述。当输入数据可以转换为两个可能的结果:“B1 B2 B3 B4 B5”以及“C1 C2 C3 C4 C5”,这里的B1、B2、B3、B4、B5、C1、C2、C3、C4、C5是字时,转换的总记分定义为:f(B1)+f(B2)+f(B3)+f(B4)+f(B5)+cnn(B12)+cnn(B23)+cnn(B34)+cnn(B45)。 
在上述等式中,:f(B1)是字B1的频率,f(B2)是字B2的频率,f(B3)是字B3的频率,f(B4)是字B4的频率,f(B5)是字B5的频率。在上述等式中,cnn(B12)是语音的部分B1和B2会多频繁地在一起,例如,形容词和名词可以容易地连接在一起;cnn(B23)是语音的部分B2和B3会多频繁地在一起;cnn(B34)是语音的部分B3和B4会多频繁地在一起;cnn(B45)是语音的部分B4和B5会多频繁地在一起。对于一些输入数据,使用转换的总记分会得到比只用基于频率128选择字更精确的结果。 
转换的文本199包括感兴趣的语言中书面字符的表达,转换引擎110从输入数据105用字典120、专用字典125和预先存在的文献115产生该表达,如上所述。 
图2描绘了根据本发明的实施例的示例文献和它们的相关实例向量的图示。转换引擎110用称为向量空间模型的技术将一个文献与另一文献的相似性和接近性进行比较。在向量空间模型中,转换引擎110用n维向量表示文献,它是包含来自文献的唯一字和唯一字出现次数的数据结构。N维向量中的每个维度表示一个唯一字,“n”是表示唯一字的数量的整数。 
在图2的实例中,文献205包含3个字:“schedule”、“Keiko-boss”以及“Keiko-boss”,文献210包含2个字:“Keiko-boss”和“schedule”。文献205和文献210都包含两个唯一字,所以,转换引擎110分别用两维向量:向量215和220来表示文献205和文献210。向量215和220图解说明为两维向量空间 202,它在垂直轴上在文献“Keiko-boss”中具有大量例子,在水平轴上有“schedule”的大量例子。为了说明方便,显示只有两个唯一字的文献,产生两维向量空间202,但是在其它实施例中,可以使用任何维度和任何字。而且,文献可以具有相同或不同数量的唯一字。 
转换引擎110通过比较其向量之间的角225,比较文献的相似性和接近性。向量之间的角小的向量是相似的,而角大的向量是不同的。在一个实施例中,转换引擎110计算角225的余弦,作为用向量长度的积标准化(除)两个向量的内积。当角的余弦是1时,向量是同一的。当角的余弦是0时,向量是正交的(没有公共字)。在另一实施例中,转换引擎110用欧几里德距离或任何其它适当的方法计算向量的相似性。 
余弦相似性: 
cos ( x &OverBar; , y &OverBar; ) = ( x &OverBar; , y &OverBar; ) | x &OverBar; | | y &OverBar; | = &Sigma; x i y i &Sigma; x i 2 y i 2
欧几里德距离: 
| x &OverBar; - y &OverBar; | = &Sigma; ( x i - y i ) 2
这里, 
Figure S03155007X20060914D000073
和 是所比较的向量。 
一旦转换引擎110具有用上述技术算得的数,转换引擎110通过确定计算数是否在预定的恒量内,确定该数是否表示在向量之间有足够的相似性。例如,转换引擎110可以决定:在向量的余弦大于.75时,文献是相似的,当余弦小于或等于.75时,文献是不相似的。可以使用任何适当的预定恒量,可以用转换引擎110设定或由用户来选择预定的恒量。在另一实施例中,转换引擎使用基于预先存在的文献115的数量、预先存在的文献115中的字数、希望类似的现有文献的比例或数量或者任何其它适当的因子的动态改变标准。 
因为输入数据105包含在格式上与文献115不同的数据(例如,输入数据105包含假名字符而文献115包含日本汉字字符,或者输入数据105包含口语语音的表达,而文献115包含文本),输入数据105的输入向量是间接的,经迭代过程进行计算和比较。对文献115的向量和输入数据105的间接比较使用称为“输入的数据”的概念,可以参考下面的实例来理解,这里,最初输入的数据是 空的,输入数据105中的第一条数据是“a”。 
输入的数据:(空) 
下一条输入数据:“a” 
由于没有输入的数据,可能还没比较输入数据105的向量和文献115,可以没出现“a”的上下文敏感的转换,所以,不对“A”考虑上下文敏感而转换输入数据105(例如,把假名转换为日本汉字或把口语语音转换为文本)。输入数据105中的下一条数据是“b”,造成: 
输入的数据:“A” 
下一条输入数据:“b” 
现在“A”用于形成输入数据105的当前向量,通过比较输入数据105的当前向量和文献115的向量以及把“b”转换为“B”,用来改善对新的输入“b”的分析。下一条输入数据是“c”,造成: 
输入的数据:“AB” 
下一条输入数据:“c” 
这样,随着分析每一条输入数据105,更新和改善输入数据105的向量。 
虽然以向量空间模型描述了本发明的实施例,但是,在另一实施例中,可以使用能发现类似的文献的最新语义模型或任何其它模型。 
图3描绘根据本发明的实施例的示例处理的流程图。在块300开始控制。然后,控制继续到转换引擎110接收输入数据105的块305。 
然后,控制继续到转换引擎110间接产生输入数据105的向量的块310,如前参考图2所述。 
然后,控制继续到转换引擎110发现预先存在的文献115并计算它们的向量的块315,如前参考图2所述。在另一实施例中,在开始转换输入数据105之前计算预先存在的文献115的向量,目的是改善转换过程的性能。在一个实施例中,压缩预先存在的文献115的向量。 
然后,控制继续到块320,转换引擎110根据预先存在的文献115的向量如何接近输入数据105的向量来选择预先存在的文献115的子集,如前参考图2所述。即,转换引擎110根据预先存在的文献115的向量把它们分为两个子集:一个子集与输入数据105类似,另一个子集与输入数据105不相似。 
然后,控制继续到块325,转换引擎110根据字典120和预先在块320选 择的类似文献的子集中的字的频率,产生专用字典125。这样,预先存在的文献115的类似子集中更频繁使用的字在专用字典125中具有更高的频率或权,在预先存在的文献115的类似子集中使用频率较低的字在专用字典125中具有较低的频率。 
然后,控制继续到块330,转换引擎110根据专用字典125中字的加权列表把输入数据105转换为转换的文本199。当输入数据105中的语音表达映射专用字典125中的多个字上时,转换引擎110根据频率128选择字。用图1的实例,转换引擎110选择“Keiko-boss”作为用于输入数据105中的“Keiko”假名的日本汉字字符,这是因为“Keiko-boss”在专用字典125中具有频率“3”,该频率大于用于“Keiko-friend”的频率“1”。 
转换的文本199可以任意加到要使用的文献115上,用于在将来转换中的参考。 
然后,控制继续到功能返回的块399。 
图4描绘了用来实现本发明的实施例的系统的框图。 
系统400包括经网络491与服务器490连接的计算机410。虽然显示了一个计算机410、一个服务器490和一个网络491,在其它实施例中,呈现任何一个数字或它们的组合。在另一实施例中,不呈现服务器490和网络491。 
计算机410包括均通过总线480连接的处理器430、存储装置435、输出装置437和输入装置438。 
虽然可以使用任何适当的处理器,但处理器430呈现了任何类型结构的中央处理单元,诸如CISC(复杂指令集计算)、RISC(精简指令集计算)、VLIW(超长指令字)或者混合体系结构。处理器430执行指令,包括控制整个计算机的操作的计算机410的部分。虽然,在图4中没有描绘,处理器430通常包括组织在存储器中的数据和程序存储的控制单元,并在计算机410的不同部分之间传送数据和其它信息。处理器430从输入装置438和网络491接收输入数据,在存储装置435中读取和存储代码和数据,把数据呈现给输出装置437。 
虽然计算机410显示为只包含一个处理器430和一条总线480,本发明可同样应用于具有多个处理器的计算机和可以有多条总线的计算机,它们中的一部分或全部以不同的方式执行不同的功能。 
存储装置435呈现用于存储数据的一个或多个机构。例如,存储装置435 可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光盘存储媒体、闪存装置和/或其它机器可读媒体。在其它实施例中,可以使用任何适当类型的存储装置。虽然,只显示了一个存储装置435,但是,可以呈现多个存储装置和多种类型的存储装置。而且,虽然计算机410画为包含存储装置435,但是,它可以分布到其它计算机,例如,在服务器490上。 
存储装置435包括输入数据105、转换引擎110、字典120、专用字典125和预先存在的文献115。转换引擎110包括能在处理器430上执行的指令,用来执行本发明的功能,如前参考图1、2、3所示。在另一实施例中,代替基于处理器的系统由硬件执行本发明的一些或所有功能。当然,存储装置435也可包含不需理解本发明的附加软件和数据(未示出)。 
虽然转换引擎110、字典120、专用字典125和预先存在的文献115显示为在计算机410的存储装置435之内,但是,它们中的一部分或全部可以分布在其它系统上,例如在服务器490上,经网络491来访问。在一个实施例中,用户经输入装置438进入输入数据105,但是,在另一实施例中,可以从替代资源获得输入数据105,诸如从网络491。 
输出装置437是把输出显示给用户的计算机410的一部分。输出装置437可以是在计算机硬件技术中已知的基于阴极射线管(CRT)的视频显示器。但是,在其它实施例中,输出装置437可以由液晶显示器(LCD)或基于气体、基于等离子的平板显示器来代替。在又一实施例中,可以使用任何适当的显示装置。在还一实施例中,可以使用扬声器。虽然只显示了一个输出装置437,但是,在其它实施例中,可以呈现不同类型或相同类型的任何数量的输出装置。在另一实施例中,可以不呈现输出装置437。 
输入装置438可以是键盘、假名键盘、鼠标、跟踪球、触摸垫、触摸屏、小键盘、麦克风、语音识别装置或任何其它适当的让用户向计算机410输入数据的机构。虽然只显示了一个输入装置438,但是,在另一实施例中,可以呈现任何数量和类型的输入装置。 
总线480可以呈现一条或多条总线,例如,PCI、ISA(工业标准结构)、X总线、EISA(扩展工业标准结构)或任何其它适当的总线和或桥(也称为总线控制器) 
可以用任何适当的硬件和/或软件来实现计算机410,诸如个人计算机或其 它电子计算装置。便携式计算机、膝上型或笔记本电脑、PDA(个人数字助理)、双向数字传呼机、小键盘、便携式电话、袖珍计算机、带有计算单元的设备以及大型计算机是计算机410的其它可能结构的实例。在图4中描绘的硬件和软件可以对具体应用而变化,可以包括比所描绘的那样更多或更少的元件。例如,可以在已经描绘的硬件之外附加使用诸如音频适配器的其它外设装置或者诸如EPROM(可擦可编程只读存储器)编程装置的芯片编程装置,或者用它们代替所描绘的硬件。 
网络491可以是任何适当的网络,可以支持适于与计算机410通信的任何适当的协议。在一个实施例中,网络491可以支持无线通信。在另一实施例中,网络491支持硬布线的通信,诸如电话线或电缆。在另一实施例中,网络491支持以太网IEEE802.3x标准。在另一实施例中,网络491是因特网,支持IP(网际协议)。在另一实施例中,网络491是局域网(LAN)或广域网(WAN)。在另一实施例中,网络491是热点服务供应商网络。在另一实施例中,网络491是内部网。在另一实施例中,网络491是GPRS(通用分组无线业务)网络。在另一实施例中,网络491是任何适当的蜂窝数据网络或者基于小区的无线电网络技术。在另一实施例中,网络491是IEEE(电气和电子工程师协会)802.11B无线网络。在又一实施例中,网络491是任何适当的网络或网络组合。虽然显示了一个网络491,但是,在其它实施例中,可以呈现任何数量的网络(类型相同或不同)。 
在上文中进行了详细描述,实施例的多个方面适于可在计算机或其它电子装置上实现的具体设备和方法。在另一实施例中,本发明可以实现为程序产品,用于电子装置。定义该实施例的功能的程序可以经多种信号方位媒体传递到电子装置,包括但不限于: 
(1)信息永久存储在不可重写存储媒体上,例如附着到电子装置上或电子装置内的只读存储装置,诸如可由CD-ROM驱动器读取的CD-ROM; 
(2)可修改信息存储在可重写存储媒体上,例如在硬盘驱动器或磁带上;或 
(3)用通信媒体把信息传送到电子装置,诸如经过计算机或电话网络,包括无线通信。 
这种信号方位媒体在执行针对本发明的功能的机器可读的指令时体现本发 明的实施例。 

Claims (26)

1.一种将字符的语言或语音表达转换成字符的书面表达的方法,包含:
计算电子转换引擎中接收的输入数据的向量;
计算多个文献的多个向量;
把输入数据的向量与多个文献的多个向量中的每个向量进行比较;
根据输入数据的向量与多个文献的多个向量的接近度来选择与输入数据类似的多个文献的子集;
确定所述多个文献的子集中的字的频率;和
用所述电子转换引擎根据频率将输入数据转换成文本,其特征在于,所述转换包含:
根据所述多个文献的子集中的字的频率,产生专用字典;以及
根据所述专用字典将输入数据转换成文本。
2.根据权利要求1所述的方法,其特征在于,所述比较包含:
把输入数据的向量与多个向量中的每个向量之间的角进行比较。
3.根据权利要求1所述的方法,其特征在于,所述比较包含:
通过计算输入数据的向量和多个向量中的每个向量之间的角的余弦,把输入数据的向量与多个向量中的每个向量进行比较。
4.根据权利要求1所述的方法,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表,其中所述加权列表至少部分基于所述多个文献的子集中的字的频率;以及
所述根据频率进行转换包括根据加权列表将输入数据转换成文本。
5.根据权利要求1所述的方法,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表;
所述产生包括根据所述多个文献的子集中的字的频率给在输入数据中使用的可能性越高的加权列表中的字分配越高的权;以及
所述根据频率进行转换包括根据加权列表将输入数据转换成文本。
6.根据权利要求1所述的方法,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表;
所述产生包括计算所述多个文献的子集中的字的频率;以及
所述根据频率进行转换包括根据加权列表将输入数据转换成文本。
7.根据权利要求1所述的方法,其特征在于,所述比较包含:
通过确定输入数据的向量与多个向量中的每个向量之间的欧几里德距离,把输入数据的向量与多个向量中的每个向量进行比较。
8.根据权利要求1所述的方法,其特征在于,输入数据包含语音数据。
9.根据权利要求1所述的方法,其特征在于,输入数据包含语音字符。
10.根据权利要求1所述的方法,其特征在于,输入数据包含假名字符。
11.一种用于将字符的语言或语音表达转换成字符的书面表达的设备,包含:
计算电子转换引擎中接收的输入数据的向量的装置;
计算多个文献的多个向量的装置;
把输入数据的向量与多个文献的多个向量中的每个向量进行比较的装置;
根据输入数据的向量与多个文献的多个向量的接近度来选择与输入数据类似的多个文献的子集的装置;
确定所述多个文献的子集中的字的频率的装置;和
用所述电子转换引擎根据频率将输入数据转换成文本的装置,其特征在于,所述进行转换的装置包含:
根据所述多个文献的子集中的字的频率,产生专用字典的装置;和
根据专用字典将输入数据转换成文本的装置。
12.根据权利要求11所述的设备,其特征在于,进行所述比较的装置包含:
把输入数据的向量与多个向量中的每个向量之间的角进行比较的装置。
13.根据权利要求11所述的设备,其特征在于,进行所述比较的装置包含:
通过计算输入数据的向量和多个向量中的每个向量之间的角的余弦,把输入数据的向量与多个向量中的每个向量进行比较的装置。
14.根据权利要求11所述的设备,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表,其中所述加权列表至少部分基于所述多个文献的子集中的字的频率;和
所述根据频率进行转换的装置包括根据加权列表把输入数据转换为文本的装置。
15.根据权利要求11所述的设备,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表;
所述用来产生的装置包括根据所述多个文献的子集中的字的频率给在输入数据中使用的可能性越高的加权列表中的字分配越高的权的装置;和
所述根据频率进行转换的装置包括根据加权列表把输入数据转换为文本的装置。
16.根据权利要求11所述的设备,其特征在于:
所述专用字典包括来自所述多个文献的子集的字的加权列表;
所述用来产生的装置包括计算所述多个文献的子集中的字的频率的装置;和
所述根据频率进行转换的装置包括根据加权列表把输入数据转换为文本的装置。
17.根据权利要求11所述的设备,其特征在于,进行所述比较的装置包含:
通过确定输入数据的向量与多个向量中的每个向量之间的欧几里德距离,把输入数据的向量与多个向量中的每个向量进行比较的装置。
18.根据权利要求11所述的设备,其特征在于,还包含提供输入数据的麦克风。
19.根据权利要求11所述的设备,其特征在于,还包含提供输入数据的假名键盘。
20.根据权利要求11所述的设备,其特征在于,所述输入数据是从网络接收的。
21.根据权利要求11所述的设备,其特征在于:
所述用来产生的装置包括根据字典以及输入数据的向量和所述多个向量之间的角度来产生专用字典的装置。
22.根据权利要求21所述的设备,其特征在于,进行所述转换的装置根据专用字典中的字的加权列表,把输入数据转换为文本,其中所述加权列表至少部分基于所述多个文献的子集中的字的频率。
23.根据权利要求21所述的设备,其特征在于还包括:根据输入数据的向量和所述多个向量之间的角度,把预先存在的文献分为相似的文献和不相似的文献的装置。
24.根据权利要求11所述的设备,其特征在于,输入数据包含语音数据。
25.根据权利要求11所述的设备,其特征在于,输入数据包含语音字符。
26.根据权利要求11所述的设备,其特征在于,输入数据包含假名字符。
CN03155007XA 2002-08-06 2003-08-06 将语音字符转换成书面字符的方法和设备 Expired - Fee Related CN1495641B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/213,925 2002-08-06
US10/213,925 US7548863B2 (en) 2002-08-06 2002-08-06 Adaptive context sensitive analysis

Publications (2)

Publication Number Publication Date
CN1495641A CN1495641A (zh) 2004-05-12
CN1495641B true CN1495641B (zh) 2013-10-30

Family

ID=31494562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03155007XA Expired - Fee Related CN1495641B (zh) 2002-08-06 2003-08-06 将语音字符转换成书面字符的方法和设备

Country Status (4)

Country Link
US (1) US7548863B2 (zh)
JP (1) JP2004070959A (zh)
CN (1) CN1495641B (zh)
TW (1) TWI242181B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2493443C (en) 2002-07-23 2011-07-19 Research In Motion Limited Systems and methods of building and using custom word lists
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP2005202766A (ja) * 2004-01-16 2005-07-28 National Institute Of Information & Communication Technology 類似コンテンツの同時提示システム
EP1605371A1 (en) 2004-06-12 2005-12-14 Getty Images, Inc. Content search in complex language, such as japanese
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
US20050283724A1 (en) * 2004-06-18 2005-12-22 Research In Motion Limited Predictive text dictionary population
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
CN101512518B (zh) * 2006-09-07 2015-06-24 日本电气株式会社 自然语言处理系统和词典登录系统
US7752534B2 (en) * 2006-09-19 2010-07-06 International Business Machines Corporation Method and apparatus for customizing the display of multidimensional data
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP5026192B2 (ja) * 2007-08-20 2012-09-12 株式会社リコー ドキュメント作成システム、ユーザ端末、サーバ装置、およびプログラム
EP2299440B1 (en) * 2009-09-11 2012-10-31 Vodafone Holding GmbH Method and Device for automatic recognition of given keywords and/or terms within voice data
US8838453B2 (en) * 2010-08-31 2014-09-16 Red Hat, Inc. Interactive input method
US9330083B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US9330082B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. User experience with customized user dictionary
JP5324677B2 (ja) * 2012-02-24 2013-10-23 株式会社日立製作所 類似文書検索支援装置及び類似文書検索支援プログラム
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
CN105404401A (zh) 2015-11-23 2016-03-16 小米科技有限责任公司 输入处理方法、装置及设备
CN107292396B (zh) * 2017-08-14 2020-05-05 南宁学院 一种水电设备报修消息处理方法
US11663414B2 (en) * 2018-02-20 2023-05-30 Fluence Bioengineering, Inc. Controlled agricultural systems and methods of managing agricultural systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
CN1167950A (zh) * 1996-03-19 1997-12-17 西门子公司 语音识别计算机模块及基于音素的数字语音信号变换方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
JPH1145241A (ja) 1997-07-28 1999-02-16 Just Syst Corp かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
JP2002539528A (ja) * 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6836760B1 (en) * 2000-09-29 2004-12-28 Apple Computer, Inc. Use of semantic inference and context-free grammar with speech recognition system
US7155668B2 (en) * 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
US20020169592A1 (en) * 2001-05-11 2002-11-14 Aityan Sergey Khachatur Open environment for real-time multilingual communication
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
CN1167950A (zh) * 1996-03-19 1997-12-17 西门子公司 语音识别计算机模块及基于音素的数字语音信号变换方法

Also Published As

Publication number Publication date
TW200415573A (en) 2004-08-16
JP2004070959A (ja) 2004-03-04
CN1495641A (zh) 2004-05-12
US20040030543A1 (en) 2004-02-12
TWI242181B (en) 2005-10-21
US7548863B2 (en) 2009-06-16

Similar Documents

Publication Publication Date Title
CN1495641B (zh) 将语音字符转换成书面字符的方法和设备
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN111710333B (zh) 用于生成语音转录的方法和系统
Sak et al. Resources for Turkish morphological processing
EP2339576A2 (en) Multi-modal input on an electronic device
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN104573099A (zh) 题目的搜索方法及装置
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
US20040186706A1 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
CN111354343A (zh) 语音唤醒模型的生成方法、装置和电子设备
Viacheslav et al. System of methods of automated cognitive linguistic analysis of speech signals with noise
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
WO2019021804A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
Xu et al. Product features mining based on Conditional Random Fields model
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
Forsati et al. An efficient meta heuristic algorithm for pos-tagging
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
Lee Natural Language Processing: A Textbook with Python Implementation
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
Aliprandi et al. An inflected-sensitive letter and word prediction system
Ning et al. Domain Knowledge Enhanced Error Correction Service for Intelligent Speech Interaction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20040512

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131030

Termination date: 20160806

CF01 Termination of patent right due to non-payment of annual fee