CN1095137C - 字典检索装置 - Google Patents

字典检索装置 Download PDF

Info

Publication number
CN1095137C
CN1095137C CN94104998A CN94104998A CN1095137C CN 1095137 C CN1095137 C CN 1095137C CN 94104998 A CN94104998 A CN 94104998A CN 94104998 A CN94104998 A CN 94104998A CN 1095137 C CN1095137 C CN 1095137C
Authority
CN
China
Prior art keywords
character
group
dictionary
string
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN94104998A
Other languages
English (en)
Other versions
CN1097883A (zh
Inventor
西野文人
杉本尚美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1097883A publication Critical patent/CN1097883A/zh
Application granted granted Critical
Publication of CN1095137C publication Critical patent/CN1095137C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一个字典检索装置,包括:对字符子集提供组ID的转换字符定义表,以组ID替代字符的字符一组ID转换部分、把来自输入部分的输入字符串转换成输入组ID的输入字符串转换部分、将词字典转换成由表示组ID串定义的转换词字典的字典转换部分、以及由输入组ID串检索转换词字典的字典检索部分。该字典检索装置把转换字符定义表所定义的字符集各元素看作为同一元素。

Description

字典检索装置
本发明是关于一种字典检索装置,它用于以日文、中文、朝鲜文、英文等书写的报告的各种处理。进一步说,本发明是关于这样一种装置,它使用该字典进行装置进行形式元素(form element)分析、不正确字符校正、字符标性化或后字行识别处理。
近些年,如字处理机、个人计算机、工作站之类计算机已广泛推广。人们希望使用计算机来进行各种处理,如报告的翻译、检索或分发。为进行翻译之类处理,必须将报告存贮于计算机中,并参照字典对报告中的句子进行形式元素分析。
通常的形式元素分析是在假定输入字符串被正确输入计算机的前提下进行的。为了进行形式元素分析,报告中的句子必须是正确输入的。
然而,在实际上,都经常输入一个系统研制者所不希望的另一个字符串作为输入字符串。
用日文写的不正确输入字符串和相应的正确输入字符串的表示实例示于图1。在图1中每个字符串的发音表示在中。图1的例1中,正确字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是“计算机”。在不正确的字符串中,使用了不正确的字符“减号”代夫了长元音符号“-”。在例2中,正确的字符串“(pa)(-)(Za)(-)”丢掉了第三个字符的发声符号“Za”。在例3中正确的字符串“(doku)(sen)(jou)”的意思是“无与伦比的”。而在不正确的字符串“(doku)(dan)(jou)”中第二个汉字(汉字是一个中文字符)在外形上与正确的字符相似,但意思上不同。在上述实例中的三个错误都是由于使用了类似的字符。
在例4中正确的字符串和不正确的字符串有相同的发音“toma to”和相同的含义“土豆”。不正确的字符串是用平假名(一种日文字母)输入的而不是用片假名(另一种日文字母)正确输入的。在这种情况下,不正确的字符串作为拼写变体是一种允许的表示,然而计算机系统把它作为不正确字符串处理。
对于人而言,上述正确字符串和不正确字符串的差别是小差别。然而,如果在翻译系统或其他类似系统中使用的词典中只存贮了正确的词,则会发生不能正确进行分析的问题。
在例5中,正确字符串和不正确字符串都表示一个日本姓氏,称作“takizawa”。它们的发音和它们的含义都相同,只是新体字和旧体字之差。这些不同的字体用于报告的不同书写环境,例如由不同的人写的或由于使用了不同的假名—汉字转换字典(即日文字—中文字转换字典)。正确字符串是用新体字写的,而不正确字符串是用旧体字写的。如果旧体字(它们不符合标准)没有登录在一个系统字典中,这种不正确字符串便作为未登录字输出,于是在通常的形式元素分析中便不出现它的正确选择物。
再有,通常的字符识别处理装置,例如印刷字符阅读器(reader)、手写输入字符阅读器之类,对于每个阅读字符输出多个候选字符。当用字符识别处理装置得到输入字符时,一个字符识别后处理装置“对于每个输入字符接收多个候选字符,再利用候选字符的组合来检索字典。如果一个长度为n的字符串中每个字符有m个候选字符,则字符识别后处理装置要对mn个字符串组合检索字典。于是,每个候选字符的数量增加,候选字符组合的数目增加,从而使字符识别后处理的速度变得缓慢。
为了提高字符识别后处理的速度,按通常的方式是试图把每个字符位置的候选字符数目减少为m’个候选字符(m’<m))。然而,在试图减少数目时,如果正确的字符被排除在这m’个候选字符之外,则不能检索到正确的词。
所以,本发明的一个目标是提供一个字典检索装置,它把由转换字符定义表所规定的字符集的各元素看作为同一元素,从而对一个由于输入错误迄今仍不能用以检索字典的字能够用以检索字典。
本发明的另一目标是提供一个形式元素分布装置,它使用上述能对一个迄今仍不能被用以检索字典的字进行字典检索的一个字典检索装置,从而允许有错误的输入。
本发明的又一目标是提供一种字符串校正装置,它使用上述能对一个迄今仍不能被用以检索字典的字进行字典检索的一个字典检索装置,从而能使字符标准化和改正错误。
本发明的又一目标是提供一种字符识别后处理装置,通过减少在每个字符位置候选组的数目和减少候选字符组合数目,并通过对字符识别处理装置输出的在每个字符位置的候选字符进行分组,使该字符识别后处理装置能提高其处理速度。
为达到上述目标,本发明构成了一个字典检索装置,包括:
一个转换字符定义表,它是把字符集C={C1,C2,…,Cn}分类成一些子集(GiCC)构成的,并向每个子集提供组ID;
一个字符一组ID转换部分使用转换字符定义表把字符串的每个字符由组ID代替;
一个输入字符串转换部分调用字符一组ID转换部分,把从输入部分输入的输入字符串转换成输入组ID串;
一个词字典用于存贮在输入部分出现的有效部分字符串构成的词;
一个字典转换部分调用字符一组ID转换部分把在词字典中定义的每个词的表示字符串转换成表示组ID串;
一个转换词字典用于存贮由字典转换部分转换而成的词;以及
一个字典检索部分用于对在输入字符串转换部分转换的输入组ID串检索由表示组ID表示的转换词字典。
语法G由非终止符N集合、词尾符  集合、产生符(Production)P集合以及起始符S表示成G=(N, ∑,P,S)。在语法G上的语言L表示为L(G)={t|s*t∧t∈ ∑*},这里∑是由∑符构成的长度大于零的串集合。
现在,假定W、W’是词,Ci是字符串,W=C1、C2、…、Ci…、Cn是属于∑的词尾符,W’=C1、C2、…、Ci’、…Cn是不属于∑的词尾符。如果有一个方向S*μwv但没有S≠*μwv,则仅由于Ci变为Ci’便造成语法G不再接受语言LCG)。就是说,仅由于一个不正确字符便不能执行正确的分析。
在本发明中,有可能引入一个变换F,使(F(w)=F(w’)),它利用变换字符定义表使Ci和Ci’属于同一组。在这时,定义了语法GF=(N,F(∑),P,S),由于使用了语法GF而接受的语言LCGF)变为L(GF)={t|s*F(t)∧F(t)∈∑*}。现在,如果在语法GF下有派生S*F(μ)F(w)F(v),则由F(w)=F(w’)也有派生S*F(μ)F(w’)F(v)。就是说,尽管在字符中存在错误,由于借助变换字符定义表使这些错误映射到(正确字符的)同一组从而能正确地进行分析。
例如,在上文中提到的图1中例1的情况中,如果长元音符号“(-)”和减号“(减号)”定为同一组,即使在字典(属于∑)中只定义了正确字符串,也能查出使用正确的长元音符“(-)”的正确词代替所输入的使用减号“(减号)”的不正确字符串,所以,该字符串能被改正。
在图1中的例5,如果每个不同的字体被定义为同一组,而只有使用新体字的正确字符串被登录,使用正确字体代替输入的不下确字体便能检索正确的词,所以能进行字符串的标准化。
本发明的另一方面是在一个机器翻译或自然语言接口之类的句子分析装置中构成了一个允许错误输入的形式元素分析装置,它由输入部分、扩展字典检索部分、语法规则以及语法检验部分构成。输入部分把句子输入到扩展字典检索部分。扩展字典检索部分有上述字典检索装置并对来自输入部分的输出句子检索字典。语法部分参照语法规则对字典检索结果进行形式元素分析并输出形式分析结果和字典信息。
本发明的又一方面是在形式元素分析装置中构成字符串校正装置,作法是设置构成形式元素部分,它借助语法检验部分构成形式元素分析结果并输出句子。
本发明的又一方面是在形式元素分析装置中构成字符串识别后处理装置,作法是将字符识别处理装置输出的候选字符串输入到输入部分并在语法检验部分和输出部分之间设置形式元素判决部分。候选字符串对于由字符识别处理装置得到的输入字符串的每个字符有多个候选字符。形式元素判决部分使用适当的评价函数确定由语法检验部分从形式元素分析结果得到的多个形式元素分析候选者的候选类别。
在字符识别后处理装置中,从字符识别处理装置输入的候选字符被转换成对应于每个候选字符的组号。所以,事先规定的转换字符定义表中把易于被字符识别处理装置错读的类似字符分到同一小组。于是减少了候选字符组的数量,也减少了用于查阅字典的候选字符组合的数目。而且,尽管从字符识别处理装置输出的候选字符中包括不正确字符,但如果在同一组中存在与该不正确字符类似的正确字符,便能够查询出正确的词。
图1给出从输入部分输入到一个字典检索装置中的不正确输入字符串和相应的正确字符串的实例。
图2是根据本发明的第一个实例的方框图。
图3的框图显示出图1的处理过程。
图4给出从图2的输入部分输入的不正确输入字符串和相应的正确字符串的一个实例。
图5是解释图2中字符组ID转换部分的流程图。
图6是根据本发明的第二个实例的方框图。
图7A显示出图6的输入部分输入的一个输入串,图7B显示出由图7A的输入串得到的部分字符串。
图8是根据本发明的第三个实例的方框图。
图9是根据本发明的第四个实例的方框图。
图10给出图9的读字行和候选字符串的一个实例。
图11给出根据本发明的第五个实例的转换字符定义表的一个实例。
图12给出根据本发明的第六个实例的转换字符定义表的一个实例。
图13给出根据本发明的第七个实例的转换字符定义表的一个实例。
图14给出根据本发明的第七个实例当中使用的自动装置。
图15给出根据本发明的第八个实例的转换字符定义表的一个实例。
图16给出根据本发明的第九个实例的转换字符定义表的一个实例。
下面将描述根据本发明的应用于日文书写的报告处理的字典检索、形式元素分析装置、字符串校正装置、以及字符识别后处理装置的实例。然而,本发明也能应用于日文以外的其他语言,如英文、中文、朝鲜文等。再有,本发明不仅能应用于自然语言,而且能应用于人工语言,例如由词汇和语法规则定义的程序语言。
在下面的实例描述中,同样的参考数码在每个图件中固定代表有同样功能的部分,对于多余的描述将不予重复。例1
下面将描述根据本发明的字典检索装置一例。
图2是本例的方框图。输入部分1从一个文件或输入装置之类读入字符串并输出该输入字符串的编码字符串。输入字符串转换部分2调用字符一组ID转换部分3,把来自输入部分1的输入字符串转换成输入组ID串。字符一组ID转换部分3用转换字符定义表4把字符串的每个字符替换成“组ID”。
转换字符定义表4是通过对字符集C=C1,C2…,Cn分类成若干了集(GiCC)并对每个子集给一个组ID构成的。字典转换部分5调用字符一组ID转换部分3,把词字典(word dictionary)6中定义的每个词的“表示字符串”转换成“表示组ID串”,并构成一个转换词字典7,该字典7是由表示组ID预先定义的。
词字典6存贮输入部分1处出现的有效部分字符串构成的词。转换词字典7利用字典转换部分5根据转换字符定义表4的定义将词字典6的表示部分的字符替换为组ID。字典检索部分8对于在转入字符转换部分2转换成的输入组ID串来检索由表示组ID写成的转换词字典,并向输出部分9输出其结果。
下面将参考图3描述上述字典检索装置的处理过程。
在输入部分1从一个文件、键盘或其他输入装置输入一个字符串并输出到输入字符串转换部分2。图4给出用日文写的不正确输入字符串和相应的正确字符串的实例。在图4中,每个字符串给出其表示符,并在括号()内给出其发音。图4中的正确字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是计算机,发音“-”是长元音符号,使前面紧挨着它的元音发长音。在不正确字符串中丢失了第三个字符“(pi)”的浊音,于是第三个正确字符“(pi)”变成了“(hi)”。
在图3中,输入字符串转换部分2借助字符一组ID转换部分3将来自部分1的字符串中每个字符转换为“组ID”。
将参考图5的流程图描述字符一组ID转换部分3的处理过程。
在步骤1,转入一个要被转换的字符串S。
在步骤2,给指针P赋值以指示字符串S的头。
在步骤3,判断指针是否指示该字符串尾(在最后一个字符之后)。如果指针P指示字符串S的末尾,则处理结束,被替换成组ID的字符串被回送到字典检索部分8。如果指针P没有指向字符串末尾,则过程转向步骤4。
在步骤4,由指针P指示的字符Ci被转换成由图3所示转换字符定义表4规定的组IDgi。
在步骤5,指针推进一个字符,处理过程返回步骤3。
通过上述图3的处理过程,由输入部分1输入到字符串转换部分2的输入字符串“(ko)(n)(hi)(yu)(-1)(ta)”被转成输入组ID串“123145”,并被输出到字典检索部分8。
现在将描述由字典检索部分8进行检索的转换词字典7。
词字典6存贮在输入部分1出现的有效部分字符串。图3中显示出该词字典6的一部分。在图3中只给出表示、发音和词类,但也能增加关于该词的其他信息,如含义状态(meaning attitude)等。
字典转换部分5调用字符组ID串转换部分3,把词字典6中定义的每个词的表示字符串转换为组ID串,于是转换词字典7存贮这些组ID串。图3中给出转换词字典7的这些词及相应字符组串的一部分。
字典检索部分8对于一个字典元素(它的组ID串作为相应于输入组ID串的关键字)来检索转换词字典7。作为对输入ID串“123145”的字典检索结果,检索出了“(ko)(n)(pi)(yu)(-)(ta)123145”。如前所述,通过这一例子,对于不正确词“(ko)(n)(hi)(-)(ta)”能检索到迄今不能被检索到的正确词“(ko)(n)(pi)(yu)(-)(ta)”。
在上述实例中,由相似字符集构成了转换字符定义表4。然而,转换字符定义表4不能由片假名和平假名配对集、新体字和旧体字集等构成。
如上所述,通过把转换字符定义表4中的字符串各元素看作是相同的,使迄今不能被检索的不正确输入词能够被检索。
再有,词字典6和转换词字典7的结构可以有类似于通常自然语言处理中使用的词字典结构,如右截断压缩结构、二进制树结构、TRIE结构等。例2
通过使用上述例1中的字典检索装置作为扩展字典检索部分,一个分析机器语言的形状元素分析装置或自然语言接口等能够分析允许错误输入的形式元素。下面将描述一个执行上述分析的形式元素分析装置的实例。
图6是本例框图。扩展字典检索部分10的结构与上述例1中描述的字典检索装置结构相同。这个扩展字典检索部分10与语法检查部分13共同工作,处理来自下文描述的输入部分11的文本(text),由文本中所希望的部分检索字典,并控制其他候选者的检索和输出。在扩展字典检索部分10中的每一块2-8等同于图2中相同数字代表的各块。
输入部分11从一文件或输入装置之类读入字符串并输出该输入字符串的编码字符串。
语法规则12提供输入文本的语法。通常的语法规则能用于这个语法规则12。
语法检验部分13判断由扩展字典检索部分10输出的形式元素串是否符合语法规则12。如果不符合,则语法检验部分13要求扩展字典检索部分10输出另一个候选者。语法检验部分13能使用通常的形式元素分析中使用的方法,如相邻矩阵法(method byadjecency matrix),或者能使用与文本内容无关的语法规则。
输出部分14输出在语法检验部分13判定符合规则的形式元素分析结果。
在本例中,从输入部分11输入的输入串不仅是一个词,而是一个句子。这里,输入串“(ta)(n)(go)(wo)(odo)(ru)”(见图7A)是来自输入部分11的输入,意思是“跳探戈舞”。
扩展字典检索部分10把输入字符串分成部分字符串,并调用字典检索部分8。在这种情况下,扩展字典检索部分10针对图7B中第1号至第6号所示每个字符串调用字典检索部分8。
字典检索部分8对每个字符串的字符串一部分检索转换词字典。当完成检索时,其检索结果被转送到语法检验部分13。
语法检验部分13与通常的形式元素分析类似,用语法规则12来核对送回来的词,并通过推进字符指针来继续形式元素分析。如果该形式元素串与语法规则12不符合,语法检验部分13要求字典检索部分8输出另一个候选者。结果,形式分析结果加上字典信息被输出到输出部分14。
如前所述,以具有例1所述字典检索装置的扩展字典部分来构成形式元素分析装置,便能够得到允许错误输入的形式元素分析装置。
在上述情况中,当输入字符串S被输入到字典检索部分8时,字典检索部分8便对输入字符串S检索字典中的词。然而,它能对字符串S=C1,C2,…,Cn的前部组成的部分字符串Si=C1,C2,…,Cn(i≤n)在字典中检索各个词。例3
利用上述例2中的形式元素分析装置能得到一个字符串校正装置,它改正句子中的错误字符或把不同的字体标准化。下面将描述这个字符串校正装置。
在图8中,形式元素组合部分15被置于语法检验闻分13和输出部分14之间。形式元素组合部分把语法检验部分13得到的形式元素分析结果组合起来,并把组合结果作为文本输出。例如,依次输出由语法检验部分得到的形式元素串的表示部分,便得到了一个文本。例4
利用上述例1中的字典检索部分作为一个字符识别后处理装置的扩展字典检索部分,能够减少该字符识别后处理装置中每个字符位置的候选字符数量,从而能提高其处理速度。
下面将参考图9描述字符识别后处理装置的一个实例。
一个识别字符的输入装置(如印刷字符阅读器、手写字符阅读器等)对被读字符串的每个字符指定一个候选字符集。输入部分11读取被输入装置指定了候选字符集的字符串并把它们输出到字典检索部分10。
一个形式元素判定部分16连接于语法检验部分13和输出部分14之间,它利用适当的评价函数确定多个形式元素分析候选者的候选级别(rank)并输出形式元素分析结果。
下面将描述本例的字符识别后处理的过程。
在这情况下,一个OCR(光学字符阅读器)读出图10所示字符“(ko)(n)(pi)(yu)(-)(ta)”。OCR识别字符串从而给出每个字符的候选字符级。结果,对每个读出字符指定了图10所示候选字符,并把这些候选字符输出到扩展字典检索装置10中。
输入字符串转换部分2使用字符一组ID转换部分3中的转换字符定义表把每个候选字符转换成组号。转换字符定义表4的内容示于图3。结果得到3组号
(1)、(2,7)、(3)、(1)、(4)、(5)
字典检索部分8由这些组号得到二个组号串“123145”和“173145”,并对这些组号串检索转换词字典。作为这一过程的结果,得到了包括词“(ko)(n)(pi)(yu)(-)(ta)”的候选者。这些候选者被输出到语法检验部分13。
当得到多个候选者时,语法检验部分13根据语法规则12进行形式元素分析。形式元素判定部分16使用适当的评价标准确定来自形式元素分析结果的多个形式元素分析候选者的候选级别,并向输出部分14输出形式元素分析候选者。
在上述例4中,由于把多个类似字符看作一组,因而在每个字符位置的候选字符是作为“组”来处理的。因而减少了在每个字符位置候选者的数目,因为候选字符组的数目要相对少于候选字符的数目。所以,所得到的字符识别后处理装置提高了它的处理速度。
在本例中,当候选字符数量减少至m’个组号串减少为k(≤m)组。然而,由于每组由Ni个字符元素组成,事实上存在
Figure C9410499800201
(≥m)个候选字符。所以,对于一个迄今不能检索出的正确词,当候选字符减少时便能够被本例以极大可能性检索出来。例5
在上述例1中的字典检索装置使用组号作为组ID。然而,能够使用适当的字符或名字来代替组号。
在本例中,例1的转换字符定义表(见图2的组分类由例如图2)所示内容代替。
在图11中,组号由代表字符所代替。这些代表字符是图2所示转换字符定义表中各组的每个成员字符的首字符。同样,在图2中的转换词字典7的组号也由这些代表字符代替。对于词“(ko)(n)(pi)(yu)(-)(ta)”给出组ID串“(ko)(so)(hi)(ko)(-)(ta)”。
本例的其他部分与例1的部分相似。而且这个字典检索装置能用于例2至例4的扩展字典检索部分10。例6
在例1和例5中的字典检索装置处,根据转换字符定义表4中相似字符的组分类,一个字符属于一个组。然而,允许一个字符Ci属于多个组也是可能的。
在本例中,例1的转换字符定义表4(见图2)的组分类由例如图12中所示内容代替。
在图12中,附上“*”号的字符“(ku)”是与字符“(gu)”、“(ta)”、“(da)”。组成的5号组的元素,同时也是与“(u)”、“(fu)”、“(7)”、“(1)”组成的6号组的元素。由于一个字符变成为多个组的元素,字符一组ID转换部分3便对一个字符串输出多个解。然而,通过把词“(gu)(ta)(da)”和“(u)(fu)(7)(1)”分类为彼此不相似的其他组,能够减少在转换词字典处相应于相似字符组号串的候选词数目。
本例的其他部他与例1中的相似。而且,这一字典检索装置能应用于例2至例4的扩展字典检索部分10。例7
在例1、例5和例6中的字典检索装置处,对每个字符给出一组或多组。在本例中,允许对字符串S=Ci、C1+1、…,Ci+l给出组IDg。
在本例中,使用字符串一组ID部分3’代替字符一组ID转换部分3。而且在例1的图3所示转换字符定义表4的组分类由例如图13所示内容代替。
在图13中,一个汉字“(ka)”、一对片假名“(ka)(ro)”和一对汉字“(ka)(kuchi)”被分类成组1。类似地,一个汉字“(jin)”、一对片假名“(i)(ni)”和一对片假名“i”和汉字“(ni)”被分类成组2,而一个汉字“(ketsuo)”、和一对汉字“(ito)(kichi)”被分类成组3。
Aho-Corasick方法能用作为进行字符串一组ID转换的一种方法(Aho,A.and Corasick,M:有效的串匹配:双语查询的一种辅助手段,CACM 18卷6期(1975))。
就是说,如图14所示造成一个图象核对自动装置,它依据字符串一组ID转换定义表4所定义的全部转换字符串来记忆核对过程半路上的各个步骤。当在自动装置的某一状态发生不符合时,便决定从半路上重新开始核对。通过在最后状态时对最后状态的转换定义其组ID,它被转换成了组ID。
通过定义如上述的转换字符定义表4,即使OCR之类字符识别处理装置读取图13中组1的一个汉字“(ka)”(加)时拆开成同一组中的二个片假名字符“(ka)”(力)和“(ko)”(口),或者在读同一组中的两个汉字“(riki)(力)”和“(kuchi)(口)”时合并成了同一组中的一个汉字字符“(ka)(加)”,字典检索也能正确地执行。
本例中的其他部分与例1中的相似。该字典检索装置能用于例2至例4的扩展字典检索部分10,而且更适用于例4中的字符识别后处理装置的扩展字典检索部分10。例8
在本例中,通过改进例7,使它允许对字符串S=Ci,Ci+1,…,Gi+l给出组ID串gj,gj+1,…,gj+k
在本例中,例1的图3所示转换字符定义表4的组发类由例如图15所示内容代替。
在图15中,组ID1被给予一个片假名“(ka)(力)”和一个汉字“(riki)(力)”,组ID 2被给予一个片假名“(ro)(口)”和一个汉字“(kuchi)(口)”,组ID 1和组ID 2都给予一个汉字“(ka)(加)”,组ID 3被给予一个片假名“(i)()”,组ID 4被给予一个片假名“(ni)(二)”和一个汉字“(ni)(二)”,组ID 3和4都给予一个汉字“(jin)(仁)”,组ID 5被给予一个片假名“(hi)(匕)”,而组ID 3和5被给予一个汉字“(ka)(化)”。
在本例中,与例7一样使用Aho-Corasick方法,然而,当处理过程达到最后状态时,转换成组ID串代替转换成组ID是可能的。
本例的其他部分与例1的相似。这个字典检索装置能应用于例2至例4的扩展字典检索部分10,而且最适于例4中字符识别后处理装置的扩展字典检索部分10。例9
在上述例1和例5至例8中,一个组ID或组ID串被给予一个字符或一个字符串。然然在本例中允许把一个组ID串gi,gj+1,…,gj+k给于一个任选的图象表达式(pattern expression)。
在本例中,使用字符串一组ID转换部分3′代替字符一组ID转换部分3。一个正规表达式转换用作为该字符串一组ID转换部分3′的一个实例。例1的图2所示转换字符定义表的组分类例如图16所示的内容代替。
在图15中,在“(e)(-)()(to)”中的“*”是一个后(meta)续符,它表示恰在其前面的字符继续0次,图象串“(e)(-)(to)”由正规表达式转换转换成组ID“4,101,20”。
在本例中,把图象串“(e)(-)(to)”,“(e)(-)(-)(to)”作为同一组处理是可能的。
在例的其他部分与例1有类似。本字典检索装置能应用于例2至例4的扩展字典检索部分10。
1.通过把一个词看作是由转换字符定义表定义的同一组字符集中的元素,使得迄今不能检索字典的词能够检索字典了。
2.所以,能对一个包括输入错误的报告正确地进行形式元素分析。
3.再有,能得到一个字符号校正装置,它能使这符串标准化和校正错误词。
4.通过处理字符识别处理装置输出的每个字符位置处的候选字符,在每个字符位置的候选组个数减少了,而且候选字符组合的个数减少了。所以,能得到一个字符识别后处理地装置,它的处理速度提高了。

Claims (9)

1.一种字典检索装置,用于转换从输入部分输入的字符串并向输出部分输出转换后的字符串,包括:
一个转换字符定义表,它是把字符集C={C1,C2,...,Cn}分类成一些子集(GiCC)构成的,并向每个子集提供组ID;
一个字符一组ID转换部分使用转换字符定义表把字符串的每个字符由组ID代替;
一个输入字符串转换部分调用字符一组ID转换部分,把从输入部分输入的输入字符串转换成输入组ID串;
一个词字典用于存贮在输入部分出现的有效部分字符串构成的词;
一个字典转换部分调用字符一组ID转换部分把在词字典中定义的每个词的表示字符串转换成表示组ID串;
一个转换词字典用于存贮由字典转换部分转换而成的词;以及
一个字典检索部分用于对在输入字符串转换部分转换的输入组ID串检索由表示组ID表示的转换词字典。
2.根据权利要求1的字典检索装置,其中的转换字符定义表提供一个组中字符的代表字符作为组ID;以及
转换词字典存贮该代表字符用以代替输入字符串的每个字符。
3.根据权利要求1的字典检索装置,其中的转换字符定义表允许一个字符Ci是多组中的元素,而字符一组ID转换部分则输出多个结果。
4.根据权利要求1的字典检索装置,其中的转换字符定义表允许对一个字符串S=Ci,Ci+1,...,Ci+l给出一个组IDg。
5.根据权利要求1的字典检索装置,其中的转换字符定义表允许对一个字符串S=Ci,Ci+1,...,Ci+l给出一个组ID串gj,gj+1,...,gj+l
6.根据权利要求1的字典检索装置,其中的转换字符定义表允许对所希望的图象表达式ei给出一个组ID串gj,gj+1,...,gj+l
7.一种用于使用权利要求1的字典检索装置作为扩展字典检索部分分析句子的形式元素分析装置,包括:
一个语法规则;以及
一个语法检验部分用于参照语法规则对字典检索结果进行形式元素分析,并将形式元素分析结果连同字典信息输出给输出部分。
8.一种使用权利要求7的形式元素分析装置的字符串校正装置,包括:
设置在语法检验部分和输出部分之间的形式元素组合部分,它通过把语法检验部分所作的形式元素分析结果进行组合来输出句子。
9.一种使用权利要求7的形式元素分析装置的字符识别用的后处理装置,包括:
设置在语法检验部分和输出部分之间的形式元素判定部分,这一部分使用适当的评估函数对于从语法检验部分得到的形式元素分析要所得到的多个形式元素分析候选者判定其候选级别,进而形式元素分析候选者送到输出部分。
CN94104998A 1993-07-19 1994-04-29 字典检索装置 Expired - Fee Related CN1095137C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP178209/93 1993-07-19
JP5178209A JPH0736882A (ja) 1993-07-19 1993-07-19 辞書検索装置

Publications (2)

Publication Number Publication Date
CN1097883A CN1097883A (zh) 1995-01-25
CN1095137C true CN1095137C (zh) 2002-11-27

Family

ID=16044492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94104998A Expired - Fee Related CN1095137C (zh) 1993-07-19 1994-04-29 字典检索装置

Country Status (4)

Country Link
US (1) US5615378A (zh)
JP (1) JPH0736882A (zh)
KR (1) KR970008023B1 (zh)
CN (1) CN1095137C (zh)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978421B1 (en) * 1994-06-19 2005-12-20 Mitsuhiro Aida Handwriting text input system
JP2773652B2 (ja) * 1994-08-04 1998-07-09 日本電気株式会社 機械翻訳装置
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
CN1100300C (zh) * 1996-10-16 2003-01-29 夏普公司 字符输入装置
US5907838A (en) * 1996-12-10 1999-05-25 Seiko Epson Corporation Information search and collection method and system
US5970449A (en) * 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001325252A (ja) * 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
KR20020018326A (ko) * 2000-09-01 2002-03-08 김시환 정보 검색 시스템과 그 방법
US20020093535A1 (en) * 2001-01-17 2002-07-18 Murphy Michael William User interface for character entry using a minimum number of selection keys
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US20030233237A1 (en) * 2002-06-17 2003-12-18 Microsoft Corporation Integration of speech and stylus input to provide an efficient natural input experience
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
JP3910894B2 (ja) * 2002-09-03 2007-04-25 株式会社コナミデジタルエンタテインメント サーバ装置及びプログラム
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US7634500B1 (en) 2003-11-03 2009-12-15 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US7848573B2 (en) * 2003-12-03 2010-12-07 Microsoft Corporation Scaled text replacement of ink
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
GB2419432A (en) * 2004-10-20 2006-04-26 Ibm A method and system for creating hierarchical classifiers of software components in natural language processing
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム
NO20052966D0 (no) * 2005-06-16 2005-06-16 Lumex As Monsterkodede ordboker
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7353332B2 (en) * 2005-10-11 2008-04-01 Integrated Device Technology, Inc. Switching circuit implementing variable string matching
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7783654B1 (en) 2006-09-19 2010-08-24 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US7860849B1 (en) 2007-01-18 2010-12-28 Netlogic Microsystems, Inc. Optimizing search trees by increasing success size parameter
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9031831B1 (en) * 2010-01-14 2015-05-12 Abbyy Development Llc Method and system for looking up words on a display screen by OCR comprising a set of base forms of recognized inflected words
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9195716B2 (en) * 2013-02-28 2015-11-24 Facebook, Inc. Techniques for ranking character searches
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108009276A (zh) * 2017-12-19 2018-05-08 北京云知声信息技术有限公司 字典搜索方法、系统及比较装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS595380A (ja) * 1982-06-30 1984-01-12 Sharp Corp 情報検索装置
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム

Also Published As

Publication number Publication date
CN1097883A (zh) 1995-01-25
KR950004036A (ko) 1995-02-17
JPH0736882A (ja) 1995-02-07
KR970008023B1 (ko) 1997-05-20
US5615378A (en) 1997-03-25

Similar Documents

Publication Publication Date Title
CN1095137C (zh) 字典检索装置
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1135485C (zh) 利用计算机系统的日文文本字的识别
CN1107283C (zh) 手写体输入字符识别的方法和设备
Springmann et al. OCR of historical printings with an application to building diachronic corpora: A case study using the RIDGES herbal corpus
CN101065746A (zh) 文件自动丰富的方法和系统
CN1819018A (zh) 有效语言识别
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
CN101067766A (zh) 输入法中取消字符串的方法及文字输入系统
WO2007086059A2 (en) Determining near duplicate 'noisy' data objects
CN1910573A (zh) 用来识别并分类命名实体的系统
CN112329447B (zh) 中文纠错模型的训练方法、中文纠错方法及装置
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
Krishnan et al. Towards a robust OCR system for Indic scripts
CN1123432A (zh) 机器翻译中的语法自纠正方法
CN101079268A (zh) 进行手语合成与显示的系统和方法
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
CN1554058A (zh) 借助多语文本输入的第三语言文本生成算法及其设备和程序
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20021127

Termination date: 20110429