CN101512518A - 自然语言处理系统和词典登录系统 - Google Patents
自然语言处理系统和词典登录系统 Download PDFInfo
- Publication number
- CN101512518A CN101512518A CNA2007800333436A CN200780033343A CN101512518A CN 101512518 A CN101512518 A CN 101512518A CN A2007800333436 A CNA2007800333436 A CN A2007800333436A CN 200780033343 A CN200780033343 A CN 200780033343A CN 101512518 A CN101512518 A CN 101512518A
- Authority
- CN
- China
- Prior art keywords
- data
- dictionary
- dictionary data
- registration candidate
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 59
- 238000013519 translation Methods 0.000 claims description 29
- 230000005236 sound signal Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- 230000008676 import Effects 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 claims description 6
- 240000000220 Panda oleosa Species 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 3
- 230000008901 benefit Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013479 data entry Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种自然语言处理系统(10),包括:登录候选存储部分(32),其中存储登录候选词典数据;判断装置(22),将输入数据与所述登录候选词典数据进行比较由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;询问装置(23),如果判断出存在对应词则询问用户是否要将对应的词典数据登录到词典存储部分(31)中以接受用户的指令;词典登录装置(24),基于所输入的指令将对应的词典数据登录在词典存储部分中;以及自然语言处理装置(25),通过使用登录在所述词典存储部分中的词典数据对所述输入数据执行自然语言处理。
Description
技术领域
本发明涉及一种通过使用存储在词典中的语言信息对自然语言进行处理的技术,更具体地涉及一种能够容易地对词典进行更新的自然语言处理系统以及在这样的系统中使用的词典登录系统。
背景技术
诸如假名-日文汉字(kana-kanji)转换、机器翻译、话音识别和语音合成系统之类的自然语言处理系统基本上基于存储在词典中的词和其中所提供的语言信息进行处理。由此,难以对没有存储在词典中的词,即未知词,进行适当处理。在另一方面,由于自然语言每天都在发生变化,所以会出现新词甚至已知词的新用法,由此通常难以预先在词典中存储所有这些词。因此,迄今为止,已经通过为用户提供下面的词典功能来处理这一问题,即每个用户能够通过所述词典功能单独地登录每个用户所需要的词。
词典的登录操作是一项给用户带来很大负担的工作。出于此原因,已经提出了在用户之间共享每个用户所登录的词典数据的方法以便节约词典登录的成本。
例如,非专利文档1描述了一种在专用网页上向公众发布已更新词典或个体用户所准备的用户词典的方法,由此允许个体用户对其加以利用。然而,该技术存在的问题在于,除非用户在任意时间监视主页,否则个体用户无法直接得知对用户有用的词典是否公开发布。
专利公开1描述了一种技术,其中个体用户以截取(cross-sectional)的方式检查由其他用户所登录的词典数据,以便提取出在多个用户的用户词典中共同登录的词典数据,并且在所有用户的用户词典中将所提取的词典数据反映为该词典数据被共享。
专利公开2描述了一种提供了用于管理与特定技术术语词典相关联的个体用户词典的机制的技术,其中个体用户以截取的方式检查由用户在个体用户词典中登录的词典数据,以提取出在与相同技术术语词典相关联的多个用户词典中登录的词典数据,并且在技术术语词典中将所述词典数据反映为该词典数据被共享,由此允许在多个用户之间共享所述词典数据。
在以上技术中,如果将自动提取的词典数据登录到词典中,其可能更会导致针对特定用户的自然语言处理的精度降级。这是由于即使所提取的数据可能对大多数用户有用,但是所提取的数据并非总是对另一用户有用。这还因为包括不需要的词的词典数据的登录使得导致自然语言处理出现错判的概率增加。因此,专利公开2和专利公开3描述了立即向个体用户通知新的词典数据被登录到共用词典中并且询问用户是否使用该词典数据的技术。这些技术旨在通过立即向用户通知新的词典数据可用并且允许用户最终判断是否要使用该词典数据来防止将不适当的数据混入个体用户的词典中。
非专利文献1:NEC公司,“TRANSLATION ADAPTER-IICROSSROAD Ver.3 HANDBOOK”,1999,第134-135页
专利公开1:JP-3464881B
专利公开2:JP-2003-157257A
传统技术中的第一问题在于个体用户难以判断词典数据是有用的还是不需要的。这是因为用户无法判断用户当前并不使用的词的词典数据在包括可能性的将来是否有用。
第二个问题在于,虽然传统技术根据需要向用户通知词典数据并且询问是否要登录该词典数据,但是该事实本身就妨碍了用户的动作。这是因为在传统技术中执行通知和询问没有考虑接收通知和询问的用户的时间安排。
发明内容
本发明的一个目的是提供一种自然语言处理系统,其能够允许用户容易地判断是否存在对个体词典数据的需要。
本发明的另一个目的是提供一种自然语言处理系统,其能够通知和询问是否存在对词典数据的需要而不妨碍用户的动作。
本发明提供了一种自然语言处理系统,其对输入数据执行自然语言处理,包括:登录候选存储部分,其中存储登录候选词典数据;判断装置,将输入数据与所述登录候选词典数据进行比较,以判断所述输入数据是否包括与所述登录候选词典数据相对应的词;询问装置,如果所述判断装置判断出存在相对应的词,则所述询问装置询问用户是否要将登录候选词典数据登录到词典存储部分中,以由此接受用户的指令;词典登录装置,基于输入到所述询问装置的指令将登录候选词典数据登录在词典存储部分中;以及自然语言处理装置,通过使用登录在所述词典存储部分中的词典数据对所述输入数据执行自然语言处理。
本发明提供了一种词典登录系统,包括:登录候选存储部分,其中存储登录候选词典数据;判断装置,将输入数据与所述登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;询问装置,如果所述判断装置判断出存在相对应的词,则所述询问装置询问用户是否要将登录候选词典数据登录到词典存储部分中,以由此接受用户的指令;以及词典登录装置,基于输入到所述询问装置的指令将登录候选词典数据登录在词典存储部分中。
本发明提供了一种自然语言处理方法,包括:将输入数据与存储在存储单元中的登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;如果判断出存在相对应的词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户指令;基于输入指令将登录候选词典数据登录在词典中;并且通过使用登录在所述词典中的词典数据对输入数据执行自然语言处理。
本发明提供了一种词典登录方法,包括:将输入数据与存储在存储单元中的登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;如果判断出存在相对应的词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接收用户的指令;以及基于所输入的指令将登录候选词典数据登录在词典中。
本发明提供了一种编码有使中央处理单元(CPU)运行的计算机可读程序的记录介质,所述程序使得CPU执行以下处理:将登录候选词典数据存储在存储单元中;将输入数据与登录候选词典数据进行比较,由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;如果所述判断处理判断出存在相对应的词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;基于在所述询问处理中所输入的指令将登录候选词典数据登录在词典中;以及通过使用登录在所述词典中的词典数据对输入数据执行自然语言处理。
本发明提供了一种编码有使中央处理单元(CPU)运行的计算机可读程序的记录介质,所述程序使得CPU执行以下处理:存储登录候选词典数据;将输入数据与登录候选词典数据进行比较,并判断所述输入数据是否包括与所述登录候选词典数据相对应的词;如果所述判断处理判断出存在相对应的词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;以及基于在所述询问处理中所输入的指令将登录候选词典数据登录在词典中。
根据以下参考附图所进行的描述,本发明的以上和其它目的、特征和优势将变得更加显而易见。
附图说明
图1是示出依据本发明第一示例性实施例的自然语言处理系统的配置的框图。
图2是示出图1的自然语言处理系统的操作的流程图。
图3是示出依据本发明第二示例性实施例的词典登录系统的配置的框图。
图4是示出依据本发明第三示例性实施例的计算机系统的配置的框图。
图5是示出登录候选存储部分中的数据结构的示例的图。
图6是示出词典数据的登录的确认屏幕的示例的图。
图7是示出词典数据的登录的确认屏幕的示例的图。
具体实施方式
将参考附图对根据本发明第一示范性实施例的自然语言处理系统10进行详细描述。
参考图1,自然语言处理系统10包括诸如键盘和麦克风的输入单元1、在程序控制下进行操作的数据处理单元2、其中存储信息的存储单元3和诸如显示单元、打印机和扬声器的输出单元4。
存储单元3包括词典存储部分31和登录候选存储部分32。词典存储部分31在其中存储个体用户的词典,每个词典包括词和对应于所述词的语言信息。所述语言信息是后面描述的自然语言处理装置21参照以用于其自己的处理的信息并且包括假名符号、读取、翻译、部分语音、语义信息等。所述登录候选存储部分32在其中存储登录候选词典数据,其是要在每个用户词典中新登录的词典数据的候选。所述词典数据是词典中所登录的信息的最小单位,并且由词和对应于所述词的语言信息所构成。
数据处理单元2包括自然语言处理装置21、判断装置22、询问装置23和词典登录装置24。
自然语言处理装置21接受来自用户的输入,通过使用存储在词典存储部分31中的用户词典对输入数据执行自然语言处理,并且输出处理的结果。所述自然语言处理装置21所执行的自然语言处理例如是机器翻译处理和/或语音合成处理。机器翻译处理是将所输入的第一语言的字符串转换成第二语言的另一字符串的处理,而语音合成处理是将所输入的字符串转换成音频信号的处理。自然语言处理装置21在对所输入的数据执行自然语言处理之前将所输入的数据输出到判断装置22。自然语言处理装置21可以具有未知词检测功能,并且并非总是将输入数据输出到判断装置22,而是仅在输入数据中观察到未知词时将输入数据输出到判断装置22,以允许判断装置22随后进行操作。
判断装置22将从自然语言处理装置21输入的输入数据与存储在登录候选存储部分32中的词典数据的词进行比较,以检查输入数据是否包括与存储在登录候选存储部分32中的词典数据相对应的词(此后称为“对应词”)。如果在输入数据中找到对应词,则将与所述对应词相对应的登录候选词典数据(此后称为“对应词典数据”)输出到询问装置23。如果采用其中判断装置22仅在输入数据中找到未知词时才执行的配置,则所述配置可以是使得:在判断装置22检查输入数据中是否存在对应词时,仅在包括未知词的输入数据部分与词典数据中的词重叠时才判断出包括对应词。
询问装置23在输出单元4上显示从判断装置22输入的对应词典数据,由此询问用户是否要将对应词典数据登录在词典中。如果从输入单元1输入了显示“要登录”的输入,则询问装置23将对应的词典数据输出到词典登录装置24。另一方面,如果从输入单元1输入了显示无需登录的输入,则控制返回到自然语言处理装置21。要注意的是,如果从输入单元1输入了显示无需登录的输入,则该配置可以是使得:将对应词典数据以及处于登录对象之外的信息存储在登录候选存储部分32中,由此如果稍后将相同的登录数据存储在登录候选存储部分32中,则将相同的词典数据认为是处于登录对象之外。
词典登录装置24将从询问装置23所输入的对应词典数据登录在词典中,并且将控制返回到自然语言处理装置21。
接下来,将参考图1和图2的流程图对自然语言处理系统10的操作进行详细描述。
首先,一旦从输入单元接收到输入,自然语言处理装置21就在执行自然语言处理之前将这样输入的输入数据输出到判断装置22。一旦从自然语言处理装置21接收到输入数据,判断装置22就从登录候选存储部分32中提取出登录候选词典数据(图2中的步骤A1)。
接着,检查是否能够提取登录候选词典数据并且如果提取了所述词典数据则检查其是否处于登录对象之外,并接着检查是否存在要被登录在词典中的词典数据候选(步骤A2)。如果没有要被登录的词典数据候选,则自然语言处理装置21对输入数据执行自然语言处理,并且将其结果输出到输出单元4(步骤A2中判断为否,以及步骤A10)。
如果存在要被登录的词典数据候选,则判断装置22将输入数据与每个词典数据进行比较(步骤A3和A4)。如果输入数据中没有对应词,则自然语言处理装置21对输入数据执行自然语言处理,并且将其结果输出到输出单元4(步骤A4中判断为否,以及步骤A10)。
如果输入数据中包括对应词,则询问装置23在输出单元4上显示词典数据(对应词典数据),以询问用户是否要将该数据登录在词典中(步骤A5)。此后,从输入单元1接收对该询问的响应,并且检查是否有被通报为处于登录对象之外的对应词典数据(步骤A6)。如果有被通报为处于登录对象之外的对应词典数据,则询问装置23将词典数据以及处于登录对象之外的信息存储在登录候选存储部分32中(步骤A7)。
此后或者如果在步骤A6没有被通报为处于登录对象之外的词典数据,则检查是否有被通报为要被登录的对应词典数据(步骤A8)。如果有被通报为要被登录的对应词典数据,则词典登录装置23将所述词典数据登录在词典中(步骤A9)。
此后或者如果在步骤A8中没有被通报为要被登录的对应词典数据,则自然语言处理装置21通过使用存储在词典存储部分31中的词典对输入数据执行自然语言处理,并且将其结果输出到输出单元4(步骤A10)。
接下来,将描述该示例性实施例的优点。
在该示例性实施例中,该配置使得:与词典数据相关的通知和询问仅在被输入到自然语言处理装置21的输入数据包括与所要登录的词典数据相对应的词时才执行。
因此,用户根据用户所输入的输入数据的上下文来判断仅具有使用可能性的词典数据的可用性,从而容易执行是否存在其需要的判断。此外,用户能够在对用户所输入的输入数据执行自然语言处理的一系列工作内判断是否需要词典数据,从而能够判断是否需要词典数据而不会妨碍动作。
接下来,将参考附图对根据本发明第二示例性实施例的词典登录系统11进行详细描述。由于词典登录系统11通过自然语言处理系统10的需要将词典数据登录在词典中的一部分配置,所以其与自然语言处理系统10相同的部分的描述在此将省略并且由相同的附图标记来相同它。
参考图3,词典登录系统11包括与自然语言处理装置21的未知词检测功能相对应的未知词取得装置25,代替图1中的自然语言处理装置21。
从输入单元1输入的输入数据是诸如事先为词典登录处理所准备的文本之类的数据,而不是作为自然语言处理的对象的数据。
输出单元4仅被用于询问是否需要登录对应词典数据,并且用于对所述询问进行响应。
接下来,将参考附图对根据本发明第三优选实施例的计算机系统12进行详细描述。
参考图4,与本发明的第一示例性实施例类似,计算机系统12包括输入单元1、数据处理单元6、存储单元3和输出单元4。
自然语言处理程序5被读入数据处理单元6,控制数据处理单元6的操作,并且在存储单元3中生成词典存储部分31和登录候选存储部分32。由于自然语言处理取得程序5的控制,数据处理单元6执行与第一示例性实施例中的数据处理单元2所进行的处理相同的处理。
词典登录处理程序7可以被读入数据处理单元6代替自然语言登录处理程序5,其执行与第二示例性实施例中的数据处理单元2所进行的处理相同的处理。
接下来,将参考附图对本发明的第一示例进行描述。该示例对应于本发明的第一示例性实施例。此后,将特别假设自然语言处理装置21执行机器翻译处理的情形。
该示例包括作为输入单元1的键盘、作为数据处理单元2的个人计算机、作为数据存储单元3的磁盘驱动单元以及作为输出单元4的显示器。
所述个人计算机包括起自然语言处理装置21、判断装置22、询问装置23和词典登录装置24的功能的中央处理单元,以及起词典存储部分31和登录候选存储部分32的功能的存储区域被保护在所述磁盘驱动单元中。
这里,假设图5所示的词典数据作为登录候选存储在登录候选存储部分32中的情形。在图5中,以表格形式示出了配置登录候选的词典数据的内容,其中每行配置单独的一条词典数据。例如,第一行表示包括日文“基因”、英文“基因”和语音片断“名词”的一条词典数据。其第四列中存储了该词典数据是否处于登录对象之外的信息。这里“-”意味着还没有完成其是否处于登录对象之外的检查,而“对象之外”意味着该词典数据在过去通过后面描述的检查所指定的。更具体地,图5示出了“基因”还没有被检查,并且“基因诊断”具有过去传送是否需要对其进行登录的询问并且接收了作为询问结果的无需进行登录的指令的历史。
本发明中的处理在用户向自然语言处理装置21输入了作为处理对象的输入数据之后开始操作。这里,假设用户输入了作为输入数据的句子“这样的基因被称为转位子”。
在对输入数据执行机器翻译处理之前,所述中央处理单元从登录候选存储部分32中提取出配置登录候选的词典数据以由此检查其内容。例如,通过从图5所示的登录候选存储部分32中提取词典数据并且检查示出登录对象之外的列,断定“基因诊断”的词典数据处于登录对象之外而“基因”和“转位子”是未检查的候选。
接下来,中央处理单元将作为自然语言处理对象输入的词典数据与从登录候选存储部分32中所提取的登录候选词典数据进行比较,以检测输入数据包括字符串(对应词),即该词典数据中的“转位子”。随后,中央处理单元在输出单元4上显示所述词典数据(对应词典数据)“转位子”,以询问用户是否要将其进行登录。
图6示出了对用户进行询问的屏幕的示例。如果用户选上单选按钮51,即“登录”“转位子”,并按压“执行”按钮54,则中央处理单元将词典数据“转位子”登录在词典中,并且删除登录候选存储部分32中的词典数据“转位子”。另一方面,如果用户选上单选按钮52,即“不登录”,并按压“执行”按钮54,则所述中央处理单元在登录候选存储部分32中写入信息,该信息在词典数据“转位子”中示出“处于登录对象之外”的列中表示其处于“对象之外”。如果用户选择单选按钮53“保留”或“取消”按钮55,则既不执行词典登录也不执行登录候选存储部分32的更新。此外,可以添加“临时使用”按钮,其中所述系统进行操作使得所显示的词典数据不登录在字典中以不同于永久数据那样使用它,而是登录在临时词典中以便仅在仅对输入数据进行自然语言处理时使用它。
图6示出了被用作指示是否要执行登录的用户接口的单选按钮的示例;然而,可以使用如图7所示的复选框56。在图7的情况下,该配置可以是使得复选框56被选上的词典数据进行与在选择单选按钮51“登录”的情况下所执行的处理类似的处理,而复选框没有被选上的词典数据则进行与在图6中选择单选按钮52“不登录”的情况下所执行的处理类似的处理。
此后,中央处理单元对所输入的处理对象执行翻译处理并且将其结构输出到输出单元4。
给出了执行输入数据与词典数据的比较的示例。然而,该配置可以是使得首先对输入数据进行自然语言处理,以检测“转位子”或其部分是未知词,并且随后仅在判断出未知词部分与从登录候选存储部分32提取的词典数据“转位子”重叠时询问用户是否要执行登录。
根据本实施例的自然语言处理系统,由于仅在输入到所述自然语言处理装置的输入数据包括与所要登录的词典数据相对应的词时才执行关于词典数据的通知和询问,所以用户足以根据用户所输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够容易地判断是否需要个体词典数据。
此外,由于用户能够在执行与用户所输入的输入数据相关的自然语言处理的一系列工作内判断是否需要词典数据,所以可以执行是否需要登录的通知和询问而不会妨碍用户的动作。
在一个示例性实施例的自然语言处理系统中,配置可以是使得自然语言处理装置具有未知词检测功能,其判断输入数据是否包括未知词,并且如果所述自然语言处理装置检测到输入数据中所包括的未知词,则判断装置开始操作。
在一个示例性实施例的自然语言处理系统中,配置可以是使得如果所述自然语言处理装置检测到输入数据中所包括的未知词,则判断装置将包括所述未知词的输入数据的部分与登录候选词典数据进行比较,以判断包括未知词的所述部分中是否存在对应词。
根据以上示例性实施例的自然语言处理系统,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中所包括的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而获得未知词的词典登录的优势。
在一个示例性实施例的自然语言处理系统中,所述自然语言处理装置可被配置成仅通过使用登录在词典中的词典数据对输入数据执行自然语言处理。
在一个示例性实施例的自然语言处理系统中,所述自然语言处理装置可被配置为将第一语言的字符串转换成第二语言的字符串的机器翻译装置,或者将输入字符串转换为音频信号的语音合成装置。
根据该示例性实施例的自然语言处理系统,由于仅在用户所输入的输入数据包括与所要登录的词典数据相对应的词时才执行关于词典数据的通知和询问,所以足以使用户根据用户输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够容易地判断是否需要个体词典数据。
根据一个示例性实施例的词典登录系统可以包括判断输入数据是否包括未知词的未知词检测装置,其中所述判断装置在所述未知词检测装置检测到输入数据中包括的未知词时开始操作。
一个示例性实施例的词典登录系统可以是使得:如果所述未知词检测装置检测到输入数据中包括的未知词,则判断装置将包括所述未知词的输入数据的部分与登录候选词典数据进行比较,由此来判断包括未知词的所述部分中是否存在对应词。
根据以上词典登录系统,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中存在的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而最大程度地获得未知词的词典登录的优势。
在一个示例性实施例的词典登录系统中,所述词典数据可以是在将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,或者在将输入字符串转换为音频信号的语音合成处理中使用的词典数据。
在一个示例性实施例的词典登录系统中,所述词典数据可以是在将输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,在将输入的假名字符串转换为假名-日文汉字混合字符串的假名-日文汉字转换处理中使用的词典数据,或者在将输入的音频信号转换为字符串的话音识别处理中使用的词典数据,其中所述判断装置在将输入数据与登录候选词典数据相比较时可以将输入数据和作为转换的结果存储在所述登录候选词典数据中的字符串进行比较,由此判断是否存在对应词。
根据该示例性实施例的自然语言处理方法,仅在用户输入的输入数据包括与所要登录的词典数据相对应的词时才执行与所述词典数据相关的通知和询问,所以足以使用户根据用户输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够容易地判断是否需要个体词典数据。
此外,由于用户能够在对用户输入的输入数据执行自然语言处理的一系列工作中判断是否需要词典数据,所以可执行对于是否需要词典数据的通知和询问而不会妨碍用户的动作。
一个示例性实施例的自然语言处理方法可具有以下配置,其中如果判断出输入数据包括未知词,则在判断输入数据是否包括未知词时,将输入数据与登录候选词典数据进行比较,由此判断输入数据中是否存在对应词。
在一个示例性实施例的自然语言处理方法中,配置可以是使得:如果判断出输入数据包括未知词,则将包括未知词的输入数据的部分与登录候选词典数据进行比较,由此判断在包括未知词的所述部分中是否存在对应词。
根据以上示例性实施例的自然语言处理方法,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中存在的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而获得未知词的词典登录的优势。
在一个示例性实施例的自然语言处理方法中,自然语言处理可仅使用存储在词典中的词典数据。
在一个示例性实施例的自然语言处理方法中,自然语言处理可以是将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理,或者将输入的字符串转换为音频信号的语音合成处理。
根据该示例性实施例的词典登录方法,由于仅在用户输入的输入数据包括要登录的词典数据中的对应词时才执行与所述词典数据相关的通知和询问,所以足以使用户根据用户输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够轻易判断是否需要个体词典数据。
一个示例性实施例的词典登录方法可包括判断输入数据是否存在未知词,并且如果判断出输入数据包括未知词,则将输入数据与登录候选词典数据进行比较,由此判断输入数据中是否存在对应词。
在一个示例性实施例的词典登录方法中,可包括:如果判断出输入数据包括未知词,则将包括所述未知词的输入数据的部分与登录候选词典数据进行比较,由此判断在包括所述未知词的部分中是否存在对应词。
根据以上示例性实施例的词典登录方法,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中存在的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而最大程度地获得未知词的词典登录的优势。
在一个示例性实施例的词典登录方法中,所述词典数据可以是在将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,或者在将输入字符串转换为音频信号的语音合成处理中使用的词典数据。
在一个示例性实施例的词典登录方法中,所述词典数据可以是在将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,在将输入的假名字符转换为假名-日文汉字混合字符串的假名-日文汉字转换处理中使用的词典数据,或者在将输入的音频信号转换为字符串的话音识别处理中使用的词典数据,其中输入数据与登录候选词典数据的比较将输入数据和作为转换的结果存储在登录候选词典数据中的字符串进行比较,由此判断是否存在对应词。
在一个示例性实施例的编码有自然语言处理程序的介质中,计算机进行操作以使得仅在用户输入的输入数据包括要登录的词典数据中的对应词时才执行与所述词典数据相关的通知和询问,所以足以使用户根据用户输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够轻易判断是否需要个体词典数据。
此外,由于用户能够在对用户输入的输入数据执行自然语言处理的一系列工作中判断是否需要词典数据,所以可执行对于是否需要词典数据的通知和询问而不会妨碍用户的动作。
一个示例性实施例的编码有自然语言处理程序的介质中,配置可以是使得自然语言处理功能包括判断在输入数据是否包括未知词的功能,并且如果自然语言处理功能判断出输入数据包括未知词,则允许计算机执行判断处理。
一个示例性实施例的编码有自然语言处理程序的介质可以是使得:如果自然语言处理功能判断出输入数据包括未知词,则判断处理将包括所述未知词的输入数据的部分与登录候选词典数据进行比较,由此判断包括所述未知词的部分中是否包括对应词。
根据以上示例性实施例的编码有自然语言处理程序的介质,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中存在的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而最大程度地获得未知词的词典登录的优势。
在一个示例性实施例的编码有自然语言处理程序的介质中,所述自然语言处理功能可仅使用登录在词典中的词典数据来执行自然语言处理。
在一个示例性实施例的编码有自然语言处理程序的介质中,所述自然语言处理功能可以是将第一语言的字符串转换成第二语言的另一字符串的机器翻译功能,或者将输入的字符串转换为音频信号的语音合成功能。
根据该示例性实施例的编码有词典登录程序的介质,计算机进行执行以使得仅在用户输入的输入数据包括与要登录的词典数据相对应的词时才执行与所述词典数据相关的通知和询问,所以足以使用户根据用户输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
因此,用户能够轻易判断个体词典数据的可用性。
在一个示例性实施例的编码有词典登录程序的介质中,配置可以是使得计算机执行判断输入数据是否包括未知词的未知词检测处理,以及如果所述未知词检测处理判断出输入数据包括未知词的情况下执行判断处理。
在一个示例性实施例的编码有词典登录程序的介质中,配置可以是使得:如果自然语言处理检测到输入数据中包括的未知词,则判断处理将包括所述未知词的输入数据的部分与登录候选词典数据进行比较,由此判断包括所述未知词的部分中是否包括对应词。
根据以上示例性实施例的编码有词典登录程序的介质,由于仅在输入数据包括未知词的关键情况下才执行关于输入数据中包括的对应词的通知和询问,所以用户能够仅通过对较少数量的询问进行响应而获得未知词的词典登录的优势。
在一个示例性实施例的编码有词典登录程序的介质中,所述词典数据可以是在将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,或者在将输入的字符串转换为音频信号的语音合成处理中使用的词典数据。
在一个示例性实施例的编码有词典登录系统的介质中,所述词典数据可以是在将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,在将输入的假名字符转换为假名-日文汉字混合字符串的假名-日文汉字转换处理中使用的词典数据,或者在将输入的音频信号转换为字符串的话音识别处理中使用的词典数据,其中输入数据与登录候选词典数据的比较将输入数据和作为转换的结果存储在登录候选词典数据中的字符串进行比较,由此判断是否存在对应词。
如之前所描述的,本发明的优选实施例的第一个优点在于用户能够轻易判断是否需要个体词典数据。这是因为仅在用户输入到自然语言处理装置中的输入数据包括与要登录的词典数据相对应的词时才执行关于所述词典数据的通知和询问。这允许用户根据其输入的输入数据的上下文来仅判断具有被用户使用的可能性的词典数据的可用性。
第二个优点在于可执行对于是否需要词典数据的通知和询问而不会妨碍用户的动作。这是因为仅在用户输入到自然语言处理装置中的输入数据包括要登录的词典数据时才执行通知和询问。这允许用户在对用户输入的输入数据执行自然语言处理的一系列工作中判断是否需要词典数据。
本发明可应用于一种程序,其在计算机中实现将第一语言的字符串转换为第二语言的另一字符串的机器翻译装置,以及将输入的字符串转换为音频信号的语音合成装置。
在以上示例中,示例化了一种配置,其中在用户输入作为自然语言处理的对象的数据时开始操作。然而,其还可应用于一种程序,所述程序用于在计算机上实现一种词典准备辅助装置,其通过采用下面的配置帮助准备在自然语言处理中使用的词典:通过输入不是自然语言处理的直接对象的数据,诸如具有在将来配置自然语言处理的对象的可能性的文档,开始操作。此外,其将来可应用于一种程序,所述程序通过采用其中通过输入作为自然语言处理的结果获得的文档而开始操作以将输入数据与作为自然语言处理的结果存储在词典数据中的字符串进行比较的配置在计算机上实现在诸如机器翻译处理、假名-日文汉字转换处理和话音识别处理之类的自然语言处理中使用的词典准备辅助装置。
该申请基于于2006年9月7日提交的日本专利申请No.2006-242519并要求其优先权权益,其公开内容全文通过引用结合于此。
Claims (30)
1.一种对输入数据执行自然语言处理的自然语言处理系统,包括:
登录候选存储部分(32),其中存储登录候选词典数据;
判断装置(22),将所述输入数据与所述登录候选词典数据进行比较,以判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
询问装置(23),如果所述判断装置判断出存在所述对应词,则所述询问装置(23)询问用户是否要将所述登录候选词典数据登录到词典存储部分(31)中,以由此接受用户的指令;
词典登录装置(24),基于输入到所述询问装置的所述指令将所述登录候选词典数据登录在所述词典存储部分中;以及
自然语言处理装置(21),通过使用登录在所述词典存储部分中的所述词典数据对所述输入数据执行自然语言处理。
2.如权利要求1所述的自然语言处理系统,其中:
所述自然语言处理装置(21)包括检测所述输入数据中包括的未知词的未知词检测功能;以及
如果所述自然语言处理装置检测到所述输入数据中包括的未知词,则所述判断装置(22)开始操作。
3.如权利要求2所述的自然语言处理系统,其中如果所述自然语言处理装置(21)检测到所述输入数据中包括的所述未知词,则所述判断装置(22)将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断在包括所述未知词的所述部分中是否存在所述对应词。
4.如权利要求1至3中任一项所述的自然语言处理系统,其中所述自然语言处理装置(21)通过仅使用登录在所述词典存储部分(31)中的词典数据对所述输入数据执行所述自然语言处理。
5.如权利要求1至4中任一项所述的自然语言处理系统,其中所述自然语言处理装置(21)包括将第一语言的字符串转换成第二语言的另一字符串的机器翻译装置,和/或将输入的字符串转换为音频信号的语音合成装置。
6.一种词典登录系统,包括:
登录候选存储部分(32),其中存储登录候选词典数据;
判断装置(22),将输入数据与所述登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
询问装置(23),如果所述判断装置判断出存在所述对应词,则所述询问装置(23)询问用户是否要将所述登录候选词典数据登录到词典存储部分(31)中,以接受用户的指令;以及
词典登录装置(24),基于输入到所述询问装置的所述指令将所述登录候选词典数据登录在所述词典存储部分中。
7.如权利要求6所述的词典登录系统,进一步包括检测所述输入数据中包括的未知词的未知词检测装置(25),其中:
如果所述未知词检测装置检测到所述输入数据中包括的未知词,则所述判断装置(22)开始操作。
8.如权利要求7所述的词典登录系统,其中如果所述未知词检测装置(25)检测到所述输入数据中包括的未知词,则所述判断装置(22)将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
9.如权利要求6至8中任一项所述的词典登录系统,其中:
所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,和/或在将输入的字符串转换为音频信号的语音合成处理中使用的词典数据。
10.如权利要求6至8中任一项所述的词典登录系统,其中:
所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,在将输入的假名字符串转换为假名-日文汉字混合的字符串的假名-日文汉字转换处理中使用的词典数据,和/或在将输入的音频信号转换为字符串的话音识别处理中使用的词典数据;以及
在将所述输入数据与所述登录候选词典数据相比较时,所述判断装置(22)将所述输入数据与作为转换结果存储在所述登录候选存储部分(31)中的所述登录候选数据的字符串进行比较,以由此判断是否存在所述对应词。
11.一种自然语言处理方法,包括:
将输入数据与存储在存储单元中的登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
如果判断出存在所述对应词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;
基于所输入的指令将所述登录候选词典数据登录在所述词典中;以及
通过使用登录在所述词典中的所述词典数据对所述输入数据执行自然语言处理。
12.如权利要求11所述的自然语言处理方法,进一步包括:
判断所述输入数据是否包括未知词;以及
在判断出所述输入数据包括未知词后,将包括所述未知数据的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
13.如权利要求12所述的自然语言处理方法,进一步包括在判断出所述输入数据包括未知词后将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
14.如权利要求11至13中任一项所述的自然语言处理方法,其中所述自然语言处理仅使用存储在所述词典中的所述词典数据。
15.如权利要求11至14中任一项所述的自然语言处理方法,其中所述所述自然语言处理包括将第一语言的字符串转换成第二语言的另一字符串的机器翻译处理,和/或将输入的字符串转换为音频信号的语音合成处理。
16.一种词典登录方法,包括:
将输入数据与存储在存储单元中的登录候选词典数据进行比较,以由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
如果判断出存在所述对应词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;以及
基于所输入的指令将所述登录候选词典数据登录在所述词典中。
17.如权利要求16所述的词典登录方法,进一步包括:
判断所述输入数据是否包括未知词;以及
如果判断出所述输入数据包括未知词,则将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
18.如权利要求17所述的词典登录方法,其中如果判断出所述输入数据包括未知词,则将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
19.如权利要求16至18中任一项所述的词典登录方法,其中所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,和/或在将输入的字符串转换为音频信号的语音合成处理中使用的词典数据。
20.如权利要求16至18中任一项所述的词典登录方法,其中:
所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译处理中使用的词典数据,在将所输入的假名字符串转换为假名-日文汉字混合的字符串的假名-日文汉字转换处理中使用的词典数据,和/或在将输入的音频信号转换为字符串的话音识别处理中使用的词典数据;以及
对所述输入数据和所述登录候选词典数据的所述比较将所述输入数据和作为转换结果存储在所述登录候词典数据中的字符串进行比较,以由此判断是否存在所述对应词。
21.一种编码有使得中央处理单元(CPU)进行操作的计算机可读程序的记录介质,所述计算机可读程序使得所述CPU执行以下处理:
将登录候选词典数据存储在存储单元中;
将输入数据与所述登录候选词典数据进行比较,并且由此判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
如果所述判断处理判断出存在所述对应词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;
基于在所述询问处理中输入的指令将所述登录候选词典数据登录在所述词典中;
通过使用登录在所述词典中的所述词典数据对所述输入数据执行自然语言处理。
22.如权利要求21所述的介质,其中:
所述自然语言处理包括判断所述输入数据是否包括未知词;以及
如果所述自然语言处理判断出所述输入数据包括未知词,则所述程序使得所述CPU执行所述判断操作。
23.如权利要求22所述的介质,如果所述自然语言处理判断出所述输入数据包括未知词,则所述判断处理将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
24.如权利要求21至23中任一项所述的介质,其中所述自然语言处理通过仅使用存储在所述词典中的所述词典数据对所述输入数据执行所述自然语言处理。
25.如权利要求21至24中任一项所述的介质,其中所述自然语言处理具有将第一语言的字符串转换成第二语言的另一字符串的机器翻译功能,和/或将输入的字符串转换为音频信号的语音合成功能。
26.一种编码有使得中央处理单元(CPU)进行操作的计算机可读程序的记录介质,所述计算机可读程序使得所述CPU执行以下处理:
存储登录候选词典数据;
将输入数据与所述登录候选词典数据进行比较,并且判断所述输入数据是否包括与所述登录候选词典数据相对应的词;
如果所述判断处理判断出存在所述对应词,则询问用户是否要将所述登录候选词典数据登录到词典中,以接受用户的指令;以及
基于在所述询问处理中输入的指令将所述登录候选词典数据登录在所述词典中。
27.如权利要求26所述的介质,进一步使得所述CPU执行判断所述输入数据是否包括未知词的处理,其中:
如果所述未知词检测处理检测到所述输入数据中包括的所述未知词,则所述程序使得所述CPU执行所述判断处理。
28.如权利要求27所述的介质,其中,如果所述未知词检测处理检测出所述输入数据中包括的所述未知词,则所述判断处理将包括所述未知词的所述输入数据的部分与所述登录候选词典数据进行比较,以由此判断包括所述未知词的所述部分中是否存在所述对应词。
29.如权利要求26至28中任一项所述的介质,其中所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译功能中使用的词典数据,和/或在将输入的字符串转换为音频信号的语音合成功能中使用的词典数据。
30.如权利要求26至28中任一项所述的介质,其中:
所述词典数据包括在将所输入的第一语言的字符串转换成第二语言的另一字符串的机器翻译功能中使用的词典数据,在将所输入的假名字符串转换为假名-日文汉字混合的字符串的假名-日文汉字转换功能中使用的词典数据,和/或在将输入的音频信号转换为字符串的话音识别功能中使用的词典数据;以及
其中,在将所述输入数据与所述登录候选词典数据进行比较时,所述判断处理将所述输入数据与作为转换结果存储在所述登录候选词典数据中的字符串进行比较,以由此判断是否存在所述对应词。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006242519 | 2006-09-07 | ||
JP242519/2006 | 2006-09-07 | ||
PCT/JP2007/067416 WO2008029881A1 (fr) | 2006-09-07 | 2007-09-06 | Système de traitement du langage naturel et système d'enregistrement de dictionnaire |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101512518A true CN101512518A (zh) | 2009-08-19 |
CN101512518B CN101512518B (zh) | 2015-06-24 |
Family
ID=39157306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200780033343.6A Active CN101512518B (zh) | 2006-09-07 | 2007-09-06 | 自然语言处理系统和词典登录系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9575953B2 (zh) |
JP (1) | JP5239863B2 (zh) |
CN (1) | CN101512518B (zh) |
WO (1) | WO2008029881A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462071A (zh) * | 2013-09-19 | 2015-03-25 | 株式会社东芝 | 语音翻译设备和语音翻译方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575953B2 (en) * | 2006-09-07 | 2017-02-21 | Nec Corporation | Natural-language processing system and dictionary registration system |
JP2009099056A (ja) * | 2007-10-18 | 2009-05-07 | Panasonic Corp | 文字列受信装置、文字列転送装置、文字列送受信システム、コンテンツ受信端末向けシステムlsi、名簿共有システム、名簿共有方法およびコンテンツ推薦方法 |
JP5335227B2 (ja) * | 2007-12-10 | 2013-11-06 | 京セラ株式会社 | 情報端末装置 |
KR101711941B1 (ko) * | 2012-12-14 | 2017-03-03 | 한국전자통신연구원 | 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법 |
JP6447068B2 (ja) * | 2014-12-05 | 2019-01-09 | カシオ計算機株式会社 | 情報処理装置、情報表示方法及びプログラム |
KR102117082B1 (ko) | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR102166446B1 (ko) * | 2018-09-28 | 2020-10-15 | 우석대학교 산학협력단 | 음성을 이용한 키워드 추출 방법 및 서버 |
US11250872B2 (en) * | 2019-12-14 | 2022-02-15 | International Business Machines Corporation | Using closed captions as parallel training data for customization of closed captioning systems |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5840684A (ja) * | 1981-09-04 | 1983-03-09 | Hitachi Ltd | 自然言語間の自動翻訳方式 |
GB2199170A (en) * | 1986-11-28 | 1988-06-29 | Sharp Kk | Translation apparatus |
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
JP2836159B2 (ja) * | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
JPH03268062A (ja) * | 1990-03-19 | 1991-11-28 | Fujitsu Ltd | 機械翻訳電子メール装置における私用単語の登録装置 |
JPH0594436A (ja) * | 1990-10-10 | 1993-04-16 | Fuji Xerox Co Ltd | 文書処理装置 |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5742834A (en) * | 1992-06-24 | 1998-04-21 | Canon Kabushiki Kaisha | Document processing apparatus using a synonym dictionary |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JPH06314274A (ja) * | 1993-04-28 | 1994-11-08 | Toshiba Corp | 文書作成装置及び文書情報入力方法 |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
JPH07175813A (ja) * | 1993-10-27 | 1995-07-14 | Ricoh Co Ltd | 複合通信処理装置 |
JPH07182465A (ja) * | 1993-12-22 | 1995-07-21 | Hitachi Ltd | 文字認識方法 |
TW274135B (zh) * | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
KR970701886A (ko) * | 1994-11-21 | 1997-04-12 | 다떼이시 요시오 | 복수의 클라이언트 장치에 공유되는 데이터베이스 시스템, 데이터 갱신방법 및 문자 처리장치에의 응용(Data base system shared by a plurality of client apparatuses, data updating method and application to character processor) |
JPH08167006A (ja) * | 1994-12-13 | 1996-06-25 | Canon Inc | 自然言語処理装置及びその方法 |
US5649221A (en) * | 1995-09-14 | 1997-07-15 | Crawford; H. Vance | Reverse electronic dictionary using synonyms to expand search capabilities |
JPH09114828A (ja) * | 1995-10-20 | 1997-05-02 | Sanyo Electric Co Ltd | 変換候補の優先順位情報の更新方法 |
JPH09161014A (ja) * | 1995-12-13 | 1997-06-20 | Oki Electric Ind Co Ltd | 文字認識装置 |
JP3254642B2 (ja) * | 1996-01-11 | 2002-02-12 | 株式会社日立製作所 | 索引の表示方法 |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
JPH10260984A (ja) * | 1997-03-19 | 1998-09-29 | Toshiba Corp | 辞書管理方法および辞書管理装置および辞書利用システム |
JP3464881B2 (ja) | 1997-03-25 | 2003-11-10 | 株式会社東芝 | 辞書構築装置および方法 |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US6507678B2 (en) * | 1998-06-19 | 2003-01-14 | Fujitsu Limited | Apparatus and method for retrieving character string based on classification of character |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US7254531B2 (en) * | 2000-09-05 | 2007-08-07 | Nir Einat H | In-context analysis and automatic translation |
JP2002108858A (ja) * | 2000-09-20 | 2002-04-12 | Internatl Business Mach Corp <Ibm> | 機械翻訳方法、機械翻訳装置および記録媒体 |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
US7254530B2 (en) * | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
JP3838904B2 (ja) | 2001-11-22 | 2006-10-25 | 沖電気工業株式会社 | 辞書装置及び自然言語処理システム |
JP4650920B2 (ja) * | 2002-04-16 | 2011-03-16 | 富士通株式会社 | 情報処理装置及び情報処理プログラム |
KR100530154B1 (ko) * | 2002-06-07 | 2005-11-21 | 인터내셔널 비지네스 머신즈 코포레이션 | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 |
US7016895B2 (en) * | 2002-07-05 | 2006-03-21 | Word Data Corp. | Text-classification system and method |
US7548863B2 (en) * | 2002-08-06 | 2009-06-16 | Apple Inc. | Adaptive context sensitive analysis |
JP4355138B2 (ja) * | 2002-12-13 | 2009-10-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳サーバ、コラボレーションサーバ及びプログラム |
US7437296B2 (en) * | 2003-03-13 | 2008-10-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation apparatus and information search apparatus |
US20070174041A1 (en) * | 2003-05-01 | 2007-07-26 | Ryan Yeske | Method and system for concept generation and management |
CN100429648C (zh) * | 2003-05-28 | 2008-10-29 | 洛昆多股份公司 | 一种文本自动分块的方法、分块器和文本到语言合成系统 |
JP4652737B2 (ja) * | 2004-07-14 | 2011-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
CN100568230C (zh) * | 2004-07-30 | 2009-12-09 | 国际商业机器公司 | 基于超文本的多语言网络信息搜索方法和系统 |
JP4570509B2 (ja) * | 2005-04-22 | 2010-10-27 | 富士通株式会社 | 読み生成装置、読み生成方法及びコンピュータプログラム |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
JP2007206975A (ja) * | 2006-02-01 | 2007-08-16 | Toshiba Corp | 言語情報変換装置及びその方法 |
US7899664B2 (en) * | 2006-05-22 | 2011-03-01 | Sharp Kabushiki Kaisha | Information processing apparatus, computer, information processing system, information processing method, and program for receiving a character string and returning conversion candidates |
US9575953B2 (en) * | 2006-09-07 | 2017-02-21 | Nec Corporation | Natural-language processing system and dictionary registration system |
-
2007
- 2007-09-06 US US12/310,773 patent/US9575953B2/en active Active
- 2007-09-06 CN CN200780033343.6A patent/CN101512518B/zh active Active
- 2007-09-06 JP JP2008533198A patent/JP5239863B2/ja active Active
- 2007-09-06 WO PCT/JP2007/067416 patent/WO2008029881A1/ja active Search and Examination
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462071A (zh) * | 2013-09-19 | 2015-03-25 | 株式会社东芝 | 语音翻译设备和语音翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
US20090281786A1 (en) | 2009-11-12 |
CN101512518B (zh) | 2015-06-24 |
US9575953B2 (en) | 2017-02-21 |
JP5239863B2 (ja) | 2013-07-17 |
JPWO2008029881A1 (ja) | 2010-01-21 |
WO2008029881A1 (fr) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101512518A (zh) | 自然语言处理系统和词典登录系统 | |
CN104603772B (zh) | 移动电子设备及移动电子设备中的方法和系统 | |
Lommatzsch | A next generation chatbot-framework for the public administration | |
US10579733B2 (en) | Identifying codemixed text | |
CN105183761B (zh) | 敏感词替换方法和装置 | |
US9824085B2 (en) | Personal language model for input method editor | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN101876878A (zh) | 单词预测输入系统及方法 | |
CN101416181A (zh) | 在线预测文本词典 | |
CN101669116A (zh) | 用于生成亚洲语字符的识别体系结构 | |
CN104380284A (zh) | 针对多种语言处理内容的语音合成 | |
KR20070058635A (ko) | 시각적 텍스트 통역을 위한 전자 디바이스 및 방법 | |
AU2021238965B2 (en) | Speech recognition and training for data inputs | |
CN110785762B (zh) | 用于编写电子消息的系统和方法 | |
US20040044422A1 (en) | System and method for intelligent text input | |
KR102383810B1 (ko) | 챗봇을 이용한 다국어 지원 시스템 및 방법 | |
Oudah et al. | Person name recognition using the hybrid approach | |
EP1540452B1 (en) | System and method for intelligent text input in a mobile device | |
Pakray et al. | An hmm based pos tagger for pos tagging of code-mixed indian social media text | |
JP2004145732A (ja) | 音声識別支援漢字入力システムおよび方法 | |
US8232901B2 (en) | Determining an alternative character string | |
JP2011070532A (ja) | 情報処理装置及び文字変換方法 | |
US20240354517A1 (en) | Systems and methods for detecting sensitive text in documents | |
JP2008217770A (ja) | 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム | |
HaCohen-Kerner et al. | Improved Language Models for Word Prediction and Completion with Application to Hebrew |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |