CN101371252A - 字符处理装置、方法、程序以及存储介质 - Google Patents

字符处理装置、方法、程序以及存储介质 Download PDF

Info

Publication number
CN101371252A
CN101371252A CNA2007800028749A CN200780002874A CN101371252A CN 101371252 A CN101371252 A CN 101371252A CN A2007800028749 A CNA2007800028749 A CN A2007800028749A CN 200780002874 A CN200780002874 A CN 200780002874A CN 101371252 A CN101371252 A CN 101371252A
Authority
CN
China
Prior art keywords
character string
character
storage unit
probability
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800028749A
Other languages
English (en)
Other versions
CN101371252B (zh
Inventor
佐藤良治
石桥纪子
关美由纪
鹿子木宏明
梅冈孝史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101371252A publication Critical patent/CN101371252A/zh
Application granted granted Critical
Publication of CN101371252B publication Critical patent/CN101371252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种字符处理装置。所述字符处理装置具有短语辞典,当给出与短语辞典中记载的读法相同的读法的情况下,除了从单词辞典(110)取得的写法的节点,再加上将从短语辞典取得的写法作为旁路添加到词网格,使用词网格将单词读法的字符串转换为对应的写法的字符串。

Description

字符处理装置、方法、程序以及存储介质
技术领域
本发明涉及使用词网格将对于输入的多个单词的读法(例如平假名和罗马字母)的字符串转换为与读法对应的写法(汉字、混合了假名的汉字、英语字母等)的字符处理装置、方法、程序以及存储介质。
背景技术
以往已知有一种使用词网格进行假名汉字转换的方法。词网格就如非专利文献1中记载的那样,是一个将输入的多个读法或者与这些输入的读法对应的多个写法按照其连接顺序进行排列的网络。构成该网络的各个写法的每一个写法被称为节点。按照连接顺序排列的全部多个节点被称为路径。成为该节点的写法是参考单词辞典而获得的。单词辞典是由不同的多个记录构成的读法—写法转换辞典,一个记录中含有一个读法和与该读法对应的一个写法(也被称为词条)。
例如,给出“とつきよちよう”这样一个读法的话,就会通过CPU在假名汉字转换装置的存储器上生成具有:
路径1“とつきよ”(注:发音为Tokkyo的平假名字符串)→“町”(注:发音为Chou的汉字,意思是城镇);
路径2“とつきよ”→“厅”(注:发音为Chou的汉字,意思是办公室);
路径3“特許”(注:发音为Tokkyo的汉字字符串,意思是专利)→“庁”;
……\
等多个路径的词网格。
CPU参考语言辞典来取得各个路径上的连续的规定个数(通常,经常使用的个数是1-3个)的节点的出现概率,然后通过将一条路径上的所有节点的出现概率相乘来计算一条路径中的节点的出现概率。顺便介绍一下,语言辞典是由多个记录构成的辞典,一个记录中含有规定个数的写法的字符串与该字符串的出现概率。
用上述例子来说明的话,“とつきよ”、“町”、“A1”(出现概率的值)就成为了语言辞典的一个记录。
CPU反复进行上述处理过程,从而计算出词网格上所有路径的出现概率。CPU从计算出的多个出现概率中检测出最高的路径的概率。将具有最高出现概率的路径所表示的节点的连接(系列)决定为与给出的读法的字符串对应的最权威的假名汉字转换结果(非专利文献1)。
将被决定的最权威的假名汉字转换结果显示在显示器的显示画面上,在用户进行确定操作之后,将确定的假名汉字转换结果提交给文件处理装置(用于文字处理机的程序)。同时也将用户频繁使用的写法的字符串的使用频率反映到语言辞典的出现概率上。
在这种字符处理方法中,虽然把输入的读法的字符串转换为出现频率最高的写法,但有时也会有问题。例如,地名、公司名、谚语等表述、多个单词构成的短语等的写法都是预先规定的。可是,在统计式语言模型的开发中,一般是根据被称为语料库的统计资料的出现概率来计算某单词路径的出现概率的。但是,地名等专有名词和谚语等在语料库中出现的概率通常并不高,要把它们设定为可信概率是很困难的。因此,虽然有专有名词这类规定的写法,但用统计式计算的话,无法保证得到那样的转换结果。
在输入上述那样的短语的读法的情况下,由于用上述字符处理方法生成多条路径,并计算路径的出现概率,因此有时在初始的使用状态下,形成为与常用表述不同的假名汉字转换结果。
非专利文献1:http://www.jaist.ac.jp/~kshirai/lec/i223/07.pdf
非专利文献2:《一种强调N元的子集的固定短语的语言模型自适应方法》(电子信息通信学会论文集Vol.J86-D—II No12,2003年12月)
为此,本发明的目的在于提供一种字符处理装置、方法、程序以及存储介质,是使用词网格能够很好地兼顾到进行对常用短语的转换和对具有相同读法的短语以外的写法的转换。
另外,还有如下所述的这些以往技术。
1.将该专有名词等以长单位登录到辞典。这样一来,由于用一个词限制长范围,因此长的登录单词容易成为第1候补。
2.在对辞典/语法进行编译乃至执行假名汉字转换时,对辞典/语法给出的概率进行加权调整,就容易成为第1候补。(非专利文献2)
在第1种方法中,虽然容易出现第1候补,但是只在以该长范围打字时有效,因此存在不得不在该长范围生成候补一览表的问题。
在第2种方法中,必须进行复杂的计算,不存在实用性的方法。
发明内容
本发明没有采用这些以往的方法,而是像第1种方法那样具有仿佛长单词串仍然持有着由内部多个单词构成的信息且就是1个单词那样的推测辞典。然后以长单位进行匹配来计算路径的出现概率,在将转换结果的第1候补决定为想要的字符串之后,分割结构单词串,进行生成候补等后续处理。
详细来说,本发明的第1实施形态,是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置,其特征在于,具有:存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元;以作为转换对象的多个单词的读法的字符串来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的检索单元;将通过该检索单元的检索得到的多个短语的写法的字符串作为多个节点添加到所述词网格的第1信息处理单元;将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;存储所述多个短语的写法的出现概率的第3存储单元;以及根据所述第2存储单元和第3存储单元中存储的出现概率、取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的第2信息处理单元。
本发明的第2实施形态的特征在于,将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
本发明的第3实施形态,是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置的字符处理方法,其特征在于,所述字符处理装置具有:存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元;将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;存储所述多个短语的写法的出现概率的第3存储单元检索单元;以及第1信息处理单元和第2信息处理单元,所述字符处理方法通过所述检索单元以作为转换对象的多个单词的读法的字符串来检索所述短语辞典,取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串,还通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格,还通过所述第2信息处理单元,根据所述第2存储单元和第3存储单元中存储的出现概率,取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串,作为转换候补。
本发明的第4实施形态是如权利要求3所述的字符处理方法,其特征在于,将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
本发明的第5实施形态,是一种使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置用的字符处理程序,其特征在于,所述字符处理装置具有:存储将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并具有不同的多个记录的短语辞典的第1存储单元;将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;存储所述多个短语的写法的出现概率的第3存储单元;检索单元;以及第1信息处理单元和第2信息处理单元,所述字符处理程序具有:通过所述检索单元以作为转换对象的多个单词的读法的字符串来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的步骤;通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格的步骤;以及通过所述第2信息处理单元并根据所述第2存储单元和第3存储单元中存储的出现概率、取得作为节点添加了所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的步骤。
本发明的第6实施形态的特征在于,将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
本发明的第7实施形态的特征在于,存储了第5或第6实施形态中的程序。
附图说明
图1是表示本发明的实施形态的硬件结构的框图。
图2是表示本发明的实施形态的软件结构的框图。
图3是表示本发明的实施形态的字符处理过程的流程图。
图4是表示词网格的一个例子的说明图。
图5是表示添加了节点的词网格的说明图。
具体实施方式
以下参照附图对本发明的实施形态进行详细说明。
实施形态1
图1是表示实施形态1的字符处理装置的系统结构的一个例子。作为字符处理装置,可以使用通用的个人电脑、手机等具有信息处理功能的各种信息处理装置。
图1中,10是CPU,使用后述的字符处理程序来执行与本发明相关的字符处理。CPU10的功能是作为本发明的检索单元、第1和第2信息处理单元。
20是具有ROM和RAM的系统存储器,对CPU10的输入输出数据临时进行存储。
30是输入装置,可以使用例如键盘等输入读法的字符串的装置。除了键盘以外,也可以使用例如从存储了读法的字符串的存储介质中读取读法的字符串的数据读取装置、和通过通信从外部机器输入读法的字符串的通信装置来作为输入装置30。
40是硬盘(HD),存储了字符处理程序以及字符处理中使用的后述的辞典。硬盘40的功能是作为本发明的第1到第3存储单元。
50是显示器,显示通过字符处理程序所决定的编间候补。
图2是表示安装在图1的硬盘40上的软件的结构。
100是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理程序。110是单词辞典,跟以往一样,记载了多个不同的记录,一个记录中含有一个单词的读法的字符串和对应的写法的字符串。
120是语言辞典,记载了多个单词的写法和对应的出现概率。实施形态1中的语言辞典120可以是和以往相同的语言辞典。
130是本发明相关的短语辞典,对于常用的多个短语(例如地名、公司名等专有表述、谚语等),短语辞典130记载了不同的多个记录,一个记录中含有读法的字符串、写法的字符串和各短语的出现概率。
另外,在单词数量很少的情况下,将与短语辞典130所记载的短语的字符串相同的写法的字符串也记载到语言辞典120中。在这种情况下,希望注意预先将短语辞典130的出现概率设定为高于语言辞典120的出现概率。
实施形态1中存储了单词辞典110的硬盘40的作用是作为本发明的第2存储单元,存储了短语辞典130的硬盘40的作用是作为本发明的第1和第3存储单元。
图3是表示字符处理程序100中的本发明相关的程序部分的处理过程。图4和图5是为了便于理解而用网络的形态表示构造在系统存储器20上的词网格。
一面参照图3到图5,一面对字符处理装置的动作进行说明。
对从输入装置30输入作为读法的字符串的“とつきよちよう”、直到得到作为转换候补的“特許厅”为止的CPU10的处理内容进行说明。
在图3的步骤S10中,CPU10使用与以往相同的方法在系统存储器20上构造如图4所示的词网格。简单来说,CPU10用读法的字符串“とつきよ”检索单词辞典110,取得作为可能转换的写法的字符串的“とつきよ”、“トツキヨ”和“特許”。将取得的3个字符串分别存储到系统存储器20。然后,CPU10通过检索从单词辞典110取得与剩下的读法的字符串“ちよう”对应的可能转换的写法的字符串“ちよう”、“チヨウ”(发音为Chou的片假名字符串)、“町”……“庁”。
将取得的读法的字符串和之前刚刚取得的单词的写法的字符串相关联后存储到系统存储器20。作为相关联的方法,由于广为人知的有把存储了刚取得的写法的存储地址作为属性信息赋予取得的写法的方法、和以表的形态进行存储等方法,因此业内人员只要使用合适的方法就可以了。
这个例子是对2个单词输入读法的字符串的例子,但如果是输入3个以上的单词的情况下,以下,CPU10以单词为单位取得与读法的字符串对应的写法的字符串来构造词网格。
然后,CPU10进入图3中的步骤S20。此时,CPU10作为本发明的检索单元,用输入的读法的字符串,此时是“とつきよちよう”,对短语辞典130进行检索。通过该检索从短语辞典130得到短语的写法“特許厅”和它的出现概率A1。
过程进入步骤S30,CPU10将取得的短语的写法“特許”和“庁”作为节点如图5所示添加到系统存储器20上的词网格(参见图4)中。可以把取得的短语中的各个单词作为节点,也可以把整体作为节点。图5中的例子是把单词作为节点。另外,将由添加的节点构成的路径在本实施形态中称为旁路(标号1010)。为了区别于以往的路径,给予旁路1010显示其为旁路的属性信息。
过程进入S40,CPU10计算图5的词网格上的各路径的出现概率。在图5的例子中,由于第1路径是“とつきよ”→“チヨウ”,所以用“とつきよ”+“チヨウ”来检索语言辞典120,通过CPU10取得对应的出现概率B1。
这样一来,从语言辞典120取得关于通过单词辞典110取得节点的路径(图4)的出现概率。
由于在步骤S20从短语辞典130得到旁路1010上的节点“特許”和“厅”的出现概率A1,因此CPU10对各路径进行互相比较,比如使用称为排序的信息处理方法,检测出具有最高出现概率的路径。通过CPU10,将检测出的路径上的节点进行结合的写法的字符串作为对读法的字符串“とつきよちよう”所对应的转换候补,通过显示器50取得并显示(步骤S40)。之后,用户跟以往一样,使用输入装置30进行确定,或者给予CPU10转换的指示,取得用户所要的转换结果。
在本例中,在字符处理装置的初始使用状态下,对于“とつきよちよう”,用从短语辞典130取得的写法所构成的图5中的旁路1010具有最高的出现概率。因此,图5中的旁路1010上的节点(特許庁)被决定作为转换候补。
之后,如果用户频繁使用“特許厅”这个写法,则跟以往一样,更新语言辞典120上的“特許庁”对应的出现频率,使其变高,图5中的旁路1000上的节点(特許庁)被决定作为转换候补。
如果住在叫“特許町”的城镇的人使用这个字符处理装置来输入住址的话,则由于语言辞典120上记载的“特許町”的出现频率会随着用户的使用而更新,因此该用户输入“とつきよちよう”到字符处理装置的情况下会得到“特許町”的转换结果。
如上所述,通过将从短语辞典130取得的写法作为节点添加到词网格,可以解决以往的在初始的使用状态下常用表述不一定会成为转换结果的问题。
实施形态2
虽然在实施形态1中把短语的出现概率与读法的字符串和写法的字符串一起记载在短语辞典130中,但是也可以将出现概率记载在语言辞典120中,另外也可以记载在其它的辞典或表中。
以上所述的实施形态是为了说明本发明的例子。本发明的技术思想如权利要求的范围所示,根据这个技术思想,业内人员可以容易地理解存在着对上述实施形态的各种改良形态。
工业上的实用性
本发明通过将从短语辞典取得的单词的写法作为节点添加到词网格,可以改进以往在初始的使用状态下常用写法不会成为转换结果的问题。另外,由于根据使用频率,具有与常用写法相同的读法的常用写法以外的写法成为转换结果,因此可以得到很好地兼顾不同情况的转换结果。

Claims (7)

1.一种字符处理装置,是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置,其特征在于,具有:
将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并存储具有不同的多个记录的短语辞典的第1存储单元;
以多个单词的读法的字符串作为转换对象来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的检索单元;
将通过该检索单元的检索得到的多个短语的写法的字符串作为多个节点添加到所述词网格的第1信息处理单元;
将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;
存储所述多个短语的写法的出现概率的第3存储单元;以及
根据所述第2存储单元和第3存储单元中存储的出现概率、取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的第2信息处理单元。
2.如权利要求1所述的字符处理装置,其特征在于,
将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
3.一种字符处理装置的字符处理方法,是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置的字符处理方法,其特征在于,
所述字符处理装置具有:
将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并存储具有不同的多个记录的短语辞典的第1存储单元;
将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;存储所述多个短语的写法的出现概率的第3存储单元;
检索单元;以及
第1信息处理单元和第2信息处理单元,
所述字符处理方法通过所述检索单元以多个单词的读法的字符串作为转换对象来检索所述短语辞典,取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串,
通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格,
通过所述第2信息处理单元,根据所述第2存储单元和第3存储单元中存储的出现概率,取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串,作为转换候补。
4.如权利要求3所述的字符处理装置的字符处理方法,其特征在于,
将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
5.一种字符处理程序,是使用词网格将多个单词的读法的字符串转换为对应的多个写法的字符串的字符处理装置用的字符处理程序,其特征在于,
所述字符处理装置具有:
将多个短语的读法的字符串和对应的写法的字符串构成一个记录、并存储具有不同的多个记录的短语辞典的第1存储单元;
将多个单词的写法形成为一组、并存储多个组的出现概率的第2存储单元;
存储所述多个短语的写法的出现概率的第3存储单元;
检索单元;以及
第1信息处理单元和第2信息处理单元,
所述字符处理程序具有:
通过所述检索单元以多个单词的读法的字符串作为转换对象来检索所述短语辞典、并取得短语辞典中与该多个单词的读法的字符串有相同读法的字符串所对应的多个单词的写法的字符串的步骤;
通过所述第1信息处理单元将通过所述检索单元的检索得到的多个单词的写法的字符串作为多个节点添加到所述词网格的步骤;以及
通过所述第2信息处理单元并根据所述第2存储单元和第3存储单元中存储的出现概率、取得添加了作为节点的所述短语的写法的字符串的词网格上出现概率最高的路径上的写法的字符串作为转换候补的步骤。
6.如权利要求5所述的字符处理程序,其特征在于,
将所述第1存储单元作为第3存储单元来使用,在所述记录中包含了出现概率。
7.一种存储介质,其特征在于,
存储了权利要求5或权利要求6所述的程序。
CN2007800028749A 2006-01-31 2007-01-31 字符处理装置、方法、程序以及存储介质 Active CN101371252B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006022294A JP4845523B2 (ja) 2006-01-31 2006-01-31 文字処理装置、方法、プログラムおよび記録媒体
JP022294/2006 2006-01-31
PCT/JP2007/051622 WO2007088902A1 (ja) 2006-01-31 2007-01-31 文字処理装置、方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
CN101371252A true CN101371252A (zh) 2009-02-18
CN101371252B CN101371252B (zh) 2013-11-13

Family

ID=38327473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800028749A Active CN101371252B (zh) 2006-01-31 2007-01-31 字符处理装置、方法、程序以及存储介质

Country Status (4)

Country Link
JP (1) JP4845523B2 (zh)
CN (1) CN101371252B (zh)
TW (1) TW200821868A (zh)
WO (1) WO2007088902A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5626557B2 (ja) * 2009-12-04 2014-11-19 バイドゥ株式会社 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
JP2011210149A (ja) * 2010-03-30 2011-10-20 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
CN103455159A (zh) * 2012-05-30 2013-12-18 苏州卫生职业技术学院 运用于英语输入法中的英语字符串输入技术及实现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816910B2 (ja) * 1986-10-03 1996-02-21 株式会社リコー 言語解析装置
JPH06131326A (ja) * 1992-10-22 1994-05-13 Seiko Epson Corp かな漢字変換装置
JP2004118461A (ja) * 2002-09-25 2004-04-15 Microsoft Corp 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法

Also Published As

Publication number Publication date
JP2007206796A (ja) 2007-08-16
CN101371252B (zh) 2013-11-13
WO2007088902A1 (ja) 2007-08-09
TW200821868A (en) 2008-05-16
JP4845523B2 (ja) 2011-12-28

Similar Documents

Publication Publication Date Title
Bod An all-subtrees approach to unsupervised parsing
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
EP2542951B1 (en) System and method for inputting text into electronic devices
US7266491B2 (en) Statistically driven sentence realizing method and apparatus
Muis et al. Learning to recognize discontiguous entities
US20040111253A1 (en) System and method for rapid development of natural language understanding using active learning
US20060253273A1 (en) Information extraction using a trainable grammar
US9720903B2 (en) Method for parsing natural language text with simple links
CN106844348B (zh) 一种汉语句子功能成分分析方法
Babii et al. Modeling vocabulary for big code machine learning
JP2007012059A (ja) 文書プロセッサ
CN101371252B (zh) 字符处理装置、方法、程序以及存储介质
Kang et al. QueryBlazer: efficient query autocompletion framework
KR101417757B1 (ko) 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법
CN109815497A (zh) 基于句法依存的人物属性抽取方法
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
KR101359039B1 (ko) 복합명사 분석장치 및 복합명사 분석 방법
Lin et al. A multidimensional sequence approach to measuring tree similarity
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
CN102156693A (zh) 一种盲文输入方法和系统
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
Kuo et al. Morphological and syntactic features for Arabic speech recognition
JP4933741B2 (ja) 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体
JP2007018462A (ja) 機械翻訳装置、およびプログラム
JP3875510B2 (ja) 情報検索装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.